1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
美团发布并开源混合专家模型:5600亿参数 只激活5%就有奇效
正文:2025年9月1日,美团发布并开源了LongCat-Flash-Chat AI模型,采用混合专家架构,总参数量达5600亿,但仅激活5%即可实现高效性能。该模型在智能体任务、推理速度及成本控制上表现突出,尤其适合复杂场景应用。其创新的“零计算专家”机制和跨层通道设计优化了算力分配与训练效率,在H800 GPU上实现100+ tokens/s推理速度,输出成本低至5元/百万token。基准测试中,LongCat-Flash在多项指标中名列前茅,例如ArenaHard-V2得分86.50,MMLU得分89.71,并在智能体工具使用和编程任务中超越更大规模模型。美团已提供SGLang和vLLM两种部署方案,代码以MIT License开源,用户可自由用于研究或蒸馏新模型。详情见其官方资源及相关页面。
LunarCoder
09-01 13:18:39
LongCat-Flash-Chat
混合专家模型
美团
分享至
打开微信扫一扫
内容投诉
生成图片
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
7月28日,据IT之家报道,智谱AI计划于今晚开源其GLM-4.5系列新模型。知情人士向新浪科技确认了这一消息。根据此前modelscope/ms-swift代码库的commit记录,GLM-4.5系列预计将采用全新的混合专家(MoE)结构,是一款多模态可扩展大模型,包含GLM-4.5(355B-A32B)和GLM-4.5-Air(106B-A12B)两款版本。该模型支持高吞吐推理、工具调用解析、分布式负载均衡等功能,并具备文本、图像、视觉扩展等多模态处理能力。此次发布可能为AI领域带来技术革新,引发广泛关注。
AI奇点纪元
07-28 16:20:04
开源模型
智谱GLM-4.5
混合专家结构
分享至
打开微信扫一扫
内容投诉
生成图片
智谱 GLM-4.5 系列 AI 模型踪迹曝光,预估采用新混合专家架构
7月25日,智谱AI模型GLM-4.5系列踪迹曝光,预计采用全新混合专家(MoE)架构,定位为多模态可扩展大模型。该系列包括GLM-4.5(355B-A32B)和GLM-4.5-Air(106B-A12B)两款模型,支持文本、图像、视觉扩展等多模态功能。新架构具备高吞吐推理、分布式负载均衡、工具调用解析等特性,并新增推理解析器与多token预测能力。相关代码与特性已在modelscope/ms-swift代码库中显示,或成AI领域新突破。
未来编码者
07-25 14:26:13
GLM-4.5
智谱
混合专家架构
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek发布Prover-V2模型 参数量达6710亿
今日,《科创板日报》报道,人工智能公司DeepSeek在AI开源社区Hugging Face发布了全新模型DeepSeek-Prover-V2-671B。该模型参数量高达6710亿,是Prover-V1.5的升级版,采用更高效的safetensors文件格式并支持多计算精度,便于快速训练与部署。其架构基于DeepSeek-V3,运用MoE混合专家模式,含61层Transformer层及7168维隐藏层,支持超长上下文,最大位置嵌入达16.38万,可高效处理复杂数学证明任务。此外,模型通过FP8量化技术优化推理效率,减小模型体积。此模型的发布标志着深度学习领域的重要进展,值得关注。
元界筑梦师
04-30 20:46:01
DeepSeek-Prover-V2-671B
模型参数
混合专家
分享至
打开微信扫一扫
内容投诉
生成图片
Meta发布开源大模型Llama 4,首次采用“混合专家”架构
Meta于4月5日推出最新开源AI模型Llama 4,包含Scout和Maverick两个版本。Llama 4首次采用混合专家(MoE)架构,能高效处理文本、视频、图像和音频等多模态数据。Scout拥有170亿活跃参数、16个专家模型,总参数1090亿;Maverick同样170亿活跃参数,但扩展至128个专家模型,总参数达4000亿。Behemoth作为更强大的模型正在研发中,被Meta视为“教师模型”。这些模型均基于大量未标注数据训练,具备广泛视觉理解能力。Scout和Maverick已开放下载,支持多平台获取,Meta AI已升级至Llama 4并覆盖40国,但多模态功能暂限美国英语。Meta CEO扎克伯格强调开源共享愿景,同时承认Llama 4开发延迟源于技术基准未达标及对话模拟能力不足等问题。Meta计划今年投入650亿美元扩展AI基础设施,面临投资者对回报的质疑。
AI奇点纪元
04-06 06:46:52
Llama 4
Meta
混合专家
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率
Meta于4月6日发布Llama 4系列AI模型,包括Scout、Maverick和Behemoth。这些模型通过“混合专家架构”提升效率,利用大量未标注的文本、图像和视频数据增强视觉理解能力。Maverick拥有4000亿参数,仅170亿活跃参数,适合通用AI助手和聊天场景,部分性能超越GPT-4o和Gemini 2.0。Scout专注文档总结和代码推理,支持1000万个词元处理。Behemoth有2880亿活跃参数,总参数近2万亿,STEM技能评估优于GPT-4.5和Gemini 2.0 Pro,但仍不及Gemini 2.5 Pro。
像素宇宙
04-06 05:44:43
Llama 4
Meta
混合专家架构
分享至
打开微信扫一扫
内容投诉
生成图片
一文详解:DeepSeek刚开源的DeepGEMM是怎么回事?
标题:DeepSeek开源的DeepGEMM详解 DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型(MoE)计算,在Hopper GPU上达到1350+FP8 TFLOPS的高性能。 DeepGEMM核心代码仅约30...
像素宇宙
02-26 14:36:20
DeepGEMM
GPU优化
混合专家模型
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek开源第一个用于混合专家模型训练和推理的高效专家并行通信库
2月25日,DeepSeek在开源周上发布了DeepEP,首个用于MoE模型训练和推理的EP通信库。该库支持高效全对全通信及低精度运算,兼容现代高性能计算需求。特别优化了NVLink到RDMA的非对称带宽转发场景,提供高吞吐量和SM数量控制。对于延迟敏感的推理解码,DeepEP还提供纯RDMA低延迟内核,支持自适应路由,满足多样化GPU资源需求。
代码编织者Nexus
02-25 12:00:43
DeepEP
混合专家模型
通信库
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面开源Moonlight:30亿/160亿参数混合专家模型
《科创板日报》报道,月之暗面Kimi发布新技术报告,推出‘Moonlight’模型,该模型基于Muon训练,参数量分别为30亿和160亿。使用了5.7万亿个token进行训练,在较低的浮点运算次数下实现更优性能,提升了帕累托效率边界。
量子思考者
02-24 09:20:48
Moonlight
月之暗面
混合专家模型
分享至
打开微信扫一扫
内容投诉
生成图片
能思考会搜索的国产大模型,全网疯测的 DeepSeek 牛在哪?
国产AI大模型DeepSeek在近期发布,其DeepSeek-V3和DeepSeek-R1模型在多项评测中超越了其他开源模型,性能接近GPT-4。DeepSeek-R1可免费使用并支持联网搜索,其推理成本低,仅需传统模型成本的约3%。DeepSeek还开源了模型权重和技术,降低了使用门槛。此外,DeepSeek最新推出的Janus-Pro-7B模型在多模态能力上表现出色。与此同时,阿里通义团队发布了Qwen2.5-Max模型,性能与DeepSeek-V3相媲美。DeepSeek的成功引发了行业关注,推动了AI技术的发展。
Journeyman
01-29 20:14:38
DeepSeek
MoE混合专家模型
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序