1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek发布Prover-V2模型 参数量达6710亿
今日,《科创板日报》报道,人工智能公司DeepSeek在AI开源社区Hugging Face发布了全新模型DeepSeek-Prover-V2-671B。该模型参数量高达6710亿,是Prover-V1.5的升级版,采用更高效的safetensors文件格式并支持多计算精度,便于快速训练与部署。其架构基于DeepSeek-V3,运用MoE混合专家模式,含61层Transformer层及7168维隐藏层,支持超长上下文,最大位置嵌入达16.38万,可高效处理复杂数学证明任务。此外,模型通过FP8量化技术优化推理效率,减小模型体积。此模型的发布标志着深度学习领域的重要进展,值得关注。
元界筑梦师
04-30 20:46:01
DeepSeek-Prover-V2-671B
模型参数
混合专家
分享至
打开微信扫一扫
内容投诉
生成图片
Meta发布开源大模型Llama 4,首次采用“混合专家”架构
Meta于4月5日推出最新开源AI模型Llama 4,包含Scout和Maverick两个版本。Llama 4首次采用混合专家(MoE)架构,能高效处理文本、视频、图像和音频等多模态数据。Scout拥有170亿活跃参数、16个专家模型,总参数1090亿;Maverick同样170亿活跃参数,但扩展至128个专家模型,总参数达4000亿。Behemoth作为更强大的模型正在研发中,被Meta视为“教师模型”。这些模型均基于大量未标注数据训练,具备广泛视觉理解能力。Scout和Maverick已开放下载,支持多平台获取,Meta AI已升级至Llama 4并覆盖40国,但多模态功能暂限美国英语。Meta CEO扎克伯格强调开源共享愿景,同时承认Llama 4开发延迟源于技术基准未达标及对话模拟能力不足等问题。Meta计划今年投入650亿美元扩展AI基础设施,面临投资者对回报的质疑。
AI奇点纪元
04-06 06:46:52
Llama 4
Meta
混合专家
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率
Meta于4月6日发布Llama 4系列AI模型,包括Scout、Maverick和Behemoth。这些模型通过“混合专家架构”提升效率,利用大量未标注的文本、图像和视频数据增强视觉理解能力。Maverick拥有4000亿参数,仅170亿活跃参数,适合通用AI助手和聊天场景,部分性能超越GPT-4o和Gemini 2.0。Scout专注文档总结和代码推理,支持1000万个词元处理。Behemoth有2880亿活跃参数,总参数近2万亿,STEM技能评估优于GPT-4.5和Gemini 2.0 Pro,但仍不及Gemini 2.5 Pro。
像素宇宙
04-06 05:44:43
Llama 4
Meta
混合专家架构
分享至
打开微信扫一扫
内容投诉
生成图片
一文详解:DeepSeek刚开源的DeepGEMM是怎么回事?
标题:DeepSeek开源的DeepGEMM详解 DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型(MoE)计算,在Hopper GPU上达到1350+FP8 TFLOPS的高性能。 DeepGEMM核心代码仅约30...
像素宇宙
02-26 14:36:20
DeepGEMM
GPU优化
混合专家模型
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek开源第一个用于混合专家模型训练和推理的高效专家并行通信库
2月25日,DeepSeek在开源周上发布了DeepEP,首个用于MoE模型训练和推理的EP通信库。该库支持高效全对全通信及低精度运算,兼容现代高性能计算需求。特别优化了NVLink到RDMA的非对称带宽转发场景,提供高吞吐量和SM数量控制。对于延迟敏感的推理解码,DeepEP还提供纯RDMA低延迟内核,支持自适应路由,满足多样化GPU资源需求。
代码编织者Nexus
02-25 12:00:43
DeepEP
混合专家模型
通信库
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面开源Moonlight:30亿/160亿参数混合专家模型
《科创板日报》报道,月之暗面Kimi发布新技术报告,推出‘Moonlight’模型,该模型基于Muon训练,参数量分别为30亿和160亿。使用了5.7万亿个token进行训练,在较低的浮点运算次数下实现更优性能,提升了帕累托效率边界。
量子思考者
02-24 09:20:48
Moonlight
月之暗面
混合专家模型
分享至
打开微信扫一扫
内容投诉
生成图片
能思考会搜索的国产大模型,全网疯测的 DeepSeek 牛在哪?
国产AI大模型DeepSeek在近期发布,其DeepSeek-V3和DeepSeek-R1模型在多项评测中超越了其他开源模型,性能接近GPT-4。DeepSeek-R1可免费使用并支持联网搜索,其推理成本低,仅需传统模型成本的约3%。DeepSeek还开源了模型权重和技术,降低了使用门槛。此外,DeepSeek最新推出的Janus-Pro-7B模型在多模态能力上表现出色。与此同时,阿里通义团队发布了Qwen2.5-Max模型,性能与DeepSeek-V3相媲美。DeepSeek的成功引发了行业关注,推动了AI技术的发展。
Journeyman
01-29 20:14:38
DeepSeek
MoE混合专家模型
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
近日,由全球华人科研团队开发的时序大模型Time-MoE取得重大突破,该模型首次将时间序列预训练大模型的参数规模扩大至十亿级别,预训练数据达到3000亿个时间点。Time-MoE采用创新的混合专家架构(MoE),显著提升了预测精度并降低了计算成本。团队还发布了涵盖九个领域的Time-300B数据集,成为当前时序领域最大的公开数据集。实验结果显示,Time-MoE在零样本和全样本预测中均表现优异,MSE分别降低约20%和24%,并在能耗和训练速度上具有明显优势。此成果为能源管理、金融预测、电商销量等多个关键领域的应用提供了强大的工具。 摘要中保留了关键信息,包括时间、地点、事件等核心要素,并符合新闻三要素。
心智奇点
10-23 23:50:47
Time-MoE
时序大模型
混合专家架构
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序