MoE架构 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里开源电影级视频生成模型通义万相2.2

7月28日，阿里开源电影级视频生成模型通义万相2.2。该模型单次可生成5秒高清视频，包含文生视频、图生视频和统一视频生成三款模型。其中，文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型，总参数量27B，激活参数14B，由高噪声专家模型和低噪声专家模型组成，分别负责视频布局与细节优化，在同参数规模下节省约50%计算资源。这一发布展现了阿里在AI视频生成领域的技术突破。（记者黄心怡）

原文链接

虚拟织梦者

07-28 21:20:36

MoE架构

视频生成模型

通义万相

分享至

打开微信扫一扫

内容投诉

生成图片

上海AI公司开源模型登上全球第二

6月17日，上海AI公司MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1，在权威评测榜单位列全球开源模型第二。M1支持100万token上下文输入，输出长度达8万token，性能和性价比均表现突出。此后4个工作日，MiniMax接连推出视频生成模型Hailuo 02、智能体产品及音色设计工具。Hailuo 02在物理世界规律理解方面表现出色，生成的“猫跳水”视频动作逻辑清晰，已在Instagram获3亿流量。MiniMax坚持基座模型研发，采用MoE架构、线性注意力机制及CISPO强化学习方法，实现高效能低成本突破。作为大模型‘上海队’一员，MiniMax与商汤、阶跃星辰等共同推动AI产业发展。

原文链接

DreamCoder

07-03 07:50:43

Hailuo 02

MiniMax-M1

MoE架构

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯发布并开源混元-A13B模型：极端条件仅1张中低端GPU卡即可部署

2025年6月27日，腾讯正式发布并开源混元-A13B大模型，该模型基于专家混合（MoE）架构，总参数800亿、激活参数130亿，在数学推理和逻辑任务上表现优异，甚至在极端条件下仅需1张中低端GPU即可部署。用户可通过Github、HuggingFace等平台下载使用。模型支持快慢两种思考模式，兼顾效率与准确性，适用于智能体应用及复杂指令响应，预训练数据达20万亿词元，优化了计算资源分配，为个人开发者和中小企业提供高效解决方案。

原文链接

数字墨迹

06-27 17:17:05

MoE架构

混元-A13B模型

腾讯

分享至

打开微信扫一扫

内容投诉

生成图片

业界首个：腾讯混元-A13B 模型发布并开源，极端条件 1 张中低端 GPU 卡即可部署

2023年6月27日，腾讯混元大模型家族发布新成员——混元-A13B模型并开源。该模型是业界首个13B级别的MoE混合推理开源模型，总参数达800亿，激活参数130亿，可在极端条件下仅用1张中低端GPU卡部署。模型通过MoE架构提升推理效率与计算性能，支持快慢两种思考模式，适用于不同任务需求。同时，腾讯开源了两个新数据集ArtifactsBench和C3-Bench，用于代码评估和Agent场景测试。在数学、科学和逻辑推理任务中表现优异，已在GitHub和腾讯云上线。

原文链接

AI思维矩阵

06-27 17:10:33

MoE架构

开源模型

腾讯混元-A13B

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

标题：Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B 刚刚，Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking，兼具多模态和推理能力。该模型基于MoE架构，总参数16B，但推理时仅激活2.8B。与Qwen2...

原文链接

AI创想团

04-10 13:47:48

Kimi-VL

MoE架构

多模态推理

分享至

打开微信扫一扫

内容投诉

生成图片

Llama 4发布：我看到了DeepSeek的影子

Llama 4发布：拥抱新架构与多模态融合 Meta发布了Llama 4系列，没有再强调参数量的绝对优势，而是推出了三款针对性的模型：Scout、Maverick和Behemoth。Scout（109B参数）适合单卡部署，支持长上下文任务；Maverick（400B参数）性能媲美GPT-4o，推...

原文链接

E-Poet

04-06 16:06:56

Llama4

MoE架构

多模态

分享至

打开微信扫一扫

内容投诉

生成图片

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

3月10日，字节跳动豆包大模型团队宣布开源一项针对MoE架构的优化技术COMET，该技术可将大模型训练效率提升1.7倍，成本节省40%。COMET已应用于字节的万卡集群训练，累计节省数百万GPU小时。此前，豆包团队发布的UltraMem稀疏架构已大幅降低模型推理成本。目前，COMET的核心代码已开源，并计划兼容Triton等编译生态。

原文链接

Oasis

03-10 18:50:46

COMET

MoE架构

字节跳动

分享至

打开微信扫一扫

内容投诉

生成图片

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

标题：4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛 DeepSeek-R1广受关注，但推理服务器常宕机，专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版，因671B参数的MoE架构对显存要求极高，即便用8卡A100也难负荷。近期...

原文链接

智能维度跳跃

02-12 13:26:11

DeepSeek-R1

KTransformers

MoE架构

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek有四点我蛮佩服

标题：DeepSeek的四点值得称赞技术：采用非主流的MoE架构，展现独立思考能力。开源及时且全面，不藏私。定价：大幅降低中国AI服务费用，减轻用户负担。营销：策略巧妙，类似华为的操盘手法。运营：资金来自炒股收入，未进行融资。

原文链接

智能视野

01-25 15:58:57

DeepSeek

MoE架构

定价

分享至

打开微信扫一扫

内容投诉

生成图片

豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模型数据”

标题：豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模型数据” 正文：春节前，字节推出了全新基础模型——Doubao-1.5-pro，具备“演技精湛”的真人级语音对话功能。该模型基于MoE架构，仅用较小激活参数就能达到世界一流模型性能，性能杠杆达7倍。数据生产体系高度自主，不依赖...

原文链接