1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
2025年10月,KTransformers项目论文入选计算机系统顶会SOSP 2025,并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发,是一款高性能异构推理框架,专注于CPU+GPU协同执行,显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制(Expert Deferral),使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合,为开发者提供更灵活的硬件选择。目前,KTransformers已在GitHub获得15.2K Star,被多个主流大模型及厂商推荐使用,致力于推动算力普惠与AI基础设施的普及。
数码游侠
10-23 10:01:08
KTransformers
MoE模型
异构推理
分享至
打开微信扫一扫
内容投诉
生成图片
2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型,将于近期开源
9月11日,2025外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构扩散语言模型LLaDA-MoE。该模型在约20T数据上完成训练,性能超越此前稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,接近自回归模型Qwen2.5-3B-Instruct,并具备数倍推理速度优势。模型通过非自回归掩码扩散机制,挑战“语言模型必须自回归”的主流认知,在代码、数学等任务中表现优异。蚂蚁集团表示,模型及自研推理框架将于近期完全开源,推动全球AI社区技术发展。此外,蚂蚁将持续投入AGI领域,探索基于dLLM的未来突破路径。
数据炼金师
09-12 10:08:55
LLaDA-MoE
开源
扩散语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
Journeyman
09-12 07:06:19
混合注意力机制
通义Qwen3-Next
高稀疏度MoE结构
分享至
打开微信扫一扫
内容投诉
生成图片
阿里开源电影级视频生成模型通义万相2.2
7月28日,阿里开源电影级视频生成模型通义万相2.2。该模型单次可生成5秒高清视频,包含文生视频、图生视频和统一视频生成三款模型。其中,文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B,由高噪声专家模型和低噪声专家模型组成,分别负责视频布局与细节优化,在同参数规模下节省约50%计算资源。这一发布展现了阿里在AI视频生成领域的技术突破。(记者 黄心怡)
虚拟织梦者
07-28 21:20:36
MoE架构
视频生成模型
通义万相
分享至
打开微信扫一扫
内容投诉
生成图片
“狠人”闫俊杰,闯关IPO
6月17日,MiniMax发布全球首个开源大规模混合架构推理模型M1,创始人闫俊杰称‘大山不是不能翻越’。M1通过闪电注意力机制和强化学习算法CISPO实现高效推理,仅用512块H800三周完成训练。随后4天内,公司连续推出视频生成模型、智能体等多款产品。资本市场方面,MiniMax被曝正考虑港股IPO,此前已积累十几亿美元现金储备,近期完成Pre-IPO融资。公司成立于2022年,专注MoE架构研发,曾将80%算力投入此技术路线。尽管其M1模型未引发轰动,业内对其探索路径评价积极。面对DeepSeek竞争,MiniMax坚持自研底层模型,海外应用则选择接入DeepSeek。
未来编码者
07-11 13:37:48
MiniMax
MoE模型
闫俊杰
分享至
打开微信扫一扫
内容投诉
生成图片
上海AI公司开源模型登上全球第二
6月17日,上海AI公司MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1,在权威评测榜单位列全球开源模型第二。M1支持100万token上下文输入,输出长度达8万token,性能和性价比均表现突出。此后4个工作日,MiniMax接连推出视频生成模型Hailuo 02、智能体产品及音色设计工具。Hailuo 02在物理世界规律理解方面表现出色,生成的“猫跳水”视频动作逻辑清晰,已在Instagram获3亿流量。MiniMax坚持基座模型研发,采用MoE架构、线性注意力机制及CISPO强化学习方法,实现高效能低成本突破。作为大模型‘上海队’一员,MiniMax与商汤、阶跃星辰等共同推动AI产业发展。
DreamCoder
07-03 07:50:43
Hailuo 02
MiniMax-M1
MoE架构
分享至
打开微信扫一扫
内容投诉
生成图片
MoE那么大,几段代码就能稳稳推理 | 开源
MoE模型推理,几段代码就能稳稳搞定 | 开源 混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。 华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推...
LunarCoder
07-02 18:09:04
MoE
Omni-Infer
开源
分享至
打开微信扫一扫
内容投诉
生成图片
华为又开源了个大的:超大规模MoE推理秘籍
华为近日开源了超大规模MoE推理项目Omni-Infer,为解决大模型推理的高效与稳定问题提供了标准答案。该项目面向企业用户,提供PD分离部署方案、QPM系统级优化及商用硬件使用方法论,同时推动开发者社区发展。北京智源研究院、上海人工智能实验室和OpenI启智社区均表示支持,并期待生态合作。Omni-Infer由推理框架和加速套件组成,兼容主流框架如vLLM,具备智能调度、负载均衡、MoE优化等特性,提升推理效率。目前仅支持CloudMatrix384推理卡和Linux环境,通过Docker镜像安装,开箱即用。Omni-Infer还建立了专业开源社区,开放治理、会议、活动等信息,采用两级管理机制,主动适配国内开源项目,推动多方共赢。相关资源链接已公布,包括技术报告、代码仓库及社区页面。
数码游侠
07-01 13:54:16
MoE推理
Omni-Infer
华为
分享至
打开微信扫一扫
内容投诉
生成图片
华为宣布开源盘古 7B 稠密和 72B 混合专家模型
6月30日,华为正式宣布开源盘古7B稠密模型和盘古Pro MoE 72B混合专家模型,以及基于昇腾的模型推理技术。此次开源是华为推进昇腾生态战略的重要举措,旨在推动大模型技术发展与行业应用。目前,盘古Pro MoE 72B模型的权重和基础推理代码已上线开源平台,基于昇腾的超大规模MoE模型推理代码也已开放。盘古7B的相关模型权重与推理代码将在近期上线。
GhostPilot
06-30 09:40:01
华为
盘古 7B
盘古 Pro MoE 72B
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯发布并开源混元-A13B模型:极端条件仅1张中低端GPU卡即可部署
2025年6月27日,腾讯正式发布并开源混元-A13B大模型,该模型基于专家混合(MoE)架构,总参数800亿、激活参数130亿,在数学推理和逻辑任务上表现优异,甚至在极端条件下仅需1张中低端GPU即可部署。用户可通过Github、HuggingFace等平台下载使用。模型支持快慢两种思考模式,兼顾效率与准确性,适用于智能体应用及复杂指令响应,预训练数据达20万亿词元,优化了计算资源分配,为个人开发者和中小企业提供高效解决方案。
数字墨迹
06-27 17:17:05
MoE架构
混元-A13B模型
腾讯
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序