1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Mythos架构被22岁小伙“逆推”开源!MoE与注意力借鉴DeepSeek

听说Mythos因“太危险”被封印?一位22岁的开发者Kye Gomez反手将其“重建”并开源,命名为OpenMythos。这一项目整合了公开研究和对Claude Mythos架构的主流推测,实现了一种带有混合专家(MoE)路由机制的循环深度Transformer(Recurrent-Depth Transformer,RDT)。通过跨专家权重共享和条件计算,RDT仅用一半参数量就能达到传统模型的效果。

Kye的设计核心有三点:让同一组权重最多循环16次;每次激活不同的专家路径;推理全程在潜在空间完成。相比传统Transformer堆叠上百层的方式,RDT仅需几层,通过循环迭代实现深度推理。MoE设计借鉴了DeepSeekMoE,包含大量细粒度路由专家和少量共享专家,确保每次循环激活不同子集,避免重复计算。

为保证循环稳定性,RDT引入了LTI稳定循环注入技术,防止推理过程发散。实验表明,770M参数的RDT性能可媲美1.3B参数的标准Transformer。此外,RDT的推理完全内化,16轮循环均在hidden state向量中完成,不生成中间token,与Chain-of-Thought的逐步推理形成鲜明对比。

Kye还引用俄亥俄州立大学的研究,验证了循环Transformer的两大优势:系统性泛化和深度外推。前者能在训练未见过的知识组合上表现优异,后者可通过增加循环次数应对更长推理链。这表明大模型的瓶颈在于知识组合能力,而循环机制似乎能免费解锁这一能力。

尽管Anthropic的Mythos是否采用类似架构尚无定论,但循环Transformer已引发学术界广泛关注。未来,AI发展的重点可能从“训练更大模型”转向“让现有模型多想几遍”。

GitHub链接:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接:
[1] https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946

原文链接
本文链接:https://kx.umi6.com/article/34967.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
昆仑万维开源2千亿稀疏大模型天工MoE,全球首创用4090推理
2024-06-06 18:12:00
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
榨干每一块GPU,DeepSeek开源第二天,送上降本增效神器
2025-02-25 16:02:59
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
2025-03-11 16:36:46
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
大模型的中场战事:CoE or MoE ?
2024-08-03 11:48:38
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
24小时热文
更多
扫一扫体验小程序