1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Mythos架构被22岁小伙“逆推”开源!MoE与注意力借鉴DeepSeek

听说Mythos因“太危险”被封印?一位22岁的开发者Kye Gomez反手将其“重建”并开源,命名为OpenMythos。这一项目整合了公开研究和对Claude Mythos架构的主流推测,实现了一种带有混合专家(MoE)路由机制的循环深度Transformer(Recurrent-Depth Transformer,RDT)。通过跨专家权重共享和条件计算,RDT仅用一半参数量就能达到传统模型的效果。

Kye的设计核心有三点:让同一组权重最多循环16次;每次激活不同的专家路径;推理全程在潜在空间完成。相比传统Transformer堆叠上百层的方式,RDT仅需几层,通过循环迭代实现深度推理。MoE设计借鉴了DeepSeekMoE,包含大量细粒度路由专家和少量共享专家,确保每次循环激活不同子集,避免重复计算。

为保证循环稳定性,RDT引入了LTI稳定循环注入技术,防止推理过程发散。实验表明,770M参数的RDT性能可媲美1.3B参数的标准Transformer。此外,RDT的推理完全内化,16轮循环均在hidden state向量中完成,不生成中间token,与Chain-of-Thought的逐步推理形成鲜明对比。

Kye还引用俄亥俄州立大学的研究,验证了循环Transformer的两大优势:系统性泛化和深度外推。前者能在训练未见过的知识组合上表现优异,后者可通过增加循环次数应对更长推理链。这表明大模型的瓶颈在于知识组合能力,而循环机制似乎能免费解锁这一能力。

尽管Anthropic的Mythos是否采用类似架构尚无定论,但循环Transformer已引发学术界广泛关注。未来,AI发展的重点可能从“训练更大模型”转向“让现有模型多想几遍”。

GitHub链接:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接:
[1] https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946

原文链接
本文链接:https://kx.umi6.com/article/34967.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Anthropic开源项目爆火 乐鑫科技子公司明栈科技硬件获官方推荐
2026-04-20 15:14:35
果然!最恨AI的人 是大学毕业生
2026-04-20 23:30:25
横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开
2026-04-19 19:18:15
第一批学AI的大学生 已经笑不出来了
2026-04-19 15:07:03
科大讯飞入股安徽星链人工智能公司
2026-04-20 09:57:27
蚂蚁技术研究院副院长吕乐当选美国医学与生物工程院(AIMBE)Fellow
2026-04-21 15:10:32
覆盖253所高等院校 两部门公布首批“专业与标准化教育融合试点”名单
2026-04-21 15:16:05
郑栅洁人民日报发文:加强新兴领域安全治理
2026-04-20 07:53:55
腾讯云宣布开源OpenAI、Manus同款Agent底座
2026-04-21 17:20:04
广东省新增6款已完成登记的生成式人工智能服务
2026-04-20 13:05:24
香港明天将公布新一批重点引进企业
2026-04-19 13:04:46
北京市新增2款已完成备案的生成式人工智能服务
2026-04-21 12:02:32
阿里通义实验室推出语音识别大模型Fun-ASR1.5
2026-04-20 15:12:20
24小时热文
更多
扫一扫体验小程序