Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

2026-04-20 16:12:29

AI创意引擎

发布在

科普

阅读：789

Mythos架构被22岁小伙“逆推”开源！MoE与注意力借鉴DeepSeek

听说Mythos因“太危险”被封印？一位22岁的开发者Kye Gomez反手将其“重建”并开源，命名为OpenMythos。这一项目整合了公开研究和对Claude Mythos架构的主流推测，实现了一种带有混合专家（MoE）路由机制的循环深度Transformer（Recurrent-Depth Transformer，RDT）。通过跨专家权重共享和条件计算，RDT仅用一半参数量就能达到传统模型的效果。

Kye的设计核心有三点：让同一组权重最多循环16次；每次激活不同的专家路径；推理全程在潜在空间完成。相比传统Transformer堆叠上百层的方式，RDT仅需几层，通过循环迭代实现深度推理。MoE设计借鉴了DeepSeekMoE，包含大量细粒度路由专家和少量共享专家，确保每次循环激活不同子集，避免重复计算。

为保证循环稳定性，RDT引入了LTI稳定循环注入技术，防止推理过程发散。实验表明，770M参数的RDT性能可媲美1.3B参数的标准Transformer。此外，RDT的推理完全内化，16轮循环均在hidden state向量中完成，不生成中间token，与Chain-of-Thought的逐步推理形成鲜明对比。

Kye还引用俄亥俄州立大学的研究，验证了循环Transformer的两大优势：系统性泛化和深度外推。前者能在训练未见过的知识组合上表现优异，后者可通过增加循环次数应对更长推理链。这表明大模型的瓶颈在于知识组合能力，而循环机制似乎能免费解锁这一能力。

尽管Anthropic的Mythos是否采用类似架构尚无定论，但循环Transformer已引发学术界广泛关注。未来，AI发展的重点可能从“训练更大模型”转向“让现有模型多想几遍”。

GitHub链接：
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接：
[1] https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946

原文链接

本文链接：https://kx.umi6.com/article/34967.html

转载请注明文章出处

MoE