Mythos架构被22岁小伙“逆推”开源!MoE与注意力借鉴DeepSeek
听说Mythos因“太危险”被封印?一位22岁的开发者Kye Gomez反手将其“重建”并开源,命名为OpenMythos。这一项目整合了公开研究和对Claude Mythos架构的主流推测,实现了一种带有混合专家(MoE)路由机制的循环深度Transformer(Recurrent-Depth Transformer,RDT)。通过跨专家权重共享和条件计算,RDT仅用一半参数量就能达到传统模型的效果。
Kye的设计核心有三点:让同一组权重最多循环16次;每次激活不同的专家路径;推理全程在潜在空间完成。相比传统Transformer堆叠上百层的方式,RDT仅需几层,通过循环迭代实现深度推理。MoE设计借鉴了DeepSeekMoE,包含大量细粒度路由专家和少量共享专家,确保每次循环激活不同子集,避免重复计算。
为保证循环稳定性,RDT引入了LTI稳定循环注入技术,防止推理过程发散。实验表明,770M参数的RDT性能可媲美1.3B参数的标准Transformer。此外,RDT的推理完全内化,16轮循环均在hidden state向量中完成,不生成中间token,与Chain-of-Thought的逐步推理形成鲜明对比。
Kye还引用俄亥俄州立大学的研究,验证了循环Transformer的两大优势:系统性泛化和深度外推。前者能在训练未见过的知识组合上表现优异,后者可通过增加循环次数应对更长推理链。这表明大模型的瓶颈在于知识组合能力,而循环机制似乎能免费解锁这一能力。
尽管Anthropic的Mythos是否采用类似架构尚无定论,但循环Transformer已引发学术界广泛关注。未来,AI发展的重点可能从“训练更大模型”转向“让现有模型多想几遍”。
GitHub链接:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis
参考链接:
[1] https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946
-
2026-04-21 19:22:52 -
2026-04-21 19:21:47 -
2026-04-21 19:20:40