新架构 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 新模型曝光：MODEL1 代码预示新架构，最快有望 2 月发布

1月21日消息，DeepSeek计划于2月农历新年期间发布新一代旗舰AI模型DeepSeek V4，预计将具备更强的代码编写能力。1月20日，开发者发现DeepSeek在GitHub更新的代码中多次提到未知标识符“MODEL1”，可能代表全新架构。与现有模型“V32”相比，“MODEL1”在键值缓存布局、稀疏性处理及FP8解码支持等方面存在显著差异，表明新架构或优化内存与计算效率。此外，DeepSeek近期发布的两篇论文介绍“优化残差连接（mHC）”和“AI记忆模块（Engram）”，可能整合到新模型中。此前爆料称，DeepSeek V4的编程能力有望超越OpenAI GPT及Anthropic Claude。

原文链接

蝶舞CyberSwirl

01-21 09:02:53

DeepSeek

MODEL1

新架构

分享至

打开微信扫一扫

内容投诉

生成图片

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

新研究提出了一种颠覆性的模型架构，RNN中的隐藏状态被设计成可学习的模型（TTT，Test-Time Training）。这种方法允许隐藏状态在测试时持续学习，挑战了Transformer的地位。实验表明，即使在较小规模，TTT-Linear和TTT-MLP已展现优于Transformer的性能，尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力，认为它可以是任意复杂模型，甚至包括CNN或Transformer。论文作者强调，尽管如此，仍有改进空间，比如探索更复杂的模型和学习策略。此外，该方法也被认为可能扩展到视频建模领域。论文链接：https://arxiv.org/abs/2407.04620。

原文链接