综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月21日消息,DeepSeek计划于2月农历新年期间发布新一代旗舰AI模型DeepSeek V4,预计将具备更强的代码编写能力。1月20日,开发者发现DeepSeek在GitHub更新的代码中多次提到未知标识符“MODEL1”,可能代表全新架构。与现有模型“V32”相比,“MODEL1”在键值缓存布局、稀疏性处理及FP8解码支持等方面存在显著差异,表明新架构或优化内存与计算效率。此外,DeepSeek近期发布的两篇论文介绍“优化残差连接(mHC)”和“AI记忆模块(Engram)”,可能整合到新模型中。此前爆料称,DeepSeek V4的编程能力有望超越OpenAI GPT及Anthropic Claude。
原文链接
新研究提出了一种颠覆性的模型架构,RNN中的隐藏状态被设计成可学习的模型(TTT,Test-Time Training)。这种方法允许隐藏状态在测试时持续学习,挑战了Transformer的地位。实验表明,即使在较小规模,TTT-Linear和TTT-MLP已展现优于Transformer的性能,尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力,认为它可以是任意复杂模型,甚至包括CNN或Transformer。论文作者强调,尽管如此,仍有改进空间,比如探索更复杂的模型和学习策略。此外,该方法也被认为可能扩展到视频建模领域。论文链接:https://arxiv.org/abs/2407.04620。
原文链接
加载更多
暂无内容