1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:推理模型新路线开源!抛弃思维链,不用人类语言思考

开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?新模型Huginn的思考轨迹可视化中,重要token如“3”不断旋转,最终收敛到正确答案位置,但不关键的人物名字“Claire”无此现象。研究团队认为这表明模型正在独立学习利用潜空间的高维性质进行新推理方式。

新方法还有额外优势: - 不需要专门的训练数据 - 可在小上下文窗口下工作 - 能捕捉难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,使用美国橡树岭实验室的Frontier超算完成训练实验,用8个AMD GPU节点(4096块GPU)。

新架构仍基于Decoder-only的Transformer block,分为三段: - Prelude(前奏):将输入数据嵌入潜空间 - Recurrent Block(循环块):在潜空间中修改状态 - Coda(尾声):从潜空间解码并包含预测头

训练时为每个输入序列分配随机迭代次数,只反向传播最后k次迭代以减少计算和内存。研究中发现,模型对简单token快速收敛,关键token如“3”形成复杂轨道,某些token沿特定方向“滑动”。

论文一作Jonas Geiping透露,3.5B参数的Huginn模型在800B tokens数据上预训练。没有post/mid-training过程,但能力与7B参数、在2-3T tokens数据上训练的开源模型相当。训练计算量相当于传统32B模型。

有人猜测OpenAI o3使用类似方法,通过循环实现近似无限上下文。有OpenAI研究员已注意并在线捉虫。已有团队尝试结合新思路与CoT的可读性。

原文链接
本文链接:https://kx.umi6.com/article/13122.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
法国人工智能公司Mistral发布首个推理模型 支持欧洲多种语言
2025-06-10 20:54:31
阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升
2025-07-31 07:59:58
网易有道推出国内首个输出分步式讲解的推理模型“子曰-o1”
2025-01-22 11:53:44
关于DeepSeek的误读与真相
2025-02-14 10:33:32
赵何娟对话李开复:推理成本预降数十倍,2025中国将从“百模大战”转向应用大战
2024-12-07 11:44:14
xAI推出Grok 4 Fast
2025-09-22 08:57:17
闫俊杰不甘心
2025-06-09 17:31:16
谷歌发布新一代推理模型Gemini2.5:单次可处理百万token
2025-03-26 11:51:49
英伟达突然开源新模型,直逼DeepSeek-R1成推理天花板
2025-04-09 13:50:12
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
2025-06-08 12:05:30
国产六大推理模型激战OpenAI?
2025-04-25 10:03:41
推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了
2025-01-23 15:19:02
阶跃星辰推理模型Step R-mini上线
2025-01-16 13:54:47
24小时热文
更多
扫一扫体验小程序