1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:推理模型新路线开源!抛弃思维链,不用人类语言思考

开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?新模型Huginn的思考轨迹可视化中,重要token如“3”不断旋转,最终收敛到正确答案位置,但不关键的人物名字“Claire”无此现象。研究团队认为这表明模型正在独立学习利用潜空间的高维性质进行新推理方式。

新方法还有额外优势: - 不需要专门的训练数据 - 可在小上下文窗口下工作 - 能捕捉难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,使用美国橡树岭实验室的Frontier超算完成训练实验,用8个AMD GPU节点(4096块GPU)。

新架构仍基于Decoder-only的Transformer block,分为三段: - Prelude(前奏):将输入数据嵌入潜空间 - Recurrent Block(循环块):在潜空间中修改状态 - Coda(尾声):从潜空间解码并包含预测头

训练时为每个输入序列分配随机迭代次数,只反向传播最后k次迭代以减少计算和内存。研究中发现,模型对简单token快速收敛,关键token如“3”形成复杂轨道,某些token沿特定方向“滑动”。

论文一作Jonas Geiping透露,3.5B参数的Huginn模型在800B tokens数据上预训练。没有post/mid-training过程,但能力与7B参数、在2-3T tokens数据上训练的开源模型相当。训练计算量相当于传统32B模型。

有人猜测OpenAI o3使用类似方法,通过循环实现近似无限上下文。有OpenAI研究员已注意并在线捉虫。已有团队尝试结合新思路与CoT的可读性。

原文链接
本文链接:https://kx.umi6.com/article/13122.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MiniMax开源首个推理模型M1
2025-06-17 10:22:32
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex
2026-01-06 14:06:10
推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了
2025-01-23 15:19:02
9个DeepSeek隐藏技巧,让打工人效率翻倍
2025-02-05 08:59:41
OpenAI新模型首次实现「图像思维」
2025-04-18 12:09:19
赵何娟对话李开复:推理成本预降数十倍,2025中国将从“百模大战”转向应用大战
2024-12-07 11:44:14
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
2025-05-16 14:53:48
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
阶跃星辰推理模型Step R-mini上线
2025-01-16 13:54:47
在DeepSeek老家发新模型,豆包怎么想的?
2025-04-18 16:15:50
阿里云通义发布首个多模态推理模型QVQ
2024-12-25 13:05:41
阿里千问3推理模型更新 比肩Gemini-2.5 pro、o4-mini
2025-07-25 19:28:30
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
2025-04-11 14:49:21
24小时热文
更多
扫一扫体验小程序