1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:推理模型新路线开源!抛弃思维链,不用人类语言思考

开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?新模型Huginn的思考轨迹可视化中,重要token如“3”不断旋转,最终收敛到正确答案位置,但不关键的人物名字“Claire”无此现象。研究团队认为这表明模型正在独立学习利用潜空间的高维性质进行新推理方式。

新方法还有额外优势: - 不需要专门的训练数据 - 可在小上下文窗口下工作 - 能捕捉难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,使用美国橡树岭实验室的Frontier超算完成训练实验,用8个AMD GPU节点(4096块GPU)。

新架构仍基于Decoder-only的Transformer block,分为三段: - Prelude(前奏):将输入数据嵌入潜空间 - Recurrent Block(循环块):在潜空间中修改状态 - Coda(尾声):从潜空间解码并包含预测头

训练时为每个输入序列分配随机迭代次数,只反向传播最后k次迭代以减少计算和内存。研究中发现,模型对简单token快速收敛,关键token如“3”形成复杂轨道,某些token沿特定方向“滑动”。

论文一作Jonas Geiping透露,3.5B参数的Huginn模型在800B tokens数据上预训练。没有post/mid-training过程,但能力与7B参数、在2-3T tokens数据上训练的开源模型相当。训练计算量相当于传统32B模型。

有人猜测OpenAI o3使用类似方法,通过循环实现近似无限上下文。有OpenAI研究员已注意并在线捉虫。已有团队尝试结合新思路与CoT的可读性。

原文链接
本文链接:https://kx.umi6.com/article/13122.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
xAI推出Grok 4 Fast
2025-09-22 08:57:17
OpenAI的o3正式登场,我们总结了这7个最关键的信息点
2025-04-17 15:41:46
OpenAI 阿尔特曼:计划几周内推出 o3 mini 推理模型
2025-01-18 08:30:22
OpenAI o1 推理过程出现中文,专家解读 AI 可能只想用最高效的语言来思考
2025-01-15 11:33:15
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
2025-01-18 13:33:12
研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元
2025-01-12 17:55:27
OpenAI上架推理模型o3-mini 首次向免费用户开放推理功能
2025-02-01 05:13:09
解构Manus AI:这是通用Agent革命,还是精巧缝合怪?
2025-03-08 16:59:56
MiniMax开源首个推理模型M1
2025-06-17 10:22:32
OpenAI两大推理模型,要把Agent吞进模型里了
2025-04-17 12:36:09
OpenAI 新推理模型被曝产生更多“幻觉”,o3 / o4-mini 性能与错误率一同提升
2025-04-19 08:37:49
阿里千问3推理模型更新 比肩Gemini-2.5 pro、o4-mini
2025-07-25 19:28:30
阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升
2025-07-31 07:59:58
24小时热文
更多
扫一扫体验小程序