1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:推理模型新路线开源!抛弃思维链,不用人类语言思考

开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?新模型Huginn的思考轨迹可视化中,重要token如“3”不断旋转,最终收敛到正确答案位置,但不关键的人物名字“Claire”无此现象。研究团队认为这表明模型正在独立学习利用潜空间的高维性质进行新推理方式。

新方法还有额外优势: - 不需要专门的训练数据 - 可在小上下文窗口下工作 - 能捕捉难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,使用美国橡树岭实验室的Frontier超算完成训练实验,用8个AMD GPU节点(4096块GPU)。

新架构仍基于Decoder-only的Transformer block,分为三段: - Prelude(前奏):将输入数据嵌入潜空间 - Recurrent Block(循环块):在潜空间中修改状态 - Coda(尾声):从潜空间解码并包含预测头

训练时为每个输入序列分配随机迭代次数,只反向传播最后k次迭代以减少计算和内存。研究中发现,模型对简单token快速收敛,关键token如“3”形成复杂轨道,某些token沿特定方向“滑动”。

论文一作Jonas Geiping透露,3.5B参数的Huginn模型在800B tokens数据上预训练。没有post/mid-training过程,但能力与7B参数、在2-3T tokens数据上训练的开源模型相当。训练计算量相当于传统32B模型。

有人猜测OpenAI o3使用类似方法,通过循环实现近似无限上下文。有OpenAI研究员已注意并在线捉虫。已有团队尝试结合新思路与CoT的可读性。

原文链接
本文链接:https://kx.umi6.com/article/13122.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布
2025-04-17 02:19:26
阿里Qwen团队发布新推模型QwQ 会展示完整的思维链
2025-02-25 12:56:25
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
2025-04-30 18:55:15
阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升
2025-07-31 07:59:58
OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协
2024-09-16 01:48:17
OpenAI的推理模型有时会用中文“思考” 背后原因众说纷纭
2025-01-15 04:22:06
在DeepSeek老家发新模型,豆包怎么想的?
2025-04-18 16:15:50
网易有道推出轻量级推理模型“子曰-o1”,更小规模实现更强推理效果
2025-01-22 12:54:57
OpenAI新模型首次实现「图像思维」
2025-04-18 12:09:19
闫俊杰不甘心
2025-06-09 17:31:16
OpenAI的o3正式登场,我们总结了这7个最关键的信息点
2025-04-17 15:41:46
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
2025-06-13 12:06:17
免费o1替代品来了!谷歌新发“王炸”推理大模型:思考速度碾压其他大模型,水平堪比理科博士
2024-12-23 10:51:33
24小时热文
更多
扫一扫体验小程序