1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:推理模型新路线开源!抛弃思维链,不用人类语言思考

开源推理大模型新架构来了,采用与DeepSeek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋?新模型Huginn的思考轨迹可视化中,重要token如“3”不断旋转,最终收敛到正确答案位置,但不关键的人物名字“Claire”无此现象。研究团队认为这表明模型正在独立学习利用潜空间的高维性质进行新推理方式。

新方法还有额外优势: - 不需要专门的训练数据 - 可在小上下文窗口下工作 - 能捕捉难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,使用美国橡树岭实验室的Frontier超算完成训练实验,用8个AMD GPU节点(4096块GPU)。

新架构仍基于Decoder-only的Transformer block,分为三段: - Prelude(前奏):将输入数据嵌入潜空间 - Recurrent Block(循环块):在潜空间中修改状态 - Coda(尾声):从潜空间解码并包含预测头

训练时为每个输入序列分配随机迭代次数,只反向传播最后k次迭代以减少计算和内存。研究中发现,模型对简单token快速收敛,关键token如“3”形成复杂轨道,某些token沿特定方向“滑动”。

论文一作Jonas Geiping透露,3.5B参数的Huginn模型在800B tokens数据上预训练。没有post/mid-training过程,但能力与7B参数、在2-3T tokens数据上训练的开源模型相当。训练计算量相当于传统32B模型。

有人猜测OpenAI o3使用类似方法,通过循环实现近似无限上下文。有OpenAI研究员已注意并在线捉虫。已有团队尝试结合新思路与CoT的可读性。

原文链接
本文链接:https://kx.umi6.com/article/13122.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
最强32B中文推理大模型易主:开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源
2025-04-13 21:56:24
英伟达突然开源新模型,直逼DeepSeek-R1成推理天花板
2025-04-09 13:50:12
阿里Qwen团队发布新推模型QwQ 会展示完整的思维链
2025-02-25 12:56:25
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
2024-11-20 23:21:18
OpenAI新模型首次实现「图像思维」
2025-04-18 12:09:19
OpenAI上架推理模型o3-mini 首次向免费用户开放推理功能
2025-02-01 05:13:09
网易有道推出轻量级推理模型“子曰-o1”,更小规模实现更强推理效果
2025-01-22 12:54:57
OpenAI罕见宣布将开源推理模型,DeepSeek给逼的
2025-04-01 08:17:21
阿里云通义发布首个多模态推理模型QVQ
2024-12-25 13:05:41
OpenAI的o3正式登场,我们总结了这7个最关键的信息点
2025-04-17 15:41:46
9个DeepSeek隐藏技巧,让打工人效率翻倍
2025-02-05 08:59:41
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
揭秘:OpenAI是如何发展出推理模型的?
2025-08-04 18:05:57
24小时热文
更多
扫一扫体验小程序