标题:谷歌揭示关键机制,方法更简单、成本更低
小交 发自 凹非寺
量子位 | 公众号 QbitAI
o1/o3技术带动的推理计算Scaling,谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量,最多提高40%性能。例如,DeepSeek-Coder通过重复采样5次,性能优于GPT-4,成本仅为后者三分之一。
这篇论文名为《Monkey》,灵感源于无限猴子定理。论文介绍了一种重复采样程序:先由大模型生成候选解,再用特定领域验证器选择最终答案。该方法的有效性取决于覆盖率(生成样本解决问题的能力)和精确度(识别正确样本的能力)。
研究者关注yes或no任务,指标为成功率。结果显示,在多个任务和模型中,覆盖率随样本数增加而提升。如在解决编程问题时,Gemma-2B的覆盖率从0.02%提升至7.1%,Llama-3模型的覆盖率在10,000次采样下达到95%以上。覆盖率与样本数的关系呈现近似对数线性增长。
此外,重复采样不仅能提升性能,还能降低成本。以FLOPs为成本指标,Llama-3-8B-Instruct在多个任务上的覆盖率高于Llama-3-70B-Instruct。开源模型DeepSeek-Coder-V2-Instruct在解决数学问题时,与GPT-4性能相当,但成本仅为后者的三分之一。
这篇论文由斯坦福、牛津大学及谷歌DeepMind团队合作完成。有观点认为,此方法类似简化版o3,但不具其动态搜索能力。尽管如此,重复采样在编码和数学任务中更具成本效益。然而,增加采样数也有局限,模型性能存在上限。
原文链接
本文链接:https://kx.umi6.com/article/10626.html
转载请注明文章出处
相关推荐
.png)
换一换
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
2025-01-15 21:38:45
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
2025-05-16 14:52:41
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力
2024-09-15 22:05:13
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
1/8成本比肩Claude 3.7,Mistral Medium 3来了
2025-05-08 13:28:17
训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型
2025-02-06 09:25:10
知乎发起“进击的具身智能”线上圆桌,共探人形机器人发展未来
2025-09-10 12:33:45
英伟达发布超长上下文推理芯片Rubin CPX 算力效率拉爆当前旗舰
2025-09-10 08:32:11
杭州征求意见:2027年实现各类具身智能机器人整机企业工业总产值超200亿元 产业链工业总产值超300亿元
2025-09-09 14:20:28
美银:预计2030年全球AI资本支出将达8000亿美元
2025-09-09 15:19:50
科创板AI公司共话商业化落地 竞争加剧下企业如何布局?|直击业绩会
2025-09-10 10:33:09
AMD:人工智能仍被低估,AI PC 需基于性能优秀的 PC
2025-09-09 22:21:25
521 文章
217197 浏览
24小时热文
更多

-
2025-09-10 12:36:58
-
2025-09-10 12:36:02
-
2025-09-10 12:34:52