1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:谷歌揭示关键机制,方法更简单、成本更低

小交 发自 凹非寺

量子位 | 公众号 QbitAI

o1/o3技术带动的推理计算Scaling,谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量,最多提高40%性能。例如,DeepSeek-Coder通过重复采样5次,性能优于GPT-4,成本仅为后者三分之一。

这篇论文名为《Monkey》,灵感源于无限猴子定理。论文介绍了一种重复采样程序:先由大模型生成候选解,再用特定领域验证器选择最终答案。该方法的有效性取决于覆盖率(生成样本解决问题的能力)和精确度(识别正确样本的能力)。

研究者关注yes或no任务,指标为成功率。结果显示,在多个任务和模型中,覆盖率随样本数增加而提升。如在解决编程问题时,Gemma-2B的覆盖率从0.02%提升至7.1%,Llama-3模型的覆盖率在10,000次采样下达到95%以上。覆盖率与样本数的关系呈现近似对数线性增长。

此外,重复采样不仅能提升性能,还能降低成本。以FLOPs为成本指标,Llama-3-8B-Instruct在多个任务上的覆盖率高于Llama-3-70B-Instruct。开源模型DeepSeek-Coder-V2-Instruct在解决数学问题时,与GPT-4性能相当,但成本仅为后者的三分之一。

这篇论文由斯坦福、牛津大学及谷歌DeepMind团队合作完成。有观点认为,此方法类似简化版o3,但不具其动态搜索能力。尽管如此,重复采样在编码和数学任务中更具成本效益。然而,增加采样数也有局限,模型性能存在上限。

原文链接
本文链接:https://kx.umi6.com/article/10626.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
1/8成本比肩Claude 3.7,Mistral Medium 3来了
2025-05-08 13:28:17
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型
2025-02-06 09:25:10
24小时热文
更多
扫一扫体验小程序