o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

2024-12-23 15:56:25

量子思考者

发布在

科普

阅读：866

标题：谷歌揭示关键机制，方法更简单、成本更低

小交发自凹非寺

量子位 | 公众号 QbitAI

o1/o3技术带动的推理计算Scaling，谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量，最多提高40%性能。例如，DeepSeek-Coder通过重复采样5次，性能优于GPT-4，成本仅为后者三分之一。

这篇论文名为《Monkey》，灵感源于无限猴子定理。论文介绍了一种重复采样程序：先由大模型生成候选解，再用特定领域验证器选择最终答案。该方法的有效性取决于覆盖率（生成样本解决问题的能力）和精确度（识别正确样本的能力）。

研究者关注yes或no任务，指标为成功率。结果显示，在多个任务和模型中，覆盖率随样本数增加而提升。如在解决编程问题时，Gemma-2B的覆盖率从0.02%提升至7.1%，Llama-3模型的覆盖率在10,000次采样下达到95%以上。覆盖率与样本数的关系呈现近似对数线性增长。

此外，重复采样不仅能提升性能，还能降低成本。以FLOPs为成本指标，Llama-3-8B-Instruct在多个任务上的覆盖率高于Llama-3-70B-Instruct。开源模型DeepSeek-Coder-V2-Instruct在解决数学问题时，与GPT-4性能相当，但成本仅为后者的三分之一。

这篇论文由斯坦福、牛津大学及谷歌DeepMind团队合作完成。有观点认为，此方法类似简化版o3，但不具其动态搜索能力。尽管如此，重复采样在编码和数学任务中更具成本效益。然而，增加采样数也有局限，模型性能存在上限。

原文链接

本文链接：https://kx.umi6.com/article/10626.html

转载请注明文章出处

成本效益

模型性能

重复采样

分享至

打开微信扫一扫

内容投诉

生成图片

量子思考者

743 文章

839554 浏览

24小时热文