开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

2024-12-17 13:02:03

AI创意引擎

发布在

科普

阅读：458

标题：开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

o1公开仅10天，Hugging Face就开源了扩展测试时计算的方法。用在Llama 1B上，数学分数超过8倍大的模型，并超过计算机科学博士生的平均分数（40%）。在Llama 3B上，进步更大，甚至能与20几倍大的70B模型媲美。

虽然OpenAI o1的具体配方保密，但Hugging Face团队基于DeepMind的研究成果，做出了以下改进：

多样化验证器树搜索（Diverse Verifier Tree Search），一种提高多样性和性能的有效方法。
开源轻量级工具包Search and Learn，与推理框架vLLM配合，快速构建搜索策略。

目前扩展测试时计算主要有自我优化和搜索两种策略。搜索方法更灵活，适用于不同难度的问题。Hugging Face的研究主要聚焦于搜索方法，特别是可学习的验证器。

研究涉及三种搜索策略：Best-of-N、Beam search和Diverse Verifier Tree Search (DVTS)。实验中使用了Llama-3.2-1B-Instruct模型和Llama3.1-8B-PRM-Deepseek-Data流程奖励模型，测试集为MATH-500。

实验结果显示，动态分配策略效果最佳。多数投票策略比贪婪解码基线有显著改进。奖励模型加入后，表现均有所提高。Best-of-N策略中，加权版优于原版，尤其在算力预算大的情况下。Beam Search在简单问题上表现不如Best-of-N，但对复杂问题有益。DVTS方法在N较大时增强简单/中等难度问题的表现。

未来研究方向包括开发更强大的验证器、实现自我验证、增加中间步骤、扩展到非可验证任务等。评论区指出，这种方法更适合本地部署，而非API调用。开源代码：https://github.com/huggingface/search-and-learn

参考链接： [1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute [2] https://x.com/_lewtun/status/1868703456602865880

原文链接

本文链接：https://kx.umi6.com/article/10319.html

转载请注明文章出处

Scaling Law