标题:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
o1公开仅10天,Hugging Face就开源了扩展测试时计算的方法。用在Llama 1B上,数学分数超过8倍大的模型,并超过计算机科学博士生的平均分数(40%)。在Llama 3B上,进步更大,甚至能与20几倍大的70B模型媲美。
虽然OpenAI o1的具体配方保密,但Hugging Face团队基于DeepMind的研究成果,做出了以下改进:
- 多样化验证器树搜索(Diverse Verifier Tree Search),一种提高多样性和性能的有效方法。
- 开源轻量级工具包Search and Learn,与推理框架vLLM配合,快速构建搜索策略。
目前扩展测试时计算主要有自我优化和搜索两种策略。搜索方法更灵活,适用于不同难度的问题。Hugging Face的研究主要聚焦于搜索方法,特别是可学习的验证器。
研究涉及三种搜索策略:Best-of-N、Beam search和Diverse Verifier Tree Search (DVTS)。实验中使用了Llama-3.2-1B-Instruct模型和Llama3.1-8B-PRM-Deepseek-Data流程奖励模型,测试集为MATH-500。
实验结果显示,动态分配策略效果最佳。多数投票策略比贪婪解码基线有显著改进。奖励模型加入后,表现均有所提高。Best-of-N策略中,加权版优于原版,尤其在算力预算大的情况下。Beam Search在简单问题上表现不如Best-of-N,但对复杂问题有益。DVTS方法在N较大时增强简单/中等难度问题的表现。
未来研究方向包括开发更强大的验证器、实现自我验证、增加中间步骤、扩展到非可验证任务等。评论区指出,这种方法更适合本地部署,而非API调用。开源代码:https://github.com/huggingface/search-and-learn
参考链接: [1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute [2] https://x.com/_lewtun/status/1868703456602865880
-
2026-04-12 22:24:41 -
2026-04-12 22:23:31 -
2026-04-12 22:22:09