1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law

o1公开仅10天,Hugging Face就开源了扩展测试时计算的方法。用在Llama 1B上,数学分数超过8倍大的模型,并超过计算机科学博士生的平均分数(40%)。在Llama 3B上,进步更大,甚至能与20几倍大的70B模型媲美。

虽然OpenAI o1的具体配方保密,但Hugging Face团队基于DeepMind的研究成果,做出了以下改进:

  • 多样化验证器树搜索(Diverse Verifier Tree Search),一种提高多样性和性能的有效方法。
  • 开源轻量级工具包Search and Learn,与推理框架vLLM配合,快速构建搜索策略。

目前扩展测试时计算主要有自我优化和搜索两种策略。搜索方法更灵活,适用于不同难度的问题。Hugging Face的研究主要聚焦于搜索方法,特别是可学习的验证器。

研究涉及三种搜索策略:Best-of-N、Beam search和Diverse Verifier Tree Search (DVTS)。实验中使用了Llama-3.2-1B-Instruct模型和Llama3.1-8B-PRM-Deepseek-Data流程奖励模型,测试集为MATH-500。

实验结果显示,动态分配策略效果最佳。多数投票策略比贪婪解码基线有显著改进。奖励模型加入后,表现均有所提高。Best-of-N策略中,加权版优于原版,尤其在算力预算大的情况下。Beam Search在简单问题上表现不如Best-of-N,但对复杂问题有益。DVTS方法在N较大时增强简单/中等难度问题的表现。

未来研究方向包括开发更强大的验证器、实现自我验证、增加中间步骤、扩展到非可验证任务等。评论区指出,这种方法更适合本地部署,而非API调用。开源代码:https://github.com/huggingface/search-and-learn

参考链接: [1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute [2] https://x.com/_lewtun/status/1868703456602865880

原文链接
本文链接:https://kx.umi6.com/article/10319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观
2024-11-12 17:08:51
微软CTO:AI大模型的“Scaling Law”还能走多远?
2024-07-12 07:50:49
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
技术进展放缓,是普通人AI革命的开始
2024-12-25 13:03:33
四位大模型创业者聊 AGI、Scaling Law 和价格战
2024-06-16 10:11:05
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
2024-11-29 13:53:52
首个被人类骗钱的 AI 诞生:近 5 万美元不翼而飞,马斯克转发
2024-11-30 14:15:48
Scaling Law陷入困局,强化学习才是全村的希望?
2024-09-12 14:51:17
Claude复活30年前传奇游戏,仅用一个周末
2026-04-12 16:05:08
千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈
2025-04-30 20:23:36
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
24小时热文
更多
扫一扫体验小程序