1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law

o1公开仅10天,Hugging Face就开源了扩展测试时计算的方法。用在Llama 1B上,数学分数超过8倍大的模型,并超过计算机科学博士生的平均分数(40%)。在Llama 3B上,进步更大,甚至能与20几倍大的70B模型媲美。

虽然OpenAI o1的具体配方保密,但Hugging Face团队基于DeepMind的研究成果,做出了以下改进:

  • 多样化验证器树搜索(Diverse Verifier Tree Search),一种提高多样性和性能的有效方法。
  • 开源轻量级工具包Search and Learn,与推理框架vLLM配合,快速构建搜索策略。

目前扩展测试时计算主要有自我优化和搜索两种策略。搜索方法更灵活,适用于不同难度的问题。Hugging Face的研究主要聚焦于搜索方法,特别是可学习的验证器。

研究涉及三种搜索策略:Best-of-N、Beam search和Diverse Verifier Tree Search (DVTS)。实验中使用了Llama-3.2-1B-Instruct模型和Llama3.1-8B-PRM-Deepseek-Data流程奖励模型,测试集为MATH-500。

实验结果显示,动态分配策略效果最佳。多数投票策略比贪婪解码基线有显著改进。奖励模型加入后,表现均有所提高。Best-of-N策略中,加权版优于原版,尤其在算力预算大的情况下。Beam Search在简单问题上表现不如Best-of-N,但对复杂问题有益。DVTS方法在N较大时增强简单/中等难度问题的表现。

未来研究方向包括开发更强大的验证器、实现自我验证、增加中间步骤、扩展到非可验证任务等。评论区指出,这种方法更适合本地部署,而非API调用。开源代码:https://github.com/huggingface/search-and-learn

参考链接: [1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute [2] https://x.com/_lewtun/status/1868703456602865880

原文链接
本文链接:https://kx.umi6.com/article/10319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
又到年底,那些AGI预言“实现”到哪一步了?
2024-11-26 08:24:17
现在的大模型现状,就是豪赌
2025-01-24 08:35:12
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解
2025-06-16 14:08:23
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
2024-05-27 10:09:54
微软CTO:AI大模型的“Scaling Law”还能走多远?
2024-07-12 07:50:49
李开复周志华纵论AI大模型,商汤徐立倡议「打脸时刻」,万字梳理MEET’25大咖激辩,320万观众同见证
2024-12-12 20:03:19
AI“规模暴力”真的失效了吗?
2024-11-19 13:45:24
不止OpenAI,谷歌和Anthropic AI模型开发也被爆遇瓶颈
2024-11-14 10:10:27
第一个被人类骗钱的AI傻了,近5万美元不翼而飞!
2024-12-03 16:24:52
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
首个被人类骗钱的 AI 诞生:近 5 万美元不翼而飞,马斯克转发
2024-11-30 14:15:48
24小时热文
更多
扫一扫体验小程序