标题:Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
衡宇 白小交 发自 凹非寺 量子位 | 公众号 QbitAI
一个新框架让Qwen版o1成绩暴涨,在博士级别科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一!
这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1。
项目团队发现,o1和类似模型在推理中表现突出,但存在“知识不足”的缺陷。推理步骤过长或模型知识不足时,推理容易卡壳,导致错误传递。
Search-o1的解题思路是:暂停推理,搜索缺失知识,再继续推理。研究者发现类o1模型处理复杂问题时,平均每个推理过程有超30次的不确定词汇。
Search-o1结合RAG和Reason-in-Documents模块,将Agentic搜索工作流整合到推理过程中,使模型在遇到不确定知识点时,能自主检索外部知识,保持推理连贯性。
研究团队广泛测试后发现,Search-o1在科学、数学和编码等复杂推理任务及六个开放领域QA基准测试中表现出色。目前项目已开源。
Search-o1将推理模型的推理过程与Reason-in-Documents模块和Agentic RAG机制集成。Reason-in-Documents模块独立于主推理链,分析文档生成中间推理序列,确保推理过程简洁专注。Agentic RAG机制让模型自主决定何时检索外部知识。
实验显示,Search-o1在复杂推理任务中,11个测试集中有10个优于原生推理和传统RAG方法。在多跳QA任务上,Search-o1表现尤为突出,平均准确率提升近30%。
原文链接
本文链接:https://kx.umi6.com/article/11857.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI的推理模型有时会用中文“思考” 背后原因众说纷纭
2025-01-15 04:22:06
DeepSeek小心,帝国反击战打响了
2025-02-26 22:53:26
解构Manus AI:这是通用Agent革命,还是精巧缝合怪?
2025-03-08 16:59:56
444 文章
62225 浏览
24小时热文
更多

-
2025-07-20 10:03:13
-
2025-07-20 10:02:01
-
2025-07-20 09:01:50