1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

衡宇 白小交 发自 凹非寺 量子位 | 公众号 QbitAI

一个新框架让Qwen版o1成绩暴涨,在博士级别科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一!

这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1。

项目团队发现,o1和类似模型在推理中表现突出,但存在“知识不足”的缺陷。推理步骤过长或模型知识不足时,推理容易卡壳,导致错误传递。

Search-o1的解题思路是:暂停推理,搜索缺失知识,再继续推理。研究者发现类o1模型处理复杂问题时,平均每个推理过程有超30次的不确定词汇。

Search-o1结合RAG和Reason-in-Documents模块,将Agentic搜索工作流整合到推理过程中,使模型在遇到不确定知识点时,能自主检索外部知识,保持推理连贯性。

研究团队广泛测试后发现,Search-o1在科学、数学和编码等复杂推理任务及六个开放领域QA基准测试中表现出色。目前项目已开源。

Search-o1将推理模型的推理过程与Reason-in-Documents模块和Agentic RAG机制集成。Reason-in-Documents模块独立于主推理链,分析文档生成中间推理序列,确保推理过程简洁专注。Agentic RAG机制让模型自主决定何时检索外部知识。

实验显示,Search-o1在复杂推理任务中,11个测试集中有10个优于原生推理和传统RAG方法。在多跳QA任务上,Search-o1表现尤为突出,平均准确率提升近30%。

原文链接
本文链接:https://kx.umi6.com/article/11857.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MiniMax 推出全球首个开源大规模混合架构的推理模型 M1:456B 参数,性能超 DeepSeek-R1
2025-06-17 17:28:14
MiniMax正暗戳戳憋大招
2025-06-02 07:30:05
OpenAI 阿尔特曼:计划几周内推出 o3 mini 推理模型
2025-01-18 08:30:22
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
2025-04-11 14:49:21
阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升
2025-07-31 07:59:58
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
2024-11-20 23:21:18
LLM神话破灭?苹果论文最新实锤:难以实现真正智能
2025-06-09 20:34:34
OpenAI更新推理模型o3-mini思维链
2025-02-07 10:54:40
阿里Qwen团队发布新推模型QwQ 会展示完整的思维链
2025-02-25 12:56:25
推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了
2025-01-23 15:19:02
最强32B中文推理大模型易主:开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源
2025-04-13 21:56:24
一文看懂OpenAI最强模型o1:怎么用好,为何翻车?
2024-09-20 18:22:13
训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型
2025-02-06 09:25:10
24小时热文
更多
扫一扫体验小程序