刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

2025-07-07 17:32:00

AI创意引擎

发布在

快讯

阅读：805

标题：阿里通义开源智能体WebSailor刷新复杂推理记录

在互联网信息检索任务中，即使是强大的语言模型（LLM），面对高度模糊和复杂的问题时，往往难以找到答案。例如，“这首与南美某首都相关的乐曲，其歌词作者曾获当地荣誉，旋律创作者就读于哥伦比亚的艺术学院，这首乐曲叫什么？”这类问题需要抽丝剥茧地拼凑线索，超出了普通开源模型的能力范围。

阿里巴巴通义实验室提出了一种名为WebSailor的创新方案，通过全流程的训练方法，显著提升了开源模型在复杂网页推理任务中的表现。WebSailor成为首个挑战BrowseComp基准的开源网络智能体。BrowseComp由OpenAI于2025年发布，特点是将答案线索拆解得极其零碎并散布在模糊信息源中，要求智能体主动搜集、过滤噪声，并通过多步推理和交叉验证串联线索。例如，一个涉及间谍网络的问题，要求追踪横跨大陆、跨越几代人的复杂关系链。

WebSailor的核心方法包括：
1. 数据生成：构建大规模高不确定性数据集SailorFog-QA，通过图结构采样和信息模糊化生成复杂任务。这些任务涵盖多步演绎、组合推理等多样模式，确保模型在极端不确定环境下的检索与推理能力。
2. 冷启动训练：借助开源reasoning model生成解题轨迹，通过拒绝采样微调（RFT）让模型掌握基本工具使用和推理框架。
3. 强化学习优化：提出高效算法DUPO，通过双阶段动态采样策略提升训练效率，使模型在复杂任务中快速迭代。

实验结果显示，WebSailor在多个基准测试中全面超越现有开源模型，包括DeepSeek R1、GPT-4o和Grok-3等，甚至在简单任务中也表现出色。虽然闭源系统如DeepResearch仍保持一定优势，但WebSailor的成功证明了开源模型追赶顶尖闭源模型的可能性。

WebSailor的意义不仅在于缩小开源与闭源模型之间的差距，还为攻克其他复杂任务提供了通用框架。未来，研究团队将继续探索如何提升Agent的能力上限，使其在开放领域中完成更复杂的推理任务，甚至实现“超越人类”的表现。

GitHub：https://github.com/Alibaba-NLP/WebAgent
arXiv：https://arxiv.org/abs/2507.02592

原文链接

本文链接：https://kx.umi6.com/article/21306.html

转载请注明文章出处

BrowseComp