1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:阿里通义开源智能体WebSailor刷新复杂推理记录

在互联网信息检索任务中,即使是强大的语言模型(LLM),面对高度模糊和复杂的问题时,往往难以找到答案。例如,“这首与南美某首都相关的乐曲,其歌词作者曾获当地荣誉,旋律创作者就读于哥伦比亚的艺术学院,这首乐曲叫什么?”这类问题需要抽丝剥茧地拼凑线索,超出了普通开源模型的能力范围。

阿里巴巴通义实验室提出了一种名为WebSailor的创新方案,通过全流程的训练方法,显著提升了开源模型在复杂网页推理任务中的表现。WebSailor成为首个挑战BrowseComp基准的开源网络智能体。BrowseComp由OpenAI于2025年发布,特点是将答案线索拆解得极其零碎并散布在模糊信息源中,要求智能体主动搜集、过滤噪声,并通过多步推理和交叉验证串联线索。例如,一个涉及间谍网络的问题,要求追踪横跨大陆、跨越几代人的复杂关系链。

WebSailor的核心方法包括:
1. 数据生成:构建大规模高不确定性数据集SailorFog-QA,通过图结构采样和信息模糊化生成复杂任务。这些任务涵盖多步演绎、组合推理等多样模式,确保模型在极端不确定环境下的检索与推理能力。
2. 冷启动训练:借助开源reasoning model生成解题轨迹,通过拒绝采样微调(RFT)让模型掌握基本工具使用和推理框架。
3. 强化学习优化:提出高效算法DUPO,通过双阶段动态采样策略提升训练效率,使模型在复杂任务中快速迭代。

实验结果显示,WebSailor在多个基准测试中全面超越现有开源模型,包括DeepSeek R1、GPT-4o和Grok-3等,甚至在简单任务中也表现出色。虽然闭源系统如DeepResearch仍保持一定优势,但WebSailor的成功证明了开源模型追赶顶尖闭源模型的可能性。

WebSailor的意义不仅在于缩小开源与闭源模型之间的差距,还为攻克其他复杂任务提供了通用框架。未来,研究团队将继续探索如何提升Agent的能力上限,使其在开放领域中完成更复杂的推理任务,甚至实现“超越人类”的表现。

GitHub:https://github.com/Alibaba-NLP/WebAgent
arXiv:https://arxiv.org/abs/2507.02592

原文链接
本文链接:https://kx.umi6.com/article/21306.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
2025-08-06 06:22:19
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
2025-07-07 17:32:00
DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国
2025-07-18 18:42:56
李飞飞实验室2025 AI报告出炉:AI推理成本降低至1/280
2025-04-08 23:18:28
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
阿里通义千问:确实在与 Manus 进行开源模型方面的合作
2025-03-11 20:47:27
阿里通义回应与Manus合作:确实在开源模型方面进行合作
2025-03-11 19:51:17
AI生图新的王者诞生了!腾讯混元图像3.0登顶榜一
2025-10-05 17:24:12
阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写
2025-09-24 16:50:21
智谱发布新一代旗舰开源模型 GLM-4.5,专为智能体应用打造
2025-07-28 22:20:02
闭源主力选手拥抱开源?OpenAI 被曝最快下周推开源 AI 模型,o3 mini 级推理能力
2025-07-10 11:22:08
GRPO在《时空谜题》中击败o1、o3-mini和R1
2025-03-27 16:59:27
24小时热文
更多
扫一扫体验小程序