阿里发布名为WebDancer的信息检索Agent,能够像人类一样上网搜索和推理。它在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数,表现优于基线模型和部分开源框架。模型与方法已开源。
WebDancer通过四阶段训练范式实现自主信息搜索能力:浏览数据构建、轨迹采样、有监督微调和强化学习。其中,轨迹采样基于ReAct框架,采用双路径生成短思维链和长思维链,确保高质量执行轨迹。SFT阶段通过损失函数优化模型任务分解与工具调用能力,RL阶段则使用DAPO算法提升泛化能力。
测试结果显示,WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的准确率,优于无代理能力的框架。在BrowseComp和BrowseComp-zh等挑战性数据集上也表现出色。其奖励机制结合格式奖励和答案奖励,权重分别为0.1和0.9。相关论文、代码和模型已公开。
原文链接
本文链接:https://kx.umi6.com/article/20845.html
转载请注明文章出处
相关推荐
.png)
换一换
大厂AI众生相:阿里、字节疯狂进攻,腾讯、美团防御跟随
2024-07-31 20:21:37
阿里豪赌 AI,腾讯小米不追
2025-03-27 12:43:56
阿里云大模型降价不是短期竞争行为,而是长期战略选择
2024-05-23 19:12:54
430 文章
74265 浏览
24小时热文
更多

-
2025-07-20 10:03:13
-
2025-07-20 10:02:01
-
2025-07-20 09:01:50