智能体卷王诞生!干活自动配结项报告,1.5张截图就把事说清了
Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI
在学校做实验时,老师通常通过实验报告确认学生是否完成任务。类似地,AI智能体完成任务后,也需要一种方法验证其执行效果。为此,我们提出了一种新方法:让AI在执行任务的同时主动提交“证据链报告”,边做边收集完成任务的证据,并自我检查是否符合预期。
在LLM/VLM驱动的智能体强化学习中,一个长期难题是:如何判断智能体是否准确完成了任务?传统方法依赖复杂的“监督系统”,比如手工设计的校验机制或轨迹级验证(如LLM/VLM-as-a-Judge)。然而,这些方法效率低、泛化能力差,且容易受环境变化干扰。
针对这些问题,我们提出了一种新的RL训练方法——SmartSnap,让智能体成为“质检员”,主动分解目标并留痕存证,从而减少校验器的压力。
什么是SmartSnap?
SmartSnap的核心思想是将智能体从“被动执行者”转变为“主动自证者”。它在完成任务的同时,会主动收集、筛选并提交一份“证据快照集”,类似于任务的“结项报告”,让验证者一目了然。
三大核心突破
- 角色升级:赋予智能体“双重使命”,不仅负责执行任务,还主动验证结果。例如,改好设置后,它会截图开关状态作为证据。
- 3C原则:证据策展需满足完整性、简洁性和创造性。智能体会主动选择关键瞬间截图,甚至执行额外操作获取证据。
- 强化学习驱动:通过GRPO算法和内在奖励反馈,引导智能体提升证据质量,同时避免奖励黑客行为。
战绩显赫
SmartSnap表现优异,在AndroidLab等复杂任务上显著提升性能,最高提升达26.08%。经过训练的中等参数模型(如Qwen3-32B)表现可媲美开源大模型(如DeepSeek-V3/Qwen3-235B)。此外: - 平均每个任务只需提交1.5张快照证据,大幅降低验证成本; - 智能体交互轮数减少,但部分场景仍存在知识欠缺问题。
简化RL训练
SmartSnap为智能体配备了“取证相机”,无需事先编写复杂校验脚本或全程监控轨迹,而是让智能体边做边收集证据。这使基于合成任务的训练更便捷,适用于更多场景。
面向未来
SmartSnap标志着GUI智能体从“蛮力执行”迈向“认知协同”。这种主动寻找证据的能力提升了AI的可靠性,为大规模、低成本的AI部署铺平道路。未来的AI,不仅要“能干”,更要“可信”。
论文标题:SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap
-
2026-01-10 18:28:15 -
2026-01-10 18:27:08 -
2026-01-10 17:27:50