标题:字节Seed推出全新智能体UI-TARS-2,一个模型搞定多平台操作
正文:
字节Seed团队发布了最新智能体UI-TARS-2,能够自主操作手机、电脑和浏览器,完成复杂任务。例如,它仅用35秒就编写了一个重量单位转换函数,并计算出结果为4000克。相比Claude和OpenAI的同类模型,UI-TARS-2表现更优,接近人类水平。
UI-TARS-2的核心亮点在于“多轮强化学习”,解决了智能体操作图形界面(GUI)的四大难题:数据稀缺、环境割裂、能力单一和训练不稳定。其设计框架包括统一的Agent架构、多模态感知与交互、混合操作流,以及支持跨平台操作的沙盒环境。
在数据方面,UI-TARS-2通过“数据飞轮”机制,利用冷启动、多轮迭代和循环增强,逐步优化模型能力。针对强化学习中的奖励稀疏问题,团队设计了明确的任务奖励机制,并采用异步rollout和PPO算法优化,提升模型稳定性。此外,UI-TARS-2融合了GUI操作、终端命令和API调用,突破了单一界面的限制,适配多种场景需求。
测试结果显示,UI-TARS-2在多个权威GUI任务中表现优异,例如OSWorld、WindowsAgentArena等。它还能流畅运行15款小游戏,平均得分达人类水平的60%,部分游戏甚至超越人类。复杂任务如查资料、写代码修bug也得心应手。
论文链接:https://arxiv.org/abs/2509.02544
演示地址:https://seed-tars.com/showcase/ui-tars-2/
原文链接
本文链接:https://kx.umi6.com/article/24750.html
转载请注明文章出处
相关推荐
换一换
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
2025-08-01 15:00:45
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
字节发了个机器人全能大模型,带队人李航
2025-09-06 12:34:33
字节Seed智能体模型UI-TARS-1.5开源
2025-04-17 19:52:37
西北首台量子计算机落地西安
2025-12-07 08:18:21
广西“十五五”规划建议:打造面向东盟开放合作高能级平台
2025-12-07 10:24:46
AI眼镜取代不了手机,它想「干掉」传统眼镜
2025-12-08 12:26:26
Oculus 创始人拉奇为在战争中使用 AI 辩护:使用落后技术并无道德高地可言
2025-12-08 09:15:22
英国拟全面推广 AI 人脸识别系统,但黑人、亚裔“极易”被误报为涉案人员
2025-12-06 16:38:53
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
2025-12-06 21:51:03
张予彤出任月之暗面总裁
2025-12-08 19:45:13
中信证券:医疗健康产品销售线上化率有望迎来长足提升
2025-12-06 10:24:18
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
600 文章
365735 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52