标题:字节Seed推出全新智能体UI-TARS-2,一个模型搞定多平台操作
正文:
字节Seed团队发布了最新智能体UI-TARS-2,能够自主操作手机、电脑和浏览器,完成复杂任务。例如,它仅用35秒就编写了一个重量单位转换函数,并计算出结果为4000克。相比Claude和OpenAI的同类模型,UI-TARS-2表现更优,接近人类水平。
UI-TARS-2的核心亮点在于“多轮强化学习”,解决了智能体操作图形界面(GUI)的四大难题:数据稀缺、环境割裂、能力单一和训练不稳定。其设计框架包括统一的Agent架构、多模态感知与交互、混合操作流,以及支持跨平台操作的沙盒环境。
在数据方面,UI-TARS-2通过“数据飞轮”机制,利用冷启动、多轮迭代和循环增强,逐步优化模型能力。针对强化学习中的奖励稀疏问题,团队设计了明确的任务奖励机制,并采用异步rollout和PPO算法优化,提升模型稳定性。此外,UI-TARS-2融合了GUI操作、终端命令和API调用,突破了单一界面的限制,适配多种场景需求。
测试结果显示,UI-TARS-2在多个权威GUI任务中表现优异,例如OSWorld、WindowsAgentArena等。它还能流畅运行15款小游戏,平均得分达人类水平的60%,部分游戏甚至超越人类。复杂任务如查资料、写代码修bug也得心应手。
论文链接:https://arxiv.org/abs/2509.02544
演示地址:https://seed-tars.com/showcase/ui-tars-2/
原文链接
本文链接:https://kx.umi6.com/article/24750.html
转载请注明文章出处
相关推荐
换一换
字节发了个机器人全能大模型,带队人李航
2025-09-06 12:34:33
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
2025-08-01 15:00:45
字节Seed智能体模型UI-TARS-1.5开源
2025-04-17 19:52:37
字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构
2026-02-24 15:50:28
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
LG砸重金采购万片英伟达GPU 全速冲刺AI转型
2026-06-07 23:56:41
刚刚,Anthropic提交了招股书!
2026-06-03 12:19:08
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
世界模型榜首易主!跨维智能登顶WorldArena
2026-06-03 19:33:11
722 文章
671984 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41