标题:字节Seed推出全新智能体UI-TARS-2,一个模型搞定多平台操作
正文:
字节Seed团队发布了最新智能体UI-TARS-2,能够自主操作手机、电脑和浏览器,完成复杂任务。例如,它仅用35秒就编写了一个重量单位转换函数,并计算出结果为4000克。相比Claude和OpenAI的同类模型,UI-TARS-2表现更优,接近人类水平。
UI-TARS-2的核心亮点在于“多轮强化学习”,解决了智能体操作图形界面(GUI)的四大难题:数据稀缺、环境割裂、能力单一和训练不稳定。其设计框架包括统一的Agent架构、多模态感知与交互、混合操作流,以及支持跨平台操作的沙盒环境。
在数据方面,UI-TARS-2通过“数据飞轮”机制,利用冷启动、多轮迭代和循环增强,逐步优化模型能力。针对强化学习中的奖励稀疏问题,团队设计了明确的任务奖励机制,并采用异步rollout和PPO算法优化,提升模型稳定性。此外,UI-TARS-2融合了GUI操作、终端命令和API调用,突破了单一界面的限制,适配多种场景需求。
测试结果显示,UI-TARS-2在多个权威GUI任务中表现优异,例如OSWorld、WindowsAgentArena等。它还能流畅运行15款小游戏,平均得分达人类水平的60%,部分游戏甚至超越人类。复杂任务如查资料、写代码修bug也得心应手。
论文链接:https://arxiv.org/abs/2509.02544
演示地址:https://seed-tars.com/showcase/ui-tars-2/
原文链接
本文链接:https://kx.umi6.com/article/24750.html
转载请注明文章出处
相关推荐
换一换
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
2025-08-01 15:00:45
字节Seed智能体模型UI-TARS-1.5开源
2025-04-17 19:52:37
字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构
2026-02-24 15:50:28
字节发了个机器人全能大模型,带队人李航
2025-09-06 12:34:33
谷歌云推出7.5亿美元基金 助力合作伙伴加速智能体人工智能开发
2026-04-22 20:29:22
行业景气度高位运行 光模块企业扩产忙
2026-04-23 07:55:30
网友称用AI提前查到事业编成绩 官方回应:测试时意外进入 无不良影响
2026-04-24 18:27:05
别高估英伟达 别低估DeepSeek
2026-04-24 17:24:15
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
2026-04-23 16:14:21
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
国家人工智能产业投资基金等入股黑湖科技
2026-04-23 11:03:52
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23 23:34:55
702 文章
588422 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38