综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,一款名为「豆包手机」的AI设备因强大的跨应用自动化功能引发热议。其能在数秒内完成比价下单、回微信、订机票等复杂任务,甚至在锁屏状态下后台运行。大模型实习生「宵逝」通过黑盒测试和逻辑推演,揭示其核心技术:基于Android Framework层的OS级影子系统,采用两套模式(直觉与推理)及混合感知路由,支持并行运行时和隐私隔离设计。该设备依托字节跳动的UI-TARS 2.0模型,具备多模态感知与动态规划能力,被业界视为GUI Agent技术落地的里程碑。专家认为,这标志着AI原生手机的开端,或重新定义未来智能设备形态。
原文链接
2025年12月,字节跳动推出的“豆包手机”因搭载系统级GUI Agent技术引发热议,首批3万台备货迅速售罄,二手市场价格翻倍。其核心技术基于自研UI-TARS模型,该模型最早于今年1月与清华大学联合开源,并持续迭代至UI-TARS-2版本,具备感知、动作、推理、记忆四大能力,支持跨应用自动化任务执行。官方演示显示,工程样机nubia M153可完成请假、订票等复杂操作。尽管引发权限安全争议,官方回应称需用户主动授权,且敏感操作由人工接管。此外,产品分为标准模式和Pro模式,分别针对速度与深度推理优化。尽管仍为技术预览版,但被评价为“全球首款真正的AI手机”,展现出手机从工具到智能伙伴的进化潜力。
原文链接
标题:字节Seed推出全新智能体UI-TARS-2,一个模型搞定多平台操作
正文:
字节Seed团队发布了最新智能体UI-TARS-2,能够自主操作手机、电脑和浏览器,完成复杂任务。例如,它仅用35秒就编写了一个重量单位转换函数,并计算出结果为4000克。相比Claude和OpenAI的同类模型...
原文链接
4月17日,字节跳动旗下的豆包大模型团队发布了基于视觉-语言模型的开源多模态智能体UI-TARS-1.5。该智能体能在虚拟环境中高效完成任务,支持真实设备及浏览器的操作。相较于前代,UI-TARS-1.5通过强化学习提升了高阶推理能力,强调“行动前思考”。团队提出以游戏为载体提升基础模型的通用推理能力,因其更依赖常识而非专业知识。UI-TARS-1.5具备四大技术优势:视觉感知增强、System 2推理机制、统一动作建模以及可自我演化的训练方式。项目已在GitHub、官网及Arxiv上开源。
原文链接
《科创板日报》17日消息,字节跳动旗下豆包大模型团队今日发布并开源了UI-TARS-1.5,这是一款基于视觉-语言模型打造的开源多模态智能体。该模型具备在虚拟环境中高效完成多种任务的能力,尤其在7个GUI图形用户界面评测基准中达到了SOTA(最高性能)。此外,UI-TARS-1.5首次展示了其在游戏中的长时推理能力和开放空间中的交互能力,标志着多模态智能体技术的重要进展。
原文链接
加载更多
暂无内容