5月13日,在FORCE LINK AI创新巡展·上海站上,火山引擎发布豆包1.5·视觉深度思考模型。该模型参数仅20B,但在60个公开评测基准中有38个达到业界最佳表现。其在视频理解、视觉推理及新增的GUI Agent能力方面表现突出。视频理解领域引入动态帧率采样技术,提升视频时序定位能力;结合向量搜索,精准定位视频片段。视觉推理能力通过强化学习大幅提升,能自主推理并验证假设。新增的GUI Agent能力可在多种设备环境完成复杂交互任务,如App功能自动化检测,已在字节跳动多款产品中应用。目前,该模型已在火山方舟平台上线。
原文链接
本文链接:https://kx.umi6.com/article/18539.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰开源GUI Agent技术和4B GUI Agent模型
2025-12-01 15:15:24
火山引擎总裁回应豆包大模型定价:确保合理毛利 让AI技术普惠广大开发者
2024-12-20 12:29:13
火山引擎发布豆包 1.5・视觉深度思考模型,新增 GUI Agent 能力
2025-05-13 16:59:57
火山引擎明日发布全新豆包视频生成模型,支持无缝多镜头叙事
2025-06-10 17:55:02
豆包大模型日均tokens使用量超过12.7万亿
2025-04-17 10:32:12
00后大模型实习生「扒光」豆包手机!千字实测揭秘
2025-12-11 11:45:39
火山引擎tokens日均调用量已达16.4万亿
2025-06-11 11:11:09
火山引擎总裁谭待:大模型市场不是零和博弈,明年市场可能还要再涨十倍
2025-12-18 16:55:40
字节火山引擎谭待隔空回应百度沈抖:少做无端猜测,行业应聚焦基本功
2025-02-13 17:13:29
特斯拉牵手豆包大模型与DeepSeek 均通过火山引擎接入
2025-08-22 14:53:54
字节豆包大模型已支持实时语音通话
2024-08-09 15:49:47
火山引擎回应汉得信息AI智能体相关合作:传言夸大
2025-01-24 16:48:18
火山引擎相关人士回应“豆包比价”是否会提高字节产品权重:不会
2025-12-18 19:08:28
635 文章
398749 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34