1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异

vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token budget),在20余项评测任务中表现出色。

BlueLM-2.5-3B在文本任务中缓解了多模态模型常见的“文本能力遗忘”问题,在thinking模式下,其性能与4B以下规模的文本模型Qwen3-4B相当,且优于同规模及更大规模的多模态模型。在推理类任务(如Math-500、GSM8K)中,其效果甚至超越了更大规模的无thinking模式模型。在non-thinking模式下,它也全面领先于同规模的多模态模型。

在多模态任务中,BlueLM-2.5-3B同样表现突出,尤其在thinking模式下的推理任务中,其效果接近或优于更大规模模型。此外,它在GUI理解能力上也显著领先同规模模型,例如在ScreenSpot等指标上得分超过Qwen2.5-VL-3B和UI-TARS-2B。

为实现这些优势,BlueLM-2.5-3B采用了精巧的模型结构和高效的训练策略。其参数量仅2.9B,比同规模模型小22%,包含ViT、Adapter和LLM组件,支持动态分辨率输入和子图并行推理。预训练分为四个阶段:文本数据预训练、联合预训练、推理增强训练以及长文联合训练,有效避免了文本能力遗忘并提升了推理能力。

后训练阶段包括SFT和RL训练。SFT通过特殊token控制思考模式触发,而RL结合人类反馈和可验证奖励优化模型性能。高质量训练数据和自动化数据pipeline进一步提升了模型效果。

支撑高效训练的是vivo自建的高性能训练平台和框架,实现了千卡级训练场景下95%以上的近线性加速比,并通过模块化设计和稳定性保障确保长时间无中断训练。

技术报告:https://arxiv.org/abs/2507.05934

原文链接
本文链接:https://kx.umi6.com/article/21532.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025-09-24 14:42:04
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
Kimi最新多模态模型K2-VL提前现身
2026-01-05 15:13:56
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
2025-12-02 23:39:14
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!
2025-01-23 16:19:50
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
24小时热文
更多
扫一扫体验小程序