vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

2025-07-10 17:25:30

梦境编程师

发布在

科普

阅读：620

vivo发布端侧多模态模型，仅3B参数实现GUI理解，20项评测表现优异

vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B，具备紧凑高效的特点，并能直接理解GUI界面。该模型融合了文本与图文理解能力，支持长短思考模式切换和思考预算控制机制（thinking token budget），在20余项评测任务中表现出色。

BlueLM-2.5-3B在文本任务中缓解了多模态模型常见的“文本能力遗忘”问题，在thinking模式下，其性能与4B以下规模的文本模型Qwen3-4B相当，且优于同规模及更大规模的多模态模型。在推理类任务（如Math-500、GSM8K）中，其效果甚至超越了更大规模的无thinking模式模型。在non-thinking模式下，它也全面领先于同规模的多模态模型。

在多模态任务中，BlueLM-2.5-3B同样表现突出，尤其在thinking模式下的推理任务中，其效果接近或优于更大规模模型。此外，它在GUI理解能力上也显著领先同规模模型，例如在ScreenSpot等指标上得分超过Qwen2.5-VL-3B和UI-TARS-2B。

为实现这些优势，BlueLM-2.5-3B采用了精巧的模型结构和高效的训练策略。其参数量仅2.9B，比同规模模型小22%，包含ViT、Adapter和LLM组件，支持动态分辨率输入和子图并行推理。预训练分为四个阶段：文本数据预训练、联合预训练、推理增强训练以及长文联合训练，有效避免了文本能力遗忘并提升了推理能力。

后训练阶段包括SFT和RL训练。SFT通过特殊token控制思考模式触发，而RL结合人类反馈和可验证奖励优化模型性能。高质量训练数据和自动化数据pipeline进一步提升了模型效果。

支撑高效训练的是vivo自建的高性能训练平台和框架，实现了千卡级训练场景下95%以上的近线性加速比，并通过模块化设计和稳定性保障确保长时间无中断训练。

技术报告：https://arxiv.org/abs/2507.05934

原文链接

本文链接：https://kx.umi6.com/article/21532.html

转载请注明文章出处

BlueLM-2.5-3B