抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

2025-10-14 12:13:47

E-Poet

发布在

科普

阅读：339

抖音&LV-NUS开源多模态新模型，小参数实现大突破

抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2，以2B、8B中小参数规模，在106个数据集上实现性能突破，尤其在复杂推理任务中表现优异，甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新，SAIL-VL2为“小模型也能有强能力”提供了新范式。

架构创新：稀疏MoE+灵活编码器

SAIL-VL2采用稀疏混合专家（MoE）架构，搭配多规格配置，平衡性能与效率。其视觉编码器 SAIL-ViT 通过三阶段训练（热身适应、细粒度对齐、世界知识注入），显著提升视觉-语言对齐效果。此外，SAIL-ViT-AnyRes 技术突破传统固定分辨率限制，支持最高1792×1792动态输入，大幅优化视觉定位任务表现。

数据创新：高质量语料库构建

SAIL-VL2设计全自动数据pipeline，筛选和增强多模态数据。例如，SAIL-Caption2 通过双维度评分过滤低质量样本，生成250M通用caption；合成VQA数据则扩展了问答多样性。纯文本与多模态指令数据进一步强化模型的语言和指令跟随能力。

训练创新：渐进式框架

模型采用三阶段视觉预训练和两阶段多模态预训练流程，逐步从基础感知过渡到复杂推理。动态学习率算法（AdaLRS）显著提升训练效率。后训练策略包括五阶段递进优化，涵盖基础SFT、LongCoT SFT、奖励RL等，全面提升模型推理与输出能力。

性能验证：全面领先

SAIL-VL2在106个多模态数据集上表现出色，基础模型（无思维增强）在OpenCompass基准中，2B版本位列4B参数以下开源第一，8B版本达到同量级开源最高分。细粒度任务中，SAIL-VL2-8B在MMStar和OCRBench等任务中均取得领先成绩。思维增强模型（SAIL-VL2-Thinking）在复杂推理中媲美GPT-4o，8B版本得分54.4，仅次于GPT-4o-latest（54.8）。

论文地址：https://arxiv.org/pdf/2509.14033
代码与模型：https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库：https://huggingface.co/BytedanceDouyinContent

原文链接

本文链接：https://kx.umi6.com/article/26597.html

转载请注明文章出处

SAIL-VL2