抖音&LV-NUS开源多模态新模型,小参数实现大突破
抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-VL2为“小模型也能有强能力”提供了新范式。
架构创新:稀疏MoE+灵活编码器
SAIL-VL2采用稀疏混合专家(MoE)架构,搭配多规格配置,平衡性能与效率。其视觉编码器 SAIL-ViT 通过三阶段训练(热身适应、细粒度对齐、世界知识注入),显著提升视觉-语言对齐效果。此外,SAIL-ViT-AnyRes 技术突破传统固定分辨率限制,支持最高1792×1792动态输入,大幅优化视觉定位任务表现。
数据创新:高质量语料库构建
SAIL-VL2设计全自动数据pipeline,筛选和增强多模态数据。例如,SAIL-Caption2 通过双维度评分过滤低质量样本,生成250M通用caption;合成VQA数据则扩展了问答多样性。纯文本与多模态指令数据进一步强化模型的语言和指令跟随能力。
训练创新:渐进式框架
模型采用三阶段视觉预训练和两阶段多模态预训练流程,逐步从基础感知过渡到复杂推理。动态学习率算法(AdaLRS)显著提升训练效率。后训练策略包括五阶段递进优化,涵盖基础SFT、LongCoT SFT、奖励RL等,全面提升模型推理与输出能力。
性能验证:全面领先
SAIL-VL2在106个多模态数据集上表现出色,基础模型(无思维增强)在OpenCompass基准中,2B版本位列4B参数以下开源第一,8B版本达到同量级开源最高分。细粒度任务中,SAIL-VL2-8B在MMStar和OCRBench等任务中均取得领先成绩。思维增强模型(SAIL-VL2-Thinking)在复杂推理中媲美GPT-4o,8B版本得分54.4,仅次于GPT-4o-latest(54.8)。
论文地址:https://arxiv.org/pdf/2509.14033
代码与模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库:https://huggingface.co/BytedanceDouyinContent
.png)

-
2025-10-14 19:22:26
-
2025-10-14 19:21:15
-
2025-10-14 18:26:02