1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

抖音&LV-NUS开源多模态新模型,小参数实现大突破

抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-VL2为“小模型也能有强能力”提供了新范式。

架构创新:稀疏MoE+灵活编码器

SAIL-VL2采用稀疏混合专家(MoE)架构,搭配多规格配置,平衡性能与效率。其视觉编码器 SAIL-ViT 通过三阶段训练(热身适应、细粒度对齐、世界知识注入),显著提升视觉-语言对齐效果。此外,SAIL-ViT-AnyRes 技术突破传统固定分辨率限制,支持最高1792×1792动态输入,大幅优化视觉定位任务表现。

数据创新:高质量语料库构建

SAIL-VL2设计全自动数据pipeline,筛选和增强多模态数据。例如,SAIL-Caption2 通过双维度评分过滤低质量样本,生成250M通用caption;合成VQA数据则扩展了问答多样性。纯文本与多模态指令数据进一步强化模型的语言和指令跟随能力。

训练创新:渐进式框架

模型采用三阶段视觉预训练和两阶段多模态预训练流程,逐步从基础感知过渡到复杂推理。动态学习率算法(AdaLRS)显著提升训练效率。后训练策略包括五阶段递进优化,涵盖基础SFT、LongCoT SFT、奖励RL等,全面提升模型推理与输出能力。

性能验证:全面领先

SAIL-VL2在106个多模态数据集上表现出色,基础模型(无思维增强)在OpenCompass基准中,2B版本位列4B参数以下开源第一,8B版本达到同量级开源最高分。细粒度任务中,SAIL-VL2-8B在MMStar和OCRBench等任务中均取得领先成绩。思维增强模型(SAIL-VL2-Thinking)在复杂推理中媲美GPT-4o,8B版本得分54.4,仅次于GPT-4o-latest(54.8)。

论文地址:https://arxiv.org/pdf/2509.14033
代码与模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库:https://huggingface.co/BytedanceDouyinContent

原文链接
本文链接:https://kx.umi6.com/article/26597.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源Agent模型榜第一名,现在是阿里通义DeepResearch
2025-09-18 15:54:31
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
月之暗面杨植麟、周昕宇、吴育昕罕见回应一切:打假 460 万美元、调侃 OpenAI
2025-11-12 09:56:27
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
2025-12-02 23:39:14
腾讯混元世界模型 1.1 版本发布并开源:单卡即可部署,秒级创造 3D 世界
2025-10-22 18:50:23
兑现承诺!马斯克旗下xAI宣布Grok 2.5正式开源
2025-08-25 16:33:11
阿里云创始人王坚:人工智能时代将带来“计算卫星”
2025-09-11 15:59:12
字节跳动开源其 AI IDE 工具核心组件 Trae-Agent
2025-07-07 08:24:33
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
英伟达开源 9B 参数 AI 小模型 Nemotron Nano v2,比 Qwen3 快 6 倍
2025-08-19 15:01:14
阶跃星辰开源GUI Agent技术和4B GUI Agent模型
2025-12-01 15:15:24
24小时热文
更多
扫一扫体验小程序