1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

抖音&LV-NUS开源多模态新模型,小参数实现大突破

抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-VL2为“小模型也能有强能力”提供了新范式。

架构创新:稀疏MoE+灵活编码器

SAIL-VL2采用稀疏混合专家(MoE)架构,搭配多规格配置,平衡性能与效率。其视觉编码器 SAIL-ViT 通过三阶段训练(热身适应、细粒度对齐、世界知识注入),显著提升视觉-语言对齐效果。此外,SAIL-ViT-AnyRes 技术突破传统固定分辨率限制,支持最高1792×1792动态输入,大幅优化视觉定位任务表现。

数据创新:高质量语料库构建

SAIL-VL2设计全自动数据pipeline,筛选和增强多模态数据。例如,SAIL-Caption2 通过双维度评分过滤低质量样本,生成250M通用caption;合成VQA数据则扩展了问答多样性。纯文本与多模态指令数据进一步强化模型的语言和指令跟随能力。

训练创新:渐进式框架

模型采用三阶段视觉预训练和两阶段多模态预训练流程,逐步从基础感知过渡到复杂推理。动态学习率算法(AdaLRS)显著提升训练效率。后训练策略包括五阶段递进优化,涵盖基础SFT、LongCoT SFT、奖励RL等,全面提升模型推理与输出能力。

性能验证:全面领先

SAIL-VL2在106个多模态数据集上表现出色,基础模型(无思维增强)在OpenCompass基准中,2B版本位列4B参数以下开源第一,8B版本达到同量级开源最高分。细粒度任务中,SAIL-VL2-8B在MMStar和OCRBench等任务中均取得领先成绩。思维增强模型(SAIL-VL2-Thinking)在复杂推理中媲美GPT-4o,8B版本得分54.4,仅次于GPT-4o-latest(54.8)。

论文地址:https://arxiv.org/pdf/2509.14033
代码与模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库:https://huggingface.co/BytedanceDouyinContent

原文链接
本文链接:https://kx.umi6.com/article/26597.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯开源混元 3D 2.1 大模型:首个全链路开源工业级 3D 生成大模型,PC 也能“跑”
2025-06-14 07:22:03
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
2025-07-26 00:31:49
大模型套壳往事
2025-07-14 18:26:03
小扎改口不开源,Meta股价暴涨12%
2025-08-01 08:56:20
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025-09-01 13:19:49
华为、中国移动、联通等宣布 openFuyao 开源发布,将致力于提供多样化算力集群软件生态
2025-05-26 21:49:09
马斯克宣布Grok-2正式开源 Grok-3也将在大概6个月内开源
2025-08-24 18:18:35
通义千问最新AI编程大模型Qwen3-Coder正式开源
2025-07-23 07:45:34
阿里云通义千问开源 Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini
2025-10-04 14:01:20
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
2025-09-23 10:12:45
开源版Genie3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
2025-08-19 10:59:13
24小时热文
更多
扫一扫体验小程序