
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月7日,小红书hi lab宣布开源其dots模型家族中的首个视觉语言模型dots.vlm1。该模型基于12亿参数的视觉编码器和DeepSeek V3 LLM构建,经过大规模预训练与精调,在视觉感知和推理能力上达到接近行业领先水平(准SOTA)。这一开源项目有望推动多模态技术的发展,并为开发者提供更强大的工具支持。
原文链接
正文:8月6日,小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建,配备从零训练的12亿参数视觉编码器NaViT,并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写,dots.vlm1在视觉感知与推理方面接近SOTA水平,在MMMU、MathVision等基准测试中表现优异,同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间,其综合性能为开源多模态模型树立了新标杆。项目已开源。
原文链接
加载更多

暂无内容