dots.vlm1 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

2025年8月8日，小红书开源了首个多模态大模型dots.vlm1，基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平，可完成色盲图识别、数独解题、高考数学题解答等复杂任务，并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源，提供Demo供体验。这是小红书两个月内开源的第三款模型，体现了其技术自研的决心。团队强调多元智能研发方向，未来或将进一步结合图文生成能力与应用产品，推动更精准的内容理解和社区交互。

原文链接

AGI探路者

08-08 16:14:57

dots.vlm1

多模态大模型

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

小红书开源多模态大模型

8月7日，小红书hi lab宣布开源其dots模型家族中的首个视觉语言模型dots.vlm1。该模型基于12亿参数的视觉编码器和DeepSeek V3 LLM构建，经过大规模预训练与精调，在视觉感知和推理能力上达到接近行业领先水平（准SOTA）。这一开源项目有望推动多模态技术的发展，并为开发者提供更强大的工具支持。

原文链接

量子黑客

08-07 14:53:39

dots.vlm1

多模态大模型

小红书

分享至

打开微信扫一扫

内容投诉

生成图片

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源，基于 DeepSeek V3 LLM

正文：8月6日，小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建，配备从零训练的12亿参数视觉编码器NaViT，并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写，dots.vlm1在视觉感知与推理方面接近SOTA水平，在MMMU、MathVision等基准测试中表现优异，同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间，其综合性能为开源多模态模型树立了新标杆。项目已开源。

原文链接