2025年8月8日,小红书开源了首个多模态大模型dots.vlm1,基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平,可完成色盲图识别、数独解题、高考数学题解答等复杂任务,并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源,提供Demo供体验。这是小红书两个月内开源的第三款模型,体现了其技术自研的决心。团队强调多元智能研发方向,未来或将进一步结合图文生成能力与应用产品,推动更精准的内容理解和社区交互。
原文链接
本文链接:https://kx.umi6.com/article/23243.html
转载请注明文章出处
相关推荐
换一换
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
重构AI在数字和物理世界的生产力,生数科技完成超6亿元A+轮融资
2026-02-06 03:28:59
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
业界首个:英伟达发布专注于自动驾驶的视觉语言动作模型 Alpamayo-R1
2025-12-02 07:58:16
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
764 文章
573220 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17