2025年8月8日,小红书开源了首个多模态大模型dots.vlm1,基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平,可完成色盲图识别、数独解题、高考数学题解答等复杂任务,并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源,提供Demo供体验。这是小红书两个月内开源的第三款模型,体现了其技术自研的决心。团队强调多元智能研发方向,未来或将进一步结合图文生成能力与应用产品,推动更精准的内容理解和社区交互。
原文链接
本文链接:https://kx.umi6.com/article/23243.html
转载请注明文章出处
相关推荐
换一换
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
王兴兴透露:宇树机器人已能完成绝大部分工作动作
2025-11-16 15:42:36
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
696 文章
433831 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29