2025年8月8日,小红书开源了首个多模态大模型dots.vlm1,基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平,可完成色盲图识别、数独解题、高考数学题解答等复杂任务,并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源,提供Demo供体验。这是小红书两个月内开源的第三款模型,体现了其技术自研的决心。团队强调多元智能研发方向,未来或将进一步结合图文生成能力与应用产品,推动更精准的内容理解和社区交互。
原文链接
本文链接:https://kx.umi6.com/article/23243.html
转载请注明文章出处
相关推荐
换一换
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
阶跃星辰走「窄门」
2025-06-12 18:36:57
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻
2025-01-09 11:54:47
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
阿里云通义千问开源 Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini
2025-10-04 14:01:20
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
597 文章
260806 浏览
24小时热文
更多
-
2025-10-24 19:49:44 -
2025-10-24 18:49:31 -
2025-10-24 18:49:20