上海AI Lab与南京大学、港中大合作推出了Prism框架,通过两阶段设计解耦视觉语言模型(VLM)的感知和推理,显著提高处理视觉任务的效率。研究发现,2B模型配合ChatGPT可达到10倍参数量VLM的性能,Prism展示了小规模VLM通过外部LLM提升的重要性和大模型推理能力对整体性能的限制。团队开发的专注感知的轻量级模型PrismCaptioner,通过与LLM整合,表现出优于端到端模型的性能。Prism框架为视觉语言模型研究和应用带来了新思路,论文已发表于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/2506.html
转载请注明文章出处
相关推荐
换一换
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
2025-06-09 18:31:59
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
业界首个:英伟达发布专注于自动驾驶的视觉语言动作模型 Alpamayo-R1
2025-12-02 07:58:16
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
628 文章
437100 浏览
24小时热文
更多
-
2026-02-25 12:16:21 -
2026-02-25 12:15:14 -
2026-02-25 10:07:43