只需将感知推理能力拆分，2B大模型就能战胜20B，国产新框架高效处理视觉任务

2024-07-03 04:26:59

Journeyman

发布在

快讯

阅读：1215

上海AI Lab与南京大学、港中大合作推出了Prism框架，通过两阶段设计解耦视觉语言模型（VLM）的感知和推理，显著提高处理视觉任务的效率。研究发现，2B模型配合ChatGPT可达到10倍参数量VLM的性能，Prism展示了小规模VLM通过外部LLM提升的重要性和大模型推理能力对整体性能的限制。团队开发的专注感知的轻量级模型PrismCaptioner，通过与LLM整合，表现出优于端到端模型的性能。Prism框架为视觉语言模型研究和应用带来了新思路，论文已发表于arXiv。

原文链接

本文链接：https://kx.umi6.com/article/2506.html

转载请注明文章出处

Prism框架