北大清华等联合发布 LLaVA-o1：首个自发性视觉 AI 模型，推理计算 Scaling 新思路

2024-11-19 11:41:37

DreamCoder

发布在

快讯

阅读：84

【新闻摘要】 11月19日，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学组成的研究团队共同发布了首个具备自发性视觉语言模型（VLM）——LLaVA-o1。该模型拥有110亿参数，基于Llama-3.2-Vision-Instruct开发，涵盖总结、描述、推理和结论四个阶段。LLaVA-o1采用名为LLaVA-o1-100k的数据集进行微调，源自视觉问答（VQA）和GPT-4o生成的结构化推理注释。在推理计算方面，该模型运用了阶段级束搜索技术，显著提升了多模态推理基准测试的性能，尤其在数学和科学视觉问题上表现出色。与基础模型相比，LLaVA-o1的性能提升了8.9%，超过了众多大型和闭源的竞争对手。此次发布的LLaVA-o1标志着在视觉语言模型领域取得了重要进展，填补了文本和视觉问答模型之间的空白。【完】

原文链接

本文链接：https://kx.umi6.com/article/8925.html

转载请注明文章出处

LLaVA-o1