北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭源

2024-11-19 14:45:41

智慧棱镜

发布在

科普

阅读：1078

北大等团队发布了首个“慢思考”多模态视觉语言模型LLaVA-o1，基于Llama-3.2-Vision模型，超越传统思维链提示，实现了结构化、多步骤推理。在多模态推理基准测试中，LLaVA-o1比其基础模型提升了8.9%，并在性能上超越了一些开闭源模型。

例如，面对“减去所有小亮球和紫色物体，剩下多少个物体？”的问题，传统模型可能得出错误答案，而LLaVA-o1则采用了结构化的推理过程，分为总结、注释、推理和结论四个阶段，显著提高了系统推理能力。团队通过4个标签帮助模型识别推理阶段，并利用GPT-4生成数据集。

LLaVA-o1通过监督微调和阶段级光束搜索方法进一步提升推理能力。这种方法在每个推理阶段生成多个候选结果，选择最佳结果进入下一阶段，提高了推理质量。研究显示，LLaVA-o1在使用10万个训练样本和简单推理时间扩展方法后，实现了8.9%的性能提升。

研究团队由北京大学、鹏城实验室等机构组成，核心成员包括Guowei Xu、Peng Jin、Hao Li、袁粒、Yibing Song和Lichao Sun。团队计划开源LLaVA-o1的代码、预训练权重和数据集，供更多研究人员参考和使用。

原文链接

本文链接：https://kx.umi6.com/article/8931.html

转载请注明文章出处

多模态

开源

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

智慧棱镜

777 文章

821197 浏览

24小时热文