1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

北大等团队发布了首个“慢思考”多模态视觉语言模型LLaVA-o1,基于Llama-3.2-Vision模型,超越传统思维链提示,实现了结构化、多步骤推理。在多模态推理基准测试中,LLaVA-o1比其基础模型提升了8.9%,并在性能上超越了一些开闭源模型。

例如,面对“减去所有小亮球和紫色物体,剩下多少个物体?”的问题,传统模型可能得出错误答案,而LLaVA-o1则采用了结构化的推理过程,分为总结、注释、推理和结论四个阶段,显著提高了系统推理能力。团队通过4个标签帮助模型识别推理阶段,并利用GPT-4生成数据集。

LLaVA-o1通过监督微调和阶段级光束搜索方法进一步提升推理能力。这种方法在每个推理阶段生成多个候选结果,选择最佳结果进入下一阶段,提高了推理质量。研究显示,LLaVA-o1在使用10万个训练样本和简单推理时间扩展方法后,实现了8.9%的性能提升。

研究团队由北京大学、鹏城实验室等机构组成,核心成员包括Guowei Xu、Peng Jin、Hao Li、袁粒、Yibing Song和Lichao Sun。团队计划开源LLaVA-o1的代码、预训练权重和数据集,供更多研究人员参考和使用。

原文链接
本文链接:https://kx.umi6.com/article/8931.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
老外担心中国大模型也学OpenAI闭源 智谱回应:别慌 会继续开源
2026-03-21 12:05:31
智谱开源GLM-OCR模型
2026-02-03 09:27:36
腾讯宣布企业微信正式开源CLI AI可调用日程、文档等7大能力
2026-03-30 10:41:47
月之暗面推出Kimi K2.5模型,全面升级多模态能力
2026-01-27 14:20:13
刚刚,全球视频模型新王诞生了!
2026-03-19 16:05:16
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026
2026-05-22 12:46:56
智谱发布首个多模态Coding基座模型 OpenClaw龙虾获视觉能力
2026-04-02 08:48:17
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
2026-04-30 15:28:30
大厂AI各走「开源」路
2025-10-17 09:09:57
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026
2026-05-12 15:17:35
北京人形机器人创新中心开源Pelican-VL 1.0模型
2025-11-13 21:24:03
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
24小时热文
更多
扫一扫体验小程序