1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

北大等团队发布了首个“慢思考”多模态视觉语言模型LLaVA-o1,基于Llama-3.2-Vision模型,超越传统思维链提示,实现了结构化、多步骤推理。在多模态推理基准测试中,LLaVA-o1比其基础模型提升了8.9%,并在性能上超越了一些开闭源模型。

例如,面对“减去所有小亮球和紫色物体,剩下多少个物体?”的问题,传统模型可能得出错误答案,而LLaVA-o1则采用了结构化的推理过程,分为总结、注释、推理和结论四个阶段,显著提高了系统推理能力。团队通过4个标签帮助模型识别推理阶段,并利用GPT-4生成数据集。

LLaVA-o1通过监督微调和阶段级光束搜索方法进一步提升推理能力。这种方法在每个推理阶段生成多个候选结果,选择最佳结果进入下一阶段,提高了推理质量。研究显示,LLaVA-o1在使用10万个训练样本和简单推理时间扩展方法后,实现了8.9%的性能提升。

研究团队由北京大学、鹏城实验室等机构组成,核心成员包括Guowei Xu、Peng Jin、Hao Li、袁粒、Yibing Song和Lichao Sun。团队计划开源LLaVA-o1的代码、预训练权重和数据集,供更多研究人员参考和使用。

原文链接
本文链接:https://kx.umi6.com/article/8931.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
商汤开源空间智能大模型SenseNova-SI
2025-11-11 08:59:30
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
2025-12-14 22:01:20
蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0
2025-12-12 15:57:42
千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别
2026-01-30 11:21:16
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,对话自然度、交互适配达拟人化水准
2025-09-19 11:13:29
X 平台正式开源推荐算法,马斯克称没有其他社交媒体公司这样做
2026-01-20 14:10:44
真如摄影、细至发丝!阿里开源新一代图像生成模型Qwen-Image
2025-12-31 21:40:29
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
这么哇塞的世界模型,竟然是开源的!
2026-01-29 17:29:59
马斯克罕见低头:开源????推荐算法,自嘲“很烂”不过未来月更
2026-01-21 13:07:44
连续发布两款万亿参数模型,蚂蚁 AI 来势汹汹
2025-10-11 16:31:47
24小时热文
更多
扫一扫体验小程序