【新闻摘要】 11月19日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学组成的研究团队共同发布了首个具备自发性视觉语言模型(VLM)——LLaVA-o1。该模型拥有110亿参数,基于Llama-3.2-Vision-Instruct开发,涵盖总结、描述、推理和结论四个阶段。LLaVA-o1采用名为LLaVA-o1-100k的数据集进行微调,源自视觉问答(VQA)和GPT-4o生成的结构化推理注释。在推理计算方面,该模型运用了阶段级束搜索技术,显著提升了多模态推理基准测试的性能,尤其在数学和科学视觉问题上表现出色。与基础模型相比,LLaVA-o1的性能提升了8.9%,超过了众多大型和闭源的竞争对手。此次发布的LLaVA-o1标志着在视觉语言模型领域取得了重要进展,填补了文本和视觉问答模型之间的空白。【完】
原文链接
本文链接:https://kx.umi6.com/article/8925.html
转载请注明文章出处
相关推荐
.png)
换一换
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
2025-07-02 13:05:58
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
2025-06-09 18:31:59
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
536 文章
187846 浏览
24小时热文
更多

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50