【新闻摘要】 11月19日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学组成的研究团队共同发布了首个具备自发性视觉语言模型(VLM)——LLaVA-o1。该模型拥有110亿参数,基于Llama-3.2-Vision-Instruct开发,涵盖总结、描述、推理和结论四个阶段。LLaVA-o1采用名为LLaVA-o1-100k的数据集进行微调,源自视觉问答(VQA)和GPT-4o生成的结构化推理注释。在推理计算方面,该模型运用了阶段级束搜索技术,显著提升了多模态推理基准测试的性能,尤其在数学和科学视觉问题上表现出色。与基础模型相比,LLaVA-o1的性能提升了8.9%,超过了众多大型和闭源的竞争对手。此次发布的LLaVA-o1标志着在视觉语言模型领域取得了重要进展,填补了文本和视觉问答模型之间的空白。【完】
原文链接
本文链接:https://kx.umi6.com/article/8925.html
转载请注明文章出处
相关推荐
.png)
换一换
为什么AI视频工具长得越来越像?
2025-05-16 14:30:09
钉钉将对所有 AI 大模型厂商开放,首批 7 家接入
2024-06-26 13:40:41
上海:支持人工智能企业将算力和语料作价入股开展多元融资
2025-03-17 14:43:32
479 文章
76583 浏览
24小时热文
更多

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54