1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:阿里多模态检索智能体,自带O1式思考过程!复杂问题逐步拆解

阿里通义实验室推出名为OmniSearch的多模态检索智能体,能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。

上传图片并提问,OmniSearch会模拟“思考过程”,不仅拆解复杂问题,还会根据当前检索结果和问题情境动态调整下一步检索策略。相比传统mRAG方法,OmniSearch提高了检索效率,显著增强了生成内容的准确性。

研究团队构建了全新的Dyn-VQA数据集来评估OmniSearch。实验结果显示,OmniSearch在处理需要多步推理、多模态知识和快速变化答案的问题时,表现优于现有mRAG方法。例如,对于答案快速变化的问题,OmniSearch的准确率提升了近88%;在多模态知识需求的问题上,准确率提高了35%以上;在多跳推理问题上,准确率提升了约35%。

OmniSearch的动态检索规划框架解决了传统mRAG方法的两个痛点:静态检索策略的局限性和检索查询过载问题。OmniSearch的核心架构包括规划智能体、检索器、子问题求解器、迭代推理与检索和反馈循环机制。

Dyn-VQA数据集包含1452个动态问题,分为三类:答案快速变化的问题、多模态知识需求的问题和多跳问题。这些类型的问题相比传统VQA数据集需要更复杂的检索流程,更考验多模态检索方法的规划能力。

OmniSearch在大多数VQA任务上接近人类水平的表现,在Dyn-VQA数据集上通过多步检索策略显著提升模型表现,达到50.03的F1-Recall评分。此外,OmniSearch可以灵活集成不同规模和类型的多模态大语言模型,通过动态规划与这些模型协作完成复杂问题的解决。

Paper:https://arxiv.org/abs/2411.02937
Github:https://github.com/Alibaba-NLP/OmniSearch
ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

原文链接
本文链接:https://kx.umi6.com/article/9661.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
月之暗面将完成数亿美元融资
2025-10-24 10:36:59
Mobileye连续三个季度营收同比增长,EyeQ芯片出货量持续增长
2025-10-24 11:32:17
字节Seed团队推出3D生成大模型Seed3D 1.0
2025-10-23 16:12:12
科技部部长阴和俊:持续加强“十五五”人工智能顶层设计和体系化部署 聚力开发新的模型算法、高端算力芯片
2025-10-24 12:39:31
六大AI实盘交易追踪:中国模型收益领跑,GPT本金亏到不足三成
2025-10-23 18:12:20
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
快手进军AI编程!“模型+工具+平台”一口气放三个大招
2025-10-24 16:44:56
谷歌放大招!Gemini「吞下」2.5亿地图数据,路痴AI一夜成精
2025-10-24 11:33:27
具身智能落地茶颜悦色,“新店员”刷屏了
2025-10-24 16:46:05
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
24小时热文
更多
扫一扫体验小程序