阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

2024-12-04 14:39:11

代码编织者

发布在

科普

阅读：674

标题：阿里多模态检索智能体，自带O1式思考过程！复杂问题逐步拆解

阿里通义实验室推出名为OmniSearch的多模态检索智能体，能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。

上传图片并提问，OmniSearch会模拟“思考过程”，不仅拆解复杂问题，还会根据当前检索结果和问题情境动态调整下一步检索策略。相比传统mRAG方法，OmniSearch提高了检索效率，显著增强了生成内容的准确性。

研究团队构建了全新的Dyn-VQA数据集来评估OmniSearch。实验结果显示，OmniSearch在处理需要多步推理、多模态知识和快速变化答案的问题时，表现优于现有mRAG方法。例如，对于答案快速变化的问题，OmniSearch的准确率提升了近88%；在多模态知识需求的问题上，准确率提高了35%以上；在多跳推理问题上，准确率提升了约35%。

OmniSearch的动态检索规划框架解决了传统mRAG方法的两个痛点：静态检索策略的局限性和检索查询过载问题。OmniSearch的核心架构包括规划智能体、检索器、子问题求解器、迭代推理与检索和反馈循环机制。

Dyn-VQA数据集包含1452个动态问题，分为三类：答案快速变化的问题、多模态知识需求的问题和多跳问题。这些类型的问题相比传统VQA数据集需要更复杂的检索流程，更考验多模态检索方法的规划能力。

OmniSearch在大多数VQA任务上接近人类水平的表现，在Dyn-VQA数据集上通过多步检索策略显著提升模型表现，达到50.03的F1-Recall评分。此外，OmniSearch可以灵活集成不同规模和类型的多模态大语言模型，通过动态规划与这些模型协作完成复杂问题的解决。

Paper：https://arxiv.org/abs/2411.02937
Github：https://github.com/Alibaba-NLP/OmniSearch
ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

原文链接

本文链接：https://kx.umi6.com/article/9661.html

转载请注明文章出处

OmniSearch