标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理
正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。
上海交通大学与上海人工智能实验室的研究团队提出全新解决方案——MM-HELIX,旨在赋予AI“长链反思性推理”能力,让其更接近人类智慧。
第一击:MM-HELIX基准测试
为评估AI的反思推理能力,团队构建了前所未有的“终极考场”——MM-HELIX Benchmark。它包含42种高难度任务,涵盖算法、图论、谜题和策略游戏,例如扫雷、推箱子和哈密顿路径规划。这些任务分为五层难度,最终形成1260道题目。测试结果显示,即便是顶尖模型,在多模态输入下的表现也大幅下滑,准确率普遍低于50%,证明反思能力的重要性。
第二击:MM-HELIX-100K数据集
教会AI反思需要高质量数据。团队通过“步骤启发式响应生成”(SERG)流程,基于MM-HELIX Sandbox高效生成解题过程,减少冗余并提升效率。由此打造的MM-HELIX-100K数据集包含10万个样本,是训练反思能力的理想素材。
第三击:AHPO算法
有了“考场”和“秘籍”,还需一位“智慧导师”。团队提出自适应混合策略优化算法(AHPO),通过动态调整指导强度帮助模型学习:新手阶段提供专家指导,熟练后逐步放手,鼓励自由探索。这一机制既避免了“灾难性遗忘”,又激发了独立思考能力。
成果与意义
搭载MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型在基准测试中准确率提升18.6%,超越多个SOTA模型,同时在通用任务中性能提升5.7%。这表明模型掌握了可迁移的反思能力,而非简单“背题”。
目前,MM-HELIX Benchmark、MM-HELIX 100K和Sandbox环境均已开源。项目主页:https://mm-helix.github.io/
.png)

-
2025-10-19 21:54:09
-
2025-10-19 20:52:57
-
2025-10-19 19:52:44