1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理

正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。

上海交通大学与上海人工智能实验室的研究团队提出全新解决方案——MM-HELIX,旨在赋予AI“长链反思性推理”能力,让其更接近人类智慧。

第一击:MM-HELIX基准测试

为评估AI的反思推理能力,团队构建了前所未有的“终极考场”——MM-HELIX Benchmark。它包含42种高难度任务,涵盖算法、图论、谜题和策略游戏,例如扫雷、推箱子和哈密顿路径规划。这些任务分为五层难度,最终形成1260道题目。测试结果显示,即便是顶尖模型,在多模态输入下的表现也大幅下滑,准确率普遍低于50%,证明反思能力的重要性。

第二击:MM-HELIX-100K数据集

教会AI反思需要高质量数据。团队通过“步骤启发式响应生成”(SERG)流程,基于MM-HELIX Sandbox高效生成解题过程,减少冗余并提升效率。由此打造的MM-HELIX-100K数据集包含10万个样本,是训练反思能力的理想素材。

第三击:AHPO算法

有了“考场”和“秘籍”,还需一位“智慧导师”。团队提出自适应混合策略优化算法(AHPO),通过动态调整指导强度帮助模型学习:新手阶段提供专家指导,熟练后逐步放手,鼓励自由探索。这一机制既避免了“灾难性遗忘”,又激发了独立思考能力。

成果与意义

搭载MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型在基准测试中准确率提升18.6%,超越多个SOTA模型,同时在通用任务中性能提升5.7%。这表明模型掌握了可迁移的反思能力,而非简单“背题”。

目前,MM-HELIX Benchmark、MM-HELIX 100K和Sandbox环境均已开源。项目主页:https://mm-helix.github.io/

原文链接
本文链接:https://kx.umi6.com/article/26931.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
万亿赛道的具身智能,到底是什么?
2025-03-24 20:14:12
王兴兴透露:宇树机器人已能完成绝大部分工作动作
2025-11-16 15:42:36
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
24小时热文
更多
扫一扫体验小程序