1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理

正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。

上海交通大学与上海人工智能实验室的研究团队提出全新解决方案——MM-HELIX,旨在赋予AI“长链反思性推理”能力,让其更接近人类智慧。

第一击:MM-HELIX基准测试

为评估AI的反思推理能力,团队构建了前所未有的“终极考场”——MM-HELIX Benchmark。它包含42种高难度任务,涵盖算法、图论、谜题和策略游戏,例如扫雷、推箱子和哈密顿路径规划。这些任务分为五层难度,最终形成1260道题目。测试结果显示,即便是顶尖模型,在多模态输入下的表现也大幅下滑,准确率普遍低于50%,证明反思能力的重要性。

第二击:MM-HELIX-100K数据集

教会AI反思需要高质量数据。团队通过“步骤启发式响应生成”(SERG)流程,基于MM-HELIX Sandbox高效生成解题过程,减少冗余并提升效率。由此打造的MM-HELIX-100K数据集包含10万个样本,是训练反思能力的理想素材。

第三击:AHPO算法

有了“考场”和“秘籍”,还需一位“智慧导师”。团队提出自适应混合策略优化算法(AHPO),通过动态调整指导强度帮助模型学习:新手阶段提供专家指导,熟练后逐步放手,鼓励自由探索。这一机制既避免了“灾难性遗忘”,又激发了独立思考能力。

成果与意义

搭载MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型在基准测试中准确率提升18.6%,超越多个SOTA模型,同时在通用任务中性能提升5.7%。这表明模型掌握了可迁移的反思能力,而非简单“背题”。

目前,MM-HELIX Benchmark、MM-HELIX 100K和Sandbox环境均已开源。项目主页:https://mm-helix.github.io/

原文链接
本文链接:https://kx.umi6.com/article/26931.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
小红书开源多模态大模型
2025-08-07 14:53:39
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
奥运攻关技术创新联合体在北京成立,将建全球最长智能跑道、首个国人运动人体专业多模态大模型
2025-05-29 19:40:55
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
24小时热文
更多
扫一扫体验小程序