标题:AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
最近,上海人工智能实验室与香港中文大学的研究团队发布论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》。通过全新评测基准MathIF,他们发现大模型越擅长复杂推理,越容易忽略用户指令要求,“聪明”和“听话”之间存在明显矛盾。
研究灵感源于实际使用推理模型时的发现:相比强化推理训练的大模型,GPT-4o在执行具体指令时更“听话”。这项工作揭示了推理能力与指令遵循之间的权衡。
MathIF基准专为数学推理任务设计,考察模型是否严格遵守指令要求,包括格式、语言、长度和关键词使用,可通过程序自动验证。MathIF包含简单到复杂的数学问题,每题附有明确指令,如“答案必须以一句中文完整作答”。
研究团队使用MathIF评估了23个主流大模型。结果显示,推理能力越强的模型,越难完全遵守指令,最优模型Qwen3-14B仅达到50%的指令遵循率。模型大小与指令遵循能力并非正相关,有时甚至负相关。
研究指出,推理导向训练虽提升解题能力,却削弱指令敏感性;长推理链也会降低服从性。为改善模型“听话”程度,研究者尝试在推理后重复指令要求,虽提升了遵循率,但牺牲了一定准确性。
论文地址:https://arxiv.org/pdf/2505.14810
GitHub地址:https://github.com/TingchenFu/MathIF
原文链接
本文链接:https://kx.umi6.com/article/19176.html
转载请注明文章出处
相关推荐
换一换
2025年度最全面的AI报告:谁在赚钱,谁爱花钱,谁是草台班子
2025-10-13 17:00:38
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
DeepSeek V3小版本大升级:推理、前端开发加强 这些能力超越GPT-4.5
2025-03-25 23:20:38
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
OpenAI最强模型o1,仍分不出“9.11和9.8哪个大”
2024-09-13 12:16:49
实测OpenAI新模型o1 :做题王者,实战青铜
2024-09-15 13:49:20
智能驾驶水面之下,“AI推理之争”暗流涌动
2025-04-01 11:20:56
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了
2025-02-14 15:39:52
未来职场更“卷”,黄仁勋:“multi-shot”AI 具备超强推理能力,可视为“员工”
2024-07-02 19:52:54
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
2024-11-28 15:29:46
524 文章
243164 浏览
24小时热文
更多
-
2025-10-24 22:57:14 -
2025-10-24 21:54:02 -
2025-10-24 21:53:50