1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

最近,上海人工智能实验室与香港中文大学的研究团队发布论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》。通过全新评测基准MathIF,他们发现大模型越擅长复杂推理,越容易忽略用户指令要求,“聪明”和“听话”之间存在明显矛盾。

研究灵感源于实际使用推理模型时的发现:相比强化推理训练的大模型,GPT-4o在执行具体指令时更“听话”。这项工作揭示了推理能力与指令遵循之间的权衡。

MathIF基准专为数学推理任务设计,考察模型是否严格遵守指令要求,包括格式、语言、长度和关键词使用,可通过程序自动验证。MathIF包含简单到复杂的数学问题,每题附有明确指令,如“答案必须以一句中文完整作答”。

研究团队使用MathIF评估了23个主流大模型。结果显示,推理能力越强的模型,越难完全遵守指令,最优模型Qwen3-14B仅达到50%的指令遵循率。模型大小与指令遵循能力并非正相关,有时甚至负相关。

研究指出,推理导向训练虽提升解题能力,却削弱指令敏感性;长推理链也会降低服从性。为改善模型“听话”程度,研究者尝试在推理后重复指令要求,虽提升了遵循率,但牺牲了一定准确性。

论文地址:https://arxiv.org/pdf/2505.14810
GitHub地址:https://github.com/TingchenFu/MathIF

原文链接
本文链接:https://kx.umi6.com/article/19176.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI最强模型o1,仍分不出“9.11和9.8哪个大”
2024-09-13 12:16:49
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
2024-11-28 15:29:46
搅动推理 AI 模型风云:谷歌被曝 1 月 23 日发布增强版 Gemini 2.0 Flash Thinking
2025-01-21 11:36:22
研究:生成式 AI 更像是记忆大师而非推理高手
2024-07-17 17:47:38
GPT新版本猜想:奥特曼草莓图引发推理热潮
2024-09-06 12:03:27
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
2024-09-15 14:50:14
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
2025-06-19 09:43:42
DeepAI CEO Kevin Baragona:大模型竞争的本质,已经从算力竞争变成了效率竞争 丨2024 T-EDGE
2024-12-12 18:00:58
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?
2025-04-21 14:42:07
24小时热文
更多
扫一扫体验小程序