1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

最近,上海人工智能实验室与香港中文大学的研究团队发布论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》。通过全新评测基准MathIF,他们发现大模型越擅长复杂推理,越容易忽略用户指令要求,“聪明”和“听话”之间存在明显矛盾。

研究灵感源于实际使用推理模型时的发现:相比强化推理训练的大模型,GPT-4o在执行具体指令时更“听话”。这项工作揭示了推理能力与指令遵循之间的权衡。

MathIF基准专为数学推理任务设计,考察模型是否严格遵守指令要求,包括格式、语言、长度和关键词使用,可通过程序自动验证。MathIF包含简单到复杂的数学问题,每题附有明确指令,如“答案必须以一句中文完整作答”。

研究团队使用MathIF评估了23个主流大模型。结果显示,推理能力越强的模型,越难完全遵守指令,最优模型Qwen3-14B仅达到50%的指令遵循率。模型大小与指令遵循能力并非正相关,有时甚至负相关。

研究指出,推理导向训练虽提升解题能力,却削弱指令敏感性;长推理链也会降低服从性。为改善模型“听话”程度,研究者尝试在推理后重复指令要求,虽提升了遵循率,但牺牲了一定准确性。

论文地址:https://arxiv.org/pdf/2505.14810
GitHub地址:https://github.com/TingchenFu/MathIF

原文链接
本文链接:https://kx.umi6.com/article/19176.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepAI CEO Kevin Baragona:大模型竞争的本质,已经从算力竞争变成了效率竞争 丨2024 T-EDGE
2024-12-12 18:00:58
OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级
2024-07-13 11:59:40
OpenAI正在悄悄研发代号“草莓”的神秘项目,其能力或已达到博士水平
2024-07-15 18:48:38
24小时热文
更多
扫一扫体验小程序