1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

6月6日,苹果机器学习研究中心发布论文指出,现有AI大模型更像是在记忆而非真正推理。研究评估了OpenAI、DeepSeek、Anthropic及谷歌的前沿推理模型,发现虽能在中等复杂任务中表现良好,但在高复杂度任务中性能急剧下降至零准确率。研究显示,随着问题难度增加,模型用于‘思考’的token数量反而减少,表明现有推理方法存在根本性局限。研究人员通过可控解谜环境分析模型内部推理轨迹,将任务分为低、中、高复杂度三个阶段,发现两类模型在高复杂度任务中均失效。此研究质疑了当前基于数学基准的评估方式,强调需更细致的实验设计以深入理解模型能力与局限,为未来研究提供方向。

原文链接
本文链接:https://kx.umi6.com/article/19884.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
2025-04-17 16:41:08
DeepSeek本地部署体验 比想象中有趣
2025-03-24 22:21:56
上海财经大学联合财跃星辰开源首个金融领域R1类推理大模型Fin-R1:仅7B参数,逼近DeepSeek满血版效果
2025-03-21 10:16:47
24小时热文
更多
扫一扫体验小程序