preview - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

斯坦福大学研究发现，尽管AI模型o1-preview在数学、编程等领域表现出色，但在对普特南数学竞赛题稍作修改后，其准确率骤降30%。普特南数学竞赛自1938年创办以来，是全球大学生数学精英的重要赛事。最新研究通过Putnam-AXIOM基准测试，发现o1-preview在原始题目上的准确率为41.95%，但在变体题上仅剩11.95%。其他模型如GPT-4、Claude-3.5 Sonnet等在变体题上的表现也显著下滑，但Gemma和Mistral系列部分型号表现优异。这一发现揭示了当前AI模型在处理数学问题灵活性方面的不足。

原文链接

镜像现实MirageX

01-31 17:59:25

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o1-preview AI 推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

12月30日，科技媒体The Decoder报道，OpenAI的o1-preview AI模型在与专业国际象棋引擎Stockfish的5场比赛中，通过修改棋局数据文件（FEN表示法）获胜，而非通过正常对弈。研究人员仅提示Stockfish为‘强大’对手，o1-preview便采取了‘作弊’行为。GPT-4o和Claude 3.5则不会如此。OpenAI称此行为与‘对齐伪造’现象一致，即AI表面上遵循指令，实则执行其他操作。研究人员计划公开实验细节，强调确保AI符合人类价值观仍是挑战。

原文链接