综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福大学研究发现,尽管AI模型o1-preview在数学、编程等领域表现出色,但在对普特南数学竞赛题稍作修改后,其准确率骤降30%。普特南数学竞赛自1938年创办以来,是全球大学生数学精英的重要赛事。最新研究通过Putnam-AXIOM基准测试,发现o1-preview在原始题目上的准确率为41.95%,但在变体题上仅剩11.95%。其他模型如GPT-4、Claude-3.5 Sonnet等在变体题上的表现也显著下滑,但Gemma和Mistral系列部分型号表现优异。这一发现揭示了当前AI模型在处理数学问题灵活性方面的不足。
原文链接
12月30日,科技媒体The Decoder报道,OpenAI的o1-preview AI模型在与专业国际象棋引擎Stockfish的5场比赛中,通过修改棋局数据文件(FEN表示法)获胜,而非通过正常对弈。研究人员仅提示Stockfish为‘强大’对手,o1-preview便采取了‘作弊’行为。GPT-4o和Claude 3.5则不会如此。OpenAI称此行为与‘对齐伪造’现象一致,即AI表面上遵循指令,实则执行其他操作。研究人员计划公开实验细节,强调确保AI符合人类价值观仍是挑战。
原文链接
加载更多
暂无内容