数学能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 研究人员夸大 GPT-5 数学能力后删帖，遭杨立昆等业界人士批评

10月19日，OpenAI研究人员因夸大GPT-5数学能力引发争议。管理层成员凯文・韦尔曾在社交媒体宣称，GPT-5解决了10个未解的埃尔德什问题，但数学家托马斯・布鲁姆指出这些所谓‘未解问题’实际已有答案。随后，相关推文被删除，研究人员承认错误。DeepMind CEO德米斯・哈萨比斯批评此举‘令人尴尬’，Meta AI负责人杨立昆讽刺OpenAI‘被炒作反噬’。事件凸显AI研究领域炒作与严谨性之间的矛盾。数学家陶哲轩认为，GPT-5的实际价值在于辅助文献检索等繁琐工作，而非解决复杂开放性问题，人类专家仍不可或缺。

原文链接

QuantumHacker

10-19 08:45:17

GPT-5

OpenAI

数学能力

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI IMO金牌团队爆料：AI拒绝作答第六题

2025年，OpenAI的IMO金牌团队揭示其背后仅由三名核心开发者组成：Alexander Wei、Sheryl Hsu和Noam Brown，项目在竞赛前两三个月突击完成。模型成功攻克IMO难题被视为AI数学能力的重要里程碑，但在第六题上选择‘不作答’，显示出对自身能力边界的清晰认知。团队表示，这种行为避免了‘一本正经地胡说八道’，是AI的一大进步。此外，他们认为解决千禧年大奖难题仍遥不可及，因从1.5小时到数万小时思考时间的跨越难度极高。未来，团队计划将相关技术应用于更广泛的推理领域，并探索让AI学会‘提出问题’的能力。模型或开放供数学家使用，但具体细节仍在研究中。

原文链接

数据炼金师

08-03 12:36:46

AI数学能力

IMO金牌

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

AI拿下奥数IMO金牌，但数学界的AlphaGo时刻还没来

2025年国际数学奥林匹克（IMO）在澳大利亚落幕，AI领域迎来重要突破。OpenAI和DeepMind先后宣布其模型达到IMO金牌标准，分别获得35分，这是AI首次比肩顶尖高中生选手。OpenAI提前公布成绩引发争议，DeepMind则获IMO官方认证，但其金牌团队三名核心研究员已被Meta挖角。尽管AI取得显著进步，但专家认为这并非数学界的AlphaGo时刻，因72名人类选手同样达金牌标准，且AI仅解出5道题。此次突破证明语言模型可直接完成高难度数学推理，但仍存局限性。学术界对AI辅助数学研究褒贬不一，有人看好其潜力，也有人担忧数学自由探索精神被技术资本侵蚀。

原文链接

AGI探路者

08-01 10:58:23

AI数学能力

IMO金牌

数学研究

分享至

打开微信扫一扫

内容投诉

生成图片

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

标题：清华与英伟达合作提出新算法：监督学习也能从错误中学习？清华大学联合英伟达和斯坦福大学提出了一种名为NFT（Negative-aware FineTuning）的新监督学习方法。该方法基于RFT（Rejection FineTuning）算法，通过引入“隐式负向策略”来利用负向数据进行训练，从...

原文链接

跨界思维

06-22 14:17:41

数学能力

监督学习

负向策略

分享至

打开微信扫一扫

内容投诉

生成图片

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注！测试时强化学习，模型数学能力暴增159%！清华和上海AI Lab周伯文团队提出一种新方法：测试时强化学习（TTRL），无需数据标注，仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例，在AIME 2024竞赛题中的准确率从16.7%提升至43.3%，增幅...

原文链接

AI思维矩阵

04-24 14:35:28

数学能力提升

模型性能优化

测试时强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

科大讯飞星火 X1 模型升级，数学能力全面对标 DeepSeek R1 和 OpenAI o1

3月3日，科大讯飞宣布星火X1模型升级，数学能力全面对标DeepSeek R1和OpenAI o1。此次升级显著提升了数学答题效果，尤其在竞赛级难题上表现突出。星火X1在中小学数学作业批改、辅导及题目推荐等方面也有优势。此外，升级后的星火医疗大模型X1在医疗复杂场景推理上效果超过GPT-4o及DeepSeek R1，大幅降低医疗幻觉问题。星火教师助手也升级，实现AI教学思路更清晰详实，支持思维可视化。AI法官助理则提升了法律推理能力，贯穿案情分析、证据审查等环节。

原文链接

小阳哥

03-03 10:16:41

DeepSeek R1

数学能力

科大讯飞星火X1

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌杀回来了，新版Gemini跑分超o1登顶第一

谷歌最新发布的Gemini模型（Exp 1114）在竞技场Imsys的评测中超越了OpenAI的o1模型，成为新的榜首。经过6000多名网友的匿名投票，Gemini在多个项目中表现出色，包括数学、复杂提示处理、创意写作、指令遵循、长查询处理以及多轮对话能力。尤其值得一提的是，Gemini在数学能力上与o1不分伯仲。尽管在编程方面表现一般，但其视觉能力突出，超越了GPT-4o。此外，Gemini拥有32k的上下文窗口，支持思维链功能。目前，该模型已在谷歌AI Studio上线，官方计划后续提供API。尽管一些用户对其表现持保留态度，但总体来看，这一成果让谷歌在AI领域再度领先。摘要中的关键信息均保留，符合新闻三要素。摘要长度为213字。

原文链接

AI创意引擎

11-15 18:02:26

AI模型竞赛

数学能力

谷歌Gemini

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

【新闻摘要】 OpenAI发布的新模型o1在lmsys排行榜上全面超越Claude和谷歌Gemini模型，成为数学领域的佼佼者。o1-preview版本在数学、编码和提示领域均展现卓越能力，与最新版GPT-4o并列综合排名第二，而其迷你版o1-mini同样在多个领域与o1-preview并驾齐驱。...

原文链接

LunarCoder

09-20 14:20:11

lmsys排行榜

OpenAI o1

数学能力

分享至

打开微信扫一扫

内容投诉

生成图片

10行代码让大模型数学提升20%，“野路子”研究谷歌也测上了

标题：10行代码让大模型数学提升20%，开源研究受谷歌关注关键信息：独立学者提出仅需10行代码就能大幅提升大模型数学能力20%的改进方案，名为"最小p采样"（min-p sampling）。此方法旨在平衡生成文本的连贯性和多样性，通过动态调整抽样阈值来实现。研究显示，该方法已在Mistral-7...

原文链接

AI思维矩阵

08-24 14:37:28

min-p采样

大模型数学能力提升

开源社区关注

分享至

打开微信扫一扫

内容投诉

生成图片

Qwen2-Math 开源 AI 模型发布：阿里通义千问家族新成员，数学能力超 GPT-4o

【阿里通义千问家族新成员Qwen2-Math开源发布】阿里通义千问家族迎来数学能力超GPT-4的全新成员——Qwen2-Math。这一开源AI模型共有15亿、70亿及720亿参数三个版本，基于Qwen2 LLM构建，专为数学解题而设。据评估，在数学基准测试中，Qwen2-Math的72B指令微调模型展现出超越GPT-4、Claude-3.5-Sonnet、Gemini-1.5-Pro及Llama-3.1-405B的卓越性能。团队正积极开发支持英文与中文的双语模型，并计划进一步扩展至多语言领域。此模型的发布，旨在助力科学界解决复杂数学问题，展现出了强大的数学解题能力与潜力。【时效性信息】 - 发布日期：2023年8月9日 - 特点：开源、数学解题能力超越GPT-4 - 计划：开发支持多语言的版本

原文链接