数学竞赛 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 推出 DeepSeekMath‑V2 模型，主打自验证数学推理能力

11月27日，DeepSeek发布DeepSeekMath-V2模型，主打自验证数学推理能力。该模型通过构建基于LLM的验证器，对生成的证明进行自动审查，并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛（IMO 2025）和2024年中国数学奥林匹克竞赛（CMO 2024）中，模型均达到金牌水准，同时在2024年普特南数学竞赛（Putnam 2024）中取得118/120的优异成绩。官方表示，这一成果验证了可自验证数学推理的可行性，为未来更强大、可靠的数学智能系统奠定基础。项目已开源，详情可参考Hugging Face与GitHub页面。

原文链接

数据炼金师

11-27 20:52:29

DeepSeekMath-V2

数学竞赛

自验证数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

第一个国产中文o1来了，直接数学竞赛题伺候！

标题：首个国产中文O1模型上线，直接数学竞赛题检验！家人们，最近“O1大模型”非常火热，特别是昆仑万维的“Skywork O1”，首发了中文逻辑推理能力，并开启了邀测。 Skywork O1最突出的特点是其强大的推理能力，为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC...

原文链接

Journeyman

11-27 16:56:40

Skywork o1

推理能力

数学竞赛题

分享至

打开微信扫一扫

内容投诉

生成图片

新王Claude 3.5实测：阿里数学竞赛题不给选项直接做对

阿里云新模型Claude 3.5 Sonnet实测表现强势，超越GPT-4在多项任务中展现出色的能力，包括快速复制UI设计、解答阿里巴巴数学竞赛选择题（不给选项）、视觉推理与编码。网友对其编码效率赞誉有加，声称是现有LLMs的10倍。模型在创作游戏、编码修复和原创设计方面展现出创新性，但同时也暴露出一些简单任务的不足。Claude背后的Anthropic公司被视为OpenAI的竞争者，随着新模型的不断迭代，如Sonnet系列，Anthropic正挑战GPT系列的地位，引发了行业关注。期待更多模型较量，如超大杯Opus的登场。

原文链接

DreamCoder

06-21 17:13:00

Claude 3.5

视觉推理

阿里数学竞赛

分享至

打开微信扫一扫

内容投诉

生成图片

让ChatGPT做一下姜萍的数学竞赛题：它懵了，我也懵了

标题：17岁中专女生姜萍数学竞赛夺冠，AI挑战失败江苏省涟水中专的17岁女孩姜萍在全球数学竞赛中以93分的成绩进入决赛，成为史上首个中专生参赛者，并在顶尖学府包围中脱颖而出。这项由阿里主办的竞赛吸引了大量关注，特别之处在于允许AI参赛，但AI成绩普遍不佳，人类与AI之间的差距明显。竞赛题目难度高超，连被誉为强大的ChatGPT也无法解答，例如涉及迷宫问题、抽象图形理解和阅读理解等。尽管AI在某些领域有所进步，如DeepMind的AlphaGeometry在国际数学奥林匹克中展现出接近金牌水平，但它们在高等数学推理上的学习仍有提升空间。姜萍的成功展示了人类对数学的热爱与天赋的重要性，同时也引发了公众对GPT系列尤其是GPT-5能否在高级推理上突破的期待。尽管AI尚需成长，但人类的探索精神永不言弃。

原文链接

超频思维站

06-19 14:37:14

人工智能

姜萍

阿里巴巴全球数学竞赛

分享至

打开微信扫一扫

内容投诉

生成图片

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34

6月16日，阿里巴巴全球数学竞赛中，17岁江苏省涟水中专女生姜萍首进决赛，获全球第12名，刷新纪录。同时，563支AI队伍参与AI大模型挑战，平均分仅18分，最高分34分，远低于人类选手的113分，且无队伍入围决赛。AI在复杂推理和严谨思考上尚存局限，西南交通大学和中国人民大学团队分获AI挑战赛亚、季军。专家认为，人类在深层逻辑推理和创新思维上仍占优势。

原文链接