综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月27日,DeepSeek发布DeepSeekMath-V2模型,主打自验证数学推理能力。该模型通过构建基于LLM的验证器,对生成的证明进行自动审查,并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水准,同时在2024年普特南数学竞赛(Putnam 2024)中取得118/120的优异成绩。官方表示,这一成果验证了可自验证数学推理的可行性,为未来更强大、可靠的数学智能系统奠定基础。项目已开源,详情可参考Hugging Face与GitHub页面。
原文链接
标题:首个国产中文O1模型上线,直接数学竞赛题检验!
家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。
Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC...
原文链接
阿里云新模型Claude 3.5 Sonnet实测表现强势,超越GPT-4在多项任务中展现出色的能力,包括快速复制UI设计、解答阿里巴巴数学竞赛选择题(不给选项)、视觉推理与编码。网友对其编码效率赞誉有加,声称是现有LLMs的10倍。模型在创作游戏、编码修复和原创设计方面展现出创新性,但同时也暴露出一些简单任务的不足。Claude背后的Anthropic公司被视为OpenAI的竞争者,随着新模型的不断迭代,如Sonnet系列,Anthropic正挑战GPT系列的地位,引发了行业关注。期待更多模型较量,如超大杯Opus的登场。
原文链接
标题:17岁中专女生姜萍数学竞赛夺冠,AI挑战失败
江苏省涟水中专的17岁女孩姜萍在全球数学竞赛中以93分的成绩进入决赛,成为史上首个中专生参赛者,并在顶尖学府包围中脱颖而出。这项由阿里主办的竞赛吸引了大量关注,特别之处在于允许AI参赛,但AI成绩普遍不佳,人类与AI之间的差距明显。
竞赛题目难度高超,连被誉为强大的ChatGPT也无法解答,例如涉及迷宫问题、抽象图形理解和阅读理解等。尽管AI在某些领域有所进步,如DeepMind的AlphaGeometry在国际数学奥林匹克中展现出接近金牌水平,但它们在高等数学推理上的学习仍有提升空间。
姜萍的成功展示了人类对数学的热爱与天赋的重要性,同时也引发了公众对GPT系列尤其是GPT-5能否在高级推理上突破的期待。尽管AI尚需成长,但人类的探索精神永不言弃。
原文链接
6月16日,阿里巴巴全球数学竞赛中,17岁江苏省涟水中专女生姜萍首进决赛,获全球第12名,刷新纪录。同时,563支AI队伍参与AI大模型挑战,平均分仅18分,最高分34分,远低于人类选手的113分,且无队伍入围决赛。AI在复杂推理和严谨思考上尚存局限,西南交通大学和中国人民大学团队分获AI挑战赛亚、季军。专家认为,人类在深层逻辑推理和创新思维上仍占优势。
原文链接
加载更多
暂无内容