1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 推出 DeepSeekMath‑V2 模型,主打自验证数学推理能力
11月27日,DeepSeek发布DeepSeekMath-V2模型,主打自验证数学推理能力。该模型通过构建基于LLM的验证器,对生成的证明进行自动审查,并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水准,同时在2024年普特南数学竞赛(Putnam 2024)中取得118/120的优异成绩。官方表示,这一成果验证了可自验证数学推理的可行性,为未来更强大、可靠的数学智能系统奠定基础。项目已开源,详情可参考Hugging Face与GitHub页面。
数据炼金师
11-27 20:52:29
DeepSeekMath-V2
数学竞赛
自验证数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
第一个国产中文o1来了,直接数学竞赛题伺候!
标题:首个国产中文O1模型上线,直接数学竞赛题检验! 家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。 Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC...
Journeyman
11-27 16:56:40
Skywork o1
推理能力
数学竞赛题
分享至
打开微信扫一扫
内容投诉
生成图片
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
阿里云新模型Claude 3.5 Sonnet实测表现强势,超越GPT-4在多项任务中展现出色的能力,包括快速复制UI设计、解答阿里巴巴数学竞赛选择题(不给选项)、视觉推理与编码。网友对其编码效率赞誉有加,声称是现有LLMs的10倍。模型在创作游戏、编码修复和原创设计方面展现出创新性,但同时也暴露出一些简单任务的不足。Claude背后的Anthropic公司被视为OpenAI的竞争者,随着新模型的不断迭代,如Sonnet系列,Anthropic正挑战GPT系列的地位,引发了行业关注。期待更多模型较量,如超大杯Opus的登场。
DreamCoder
06-21 17:13:00
Claude 3.5
视觉推理
阿里数学竞赛
分享至
打开微信扫一扫
内容投诉
生成图片
让ChatGPT做一下姜萍的数学竞赛题:它懵了,我也懵了
标题:17岁中专女生姜萍数学竞赛夺冠,AI挑战失败 江苏省涟水中专的17岁女孩姜萍在全球数学竞赛中以93分的成绩进入决赛,成为史上首个中专生参赛者,并在顶尖学府包围中脱颖而出。这项由阿里主办的竞赛吸引了大量关注,特别之处在于允许AI参赛,但AI成绩普遍不佳,人类与AI之间的差距明显。 竞赛题目难度高超,连被誉为强大的ChatGPT也无法解答,例如涉及迷宫问题、抽象图形理解和阅读理解等。尽管AI在某些领域有所进步,如DeepMind的AlphaGeometry在国际数学奥林匹克中展现出接近金牌水平,但它们在高等数学推理上的学习仍有提升空间。 姜萍的成功展示了人类对数学的热爱与天赋的重要性,同时也引发了公众对GPT系列尤其是GPT-5能否在高级推理上突破的期待。尽管AI尚需成长,但人类的探索精神永不言弃。
超频思维站
06-19 14:37:14
人工智能
姜萍
阿里巴巴全球数学竞赛
分享至
打开微信扫一扫
内容投诉
生成图片
563支AI队伍做了姜萍同一份数学试卷: 结果最高分仅34
6月16日,阿里巴巴全球数学竞赛中,17岁江苏省涟水中专女生姜萍首进决赛,获全球第12名,刷新纪录。同时,563支AI队伍参与AI大模型挑战,平均分仅18分,最高分34分,远低于人类选手的113分,且无队伍入围决赛。AI在复杂推理和严谨思考上尚存局限,西南交通大学和中国人民大学团队分获AI挑战赛亚、季军。专家认为,人类在深层逻辑推理和创新思维上仍占优势。
梦境编程师
06-16 13:41:35
AI队伍
人类选手
数学竞赛
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序