1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
2025年11月,DeepSeek开源全新数学模型DeepSeekMath-V2,专注自验证数学推理,打破谷歌和OpenAI在该领域的垄断。该模型在IMO 2025、CMO 2024及Putnam 2024竞赛中表现卓越,尤其在Putnam中以118/120超越人类最高分90分,并在代数、几何、数论等CNML级别问题上全面领先GPT-5-Thinking-High和Gemini 2.5-Pro。DeepSeekMath-V2采用迭代强化学习循环优化证明生成与验证,首次实现完全自动化数据标注流程,显著提升模型能力。此模型由研究员邵智宏主导开发,他曾提出经典算法GRPO并参与多个重要项目。这一成果标志着开源AI在复杂数学推理领域的重要突破。
像素宇宙
11-28 13:28:13
DeepSeekMath-V2
IMO金牌模型
自验证数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek 推出 DeepSeekMath‑V2 模型,主打自验证数学推理能力
11月27日,DeepSeek发布DeepSeekMath-V2模型,主打自验证数学推理能力。该模型通过构建基于LLM的验证器,对生成的证明进行自动审查,并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水准,同时在2024年普特南数学竞赛(Putnam 2024)中取得118/120的优异成绩。官方表示,这一成果验证了可自验证数学推理的可行性,为未来更强大、可靠的数学智能系统奠定基础。项目已开源,详情可参考Hugging Face与GitHub页面。
数据炼金师
11-27 20:52:29
DeepSeekMath-V2
数学竞赛
自验证数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
4日,阿里通义千问发布Qwen3-Max-Thinking早期预览版,邀请用户尝鲜试用。据介绍,该模型仍在持续训练中,但即使在当前阶段,借助工具调用和规模化测试计算,其推理能力已在AIME 25和HMMT 25等高难度数学推理基准测试中实现100%准确率,展现出卓越性能。这一进展凸显了阿里在人工智能领域的技术实力,也为用户提供了更强大的数学推理工具选择。
QuantumHacker
11-04 17:23:23
Qwen3-Max-Thinking
数学推理
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦 香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
智慧轨迹
07-09 15:04:14
Polaris
强化学习
数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
虚拟织梦者
07-08 17:52:09
大模型
强化学习
数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型 6月23日,网易有道宣布开源“子曰3”系列大模型中的数学模型(英文名Confucius3-Math),这是国内首个专注于数学教育且能在单块消费级GPU上高效运行的开源推理模型。该模型在多项数学推理任务中表现优异,超越了许多更大规模的...
镜像现实MirageX
06-23 17:25:48
子曰3
数学推理
有道
分享至
打开微信扫一扫
内容投诉
生成图片
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
标题:10% KV Cache实现无损数学推理!开源方法解决大模型「记忆过载」难题 推理大模型虽然强大,但面对复杂问题时会产生大量冗余内容,影响效率和准确性。一种名为R-KV的开源方法通过高效压缩KV缓存解决了这一问题,显存需求减少90%,吞吐量提升6.6倍,且保持100%的推理准确率。 R-K...
数据炼金师
06-16 17:10:44
KV缓存
推理大模型
无损数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
标题:西北大学与谷歌提出新框架:贝叶斯自适应强化学习提升LLM推理能力 西北大学与Google、谷歌DeepMind团队提出了一种名为贝叶斯自适应强化学习(BARL)的新框架,首次系统解释了大型语言模型(LLM)如何在推理中进行反思并探索新策略。传统强化学习(RL)中,模型在测试时倾向于利用已学...
GhostPilot
06-02 14:38:11
反思探索
数学推理
贝叶斯自适应强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16% 由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16...
未来编码者
05-08 09:23:53
AI模型
FormalMATH
数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
近日,深度学习模型DeepSeek-Prover-V2发布,包含7B和671B参数两种版本。该模型通过递归强化学习提升数学推理能力,在多项基准测试中表现出色。671B版本在MiniF2F-test上达到88.9%的通过率,显著优于现有开源模型。论文指出,模型通过冷启动数据合成及强化学习技术,将非形式化推理与形式化证明结合,实现高效数学证明。此外,7B小模型在特定任务中表现优异,解决了一些671B未完成的问题。DeepSeek-Prover-V2已在Hugging Face和GitHub开源,未来目标是攻克IMO级别难题。
AI奇点纪元
05-05 09:43:44
DeepSeek-Prover-V2
强化学习
数学推理
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序