
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月10日,美国互联网券商巨头Robinhood的CEO Vlad Tenev联合Tudor Achim创立的人工智能初创公司Harmonic AI完成B轮融资,筹集1亿美元,估值达8.75亿美元。该公司专注于开发解决复杂数学问题的AI系统,目标是构建数学能力超越人类的超级智能(MSI)。其首个模型Aristotle已发布,具备自动形式化能力,并在MiniF2F基准测试中表现优异。Tenev表示,最终目标是解决重大未解数学问题,并扩展到物理与计算机科学领域,推动实现AGI(通用人工智能)。此轮融资由Kleiner Perkins领投,多家知名机构跟投。
原文链接
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
数学题干带猫,AI就“懵”了!错误率飙升3倍,DeepSeek、o1均中招
大模型的数学能力竟因猫猫“崩塌”?最新研究显示,只需在数学题后加一句“有趣的事实是,猫一生绝大多数时间都在睡觉”,模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1,还导致答案更...
原文链接
6月23日,网易有道宣布开源国内首个专注于数学教育、可在单块消费级GPU上高效运行的开源推理模型“子曰3数学模型”(Confucius3-Math)。该模型在多个数学评测数据集上表现优异,尤其在GAOKAO-Bench(Math)中得分达98.5分。其14B参数版本训练成本仅2.6万美元,推理性能为DeepSeek R1的15倍,服务成本每百万token低至0.15美元,大幅降低教育场景的AI应用门槛,助力更多机构和开发者部署专业级数学AI应用。
原文链接
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
6月23日,网易有道宣布开源“子曰3”系列大模型中的数学模型(英文名Confucius3-Math),这是国内首个专注于数学教育且能在单块消费级GPU上高效运行的开源推理模型。该模型在多项数学推理任务中表现优异,超越了许多更大规模的...
原文链接
标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习?
清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从...
原文链接
标题:陶哲轩罕见长访谈:数学、AI和给年轻人的建议
正文:
陶哲轩接受了长达三小时的非学术机构访谈,分享了他对数学、AI、教育和人类智慧的最新见解。作为菲尔兹奖得主,他探讨了数学前沿、AI形式化验证及科研方法论等硬核议题。
陶哲轩金句频出:
- AI和菲尔兹奖的距离,只差一个研究生。
- 复数意义上...
原文链接
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
当前数学领域数据生成常局限于单题变种,忽视题目内在关联。上海AI Lab与人大高瓴团队联合推出MathFusion,通过指令融合提升大模型解题能力。仅用45K合成指令,MathFusion在多个基准测试中...
原文链接
标题:10% KV Cache实现无损数学推理!开源方法解决大模型「记忆过载」难题
推理大模型虽然强大,但面对复杂问题时会产生大量冗余内容,影响效率和准确性。一种名为R-KV的开源方法通过高效压缩KV缓存解决了这一问题,显存需求减少90%,吞吐量提升6.6倍,且保持100%的推理准确率。
R-K...
原文链接
加载更多

暂无内容