标题:TeleAI“复杂推理大模型”达竞赛级数学表现,评分超o1-preview
近日,中国电信人工智能研究院(TeleAI)发布“复杂推理大模型”TeleAI-t1-preview,即将上线天翼AI开放平台。该模型采用强化学习训练,通过引入探索和反思等思考范式,显著提升了其在数学推导和逻辑推理等方面的准确性。
早在1500多年前,数学家祖冲之指出复杂事物可通过实际观测和数据推理求得。TeleAI-t1-preview在多项权威数学评测中表现优异,如AIME 2024和MATH500竞赛,分别获得60和93.8分,超越OpenAI o1-preview和GPT-4o等标杆模型。
模型不仅给出正确答案,还展示了完整的思考和分析过程,有助于学生深入理解题目背后的逻辑。例如,在解答涉及“泊松分布”的概率论考研试题时,TeleAI-t1-preview不仅介绍了概念,还提供了详细解题思路和答案。
TeleAI-t1-preview还能处理古代数学难题,如《九章算术》中的题目。它能理解并简化文言文,转换成现代汉语,进行数学推导并给出答案。此外,它在策略推理问题上表现出色,能快速理解游戏规则并提出有效的解题策略。
为了保障推理的有效性,TeleAI引入了创新的训练策略,包括构建高质量推理数据集、训练评估模型(Judge Model)、监督微调(SFT)阶段的MCTS构造数据,以及强化学习阶段的Rule-based Reward Model。这些措施使得模型的推理过程更加准确和透明。
原文链接
本文链接:https://kx.umi6.com/article/12206.html
转载请注明文章出处
相关推荐
换一换
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑
2026-06-02 12:26:59
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
2025-09-26 11:24:15
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
708 文章
609607 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08