中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview,该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中,TeleAI-t1-preview得分超过GPT-4o,接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目,还能进行古今单位换算,并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略,包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。
原文链接
本文链接:https://kx.umi6.com/article/12183.html
转载请注明文章出处
相关推荐
换一换
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
2024-11-28 10:23:25
MIT 新研究指出 AI 不懂“no”,逻辑推理缺陷导致否定词成“盲区”
2025-05-22 09:22:19
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
2025-01-25 19:01:51
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
2024-06-10 21:37:45
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 18:37:26
大语言模型会推理吗?
2024-11-13 11:33:40
上海发布具身智能应用场景
2025-12-13 11:48:07
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
2025-12-12 16:58:16
全美检察长协会致信批评微软等科技公司:AI 聊天机器人不能忽视安全
2025-12-12 18:00:58
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别
2025-12-12 16:57:24
罗永浩发文再谈AI手机:让躺着赚钱的大厂睡不着觉
2025-12-13 08:39:47
微软大动作开发超级智能!AI主管:若威胁人类将立即喊停
2025-12-12 19:04:23
705 文章
412404 浏览
24小时热文
更多
-
2025-12-13 15:58:26 -
2025-12-13 15:57:18 -
2025-12-13 15:56:11