中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview,该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中,TeleAI-t1-preview得分超过GPT-4o,接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目,还能进行古今单位换算,并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略,包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。
原文链接
本文链接:https://kx.umi6.com/article/12183.html
转载请注明文章出处
相关推荐
换一换
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
2024-11-28 10:23:25
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 18:37:26
大语言模型会推理吗?
2024-11-13 11:33:40
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
2024-06-10 21:37:45
MIT 新研究指出 AI 不懂“no”,逻辑推理缺陷导致否定词成“盲区”
2025-05-22 09:22:19
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
2025-01-25 19:01:51
存储芯片领域又冲出一家IPO
2025-10-24 18:47:13
Mobileye连续三个季度营收同比增长,EyeQ芯片出货量持续增长
2025-10-24 11:32:17
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
OpenAI 挖走“快捷指令”原创团队,将为 ChatGPT 打造 Mac 桌面级 AI
2025-10-24 07:25:57
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
658 文章
310159 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54