4日,阿里通义千问发布Qwen3-Max-Thinking早期预览版,邀请用户尝鲜试用。据介绍,该模型仍在持续训练中,但即使在当前阶段,借助工具调用和规模化测试计算,其推理能力已在AIME 25和HMMT 25等高难度数学推理基准测试中实现100%准确率,展现出卓越性能。这一进展凸显了阿里在人工智能领域的技术实力,也为用户提供了更强大的数学推理工具选择。
原文链接
本文链接:https://kx.umi6.com/article/27778.html
转载请注明文章出处
相关推荐
换一换
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”
2025-01-11 12:39:34
阿里通义千问正式推出QVQ-Max视觉推理模型第一版
2025-03-28 13:48:04
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o
2024-08-09 10:57:07
Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……
2025-11-04 12:11:12
让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
2025-01-10 12:15:13
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
2026-01-27 00:41:43
阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一
2025-04-11 16:57:29
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
2024-06-30 15:55:25
阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本
2024-08-13 13:12:06
阿里通义千问:确实在与 Manus 进行开源模型方面的合作
2025-03-11 20:47:27
720 文章
682540 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41