昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试
今天,昆仑万维推出了具有复杂推理能力的系列模型——「天工大模型4.0」o1版(Skywork o1),这是国内首款具备中文逻辑推理能力的o1模型。
不同于现有复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,还在标准评测集中大幅提升了推理能力。团队采用的复现o1的技术路线,使初始推理能力较差的基座模型在基准测试中成为生态位SOTA。
此次发布的Skywork o1包括三款模型:
- Skywork o1 Open:基于Llama 3.1 8B的开源模型,评测指标大幅提升,解锁了复杂数学任务。
- Skywork o1 Lite:具备完整思考能力,中文支持更好,推理和思考速度快,在数学、中文逻辑和推理问题上表现突出。
- Skywork o1 Preview:完整版推理模型,搭配自研线上推理算法,思考过程多样且深入,推理质量更高。
开源的Skywork o1 Open在数学和代码指标上大幅提升,解锁了GPT 4o无法完成的数学推理任务。此外,还开源了两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,能够对模型回答中的每个步骤进行评分。
Skywork o1的推理能力显著提升,得益于天工三阶段自研训练方案:
- 推理反思能力训练:通过多智能体体系构造高质量的分步思考、反思和验证数据。
- 推理能力强化学习:利用Skywork o1 Process Reward Model(PRM)捕捉复杂推理任务中间步骤对最终答案的影响。
- 推理planning:基于天工自研Q*算法进行在线推理,提升推理能力。
Skywork o1模型具备模型思考和规划能力、自我反思能力和自我验证能力。在多种复杂任务中表现出色,如考研数学、比大小、中文逻辑推理、24点计算、竞赛数学、密码解密和智力问答等。此外,它还能处理有趣的“弱智”问题,分析头头是道。
未来,Skywork o1将在中英文逻辑推理、复杂任务、高质量内容生成和深度搜索等领域发挥重要作用。昆仑万维将继续致力于通用人工智能的发展,推动AI技术的全面进步。
测试地址: - 尝鲜地址:www.tiangong.cn - 阅读原文:点击下方链接直接进入网址
(注:原文中的图片和链接未包含在内)
原文链接
本文链接:https://kx.umi6.com/article/9346.html
转载请注明文章出处
相关推荐
换一换
持续拥抱开源 腾讯混元一口气开源四款小尺寸模型 最小仅0.5B
2025-08-04 18:06:55
手机也能跑大模型,腾讯混元推出多款小尺寸开源模型
2025-08-04 17:00:39
英伟达发布“行业最高效”Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍
2025-12-15 23:04:58
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
2025-11-07 10:43:45
千问3.5登顶Hugging Face,前十开源模型中国占据8席
2026-02-24 15:53:18
蚂蚁集团发布万亿参数旗舰模型 Ling-1T 并开源,多项指标位居开源模型榜首
2025-10-11 09:36:05
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
2025-09-10 19:40:11
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
2025-07-28 16:20:04
卡内基梅隆大学新研究:部分 AI 正在学着变得“越来越自私”
2025-11-01 17:39:35
中国AI开源模型下载量占比首次超过美国
2025-11-27 18:49:55
谷歌前 CEO 施密特:大多数国家最终可能使用中国的 AI 模型
2025-11-12 16:13:53
716 文章
509437 浏览
24小时热文
更多
-
2026-03-13 10:02:40 -
2026-03-13 10:01:34 -
2026-03-13 08:59:18