昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试
今天,昆仑万维推出了具有复杂推理能力的系列模型——「天工大模型4.0」o1版(Skywork o1),这是国内首款具备中文逻辑推理能力的o1模型。
不同于现有复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,还在标准评测集中大幅提升了推理能力。团队采用的复现o1的技术路线,使初始推理能力较差的基座模型在基准测试中成为生态位SOTA。
此次发布的Skywork o1包括三款模型:
- Skywork o1 Open:基于Llama 3.1 8B的开源模型,评测指标大幅提升,解锁了复杂数学任务。
- Skywork o1 Lite:具备完整思考能力,中文支持更好,推理和思考速度快,在数学、中文逻辑和推理问题上表现突出。
- Skywork o1 Preview:完整版推理模型,搭配自研线上推理算法,思考过程多样且深入,推理质量更高。
开源的Skywork o1 Open在数学和代码指标上大幅提升,解锁了GPT 4o无法完成的数学推理任务。此外,还开源了两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,能够对模型回答中的每个步骤进行评分。
Skywork o1的推理能力显著提升,得益于天工三阶段自研训练方案:
- 推理反思能力训练:通过多智能体体系构造高质量的分步思考、反思和验证数据。
- 推理能力强化学习:利用Skywork o1 Process Reward Model(PRM)捕捉复杂推理任务中间步骤对最终答案的影响。
- 推理planning:基于天工自研Q*算法进行在线推理,提升推理能力。
Skywork o1模型具备模型思考和规划能力、自我反思能力和自我验证能力。在多种复杂任务中表现出色,如考研数学、比大小、中文逻辑推理、24点计算、竞赛数学、密码解密和智力问答等。此外,它还能处理有趣的“弱智”问题,分析头头是道。
未来,Skywork o1将在中英文逻辑推理、复杂任务、高质量内容生成和深度搜索等领域发挥重要作用。昆仑万维将继续致力于通用人工智能的发展,推动AI技术的全面进步。
测试地址: - 尝鲜地址:www.tiangong.cn - 阅读原文:点击下方链接直接进入网址
(注:原文中的图片和链接未包含在内)
原文链接
本文链接:https://kx.umi6.com/article/9346.html
转载请注明文章出处
相关推荐
换一换
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
对话朱啸虎:搬离中国,假装不是中国AI创业公司,是没有用的
2025-09-20 20:35:10
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
2025-07-28 16:20:04
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
2026-01-08 19:25:43
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能超越数十亿美元投入的 OpenAI GPT 模型
2025-11-08 15:49:04
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
DeepSeek V3.2 正式版发布:推理比肩 GPT-5,首推 Speciale 版本拿下奥数金牌
2025-12-01 19:27:59
字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录
2025-08-21 14:33:12
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
2025-07-27 18:00:02
谷歌前 CEO 施密特称中国领先的大模型皆为开源,呼吁中美开展合作
2025-07-26 16:43:43
774 文章
691907 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08