12月14日,“360智脑”官方公众号宣布推出360自研AI大模型360gpt2-o1。该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项数学评测中表现优异,包括MATH、高考数学、AIME24、AMC23等,不仅超越前代模型360gpt2-pro,也优于GPT-4o模型。此外,它还超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。360gpt2-o1采用了指令合成、质量/多样性筛选等方法来优化合成数据,提升了数据集的质量。同时,该模型采用两阶段训练策略,先用小模型生成多样化推理路径,再用大模型进行RFT训练和强化学习训练,从而提升模型推理能力和反思纠错能力。此外,该模型还引入了“慢思考”范式,通过蒙特卡洛树搜索探索多样化解决方案,并引入LLM进行错误验证和纠错,模拟人类逐步推理和反思的过程。
原文链接
本文链接:https://kx.umi6.com/article/10205.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek对“王一博案”道歉?假新闻!
2025-07-03 23:32:06
GPT-5来了,Kimi却掉队了
2025-08-12 15:22:00
晶圆级芯片,是未来
2025-06-30 15:45:41
看完清北看浙大,DeepSeek 宝典一网打尽(附 12 部全集下载)
2025-03-05 20:19:43
国内最早的AI大模型公司已经开始亏损了
2025-04-28 08:44:59
被雷军千万年薪挖角的罗福莉已到新岗位 小米内部员工系统暂无信息
2025-02-18 17:27:41
钛媒体AGI独家
2025-02-19 19:54:56
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
YY 语音公司接入 DeepSeek 上线“YYDS”
2025-02-24 13:23:34
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
干货满满!“共筑金融新生态:AI大模型落地应用与实践”论坛成功举办
2025-02-24 20:35:31
对话宇树科技王兴兴:人形机器人,没有大家想象的那么复杂
2025-02-18 17:21:59
499 文章
173069 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37