12月14日,“360智脑”官方公众号宣布推出360自研AI大模型360gpt2-o1。该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项数学评测中表现优异,包括MATH、高考数学、AIME24、AMC23等,不仅超越前代模型360gpt2-pro,也优于GPT-4o模型。此外,它还超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。360gpt2-o1采用了指令合成、质量/多样性筛选等方法来优化合成数据,提升了数据集的质量。同时,该模型采用两阶段训练策略,先用小模型生成多样化推理路径,再用大模型进行RFT训练和强化学习训练,从而提升模型推理能力和反思纠错能力。此外,该模型还引入了“慢思考”范式,通过蒙特卡洛树搜索探索多样化解决方案,并引入LLM进行错误验证和纠错,模拟人类逐步推理和反思的过程。
原文链接
本文链接:https://kx.umi6.com/article/10205.html
转载请注明文章出处
相关推荐
.png)
换一换
“黑嘴”误导AI大模型作为操纵市场新工具 近期5家上市公司“躺枪”
2025-02-20 15:27:25
MiniMax-01系列模型上线超算互联网
2025-04-16 11:09:12
全球首个体重管理 AI 大模型“减单”在合肥发布
2025-03-24 08:47:05
438 文章
65330 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13