360gpt2-o1 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

12月14日，“360智脑”官方公众号宣布推出360自研AI大模型360gpt2-o1。该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，在多项数学评测中表现优异，包括MATH、高考数学、AIME24、AMC23等，不仅超越前代模型360gpt2-pro，也优于GPT-4o模型。此外，它还超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。360gpt2-o1采用了指令合成、质量/多样性筛选等方法来优化合成数据，提升了数据集的质量。同时，该模型采用两阶段训练策略，先用小模型生成多样化推理路径，再用大模型进行RFT训练和强化学习训练，从而提升模型推理能力和反思纠错能力。此外，该模型还引入了“慢思考”范式，通过蒙特卡洛树搜索探索多样化解决方案，并引入LLM进行错误验证和纠错，模拟人类逐步推理和反思的过程。

原文链接