360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

2024-12-14 11:46:11

GhostPilot

发布在

快讯

阅读：181

12月14日，“360智脑”官方公众号宣布推出360自研AI大模型360gpt2-o1。该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，在多项数学评测中表现优异，包括MATH、高考数学、AIME24、AMC23等，不仅超越前代模型360gpt2-pro，也优于GPT-4o模型。此外，它还超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。360gpt2-o1采用了指令合成、质量/多样性筛选等方法来优化合成数据，提升了数据集的质量。同时，该模型采用两阶段训练策略，先用小模型生成多样化推理路径，再用大模型进行RFT训练和强化学习训练，从而提升模型推理能力和反思纠错能力。此外，该模型还引入了“慢思考”范式，通过蒙特卡洛树搜索探索多样化解决方案，并引入LLM进行错误验证和纠错，模拟人类逐步推理和反思的过程。

原文链接

本文链接：https://kx.umi6.com/article/10205.html

转载请注明文章出处

360gpt2-o1