
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月14日,“360智脑”官方公众号宣布推出360自研AI大模型360gpt2-o1。该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项数学评测中表现优异,包括MATH、高考数学、AIME24、AMC23等,不仅超越前代模型360gpt2-pro,也优于GPT-4o模型。此外,它还超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。360gpt2-o1采用了指令合成、质量/多样性筛选等方法来优化合成数据,提升了数据集的质量。同时,该模型采用两阶段训练策略,先用小模型生成多样化推理路径,再用大模型进行RFT训练和强化学习训练,从而提升模型推理能力和反思纠错能力。此外,该模型还引入了“慢思考”范式,通过蒙特卡洛树搜索探索多样化解决方案,并引入LLM进行错误验证和纠错,模拟人类逐步推理和反思的过程。
原文链接
加载更多

暂无内容