Scaling Law陷入困局，强化学习才是全村的希望？

2024-09-12 14:51:17

未来编码者

发布在

快讯

阅读：698

近期AI行业动态密集，涉及Scaling Law的困境、强化学习的崭露头角、OpenAI的草莓模型发布预告，以及ChatGPT Pro订阅计划的上线。首先，AI行业的普遍感受是大语言模型的进步停滞，尤其是达到数千亿参数后，成本和难度显著增加，尽管上万亿参数并未带来质变提升。硅谷共识聚焦于强化学习作为突破点，80%的公司考虑放弃预训练策略。在强化学习领域，Claude Sonnet 3.5和DeepSeek的进展超出了预期，尤其在代码能力和数学推理方面表现出色，展现了单点突破的优势。草莓模型，即OpenAI即将发布的新模型，预计将在未来两周内面世。初步反馈显示其性能虽优于GPT-4o，但在处理简短查询时表现欠佳，速度较慢，且缺乏图像集成功能。此外，草莓模型将采用高级定价策略，预计定价为每月200美元，相较于之前传闻的2000美元，相对更为亲民。 ChatGPT Pro订阅计划的推出，售价200美元/月，提供无限制使用GPT-4o的功能，但并无其他额外服务。市场普遍认为，草莓模型的价格可能是此次订阅升级的关键因素。草莓模型旨在通过自玩强化学习（Self-play RL）方法提升数学、代码能力，实现高度智能化，但其高昂的价格反映了更高智能的开发成本和数据价值。随着OpenAI即将在11月的开发者日公布更多细节，今年AI行业的动向将成为关注焦点，或将成为新的里程碑或平淡无奇。

原文链接

本文链接：https://kx.umi6.com/article/6227.html

转载请注明文章出处

Scaling Law