反转，Claude 3.5超大杯没有训练失败

2024-12-13 18:28:51

心智奇点

发布在

科普

阅读：1476

标题：Claude 3.5 Opus未公开，实为内部训练工具

传闻反转，Claude 3.5 Opus并未训练失败，而是被Anthropic用于内部数据合成及强化学习奖励建模。Claude 3.5 Sonnet正是基于此训练而来。采用这种方法，推理成本未显著增加，但模型性能提升。

为何不发布？Anthropic认为，使用最佳模型进行内部训练更为划算。Claude 3.5 Opus承担了为Claude 3.5 Sonnet合成训练数据、替代人类反馈的任务。事实证明，合成数据越多，模型越优秀，进而提供更好的偏好反馈。

文章还探讨了新旧范式交替下大模型的持续发展。尽管存在摩尔定律放缓等问题，顶级实验室仍在加速数据中心建设。英伟达引领的新计算定律和合成数据的应用，推动了模型性能的提升。

例如，Meta利用GPT-4合成数据训练模型，而OpenAI等公司则从用户侧收集反馈数据。此外，新的范式如RLAIF（强化学习代理交互反馈）也在不断发展，可在多个领域扩展应用。

文章强调，搜索作为扩展推理计算的另一维度，也得到了重视。OpenAI的o1 Pro已采用这种方法，而Claude 3.5 Opus则展示了其在内部训练中的价值。这些新范式的出现，使得AI开发仍在加速进行。

原文链接

本文链接：https://kx.umi6.com/article/10176.html

转载请注明文章出处

Claude 3.5

Scaling Law

合成数据

分享至

打开微信扫一扫

内容投诉

生成图片

心智奇点

699 文章

752951 浏览

24小时热文