强化微调平台 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

3月20日，Predibase发布全球首个端到端强化微调平台（RFT），支持无服务器和端到端训练方法。该平台受DeepSeek-R1开源项目的启发，无需大量标注数据，通过奖励和自定义函数实现强化学习。用户仅需浏览器即可完成数据上传、目标设定及复杂的大模型微调流程。Predibase利用RFT微调的Predibase-T2T-32B-RFT模型，在Kernelbench数据集上的正确率较DeepSeek-R1、OpenAI的o1及Claude 3.7 Sonnet高出3至4倍，且模型规模更小。此外，Predibase开源了该模型，并提供在线体验地址。

原文链接