
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3月20日,Predibase发布全球首个端到端强化微调平台(RFT),支持无服务器和端到端训练方法。该平台受DeepSeek-R1开源项目的启发,无需大量标注数据,通过奖励和自定义函数实现强化学习。用户仅需浏览器即可完成数据上传、目标设定及复杂的大模型微调流程。Predibase利用RFT微调的Predibase-T2T-32B-RFT模型,在Kernelbench数据集上的正确率较DeepSeek-R1、OpenAI的o1及Claude 3.7 Sonnet高出3至4倍,且模型规模更小。此外,Predibase开源了该模型,并提供在线体验地址。
原文链接
就在刚刚,OpenAI发布了针对企业机构和开发者的强化微调(RFT)研究计划。OpenAI CEO Sam Altman对此表示兴奋,认为这是2024年的最大惊喜之一。
该计划允许开发人员使用大量高质量任务来训练模型,并根据标准答案评估模型的表现。这种方法不仅能增强模型在处理相似问题时的逻辑推理能力...
原文链接
OpenAI在12月7日启动的“shipmas”活动中推出了“强化微调”技术,旨在帮助开发者和工程师创建针对特定复杂领域任务的专家AI模型。这项技术通过强化学习算法,让模型在特定任务中的推理能力和准确性显著提升。与标准微调不同,“强化微调”无需大量样本数据,仅需少量示例即可显著提高模型性能。该技术适用于法律、金融、工程、保险等专业领域,助力这些行业实现智能化升级。OpenAI鼓励研究机构、高校和企业申请参与,提前访问Alpha版API进行测试。OpenAI首席执行官山姆·阿尔特曼表示,这是他2024年的最大惊喜之一。预计该功能将在2025年初公开发布。
原文链接
标题:OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜
正文:
OpenAI“双12”直播第二天,主题为新功能“强化微调”,使用极少训练数据即可创建专家模型。最低只需几十个例子。
CEO奥特曼称其效果极佳,是他2024年的最大惊喜。“微调后的o1-mini模...
原文链接
12月7日,OpenAI在其连续12天的宣讲活动中介绍了强化微调研究项目(Reinforcement Fine-Tuning Research Program)。该项目旨在帮助开发者和机器学习工程师通过数十至数千个高质量任务来定制模型,提高模型在特定领域的准确性和性能。新模型自定义技术允许根据参考答案对模型的响应进行评分,从而强化模型在类似问题上的推理能力。OpenAI表示,这一技术在法律、保险、医疗保健、金融和工程等领域有望取得显著成效,尤其是在需要客观正确答案的任务中表现尤为突出。OpenAI鼓励研究机构、大学和企业申请使用此技术。
原文链接
12月7日,OpenAI在“12日大直播”第二天发布了强化微调技术,旨在通过少量训练数据生成专家模型,适用于金融、法律、医疗、工程等领域。此技术能提升模型在特定任务上的表现,但需申请访问权限,预计2025年初公开。同日,马斯克的xAI和Meta公司也发布了新产品。xAI开放了Grok聊天机器人给所有用户,包括非付费用户,且无严格安全限制,引发关于图像真实性识别的担忧。Meta推出了Llama 3.3 70B模型,该模型在多个基准测试中优于竞争对手,且成本更低。此外,Meta计划投资100亿美元在路易斯安那州建立大型AI数据中心,以支持下一代Llama模型的训练。
原文链接
加载更多

暂无内容