1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案
正文:2025年10月,腾讯发布一种超低成本AI训练方法——无训练组相对策略优化(Training-Free GRPO)。该方法无需调整模型参数,仅通过提示词学习简短经验即可显著提升性能。实验表明,在数学推理和网页搜索任务中,使用DeepSeek-V3.1-Terminus模型的Training-Free GRPO效果显著优于传统微调方案,成本从70000元降至120元。例如,在AIME24和AIME25测试中,模型得分分别提升至82.7%和73.3%,工具调用效率也显著提高。此外,在WebWalkerQA基准测试中,其Pass@1得分达67.8%,较基线提升明显。
新智燎原
10-15 15:35:44
AI训练法
无训练GRPO
腾讯
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序