腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

2025-10-15 15:35:44

新智燎原

发布在

快讯

阅读：553

正文：2025年10月，腾讯发布一种超低成本AI训练方法——无训练组相对策略优化（Training-Free GRPO）。该方法无需调整模型参数，仅通过提示词学习简短经验即可显著提升性能。实验表明，在数学推理和网页搜索任务中，使用DeepSeek-V3.1-Terminus模型的Training-Free GRPO效果显著优于传统微调方案，成本从70000元降至120元。例如，在AIME24和AIME25测试中，模型得分分别提升至82.7%和73.3%，工具调用效率也显著提高。此外，在WebWalkerQA基准测试中，其Pass@1得分达67.8%，较基线提升明显。

原文链接

本文链接：https://kx.umi6.com/article/26689.html

转载请注明文章出处

AI训练法