正文:2025年10月,腾讯发布一种超低成本AI训练方法——无训练组相对策略优化(Training-Free GRPO)。该方法无需调整模型参数,仅通过提示词学习简短经验即可显著提升性能。实验表明,在数学推理和网页搜索任务中,使用DeepSeek-V3.1-Terminus模型的Training-Free GRPO效果显著优于传统微调方案,成本从70000元降至120元。例如,在AIME24和AIME25测试中,模型得分分别提升至82.7%和73.3%,工具调用效率也显著提高。此外,在WebWalkerQA基准测试中,其Pass@1得分达67.8%,较基线提升明显。
原文链接
本文链接:https://kx.umi6.com/article/26689.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯开源通用文本表示模型Youtu-Embedding
2025-10-14 15:23:15
腾讯总裁刘炽平:元宝已成为中国DAU排名第三的AI原生移动应用
2025-03-19 17:51:33
估值160亿,上海AI芯片独角兽冲刺IPO,腾讯是大股东
2024-08-28 17:28:53
腾讯VS网易,从拼游戏到拼AI
2025-08-14 21:02:49
腾讯称正在探索降低AI游戏技术F.A.C.U.L的算力负载
2025-04-18 09:09:10
腾讯发布一站式工作平台“混元3D Studio”
2025-09-19 15:17:12
腾讯正式开源智能体框架Youtu-Agent
2025-09-02 15:37:10
腾讯把12亿用户,都变成了免费的"标注民工"
2024-08-16 11:14:16
华人学子闪耀NeurIPS顶会,背后最大赢家竟是它
2024-12-25 14:04:04
腾讯推出混元T1深度思考模型
2025-02-17 14:57:08
苹果据悉与腾讯、字节初步接洽 考虑将二者AI模型嵌入在华销售的iPhone
2024-12-19 13:58:02
5万亿腾讯凶猛归来
2025-08-15 16:19:31
免费!鹅厂最新3D生成模型火爆外网,CG导演都已经用上了
2025-05-07 16:10:41
567 文章
275944 浏览
24小时热文
更多

-
2025-10-15 22:41:41
-
2025-10-15 21:41:25
-
2025-10-15 20:41:14