2025年10月4日,Thinking Machines发布论文《LoRA Without Regret》,探讨低秩适配(LoRA)在特定条件下媲美全参数微调(FullFT)的性能。研究表明,LoRA在小到中等规模数据集上表现与FullFT相当,但对大批量训练容忍度较低。关键发现包括:LoRA需应用于所有层(尤其是MLP/MoE层),且其学习率通常为FullFT的10倍。此外,在强化学习场景中,即使低秩LoRA也能达到FullFT的效果。研究旨在推动LoRA在定制化场景中的广泛应用,同时深化对机器学习基础问题的理解。更多详情见博客与论文链接。
原文链接
本文链接:https://kx.umi6.com/article/26250.html
转载请注明文章出处
相关推荐
换一换
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
2025-10-11 09:28:41
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
从超级个体到超级团队,腾讯云发布WorkBuddy企业版
2026-06-05 17:06:00
刚刚,姚顺雨现身!公开回应腾讯AI落后了吗?
2026-06-05 12:54:51
AI创业者集结!“2026新一代人工智能(深圳)创业创新大赛”正式启动
2026-06-08 18:39:30
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
Hinton吹哨了:AI已经有意识!
2026-06-06 15:51:41
NUS 余浩泳教授:外骨骼的轻量化与任务感知丨ICRA 2026
2026-06-03 17:35:24
微信AI自动模式开启内测!用户一句话 可直接操作小程序页面
2026-06-08 17:42:03
App Store年成交1.4万亿美元 AI应用打开增量成长空间
2026-06-05 01:32:40
B站宣布启动AI创造公开赛 打造中国版Build in Public
2026-06-05 16:06:09
突发!Anthropic重磅发现:AI已开始自我进化 呼吁全球暂停研究
2026-06-05 10:55:28
AI掏空存储产能!美国九大行业联合请愿扩产芯片
2026-06-04 23:27:38
747 文章
656369 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08