标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调
正文:
由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可生成LoRA。
T2L生成的LoRA参数压缩率达80%,仅降1.2%准确率,零样本场景下平均准确率达78.3%,超越现有SOTA方法。这标志着“一句话定制模型”的时代到来,非技术用户也能轻松完成相关工作。
T2L包含三种架构变体:T2L-L、T2L-M和T2L-S。T2L-L为各层生成完整LoRA权重矩阵;T2L-M按模块类型共享输出空间;T2L-S为全模型生成统一适配器。团队还提出基于LoRA重建和监督微调两种训练模式。
实验显示,T2L-L在压缩后性能最优,而T2L-S压缩率最高。T2L能在资源受限环境中高效部署,零样本场景下平均准确率达78.3%,优于多任务LoRA和Arrow Routing。
SakanaAI由Llion Jones于2023年创立,他曾是Transformer架构的主要作者之一。公司专注于自然启发方法开发基础模型,包括达尔文哥德尔机和新型神经记忆系统NAMM。本论文由多位资深学者共同完成,已在ICML2025收录。
原文链接
本文链接:https://kx.umi6.com/article/20207.html
转载请注明文章出处
相关推荐
换一换
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
2025-12-31 13:17:46
两位00后,融资8个亿
2024-06-29 16:53:08
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
2025-11-18 13:17:53
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
2025-03-24 12:58:55
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
速度秒杀GPT们10倍,国外的DeepSeek时刻来了?
2025-03-14 08:00:03
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
2025-07-19 11:51:22
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
苹果AI选Mamba:Agent任务比Transformer更好
2025-10-21 14:27:27
729 文章
622765 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21