标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调
正文:
由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可生成LoRA。
T2L生成的LoRA参数压缩率达80%,仅降1.2%准确率,零样本场景下平均准确率达78.3%,超越现有SOTA方法。这标志着“一句话定制模型”的时代到来,非技术用户也能轻松完成相关工作。
T2L包含三种架构变体:T2L-L、T2L-M和T2L-S。T2L-L为各层生成完整LoRA权重矩阵;T2L-M按模块类型共享输出空间;T2L-S为全模型生成统一适配器。团队还提出基于LoRA重建和监督微调两种训练模式。
实验显示,T2L-L在压缩后性能最优,而T2L-S压缩率最高。T2L能在资源受限环境中高效部署,零样本场景下平均准确率达78.3%,优于多任务LoRA和Arrow Routing。
SakanaAI由Llion Jones于2023年创立,他曾是Transformer架构的主要作者之一。公司专注于自然启发方法开发基础模型,包括达尔文哥德尔机和新型神经记忆系统NAMM。本论文由多位资深学者共同完成,已在ICML2025收录。
原文链接
本文链接:https://kx.umi6.com/article/20207.html
转载请注明文章出处
相关推荐
换一换
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
2024-09-17 14:52:32
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
2025-03-24 12:58:55
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
2025-01-14 15:12:54
每帧都是AI实时生成的,全球首款AI游戏问世了!
2024-11-05 15:45:38
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
2024-07-18 15:55:09
左手Transformer,右手世界模型,我们距离AGI还有多远?
2024-11-21 18:39:56
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
2024-06-21 15:42:20
o3来了,通用人工智能真的触手可及吗?
2025-01-07 09:58:26
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2024-12-04 16:39:33
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
2025-01-17 17:20:30
570 文章
301818 浏览
24小时热文
更多
-
2025-10-24 22:57:14 -
2025-10-24 21:54:02 -
2025-10-24 21:53:50