1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调

正文:

由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可生成LoRA。

T2L生成的LoRA参数压缩率达80%,仅降1.2%准确率,零样本场景下平均准确率达78.3%,超越现有SOTA方法。这标志着“一句话定制模型”的时代到来,非技术用户也能轻松完成相关工作。

T2L包含三种架构变体:T2L-L、T2L-M和T2L-S。T2L-L为各层生成完整LoRA权重矩阵;T2L-M按模块类型共享输出空间;T2L-S为全模型生成统一适配器。团队还提出基于LoRA重建和监督微调两种训练模式。

实验显示,T2L-L在压缩后性能最优,而T2L-S压缩率最高。T2L能在资源受限环境中高效部署,零样本场景下平均准确率达78.3%,优于多任务LoRA和Arrow Routing。

SakanaAI由Llion Jones于2023年创立,他曾是Transformer架构的主要作者之一。公司专注于自然启发方法开发基础模型,包括达尔文哥德尔机和新型神经记忆系统NAMM。本论文由多位资深学者共同完成,已在ICML2025收录。

原文链接
本文链接:https://kx.umi6.com/article/20207.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
2024-07-18 15:55:09
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
2025-07-17 18:26:53
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,英伟达 H100 的 20 倍
2024-06-26 12:30:19
谷歌 AI 掌门人 Jeff Dean 对话 Transformer 作者:AI 提速 300%,1000 万倍工程师要来了
2025-02-22 18:43:08
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
彩云科技DCFormer模型架构发布,效率是Transformer的两倍!
2024-06-07 18:02:52
一位AI从业者的十年
2024-12-05 14:02:03
那个要挑战GPT的00后清华男孩
2024-09-20 11:49:07
24小时热文
更多
扫一扫体验小程序