中科大与华为发布生成式推荐大模型,可在国产昇腾NPU上部署。在信息爆炸的时代,推荐系统已成为生活的重要组成部分。Meta提出的生成式推荐范式HSTU,将参数扩展至万亿级别,取得显著成果。
中科大与华为合作开发的推荐大模型部署方案适用于多种场景。报告总结了推荐范式的演变历程,指出具备扩展定律的生成式推荐范式是未来趋势。研究复现并分析了不同架构的生成式推荐模型及其扩展定律,通过消融实验揭示了HSTU扩展定律的来源,并使SASRec具备扩展性。HSTU在复杂场景和排序任务中的表现及扩展性得到验证,团队对未来研究方向进行了展望。
研究发现,具备扩展定律的生成式推荐范式正成为未来趋势。团队对比了HSTU、Llama、GPT和SASRec四种基于Transformer的架构,结果显示HSTU和Llama在参数扩展时性能显著提升,而GPT和SASRec扩展性不足,原因在于缺乏专为推荐任务设计的关键组件。
为探究HSTU等模型的可扩展性来源,团队进行了消融实验,发现相对注意力偏移(RAB)至关重要。通过引入HSTU的RAB并调整SASRec的残差连接方式,SASRec展现出良好扩展性。HSTU在多域、多行为和辅助信息等复杂场景中表现优异,在排序任务中也优于传统模型。
团队还研究了负采样率、评分网络架构及embedding维度对性能的影响,发现推荐大模型的扩展定律受垂直扩展和水平规模共同影响。未来研究将聚焦数据工程、Tokenizer、训练推理效率等领域,拓宽应用场景。
论文链接:https://arxiv.org/abs/2412.00714
主页链接:https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models
原文链接
本文链接:https://kx.umi6.com/article/16752.html
转载请注明文章出处
相关推荐
换一换
大模型开始打王者荣耀了
2025-09-02 12:31:33
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
消费电子将被大模型重新定义?云天励飞董事长陈宁:看好推理算力需求的爆发 全面押注AI芯片
2025-07-25 11:23:59
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
关于 AI Infra 的一切
2025-08-11 19:08:22
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
601 文章
379552 浏览
24小时热文
更多
-
2025-12-07 14:30:16 -
2025-12-07 13:30:59 -
2025-12-07 13:29:51