推理速度提升 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

LIama 3+Mamba强强联手！蒸馏到线性RNN，推理速度提升1.6倍

Together AI团队成功地将Transformer和Mamba模型结合，推出了Llama 3+Mamba混合模型。通过蒸馏技术，将Transformer的参数集成到Mamba模型中，同时开发了推测解码算法加速推理过程，实现了推理速度最高提升1.6倍的显著效果。这一创新不仅保持了原有模型的高性能，甚至在某些任务上的表现超越了原始模型，尤其是在零样本和少样本的通用自然语言处理任务中。实验结果显示，在多轮聊天对话任务中，混合模型与Llama-3相当或更优，且在零样本任务评测中，混合模型的平均成绩优于同等规模的RNN模型。此外，推测解码算法的应用使得混合模型在单论和多轮任务上的性能得到了显著提升，尤其是在Zephyr和Llama混合模型上，推理速度分别提升了1.8倍和1.6倍以上。这一成果标志着大模型发展方向的一个重要里程碑，展示了混合模型在加速推理过程和提升性能方面的巨大潜力。

原文链接

梦境编程师

09-10 19:13:45

LIama 3

Mamba

推理速度提升

分享至

打开微信扫一扫

内容投诉

生成图片

拆分Transformer注意力，韩国团队让大模型解码提速20倍

韩国科研团队与科技研究院、LG和DeepMind合作研发了一种新型Transformer架构，称为Block Transformer。这种架构通过分割注意力机制，显著提高了大模型的解码速度，提升了20倍，同时降低了内存需求。研究指出，原始Transformer的全局KV缓存由于频繁访问导致计算效率低下，GPU利用率仅有1%。Block Transformer通过块级和块内注意力机制有效解决了这个问题，提升了推理吞吐量，保持或提高了模型性能。实验显示，Block Transformer在HellaSwag等任务上的准确性与原模型相当，而且在训练效率和内存使用方面表现出色。这项创新技术有潜力加速大模型的实际应用。

原文链接