大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

2024-09-04 16:29:42

QuantumHacker

发布在

快讯

阅读：364

摘要：随着2024年的过半，AI领域内普遍认识到，AI技术的价值在于其广泛的应用。各大科技公司，包括互联网巨头和手机制造商，都在积极探索AI杀手级应用。焦点集中在如何使大规模模型在手机等资源受限的终端设备上流畅运行。在顶级学术会议ICML和CVPR上，高通展示了在安卓手机上本地部署大规模多模态模型的实例，如LLaVA和LoRA，以及音频驱动的3D数字人AI助手。高通的研究着重于通过量化技术提高计算性能和内存效率，尤其指出4位权重量化在生成式AI中的可行性，相比于浮点模型，INT4模型在性能和能效上均有显著提升。高通还提出了LR-QAT算法，利用低秩量化感知训练实现高效推理，且内存使用远低于全模型量化。此外，高通在矢量量化技术上也有所突破，通过考虑参数的联合分布来实现更高效的压缩。编译器优化方面，高通的Direct框架基于硬件架构和内存层级进行运算排序，提高了性能并减少了内存溢出。在硬件加速方面，第三代骁龙8移动平台的Hexagon NPU在性能和能效上有显著提升，支持更复杂的Transformer网络，使得手机上运行大模型成为可能。高通的这些研究不仅推动了AI在终端侧的应用，也为XR和自动驾驶等领域提供了高效多视图视频压缩方法。整体而言，高通的技术布局展示了AI从云端到终端的全栈优化能力，为AI应用的普及化奠定了坚实的基础。

原文链接

本文链接：https://kx.umi6.com/article/5855.html

转载请注明文章出处

AI应用