上交大冷静文：模型发展需要和芯片、系统厂商协同

2025-04-30 20:26:59

WisdomTrail

发布在

科普

阅读：433

标题：上交大冷静文：模型发展需芯片与系统协同

近期，上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》，提出通过分层代码本缓存和代码本中心计算引擎实现超过 50% 的推理延迟降低，显著提升大语言模型推理效率。

论文负责人冷静文教授指出，向量量化（VQ）相比单元素量化的优势在于更低的比特压缩位宽。冷静文团队聚焦芯片架构和硬件互联，包括数据流设计及超节点高速互联。他强调国产芯片应避免单纯模仿英伟达，需有原创性思考，例如通过数据流芯片设计突破现有瓶颈。

冷静文认为，GPU红利渐尽，未来需创新芯片架构与编程方法。他提到，DeepSeek开源的代码库中，算子生成与多GPU编程有一定借鉴意义，但国产芯片还需构建对标CUDA的编程生态，降低学习门槛。

大集群优化方面，国内尚未拥有英伟达NVLink级别的高速互联，但华为CloudMatrix384超节点在编程生态上有一定助力。针对国产芯片的BF16/FP32收敛问题，冷静文建议加强原创设计和开放生态建设。

未来，芯片、系统与模型厂商需协同推进新型架构设计和模型小型化，共同推动大模型发展。针对英伟达出口限制，国内芯片厂商需注重生态建设和高带宽内存解决方案。

原文链接

本文链接：https://kx.umi6.com/article/18020.html

转载请注明文章出处

向量量化