标题:上交大冷静文:模型发展需芯片与系统协同
近期,上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出通过分层代码本缓存和代码本中心计算引擎实现超过 50% 的推理延迟降低,显著提升大语言模型推理效率。
论文负责人冷静文教授指出,向量量化(VQ)相比单元素量化的优势在于更低的比特压缩位宽。冷静文团队聚焦芯片架构和硬件互联,包括数据流设计及超节点高速互联。他强调国产芯片应避免单纯模仿英伟达,需有原创性思考,例如通过数据流芯片设计突破现有瓶颈。
冷静文认为,GPU红利渐尽,未来需创新芯片架构与编程方法。他提到,DeepSeek开源的代码库中,算子生成与多GPU编程有一定借鉴意义,但国产芯片还需构建对标CUDA的编程生态,降低学习门槛。
大集群优化方面,国内尚未拥有英伟达NVLink级别的高速互联,但华为CloudMatrix384超节点在编程生态上有一定助力。针对国产芯片的BF16/FP32收敛问题,冷静文建议加强原创设计和开放生态建设。
未来,芯片、系统与模型厂商需协同推进新型架构设计和模型小型化,共同推动大模型发展。针对英伟达出口限制,国内芯片厂商需注重生态建设和高带宽内存解决方案。
原文链接
本文链接:https://kx.umi6.com/article/18020.html
转载请注明文章出处
相关推荐
换一换
高性能计算电源芯片销售收入同比上升1402% 国产芯片概念股单日逼近20CM涨停 本周机构密集调研相关上市公司
2025-04-13 23:00:45
Clawdbot国产芯片适配完成!清华特奖出手,开源框架直接一键部署
2026-02-03 13:37:30
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
2024-08-02 17:05:22
腾讯云:全面适配主流国产芯片
2025-09-16 11:09:10
国产芯片大战更焦灼了丨焦点分析
2024-07-08 15:15:24
首次:国产芯片全程训练,智谱华为合作 GLM-Image 模型登顶 Hugging Face Trending
2026-01-16 09:24:46
蚂蚁集团推出两款 MoE 大模型,用国产芯片训练成本显著降低
2025-03-24 16:08:27
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
智谱 GLM-4.6 旗舰 AI 模型发布:代码能力全面进阶,适配寒武纪、摩尔线程芯片
2025-09-30 15:28:45
TPU芯片:国内面对AI大模型的另一种解法
2024-07-24 07:44:28
英伟达“丢掉”的1000亿,国产平替还能继续赚吗?
2025-07-18 14:40:54
国产芯片大战更焦灼了
2024-07-09 15:42:11
腾讯云宣布全面开放AI能力:完成主流国产芯片适配
2025-09-16 12:11:56
721 文章
616160 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41