标题:上交大冷静文:模型发展需芯片与系统协同
近期,上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出通过分层代码本缓存和代码本中心计算引擎实现超过 50% 的推理延迟降低,显著提升大语言模型推理效率。
论文负责人冷静文教授指出,向量量化(VQ)相比单元素量化的优势在于更低的比特压缩位宽。冷静文团队聚焦芯片架构和硬件互联,包括数据流设计及超节点高速互联。他强调国产芯片应避免单纯模仿英伟达,需有原创性思考,例如通过数据流芯片设计突破现有瓶颈。
冷静文认为,GPU红利渐尽,未来需创新芯片架构与编程方法。他提到,DeepSeek开源的代码库中,算子生成与多GPU编程有一定借鉴意义,但国产芯片还需构建对标CUDA的编程生态,降低学习门槛。
大集群优化方面,国内尚未拥有英伟达NVLink级别的高速互联,但华为CloudMatrix384超节点在编程生态上有一定助力。针对国产芯片的BF16/FP32收敛问题,冷静文建议加强原创设计和开放生态建设。
未来,芯片、系统与模型厂商需协同推进新型架构设计和模型小型化,共同推动大模型发展。针对英伟达出口限制,国内芯片厂商需注重生态建设和高带宽内存解决方案。
原文链接
本文链接:https://kx.umi6.com/article/18020.html
转载请注明文章出处
相关推荐
.png)
换一换
国产芯片大战更焦灼了
2024-07-09 15:42:11
腾讯官宣全面适配主流国产芯片 云业务海外客户规模一年翻番
2025-09-16 15:14:43
AI全民化,你的品味更重要了
2025-05-02 08:53:00
消息称蚂蚁集团采用阿里、华为等国产芯片训练 AI:性能匹敌英伟达 H800,成本降低 20%
2025-03-24 15:01:24
独家|互联网厂商系英伟达H20购买主力 但是否大规模购买未定
2024-06-28 02:33:27
DeepSeek:UE8M0 FP8是针对即将发布的下一代国产芯片设计
2025-08-21 16:42:18
DeepSeek带飞寒武纪
2025-04-23 12:55:50
上海市通信管理局副局长戴斌:建议推动国产芯片企业开放算力开发框架 共同培育国产算力生态
2024-11-26 20:41:25
腾讯云宣布全面开放AI能力:完成主流国产芯片适配
2025-09-16 12:11:56
腾讯云:全面适配主流国产芯片
2025-09-16 11:09:10
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
上交大冷静文:模型发展需要和芯片、系统厂商协同
2025-04-30 20:26:59
DeepSeek V3到V3.1,走向国产算力自由
2025-08-24 09:10:38
540 文章
255514 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07