标题:上交大冷静文:模型发展需芯片与系统协同
近期,上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出通过分层代码本缓存和代码本中心计算引擎实现超过 50% 的推理延迟降低,显著提升大语言模型推理效率。
论文负责人冷静文教授指出,向量量化(VQ)相比单元素量化的优势在于更低的比特压缩位宽。冷静文团队聚焦芯片架构和硬件互联,包括数据流设计及超节点高速互联。他强调国产芯片应避免单纯模仿英伟达,需有原创性思考,例如通过数据流芯片设计突破现有瓶颈。
冷静文认为,GPU红利渐尽,未来需创新芯片架构与编程方法。他提到,DeepSeek开源的代码库中,算子生成与多GPU编程有一定借鉴意义,但国产芯片还需构建对标CUDA的编程生态,降低学习门槛。
大集群优化方面,国内尚未拥有英伟达NVLink级别的高速互联,但华为CloudMatrix384超节点在编程生态上有一定助力。针对国产芯片的BF16/FP32收敛问题,冷静文建议加强原创设计和开放生态建设。
未来,芯片、系统与模型厂商需协同推进新型架构设计和模型小型化,共同推动大模型发展。针对英伟达出口限制,国内芯片厂商需注重生态建设和高带宽内存解决方案。
原文链接
本文链接:https://kx.umi6.com/article/18020.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
上交大冷静文:模型发展需要和芯片、系统厂商协同
2025-04-30 20:26:59
蚂蚁集团推出两款 MoE 大模型,用国产芯片训练成本显著降低
2025-03-24 16:08:27
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
2024-08-02 17:05:22
上海市通信管理局副局长戴斌:建议推动国产芯片企业开放算力开发框架 共同培育国产算力生态
2024-11-26 20:41:25
消息称蚂蚁集团采用阿里、华为等国产芯片训练 AI:性能匹敌英伟达 H800,成本降低 20%
2025-03-24 15:01:24
国产芯片大战更焦灼了丨智涌分析
2024-07-10 11:47:53
Deepseek一句话 寒武纪市值超越这些大蓝筹
2025-08-22 16:52:32
DeepSeek V3到V3.1,走向国产算力自由
2025-08-24 09:10:38
一季报放榜,国产芯片集体飘红?
2025-04-25 12:06:32
TPU芯片:国内面对AI大模型的另一种解法
2024-07-24 07:44:28
DeepSeek 透露下一代国产芯片即将发布
2025-08-21 17:37:42
国产芯片大战更焦灼了丨焦点分析
2024-07-08 15:15:24
494 文章
170896 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08