标题:上交大冷静文:模型发展需芯片与系统协同
近期,上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出通过分层代码本缓存和代码本中心计算引擎实现超过 50% 的推理延迟降低,显著提升大语言模型推理效率。
论文负责人冷静文教授指出,向量量化(VQ)相比单元素量化的优势在于更低的比特压缩位宽。冷静文团队聚焦芯片架构和硬件互联,包括数据流设计及超节点高速互联。他强调国产芯片应避免单纯模仿英伟达,需有原创性思考,例如通过数据流芯片设计突破现有瓶颈。
冷静文认为,GPU红利渐尽,未来需创新芯片架构与编程方法。他提到,DeepSeek开源的代码库中,算子生成与多GPU编程有一定借鉴意义,但国产芯片还需构建对标CUDA的编程生态,降低学习门槛。
大集群优化方面,国内尚未拥有英伟达NVLink级别的高速互联,但华为CloudMatrix384超节点在编程生态上有一定助力。针对国产芯片的BF16/FP32收敛问题,冷静文建议加强原创设计和开放生态建设。
未来,芯片、系统与模型厂商需协同推进新型架构设计和模型小型化,共同推动大模型发展。针对英伟达出口限制,国内芯片厂商需注重生态建设和高带宽内存解决方案。
原文链接
本文链接:https://kx.umi6.com/article/18020.html
转载请注明文章出处
相关推荐
换一换
爆火的DeepSeek一体机,更多满足的是情绪价值
2025-04-01 14:26:49
Nano Banana Pro 新对手,智谱联合华为开源首个国产芯片训练的多模态 SOTA 模型 GLM-Image
2026-01-14 10:24:53
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
2024-08-02 17:05:22
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
2026-01-14 15:40:11
DeepSeek带飞寒武纪
2025-04-23 12:55:50
上海市通信管理局副局长戴斌:建议推动国产芯片企业开放算力开发框架 共同培育国产算力生态
2024-11-26 20:41:25
中国芯片远赴沙特:商汤计划以国产芯打造当地建设算力基础设施
2025-11-12 18:16:45
万字回顾首届中国AI算力大会!15+位大咖主会场演讲精华爆棚,来没来都值得收藏
2025-07-04 14:44:08
独家|互联网厂商系英伟达H20购买主力 但是否大规模购买未定
2024-06-28 02:33:27
消息称蚂蚁集团采用阿里、华为等国产芯片训练 AI:性能匹敌英伟达 H800,成本降低 20%
2025-03-24 15:01:24
DeepSeek:UE8M0 FP8是针对即将发布的下一代国产芯片设计
2025-08-21 16:42:18
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
百度AI芯片公司冲刺IPO:出货量国产第二
2026-01-03 15:15:25
667 文章
467655 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22