
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超H100。今年,AI大厂对GPU的投入持续加码,但单纯堆卡并非最优解。传统AI集群面临通信瓶颈、内存碎片化等问题,难以充分发挥性能。华为发布60页论文,提出下一代AI数据中心架构——CloudMatrix,以及第一代产品CloudM...
原文链接
英伟达GTC大会发布全新Blackwell Ultra AI芯片,性能大幅提升,支持FP4和FP8精度任务,配备20TB HBM3和40TB快存,带宽翻倍。Blackwell Ultra将于今年下半年推出,适用于多种AI任务。此外,下一代Rubin芯片计划2026年下半年发布,性能较Hopper提升900倍。Rubin Ultra NVL576预计2027年下半年面世,性能更强大。英伟达还推出Dynamo OS,优化AI推理服务。DeepSeek-R1推理速度创新高,每用户每秒超250个token。黄仁勋强调AI工厂理念,展示Isaac GR00T N1开源人形机器人及Newton物理引擎。英伟达通过硬件与软件结合,巩固AI推理领域领导地位。
原文链接
腾讯AI Lab与香港中文大学合作,提出“无监督前缀微调”(UPFT)技术,大幅提升大型语言模型推理效率。UPFT仅需关注模型输出的前8至32个词元,无需完整推理过程。研究显示,不同推理路径的初期步骤高度相似,UPFT利用这一特性,减少95%的tokens训练,显著降低时间和内存需求。UPFT在GSM8K、MATH500等多个推理基准测试中表现优异,尤其在复杂推理任务中效果显著。
原文链接
2月9日,飞腾信息技术有限公司宣布其腾云S5000C和腾锐D3000成功实现对DeepSeek全系列大模型的端到端支持,覆盖数据中心和终端场景。本地部署的推理效率与国外同类产品相当。DeepSeek-V2.5 236B大模型已在飞腾腾云S5000C平台上稳定运行,整体性能达国外平台的80%左右。飞腾技术团队还在腾云S5000C和平锐D3000上进行了DeepSeek的本地部署验证,形成整体解决方案。
原文链接
国产加速框架TACO-LLM:推理效率提升超200%,成本降低44%-64%
随着AI浪潮的兴起,大语言模型(LLM)的算力与能耗挑战日益凸显。面对GPT-3级别的模型训练耗电巨大、行业成本压力增大等问题,急需高效加速框架以提升效率与降低能耗。
大语言模型的挑战与机遇
算力与能耗激增:大语言模型的...
原文链接
加载更多

暂无内容