综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
4月2日,英伟达宣布向半导体公司Marvell Technology投资20亿美元,并建立深度战略合作伙伴关系,消息推动Marvell股价盘中一度大涨超10%。合作核心是将Marvell接入英伟达AI生态系统,特别是‘NVLink Fusion’平台,该平台支持半定制AI基础设施开发。Marvell将提供定制化XPU及兼容NVLink Fusion的网络解决方案,实现客户自研芯片与英伟达GPU等无缝集成。英伟达CEO黄仁勋称,AI推理转折点已至,全球正建设‘AI工厂’,此次合作助力客户规模化构建专用AI计算能力。对Marvell而言,这笔投资不仅是资金支持,也肯定了其技术实力。英伟达近期还向新思科技、CoreWeave等公司分别投资20亿美元,持续布局AI生态。
原文链接
3月27日,趋境科技在2026中关村论坛发布ATaaS高效能AI Token生产服务平台,打造日均万亿产能的“Token工厂”。郑纬民院士指出,2026年是“Token爆发元年”,AI产业核心从模型服务转向Token服务。平台依托四大自研技术,破解算力投入与Token产出失衡难题,提升资源利用率和推理效率。论坛汇聚产学研用多方代表,探讨国产算力生态优化实践,并宣布2026春季启元人工智能大赛启动,推动AI产业规模化应用与人才培养。
原文链接
谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant,有效解决AI推理中的内存瓶颈问题。该技术通过向量量化方法压缩缓存,在不损失精度的前提下,可将大语言模型的缓存内存占用缩减至少6倍,推理速度最高提升8倍。其核心技术包括PolarQuant量化方法和QJL优化手段,计划在下月的ICLR 2026会议上正式发布。实验显示,TurboQuant在Gemma和Mistral等开源模型上无需预训练或微调即可实现高效压缩,键值缓存降至3比特,并在长上下文测试中保持零精度损失。此外,在H100 GPU加速器上,4比特TurboQuant运行速度较32比特基准提升8倍,为AI系统效率与成本优化带来突破性进展。
原文链接
2026年3月23日,NVIDIA在GTC大会上发布全新LPU芯片,旨在重塑AI推理。首席科学家Bill Dally透露,NVIDIA正研究片上通信静态调度技术,可大幅降低延迟至30纳秒,并取消路由开销等瓶颈。Dally表示,未来单用户推理速度可达每秒1万到2万Token,较当前普遍不足100Token的速度提升显著。此外,通过优化架构和采用SRAM缓存,能耗可降低1000倍,但SRAM成本较高,LPU30仅集成500MB缓存。新技术将推动AI推理效率飞跃,为行业带来革命性变化。
原文链接
3月16日,英伟达CEO黄仁勋在GTC大会上宣布,AI推理市场迎来拐点,行业从训练阶段转向推理与执行阶段,推理算力需求激增。英伟达将与专注推理技术的初创公司“格罗克”合作,推出全新AI服务器系统,强化在低成本、低延迟推理计算领域的布局,以支撑万亿级算力市场需求。这一举措标志着英伟达正积极抢占AI推理市场的下一波发展机遇。(央视财经)
原文链接
2026年3月17日,华为在数据存储新春发布会上推出面向AI推理场景的新一代AI数据基础设施。新产品包括针对中心训推场景的AI数据平台和适用于分支边缘推理场景的FusionCube A1000超融合一体机。AI数据平台整合知识库、KV Cache加速和记忆库能力,通过UCM技术统一管理调度,可将Agent推理准确率提升30%。FusionCube A1000支持通算智算全栈部署,兼容主流智能体与大模型,能缩短AI应用上线周期80%,并提升算力利用率30%。这一发布为AI推理场景提供了高效、灵活的数据支持。(记者 黄心怡)
原文链接
根据TrendForce集邦咨询最新调查,2025年第四季度,全球前五大企业级SSD品牌厂营收季增高达51.7%,突破99亿美元。这一增长主要得益于AI推理应用普及对存储系统的高需求、企业大规模升级通用服务器,以及HDD供应短缺带来的转单效应。此次市场变化凸显了存储行业在AI驱动下的强劲发展势头,预计将进一步推动企业级SSD的市场规模和技术升级。
原文链接
高通技术公司在2026年世界移动通信大会(MWC 2026)上展示了其最新的AI推理基础设施解决方案,包括Qualcomm AI200机架系统、加速卡和AI基础设施管理套件。该系统将AI加速、内存架构、互连技术和管理软件集成到一个可扩展的平台中,支持高达43 TB内存容量,适用于运行旗舰级AI模型推理。单个AI200加速卡可支持3500亿参数生成式AI模型,并具备扩展至1万亿参数的能力。此外,通过去年12月收购Alphawave Semi,高通增强了高速连接和数据传输能力,进一步优化了AI工作负载的处理效率。AI基础设施管理套件由HUMAIN部署,提供配置、监控和故障处理功能,助力数据中心实现灵活扩展。这一系列创新旨在满足服务提供商在规模、效率和运营复杂性之间的平衡需求,推动AI技术在数据中心的深度应用。
原文链接
2026年2月10日,英特尔锐炫Pro B60显卡与长城世恒X-AIGC工作站评测发布。这款专业级显卡基于第二代Xe²架构,配备24GB GDDR6显存、192bit位宽及456GB/s带宽,FP32性能达12.28 TFLOPS,INT8 AI性能为197 TOPS。通过4卡组合可实现96GB显存池,满足千人同时在线AI推理需求,性价比显著优于NVIDIA同类产品。搭配Intel Xeon处理器和256GB ECC内存的工作站方案,展现出在大规模MoE模型推理中的优势。此外,Intel的oneAPI工具降低了开发者迁移成本,助力Arc系列运行主流大模型。
原文链接
2026年1月21日,金山云在年度Tech Talk上宣布星流平台全面升级,从资源管理平台转型为一站式AI训推全流程平台。升级后的平台覆盖异构资源调度、训练任务自愈、机器人行业应用支撑及模型API服务商业化落地的全链路闭环。麦肯锡预测,2028年全球AI推理市场规模将达1500亿美元,智算基础设施需求激增。金山云通过提升平台效率、突破行业边界、加速推理布局,为AI应用爆发做好准备。其机器人平台支持具身智能全链路开发,模型API服务已积累众多行业客户,并支持近40种模型,包括DeepSeek、Xiaomi MiMo等。金山云将持续携手生态伙伴,推动AI技术在真实场景中的价值落地。
原文链接
加载更多
暂无内容