AI推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

黄仁勋谈20亿美元投资Marvell：AI推理转折点已至

4月2日，英伟达宣布向半导体公司Marvell Technology投资20亿美元，并建立深度战略合作伙伴关系，消息推动Marvell股价盘中一度大涨超10%。合作核心是将Marvell接入英伟达AI生态系统，特别是‘NVLink Fusion’平台，该平台支持半定制AI基础设施开发。Marvell将提供定制化XPU及兼容NVLink Fusion的网络解决方案，实现客户自研芯片与英伟达GPU等无缝集成。英伟达CEO黄仁勋称，AI推理转折点已至，全球正建设‘AI工厂’，此次合作助力客户规模化构建专用AI计算能力。对Marvell而言，这笔投资不仅是资金支持，也肯定了其技术实力。英伟达近期还向新思科技、CoreWeave等公司分别投资20亿美元，持续布局AI生态。

原文链接

Nebula

04-02 07:41:32

分享至

打开微信扫一扫

内容投诉

生成图片

趋境ATaaS平台发布，打造日均万亿产能的“Token工厂”

3月27日，趋境科技在2026中关村论坛发布ATaaS高效能AI Token生产服务平台，打造日均万亿产能的“Token工厂”。郑纬民院士指出，2026年是“Token爆发元年”，AI产业核心从模型服务转向Token服务。平台依托四大自研技术，破解算力投入与Token产出失衡难题，提升资源利用率和推理效率。论坛汇聚产学研用多方代表，探讨国产算力生态优化实践，并宣布2026春季启元人工智能大赛启动，推动AI产业规模化应用与人才培养。

原文链接

AGI探路者

03-28 22:18:08

分享至

打开微信扫一扫

内容投诉

生成图片

内存焦虑有救了！谷歌发布新型AI内存压缩技术

谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant，有效解决AI推理中的内存瓶颈问题。该技术通过向量量化方法压缩缓存，在不损失精度的前提下，可将大语言模型的缓存内存占用缩减至少6倍，推理速度最高提升8倍。其核心技术包括PolarQuant量化方法和QJL优化手段，计划在下月的ICLR 2026会议上正式发布。实验显示，TurboQuant在Gemma和Mistral等开源模型上无需预训练或微调即可实现高效压缩，键值缓存降至3比特，并在长上下文测试中保持零精度损失。此外，在H100 GPU加速器上，4比特TurboQuant运行速度较32比特基准提升8倍，为AI系统效率与成本优化带来突破性进展。

原文链接

GhostPilot

03-26 11:55:04

分享至

打开微信扫一扫

内容投诉

生成图片

NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

2026年3月23日，NVIDIA在GTC大会上发布全新LPU芯片，旨在重塑AI推理。首席科学家Bill Dally透露，NVIDIA正研究片上通信静态调度技术，可大幅降低延迟至30纳秒，并取消路由开销等瓶颈。Dally表示，未来单用户推理速度可达每秒1万到2万Token，较当前普遍不足100Token的速度提升显著。此外，通过优化架构和采用SRAM缓存，能耗可降低1000倍，但SRAM成本较高，LPU30仅集成500MB缓存。新技术将推动AI推理效率飞跃，为行业带来革命性变化。

原文链接

智能视野

03-23 20:44:37

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达押注下一个万亿级机遇入局AI服务器系统

3月16日，英伟达CEO黄仁勋在GTC大会上宣布，AI推理市场迎来拐点，行业从训练阶段转向推理与执行阶段，推理算力需求激增。英伟达将与专注推理技术的初创公司“格罗克”合作，推出全新AI服务器系统，强化在低成本、低延迟推理计算领域的布局，以支撑万亿级算力市场需求。这一举措标志着英伟达正积极抢占AI推理市场的下一波发展机遇。（央视财经）

原文链接

虚拟织梦者

03-17 16:49:00

分享至

打开微信扫一扫

内容投诉

生成图片

华为面向AI推理场景发布新一代AI数据基础设施

2026年3月17日，华为在数据存储新春发布会上推出面向AI推理场景的新一代AI数据基础设施。新产品包括针对中心训推场景的AI数据平台和适用于分支边缘推理场景的FusionCube A1000超融合一体机。AI数据平台整合知识库、KV Cache加速和记忆库能力，通过UCM技术统一管理调度，可将Agent推理准确率提升30%。FusionCube A1000支持通算智算全栈部署，兼容主流智能体与大模型，能缩短AI应用上线周期80%，并提升算力利用率30%。这一发布为AI推理场景提供了高效、灵活的数据支持。（记者黄心怡）

原文链接

灵感Phoenix

03-17 15:43:39

分享至

打开微信扫一扫

内容投诉

生成图片

机构：2025年第四季度全球前五大企业级SSD营收季增超50%

根据TrendForce集邦咨询最新调查，2025年第四季度，全球前五大企业级SSD品牌厂营收季增高达51.7%，突破99亿美元。这一增长主要得益于AI推理应用普及对存储系统的高需求、企业大规模升级通用服务器，以及HDD供应短缺带来的转单效应。此次市场变化凸显了存储行业在AI驱动下的强劲发展势头，预计将进一步推动企业级SSD的市场规模和技术升级。

原文链接

AI奇点纪元

03-13 16:30:36

分享至

打开微信扫一扫

内容投诉

生成图片

构建可扩展的AI推理：深入了解Qualcomm AI200机架系统、板卡和AI基础设施管理套件

高通技术公司在2026年世界移动通信大会（MWC 2026）上展示了其最新的AI推理基础设施解决方案，包括Qualcomm AI200机架系统、加速卡和AI基础设施管理套件。该系统将AI加速、内存架构、互连技术和管理软件集成到一个可扩展的平台中，支持高达43 TB内存容量，适用于运行旗舰级AI模型推理。单个AI200加速卡可支持3500亿参数生成式AI模型，并具备扩展至1万亿参数的能力。此外，通过去年12月收购Alphawave Semi，高通增强了高速连接和数据传输能力，进一步优化了AI工作负载的处理效率。AI基础设施管理套件由HUMAIN部署，提供配置、监控和故障处理功能，助力数据中心实现灵活扩展。这一系列创新旨在满足服务提供商在规模、效率和运营复杂性之间的平衡需求，推动AI技术在数据中心的深度应用。

原文链接

智能维度跳跃

03-03 20:31:44

分享至

打开微信扫一扫

内容投诉

生成图片

4卡96GB显存暴力输出！英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测：可满足千人同时在线聊天

2026年2月10日，英特尔锐炫Pro B60显卡与长城世恒X-AIGC工作站评测发布。这款专业级显卡基于第二代Xe²架构，配备24GB GDDR6显存、192bit位宽及456GB/s带宽，FP32性能达12.28 TFLOPS，INT8 AI性能为197 TOPS。通过4卡组合可实现96GB显存池，满足千人同时在线AI推理需求，性价比显著优于NVIDIA同类产品。搭配Intel Xeon处理器和256GB ECC内存的工作站方案，展现出在大规模MoE模型推理中的优势。此外，Intel的oneAPI工具降低了开发者迁移成本，助力Arc系列运行主流大模型。

原文链接

AI创意引擎

02-10 14:19:46

分享至

打开微信扫一扫

内容投诉

生成图片

金山云星流全面升级，以智算穿越云上AI新周期

2026年1月21日，金山云在年度Tech Talk上宣布星流平台全面升级，从资源管理平台转型为一站式AI训推全流程平台。升级后的平台覆盖异构资源调度、训练任务自愈、机器人行业应用支撑及模型API服务商业化落地的全链路闭环。麦肯锡预测，2028年全球AI推理市场规模将达1500亿美元，智算基础设施需求激增。金山云通过提升平台效率、突破行业边界、加速推理布局，为AI应用爆发做好准备。其机器人平台支持具身智能全链路开发，模型API服务已积累众多行业客户，并支持近40种模型，包括DeepSeek、Xiaomi MiMo等。金山云将持续携手生态伙伴，推动AI技术在真实场景中的价值落地。

原文链接