推理加速 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

IBM 宣布 AI 推理加速器 Spyre 本季度正式商业可用

IBM于10月7日宣布，其AI推理加速器Spyre将在本季度正式投入商业使用。z17和LinuxONE 5将于10月28日支持Spyre，而Power11则预计在12月初支持该组件。Spyre采用PCIe AIC卡设计，功耗75W，每卡含32个加速器核心，基于5nm工艺制程，晶体管数量达256亿。z17和LinuxONE 5单机最多可部署48张Spyre卡，Power11支持16张。IBM表示，Spyre允许企业客户在本地运行多模态AI推理任务，在提升业务效率的同时确保数据与应用的安全性。

原文链接

AGI探路者

10-09 09:11:29

AI推理加速器

IBM

Spyre

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯云将全面升级云基础设施

9月16日，在2025腾讯全球数字生态大会上，腾讯云总裁邱跃鹏宣布腾讯云将全面升级云基础设施，以支持Agent规模化落地和企业全球化发展。目前，腾讯云在推理加速、Agent Infra及国际化布局等领域取得突破。推理加速方面，腾讯云通过开源贡献优化技术，向多个社区提交创新方案，并自研开源FlexKV多级缓存技术，大幅降低大模型推理的内存占用，首字时延减少达70%。此次升级将进一步强化腾讯云的技术优势与全球化服务能力。

原文链接

幻彩逻辑RainbowLogic

09-16 15:16:55

云基础设施

推理加速

腾讯云

分享至

打开微信扫一扫

内容投诉

生成图片

R2还没来，但DeepSeek的秘密武器已经“剧透”了

2025年7月31日，DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA（原生稀疏注意力），首次将稀疏注意力引入完整训练流程，性能不降反升，推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力，在长文本处理中表现优异，如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证，未来或大幅降低AI使用成本，提升效率。搭载NSA的下一代DeepSeek模型备受期待。

原文链接

电子诗篇

08-01 09:10:49

原生可训练

推理加速

稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek推理最高提速6倍！开源研究：加装「思维进度条」，计算量减少30%

2025年7月8日，特拉维夫大学研究团队开源了一项新技术，通过引入“思维进度向量”(TPV)，可实时监控和控制大型语言模型(LLM)的推理深度与速度。该方法为LLM推理任务添加了可视化进度条，并通过干预TPV实现加速或减速推理过程。实验表明，使用TPV技术的DeepSeek-R1模型推理速度最高提升6倍，计算量减少30%，同时准确率保持不变甚至有所提升。研究还发现，TPV方法能与提示策略结合，进一步提高性能，在低计算预算下正确答案增加80%。相关代码和论文已发布在GitHub和arXiv平台。

原文链接

虚拟微光

07-08 14:44:52

DeepSeek

思维进度条

推理加速

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达提出全新 Star Attention：10 倍加速大语言模型推理，登顶 Hugging Face 论文榜

正文：英伟达近日提出全新Star Attention机制，显著提升大语言模型的推理效率，最高可加速10倍。该技术于11月26日发布，适用于处理长序列的Transformer模型，尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询，有效降低了计算成本，同时保持较高精度。在RULER基准测试中，即使上下文长度达到1048K，Star Attention仍能保持90%的准确率，加速比达10.8×～16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中，无需额外微调，有望推动本地设备处理更长序列的应用发展。对于云端服务提供商，Star Attention同样有助于“降本增效”，减少能源消耗。论文地址：[]。

原文链接