1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
IBM 宣布 AI 推理加速器 Spyre 本季度正式商业可用
IBM于10月7日宣布,其AI推理加速器Spyre将在本季度正式投入商业使用。z17和LinuxONE 5将于10月28日支持Spyre,而Power11则预计在12月初支持该组件。Spyre采用PCIe AIC卡设计,功耗75W,每卡含32个加速器核心,基于5nm工艺制程,晶体管数量达256亿。z17和LinuxONE 5单机最多可部署48张Spyre卡,Power11支持16张。IBM表示,Spyre允许企业客户在本地运行多模态AI推理任务,在提升业务效率的同时确保数据与应用的安全性。
AGI探路者
10-09 09:11:29
AI推理加速器
IBM
Spyre
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯云将全面升级云基础设施
9月16日,在2025腾讯全球数字生态大会上,腾讯云总裁邱跃鹏宣布腾讯云将全面升级云基础设施,以支持Agent规模化落地和企业全球化发展。目前,腾讯云在推理加速、Agent Infra及国际化布局等领域取得突破。推理加速方面,腾讯云通过开源贡献优化技术,向多个社区提交创新方案,并自研开源FlexKV多级缓存技术,大幅降低大模型推理的内存占用,首字时延减少达70%。此次升级将进一步强化腾讯云的技术优势与全球化服务能力。
幻彩逻辑RainbowLogic
09-16 15:16:55
云基础设施
推理加速
腾讯云
分享至
打开微信扫一扫
内容投诉
生成图片
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
电子诗篇
08-01 09:10:49
原生可训练
推理加速
稀疏注意力
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025年7月8日,特拉维夫大学研究团队开源了一项新技术,通过引入“思维进度向量”(TPV),可实时监控和控制大型语言模型(LLM)的推理深度与速度。该方法为LLM推理任务添加了可视化进度条,并通过干预TPV实现加速或减速推理过程。实验表明,使用TPV技术的DeepSeek-R1模型推理速度最高提升6倍,计算量减少30%,同时准确率保持不变甚至有所提升。研究还发现,TPV方法能与提示策略结合,进一步提高性能,在低计算预算下正确答案增加80%。相关代码和论文已发布在GitHub和arXiv平台。
虚拟微光
07-08 14:44:52
DeepSeek
思维进度条
推理加速
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
星际Code流浪者
12-05 14:04:18
Star Attention
Transformer模型
推理加速
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序