推理速度 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

8.9ms，推理速度新纪录！1块钱百万token，浪潮信息AI服务器加速智能体产业化

在2025年人工智能计算大会上，浪潮信息发布元脑HC1000和元脑SD200两大AI服务器产品，显著优化智能体产业化中的速度与成本问题。元脑SD200将DeepSeek-R1模型推理延迟降至8.9ms，创造端到端推理新纪录，并实现超线性扩展率。元脑HC1000则将百万Token推理成本降至1元，单卡及系统成本分别降低60%和50%。两者通过创新架构设计，解决了通信延迟、资源利用率低等问题，为多智能体协同和复杂任务推理提供高效算力支持。浪潮信息首席AI战略官刘军指出，未来AI计算需从通用转向专用架构，以应对系统规模、电力压力和算效不平衡等挑战。

原文链接

DreamCoder

09-29 14:08:52

元脑HC1000

元脑SD200

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

AI生成苹果Metal内核，PyTorch推理速度提升87%

2025年9月，Gimlet Labs研究发现，AI可自动生成苹果设备的Metal内核，并显著提升PyTorch推理速度。实验显示，AI生成内核在215个PyTorch模块上实现平均1.87倍加速，部分工作负载甚至快数百倍。研究人员使用Mac Studio（Apple M4 Max芯片）和PyTorch eager模式作为基准，测试了Anthropic、DeepSeek和OpenAI等模型。AI生成内核正确性随尝试次数增加而提高，第5次尝试时可达94%。智能体群体策略进一步优化性能，平均加速31%，特定层级达42%。研究强调其目标是验证AI生成内核的可行性，而非追求极限性能，展现自动化内核工程的潜力。

原文链接

数据炼金师

09-05 11:17:03

AI生成内核

Metal性能优化

PyTorch推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

支持消费级显卡部署：腾讯混元 3D 世界模型宣布推出 Lite 版本，推理速度提升 3 倍以上且精度损失 <1%

8月15日，腾讯混元团队宣布推出3D世界模型1.0的Lite版本，通过动态FP8量化技术将显存需求从26GB降至17GB以下，成功适配消费级显卡。新版推理速度提升3倍以上，精度损失小于1%，并集成Cache算法优化冗余时间步，显著提升效率。该模型支持文字或图片输入生成高质量、可编辑的360度漫游场景，并可导出为3D mesh格式文件，适用于游戏开发、影视制作等领域。作为业界首个开源可编辑世界生成模型，其降低了3D内容创作门槛，解决了此前显存占用过高的问题，让更多中小企业和个人开发者能够便捷使用。官方地址已开放，包括官网、GitHub及Hugging Face等平台。

原文链接

AI创意引擎

08-15 19:20:35

推理速度

消费级显卡

腾讯混元3D世界模型

分享至

打开微信扫一扫

内容投诉

生成图片

字节跳动Seed团队发布扩散语言模型每秒推理速度2146 tokens

7月31日，字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。该模型以结构化代码生成为实验领域，旨在验证离散扩散技术作为下一代语言模型基础框架的可行性。实验数据显示，其代码推理速度达2146 tokens/s，比同等规模的自回归模型快5.4倍。这一成果展示了扩散模型在语言生成领域的潜力，为未来技术发展提供了新方向。

原文链接

月光编码师

08-01 09:24:01

字节跳动

扩散语言模型

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌推理最快、成本效益最高 AI 模型：Gemini 2.5 Flash-Lite 亮相，全面升级编码、翻译、推理

6月18日，谷歌发布Gemini 2.5系列AI模型稳定版本，包括Gemini 2.5 Flash和Pro，并推出了全新轻量级模型Gemini 2.5 Flash-Lite。该系列模型以“成本-速度-性能”平衡为目标，适用于生产级应用开发。Spline、Snap等多家公司已利用最新版本进行实际应用开发。Flash-Lite作为成本效益最高、推理速度最快的模型，在代码编写、科学计算及多模态分析中表现优异，尤其在翻译和分类任务中的延迟更低。该模型支持超长上下文处理（达100万token），并可连接外部工具如谷歌搜索和代码执行。开发者可通过Google AI Studio、Vertex AI平台获取稳定版本及Flash-Lite预览版，Gemini应用端和谷歌搜索也集成了相关模型以提升效率。

原文链接

E-Poet

06-18 08:33:43

AI模型

Gemini 2.5 Flash-Lite

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达合作推出 Fast-dLLM 框架，AI 扩散模型推理速度最高飙升 27.6 倍

6月2日，英伟达联合MIT和香港大学推出Fast-dLLM框架，大幅提升扩散模型推理速度。扩散模型因词元依赖关系易破坏及计算成本高等问题，在实际应用中逊于自回归模型。Fast-dLLM通过块状近似KV缓存和置信度感知并行解码策略解决上述问题。KV缓存将序列分块预计算存储，DualCache版本进一步优化；置信度解码选择性解码高置信度词元。Fast-dLLM在GSM8K数据集上实现27.6倍加速，准确率达76.0%，并在MATH、HumanEval和MBPP测试中分别实现6.5倍至7.8倍加速，准确率仅下降1-2个百分点。这项研究使扩散模型具备与自回归模型竞争的能力，为未来广泛应用奠定基础。

原文链接

心智奇点

06-03 12:54:51

Fast-dLLM

扩散模型

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

智谱发布新一代开源模型极速版最高达到200tokens/秒

《科创板日报》15日消息，今日智谱发布新一代开源模型GLM-4-32B-0414系列，包括基座、推理及沉思模型权重，且遵循MIT License。该系列模型现已可通过“z.ai”访问体验。其中，推理模型GLM-Z1-Air/AirX-0414实现了最高200 Tokens/秒的推理速度，在国内商业模型中处于领先水平。此外，GLM-Z1-Air-0414的价格仅为DeepSeek-R1的1/30，性价比突出。

原文链接

虚拟织梦者

04-15 08:25:16

开源模型

推理速度

智谱

分享至

打开微信扫一扫

内容投诉

生成图片

2月18日，梁文锋带领DeepSeek团队发布新研究，论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制，用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择，使推理速度提升11.6倍，同时降低预训练成本。梁文锋亲自参与并...

原文链接

虚拟织梦者

02-24 14:32:24

DeepSeek

推理速度

注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

标题：Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了国产大模型Qwen2.5系列再升级，新增成员Qwen2.5-Turbo，支持超长上下文并提升推理速度。 Qwen2.5-Turbo可处理高达100万token的上下文，相当于10部长篇小说或30000行代码。它能在4...

原文链接

智慧轨迹

11-19 13:44:15

Qwen2.5-Turbo

推理速度

超长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

LIama 3+Mamba强强联手！蒸馏到线性RNN，推理速度提升1.6倍

Together AI团队成功地将Transformer和Mamba模型结合，推出了Llama 3+Mamba混合模型。通过蒸馏技术，将Transformer的参数集成到Mamba模型中，同时开发了推测解码算法加速推理过程，实现了推理速度最高提升1.6倍的显著效果。这一创新不仅保持了原有模型的高性能，甚至在某些任务上的表现超越了原始模型，尤其是在零样本和少样本的通用自然语言处理任务中。实验结果显示，在多轮聊天对话任务中，混合模型与Llama-3相当或更优，且在零样本任务评测中，混合模型的平均成绩优于同等规模的RNN模型。此外，推测解码算法的应用使得混合模型在单论和多轮任务上的性能得到了显著提升，尤其是在Zephyr和Llama混合模型上，推理速度分别提升了1.8倍和1.6倍以上。这一成果标志着大模型发展方向的一个重要里程碑，展示了混合模型在加速推理过程和提升性能方面的巨大潜力。

原文链接