速度 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

8.9ms，推理速度新纪录！1块钱百万token，浪潮信息AI服务器加速智能体产业化

在2025年人工智能计算大会上，浪潮信息发布元脑HC1000和元脑SD200两大AI服务器产品，显著优化智能体产业化中的速度与成本问题。元脑SD200将DeepSeek-R1模型推理延迟降至8.9ms，创造端到端推理新纪录，并实现超线性扩展率。元脑HC1000则将百万Token推理成本降至1元，单卡及系统成本分别降低60%和50%。两者通过创新架构设计，解决了通信延迟、资源利用率低等问题，为多智能体协同和复杂任务推理提供高效算力支持。浪潮信息首席AI战略官刘军指出，未来AI计算需从通用转向专用架构，以应对系统规模、电力压力和算效不平衡等挑战。

原文链接

DreamCoder

09-29 14:08:52

元脑HC1000

元脑SD200

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

AI烧钱无极限：几十万元的显卡最快3年就淘汰 14万亿收入才回本

2025年9月26日，AI行业的高投入与快速硬件迭代成为焦点。微软、Meta、谷歌等科技巨头投资规模达数千亿美元，阿里巴巴计划投入3800亿元。AI显卡因算力需求高，通常3至5年便被淘汰，NVIDIA H200显卡售价高达4万美元，国内市场价格在20万至80万元不等。更高端型号成本更高，1GW数据中心投资需400-500亿美元，其中2/3用于硬件。贝恩资本预测，到2030年，科技公司需部署5000亿美元资本开支并实现2万亿美元营收才能盈利。NVIDIA CEO黄仁勋称，AI未来将占全球2/3 GDP，市场规模超50万亿美元，卖硬件的NVIDIA或成最大赢家。

原文链接

E-Poet

09-26 23:35:09

AI显卡

Nvidia

烧钱速度

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克的最快AI模型来了

2025年9月，马斯克旗下xAI团队发布全新AI模型Grok 4 Fast，生成速度高达每秒75个token，比标准版快10倍。实测显示，该模型在编程、数学题解答及问答任务中表现出色，例如2秒内解决LeetCode经典问题，正确回答初中数学题。尽管速度惊人，但部分复杂任务如生成SVG代码时表现欠佳。与专家模式相比，Grok 4 Fast为追求即时性牺牲了一定的准确性。此前，xAI还发布了擅长编码的Grok Code Fast 1和图像生成快速工具Grok 4 Imagine。网友评价其为迄今最快、最强思考模型之一，但也有观点认为其影响力尚未完全释放。

原文链接

LunarCoder

09-16 12:09:37

AI模型

Grok 4 Fast

速度

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克的 xAI 推出 Grok 4 Fast：响应速度最高达标准版 10 倍

2025年9月15日，埃隆·马斯克旗下xAI公司推出Grok 4 Fast模型，主打高速响应，速度可达标准版Grok 4的10倍。用户可通过Grok网页端启用“早期访问测试版”功能体验该模型。Grok 4 Fast通过简化复杂任务优化响应时间，适合追求即时结果的场景，但在创意和精细任务上表现有所妥协。此前，该模型以“Sonoma”为名在Arena平台内测并完成优化。目前处于早期访问阶段，未来可能向免费用户开放甚至取代Grok 3。此外，xAI新增“更新日志”板块，并计划将Grok 4 Fast适配移动端应用。

原文链接

月光编码师

09-15 17:00:03

Grok 4 Fast

xAI

响应速度

分享至

打开微信扫一扫

内容投诉

生成图片

Stable Audio 2.5 企业级音频生成 AI 模型发布，号称“3 分钟曲目 2 秒钟完成”

9月14日，Stability AI发布企业级音频生成模型Stable Audio 2.5，主打高效生成与细节优化。新模型可在2秒内生成3分钟的高质量音频曲目，采用ARC技术（相对式对抗训练与对比判别器）提升生成速度和音轨质量。其生成结果更贴合编曲逻辑，支持前奏、发展与结尾等多段式结构，并能准确响应情绪描述和音乐风格提示词。新增音频修补功能，可基于用户上传的音频文件智能延展内容，适合剪辑场景。目前，模型已开放官网试用并支持本地化部署，但禁止上传受版权保护的内容，平台将通过内容识别系统防止侵权行为。

原文链接

GhostPilot

09-14 22:45:39

ARC技术

Stable Audio 2.5

音频生成速度

分享至

打开微信扫一扫

内容投诉

生成图片

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

正文：2025年9月，上海交通大学与字节跳动联合推出强化学习加速框架RhymeRL，训练速度提升2.6倍。研究发现，模型生成答案在相邻训练周期中存在序列和长度分布相似性，基于此提出HistoSpec和HistoPipe两大核心技术。HistoSpec通过复用历史响应优化Token生成效率，HistoPipe利用跨步互补调度减少GPU资源浪费。实验表明，该框架在数学、代码等任务上显著提升端到端吞吐量，且精度无损。研究成果已发布于arXiv，为强化学习训练提供了新范式。

原文链接

AI奇点纪元

09-13 17:30:05

RhymeRL

强化学习

训练速度

分享至

打开微信扫一扫

内容投诉

生成图片

实测美团 LongCat：快到极致，但是别说追平 DeepSeek

2025年9月5日，美团推出的开源大模型LongCat-Flash-Chat因“快如闪电”的响应速度引发关注，尤其在轻量问答场景中表现惊艳。然而，实测显示其推理能力存在明显短板，复杂问题回答时逻辑混乱、重点模糊，与DeepSeek-V3.1相比差距显著。DeepSeek在逻辑拆解和因果推理上表现更稳健，答案条理清晰且可信赖。实测表明，LongCat在速度上领先，单用户生成速度超100 tokens/秒，但推理场景下短板暴露无遗。行业观点认为，速度虽能带来短期惊艳，但逻辑才是模型赢得用户信任的关键。作为美团首款开源模型，LongCat在交互体验上有突破，但在高价值场景中仍有提升空间。

原文链接

跨界思维

09-05 15:22:48

DeepSeek-V3.1

LongCat-Flash-Chat

速度与逻辑

分享至

打开微信扫一扫

内容投诉

生成图片

AI生成苹果Metal内核，PyTorch推理速度提升87%

2025年9月，Gimlet Labs研究发现，AI可自动生成苹果设备的Metal内核，并显著提升PyTorch推理速度。实验显示，AI生成内核在215个PyTorch模块上实现平均1.87倍加速，部分工作负载甚至快数百倍。研究人员使用Mac Studio（Apple M4 Max芯片）和PyTorch eager模式作为基准，测试了Anthropic、DeepSeek和OpenAI等模型。AI生成内核正确性随尝试次数增加而提高，第5次尝试时可达94%。智能体群体策略进一步优化性能，平均加速31%，特定层级达42%。研究强调其目标是验证AI生成内核的可行性，而非追求极限性能，展现自动化内核工程的潜力。

原文链接

数据炼金师

09-05 11:17:03

AI生成内核

Metal性能优化

PyTorch推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi K2 高速版 AI 模型提速，输出速度最高可达每秒 100 Tokens

8月22日，月之暗面宣布其Kimi K2高速版AI模型输出速度提升至每秒60 Tokens，最高可达每秒100 Tokens。该模型目前享受5折优惠，输入价格（缓存命中）为¥2.00/百万tokens，输出价格为¥32.00/百万tokens，9月1日将恢复原价。Kimi K2高速版于8月1日发布，持续优化性能，为用户提供更高效的AI服务。

原文链接

量子思考者

08-22 16:51:22

AI模型

Kimi K2

输出速度

分享至

打开微信扫一扫

内容投诉

生成图片

支持消费级显卡部署：腾讯混元 3D 世界模型宣布推出 Lite 版本，推理速度提升 3 倍以上且精度损失 <1%

8月15日，腾讯混元团队宣布推出3D世界模型1.0的Lite版本，通过动态FP8量化技术将显存需求从26GB降至17GB以下，成功适配消费级显卡。新版推理速度提升3倍以上，精度损失小于1%，并集成Cache算法优化冗余时间步，显著提升效率。该模型支持文字或图片输入生成高质量、可编辑的360度漫游场景，并可导出为3D mesh格式文件，适用于游戏开发、影视制作等领域。作为业界首个开源可编辑世界生成模型，其降低了3D内容创作门槛，解决了此前显存占用过高的问题，让更多中小企业和个人开发者能够便捷使用。官方地址已开放，包括官网、GitHub及Hugging Face等平台。

原文链接