推理性能 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

10月13日，蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer。在基准测试中，dInfer将扩散语言模型的推理速度提升10.7倍，超越英伟达Fast-dLLM框架；在代码生成任务HumanEval上，单批次推理速度达1011Tokens/秒，首次显著超越自回归模型。扩散语言模型通过“去噪”生成文本，具备高度并行、全局视野等优势，但推理效率长期受限于计算成本高等问题。dInfer通过四大核心模块针对性解决这些瓶颈，支持多种模型优化与评测。在配备8块NVIDIA H800 GPU的节点上，其速度是vLLM运行AR模型的2.5倍。蚂蚁集团表示，dInfer推动扩散语言模型迈向实践高效，邀请全球开发者共同探索AI潜能。

原文链接

虚拟微光

10-13 18:00:58

dInfer

扩散语言模型

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克 xAI 最具性价比 AI 模型 Grok 4 Fast 登场：Grok 4 级性能，价格降低 98%

2025年9月20日，埃隆·马斯克旗下xAI公司推出全新AI模型Grok 4 Fast。该模型在性能上接近Grok 4，但推理tokens减少40%，价格降低98%。测试显示，其在AIME 2025无工具测试中正确率达92.0%，并在数学推理、多跳搜索等任务中表现优异，多项排名领先同类模型。Grok 4 Fast还创新性地整合长链推理与快速响应模式，支持动态切换以适应不同需求，显著降低延迟和成本。目前，该模型已对所有用户开放，并在OpenRouter和Vercel AI Gateway上限时免费提供，API调用费用低至每百万tokens输入0.20美元起。

原文链接

阿达旻

09-20 12:27:10

Grok 4 Fast

xAI

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

刚刚，OpenAI开源2个推理模型：笔记本/手机就能跑，性能接近o4-mini

2025年8月6日，OpenAI突然宣布开源两个推理模型gpt-oss-120b和gpt-oss-20b，这是自2019年GPT-2以来首次开放权重的语言模型。gpt-oss-120b拥有1170亿参数，可在单张80GB GPU上运行，性能接近闭源的o4-mini；gpt-oss-20b则适用于16GB内存设备，性能接近o3-mini。两款模型均采用Apache 2.0许可证，允许免费商用。实测显示，模型支持本地运行，生成速度达40-50 tokens/s，在编程、工具调用及复杂推理任务中表现出色，但某些领域仍逊于闭源模型。OpenAI表示，开源旨在降低AI使用门槛，推动创新与普及。相关资源已发布在HuggingFace和GitHub平台。

原文链接

Journeyman

08-06 06:22:19

OpenAI

开源模型

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌IMO金牌模型可以用了！推理性能秒了o3、Grok 4

谷歌DeepMind推出的Gemini 2.5 Deep Think模型现已在Gemini App上线，该模型曾获IMO金牌。新版速度更快，但实力略逊于原版，可达到IMO铜牌水平。模型仅对Ultra订阅用户开放，月费约1803元人民币。DeepMind称其推理性能超越OpenAI的o3和马斯克的Grok 4，在代码性能和科学知识测试中表现最佳。优势包括迭代开发、科学数学发现、算法编写等。通过扩展并行“思考时间”，模型能生成多种想法并优化解决方案。团队还开发了强化学习技术提升性能，模型还可融合多篇论文观点，助力研究。参考链接已附上。

原文链接

Journeyman

08-02 10:14:11

Gemini 2.5 Deep Think

IMO金牌模型

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

华为 + DeepSeek 推理性能创新高，技术报告公布

华为昇腾在推理DeepSeek V3/R1模型上的性能创新高，单卡decode吞吐达1920 Tokens/s，全面超越英伟达Hopper架构。华为通过‘以数学补物理’的方法，优化硬件与算法，解决超大规模MoE模型的内存压力、通信开销及架构复杂性等问题。昇腾推出了CloudMatrix 384超节点和Atlas 800I A2服务器，分别实现50ms和100ms时延下的高效推理。团队还开源了相关技术报告与代码，推动大模型推理技术进步。此外，华为将于近期举办技术披露周，更多信息可关注相关链接。此成果于2025年4月正式上线，助力商业应用抢占先机。

原文链接

小阳哥

05-19 14:19:50

DeepSeek

华为昇腾

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

华为+DeepSeek，推理性能创新高！技术报告也公布出来了

标题：华为+DeepSeek，推理性能创新高！正文：部署超大规模MoE这件事，国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”，更是性能全面超越英伟达Hopper架构！实现这一点的是华为昇腾，具体包含两个产品： - CloudMatrix 384超节点：部署DeepSeek V3/R1...

原文链接

GhostPilot

05-19 14:16:37

MoE模型

华为昇腾

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

预定最强 AI：xAI Grok-3 有望下周登场，推理性能超 OpenAI o1

xAI的Grok-3 AI有望下周发布，据testingcatalog报道，该模型已在独立平台和X平台短暂亮相并开启内部测试。测试显示Grok-3在回答问题方面的表现超越了OpenAI o1和DeepSeek R1等模型。xAI公司希望Grok-3能基于事实和真理，从基本原则理解世界，形成理性和怀疑的观点。系统提示词强调以用户为中心，优先提供数据、证据和统计数据支持答案，并倾向于使用X平台作为主要信息来源。Grok-3或将成为迄今为止最先进的AI模型。

原文链接

数据炼金师

01-27 09:24:35

AI模型

xAI Grok-3

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

LLM推理性能受输出格式影响，JSON最严重

LLMs推理性能受输出格式影响，其中JSON格式导致的性能下降最为显著。一项研究揭示了在两种提示条件下，大语言模型解同一道数学题的情况。在"思维链prompt"下，模型按步骤推理并给出答案，而在"格式限制prompt"下，要求以JSON格式输出，尽管正确答案为460，但格式限制反而降低了推理能力。研...

原文链接