推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

构建可扩展的AI推理：深入了解Qualcomm AI200机架系统、板卡和AI基础设施管理套件

高通技术公司在2026年世界移动通信大会（MWC 2026）上展示了其最新的AI推理基础设施解决方案，包括Qualcomm AI200机架系统、加速卡和AI基础设施管理套件。该系统将AI加速、内存架构、互连技术和管理软件集成到一个可扩展的平台中，支持高达43 TB内存容量，适用于运行旗舰级AI模型推理。单个AI200加速卡可支持3500亿参数生成式AI模型，并具备扩展至1万亿参数的能力。此外，通过去年12月收购Alphawave Semi，高通增强了高速连接和数据传输能力，进一步优化了AI工作负载的处理效率。AI基础设施管理套件由HUMAIN部署，提供配置、监控和故障处理功能，助力数据中心实现灵活扩展。这一系列创新旨在满足服务提供商在规模、效率和运营复杂性之间的平衡需求，推动AI技术在数据中心的深度应用。

原文链接

智能维度跳跃

03-03 20:31:44

AI推理

Qualcomm AI200

数据中心

分享至

打开微信扫一扫

内容投诉

生成图片

一个土办法能让AI智商翻4倍！网友：简单粗暴居然这么好用

2026年3月3日，谷歌研究院发布论文揭示一种简单却高效的AI优化方法：重复提示词可显著提升大语言模型在非推理任务中的表现。例如，在信息提取任务中，Gemini 2.0 Flash-Lite模型的准确率从21.33%飙升至97.33%。该方法利用Transformer架构的特性，通过“虚拟重读”帮助模型更好理解输入内容，且几乎不增加延迟。实验显示，这一技巧在7个主流模型的70种场景中，47次显著提升性能，无一失效。不过，对深度推理型模型效果有限，且可能因提示词过长影响处理效率。网友评论称，这种“简单粗暴”的方法令人意外，也展现了朴素智慧的力量。

原文链接

镜像现实MirageX

03-03 17:18:36

AI性能优化

重复提示词

非推理任务

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹

2026年3月，英伟达将在圣何塞GTC大会上发布全新AI推理系统，核心为一颗基于Groq LPU架构的推理优化芯片。这是英伟达首次在核心AI算力产品线中引入外部架构设计，背后是其200亿美元收购Groq核心技术与团队的结果。首位大客户为完成1100亿美元融资的OpenAI，计划使用3GW专用推理算力。LPU架构采用高密度片上SRAM，降低延迟与能耗，更适合低延迟推理场景，理论速度比GPU快100倍。随着AI算力重心从训练转向推理，英伟达面临来自Cerebras、AMD及国产芯片厂商的竞争压力。此外，黄仁勋还预告将发布‘世界前所未见’的新系列产品，或包括Rubin系列新一代GPU及其他全新架构芯片。

原文链接

神经网络领航员

03-03 15:06:12

LPU

推理芯片

英伟达

分享至

打开微信扫一扫

内容投诉

生成图片

AI推理芯片打开市场空间 PCB产业链涨价或持续

3月3日，受AI需求推动，PCB产业链涨价行情持续。日本半导体材料巨头Resonac自3月1日起将CCL及粘合胶片价格上调30%，业界预计涨价将传导至MLCC、HDI板、IC载板等高端制造环节。同时，英伟达LPU推理芯片或成PCB行业超级催化剂。市场人士指出，随着AI应用规模快速增长，专用AI推理芯片需求激增，将推动PCB行业实现量价齐升、工艺升级与材料革新，并提升行业集中度。这不仅提升PCB在AI芯片中的价值和重要性，还为行业打开全新市场空间。（上证报）

原文链接

阿达旻

03-03 06:36:54

AI推理芯片

PCB产业链

涨价

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

正文：2026年2月，DeepSeek联合北大、清华在ArXiv发布论文，推出全新智能体推理框架DualPath。该框架通过引入存储至解码引擎的第二条路径，利用闲置网卡带宽优化KV-Cache加载，缓解长文本推理中的I/O瓶颈。实测显示，DualPath将660B规模模型的离线推理吞吐量提升1.87倍，在线服务吞吐量平均提升1.96倍，同时显著降低首字延迟（TTFT）。研究由北大博士生吴永彤主导，其研究方向为大模型基础设施与推理系统优化。

原文链接

Oasis

02-27 16:53:38

DeepSeek

DualPath

智能体推理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek又一论文上新

2月27日，DeepSeek团队联合北大、清华发布新论文，聚焦大模型推理速度优化。论文提出名为DualPath的创新推理系统，通过“双路径读取KV-Cache”机制重新分配存储网络负载，显著提升性能：离线推理吞吐量最高提升1.87倍，在线服务每秒智能体运行数平均提升1.96倍。研究背景指出，大模型正从单轮对话向智能体系统演进，能够自主规划、调用工具并完成多轮交互任务。这一应用范式转变使推理工作负载从人类-大模型交互转向人类-大模型-环境交互，交互轮次可达数十至数百轮，对底层系统效率提出更高要求。该成果为复杂AI智能体的实际落地提供了重要技术支持。（第一财经）

原文链接

Oasis

02-27 15:54:06

DeepSeek

DualPath

推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌突发Gemini 3.1 Pro！首次采用「.1」版本号，推理性能×2的那种

2026年2月，谷歌发布Gemini 3.1 Pro，首次采用“.1”小版本号更新。相比去年11月发布的3 Pro，3.1 Pro在推理性能上提升2倍，多模态生成和语义理解显著增强。新模型支持1M上下文，知识截止日期为2025年1月，在可视化、代码生成及多语言处理方面表现突出。例如，可生成交互式3D内容和复杂教育应用。目前，该模型已在Gemini应用、API及NotebookLM中上线，定价与3 Pro持平，但性能接近更昂贵的3 Deep Think，成本效益大幅提升。网友评价称其‘直接碾压其他模型’，认为此次更新进一步推动了AI模型的成本-智能优化曲线。

原文链接

WisdomTrail

02-20 10:16:31

Gemini 3.1 Pro

多模态生成

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

对话原力灵机周而进：模型2.4B就够用，关键是“具身原生”；能闭环才是最高效方法

标题：对话原力灵机周而进：2.4B模型够用，具身原生是关键正文：一个专注于具身智能的公司推出了仅2.4B参数的模型DM0，远低于行业标杆如π 0（33亿参数）和π 0.6（50亿参数）。这家公司认为，2.4B足够支撑实时处理三视角728×728画面，推理延迟仅60毫秒，并通过强化学习在真机上...

原文链接

虚拟微光

02-13 14:22:41

具身原生

空间推理思维链

闭环

分享至

打开微信扫一扫

内容投诉

生成图片

xAI关键人物接连跑路马斯克做了什么

当地时间2月10日，xAI联合创始人Tony Wu宣布离职，这是继去年8月Igor Babuschkin离开后，xAI失去的第二位联合创始人。Tony Wu负责AI推理能力，这一技术被视为下一代AI系统的核心竞争力。他的离职对xAI打击巨大，可能导致研发停滞6个月以上。目前xAI创始团队12人中已有5人离职，接近一半的离职率引发关注。分析认为，马斯克的极限压榨式管理风格和CEO主导的技术路线可能是人才流失的主要原因。与此同时，AI行业正处于‘人才血战’阶段，顶级研究员更倾向于选择能专注技术、减少干扰的平台。在AI竞赛中，落后半年可能意味着出局，xAI能否调整策略留住关键人才仍是未知数。

原文链接