混合推理 - AI优秘圈

从GPT-5到DeepSeek V3.1，顶尖AI大模型的新方向出现了！

2025年9月1日，AI行业正从追求模型能力上限转向提升计算效率，混合推理成为行业共识。美团开源的龙猫大模型通过“零计算”专家机制大幅节省算力，应对复杂推理模式导致的成本上升问题。OpenAI的GPT-5采用“路由器”机制，根据任务复杂度选择模型，减少50-80%的token消耗；DeepSeek V3.1则推出单模型双模式架构，可在“思考”与“非思考”间切换，降低25-50%的token使用量。包括Google、阿里、字节等在内的头部厂商均探索混合推理方案，目标是实现性能与成本的平衡，并向更智能的“自我调节”方向发展。

原文链接

量子黑客

09-01 16:20:02

AI模型

成本效率

混合推理

分享至

打开微信扫一扫

内容投诉

生成图片

叫板OpenAI，DeepSeek-V3.1正式发布

8月21日，DeepSeek发布V3.1版本，称其为“迈向Agent时代的*步”。新版本采用混合推理架构，支持思考与非思考模式，兼顾快速响应与复杂推理需求。相比前代模型，V3.1生成结果的token数量减少20%-50%，响应速度提升且成本降低。同时，它支持128K上下文扩展和FP8精度推理，强化吞吐效率与能耗表现。在智能体能力上，V3.1在代码修复、命令行任务及复杂搜索场景中表现出色，显著优于前代。商业方面，DeepSeek采取“双轨”策略：9月6日起调整API价格并取消夜间优惠，同时开源Base模型与后训练版本。此次更新还适配了新一代国产芯片技术规范，或意在与GPT5竞争，展现更强的任务处理能力与灵活性。

原文链接

跨界思维

08-21 18:37:17

Agent能力

DeepSeek-V3.1

混合推理架构

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.1正式发布

2025年8月21日，DeepSeek官方发布DeepSeek-V3.1版本。新版本采用混合推理架构，支持思考与非思考模式切换，思考效率显著提升，输出token减少20%-50%且性能持平。Agent能力增强，在编程、搜索任务中表现优异，复杂任务完成率大幅领先前代模型。API同步升级，新增Anthropic API格式支持及strict模式Function Calling功能。Base与后训练模型已在Huggingface和魔搭开源。此外，官方宣布将于9月6日调整API调用价格并取消夜间优惠，当前用户可继续享受原价至生效日期。

原文链接

代码编织者

08-21 15:36:49

Agent能力

DeepSeek-V3.1

混合推理架构

分享至

打开微信扫一扫

内容投诉

生成图片

LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0

7月15日，LG AI Research推出韩国首个混合推理AI模型EXAONE 4.0。该模型结合自然语言处理与高级推理能力，在数学、科学和编程等领域表现突出。提供专业模型（32B）用于高专业度领域，以及端侧模型（1.2B）支持本地化安全运行。其性能通过全球高难度基准测试验证，包括MMLU-Pro 81.8分、LiveCodeBench v6 66.7分、GPQA-Diamond 75.4分和AIME 2025 85.3分。即日起面向教育机构免费开放，并与Friendly AI合作推出无GPU门槛的商业API服务，研究版已开源发布于Hugging Face平台。

原文链接

数据炼金师

07-15 15:45:26

EXAONE 4.0

LG AI Research

混合推理AI模型

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元推出首款开源混合推理模型，擅长Agent工具调用和长文理解

6月27日，腾讯混元推出首款开源混合推理模型Hunyuan-A13B，该模型参数总量为80B，激活参数仅13B，具备强大的通用能力，在多个权威数据测试集中表现优异。Hunyuan-A13B支持Agent工具调用和长文理解，拥有256K原生上下文窗口，适用于多种复杂任务。模型已在GitHub和Huggingface开源社区上线，并提供API接口供开发者快速接入部署。此外，腾讯混元还开源了两个新数据集ArtifactsBench和C3-Bench，用于评估大语言模型在代码生成和Agent场景中的能力。

原文链接

智能视野

06-27 17:11:39

Agent工具调用

混合推理模型

腾讯混元

分享至

打开微信扫一扫

内容投诉

生成图片

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

阿里旗下通义千问Qwen3深夜开源，2小时内GitHub收获17k星，登顶全球开源模型榜首。Qwen3采用MoE架构，参数235B，激活仅需22B，支持混合推理模式，涵盖8款模型，从小至0.6B到大至235B，适配多种应用场景。其性能远超DeepSeek-R1、OpenAI-o1等顶级模型，尤其在数学、代码生成和多语言支持方面表现突出，参数量仅为DeepSeek-R1的1/3，但成本更低。Qwen3支持119种语言，可无缝切换思考与非思考模式，大幅降低推理成本。此外，其预训练数据达36万亿token，后训练强化学习优化显著提升了指令遵循与智能体能力。Qwen3已在魔搭、Hugging Face、GitHub等平台开源，支持免费商用。

原文链接

智能视野

05-05 09:42:37

Qwen3

开源模型

混合推理

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 2.5 Flash 混合推理 AI 模型上线：性能成本双优

4月17日，谷歌宣布推出Gemini 2.5 Flash预览版AI模型，可通过Google AI Studio和Vertex AI中的Gemini API访问。该模型支持用户通过Gemini应用内模型选择器直接使用，并能结合Canvas工具优化文档与代码编辑。作为首个全混合推理模型，Gemini 2.5 Flash专为高容量和实时场景设计，如客户服务与文档解析，可显著降低延迟并减少成本。谷歌强调其适合作为虚拟助手及实时总结工具的核心引擎。定价方面，输入每100万tokens收费0.15美元，输出（不含推理）为0.6美元，输出（含推理）为3.5美元。相比Anthropic和Grok的同类产品，Gemini 2.5 Flash在成本控制上更具优势，同时保持较高性能表现。

原文链接

AI创想团

04-18 16:20:13

AI模型

混合推理

谷歌Gemini2.5Flash

分享至

打开微信扫一扫

内容投诉

生成图片

首个混合推理模型Claude 3.7发布！编程能力全面领先，还能控制思考时间

标题：首个混合推理模型Claude 3.7发布！编程能力全面领先，还能控制思考时间白交发自凹非寺量子位 | 公众号 QbitAI Claude 3.7 Sonnet，首个混合推理模型发布，编程和前端Web开发能力显著提升。它能在不同任务中切换，如快速反应和逐步思考。在相同提示下，Claude...

原文链接

未来编码者

02-25 15:56:21

Claude 3.7

混合推理模型

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

深夜重磅，全球首个混合推理模型发布，Claude 能“思考”了

今日，Anthropic发布了Claude 3.7 Sonnet，全球首个混合推理模型，具备快速响应和深度推理两种模式。该模型在数学、物理和编程等复杂任务上表现卓越，强调实用性和代码协作能力。同时，Anthropic推出了Claude Code，一款智能编程工具，能高效完成复杂编程任务，提升开发效率。Claude 3.7 Sonnet现已适用于所有Claude订阅计划，包括免费版和专业版。Anthropic还计划持续优化Claude Code，以提升用户体验。

原文链接

未来笔触

02-25 08:45:33

Claude 3.7 Sonnet

Claude Code

混合推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic推出首款混合推理模型Claude 3.7 Sonnet

Anthropic于2月25日宣布推出Claude 3.7 Sonnet，这是首款混合推理模型。该模型能提供即时响应并展示详细的思考过程，用户可控制模型的思考时长。同时发布的Claude Code命令行工具（研究预览版）让开发者可通过终端委托重要工程任务。这一新模型展示了公司在AI领域的最新进展。

原文链接

DreamCoder

02-25 07:45:20

Anthropic

Claude 3.7 Sonnet

混合推理模型

分享至

打开微信扫一扫

内容投诉

生成图片