混合推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

从GPT-5到DeepSeek V3.1，顶尖AI大模型的新方向出现了！

2025年9月1日，AI行业正从追求模型能力上限转向提升计算效率，混合推理成为行业共识。美团开源的龙猫大模型通过“零计算”专家机制大幅节省算力，应对复杂推理模式导致的成本上升问题。OpenAI的GPT-5采用“路由器”机制，根据任务复杂度选择模型，减少50-80%的token消耗；DeepSeek V3.1则推出单模型双模式架构，可在“思考”与“非思考”间切换，降低25-50%的token使用量。包括Google、阿里、字节等在内的头部厂商均探索混合推理方案，目标是实现性能与成本的平衡，并向更智能的“自我调节”方向发展。

原文链接

量子黑客

09-01 16:20:02

分享至

打开微信扫一扫

内容投诉

生成图片

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

阿里旗下通义千问Qwen3深夜开源，2小时内GitHub收获17k星，登顶全球开源模型榜首。Qwen3采用MoE架构，参数235B，激活仅需22B，支持混合推理模式，涵盖8款模型，从小至0.6B到大至235B，适配多种应用场景。其性能远超DeepSeek-R1、OpenAI-o1等顶级模型，尤其在数学、代码生成和多语言支持方面表现突出，参数量仅为DeepSeek-R1的1/3，但成本更低。Qwen3支持119种语言，可无缝切换思考与非思考模式，大幅降低推理成本。此外，其预训练数据达36万亿token，后训练强化学习优化显著提升了指令遵循与智能体能力。Qwen3已在魔搭、Hugging Face、GitHub等平台开源，支持免费商用。

原文链接

智能视野

05-05 09:42:37

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 2.5 Flash 混合推理 AI 模型上线：性能成本双优

4月17日，谷歌宣布推出Gemini 2.5 Flash预览版AI模型，可通过Google AI Studio和Vertex AI中的Gemini API访问。该模型支持用户通过Gemini应用内模型选择器直接使用，并能结合Canvas工具优化文档与代码编辑。作为首个全混合推理模型，Gemini 2.5 Flash专为高容量和实时场景设计，如客户服务与文档解析，可显著降低延迟并减少成本。谷歌强调其适合作为虚拟助手及实时总结工具的核心引擎。定价方面，输入每100万tokens收费0.15美元，输出（不含推理）为0.6美元，输出（含推理）为3.5美元。相比Anthropic和Grok的同类产品，Gemini 2.5 Flash在成本控制上更具优势，同时保持较高性能表现。

原文链接