
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月1日,AI行业正从追求模型能力上限转向提升计算效率,混合推理成为行业共识。美团开源的龙猫大模型通过“零计算”专家机制大幅节省算力,应对复杂推理模式导致的成本上升问题。OpenAI的GPT-5采用“路由器”机制,根据任务复杂度选择模型,减少50-80%的token消耗;DeepSeek V3.1则推出单模型双模式架构,可在“思考”与“非思考”间切换,降低25-50%的token使用量。包括Google、阿里、字节等在内的头部厂商均探索混合推理方案,目标是实现性能与成本的平衡,并向更智能的“自我调节”方向发展。
原文链接
8月21日,DeepSeek发布V3.1版本,称其为“迈向Agent时代的*步”。新版本采用混合推理架构,支持思考与非思考模式,兼顾快速响应与复杂推理需求。相比前代模型,V3.1生成结果的token数量减少20%-50%,响应速度提升且成本降低。同时,它支持128K上下文扩展和FP8精度推理,强化吞吐效率与能耗表现。在智能体能力上,V3.1在代码修复、命令行任务及复杂搜索场景中表现出色,显著优于前代。商业方面,DeepSeek采取“双轨”策略:9月6日起调整API价格并取消夜间优惠,同时开源Base模型与后训练版本。此次更新还适配了新一代国产芯片技术规范,或意在与GPT5竞争,展现更强的任务处理能力与灵活性。
原文链接
2025年8月21日,DeepSeek官方发布DeepSeek-V3.1版本。新版本采用混合推理架构,支持思考与非思考模式切换,思考效率显著提升,输出token减少20%-50%且性能持平。Agent能力增强,在编程、搜索任务中表现优异,复杂任务完成率大幅领先前代模型。API同步升级,新增Anthropic API格式支持及strict模式Function Calling功能。Base与后训练模型已在Huggingface和魔搭开源。此外,官方宣布将于9月6日调整API调用价格并取消夜间优惠,当前用户可继续享受原价至生效日期。
原文链接
7月15日,LG AI Research推出韩国首个混合推理AI模型EXAONE 4.0。该模型结合自然语言处理与高级推理能力,在数学、科学和编程等领域表现突出。提供专业模型(32B)用于高专业度领域,以及端侧模型(1.2B)支持本地化安全运行。其性能通过全球高难度基准测试验证,包括MMLU-Pro 81.8分、LiveCodeBench v6 66.7分、GPQA-Diamond 75.4分和AIME 2025 85.3分。即日起面向教育机构免费开放,并与Friendly AI合作推出无GPU门槛的商业API服务,研究版已开源发布于Hugging Face平台。
原文链接
6月27日,腾讯混元推出首款开源混合推理模型Hunyuan-A13B,该模型参数总量为80B,激活参数仅13B,具备强大的通用能力,在多个权威数据测试集中表现优异。Hunyuan-A13B支持Agent工具调用和长文理解,拥有256K原生上下文窗口,适用于多种复杂任务。模型已在GitHub和Huggingface开源社区上线,并提供API接口供开发者快速接入部署。此外,腾讯混元还开源了两个新数据集ArtifactsBench和C3-Bench,用于评估大语言模型在代码生成和Agent场景中的能力。
原文链接
阿里旗下通义千问Qwen3深夜开源,2小时内GitHub收获17k星,登顶全球开源模型榜首。Qwen3采用MoE架构,参数235B,激活仅需22B,支持混合推理模式,涵盖8款模型,从小至0.6B到大至235B,适配多种应用场景。其性能远超DeepSeek-R1、OpenAI-o1等顶级模型,尤其在数学、代码生成和多语言支持方面表现突出,参数量仅为DeepSeek-R1的1/3,但成本更低。Qwen3支持119种语言,可无缝切换思考与非思考模式,大幅降低推理成本。此外,其预训练数据达36万亿token,后训练强化学习优化显著提升了指令遵循与智能体能力。Qwen3已在魔搭、Hugging Face、GitHub等平台开源,支持免费商用。
原文链接
4月17日,谷歌宣布推出Gemini 2.5 Flash预览版AI模型,可通过Google AI Studio和Vertex AI中的Gemini API访问。该模型支持用户通过Gemini应用内模型选择器直接使用,并能结合Canvas工具优化文档与代码编辑。作为首个全混合推理模型,Gemini 2.5 Flash专为高容量和实时场景设计,如客户服务与文档解析,可显著降低延迟并减少成本。谷歌强调其适合作为虚拟助手及实时总结工具的核心引擎。定价方面,输入每100万tokens收费0.15美元,输出(不含推理)为0.6美元,输出(含推理)为3.5美元。相比Anthropic和Grok的同类产品,Gemini 2.5 Flash在成本控制上更具优势,同时保持较高性能表现。
原文链接
标题:首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间
白交 发自 凹非寺
量子位 | 公众号 QbitAI
Claude 3.7 Sonnet,首个混合推理模型发布,编程和前端Web开发能力显著提升。它能在不同任务中切换,如快速反应和逐步思考。在相同提示下,Claude...
原文链接
今日,Anthropic发布了Claude 3.7 Sonnet,全球首个混合推理模型,具备快速响应和深度推理两种模式。该模型在数学、物理和编程等复杂任务上表现卓越,强调实用性和代码协作能力。同时,Anthropic推出了Claude Code,一款智能编程工具,能高效完成复杂编程任务,提升开发效率。Claude 3.7 Sonnet现已适用于所有Claude订阅计划,包括免费版和专业版。Anthropic还计划持续优化Claude Code,以提升用户体验。
原文链接
Anthropic于2月25日宣布推出Claude 3.7 Sonnet,这是首款混合推理模型。该模型能提供即时响应并展示详细的思考过程,用户可控制模型的思考时长。同时发布的Claude Code命令行工具(研究预览版)让开发者可通过终端委托重要工程任务。这一新模型展示了公司在AI领域的最新进展。
原文链接
加载更多

暂无内容
AI热搜
更多
