综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月1日,AI行业正从追求模型能力上限转向提升计算效率,混合推理成为行业共识。美团开源的龙猫大模型通过“零计算”专家机制大幅节省算力,应对复杂推理模式导致的成本上升问题。OpenAI的GPT-5采用“路由器”机制,根据任务复杂度选择模型,减少50-80%的token消耗;DeepSeek V3.1则推出单模型双模式架构,可在“思考”与“非思考”间切换,降低25-50%的token使用量。包括Google、阿里、字节等在内的头部厂商均探索混合推理方案,目标是实现性能与成本的平衡,并向更智能的“自我调节”方向发展。
原文链接
阿里旗下通义千问Qwen3深夜开源,2小时内GitHub收获17k星,登顶全球开源模型榜首。Qwen3采用MoE架构,参数235B,激活仅需22B,支持混合推理模式,涵盖8款模型,从小至0.6B到大至235B,适配多种应用场景。其性能远超DeepSeek-R1、OpenAI-o1等顶级模型,尤其在数学、代码生成和多语言支持方面表现突出,参数量仅为DeepSeek-R1的1/3,但成本更低。Qwen3支持119种语言,可无缝切换思考与非思考模式,大幅降低推理成本。此外,其预训练数据达36万亿token,后训练强化学习优化显著提升了指令遵循与智能体能力。Qwen3已在魔搭、Hugging Face、GitHub等平台开源,支持免费商用。
原文链接
4月17日,谷歌宣布推出Gemini 2.5 Flash预览版AI模型,可通过Google AI Studio和Vertex AI中的Gemini API访问。该模型支持用户通过Gemini应用内模型选择器直接使用,并能结合Canvas工具优化文档与代码编辑。作为首个全混合推理模型,Gemini 2.5 Flash专为高容量和实时场景设计,如客户服务与文档解析,可显著降低延迟并减少成本。谷歌强调其适合作为虚拟助手及实时总结工具的核心引擎。定价方面,输入每100万tokens收费0.15美元,输出(不含推理)为0.6美元,输出(含推理)为3.5美元。相比Anthropic和Grok的同类产品,Gemini 2.5 Flash在成本控制上更具优势,同时保持较高性能表现。
原文链接
加载更多
暂无内容