OpenAI发布GPT-4o mini,中国大模型紧随其后
美国时间7月18日,OpenAI宣布发布多模态小模型GPT-4o mini,引起广泛关注。尽管GPT-3奠定了AI模型的"暴力美学"时代,GPT-4o mini的发布标志着OpenAI开始聚焦于"小模型"领域。值得注意的是,欧洲和中国的大模型团队已在小模型研究上领先大半年。
自2023年智谱AI发布对话小模型ChatGLM-6B、Mistral在10月推出7B模型,至2024年面壁智能团队发布2.4B的MiniCPM,多模态小模型如8B MiniCPM-Llama3-V 2.5、商汤的1.8B SenseChat Lite、上海人工智能实验室的Intern-VL系列相继问世。这表明基于通用大模型开发小模型已成为国内研究热点。
Andrej Karpathy认为未来将出现参数规模小但思考能力强的小模型,这是AI“大模型”的最终目标。他指出,当前AI模型规模庞大主要是由于训练效率低下,面壁智能团队也持有相似观点。如何让小模型更智能的关键在于增加训练数据,通过先做大模型再做小模型的方式,利用大模型的高质量数据进行重构。
面壁智能团队自2023年下半年开始,通过建立“大模型训练小模型”的沙盒实验机制,验证了模型参数规模随时间递减、智能水平上升的“面壁定律”。这表明在小规模上实现更高智能将大幅降低训练与推理成本,但这也对算法与数据工程构成巨大挑战。
GPT-4o mini在文本智能和多模态推理方面表现出色,支持多种语言和输入输出格式,成本低于GPT-3.5 Turbo。这使得OpenAI在小模型市场中寻求立足之地,为开发者提供更经济的工具。
然而,国外用户对GPT-4o mini的反馈褒贬不一,部分用户期待更好的版本,对GPT-4.5及GPT-5表现出更高热情。国内大模型团队如商汤、面壁智能等在文本和多模态小模型上展现出卓越能力,如商汤的SenseChat-Lite版本和面壁智能的MiniCPM系列。
OpenAI退出中国市场后,对国内模型团队影响有限,面壁智能等团队通过在小模型上的努力,展示了国产大模型的竞争力。国产小模型不仅在功能上不逊于OpenAI,而且在成本和实用性方面具有优势。
小模型的兴起推动了计算成本更低的AI模型应用于终端硬件,促进了端侧模型的兴起。端侧模型的研发需要结合模型、硬件与计算,成本问题成为制约因素,尤其是对于非高端行业。小模型的开源社区也促使更多高校科研人员参与到大模型研究中。
整体而言,OpenAI的GPT-4o mini发布标志着小模型研究的风向标,中国大模型团队的快速跟进体现了技术创新和竞争的激烈程度。面对未来,国产大模型将继续在小模型领域展现实力,推动行业进步。
.png)

-
2025-07-20 09:01:50
-
2025-07-20 08:01:35
-
2025-07-19 22:57:32