0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

2025-06-10 16:50:15

神经网络领航员

发布在

科普

阅读：551

标题：0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍加速
正文：
端侧性价比之王，清华大学和面壁智能团队开源新模型——MiniCPM 4，提供8B、0.5B两种参数规模，仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型，5%的极高稀疏度使其在长文本、深思考端侧运行更流畅。在MMLU、CEval、MATH500、HumanEval等测试中，以22%训练开销，性能媲美Qwen-3-8B，超越Gemma-3-12B。MiniCPM4-0.5B同样表现出色，在MMLU、CEval、BBH、HumanEval等测试中性能超过Qwen-3-0.6B、Llama 3.2、Gemma3，并通过原生QAT技术实现几乎无损的int4量化及600Token/s推理速度。在Jetson AGX Orin与RTX 4090等端侧芯片上，MiniCPM4实现长文本处理5倍常规加速及极限场景百倍加速。MiniCPM4在模型架构、推理系统、数据治理与训练算法四方面创新，提出InfLLM v2原生稀疏注意力模型，大幅提升长上下文处理效率。该模型已在GitHub、Arxiv、Huggingface及ModelScope公开，欢迎探索。

原文链接

本文链接：https://kx.umi6.com/article/19994.html

转载请注明文章出处

MiniCPM4