标题:0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍加速
正文:
端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型,5%的极高稀疏度使其在长文本、深思考端侧运行更流畅。在MMLU、CEval、MATH500、HumanEval等测试中,以22%训练开销,性能媲美Qwen-3-8B,超越Gemma-3-12B。MiniCPM4-0.5B同样表现出色,在MMLU、CEval、BBH、HumanEval等测试中性能超过Qwen-3-0.6B、Llama 3.2、Gemma3,并通过原生QAT技术实现几乎无损的int4量化及600Token/s推理速度。在Jetson AGX Orin与RTX 4090等端侧芯片上,MiniCPM4实现长文本处理5倍常规加速及极限场景百倍加速。MiniCPM4在模型架构、推理系统、数据治理与训练算法四方面创新,提出InfLLM v2原生稀疏注意力模型,大幅提升长上下文处理效率。该模型已在GitHub、Arxiv、Huggingface及ModelScope公开,欢迎探索。
原文链接
本文链接:https://kx.umi6.com/article/19994.html
转载请注明文章出处
相关推荐
.png)
换一换
面壁李大海:大模型圈拼的已经不只是堆卡了
2025-03-18 18:47:33
面壁智能CEO李大海:大模型正在走向“无所不能”和“无处不在”|AI领先者心声・2025
2025-01-13 14:57:27
狂奔一年后,面壁者决心“破壁”
2024-12-21 21:04:40
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
苹果首次公布自研模型细节, 揭秘 Apple 智能怎么炼成,即使没有 GPT-4o 也能打
2024-06-12 21:44:04
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
2024-12-11 09:21:31
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
2025-08-07 09:45:09
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
2024-06-07 18:33:33
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
加速端侧模型布局 OPPO收了一家AI创业企业!
2024-10-23 20:47:20
苹果公布自研模型细节:没有GPT-4o也能打?
2024-06-12 22:54:41
DeepSeek下一代技术提前曝光
2025-07-31 09:02:46
515 文章
226122 浏览
24小时热文
更多

-
2025-10-23 18:14:34
-
2025-10-23 18:13:26
-
2025-10-23 18:12:20