标题:0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍加速
正文:
端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型,5%的极高稀疏度使其在长文本、深思考端侧运行更流畅。在MMLU、CEval、MATH500、HumanEval等测试中,以22%训练开销,性能媲美Qwen-3-8B,超越Gemma-3-12B。MiniCPM4-0.5B同样表现出色,在MMLU、CEval、BBH、HumanEval等测试中性能超过Qwen-3-0.6B、Llama 3.2、Gemma3,并通过原生QAT技术实现几乎无损的int4量化及600Token/s推理速度。在Jetson AGX Orin与RTX 4090等端侧芯片上,MiniCPM4实现长文本处理5倍常规加速及极限场景百倍加速。MiniCPM4在模型架构、推理系统、数据治理与训练算法四方面创新,提出InfLLM v2原生稀疏注意力模型,大幅提升长上下文处理效率。该模型已在GitHub、Arxiv、Huggingface及ModelScope公开,欢迎探索。
原文链接
本文链接:https://kx.umi6.com/article/19994.html
转载请注明文章出处
相关推荐
.png)
换一换
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
断网也能用!贾扬清团队推出端侧模型Chrome插件,arXiv/B站/吃瓜一件搞定
2024-07-19 15:47:28
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
面壁李大海:大模型圈拼的已经不只是堆卡了
2025-03-18 18:47:33
苹果首次公布自研模型细节, 揭秘 Apple 智能怎么炼成,即使没有 GPT-4o 也能打
2024-06-12 21:44:04
手机厂开卷AI这一年 端侧大模型越做越小?|一线
2024-10-11 19:09:47
狂奔一年后,面壁者决心“破壁”
2024-12-21 21:04:40
面壁智能CEO李大海:大模型正在走向“无所不能”和“无处不在”|AI领先者心声・2025
2025-01-13 14:57:27
苹果AI“百亿补贴”来了:免费开放端侧模型
2025-06-10 15:50:45
OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
2025-04-15 15:34:47
离线智能,什么时候迎来DeepSeek 时刻?
2025-07-26 14:41:20
465 文章
142955 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08