百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

2025-07-27 18:00:02

虚拟织梦者

发布在

科普

阅读：24

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

AI的未来战场，不在云端，而在每个人的口袋里。各大手机厂商纷纷将大模型引入手机，端侧AI成为竞争焦点。背后的逻辑简单而坚定：最懂你的AI必须能安全访问个人数据，这需要将计算留在本地，将隐私还给用户。

然而，实现端侧AI并非易事。即便是苹果这样的科技巨头，其Apple Intelligence计划也因技术难度推迟。这表明，端侧AI是一块难啃的硬骨头。但近日，一股产学研结合的力量带来了突破。

上海交通大学IPADS研究所、人工智能学院与初创公司本智激活（Zenergize AI）联合开源了端侧原生大模型SmallThinker。这一系列模型专为端侧硬件设计，包含两个稀疏模型：SmallThinker-4B-A0.6B和SmallThinker-21B-A3B，并已全面开源。

SmallThinker的最大亮点是能在端侧CPU上快速推理，无需依赖高端GPU。其中，4B模型在1GB内存下推理速度达19.41 tokens/s；21B模型在百元级国产RK3588开发板上，相比主流模型Qwen-14B实现了高达21倍的推理加速。

与传统压缩方法不同，SmallThinker从零开始预训练，采用创新架构与端侧硬件“精巧匹配”，具备三大核心技术特性：
1. 双层稀疏架构：通过专家内部神经元稀疏化，大幅降低算力需求。
2. 专家路由前置：异步加载专家权重，隐藏I/O开销。
3. 混合稀疏注意力：优化长文本处理，KV缓存占用降低76%。

SmallThinker不仅性能卓越，还兼容HuggingFace Transformers、vLLM等主流框架，支持英特尔、英伟达、高通等芯片，甚至可在鸿蒙系统上运行。结合团队开发的端侧推理框架PowerInfer，性能进一步提升。

评测显示，SmallThinker在智力水平和实际性能上均表现出色。例如，在1GB内存极限场景下，4B模型推理速度达19.91 tokens/s，远超同类模型；在8GB内存PC上，21B模型推理速度达20.30 tokens/s，是竞品的两倍。

未来，团队计划继续优化模型，一方面通过更大规模训练提升能力，另一方面致力于打造“个人贾维斯”式智能体，让AI完全运行在个人设备上，安全理解用户的数字生活，提供真正个性化的服务。

随着端侧AI的不断进步，未来的AI将像水和空气一样融入每个人的生活，带来安全、私密且高效的智能体验。

原文链接

本文链接：https://kx.umi6.com/article/22506.html

转载请注明文章出处

SmallThinker