百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
AI的未来战场,不在云端,而在每个人的口袋里。各大手机厂商纷纷将大模型引入手机,端侧AI成为竞争焦点。背后的逻辑简单而坚定:最懂你的AI必须能安全访问个人数据,这需要将计算留在本地,将隐私还给用户。
然而,实现端侧AI并非易事。即便是苹果这样的科技巨头,其Apple Intelligence计划也因技术难度推迟。这表明,端侧AI是一块难啃的硬骨头。但近日,一股产学研结合的力量带来了突破。
上海交通大学IPADS研究所、人工智能学院与初创公司本智激活(Zenergize AI)联合开源了端侧原生大模型SmallThinker。这一系列模型专为端侧硬件设计,包含两个稀疏模型:SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,并已全面开源。
SmallThinker的最大亮点是能在端侧CPU上快速推理,无需依赖高端GPU。其中,4B模型在1GB内存下推理速度达19.41 tokens/s;21B模型在百元级国产RK3588开发板上,相比主流模型Qwen-14B实现了高达21倍的推理加速。
与传统压缩方法不同,SmallThinker从零开始预训练,采用创新架构与端侧硬件“精巧匹配”,具备三大核心技术特性:
1. 双层稀疏架构:通过专家内部神经元稀疏化,大幅降低算力需求。
2. 专家路由前置:异步加载专家权重,隐藏I/O开销。
3. 混合稀疏注意力:优化长文本处理,KV缓存占用降低76%。
SmallThinker不仅性能卓越,还兼容HuggingFace Transformers、vLLM等主流框架,支持英特尔、英伟达、高通等芯片,甚至可在鸿蒙系统上运行。结合团队开发的端侧推理框架PowerInfer,性能进一步提升。
评测显示,SmallThinker在智力水平和实际性能上均表现出色。例如,在1GB内存极限场景下,4B模型推理速度达19.91 tokens/s,远超同类模型;在8GB内存PC上,21B模型推理速度达20.30 tokens/s,是竞品的两倍。
未来,团队计划继续优化模型,一方面通过更大规模训练提升能力,另一方面致力于打造“个人贾维斯”式智能体,让AI完全运行在个人设备上,安全理解用户的数字生活,提供真正个性化的服务。
随着端侧AI的不断进步,未来的AI将像水和空气一样融入每个人的生活,带来安全、私密且高效的智能体验。
.png)

-
2025-07-28 00:04:34
-
2025-07-27 23:04:18
-
2025-07-27 23:03:33