1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型

AI的未来战场,不在云端,而在每个人的口袋里。各大手机厂商纷纷将大模型引入手机,端侧AI成为竞争焦点。背后的逻辑简单而坚定:最懂你的AI必须能安全访问个人数据,这需要将计算留在本地,将隐私还给用户。

然而,实现端侧AI并非易事。即便是苹果这样的科技巨头,其Apple Intelligence计划也因技术难度推迟。这表明,端侧AI是一块难啃的硬骨头。但近日,一股产学研结合的力量带来了突破。

上海交通大学IPADS研究所、人工智能学院与初创公司本智激活(Zenergize AI)联合开源了端侧原生大模型SmallThinker。这一系列模型专为端侧硬件设计,包含两个稀疏模型:SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,并已全面开源。

SmallThinker的最大亮点是能在端侧CPU上快速推理,无需依赖高端GPU。其中,4B模型在1GB内存下推理速度达19.41 tokens/s;21B模型在百元级国产RK3588开发板上,相比主流模型Qwen-14B实现了高达21倍的推理加速。

与传统压缩方法不同,SmallThinker从零开始预训练,采用创新架构与端侧硬件“精巧匹配”,具备三大核心技术特性:
1. 双层稀疏架构:通过专家内部神经元稀疏化,大幅降低算力需求。
2. 专家路由前置:异步加载专家权重,隐藏I/O开销。
3. 混合稀疏注意力:优化长文本处理,KV缓存占用降低76%。

SmallThinker不仅性能卓越,还兼容HuggingFace Transformers、vLLM等主流框架,支持英特尔、英伟达、高通等芯片,甚至可在鸿蒙系统上运行。结合团队开发的端侧推理框架PowerInfer,性能进一步提升。

评测显示,SmallThinker在智力水平和实际性能上均表现出色。例如,在1GB内存极限场景下,4B模型推理速度达19.91 tokens/s,远超同类模型;在8GB内存PC上,21B模型推理速度达20.30 tokens/s,是竞品的两倍。

未来,团队计划继续优化模型,一方面通过更大规模训练提升能力,另一方面致力于打造“个人贾维斯”式智能体,让AI完全运行在个人设备上,安全理解用户的数字生活,提供真正个性化的服务。

随着端侧AI的不断进步,未来的AI将像水和空气一样融入每个人的生活,带来安全、私密且高效的智能体验。

原文链接
本文链接:https://kx.umi6.com/article/22506.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李飞飞实验室2025 AI报告出炉:AI推理成本降低至1/280
2025-04-08 23:18:28
大模型首次直接理解代码图:不用 Agent 自动修 bug,登顶 SWE-Bench 开源模型榜单
2025-06-27 15:12:57
“大模型六虎”阶跃星辰3月将开源图生视频模型,并成立新的生态基金
2025-02-22 00:01:30
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
2025-06-06 16:36:35
OpenAI要把AI“装进口袋” 设备出货量剑指亿级 端侧战争一触即发
2025-05-22 16:36:16
开源全能图像模型媲美GPT-4o!解决扩散模型误差累计问题
2025-05-12 16:35:41
联发科发布天玑9400+处理器,加速端侧AI落地
2025-04-14 15:38:14
“开源模型验货官”Perplexity,给Kimi K2盖了个戳
2025-07-21 11:17:17
黄仁勋谈“主权AI”:基础设施不能指望外包
2025-03-22 12:17:01
业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
2025-06-27 17:10:33
智谱发布新一代开源模型 极速版最高达到200tokens/秒
2025-04-15 08:25:16
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
2025-07-27 18:00:02
24小时热文
更多
扫一扫体验小程序