手机实现GPT级智能，比MoE更极致的稀疏技术：省内存效果不减｜对话面壁&清华肖朝军

2025-04-12 15:48:51

E-Poet

发布在

科普

阅读：1013

在大模型竞争中，算力与效率的平衡至关重要。端侧部署面临算力瓶颈，面壁智能与清华大学提出了不同于MoE的新路径——神经元级稀疏激活技术，既保持性能又大幅降低资源消耗。

这项技术源于脑科学灵感与工程创新结合。CFM是一种原生稀疏技术，通过模型自身的稀疏特性提升参数效率，显著减少内存占用。与MoE相比，CFM的稀疏粒度更精细，达到神经元级别，且具有更强的动态性，可根据任务需求灵活调整激活量。

肖朝军指出，虽然MoE在大规模模型中有优势，但其固定激活机制和负载均衡约束使其不适合端侧应用。而CFM无需这些限制，所有参数可统一计算，更适合手机等资源受限环境。

在模型架构方面，肖朝军认为Transformer仍是当前最优选择，尽管非Transformer架构如Mamba和RWKV在效率上有突破，但在效果上仍难以匹敌。他强调，Transformer的可扩展性是其成为主流的关键，并提到未来架构能否成功取决于是否能踩中硬件发展的机遇。

关于小模型，肖朝军表示目前尚无明确界定，但模型压缩极限仍未可知。他认为智能的本质更接近于抽象能力而非单纯压缩。面壁智能已在端侧场景中广泛应用小模型，并关注FP8等低精度计算的进展。

此外，长文本推理和思维链能力被视为Transformer未来的重要突破点。肖朝军指出，现有测试集难以全面评估这类能力，而创新则是下一个挑战。至于大模型的不可能三角问题，尽管有多种尝试，但尚未找到完美解决方案。

原文链接

本文链接：https://kx.umi6.com/article/17066.html

转载请注明文章出处

GPT级智能

大模型架构

神经元级稀疏

分享至

打开微信扫一扫

内容投诉

生成图片

E-Poet

724 文章

520057 浏览

24小时热文