1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:中科院实现国产 GPU 上 76B 类脑大模型突破

正文:
近年来,Transformer 几乎垄断了大模型领域,但它在处理超长文本时计算量和内存消耗巨大,且行业严重依赖 NVIDIA 的 GPU 和 CUDA 生态。为突破这些限制,业界不断探索新方向。最近,中科院团队提出了一种全新类脑大模型 SpikingBrain,首次在国产 GPU 平台 MetaX 上成功训练出 76B 规模的模型,展现了新路径的可行性。

SpikingBrain 引入脉冲神经元、线性注意力和稀疏专家机制,在超长文本任务上实现了百倍加速。例如,SpikingBrain-7B 在处理 400 万 token 时,首个 token 生成延迟比传统 Transformer 快 100 倍,同时保持 69.15% 的稀疏激活率,大幅降低能耗。研究团队使用 1500 亿 token 数据训练了两个核心模型(7B 和 76B),在多项基准测试中接近甚至追平传统 Transformer。

实验完全基于国产 MetaX C550 GPU 集群完成,7B 模型达到 23.4% 的 FLOPs 利用率,证明该平台能高效支持大规模模型训练。为实现这一成果,团队对模型架构、训练方法和系统工程进行了全面优化:将全连接注意力替换为线性注意力,引入“按需放电”的脉冲神经元,并针对硬件环境重写算子库和分布式通信机制,解决了内存溢出与死锁问题。

此外,团队设计了一种基于转换的训练流程,将 Transformer 的成熟经验迁移到 SpikingBrain,克服了脉冲神经元“不可微”的难题。最终,模型不仅在数百张 GPU 上稳定运行,还通过稀疏专家机制进一步提升了性能。

SpikingBrain 的意义在于,它验证了类脑机制在大规模模型中的实用性,打破了 NVIDIA 硬件生态的垄断,并为降低大模型能耗提供了新思路。尽管类脑模型尚未完全成熟,但这一研究为行业开辟了新方向,展示了大模型发展的多样可能性。

原文链接
本文链接:https://kx.umi6.com/article/25788.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
摩尔线程的野心,不藏了
2025-12-21 23:07:27
市值3055亿!摩尔线程敲钟,国产通用GPU第一股来了
2025-12-05 12:24:49
30 亿参数“从 0 到 1”,摩尔线程 / 无问芯穹“千卡集群”行业内首次实现国产 GPU 端到端 AI 大模型实训
2024-05-27 12:11:27
摩尔线程还没上市,“概念股”已经抢飞了
2025-09-23 19:21:44
上海AI芯片独角兽启动IPO上市辅导:哈佛高材生打造国产GPU,已融资50多亿
2024-09-12 11:46:17
国产GPU,集体迈向IPO
2025-07-24 12:05:58
国产GPU厂商的“烧钱与梦想”
2025-07-11 20:44:27
摩尔线程算力专区正式上线 AutoDL 平台,首次将国产 GPU 算力开放至 AI 开发一线
2025-05-22 08:21:47
摩尔线程推出国产智能编程服务,首月免费
2026-02-03 19:55:17
14.88亿元!国产沐曦GPU连续拿下AI训推一体机大单
2025-02-26 12:36:19
天数智芯也要上市?国产GPU密集IPO
2025-08-14 18:05:00
「中国英伟达」不好当
2025-12-26 17:53:02
“中国版英伟达”闪电过会,从受理到过会仅用时88天
2025-09-28 13:54:28
24小时热文
更多
扫一扫体验小程序