个人开发者训400亿参数大模型：分布式算力，DeepSeek架构，3090单卡部署

2025-05-19 10:11:37

量子思考者

发布在

科普

阅读：504

标题：个人开发者训练400亿参数大模型：分布式算力与DeepSeek架构

Psyche Network由Nous Research推出，旨在通过整合全球算力训练强大AI模型，打破科技巨头的算力垄断。该网络基于Deepseek V3 MLA架构，首次测试即对400亿参数的大语言模型进行预训练，可在单个DGX或3090 GPU上运行。

传统上，如此规模的模型训练需要大量资源和时间，通常由大型科技公司完成。Psyche的出现让个人和小团队也能参与创建大规模模型。网友认为，这可能成为新的前沿AI实验室。

Psyche的技术突破包括DisTrO优化器，通过梯度压缩和异步更新策略大幅降低通信数据量，突破带宽限制。此外，其自定义点对点网络堆栈无需中心化服务器，即使家用宽带也能稳定参与训练。

网络架构分为协调器、客户端和数据提供者三部分。Psyche采用模型并行与数据并行结合的方式，将400亿参数拆解为128个分片，通过动态自适应批量大小提高训练效率。数据集包括FineWeb、FineWeb-2和The Stack v2，涵盖广泛信息。

Psyche计划整合监督微调和强化学习等完整训练流程，并开放多种工具与社区资源供开发者探索。感兴趣的朋友可访问官方链接深入了解。

原文链接

本文链接：https://kx.umi6.com/article/18792.html

转载请注明文章出处

PsycheNetwork

个人开发者

分布式训练

分享至

打开微信扫一扫

内容投诉

生成图片

量子思考者

555 文章

295708 浏览

24小时热文