1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:个人开发者训练400亿参数大模型:分布式算力与DeepSeek架构

Psyche Network由Nous Research推出,旨在通过整合全球算力训练强大AI模型,打破科技巨头的算力垄断。该网络基于Deepseek V3 MLA架构,首次测试即对400亿参数的大语言模型进行预训练,可在单个DGX或3090 GPU上运行。

传统上,如此规模的模型训练需要大量资源和时间,通常由大型科技公司完成。Psyche的出现让个人和小团队也能参与创建大规模模型。网友认为,这可能成为新的前沿AI实验室。

Psyche的技术突破包括DisTrO优化器,通过梯度压缩和异步更新策略大幅降低通信数据量,突破带宽限制。此外,其自定义点对点网络堆栈无需中心化服务器,即使家用宽带也能稳定参与训练。

网络架构分为协调器、客户端和数据提供者三部分。Psyche采用模型并行与数据并行结合的方式,将400亿参数拆解为128个分片,通过动态自适应批量大小提高训练效率。数据集包括FineWeb、FineWeb-2和The Stack v2,涵盖广泛信息。

Psyche计划整合监督微调和强化学习等完整训练流程,并开放多种工具与社区资源供开发者探索。感兴趣的朋友可访问官方链接深入了解。

原文链接
本文链接:https://kx.umi6.com/article/18792.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
2025-05-19 10:11:37
字节跳动火山方舟大模型平台向个人开发者开放,提供 50 万 tokens 免费推理额度
2024-06-12 21:13:45
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现
2024-11-05 15:15:12
24小时热文
更多
扫一扫体验小程序