标题:个人开发者训练400亿参数大模型:分布式算力与DeepSeek架构
Psyche Network由Nous Research推出,旨在通过整合全球算力训练强大AI模型,打破科技巨头的算力垄断。该网络基于Deepseek V3 MLA架构,首次测试即对400亿参数的大语言模型进行预训练,可在单个DGX或3090 GPU上运行。
传统上,如此规模的模型训练需要大量资源和时间,通常由大型科技公司完成。Psyche的出现让个人和小团队也能参与创建大规模模型。网友认为,这可能成为新的前沿AI实验室。
Psyche的技术突破包括DisTrO优化器,通过梯度压缩和异步更新策略大幅降低通信数据量,突破带宽限制。此外,其自定义点对点网络堆栈无需中心化服务器,即使家用宽带也能稳定参与训练。
网络架构分为协调器、客户端和数据提供者三部分。Psyche采用模型并行与数据并行结合的方式,将400亿参数拆解为128个分片,通过动态自适应批量大小提高训练效率。数据集包括FineWeb、FineWeb-2和The Stack v2,涵盖广泛信息。
Psyche计划整合监督微调和强化学习等完整训练流程,并开放多种工具与社区资源供开发者探索。感兴趣的朋友可访问官方链接深入了解。
原文链接
本文链接:https://kx.umi6.com/article/18792.html
转载请注明文章出处
相关推荐
.png)
换一换
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现
2024-11-05 15:15:12
字节跳动火山方舟大模型平台向个人开发者开放,提供 50 万 tokens 免费推理额度
2024-06-12 21:13:45
多位开发者收到邮件!微软Azure将终止个人OpenAI API服务 大陆仅企业客户可订阅
2024-10-17 19:16:37
个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
2025-05-19 10:11:37
硅谷版的“莞莞类卿”?分析师称博通业绩增速令人想起早年的英伟达
2025-09-06 15:35:56
新华三集团与重庆水务环境集团签订战略合作协议
2025-09-06 10:33:40
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
柯洁回应与AI下棋:比一百盘被虐一百盘 AI要我水平低的数据是在污染自己
2025-09-07 09:43:21
谷歌 Gemini AI 会员权益公布:免费用户每月可用 5 次深度搜索、Pro 会籍每天可生成百张图片
2025-09-07 15:46:08
特斯拉自研芯片新进展 AI5完成设计评审 马斯克:将成“史诗级”产品
2025-09-07 09:43:44
时空壶发布W4:用“硬核”技术,打赢一场AI 翻译的“标准”之战
2025-09-07 20:50:36
商汤日日新为 Claude API 用户提供“搬家”服务:可获 5000 万 Tokens 体验包
2025-09-06 15:35:37
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
520 文章
208803 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25