1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:个人开发者训练400亿参数大模型:分布式算力与DeepSeek架构

Psyche Network由Nous Research推出,旨在通过整合全球算力训练强大AI模型,打破科技巨头的算力垄断。该网络基于Deepseek V3 MLA架构,首次测试即对400亿参数的大语言模型进行预训练,可在单个DGX或3090 GPU上运行。

传统上,如此规模的模型训练需要大量资源和时间,通常由大型科技公司完成。Psyche的出现让个人和小团队也能参与创建大规模模型。网友认为,这可能成为新的前沿AI实验室。

Psyche的技术突破包括DisTrO优化器,通过梯度压缩和异步更新策略大幅降低通信数据量,突破带宽限制。此外,其自定义点对点网络堆栈无需中心化服务器,即使家用宽带也能稳定参与训练。

网络架构分为协调器、客户端和数据提供者三部分。Psyche采用模型并行与数据并行结合的方式,将400亿参数拆解为128个分片,通过动态自适应批量大小提高训练效率。数据集包括FineWeb、FineWeb-2和The Stack v2,涵盖广泛信息。

Psyche计划整合监督微调和强化学习等完整训练流程,并开放多种工具与社区资源供开发者探索。感兴趣的朋友可访问官方链接深入了解。

原文链接
本文链接:https://kx.umi6.com/article/18792.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节跳动火山方舟大模型平台向个人开发者开放,提供 50 万 tokens 免费推理额度
2024-06-12 21:13:45
多位开发者收到邮件!微软Azure将终止个人OpenAI API服务 大陆仅企业客户可订阅
2024-10-17 19:16:37
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现
2024-11-05 15:15:12
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
广东:支持基于开源鸿蒙的机器人等多领域操作系统生态发展
2026-04-22 17:30:14
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
中信证券:预计二季度AI行情开始发散 建议关注被动元件、消费电子等细分板块
2026-04-24 09:04:28
阶跃StepAudio 2.5 ASR上线 支持500TPS极速推理
2026-04-24 14:19:56
DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片
2026-04-24 13:09:49
Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进
2026-04-24 18:24:51
Deepseek官网公布deepseek-v4接口文档
2026-04-24 11:10:00
DeepSeek-V4上线国家超算互联网
2026-04-24 18:30:24
24小时热文
更多
扫一扫体验小程序