
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:瘦身不降智!大模型训推效率提升30%,京东研究成果登上Nature旗下期刊
京东探索研究院关于大模型的新研究登上Nature子刊npj Artificial Intelligence。该研究提出一种在开放环境中训练、更新大模型并与小模型协同部署的方法,通过模型蒸馏、数据治理、训练优化和云边...
原文链接
DeepSeek公司发布了全新AI模型DeepSeek-V3,仅用2048块H800显卡、耗时两个月便训练出6710亿参数模型,效率比Meta高11倍。DeepSeek-V3采用MoE架构和MLA机制,结合FP8混合精度框架和DualPipe算法,大幅提升了训练效率。这一成就在芯片受限环境下尤为突出,显示了软件创新突破硬件限制的潜力。DeepSeek-V3的成功引发了市场对AI领域‘卖铲人’地位变化的担忧,英伟达股价一度下跌。
原文链接
7月8日,Google DeepMind发布新研究JEST,一种AI训练方法,声称能提升13倍训练速度和10倍能效,助力环保。JEST通过联合示例选择机制,对比学习者和参考模型评估数据批次,精准挑选关键学习数据,适用于多领域。尽管对高质量数据依赖,但研究或缓解AI算力焦虑。随着AI能耗问题关注,JEST可能被用于降低成本,但实际应用中,可能面临效率与能耗竞赛的挑战。
原文链接
DeepMind团队发布新突破:JEST数据筛选方法大幅缩短AI训练时间13倍,降低算力需求90%,使得大规模多模态预训练效率提升10倍。这一创新通过智能数据选择,类似图书管理员挑选适合模型的数据批次,减少迭代次数和计算量。研究显示,JEST在预训练数据上性能稳定,有望改变AI训练现状,并对能源消耗有积极影响。该成果由Talfan Evans等4名研究人员主导,论文已公开,展示了从专家型模型到通用模型的转化潜力。
原文链接
加载更多

暂无内容