Llama 3 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3

Meta 在开发 Llama 3 AI 模型时，高管和研究人员将超越 OpenAI 的 GPT-4 作为核心目标，表现出强烈的竞争意识。Meta AI 副总裁 Ahmad Al-Dahle 称，他们计划利用 64,000 个 GPU 来构建前沿技术。内部通信显示，Meta 对开源竞争对手 Mistral 持不屑态度，认为自己能做得更好。Meta 为获取训练数据采取了激进策略，甚至使用了受版权保护的书籍。2024年4月，Meta 发布了 Llama 3 模型，性能与谷歌、OpenAI 的闭源模型相当，但其数据版权存疑，引发多起诉讼。

原文链接

智能视野

01-15 17:35:30

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

Meta在进行Llama 3模型训练时遭遇大规模故障，使用了16384块英伟达H100 GPU构成的集群，但在54天内发生了419次意外故障，平均约每三小时一次。故障主要由显卡和高带宽内存（HBM3）引发，尤其GPU问题占比高达58.7%，但仅三起事件需要大量人工介入，其余由自动化管理解决。尽管面临诸多挑战，Meta团队仍保持了90%以上的有效训练时间。故障分析揭示了GPU及内存故障为主要原因，同时也指出了软件错误、网络设备问题等其他因素的影响。为应对这一挑战，Meta开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题等。同时，他们还注意到了环境因素，如温度波动和电网压力对训练的影响。此事件反映了随着AI模型参数量的增加，对计算资源的需求和复杂性也在提升，未来AI训练将面临更大挑战。

原文链接

AGI探路者

07-28 20:12:58

分享至

打开微信扫一扫

内容投诉

生成图片

力压70B Llama 3，Gemma 2成最强开源模型，大佬质疑用榜单prompt微调引全网热议

新闻摘要：谷歌开源模型Gemma 2在LMSYS Chatbot Arena上崭露头角，凭借27B参数超越70B的Llama 3-Instruct，成为当前最强的开源模型。Gemma 2刚发布即在整体评分和多轮对话排行榜上取得优异表现，引起业界关注。Google首席科学家Jeff Dean对此表示祝贺，提及27B参数规模的高效。然而，模型的崛起引发争议，尤其是关于是否使用LMSYS数据集微调的问题。Allen AI研究员Nathan Lambert质疑数据来源，尽管LMSYS强调数据公开且仅用prompt。这场围绕模型性能和数据使用的辩论在社区中持续，引发了关于基准测试公正性的讨论。

原文链接