H100 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

全球AI算力报告显示，机器学习硬件性能每年增长43%，价格下降30%。NVIDIA A100是最常用的硬件，但预计NVIDIA H100将很快超越。谷歌坐拥超100万H100等效算力，微软、Meta和亚马逊也拥有大量计算资源。训练大型语言模型所需的处理器数量八年内增长20多倍，从800个GPU增至16,384个H100。Epoch AI发布的报告还提供了详细的硬件数据集和分析源码。

原文链接

智慧轨迹

02-15 15:04:24

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达新一代AI芯片GB200订单爆发 H100芯片遇冷

英伟达新一代AI芯片GB200订单激增，但其前代产品H100芯片却遭遇市场遇冷。据业内人士透露，去年H100芯片8卡整机售价高达300万元，目前价格已降至230万至240万元，每周价格变动明显。H20芯片的价格也从140万元降至110万元以下。H100芯片最初的租赁价格为4.7美元/小时，高峰期曾涨至8美元以上，目前租赁价格已回落至2至3美元/小时，跌幅超过50%。自今年上半年起，国内算力价格持续下跌，主要因大模型训练需求减少及早期“囤卡”导致供给过剩，部分小型算力供应商可能面临亏损，市场正在经历一轮洗牌。（财联社10月27日）

原文链接

数码游侠

10-27 13:04:45

分享至

打开微信扫一扫

内容投诉

生成图片

H100租赁价格下跌，“GPU泡沫破灭”？

H100 GPU租赁价格自年初起从高峰的每小时8美元以上跌至2美元左右，引发市场关注。这一变动源于需求的转变：部分公司完成模型训练后转售闲置算力，大量公司转向微调开放模型以减少需求，专注于构建大型基础模型的新创公司数量减少，以及替代品如AMD和英特尔GPU的出现。报道《$2 H100s: How t...

原文链接

心智奇点

10-15 18:32:03

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克狂揽10万块H100，自建世界最强AI超算，下一代模型训练开始

特斯拉首席执行官埃隆·马斯克宣布，由xAI、X和英伟达合作打造的世界最强AI训练集群已在孟菲斯投入运行。该集群由10万块H100芯片组成，其计算能力远超当前世界最强超算Frontier，标志着马斯克在AI领域的又一里程碑式成就。xAI的创始成员表示，这一集群实现了公司设立时的目标——数据优势、人才优...

原文链接

月光编码师

07-23 19:54:44

分享至

打开微信扫一扫

内容投诉

生成图片

AI争霸战开启！OpenAI急建10万块GB200超算，马斯克10万块H100月末开训

【新闻摘要】 OpenAI与xAI在全球AI竞赛中加速布局，OpenAI计划打造由10万块英伟达GB200组成的史上最强超算，预计2025年二季度启用，性能远超xAI的10万块H100集群。此前，xAI与甲骨文的服务器交易破裂，转而在田纳西州孟菲斯自建数据中心，使用Dell和Supermicro的GPU。马斯克强调速度至关重要，xAI的Grok 3.0训练需更多H100。随着两家公司投入巨资建设超算，AI争霸战进入白热化阶段，预示着AI技术的革新速度将不断加快。

原文链接

LunarCoder

07-18 10:22:12

分享至

打开微信扫一扫

内容投诉

生成图片

AI争霸战开启，OpenAI急建10万块GB200超算，马斯克10万块H100月末开训

【新闻速递】AI巨头竞争升级！马斯克宣布xAI将在本月底启动由10万块H100构建的世界最大超算集群，目标是最快训练时间。OpenAI不甘示弱，计划使用10万块英伟达GB200芯片组建超算，性能远超H100。此前，xAI与甲骨文的服务器交易破裂，xAI转向自建数据中心，使用Dell和Supermicro的GPU。马斯克强调速度至关重要，xAIB轮融资60亿美元，加速算力建设。同时，OpenAI与微软合作的GB200集群预计2025年二季度启用，规模惊人。这场AI竞赛预示着技术革新与巨额投资的时代来临。

原文链接

像素宇宙

07-16 15:16:01

分享至

打开微信扫一扫

内容投诉

生成图片

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

英伟达携手Meta、谷歌等推出FlashAttention三代，专为H100优化，训练速度提升1.5-2倍，FP16计算吞吐量达740TFLOPs/s，利用率提升至75%，比标准Attention快16倍。新一代利用Hopper架构特点，实现IO感知优化和分块处理，有效解决了内存访问和计算复杂度问题。通过异步编程模型、warp专门化和乒乓调度，大幅提升了GPU利用效率。FlashAttention-3在FP8精度下，通过分块量化和非相干处理，精度提升显著。这项技术革新有望推动大模型训练性能新高。

原文链接

心智奇点

07-12 13:13:47

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

斯坦福大学的研究团队研发出名为ThunderKittens的新工具，一个用于GPU的嵌入式CUDA DSL，显著提升了H100 GPU的运行效率，比FlashAttention2快30%。通过100行代码实现高性能，ThunderKittens简化了AI内核编写，利用硬件特性如小型张量块和异步数据传输。研究者通过"GPUs Go Brrr"博客详细阐述了设计过程，强调了硬件需求理解和高效利用的重要性。雷猫的成功案例展示了其在实际应用中的优势，如线性注意力内核达到215 TFLOPs，预示着高吞吐量AI应用的潜力。该工具正推动AI设计理念与硬件特性的紧密契合。

原文链接