1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
全球 AI 算力报告出炉:LLM 最爱 A100,谷歌坐拥超 100 万 H100 等效算力
全球AI算力报告显示,机器学习硬件性能每年增长43%,价格下降30%。NVIDIA A100是最常用的硬件,但预计NVIDIA H100将很快超越。谷歌坐拥超100万H100等效算力,微软、Meta和亚马逊也拥有大量计算资源。训练大型语言模型所需的处理器数量八年内增长20多倍,从800个GPU增至16,384个H100。Epoch AI发布的报告还提供了详细的硬件数据集和分析源码。
智慧轨迹
02-15 15:04:24
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达新一代AI芯片GB200订单爆发 H100芯片遇冷
英伟达新一代AI芯片GB200订单激增,但其前代产品H100芯片却遭遇市场遇冷。据业内人士透露,去年H100芯片8卡整机售价高达300万元,目前价格已降至230万至240万元,每周价格变动明显。H20芯片的价格也从140万元降至110万元以下。H100芯片最初的租赁价格为4.7美元/小时,高峰期曾涨至8美元以上,目前租赁价格已回落至2至3美元/小时,跌幅超过50%。自今年上半年起,国内算力价格持续下跌,主要因大模型训练需求减少及早期“囤卡”导致供给过剩,部分小型算力供应商可能面临亏损,市场正在经历一轮洗牌。(财联社10月27日)
数码游侠
10-27 13:04:45
分享至
打开微信扫一扫
内容投诉
生成图片
H100租赁价格下跌,“GPU泡沫破灭”?
H100 GPU租赁价格自年初起从高峰的每小时8美元以上跌至2美元左右,引发市场关注。这一变动源于需求的转变:部分公司完成模型训练后转售闲置算力,大量公司转向微调开放模型以减少需求,专注于构建大型基础模型的新创公司数量减少,以及替代品如AMD和英特尔GPU的出现。报道《$2 H100s: How t...
心智奇点
10-15 18:32:03
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克狂揽10万块H100,自建世界最强AI超算,下一代模型训练开始
特斯拉首席执行官埃隆·马斯克宣布,由xAI、X和英伟达合作打造的世界最强AI训练集群已在孟菲斯投入运行。该集群由10万块H100芯片组成,其计算能力远超当前世界最强超算Frontier,标志着马斯克在AI领域的又一里程碑式成就。xAI的创始成员表示,这一集群实现了公司设立时的目标——数据优势、人才优...
月光编码师
07-23 19:54:44
分享至
打开微信扫一扫
内容投诉
生成图片
AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训
【新闻摘要】 OpenAI与xAI在全球AI竞赛中加速布局,OpenAI计划打造由10万块英伟达GB200组成的史上最强超算,预计2025年二季度启用,性能远超xAI的10万块H100集群。此前,xAI与甲骨文的服务器交易破裂,转而在田纳西州孟菲斯自建数据中心,使用Dell和Supermicro的GPU。马斯克强调速度至关重要,xAI的Grok 3.0训练需更多H100。随着两家公司投入巨资建设超算,AI争霸战进入白热化阶段,预示着AI技术的革新速度将不断加快。
LunarCoder
07-18 10:22:12
分享至
打开微信扫一扫
内容投诉
生成图片
AI争霸战开启,OpenAI急建10万块GB200超算,马斯克10万块H100月末开训
【新闻速递】AI巨头竞争升级!马斯克宣布xAI将在本月底启动由10万块H100构建的世界最大超算集群,目标是最快训练时间。OpenAI不甘示弱,计划使用10万块英伟达GB200芯片组建超算,性能远超H100。此前,xAI与甲骨文的服务器交易破裂,xAI转向自建数据中心,使用Dell和Supermicro的GPU。马斯克强调速度至关重要,xAIB轮融资60亿美元,加速算力建设。同时,OpenAI与微软合作的GB200集群预计2025年二季度启用,规模惊人。这场AI竞赛预示着技术革新与巨额投资的时代来临。
像素宇宙
07-16 15:16:01
分享至
打开微信扫一扫
内容投诉
生成图片
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级
英伟达携手Meta、谷歌等推出FlashAttention三代,专为H100优化,训练速度提升1.5-2倍,FP16计算吞吐量达740TFLOPs/s,利用率提升至75%,比标准Attention快16倍。新一代利用Hopper架构特点,实现IO感知优化和分块处理,有效解决了内存访问和计算复杂度问题。通过异步编程模型、warp专门化和乒乓调度,大幅提升了GPU利用效率。FlashAttention-3在FP8精度下,通过分块量化和非相干处理,精度提升显著。这项技术革新有望推动大模型训练性能新高。
心智奇点
07-12 13:13:47
分享至
打开微信扫一扫
内容投诉
生成图片
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
斯坦福大学的研究团队研发出名为ThunderKittens的新工具,一个用于GPU的嵌入式CUDA DSL,显著提升了H100 GPU的运行效率,比FlashAttention2快30%。通过100行代码实现高性能,ThunderKittens简化了AI内核编写,利用硬件特性如小型张量块和异步数据传输。研究者通过"GPUs Go Brrr"博客详细阐述了设计过程,强调了硬件需求理解和高效利用的重要性。雷猫的成功案例展示了其在实际应用中的优势,如线性注意力内核达到215 TFLOPs,预示着高吞吐量AI应用的潜力。该工具正推动AI设计理念与硬件特性的紧密契合。
GhostPilot
06-07 19:50:16
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序