谷歌技术报告披露大模型能耗：响应一次相当于微波炉叮一秒

2025-08-22 14:50:41

未来编码者

发布在

科普

阅读：50

谷歌技术报告披露大模型能耗：响应一次相当于微波炉运行一秒

大模型的高能耗一直备受关注，但谷歌用数据回应了质疑。报告显示，一次Gemini查询仅消耗0.24瓦时（Wh），相当于微波炉运行1秒，排放0.03克二氧化碳当量（CO₂e），甚至比人类放一次屁还少，同时耗水约5滴。（文中数据均为中位数）

谷歌首席科学家Jeff Dean表示，这一数值远低于公众预期。通过模型优化和清洁能源使用，Gemini的能耗在一年内降至原来的1/33，碳排放降至1/44，同时提供了更高质量的响应。

如何衡量AI能耗

谷歌指出，许多关于AI能耗的计算仅基于理论效率，而非实际运行数据。如果仅考虑TPU和GPU，一次查询仅需0.10Wh，排放0.02g CO₂e，耗水0.12毫升。但这种计算忽略了其他关键因素。

谷歌开发了一套更全面的评估方法，包括以下部分：
- 全系统动态功率：不仅涵盖主模型的能耗，还考虑芯片利用率等实际运行条件。
- 空闲计算机：为应对流量高峰或故障转移，数据中心需预留闲置容量，其能耗也被计入总足迹。
- CPU和内存：主机系统的CPU和内存同样消耗能源。
- 数据中心开销：冷却、配电等基础设施的能耗也占重要部分，通常用电力使用效率（PUE）指标衡量。
- 数据中心用水量：冷却用水量与能耗优化密切相关。

综合以上因素，谷歌得出一次Gemini查询的能耗为0.24Wh，排放0.03g CO₂e，耗水约5滴。

为什么Gemini能耗如此低

谷歌在AI开发中采用了全栈优化策略，从硬件到服务系统层层优化：
1. 高效模型架构：Gemini基于Transformer框架，效率较传统语言模型提升10至100倍，并融入MoE和混合推理机制，减少计算量。
2. 精准量化训练（AQT）：进一步降低能耗，同时保证回答质量。
3. 推测解码技术：小模型预测后由大模型验证，提高响应效率。
4. 蒸馏技术：利用大型模型生成小型高效模型（如Gemini Flash）。
5. 定制硬件：谷歌设计的TPU能效显著，最新一代Ironwood的推理性能是通用CPU的30倍。
6. 资源调度优化：动态调度模型以减少空闲时间，并通过编译器和系统优化提升硬件效率。
7. 高效数据中心：PUE达1.09，业界领先，同时增加清洁能源使用并优化水资源管理。

参考链接：
[1] https://x.com/JeffDean/status/1958525015722434945
[2] https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/

原文链接

本文链接：https://kx.umi6.com/article/24006.html

转载请注明文章出处

AI优化