谷歌為發電都上天了,但AI真的缺電嗎?

谷歌為發電都上天了,但AI真的缺電嗎?

文章圖片

谷歌為發電都上天了,但AI真的缺電嗎?

文章圖片



都說AI的盡頭是能源 , 微軟CEO納德拉在最近的采訪中側面印證了這個觀點 。 “因為缺電 , 微軟很多GPU都躺在庫房里不工作 。 ”納德拉如是說道 。
谷歌最近搞出了TPU送上太空 , 用太陽來給機器發電的奇招 , 仿佛就是納德拉這句話的“回聲” 。
但奇怪的是 , 納德拉這句話看起來利好能源行業 , 但無論是大A還是納斯達克 , 其能源板塊都沒有因為納德拉的話而漲幅 。 從11月初至發稿 , 大A漲幅0% , 納斯達克能源板最大一家公司的漲幅是0.77% 。
一方面硅谷巨頭連呼缺電 , 甚至搞出了“上天”這樣的解決方案 , 但另一方面 , 如此明確的信號 , 市場卻置若罔聞 , 遲遲沒有回應 。
這就不禁讓人產生了一個疑問:AI產業真的缺電嗎?
OpenAI CEO山姆.奧特曼的觀點是:是 , 也不是 。
說是 , 是因為現在確實存在缺電的現象;說不是 , 是因為問題的本質其實是AI過剩 , 雖然他不清楚具體會是多少年 , 但是最多不超過6年 , AI就會超出人們的需求 , 也會導致AI對電的需求降低 。
也就是說 , AI產業短期斷電 , 但長期來看 , 隨著AI能耗的降低 , 缺電問題就會得到解決 。
01
谷歌公司在2025年11月初公布了一個名為“捕日者計劃”(Project Suncatcher)的項目 , 該計劃的運作方式是把TPU芯片送入太空 , 用太陽能為其發電 。

太陽每秒鐘向外輻射的能量 , 大約是3.86乘以10的26次方瓦 , 這一數值是當前人類社會全球總發電量的一百萬億倍以上 。 而部署在晨昏太陽同步軌道上的衛星 , 其太陽能板幾乎可以不間斷地接收到光照 , 一年下來所接收的能量是在地球中緯度地區同樣面積太陽能板接收能量的8倍 。
捕日者計劃與衛星公司Planet Labs合作 , 在距離地面650公里的低地球軌道上 , 部署一個由81顆衛星構成的AI計算集群 。 按照設計 , 這些衛星將在半徑1公里的空域內協同工作 , 彼此之間的距離維持在100到200米 。 該計劃預計在2027年初發射首批兩顆試驗衛星 , 以驗證方案的可行性 。
盡管谷歌曾經表示 , 其在一年內已將旗下Gemini模型的單次查詢能耗降低了33倍 , 但很顯然 , 谷歌仍然需要電力 。
在太空中利用太陽能發電并非新的概念 , 但長期以來受困于一個核心難題 , 那就是如何高效、安全地將產生的電力傳輸回地面 。 無論是采用微波束還是激光束 , 能量在傳輸過程中的損耗和對地面環境的潛在影響都使其難以大規模實施 。
“捕日者計劃”的思路則選擇繞開了這個環節 。 它并不打算將數據傳回地球 , 而是在太空中直接利用這些電力進行計算 , 只將計算完成后的結果傳回地面 。
地面上的TPU超級計算機集群 , 使用的是定制化的低延遲光學芯片互連技術 , 每個芯片的吞t量能達到每秒數百吉比特(Gbps) 。
而目前商用的衛星間光通信鏈路 , 數據速率通常只在1到100Gbps的范圍內 , 這遠不能滿足AI計算集群內部大規模數據交換的需求 。 谷歌提出的解決方案是采用密集波分復用技術 , 理論上可以讓每條衛星間鏈路的總帶寬達到每秒約10太比特(Tbps) 。
谷歌對外解釋了很多關于“捕日者計劃”的難題以及解決辦法 , 比如如何控制集群編隊、如何抵抗輻射等等 。
但谷歌并沒有解釋該如何散熱 。
這是一個非常棘手的物理問題 , 真空中是沒有空氣對流的 , 熱量只能通過輻射方式散發出去 。 谷歌曾經在一篇論文中提到 , 需要使用先進的熱界面材料和熱傳輸機制 , 并且最好是被動式的以保證可靠性 , 從而將芯片產生的熱量高效傳導至專用的散熱器表面進行輻射 。 關于這部分的技術細節 , 論文中并未提供太多信息 。
事實上 , 將數據中心送入太空的想法并不只有谷歌一家 。 就在谷歌公布計劃的前幾天 , 一家名為Starcloud的初創公司已經發射了搭載英偉達H100芯片的衛星 , 并宣稱要建設一個擁有5吉瓦功率的天基數據中心 。 埃隆·馬斯克也曾表示SpaceX“將會做”太空數據中心 。
2025年5月 , 中國的之江實驗室與國星宇航合作的“三體計算星座”首批12顆計算衛星已成功發射并組網 。
所以在送AI去太空這個問題上 , 雖然聽起來很新穎 , 但是大家的目的都是一樣的 , 想用電 , 那就去那里上面拿 , 地面上電不夠你們用的 。
02
造成AI對電饑渴這一局面的 , 主要歸罪于英偉達 。 這家公司的GPU產品 , 從Ampere架構到Blackwell架構 , 僅僅過了4年 , 功耗就增長了數倍 。
一個使用Hopper架構GPU的服務器機架 , 額定功率約為10千瓦;而到了Blackwell架構 , 由于GPU數量的增加 , 機架功率接近120千瓦 。
而且 , 由于現在GPU的單位都是萬 。 數萬塊GPU相互交流的時候還要借助英偉達的互聯技術NvLink技術以提升交流效率 。 而每一條NvLink的鏈路功耗就有4到6瓦 , 兩塊GPU之間有18條鏈路 , 這些NvLink又要集中到NvSwitch上以實現非阻塞連接 , 而一個NvSwitch的功耗是50到70瓦 。
若一個GPU集群擁有1萬塊H100 , 那就需要157個NvSwitch和9萬條NvLink鏈路 。 那其公號大概就是要730千瓦到1100千瓦之間 。

還沒完 , GPU在散熱方面也是耗電大戶 。 最常見的8卡H100服務器 , 如果采用的是風冷系統 , 功耗就要達到150瓦 , 所以一個萬卡集群 , 光是散熱就需要187千瓦 。
當前 , 大型科技公司之間的競爭 , 其衡量標準已經從傳統的計算能力單位 , 轉向了能源消耗單位“吉瓦”(GW) 。 像OpenAI和Meta這樣的公司 , 都計劃在未來幾年內增加超過10吉瓦的計算能力 。
作為一個參照 , AI行業消耗1吉瓦的電力 , 足以供應大約100萬個美國家庭的日常用電 。 國際能源署在2025年的一份報告中估計 , 到2030年 , 人工智能領域的能源消耗將翻一番 , 其增長速度幾乎是電網自身增長速度的四倍 。
高盛預測 , 到2027年全球數據中心電力需求預計將增長50% , 達到92吉瓦 。 而美國數據中心電力需求在總電力需求中的占比 , 將從2023年的4% , 增長到2030年的10% 。 此外 , 高盛還指出一些大型數據中心園區的電力接入請求 , 單個項目確實能達到300兆瓦到數吉瓦的級別 。
但是 , 有意思的來了 。
NextEra Energy是北美最大的可再生能源公司 , 而跟蹤美國公用事業板塊表現的代表性行業ETF名為XLU 。 過去52周 , NextEra的漲幅為11.62% , ETF XLU的漲幅為14.82% , 但同期標普500指數的漲幅卻達到了19.89% 。
如果人工智能行業真的面臨嚴峻的電力短缺 , 那么作為電力供應方的能源公司和公用事業板塊 , 理應獲得超額的市場回報 , 而不是連大盤都跑不過 。
對此 , 納德拉講出了一個關鍵線索 。 他說“電網接入審批需要5年” , 而且“輸電線路建設則需要10到17年” 。
而與此同時 , GPU的采購周期是以季度來計量的 , 數據中心的建設周期通常為1到2年 , 人工智能需求的爆發速度則是以季度為單位在變化 。
這些時間尺度之間存在著數量級的差異 , 由此產生的時間錯配 , 正是納德拉說AI缺電的的本質所在 。
而且對于納德來來說還有一個當下沒辦法解決的煩惱 。 2020年微軟曾宣布 , 在保護生態系統的同時“實現碳負排放、用水凈增并實現零廢棄” 。
然而現實情況是 , 目前微軟數據中心所使用的電力中 , 近60%仍然來自包括天然氣在內的化石燃料 。 這所產生的年度二氧化碳排放量 , 大約相當于54000戶普通美國家庭的排放總和 。
另一方面 , 國際能源署在2025年10月發布的《可再生能源報告》中指出 , 全球發電能力的增長速度 , 可能會超過包括人工智能在內的新增電力需求 。
報告提出 , 在2025至2030年這五年期間 , 全球可再生能源裝機容量將增加4600吉瓦 , 這一增量的規模 , 大致相當于中國、歐盟和日本三個經濟體當前裝機容量的總和 。 更進一步 , 報告預計這五年的新增裝機容量 , 將是之前五年增量的兩倍 。
這里要特別要提到的就是核能 。 核能是唯一能夠提供穩定、大規模、低碳電力的選擇 。 傳統大型核電站的問題是建設周期長、成本高、風險大 。 但小型模塊化反應堆(SMR)正在改變這個局面 。 SMR可以像制造飛機或汽車一樣在工廠里批量生產標準化模塊 , 然后通過鐵路或公路運輸到現場進行組裝 , 類似于\"樂高積木\"式的建造方式 。
SMR的單機容量只有50-300兆瓦 , 比傳統核電站的1000-1600兆瓦小得多 , 但這恰恰是它的優勢 。 更小的規模意味著更短的建設周期、更低的初始投資、更靈活的選址 。 SMR可以在工廠里批量生產 , 然后運到現場組裝 , 大幅降低成本和風險 。
SMR是當下最火最潮的發電方式 。 谷歌曾與Kairos Power簽署協議 , 購買了500兆瓦的SMR核電 , 這是科技公司首次直接投資SMR技術 。 微軟則是在2024年1月 , 聘請了曾在Ultra Safe Nuclear Corporation(USNC)的核戰略與項目總監 , 來擔任微軟核技術總監 。 其目的就是開發SMR以及更小的微型模塊化反應堆(MMR) 。
換句話說 , 微軟缺的不是電 , 而是時間 。
03
相較于能源方面 , 減少AI自身的功耗也是一條重要的發展方向 。
奧特曼的觀點是 , 每單位智能的成本每年下降40倍 , 很可能我們幾年后就不需要這么多基礎設施了 。 而且如果突破持續 , 個人級通用人工智能可能在筆記本上運行 , 進一步減少發電需求 。

奧特曼曾寫過一篇文章 , 以自家產品為例 , 解釋過這個問題 。 文章中寫到 , 從2023年初的GPT-4模型到2024年中的GPT-4o模型 , 僅僅過了一年 , 每個token的成本 , 降低了大約150倍 。 在算力不變的前提下 , 同樣的業務 , 在AI不同的發展階段 , 所需要消耗的電力就會減少 。
他說這種幅度的價格下降 , 如果僅僅依靠硬件成本的線性降低是無法實現的 , 其背后必然包含了算法優化、模型架構改進和推理引擎效率提升等多方面的綜合作用 。
斯坦福大學2025年人工智能指數報告(HAI)中證實了這個說法 , 報告中寫到:在18個月內達到GPT-3.5水平(MMLU準確率64.8%)的AI模型調用成本 , 從2022年11月的20美元/百萬token驟降至2024年10月的0.07美元/百萬token , 成本下降了280倍 。
在硬件方面 , GPU現在增加了兩個新的能效衡量單位:TOPS/W(每瓦萬億次運算)和FLOPS per Watt(每瓦浮點運算次數) 。 這樣的單位 , 是為了能夠更直觀地看到能效方面的突破 。
比如Meta發布的第五代AI訓練芯片Athena X1 , 在低精度的前提下 , 能效比達到了32TOPS/W , 較前代提升200% , 空載功耗下降87% 。 英偉達H100哪怕在FP8這樣低精度的范圍里 , 其能效比也只有5.7TFLOPS/W 。
不過對于一些高精度的訓練任務 , 仍然需要使用H100 , 這也是為什么Meta要大規模采購幾十萬塊英偉達的GPU 。
Epoch AI的研究數據顯示 , 機器學習硬件的能效正以每年40%的速度提升 , 每2年翻一番 。 新一代AI芯片的能效提升顯著 。
英偉達的H200 GPU相比上一代H100 , 能效提升了1.4倍 。 看起來還有很大的提升空間 。
從宏觀角度看 , 數據中心本身的能效才是最值得關注的數字 。 通常使用PUE(能源使用效率)來衡量數據中心的能耗情況 。
PUE的理想值是1.0 , 意味著所有電力都用于計算 , 沒有浪費在冷卻和其他輔助系統上 。 十年前 , 數據中心的平均PUE是2.5 , 現在是1.5 , 谷歌的最新數據中心已經降至1.1 。 這意味著同樣的計算任務 , 現在只需要當年一半的電力 。 液冷技術、免費冷卻、AI驅動的能源管理系統正在繼續推低這個數字 。
【谷歌為發電都上天了,但AI真的缺電嗎?】但無論哪種結局 , 能源行業都因為AI而完成了重塑 , 即便未來AI的需求減少 , 能源行業的興盛也會推動其他行業發展 。

    推薦閱讀