AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語

AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語

文章圖片

AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語

文章圖片

AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語

文章圖片

AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語

克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
英偉達和谷歌 , 搶著上天了!
搭載英偉達H100的衛星已經在這個月被送入太空 , 谷歌這邊也不甘落后——
CEO劈柴哥表示要把TPU也發射上去 , 最早的兩顆衛星2027初啟程 。

未來 , 兩家都打算在太空建立起吉瓦級的數據中心 。
網友表示 , 在太空部署算力的想法真的很酷 。

不過這個賽道上 , 領先的既不是英偉達也不是谷歌 , 而是一家來自中國的公司 , 更早之前就已經開啟了太空算力布局 。
AI芯片要上天了英偉達芯片上天 , 主要是由Inception計劃孵化的初創公司Starcloud執行 。
本月剛剛發射的Starcloud-1衛星搭載了H100 , 重60公斤 , 大小與小型冰箱相當 。
之所以選擇英偉達芯片 , 是因為Starcloud需要具備與地球數據中心相媲美的性能 , 而英偉達GPU在訓練、微調和推理方面性能最佳 。
【AI大戰打到太空!前腳H100入軌,TPU后腳上天,中國玩家笑而不語】Starcloud-1將接收來自合成孔徑雷達(SAR)衛星群的數據 , 并在太空中對這些數據進行實時處理然后傳回地球 。

同時Starcloud還是Google for Startups Cloud AI Accelerator計劃的“畢業生” , 計劃在軌道上使用H100運行谷歌的開源模型Gemma , 證明大型語言模型在外太空運行的可行性 。
Starcloud最早將于明年啟動商業服務 , 后續還計劃把Blackwell也送入太空 , 終極目標是建造一個功率達5吉瓦、跨度約2.5英里(約4公里)的軌道數據中心 。
CEO Philip Johnston還預言 , 10年之內 , 新建的數據中心將全部建在太空 。

谷歌這邊起手稍晚了些 , 計劃把自家的TPU送上太空 , 兩顆原型衛星預計在2027年初發射 。
谷歌把該計劃命名為“太陽捕手計劃”(Project Suncatcher) 。

原因是計算星座中的衛星將全部通過太陽能供能 , 之間的通信鏈路也是通過自由空間光通信實現 。
最早的兩顆原型衛星將測試谷歌TPU在太空中的實際運行情況 , 同時對光通信鏈路進行驗證 , 探索其執行分布式機器學習任務的可行性 。
遠期來看 , 谷歌的終極目標 , 也是在太空中建成吉瓦級的數據中心 。
太空部署的優勢和挑戰關于在太空中部署算力設施的優勢 , 兩家都進行了論證 , 谷歌甚至還為此專門發了一篇論文 。

首先就是成本優勢 , Starcloud這邊給出的數字認為 , 即使算上發射費用 , 太空能源成本也僅有陸基方案的1/10 。
谷歌這邊則給出了更具體的計算 。
假設LEO發射成本降至每公斤200美元 , 則衛星的單位電力年均成本可降至810美元每千瓦年 , 與當前美國數據中心570到3000美元的電力成本區間相當 。
并且發射成本呈現下降趨勢 , 以SpaceX為例 , 歷史數據顯示其每年發射載重量翻倍 , 單價下降20% , 若維持此曲線 , 預計2035年前可將每公斤的發射成本降低至200美元以內 。
而當馬斯克星艦實現重復使用時 , 發射成本有望降至每公斤60美元甚至15美元 , 成本持續且加速下降 。
成本低的一個重要原因 , 就是電力更容易獲取——
谷歌論文顯示 , 太陽的能量輸出超過人類總發電量的100萬億倍 , 在合適的軌道上 , 太陽能電池板的效率可比在地球上高出8倍 , 并且幾乎可以持續發電 , 從而減少對電池的需求 。
再來就是散熱 , 與許多地球上的數據中心依靠蒸發塔利用淡水進行冷卻不同 , Starcloud的太空數據中心可以利用深空的真空作為無限的散熱器 。
英偉達與Starcloud聯合開發了真空散熱架構 , 通過衛星外殼的高導熱材料將H100的熱量傳導至表面 , 再以紅外輻射形式排向太空 。
此外就是衛星數據的在軌處理——其他衛星所產生的數據 , 如果傳回地面再做計算將耗費大量通信資源 , 有了天基衛星之后可以在軌完成運算 , 只把運算結果進行回傳 , 從而減輕通信壓力 。
Starcloud對SAR衛星數據的處理 , 就是對這一路徑的一種嘗試 。
谷歌這邊還進行了更多驗證 。
比如通信鏈路 , 使用現成DWDM模塊(如400G PM-16QAM光模塊) , 在實驗中已成功實現800Gbps單向(1.6Tbps雙向)短距光通信 , 證明此類模塊可用于小尺度衛星集群 。
還有大規模衛星的控制 , 谷歌的模型顯示 , 只需要適度的軌道保持機動 , 就維持星座的穩定運行 。

還有TPU對輻射的耐受性 , 谷歌表示 , 即使是敏感的HBM組件也要在在累積劑量達到2000rad(Si)后才開始出現異常 , 這一數值幾乎是預期五年任務劑量的三倍 。
所以總的來說 , 天基機器學習計算的核心概念并未受到基本物理定律或不可逾越的經濟障礙的限制 , 但也仍然存在諸多重大的工程挑戰 , 例如熱管理、高帶寬地面通信以及在軌系統可靠性 。
國產算力衛星已常態化商用Starcloud這邊剛把H100送上天 , 谷歌的TPU更是要等上一年多才能進入太空 , 但此時中國首個太空算力星座已經發射快半年了 。
今年5月 , 之江實驗室“三體計算星座”的首批12顆衛星已被送入預定軌道 。
這十二顆計算衛星 , 每顆衛星均具備太空計算、太空互聯的能力 , 還搭載了之江實驗室承擔研制的星載智能計算機等太空計算軟硬件和天基模型 , 實現了“算力上天、在軌組網 , 模型上天” 。
相比于傳統的應用型衛星 , 計算衛星將單顆衛星的計算能力從T級提升至P級 , 首發星座在軌計算能力達到5POPS , 極大地提升了單星高性能太空計算的能力 。
這些衛星還能形成“互聯網”一樣的互聯互通 , 衛星之間使用激光通信 , 通信速度最高可達100Gbps 。
并且今年9月 , 該星座已經實現了常態化商業運行 。
現在 , 隨著英偉達和谷歌的加入 , 這場太空AI競賽也越來越精彩了 。
參考鏈接:[1
https://blogs.nvidia.com/blog/starcloud/?linkId=100000388085273[2
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀