特斯拉Dojo超算突破故障檢測技術

特斯拉Dojo超算突破故障檢測技術

文章圖片


無需離線 , 特斯拉就可以檢測出故障的處理器核心 。
在大型處理器上檢測故障并禁用是一項很具挑戰的工作 , 不過特斯拉開發了Stress 工具 , 該工具不僅可以檢測 Dojo處理器中容易出現靜默數據損壞的內核 , 還可以檢測具有數百萬個內核的 Dojo 集群中容易出現靜默數據損壞的內核 , 而且無需離線 。 這是一項非常重要的功能 , Tesla表示 , 單個靜默數據錯誤就可能毀掉需要數周才能完成的整個訓練過程 。
特斯拉 Dojo 是目前最大的兩個處理器之一 。 這些大規模晶圓級芯片使用整個 300 毫米晶圓 , 這意味著根本不可能一次性創建更大的計算能力 。 每個Dojo晶圓級處理器最多包含 8850 個內核 , 但其中一些內核可能會在部署后誘導靜默數據損壞 (SDC) , 從而破壞大量訓練運行的結果 。
大型處理器的缺陷識別鑒于Dojo Training Tile(大型晶圓尺寸的芯片)極其復雜 , 即使在制造過程中也不容易檢測到有缺陷的芯片 , 因此 , 如果涉及到SDC , 事情就變得更加復雜了 。
SDC 在所有類型的硬件上都是不可避免的 , 但 Dojo 處理器電流消耗為18000安培 , 功耗大15000W , 這是有影響的 。 因此 , 所有內核都應按預期運行 , 否則AI訓練將變得更加復雜 , 由數據損壞導致的單個錯誤可能會讓數周的 AI 訓練白費 。

特斯拉將每個晶圓級 Dojo 處理器稱為“訓練塊” 。 每個訓練塊包含 25 個 645 平方毫米 D1“芯片” , 這些芯片具有 354 個定制的 64 位 RISC-V 內核 , 配備 1.25 MB SRAM 用于數據和指令 , 這些內核以 5×5 集群的形式組織 , 并使用具有 10 TB/s 定向帶寬的機械網絡互連 。
每個 D1 還支持 4 TB/s 的片外帶寬 。 因此 , 每個“訓練塊”包含 8850 個內核 , 支持 8 位、16 位、32 位或 64 位整數以及多種數據格式 。 特斯拉使用臺積電的 InFO_SoW 技術封裝其晶圓級 Dojo 處理器 。
差分模糊測試技術為了解決核心故障的風險 , 特斯拉研發了差分模糊測試技術 。 這個初始版本需要生成一組隨機指令 , 并將相同的序列發送到所有內核 。 執行后 , 比較輸出以查找不匹配 。 由于主機和 Dojo訓練塊之間存在巨大的通信開銷 , 因此該過程花費的時間太長 。
為了提高效率 , 特斯拉通過為每個內核分配一個由 0.5 MB 隨機指令組成的唯一有效載荷來改進該方法 。 核心不是與主機通信 , 而是在 Dojo 訓練塊中相互檢索有效負載并依次執行 。 這種內部數據交換利用了訓練塊的高帶寬通信 , 能夠在更短的時間內測試4.4 GB的指令 。
特斯拉進一步增強了該方法 , 允許內核多次運行每個有效載荷 , 而無需在每次運行之間重置其狀態 。 這項技術為執行環境引入了額外的隨機性 , 能夠查找到此前無法檢測到的細微錯誤 。 盡管執行次數有所增加 , 但與檢測可靠性的提升相比 , 速度下降的影響是微不足道的 。
還有一個改進是使用 XOR 運算定期將寄存器值集成到指定的 SRAM 區域 , 這將識別有缺陷的計算單元的概率提高了 10 倍(在已知有缺陷的內核中進行測試) , 而不會顯著降低性能 。
不僅在處理器級別特斯拉的方法不僅適用于 Dojo 訓練模塊級別或 Dojo Cabinet 級別(包含 12 個 Dojo 訓練模塊) , 還適用于 Dojo Cluster 級別 , 即從數百萬個活動核心中識別出故障核心 。
經過適當調整后 , Stress 監控系統就可以在Dojo集群中發現大量存在缺陷的核心 。 不過 , 檢測時間的分布差異很大 。 大多數缺陷是在每個核心執行 1 GB 到 100 GB 的有效載荷指令后發現的 , 相當于幾秒到幾分鐘的運行時間 。 更難檢測的缺陷可能需要 1000 GB 以上的指令 , 這意味著需要幾個小時的執行時間 。
值得注意的是 , 特斯拉的Stress工具是輕量級且獨立于核心內部 , 因此可以在后臺進行測試 , 無需離線 。 并且只有被識別為故障的核心才會被禁用 。 同時 , 每個D1芯片都能容忍少數核心被禁用 , 而不會影響整體功能 。
識別設計缺陷除了檢測故障核心外 , Stress工具還發現了一個罕見的設計級缺陷 , 工程師們通過軟件調整設法解決了該缺陷 。 在更廣泛地部署監控系統的過程中 , 還發現并糾正了低級軟件層中的幾個問題 。
到目前為止 , Stress工具已完全集成到Dojo集群中 , 用于在AI訓練期間對正在進行的硬件運行狀況進行現場監控 。 特斯拉表示 , 通過此次監控觀察到的缺陷率與 Google 和 Meta 發布的缺陷率相當 , 這表明監控工具和硬件與其他公司使用的水平相當 。
目前特斯拉計劃利用Stress工具獲得的數據來研究硬件因老化而導致的長期性能下降 。 此外 , 該公司還計劃將該方法擴展到硅片投產前的測試階段和早期驗證工作流程 , 以便在生產前就能發現上述故障 。
特斯拉預計推出AI芯片Dojo 2據報道 , 特斯拉目前正在準備下一代的AI芯片Dojo 2 。
在去年AI峰會上 , 馬斯克透露Dojo 2將在今年年底開始量產 , 將在特斯拉的AI基礎設施上發揮關鍵作用 。
值得注意的是 , 馬斯克此前談及Dojo 2的性能稱 , 預計在一定程度上能媲美英偉達的B200 。 不過在Dojo的性能上 , 馬斯克是認為技術通常需要三代主要的迭代才能真正實現卓越 , 因而外媒也認為評估Dojo系列芯片的優越性 , 可能要等到Dojo 3 , 這一芯片預計會在2026年年底推出 。
相關消息指出 , 特斯拉的Dojo芯片是由臺積電代工 , 雖然目前還不清楚Dojo 2是否會繼續由臺積電代工 , 但考慮到臺積電制程工藝領先且有龐大的產能支持 , 特斯拉可能仍會交由他們代工 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【特斯拉Dojo超算突破故障檢測技術】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀