谷歌TPU,問世十年

谷歌TPU,問世十年

文章圖片


在幾乎完全由英偉達公司主導的人工智能芯片行業中 , 谷歌十多年前首次開發的專為人工智能任務而開發的芯片終于在其母公司之外獲得了發展動力 , 成為訓練和運行復雜人工智能模型的一種方式 。
Anthropic PBC 周四宣布與 Alphabet Inc. 旗下谷歌達成協議 , 為這家人工智能初創公司提供超過 1 千兆瓦的額外計算能力 , 價值數百億美元 。 該協議使 Anthropic 能夠使用多達 100 萬個谷歌張量處理單元(TPU)——該公司專為加速機器學習工作負載而設計的芯片——并擴大其對這家互聯網巨頭云服務的使用 。
【谷歌TPU,問世十年】隨著人工智能行業的競爭者們努力滿足日益增長的需求 , 他們一直在尋找提升計算能力的方法 , 而這些方法并不依賴于英偉達的加速器芯片——這既是為了減少對這家芯片巨頭昂貴產品的依賴 , 也是為了減輕芯片短缺的影響 。 雖然 Anthropic 已經是 TPU 的客戶 , 但部署量的大幅增加是迄今為止對谷歌技術最有力的認可之一 , 也代表著其云業務的勝利 , 此前該業務長期以來一直落后于亞馬遜和微軟 。
人們對 TPU 的興趣激增可能會吸引其他人工智能初創公司和新客戶的注意力轉向谷歌云 , 幫助該公司利用多年來對芯片的投資 。
Seaport 分析師杰伊·戈德伯格 (Jay Goldberg) 表示 , 谷歌與 Anthropic 的合作是“對 TPU 的一次真正有力的驗證” , 這可能會吸引更多公司嘗試 。 “很多人已經在考慮這件事了 , 現在可能還會有更多人加入進來 。 ”

圖形處理單元(GPU)是芯片市場中由英偉達主導的部分 , 其設計初衷是為了加速圖形渲染——主要用于視頻游戲和其他視覺效果應用——但事實證明 , 由于其能夠處理大量數據和計算 , 它非常適合訓練人工智能模型 。 而TPU則是一種專用集成電路(ASIC) , 即專為特定用途而設計的微芯片 。
谷歌于 2013 年開始研發其首款 TPU , 并于兩年后正式發布 。 最初 , 它用于加速谷歌的網絡搜索引擎并提高效率 。 谷歌于 2018 年首次將 TPU 引入其云平臺 , 允許客戶注冊使用與提升搜索引擎性能相同的技術的計算服務 。
它還被谷歌用作其自身應用程序中人工智能和機器學習任務的加速器 。 由于谷歌及其DeepMind部門開發了像Gemini這樣的尖端人工智能模型 , 該公司能夠將人工智能團隊的經驗教訓反饋給芯片設計師 , 而定制芯片的能力也使人工智能團隊受益匪淺 。
“十多年前 , 我們構建了第一個基于 TPU 的系統 , 當時的真正目的是解決我們面臨的一些內部擴展挑戰 , ”谷歌云副總裁兼人工智能和計算基礎設施總經理 Mark Lohmeyer 在 9 月份的一次會議演講中說道 。 “后來 , 當我們把這種計算能力交到谷歌 DeepMind 和其他公司的研究人員手中時 , 這在很多方面直接促成了 Transformer 的發明 , ”他指的是谷歌提出的開創性的人工智能架構 , 它已成為當今模型的基礎 。
英偉達的芯片已成為人工智能市場的黃金標準 , 因為該公司生產GPU的時間比其他任何公司都要長得多 , 而且這些芯片功能強大、更新頻繁、提供全套相關軟件 , 并且通用性足以勝任各種任務 。 然而 , 由于需求飆升 , 這些芯片價格昂貴 , 而且在過去幾年里長期供不應求 。
與此同時 , Seaport 的 Goldberg 表示 , TPU 通常能夠在 AI 工作負載下表現更佳 , 因為它們是專門為此設計的 。 Goldberg 罕見地將英偉達的股票評級定為“賣出” 。 他表示 , 這意味著該公司可以“去掉芯片中許多其他并非為 AI 量身定制的部分” 。 目前 , 該產品已發展到第七代 , 谷歌提升了芯片的性能 , 使其更加強大 , 并降低了使用所需的能耗 , 從而降低了運行成本 。
TPU 的當前客戶包括 Safe Superintelligence(由 OpenAI 聯合創始人 Ilya Sutskever 于去年創立的初創公司)、Salesforce Inc.、Midjourney 和 Anthropic 。
目前 , 想要使用谷歌 TPU 的企業必須注冊租用谷歌云的計算能力 。 但這種情況可能很快就會改變——彭博行業研究分析師表示 , 與 Anthropic 的交易使得其向其他云平臺擴張的可能性更大 。
BI 的 Mandeep Singh 和 Robert Biggar 在周三的一份報告中寫道:“谷歌與 Anthropic 的潛在交易表明 , 谷歌的張量處理單元將進一步商業化 , 從谷歌云擴展到其他新云” , 他們指的是為人工智能提供計算能力的小型公司 。
可以肯定的是 , 目前沒有人(包括谷歌)打算完全取代英偉達的 GPU;人工智能發展的步伐意味著目前這還不可能 。 Gartner 分析師 Gaurav Gupta 表示 , 盡管谷歌擁有自己的芯片 , 但它仍然是英偉達最大的客戶之一 , 因為它必須為客戶保持靈活性 。 如果客戶的算法或模型發生變化 , GPU 更適合處理更廣泛的工作負載 。
Key Banc 分析師賈斯汀·帕特森 (Justin Patterson) 對此表示贊同 , 他表示 , 張量處理單元 (TPU) 的“通用性不如”更通用的 GPU 。 但帕特森在給客戶的報告中寫道 , 與 Anthropic 的交易表明 , 谷歌云正在獲得市場份額 , 而且 TPU 具有“戰略重要性” 。
谷歌最新版 TPU 名為 Ironwood , 于今年 4 月發布 。 它采用液冷設計 , 專為運行 AI 推理工作負載而設計——這意味著它使用 AI 模型而非訓練它們 。 它有兩種配置可供選擇:256 顆芯片的 Pod 或更大的 9216 顆芯片的 Pod 。
谷歌TPU項目的資深人士如今正在領導其他大型人工智能公司的芯片初創公司或關鍵項目 。 推理芯片初創公司Groq由喬納森·羅斯(Jonathan Ross)執掌 , 他參與了TPU的部分工作 。 其他參與谷歌TPU項目的人包括ChatGPT開發商OpenAI的硬件副總裁理查德·何(Richard Ho)以及Safeen Huda , 據他的領英信息顯示 , Huda加入OpenAI從事軟硬件協同設計工作 。
通過幫助 TPU 成為 AI 的主力 , 這些前谷歌員工繼續將這家互聯網公司的影響力擴展到整個 AI 行業 。 谷歌員工們將多年的工作經驗視為其產品成功的關鍵驅動力 。
谷歌的 Lohmeyer 在九月份表示:“這種級別的經驗確實是無可替代的 。 ”
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀