
文章圖片
本文由半導體產業縱橫(ID:ICVIEWS)編譯自theregister
Arm和RISC-V想說幾句 。
還記得高性能計算似乎總是x86架構的天下嗎?十年前 , TOP500超級計算機(學術界每年兩次評選出的最強超級計算機榜單)中 , 近九成都是基于英特爾處理器的 。 而如今 , 這一比例已降至57% 。
英特爾曾經在高性能計算領域占據主導地位 , 但其影響力正在減弱 。 如今 , 其他處理器正在迅速崛起 。
自20 世紀 70 年代中期 Cray 公司率先推出向量處理器(非常擅長對大型數據集執行單個操作)以來 , 超級計算的發展經歷了一波又一波的演變 。
后來出現了精簡指令集芯片(RISC)架構 , 例如64位DEC Alpha、IBM POWER、Sun/Fujitsu SPARC、SGI MIPS和HP PA-RISC等芯片 。 每種架構都具有獨特的性能特點 。 它們更簡單的指令集實現了快速的指令解碼和流水線處理 , 并且比基于向量的系統更適用于通用應用場景 。
商品集群的到來RISC面臨的問題是經濟性的 。 小批量生產的芯片成本遠高于x86等通用芯片 。 NASA意識到了這一點 , 早在1994年就開始在其Beowulf超級計算機集群中使用英特爾芯片 。 事實證明 , 并行運行廉價芯片可以在性能上接近甚至媲美專用硬件 , 同時大幅降低成本 。
英特爾的ASCII Red 在 1997 年延續了這項工作 , 成為第一臺使用 9152 個奔騰 Pro 處理器的 teraFLOPS 工作站專用機器 。
英特爾雖然獲得了市場份額 , 但GPU的重要性日益凸顯 。 英偉達在2006年推出的CUDA技術 , 將圖形處理器轉變為通用計算機 , 顯著提升了并行數據工作負載的處理速度 。
市場分析公司Intersect360 Research的首席執行官Addison Snell表示:“人工智能趨勢和超大規模計算的發展 , 真正為x86架構之外的CPU架構開辟了機遇 。 市場上很大一部分高增長用戶都在追逐加速器 , 尤其是英偉達的GPU , 這確實推動了許多架構的發展 。 ”
然而 , 這些GPU仍然需要CPU來處理部分工作負載 。
這種CPU密集型負載包括作業調度、工作流管理、I/O以及難以并行化的標量運算 。 “例如 , 求平均值 , 對吧?GPU在這方面的速度不會比Arm芯片或x86芯片更快 , ”Cambria-AI Research的創始人兼首席分析師Karl Freund解釋道 。 “所以 , 當你完成一層運算后 , 想要計算各個節點的平均值時 , 那就讓Arm來做吧 。 ”
無論是英特爾還是AMD的x86芯片 , 都迅速發展 , 在市場上超越了RISC芯片 , 并越來越多地與GPU協同工作 , 承擔繁重的并行計算任務 。 例如 , 2012年 , 橡樹嶺國家實驗室的Titan超級計算機憑借18688個節點 , 將AMD Opteron處理器與Nvidia K20 GPU相結合 , 實現了17.6 petaflops的運算能力 , 榮登TOP500榜首 。
英偉達在高性能計算(HPC) GPU 領域的統治地位源于其完整且緊密集成的硬件和軟件解決方案 。
“英偉達更大的優勢在于軟件方面 , ”斯內爾的同事、Intersect360 Research 的高級分析師史蒂夫·康威說道 。 “他們很早就對管理 CUDA 這個龐然大物的軟件進行了投資 。 ”
他表示 , 這套技術棧才是公司真正的護城河 。 公司投入巨資 , 不僅讓現有商業開發者能夠使用 , 也讓大學里的未來一代開發者能夠使用 , 從而構筑了這道護城河 。
AMD的高性能計算策略AMD在CPU和GPU領域都展現出了巨大的潛力 。 其面向服務器和嵌入式系統的EPYC架構 , 助力橡樹嶺國家實驗室在2023年再次榮登榜首 , 其Frontier服務器搭載了9472顆AMD CPU和37888顆AMD Instinct GPU(AMD的數據中心GPU品牌) 。
AMD的米蘭、熱那亞和都靈EPYC處理器系列不斷提升芯片密度 , 助力其取得更多重大勝利 。 11月 , 勞倫斯·利弗莫爾國家實驗室(LANL)的El Capitan超級計算機憑借AMD EPYC和Instinct處理器的組合 , 蟬聯了超級計算機領域的霸主地位 。
【Arm破局、RISC-V突圍,HPC架構洗牌】布里斯托爾超級計算中心主任西蒙·麥金托什-史密斯非常看好AMD 。 “AMD的競爭力日益增強 。 他們的硬件非常出色 , 與英偉達不相上下 。 他們傳統上較弱的領域是軟件 , ”他說道 , 并呼吁加大對軟件方面的投資 。
Arm從移動端到百億億次級計算的循序漸進之路盡管AMD在競爭激烈的x86高性能計算(HPC)市場中已取得顯著進展 , 超越英特爾 , 但Arm也是該領域的有力競爭者 。 由巴塞羅那超級計算中心于2011年啟動的Mont-Blanc項目 , 利用嵌入式Arm芯片在實驗集群中驗證了Arm架構在歐洲的有效性 。 這是最早將Arm架構應用于高性能計算機器的實驗之一 。
近十年后 , Arm于2020年在日本理研計算科學中心部署了富岳超級計算機 , 這可以說是Arm迄今為止最偉大的成就 。 這款性能高達442 petaFLOPS的超級計算機采用48核A64FX處理器 , 一舉登上TOP500榜首 。
一年后 , 在2021 年 , Arm 將矢量處理引入到其 Neoverse 數據中心處理器設計中 , 推出了 Neoverse V1 CPU , 該 CPU 具有可擴展矢量擴展功能 。
Arm 與英偉達的合作使其在高性能計算 (HPC) 領域獲得了重要的戰略立足點 。 這項于 2021 年宣布的合作促成了 Grace 芯片的誕生 , 這是一款基于 Arm 架構的英偉達芯片 , 隨后英偉達又將其與 Hopper GPU 相結合 , 打造了 Grace Hopper 超級芯片 。
超過40 個超級計算機項目宣布支持 Grace Hopper , 其中包括德國的 Jupiter 系統 , 該系統剛剛成為歐洲第一個百億億次級系統 , 運算速度達到1 exaFLOPS 。
研究還表明 , Arm芯片具有很高的能效 。 例如 , 2023年的一項人工智能系統基準測試發現 , 與同類x86芯片相比 , Arm芯片可節省約25%至30%的能耗 。
布里斯托爾超級計算中心也選擇了Arm架構 , 其首臺Isambard超級計算機于2018年問世 。 如今 , 其Isambard-AI超級計算機基于Nvidia Grace Hopper節點構建 , 是英國最大的超級計算機 , 擁有超過5500個Grace Hopper節點 。
英偉達似乎準備開發自己的CPU架構 。 該公司與Arm簽訂了為期20年的IP授權協議 , 并已表示將利用該IP構建自己的內核 , 這可能意味著它將不再使用現成的Neoverse內核 。
開放式架構提案盡管Arm目前發展勢頭強勁 , 但其他競爭者也正在崛起 。 其中之一便是RISC-V , 它在授權策略上與Arm截然不同 , Arm采用的是完全免費的方式 。 RISC-V由加州大學伯克利分校開發 , 是一種完全開放的指令集架構 , 無需任何授權費用 。
“這是一項巨大的優勢 , ”戰術計算實驗室(TCL)首席科學家兼創始人約翰·萊德爾說道 。 這位曾在克雷和硅谷圖形公司工作多年的資深人士 , 在軟件開發和硬件設計方面擁有豐富的經驗 。 他現在經營著一家小型研發公司 , 專門從事高性能計算和高性能數據分析領域的新型硬件和軟件研發 。
他說:“如果你想定制一款適用于特定科學應用的x86處理器 , 你需要從英特爾獲得授權 。 然后還要經歷一個非常繁瑣的過程 , 耗資數十億美元 。 ”
當然 , Arm處理器也是如此 。 但他表示 , 這并非RISC-V相對于x86的唯一優勢 。 這種歷史悠久的架構也存在諸多問題 。
“x86 是一種傳統架構 , 顧名思義 , 它必須支持 x86 處理器曾經擁有的所有傳統指令 , ”萊德爾指出 。 1989 年編寫的用于運行某人桌面會計系統的應用程序 , 仍然需要在 TOP500 機器內部的現代 x86 芯片上運行 。
“RISC-V 放棄了那個標準 。 他們說這簡直太瘋狂了 , ”他解釋說 。 “為什么我們不從頭開始重新設計 , 清空一切 , 把白板上的內容都清空 , 從一開始就把事情做好呢?”
他說 , RISC-V 的設計理念是提供一個基礎指令集 , 然后允許人們在此基礎上構建自己的可選擴展 。 這樣 , 他們就可以構建針對自身獨特應用需求的定制芯片 。
麥金托什-史密斯對此并不認同 。 他指出 , 購買Arm許可證是有原因的 , 其中很大一部分原因與更先進的工具有關 。
他解釋說:“免費實現的質量和性能無法與蘋果設備或任何云平臺上的頂級Arm內核相提并論 。 開源軟件無法達到最先進的水平 , 它們只能達到教科書級別的優秀程度 , 但并不具備真正的競爭力 。 ”
他還指出 , 測試和驗證套件需要數十年的投入 。 “RISC-V 并不提供免費的這些 , ”他說 。 等你把所有這些都開發出來之后 , 免費開放系統的優勢可能就蕩然無存了 。
歐洲倡議與主權但埃蒂安·沃爾特(Etienne Walter)非常樂意談談RISC-V的另一個優勢 。 他是歐洲處理器計劃(EPI)的負責人 , 該計劃于2018年啟動 , 旨在利用RISC-V開發高性能計算(HPC)加速器技術 。 該計劃在10個國家擁有27個合作伙伴 。
它采用了雙架構策略:通用處理器采用Arm 架構 , 專用加速器采用 RISC-V 架構 。 后者包括一款基于 RISC-V 指令集架構中向量擴展的 CPU 。 EPI 于 2021 年完成了 RISC-V 加速器測試芯片的流片 。
除了源自巴塞羅那超級計算中心研究的矢量加速器之外 , EPI 還致力于可變精度加速和張量加速器的研究 。
歐洲政策倡議(EPI)現已結束 , 并將接力棒交給了今年3月啟動的“歐洲基于RISC-V的數字自主性”(DARE)項目 。 該項目擁有2.4億歐元的預算 , 由來自13個國家的38個合作伙伴組成 。
該計劃由巴塞羅那超級計算中心協調 , 目前計劃持續到2030 年 。 它將開發通用處理器、矢量加速器和人工智能處理單元 。
何必費心思做這些呢?或許只需快速瀏覽一下美國的對外政策就足以說明問題 。 隨著政治和經濟聯系的瓦解 , 主權的重要性日益凸顯 。
“這就是我們關注的重點 。 我們必須牢記這種擔憂 , 并準備一些可能的解決方案以防萬一 , ”沃爾特說 , “即使我們知道歐洲的水平不如美國 , 我們在專業知識和解決方案方面也無法達到同樣的水平 。 ”
康威理解那些認識到高性能計算對經濟發展日益重要的地區政府 , 因此他們不希望受制于外國勢力 。 但其中也存在一些細微差別 。 他很難想象高性能計算能夠完全自主 。
“你們依賴來自中國或其他地方的鋰 , 依賴來自荷蘭的先進光刻技術 , ”他說 。 “從這個意義上講 , 即使是美國 , 在處理器層面也無法完全自主 。 每個國家都在談論這個問題 , 好像這是一個合理的目標 , 但短期內可能并非如此 。 ”
Arm 花了大約十年時間才憑借其芯片設計打造出一個強大的超級計算平臺 。 2011 年推出 64 位處理器還不夠;它還需要合適的軟件棧和驗證生態系統 。
現在 , RISC-V 也必須做到這一點 。 “生態系統尚未成熟 , 或者說還不夠完善 , 這是肯定的 , ”沃爾特說 。 “要建立一個穩定成熟的環境 , 還有很多工作要做 , 但我毫不懷疑最終會實現 。 這只是時間問題 。 ”
需要多少時間?DARE的第一階段 , SGA-1 , 目標是在三年內打造“一套完全由歐洲自主研發的高性能計算和人工智能超級計算硬件/軟件體系” 。 接下來 , 它還得說服人們使用它 。
斯內爾持謹慎樂觀態度 。 “我認為RISC-V在未來五年內確實有很大的潛力 , ”他說 。 “我們認為它目前只比Arm落后一點點 , 它真的需要一位能夠帶領它前進的領軍人物 。 ”
RISC-V 的發展取得了一些進展 。 10 月 , Meta 收購了 RISC-V 初創公司 Rivos 。 這將使 Meta 擁有自主研發的、兼容 CUDA 的混合 CPU-GPU RISC-V 架構 , 而 Meta 目前依賴第三方芯片供應商 。 據報道 , Meta 也一直在內部研發自己的 RISC-V 芯片 。
高性能計算(HPC)處理器經歷了一個發展周期 , 最初是各種專有芯片并存的時代 , 后來隨著通用芯片的普及而逐漸減少 。 如今 , 情況似乎又開始逆轉 。 目前有幾家關鍵廠商 , 還有一些廠商正在蓄勢待發 。 一些超大規模數據中心運營商本身就是獨立的市場 , 并且正在開展一些有趣的項目 。 微軟有Maia , AWS有Inferentia和Trainium , 谷歌有TPU , 它們都是定制的ASIC芯片 。
再深入探究 , 你會發現更多奇妙之處 。 Cerebras 擁有晶圓級引擎 , 它通過將所有功能集成到單個芯片上 , 繞過了互連瓶頸 。 此外 , 還有一些硅光子學項目 , 旨在通過在芯片上直接實現光計算互連來降低功耗 。
由于牽涉到巨額資金 , 高性能計算領域的變革步伐緩慢 。 但如今涌現出如此多的有趣選擇 , 而且還有更多方案正在醞釀之中 , x86 的世界不太可能永遠是它的天下 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!
推薦閱讀
- 13歲靠氛圍編程創業,見奧特曼、拜訪a16z,他的暑假把成年人卷哭
- 398.24億、34%!阿里云“劍”指西方,外媒:中國這次在世界前列
- 阿里自研夸克AI眼鏡S1首發評測:第一視角拍攝、導航、提詞神器!
- 三分天下有其一!華為鴻蒙OS份額再次飆升,與iOS、安卓分庭抗禮!
- 六款會議平板橫評:Newline、Maxhub、TCL等品牌誰更適合你?
- 低延遲、速度穩,還有掉電保護!長江存儲SE006企業級SSD首測
- 比老美還狠?日本拉黑110家中企、誰料我國一招精準反制!
- iOS26.2.3更新實測,續航、信號、溫控完美,老機體驗直接起飛
- 一加Ace 6T再預熱:8300mAh電池、耐用性升級
- 小米 17 Ultra 全系入網:支持 UWB、100W 閃充
