清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?

清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?

文章圖片

清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?

文章圖片

清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?

文章圖片

清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?

文章圖片


存算一體+ 芯粒技術 , 清華團隊開辟高算力新路徑 。

2025 年9月24日 , 清華大學集成電路學院副院長、長聘副教授唐建石在2025 IC WORLD 高峰論壇上 , 發表題為《高算力芯片發展路徑探索與存算一體芯片》的演講 。 演講圍繞學院近年在高算力芯片與存算一體芯片領域的思考、探索及實踐展開 , 系統闡述了行業現狀、技術突破與未來規劃 。
從他的演講中 , 我們獲取了以下關鍵信息:

  • AI 時代算力需求爆發 , 硬件面臨雙重挑戰
  • 芯片算力三要素:晶體管集成密度× 芯片面積 × 單個晶體管算力
  • 聚焦憶阻器技術 , 實現存算一體芯片突破與產業化
唐建石指出 , 當前人工智能領域對算力的需求呈爆發式增長 , 國家計算力指數與數字經濟、GDP 增長緊密相關 。 其中 , 中國智能算力規模 2025 年已突破數十萬億億次 , 且 AI 算力需求每不到六個月便實現翻倍 , 這一增速遠超摩爾定律驅動的硬件算力提升速度 , 構建更強力的芯片算力底座成為行業迫切需求 。
同時 , 計算芯片與存儲芯片存在顯著差異:存儲芯片擁有統一的標準接口與定義 , 而計算芯片需依賴指令集、工具鏈、操作系統構成的完整生態支撐 。 從行業格局看 , 美國長期主導計算芯片體系 , 我國則面臨雙重硬件制約:一是摩爾定律逐步放緩 , 晶體管尺寸微縮難度加大 , 疊加EUV 光刻機禁運影響 , 先進制造工藝推進受阻;二是先進光刻機單次曝光尺寸固定為 858 平方毫米 , 限制了 GPU 等單芯片的最大面積 , 兩者共同制約了單芯片晶體管數量的提升 。
為突破現有瓶頸 , 唐建石團隊將芯片算力拆解為“晶體管集成密度 × 芯片面積 × 單個晶體管算力” 三個核心要素 , 針對每個要素展開技術探索 。

傳統提升集成密度的路徑依賴晶體管尺寸微縮 , 當前已實現每平方毫米數億個晶體管的集成(如英偉達H200 GPU 在 800 平方毫米面積內集成近 1000 億個晶體管) , 但同時面臨功耗、成本與良率的挑戰 。 唐建石表示 , 未來要實現超萬億晶體管的集成目標 , 需依托以芯粒技術為代表的 2.5D/3D 集成技術 , 通過多芯片垂直堆疊將集成維度從 “面密度” 拓展至 “體密度” 。
芯粒技術是融合架構設計、互聯設計、存儲封裝、電源散熱及先進光刻的綜合技術體系 。 為推進自主生態建設 , 學院聯合國內優勢單位采取“一加一” 模式:一方面牽頭組建 “中國中關村高性能芯片互聯技術聯盟” , 已制定 12 項團體標準、牽頭編制 5 項國家標準 , 構建我國芯粒技術自主標準框架;另一方面依托國家重大項目建設 “北京芯力技術創新中心” , 打造芯粒技術一站式服務平臺 , 目前該平臺已完成通線并初步具備小批量量產能力 。
針對光刻機曝光尺寸的限制 , 行業主流方向是研發“晶圓級芯片(One Chip One Die)” , 唐建石介紹了國際上兩類典型技術路線:一是 19 年Cerebras WSE推出的 , 采用曝光廠拼接技術將12 寸晶圓制成完整芯片 , 但需通過小計算核設計與容錯架構保障良率;二是 Tesla Dojo 路線 , 采用完好晶粒結合有機基板重塑12 寸晶圓 , 但其有機基板無法實現 DTC 功能 , 電氣特性較弱且互聯帶寬低 , 需大量架構優化 , 落地難度逐步增加 。
學院團隊提出“硅基基板 + 完好晶粒” 的技術路線 , 可同時兼顧芯片性能與良率 , 經測試能支撐芯片算力達到 3-15 PFlops@FP8, 性能超過4 納米工藝的英偉達 GB200 GPU 。

【清華大學集成電路學院副院長唐建石:高算力芯片,如何突破瓶頸?】在存算一體技術的具體探索中 , 唐建石重點介紹了團隊在憶阻器領域的研究成果 , 涵蓋技術優勢、工藝突破、創新方案及產業化進展:
憶阻器采用“兩電極 + 中間氧化層組變層” 的簡單結構 , 通過施加電源脈沖調節電導可實現多比特非易失存儲 。 將憶阻器制成交叉陣列后 , 可將矩陣值映射為電導值、向量作為電壓輸入 , 依托歐姆定律與基爾霍夫定律完成矩陣向量乘加運算 —— 單個憶阻器可同時承擔多比特乘法器、加法器與存儲單元的功能 。
相比傳統數字電路 , 憶阻器的能效比CPU、GPU 提升一個數量級 , 且在擦寫速度、耐久性、多比特存儲能力及成本方面 , 均優于閃存、MRAM、PCM 等其他非易失存儲器 。 過去十年 , 憶阻器存算一體技術從器件材料優化、交叉陣列功能演示 , 逐步發展到 2018 年后與 CMOS 電路集成打造原型芯片 , 呈現指數級發展趨勢 。
過去四年多 , 團隊與中芯國際合作研發出覆蓋55 納米、40 納米、28 納米、22 納米至 12 納米多個節點的憶阻器集成工藝 。 由于憶阻器集成于CMOS 后道 , 具備良好的工藝遷移能力 , 可適配更先進的工藝節點 。 目前團隊已形成境內自主可控的工藝基礎 , 憶阻器集成規模達上百兆 , 良率可達 4 個 9 至 6 個 9 , 實現 4 比特編程 , 且 40 納米、28 納米節點的存儲產品已實現一定規模量產 , 工藝水平進入國際第一梯隊 。


針對憶阻器存算一體的核心技術痛點 , 團隊提出兩項關鍵創新方案:一是為提升計算精度 , 研發“混合訓練架構” , 提取器件與陣列的非理想特性及噪聲特性建模后 , 融入神經網絡離線訓練過程 , 權重映射至芯片后 , 通過關鍵層的片上自適應調節實現精度優化 , 據此研制出國際首款多陣列憶阻器存算一體系統 , 成功演示多層卷積神經網絡計算 , 能效達 110+ TOPS/W;二是為實現片上訓練 , 針對憶阻器 “寫操作難度高、功耗與時間開銷大、耐擦寫次數有限” 的特性 , 提出 “Stellar 片上學習框架” , 大幅減少權重更新次數與能耗 , 研制出國際首款全系統集成的支持片上高效學習的憶阻器雙算力芯片 , 在相同任務下 , 能耗比先進工藝數字芯片低 1-2 個數量級 , 驗證了憶阻器芯片同時支持神經網絡推理與片上訓練的能力 。


在產業化推進方面 , 憶阻器存儲技術已相對成熟 , 臺積電也在推進 12 納米及更先進節點的憶阻器存儲工藝研發 。 團隊孵化的企業已實現 1-16MB 典型規格憶阻器存儲產品的量產 。 在存算一體領域 , 團隊孵化 “北京億元科技” 初創公司 , 既推出面向科研的存算一體硬件平臺 , 與多所高校開展合作 , 也聯合咪咕、字節跳動研發存算一體計算加速卡 , 在內容推薦場景開展探索性應用 。
唐建石在演講結尾總結 , 當前我國先進制造工藝面臨制約 , 實現高算力芯片突破需依托多層次協同創新:一方面引入存算一體新計算范式 , 推動其與進程計算、主流計算架構的融合 , 突破算力、存儲與功耗瓶頸;另一方面通過芯粒堆疊、單片三維集成等技術 , 構建異構集成層次化芯片 , 突破單芯片面積限制 。
他表示 , 通過計算范式、芯片架構與集成方法的協同創新 , 可構建異構集成、存算融合的智能計算架構 , 為后摩爾時代算力提升開拓新空間 。 此外 , 團隊正關注硅光、光電子融合等技術 , 計劃引入光模塊加速數據傳輸 , 豐富高效芯片的技術探索路徑 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀