存算一體,野蠻生長

存算一體,野蠻生長

文章圖片

存算一體,野蠻生長

文章圖片

存算一體,野蠻生長

文章圖片




4年前 , 寒武紀發布了一枚推理卡——思元370 , 宣稱采用“近存計算”架構 , 有效提升了帶寬效率 , 邁出了計算與存儲深度融合的第一步 。
2年前 , 清華大學團隊宣布研發出全球首顆全系統集成的、支持高效片上學習的憶阻器存算一體芯片 , 推動“存”與“算”真正實現物理一體 。
2024年 , 后摩智能發布了基于 SRAM 存儲介質的后摩鴻途 H30 智駕芯片 , 這是國內首款存算一體的智駕芯片 。
今年 , 這條長期被看好的技術路線 , 已經進入了量產的臨界點 。
01什么是存算一體?
存算一體解決的問題很具體:AI模型越來越大 , 而數據從內存送到處理器的速度 , 越來越跟不上計算需求 。 這被稱為“馮·諾依曼瓶頸” 。

馮·諾伊曼計算架構
馮·諾依曼架構用了幾十年 , 數據存儲和計算是分開的 , 所以也叫作存算分離 。 AI的崛起 , 讓計算芯片瘋狂提速 , 但存儲傳輸速率的提升跟不上 。
存儲速率上 , 業內提出AI運算需要的存算通道速率是1PB/s 。 SRAM的10-100TB/s、DRAM的40GB-1TB/s , 都遠達不到要求 。 功能消耗上 , 在7nm工藝下 , 數據搬運的功耗占比甚至達到了驚人的63.7% , 遠遠大于數據計算的功耗 。
于是 , 一些團隊開始嘗試一個樸素想法:既然搬數據耗能又慢 , 能不能讓計算發生在數據所在的地方?
這就是存算一體的基本邏輯 。 目前CIM技術已經應用在諸多存儲器上 , 如主流存儲器SRAM , DRAM , Flash , 以及新型NVM , 如RRAM , PCM , FeRAM , MRAM等 。
目前的主流技術路徑是兩種:
第一 , 易失性存儲器存算一體方案 , 如SRAM存算一體方案、eDRAM存算一體方案 。 目前 , SRAM CIM成熟度高、魯棒性強 , 是主流方案之一 。 臺積電已經連續五年在ISSCC和VLSI上介紹先進的Digital SRAM CIM工作 。 國內后摩智能、炬芯科技在做相關產品 。
第二 , 非易失性存儲器存算一體方案 , 如Flash存算一體方案、憶阻器(RRAM、PCM、MRAM)存算一體方案 。 ReRAM CIM的方案 , IMEC、清華團隊、中科院微電子所持續研究 , 國內昕原半導體也有布局 。
為什么是現在?
【存算一體,野蠻生長】過去十年 , 存算一體并不是沒有出現 , 但更多的是出現在ISSCC、IEDM等學術會議 。 2025年起 , 它開始出現在客戶產線和供應鏈清單上 。
背后有三個實實在在的推手:
首先 , 是存儲技術的不斷突破 。 阻變存儲器(RRAM)、憶阻器等新型存儲介質技術不斷突破 , 為存算一體提供了關鍵硬件支撐 。 清華大學團隊研發的全球首顆全系統集成的憶阻器存算一體芯片 , 進一步驗證了新型存儲介質在存算融合中的可行性 , 讓技術從理論走向實用化成為可能 。
其次 , 是AI推理部署成本倒逼性能優化 。 AI的耗電主要集中在訓練與推理兩階段 , 而參數量越大的模型 , 算力與電力消耗就越驚人 。 這也解釋了為何從Cerebras、Dojo到Groq , 諸多架構創新都在試圖“榨干”片上面積、極致堆疊SRAM容量 , 甚至不惜讓其他設計為此讓道 , 走向高度專用化 。 例如Groq的設計 , 其實就已采用了類似“近存計算”的思想 , 通過最大化片上存儲與計算單元的緊密耦合來降低數據搬運開銷 。

最后 , 是技術路線的優先級 。 美國多次修訂AI芯片出口規則 , 限制算力密度和互連帶寬 , 這使得國內廠商不得不重新評估:是否必須追求峰值算力?還是轉向更高能效比的專用架構?在此背景下 , CIM因其天然低功耗特性 , 獲得更多關注 。
02幾家公司的腳印
存算一體的應用場景 , 天然適合AI相關 , 不論是端側還是云側 , AI計算上存算一體芯片都有獨到的優勢 。
聯發科早在2023年便通過ISSCC(國際固態電路會議)和VLSI(超大規模集成電路研討會)兩大頂級會議 , 披露了其在存算一體領域的雙重技術路徑:一方面推出12nm工藝下的模擬域存算一體宏設計 , 基于電容型存算陣列實現高魯棒性(對工藝、電壓、溫度變化不敏感)與高識別率 , 適用于對能效比要求極高的邊緣場景;另一方面開發數字域存算一體宏 , 依托緊湊型SRAM單元 , 在無能效損失(即計算能耗與理論最小值接近)和低峰值電流的條件下完成高性能運算 , 更適合對實時性要求高的移動端任務 。
這一技術積累在今年轉化為實際產品——最新旗艦手機芯片天璣9500首次集成存算一體架構 , 標志著存算技術正式進入大規模消費電子場景 , 為端側AI(如影像處理、語音交互、輕量級模型推理)提供了更高效的算力支撐 。
美國AI芯片創企d-Matrix在2025年Hot Chips大會上發布的Corsair內存計算加速器 , 則代表了云端存算一體方案的典型思路 。

d-Matrix核心是數字存算一體(DIMC)技術 , 將存儲與計算功能集成于同一芯片 , 直接在內存中執行計算操作 , 無需在 CPU 與內存之間頻繁傳輸數據 。
Corsair芯片在芯片內部配置了大容量 SRAM 與 LPDDR5X , 并讓矩陣運算盡可能靠近存儲發生 , 從而降低數據搬運的能耗與延遲 。 每張卡上包含兩顆芯片 , 每顆芯片由 4 個 Chiplet 組成 , 每個 Chiplet 又配備了 2GB SRAM 以及 LPDDR5X 通道 , 使整卡達到 256GB LPDDR5X 的存儲能力 。 這種設計不僅縮短了數據通路 , 也讓推理任務中的權重訪問更加高效 。
d-Matrix 聯合創始人兼 CTO 蘇迪普?博哈(Sudeep Bhoja)曾在博客中尖銳指出:“當模型參數超過 1000 億時 , 數據搬運的能耗已占推理總能耗的 70% 以上 , 這也是為何單純堆疊 GPU 無法解決延遲問題的核心原因 。 ”
存算一體上 , 中國呈現“學術引領+產業落地”的雙輪驅動特征 , 既有高校團隊在前沿材料與基礎架構上的原理性突破 , 也有初創企業基于成熟工藝的產品化嘗試 , 覆蓋從憶阻器等新型存儲介質到端側、云側全場景 。

憶阻器存算一體排序系統整體示意圖
高校方面 , 北京大學楊玉超團隊在《自然·電子》上發表題為“A fast and reconfigurable sort-in-memory system based on memristors”的論文 , 首次構建了一個基于1T1R憶阻器陣列、無需比較器的存算一體排序軟硬件一體系統 。 通過憶阻器陣列的獨特位讀取機制 , 徹底摒棄傳統比較器 , 實現了排序速度提升7.7倍、能效比提升160倍的驚人突破 。
幾乎同時 , 清華大學錢鶴、吳華強團隊在另一維度實現突破 。 提出了基于憶阻器存算一體技術的解決方案 , 首次用同一憶阻器陣列與外圍電路實現計算、密鑰生成和誤差多項式生成三大核心功能 , 顯著簡化了數據路徑和系統復雜度 。 在硬件開銷方面 , 與數字系統相比 , 憶阻器系統的能耗降低57.72倍、時間降低6.42倍 。

企業這邊 , 后摩智能于今年發布了基于存算一體技術的端側AI芯片“漫界M50” 。 該芯片可提供單芯片最高160TOPS的算力 , 并支持最大48GB內存與153.6GB/s的帶寬配置 。 在實際性能方面 , 漫界M50目前已可實現7B/8B參數量的大模型達到25+ Tokens/s的推理生成速度 , 并已完成對DeepSeek 70B大模型的適配 。 該芯片理論上還可支持千億參數規模的模型運行 。
知存計算作為國內最早布局存算一體的企業之一 , 其量產的WTM2101芯片是全球首款基于NOR Flash的存算一體語音芯片 , 專注端側低功耗語音交互場景 。 目前有WTM2系列 , 適用高能效場景;WTM-8 系列 , 新一代計算視覺芯片適用低功耗高算力場景 , 支持linux , 支持AI超分、插幀、HDR、檢測與識別 。
昕原半導體是國內憶阻器(ReRAM)存算一體技術產業化的領軍者 , 其自主研發的28nm制程ReRAM存儲芯片已實現量產 。 ATOM 產品系列 , 利用ReRAM兼容先進工藝的特性將存儲和計算單元融為一體 。
九天睿芯的核心產品ADA100是一款基于SRAM存算一體架構的音頻邊緣計算芯片 , 于2023年量產并應用于TWS耳機、助聽器等設備 。 最近 , 九天睿芯獲超億元B輪融資 。 九天睿芯專注于超低功耗模數混合感存算一體芯片研發 , 規劃在未來3年內加速后續兩代大容量大算力存算一體芯片研發進程 , 第二代芯片期間版本將支持1~3B級別輕量化大模型 , 目前已流片成功 。
昕原半導體在8月發生了工商變更 。 原股東上海聯知創業投資管理中心(有限合伙)退出 , 新增股東螞蟻集團 。 螞蟻集團旗下上海云玡的持股比例為1.8692% 。 這家專注于ReRAM和AI存算一體的企業被阿里盯上了 。
蘋芯科技已完成首款產業級28nm SRAM存算一體單元流片點亮 。 已經開發多款產品 , 包括PIMCHIP-S300、PIMCHIP-N300等 。 PIMCHIP-S300是一款多模態智慧感知決策AI芯片 , 搭載基于SRAM的存算一體計算加速單元 , 具備AI算力整合、多模態融合感知、跨領域智慧決策、超低功耗、極速響應等特點 。 蘋芯科技的芯片主要應用于智能可穿戴設備、智能安防、智慧工業、智慧醫療、教育智能化等行業 。
03結語
如今的先進存儲器與存算一體已經不是“單點技術突破” , 而是“技術協同+場景適配+生態共建”的系統工程 。
不過 , 當前存算一體依然存在卡點 。 SRAM方案受限于面積和密度 , 難撐千億模型;憶阻器雖能效驚艷 , 但良率、耐久性和工藝兼容性仍是量產攔路虎 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀