存算一體，野蠻生長

2026-04-27 清華大學半導體存儲器 it芯片 ai芯片

文章圖片

文章圖片

文章圖片

4年前，寒武紀發布了一枚推理卡——思元370 ，宣稱采用“近存計算”架構，有效提升了帶寬效率，邁出了計算與存儲深度融合的第一步。
2年前，清華大學團隊宣布研發出全球首顆全系統集成的、支持高效片上學習的憶阻器存算一體芯片，推動“存”與“算”真正實現物理一體。
2024年，后摩智能發布了基于 SRAM 存儲介質的后摩鴻途 H30 智駕芯片，這是國內首款存算一體的智駕芯片。
今年，這條長期被看好的技術路線，已經進入了量產的臨界點。
01什么是存算一體？
存算一體解決的問題很具體：AI模型越來越大，而數據從內存送到處理器的速度，越來越跟不上計算需求。這被稱為“馮·諾依曼瓶頸” 。

馮·諾伊曼計算架構
馮·諾依曼架構用了幾十年，數據存儲和計算是分開的，所以也叫作存算分離。 AI的崛起，讓計算芯片瘋狂提速，但存儲傳輸速率的提升跟不上。
存儲速率上，業內提出AI運算需要的存算通道速率是1PB/s 。 SRAM的10-100TB/s、DRAM的40GB-1TB/s ，都遠達不到要求。功能消耗上，在7nm工藝下，數據搬運的功耗占比甚至達到了驚人的63.7% ，遠遠大于數據計算的功耗。
于是，一些團隊開始嘗試一個樸素想法：既然搬數據耗能又慢，能不能讓計算發生在數據所在的地方？
這就是存算一體的基本邏輯。目前CIM技術已經應用在諸多存儲器上，如主流存儲器SRAM ， DRAM ， Flash ，以及新型NVM ，如RRAM ， PCM ， FeRAM ， MRAM等。
目前的主流技術路徑是兩種：
第一，易失性存儲器存算一體方案，如SRAM存算一體方案、eDRAM存算一體方案。目前， SRAM CIM成熟度高、魯棒性強，是主流方案之一。臺積電已經連續五年在ISSCC和VLSI上介紹先進的Digital SRAM CIM工作。國內后摩智能、炬芯科技在做相關產品。
第二，非易失性存儲器存算一體方案，如Flash存算一體方案、憶阻器（RRAM、PCM、MRAM）存算一體方案。 ReRAM CIM的方案， IMEC、清華團隊、中科院微電子所持續研究，國內昕原半導體也有布局。
為什么是現在？
【存算一體，野蠻生長】過去十年，存算一體并不是沒有出現，但更多的是出現在ISSCC、IEDM等學術會議。 2025年起，它開始出現在客戶產線和供應鏈清單上。
背后有三個實實在在的推手：
首先，是存儲技術的不斷突破。阻變存儲器（RRAM）、憶阻器等新型存儲介質技術不斷突破，為存算一體提供了關鍵硬件支撐。清華大學團隊研發的全球首顆全系統集成的憶阻器存算一體芯片，進一步驗證了新型存儲介質在存算融合中的可行性，讓技術從理論走向實用化成為可能。
其次，是AI推理部署成本倒逼性能優化。 AI的耗電主要集中在訓練與推理兩階段，而參數量越大的模型，算力與電力消耗就越驚人。這也解釋了為何從Cerebras、Dojo到Groq ，諸多架構創新都在試圖“榨干”片上面積、極致堆疊SRAM容量，甚至不惜讓其他設計為此讓道，走向高度專用化。例如Groq的設計，其實就已采用了類似“近存計算”的思想，通過最大化片上存儲與計算單元的緊密耦合來降低數據搬運開銷。

最后，是技術路線的優先級。美國多次修訂AI芯片出口規則，限制算力密度和互連帶寬，這使得國內廠商不得不重新評估：是否必須追求峰值算力？還是轉向更高能效比的專用架構？在此背景下， CIM因其天然低功耗特性，獲得更多關注。
02幾家公司的腳印
存算一體的應用場景，天然適合AI相關，不論是端側還是云側， AI計算上存算一體芯片都有獨到的優勢。
聯發科早在2023年便通過ISSCC（國際固態電路會議）和VLSI（超大規模集成電路研討會）兩大頂級會議，披露了其在存算一體領域的雙重技術路徑：一方面推出12nm工藝下的模擬域存算一體宏設計，基于電容型存算陣列實現高魯棒性（對工藝、電壓、溫度變化不敏感）與高識別率，適用于對能效比要求極高的邊緣場景；另一方面開發數字域存算一體宏，依托緊湊型SRAM單元，在無能效損失（即計算能耗與理論最小值接近）和低峰值電流的條件下完成高性能運算，更適合對實時性要求高的移動端任務。
這一技術積累在今年轉化為實際產品——最新旗艦手機芯片天璣9500首次集成存算一體架構，標志著存算技術正式進入大規模消費電子場景，為端側AI（如影像處理、語音交互、輕量級模型推理）提供了更高效的算力支撐。
美國AI芯片創企d-Matrix在2025年Hot Chips大會上發布的Corsair內存計算加速器，則代表了云端存算一體方案的典型思路。

d-Matrix核心是數字存算一體（DIMC）技術，將存儲與計算功能集成于同一芯片，直接在內存中執行計算操作，無需在 CPU 與內存之間頻繁傳輸數據。
Corsair芯片在芯片內部配置了大容量 SRAM 與 LPDDR5X ，并讓矩陣運算盡可能靠近存儲發生，從而降低數據搬運的能耗與延遲。每張卡上包含兩顆芯片，每顆芯片由 4 個 Chiplet 組成，每個 Chiplet 又配備了 2GB SRAM 以及 LPDDR5X 通道，使整卡達到 256GB LPDDR5X 的存儲能力。這種設計不僅縮短了數據通路，也讓推理任務中的權重訪問更加高效。
d-Matrix 聯合創始人兼 CTO 蘇迪普?博哈（Sudeep Bhoja）曾在博客中尖銳指出：“當模型參數超過 1000 億時，數據搬運的能耗已占推理總能耗的 70% 以上，這也是為何單純堆疊 GPU 無法解決延遲問題的核心原因。 ”
存算一體上，中國呈現“學術引領+產業落地”的雙輪驅動特征，既有高校團隊在前沿材料與基礎架構上的原理性突破，也有初創企業基于成熟工藝的產品化嘗試，覆蓋從憶阻器等新型存儲介質到端側、云側全場景。

憶阻器存算一體排序系統整體示意圖
高校方面，北京大學楊玉超團隊在《自然·電子》上發表題為“A fast and reconfigurable sort-in-memory system based on memristors”的論文，首次構建了一個基于1T1R憶阻器陣列、無需比較器的存算一體排序軟硬件一體系統。通過憶阻器陣列的獨特位讀取機制，徹底摒棄傳統比較器，實現了排序速度提升7.7倍、能效比提升160倍的驚人突破。
幾乎同時，清華大學錢鶴、吳華強團隊在另一維度實現突破。提出了基于憶阻器存算一體技術的解決方案，首次用同一憶阻器陣列與外圍電路實現計算、密鑰生成和誤差多項式生成三大核心功能，顯著簡化了數據路徑和系統復雜度。在硬件開銷方面，與數字系統相比，憶阻器系統的能耗降低57.72倍、時間降低6.42倍。

企業這邊，后摩智能于今年發布了基于存算一體技術的端側AI芯片“漫界M50” 。該芯片可提供單芯片最高160TOPS的算力，并支持最大48GB內存與153.6GB/s的帶寬配置。在實際性能方面，漫界M50目前已可實現7B/8B參數量的大模型達到25+ Tokens/s的推理生成速度，并已完成對DeepSeek 70B大模型的適配。該芯片理論上還可支持千億參數規模的模型運行。
知存計算作為國內最早布局存算一體的企業之一，其量產的WTM2101芯片是全球首款基于NOR Flash的存算一體語音芯片，專注端側低功耗語音交互場景。目前有WTM2系列，適用高能效場景；WTM-8 系列，新一代計算視覺芯片適用低功耗高算力場景，支持linux ，支持AI超分、插幀、HDR、檢測與識別。
昕原半導體是國內憶阻器（ReRAM）存算一體技術產業化的領軍者，其自主研發的28nm制程ReRAM存儲芯片已實現量產。 ATOM 產品系列，利用ReRAM兼容先進工藝的特性將存儲和計算單元融為一體。
九天睿芯的核心產品ADA100是一款基于SRAM存算一體架構的音頻邊緣計算芯片，于2023年量產并應用于TWS耳機、助聽器等設備。最近，九天睿芯獲超億元B輪融資。九天睿芯專注于超低功耗模數混合感存算一體芯片研發，規劃在未來3年內加速后續兩代大容量大算力存算一體芯片研發進程，第二代芯片期間版本將支持1~3B級別輕量化大模型，目前已流片成功。
昕原半導體在8月發生了工商變更。原股東上海聯知創業投資管理中心（有限合伙）退出，新增股東螞蟻集團。螞蟻集團旗下上海云玡的持股比例為1.8692% 。這家專注于ReRAM和AI存算一體的企業被阿里盯上了。
蘋芯科技已完成首款產業級28nm SRAM存算一體單元流片點亮。已經開發多款產品，包括PIMCHIP-S300、PIMCHIP-N300等。 PIMCHIP-S300是一款多模態智慧感知決策AI芯片，搭載基于SRAM的存算一體計算加速單元，具備AI算力整合、多模態融合感知、跨領域智慧決策、超低功耗、極速響應等特點。蘋芯科技的芯片主要應用于智能可穿戴設備、智能安防、智慧工業、智慧醫療、教育智能化等行業。
03結語
如今的先進存儲器與存算一體已經不是“單點技術突破” ，而是“技術協同+場景適配+生態共建”的系統工程。
不過，當前存算一體依然存在卡點。 SRAM方案受限于面積和密度，難撐千億模型；憶阻器雖能效驚艷，但良率、耐久性和工藝兼容性仍是量產攔路虎。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

推薦閱讀

上一篇：清華大學集成電路學院教授王志華：智能時代的中國集成電路

下一篇：vivo新品官宣：10月13日，全新發布