芯片如何在極端環境中“活下來”?

芯片如何在極端環境中“活下來”?

文章圖片

芯片如何在極端環境中“活下來”?

在任務和安全關鍵型應用中 , 先右移 , 然后左移對于測試和檢查變得越來越常見 。
隨著半導體逐漸進入曾經被認為難以承受的環境 , 人們對可靠性的期望也正在被重新定義 。 從太空真空和噴氣發動機內部 , 到深度工業自動化和電氣化傳動系統 , 芯片如今必須承受極端溫度波動、腐蝕性環境、機械振動、輻射和不可預測的功率循環 , 同時還要提供日益復雜的功能 。 這種轉變迫使測試和計量流程快速發展 , 以滿足日益增長的可靠性需求 。
過去 , 設備認證基于靜態標準和相對狹窄的用例假設 。 但如今 , 嚴苛應用的多樣性 , 加上日益增長的系統集成和異構封裝 , 正在打破這些假設 。 單靠壓力測試已遠遠不夠 。 制造商現在必須驗證性能并預測特定任務條件下的性能下降 , 在這些條件下 , 熱循環、高壓或振動是正常的工作狀態 , 而非極端情況 。 這種驗證始于晶圓階段 , 而不僅僅是后端 。
“現在一切都與人工智能有關 , ” Microtronic首席營銷官 Mike LaTorraca 表示 。 “我們看到數據中心、航空航天和國防等領域的需求正在大幅增長——這些應用領域的芯片極其寶貴 , 且對任務至關重要 。 這些客戶正在進行低混合、高復雜度、小批量生產 , 他們希望在部署之前確保設備經過正確的老化和認證 。 ”
測試團隊如今面臨著雙重挑戰:既要擴展現有協議的準確性和覆蓋范圍 , 又要采用新的系統級驗證方法、預測分析和故障建模 , 涵蓋生產前、生產中和生產后的各個環節 。 日益增強的環境變化正推動著前端和后端轉向更具適應性、更穩健的認證和可靠性測試策略 。
Advantest客戶項目和業務開發高級總監Davette Berry表示:“專注于惡劣環境的客戶希望他們的資質測試能夠使用與生產或現場操作相同的測試內容和數據端口 。 這能增強客戶信心 , 確保在壓力下測試的內容在實際應用中具有實際意義 。 ”
結合 SLT 和老化測試加速早期故障系統級測試 (SLT) 曾被視為最終的安全保障 , 如今正逐漸成為識別早期自動化測試中遺漏故障模式的必要步驟 。 雖然傳統的老化測試技術仍然被廣泛用于加速早期故障 , 通常是通過升高溫度和電壓來實現 , 但半導體系統日益復雜和脆弱 , 促使人們轉向更具情境感知的可靠性測試 。
“老化測試是為了消除制造缺陷 , ”貝里說 , “但它并非用于捕捉在實際工作負載下測試完整系統時出現的各種故障機制 , 尤其是在熱應力下 。 ”
這就是 SLT 的價值所在 。 與基于矢量的 ATE(在引腳或邏輯級應用特定測試模式)不同 , SLT 評估接近最終組裝的芯片或模塊 , 包括板級組件、固件、內存和其他系統元素 , 從而更貼近真實世界的運行 。 這使得它在發現運行壓力下出現的交互故障方面尤為有效 。
系統級真實性與環境壓力的結合 , 使測試工程師能夠發現熱不穩定性、邊緣接觸問題以及封裝相關故障 , 而這些故障原本可能無法檢測到 。 在先進的封裝中 , 具有不同熱特性的異構芯片共用一個基板 , 故障可能源于整個模塊的熱梯度、材料不匹配和工作負載變化的累積效應 , 而非單個元件 。
先右移 , 再左移將 SLT 集成到測試流程中 , 還能幫助制造商在產品生命周期的早期做出更明智的決策 。 其理念是先通過真實的系統級壓力測試收集豐富的故障數據 , 實現“右移” , 然后通過將這些數據反饋到 ATE 晶圓級測試、設計和制造流程中 , 實現“左移” 。
泰瑞達業務戰略總監 Natalian Der 表示:“我們看到越來越多的客戶最初利用 SLT 向右移動 , 以發現未知的故障機制 。 然后 , 他們利用這些數據 , 向左移動 , 以改進測試模式、調整工藝窗口或改進封裝材料 。 這是一個持續的學習循環 。 ”
在處理 2.5D 中介層或垂直集成芯片堆棧等先進封裝配置時 , 這種方法尤為重要 。
“封裝越復雜 , SLT 的價值就越大 , ”Berry 補充道 。 “你測試的不僅僅是一塊獨立的芯片 , 而是整個系統 。 而這正是許多可靠性問題開始顯現的地方 。 ”
設計-測試同步SLT 的另一個優勢是它在設計與制造之間搭建了更直接的橋梁 。 SLT 中使用的相同數據端口和接口通常可以在現場部署期間的系統監控中重復使用 。
Advantest 的 Berry 表示:“例如 , 在汽車中 , 設備通常通過 CAN(控制器局域網)總線或其他接口進行輪詢以檢查狀態 。 如果我們在 SLT 中使用相同的數據端口 , 測試覆蓋率在最終用途認證中就會變得更加重要 。 這減少了重復工作 , 并提高了對現場可靠性的信心 。 ”
一些公司甚至擴展了這個想法 , 以支持現場重新認證 , 即在電路板組裝后 , 甚至在部署后 , 在運行負載下對之前測試過的設備進行重新認證 。
西門子 EDA公司 Tessent 高級工程總監 Nilanjan Mukherjee 表示:“高質量需要在兩個層面得到保證 。 首先 , 在芯片層面 , 保證芯片為已知良好芯片 (KGD) 至關重要 , 因為集成后丟棄已封裝器件的成本過高 。 其次 , 為了促進 KGD 的集成 , 必須在芯片和封裝層面謹慎實施 DFT 策略 , 以幫助測試/修復芯片之間的高速互連(包括 TSV) , 從而最大限度地減少潛在故障并提高良率 。 ”
通過數據關聯實現可靠性預測隨著芯片越來越多地部署在不容許出現故障的環境中 , 可靠性預測策略變得至關重要 。 單靠傳統的認證方法已遠遠不夠 。 制造商現在正在關聯芯片整個生命周期的數據 , 從晶圓檢測和測試到現場操作 , 以預測并預防故障的發生 。
Microtronic 應用總監 Errol Akomer 表示:“我們專注于在生產線早期識別出性能最強的芯片 , 并使用保護帶和數字墨水輸出技術來剔除那些可能通過基本測試但容易出現長期故障的邊緣芯片或‘殘缺芯片’ 。 ” “這一流程對于面向汽車、航空航天和數據中心市場的芯片尤為重要 , 因為這些市場的芯片壽命和文檔記錄至關重要 。 ”
通過關聯光刻和 CMP 后階段的宏觀缺陷 , 該公司為每個晶圓建立了全面的歷史記錄 , 使制造商能夠在最終測試和封裝之前排除可疑芯片 。
圖 1:自旋宏缺陷 。 來源:Microtronic


Onto Innovation產品營銷總監 Woo Young Han 表示:“任何用于惡劣環境(例如汽車應用)的芯片的視覺缺陷都應被視為對可靠性的潛在威脅 。 雖然這些外觀缺陷最初可能不會影響芯片的電氣性能 , 但隨著時間的推移 , 隨著芯片在實際條件下運行 , 它們可能會導致可靠性問題 。 這凸顯了對汽車級芯片進行 100% 出廠質量保證 (OQA) 視覺檢查和在極端溫度下進行電氣測試的重要性 。 ”
另一方面 , 一旦芯片通過認證 , 嵌入式代理就可以在芯片的整個生命周期內提供實時數據 , 首先是在生產測試期間 , 然后是在系統運行期間 。 proteanTecs 測試與分析副總裁 Alex Burlak 解釋說:“我們的技術既支持測試決策 , 也支持現場健康監測 。 它能夠洞察芯片在實際工作負載條件下的裕度、功耗行為和性能 。 這些都是僅靠傳統測試設置無法獲得的洞察 。 ”
這種融合之所以格外強大 , 是因為它在閉合反饋回路中發揮了重要作用 。 Microtronic 早期晶圓篩選的數據有助于在最終組裝前剔除高風險芯片 。 proteanTecs 的嵌入式代理一旦部署 , 就能檢測到細微的退化或意外的熱異常或電壓異常 , 從而提供可追溯到制造或組裝決策的洞察 。 這些技術相結合 , 能夠更主動地進行認證和工藝控制 , 尤其是在小批量、高可靠性市場中 , 因為在這些市場中 , 測試逃逸會帶來巨大的風險 。
本質上 , 如今的預測可靠性關乎關聯性 , 將光學檢測、嵌入式遙測和機器學習相結合 , 以預測故障機制 , 并不斷改進 。 這種集成數據循環正迅速成為確保最堅固的芯片在極端環境下從晶圓到部署的整個過程中能夠順利運行的關鍵 。
Mukherjee 表示:“隨著電子產品持續主導汽車、電信、數據中心、醫療保健等領域 , 為了保持可靠性和安全性 , 需要在整個生命周期內對集成電路進行持續監控 。 能夠促進結構測試和常規功能測試的技術對于監控至關重要 , 并有助于快速解決潛在故障 。 ”
這種遙測驅動的方法在生產過程中提供了兩大優勢:更精準的異常值檢測和更智能的測試優化 。 每個芯片的預測配置文件并非僅僅依賴于固定閾值或基于總體的限制 , 而是會標記出偏離預期行為的異常 , 即使這些異常在典型的測試范圍內 。
“一塊芯片可能落在測量分布范圍內 , 但根據其參數特征 , 預計其行為會有所不同 , ”Burlak 解釋道 。 “通過將預測值與實際測量值進行比較 , 客戶可以標記出原本可能檢測不到的細微異常值 。 這正是行業的發展方向——邁向主動可靠性 , 而不僅僅是被動故障分析 。 ”
這種粒度級別不僅提升了質量 , 也為動態性能調整打開了大門 。 客戶可以使用相同的數據來調整每個芯片的電壓和頻率設置 , 從而根據應用需求優化功耗或提高性能 。
Teradyne 的 Der 認為這種演變與更廣泛的趨勢相符 。 “業界需要更智能、更快速且不損害質量的測試 , ”她說道 。 “如果能夠使用嵌入式遙測和機器學習進行有針對性的篩查 , 而不是暴力覆蓋 , 就能降低測試成本 , 同時提升可信度 。 ”
彌合測試與操作之間的差距測試和現場數據的集成構建了持續的可靠性循環 。 這種反饋可以改進設計、指導流程調整 , 甚至實現部分認證流程的自動化 。
意法半導體功率和分立器件事業部首席技術官兼技術溝通經理 Gianfranco Di Marco 表示:“實時監控使我們能夠在可靠性預測與實際行為之間建立閉環 。 我們不僅通過加速壓力測試來驗證模型 , 還利用現場返回數據來驗證 , 從而能夠優化測試覆蓋率和預期使用壽命 。 ”
意法半導體還在其工業和汽車芯片中嵌入遙測功能 , 使客戶能夠實時評估設備健康狀況 。 “對于堅固耐用的邊緣人工智能和自動化而言 , 這些功能至關重要 , ”Di Marco 表示 。 “它們支持預測性維護策略 , 從而減少停機時間并延長使用壽命 。 ”
相同的數據可用于識別與故障相關的使用模式 , 例如溫度峰值、機械沖擊或電壓瞬變 , 并相應地改進資格策略 。
“我們監測的常見趨勢包括熱波動模式、振動水平和濕度暴露 , ”迪馬科說 。 “當這些指標偏離預期范圍時 , 我們就知道我們正在接近風險狀況 , 即使芯片還沒有出現故障 。 ”
標準與資質:不斷變化的目標無論是運往軌道、汽車發動機內部 , 還是工廠車間 , 暴露于惡劣環境下的芯片都必須通過嚴格的資質認證 。 如今 , 這些標準因市場而異 , 并且為了跟上技術的復雜性而快速發展 。 但它們也開始趨同 。
Microchip 高可靠性和射頻業務部副總裁 Leon Gross 表示:“在航空航天和國防領域 , 我們遵循 MIL-PRF-38535 和 MIL-STD-883 標準 , 這些標準要求產品具備抗輻射性能、逐批認證和完全可追溯性 。 在汽車領域 , 我們遵循 AEC-Q100 和 AQG-324 標準 , 這些標準注重工藝控制和大批量可靠性 。 但我們越來越看到這些標準趨同 。 現在 , 汽車客戶要求提供航空航天風格的文檔和任務剖面測試 。 ”
這種融合的驅動力源于一種共同的需求 , 即在故障發生之前進行預測 。 傳統標準雖然穩健 , 但并非總能準確預測 。 隨著邊緣設備承擔越來越多的計算和人工智能功能 , 并且必須在更高強度的負載下保持更長時間的運行 , 設計人員要求認證流程能夠反映實際用例 。
“我們正在與客戶合作 , 制定基于任務概況的資格認證策略 , ”格羅斯說道 。 “這意味著要定義切合實際的溫度循環、機械應力模式和功耗概況 , 然后根據這些條件進行測試 , 而不是依賴通用規格 。 ”
認證流程也在不斷擴展 , 涵蓋加速壽命測試、增強應力模型 , 甚至現場遙測反饋回路 。 這使得工程師能夠在實際工作負載下驗證性能 , 并利用這些數據來改進預測模型 。
意法半導體的 Di Marco 表示:“我們將模型預測與實際壓力測試和現場返回數據進行比較 。 任何偏差都會成為一種反饋機制 , 幫助我們改進測試條件和可靠性預期 , 確保我們的產品不斷改進 。 ”
proteanTecs 的 Burlak 指出 , 人工智能驅動的現場遙測技術正在開始增強資質認證 。 “雖然資質認證標準仍然需要 , 但遙測技術可以讓你將可靠性視為一個生命周期問題 , 而不是一次性的障礙 , ”他說道 。 “這就是標準的發展方向——朝著更動態、更情境感知的資質認證邁進 。 ”
計量、失配和機械損傷由于用于惡劣環境的芯片會承受更嚴格的熱應力和機械應力 , 即使是微小的計量疏忽也可能導致嚴重的良率和可靠性問題 。 在晶圓級尤其如此 , 因為熱膨脹、探針錯位或結構缺陷都可能引入潛在的損傷 , 并在數月后顯現出來 。
Onto 公司的 Han 表示:“汽車級半導體晶圓需要在很寬的溫度范圍內進行電氣測試 , 通常溫度范圍為 -30°C 至 150°C 。 這些溫度波動會引起顯著的熱膨脹和收縮 , 晶圓直徑的變化幅度可能超過 100μm 。 探針卡的設計旨在跟蹤晶圓的熱膨脹 。 然而 , 晶圓基板和探針卡材料之間的熱膨脹系數 (CTE) 差異可能會導致對準誤差 。 ”
這種錯位會導致探針尖端接觸非預期區域 , 從而造成機械損傷 , 例如劃痕、焊盤變形或探針標記異常 。 為了發現這些問題 , Onto 開發了自動化探針標記檢測和高分辨率成像系統 , 可實時監測探針引起的損傷 。 先進的模式識別算法可在晶圓進入下一階段之前檢測到異常 , 從而實現探針對準的動態校準并最大限度地降低應力 。
腐蝕檢測是另一個日益受到關注的問題 , 特別是對于航空航天和工業應用 , 長期暴露于濕氣或污染物中會導致緩慢降解 。
“監測腐蝕導致的材料和結構退化至關重要 , ”韓教授說道 。 “腐蝕可以表現為點蝕、開裂、變色等各種形式 , 是一個主要問題 , 尤其是在航空航天和汽車芯片領域 。 ”
這些缺陷并不局限于正面 。 背面晶圓處理也日益成為薄弱環節 , 尤其是在高通量或傳統設備中 。 Microtronic 的 Akomer 表示:“我們見過被劃傷的晶圓 , 尤其是在背面 , 細小的顆粒或殘留物會導致晶圓變形 , 從而影響有源面芯片 。 這種損傷在標準檢測中可能被忽視 , 但在反復的熱循環下 , 它可能會變成裂紋或分層點 。 ”
圖2:背面污染造成的宏觀缺陷示例 。 來源:Microtronic


這些類型的機械和結構問題表明 , 在整個半導體生命周期中 , 對持續檢測和自適應測試的需求日益增長 。 隨著封裝密度越來越高、材料越來越多樣化 , 即使是微小的物理差異 , 也可能在熱應力、機械應力或電應力作用下引發可靠性故障 。 這推動著檢測技術超越靜態檢查點 , 發展成為動態的、反饋驅動的系統 , 為探針優化、工藝控制甚至封裝設計提供信息 。
歸根結底 , 在惡劣環境下管理可靠性并非僅僅解決單一挑戰 , 而是要將設計、測試和計量的每個階段與最終用途任務概況相協調 。 從宏觀缺陷檢測到嵌入式健康監測器和實時現場遙測 , 每種工具都有助于構建針對不可預測操作條件的多層級防御 。 最終目標不僅僅是達到資格門檻 , 而是確保在現實世界中最嚴苛的條件下 , 在多年的部署中保持韌性 。
結論【芯片如何在極端環境中“活下來”?】隨著芯片進一步深入惡劣且不可預測的環境 , 業界正在重新思考可靠性的真正含義 。 傳統的認證方法和 ATE 策略仍然至關重要 , 但僅靠它們已遠遠不夠 。 可靠性的未來在于一種分層方法——結合壓力測試、系統級分析、人工智能驅動的遙測以及從晶圓到現場部署的動態反饋回路 。 從晶圓階段通過宏觀缺陷檢測識別潛在故障區域 , 到了解嵌入式監視器如何實時檢測老化 , 生命周期的每個階段如今都對確保長期功能和安全性發揮著作用 。
與此同時 , 測試和計量工作流程必須更具適應性、集成度和預測性 。 系統級測試正在捕捉靜態老化測試遺漏的故障 , 遙測技術正在模糊測試與現場診斷之間的界限 , 而人工智能正在將可靠性從固定指標轉變為動態模型 。 這些轉變不僅僅關乎在惡劣環境下的生存 。 我們的目標是構建一個具有韌性的半導體生態系統 , 使其能夠隨著每臺設備的交付而進行預測、調整和改進 。
對于制造商來說 , 信息很明確——認證并不會隨著測試通過而結束 。 認證始于芯片在現實世界中啟動時 。

    推薦閱讀