通過實時健康監測預防故障:一項proteanTecs創新
關鍵
可靠性、可用性和可維護性 (RAS) 在現代半導體中至關重要,特別是當器件縮小到 2nm 等納米級幾何形狀時。
靜默數據損壞 (SDC) 對人工智能系統構成重大威脅,由于無法追蹤的硬件故障而導致不正確的輸出和錯誤的決策。
傳統的可靠性方法,如內置自檢 (BIST),不足以預防故障,通常只有在故障發生后才會做出響應。
proteanTecs 的實時運行狀況監控 (RTHM?) 提供對性能限制路徑的連續、高覆蓋率監控,從而在故障升級之前進行主動干預。

在復雜的半導體世界中,可靠性、可用性和可維護性 (RAS) 變得至關重要,尤其是當設備縮小到 2nm 等納米級幾何形狀時。在最近的 2025 年臺積電 OIP 論壇上,proteanTecs 解決方案工程副總裁 Noam Brousard 發表了題為“通過實時健康監控 (RTHM?) 預防故障”的演講,強調了現代電子產品如何面臨前所未有的挑戰。從較小的架構和高性能工作負載到激烈的競爭和成本壓力,這些因素都會導致功能故障、靜默數據損壞和系統范圍的錯誤。由于硬件必須承受更長的生命周期(通常為 4-6 年)而不進行更新,因此故障風險會升級,特別是在設備在較低電壓和不可預測的需求下運行的大規模人工智能系統中。
靜默數據損壞 (SDC) 是一種陰險的威脅。與可檢測的錯誤不同,SDC 源于逃避異常機制和系統日志的不可追蹤的硬件故障。它傳播時未被發現,導致級聯問題,需要進行廣泛的根本原因分析。在人工智能驅動的環境中,SDC 可能會在模型中產生不正確的輸出、錯誤的決策和參數損壞,從而對關鍵應用程序產生災難性影響。Brousard 引用了現實世界的例子來強調 SDC 的崛起。Meta 報告了有缺陷的 CPU 中錯誤計算的數學運算,導致數據庫丟失,其中文件解壓縮錯誤產生零而不是 156。阿里云因間歇性處理器故障,在存儲應用中遇到校驗和不匹配。谷歌指出,低級庫中的罕見指令暴露了制造缺陷,而其他案例則涉及不正確的哈希和緩存一致性問題。谷歌、Meta、Facebook 和阿里巴巴的研究表明,大型機隊中大約千分之一的機器患有 SDC,這凸顯了它在生產 CPU 人群中的普遍性。
傳統方法不足。內置自檢 (BIST) 集成復雜且昂貴,僅在啟動時運行,響應緩慢且無法精確定位位置。硬件和軟件檢查通常在故障后做出反應,缺乏主動干預所需的粒度。
proteanTecs 的 RTHM 是其綜合生命周期解決方案的一部分,涵蓋功耗/性能優化、可靠性監控、功能安全、芯片和系統生產以及先進封裝。RTHM 通過提供內部電子設備可見性,將范式從錯誤控制轉變為故障避免。它采用片上代理,在測試和任務模式下對實際性能限制路徑進行高覆蓋、連續監控。這些代理在真實路徑中對高速時鐘進行采樣,遵守功率性能面積 (PPA) 約束,并且對工作負載壓力、潛在缺陷、工作條件、直流紅外壓降、局部 Vdroops、熱點和老化敏感。
一個關鍵功能是性能指數,這是一種基于事件的算法,可聚合跨閾值、受影響區域、時鐘/功率域和先前事件的時序裕度測量值。PI 按邏輯單元進行分析,提供反映問題嚴重性(即設備接近故障的程度)的綜合分數。它以百分比(例如 79%)可視化,使操作員能夠在問題升級之前采取行動。
如果沒有 RTHM,故障就會在升級后顯現出來,使根本原因復雜化并導致代價高昂的停機時間。有了它,可以先發制人地識別和緩解潛在問題,從而產生更快、準確、經濟高效的預測。這種主動的立場可以避免功能故障,防止 SDC 并消除系統范圍的錯誤。RTHM 在電路級別提供準確的故障檢測、對內在/外在故障的可靠性監控以及無與倫比的彈性以阻止錯誤傳播。
底線:隨著半導體不斷突破界限,RTHM 代表了一種變革性工具。通過將智能直接嵌入到芯片中,它使工程師能夠預測和避免故障,從而在規模化和復雜性時代保護運營。欲了解更多信息,(需要 URL)




評論