久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 多階段檢測如何防止 AI 處理器中的靜默數據損壞

多階段檢測如何防止 AI 處理器中的靜默數據損壞

作者: 時間:2025-11-11 來源: 收藏

隨著晶體管幾何形狀的縮小和系統復雜性的擴展,一個令人不安的事實變得越來越難以忽視:(SDC)比大多數系統架構師想象的更常見、更嚴重。這些錯誤不會留下任何痕跡,因此很難識別。然而,一個模型可能會扭曲獨立節點之間的模型權重,從而悄悄地破壞可能持續數周、涉及超過 25,000 個 GPU、成本超過 1 億美元的訓練運行。

1762843898159509.jpg

即便在驗證和測試方面投入巨大,未被檢測到的故障仍在大規模 AI 部署中挑戰著芯片的可靠性。

如果單個芯片在同步期間引入靜默錯誤,則損壞可能會在整個集群中傳播。IEEE 研究表明,軟錯誤率急劇上升,從 65 nm 的每年一次故障增加到 16 nm 的每 1.5 小時一次,如下圖。

1762843865932246.jpg

Meta 和阿里巴巴分別報告,其 AI 和云基礎設施中每 3 小時就會出現硬件錯誤,以及每百萬件產品中存在 361 件缺陷(DPPM)。雖然 361 DPPM 甚至數千 DPPM 在小規模場景中可能不足為慮,但在包含數百萬臺設備的大規模集群中,SDC 事件的發生頻率足以威脅整個系統的可靠性。

隨著 AI 發展,的威脅日益加劇

對于不斷擴展的生成式 AI 和機器學習工作負載(包括模型訓練、推理和高性能 AI 應用)而言,SDC 正成為日益嚴峻的可靠性威脅。這些過程往往將處理器推向極限,從而增加了靜默損壞的概率。

與通常通過糾錯碼緩解的內存位翻轉不同,SDC 源于細微的計算級故障:時序違規、老化效應或逃避傳統半導體測試的邊際缺陷。這些錯誤會悄無聲息地扭曲計算,通常不會觸發警報,并且不會被發現,直到它們表現為不正確的輸出或潛在的有缺陷的決策。人工智能系統越大、越復雜,這些故障發生的可能性就越大,其影響也越具有破壞性。

傳統的冗余方法可以保護內存和通信路徑,但對執行級故障(現代 AI 環境中 SDC 的主要來源)幾乎無能為力。實際后果輕則是難以察覺的計算誤差,重則是影響業務的故障。行業報告已記錄多起案例:例如,因缺陷 CPU 中的數學運算錯誤導致數據庫文件丟失,以及存儲應用因缺陷 CPU 出現用戶數據校驗和不匹配等問題。

應對問題的嘗試

隨著工藝節點縮小和芯片架構升級,掃描自動測試圖形生成(ATPG)、內置自測試(BIST)和基本功能測試等傳統測試方法已跟不上需求。雖然它們足以檢測離散的制造缺陷,但往往無法發現導致 SDC 的細微半導體工藝偏差。

這造成了持續的盲點,強調了現場監測的必要性。據 Meta 稱,SDC 調試可能需要數月時間。對不留痕跡的故障進行故障排除需要獨創性,通常需要大量資源。更糟糕的是,盡管投入了大量資金,但許多 SDC 調查仍沒有結果,這實際上使不確定性長期存在。

在 2023 年亞洲測試會議(ITC-Asia)的一場會議中,Broadcom報告稱,其 50% 的 SDC 調查最終以 “未發現問題”(No Trouble Found)告終。這些挑戰凸顯了傳統測試方法的局限性,以及對更先進解決方案的迫切需求。

現場測試也存在漏洞。使用 “金絲雀電路”(canary circuits)的原位方法,往往無法監測到關鍵路徑的實際時序余量 —— 這些余量可能因老化和工藝偏差而減少。正如 “MRHIEP” 中所提及的,隨著芯片內差異的增大,這一問題變得至關重要。

定期維護測試的靈敏度可能不足,大多只能識別明顯故障,而忽略與單比特糾錯(SEC)相關的細微問題。此外,由于測試設備需從集群中移除,它無法模擬原位監測的真實工況,導致引發 SDC 的細微異常仍未被發現。

一些機構嘗試通過冗余計算方法克服這些局限,即在多個核心上重復執行任務,僅當所有結果一致時才判定正確。雖然這能防止 SDC 擴散,但硬件開銷大、成本高,且在超大規模場景下難以擴展。

解決問題的方法

隨著數據中心擴張和能源需求上升,投入大量工程時間追蹤數千臺服務器中難以檢測的故障已難以為繼??蓴U展的解決方案在于更先進的測試方法,即基于人工智能的兩階段深度數據檢測。

在芯片制造和現場運行階段實施多階段檢測,能幫助芯片制造商恢復產品可靠性,并讓集群運營商重獲對硬件的信心。通過深度數據可見性對多個階段進行監測,可大幅提高在易發生 SDC 的組件失效前發現問題的概率。

有效的測試不能局限于簡單的 “合格 / 不合格” 二元判斷。更高粒度的芯片測試(結合考慮工藝偏差和預測性能余量的參數分級),即使設備技術上通過了標準測試,也能標記出異常設備,從而防止 “帶傷運行” 的芯片進入生產集群。

要實現這種檢測精度,芯片診斷方法必須轉變:從邊界檢查轉向嵌入式基于 AI 的遙測技術,持續評估每臺設備的健康狀態。通過在芯片中嵌入智能,并將機器學習應用于豐富的遙測數據,可在制造階段和整個現場運行期間實現持續可見性。

AI 算法能檢測到傳統測試忽略的細微參數變化,并預測故障模式,在潛在漏洞導致靜默故障前很久就將其識別出來。這種基于豐富數據的主動式方法可及早發現漏洞,并為芯片分檔、部署和集群級可靠性管理提供更明智的決策依據,同時不會顯著增加成本或延遲。

隨著 AI 持續擴展,未檢測到的故障成本也將隨之上升。靜默數據損壞已不再是理論上的擔憂,而是對性能、可靠性和業務成果構成的實質性風險。傳統測試方法無法應對這一挑戰,而結合深度數據、全生命周期監測和 AI 驅動分析的新解決方案則提供了清晰的前進路徑。通過方法,行業終于能夠在 SDC 干擾我們最依賴的系統之前,主動防范這一問題。


評論


技術專區

關閉