- 隨著晶體管幾何形狀的縮小和系統復雜性的擴展,一個令人不安的事實變得越來越難以忽視:靜默數據損壞(SDC)比大多數系統架構師想象的更常見、更嚴重。這些錯誤不會留下任何痕跡,因此很難識別。然而,一個模型可能會扭曲獨立節點之間的模型權重,從而悄悄地破壞可能持續數周、涉及超過 25,000 個 GPU、成本超過 1 億美元的訓練運行。即便在驗證和測試方面投入巨大,未被檢測到的故障仍在大規模 AI 部署中挑戰著芯片的可靠性。如果單個芯片在同步期間引入靜默錯誤,則損壞可能會在整個集群中傳播。IEEE 研究表明,軟錯誤
- 關鍵字:
靜默數據損壞 兩階段檢測 AI處理器
- 靜默數據損壞 (SDC),有時稱為位衰減或靜默數據錯誤 (SDE),是指標準錯誤檢查機制未檢測到的數據錯誤,可能導致重大數據丟失或計算錯誤。SDC 可能導致訓練不準確、預測錯誤和性能不可靠。檢測 SDC 需要專門的技術和工具。SDC 可以是瞬態的,也可以是隨機的。瞬態 SDC 可能是由中微子或 α 粒子等輻射事件引起的。中微子和 α 粒子很難預測,更難阻止。幸運的是,它們也很罕見,對數據中心和大多數 AI 系統中的 SDC 沒有顯著貢獻。SDC 更大、更嚴重的來源是由 IC 缺陷導致的
- 關鍵字:
AI 檢測 糾正 靜默數據損壞
靜默數據損壞介紹
您好,目前還沒有人創建詞條靜默數據損壞!
歡迎您創建該詞條,闡述對靜默數據損壞的理解,并與今后在此搜索靜默數據損壞的朋友們分享。
創建詞條
關于我們 -
廣告服務 -
企業會員服務 -
網站地圖 -
聯系我們 -
征稿 -
友情鏈接 -
手機EEPW
Copyright ?2000-2015 ELECTRONIC ENGINEERING & PRODUCT WORLD. All rights reserved.
《電子產品世界》雜志社 版權所有 北京東曉國際技術信息咨詢有限公司

京ICP備12027778號-2 北京市公安局備案:1101082052 京公網安備11010802012473