久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

首頁  資訊  商機   下載  拆解   高校  招聘   雜志  會展  EETV  百科   問答  電路圖  工程師手冊   Datasheet  100例   活動中心  E周刊閱讀   樣片申請
EEPW首頁 >> 主題列表 >> 靜默數據損壞

靜默數據損壞 文章 最新資訊

多階段檢測如何防止 AI 處理器中的靜默數據損壞

  • 隨著晶體管幾何形狀的縮小和系統復雜性的擴展,一個令人不安的事實變得越來越難以忽視:靜默數據損壞(SDC)比大多數系統架構師想象的更常見、更嚴重。這些錯誤不會留下任何痕跡,因此很難識別。然而,一個模型可能會扭曲獨立節點之間的模型權重,從而悄悄地破壞可能持續數周、涉及超過 25,000 個 GPU、成本超過 1 億美元的訓練運行。即便在驗證和測試方面投入巨大,未被檢測到的故障仍在大規模 AI 部署中挑戰著芯片的可靠性。如果單個芯片在同步期間引入靜默錯誤,則損壞可能會在整個集群中傳播。IEEE 研究表明,軟錯誤
  • 關鍵字: 靜默數據損壞  兩階段檢測  AI處理器  

如何在AI系統中檢測和糾正靜默數據損壞?

  • 靜默數據損壞 (SDC),有時稱為位衰減或靜默數據錯誤 (SDE),是指標準錯誤檢查機制未檢測到的數據錯誤,可能導致重大數據丟失或計算錯誤。SDC 可能導致訓練不準確、預測錯誤和性能不可靠。檢測 SDC 需要專門的技術和工具。SDC 可以是瞬態的,也可以是隨機的。瞬態 SDC 可能是由中微子或 α 粒子等輻射事件引起的。中微子和 α 粒子很難預測,更難阻止。幸運的是,它們也很罕見,對數據中心和大多數 AI 系統中的 SDC 沒有顯著貢獻。SDC 更大、更嚴重的來源是由 IC 缺陷導致的
  • 關鍵字: AI  檢測  糾正  靜默數據損壞  
共2條 1/1 1

靜默數據損壞介紹

您好,目前還沒有人創建詞條靜默數據損壞!
歡迎您創建該詞條,闡述對靜默數據損壞的理解,并與今后在此搜索靜默數據損壞的朋友們分享。    創建詞條

熱門主題

樹莓派    linux   
關于我們 - 廣告服務 - 企業會員服務 - 網站地圖 - 聯系我們 - 征稿 - 友情鏈接 - 手機EEPW
Copyright ?2000-2015 ELECTRONIC ENGINEERING & PRODUCT WORLD. All rights reserved.
《電子產品世界》雜志社 版權所有 北京東曉國際技術信息咨詢有限公司
備案 京ICP備12027778號-2 北京市公安局備案:1101082052    京公網安備11010802012473