- 隨著晶體管幾何形狀的縮小和系統復雜性的擴展,一個令人不安的事實變得越來越難以忽視:靜默數據損壞(SDC)比大多數系統架構師想象的更常見、更嚴重。這些錯誤不會留下任何痕跡,因此很難識別。然而,一個模型可能會扭曲獨立節(jié)點之間的模型權重,從而悄悄地破壞可能持續(xù)數周、涉及超過 25,000 個 GPU、成本超過 1 億美元的訓練運行。即便在驗證和測試方面投入巨大,未被檢測到的故障仍在大規(guī)模 AI 部署中挑戰(zhàn)著芯片的可靠性。如果單個芯片在同步期間引入靜默錯誤,則損壞可能會在整個集群中傳播。IEEE 研究表明,軟錯誤
- 關鍵字:
靜默數據損壞 兩階段檢測 AI處理器
兩階段檢測介紹
您好,目前還沒有人創(chuàng)建詞條兩階段檢測!
歡迎您創(chuàng)建該詞條,闡述對兩階段檢測的理解,并與今后在此搜索兩階段檢測的朋友們分享。
創(chuàng)建詞條
關于我們 -
廣告服務 -
企業(yè)會員服務 -
網站地圖 -
聯系我們 -
征稿 -
友情鏈接 -
手機EEPW
Copyright ?2000-2015 ELECTRONIC ENGINEERING & PRODUCT WORLD. All rights reserved.
《電子產品世界》雜志社 版權所有 北京東曉國際技術信息咨詢有限公司

京ICP備12027778號-2 北京市公安局備案:1101082052 京公網安備11010802012473