久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 高校動態 > 讓模型學會“選擇性失憶”!AI攻防戰背后的西電智慧

讓模型學會“選擇性失憶”!AI攻防戰背后的西電智慧

作者: 時間:2026-01-07 來源:西安電子科技大學 收藏

兩個富人,出于好奇心,想比較到底誰更富有,但又不想讓對方知道自己“家底”,該用什么方法?

在科學界,它被稱為“姚氏百萬富翁問題”,由計算機科學專家姚期智提出,也使為實現數據“可用不可見”的安全多方計算研究,受到學界關注。

西安電子科技大學網絡安全與密碼學部馬卓教授團隊牽頭完成的放環境下智能模型數據安全關鍵理論與技術”在多方數據安全共享、異常數據逆向追溯與修復等方面實現突破,有效減輕企業數據共享的隱私泄露風險。

圖片


安全風險的“不確定性”

提起“開放環境下的智能模型”,不少人或許感到陌生,但對它在生活中的應用卻再熟悉不過,比較典型的有金融風控、智能無人機、自動駕駛系統、智能家居等。

圖片

馬卓說:“通俗講就是人工智能模型,但開放環境中,數據來源多樣、節點分布松散、系統邊界不固定,攻擊者容易乘虛而入?!痹趯嶋H應用中,數據交互、模型推理等環節,都可能被攻擊者竊取隱私、污染數據,導致出現隱私濫用、模型誤導等問題。

作為被攻擊目標,模型面臨的風險不只“某一個”,而可能分散在數據、建模、部署各流程,攻擊類型也更復雜多樣。比如,數據來源多樣,意味著攻擊方可以偽裝成一個普通的數據提供者,在模型構建訓練數據集的過程中,植入“問題”數據,攻擊形式則可能通過某個數據采集傳感器發起,也可能通過某一個機構(有時機構可信,但可能存在內部“作惡者”)發起。

 一場AI的攻防戰就這樣打響,在沒有硝煙的戰場中,馬卓及其團隊的工作,就是從全流程角度防御風險:發現它、解決它!

一般而言,防御有“事前”“事中”和“事后”三個階段在模型訓練前的數據集構建階段,要掃描定位異常數據;在模型訓練中,則引入能夠抵御此類“問題”數據的魯棒性學習方法,簡單來說,有點像人體的免疫力,可以構建起人體的“防火墻”,使模型更加“健壯”“皮實”“耐造”,關鍵時候不“掉鏈子”,從而使機器學習模型在面對異常數據、噪聲干擾、分布偏移等不利條件時,仍能保持穩定性和有效性的能力;在模型完成訓練后,則對模型進行掃描并消除“問題”數據對于模型的影響。

圖片

做這些,還是為了實現模型‘高可用’”,馬卓說,“‘不可用’的安全其實沒有用,安全也要追求低成本、高效率,提升模型性能”。

保證安全也要追求效率

前邊提及的“姚氏百萬富翁問題”中所假設的情景,在多個行業都存在。以金融風控為例,建模時常常要對A銀行和B銀行數據求交集,此過程可能存在隱私泄露風險,傳統加密方法復雜度過高,比如無法很好處理非交集的數據(刪除可能使隱私暴露),會產生較冗長的數據,導致模型訓練變慢,難以規模化應用。

馬卓帶領團隊提出的系列超輕量級安全計算方法,支持包括多方數據加密、線性/非線性函數安全計算等在內的多種數據安全計算操作。釋道:“簡化來說,就是想辦法去除冗余,讓有限數據參與訓練,同時提高非線性運算(如對數、指數、開方運算等)算子的速度,讓前期數據處理變得高效安全。”

在數據處理之外,馬卓團隊的項目研究,還瞄準模型部署后的異常數據快速定位,和模型的高效修復問題,前者是如何更快地確定異常數據,后者則像對異常數據“動手術”,實現精準清除,保證模型“健康”運行。

圖片

異常數據,通常分數據投毒和后門植入兩大類型。前者相對容易理解,后者則是一種形象說法,指的是攻擊者通過污染數據或修改架構等方法,在模型中注入的隱藏行為,就像一扇可以通往模型的“門”,平日里,它就像“臥底”“間諜”一樣,保持靜默,但一旦被“觸發”,就可能導致模型出現異常行為。

馬卓說,“以前的方法是窮舉,把所有數據‘摟’一遍,我們現在則是通過類似于近似計算的方法找到它們,執行效率可提升兩個數量級以上”。

發現數據異常,接下來就是把它們從模型中“請”出去。之所以要“請”,是因為異常數據很“狡猾”,不僅“隱身”技能強,而且嵌套在模型中,如果把模型比作大腦,異常數據就可能“藏”在腦神經細胞,處理這些數據,其復雜度不亞于有些神經外科手術。

所以,“收拾”這些異常數據,動作要“小心翼翼”,“精準”拿捏,剔除時不能“把小孩連同洗澡水一起潑掉”。畢竟,銷毀模型意味著推倒重來、前功盡棄,部署機構花費的很多心血,連帶財力物力等都付諸東流。

在尋找破題思路和方法時,馬卓表示,“要有泛化能力、普適性,不能用到這里很‘靈’,放到其他地方失效”。就這樣,經過團隊努力攻關,“基于梯度上升的模型遺忘策略”方案被提出來,它的特點,是能在不重新訓練模型的情況下,精準消除異常數據對于模型決策的干擾。

圖片

現實中,大模型呈現給人的“博聞強記”“深度學習”能力,可以說數據為其提供了“燃料”和動力。訓練模型的關鍵在于讓模型“記住”數據及其特征,模型后門產生的核心原因,在于它“記住”了后門數據,而且后門數據不僅包含問題數據特征,也包含一定的正常數據特征。

“我們反其道而行之,讓模型學會‘遺忘’,不能多也不能少,恰到好處地選擇性失憶,把異常數據從模型中‘撤銷’掉”,馬卓說。

 那么,何為“梯度上升”?了解它之前,不妨“隆重”請出它的“孿生兄弟”——“梯度下降”,一種當下包括神經網絡在內,大部分智能模型經常采用的模型訓練策略。

從數學角度看,梯度下降法,就是沿梯度下降的方向求解極小值。假設一個人正在山頂,擔心天氣突變或夜路危險,需要盡快下山,在保證安全的前提下,一個好的方法就是以當前位置為基準,盡量沿坡度最陡的地方往下走,為實現整體最優,每隔一段距離要重新校準定位坡度,繼續下山。本質上,梯度下降法體現著一種模型訓練的優化思維。

馬卓說:“梯度上升是受到梯度下降策略的啟發,是一種逆向思維,和模型訓練的過程恰恰相反?!?/span>

除了能為模型“排毒”外,這種方法還能像人們使用社交軟件“撤回”信息一樣,給模型部署機構或平臺,提供“撤回數據”的選擇,尤其在多方參與數據共享的模型中,這既保障了部分參與方的數據隱私權,也能在某個機構退出合作時,最大程度減少數據“撤出”對模型正常運行的影響。

圖片

聚焦前沿,瞄準“真問題”

回過頭看獲獎項目,馬卓認為“發現了一個比較有意思的領域”。在團隊研究成果發表前,國際上相關文章并不多,如今學術文章多起來了,對團隊成果的引用隨之增多,這讓他進一步意識到科研引領的重要性。

如今,馬卓帶領的團隊,由多名長期從事人工智能安全、密碼學與隱私計算方向的青年骨干教師組成,涵蓋算法理論、系統架構與工程實現等多層次研究力量,并吸引多名博士后和研究生共同參與。近年來,團隊產出了一系列具有自主知識產權的創新成果,廣泛應用于實際場景,產生了良好的社會影響和行業示范效應。

圖片

“像一個輔導員,我也做學生思想工作,比如通過新生研討課接觸到低年級本科生,感興趣的學生就會進入團隊”,馬卓笑著說,“還是去調動學生積極性,讓學生知道讀大學、研究生的意義和目的,學會正向地‘卷’自己”。

在馬卓看來,考試對學生只是基本要求,想要“出類拔萃”,就要“學別人不能學,做別人不能做,見過很多名校優秀學生,只要定好方向,學生一點也不差”。

因此,馬卓會根據個人特點,給團隊青年教師提建議,有些老師適合做科研,有些老師可能在教學上能出彩,而有的博士生對市場、產品很敏感,就很適合做產業創新。

馬卓說,“我們團隊也有年輕人到企業交流,獲獎項目取得的成果,得益于產學研合作中的啟發,要想好做什么樣的產品,推動技術與市場接壤?!?/strong>

圖片

在產學研用方面,馬卓團隊積累了較為系統的協同創新經驗,通過與企業溝通,更多來自企業的實際需求被“引進來”,科研方向更加聚焦和明確;同時,團隊的老師逐漸“走出去”,到企業與優秀工程師合作,推動成果落地應用。

當前的網絡信息“安全”,不僅需要涵蓋從算法、系統到數據的隱私安全全棧防護,還需應對開放環境下的未知威脅與高級對抗,體現出安全與智能深度融合的趨勢。

在新的時代趨勢下,馬卓認為,“要構建‘科研引導+工程實踐+交叉融合’的人才培養機制,聚焦重大需求、前沿方向,瞄準真問題,同時要打造多元平臺,通過項目驅動、企業合作、國際交流,培養兼具理論深度和實踐能力的復合型創新人才”。


關鍵詞: 西電

評論


技術專區

關閉