讓機器“解疑釋惑”：視覺世界中的結構化理解|VALSE2018之八（1）

發布人：深度學習大講堂時間：2020-12-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

編者按：據傳宋徽宗趙佶曾以“深山藏古寺”為題命人作畫，奪魁的畫作，畫崇山峻嶺之中，一股清泉飛流直下，跳珠濺玉，泉邊有位老態龍鐘的和尚，正舀著泉水倒進桶里。

這幅畫的妙處在于，從“打水的老和尚”這一已知語義信息提取出“古寺”這一隱含信息，從而使得該畫切題應景。而在計算機視覺領域，這一典故正展示了結構化分析中的隱含信息傳遞，對于畫面內容理解的重要性。

近年來，深度學習取得了斐然的成績，然而自其提出之日起，“黑盒智能”、“可解釋性差”等質疑之聲即不絕于耳，“黑盒智能”，意味著無法對結果作出保證，并極易陷入“自信的錯誤”這一致命問題。因此，世界上頂級實驗室都在思考“why"這一問題，并嘗試增強算法的可解釋性，以打開深度學習這一黑盒子。

今天，來自悉尼大學的歐陽萬里教授，將從物體之間的相關性出發，利用結構化建模，嘗試在圖像理解領域，窺一窺深度學習這一黑盒子。

文末，大講堂特別提供文中提到參考文獻的下載鏈接。

本次報告中，我介紹一下我在香港中文大學以及在悉尼大學和很多老師、學生一起合作的工作。

首先我們來了解一下檢測和人體姿態識別相關的工作。給定一張圖像，確定感興趣的物體在圖片中的位置，比如說這位女士的牙刷，這就是物體檢測工作。目標檢測進一步往上分析，就是關系檢測。得到關系之后，可以進一步做更多語義的理解，比如用句子來描述圖片中某個區域它的語義，如說這位媽媽和可愛的小孩在刷牙。物體檢測后可以逐步把語義信息往上走，也可以對感興趣物體進行深入分析，比如說可以對人體關鍵點進行定位，也就是人體姿態識別。有了這些物體檢測、姿態檢測以后可以分析行人，分析人的動作。

關鍵點定位識別任務具有許多難點，例如說人可能穿不同顏色衣服，會被遮擋，人身體變動靈活，會由于形變產生劇烈視覺信息變化。

為了處理好視覺信息，我們引入結構化學習，學習輸出結構化的信息在我們打開深度學習黑盒子的過程中是很重要的一環。我們期望利用對問題的理解，幫助我們在深度學習能達到的結果之上得到更多的改善。

對于結構化輸出的建模，我們有一些工作。比如在人體姿態識別任務中，對人體關鍵點之間的空間結構關系可以進行建模。對于人與人之間的交互，可能會有很多交互因素，比如說有交互動作，具體到擁抱、手拉手。其它交互因素，比如說人與人之間的距離，傾斜度、朝向等這些因素，他們之間也會有位置關系，所以可以將它們進行結構化建模。基于單目攝像頭得到深度信息預測任務，可以利用卷積網絡幫我們在不同分辨率特征中得到不同對于深度信息的預測，它們之間也有很多相關性，可以對它們進行結構化建模。最新工作考慮不同的模態，在跨攝像頭尋人信息中對比兩個圖片是不是同一個人，對于人分割多值信息可以有結構化信息幫助我們進行建模。

在進一步打開深度學習黑盒子的情況下，我們可以引入標簽或者輸出所不具備的因素，把對于因素中特性的建模和深度特征的學習繼續聯合學習。具體例子就是物體檢測，我們會遇到遮擋以及人的形變產生的變化，這些因素都是隱含的，標簽中只有一個矩形框，沒有這些信息。如果能夠設計需要非常少參數的方法能夠把隱含因素推理到，其實就能夠幫助到模型學到更好的特征，并實現更好的結果。

例如說有一幅圖像，我們可以利用深度學習模型或者已有手工設計的特征對它進行處理。這個任務中，一個隱含的因素是形變，我們可以引入處理形變和學習形變的模型，一個著名模型是deformable part model。另一個隱含因素是遮擋，比如說在這幅圖中這個人腿就被椅子擋住了。如果能夠對人體的遮擋進行推理，能夠把一些被遮擋的部分找出來，不要用被擋住的椅子學習人腿的視覺形狀。如果能夠得到這樣的隱含因素可以進一步提高檢測效果。最后是進行分類。這些模塊之間的學習都是固定住前面一部分的參數，學習最后的參數，每個模塊之間缺乏通信。我們可以設計聯合深度學習模型，將這些模塊聯合起來，在每次參數學習中，都能夠進行非常好的通信，從而使各模塊通過互相溝通學習到更好的模型以提高準確率。

這是我們設計基本模型，首先利用卷積網絡幫我們學習到特征，有了特征以后就可以利用形變層((deformation layer))學習身體各個部分的形變。

假設有一個檢測器可以檢測人的肩膀在圖片中的位置，其中一個檢測器的例子就是這樣一個肩膀，如果把這個肩膀檢測器在圖片中進行滑動的匹配將會得到這樣的響應圖譜。在沒有肩膀的地方會有我們不想要的高的響應，如果使用這些區域學習人的肩膀長什么樣，特征學不好，肩膀的檢測器也學不好。為了處理好這個問題，我們可以利用形變的特性。我們可以考慮到人的肩膀不會從對應的位置跑到人的右下角，所以我們設計形變的圖譜，自動學習人的形變特性。將這種概率化的描述轉化成圖譜，進行疊加就會得到修正以后的圖譜。如果利用修正以后的圖譜進行檢測，可以準確定位形變物體到底在哪里，相對于特征和檢測學習就會得到更好的結果。