【領域報告】主動學習年度進展|VALSE2018

發布人：深度學習大講堂時間：2020-11-27 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

編者按：白居易在《憶江南》中曾寫道，

“山寺月中尋桂子，郡亭枕上看潮頭。”

詩人結合“月中桂樹”的傳說，從江南眾多景色中，選擇了靈隱寺的皎月和錢塘江的潮頭，這兩處具有代表性的場景來追憶江南。而這兩處樣本的選擇，也體現了詩人對江南風光的充分理解。

其實，在機器學習任務中，由于數據標注代價高昂，我們也面臨著如何以最少量的樣本，來獲得最有效學習模型的問題。如果能夠從任務出發，通過對任務的理解來制定標準，挑選最重要的樣本，使其最有助于模型的學習過程，將大大減少監督學習的成本。

因此，學術界衍生出了主動學習這一研究方向。本文中，來自南京航空航天大學的黃圣君副教授，將為大家介紹主動學習領域的年度進展。

文末，大講堂提供文中所提到參考文獻的下載鏈接。

本次報告的題目是《recent progress on active learning 》，我們知道對于監督學習任務，要訓練好模型，一般有標記的訓練數據越多越好，但很多任務里面有標記的數據非常稀少，而且標注過程往往需要專業的知識，耗時耗力，導致代價昂貴。所以我們希望用更少的標注數據，訓練出更好的模型。

主動學習就是解決這個問題的重要手段。雖然有標記數據很少，但可以廉價獲得非常多未標注的數據。在主動學習里有一個標注專家，我們可以迭代地從未標注數據里面挑選出一部分重要數據去標注，從而獲得更多有標記數據。所以主動學習的目標是希望用最小標注代價獲得最好的學習模型。

主動學習里面最核心的問題就是需要制定標準，使得挑選出來的樣本確實是對模型最有幫助的。

這個問題在過去幾十年間，一直是主動學習這個方向研究最關注的一點。以往的方法大概可分為這兩類：一類方法，傾向于選擇最有信息的樣本，例如，我去教你最不會的東西應該是對你最有幫助。另外一類方法，是傾向選擇最有代表性的樣本，希望選擇的樣本涵蓋數據整體分布的信息。

最近還有很多工作依然在關注選擇標準的制定上，但是我個人感覺這一年來在主動學習方面的進展，開始傾向于考慮更實際的應用場景，而且更系統的考慮整個學習過程中各個環節。這主要體現在三個方面:

第一個是更多的關注oracle不可靠的情況，比如Oracle提供的是含噪聲、弱監督的信息。

第二個是更多的關注代價敏感性，考慮每次查詢中標注代價的差異，而不僅僅追求減少查詢次數。

第三個方面是更多的關注模型依賴的主動學習方法。比如深度學習等一些更復雜的模型可能會對主動學習產生新的要求。

我分別會從三個方面介紹代表性工作。首先是弱監督方面，這是今年的一個工作，作者考慮的不是一個oracle而是一批oracle，但是每個oracle提供的信息可能都是含噪聲的。這個方法希望準確評估每個oracle提供的標注質量，并且希望能夠得到對噪聲魯棒的分類器。實驗證明這個效果還是不錯的，對不同程度的噪聲都是魯棒的。

這個工作是考慮到另外一種情況，他有兩個oracle，一個oracle是去提供樣本標記，另一個oracle是針對兩個樣本，告訴你這兩個樣本里哪個更可能是正樣本。他提供這樣一種比較的信息，所以也是一種弱監督的信息。這個工作的主要貢獻是在不同噪聲條件下提供關于查詢復雜度的理論保證。

這個工作是從另外一個角度考慮的，用一個模型去預測一個樣本，如果置信度很低，那就向oracle去查詢這個樣本的標記信息，如果置信度很高，就直接把當前模型的預測作為標記來用。所以他是結合模型自身的預測信息和oracle的信息來幫助提高學習效果。結果表明，這個方法效果明顯，只要查詢40%的樣本就可以達到傳統方法用所有數據達到的效果。

這個工作考慮的是極端情況，某些任務里面連oracle都沒有，比如涉及到敏感信息或者安全信息，或者任務要求領域知識非常強，這時候沒有Oracle能夠提供更多標注。所以我們希望從相關任務里去查詢新的樣本，把這個樣本遷移過來學習，從而幫助目標任務的學習。這個工作的挑戰在于，如果把主動學習和遷移學習兩個任務獨立考慮，有可能挑出來的樣本對source domain有幫助，但遷移過來之后對target domain并沒有幫助，這就是挑戰所在，這工作是基于2016年IJCAI的一個類似工作擴展來的，只是把source domain由一個擴展到多個的情況。

第二方面，考慮代價敏感性的主動學習也有不少工作。首先考慮的是標注者（Oracle）本身是代價敏感的，例如有很多標注者，但是每個標注者要價是不一樣的。像有一個成年專家和小孩，一般來說成年專家要價更高一些。但如果考慮標注這樣一個圖片，如果要看圖片里面動畫人物是誰，小孩可能標注更準一些。所以在這樣場景下可以獲得性價比更高的標注，可以用更低的價格獲得更準確的標注。這個工作就是在挑選樣本的同時去挑選最適合標注該樣本的標注者。

另外一個是標記本身也是有代價敏感的。比如在多標記任務里，多個標記可能形成這樣層次化的結構，越底層的標記描述信息越具體。但是oracle在標注的時候需要花費更多的時間，所以需要有一種方法平衡信息量和標注代價之間的矛盾。這個工作采取的是多目標優化方法來平衡，而且取得很好效果。

此外，學習任務本身也是代價敏感的，這個敏感體現在把某一類樣本錯分到另外一類上，所付出的代價可能是不一樣的。所以這個工作考慮的是這種情況，它每次查詢不再是某一個樣本的標記，而是去查詢這個樣本如果被分成某一個類別所付出的代價會是多少。這個工作除了在實驗上取得好的效果之外，在理論上也證明如果噪聲條件不是很強的情況下，可以顯著降低標記復雜度。

最后一方面，隨著學習模型變得越來越復雜，會不會對主動學習提出新的要求？這個工作是我們最近提出來的工作，它所考慮的是，雖然深度神經網絡在很多方面都取得了成功，但是當去解決新的任務的時候，需要豐富的經驗去設計網絡結構，調參數，需要很多的訓練數據去訓練它。我們希望用一些已經預訓練好的模型，在這個模型上用很少的訓練數據，把它從預訓練的任務上遷移過來，在新的任務上也取得很好的效果。以往的主動學習往往關注的是挑出來的樣本是對于提升分類效果最有幫助的，但是深度學習大家都知道它的非常強大能力在于學習出好的特征表示。所以我們定義了一個新的指標distinctiveness，這個指標衡量的是一個樣本，在提升深度神經網絡特征學習能力方面的作用大小，這是跟以往主動學習所不一樣的。從實驗結果中可以看到，通過基于distinctiveness的主動選擇，在很多模型上用很少數據就可以將預訓練好的深度神經網絡模型遷移到一個新的任務上并得到很好的效果。

最后一個工作是基于生成模型。原來的主動學習方法都是從未標記數據中挑出來部分樣本去標注，這里不再是從一堆數據里去挑選，而是生成一批這樣的樣本。首先，在decision boundary上面產生很多等分點，每個點對應一個樣本，這就是生成的一系列樣本。然后讓oracle去標注的不是每個樣本屬于哪個類別，而是這些樣本里面，例如，這是鞋子這是包，oracle會標注這些樣本里區分這兩個類別的臨界點在哪里。所以這種方法跟以往所有的主動學習方法思路完全不一樣，他讓oracle標注的是直接提供一個分類器應該所處的位置，所以具有更強的信息，因此也取得不錯的效果。