讓機器“解疑釋惑”:視覺世界中的結構化理解|VALSE2018之八(2)

關于深度學習,研究者得到最多的信息就是要設計很好的學習方法以及很好模型設計方式,使得模型變得越來越深。是不是把模型變得更深就是我們唯一的出路呢?另外一個問題是做視覺研究者對于問題的觀察以及理解是不是也會有幫助?為了回答這個問題,我們設計了GBD-Net。GBD-NET利用上下文信息,幫助我們識別所感興趣的物體是什么。

計算機視覺研究者很早就知道上下文信息對于識別物體有幫助。有了深度學習模型以后怎樣考慮上下文信息呢?我們考慮的是可以學習不同上下文信息的特征之間的關系。比如說,現(xiàn)在有一個特征對應的是兔子的耳朵,它是比較少的上下文的信息,可以推測到下面應該有兔子的頭。因此兔子耳朵這樣比較少上下文的特征和兔子頭這個比較多的上下文特征,反之亦然。由此可見,不同上下文信息的特征之間可以互相驗證。
而另外一方面如果看見一個兔子耳朵并不一定下面就有兔子的頭,如上圖中的反例。在這種情況下,如果我們看見下面不是兔子的頭,而是一個人的臉,我們希望的是讓這個兔子的耳朵不要傳遞信息給兔子的頭。因此信息是需要傳遞的,但是信息的傳遞是需要受到控制的。


基于已有的檢測網(wǎng)絡基礎上我們設計了GBD-Net。它利用已有網(wǎng)絡結構得到不同上下文特征。有了不同上下文信息特征以后,開始進行信息傳遞。

可以把信息從上往下傳,也就是讓上下文信息比較少的特征傳遞給上下文信息比較多的特征。也可以進行反向的傳遞,就是把上下文信息比較多的特征傳遞給上下文信息比較少的特征。我們將兩組通過不同方向傳遞的特征會進行結合,也引入一個函數(shù)來幫助我們控制信息的傳遞。

經(jīng)過信息傳遞以后,這些特征將會被得到修正,我們利用修正特征幫助我們做最終檢測的任務。


實驗發(fā)現(xiàn)在不同的數(shù)據(jù)庫和不同網(wǎng)絡結構中,使用我們這樣的特征之間傳遞信息的方法,效果都可以得到很好的改善。我們利用這個方法參加了2016年的競賽,在靜態(tài)物體檢測和動態(tài)視頻物體檢測跟蹤中我們都取得第一名。

對GBD-Net進行總結。第一點,特征仍然是重要的。第二點,視覺工作者基于專業(yè)知識對于問題的觀察和分析同樣重要。第三點,我們使用深度學習,把它當做一個工具來幫助將特征之間的關系進行建模。具體而言,我們設計的GBD-Net是在不同上下文特征之間進行信息傳遞。論文相關代碼可以掃描二維碼。


剛才所做的只是在物體檢測中,是不是這個特征之間的結構建模只是適用于物體檢測呢?其實不是這樣的,它在其他很多工作中也是有效的。比如說在人體姿態(tài)識別中,我們考慮每一個人體的關鍵點都是一個特征,在這些特征中可以進行信息傳遞。可以考慮每個關鍵點分別對應的一組特征,有了對應特征以后可以把對應特征認為是結點,有了結點以后可以考慮人體關鍵點樹型結構,在樹形結構上的各個結點之間進行信息傳遞。論文相關代碼在:
https://github.com/chuxiaoselena/StructuredFeature.


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。











