致敬ATSS | Dynamic ATSS再造ATSS輝煌！！！

發布人：計算機視覺工坊時間：2022-02-08 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

以下文章來源于集智書童，作者ChaucerG

作者丨ChaucerG

來源丨集智書童

微信圖片_20220208194202.png

標簽分配（Label assignment）在目標檢測模型中起著重要的作用。檢測模型使用不同的標簽分配策略可能會產生完全不同的性能。對于基于Anchor的檢測模型，Anchor與其對應的Ground Truth之間的IoU閾值是關鍵因素，因為正樣本和負樣本是由IoU閾值所劃分的。早期的目標檢測器只是對所有訓練樣本使用一個固定的閾值，而最近的檢測算法專注于基于IOU到Ground Truth分布的自適應生成閾值。

本文介紹了一種簡單而有效的標簽分配（基于訓練和測試狀態動態分配）的方法。通過在標簽分配中引入預測，選擇對Ground Truth目標的高IoU的高質量樣本作為正樣本，可以減少分類分數與IoU分數之間的差異，生成更多高質量的邊界框。本文方法通過自適應標簽分配算法提高了檢測模型的性能，并降低了這些正樣本的邊界框損失，這也表明更多具有更高質量預測框的樣本被選擇為正樣本。

code地址：https://github.com/ZTX-100/DLA-Combined-IoUs

1介紹

目標檢測是計算機視覺中的一個基本問題，它可以同時分類和定位圖像或視頻中的所有目標。隨著深度學習的快速發展，目標檢測取得了巨大的成功，并被應用于許多任務，如目標跟蹤、圖像分類、圖像分割和醫學圖像分析。

標簽分配是將樣本分為正樣本和負樣本，這對目標檢測模型的成功至關重要。對于基于Anchor的模型，標簽分配的核心是正樣本和負樣本劃分的閾值。在計算Anchor與GT之間的交集(IoU)后，正樣本為IoU大于閾值的Anchor，而其他樣本為負樣本或忽略的Anchor。早期的檢測模型利用固定的閾值來區分正負樣本。然而，具有固定閾值來劃分正負樣本的算法忽略了不同GT的形狀和大小的差異。

近年來，人們提出了幾種自適應標簽分配策略來自適應計算閾值。這些算法自適應地選擇基于IoU的正樣本和負樣本分布之間的Anchor和GT，以便GT有更多高質量的Anchor對應將有一個更高的IoU閾值，劣質Anchor對應會有一個較低的IoU閾值。

然而，自適應分配方法并不基于更準確地代表訓練狀態的預測來分配正負樣本。由于分類和定位的差異，分類得分并不能精確對應定位質量，而NMS(非最大抑制)假設分類分數代表定位質量，并進行過濾重復，只保留分類分數高的樣本。但是，如果分類分數不能準確地表示定位質量，則可能會刪除一些高質量的bbox，保留一些低質量的bbox。而固定Anchor不能保證預測bbox的質量。

因此，引入預測來指導標簽分配是一種有效的方法，因為Anchor可以產生高質量的預測作為正樣本。在早期訓練階段，預測存在不確定性，所以不能直接用預測的邊界框代替Anchor。在一些利用預測來加權正樣本的算法中，提出了增加GT中心的距離。而預測(分類分數或IoU分數)和距離是2個不同的“domains”，它們不能自然地組合起來。AutoAssign設計了一個中心加權模塊來解決這個問題，但由于假設靠近GT中心的樣本會有更多的權重，該模塊可能是次優。“All-to-Top-1”基于迭代而不是預測減少了包中Anchor的數量。因此，訓練可能不是最優的，因為袋子中Anchor的數量不受預測的控制，也可能不滿足訓練狀態。

于是作者提出了一種簡單有效的方法，直接將預測邊界框和GT之間的預測IoUs，以及Anchor和GT之間的Anchor IoUs結合起來。然后根據候選Anchor與GT之間的IoU的統計特性，可以得到自適應模型。

而本文的方法分別計算預測的IoU和Anchor IoU的分布，然后通過簡單相加得到組合參數。最后，通過組合分布參數計算組合閾值。由于每次迭代中的預測都涉及到標簽分配，因此 soft targets(預測邊界框和GT之間的預測IoU)比hard target更合適。QFL和VFL是常用的soft targets分類損失。這兩者都可以進一步提高所提方法的性能。此外，為了更好的準確性，作者用IoU分支替換Centerness分支。在COCO數據集上的實驗表明了本文的方法在沒有額外成本下的有效性。

2相關工作

2.1 目標檢測

目標檢測可分為兩階段方法和一階段方法：

兩階段檢測模型：首先利用區域金字塔網絡(RPN)選擇具有高置信度的Anchor，并對這些候選Anchor進行細化。然后將精細化后的Anchor送入第二階段進行分類并進一步的回歸。

單階段檢測模型：直接對Anchor進行分類和回歸，而沒有對一些候選Anchor進行選擇和細化。

與單階段檢測模型相比，兩級兩階段檢測通常具有更高的精度，但速度較低。隨著RetinaNet的出現，通過引入Focal loss來抑制容易樣本的丟失，降低了單階段檢測模型和兩階段檢測模型的準確性差異，使單階段方法既能達到高精度，又能達到低延遲。因此，目前的目標檢測模型主要采用單階段檢測方法。

隨著Anchor-Free模型的發展，一個良好的檢測模型不再需要預定義的Anchor。Anchor-Free模型要么從Anchor point（特征點）回歸邊界框，要么預測GT目標的一些特殊點，如目標的邊界框的角或極端點，最后從這些特殊點構建預測的邊界框。

最近，一些目標檢測模型通過使用Transformer的注意力模塊性能得到了一定的提升，Transformer最初是用于自然語言處理領域。DETR首先將Transformer引入到檢測模型的Head，它也是Anchor-Free的。盡管如此，由于Transformer中使用的全局注意力和用于目標檢測的大分辨率，DETR比CNN需要更長的時間才能收斂。因此，最近的算法試圖設計快速訓練收斂的DETR來加快訓練過程。

2.2 Label Assignment

標簽分配是檢測模型性能的核心因素，如何劃分正樣本和負樣本將決定網絡如何學習和收斂。早期的檢測模型，如快速的RCNN、SSD和RetinaNet，利用傳統的具有固定閾值的標簽分配方法來區分正樣本和負樣本。盡管那些具有固定閾值的檢測模型對標簽分配仍然有效，但它們忽略了不同目標樣本在其形狀、大小和相應的正Anchor數量上的差異。

近年來，研究人員專注于設計自適應閾值，并逐漸放棄了標簽分配的固定閾值。ATSS通過根據候選Anchor和GT目標之間的IoU分布，計算均值和標準差來計算自適應閾值。PAA將候選Anchor擬入高斯混合模型中，并對其進行概率分離。

使用預測來指導標簽分配可能更準確，因為預先定義的Anchor可能不能準確地反映實際的訓練狀態。然而，在早期訓練階段的預測是不準確和不合理的指導標簽分配。

FreeAnchor利用最大似然估計(MLE)對訓練過程進行建模，使每個GT可以至少有一個對應的Anchor、分類得分和定位得分。

MAL采用來自分類和定位的預測作為評估Anchor的聯合置信度。為了緩解次優Anchor選擇問題，MAL基于聯合置信度對選定錨點的特征進行擾動，提出了“All-to-Top-1” Anchor選擇策略。

Autoassign引入中心權重來處理早期訓練階段中不合理的預測，這表明靠近GT中心的樣本會有更多的權重。

3本文方法

3.1 致敬ATSS

ATSS策略經常把正負樣本通過計算統計參數(如平均值和標準偏差)選定候選Anchors。根據候選Anchor在GT中的位置選擇候選Anchor后，根據候選Anchor在相應的GT中的分布情況計算自適應閾值。

ATSS根據GT的形狀和大小自適應地計算閾值。如果GT較大或方形，則其對應的高質量Anchor較多，閾值會更高。如果GT細長或小，由于大多數可能是低質量Anchor，所以閾值會比較低。然而，大多數自適應方法只根據Anchor和GT之間的關系來計算自適應閾值。它們僅僅依賴于預定義的錨定框，而在訓練過程中忽略了預測的邊界框。

換句話說，對GT具有最高IoU的Anchor并不能保證其預測的邊界框在所有正樣本中也對GT具有最高的IoU。因此，一些具有高質量預測邊界框的樣本可以被定義為分類目標為0的負樣本。因此，這就影響了高質量的邊界框的性能。

使用預測信息可以提高定義正的和負的準確性，因為預測可以反映每個樣本的真實訓練狀態。然而，直接使用預測可能并不合適，因為在早期訓練階段的預測對于指導正樣本和負樣本的定義是不合理的。因此，本文提出了一種簡單有效的方法來解決這個問題。

3.2 Dynamic ATSS

本文提出了一種簡單有效的動態標簽分配策略，將預測引入到標簽分配的Anchor中。在早期訓練階段，由于隨機初始化，預測是不準確的。因此，Anchor就像之前指示標簽定義一樣。預測逐漸主導組合的IoU，并隨著訓練和預測的改進導致標簽分配。

微信圖片_20220208194207.png

本文方法將使用從回歸分支中解碼的預測框，并選擇ATSS作為標簽分配的自適應示例。然后通過計算預測框與GT之間的IoU，以及Anchor與GT之間的IoU，得到預測的IoU和Anchor IoU。最后，通過對預測的IoUs和Anchor的IoUs的求和，計算出組合的IoUs(CIoUs)。ATSS利用均值和標準差來計算閾值，因此實現了相同的計算來獲得組合均值和組合std。IoU閾值由組合均值和組合std之和計算，正候選樣本定義為組合IoU大于或等于IoU閾值的樣本。候選正樣本被限制在GT內，作為最終的正樣本。

該網絡結構如圖1所示。使用ATSS作為基礎網絡，它有一個CNN Backbone，一個FPN Neck，和一個共享的Head，它分別有2個分支分別用于分類和回歸。該方法提取回歸結果，將回歸偏移量解碼為邊界框的坐標，最后計算出解碼的邊界框與GTs之間的IoU。將預測的IoU與Anchor IoU結合，選擇出正樣本，如圖1所示。

為什么利用預測來指導標簽分配如此重要？

預測比預定義的Anchor更準確，因為選擇最終結果和實現NMS算法都是基于預測結果而不是基于Anchor框。經常設計檢測模型基于假設樣本的預定義Anchor有很高的IoU與GT適合被選為正樣本，或樣本的中心接近GT的中心的目標也可以被選擇為正樣本。

對于每個圖像，一旦選定了正樣本，在訓練過程中不會對正樣本進行修改，因為預先定義的Anchor是固定的，不會根據訓練狀態而改變。然而，具有高質量預測的樣本可能并不經常是具有高質量Anchor的樣本，盡管它們產生高質量預測的概率更高。

如果用高質量的Anchor迫使樣本在整個訓練過程中都是正樣本，網絡將專注于學習這些樣本，即使他們的預測不夠好，忽略了樣本可以產生更好的預測結果的樣本，因為有相對低質量的Anchor可能被分配為負樣本。

而如果在每次迭代中都引入預測，以幫助定義正負樣本，可以選擇更多具有高質量預測的樣本作為正樣本，并進一步改進這些樣本。添加預測的IoU和Anchor IoU可以產生更好的結果，并產生更高質量的預測。由于網絡的隨機初始化，Anchor IoU對于本文的方法也是必要的，它們可以作為先驗。在本文的方法中，預測和先驗都是對GT的IoU，因此它們可以通過添加自然地組合在一起，而不需要任何特殊的設計，如圖1所示。

3.3 Soft Targets for Classifification Loss

隨著focal loss的出現，大多數目標檢測模型都利用focal loss學習類標簽。focal loss解決了訓練過程中正樣本和負樣本之間的極端不平衡問題，抑制了大多數簡單的負樣本，由于這些簡單負樣本數量極多，可能會主導訓練損失。

由于引入了標簽分配的預測，使用Soft Targets(預測Iou到GT)更適合將高預測IoU排序在其他低預測IoU之上，這在GFL和VFNet中使用。GFL分別由QFL和DFL組成，分別進行分類和回歸。在模型中使用了QFL來進行分類。當Soft Targets不等于1時，QFL的交叉熵損失轉換為一般形式。此外，還根據Soft Targets對focal loss權值進行了修正。

當分類預測接近QFL中使用的軟目標時，VFNet沒有降低損失的權重，而是利用VFL將正損失與賦值的Soft Targets加權。通過改變正IoU目標的權重，具有較高IoU目標的正樣本的損失也會更高，從而使網絡能夠專注于學習那些高質量的正樣本。

在實驗中，通過實驗證明，本文提出的方法優于表一中使用QFL或VFL的相同模型。此外，將本文提出的方法與QFL或VFL相結合，可以進一步提高檢測模型的性能。

4實驗

4.1 消融實驗

1、驗證方法的有效性

微信圖片_20220208194209.png

從表1可以看出，ATSS與提出的CIoUs(組合IoUs)在分類損失方面超過了與Soft Targets(QFL和VFL)的相同模型。經過簡單的修改，可以在MS COCO val2017 數據集上將原始ATSS算法提高約0.7AP，這表明使用預測可以更好地指導正負樣本，Anchor也是指導標簽分配的必要條件。通過簡單地將它們組合在一起，該模型可以產生更好的精度提高。只是將CIoUs引入ATSS，標記的目標仍然是Hard Targets。在接下來的實驗中，將證明Soft Targets(QFL或VFL)可以進一步提高性能。

2、每個元素的貢獻

微信圖片_20220208194211.png

在表2中，AIoU表示預定義Anchor與GT之間的IoU。如果只選擇AIoUs，則執行原始的ATSS。PIoUs表示在預測的邊界框和GT之間的IoU。如果AIoU和PIoU同時被選中，提出的組合IoU通過將計算出的AIoU和PIoU相加來實現。可以注意到，只使用PIoUs標簽分配模型的性能從39.06AP下降到了29.39AP，而簡單地添加PIoUs定義正樣本和負樣本相對于AIoU可以提升大約0.7AP。

從表2可以看出，本文提出的方法(AIoUs+PIoUs)可以通過軟目標(QFL或VFL)進一步改進。原ATSS采用中心作為額外分支對正樣本進行權重，使靠近GT中心的樣本比遠離GT中心的樣本有更高的權重。在將中心度轉換為IoU(預測IoU而不是中心度)后，性能可以進一步提高。

微信圖片_20220208194213.png