CVPR2022 | PanopticDepth：深度感知全景分割的統一框架

發布人：計算機視覺工坊時間：2022-06-22 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

作者丨簡單

來源丨 CV技術指南

前言本文提出了一種基于深度感知的全景分割（DPS）的統一框架，旨在從一幅圖像中重建具有實例級語義的三維場景。該框架將動態卷積技術應用于全景分割（PS）和深度預測任務中，以生成特定于實例的內核來預測每個實例的深度和分割掩碼。此外，利用實例級深度估計方案，添加了額外的實例級深度線索，以通過新的深度損失來幫助監督深度學習。

論文：PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation

論文：http://arxiv.org/pdf/2206.00468

代碼：

https://github.com/NaiyuGao/PanopticDepth.

背景

深度感知全景分割（DPS）是場景理解中的一項新的挑戰性任務，它試圖從單個圖像構建具有實例級語義理解的三維場景。

DPS的一個簡單解決方案是在全景分割（PS）網絡中添加一個密集的深度回歸頭，為每個標記的像素生成一個深度值，該方法直觀但次優。

由于它使用兩個獨立的分支處理這兩個任務，因此它沒有探索它們之間的互利關系，尤其是沒有利用方便的實例級語義線索來提高深度準確性。

另外，作者觀察到，相鄰實例的像素通常具有不連續的深度。例如，一條線中的兩輛車可能有不同的深度。因此，使用相同的像素深度回歸器很難預測兩輛車的準確深度。

另一方面，作者考慮到這些像素來自不同的車輛，如果分別使用單獨的回歸器，則有利于深度估計。

按照上述思路，作者在本文中提出了一個可以以相同的實例方式預測掩碼和深度值的統一的PanopticDepth模型框架（如圖1）。

圖1 深度感知全景分割統一解決方案的示例

貢獻

1.提出了一種特定于實例的動態卷積核技術將深度估計和全景分割方法統一起來，從而提高了這兩種任務的性能。

2.為了簡化深度估計，受批量歸一化的啟發，提出將每個實例深度圖表示為三元組，即歸一化深度圖、深度范圍和深度偏移，將原始實例深度映射的值規范化為[0，1]，以提高了學習效率。

3.基于新的深度圖表示（如深度偏移）添加了實例級深度統計，以加強深度監控。為適應這種新的監督，提出了相應的深度損失，以改進深度預測。

方法

作者提出了一種統一的深度感知全景分割模型PanopticDepth，它以相同的實例方式預測掩模和深度值。除了主干網和特征金字塔網絡之外，它還包括三個子網絡，包括用于生成實例分類的核生成器、實例特定掩碼和深度卷積核、用于生成實例掩碼的全景分割模型以及用于估計實例深度的實例深度圖生成器。網絡架構如圖2所示。

圖2 PanopticDepth框架

1.內核生成器

通過核生成器子網絡生成實例分類、掩碼卷積核和深度估計核（圖2的上半部分）。內核生成器基于最先進的全景分割模型PanopticFCN，該模型采用了PS的動態卷積技術，與其他最新方法相比，所需的訓練時間和GPU內存更少。

作者采用的內核生成器分為內核生成器和內核融合兩個階段。在內核生成器階段，將FPN中第i階段的一個單階段特征作為輸入，生成器生成一個內核權重映射，以及分別為對象和對象生成的兩個位置映射，給定每個FPN階段的位置圖和核權重圖，在核融合階段，合并多個FPN階段的重復核權重，通過提出的自適應核融合（AKF）操作實現的。

2.全景分割

采用了一種特定于實例的核方法來執行全景分割，如圖2底部所示。thing和stuff實例的掩碼M是通過卷積共享的高分辨率掩碼嵌入映射得到的∈ ，掩碼核為，然后進行Sigmoid激活：