久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 用于視頻超分辨率的可變形三維卷積

用于視頻超分辨率的可變形三維卷積

發布人:計算機視覺工坊 時間:2020-12-21 來源:工程師 發布文章

1.png

作者單位:電子科技大學、國防科技大學

譯者:Wangsy

看點

問題:之前的方法的空間特征提取和時間運動補償往往是順序的,無法充分利用時空信息

方法:提出了一個利用可變形3D卷積(D3D)的可變形三維卷積網絡(D3Dnet)來整合視頻的時空信息

優點:D3D作為一個可以同時整合時間和空間的組件,具有優越的時空建模能力和靈活的運動感知建模能力,同時,D3Dnet還實現了當時的SOTA

2.png

方法

可變形3D卷積

可變形3D卷積把3D卷積和在二維空間的可變性卷積結合在了一起,普通的C3D通過以下兩個步驟實現:

1)對輸入特征x使用三維卷積核進行采樣

2)用函數w對采樣值進行加權求和

具體地說,通過一個膨脹率為1的3×3×3卷積核的特征可以表示為:

3.png

4.png

D3D是在C3D的基礎上改進而來的,它可學習偏移量從而擴大空間感受野。首先將尺寸為C×T×W×H的輸入特征輸入到C3D,以生成尺寸為2N×T×W×H的特征偏移,這些特征偏移的通道數被設置為2N。然后,利用學習到的特征偏移引導普通C3D采樣網格(即淺橙色立方體)的變形,生成D3D采樣網格(即深橙色立方體)。最后,利用D3D采樣網格生成輸出特征,公式如下:

5.png

6.png7.png

可變形三維卷積網絡

首先將具有7幀的視頻序列饋入到C3D層以生成特征,然后將這些特征饋入到5個殘差D3D(resD3D)塊以實現運動感知的深層時空特征提取。然后利用瓶頸層對提取的特征進行融合。最后,由6個級聯的殘差塊和一個亞像素卷積層來進行SR重建。使用均方誤差(MSE)作為網絡的訓練損失。

8.png

實驗

實施細節

使用Vimeo-90k數據集作為訓練集。采用BI的降質方式,然后,隨機裁剪成32×32大小的patch作為輸入。使用隨機翻轉和旋轉來增加訓練數據。此外,還額外使用基于運動的視頻完整性評價指標MOVIE和時間MOVIE(T-MOVIE)來評價時間一致性。

消融實驗

對于兩階段模型,使用n個殘差塊和可變形對齊模塊替換resD3D塊去依次執行空間特征提取和時間運動補償。對于單階段模型,將resD3D塊替換為resC3D塊,以便在不發生空間變形的情況下將這兩個步驟整合在一起,對比如下圖:

9.png

采用C3D比雙階段方法高0.1的PSNR。采用resD3D比C3D高0.4PSNR,但是要增加0.19M的參數量。

D3Dnet在不同輸入幀數(3、5、7)下的結果如下圖所示

10.png

可以觀察到,隨著輸入幀數的增加,性能有所提高。具體地說,當輸入幀數從3增加到7時,PSNR提高了0.3dB。這是因為更多的輸入幀引入了額外的時間信息,這對視頻SR是有利的。

量化評估

下圖的性能評估中,不計算前兩幀和后兩幀。此外,EDVR和DUF-VSR沒有包括在下圖的比較中,因為計算成本差距很大。

11.png

在時間一致性上表現良好。運算時間為VID4測試集20幀測試時間,相比其他沒有使用3D卷積的方法,仍存在計算時間長的問題。

12.png

*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

分頻器相關文章:分頻器原理


關鍵詞:

相關推薦

技術專區

關閉