用于視頻超分辨率的可變形三維卷積

作者單位:電子科技大學、國防科技大學
譯者:Wangsy
看點
問題:之前的方法的空間特征提取和時間運動補償往往是順序的,無法充分利用時空信息
方法:提出了一個利用可變形3D卷積(D3D)的可變形三維卷積網絡(D3Dnet)來整合視頻的時空信息
優點:D3D作為一個可以同時整合時間和空間的組件,具有優越的時空建模能力和靈活的運動感知建模能力,同時,D3Dnet還實現了當時的SOTA

方法
可變形3D卷積
可變形3D卷積把3D卷積和在二維空間的可變性卷積結合在了一起,普通的C3D通過以下兩個步驟實現:
1)對輸入特征x使用三維卷積核進行采樣
2)用函數w對采樣值進行加權求和
具體地說,通過一個膨脹率為1的3×3×3卷積核的特征可以表示為:


D3D是在C3D的基礎上改進而來的,它可學習偏移量從而擴大空間感受野。首先將尺寸為C×T×W×H的輸入特征輸入到C3D,以生成尺寸為2N×T×W×H的特征偏移,這些特征偏移的通道數被設置為2N。然后,利用學習到的特征偏移引導普通C3D采樣網格(即淺橙色立方體)的變形,生成D3D采樣網格(即深橙色立方體)。最后,利用D3D采樣網格生成輸出特征,公式如下:



可變形三維卷積網絡
首先將具有7幀的視頻序列饋入到C3D層以生成特征,然后將這些特征饋入到5個殘差D3D(resD3D)塊以實現運動感知的深層時空特征提取。然后利用瓶頸層對提取的特征進行融合。最后,由6個級聯的殘差塊和一個亞像素卷積層來進行SR重建。使用均方誤差(MSE)作為網絡的訓練損失。

實驗
實施細節
使用Vimeo-90k數據集作為訓練集。采用BI的降質方式,然后,隨機裁剪成32×32大小的patch作為輸入。使用隨機翻轉和旋轉來增加訓練數據。此外,還額外使用基于運動的視頻完整性評價指標MOVIE和時間MOVIE(T-MOVIE)來評價時間一致性。
消融實驗
對于兩階段模型,使用n個殘差塊和可變形對齊模塊替換resD3D塊去依次執行空間特征提取和時間運動補償。對于單階段模型,將resD3D塊替換為resC3D塊,以便在不發生空間變形的情況下將這兩個步驟整合在一起,對比如下圖:

采用C3D比雙階段方法高0.1的PSNR。采用resD3D比C3D高0.4PSNR,但是要增加0.19M的參數量。
D3Dnet在不同輸入幀數(3、5、7)下的結果如下圖所示

可以觀察到,隨著輸入幀數的增加,性能有所提高。具體地說,當輸入幀數從3增加到7時,PSNR提高了0.3dB。這是因為更多的輸入幀引入了額外的時間信息,這對視頻SR是有利的。
量化評估
下圖的性能評估中,不計算前兩幀和后兩幀。此外,EDVR和DUF-VSR沒有包括在下圖的比較中,因為計算成本差距很大。

在時間一致性上表現良好。運算時間為VID4測試集20幀測試時間,相比其他沒有使用3D卷積的方法,仍存在計算時間長的問題。

*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
分頻器相關文章:分頻器原理










