NeurIPS 2020 | 微軟亞洲研究院論文摘錄之強化學(xué)習(xí)&GAN篇

發(fā)布人：MSRAsia 時間：2020-12-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：12月6日至12日，國際人工智能頂級會議 NeurIPS 2020 在線上舉辦。相比前幾年，NeurIPS2020 無論是論文的投稿數(shù)量還是接收率都創(chuàng)下了記錄：論文投稿數(shù)量創(chuàng)歷史最高記錄，相比去年增長了38%，接收率卻為史上最低。

上周我們與大家分享了，微軟亞洲研究院入選 NeurIPS 2020 的目標(biāo)檢測工作。今天，我們精選了微軟亞洲研究院入選 NeurIPS 2020 中有關(guān)強化學(xué)習(xí)和生成式對抗網(wǎng)絡(luò) GAN 領(lǐng)域的工作，為大家進行介紹。

RD$^2$: Reward Decomposition with Representation Disentanglement

基于表示分解的獎勵分解

論文鏈接：https://paperswithcode.com/paper/rd-2-reward-decomposition-with-representation

強化學(xué)習(xí)算法可以由更細粒度的獎勵函數(shù)大幅提升樣本效率，但自主學(xué)習(xí)該細粒度獎勵函數(shù)的方法目前還很不成熟。在此前的工作中，尚未有廣泛通用的學(xué)習(xí)細粒度獎勵函數(shù)的工作。Hybrid Reward Structure (HRA) 中，細粒度獎勵函數(shù)是手動給出的，并且驗證了細粒度獎勵函數(shù)對樣本效率的提升。而 Independently-Obtainable Reward Functions, DRDRL 則是將細粒度獎勵函數(shù)的學(xué)習(xí)與玩家的策略綁定，該做法的好處是便于定義，但與此同時缺乏了通用性且難以在下游任務(wù)中利用。

算法RD$^2$

受到最近關(guān)于非耦合表示（disentangled representation）工作的啟發(fā)，微軟亞洲研究院的研究員們提出了新算法 RD$^2$。該算法能夠以更通用的方式來定義并學(xué)習(xí)一個最優(yōu)細粒度獎勵函數(shù)，而非受限于手動給出或依賴于強化學(xué)習(xí)本身的策略。

該研究提出的最優(yōu)細粒度獎勵函數(shù)的定義主要基于以下幾點：

1、原獎勵函數(shù)可線性分解為多個具有“獨特性”的子獎勵函數(shù)；

2、該線性分解不能是簡單的；

3、該線性分解需要是最簡的。

為了便于大家理解，這里用以一個簡單的游戲作為例子（如下圖所示）。該游戲的規(guī)則為玩家碰到金塊獲得1分，碰到怪物獲得-1分。

理想的最優(yōu)細粒度獎勵函數(shù)是將金塊相關(guān)的分數(shù)與怪物相關(guān)的分數(shù)分到兩個不同的子獎勵函數(shù)上。以下展示了三種獎勵分解，以及與每個子獎勵相關(guān)的子狀態(tài)：在情況1中，兩個子獎勵函數(shù)都包含了金塊部分的獎勵，因此第二個子獎勵不獨特；情況2是一種簡單的分解，即令其中一個子獎勵函數(shù)等于原獎勵函數(shù)；情況3則是滿足上述最優(yōu)細粒度獎勵函數(shù)的一種情況。

情況1:

情況2:

情況3:

將該認識以嚴謹?shù)臄?shù)學(xué)語言表達出來，就形成了以下定義：

由于直接計算或估算信息熵的代價往往較為巨大，所以研究員們給出了深度學(xué)習(xí)情況下無需計算信息熵的近似優(yōu)化目標(biāo)：

實驗結(jié)果

研究員們在簡單任務(wù)（前文提到的游戲）和復(fù)雜任務(wù)（Atari 游戲）上分別進行了實驗。在簡單任務(wù)上，輸入玩家、金塊、怪物的位置坐標(biāo)，輸出預(yù)測的兩個子獎勵，用研究提出的優(yōu)化目標(biāo)訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練結(jié)果如圖1所示，可以看到通過優(yōu)化，能夠?qū)W出來最優(yōu)的掩碼：網(wǎng)絡(luò)輸出的第一個分支包含了玩家和金塊的位置坐標(biāo)，網(wǎng)絡(luò)輸出的第二個分支包含了玩家和怪物的位置坐標(biāo)。同時，如表1所示，算法可以精確地將兩種子獎勵分開。

圖1：簡單任務(wù)上的訓(xùn)練曲線圖

表1：簡單任務(wù)上的獎勵分解

在復(fù)雜任務(wù) Atari 游戲上則在具有子獎勵的一些環(huán)境上進行實驗。為了帶來更強的表達力，研究員們引入了狀態(tài)依賴的掩碼（mask）網(wǎng)絡(luò)，并在實驗中，用 Rainbow 和 DRDRL 作為基線算法。首先，用 RD$^2$ 學(xué)習(xí)獎勵分解，圖2展示了分解的效果，可以看到，在復(fù)雜的圖像任務(wù)上，算法 RD$^2$ 同樣能夠比較精確地把不同的自獎勵區(qū)分開，這也證明了該算法的有效性。

圖2：分解效果展示

為了進一步理解算法 RD$^2$ 的優(yōu)勢，研究員們用顯著圖（saliency map）對網(wǎng)絡(luò)的不同分支做了可視化，嘗試觀察不同分支所關(guān)注的輸入。如圖3所示，不同的分支會關(guān)注輸入的不同部分，進而幫助該分支預(yù)測其對應(yīng)的子獎勵。這證明了該算法可以學(xué)出有意義的非耦合表示。

圖3：不同分支可視化

最后，研究員們嘗試用學(xué)習(xí)出來的子獎勵分解直接訓(xùn)練子 Q 網(wǎng)絡(luò) (sub-Q network)，用以下的 sub-Q TD error 作為額外的優(yōu)化目標(biāo)。

研究發(fā)現(xiàn)，用訓(xùn)練出來的子獎勵直接訓(xùn)練子 Q 網(wǎng)絡(luò)，會大大加速網(wǎng)絡(luò)的訓(xùn)練過程，相比于 Rainbow 和 DRDRL 來說，算法 RD$^2$ 帶來了樣本效率的巨大提升。

圖4：在一些 Atari 游戲上的訓(xùn)練曲線

Sampling-Decomposable Generative Adversarial Recommender

如何為推薦系統(tǒng)的訓(xùn)練快速生成并有效利用負樣本？

論文鏈接：https://arxiv.org/abs/2011.00956

代碼鏈接：https://github.com/BinbinJin/SD-GAR

IRGAN 是第一篇將生成式對抗網(wǎng)絡(luò)（GAN）框架應(yīng)用于信息檢索（包括推薦系統(tǒng)）的研究工作。在該工作中，IRGAN 訓(xùn)練了一個生成器和一個判別器，其中生成器用來自適應(yīng)地生成合適的負樣本以幫助判別器訓(xùn)練；而判別器則是用來判斷樣本是來自用戶真實的反饋還是生成器生成的樣本。通過兩者交替式對抗性地訓(xùn)練達到互相提升效果的目的。

通過對 IRGAN 的理論分析，可以發(fā)現(xiàn)其存在兩個局限性：

1、在 IRGAN 中，最后采用生成器用于推薦，然而生成器是用來生成負樣本的，判別器應(yīng)當(dāng)真正地用于推薦。在真實情況中，判別器用于推薦的效果并不好，可能的原因是通過訓(xùn)練得到的生成器與最優(yōu)形式的生成器存在一定的偏差，最終導(dǎo)致判別器無法訓(xùn)練的非常好。

2、由于生成器得到的分布是需要經(jīng)過 softmax 操作的，因此從生成器中進行采樣是非常費時的，尤其當(dāng)商品數(shù)量達到百萬、千萬級別時，采樣的效率非常低。

為此，為了克服 IRGAN 中存在的局限性，微軟亞洲研究院和中國科學(xué)技術(shù)大學(xué)的研究員們提出了采樣可分解的生成對抗推薦系統(tǒng) SD-GAR。

SD-GAR

圖5：SD-GAR 框架圖

從對 IRGAN 的理論分析可知，生成器的最優(yōu)形式為 P_(G_T^? ) (?│c)。為了避免每次對大量的商品使用softmax操作，所以引入另一個生成器 Q_G (?│c) 來估計 P_(G_T^? ) (?│c)。同時，為了補償兩者之間的偏差，微軟亞洲研究院的研究員們提出使用自歸一重要性采樣來估計目標(biāo)函數(shù)：

接下來，一個重要的目標(biāo)是如何設(shè)計得到一個高效的生成器 Q_G (?│c)。傳統(tǒng)生成器的做法是為每一個用戶和每一個商品分別設(shè)置一個隱向量，最后通過矩陣乘法和 softmax 得到用戶對每一個商品的喜好分布。這種方法十分低效。為此，該研究提出了采樣可分解的生成器，對于該生成器，使用 Vose-Alias 算法，可以在 O(1) 的時間復(fù)雜度內(nèi)采樣一個樣本。

根據(jù)對估計量 V_T (D,S) 的分析，當(dāng) Q_G (i│c)∝P_(G_T^? ) (i│c)|f_c (i)-μ_c| 時，估計量的方差達到最小?；诖搜芯繂T們提出了生成器的優(yōu)化目標(biāo)：

為了進行優(yōu)化，研究員們提出用交替優(yōu)化算法。假設(shè)用戶數(shù)為 N，商品數(shù)為 M，隱向量維度為 K，商品采樣數(shù)量為 |S_c|，用戶采樣數(shù)量為 |S_i|，SD-GAR 的時間復(fù)雜度為 O(NK|S_c|+MK|S_i|)。由于 K、|S_c|、|S_i|?N,M，因此訓(xùn)練生成器非常高效。

IRGAN 的時間復(fù)雜度是 O(NMK)，因此 SD-GAR 算法相比于 IRGAN 是更加高效的。

實驗結(jié)果

研究員們在 CiteULike、Gowalla、Amazon、MovieLens10M、Echonest 五個數(shù)據(jù)集上進行了驗證。從表2上可以看到，算法 SD-GAR 顯著優(yōu)于 SA、IRGAN、DNS、CML、WARP、AOBPR、BPR 等推薦算法。相比于最好的基準(zhǔn)算法 SA，其在NDCG@50 指標(biāo)上要平均高出10.5%。

在算法效率上，對比 SD-GAR 和 IRGAN 在判別器和生成器上的訓(xùn)練速度。如圖6左所示，在 Amazon（Echonest）數(shù)據(jù)集上，SD-GAR 的訓(xùn)練速度要明顯快于 IRGAN。在圖6右中可以看出隨著商品數(shù)量的增加，SD-GAR 的訓(xùn)練時間增長率（實線）要明顯低于 IRGAN 的訓(xùn)練時間增長率（虛線）。

表2：和基準(zhǔn)算法的對比

圖6：時間開銷對比

Learning Semantic-aware Normalization for Generative Adversarial Networks

走向更加真實、可控的圖像生成：語義感知生成模型

代碼鏈接：https://github.com/researchmm/SariGAN

圖像生成任務(wù)旨在學(xué)習(xí)從隱空間到圖像空間的映射，而圖像空間是由語義組成的。將隱空間根據(jù)這些語義進行解耦可以大大簡化生成任務(wù)：從學(xué)習(xí)隱空間對語義組合的映射簡化為學(xué)習(xí)隱空間對每個語義的映射。

基于語義對隱空間解耦，需要兩步：1）找到生成網(wǎng)絡(luò)中與語義相關(guān)的表達并將不同語義分開；2）挖掘并利用以上語義表達和隱空間的關(guān)系。

對于第一步，通過訓(xùn)練生成式對抗網(wǎng)絡(luò)（GAN）可以得到粗略的語義表達。于是微軟亞洲研究院的研究員們設(shè)計了一個基于相似度的語義分組模塊，這個模塊的基本想法是：如果兩個卷積通道的語義相似，那么它們的分組信息也應(yīng)該相似。使用 MSE 損失對此進行約束，通過優(yōu)化可以得到每層卷積中各個通道的分組信息。

對于第二步，AdaIN 操作提供了解決思路。AdaIN 操作逐通道得對卷積通道和隱空間進行融合，由此，卷積通道的語義就可以傳遞到隱空間。研究員們提出讓學(xué)到的語義分組信息在此融合過程中發(fā)揮作用。具體來說，就是用 Group AdaIN 融合每一個語義的隱空間信息和對應(yīng)語義的卷積通道: