久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > ICLR 2022 | 微軟亞洲研究院深度學習領域最新研究成果一覽

ICLR 2022 | 微軟亞洲研究院深度學習領域最新研究成果一覽

發布人:MSRAsia 時間:2022-05-23 來源:工程師 發布文章
編者按:ICLR(International Conference on Learning Representations)是國際公認的深度學習領域頂級會議之一,眾多在人工智能、統計和數據科學領域以及計算機視覺、語音識別、文本理解等重要應用領域極其有影響力的論文都發表在該大會上。今年的 ICLR 大會于4月25日至29日在線上舉辦。本屆大會共接收論文1095篇,論文接收率32.3%。今天,我們精選了其中的六篇來為大家進行簡要介紹,其中研究主題的關鍵詞包括時間序列、策略優化、解耦表示學習、采樣方法、強化學習等。歡迎感興趣的讀者閱讀論文原文,一起了解深度學習領域的前沿進展!


周期性時間序列的深度展開學習
圖片

論文鏈接:https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/


周期性時間序列在電力、交通、環境、醫療等領域中普遍存在,但是準確地捕捉這些時序信號的演化規律卻很困難。一方面是因為觀測到的時序信號往往對隱式的周期規律有著各種各樣復雜的依賴關系,另一方面是由于這些隱式的周期規律通常也由不同頻率、幅度的周期模式復合而成。然而,現有的深度時間序列預測模型要么忽視了對周期性的建模,要么依賴一些簡單的假設(加性周期、乘性周期等),從而導致在相應預測任務中的表現不如人意。


在深入思考這些研究難點后,微軟亞洲研究院的研究員們為周期性時間序列的預測問題提出了一套新型的深度展開學習框架 DEPTS。該框架既可以刻畫多樣化的周期性成分,也能捕捉復雜的周期性依賴關系。


圖片

圖1:DEPTS 框架圖


如圖1所示,DEPTS 主要包含兩大模塊:周期模塊(The Periodicity Module)和展開模塊(The Expansion Module)。首先,周期模塊負責對整條時間序列的全局周期進行建模,接受全局時間作為輸入,推斷隱式的周期狀態作為輸出。為了有效刻畫多種不同模式的復合周期,這里使用了一組參數化的周期函數(如余弦級數)來構建周期模塊并使用相應變換(如離散余弦變換)來進行高效的參數初始化。


然后,基于一段觀測的時間序列信號及其相應的隱式周期狀態,展開模塊負責捕捉觀測信號與隱式周期之間復雜的依賴關系并做出預測。在這里,研究員們拓展了經典的深度殘差學習思想開發了一種深度展開學習架構。在這個架構中,研究員們會對輸入的時間序列及其隱式周期做逐層的依賴關系展開并得出相應預測分量。在每一層中,由參數化的周期神經網絡來決定本層聚焦的周期分量,并展開觀測信號的回看和預測分量。在進入下一層前,研究員們會減去本層中產生的周期分量和回看分量,從而鼓勵后續的神經網絡層聚焦于尚未展開的周期性依賴。按照這樣的模式堆疊 N 層就構成了(深度)展開模塊。


研究員們在生成數據和廣泛的真實數據上都進行了實驗驗證,明確地揭示了現有方法在周期性時間序列預測方面的短板,并有力地證實了 DEPTS 框架的優越性。值得注意的是,在一些周期模式很強的數據上,DEPTS 相對已有最佳方案的提升可達20%。


此外,由于對周期性進行了明確的建模并提供了預測值在全局周期和局部波動兩方面的分量展開,DEPTS 天生帶有一定可解釋性。


在基于模型的策略優化算法中,模型的梯度信息是重要的

圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/


基于模型的強化學習方法提供了一種通過與學到的環境進行交互從而獲得最優策略的高效機制。在這篇論文中,研究員們研究了其中模型學習與模型使用不匹配的問題。具體來說,為了獲得當前策略的更新方向,一個有效的方法就是利用模型的可微性去計算模型的導數。 然而,現在常用的方法都只是簡單地將模型的學習看成是一個監督學習的任務,利用模型的預測誤差去指導模型的學習,但是忽略了模型的梯度誤差。簡而言之,基于模型的強化學習算法往往需要準確的模型梯度,但是在學習階段只減小了預測誤差,因此就存在目標不一致的問題。


本篇論文中,研究員們首先在理論上證明了模型的梯度誤差對于策略優化是至關重要的。由于策略梯度的偏差不僅受到模型預測誤差的影響而且也受到模型梯度誤差的影響,因此這些誤差會最終影響到策略優化過程的收斂速率。


接下來,論文提出了一個雙模型的方法去同時控制模型的預測和梯度誤差。研究員們設計了兩個不同的模型,并且在模型的學習和使用階段分別讓這兩個模型承擔了不同的角色。在模型學習階段,研究員們設計了一個可行的方法去計算梯度誤差并且用其去指導梯度模型的學習。在模型使用階段,研究員們先利用預測模型去獲得預測軌跡,再利用梯度模型去計算模型梯度。結合上述方法,本篇論文提出了基于方向導數投影的策略優化算法(DDPPO)。 最后,在一系列連續控制基準任務上的實驗結果證明了論文中提出的算法確實有著更高的樣本效率。


圖片

圖2: (a)模型學習和使用中的不一致。 (b)DDPPO 算法的示意圖。DDPPO 算法分別構造了預測模型和梯度模型。DDPPO 算法使用不同的損失函數去分別訓練這兩個模型,并且在策略優化中分別恰當地使用他們。



RecurD遞歸解耦網絡


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/


機器學習的最新進展表明,解耦表示的學習能力有利于模型實現高效的數據利用。其中 BETA-VAE 及其變體是解耦表示學習中應用最為廣泛的一類方法。這類工作引入了多種不同的歸納偏差作為正則化項,并將它們直接應用于隱變量空間,旨在平衡解耦表示的信息量及其獨立性約束之間的關系。然而,深度模型的特征空間具有天然的組合結構,即每個復雜特征都是原始特征的組合。僅將解耦正則化項應用于隱變量空間無法有效地在組合特征空間中傳播解耦表示的約束。


本篇論文旨在結合組合特征空間的特點來解決解耦表示學習問題。首先,論文從信息論的角度定義了解耦表示的屬性,從而引入了一個新的學習目標,包括三個基本屬性:充分性、最小充分性和解耦性。從理論分析表明,本篇論文所提出的學習目標是 BETA-VAE 及其幾個變種的一般形式。接下來,研究員們將所提出的學習目標擴展到了組合特征空間,以涵蓋組合特征空間中的解纏結表示學習問題,包括組合最小充分性和組合解耦性。


基于組合解耦學習目標,本篇論文提出了對應的遞歸解纏結網絡(Recursive disentanglement network, RecurD,在模型網絡中的組合特征空間內,遞歸地傳播解耦歸納偏置來指導解纏結學習過程。通過前饋網絡,遞歸的傳播強歸納偏差是解耦表示學習的充分條件。實驗表明,相較于 BETA-VAE 及其變種模型,RecurD 實現了更好的解耦表示學習。并且,在下游分類任務中,RecurD 也表現出了一定的有效利用數據的能力。


圖片

圖3:RecurD 網絡結構


04

基于鏡像斯坦因算符的采樣方法


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/


貝葉斯推理(Bayesian inference)等一些機器學習及科學計算問題都可歸結為用一組樣本來代表一個只知道未歸一化密度函數的分布。不同于經典的馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo)方法,近年來發展起來的斯坦因變分梯度下降方法(Stein variational gradient descent,簡記為 SVGD)具有更好的樣本高效性,但對在受限空間(圖中Θ)上分布的采樣或對形狀扭曲的分布的采樣仍顯吃力。


圖片

圖4:原樣本空間\Theta及其鏡像空間示意


本篇論文中,研究員們借鑒優化領域中鏡像下降方法(mirrored descent)的思想,推導設計出了一系列鏡像斯坦因算符(mirrored Stein operators)及其對應的鏡像 SVGD 方法。原空間經鏡像映射(圖中?ψ)所得的鏡像空間是不受限的并可體現分布的幾何信息,因而這些方法系統性地解決了上述問題。


具體來說,SVGD 的原理是使用能最大化樣本分布與目標分布之間 KL 散度減小率的更新方向來更新樣本,從而使樣本分布不斷逼近目標分布,而這個減小率和更新方向都是由斯坦因算符給出的。因而論文首先推導出了鏡像空間中的斯坦因算符(圖中 M_(p,ψ))和樣本的更新方向(圖中 E_(θ~q_t ) [M_(p,ψ) K(θ_t,θ)])。


研究員們進而設計了三種計算更新方向所需的核函數(kernel function,圖中 K),分別可在單樣本情況下劃歸為針對鏡像空間及原空間上目標分布峰值的梯度下降,以及原空間上的自然梯度下降。該論文還推導了所提方法的收斂性保證。實驗發現所提方法比原本的 SVGD 有更好的收斂速度和精度。



部署高效的強化學習:理論下界與最優算法
圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/


傳統的(在線)強化學習(RL)的學習過程可以概括為兩部分的循環:其一是根據收集的數據學習一個策略(policy);其二是將策略部署到環境中進行交互,獲得新的數據用于接下來的學習。強化學習的目標就是在這樣的循環中完成對環境的探索,提升策略直至最優。


然而在一些實際應用中,部署策略的過程會十分繁瑣,而相對來講,當部署完新的策略之后,數據的收集過程是很快的。比如在推薦系統中,策略就是推薦方案,好的策略可以精準地推送用戶所需要的內容。考慮到用戶體驗,通常一家公司在上線新的推薦策略之前會進行很長時間的內部測試來檢驗性能,由于龐大的用戶基數,往往部署之后短時間內就可以收集到海量的用戶反饋數據來進行后續的策略學習。在這樣的應用中,研究員們更傾向于選擇只需要很少部署次數(deployment complexity)就能學到好策略的算法。


但是現有的強化學習算法以及理論和上述真實需求之間還有距離。在這篇論文中,研究員們嘗試去填補這個空白。研究員們首先從理論的角度上,對 deployment-efficient RL 這個問題提供了一個比較嚴謹的定義。之后以 episodic linear MDP 作為一個具體的設定,研究員們分別研究了最優的算法能表現的怎樣(lower bound),以及提出了可以達到最優的部署復雜度的算法設計方案(optimality)。


其中,在 lower bound 部分,研究員們貢獻了理論下界的構造與相關證明;在 upper bound 部分,研究員們提出了“逐層推進”的探索策略(如圖5所示),并貢獻了基于協方差矩陣估計的新的算法框架,以及一些技術層面的創新。研究員們的結論也揭示了部署帶有隨機性的策略對于降低部署復雜度的顯著作用,這一點在之前的工作當中往往被忽略了。


圖片

圖5:“逐層推進”的探索策略(以3層的離散馬爾科夫決策過程為例)



強化學習中的變分先知引導


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

GitHub鏈接:https://github.com/Agony5757/mahjong


深度強化學習(DRL最近在各種決策問題上都取得了成功,然而有一個重要的方面還沒有被充分探索——如何利用 oracle observation(決策時不可見,但事后可知的信息)來幫助訓練。例如,人類****高手會在賽后查看比賽的回放,在回放中,他們可以分析對手的手牌,從而幫助他們更好地反思比賽中自己根據可見信息(executor observation)來做的決策是否可以改進。這樣的問題被稱為 oracle guiding。


在這項工作中,研究員們基于貝葉斯理論對 oracle guiding 的問題進行了研究。本篇論文提出了一種新的基于變分貝葉斯方法(variational Bayes)的強化學習的目標函數,來利用 oracle observation 幫助訓練。這項工作的主要貢獻是提出了一個通用的強化學習框架,稱為 Variational Latent Oracle Guiding (VLOG)。VLOG 具有許多優異的性質,比如在各種任務上都有著良好且魯棒的表現,而且 VLOG 可以與任何 value-based 的 DRL 算法相結合使用。


圖片

圖6:VLOG 在訓練時和使用時的模型圖表(以 Q-learning 為例)。左:訓練時(知道 oracle observation),分別用 executor observation 和 oracle observation 來估計一個貝葉斯隱變量z的先驗(prior)和后驗(posterior)分布。通過優化 VLOG 變分下界(variational lower bound,后驗模型的強化學習目標函數減去z的后驗和先驗分布之間的KL散度)來訓練整個模型。右:使用時,基于可見信息來做出決策。


研究員們對 VLOG 進行了各種任務的實驗,包括一個迷宮,簡明版的 Atari Games,以及麻將。實驗涵蓋了在線以及離線強化學習的不同情況,均驗證了 VLOG 的良好表現。 此外,研究員們還開源了文中使用的麻將強化學習環境和對應的離線強化學習數據集,來作為未來 oracle guiding 問題和復雜決策環境研究的標準化測試環境 。


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

電容傳感器相關文章:電容傳感器原理


關鍵詞: AI

相關推薦

技術專區

關閉