久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 深度強化學習大牛、UC伯克利教授Pieter Abbeel獲2021 ACM計算獎

深度強化學習大牛、UC伯克利教授Pieter Abbeel獲2021 ACM計算獎

發(fā)布人:機器之心 時間:2022-04-09 來源:工程師 發(fā)布文章

AI 大牛吳恩達的學生、機器人學習專家、UC 伯克利教授 Pieter Abbeel 摘得了最新一屆 ACM 計算獎的榮譽。

剛剛,ACM 官方宣布將 2021 ACM 計算獎(ACM Prize in Computing)授予加州大學伯克利分校教授 Pieter Abbeel,以表彰他在機器人學習方面的貢獻,包括從演示中學習和用于機器人控制的深度強化學習。


圖片


在獲獎公告中,ACM 提到:「Abbeel 率先教會機器人從人類演示中學習(學徒學習)和通過自己的反復試錯學習(強化學習),這為下一代機器人技術(shù)奠定了基礎。


ACM 計算獎設立于 2007 年,由 IT 巨頭 Infosys 贊助,獎金為 25 萬美元,旨在表彰在職業(yè)生涯早期到中期在計算領域做出基本創(chuàng)新貢獻的研究者,這些貢獻通過其深度和廣泛的影響體現(xiàn)了該學科的最高成就。


過往獲獎者包括谷歌 AI 負責人 Jeff Dean、AlphaGo 之父 David Silver、量子計算先驅(qū) Scott Aaronson 等著名計算機科學家。


Abbeel 將于今年 6 月 11 日在舊金山舉行的 ACM 年度頒獎晚宴上正式獲頒 ACM 計算獎。


伯克利大牛 Pieter Abbeel 的研究貢獻


圖片


Pieter Abbeel 現(xiàn)為加州大學伯克利分校計算機科學與電氣工程教授,也是人工智能機器人公司 Covariant 的聯(lián)合創(chuàng)始人、總裁兼首席科學家。Abbeel 在比利時魯汶大學獲得電氣工程學士學位,并在斯坦福大學獲得計算機科學碩士和博士學位(師從吳恩達)。


圖片

Abbeel 曾獲得多項榮譽,包括美國科學家及工程師總統(tǒng)早期職業(yè)獎、美國國家科學基金會早期職業(yè)發(fā)展計劃獎和 Diane McEntyre 卓越教學獎。此外,Abbeel 還被 MIT Technology Review 評為 35 歲以下杰出青年創(chuàng)新者,并獲得了機器人與自動化領域的 Dick Volz 最佳美國博士論文獎。同時,Abbeel 也是 IEEE Fellow。


在職業(yè)生涯的早期,Abbeel 開發(fā)了新的學習技術(shù),以顯著改善機器人操作。隨著該領域的成熟,研究人員能夠?qū)C器人進行編程,以使其感知、操縱木塊或勺子等剛性物體。然而,通過編程讓機器人操縱可變形物體(例如布)相對來說較為困難,因為軟性材料在被觸摸時的移動方式是不可預測的。Abbeel 引入了增強機器人視覺感知、基于物理的跟蹤、控制和從演示中學習的新方法。通過結(jié)合這些新方法,Abbeel 開發(fā)了一種能夠折疊毛巾和襯衫等衣服的機器人,這在當時被認為是一個重要的里程碑。



Abbeel 的貢獻還包括開發(fā)能進行手術(shù)縫合、物體檢測以及在不確定環(huán)境下規(guī)劃軌跡的機器人。最近,他開創(chuàng)了「少樣本模仿學習」,即先讓機器人接受大量相關(guān)任務演示的預訓練,然后使其僅通過一次演示就學會執(zhí)行一項任務。


Abbeel 做出重要貢獻的另一個方向是機器人深度強化學習。強化學習是機器學習的一個領域,在該領域中,智能體在獎勵的驅(qū)動下不斷前進(比如贏得一場比賽)。雖然早期的強化學習程序非常有效,但它們只能執(zhí)行簡單的任務。將強化學習與深度神經(jīng)網(wǎng)絡相結(jié)合的創(chuàng)新之舉催生了深度強化學習這一新領域。與僅使用強化學習開發(fā)的程序相比,它可以解決復雜得多的問題。


Abbeel 在該領域的突破性貢獻是開發(fā)了一種名為「信賴域策略優(yōu)化(Trust Region Policy Optimization)」的深度強化學習方法。這種方法穩(wěn)定了強化學習過程,使機器人能夠?qū)W習一系列模擬的控制技能。通過分享研究結(jié)果、發(fā)布視頻教程以及發(fā)布開源代碼,Abbeel 幫助建立了一個研究社區(qū),進一步推動了用于機器人的深度學習研究,可以讓機器人執(zhí)行更復雜的任務。


Abbeel 還做出了其他幾項開創(chuàng)性的貢獻,包括:


  • generalized advantage estimation,這使得第一個 3D 機器人運動學習成為可能;

  • soft-actor critic,這是迄今為止最流行的深度強化學習算法之一;

  • domain randomization,它展示了在適當隨機化的模擬器中進行的學習如何能夠很好地泛化到現(xiàn)實世界;

  • hindsight experience replay,這對獎勵稀疏 / 目標導向的環(huán)境中的深度強化學習很有幫助。



ACM 主席 Gabriele Kotsis 表示:「教機器人學習可以推動許多行業(yè)的重大進步,包括手術(shù)、制造、航運、自動駕駛等。Pieter Abbeel 是新一代研究人員中公認的引領者,他們正在利用最新的機器學習技術(shù)徹底改變這一領域。Abbeel 做出了跨越式的研究貢獻,同時還慷慨地分享了他的知識,建立了一個同行社區(qū),致力于將機器人提升到令人興奮的新能力水平。他的工作體現(xiàn)了 ACM 計算獎旨在表彰具有『深度、影響力和廣泛影響』的杰出工作的初衷。」


Infosys 首席執(zhí)行官 Salil Parekh 表示:「很榮幸能表彰 Pieter Abbeel 獲得 2021 年 ACM 計算獎,隨著機器人與人工智能相結(jié)合的創(chuàng)新方式不斷涌現(xiàn),機器人領域有望取得更大的進步,我們相信像 Abbeel 這樣的研究人員將有助于該領域取得下一個重大進展。」


獲獎后,Pieter Abbeel 在社交媒體上表示:「我感到無比榮幸。非常感謝所有讓這一切成為可能的合作者,感謝我的學生、同事、碩士及博士階段的導師。」


參考鏈接:https://awards.acm.org/about/2021-acm-prize


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉