在過去的十年里,機器學習的突破導致了“數字智能”,即機器學習模型能夠從大量標記數據中學習,以執行一些數字任務,如語音識別、人臉識別、機器翻譯等。這篇論文的目標是在設計能夠“物理智能”的算法方面取得進展,即構建智能自主導航代理,能夠學習在物理世界中執行復雜的導航任務,包括視覺感知、自然語言理解、推理、規劃、還有順序決策。盡管在過去的幾十年里,經典的導航方法有了一些進步,但是當前的導航代理在長期的語義導航任務上仍然很掙扎。在論文的第一部分,我們討論了我們使用端到端強化學習來解決諸如回避障礙、語義感知、語言基礎和推理等挑戰的短期導航工作。在第二部分,我們提出了一種新的導航方法,基于模塊化學習和結構化顯式地圖表示,它利用了經典和端到端學習方法的優勢,以解決長期的導航任務。我們證明了這些方法能夠有效地解決諸如定位、映射、長期規劃、探索和學習語義先驗等挑戰。這些模塊化學習方法能夠長期理解空間和語義,并在各種導航任務中獲得最先進的結果。
鏈接: //www.zhuanzhi.ai/paper/833a5e3cfe6401566bdde2b30d574d09
視頻:
8月5日,ACM SIGKDD 2021 正式公布了最佳博士論文獎,Runner Up獎、新星獎、研究時間檢驗獎、應用數據科學時間檢驗獎、創新獎和服務獎。
其中斯坦福大學的Aditya Grover獲得最佳博士論文獎,UIUC 的Shweta Jain獲得Runner Up 獎
SIGKDD 博士論文獎
論文標題: Learning to Represent and Reason Under Limited Supervision 標題:在有限監督條件下的學習表征和推理 作者:Aditya Grover 機構:Facebook AI研究院
論文摘要:
自然智能體,如人類,擅長構建世界的表征,并使用這些表征來有效地進行推理和做決策。即使在有限的監督下,這種高級推理能力也可以發展起來。與此形成鮮明對比的是,基于機器學習 (ML) 的智能體在獲得大規模標注數據集或模擬器的條件下取得主要進展,如目標識別和玩游戲等。
本論文由三部分組成。首先,論文建立了基礎的學習概率生成模型,目標是模擬所有可用的數據,即使在監督受限的環境中,也能夠為智能體提供一個自然的學習目標。論文討論了很多使用這些模型進行高維學習和推理所需要的取舍(trade-off),包括選擇特定的學習目標、優化流程和模型參數等。
基于這些結果,研究者開發了新算法來提高模型的性能,并在用未標記的數據集進行訓練時降低偏置。之后,研究者將這些模型擴展到關系數據領域,用來學習這些數據的表征。這一過程是無監督的,研究者探索并展示了模型在分類和序列決策中的性能。最后,論文介紹了這些模型在加速科學研究的兩個實際應用:1.學習壓縮感知的數據相關先驗;2.優化電池充電的實驗設計。這些案例說明, 智能體能夠克服現實世界中高維推理和決策問題的關鍵監督瓶頸。
本文分為三個主題部分。第1部分研究了概率生成建模的統計和計算基礎。
在第二章,我們提供必要的背景設置的問題和回顧一些關鍵的工作。
在第三章中,我們討論了生成模型的兩種中心學習范式: 最大似然估計和對抗學習。
在第四章,我們提出了一個模型不可知的算法,以提高任何現有生成模型的性能。本章以[Gro+19a]為基礎,以我們在[GE18]中的早期工作為基礎。
在第五章中,我們提出了另一種模型無關的算法,以解決融合多個未標記數據源訓練生成模型時的潛在數據集偏差問題。
第二部分深入研究了概率生成模型的使用,用于在關系域上表示和推理,其中數據點偏離了獨立和同分布(i.i.d)假設。
在第六章中,我們提出了一個用于學習圖節點表示的潛在變量生成模型。
在第七章中,我們提出了一種結合生成目標和對比目標的多智能體系統中智能體策略學習表示的算法。
第三部分討論了在科學發現和可持續發展的現實世界中運應用概率方法的使用。
在第八章中,我們提出了一個生成建模框架,用于統計壓縮感知中的學習獲取和恢復過程。
在第九章中,我們提出了一種最優的實驗設計方法,適用于設計空間大和實驗時間密集的領域。作為一個案例研究,我們使用它來優化電池充電協議。
在第10章中,我們總結了本論文的主要貢獻和未來的研究方向。
作者介紹:
Aditya Grover是Facebook AI核心機器學習團隊的一位研究者,同時也是UCLA計算機系的一名助理教授。
Aditya的主要研究方向是用于概率建模的機器學習,無監督表征學習,以及序列決策,這些研究已用于物理學、氣候變化等領域。Aditya于2020年畢業于斯坦福大學,獲得博士學位,并在谷歌大腦、微軟研究院、OpenAI等機構完成了實習。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。
//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/
在21世紀,人們與技術互動的方式發生了重大變化,自然語言生成(NLG)發揮著核心作用。智能手機和智能家居設備的用戶現在希望他們的設備能夠了解他們的處境,并在交互中產生自然的語言輸出。本文從人類溝通的三個方面來確定如何讓機器聽起來像人類——風格、內容和結構。本文提供了深度學習的解決方案來控制這些變量在神經文本生成。我首先概述了可以操縱的各種模塊,以進行有效的可控文本生成。我提供了一種使用反向翻譯進行樣式轉換的新穎解決方案,并引入了兩個新任務,將來自非結構化文檔的信息利用到生成過程中。我還為句子排序任務提供了一種新的優雅設計,以學習有效的文檔結構。最后,我提供了一個關于可控制文本生成應用的倫理考慮的討論。提出的工作,我計劃:(I) 提供對各種可控文本生成技術的經驗理解,(ii) 提供對樣式的計算理解并構建有用的樣式表示,(iii) 設計有效的內容基礎生成方式,以及(iv) 探索可控文本生成的更廣泛影響。
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28
來自卡內基梅隆大學機器人研究所Zhanghao博士論文,他師從著名的邢波教授!博士題目是機器學習并行可以是自適應的、可組合的和自動化的,不可錯過!
Zhang hao, 卡內基梅隆大學機器人研究所博士,導師是Eric Xing教授。畢業后將加入加州大學伯克利分校的RISE實驗室,做博士后。 //www.cs.cmu.edu/~hzhang2/
Machine Learning Parallelism Could Be Adaptive, Composable and Automated
近年來,機器學習(ML)領域的創新步伐加快,SysML的研究人員已經創建了在多個設備或計算節點上并行化ML訓練的算法和系統。隨著ML模型在結構上變得越來越復雜,許多系統都努力在各種模型上提供全面的性能。一般來說,根據從適當的分布策略映射到模型所需的知識數量和時間,ML的規模通常被低估了。將并行訓練系統應用到復雜的模型中,除了模型原型之外,還增加了重要的開發開銷,并且經常導致低于預期的性能。本文識別并解決并行ML技術和系統實現在可用性和性能方面的研究挑戰。
本文的第一部分提出了一個簡單的設計原則,自適應并行化,它根據特定的ML屬性將適當的并行化技術應用于模型構建塊(如層)。接下來,我們導出了一系列優化ML并行化不同方面的優化和實現。我們對它們進行了研究,并表明它們顯著提高了ML訓練在適用場景下對集群進行2-10倍的效率或可伸縮性。
為了推廣這種方法,本論文的第二部分將ML并行化為端到端優化問題,并尋求自動解決它,用于ML并行任務的兩種廣泛范例:單節點動態批處理和分布式ML并行。我們提出了有原則的表示來表示兩類ML并行性,以及可組合的系統架構,分別是Cavs和AutoDist。它們支持為不可見的模型快速組合并行化策略,提高并行化性能,并簡化并行ML編程。
在此基礎上,本文的第三部分提出了自動并行化框架AutoSync,用于自動優化數據并行分布訓練中的同步策略。AutoSync實現了“開框即用”的高性能——它在提議的表現方式所覆蓋的范圍內導航,并自動識別同步策略,這些同步策略的速度比現有手動優化的系統快1.2 - 1.6倍,降低了分布式ML的技術障礙,并幫助更大的用戶社區訪問它。本文所開發的技術和系統為分布式環境下大規模ML訓練的端到端編譯器系統的概念和原型實現提供了理論依據。
論文結構:
第一部分(第三章-第五章):通過自適應并行來理解和優化并行ML在各個方面的性能; 第二部分(第六章-第七章):開發ML并行的統一表示和可組合系統; 第三部分(第八章):自動化ML并行化
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題
機器人和自主系統在現代經濟中扮演著重要的角色。定制機器人顯著提高了生產率、操作安全性和產品質量。然而,人們通常通過編程操作這些機器人來完成較小的領域的特定任務,而無法快速適應新任務和新情況。廉價、輕便和靈活的機器人硬件的出現為將機器人的自主能力提升到前所未有的水平提供了機會。新的機器人硬件在日常環境中的一個主要挑戰是處理現實世界的持續變化性和不確定性。為了應對這一挑戰,我們必須解決感知和行動之間的協同作用:一方面,機器人的感知自適應地指導其行動,另一方面,它的行動產生了新的感知信息,用于決策。我認為,實現通用機器人自治的關鍵一步是將感知和動作緊密地結合起來。
新興的人工智能計算工具已經證明了成功的希望,并構成了在非結構化環境中增強機器人感知和控制的理想候選。機器人的實體本質迫使我們超越現有的從無實體數據集學習的范式,并激勵我們開發考慮物理硬件和動態復雜系統的新算法。
本論文的研究工作是建立可通用的機器人感知和控制的方法和機制。我們的工作表明,感知和行動的緊密耦合,有助于機器人通過感官與非結構化的世界進行交互,靈活地執行各種任務,并適應地學習新任務。我們的研究結果表明,從低級的運動技能到高級的任務理解三個抽象層次上解剖感知-動作循環,可以有效地促進機器人行為的魯棒性和泛化。我們規劃的研究工作是處理日益復雜的任務,展現出我們朝著圣杯目標的路線圖:在現實世界中構建長期的、通用的機器人自治。