構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。
多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。
人工智能領域最近見證了顯著的增長,導致開發了在各種領域表現出色的復雜深度學習模型。然而,這些發展帶來了關鍵問題。深度學習模型容易繼承并可能加劇其訓練數據中存在的偏見。此外,這些模型的復雜性導致缺乏透明度,這可能導致偏見未被發現。這最終可能阻礙這些模型的采用,因為缺乏信任。因此,培養本質上透明、可信和公平的人工智能系統至關重要。本論文通過探索深度學習的可解釋性和自解釋模型,為這一研究領域做出了貢獻。這些模型代表了向更透明系統的轉變,提供了與模型架構密切相關的解釋,揭示了它們的決策過程。因此,這種固有的透明性增強了我們的理解,從而提供了解決無意中學習偏見的機制。為了推進自解釋模型的發展,本論文進行了對當前方法的全面分析。它引入了一個旨在提高某個最先進模型解釋質量的新算法。此外,這項工作還提出了一種新的自解釋模型,通過學習的解碼器生成解釋,促進端到端訓練,并解決了解釋性和性能之間普遍存在的權衡問題。此外,為了增強這些模型的可及性和可持續性,本論文還介紹了一種通用方法,無需重新訓練即可將任何預訓練的黑盒模型轉化為自解釋模型。通過所提出的方法,這項研究識別并抵制了從數據中學習的人為因素—虛假相關性,進一步強調了透明模型的需求。此外,本論文的范圍還擴展到了大型語言模型的公平性維度,展示了這些模型加強社會偏見的傾向。這項研究的結果凸顯了所提方法的有效性,從而為創建不僅準確而且透明、公平和可靠的人工智能系統鋪平了道路,以促進人工智能技術的廣泛采用和信任。
盡管深度學習取得了顯著的成就,但它仍是一個年輕的領域。就像許多科學學科的早期階段一樣,它的特點是發現新現象、臨時的設計決策以及缺乏統一和組合性的數學基礎。從實現反向傳播的復雜性,到不斷增長的神經網絡架構動物園,再到新的、尚未被充分理解的現象,如雙重下降、規模定律或上下文中學習,深度學習中很少有統一的原則。
本論文基于范疇論的語言,為深度學習開發了一種新的數學基礎。我們開發了一個新框架,這個框架是a) 端到端的,b) 統一的,并且c) 不僅僅是描述性的,而且是規范性的,意味著它適合在具有足夠特性的編程語言中直接實現。我們還系統化了許多現有的方法,將文獻中許多現有的構造和概念歸于同一體系下。 在第一部分,理論部分,我們識別并模型化了深度學習系統的兩個主要屬性:它們是參數化的和雙向的。我們擴展了之前定義的actegories和Para的構造來研究前者,并定義加權光學來研究后者。結合它們產生了參數化加權光學,一種人工神經網絡的范疇模型,以及更多:第一部分中的構造與許多其他類型的雙向過程,如貝葉斯更新、值迭代和博弈論有著密切的聯系。
第二部分證明了第一部分中的抽象,將它們應用于建模反向傳播、架構和監督學習。我們提供了一個透鏡理論公理化的微分,不僅覆蓋平滑空間,還包括布爾電路的離散設置。我們調研現有的,并開發新的神經網絡架構的范疇模型。我們形式化了優化器的概念,最后,將所有現有的概念結合起來,為監督學習提供了一個統一和組合性的框架。
在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。
我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。
總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知。
隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。
一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。
場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。
本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。
人工智能系統開發具備高級推理能力是一個持續存在且長期的研究問題。傳統上,解決這一挑戰的主要策略涉及采用符號方法,其中知識通過符號明確表示,并通過明確編程的規則來實現。然而,隨著機器學習的出現,系統向能夠自主從數據中學習、需要最小人類指導的方向發生了范式轉移。鑒于這一轉變,近年來,越來越多的興趣和努力被投入到賦予神經網絡推理能力上,以彌合數據驅動學習與邏輯推理之間的差距。在這一背景下,神經算法推理(NAR)作為一個有希望的研究領域脫穎而出,旨在將算法的結構化和基于規則的推理與神經網絡的自適應學習能力整合起來,通常通過讓神經模型模仿經典算法來實現。在這篇論文中,我們對這一研究領域提供了理論和實踐上的貢獻。我們探索了神經網絡與熱帶代數之間的聯系,推導出與算法執行對齊的強大架構。此外,我們討論并展示了這樣的神經推理器學習和操縱復雜的算法和組合優化概念的能力,如強對偶性原理。最后,在我們的實證努力中,我們驗證了NAR網絡在不同實際場景中的實際用途。這包括任務多樣化,如規劃問題、大規模邊緣分類任務以及學習NP-hard組合問題的多項式時間近似算法。通過這一探索,我們旨在展示在機器學習模型中整合算法推理潛力。
//arxiv.org/abs/2402.13744 本論文旨在探索神經算法推理器的潛力,特別是關于它們學習執行經典算法的能力以及使用訓練有素的算法推理器作為相關下游任務的歸納先驗的有效性。 本論文的主要貢獻旨在解決這兩個研究問題,特別是在圖的背景下,鑒于許多感興趣的經典算法是為結構化數據開發和設計的(Cormen et al., 2009)。此外,我們將尋求從理論和實證的視角提供前述問題的證據。 為了解決關于經典算法可學習性的問題,我們提出了一個理論框架,將圖、神經網絡和熱帶代數(Landolfi et al., 2023)之間的聯系繪制出來。在這個設置中,將建立算法(特別是動態規劃算法)與神經網絡之間的等價性。我們還將展示如何基于這種聯系派生出適合學習算法的強大神經網絡架構。 跳出動態規劃算法的背景,我們提議通過對偶性學習算法(Numeroso et al., 2023),有效地展示我們如何借鑒與算法相關的各個領域的概念,如組合優化,以增強將算法推理編碼到神經網絡中的程度。這一貢獻也作為使用算法作為歸納先驗可以幫助更準確地解決標準機器學習任務的第一個實際示例。 在此基礎上,我們提出了兩個更多的貢獻:一個學習規劃問題一致性啟發式函數的算法推理器(Numeroso et al., 2022);以及一個關于將算法知識轉移到NP-hard組合優化問題的有效性的廣泛研究(Georgiev et al., 2023)。 此外,作為一個附加目標,本論文還努力作為神經算法推理世界的入門指南,特別是通過其第三章,為那些不熟悉NAR的人量身定做。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
在大型標注數據集上訓練的強大機器學習(ML)模型,推動了自然語言處理和計算機視覺等領域的令人印象深刻的進步。反過來,這些發展導致了ML在醫療健康、電子商務和預測性維護等領域的有效應用。然而,獲得訓練高容量機器學習模型所需的標注數據集,往往是機器學習有前途應用的瓶頸。本文研究了獲取領域知識的替代途徑,并開發了從弱監督中學習的方法,即不完美的和間接的監督形式。我將介紹三種形式的弱監督:成對聯動反饋、程序化弱監督和成對多模態數據。這些形式的信息通常很容易大規模獲取,我開發的方法減少了——在某些情況下消除了——對點真實感注釋的需要。我首先研究了成對監督的效用。我介紹了一種新的約束聚類方法,它使用少量的成對約束來同時學習核和聚類數據。該方法在大量多樣的公開數據集上優于相關方法。接下來,將不完全成對監督引入程序化弱監督標簽模型。我根據經驗表明,僅一個弱成對反饋源就可以顯著提高下游性能。通過引入與弱標簽相協調的輸入分布建模方法,進一步研究了程序化數據標記方法。本文首先介紹了一個框架,在觀察到的弱標簽的基礎上聯合學習標簽和端模型,顯示了端模型在下游測試集上的性能比之前的工作有所改進。接下來,介紹一種融合生成式對抗網絡和程序化弱監督標簽模型的方法,以使兩者都受益,由標簽模型性能和數據生成質量衡量。在本文的最后一部分,我解決了程序性弱監督的一個核心挑戰:專家需要提供標簽規則。首先,介紹了一個交互式學習框架,幫助用戶發現弱監督源,以高效的方式捕獲應用領域領域專家的知識。然后,我通過直接從非結構化自然語言描述中學習來研究完全省去標記功能的機會。特別是,我研究了如何將生物醫學文本與圖像配對用于自監督視覺-語言處理,產生數據高效的表示并實現零樣本分類,而不需要專家定義文本或圖像的規則。這些工作提供了新的方法和框架,以在機器學習模型中更有效地編碼和使用專家領域知識,減少了因需要手工真實注釋而產生的瓶頸。
//www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。
為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。
本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。
這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf