強化學習(RL)在自主智能體領域展現了巨大的潛力。然而,當將機器人應用于安全關鍵領域時,系統必須足夠穩健,才能在現實生活中部署。例如,機器人應能夠在不同的場景中執行任務,并避免進入不希望發生且不可逆的狀態,例如撞到障礙物,理想情況下,即使機器人無法實現其主要目標,也應滿足安全要求。 提高強化學習智能體穩健性的一種方法是通過領域隨機化來探索多種場景、環境參數和對手策略。然而,隨著智能體表現的提升,它變得不太可能探索那些表現較差的區域。解決這一問題的一種方法是對抗性訓練,其中對抗性智能體嘗試注入噪聲,迫使自我智能體表現不佳。然而,在這種設置中,對抗智能體更容易戰勝自我智能體,因此自我智能體往往在沒有專家監督的情況下無法克服對抗性噪聲。另外,隨著機器人進入更加非結構化的環境,環境因素可能比噪聲更大程度地影響狀態空間和動態的分布。
在我的論文中,我將討論如何利用課程學習幫助智能體有效地探索各種不同的情況、對手和動態,從而實現穩健的表現。論文的第一部分將介紹課程學習的基本理念,以及它如何被用來探索廣泛的環境。第二部分將擴展這一概念到多智能體領域,探討課程學習如何在協作和競爭、對稱和非對稱的設置中幫助找到穩健的策略。最后,我將擴展這些研究成果到質量多樣性領域,探索課程學習如何幫助我們找到一系列行為,這些行為累計起來能實現穩健性。
近年來,人工智能(AI)和深度學習經歷了顯著增長,并展現出了巨大的潛力。多家公司正在推出能夠基于數據識別和提出建議的AI智能體(79;80),這些智能體已經開始改善我們的生活質量。此外,還有努力在推動開發能夠不僅在看到某些數據時向人類提出建議,還能在看到這些數據時知道如何與世界物理互動并執行相應操作的智能體。對于能夠自主決策的智能體,強化學習(RL)展現了巨大的潛力。與其要求專家為每種情況手動設計并硬編碼所需的動作,RL智能體可以通過探索和與真實或模擬環境互動,自主訓練自己。RL智能體已經在各種模擬環境中展現出超越人類的表現,如圍棋、賽車甚至空對空戰斗(92;104;118)。 然而,這種應用也提出了一個新的穩健性挑戰,如圖1.1所示。雖然智能體可以展示超越人類的表現,但如果人類操作員不信任智能體的安全性,這些智能體將無法部署。例如,游戲AI在現實生活中已經相對被信任并得到應用。即使游戲AI遇到無法發揮全部性能的情況并未能贏得比賽,結果也不會是災難性的。游戲的目標是娛樂,只要人類用戶享受體驗,偶爾輸掉比賽的游戲AI是可以接受的。同樣,像OpenAI的Copilot這樣的代碼助手也相對被信任并得到應用。盡管該智能體會提供編程建議,但最終還是由人類程序員決定是否接受推薦并執行程序。假設人類程序員完成其工作,智能體的失敗不會直接導致災難性失敗。另一方面,在自動駕駛的情況下,自動駕駛智能體是決策算法,通常是與現實世界交互的自動化流程中的最后一環。自動駕駛智能體的設計目的是完全移除安全駕駛員,因此,如果自動駕駛智能體出現故障,由于沒有人類進行錯誤過濾,結果可能會導致災難性后果,且在某些情況下是不可逆的。因此,為了將自動駕駛智能體部署到現實生活中的安全關鍵應用中,我們不僅需要智能體表現良好,還需要它在各種情況和環境中持續穩定地表現,而不會導致不可逆和災難性的狀態。本文將把穩健性作為確保智能體在預期操作的情境中不會陷入不可逆和災難性狀態的一種方式進行探討。
機器學習中關于穩健性的研究有多種方式。一些研究專注于驗證訓練后的模型在操作數據集中的表現不會失敗(40;55)。將這一概念擴展到強化學習(RL),可以使用控制屏障函數(CBF)(3)來確保RL策略不會進入不可恢復的狀態(30)。控制屏障函數結合了領域和動態的專家知識,用于定義哪些狀態是安全且可恢復的。 結合這一思想,我們關注自主智能體能夠覆蓋和解決多少種情況,而不會進入不可逆和災難性的區域。在本文中,我們將穩健性定義為智能體在更廣泛的情境中實現高性能的能力。我們的目標是訓練出能夠部署到安全關鍵情境中的穩健策略,如駕駛和飛行,其中無法處理某些不可避免的長尾情境會阻礙RL智能體的部署。
理解圖像內容是許多應用的重要組成部分,例如自動駕駛、增強現實、機器人、醫學影像和遙感。隨著深度神經網絡的突破,語義圖像理解在過去幾年中取得了顯著進展。然而,神經網絡需要大量標注數據才能進行適當訓練。由于大規模真實世界數據集的標注成本高昂,網絡可以在具有現成或較低成本標注的數據集(如自動標注的合成數據)上進行訓練。然而,神經網絡通常對領域偏移(domain shifts)敏感,因此在與訓練數據不同的領域中表現較差。因此,無監督領域適應(UDA)和領域泛化(DG)方法的目標是使在源域(例如合成數據)上訓練的模型在未標注或甚至未見過的目標域(例如真實世界數據)上表現良好。
大多數UDA/DG研究專注于設計適應和泛化技術以克服領域偏移的問題。然而,學習框架中其他方面對領域魯棒性的影響大多被忽視。因此,我們從更全面的角度研究領域魯棒性,探討不同學習框架方面對UDA和DG的影響,包括網絡架構、通用訓練方案、圖像分辨率、裁剪大小和上下文信息。特別是,我們解決了現有DG和UDA方法中的以下問題:(1) 我們研究了最新架構對領域魯棒語義/全景分割的影響,并設計了一種專為領域泛化和領域適應分割量身定制的網絡架構,而不是依賴過時的分割架構來評估DG/UDA策略。(2) 為了避免對源域的過擬合,我們提出了保持先驗知識的通用訓練策略。(3) 為了在DG/UDA增加的GPU內存消耗下實現精細的分割細節,我們提出了一個領域魯棒且內存高效的多分辨率訓練框架。(4) 為了解決目標域的局部外觀歧義,我們提出了一種增強空間上下文關系學習的方法。以下段落詳細介紹了這些貢獻。
由于之前的UDA和DG語義分割方法大多基于過時的DeepLabV2網絡和ResNet骨干網絡,我們對較新的架構進行了基準測試,揭示了Transformer的潛力,并設計了DAFormer網絡架構,專為UDA和DG量身定制。它由分層Transformer編碼器和多級上下文感知特征融合解碼器組成。DAFormer網絡通過三種簡單但至關重要的訓練策略來穩定訓練并避免對源域的過擬合:在源域上進行稀有類采樣,通過緩解自訓練對常見類別的確認偏差,改善偽標簽的質量;Thing-Class ImageNet特征距離和學習率預熱有助于從ImageNet預訓練中轉移特征。通過這些技術,DAFormer在UDA和DG中實現了顯著的性能提升,甚至能夠學習像火車、公交車和卡車等難以分類的類別。
此外,我們研究了全景分割的主要架構設計及其UDA能力。我們表明,之前的全景UDA方法在設計上做出了次優選擇。基于這些發現,我們提出了EDAPS,一種特別為領域適應全景分割設計的網絡架構。它使用一個共享的領域魯棒Transformer編碼器,以促進語義和實例特征的聯合適應,同時針對領域適應語義分割和實例分割的具體需求設計了任務特定解碼器。
雖然DAFormer和EDAPS能夠更好地區分不同的類別,但我們觀察到它們缺乏精細的分割細節。我們將其歸因于使用了下采樣的圖像,導致了低分辨率的預測。然而,直接使用全分辨率圖像在UDA/DG中由于其較高的GPU內存消耗而不可行。使用高分辨率圖像的隨機裁剪進行訓練雖然緩解了這一問題,但在捕捉長程、領域魯棒的上下文信息方面表現不足。因此,我們提出了HRDA,一種用于UDA和DG的多分辨率訓練方法,結合了小型高分辨率裁剪以保留精細分割細節和大型低分辨率裁剪以捕捉長程上下文依賴關系,同時保持可管理的GPU內存占用。HRDA能夠適應小物體并保留精細分割細節,顯著提高了之前UDA和DG方法的性能。
即使有了DAFormer和HRDA改進的區分能力和高分辨率性能,UDA方法在目標域中具有類似視覺外觀的類別上仍然表現掙扎,因為沒有可用的真實標簽來學習細微的外觀差異。為了解決這個問題,我們提出了一個掩碼圖像一致性(MIC)模塊,通過學習目標域的空間上下文關系作為穩健視覺識別的額外線索,來增強UDA。MIC通過對隨機遮蔽的目標圖像的預測與基于完整圖像生成的偽標簽之間的一致性進行約束。為了最小化一致性損失,網絡必須學會從上下文中推斷被遮蔽區域的預測。由于其簡單且通用的概念,MIC可以集成到各種UDA方法中,涵蓋不同的視覺識別任務,如圖像分類、語義分割和目標檢測。MIC顯著提高了不同識別任務和領域差距的最新性能。
總體而言,本論文揭示了在領域魯棒的視覺場景理解中,從網絡架構和通用訓練策略等學習框架的不同方面進行全面考量的重要性。所提出的方法大幅提升了從合成到真實、白天到夜晚、晴朗到惡劣天氣等多個感知任務的領域適應性能。例如,在GTA→Cityscapes的語義分割中,它們實現了+18.4 mIoU的總體提升。超越領域適應,DAFormer和HRDA甚至在更具挑戰性的領域泛化設置中也表現出色,在從GTA泛化到5個未見的真實世界數據集時,性能提升了+12.0 mIoU。實現已開源并可在//github.com/lhoyer上獲取。
隨著深度學習逐漸滲透到計算機視覺和自然語言處理等領域,并越來越多地與對人類有影響的大型關鍵系統相集成,解決人工智能的安全性問題已成為該領域的核心挑戰之一。在這些重要系統中,目標不僅僅是構建最準確的AI模型,而是要構建那些同時具備高準確性和可證明安全性的AI模型。本論文探討了人工智能安全性的兩個重要方面:魯棒性和公平性。魯棒性要求模型在輸入分布與訓練期間遇到的分布不同時也能良好表現。公平性是一種安全屬性,要求模型預測在不同個體和群體間保持公平。
在論文的第一部分,我們聚焦于魯棒性。我們首先提出了一種新穎的認證方法,可以保證模型對輸入變換具有魯棒性。在第二章中,我們將此方法擴展到訓練模型,使其能夠證明魯棒性。這些貢獻基于諸如通過優化和采樣進行認證的創新技術,以及通過在凸松弛中尋找對抗樣本來進行訓練的方法。 論文的第二部分則探討了公平性,我們開發了新的方法,用于學習滿足個體或群體公平性要求的公平表示。我們還將個體公平性與魯棒性聯系起來,使得我們能夠利用論文第一部分中的技術來同時解決公平性問題。 本論文中提出的方法具有廣泛的應用前景,例如魯棒性方法可以應用于更復雜的輸入變換,而群體公平性表示學習也可以用于將輸入編碼為更隱私的表示。我們相信,本論文提出的方法能夠豐富我們在AI安全性方面的工具庫,并在未來應用于更多的系統中。 深度學習在過去十年中取得了顯著成功。基于深度學習的模型現已廣泛應用于各個領域,如推薦系統【16】、計算機視覺【17, 18, 19】和涵蓋自然語言的一般任務【20】。然而,隨著深度學習模型能力的提升,人們也對其安全性產生了極大的關注。因為這些模型并非孤立使用,而是作為更大系統的一部分,而其預測結果可能會對人類產生下游影響。例如,計算機視覺模型可以用在自動駕駛車輛中,幫助其檢測街道標志,其預測結果直接影響乘客和其他交通參與者的安全。一個預測學生GPA的模型可以用于大學錄取過程中,這意味著其預測質量可能會影響一個人的教育路徑。這強調了研究人工智能安全性的重要性,特別是這些系統在最壞情況下的表現,以確保其在盡可能多的情況下能夠正確運作。
在本論文中,我們專注于安全人工智能的兩個方面:魯棒性與公平性。當機器學習模型在輸入發生變化時仍能正確運行,則稱其具有魯棒性。輸入的變化可以是由對抗者造成的(例如,有人故意向圖像中添加噪聲),也可以是在推理過程中自然發生的(例如,攝像頭拍攝的圖像發生位移)。解決這一問題對于開發能夠在環境變化時依然有效的機器學習系統至關重要。公平性是人工智能安全的另一重要話題,隨著機器學習模型通常基于偏差數據進行訓練,模型本身也可能會開始表現出類似的偏差行為。盡管公平性有多種定義,本論文關注個體公平性(要求相似個體獲得相似結果)和群體公平性(要求不同群體間的平均預測相似)。隨著機器學習越來越多地被用于重要的社會決策中,充分解決公平性問題變得越來越重要。
本論文的主要目標是推進能夠保證機器學習模型魯棒性和公平性的方法。為此,我們結合使用了形式方法(例如,抽象解釋和凸松弛)和統計方法(例如,有限樣本邊界)。具體而言,在第三章中,我們引入了一種基于優化和采樣相結合的方法,以認證機器學習模型對幾何變換的魯棒性。接下來在第四章中,我們不僅對模型進行認證,還提出通過潛在對抗樣本進行訓練的創新概念,使模型在訓練時即具備可證明的魯棒性。第五章首次探討了輸入數據的預處理問題,從而使數據消費者能夠證明個體公平性。最后,第六章提出了一種新的預處理方法,使得轉換后的輸入數據無法用于推斷敏感屬性,從而保證在其之上的任何下游分類器的群體公平性。 在表1.1中,我們總結了本論文的貢獻,每一行對應一個章節:章節中涉及的安全屬性,以及用于安全性檢查的關鍵方法。接下來,我們將對本論文的貢獻進行分章節概述。
隨著先進計算技術和人工智能的快速發展,復雜系統和應用程序迎來了新紀元,尤其是在自動駕駛汽車(AV)和機器人領域。這些系統越來越多地需要在動態和不確定的環境中自主決策。強化學習(RL)在這一背景下成為了關鍵技術,為通過與環境互動來學習最優決策策略提供了框架。然而,確保這些決策的安全性和可信性仍然是一個重要的挑戰,特別是在安全至關重要的應用場景中,如自動駕駛。本論文針對這一挑戰,提出了創新的基于RL的方法,結構分為三個既獨立又相互關聯的部分,每一部分都專注于安全且可信決策制定中的不同方面。論文的主線是探索和改進RL技術,以確保自主決策系統在復雜、動態環境下的安全性和可靠性。首先,本論文奠定了RL在決策制定中的基礎,特別是在不確定和動態的環境下。該部分聚焦于增強RL,以應對現實世界的復雜性,例如在自動駕駛場景中與不可預測的代理(如人類駕駛員)互動,以及在離線RL設置中處理分布偏移問題。這為理解和提升自主系統在不確定條件下的決策能力奠定了基礎。在第一部分的基礎上,第二部分探討了層次化規劃與RL的集成。該部分重點在于創建一種框架,將不同層次的決策制定相結合,平衡即時的低層次安全問題與高層次戰略目標。該方法旨在應對傳統RL在復雜多代理環境和長時間任務中的局限性,從而在實時決策中展示出更好的適應性和效率。第三部分則呈現了對RL的前瞻性方法,重點在于離線和在線學習方法的整合。這一部分解決了在探索可能代價高昂或危險的場景中,安全有效地訓練RL代理的問題。通過將大規模離線數據(如專家示范)的優勢與在線學習相結合,本部分提出了一個新的框架,以增強RL代理在實際應用中的安全性和性能。
機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。
為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。
我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
隨著機器人在自主檢查、家庭輔助和搜救等更廣泛挑戰中的應用超越工業環境,人們對其在越來越大、無結構和未知環境中自主導航和執行有意義任務的需求也在增長。盡管硬件、傳感和計算技術的改進使機器人具有更強的靈活性和感知能力,但其軟件,特別是自主映射和導航能力,仍然是一個顯著的瓶頸。體積地圖提供了一個通用、安全且與任務無關的環境表示,但其過高的計算和內存需求限制了其在小型和經濟實惠機器人上的實際使用。、 本博士論文研究了使用自適應表示作為解決這些挑戰的方法,重點是增強體積地圖的可擴展性、效率和準確性。認識到體積地圖的價值取決于它們對下游任務的益處,我們研究了局部和全局規劃作為兩個代表性應用。利用層次化、多分辨率的方法,本研究旨在根據任務的需求動態平衡細節和計算成本之間的權衡。 本論文的主要貢獻是開發了一種名為wavemap的數學上嚴格的多分辨率映射框架,該框架根據環境幾何調整地圖分辨率而不依賴于啟發式方法。MRA理論保證了使用小波分解,新觀測可以安全且高效地以由粗到細的方式整合到地圖中。通過計算效率的提高以及積分器的早期停止標準,我們可以使用更復雜的測量模型,從而更好地捕捉細小物體,提高機器人操作的安全性和可靠性。該框架在合成和真實數據上進行了廣泛評估,證明了其在高效重建大規模環境的同時精確捕捉細節的能力。除了在可擴展性和地圖質量方面的顯著改進外,該框架的靈活性也使其能夠應用于各種傳感器和應用場景。 我們的第二和第三個貢獻是開發了高效的反應性避障方法和確定性全局路徑規劃方法,利用層次化表示和算法以及wavemap框架,實現了在復雜環境中快速、可靠的導航。在不同真實環境的地圖上進行的實驗評估以及在微型空中車輛上的部署,證明了這些方法在效率、準確性和靈活性方面優于現有方法,強調了其在顯著推進機器人映射和導航領域中的潛力。 總之,本博士論文為機器人領域中體積映射和規劃的挑戰提出了一個全面的解決方案,為更多自主、高效和多功能的機器人系統在多樣化和變化環境中的操作鋪平了道路。
在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。
"強化學習(RL)是一個強大的決策制定和通過交互適應性學習的框架。盡管其核心是試錯學習,但它已成為人工智能(AI)研究的關鍵工具。在過去的十年中,RL算法已能夠掌握國際象棋和圍棋等戰略游戲,并控制各種機器人和工業平臺,從運動和操縱到電廠,甚至核聚變反應堆。通過將深度神經網絡(NN)作為函數逼近器納入其中,“深度RL”達到了處理高維狀態和動作空間的能力,并且原則上在任務間有更好的泛化性,使RL解決方案變得多樣化且有前景。然而,使用深度神經網絡帶來了某些警告。RL算法經常面臨由于過擬合和對超參數敏感導致的脆弱性問題,這些問題加劇了典型的RL挑戰,如低樣本效率、處理稀疏獎勵的困難、長期任務的延遲信用分配、對獎勵函數設計的敏感性。在這篇論文中,我們提出了一系列針對RL所面臨的一些問題的新穎貢獻,其最終目標是提高其在連續控制任務中的效率、穩健性和泛化性。具體來說,我們將介紹更穩健的軌跡優化方法,結合NN函數逼近用于策略學習、模型學習和獎勵學習。特別是,這項工作的大部分集中在零階優化用于模型預測控制,我們證明這比基于梯度的軌跡優化器更高效、穩健和可重現。在整篇論文中,我們將展示如何使用零階優化來有效解決稀疏獎勵任務,如何在模仿學習的背景下使用它,以及如何結合模型學習用于不確定性傳播。最后,我們將介紹一種從零開始學習獎勵函數的方法,以純自監督的方式。通過在模擬環境中的廣泛實驗,我們的方法在學習效率和性能上展示了顯著的提升,減少了與環境交互所需的次數,同時仍然實現了接近最優的解決方案。這項工作旨在提供一種解決深度RL挑戰部分問題的可行方法,不依賴于預定義的專家知識,解決學習過程的效率和穩健性問題。”
“雖然我們對于究竟是什么引發了人類的思維和批判性推理尚且遙遠不明,但有證據表明人類行為是通過強化學習引導的。強化學習(RL)的歷史可以追溯到20世紀,當時B.F. Skinner和I. Pavlov對動物進行了一系列關于條件反射的實驗 [1, 2],以理解學習背后的機制。心理學家E. Thorndike已經將動物的反應由其后果所強化的觀點,正式表述為“效果定律” [3]: 在特定情境中產生滿意效果的反應變得更有可能再次發生,在該情境中產生不適效果的反應變得不太可能再次發生。 —— Edward Thorndike Thorndike的效果定律假設動物不是通過推理,而是通過與物理環境的試錯互動來學習,直到獲得成功的結果。這種決策策略以回顧性方式將獎勵與行動聯系起來,與前瞻性觀點相對立,后者認為動物形成環境的場域圖作為學習的指導機制,也稱為“認知地圖” [4, 5]。”
“關于人腦的大量實驗證據表明,行為選擇存在多種機制 [6],決策過程既是反思性的(前瞻性)也是反射性的(回顧性),正如我們所預期的那樣。強化學習理論也以類似的方式發展,現在包括兩個主要分支:無模型(反射性)和基于模型(反思性)RL [7]。無模型RL學習在狀態和行動之間的反應性映射,以增加代理的獎勵,而無需了解環境的基本物理原理。相反,基于模型的RL則學習對世界的內部表征,用于學習每個行動的后果。與基于模型的RL類似,另一種計算性的前瞻性推理方法可以在模型預測控制(MPC)中找到,它在機器人學和許多工業過程中有效使用 [8, 9]。在MPC中,使用已知模型來迭代地優化給定的獎勵,同時考慮規劃范圍內的約束和來自環境的反饋。鑒于其提前規劃的組成部分,MPC也可以被看作是一種反思性決策制定的形式。 在這篇論文的過程中,我們將看到如何將基于模型和無模型的RL與MPC風格的迭代規劃相結合,以創建比單獨組件更強大的控制策略。例如,無模型RL算法能夠從大量數據中快速學習,但對訓練超參數敏感,泛化能力不佳,并且缺乏規劃組件,這可能導致在復雜環境中做出次優決策。另一方面,基于模型的RL方法有可能更靈活,但經常受到與模型估計相關的偏差的困擾,當以自回歸方式使用時,這些偏差可能迅速累積。將基于模型的RL與MPC整合起來可以提供兩全其美的解決方案,因為MPC提供了一個規劃框架,可以納入學習到的世界模型,并在規劃范圍內優化代理的行動。這可以導致更高效的決策制定策略,能夠從經驗中學習,適應不斷變化的環境,并隨著時間的推移優化它們的行為,同時具有反應性以及規避風險的特性。”
深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。
然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。
機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。
想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。
現代人工智能(AI)系統通常需要在一個未知的、不確定的、可能敵對的環境中,通過積極地與環境交互來收集相關數據,從而做出連續的決策。強化學習(RL)是一個通用框架,可以捕獲交互式學習設置,并已被用于設計智能代理,以實現超人水平的表現,在具有挑戰性的任務,如圍棋,電腦游戲,機器人操作。
這門研究生水平的課程著重于強化學習的理論和算法基礎。本課程的四個主題為: (1)可證明有效的探索; (2)策略優化(特別是策略梯度); (3)控制; (4)模仿學習。
通過本課程,學生將能夠理解經典的和最新的可證明正確的RL算法及其分析。學生將能夠對與RL相關的課題進行研究。