通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。
此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。
觸覺感知在機器人與物理環境交互中扮演著重要角色,這一觀點已被廣泛認可。然而,現有的傳感器中,少有能夠在機器人領域中得到廣泛應用。本文提出了一個將觸覺感知融入機器人學習范式的框架,涵蓋從開發到部署的全過程,并通過ReSkin——一種多功能且可擴展的磁性觸覺傳感器為實例。通過探討ReSkin的設計、集成、策略學習和表示學習,本文旨在為機器人學習中有效的感知系統的實現提供指導。我們首先提出ReSkin——一個低成本、緊湊且多樣化的觸覺感知平臺。我們開發了一種自監督學習技術,使得傳感器具備可替換性,通過適應已學習的模型推廣到新的傳感器實例。接下來,我們在靈巧操作的背景下研究了ReSkin的可擴展性:我們引入了D'Manus,一個廉價、模塊化且堅固的平臺,集成了大面積的ReSkin傳感,旨在滿足機器人學習的大規模數據收集需求。基于ReSkin和D'Manus的開發經驗,我們提出了AnySkin——一種專為機器人學習設計的升級版傳感器,它進一步減少了不同傳感器實例之間的響應差異。AnySkin的集成簡單如同給手機戴上手機殼,無需粘附,并表現出更一致的信號。我們將AnySkin部署在精確操控的策略學習場景中,展示了在補充相機信息后任務性能的提升,并實現了跨傳感器實例的零樣本策略遷移。除了傳感器的設計和部署,我們還探索了包括但不限于ReSkin在內的傳感器的表示學習。傳感數據通常是連續的、序列性的,但大多數現有的序列架構研究(如LSTM和Transformer)主要集中在離散模態,如文本和DNA。為填補這一空白,我們提出了分層狀態空間模型(HiSS),一種概念上簡單的新型連續序列到序列預測(CSP)方法。HiSS通過在時間軸上疊加結構化的狀態空間模型來創建層次結構,并且在現有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表現優異。此外,我們引入了CSP-Bench,一個來自真實感知數據的CSP任務新基準。CSP-Bench旨在解決CSP任務中缺乏真實世界數據集的問題,為從事該領域研究的學者提供了寶貴的資源。最后,我們總結了從ReSkin的開發到部署過程中的經驗教訓,并提出了將觸覺感知帶入主流機器人研究中的潛在方向。
引言
傳感設備在幫助機器人有效理解和響應其周圍環境中起著至關重要的作用。其中,觸覺傳感器尤為重要,因為它們為機器人提供了類似于人類的觸覺感知,使其能夠精確地處理物體、檢測障礙物或危險、調整對物體的握力,并有效操縱環境。盡管這一領域多年來取得了顯著進展,但目前仍缺乏一種普遍適用的機器人觸覺感知解決方案。這主要是由于開發、集成和從觸覺傳感器中學習的復雜多步驟過程——每個步驟都面臨著一系列挑戰。本文通過ReSkin——一種專注于耐用性、可擴展性和適用于機器人學習應用的魯棒性磁性觸覺傳感器,提出了一種應對這些挑戰的方案。
人類靈活性的關鍵在于觸覺反饋 [77, 78, 79],這一點長期以來激發了對機器人觸覺傳感器的廣泛研究,始于機器人學的早期 [67, 91]。多年來,微型化和快速原型制作加速了基于各種換能技術的觸覺傳感器的發展 [52]。電阻式 [128, 147] 和壓阻式 [12, 129] 傳感器通過材料在兩個電極之間的變形引起電阻的變化來測量施加的壓力。電容式傳感器 [53, 133] 類似地依賴于測量傳感器變形引起的電容變化來捕捉交互特性。最近,使用相機與彈性體材料相結合的光學傳感器 [40, 90, 146, 152] 通過一系列彈性體變形的圖像捕捉物理交互,成為一種高分辨率的觸覺感知替代方案。其他解決方案則使用MEMS設備 [105, 132] 和壓電材料 [36, 159] 作為記錄物理接觸信息的換能機制。然而,這些傳感方案中的許多存在缺陷,阻礙了它們在機器人領域的普及。除了光學傳感器外,每種傳感技術都需要電路與軟性彈性體之間的直接電氣連接。盡管軟性彈性體的集成在一定程度上提升了觸覺傳感器的接觸適應性,這種非預期的耦合增加了成本并使集成過程變得復雜。光學傳感器通過將傳感電子元件(相機)與傳感界面(彈性體)分離,克服了這一難題,但它們需要相機和彈性體之間有清晰的視線,嚴重限制了其形狀因素并增加了設計復雜性。此外,由于彈性體界面的柔軟性,彈性體比相關電子元件老化更快,需要頻繁更換。然而,傳感器的可替換性和一致的傳感響應,這些在軟性傳感器背景下很少被討論。此外,軟性傳感器復雜的制造程序使其難以規模化生產,并增加了傳感器實例間的響應差異。鑒于這些不足,本文的重點是使用磁性彈性體進行觸覺感知 [69, 70]。磁性換能的使用使ReSkin的電路與作為傳感界面的磁性彈性體完全獨立分離。這使我們的傳感器具有低成本、可擴展性和靈活的形狀因素等優勢,能夠適應不同形狀和大小的表面。我們的制造過程簡單且可重復,從而減少了不同磁性彈性體皮膚實例之間的響應差異,最小化了彈性體更換帶來的干擾,強化了其作為通用機器人觸覺傳感器的適用性。
類似于觸覺感知,人手的多功能性長期以來激勵了許多關于仿人手能力的機器人手研究 [10, 89, 103]。構建這些設備的復雜性導致當代許多解決方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),價格極為昂貴(超過$25,000)、易碎且難以維修。這些缺點與數據驅動機器人的需求相悖,數據驅動機器人依賴大量數據,這反過來要求硬件廉價且能夠應對大規模數據采集的各種挑戰。LEAP Hand [124] 和Trifinger Hand [151] 等解決方案試圖通過創建廉價、通用且易于組裝的機器人手來填補這一空白。然而,盡管觸覺感知被廣泛認為是人類靈活性的核心 [78, 79],但這些解決方案中沒有一個能夠以合理的價格(<$50,000)提供可擴展的觸覺感知集成。D'Manus——一個開源的手部設計,集成了大面積的觸覺傳感,填補了機器人手部觸覺感知領域的這一關鍵空缺。此外,該手完全可以3D打印,具有輔助靈活性的手掌功能,不同于其他設計 [2, 151],還具備其他商業手部設計中沒有的關鍵功能,如內收和外展能力,并且比大多數商用替代品便宜至少10倍。
許多現實世界的控制系統,如風力渦輪機狀態監測 [130]、MRI識別 [84] 和慣性里程計 [4, 98],通常通過處理噪聲傳感數據來推斷環境狀態。傳統的傳感器響應建模主要依賴于分析技術來建模原始測量量(如電阻、電容、磁通)與感興趣量(如力、扭矩、慣性測量)之間的關系 [96, 120]。雖然分析建模在將測得的換能量映射為可解釋的量(如力或接觸位置)方面很有用,但它通常復雜且/或需要嚴格的假設,這些假設無法完全模擬傳感器的行為 [61]。有限元分析等計算技術 [97] 盡管有效,但速度極慢,限制了傳感器在實時環境中的應用。快速原型和制造技術的進步加快了傳感器開發的速度和多樣性,同時也催生了對間接建模技術的需求,這些技術能夠實現這些傳感器的實時部署。機器學習為解決這一問題提供了一種可行的方案,通過無需明確建模驅動換能機制的復雜物理現象來實現隱式傳感器建模 [32, 75]。盡管在視覺和語言方面的深度學習研究展示了跨任務的強大能力 [1, 41],在傳感數據上的有效機器學習模型仍然寥寥無幾 [86, 154]。盡管某些深度學習解決方案在傳感數據上顯示了令人鼓舞的結果,但它們仍然是針對特定傳感器的研究 [71, 153]。傳感學習中存在的兩難局面導致了這一現象:缺乏統一、標記化的傳感數據集,進而導致缺乏處理傳感數據的神經架構研究,從而缺乏對傳感系統能力的理解,而這本應促使更多數據的收集。為解決這一問題,我們提出了一個兩部分的解決方案:CSP-Bench——一個由六個連續序列預測任務組成的基準數據集,以及分層狀態空間模型(HiSS)——一種擅長對連續傳感數據進行序列推理的神經架構,基于在結構化狀態空間模型(如S4和Mamba)中引入時間層次。我們借鑒了視覺和語言領域的成功案例 [85],這些研究展示了在基于學習的推理中,審慎的神經架構選擇和歸納偏差的重要性。我們展示了在跨三種不同傳感器的六項傳感預測任務中,HiSS相較于傳統序列建模架構(如因果Transformer、LSTM、S4和Mamba)表現出色。
隨著機器人學家解決機器人在非結構化環境中操作的問題,特別是隨著深度學習的興起,機器人學習成為一種極具前景的解決方案。集成了最前沿的神經架構 [68, 117, 142] 與密度估計 [30, 93] 和模仿學習算法的技術,使得抓取 [161]、操作關節物體 [42, 107] 以及雙手操作 [162] 的能力得以實現。然而,與本章的持續主題保持一致,集成觸覺感知的機器人學習模型顯著稀缺。對需要對與環境的物理交互進行推理的復雜精確技能學習的分析大多局限于模擬 [28, 92],幾乎沒有討論如何將這些策略遷移到現實世界。替代方法通常涉及復雜、不現實的攝像機設置,以規避缺乏觸覺感知的問題 [3, 5]。本文對融合視覺和觸覺傳感數據的多模態策略學習進行了控制研究,并交叉驗證了所有可用模態在學習有效機器人策略中的重要性和有效性。
本文其余部分的結構如下:第二章介紹ReSkin——一種磁性觸覺皮膚,它的能力以及學習傳感器模型的潛力;第三章介紹D'Manus——一種開源的集成大面積感知的靈巧手設計;第四章介紹升級版的自粘式傳感器皮膚設計,并展示其在策略學習中的可替換性;第五章討論了一個新的基準數據集和一種針對觸覺及其他傳感數據的序列建模的新型學習架構。我們在第六章總結了主要經驗教訓并探討了未來的研究方向。
生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。
我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。
作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。
接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。
然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。
然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。
本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
**生成建模承諾為學習圖像和視頻等高維數據分布提供一種優雅的解決方案——但我們如何揭示和利用這些模型發現的豐富結構呢?**除了生成新樣本之外,智能體還能如何利用 p(x) 作為了解世界運作方式的知識來源呢?本論文探討了可擴展的歸納偏差,解鎖了生成模型對視覺數據的解耦理解,從而實現更豐富的交互和控制。 首先,我提出了一種將場景表示為特征“斑塊”集合的方案,在這種方案中,生成對抗網絡(GAN)無需任何標簽就能學會將每個斑塊綁定到其生成的圖像中的不同對象上。這使得GAN能夠更優雅地建模組合場景,而典型的無條件模型則受限于高度對齊的單對象數據。經過訓練的模型表示可以很容易地進行修改,以反事實地操縱生成和真實圖像中的對象。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-65.html
接下來,我考慮了在訓練期間不對架構施加瓶頸的方法,從而使這些方法能夠應用于更多樣化、未經過濾的數據。我展示了擴散模型的內部可以被用于有意義地引導新樣本的生成,而無需進一步的微調或監督。從去噪器激活的一小組原始屬性中得出的能量函數可以組合起來,對迭代擴散采樣過程施加任意復雜的條件。這使得能夠控制任何可以用文本描述的概念的屬性,例如位置、形狀、大小和外觀。 我還證明,文本到圖像模型學習到的分布可以被蒸餾以生成組合性3D場景。主流方法專注于孤立地創建3D對象,而不是包含多個實體交互的場景。我提出了一種架構,在對其進行優化使其輸出位于圖像生成器的流形上時,可以生成分解為其包含對象的3D場景。這為模型僅通過2D圖像觀察到的世界推斷實際3D結構提供了證據。最后,我以一個視角總結了涌現、控制、可解釋性和規模之間的相互作用,并嘗試將這些主題與對智能的追求聯系起來。
隨著在安全關鍵領域應用強化學習(RL)的需求日益增加,迫切需要安全、魯棒且多功能的RL算法。本論文直接回應了這一需求,引入了一套先進的策略優化算法,旨在克服安全RL面臨的關鍵挑戰,從而為更可靠和實用的部署鋪平道路。
論文的第一部分集中于提高樣本效率和訓練穩定性——這是可部署安全RL的關鍵方面。我們提出了約束變分策略優化(CVPO)方法,該方法將安全RL問題重新定義為兩階段優化過程。這種方法不僅確保了高效且穩定的學習,還提供了強大的性能保證,使其成為實際安全RL應用中安全性和樣本效率方面的優越選擇。 論文的第二部分深入探討了可部署RL的關鍵組成部分——魯棒性,特別是針對觀測擾動的魯棒性。我們發現,學到的安全策略對隱秘但不安全的行為誘導很脆弱。我們的發現強調了在不利條件下提高安全性的魯棒對抗訓練的必要性。基于此,我們首先引入了一種在策略上的對抗訓練流程,然后提出了SAFER,一種從CVPO衍生的離策略方法,有效地在對抗環境中增強了策略的魯棒性和安全性。
最后,論文通過從靜態離線數據集學習,解決了可部署RL的適應性和可擴展性問題。它引入了約束決策變換器(CDT),一種新穎的方法,利用序列建模技術在部署過程中動態調整安全性和任務性能之間的權衡。與CDT同時,論文提出了TAIL,一個可擴展的連續學習訓練范式,有效地將預訓練模型適應新任務,同時減輕災難性遺忘和過擬合。
總之,本論文致力于推動安全、魯棒和可擴展策略優化的界限,朝著在安全關鍵領域可部署RL邁進。所提出的方法提供了魯棒、高效和可適應的解決方案,這對RL系統的現實世界部署至關重要。 隨著強化學習(RL)繼續成熟并擴展其視野,從模擬環境過渡到真實世界的應用,使RL在實際的安全關鍵領域可部署的重點日益加強。可部署的RL指的是RL系統在復雜、動態且往往是高風險環境中安全、可靠且高效地互動和學習的能力。這包括自動駕駛車輛在城市交通中導航、金融系統執行交易或醫療機器人協助手術。為了使RL可部署,它必須遵守嚴格的安全、魯棒性、適應性和可擴展性要求——確保RL代理在多變和不可預測的現實世界條件下表現得當。
可部署RL的基石是安全性。安全強化學習(safe RL)專門通過學習不僅尋求最大化獎勵但也遵循預定義安全約束的策略來解決這一問題。這些約束對于防止危險行為和確保RL代理在可接受的風險參數內運作至關重要。安全性不僅僅是一個特性——它是一種基本必需品,支持在不確定性盛行且風險高的現實世界設置中部署RL的整個前提。
然而,僅有安全性并不能保證可部署性。為了讓RL從理論過渡到實踐,它還必須具備魯棒性和可擴展性。RL中的魯棒性指的是策略對環境變化和不確定性的抵抗力,包括在訓練期間未遇到的新場景或敵對嘗試破壞代理的行為。另一方面,適應性涉及RL算法高效地從大數據集和多樣化場景中學習和適應的能力。適應范式還應該是可擴展的,以持續發展并隨時間改進其策略。這關乎RL系統在廣泛的任務和條件中保持其性能和安全性的能力,不斷提高其能力和可靠性。
在這篇論文中,我們專注于推動安全RL的前沿,強調使其可部署。我們通過深入探討三個相互關聯的方面——安全性、魯棒性、適應性和可擴展性來解決這一挑戰,以安全性為核心,將其他方面進行語境化。我們的目標是開發方法論和算法,使我們更接近將RL視為一套理論工具和技術的愿景,而是一套實用、可靠且高效的解決方案,準備好用于真實世界的實施。這種追求是由RL在關鍵應用中的日益增長的需求和巨大潛力所激發的,推動了對不僅表現出色而且可信和可適應的系統的需求。通過專注于安全RL作為通往可部署RL的途徑,我們旨在為將智能、基于學習的系統整合到我們日常生活中的更廣泛目標做出貢獻,增強能力,并確保安全和福祉。
動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。
動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。
當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。
最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。