如何確保使用高維度傳感器觀測(例如視覺)的機器人的控制策略安全(如自主無人機或家庭機器人)?由于機器學習技術能夠處理豐富的感知輸入,因此它們具有很大的吸引力。然而,在感知和控制流程中包含基于學習的組件的策略通常難以推廣到新環境。考慮一種家庭機器人,它經過在數千個不同的環境、物體和目標位置上的訓練,可以找到、抓取和移動物體。這種復雜的機器人不可避免地會遇到它沒有準備好的新環境。針對這種機器人系統的最先進的策略合成方法(例如基于深度強化學習或模仿學習的方法)通常無法提供安全保證,并可能導致在新環境中發生災難性失敗的策略。
在這篇論文中,我們將介紹我們開發的分析機器人系統在新的、可能不安全的環境中部署時安全性的技術。我們使用并發展泛化理論中的工具,以便利用機器人學習中的統計保證,在兩個關鍵研究方向上取得進展。 (i) 我們提供了保證檢測機器人系統是否準備好在當前環境中操作以及可能導致故障的方法。有了這些知識,可以部署緊急操作或備用安全策略,以保證機器人的安全。 (ii) 我們還為與訓練數據集分布不一致的設置開發了性能界限。在這兩種情況下,我們將這些技術應用于具有挑戰性的問題,包括基于視覺的無人機導航和自動駕駛汽車規劃,并證明了為機器人系統提供強有力安全保證的能力。
由于自動駕駛的復雜性和安全性關鍵性,最近的工作通常在為推進自動駕駛研究而設計的模擬器上測試他們的想法。盡管將自動駕駛建模為軌跡優化問題很方便,但這些方法中很少有借助在線強化學習(RL)來解決具有挑戰性的駕駛場景。這主要是因為經典的在線RL算法最初是為諸如Atari游戲之類的玩具問題設計的,這些問題可以在幾個小時內解決。相比之下,由于模擬耗時和問題本身的難度,使用這些在線強化學習方法可能需要幾周或幾個月的時間才能在自動駕駛任務上獲得令人滿意的結果。因此,一個有前途的自動駕駛在線強化學習流程應該是效率驅動的。
本文研究了由于昂貴的模擬成本,直接將通用單智能體或分布式RL算法應用于CARLA自動駕駛管道的低效性。本文提出兩種異步分布式強化學習方法,多并行SAC (off-policy)和多并行PPO (on-policy),致力于通過一個專門的分布式框架來加速CARLA模擬器上的在線強化學習訓練,該框架建立進程間和進程內并行。所提出的分布式多智能體強化學習算法在各種CARLA自動駕駛任務上以更短和合理的時間實現了最先進的性能。
自動駕駛的許多進展都集中在模塊化方法上,其中整個任務被劃分為多個子任務,如感知、規劃和控制[12,46,54,61,63,94]。雖然這種范式在典型的trac場景中表現良好,但在沒有為邊緣情況精心設計的特殊程序的情況下,它很難處理分布外駕駛情況。為了應對這個問題,強化學習(RL)受到了關注,因為自動駕駛可以自然地視為一個軌跡優化問題,我們需要對駕駛過程進行最優控制。經驗證據表明,強化學習方法能夠以高度自動化的方式實現這一目標,而不需要手動處理具有挑戰性的長尾和罕見情況。它們的成功已經在許多決策任務中得到了證明,例如玩策略游戲或操縱機器人[8,60,74,78,79,81,88]。
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
機器學習(ML)的最新進展改變了世界。過去是人類主宰規則,現在是機器儲存數據并做出決定。雖然這一變化帶來了真正的好處,但它已經實現了大量基于人類的交互自動化,使其易于操作。研究已經確定,機器學習模型非常容易受到對抗性擾動,特別是對其輸入的更改,這些更改對人類來說是無法察覺的,但會迫使它們以意想不到的方式作業。在本文中,我們采取了一種相當非正統的方法來研究機器學習安全,并通過計算機安全的角度來研究機器學習的現狀。我們發現了大量潛伏在系統安全和機器學習交叉領域的新攻擊和問題。接下來,我們描述了文獻的現狀,強調了我們仍然缺少重要知識的地方,并描述了該領域的幾個新的貢獻。該領域的一些特征使當前的安全方法變得不太適用,使現代機器學習系統容易受到各種各樣的攻擊。我們的主要貢獻是對機器學習的可用性攻擊——針對推理或模型訓練延遲的攻擊。我們還解釋了攻擊者如何利用與模型環境的許多其他交集。一個重要的見解是,必須理解、承認機器學習模型的固有局限性,并通過在更大系統中使用組件來補償控制進行緩解。
機器學習(ML)徹底改變了現代計算機系統,因此,更多的任務現在是完全自動化和模型驅動的。盡管深度神經網絡的性能令人印象深刻,但人們很快發現,底層模型是極其敏感的,攻擊者可以找到微小的,有時甚至無法察覺的擾動,以控制底層模型的行為。圖1 - 1展示了這種對抗性示例的一個例子——一個輸入樣本,旨在迫使模型將鳥瞰圖視為一輛汽車。(每個像素顏色的微小擾動被放大,使它們在這些圖像中可見。)這一發現導致了對抗性機器學習領域的誕生,在那里我們研究如何攻擊和防御ML模型。起初,這主要是由對基礎數學的研究和構建不太敏感的函數(如對抗性訓練)驅動的。然而,令人驚訝的是,這對嵌入模型的大型系統的安全性影響甚微,因為相同的模型仍然容易受到其他攻擊者的攻擊,也容易受到減少效用的影響。在實踐中,使用不那么敏感的近似函數并不一定會提高或降低安全性。攻擊者很少受到擾動大小的限制,并且可能更喜歡獲得模型的控制權,而不是根據某些學術指標保持攻擊不可察覺。
//www.repository.cam.ac.uk/handle/1810/338197
這種認識導致了一個新領域的創建——機器學習的安全性——在這里,我們不是孤立地觀察ML,而是在其環境、依賴項和需求的上下文中分析它。我們在博士期間一直在做的工作對這一文獻做出了早期貢獻,特別是開創了三種新的攻擊和防御類型。
**近年來,深度學習在許多領域得到了快速發展。這些成功啟發了在安全領域使用深度學習。**然而,當深度學習遇到安全性時,至少有兩個主要挑戰。首先,攻擊數據的可用性是個問題。在有限的攻擊數據下構建一個良好的模型是具有挑戰性的。其次,深度學習系統本身容易受到各種攻擊,這在使用深度學習提高計算機系統安全性時帶來了新的問題。為了解決第一個挑戰,本文展示了如何使用深度學習技術來提高有限或沒有攻擊數據的計算機系統的安全性。為了解決第二個挑戰,我們展示了如何保護深度學習系統的安全性和隱私性。 **具體而言,在本文的第一部分中,我們考慮了一個沒有攻擊數據的實際場景,即異常檢測。**本文提出了一種新的方法——重構誤差分布(RED),用于實時異常檢測。本文的關鍵見解是,計算機系統的正常行為可以通過時間深度學習模型捕獲。偏離正常行為表示異常。實驗表明,所提方法可以在電網控制器系統和通用云計算服務器中實時、高精度地檢測攻擊。論文的第二部分主要研究深度學習的安全與隱私保護問題。在機器學習即服務(MLaaS)系統中,可以通過一種精心設計的輸入,即敏感樣本,動態檢查云中的深度學習模型的完整性。在另一個場景中,例如邊緣-云系統中的分布式學習,我們證明了云中的攻擊者可以在攻擊者能力不斷減弱的情況下高保真地重構邊緣設備的輸入數據。本文還提出了一種新的防御方法來應對這些攻擊。 綜上所述,我們希望本文的工作能為利用深度學習提高安全性提供啟發,并有助于提高深度學習系統的安全性。
**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。
為自動駕駛汽車等自動系統設計控制策略是復雜的。為此,研究人員越來越多地使用強化學習(RL)來設計策略。然而,對于安全攸關系統而言,保障其在實際訓練和部署過程中的安全運行是一個尚未解決的問題。此外,當前的強化學習方法需要精確的模擬器(模型)來學習策略,這在現實世界的應用中很少出現這種情況。**本文介紹了一個安全的強化學習框架,提供了安全保證,并開發了一種學習系統動力學的受限學習方法。本文開發了一種安全的強化學習算法,在滿足安全約束的同時優化任務獎勵。在提供基線策略時,考慮安全強化學習問題的一種變體。**基線策略可以產生于演示數據,可以為學習提供有用的線索,但不能保證滿足安全約束。本文提出一種策略優化算法來解決該問題。將一種安全的強化學習算法應用于腿部運動,以展示其在現實世界的適用性。本文提出一種算法,在使機器人遠離不安全狀態的安全恢復策略和優化的學習器策略之間進行切換,以完成任務。進一步利用系統動力學的知識來確定策略的切換。結果表明,我們可以在不摔倒的情況下在現實世界中學習腿部運動技能。重新審視了已知系統動力學的假設,并開發了一種從觀察中進行系統辨識的方法。知道系統的參數可以提高模擬的質量,從而最小化策略的意外行為。最后,雖然safe RL在許多應用中都有很大的前景,但目前的方法需要領域專業知識來指定約束。本文引入了一個新的基準,在自由格式的文本中指定約束。本文開發了一個模型,可以解釋和遵守這種文本約束。我們證明該方法比基線獲得了更高的回報和更少的約束違背。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作
魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。
我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。
探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。
//searchworks.stanford.edu/view/14230541
自動駕駛汽車將在安全和效率方面給交通帶來革命性的變化。然而,自動駕駛系統在復雜的人類環境中仍然面臨著挑戰,比如在雜亂、動態的城市環境中駕駛自動駕駛汽車。在道路上部署自動駕駛系統的一個關鍵障礙是對人類行為的理解、預測和推斷。自主感知為機器人建立了對環境的總體理解。這包括在空間和時間上推斷人類行為。由于人類的行為差異巨大,目標變化迅速,因此很難對其進行建模。此外,在雜亂的環境中,存在計算和可見性的限制。然而,人類也擁有令人滿意的能力,例如他們在觀察到的環境之外進行泛化的能力。盡管基于學習的系統近年來在建模和模仿人類行為方面取得了成功,但有效地獲取這些系統的數據和模型的不確定性仍然是一個開放的問題。本文提出了在人類環境中不確定性感知自主感知系統的算法改進。我們在時空機器人感知方面做出了系統層面的貢獻,從而推斷出人類行為,并在軌跡預測的不確定性感知機器學習模型方面取得了基礎性進展。這些貢獻使機器人系統能夠對人類行為做出不確定性和具有社會意識的時空推斷。 傳統的機器人感知是以物體為中心的模塊化的,包括物體檢測、跟蹤和軌跡預測三個階段。由于環境中的部分遮擋,這些系統可能會在預測階段之前失效。因此,我們提出了一種從以地圖為中心的占用網格表示來進行時空環境預測的端到端范式。占用網格對部分遮擋具有魯棒性,可以處理場景中任意數量的人類智能體,并且不需要關于環境的先驗信息。我們研究了計算機視覺技術在這一背景下的性能,并開發了新的機制,以適應時空環境預測的任務。在空間上,機器人還需要對其環境中的全遮擋智能體進行推理,這可能是由于傳感器的限制或道路上的其他智能體阻礙了視野。人類擅長從觀察到的社會行為中推斷他們的經驗。我們從人類的直覺中汲取靈感,填補了機器人地圖上傳統傳感器無法觀察到的部分。我們通過學習從觀察到的人類駕駛員行為到前方環境的多模態映射來推斷這些閉塞區域的占用率,從而將人視為傳感器。該系統處理多個觀察智能體,以最大限度地告知機器人周圍的占用地圖。 為了安全地將人類行為建模集成到機器人自主堆棧中,感知系統必須有效地考慮不確定性。在基于學習的模型中,人類行為通常使用離散潛空間來建模,以捕獲分布中的多模態。例如,在一個軌跡預測任務中,對于一個過去的軌跡,可能存在多個有效的未來預測。為了準確地模擬這種潛在分布,潛在空間需要足夠大,這導致下游任務(如路徑規劃)的可處理性問題。我們通過提出一種離散潛在樣本空間的稀疏化算法來解決這個問題,該算法可以在不犧牲模型性能的情況下應用于事后處理。我們的方法成功地平衡了多模態和稀疏性,實現了有效的數據不確定性估計。除了對數據的不確定性進行建模,基于學習的自主系統必須意識到它們的模型不確定性或它們不知道的東西。標記現實世界中遇到的分布外或未知場景,可能有助于下游自治堆棧組件和工程師進行進一步的系統開發。盡管機器學習社區在小型基準問題的模型不確定性估計方面非常豐富,但在復雜的基于學習的機器人系統中估計這種不確定性方面的工作相對較少。本文提出在軌跡預測任務的背景下,在可解釋的低維潛空間上有效學習模型的不確定性。本文提出的算法在真實的自動駕駛數據上進行了驗證,并以最先進的技術為基準。我們表明,在建模相關的不確定性時,從人類層面的推理中汲取靈感,可以為自主感知系統的環境理解提供信息。在這篇論文中所做的貢獻是向不確定性和社會意識的自治系統邁出的一步,它可以在人類環境中無縫地運行。