自動駕駛車輛在公共道路上的部署已取得了巨大的進展,然而在人駕車和自動駕駛車共享道路的情況下進行安全導航對于即使是最先進的系統也是一項挑戰。我們需要算法和系統來為自動駕駛車輛開發和評估符合社會規范的規劃算法。在這篇論文中,我們提出了一個考慮到人類操作員在車輛軌跡規劃和運動控制中的社會效用的半合作自主性框架。此外,我們提出了一個新的機器人平臺,用于在安全的實驗室環境中部署和評估半合作自主性。在這篇論文中,我們結合了來自社會心理學的概念和博弈論規劃算法,以開發半合作自主規劃器。從一個自動駕駛車輛開始,我們提出了一種考慮到每個人駕駛員的社會價值取向,同時實現了可取的博弈論均衡的算法,稱為"想象共享控制的迭代最佳反應"。半合作框架被應用到更大規模的系統,例如為混合人機自主交通提供符合社會規范的交叉口管理器,以及理解社會價值取向對車輛交通流的影響。此外,我們提出了一個能感知可視性的軌跡優化算法,用于圍繞盲點的主動運動規劃,該算法將人類駕駛員的不確定性模型納入到半合作軌跡規劃器中。我們在人類和自動駕駛車輛的模擬中演示了這些算法的有效性,并研究了人類性格對算法性能的影響。其次,我們介紹了 MiniCity,這是一個1/10比例的城市環境,包括逼真的城市景觀、交叉口,以及配備了最先進傳感器和算法的多個完全自動駕駛的1/10比例車輛。我們描述了 MiniCity 機器人平臺如何用于半合作自主性的開發,從評估算法性能到開發新的智能交通系統。首先,我們使用 MiniCity 來評估車輛自主性,既測量上游感知對下游車輛性能的影響,又測量半合作交叉口管理器的效率。其次,我們利用 MiniCity 的人在環路駕駛員界面收集用戶偏好,用于共同設計穿越交叉口的共享控制器。最后,我們提出了一種新的基于基礎設施的故障檢測算法 FailureNet,該算法在 MiniCity 的自動駕駛車輛上進行訓練和部署。在所有這些中,MiniCity 為開發交互式算法提供了一個安全和可擴展的環境,使我們更接近在混合人工自主駕駛的道路上完全部署符合社會規范的自主性。
機器人正逐漸從工業和實驗室進入我們的日常生活。無論是作為伴侶、教師、接待員、清潔工,還是滿足其他需求,這些機器人都旨在提高我們的生活質量。然而,機器人的自主決策能力仍然是機器人技術面臨的主要挑戰。為了提高機器人的自主性,一方面,研究人員傾向于根據不同的標準對協作進行分類,以收集人機協作之間的共性。這樣做的目的是檢測機器人在執行各種任務時必須能夠完成的相似步驟。另一方面,其他作品則側重于增強建立人機協作所需的一個或多個領域。要實現人機協作,機器人必須完成四個標準步驟:感知、決策、運動執行和評估。
本論文旨在通過改進機器人的決策過程來優化人機協作性能。我們根據不同的可變性能指標來評估協作性能。因此,優化協作的目的是使人類受益,例如更快地完成任務或減少人類智能體的工作量。然而,未優化的協作將不會給人類帶來任何益處,或者相反,即使最終完成了任務,也會給人類帶來麻煩,如減慢人類的速度或使人類負擔過重。
我們首先開發了一個優化機器人決策過程的全局框架。我們將這一框架應用于非直觀的裝配任務,即需要進行復雜的認知處理,以找到擬議裝配游戲中每個部件的正確位置。我們希望提高人機協作團隊完成任務的時間,而無需提高其物理能力(即感知、軌跡規劃或低級控制)。我們提出的框架可在考慮不同性能指標的同時改善人機協作。這些指標的考慮與人類智能體的行為無關。
然后,我們將這一框架應用于第二個更復雜的應用(即軟物體變形),該應用需要通過改進低級控制來提高機器人的操縱靈活性。事實上,我們將考慮第二種應用,這種應用要求提高機器人的操縱靈活性,以最大限度地優化協作性能。人機協作團隊必須共同操縱軟物體,使其達到所需的形狀。協作團隊可以使用深度強化學習方法來實現這一應用。我們的想法是在仿真中訓練智能體(單臂機器人或雙臂機器人),并通過用人類智能體替換第二機械臂進行實際測試。
關鍵詞 人機協作 決策 博弈論 強化學習
前面內容介紹了人機協作(HRC)中使用的決策(DM)方法、DM策略和獎勵函數(或效用函數)。在本章中,我們將介紹在人機協作背景下的新DM框架。最先進的技術將人機交互視為一個優化問題,其中的效用函數(博弈論中使用的名稱),也稱為強化學習中的獎勵函數,被定義為無論交互執行得如何,都要完成任務。當考慮性能指標時,它們不能在同一框架內輕易改變。
相比之下,我們的DM框架可以很容易地處理從一個案例場景到另一個案例場景的性能指標變化。我們的方法將HRC視為一個約束優化問題,其中效用函數(或獎勵函數)分為三個主要部分:
一組評估協作績效的獎勵。這是改變性能指標時唯一需要修改的部分。它提供了對交互方式的控制,同時也保證了機器人的行動能夠實時適應人類的行動。
一組定義如何完成任務的約束條件。
重新組合機器人物理能力的集合。
因此,可以設計效用函數(或獎勵函數)來改善機器人的操縱靈活性。在本章開始,我們將介紹建立這樣一個框架的動機和優勢。然后,我們將我們的工作與最先進的技術進行比較。最后,我們將詳細解釋我們的形式化方法。
動機
如今,HRC已成為機器人領域中一個快速增長的領域。HRC旨在使人類的日常任務變得更加容易。它基于人類和機器人之間的信息交流,共享一個共同的環境,以隊友的身份完成一項任務,實現共同的目標[28]。HRC應用可為人類帶來社會和/或物理益處[11]。
如第2章所述,機器人能夠在不同情況下適應人類,這要歸功于其DM過程,計算機科學中通常使用帶有策略和效用函數的DM方法對該過程進行建模[42]。DM方法對整個情境(包括環境、行動、智能體、任務限制等)進行建模。策略定義了根據獎勵值選擇行動的政策。效用函數(即獎賞函數)通過賦予每個行動以獎賞來評估每個行動。如第2.3節所示,通過考慮性能指標(參見表1.1)來實現獎勵函數,是提高HRC性能的一種可能性。
在本章中,我們將根據一些可改變的性能指標對人類智能體的影響,對機器人與人類之間的協作進行優化和定量評估。因此,優化的協作旨在為人類帶來益處,例如更快地完成任務或減少人類智能體的工作量。然而,未優化的協作將不會給人類帶來任何好處,或者相反,即使最終完成了任務,也會給人類帶來麻煩,如減慢人類的速度或使其負擔過重。本章的主要貢獻在于,所提出的框架可根據一些可變指標,優化一個或多個人類與一個或多個機器人之間的協作性能。與以往的工作不同,我們的框架允許我們輕松地改變性能指標,而無需改變整個任務的形式化方式,因為我們在效用函數中隔離了指標的影響。
這一貢獻的益處在于提高了協作性能,并有可能改善或不改善機器人的操縱靈活性。這在相關的實際案例中非常重要,例如,在使用社交機器人時,這些機器人有很大的局限性(例如,動作遲緩和/或靈巧性降低)[27],而大幅提高其能力并不容易,甚至不可能。因此,我們的工作提供了一個有趣的解決方案,以提高此類受限機器人的協作性能。
我們的框架采用最先進的DM流程,由DM方法、策略和效用函數組成。我們將效用函數(或獎勵函數)分為三個主要部分:根據一個或多個性能指標,通過獎勵來評估協作性能;任務完成度,由于我們只處理可實現的任務,因此將其視為約束條件;以及重新組合機器人物理能力的集合。在下面兩節中,我們將簡要回顧文獻中如何使用效用函數,并提及我們在這方面的貢獻。
效用函數或獎勵函數
正如第二章中提到的,效用是由效用函數(或報酬函數)計算出來的報酬,用來表示一個行動的價值。通過這些效用,DM策略可以選擇正確的行動。之前的一些文獻只考慮了效用函數中的任務完成情況(而沒有考慮性能指標),因為他們的重點是復雜任務的完成情況。例如,在文獻[17]中,一個人機協作團隊抬著一張桌子從一個房間移動到另一個房間。目標是通過讓人類也適應機器人來確保代理之間的相互適應。在這類工作中,沒有考慮表1.1中的任何性能指標。
較近期的作品包含了性能指標(見表1.1)。不過,他們認為,如果不對框架進行重大修改,這些指標是無法改變的。一個相關的例子是[156],通過改變任務分配,作者使機器人遵守裝配過程的實時持續時間,同時按照必要的順序裝配零件。在這種情況下,他們只考慮了一個指標(完成時間),因為遵守零件裝配順序是完成任務的一個約束條件。然而,使用該框架,該時間指標不能被其他指標(如努力或速度)取代。
貢獻
與目前工作中使用的效用函數不同,我們考慮的是可變的、不受限制的性能指標(見表1.1),這些性能指標通常無論人類行為如何都會被優化。總結我們的貢獻,我們提出的框架允許我們
從一個場景到另一個場景,輕松地改變性能指標,而不需要改變我們形式化中的任何東西,除了效用函數中與指標相關的部分,以及
由于我們將獎勵函數中的這一部分分離出來,因此可以在提高或不提高機器人操縱靈活性的情況下提高協作性能。
在下一節中,我們將定義問題的形式化并提出效用函數,該函數優化了性能指標,并以完成任務為目標作為約束條件。
性能指標
只要某項指標可以用數學方法表述,或者至少可以在任務執行過程中進行測量,并作為計算任務獎勵的條件,就可以通過性能指標{M}在選擇行動時加以考慮。表 3.1 列出了我們可以考慮的一些性能指標。表3.1是第一章中表1.1的簡化版。
多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。
深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。
這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。
本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。
我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。
機器人系統正在進入舞臺。在硬件組件和軟件技術進步的推動下,機器人越來越能夠在工廠外運作,協助人類,并與人類一起工作。機器人擴張的限制因素仍然是機器人系統的編程。由于建立一個多機器人系統需要許多不同的技能,只有最大的組織能夠在機器人提供的服務空間中進行創新。
只有最大的組織能夠在機器人提供的服務空間中進行創新。為了使開發新的機器人服務更容易,我在這篇論文中提出了一個規劃模型,在這個模型中,用戶(程序員)給出了需要完成的聲明性規范,然后一個后臺系統確保該規范被安全、可靠地執行。我介紹了Antlab,一個這樣的后端系統。Antlab接受來自多個用戶的線性時態邏輯(LTL)規范,并使用一組不同能力的機器人來執行它們。
在實施Antlab的經驗基礎上,我確定了由所提出的規劃模型產生的問題。這些問題分為兩大類:規范和規劃。
在規范問題的類別中,我解決了從正反兩方面的例子中推斷LTL公式的問題,以及僅從一組正面例子中推斷LTL公式的問題。在這些解決方案的基礎上,我開發了一種方法來幫助用戶將他們的意圖轉移到正式的規范中。本論文所采取的方法是將來自單個演示的意圖信號和用戶給出的自然語言描述結合起來。通過將問題編碼為命題邏輯的可滿足性問題,推斷出一組候選規范。通過與用戶的互動,這組規格被縮小到一個單一的規格;用戶批準或拒絕對機器人在不同情況下的行為進行的模擬。
在規劃問題類別中,我首先解決了目前正在執行任務的機器人的規劃問題。在這種情況下,不清楚應該把什么作為規劃的初始狀態。我通過考慮多個推測的初始狀態來解決這個問題。從這些狀態出發的路徑是根據一個質量函數來探索的,該函數反復估計規劃時間。第二個問題是獎勵函數為非馬爾科夫時的強化學習問題。建議的解決方案包括反復學習代表獎勵函數的自動機,并使用它來指導探索。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
由于物理世界是復雜的、模糊的、不可預測的,自主的智能體必須被設計成表現出人類水平的靈活性和通用性——遠遠超出我們顯式編程的能力。這種自主的實現不僅能夠可靠地解決特定的問題,而且還能夠預測可能出現的錯誤,以便制定戰略、適應和持續學習。要想做出如此豐富而復雜的決策,就需要在自主學習生命周期的所有階段重新思考智能的基礎。
在本論文中,我們開發了新的基于學習的方法,以實現自主系統的動態、彈性和穩健決策。通過解決在所有階段出現的關鍵挑戰,從用于訓練的數據,到在這些數據上學習的模型,再到算法,以可靠地適應部署期間的意外事件,來推進野外的魯棒決策。我們首先探索如何通過計算設計豐富的合成環境,能夠模擬連續的難以收集的、分布外的邊緣情況,在訓練和評估期間易于使用。利用這個豐富的數據基礎,我們隨后創建了高效、富有表現力的學習模型,以及優化其表示的必要算法,并克服了代表性不足和具有挑戰性的數據中的不平衡。最后,使用經過訓練的模型,我們將轉向部署設置,在該設置中,我們仍然應該預期我們的系統將面臨在訓練中從未遇到過的全新場景。為此,我們開發了自適應和不確定性感知算法來估計模型的不確定性,并利用它的存在來實現一般化的決策,即使是在存在意外事件的情況下。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html
在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。
在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。
在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。
自動駕駛汽車 (AV) 提供了幾個潛在的好處,包括減少交通事故的數量、減少在交通中花費的時間,以及提高那些不能開車的人的機動性。在過去的十年里,自動駕駛汽車已經有了重大的進展,在鳳凰城、舊金山和匹茲堡等城市進行了測試 [28]。在某些有限的情況和地理位置中,自動駕駛汽車能夠在沒有人類后備駕駛員的情況下駕駛 [48]。
盡管取得了這些進步,但廣泛采用 AV 技術尚未實現。造成這種情況的一個主要原因,除了技術差距之外,是由于對 AV 技術缺乏信任。自動駕駛汽車教育合作組織 (PAVE) 在 2020 年進行的一項調查顯示,48% 的美國人不會“乘坐自動駕駛的出租車或拼車”。此外,只有 58% 的參與者認為“十年后會出現安全的自動駕駛汽車”,這表明目前對自動駕駛汽車技術缺乏信任 [5]。這項調查表明,即使自動駕駛汽車具有顯著的社會效益,如果沒有技術利益相關者的接受和信任,這些效益也無法實現。
這些利益相關者不僅限于坐在 AV 內的乘客,還包括其他道路使用者,如最近的行人、騎自行車的人和人類司機。在這些道路上,自動駕駛汽車必須能夠無縫集成到混合交通中,平衡安全和效率目標,并符合人類對規范駕駛員行為的期望。
然而,這并不是一個簡單的問題,因為與 AV 相比,人工駕駛車輛的策略和特性不同。特別是,自動駕駛汽車充當嚴格遵守交通規則并尋求以優化由旅行時間、乘客舒適度和燃油效率等因素組成的目標的方式。這與靈活地遵循交通規則并且有限理性的人類代理形成對比,他們選擇實現駕駛目標但可能不是最優的行動。例如,人類表現出的駕駛行為,如超速、急速駕駛和尾隨,這些行為在旅行時間和燃油效率等目標方面并不是最佳的。這種駕駛行為的錯位導致兩個代理都無法正確預測另一個代理會做什么,這可能導致交通流量效率低下和潛在的事故[61]。
為了彌合差距,研究集中在人類駕駛員建模上。這涉及使自動駕駛汽車以與人類駕駛汽車類似的方式駕駛,但也改進了人類駕駛汽車的預測,以實現更有效的交互。
關于前一點,由于大規模駕駛數據集的可用性,最近的工作試圖從演示中學習人類行為。在 [95] 中,應用駕駛模型來預測交叉路口的離散動作(直行、停車、左轉、右轉),并基于伯克利 DeepDrive 視頻數據集預測車道跟隨的角速度輸入。類似地,在 [6] 中,駕駛演示用于訓練基于來自車載感知堆棧的已處理場景表示的駕駛模型。確定僅在大型數據集(3000 萬個實例)上進行訓練不足以確保在未見場景中的可靠性。通過增加正則化的訓練損失和合成邊緣案例示例(例如,橫向偏移中的擾動)來減少泛化誤差。然而,這證明了數據驅動模型的一個關鍵限制——特別是,列舉在駕駛過程中可能出現的邊緣情況以減少泛化誤差是極其困難的。
數據集對于預測路上的其他人類代理也很重要。早期的研究通過觀察注意力和分心等模式下的駕駛行為并構建相應的模型,在短時間內對個體駕駛員進行建模[83]。例如,[71] 開發了一個基于凸馬爾可夫鏈的駕駛員模型,以捕捉人類駕駛員的隨機性,并能夠對安全性進行概率查詢。最近,包括 [85,13,42] 在內的大規模預測數據集專注于長期運動預測,并提供帶注釋的場景上下文以及演員在各種交通場景中所采取的軌跡。這些數據集的優勢在于無需預先指定的特征選擇和/或手動調整,即可學習復雜的數據驅動的驅動程序模型,從而對語義上下文進行更細致的解釋。例如,數據集可用于通過逆向強化學習來學習人類駕駛員獎勵函數,這可以被納入交互感知規劃(例如[73, 72]),并使用形式化方法分析獎勵錯誤指定的魯棒性 [70]。相比之下,經典方法通常需要特征選擇和調整的專業知識。例如,像智能駕駛員模型 [87] 這樣的交通流模型需要了解模型參數,如最大縱向加速度、最小間距和車輛之間的時間間隔等。類似地,卡爾曼濾波器和可達集等方法需要對車輛動力學進行詳細建模,以及干擾協方差或界限識別[7, 33]。
讓單一模型在不施加較大不確定性界限的情況下捕獲各種異質的人類駕駛員和交通環境具有挑戰性。雖然數據驅動的方法可以通過減少預測錯誤和更好地對潛在概率分布進行建模來提供幫助,但它們在新情況下仍然容易出錯,并且不能在所有情況下都盲目信任。因此,解決精確和準確預測之間的權衡,如 [26] 中所述,是成功部署任何預測框架的關鍵設計參數。
當與在混合環境中運行的 AV 的控制設計相結合時,這種權衡尤其重要。通過魯棒和隨機控制等方法,存在結合不確定性和干擾的原則方法[14]。隨著不確定性邊界的增長,自動駕駛汽車的可行控制行為集開始縮小,通常最佳解決方案只是放慢速度,直到不確定性得到解決。這可能導致過于膽小、規避風險的 AV 不符合人類代理的期望,從而加劇了上述人類與 AV 錯位的問題。因此,確定如何根據觀察到的行為調整不確定性或納入自適應策略對于找到安全有效的 AV 行為的最佳點至關重要。
我們看看如何在這篇論文中解決這些問題。提供以下貢獻:
第 2 章著眼于在給定候選目標的情況下提供名義多模態預測的問題。選擇的特定領域是停車場,它在緊湊的駕駛區域中具有許多交互作用。我們描述了停車行為數據集的生成,然后詳細介紹了一個兩階段預測架構來估計意圖(即停車位)和軌跡執行。與傳統的基于模型的方法相比,這顯示了用數據驅動的多模式預測來表示人類駕駛員行為的好處。
第 3 章將第 2 章的結果擴展到基于集合的多模態預測,其中生成了軌跡上的連續概率分布。使用 nuScenes 和 Lyft 5 級預測數據集,我們展示了上下文感知、數據驅動、多模態預測在預測駕駛員行為方面的優勢,與傳統方法相比,它具有改進的對數似然性和改進的集合精度。然后,我們探索如何將此類預測納入置信度感知框架中,該框架可以根據預測誤差在線調整不確定性。我們通過在 CARLA 模擬器中與交通路口的目標車輛進行模擬交互,展示了這種自適應置信度方法在避免碰撞方面的好處。
最后,第 4 章考慮了處理不確定預測的替代框架。不是通過自適應置信水平來調整不確定性,而是提出了一種反饋策略方法來提供靈活的行為,這些行為取決于目標車輛行為的未來測量。與傳統方法相比,這種方法減少了保守性,傳統方法必須選擇單個控制輸入序列來滿足所有可能的目標車輛行為。在 CARLA 模擬器中的交通路口評估反饋策略方法的好處。結果表明,與開環基線方法相比,我們的方法可以提高移動性、舒適性和效率指標。