異構多智能體系統由不同的自主智能體組成,這些智能體可以通過互動和合作來實現復雜的目標。從社會群體的形成到互聯網等技術系統的形成,人類歷史表明,在相互關聯的系統中可以實現更強大的功能。因此,預計人工智能和自主性的進步將導致各種類型的能力越來越強的機器人和軟件代理進行互動,以提高其能力。
在物流、救災和社會關懷等應用中,這些異構智能體可以為系統帶來不同的視角、技能和資源,增強系統的適應性、穩健性和創造性。然而,盡管好處多多,人們并不清楚在這種情況下什么是異構性,也不清楚如何在系統設計中將異構性作為一種屬性。不回答這些問題,多智能體系統的全部優勢就有可能無法實現,其集體行為要么令人驚訝,要么在最壞的情況下對其服務對象造成損害。
本論文探討了理解異質性在多智能體系統中含義的必要性,以及在系統設計中有效使用不同智能體類型的工具和技術。論文探討了上下文、任務和智能體之間的交互,以及智能體類型的數量和分布如何影響異質性的定義和衡量異質性的方法。
研究還探討了一般設計原則,以促進應用程序之間的知識轉移,從而減少開發時間和失敗風險。研究了基于信息論的 “賦權 ”和 “進化 ”測量方法的應用無關技術,以便在任何類型的智能體之間建立成功的互動。此外,還探討了多樣性的影響、特征和生態框架等概念與人工系統的相關性。
通過更全面地了解多智能體系統中的異質性,本研究有助于開發既能充分利用異質性智能體的優勢,又能最大限度地減少因混合智能體類型而產生的潛在負面影響的系統。
對異質性進行廣泛調查,總結不同作者的處理方法和觀點,并對人工系統中異質性的用途和來源進行分類
一種分布式控制器,它能使多個牧羊人在不直接通信的情況下進行協調,并使用反應行為(無路徑規劃)使牧羊人在不分割羊群的情況下在行進路線之間移動
證明了在群體任務中使用異構智能體的好處與它們之間的相互作用有關,而且對于同一任務,這些相互作用可能導致更大的異構性對性能有利或不利
基于潛在場的人群行為模型,其行為取決于過去的互動,并與群體任務相匹配
群策群力任務的績效與流行的異質性衡量標準之間的相關性
證明異質智能體之間的互動類型可導致系統行為發生疊加或突發變化
比較解決一維覓食中空間干擾的四種不同機制,包括種群中不同數量的異質性和選擇異質性特征的影響
將 “賦權 ”發展成一種基于團隊的措施,用于基于目標的情景,討論設計者在將 “賦權 ”應用于真實情景時可能遇到的挑戰,并將 “賦權 ”與基于性狀的方法進行比較,以解決一維覓食中的空間干擾問題
不確定情況下牧羊的解決方案,該方案利用進化來創建可學習其他智能體類型的智能體
圖 3.1: 智能體的互動可以用強度和方向來定義。圖中顯示了五種類型的智能體和兩種類型的社會互動。在 a) 中,互動對象是與該智能體自身類型相匹配的其他智能體,形成雙向互動;而在 b) 中,每個智能體都與一種非自身類型的智能體進行社會互動,形成單向互動。如果互動強度為正,智能體就會被其目標群體所吸引,而如果互動強度為負,則會導致智能體被其目標群體所排斥
隨著太空探索的加速發展,以及在極端環境中工作的機器人和人類數量的增加,我們必須實施多智能體自主協調,以確保在本質上通信不友好環境中可安全操作。據所知,目前尚無多智能體調度算法能夠獨立推理通信延遲。一個必須解決的關鍵缺口是開發一種單智能體調度器,能夠在不確定的觀察下決定何時行動,這可以成為分布式多智能體調度的基礎。現有研究已經提供了關于時間推理的見解,即建模觀察不確定性和在時間約束下調度事件。我們既需要在存在不確定觀察延遲時決定何時調度事件,也需要在智能體之間進行穩健的協調。面對不確定性調度事件是一個挑戰,原因在于不可控制的外部事件、未知的觀察延遲以及智能體之間不確定的通信所導致的復合不確定性。本論文提出了一系列貢獻,最終展示了一個穩健的單智能體任務執行器,該執行器使用我們的調度器在多智能體環境中進行協調,盡管存在觀察延遲。實現這一點需要深入理解如何檢查具有不確定延遲的時間約束的可控性,定義一個對不確定觀察延遲具有魯棒性的調度器,將該調度器集成到現有的高層任務執行器中,并制定多智能體的協調策略。我們展示了該調度器具有預期的性能特征,并通過一個受人類太空飛行啟發的場景,在實驗室中進行了多智能體在不確定通信下的執行演示。
本論文的結構如下。第 2 章將提供更詳細的問題陳述,包括用于測試不確定通信的分布式協作和協調的場景描述。第 3 章將概述我們解決該問題的方法。第 4 章將提供本論文的第一項技術貢獻,首先是解決觀察延遲建模問題,然后提供一個可用于檢查具有觀察延遲的時間約束是否可滿足的程序。第 5 章介紹了延遲調度器,這是一種新穎的策略,用于決定在觀測延遲的情況下何時采取行動。在第 6 章中,我們將延遲調度器定位為可部署到實際硬件中的高級任務執行器。第 7 章最后介紹了一種用于不確定通信環境的多智能體協調架構。第 8 章中的討論為本論文畫上了句號,為本研究中的決策提供了更多背景信息。
隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。
無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。
圖 1.1: 總體決策框架
本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。
1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。
2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。
3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。
4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。
5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。
圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架
在過去幾年里,對人工智能體的投資穩步增長,然而這些智能體的采用情況卻參差不齊。行業報告顯示,大多數人并不信任人工智能體來完成重要任務。雖然現有的 IS 理論可以解釋用戶對 IT 人工智能的信任,但一些新的研究對現有理論在AI智能體背景下的適用性提出了質疑。乍一看,智能體可能與其他技術人工制品無異。然而,更深入的評估揭示了人工智能體不同于以往信息技術人工制品的一些基本特征。因此,本文的目的是找出阻礙和促進信任與不信任的人工智能特有特征和行為,從而塑造用戶在人機交互中的行為。本論文使用定制開發的對話式人工智能體,通過引入并實證檢驗六個新的構造,即人工智能的不確定性、任務完成的不確定性、語言的不確定性、人工智能的可繼承性、人工智能的可訓練性和人工智能的自由意志,對人類-人工智能文獻進行了擴展。
當用戶向智能體提出請求時,設備就會接收到信息。然后,設備將信息發送到語音識別服務。接著,檢測到的文本被發送到自然語言理解(NLU)服務器。接著,來自 NLU 的響應代碼進入語音合成服務,生成語音響應。最后,響應代碼返回設備,設備根據響應代碼采取行動并發送響應信息。因此,在響應用戶請求時,人工智能既要傳遞語言信息,又要采取行動,這就可能產生兩種不確定性:語言不確定性和任務完成不確定性。
異構多智能體系統為解決農業、軍事、裝配和倉庫自動化等不同領域的復雜問題提供了可能,否則單個智能體是無法解決這些問題的。要有效部署異構多機器人團隊,研究必須解決不同抽象程度的四個問題:任務規劃(是什么)、運動規劃(如何)、任務分配(誰)和調度(何時)。這些問題高度相互依存,先前的工作已經證明,利用這些問題的單個解決方案之間的協同作用的系統可以提高多機器人協調的效率和效益。
本文研究了在多智能體組隊應用中使用基于特質的模型來表示單個智能體,以及如何利用基于特質的建模來實現更穩健、更高效的多智能體聯盟組建解決方案。具體來說,我們研究了如何在聯盟組建算法中使用這些技術來回答任務分配、調度、運動規劃和任務規劃這四個問題。
我們的研究表明,利用基于機器人和任務特質建模的算法可以在異構多機器人團隊中實現高效的協調,并且在時間進度、分配質量和計算效率方面優于現有方法。本論文的貢獻如下:
創建一個建模框架,使現代任務分配算法能夠推理動態特征。通過使用基于轉換的建模框架,我們創建了對以往基于特質的建模技術的擴展,以更好地推理智能體的特質如何隨時間變化。
為異構多機器人系統開發基于時間擴展特質的任務分配和路徑規劃統一框架。我們引入了一種基于搜索的方法,用于基于特質的時間擴展任務分配和運動規劃,命名為增量任務分配圖搜索(ITAGS)。
整合任務規劃、任務分配、調度和運動規劃的新型多機器人協調問題的形式化和解決方案。我們形式化了一類新的多機器人協調問題,該問題融合了這些問題中的每一個,并提出了一種解決方案(圖形遞歸同步任務分配、規劃和調度(GRSTAPS))。
為 ITAGS 的動態變體創建框架,該變體能夠進行基于特征的任務分配修復: 我們對 ITAGS 進行了擴展,使用基于特質的動態時間擴展任務分配算法,如果智能體的特質或任務要求在執行過程中發生變化,該算法可以修復任務分配。
創建一個主動學習框架,用于學習多智能體任務分配問題的特質要求: 由于理解一個聯盟的特質與該聯盟在特定任務中的表現之間的關系可能具有挑戰性,因此我們提出了一種主動學習框架來學習任務與特質之間的關系。此外,我們還提供了一種新的時間擴展任務分配算法,該算法能夠優化學習到的質量模型。
圖 2.1: 顯示各種多機器人協調問題交叉點的維恩圖。
協作機器人(即 "cobots")和基于機器學習的智能體正越來越多地進入人類的工作空間,目的是提高生產率、增強安全性和改善生活質量[1, 2]。這些智能體將在動態和新穎的環境中與各種各樣的人進行動態交互,使人機團隊在醫療保健[3]、制造[4]和搜救[5]等領域更加普遍。在這些領域中,合作者必須目標一致,并保持對其他智能體行為的感知,以避免潛在事故的發生。至關重要的是,智能體必須能夠理解用戶之間的異同,并為用戶提供信息,支持心智模型的調整。
在文中,首先研究了模擬大規模多智能體系統中協作的本質。具體來說,探索了在部分可觀測環境中分散機器人之間利用基于上下文的通信技術,發現利用有針對性的通信(第4章)和考慮隊友異質性(第5章)有利于生成有效的協調策略[6, 7]。接下來,過渡到人機系統,并開發了一個數據高效、針對特定人員且可解釋的基于樹的學徒學習框架(第6章),使機器人能夠推斷并理解異構用戶的決策行為[8, 9]。在此基礎上,擴展了基于神經樹的架構,支持通過強化學習(reinforcement learning)為機器人學習可解釋的控制策略[10]。這一進步不僅允許終端用戶檢查學習到的行為模型,還為開發人員提供了驗證控制策略安全性的方法(第 7 章)。隨后,描述了可解釋人工智能(xAI)技術的實用性,該技術有望在人機協作中增強團隊態勢感知和共享心智模型開發[11](第8章)。最后,讓最終用戶能夠通過圖形用戶界面交互式修改可解釋的學習策略,以支持重復人機協作范例中的團隊發展(第9章)。
本文的貢獻如下:
創建基于通信的新型多智能體強化學習(MARL)架構: 開發了多智能體圖注意通信(MAGIC)[6],這是一種利用目標通信(智能體主動決定 "何時 "和 "與誰 "通信)的多智能體強化學習(MARL)架構,用于在部分可觀測環境中的分散智能體之間學習高性能團隊協調策略。團隊成員通過信息共享和與合作者的模擬體驗,開發出一種隱含的共享心智模型。
創建支持異構機器人團隊的 MARL 架構: 開發了異構策略網絡(HetNet)[7],這是一種 MARL 架構,可有效模擬異構機器人團隊(即由具有不同狀態、行動和觀察空間的智能體組成)。通過 HetNet,利用可變編碼器-解碼器通道來考慮類間信息的異質性,將編碼信息 "翻譯 "成異構機器人團隊中各智能體之間共享的中間語言,從而促進各智能體之間的通信。
開發可解釋的、針對個人的 "從異質演示中學習"(LfHD)框架: 提出了一種個性化的、可解釋的學徒調度算法,該算法通過提取決策標準,推斷出所有人類任務演示者的可解釋表征,推斷出的個性化嵌入與演示者類型的數量無關[8, 9]。通過這種技術,協作機器人可以自主地獲得對人類隊友決策行為的個性化、隱含的理解,從而使機器人同行的個性化程度更高。
開發基于樹的模型,該模型可通過基于梯度的現代強化學習方法進行優化,以產生高性能、可解釋的策略:介紹了可解釋的連續控制樹(ICCTs),這是一種可解釋的強化學習架構,允許在類似稀疏決策樹的表征中進行直接優化[10]。新架構在生產安全、可驗證、基于機器學習的自主系統方面邁出了堅實的一步,這些系統已準備好在現實世界中部署并與人類互動。
描述可解釋人工智能(xAI)在人機協作中的效用: 進行了兩項新穎的人類-受試者實驗,以量化在人機協作場景中部署 xAI 技術的益處。評估了人類隊友通過增強 xAI 技術獲得更好態勢感知的能力,并量化了 xAI 支持的 SA 對人機團隊流暢性的主觀和客觀影響[11]。重要的是,這些發現強調了為人機協作開發 "正確 "的 xAI 模型以及支持學習這些 xAI 模型的優化方法的重要性。
找出通過基于學習的技術產生的智能體在質量上的差距,并探索基于 xAI 的技術作為提高人機協作性能的潛在解決方案。人機協作領域中最先進的協作代理是僵化的,其重點是提高智能體的個性化貢獻,而不是人機團隊之間的有效協作。為了消除個性化協調與成功人機協作之間的性能差距,探索利用可解釋模型和圖形用戶界面,讓最終用戶與通過強化學習訓練的可解釋機器人策略進行交互。這種圖形用戶界面允許終端用戶 "深入 "機器學習模型,調整承受能力或交互式地迭代重新編程行為。重要的是,發現有證據表明,在交互式修改的支持下,用戶與白盒智能體組隊的效果優于單獨與白盒智能體組隊的效果。
圖 1.1: 該圖顯示了論文概覽。在第 4 章和第 5 章中,利用基于圖的架構來有效地模擬和促進多智能體系統中的通信。在第 6 章和第 9 章中,為機器人同行提供了更多個性化服務。在第7章和第8章中,通過使用可解釋人工智能技術來促進機器人與人類之間的定向交流。這些內容有助于促進團隊內共享心智模型的發展,從而實現高質量的人機協作。
與決策相關的活動,如自下而上和自上而下的策略制定、分析和規劃,都將受益于基于計算機的模型的開發和應用,這些模型能夠在當地環境中表現人類的時空社會行為。在努力了解和尋找減緩氣候變化特定影響的方法時尤其如此,在這種情況下,此類模型需要包括相互影響的社會和生態要素。此類模型的開發和應用一直受到以下挑戰的嚴重阻礙:設計行為以經驗證據和理論為基礎的智能體,以及測試智能體代表現實世界決策者行為的能力。本論文通過以下方法克服了這些挑戰,從而提高了開發此類模型的能力: (a) 三個新框架,(b) 兩種新方法,以及 (c) 兩種新的開源建模工具。這三個新框架包括 (a) SOSIEL 框架,它為開發新一代認知、多智能體和基于知識的模型提供了一個有理論基礎的藍圖,這些模型由具有認知架構的智能體組成; (b) 一個分析決策者有界理性的新框架,它為分析決策情境與決策者決策之間的關系提供了洞察力和便利;以及 (c) 一個分析人工智能體雙重有界理性(DBR)的新框架,它對決策情境與人工智能體決策之間的關系做了同樣的分析。這兩種新方法包括 (a) 用于獲取和操作決策知識的 SOSIEL 方法,它提高了我們為認知模型、多智能體模型和基于知識的模型獲取、處理和表示決策知識的能力;以及 (b) 用于測試人工智能體表示人類決策能力的 DBR 方法。這兩個開源建模工具包括 (a) SOSIEL 平臺,這是一個基于認知、多智能體和知識的平臺,用于模擬人類決策;以及 (b) 將該平臺作為 SOSIEL 人類擴展(SHE)應用于現有的森林氣候變化模型,即 LANDIS-II,以便分析人類與森林氣候之間的共同進化互動。為了提供示例背景和知識獲取指南,論文包括烏克蘭喀爾巴阡山地區社會生態互動的案例研究,該地區目前正在應用 LANDIS-II 和 SHE。因此,本論文通過以下方式推動科學發展 (a) 為下一代基于認知、多智能體和知識的模型提供理論基礎并展示其實施;(b) 為理解、分析和測試人工智能體代表人類決策的能力提供植根于心理學的新視角。
自主系統很快將無處不在,從制造業自主性到農業領域的機器人,再從醫療保健助手到娛樂產業。這些系統的大多數都是用于決策、規劃和控制的模塊化子組件開發的,這些子組件可能是手工設計的或基于學習的。雖然這些現有方法在它們特別設計的情況下已被證明表現良好,但在肯定會在測試時出現的罕見、分布外情景中,它們的表現可能特別差。基于多任務訓練、來自多個領域的大型數據集的基礎模型的興起,使研究人員相信這些模型可能提供現有規劃器所缺失的“常識”推理。研究人員認為,這種常識推理將彌合算法開發與部署到分布外任務之間的差距,就像人類適應意外情景一樣。大型語言模型已經滲透到機器人和自主系統領域,研究人員正在爭先恐后地展示它們在部署中的潛在用例。雖然這一應用方向從經驗上看非常有希望,但基礎模型已知會產生幻覺,并生成可能聽起來合理但實際上卻很差的決策。我們認為有必要同時退一步,設計可以量化模型決策確定性的系統,并檢測何時可能產生幻覺。在這項工作中,我們討論了基礎模型用于決策任務的當前用例,提供了一個帶有示例的幻覺的一般定義,討論了現有的幻覺檢測和緩解方法,重點是決策問題,并探索了這一激動人心領域的進一步研究領域。
身為機器學習和機器人研究者的我們正處于一個激動人心的時代。在過去的十五年中,關于感知、決策制定、規劃和控制模型的效能和效率取得了巨大的進展(Soori等人,2023;Janai等人,2020)。廣義上說,這些問題的解決方法可以歸為兩大類:手工設計的基于模型的系統和基于數據驅動的學習模型(Formentin等人,2013)。開發者可能會有某些部署場景 in mind,他們可能手工編寫規則(Hayes-Roth,1985)或調整控制器(Borase等人,2021)進行測試,或者在基于學習的模型的情況下,收集訓練數據并設計某種獎勵函數,以依據這些數據將模型適配到一個目標上(Henderson等人,2018)。在實踐中,這些方法在它們專門設計和訓練的場景中工作得特別好,但在之前未見過的分布外情況下可能產生不希望的結果(Wen等人,2023)。設計者可能選擇添加更多規則,重新調整他們的控制器,對他們的模型進行微調以適應更具代表性的數據集,修正獎勵函數以處理邊緣情況,甚至在測試時添加一個探測器(可能基于規則或數據驅動)來識別分布外情況,然后再調用決策制定者(Singer和Cohen,2021;Schreiber等人,2023;Chakraborty等人,2023)。然而,即使有了這些改變,在部署過程中總會出現設計者之前沒有考慮過的其他情況,導致次優的性能或關鍵失敗。此外,對模型所做的修改可能在測試時產生意想不到的效果,如不希望的沖突規則(Ekenberg,2000)或早期學到的技能的災難性遺忘(Kemker等人,2018)。
非正式地說,傳統方法和數據驅動的方法缺乏人類在不熟悉的環境中適應所用的某種形式的常識(Fu等人,2023a)。更近期,研究人員正在探索使用大型(視覺)語言模型,即L(V)LMs,來填補這一知識差距(Cui等人,2024)。這些模型是通過收集和清理一個巨大的自然語言數據集,對該數據集進行預訓練以重構句子,對特定任務進行微調(例如,問答),并應用人在回路的增強學習來產生更合理的反應(Achiam等人,2023)來開發的。盡管這些模型是另一種嘗試在給定上下文條件下最大化生成文本可能性的數據驅動學習形式,研究人員已經表明,它們有能力概括到它們未經訓練的任務,并對其決策進行推理。因此,這些基礎模型正在被測試用于模擬決策制定(Huang等人,2024b)和真實世界的機器人學(Zeng等人,2023)任務中,以取代感知、規劃和控制模塊。即便如此,基礎模型并非沒有局限性。具體來說,這些模型傾向于產生幻覺,即生成聽起來合理但實際上不準確或會在世界中產生不希望效果的決策或推理。這一現象引發了一項新的研究方向,嘗試探測L(V)LMs何時產生幻覺,以便產生更可信賴和可靠的系統。在這些大型黑盒系統應用于安全關鍵情況之前,需要有方法探測和緩解幻覺。因此,這篇綜述收集并討論了當前基礎模型在決策制定任務中幻覺緩解技術,并提出了潛在的研究方向。 現有的綜述主要集中于提出在問答(QA)(Ji等人,2023;Rawte等人,2023;Zhang等人,2023d;Ye等人,2023)或對象檢測任務(Li等人,2023c)中的幻覺檢測和緩解方法。還有其他工作提供了當前使用L(V)LMs在自動駕駛汽車(Yang等人,2023b)和機器人學(Zeng等人,2023;Zhang等人,2023a)中的用例示例。Wang等人(2023a)對多種基礎模型的可信度進行了深入分析,而Chen和Shu(2024)提供了LLMs內幻覺的分類,但兩者都排除了通用決策問題的應用。據我們所知,我們是第一個提出可以靈活調整以適應任何特定部署設置的幻覺的一般定義,包括常見的應用到QA或信息檢索,以及在規劃或控制中的最新發展。此外,沒有現有工作總結了決策制定和規劃任務中的幻覺檢測和緩解方法的最新技術。 在本工作的剩余部分,我們將在第2節討論基礎模型在決策制定任務中的當前使用,第3節定義幻覺并提供示例,第4節和第5節分別識別當前的檢測方法和評估它們的地方,并在第6節探索可能的研究方向。
基礎模型做出決策
最初由Bommasani等人(2022)提出,“基礎模型”這一術語指的是“在廣泛數據上進行大規模訓練,以便它們可以適應廣泛的下游任務”的模型。這種方法與設計和在一小部分數據上訓練模型以部署到特定任務的工作形成對比(楊等人,2024)。關鍵區別在于,基礎模型經過一個在大規模數據集上的預訓練程序,該數據集包含來自多種可能部署領域的信息,通過這種方式,它們預期將學習更通用的特征和對應關系,這些在更廣泛的任務集上的測試時可能有用(周等人,2023;趙等人,2023)。現有的預訓練基礎模型的示例涵蓋了語言(Devlin等人,2019;Brown等人,2020;Touvron等人,2023a)、視覺(Caron等人,2021;Oquab等人,2024;Kirillov等人,2023)和多模態(Radford等人,2021;Achiam等人,2023)輸入。在本節中,我們簡要概述了基礎模型在機器人、自動駕駛汽車和其他決策系統中的現有用例。我們還簡潔地指出了這些工作中發現的幻覺,并在3.2節中留下更長的討論。讀者應參考楊等人(2023b)、曾等人(2023)和張等人(2023a)的作品,以更深入地回顧應用領域。
檢測與緩解策略
幻覺檢測和緩解方法可以根據算法可用的輸入被分類為三種類型(白盒、灰盒和黑盒)。通常情況下,在給定一些上下文后,基礎模型輸出預測的令牌序列、每個令牌對應的概率以及來自網絡中間層的生成的嵌入。白盒幻覺檢測方法假設可以訪問所有三種輸出類型,灰盒需要令牌概率,而黑盒只需要預測的令牌序列。因為不是所有基礎模型都提供對其隱藏狀態的訪問,甚至令牌的輸出概率分布(例如,ChatGPT的網絡界面),黑盒算法在測試時更加靈活。在本節中,我們按輸入類型聚集現有的檢測和緩解方法進行介紹。雖然這些工作中的許多在問答和對象檢測設置中顯示出希望,但它們中的許多在決策制定任務上需要進一步驗證,我們將指出這些方法的出現。 本節的工作在表2中總結。
多智能體機器人技術有望塑造工業的未來,有可能改變日常生活的許多方面。在未來十年中,它們預計將對運輸系統、軍事應用(如偵察和監視、搜救行動或太空任務)產生影響,并為急救人員提供支持。
在機器人領域最新發展的推動下,隨著新一代多智能體機器人系統變得更加智能、精確,應用領域也更加多樣化,本論文將為這些系統的發展做出貢獻。但是,為了實現這些目標,組成合作機器人系統的各個智能體需要在確保準確性和保留執行多樣化任務能力的同時,對它們所能完成的任務進行專業化。
本論文在考慮單個智能體專業化能力的特定背景下,探討了蜂群機器人技術中的任務分配問題。基于每個智能體都擁有專門的功能能力,以及分布在周圍環境中的預期任務提出了特定要求的假設,提出的任務分配機制在兩個不同的空間中制定。首先,團隊成員專業化的初級形式被表述為嵌入智能體動力學控制空間的合作控制問題。其次,定義了智能體專業化的高級表述,在專用的專業化空間中估計單個智能體的任務分配概率,這是本論文對蜂群機器人領域的進步和實踐的核心貢獻。
在專業化空間中制定的原始任務分配過程經歷了四個發展階段。首先,從概念上引入了任務特征識別階段,利用嵌入在智能體中的傳感層的輸出來驅動所提出的任務分配方案。其次,制定匹配方案,將每個智能體的專業能力與相應的檢測任務進行最佳匹配。在這一階段,智能體專業化的一般二進制定義是任務-智能體關聯的基礎。第三,將任務-智能體匹配方案擴展為創新的基于概率專業的任務-智能體分配框架,以推廣這一概念并挖掘智能體專業化考慮的潛力。第四,根據智能體的機械、物理結構和嵌入式資源對其專業化進行調制定義,進一步完善了總體框架。此外,還對原有框架進行了擴展,并引入了優先級層,以提高系統對復雜任務的響應能力,這些復雜任務的特點是基于對多個類別的識別。
在模擬和實際實驗中對所提出的基于專長的任務分配方法進行了實驗驗證,并結合潛在應用對結果進行了介紹和討論,以證明所提框架的有效性和效率。
這項工作旨在填補以往解決機器人群個體專業化問題的工作中的技術空白。本論文的成果通過開發一個創新框架,利用傳感能力來支持智能體之間專業化的概念化和實施,從而推動了蜂群機器人領域的發展。重點在于定義單個智能體的專長,并根據每個任務的特定約束條件,將其與這些單個智能體所要掌握的任務相匹配。為此,本研究打算回答以下研究問題:
問題 1:一群智能水平相對較低的機器人如何完成復雜的任務,這些任務需要單個機器人代理的專業化?
過去二十年來,多智能體系統的合作編隊控制受到了研究人員的極大關注。本論文以文獻綜述(第 2 章)中提到的方法為基礎,提出了一種解決方案,以填補機器人團隊中單個成員專業化方面的研究空白。本論文的重點是通過利用智能體的非同質性來增強蜂群的能力。為此,本論文擴展了合作蜂群的概念,并提出了一個嚴格的流程來利用單個智能體之間的專業異質性。
為了回答問題 1,我們首先進行了一項早期調查,以驗證這一概念。這一過程將機器人團隊工作空間的不同區域定義為分配給不同任務的獨立區域。所開發的解決方案可讓機器人順利安全地切換位置,并根據每個訪問區域要執行的特定任務動態調整整體隊形。它定義了如何在每個區域管理機器人群的編隊。作為一種初級的專業化形式,當智能體從一個區域轉移到另一個區域時,該框架會將智能體的領導角色從一個智能體切換到另一個智能體。在第一階段的研究中,假定一個特定的智能體(即蜂群中的一個成員)是每個區域中唯一專門執行領導任務的智能體。在任務完成之前,該智能體被指定為相關區域的專門領導者。第一部分研究的詳細情況將在第 3.4 節中報告。
問題 2:能否對最初的方法進行升級,讓專業化個體從環境中的自動目標識別中獲益,能否讓智能體之間的合作變得足夠穩健和靈活,以便在發現目標后自動將適當的專業化智能體分配到相應的任務中?
為了回答這個問題,我們進一步擴展了原有的協調系統,用于在專用機器人之間分配基于任務的領導權。通過對分布在機器人群工作空間中的專業化影響區域的定義進行演化,對問題進行了重新表述。受早期編隊方法的啟發,出現了一種有趣的解決方案。從使用機載傳感器自動識別工作區目標的假設出發,選擇有資格執行識別任務的智能體的過程應逐步經歷三個基本狀態,分別稱為搜索狀態、任務狀態和執行狀態。這種方法還可擴展到目標移動時的動態影響區域,以及多個任務共享同一區域時的動態影響區域。這更好地反映了移動機器人的實際干預場景。這方面的工作將在第 3.5 節中報告。
問題 3:為了改進蜂群的管理,能否根據智能體的專業化程度,在一定程度上適合響應給定任務的概率匹配機制中,適當定義和制定每個智能體的專業化功能?
為了解決這個問題,可以利用基于概率的建模來完善用于實現單個智能體角色專業化的框架設計。建立這樣一種智能體行為的概率表征,可以形成一種可擴展的機制。后者支持自動化流程,能夠處理任務和專業化定義中的不確定性,并應對任務約束和智能體能力之間的不完美匹配。所提出的智能體選擇方案是根據任務識別的置信度和特定智能體滿足任務特定要求的概率來制定的。所提出的基于專業的任務分配方案旨在根據所識別的任務約束條件,計算蜂群中各個智能體的匹配適合度,即任務-智能體專業匹配概率。本框架的開發過程詳見第 4.3 和 4.4 節。
問題 4:提議的框架能否應用于實際系統?
為了證明所提方法的有效性及其在現實世界中的應用潛力,我們從兩個方面對其進行了測試。首先,在仿真中對所提出的框架進行驗證,以證明其有效性。第 5 章介紹了大量的模擬實驗。然后,作為案例研究介紹了擬議方法的潛在應用,同時詳細介紹了擬議框架在真實機器人平臺上的實施情況,以驗證和檢驗基于專業的任務分配方案在實現預期協調水平方面的性能。這項工作將在第 6 章中介紹。
圖 3.12 任務執行的先后順序:(a-c)影響區重疊,操作員選擇任務 1(紅色)為優先任務,這促使紅色機器人繼續擔任領導者,直到紅色任務完成;(d-f)第二優先任務(藍色)正在執行,藍色機器人轉為領導者位置;(g-h)蜂群恢復到影響區重疊外的搜索狀態,然后搜索其他任務(綠色,然后是紅色),由相應的領導者機器人執行。
多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。
本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。
對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。
我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。
由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。
任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。
然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。
我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。
機器學習需要多樣化的訓練數據集才能取得良好效果。在不同國家/公司之間共享數據集往往涉及法律和隱私問題。聯邦學習是一種學習框架,其中的數據集分布在不同的智能體上,可以在不集中數據的情況下對復雜數據集進行訓練。每個智能體根據自己的數據集進行本地訓練,模型更新則集中進行。盡管這一過程看似安全,但由于每個智能體都可以任意操縱更新,因此引發了許多安全問題。目前的文獻強調了攻擊最終模型的可能方法。本論文主要關注有針對性的攻擊,其目標是對數據集中的選定標簽進行錯誤分類。論文將研究主要的攻擊和防御策略,最后提出一種基于通用對抗網絡(GAN)的新攻擊。GAN 攻擊可以破壞并穿過服務器防御機制,這說明了在實施這些機制時可能出現的問題。最后,研究并討論了提高聯邦學習安全性的可能思路。
圖 2.1: 梯度深層滲漏(DLG) 算法概覽。需要更新的變量用粗體邊框標出。正常參與者使用其私人訓練數據計算 W 以更新參數,而惡意攻擊者則更新其虛擬輸入和標簽,以最小化梯度距離。優化結束后,惡意用戶可以從誠實的參與者那里獲得訓練集。[1]