太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。
準確和強大的自主水下導航(AUV)需要在各種條件下進行位置估計的基本任務。此外,美國海軍更希望擁有不依賴外部信標系統的系統,如全球定位系統(GPS),因為它們會受到干擾和欺騙,并會降低操作效率。目前的方法,如地形輔助導航(TAN),使用外部感知成像傳感器來建立一個本地參考位置估計,當這些傳感器超出范圍時,就沒有用了。現在需要的是多個導航過濾器,每個過濾器都能根據任務條件發揮更大的作用。本論文研究了如何結合多個導航過濾器來提供一個更穩健的AUV位置估計。提出的解決方案是利用基于信息論框架的交互式多模型(IMM)估計方法,混合兩種不同的過濾方法。第一個過濾器是基于模型的擴展卡爾曼過濾器(EKF),在航位推算(DR)條件下有效。第二個是用于主動地形輔助導航(ATAN)的粒子濾波方法,在傳感器范圍內適用。利用在華盛頓州新月湖收集的數據,我們開發了每個導航過濾器的結果,然后我們演示了如何使用IMM信息理論方法來混合方法,以改善位置和方向的估計。
近年來,美國防部已指示加速采用人工智能(AI),并建立一支技術先進、能夠確保美國安全的部隊。未來自主海上行動的一個重要組成部分是無人自主車輛能夠在不使用全球定位系統(GPS)或其他外部信標系統的情況下運行。
在一個快速發展的技術世界中,在拒絕使用GPS的環境中或不使用聲學轉發器等系統,甚至是深海導航定位系統(POSYDON)系統的情況下進行操作從未如此關鍵。領先的解決方案是地形輔助導航(TAN),它利用機載地圖和傳感器系統的組合,以便在已知的地圖內進行相關的測量。這種方法的最大缺點是需要不同的濾波估計方法,而這些方法在設計上可能無法協同工作。
這項研究將分幾個部分介紹。首先是實施一個新的擴展卡爾曼濾波器(EKF),作為海軍研究生院的遠程環境監測單元100(REMUS)車輛上的航位推算(DR)模型,以改善其在速度估計不準確時的估計。其次,這項研究試圖在信息理論的基礎上建立一個用于主動地形輔助導航(ATAN)的粒子過濾器(PF)。最后,也許是最重要的,本研究試圖在PF和EKF之間實現一個新的信息理論聯合過程,以改善所有狀態的估計。
圖 1.1 定位、導航和授時替代層次結構。
圖1.2 可能需要不同過濾技術的情況。狀況1,AUV在水面附近作業,可以利用GPS數據。由于深度原因,AUV無法利用任何其他傳感器,必須使用DR模型。狀態2,太深了,無法快速獲取GPS數據,而且還沒有深到可以使用面向海底的傳感器。制度3可以利用DVL/ADCP和慣性導航系統(INS),可以提供更準確的運動估計。制度4可以利用成像傳感器來進一步提高導航的準確性。
圖5.1 機載水深和成像傳感器提供的測量值與粒子分布相關。該分布的香農熵顯示了粒子分布中的不確定性,高值表明該分布對位置不確定。由于從AUV經歷地形到計算香農熵有一個時間延遲,標量值不會完全一致。然而,它將很好地表明分布具有低水平的不確定性。
本論文的組織結構如下。第2章是文獻回顧,包括設備說明、貝葉斯濾波(BF)和信息論的必要背景,以及現場實驗的概述。第3章將介紹位置估計濾波技術和交互式多模型(IMM)的概述。第4章將討論基于模型的擴展卡爾曼濾波器(EKF)的發展。第5章將討論粒子濾波器(PF)的開發和仿真結果。第6章將討論信息理論互動多模型(IT-IMM)的開發和仿真結果。論文將在第7章中總結和討論未來的工作。
介紹一種新的IT-IMM估算方法,通過綜合使用后驗概率分布中的香農熵和預測PF性能的地形適宜性措施,將基于模型的EKF和PF聯合起來。
在沒有ADCP/DVL的情況下,基于模型的EKF用于估計前進和側滑速度。
一種PF算法,實現了粒子再分配的信息理論框架。
美國海軍陸戰隊正在探索使用人機協作來控制前線部署環境中的無人駕駛航空系統(UAS),其任務范圍廣泛,包括情報、監視和偵察(ISR)、電子戰(EW)、通信中繼和動能殺傷。美國海軍陸戰隊設想使用未來的垂直起降平臺(VTOL)來支持混合戰爭任務并實現軍事優勢。對于美國海軍陸戰隊的混合戰爭應用,以實現任務優勢和戰爭主導權,美國海軍陸戰隊需要了解VTOL機組和無人機系統之間錯綜復雜的人機互動和關系,以獲得戰斗空間態勢感知,并有效地計劃和執行針對常規和不對稱威脅的旋轉翼行動。這項研究的重點是美國海軍陸戰隊在海洋環境中的打擊協調和偵察(SCAR)任務,以促進遠征基地先進作戰(EABO)在沿岸地區。有多種復雜的功能必須加以考慮和評估,以支持人機協作互動,提高任務的有效性:任務規劃、移動和滲透、區域偵察、偵察戰斗交接和過渡。
這份頂點報告探討了SCAR任務期間三個系統之間的人機協作:UAS、VTOL和地面控制站(GCS)。該研究從VTOL項目的文獻回顧開始,研究了美國海軍陸戰隊SCAR任務戰術和用于促進EABO的理論概念。此外,它還包括對自主性和自動化、人工智能和機器學習的研究。通過使用合作設計模型來探索這三個系統的人機協作互動和過程,文獻回顧探討了如何使用基于三個因素的相互依賴性分析(IA)框架來確定人類執行者和機器團隊成員之間的相互依賴性:可觀察性、可預測性和可指導性。
通過基于模型的系統工程(MBSE)工具,將SCAR任務的高級功能分解為分層次的任務和子任務,系統分析被用來支持聯合設計方法。根據Johnson(2014)的說法,合作設計方法研究了相互依賴的概念,并使用IA框架作為設計工具。IA框架捕捉了主要執行者和支持團隊成員之間的互動,以發展支持每個主要任務和分層子任務的所需能力,從而產生HMT要求。這份頂點報告分析了兩種選擇。第一個方案認為UAS是主要執行者,VTOL和GCS是輔助團隊成員。第二種方案認為VTOL是主要執行者,UAS和GCS是輔助團隊成員。基于這兩種選擇,IA框架評估了17個主要任務、33個分層子任務和85個執行SCAR任務的所需能力。
此外,研究發現需要一個強大的數字任務規劃系統,如升級后的海軍陸戰隊規劃和行動后系統(MPAAS),通過存儲以前的任務和經驗教訓的數據來促進機器學習。美國海軍陸戰隊將面臨無人機系統的處理能力和信息存儲方面的挑戰。應盡一切努力增加UAS的處理能力。必須實施一個有效的主要、備用、應急和緊急(PACE)通信計劃,以確保UAS、VTOL和GCS之間所有通信平臺的冗余。美國海軍陸戰隊必須實施支持信任、提供快速反饋和簡單操作的接口。
最后,為了準確評估VTOL、UAS和GCS之間的HMT要求,頂點報告促成了一個探索性實驗的發展,該實驗將在海軍研究生院(NPS)建模虛擬環境和模擬(MOVES)實驗室使用,以促進未來的研究。制定了操作要求和測量方法,以確定HMT要求的有效性。
這項頂點研究為在SCAR任務中執行VTOL/UAS混合行動的人機互動復雜性提供了明確的證據。該頂點研究確定了使用系統分析和協同設計作為一種有效的方法,通過IA框架促進人機協作需求的發展。此外,該研究確定了對復雜的自主性和技術準備程度的需求,這可能是目前還沒有的。頂點建議美國海軍陸戰隊繼續研究人機協作,并利用SCAR任務探索性實驗來進一步完善和研究VTOL/UAS的高級系統要求,以支持具有前沿部署的UAS的混合行動,重點是實現4級自主權。
航空仿真環境(葡萄牙語為Ambiente de Simula??o Aeroespacial - ASA)是一個定制的面向對象的仿真框架,主要用C++開發,能夠對軍事作戰場景進行建模和仿真,以支持巴西空軍在航空航天方面的戰術和程序開發。這項工作描述了ASA框架,帶來了其管理多個仿真機的分布式架構、用于后處理仿真數據的數據分析平臺、在仿真運行時加載模型的能力,以及同時進行多個獨立執行的批處理模式執行平臺。此外,我們還介紹了最近在空戰背景下使用ASA框架作為仿真工具的工作清單。
關鍵詞:仿真環境,分布式仿真,數據分析,軍事,作戰場景
高級研究所(IEAv)是巴西空軍(For?a Aérea Brasileira - FAB,葡萄牙語)的一個研究組織,自2018年以來,開發了航空航天仿真環境(Ambiente de Simula??o Aeroespacial - ASA,葡萄牙語),以提供一個計算解決方案,實現作戰場景的建模和仿真,允許用戶建立戰略、參數和指揮決策,支持在航空航天背景下為國防目的制定戰術、技術和程序。
現代戰場場景的特點給建立實際的戰斗仿真帶來了新的挑戰,需要更多的綜合和靈活的解決方案,不僅要解決技術問題,還要解決組織問題[10]。仿真、集成和建模高級框架(AFSIM)是一個正在開發的框架的例子,以解決其中的一些挑戰[1];然而,它只限于少數美國合作伙伴。在這種情況下,ASA環境被設想為同時足以支持FAB的戰略規劃,滿足作戰分析的需要,并允許開發和評估新技術以加強軍事研究,將自己定位為一個靈活的解決方案,可以根據用戶需求進行調整。這種靈活性是針對客戶的不同特點,這導致了廣泛的要求,而這些要求僅靠商業現成的(COTS)仿真軟件是無法滿足的。由于開發一個全新的解決方案并不高效,ASA團隊決定研究公開可用的工具,旨在將它們整合到一個靈活、可訪問和可擴展的環境中。
擬議的解決方案使用混合現實仿真平臺(MIXR)[11]作為其仿真引擎,這是一個開源的軟件項目,旨在支持開發強大的、可擴展的、虛擬的、建設性的、獨立的和分布式的仿真應用。ASA擴展了MIXR的可能性,增加了額外的元素,創造了一個環境來優化開發者和分析者的任務。我們創建了一個管理器應用程序,作為多種資源之間的接口,作為一個樞紐來運行、存儲和分析眾多計算機上的各種仿真。此外,這個應用程序允許同時創建大量的仿真,只需根據分析員的需要改變初始條件。同時,模型和工具可以在運行時動態加載,以增加靈活性。所有仿真數據都存儲在一個專門的數據庫中,這加快了數據收集過程,促進了更強大的統計分析。此外,考慮到結果的復雜性和ASA用戶的不同技術知識,我們在系統中整合了一個專門的數據分析平臺,不僅用于規劃或可視化目的,還用于對情景產生的數據進行后期處理。
因此,這項工作的主要貢獻是為軍事目的的航空航天背景下的建模和仿真引入了一個新的環境,包含:一個管理多個仿真機的分布式架構;一個用于后處理仿真數據的增強型軍事作戰場景數據分析平臺;一個在仿真運行時加載模型的能力;一個使用不同初始參數進行多次執行的批處理模式執行。此外,我們介紹了最近使用ASA平臺作為空戰領域解決問題的仿真工具的工作清單。
本文的其余部分組織如下。第2節介紹了ASA的架構。在第3節中,我們帶來了一些使用ASA作為仿真工具的研究,這些研究與空戰分析有關,作為這個仿真框架的應用實例。最后,第4節陳述了關于ASA當前狀態的結論,并為未來的工作帶來一些想法。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
現實生活中的問題是動態的,并且與具有多種選擇的決策過程有關。我們需要通過優化來解決其中的一些動態決策問題。當我們需要在決策過程中對多個參數進行權衡時,特別是在動態環境中,解決這些問題具有挑戰性。然而,在人工智能(AI)的幫助下,我們可以有效地解決這些問題。本研究旨在研究利用深度強化學習(DRL)算法為動態多目標環境開發一個智能決策方案。這包括在強化學習(RL)環境中開發一個動態多目標優化領域的基準,這刺激了使用傳統的深海寶藏(DST)基準開發一個改進的測試平臺。擬議的測試平臺是在改變最佳帕累托前沿(PF)和帕累托集(PS)的基礎上創建的。就我所知,這是第一個用于RL環境的動態多目標測試平臺。此外,還提出了一個框架來處理動態環境中的多目標,從根本上保持不同目標之間的平衡,以提供一個與真正的PF相近的折衷方案。為了證明這一概念,所提出的模型已經在現實世界的場景中實施,以預測基于巴西圣保羅水質彈性的脆弱區域。
所提出的算法,即奇偶深度Q網絡(PQDQN)被成功實施和測試,智能體在實現目標(即獲得獎勵)方面表現優異。盡管與多目標蒙特卡洛樹搜索(MO-MCTS)智能體相比,該智能體需要更多的訓練時間(即步驟數),但與多策略DQN(MPDQN)和多帕累托Q學習(MPQ)算法相比,其尋找帕累托最優解決方案的準確性明顯提高。
結果顯示,所提出的算法可以在動態環境中找到最優解。它允許在不對智能體進行任何再訓練和行為調整的情況下適應新的目標。它也制約著需要選擇的策略。就動態DST測試平臺而言,它將為研究人員提供一個進行研究的新維度,使他們能夠在解決動態性質的問題時測試他們的算法。
關鍵詞:深度強化學習,多策略,多目標優化,動態環境,深度Q網絡,矢量獎勵,基準,水質評價,復原力。
今天的人類生活受益于科學及其各種應用。特別是,人工智能(AI)增加了一個新的層面,使人們相信人類的智慧可以被人工取代。然而,智能本身是如此龐大、自發、原始和不確定,以至于在不久的將來,它可能無法被純粹地復制或取代。盡管如此,還是有強大的科學團體相信這種替代,從學術角度來看,它確實值得贊賞(Jarrahi, 2018; King and Grudin, 2016)。
然而,智能的機制可以通過建立機器、智能體和系統,甚至編寫計算機程序,在一定的邊界內進行分析。這種人工開發的系統可以協助人類做出更好的決定,或根據人類定義的一套規則行事(Duan, Edwards and Dwivedi, 2019)。換句話說,科學界在開發學習如何智能并相應執行的系統方面會有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本論文的重點是建立一個智能決策方案,處理多目標(MO)環境中的動態問題。更具體地說,本研究指導如何開發一個計算機應用程序,使其學習到智能,并在動態多目標(DMO)環境中使用深度強化學習(DRL)執行識別優化的解決方案。
人類生活由各種問題組成,這些問題是動態的、多參數的和復雜的。每一個問題都需要遵循不同的步驟來做出最終決定,如果有一個以上的選擇,就需要進行優化。因此,多目標優化,一個為問題尋找最佳解決方案的過程,在最近幾年變得很流行(Zaroliagis和Christos,2005;Botte和Sch?bel,2019)。許多問題涉及連續變化的屬性,需要從許多可用的解決方案中找到一個最佳解決方案,這非常具有挑戰性。例如,預訂航班或酒店,安排班級常規,以適應因工作人員缺席和房間不可用而產生的不斷變化,在戰爭中部署一支軍事部隊等等。這些場景需要動態優化,因為決策需要根據情況經常改變。另一個例子是癌癥患者的用藥,其目標不僅僅是在較短的時間內治愈他們,而且要盡量減少藥物的副作用(Preissner等人,2012)。這個問題還涉及到用藥期間可能出現的任何新情況的風險。
在計算智能領域,解決這些動態多目標優化問題(DMOPs)的常見方法是進化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目標優化領域的許多科學文獻顯示,在使用多目標馬爾科夫決策過程(MOMDP),特別是使用強化學習(RL)技術來解決問題時,出現了截然不同的視角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)這種技術的主要目標之一是達到被稱為帕累托最優解(POS)的解決方案集,它盡可能接近真正的帕累托最優前沿(POF)。這些技術不僅可以找到帕累托前沿的形狀,而且還有助于調查和解碼解決方案可能具有的有趣事實(Gopakumar等人,2018)。此外,最近多目標馬爾科夫決策過程(MOMDP)不僅因其適用性,而且在解決實際的多目標問題方面也受到了極大的關注(Lizotte和Laber,2016)。為了解決MOMDP,常見的方法是使用狀態、行動和獎勵函數來定義RL模型。獎勵函數可以是標量或矢量。然而,根據獎勵假設(Sutton和Barto,2018),目標和目的可以用收到的標量信號(即獎勵)的累積總和的期望值最大化來正式確定。換句話說,所產生的MOMDPs總是可以轉化為具有聚合回報的單一目標MDPs。
然而,Roijers等人(2013)拒絕了Sutton的觀點,質疑其在現實世界中的應用。他們提出了三種靜態場景(即已知權重、未知權重和決策支持場景),作者表明其中一種或兩種轉換是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏測試平臺,該領域的研究非常少(Azzouz、Bechikh和Said,2017)。在這項研究中,通過提出一個動態多目標測試平臺(即動態深海尋寶)來解決這一研究空白,這可能會引導研究人員在這一領域做進一步調查。據我所知,這是在使用DRL的動態多目標優化方面的第一項工作。此外,關于RL環境的動態多目標優化基準的必要性的論證已經確立,因為問題空間的復雜性和在合理的時間范圍內找到一個解決方案是計算密集型的,如NP-hard或NP-complete問題(Plaisted,1984)。此外,還提出了一種算法,該算法主要負責在定義的動態環境中處理一個以上的目標。之后,該算法的實施被認為是根據巴西圣保羅(SP)22個地區的水質恢復力來識別和預測脆弱地區,這確保了所提算法的適用性和效率。這種實施方式打破了理論知識的界限,有助于解決實際問題。
關于實施,只考慮了基本網絡,它有461個數據采集點。水體的流量測量是由圣保羅環境公司(CETESB)與圣保羅州水和能源部合作進行的。其結果是通過讀取刻度來測量水體中的流量來取樣。2017年,核心網絡產生了約118,000個(如物理、化學、生物、生物分析和生態毒理學)數據量(Publica??es e Relatórios | águas Interiores, 2017)。這一實施也可能導致解決我們每天面臨的其他一些動態的現實世界問題。
我們生活在這樣一個時代,毫無疑問,技術已經極大地改變了我們的工作方式。根據牛津大學的經濟學家Carl Frey博士和Michael Osborne博士的說法,所有類別的工作有40%都有可能因為自動化而失去(Benedikt Frey等人,2013)。人工智能(AI)和機器學習(ML)將不可避免地對這種替代產生嚴重影響(Chris Graham,2018),甚至在政策制定方面(Federico Mor,2018)。關于人工智能對人類的影響,有兩派不同的觀點(Dwivedi等人,2019;Zanzotto,2019)。一派認為,人工智能很可能對人類產生破壞性影響(Clarke,2019),而另一派則期望人工智能對人類的進步起到積極作用(Woo,2020)。然而,這種爭論只有在未來人工智能技術充分發展的時候才能得到解決。在這個自動化過程中,未來將對就業部門產生重大影響,而人工智能將是這種數字化的開拓者(Syed等人,2020)。
為此,計算智能研究人員將更多地參與到使用機器人、增強和虛擬現實以及游戲環境的模擬中。在這整個過程中,游戲或游戲環境將是分析不同算法、模擬問題和提供解決方案的關鍵組成部分之一。明顯的原因是,游戲環境可以作為設計、開發、實施、測試、修改和改進算法的小白鼠(Justin Francis,2017)。遵循同樣的宗旨,本研究解決了DMOP領域的一個空白,并在模擬環境的幫助下提出了一個基準,作為對該領域的貢獻。
在這篇論文中,我們創造了一個動態的游戲環境,其中有一組相互沖突的目標。如前所述,問題的目標和約束條件相互之間是動態變化的,而且總是在不斷發展。為了解決這個問題,進化算法(EA)被廣泛用于處理優化問題。然而,由于隨時間變化的動態性,DMOPs的解決更具挑戰性,EA在解決這些問題時常常面臨困難(Jiang等人,2018)。
盡管如此,在2015年DeepMind的成功之后(Mnih等人,2015),人們對使用RL特別是深度強化學習(DRL)解決順序決策中的多目標優化的興趣越來越大(Arulkumaran等人,2017)。本研究也是受這一成就的激勵,打算從深度RL的角度增加價值,解決動態多目標優化的問題。此外,還考慮了一個水質測試案例,這是由人類非常關鍵的需求之一所鼓勵的,特別是在21世紀。在這項研究中,對水質恢復力進行了深入研究,并使用機器學習(ML)技術(即DRL)來確定巴西某個城市的關鍵區域。在這項研究中,提出了一種稱為奇偶性Q深Q網絡(PQDQN)的新方法,它能夠在動態DST環境中找到非主導的解決方案,并根據動態多目標環境中的水質復原力預測脆弱區域。智能體在這些環境中進行互動,這些環境是基于多目標馬爾科夫決策過程(MOMDP)的,并且能夠在RL環境中獲得獎勵。
在這項研究中,主要目的是解決現有測試平臺在強化學習背景下的動態多目標優化的挑戰。本研究的次要目的是為動態多目標環境研究和開發一個適當的決策框架。為了實現這些目標,我們確定了以下目標。
a) 調查當前在RL背景下動態多目標優化的最新進展。
b) 設計和開發一個用于RL環境下動態多目標優化的概念和數學模型。
c) 設計和開發一個新的動態多目標優化測試平臺,用于RL環境。
d) 設計和開發一種使用深度強化學習的新算法,該算法可以處理動態和優化多目標環境下的決策。
e) 應用所提出的算法來解決一個現實世界的問題,即利用巴西圣保羅州的水質復原力來識別和預測脆弱區域。
本研究對以下研究問題的答案進行了調查。
Q1: 提出的基準能否解決RL環境的DMOP研究領域的空白?
Q2:基于DRL的算法如何處理多個目標并根據水質預測脆弱區域?
本研究工作的主要科學貢獻如下。
a. 為RL環境的動態多目標優化設計和開發了一個新的和創新的測試平臺。
b. 首次使用目標關系映射(ORM)來構建不同目標之間的元策略(如治理策略),以找出折中的解決方案。
c. 開發了一種新的方法來驗證所提出的算法在現實世界中的適用性,該算法根據巴西圣保羅的水質復原力來識別和預測脆弱區域。
d. 通過廣泛的文獻回顧,在RL環境的DMOP背景下確定研究差距。
深海寶藏(DST)是一個游戲環境。它是一個標準的多目標問題,也是由(Vamplew等人,2011)引入的RL環境的測試平臺。這是流行的測試平臺之一,在多目標RL研究的背景下,已經多次出現在文獻中。這個環境由10行和9列組成,有三種不同類型的單元,如船只可以穿越的水單元,不能穿越的海面單元,因為這些單元是網格的邊緣,還有提供不同獎勵的寶藏單元。當智能體到達寶藏單元時,DST游戲結束。
在這里,智能體控制著一艘潛水艇,在海底尋找寶藏。智能體的目標是在最短的時間內找到價值最高的寶藏(即沖突的方式)。它有決定性的過渡,有非凸邊界。潛水艇從網格的左上角開始,可以向上、向下、向右和向左移動。與單目標環境不同的是,智能體獲得矢量獎勵。獎勵由每次移動的懲罰-1(即RL的負獎勵)和取得的寶物價值組成,寶物價值為0,除非智能體到達寶物的位置時收到寶物的數量(即RL的正獎勵)。最佳帕累托前線有10個非支配性的解決方案,每一個寶藏都有一個。鋒面是全局凹陷的,在寶藏值為74、24和8時有局部凹陷。最佳前線帕累托前線的超體積值為10455。圖1.1顯示了一個經典的和靜態的DST測試平臺,其中最低的寶藏值是1,最高的是124。
圖1. 1:作為測試案例1的深海尋寶(DST)環境
選擇測試案例2是為了讓所提出的算法(即PQDQN)和方法(即MOMDP)能夠解決巴西一個擁擠的城市中的實際問題。考慮到這一龐大人口的公共供水問題,圣保羅州政府正在努力實現該州各市鎮的普遍衛生設施,在那里,各種服務(如測量和維護水質、污水處理服務等)的人口比例增加。然而,水污染惡化了水的質量,阻礙了圣保羅的可持續發展(Governo do Estado de S?o Paulo | Elei??es, 2018)。河流、水庫、河口和沿海地區水域中存在的污水降低了水質,限制了其多種用途,同時增加了因初次接觸或攝入受污染的水而引起的水傳播疾病的發生(Nogueira等人,2018)。
為了確定脆弱地區并在這些地區采取適當的行動,需要大量的人力和費用。這些行動涉及綜合管理行動,涉及與工農業污水使用管理、人力資源(HR)管理的復雜性、固定資產和反應性或計劃性維護有關的各個部門和組織(Barbosa, Alam and Mushtaq, 2016)。因此,重要的是實現流程自動化,以盡可能快地檢測出脆弱區域。因此,基于人工智能的最佳決策支持系統可以減少管理這種巨大任務的成本,并可以產生社會經濟影響,這可能有助于可持續發展。圖1.2顯示了測試案例2的鳥瞰圖,其中智能體能夠根據水質恢復力預測脆弱區域。
圖1.2:測試案例2的示意圖
簡而言之,該測試案例中發現的問題如下:
這是一個動態問題,考慮到水質數據因各種因素而隨時間變化。
收集這些數據是昂貴的,需要人力資源。
由于手工檢查和計算,識別脆弱區很困難。
針對不同區域的投資優化很復雜。
確定各區的優先次序以提高水質是非常耗時的。
本研究的成果在下面列出了出版物清單。
雜志:
Md Mahmudul Hasan, Khin Lwin, Maryam Imani, Antesar Shabut, Luiz Fernando Bittencourt, M.A. Hossain, "Dynamic multi-objective optimisation using deep reinforcement learning: benchmark, algorithm and an application to identify vulnerable zones based on water quality", Engineering Applications of Artificial Intelligence, Publisher: Elsevier, Volume 86, 2019, Pages 107-135, ISSN 0952-1976, //doi.org/10.1016/j.engappai.2019.08.014.
IEEE會議:
1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Alamgir Hossain, "Design and Development of a Benchmark for Dynamic Multi-objective Optimisation Problem in the Context of Deep Reinforcement Learning", 22nd International Conference on Computer and Information Technology, Dhaka, 2019. IEEE Xplore數字檔案鏈接:
2.Md Mahmudul Hasan, Ali Mohsin, Maryam Imani, Luiz Fernando Bittencourt, "A novel method to predict water quality resilience using deep reinforcement learning in Sao Paulo, Brazil", International Conference on Innovation in Engineering and Technology(ICIET), Dhaka, 2019.
3.M. M. Hasan, K. Abu-Hassan, Khin Lwin and M. A. Hossain, "可逆決策支持系統。Minimising cognitive dissonance in multi-criteria based complex system using fuzzy analytic hierarchy process," 2016 8th Computer Science and Electronic Engineering (CEEC), Colchester, UK, 2016, pp.210-215. IEEE Xplore數字檔案。鏈接:
其他國際會議:
1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Miltu Kumar Ghosh, M A Hossain, "Deep Reinforcement Learning for Dynamic Multi-objective Optimisation", 17th International Conference on Operational ResearchKOI 2018, Zadar, Croatia, 2018.
其他貢獻:
1.Md Mahmudul Hasan, Md Shahinur Rahman, Khin Lwin, Antesar Shabut, Adrian Bell, M A Hossain, "Deep Reinforcement Learning for Optimisation", "Handbook of Research on Deep Learning Innovations and Trends "的書籍章節,出版商。IGI Global,2018。鏈接:
2.2017年PACKT出版社出版的《Machine Learning for Developers》一書的技術評審員。鏈接:
3.Md Mahmudul Hasan, "Predicting Water Quality Resilience: A Machine Learning Approach", 8th FST Conference, ARU, UK, 2019.
4.Md Mahmudul Hasan, "A robust decision support system in dynamic multiobjective optimization using deep reinforcement learning", 12th Research Student Conference, ARU, UK, 2018.
5.最佳博士論文發表,第7屆FST會議,ARU,英國,2017。
6.Md Mahmudul Hasan, "Optimising decision in a multi-criteria based environment", seminar at ARITI, ARU, UK, 2017.
以下部分代表了本研究中經常使用的常用術語。
智能體:智能體或算法生活在模擬環境中,幫助做出決策。
狀態:狀態有助于確定由智能體決定的下一個步驟。
行動:智能體通過觀察新的狀態和接受獎勵,在不同的狀態之間可能的移動。
政策:政策通常表示智能體選擇行動的行為。
環境:環境是智能體的外部實體,它與狀態相互作用。環境可以是完全可觀察的(即智能體直接觀察環境)或部分可觀察的(即智能體間接觀察環境)。
靜態環境:不發生變化的環境,或受變化的參數和約束的影響。
動態環境:隨時間變化的環境。更具體地說,受目標函數、約束條件和問題參數影響的變化狀態。
獎勵:智能體有一個特定的任務,需要通過行動來完成。在有限水平線或偶發環境中,預期回報通常是標量獎勵的未貼現的有限總和,直到智能體達到終端狀態。
決策空間:這個術語用來定義代表選擇的空間,以做出決策。
目標空間:這個空間定義了基于目標的支配性和非支配性解決方案。
值得一提的是,為了讓讀者合理地閱讀這篇論文,我們使用了最少的首字母縮寫詞和數學術語,使讀者感到輕松和愉快。在一些章節的末尾,提供了一個圖形表示,以提供一個可視化和概念性的理解。此外,有些地方的數學公式是以可讀的形式描述的。然而,在某些地方已經向讀者做了充分的介紹,以便他們可以從相關的來源收集更多的信息。此外,一些詞語(如快、慢、快、長)被用來例證收斂性、耗費的訓練時間和識別真正的PF的性能,由于在優化和RL領域對真正的PF的近似(如移動全局最優),這些詞語被廣泛陳述和利用(Moffaert和Nowé,2014;Lin等人,2017;Farina、Deb和Amato,2004;Mehnen、Wagner和Rudolph,2006;Sutton和Barto,2018)。此外,之前對強化學習的熟悉程度可能會對讀者跟隨和享受閱讀產生明顯的影響。
本論文的組織結構如下所示。
第二章回顧了相關的研究工作,其中強調了智能應用、決策支持系統、馬爾科夫決策過程、機器學習、強化、深度強化學習、現有基準和優化技術的概述。本章還代表了對基本組成部分的全面分析,以增強論文成果的可讀性,如回顧分析算法的性能指標。最后,本章對研究的理由進行了說明。
第三章涉及研究的方法,其中解釋了研究設計。本章還涉及到方法的細節和進行這項研究的必要方法。它還對數據準備、水質參數選擇和彈性計算方法進行了全面分析。
第四章討論了問題背景和實驗背景,其中描述了數學和概念模型。在這一章中,描述了擬議的基準、網絡結構和對現實世界場景中MOMDP的形式化的詳細討論,以及兩個測試案例的實驗背景。
第五章解釋了擬議算法的高層結構。在這一章中,已經解釋了所提出的算法的一步一步的工作程序。此外,本章還討論了開發擬議算法所需的工具,如必要的軟件、庫和機器環境。
第章介紹了實證分析和討論,其中也闡述了關鍵的審查和限制。在這一章中,還提到了性能測量標準和選擇這些標準的理由。此外,還解釋了擬議算法的優點和缺點。
最后,第七章闡述了本論文的結論和未來方向。未來方向包括開展現有研究的近期和長期目標。本章還解釋了兩個測試案例的進一步可能方向。
本文研究具有已知動力學和對抗性干擾動態系統的多智能體控制問題。我們的研究重點是沒有集中的預計算策略的最優控制,而是對不同的智能體只配備一個穩定控制器的自適應控制策略。我們給出了一個從任何(標準)遺憾最小化控制方法到分布式算法的還原方法。該還原法保證了所產生的分布式算法相對于最佳預計算的聯合策略具有較低的遺憾。我們的方法包括將在線凸優化推廣到多智能體環境中,并應用最近從非隨機控制中得出的單智能體工具。我們在一個過度行動的飛機模型上對我們的方法進行了經驗評估。我們表明,分布式方法對故障和動態中的對抗性擾動是穩健的。
提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。
我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。
在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體。
圖4-1:戰術模型的高層架構
圖4-2:戰術環境的可視化
圖5-2:在PoIs和單個單位被打破之前積累單位
《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》.
獲獎理由:
本文提出了一個完善且經過深思熟慮的系統,對自動駕駛社區具有巨大的潛在影響。
論文簡介: 多智能體交互是現實世界中自動駕駛的基礎,盡管人們已經進行了十多年的研究和發展,但如何在各種情況下與各種道路車輛(智能體)進行有效交互的問題仍未解決。Learning的方法可以為解決這個問題提供很多幫助,但是這一方法需要一個現實的多智能體模擬器,該模擬器會產生多種多樣且有效的駕駛交互。為了滿足這一需求,我們開發了一個專用的仿真平臺:SMARTS (Scalable Multi-Agent RL Training School):可擴展多智能體強化學習學校。
上圖是SMARTS 模型架構,其交互方案是使用特定領域語言(DSL)定義的。Social智能體是從“ Social智能體Zoo”中實例化而來。橙色車輛由學智能體控制、深藍色車輛由 Social智能體控制、淺藍色車輛由交通服務提供商控制。原則上,所有提供程序和智能體都可以在自己的進程中運行,也可以遠程運行。SMARTS支持訓練、積累和使用道路用戶的各種行為模型,這些反過來又可以用于創建越來越現實和多樣化的交互,從而可以對多智能體交互進行更深入、更廣泛的研究。在本文中,我們描述了SMARTS的設計目標,解釋了SMARTS的基本體系架構和關鍵功能,并通過在交互場景中進行具體的多智能體實驗來說明其用法。
最后,我們開源了SMARTS平臺以及相關的基準測試任務和性能評估指標,以鼓勵和支持針對自動駕駛的多智能體學習的研究。