創新和技術發展在科學的突破中一直發揮著重要作用。在過去的幾十年里,無人水下航行器(UUV)的使用已經徹底改變了水生探索。UUV可以部署在人類無法到達的深度和環境中,并且可以收集到其他方式無法獲得的數據。
近年來,人們對重新開放歐洲各地的廢棄礦區的興趣越來越大,這些礦區可能含有目前急需的原材料,其開發將減少歐洲對外部資源的依賴。最近一項關于歐洲廢棄礦場的調查收集了關于30000個礦場的數據,其中有8000多個礦場被淹沒。本論文為UNEXMIN項目框架內開發的創新解決方案做出了貢獻,該項目旨在探索這些被淹沒的地點,其中設計了一個新型水下平臺系統,名為UX-1。UX1機器人需要在未知礦井隧道的三維網絡中完全自主航行,因為不可能有任何通信,并收集各種地球科學數據。開發這個打算在挑戰性環境中執行的新型平臺,需要對其軟件和硬件模塊采取創新設計方法。
本論文的主要研究目標是設計、實現和驗證UX-1水下機器人的自主引導系統。該機器人新穎的機械設計及其獨特的機載科學儀器代表了該平臺的具體特征。這些儀器與潛水器本身的運動的協調,滿足每一種類型的傳感器的科學樣品捕獲的嚴格位置要求,必須由平臺的引導系統來保證。由于這些原因,UX-1的導向系統的設計和實施構成了一個獨特的研究挑戰。
此外,為了確保長期的自主性,需要有足夠程度的彈性,以便在受到意外事件干擾時保持和恢復系統的運行功能。為此,我們開發了一種先進的基于知識的自我意識技術,名為元控制。元控制器的設計是為了通過提高機器人的容錯能力來增加其自主性。一個自我診斷模塊被用來確定機器人的狀態,一個決策模塊被用來根據之前的診斷結果選擇整個機器人系統的最佳重新配置以實現最佳功能。
所提出的解決方案在復雜的情況下使用模擬、軟件在環(SIL)和硬件在環(HIL)方法進行實驗驗證,旨在以越來越高的保真度重現礦井隧道環境中的導航。代表最高保真度的HIL實驗要求將真實的硬件和軟件模塊,包括我們的制導系統,與部分模擬的環境讀數相結合。實驗是在一個水池中進行的,其中與定位有關的真實讀數被用于導航和控制目的,而測繪傳感器的讀數被繞過,以便復制不同的礦井隧道結構。在這些測試中獲得的結果證明了制導系統的有效性及其與機器人其他系統的適當整合,并驗證了UX-1平臺在淹沒的礦山環境中執行復雜任務的能力。
本論文分為七章,第一章介紹了論文的動機、問題陳述和目標,以及方法。論文的其余部分組織如下。
第二章介紹了機器人學的背景,機器人的分類,并回顧了水下航行器領域的技術現狀,重點介紹了UUVs。此外,還介紹了自主系統,以及自主水平(LOA)和技術準備水平(TRLs)的定義。
第三章介紹了水下探雷機器人UX-1,它被用作開發我們的引導系統的平臺。解釋了對機器人設計的要求和限制,詳細介紹了機器人的機械設計以及運動系統。此外,還解釋了UX-1的硬件組件和它的傳感器,以及它的軟件結構。
第四章介紹了制導系統。首先,介紹了水下機器人的路徑規劃和任務控制的技術現狀。然后,解釋了制導系統,以及它的子系統,即任務規劃器、行動執行器、軌跡發生器。最后,對幾個路徑規劃器進行了基準測試和討論。
第五章介紹了為實現容錯操作而開發的元控制器。首先,介紹了容錯和自我意識方面的技術現狀。第二,介紹了一般的元控制框架和TOMASys元模型的擴展。第三,解釋了使用TOMASys的UX-1機器人的本體建模。最后,討論了所提解決方案的好處和局限性。
第六章介紹了用于測試和驗證制導系統的實驗裝置。解釋了軟件在環(SIL)和HIL范式,以及使用的虛擬環境。然后,詳細介紹了用于制導系統驗證的實驗。
第七章包括結論和未來工作。
自主水下航行器(AUVs)是機器人平臺,通常用于收集環境數據,提供測深圖像,并執行操縱任務。這些機器人不僅用于科學,而且還用于工業和軍事目的。氣候變化、政治不穩定以及對可再生能源和化石能源日益增長的需求,使得人們對高性能AUV,特別是長距離AUV的需求。
長距離AUV的性能由幾個參數來描述,如自主決策、精確導航、系統可靠性和航行器續航能力。航行器的續航能力是實現長距離任務的關鍵能力,由能量容量和功率消耗決定。通過以最佳速度巡航,可以最有效地利用航行器的續航能力,從而實現最長的航行器航程。AUV的航程可以通過最大限度地提高可用的能量容量和最大限度地減少總功率消耗來延長。本論文展示了推進系統和動力源的選擇如何有助于提高AUV的航程。
功率消耗包括旅館負荷和推進功率。賓館負荷主要取決于有效載荷的傳感器,而推進功率可以通過選擇正確的推進系統而最小化。作為本論文的一部分,使用分析方法分析了水下滑翔機的過境性能。該分析產生了一個用于評估水下滑翔機能源效率的滑翔指標,并允許與其他常規推進系統進行比較。
AUV最常見的能源系統是一次和二次電化學電池,特別是鋰離子電池。替代能源系統,如燃料電池(FC)系統可以潛在地提高AUV的航程。通過一個使用現成組件的概念設計研究,顯示了FC系統如何能增加AUV的能量容量。FC系統通常作為混合系統與小容量的電池系統配對實施。需要能源管理策略(EMS)來協調這兩種電源。在這篇論文中,確定性的和基于優化的策略已經在模擬中進行了測試,并根據現場試驗的現實AUV電力消耗數據進行了評估。結果表明,EMS的復雜性需要隨著任務的復雜性而增長。雖然確定性方法可以為標準任務(如測深成像)產生最低的能量消耗,但基于優化的方法提供了最佳的負載跟隨行為,使這些方法更適合于通過保持電池的充電狀態來保持電源的可靠性。
近年來,由于機器人技術所依賴的各種技術的進步所帶來的推動力,人們對機器人技術的興趣越來越大。在機器人技術發展的所有方面中,最相關的一個是與自主機器人技術有關的,即機器人能夠在最小的人為干預下執行指定任務。一個簡單的例子是現在常見的無人駕駛飛行器(UAV),它能夠在各點之間飛行,而不需要人去執行駕駛任務。這種在最小的人類干預下執行指定任務的能力,在那些在惡劣的、危險的、甚至遙遠的環境中執行的任務中具有主要優勢。
使用這種類型的機器人的通常工作方式是從定義一些目標開始的,這就是所謂的任務。定義一個計劃來實現任務目標。在這種情況下,計劃的定義僅限于機器人必須執行的一系列行動,沒有其他的執行分支。當有可能控制執行計劃的環境條件時,這種方法是可以接受的。然而,對使用自主機器人更感興趣的環境,如有危險或相當遠的距離,通常是開放的。這意味著在這些環境中可能會出現妨礙正確執行計劃的情況,有必要使任務適應這些情況。
傳統上,當出現阻礙計劃執行的情況時,任務的調整有兩種方式:
1.將適應能力委托給機器人。
2.更新任務計劃,要么調整它,要么為發現的情況創建一個新的計劃(重新規劃)。
這兩種選擇都有其缺點。一方面,授權并不總是可能的,遠非易事。而且,即使在那些可以將某種適應能力委托給機器人的情況下,仍然有可能出現機器人無法適應的情況。另一方面,更新任務計劃是一個耗時的過程,這將對任務的完成產生負面影響。此外,如果幾個機器人合作參與一項任務,有可能其中一個機器人檢測到的情況需要為其他人調整計劃。而無論是授權,還是重新規劃或計劃修復都不包括這種可能性。
此外,在執行任務的過程中還可以檢測到其他類型的情況,這些情況并不意味著需要調整計劃,而是意味著存在著實現其他理想目標的機會。
本論文提出了在物聯網(IoT)框架內對合作機器人的任務規劃調整的貢獻,其目標如下:1)定義一個改進的規劃結構,與它的經典定義兼容,并允許使用現有的知識來預測可能的調整,以及識別原始計劃之外的機會;2)定義一個任務管理的參考中間件架構,使用之前的結構,作為特定系統的具體架構設計的指南。
所定義的新結構,在本論文中稱為 "戰略",包含了規劃的經典結構,并輔以對構成規劃的行動可能進行的分層分解,包括決策節點,以及對已確定的機會的備選計劃的考慮。這個結構由一個任務管理的通用參考架構的建議來補充,在本論文中稱為 "CoMMMA"。CoMMMA包括必要的功能,以促進對事件的適應和對機會的檢測,與物聯網(IoT)參考模型保持密切的關系。
作為概念的證明和建議的驗證,該模型已被用于為SWARMs歐洲研究項目的架構定義一個任務管理器組件。SWARMs項目旨在擴大水下和水面自主機器人的使用,使用自主車輛在滿足危險和距離條件的水下環境中執行任務。管理者組件采用了適用于該項目的具體要求的必要的CoMMMA概念,它已經在該項目的最終演示器中成功測試,獲得了有希望的結果。
本論文提出的CoMMMA模型也被用于歐洲研究項目AFarCloud的架構的任務管理組件的設計中,該項目是在精準農業領域的框架下進行的,在撰寫這些行文時正在等待評估。
這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。
本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。
我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。
機器人系統正在進入舞臺。在硬件組件和軟件技術進步的推動下,機器人越來越能夠在工廠外運作,協助人類,并與人類一起工作。機器人擴張的限制因素仍然是機器人系統的編程。由于建立一個多機器人系統需要許多不同的技能,只有最大的組織能夠在機器人提供的服務空間中進行創新。
只有最大的組織能夠在機器人提供的服務空間中進行創新。為了使開發新的機器人服務更容易,我在這篇論文中提出了一個規劃模型,在這個模型中,用戶(程序員)給出了需要完成的聲明性規范,然后一個后臺系統確保該規范被安全、可靠地執行。我介紹了Antlab,一個這樣的后端系統。Antlab接受來自多個用戶的線性時態邏輯(LTL)規范,并使用一組不同能力的機器人來執行它們。
在實施Antlab的經驗基礎上,我確定了由所提出的規劃模型產生的問題。這些問題分為兩大類:規范和規劃。
在規范問題的類別中,我解決了從正反兩方面的例子中推斷LTL公式的問題,以及僅從一組正面例子中推斷LTL公式的問題。在這些解決方案的基礎上,我開發了一種方法來幫助用戶將他們的意圖轉移到正式的規范中。本論文所采取的方法是將來自單個演示的意圖信號和用戶給出的自然語言描述結合起來。通過將問題編碼為命題邏輯的可滿足性問題,推斷出一組候選規范。通過與用戶的互動,這組規格被縮小到一個單一的規格;用戶批準或拒絕對機器人在不同情況下的行為進行的模擬。
在規劃問題類別中,我首先解決了目前正在執行任務的機器人的規劃問題。在這種情況下,不清楚應該把什么作為規劃的初始狀態。我通過考慮多個推測的初始狀態來解決這個問題。從這些狀態出發的路徑是根據一個質量函數來探索的,該函數反復估計規劃時間。第二個問題是獎勵函數為非馬爾科夫時的強化學習問題。建議的解決方案包括反復學習代表獎勵函數的自動機,并使用它來指導探索。
準確和強大的自主水下導航(AUV)需要在各種條件下進行位置估計的基本任務。此外,美國海軍更希望擁有不依賴外部信標系統的系統,如全球定位系統(GPS),因為它們會受到干擾和欺騙,并會降低操作效率。目前的方法,如地形輔助導航(TAN),使用外部感知成像傳感器來建立一個本地參考位置估計,當這些傳感器超出范圍時,就沒有用了。現在需要的是多個導航過濾器,每個過濾器都能根據任務條件發揮更大的作用。本論文研究了如何結合多個導航過濾器來提供一個更穩健的AUV位置估計。提出的解決方案是利用基于信息論框架的交互式多模型(IMM)估計方法,混合兩種不同的過濾方法。第一個過濾器是基于模型的擴展卡爾曼過濾器(EKF),在航位推算(DR)條件下有效。第二個是用于主動地形輔助導航(ATAN)的粒子濾波方法,在傳感器范圍內適用。利用在華盛頓州新月湖收集的數據,我們開發了每個導航過濾器的結果,然后我們演示了如何使用IMM信息理論方法來混合方法,以改善位置和方向的估計。
近年來,美國防部已指示加速采用人工智能(AI),并建立一支技術先進、能夠確保美國安全的部隊。未來自主海上行動的一個重要組成部分是無人自主車輛能夠在不使用全球定位系統(GPS)或其他外部信標系統的情況下運行。
在一個快速發展的技術世界中,在拒絕使用GPS的環境中或不使用聲學轉發器等系統,甚至是深海導航定位系統(POSYDON)系統的情況下進行操作從未如此關鍵。領先的解決方案是地形輔助導航(TAN),它利用機載地圖和傳感器系統的組合,以便在已知的地圖內進行相關的測量。這種方法的最大缺點是需要不同的濾波估計方法,而這些方法在設計上可能無法協同工作。
這項研究將分幾個部分介紹。首先是實施一個新的擴展卡爾曼濾波器(EKF),作為海軍研究生院的遠程環境監測單元100(REMUS)車輛上的航位推算(DR)模型,以改善其在速度估計不準確時的估計。其次,這項研究試圖在信息理論的基礎上建立一個用于主動地形輔助導航(ATAN)的粒子過濾器(PF)。最后,也許是最重要的,本研究試圖在PF和EKF之間實現一個新的信息理論聯合過程,以改善所有狀態的估計。
圖 1.1 定位、導航和授時替代層次結構。
圖1.2 可能需要不同過濾技術的情況。狀況1,AUV在水面附近作業,可以利用GPS數據。由于深度原因,AUV無法利用任何其他傳感器,必須使用DR模型。狀態2,太深了,無法快速獲取GPS數據,而且還沒有深到可以使用面向海底的傳感器。制度3可以利用DVL/ADCP和慣性導航系統(INS),可以提供更準確的運動估計。制度4可以利用成像傳感器來進一步提高導航的準確性。
圖5.1 機載水深和成像傳感器提供的測量值與粒子分布相關。該分布的香農熵顯示了粒子分布中的不確定性,高值表明該分布對位置不確定。由于從AUV經歷地形到計算香農熵有一個時間延遲,標量值不會完全一致。然而,它將很好地表明分布具有低水平的不確定性。
本論文的組織結構如下。第2章是文獻回顧,包括設備說明、貝葉斯濾波(BF)和信息論的必要背景,以及現場實驗的概述。第3章將介紹位置估計濾波技術和交互式多模型(IMM)的概述。第4章將討論基于模型的擴展卡爾曼濾波器(EKF)的發展。第5章將討論粒子濾波器(PF)的開發和仿真結果。第6章將討論信息理論互動多模型(IT-IMM)的開發和仿真結果。論文將在第7章中總結和討論未來的工作。
介紹一種新的IT-IMM估算方法,通過綜合使用后驗概率分布中的香農熵和預測PF性能的地形適宜性措施,將基于模型的EKF和PF聯合起來。
在沒有ADCP/DVL的情況下,基于模型的EKF用于估計前進和側滑速度。
一種PF算法,實現了粒子再分配的信息理論框架。
現實生活中的問題是動態的,并且與具有多種選擇的決策過程有關。我們需要通過優化來解決其中的一些動態決策問題。當我們需要在決策過程中對多個參數進行權衡時,特別是在動態環境中,解決這些問題具有挑戰性。然而,在人工智能(AI)的幫助下,我們可以有效地解決這些問題。本研究旨在研究利用深度強化學習(DRL)算法為動態多目標環境開發一個智能決策方案。這包括在強化學習(RL)環境中開發一個動態多目標優化領域的基準,這刺激了使用傳統的深海寶藏(DST)基準開發一個改進的測試平臺。擬議的測試平臺是在改變最佳帕累托前沿(PF)和帕累托集(PS)的基礎上創建的。就我所知,這是第一個用于RL環境的動態多目標測試平臺。此外,還提出了一個框架來處理動態環境中的多目標,從根本上保持不同目標之間的平衡,以提供一個與真正的PF相近的折衷方案。為了證明這一概念,所提出的模型已經在現實世界的場景中實施,以預測基于巴西圣保羅水質彈性的脆弱區域。
所提出的算法,即奇偶深度Q網絡(PQDQN)被成功實施和測試,智能體在實現目標(即獲得獎勵)方面表現優異。盡管與多目標蒙特卡洛樹搜索(MO-MCTS)智能體相比,該智能體需要更多的訓練時間(即步驟數),但與多策略DQN(MPDQN)和多帕累托Q學習(MPQ)算法相比,其尋找帕累托最優解決方案的準確性明顯提高。
結果顯示,所提出的算法可以在動態環境中找到最優解。它允許在不對智能體進行任何再訓練和行為調整的情況下適應新的目標。它也制約著需要選擇的策略。就動態DST測試平臺而言,它將為研究人員提供一個進行研究的新維度,使他們能夠在解決動態性質的問題時測試他們的算法。
關鍵詞:深度強化學習,多策略,多目標優化,動態環境,深度Q網絡,矢量獎勵,基準,水質評價,復原力。
今天的人類生活受益于科學及其各種應用。特別是,人工智能(AI)增加了一個新的層面,使人們相信人類的智慧可以被人工取代。然而,智能本身是如此龐大、自發、原始和不確定,以至于在不久的將來,它可能無法被純粹地復制或取代。盡管如此,還是有強大的科學團體相信這種替代,從學術角度來看,它確實值得贊賞(Jarrahi, 2018; King and Grudin, 2016)。
然而,智能的機制可以通過建立機器、智能體和系統,甚至編寫計算機程序,在一定的邊界內進行分析。這種人工開發的系統可以協助人類做出更好的決定,或根據人類定義的一套規則行事(Duan, Edwards and Dwivedi, 2019)。換句話說,科學界在開發學習如何智能并相應執行的系統方面會有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本論文的重點是建立一個智能決策方案,處理多目標(MO)環境中的動態問題。更具體地說,本研究指導如何開發一個計算機應用程序,使其學習到智能,并在動態多目標(DMO)環境中使用深度強化學習(DRL)執行識別優化的解決方案。
人類生活由各種問題組成,這些問題是動態的、多參數的和復雜的。每一個問題都需要遵循不同的步驟來做出最終決定,如果有一個以上的選擇,就需要進行優化。因此,多目標優化,一個為問題尋找最佳解決方案的過程,在最近幾年變得很流行(Zaroliagis和Christos,2005;Botte和Sch?bel,2019)。許多問題涉及連續變化的屬性,需要從許多可用的解決方案中找到一個最佳解決方案,這非常具有挑戰性。例如,預訂航班或酒店,安排班級常規,以適應因工作人員缺席和房間不可用而產生的不斷變化,在戰爭中部署一支軍事部隊等等。這些場景需要動態優化,因為決策需要根據情況經常改變。另一個例子是癌癥患者的用藥,其目標不僅僅是在較短的時間內治愈他們,而且要盡量減少藥物的副作用(Preissner等人,2012)。這個問題還涉及到用藥期間可能出現的任何新情況的風險。
在計算智能領域,解決這些動態多目標優化問題(DMOPs)的常見方法是進化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目標優化領域的許多科學文獻顯示,在使用多目標馬爾科夫決策過程(MOMDP),特別是使用強化學習(RL)技術來解決問題時,出現了截然不同的視角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)這種技術的主要目標之一是達到被稱為帕累托最優解(POS)的解決方案集,它盡可能接近真正的帕累托最優前沿(POF)。這些技術不僅可以找到帕累托前沿的形狀,而且還有助于調查和解碼解決方案可能具有的有趣事實(Gopakumar等人,2018)。此外,最近多目標馬爾科夫決策過程(MOMDP)不僅因其適用性,而且在解決實際的多目標問題方面也受到了極大的關注(Lizotte和Laber,2016)。為了解決MOMDP,常見的方法是使用狀態、行動和獎勵函數來定義RL模型。獎勵函數可以是標量或矢量。然而,根據獎勵假設(Sutton和Barto,2018),目標和目的可以用收到的標量信號(即獎勵)的累積總和的期望值最大化來正式確定。換句話說,所產生的MOMDPs總是可以轉化為具有聚合回報的單一目標MDPs。
然而,Roijers等人(2013)拒絕了Sutton的觀點,質疑其在現實世界中的應用。他們提出了三種靜態場景(即已知權重、未知權重和決策支持場景),作者表明其中一種或兩種轉換是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏測試平臺,該領域的研究非常少(Azzouz、Bechikh和Said,2017)。在這項研究中,通過提出一個動態多目標測試平臺(即動態深海尋寶)來解決這一研究空白,這可能會引導研究人員在這一領域做進一步調查。據我所知,這是在使用DRL的動態多目標優化方面的第一項工作。此外,關于RL環境的動態多目標優化基準的必要性的論證已經確立,因為問題空間的復雜性和在合理的時間范圍內找到一個解決方案是計算密集型的,如NP-hard或NP-complete問題(Plaisted,1984)。此外,還提出了一種算法,該算法主要負責在定義的動態環境中處理一個以上的目標。之后,該算法的實施被認為是根據巴西圣保羅(SP)22個地區的水質恢復力來識別和預測脆弱地區,這確保了所提算法的適用性和效率。這種實施方式打破了理論知識的界限,有助于解決實際問題。
關于實施,只考慮了基本網絡,它有461個數據采集點。水體的流量測量是由圣保羅環境公司(CETESB)與圣保羅州水和能源部合作進行的。其結果是通過讀取刻度來測量水體中的流量來取樣。2017年,核心網絡產生了約118,000個(如物理、化學、生物、生物分析和生態毒理學)數據量(Publica??es e Relatórios | águas Interiores, 2017)。這一實施也可能導致解決我們每天面臨的其他一些動態的現實世界問題。
我們生活在這樣一個時代,毫無疑問,技術已經極大地改變了我們的工作方式。根據牛津大學的經濟學家Carl Frey博士和Michael Osborne博士的說法,所有類別的工作有40%都有可能因為自動化而失去(Benedikt Frey等人,2013)。人工智能(AI)和機器學習(ML)將不可避免地對這種替代產生嚴重影響(Chris Graham,2018),甚至在政策制定方面(Federico Mor,2018)。關于人工智能對人類的影響,有兩派不同的觀點(Dwivedi等人,2019;Zanzotto,2019)。一派認為,人工智能很可能對人類產生破壞性影響(Clarke,2019),而另一派則期望人工智能對人類的進步起到積極作用(Woo,2020)。然而,這種爭論只有在未來人工智能技術充分發展的時候才能得到解決。在這個自動化過程中,未來將對就業部門產生重大影響,而人工智能將是這種數字化的開拓者(Syed等人,2020)。
為此,計算智能研究人員將更多地參與到使用機器人、增強和虛擬現實以及游戲環境的模擬中。在這整個過程中,游戲或游戲環境將是分析不同算法、模擬問題和提供解決方案的關鍵組成部分之一。明顯的原因是,游戲環境可以作為設計、開發、實施、測試、修改和改進算法的小白鼠(Justin Francis,2017)。遵循同樣的宗旨,本研究解決了DMOP領域的一個空白,并在模擬環境的幫助下提出了一個基準,作為對該領域的貢獻。
在這篇論文中,我們創造了一個動態的游戲環境,其中有一組相互沖突的目標。如前所述,問題的目標和約束條件相互之間是動態變化的,而且總是在不斷發展。為了解決這個問題,進化算法(EA)被廣泛用于處理優化問題。然而,由于隨時間變化的動態性,DMOPs的解決更具挑戰性,EA在解決這些問題時常常面臨困難(Jiang等人,2018)。
盡管如此,在2015年DeepMind的成功之后(Mnih等人,2015),人們對使用RL特別是深度強化學習(DRL)解決順序決策中的多目標優化的興趣越來越大(Arulkumaran等人,2017)。本研究也是受這一成就的激勵,打算從深度RL的角度增加價值,解決動態多目標優化的問題。此外,還考慮了一個水質測試案例,這是由人類非常關鍵的需求之一所鼓勵的,特別是在21世紀。在這項研究中,對水質恢復力進行了深入研究,并使用機器學習(ML)技術(即DRL)來確定巴西某個城市的關鍵區域。在這項研究中,提出了一種稱為奇偶性Q深Q網絡(PQDQN)的新方法,它能夠在動態DST環境中找到非主導的解決方案,并根據動態多目標環境中的水質復原力預測脆弱區域。智能體在這些環境中進行互動,這些環境是基于多目標馬爾科夫決策過程(MOMDP)的,并且能夠在RL環境中獲得獎勵。
在這項研究中,主要目的是解決現有測試平臺在強化學習背景下的動態多目標優化的挑戰。本研究的次要目的是為動態多目標環境研究和開發一個適當的決策框架。為了實現這些目標,我們確定了以下目標。
a) 調查當前在RL背景下動態多目標優化的最新進展。
b) 設計和開發一個用于RL環境下動態多目標優化的概念和數學模型。
c) 設計和開發一個新的動態多目標優化測試平臺,用于RL環境。
d) 設計和開發一種使用深度強化學習的新算法,該算法可以處理動態和優化多目標環境下的決策。
e) 應用所提出的算法來解決一個現實世界的問題,即利用巴西圣保羅州的水質復原力來識別和預測脆弱區域。
本研究對以下研究問題的答案進行了調查。
Q1: 提出的基準能否解決RL環境的DMOP研究領域的空白?
Q2:基于DRL的算法如何處理多個目標并根據水質預測脆弱區域?
本研究工作的主要科學貢獻如下。
a. 為RL環境的動態多目標優化設計和開發了一個新的和創新的測試平臺。
b. 首次使用目標關系映射(ORM)來構建不同目標之間的元策略(如治理策略),以找出折中的解決方案。
c. 開發了一種新的方法來驗證所提出的算法在現實世界中的適用性,該算法根據巴西圣保羅的水質復原力來識別和預測脆弱區域。
d. 通過廣泛的文獻回顧,在RL環境的DMOP背景下確定研究差距。
深海寶藏(DST)是一個游戲環境。它是一個標準的多目標問題,也是由(Vamplew等人,2011)引入的RL環境的測試平臺。這是流行的測試平臺之一,在多目標RL研究的背景下,已經多次出現在文獻中。這個環境由10行和9列組成,有三種不同類型的單元,如船只可以穿越的水單元,不能穿越的海面單元,因為這些單元是網格的邊緣,還有提供不同獎勵的寶藏單元。當智能體到達寶藏單元時,DST游戲結束。
在這里,智能體控制著一艘潛水艇,在海底尋找寶藏。智能體的目標是在最短的時間內找到價值最高的寶藏(即沖突的方式)。它有決定性的過渡,有非凸邊界。潛水艇從網格的左上角開始,可以向上、向下、向右和向左移動。與單目標環境不同的是,智能體獲得矢量獎勵。獎勵由每次移動的懲罰-1(即RL的負獎勵)和取得的寶物價值組成,寶物價值為0,除非智能體到達寶物的位置時收到寶物的數量(即RL的正獎勵)。最佳帕累托前線有10個非支配性的解決方案,每一個寶藏都有一個。鋒面是全局凹陷的,在寶藏值為74、24和8時有局部凹陷。最佳前線帕累托前線的超體積值為10455。圖1.1顯示了一個經典的和靜態的DST測試平臺,其中最低的寶藏值是1,最高的是124。
圖1. 1:作為測試案例1的深海尋寶(DST)環境
選擇測試案例2是為了讓所提出的算法(即PQDQN)和方法(即MOMDP)能夠解決巴西一個擁擠的城市中的實際問題。考慮到這一龐大人口的公共供水問題,圣保羅州政府正在努力實現該州各市鎮的普遍衛生設施,在那里,各種服務(如測量和維護水質、污水處理服務等)的人口比例增加。然而,水污染惡化了水的質量,阻礙了圣保羅的可持續發展(Governo do Estado de S?o Paulo | Elei??es, 2018)。河流、水庫、河口和沿海地區水域中存在的污水降低了水質,限制了其多種用途,同時增加了因初次接觸或攝入受污染的水而引起的水傳播疾病的發生(Nogueira等人,2018)。
為了確定脆弱地區并在這些地區采取適當的行動,需要大量的人力和費用。這些行動涉及綜合管理行動,涉及與工農業污水使用管理、人力資源(HR)管理的復雜性、固定資產和反應性或計劃性維護有關的各個部門和組織(Barbosa, Alam and Mushtaq, 2016)。因此,重要的是實現流程自動化,以盡可能快地檢測出脆弱區域。因此,基于人工智能的最佳決策支持系統可以減少管理這種巨大任務的成本,并可以產生社會經濟影響,這可能有助于可持續發展。圖1.2顯示了測試案例2的鳥瞰圖,其中智能體能夠根據水質恢復力預測脆弱區域。
圖1.2:測試案例2的示意圖
簡而言之,該測試案例中發現的問題如下:
這是一個動態問題,考慮到水質數據因各種因素而隨時間變化。
收集這些數據是昂貴的,需要人力資源。
由于手工檢查和計算,識別脆弱區很困難。
針對不同區域的投資優化很復雜。
確定各區的優先次序以提高水質是非常耗時的。
本研究的成果在下面列出了出版物清單。
雜志:
Md Mahmudul Hasan, Khin Lwin, Maryam Imani, Antesar Shabut, Luiz Fernando Bittencourt, M.A. Hossain, "Dynamic multi-objective optimisation using deep reinforcement learning: benchmark, algorithm and an application to identify vulnerable zones based on water quality", Engineering Applications of Artificial Intelligence, Publisher: Elsevier, Volume 86, 2019, Pages 107-135, ISSN 0952-1976, //doi.org/10.1016/j.engappai.2019.08.014.
IEEE會議:
1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Alamgir Hossain, "Design and Development of a Benchmark for Dynamic Multi-objective Optimisation Problem in the Context of Deep Reinforcement Learning", 22nd International Conference on Computer and Information Technology, Dhaka, 2019. IEEE Xplore數字檔案鏈接:
2.Md Mahmudul Hasan, Ali Mohsin, Maryam Imani, Luiz Fernando Bittencourt, "A novel method to predict water quality resilience using deep reinforcement learning in Sao Paulo, Brazil", International Conference on Innovation in Engineering and Technology(ICIET), Dhaka, 2019.
3.M. M. Hasan, K. Abu-Hassan, Khin Lwin and M. A. Hossain, "可逆決策支持系統。Minimising cognitive dissonance in multi-criteria based complex system using fuzzy analytic hierarchy process," 2016 8th Computer Science and Electronic Engineering (CEEC), Colchester, UK, 2016, pp.210-215. IEEE Xplore數字檔案。鏈接:
其他國際會議:
1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Miltu Kumar Ghosh, M A Hossain, "Deep Reinforcement Learning for Dynamic Multi-objective Optimisation", 17th International Conference on Operational ResearchKOI 2018, Zadar, Croatia, 2018.
其他貢獻:
1.Md Mahmudul Hasan, Md Shahinur Rahman, Khin Lwin, Antesar Shabut, Adrian Bell, M A Hossain, "Deep Reinforcement Learning for Optimisation", "Handbook of Research on Deep Learning Innovations and Trends "的書籍章節,出版商。IGI Global,2018。鏈接:
2.2017年PACKT出版社出版的《Machine Learning for Developers》一書的技術評審員。鏈接:
3.Md Mahmudul Hasan, "Predicting Water Quality Resilience: A Machine Learning Approach", 8th FST Conference, ARU, UK, 2019.
4.Md Mahmudul Hasan, "A robust decision support system in dynamic multiobjective optimization using deep reinforcement learning", 12th Research Student Conference, ARU, UK, 2018.
5.最佳博士論文發表,第7屆FST會議,ARU,英國,2017。
6.Md Mahmudul Hasan, "Optimising decision in a multi-criteria based environment", seminar at ARITI, ARU, UK, 2017.
以下部分代表了本研究中經常使用的常用術語。
智能體:智能體或算法生活在模擬環境中,幫助做出決策。
狀態:狀態有助于確定由智能體決定的下一個步驟。
行動:智能體通過觀察新的狀態和接受獎勵,在不同的狀態之間可能的移動。
政策:政策通常表示智能體選擇行動的行為。
環境:環境是智能體的外部實體,它與狀態相互作用。環境可以是完全可觀察的(即智能體直接觀察環境)或部分可觀察的(即智能體間接觀察環境)。
靜態環境:不發生變化的環境,或受變化的參數和約束的影響。
動態環境:隨時間變化的環境。更具體地說,受目標函數、約束條件和問題參數影響的變化狀態。
獎勵:智能體有一個特定的任務,需要通過行動來完成。在有限水平線或偶發環境中,預期回報通常是標量獎勵的未貼現的有限總和,直到智能體達到終端狀態。
決策空間:這個術語用來定義代表選擇的空間,以做出決策。
目標空間:這個空間定義了基于目標的支配性和非支配性解決方案。
值得一提的是,為了讓讀者合理地閱讀這篇論文,我們使用了最少的首字母縮寫詞和數學術語,使讀者感到輕松和愉快。在一些章節的末尾,提供了一個圖形表示,以提供一個可視化和概念性的理解。此外,有些地方的數學公式是以可讀的形式描述的。然而,在某些地方已經向讀者做了充分的介紹,以便他們可以從相關的來源收集更多的信息。此外,一些詞語(如快、慢、快、長)被用來例證收斂性、耗費的訓練時間和識別真正的PF的性能,由于在優化和RL領域對真正的PF的近似(如移動全局最優),這些詞語被廣泛陳述和利用(Moffaert和Nowé,2014;Lin等人,2017;Farina、Deb和Amato,2004;Mehnen、Wagner和Rudolph,2006;Sutton和Barto,2018)。此外,之前對強化學習的熟悉程度可能會對讀者跟隨和享受閱讀產生明顯的影響。
本論文的組織結構如下所示。
第二章回顧了相關的研究工作,其中強調了智能應用、決策支持系統、馬爾科夫決策過程、機器學習、強化、深度強化學習、現有基準和優化技術的概述。本章還代表了對基本組成部分的全面分析,以增強論文成果的可讀性,如回顧分析算法的性能指標。最后,本章對研究的理由進行了說明。
第三章涉及研究的方法,其中解釋了研究設計。本章還涉及到方法的細節和進行這項研究的必要方法。它還對數據準備、水質參數選擇和彈性計算方法進行了全面分析。
第四章討論了問題背景和實驗背景,其中描述了數學和概念模型。在這一章中,描述了擬議的基準、網絡結構和對現實世界場景中MOMDP的形式化的詳細討論,以及兩個測試案例的實驗背景。
第五章解釋了擬議算法的高層結構。在這一章中,已經解釋了所提出的算法的一步一步的工作程序。此外,本章還討論了開發擬議算法所需的工具,如必要的軟件、庫和機器環境。
第章介紹了實證分析和討論,其中也闡述了關鍵的審查和限制。在這一章中,還提到了性能測量標準和選擇這些標準的理由。此外,還解釋了擬議算法的優點和缺點。
最后,第七章闡述了本論文的結論和未來方向。未來方向包括開展現有研究的近期和長期目標。本章還解釋了兩個測試案例的進一步可能方向。
認知或完全自適應雷達(FAR)是一個受生物系統啟發的研究領域,其重點是開發一個能夠自主適應其特性的雷達系統,以實現各種不同的任務,如改進環境感知和光譜靈活性。FAR框架在一個軟件定義的雷達(SDR)系統和模擬感知行動周期(PAC)的環境中實現了一個動態反饋回路(感知、學習、適應)。FAR框架在SDRs上的實現依賴于基于求解器的優化技術,用于其行動選擇。然而,隨著優化復雜性的增加,對解決方案收斂的時間產生了嚴重影響,這限制了實時實驗。此外,許多 "認知雷達 "缺乏記憶組件,導致對類似/熟悉的感知進行重復的優化程序。
利用現有的FAR框架模型,在神經網絡的啟發下進行了完善。通過使用神經網絡、機器學習的一個子集和其他機器學習的概念,對應用于單一目標跟蹤的FAR框架基于求解器的優化組件進行了替換。靜態前饋神經網絡和動態神經網絡在模擬和實驗環境中被訓練和實施。神經網絡和基于求解器的優化方法之間的性能比較表明,基于靜態神經網絡的方法具有更快的運行時間,這導致了更多的感知,有時通過較低的資源消耗獲得更好的性能。還對靜態前饋神經網絡、動態遞歸神經網絡和求解器的模擬結果進行了比較。這些比較進一步支持了神經網絡能夠通過納入學習為認知雷達提供記憶組件的概念,從而走向真正的認知雷達。還進行了額外的研究,以進一步顯示神經網絡在雷達快速生成波形的應用中的優勢。
FAR框架也從單目標跟蹤FAR框架擴展到多目標跟蹤。FAR框架的多目標實現顯示了自適應雷達技術在多目標環境中的優勢,由于場景中存在的目標數量增加以及需要解決所有目標,復雜性也隨之增加。由于多目標環境,對現有的成本函數和探測/跟蹤框架進行了改進和補充。實驗和模擬結果證明了FAR框架的好處,它使一個穩健的自適應算法能夠在多目標環境下改善跟蹤和有效的資源管理。
除此之外,分層完全自適應雷達(HFAR)框架也被應用于需要執行多個任務系統的資源分配問題。分層完全自適應雷達的任務靈活性(HFAR-TF)/自主決策(ADM)工作將HFAR框架應用于一個需要參與平衡多項任務的系統:目標跟蹤、分類和目標意圖辨別("朋友"、"可能的敵人 "和 "敵人")。
本博士論文的目標是將這些目標結合起來,形成一個建立改進當前認知雷達系統的方法的基礎。這是通過融合機器學習概念和完全自適應雷達理論來實現的,以實現真正的認知雷達的實時操作,同時也將自適應雷達概念推進到新的應用中。
現代雷達系統的發展促進了軟件定義雷達(SDR)系統能夠實現動態反饋回路行為,與傳統雷達不同。傳統雷達的前饋性質依賴于感知環境的假設特性,產生固定的參數設置,以保證預定的信號干擾加噪聲比(SINR)或雷達任務性能。然而,動態/變化的環境會導致任務性能下降或系統資源的管理不善。缺乏對雷達前端特性的自適應控制會導致雷達后端的信號處理工作增加,嚴重依賴雷達操作員或根據最壞情況設置靜態的雷達系統參數。
完全自適應雷達(FAR)框架旨在利用現代SDR系統實現的傳感器參數多樣性,允許自主適應雷達波形特征,以實現更好的環境感知和雷達任務性能。FAR框架的自主性質也轉向將雷達操作員的角色轉變為咨詢角色,以及減少用于目標信息提取的額外信號處理負擔。
FAR框架通過試圖模仿動物和人類中存在的認知的神經科學概念來實現自主適應。正如[2,3,4,5]所討論的,認知過程必須包括五個主要元素:感知、注意和分析(智能)、行動和記憶。在[6]中,Haykin討論了傳統主動雷達、FAR和認知雷達之間的區別。 雖然FAR能夠通過反饋鏈路將接收機感知的環境與發射機的波形探測聯系起來,實現對環境的更好感知,但由于缺乏 "真正"學習所需的長期記憶,它的智能受到限制。
為了在認知雷達處理中進行優化,經常使用非線性函數。這些非線性函數在優化塊中實現,可以通過非線性約束目標函數的最小化進行雷達參數選擇和更新。對于FAR框架,這種 "執行優化"是在一個 "執行處理器塊 "中實現的,它試圖在服務質量(QoS)方法中平衡捕捉雷達系統基于任務的性能(性能成本)和傳感器資源消耗(測量成本)的成本函數。
在FAR框架中,執行優化被視為最關鍵的組成部分。在FAR框架中,通過結合注意力和分析,利用目標狀態的跟蹤和過去觀察的先驗知識(記憶)來選擇最佳參數指數選擇,執行處理器實現了"有限學習"。由于執行處理器中調用的傳感器參數選擇的性質,雷達波形參數被映射到雷達任務和目標性能上,給定的是先驗知識。此外,由于這種基于優化的適應性,隨著優化的復雜性增加,解決收斂的時間也在增加,因此限制了實時能力。
在概念上與FAR相似,機器學習是人工智能下的一個研究領域,它研究人類如何獲得知識,或學習,并在機器中表示這些概念。機器學習的一個子課題是神經網絡,通過它們的能力來模擬和實現學習過程,關聯、模式識別和關系建模都是神經網絡的有效任務,它可以用來提供對系統處理的較低影響,并通過識別/記憶開始學習。
學習被證明是認知系統中的一個關鍵組成部分,導致人們相信學習是認知雷達的一個主要組成部分。在[5]中,學習被定義為使用過去的信息來提高一個人的局部成功度。 然而,為了充分地從記憶和行動中學習,實時能力和性能必須是可行的。正如前面所討論的,由于用于行動選擇的優化,可以看出,隨著問題的復雜性增加,優化的計算成本也在增加。高計算成本和缺乏記憶對實現 "正式 "認知系統構成挑戰。
在FAR和認知雷達研究領域已經取得了許多進展:然而,大多數集中在缺乏長期記憶和聯想的自適應系統上。同樣,在基于神經網絡和機器學習的雷達研究方面也取得了許多進展,但大多數集中在基于分類和圖像識別的問題上。 本博士研究將著重于展示包括基于回歸的神經網絡如何通過降低對系統處理的影響來改善FAR的現有性能,并通過包括更強的記憶概念和將其擴展到展示學習來幫助認知雷達任務的執行,從而促成開發一個 "真正 "的認知系統。
這里討論的工作對認知雷達領域的貢獻如下:
通過用前饋神經網絡取代執行處理器中的優化組件,以降低對系統處理的影響并整合其固有的識別/記憶組件,開發了一個神經網絡啟發的FAR框架,即基于神經網絡控制的全適應雷達(FAR-NN)。
收集了不同參數適應情況下的模擬和實時實驗結果,并對局部解算器的實施和神經網絡進行了比較,結果表明靜態前饋神經網絡能夠實現較低的測量成本、更快的優化時間和類似的執行成本性能。
通過在每個傳感器感知行動周期(PAC)的 "執行處理器 "中模擬傳感器參數選擇,在分層全自適應雷達(HFAR)框架中實施靜態前饋神經網絡,以降低由于執行多個優化而對系統處理的影響。
通過對傳感器參數選擇的模擬,在FAR框架中實施了一個動態長短期記憶遞歸神經網絡(LSTM-RNN),將基于狀態的對不斷變化的環境的適應性和更強的記憶概念納入神經網絡激勵的FAR框架的優化部分,FAR-NN。
開發了一個LSTM-RNN,用于在動態頻譜擁擠的環境中生成低延遲、接近最佳的雷達頻率缺口波形。
將LSTM-RNN與現有的專門解算器 "減少誤差算法"(ERA)進行比較,其波形生成的仿真結果表明,網絡和算法的波形設計結果相似,LSTM-RNN生成波形的時間減少。
將現有的全適應雷達單目標跟蹤(FAR-STT)框架擴展到全適應雷達多目標跟蹤(FAR-MTT)的實現中,修改了目標函數和擴大了多目標環境的Fisher信息矩陣/Cramer Rao Bound度量。
收集了模擬和實驗結果,以證明將完全自適應雷達方法應用于多個目標跟蹤的好處,即能夠實現目標分離并保持單個目標的跟蹤,同時消耗較少的測量資源。
為一個需要執行多種任務[例如:目標跟蹤、分類和目標意圖辨別(朋友、可能的敵人和敵人)并自主分配雷達資源的雷達系統開發一個HFAR框架。
收集的模擬結果表明,通過使用自適應波形參數與固定參數集,將完全自適應的雷達方法應用于一個從事多種任務的系統的好處。
突出了使用完全自適應雷達概念的模擬和實驗演示,以證明認知雷達概念的可行實現。
本論文的其余部分組織如下。
第二章討論了基礎雷達、全自適應雷達、優化、神經網絡和統計學等與論文中提出的工作相關的背景。
第三章對認知雷達和神經網絡領域的類似工作進行了調查。
第四章討論了本工作中使用的全自適應雷達建模和模擬(FARMS)環境和算法,以及用于驗證模擬結果和實驗集合的實驗測試平臺的簡要概述。
第五章討論了神經網絡啟發的FAR框架的實現,以及與以前FAR和HFAR實現中使用的局部求解器的比較結果。
第六章回顧了一種用于快速生成缺口波形的神經網絡方法,并與現有的專門求解器進行了比較。
第七章討論了將FAR框架擴展到多目標環境中。模擬和實驗結果都被收集起來,以證明自適應雷達在多目標跟蹤環境中的優勢。
第八章討論了全適應性雷達的發展,即多功能雷達系統的問題,其中HFAR框架被應用于需要參與平衡多種任務的雷達系統:目標跟蹤、分類和目標意圖的辨別(朋友、可能的敵人或敵人)。
第九章總結了論文的結果,并給出了基于這項工作的未來研究領域。
附錄A介紹了FAR框架中使用的局部求解器與全局求解器程序的可靠性的進一步細節。
附錄B介紹了第七章介紹的FAR-MTT工作中使用的Fisher信息矩陣推導和預白化推導的進一步細節。
在新環境中有效的自主導航對于智能體達到更復雜的自主水平至關重要。我們對改善攜帶輕型光電傳感器有效載荷的車輛在未知環境中的自主導航和估計感興趣。由于傳感的限制,在非瑣碎的新環境中,世界的許多幾何結構還沒有被觀察到,導致了嚴重的幾何模糊性。盡管收集額外的幾何信息可以減少模糊性,但這樣做往往與任務的目標相抵觸。我們建議將對象層面的語義信息和幾何信息結合起來,以切實改善導航和估計。
在這篇論文中,我們提出了在新環境中改善自主導航的三個貢獻。首先,我們通過將有用的導航行為編碼在由部分占有率和對象級地圖告知的抽樣分布中,來提高新環境中的導航效率。我們認識到,在有效導航時,在有限的視角下,對象層面的估計是具有挑戰性的,因此我們還開發了兩種在線建立對象層面表征的方法。在我們的第二個貢獻中,我們通過引入額外的紋理測量和語義類形狀先驗,提高了帶有橢圓體表征的對象級SLAM的視點效率。最后,在我們的第三個貢獻中,我們提出了一種新的深度學習的三維對象估計方法,利用間接的圖像空間注釋和類內形狀一致性來實現從單一的RGB圖像的三維對象估計。
移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。
Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。