采用神經網絡模型的預測系統已被部署到非安全關鍵領域和高度安全關鍵領域。當模型無法達到預期性能時,通常很難找出根本原因。在故障可能造成不可挽回的損失或生命或財產損失的領域,必須采取措施向使用這些系統的人員提供可靠性,在設計過程中已經通過深思熟慮的分析降低了風險。本論文展示了系統理論過程分析(STPA)作為一種可重復的方法,用于選擇和校準機器學習開發行為,從而在機器學習開發生命周期(MDLC)中提供保證。STPA 是一種系統分析方法,可識別安全關鍵型系統中由組件級交互引起的組件危險。在這項研究中,STPA 被用于評估機器學習開發的安全性,它符合負責任的人工智能(AI)原則,適用于一個利用分類模型根據音頻特征檢測海上船只的系統。分析結果提出了一些建議,這些建議可以主動指導人工智能設計過程,從而使生命周期每個階段的決策都能得到解釋。結果表明,通過應用這種方法,人工智能系統的可靠性更高,部署更安全。
圖 4.1:相關系統內的活動示意圖。在這個擬議版本中,矢量傳感器與信號處理能力和神經網絡模型一起部署。在執行聯合和主動學習程序時,每個傳感器部署的本地模型都會更新。
現代戰場環境為指揮官和分析人員提供了大量信息。在任何特定時刻,這些信息中只有部分是有用的,往往需要人工干預才能分辨出哪些是有意義的,哪些是無意義的。在分秒必爭的環境中,加快向決策者提供有用信息的方法至關重要。為了從共同作戰圖中保持態勢感知,需要一種技術來應對認知和系統信息過載。這種技術應使信息系統能夠學習和適應動態的戰場環境,并相應地提供最有用和最相關的信息。
機器學習被廣泛用于預測數據結構復雜和高維的各種應用中的模式和結果。監督學習是一種傳統的機器學習方法,在這種方法中,算法在進行預測之前要在大量數據集上進行訓練。另一方面,在線學習是一種機器學習技術,算法通過增量學習或在獲得新數據和反饋時進行學習。Hoi 等人討論了有關在線學習方法的全面調查,其中包括技術細節以及在線學習相對于傳統機器學習方法的優勢。
這項工作旨在開發一種概念驗證,通過在線學習方法為用戶預測傳入傳感器數據的實用價值。在這一框架中,數據點的效用值是用戶接受該數據可能性的衡量標準,用戶可以根據自己對數據效用的內部評估選擇接受或拒絕該數據。
本文介紹了這種概念驗證的開發過程。本文還通過模擬實驗,研究了模型性能隨超參數配置的變化,以及導致用戶在每次試驗演示中接受該信息的條件。
多智能體搜索與任務分配(MASTA)應用廣泛,包括搜索與救援、生態監測與采樣、軍事應用等。在設計這類系統時遇到的相當大的困難是缺乏分析建模工具,這就要求研究人員和工程師依賴計算機建模與仿真(M&S)。雖然 M&S 是一種非凡而重要的工具,但它往往不容易被人類洞察,可能需要大量的時間和精力,而且往往無法快速做出決策。本論文介紹了 MASTA 的分析模型,并將其與作為基線的 MASTA 計算機實施進行了比較。分析模型的預演誤差在百分之幾以內,并能更深入地了解系統行為和參數之間的相互作用。該模型可縮短 MASTA 系統的設計時間,并通過快速決策對此類系統進行更好的控制。
圖 1:a) [15] 分類法中的三個維度:第一,可由一個機器人解決的任務 (SR) 與需要多個機器人解決的任務 (MR);第二,只能同時解決一個任務的機器人 (ST) 與同時解決多個任務的機器人 (MT)。第三,不考慮未來分配的瞬時分配與可獲得足夠信息從而需要考慮未來分配的最優分配的時間擴展分配。 b) [46] 所描述的任務類型,以及 c) 多機器人任務分配。
多機器人任務分配(MRTA)涉及由多個機器人組成的系統,而這些機器人往往無法獨立完成任務。它可以被視為一個最優分配問題。[20]. 這個問題通常很復雜,而且通常是 NP 難問題[21]。 因此,人們開發了許多不同的方法。其中最受歡迎的分散式多智能體系統是基于市場的方法。在單項拍賣中,一個智能體將開始拍賣一項任務,其他智能體將根據自己的效用出價,拍賣者將選擇獲勝者。我們感興趣的是需要搜索任務并分配任務的系統,因此我們將搜索和任務分配結合起來。在實際系統中,通信半徑和探測任務的能力是有限的,而且成本可能過高,尤其是在水下。我們建議將簡單、廉價的智能體自適應地組合起來,以創建能夠進行較遠距離通信和任務檢測的移動相控陣。我們將這些智能體稱為組成體,因為它們共同組成了一個嚎叫智能體(復合體)。據我們所知,以前的文獻中還沒有探討過這種組成智能體的想法。合成智能體的最佳形成是一個復雜的問題,因為它會影響搜索、通信和任務分配性能。如果能開發出有效的方法來組建復合智能體并使之相互作用,就能讓一大批簡單的機器人承擔起昂貴得多的設備的任務。
研究人員對帶有檢索約束條件的搜索和檢索的動態任務分配進行了研究。檢索對象是通過搜索一組位置找到的,每個機器人都能做到這一點。對象與類型相關聯;在搜索和檢索之前,會創建一個列表,列出每種類型的任務何時可以相互交付。例如,對于紅色和藍色類型,給定一個列表 {紅、藍、紅、紅},找到的任何紅色或藍色物體都能滿足要求,但只能按照指定的順序進行。首先,開發了一種擴展的順序單項拍賣,并與隱式協調(共識控制)方法進行了比較。他們發現,共識控制能更快地完成所有任務,但智能體在拍賣方法下的移動速度較慢。
一個潛在的應用領域是水下任務,在這種任務中,通信和導航的成本過高;自主水下航行器(AUV)的價格高達十幾萬美元。研究人員[13]提出了一種方法,利用水聽器,一個昂貴的水下機器人可以引導一群較簡單的廉價機器人。智能體通過發射頻率的多普勒頻移來估計相對航向,通過振幅來估計距離。組成相控陣列的智能體或許可以充當領航員,與更靠近水面的飛行器進行通信,以進行導航。
動物界也有智能體聚集在一起,發出更強的信號。例如,螢火蟲(雷蟲、閃電蟲)在交配季節會用生物發光相互吸引。當螢火蟲聚集在一起時,它們的發光強度會增加,從而吸引更遠處的螢火蟲。因此,某些螢火蟲物種會同步發光,數百只螢火蟲一起以恒定的頻率照亮樹木,中間則是完全的黑暗[19]。
論文旨在對智能體搜索和任務分配在一系列參數(如智能體數量、探測半徑、任務數量等)下的性能進行數學建模。這些模型旨在加深對 MASTA 系統的理解,減少設計時間和計算需求。此外,數學模型還有助于設計和開發 MASTA 控制器。我們的目標是回答以下研究問題:
1.是否有可能對 MASTA 系統進行數學建模?
2.這些模型是否能加深對 MASTA 的理解?
3.這些模型是否減少了計算需求?
第 2 節介紹了背景材料,包括論文相關領域的簡短概述。第 3 節介紹了實施的計算機模型和軟件。第 4 節包含實驗和結果分析。第 5 節討論第 4 節的結果。最后,在第 6 節中得出結論,并提出今后工作的設想。
應急管理機構負責制定流程,以保持應急行動中心(EOC)的態勢感知,從而為災難做好準備并做出響應。采用物聯網 (IoT) 技術可以提供實時數據、改善溝通和協調,并提高應急響應的效率和效力,從而徹底改變應急管理和響應。物聯網可以提供信號情報,為緊急行動中心的態勢感知提供信息,前提是組織有意識地準備和使用該技術,并從日常流程中整合系統。本論文通過對智能城市和新型城市的案例研究,評估了在危機中使用新興物聯網技術的可能性,以指導地方應急管理機構預測新出現的威脅并保持態勢感知,同時展示了用于日常流程的物聯網系統如何產生信號情報。本論文認為,城市可以利用物聯網系統設置基準數據讀數,并利用機器學習檢測社區內的異常情況。展望未來,韓國松島和沙特阿拉伯的 NEOM 提供了新城市如何圍繞技術建立智能基礎,同時與預期居民互動以滿足其需求的范例。這項研究的結論是,隨著物聯網技術的發展,應急管理人員必須適應并利用這些先進技術來加強運營和保護社區。
國家事件管理系統
本論文提出開發一種彈性機器學習算法,可對海軍圖像進行分類,以便在廣闊的沿海地區開展監視、搜索和探測行動。然而,現實世界的數據集可能會受到標簽噪聲的影響,標簽噪聲可能是通過隨機的不準確性或蓄意的對抗性攻擊引入的,這兩種情況都會對機器學習模型的準確性產生負面影響。我們的創新方法采用 洛克菲勒風險最小化(RRM)來對抗標簽噪聲污染。與依賴廣泛清理數據集的現有方法不同,我們的兩步流程包括調整神經網絡權重和操縱數據點標稱概率,以有效隔離潛在的數據損壞。這項技術減少了對細致數據清理的依賴,從而提高了數據處理的效率和時間效益。為了驗證所提模型的有效性和可靠性,我們在海軍環境數據集上應用了多種參數配置的 RRM,并評估了其與傳統方法相比的分類準確性。通過利用所提出的模型,我們旨在增強艦船探測模型的魯棒性,為改進自動海上監視系統的新型可靠工具鋪平道路。
藍色亞馬遜管理系統
機器學習(ML)發展迅速,使機器能夠根據數據分析做出決策。計算機視覺(CV)是這一領域的一個專業部門,它使用先進的算法來解釋視覺信息,通過創造創新機會來改變汽車、醫療、安全和軍事等行業。在軍事領域,這些工具已被證明在改進決策、態勢感知、監視能力、支持行動以及促進在復雜環境中有效使用自主系統等方面大有裨益。
我們的研究主要集中在將 CV 原理應用于海軍領域,特別是解決二元分類問題,以顯示船只的存在與否。這構成了更廣泛的監視工具的重要組成部分,并采用了一種名為 "Rockafellian 風險最小化"(RRM)[1] 的新策略。RRM 方法旨在應對海上監控等復雜多變環境中固有的數據集標簽損壞所帶來的挑戰。我們方法的核心是交替方向啟發式(ADH),這是一種雙管齊下的策略,可依次優化不同的變量集。這種兩步迭代的過程可調整神經網絡權重并操縱數據點概率,從而有效隔離潛在的數據損壞。其結果是建立了一個更強大、更準確的海上監視和探測系統,從而增強了海軍行動中的決策和態勢感知能力。
我們的評估使用了兩個不同的數據集,即空中客車船舶探測(AIRBUS)[2] 和海事衛星圖像(MASATI)[3]。為了測試我們方法的魯棒性,我們逐步提高了這些數據集的標簽損壞水平,并觀察了這對模型性能的影響。
我們的研究在 ADH 流程中采用了兩種策略:w-優化和 u-優化。在 w 優化階段,我們試用了兩種不同的神經網絡(NN)優化器 Adam [4] 和 Stochastic Gradient Descent (SGD) [5, Section 3G],以調整神經網絡權重。u優化階段包括實施 ADH-LP(線性規劃)或 ADH-SUB(子梯度)算法,以修改每個數據點的概率,并有效隔離潛在的數據損壞。
ADH-LP 利用線性規劃進行計算優化,可提供全局最優解,但需要更多處理時間。另一方面,ADH-SUB 采用更快的子梯度方法,更適合較大的數據集或有限的計算資源。主要目的不是通過架構調整來提高性能,而是展示 RRM 方法如何提供優于傳統 ERM 方法的優勢,特別是在處理數據損壞和提高模型性能方面。
無論使用何種數據集(MASATI 或 AIRBUS),我們的研究采用 RRM 方法訓練 NN 始終優于或匹配 ERM 方法。RRM下的ADHLP和ADH-SUB算法在保持高性能水平的同時,對數據損壞表現出了顯著的適應能力,其中ADH-LP一直表現優異。總之,我們的研究結果表明,RRM 是一種穩健而有彈性的方法,可用于處理一定程度的數據損壞。
總之,我們利用 RRM 的創新方法為減少對標簽正確數據的依賴提供了一種有前途的解決方案,從而能夠開發出更強大的船舶檢測模型。這項研究在改進船舶自動檢測和整體海事安全方面邁出了一大步。通過有效處理數據損壞和測試創新方法,我們提高了海事監控系統有效監控沿海和劃界海域的能力。
防火墻是維護安全網絡的關鍵,但不能假設設法通過防火墻的網絡流量是完全安全的。異常檢測指的是可用于發現特定數據集中的獨特或不尋常現象的方法。無監督的機器學習技術涉及到對無標記數據的機器學習,可以利用它來進行異常檢測,通過攝取給定的數據集,發現那些以有意義的方式與其他數據不同的實例,這些實例對人眼來說可能并不明顯。在這項研究中,我們旨在分析檢測到的成功通過防火墻的傳入數據包和網絡流量數據的異常情況,并確定這種異常情況可能存在的意義。考慮到大量存在并定期產生的惡意流量,本研究表明,高斯混合物可用于發現通過防火墻的網絡流量中的異常現象,以發現潛在的不良或惡意流量。
威脅建模可以幫助防御者確定潛在的攻擊者能力和資源,從而更好地保護關鍵網絡和系統免受復雜的網絡攻擊。防御者感興趣的對手資料的一個方面是進行網絡攻擊的手段,包括惡意軟件能力和網絡基礎設施。即使大多數防御者收集了網絡事件的數據,但提取有關對手的知識來建立和改進威脅模型可能是很費時的。本論文將機器學習方法應用于歷史網絡事件數據,以實現對手網絡基礎設施的自動威脅建模。利用基于真實世界網絡事件的攻擊者指揮和控制服務器的網絡數據,可以創建特定的對手數據集,并利用互聯網掃描搜索引擎的能力來豐富數據集。將這些數據集與具有類似端口服務映射的良性或非關聯主機的數據混合,可以建立一個可解釋的攻擊者的機器學習模型。此外,根據機器學習模型的預測創建互聯網掃描搜索引擎查詢,可以實現對手基礎設施的自動化威脅建模。對抗者網絡基礎設施的自動威脅建模允許在互聯網上搜索未知或新出現的威脅行為者網絡基礎設施。
機器學習幾乎存在于日常生活的每個方面。大量的數據是需要的,但對于特定的問題卻并不總是可用的,這就排除了諸如深度學習和卷積神經網絡等先進方法的使用。歐幾里得網絡(EN)可以用來緩解這些問題。EN被徹底測試,以證明其作為分類算法的可行性,以及其方法可用于增強數據和轉換輸入數據以增加其特征空間維度。最初,人們假設EN可以用來合成數據以增加數據集,盡管這種方法被證明是無效的。下一個研究領域試圖擴大輸入特征空間的維度,以提高額外分類器的性能。這一領域顯示了積極的結果,這支持了更復雜、更密集的輸入將使算法對數據有更多的洞察力并提高性能的假設。人們發現EN作為一個獨立的分類器表現特別好,因為它在21個數據集中的12個取得了最高的準確性。對于剩下的9個,雖然它沒有最高的準確率,但EN的表現與更復雜的算法相當。事實證明,EN還能夠擴大數據集的特征空間,以進一步提高性能。這種策略提供了一種更穩健的分類技術,并在所有數據集之間看到了平均3%的準確性。
計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。
對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。
最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。
人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。
過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。
為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。
生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。
圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。
計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。
本研究試圖回答以下問題:
1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?
2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?
3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?
提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。
對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。
本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。
另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。
本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。
現實世界中的連續決策任務通常是復雜的,需要在多個通常相互矛盾的目標之間進行權衡。盡管如此,強化學習和決策理論規劃方面的大多數研究要么只假設有一個目標,要么假設多個目標可以通過簡單的線性組合得到充分的處理。這些方法可能會過度簡化基本問題,從而產生次優的結果。本文作為多目標問題上的應用實用指南,主要針對已經熟悉單目標強化學習和規劃方法并希望在研究中采用多目標視角的研究人員,以及在實踐中遇到多目標決策問題的從業人員。它確定了可能影響所需解決方案的性質因素,并通過實例說明了這些因素如何影響復雜問題的多目標決策系統的設計。
關鍵詞:多目標決策、多目標強化學習、多目標規劃、多目標多Agent系統
在大多數現實世界的決策問題中,我們關心的是不止一個方面。例如,如果我們有一個帶水電站的水庫,我們可能會關心能源生產的最大化,同時最小化灌溉不足量,以及最小化洪澇泛濫[19, 122, 133]。在醫療方面,我們可能希望最大限度地提高治療的有效性,同時盡量減少各種副作用[69, 77, 86]。換句話說,大多數現實世界的決策問題本質上是多目標的。
雖然大多數決策問題實際上有多個目標,但大多數處理需要與連續決策問題互動的智能體算法都集中在優化單一目標上[163]。然而,為了處理現實世界的多個目標,創建決策理論智能體的一個常見方法是將所有重要的方面結合在一起,形成一個單一的、標量的、加法的獎勵函數。這通常涉及到為環境中可能發生的事件分配數字獎勵或懲罰的迭代過程。例如,在水庫環境中,我們可以對洪災的發生進行大的懲罰,對每個時間步驟的電力輸出進行正的獎勵,對每個沒有滿足灌溉需求的時間步驟進行負獎勵。然后,開啟單目標規劃或學習智能體,觀察所產生的策略,如果行為不令人滿意,則重新設計獎勵函數。然后重復這個反復的過程,直到行為被設計者接受。我們認為這種工作流程是有問題的,原因有幾個,我們將逐一詳細討論:(a)它是一個半盲目的手工過程,(b)它使應該做出決定的人無法做出明智的權衡,給工程師帶來了理解手頭決策問題的過度負擔,(c)它破壞了決策過程的可解釋性,以及(d)它不能處理用戶和人類決策者可能實際擁有的所有類型的偏好。最后,(e)目標之間的偏好可能會隨著時間的推移而改變,當這種情況發生時,一個單一目標的智能體將不得不被重新訓練或更新。
首先(a),如果我們通過迭代過程設計一個標量獎勵函數,直到達到可接受的行為,我們會嘗試多個獎勵函數,每個都是實際目標的標度化。然而,我們并沒有系統地檢查所有可能的獎勵函數。換句話說,我們可能達到了可接受行為的最小閾值,但我們只觀察了所有可能的標度化中的一個子集。因此,盡管可能找到一個可接受的解決方案,但它可能離最佳效用有大的距離--如果我們能系統地檢查所有可能的解決方案,我們會得到最佳方案。這就自動把我們帶到了第二點(b)。由于獎勵函數是需要事先設計好的,我們只能猜測這可能對策略產生的影響。例如,當試圖在電力生產系統中訓練一個智能體時,我們可能希望將平均功率輸出提高一倍。然而,即使目標在獎勵函數中是線性加權的,也不是簡單地將與功率輸出方面的性能相關的獎勵增加一倍,因為獎勵權重和實際目標結果之間的關系很可能是非線性的[184]。另一方面,如果我們能夠檢查所有可能的最佳策略--以及它們在目標之間提供不同的權衡值--我們就可以以一種充分了解結果的方式來決定,而不是先驗地對標度進行有根據的猜測。這種有根據的猜測也是把決策權放在了不屬于它的地方:工程師。當工程師創建一個標度獎勵函數時,他們同時對實際決策者(如水庫中的政府)的偏好做出假設,并對標度獎勵函數的變化所導致的行為變化做出猜測。這不是一個可以留給人工智能工程師的責任--至少在具有重大意義的決策問題上不是。
我們還注意到,嘗試不同獎勵函數的迭代過程在樣本復雜度和計算時間方面可能會有很大的、但存在隱藏的成本。然而,這通常不會在最后的研究論文中報告。因此,我們認為,從一開始就使用多目標方法,實際上可以節省計算時間,并可能具有較低的整體樣本復雜度。這一點尤其重要,因為多目標算法可以利用需要產生多個策略的事實,以明確減少計算時間[140]和樣本復雜度[4]。
標量獎勵函數的另一個問題是缺乏(事后的)可解釋性(c)。如果我們問 "為什么機器人碰撞并摧毀了花瓶?",我們可以嘗試輸入一個替代的決定,比如從花瓶邊轉過來。一個具有單一全面目標的智能體,如果學習了一個標量值函數,那么,比如說,會告訴我們這個其他策略的價值減少了3.451,這沒有提供什么啟示。
相反,如果智能體可以告訴我們,在財產損失的目標中,損壞花瓶的概率將下降到幾乎為0,但碰到家里的狗的概率增加了0.5%(一個不同的目標),這將使我們深入了解出了什么問題。我們也可能因為不同的原因而產生分歧:我們可能認為智能體高估了與狗相撞的風險,這將是該目標的價值估計中的一個錯誤。我們也可能認為,撞到狗的可能性增加0.5%是如此之小,以至于可以接受--特別是如果機器人撞到狗可能會給狗帶來不便,但不會對它造成實際危險--如果機器人可以明確避免破壞花瓶。這將是我們分配給不同結果的效用函數中的一個錯誤。換句話說,不采取明確的多目標方法會使我們失去可能需要的基本信息,以評估或理解智能體。
此外(d),并非所有的人類偏好都可以由標量加法獎勵函數來處理[144]。當用戶的偏好應該用非線性而非線性效用函數來建模時,在許多強化學習框架中,先驗的標度化在數學上是不可能的,因為標度化會破壞獎勵函數的可加性。對于某些領域來說,這可能仍然是可以接受的,因為由此產生的優化損失可能不會產生重大影響。然而,在倫理或道德問題變得明顯的重要領域,單目標方法需要明確地將這些因素與其他目標(如經濟結果)結合在一起,而這種方式可能是許多人無法接受的[191]。同樣,對于我們希望確保多個參與者獲得公平或公正的結果的場景,設計單一目標的獎勵可能是困難的,甚至是不可能的[157, 177]。
最后(e),眾所周知,人類會不時地改變他們的想法。因此,不同目標之間的權衡偏好很可能隨著時間的推移而改變。一個明確的多目標系統可以訓練智能體能夠處理這種偏好的變化,從而避免在這種變化發生時需要發現一個新的策略。這增加了多目標決策智能體的適用性,因為智能體不需要從操作中取出來進行更新,它們可以簡單地切換策略以匹配新的用戶偏好。我們注意到,這種類型的變化與單目標和多目標問題中都可能出現的問題的非穩態動態不同;這里的多目標馬爾可夫決策過程(第3節)本身是穩態的,但外部偏好發生了變化。
通過比較將RL應用于濕式離合器接合的兩項不同的研究,可以深入了解單目標和多目標方法之間的差異[17, 187]。任務是控制濕式離合器中的活塞,以便通過最小化接合時間和扭矩損失,產生一個快速和平穩的接合。最初的研究使用了帶有折扣的標量獎勵,它隱含了所需行為的兩個方面,并取得了可接受的結果[187]。然而,隨后的研究考察了由幾個不同的效用函數和這些函數的參數化所產生的策略,并證明其中一些策略優于最初工作中報告的策略[17]。
因此,采取明確的多目標方法來規劃和學習可能是在決策問題上部署人工智能的關鍵。為了提供進一步的動力,以及展示在對多目標問題進行建模時可能出現的一些困難,我們將在第2節中提供此類多目標決策問題的例子。 然后,我們將對多目標問題進行形式化處理(第3節),并推薦一種系統地處理多目標決策問題的方法,在整個過程中把用戶的效用放在前面和中心位置(第4節)。在第5節中,我們概述了從確定多目標決策問題到在實踐中部署政策的過程中應該考慮哪些因素。我們描述了這些因素對這個過程和解決方案概念的影響。然后,我們描述了多目標決策問題和其他已知決策問題之間的關系(第6節),并簡要調查了算法方法(第7節)和用于評估這些算法產生的解決方案的指標(第8節)。為了幫助研究人員開始研究這個領域,我們在第9節中包括了一個多目標決策問題的工作實例,一個有多個目標的水管理問題,此外,我們還增加了一個Jupyter筆記本[74],其中有這些工作實例作為補充材料。最后,我們在第10節中總結了文章并討論了開放性的研究挑戰。
我們寫這篇文章的目的是提供一個多目標決策的介紹,并指導讀者開始建立和解決此類決策問題。本文與現有的旨在提供方法和理論的全面概述的文獻調查不同,它旨在成為從業人員和研究人員的指南,強調在將多目標智能體應用于實際問題時需要考慮和解決的問題。作為后續閱讀,我們推薦Roijers、Vamplew、Whiteson和Dazeley[144]提供的更多技術調查。
在新環境中有效的自主導航對于智能體達到更復雜的自主水平至關重要。我們對改善攜帶輕型光電傳感器有效載荷的車輛在未知環境中的自主導航和估計感興趣。由于傳感的限制,在非瑣碎的新環境中,世界的許多幾何結構還沒有被觀察到,導致了嚴重的幾何模糊性。盡管收集額外的幾何信息可以減少模糊性,但這樣做往往與任務的目標相抵觸。我們建議將對象層面的語義信息和幾何信息結合起來,以切實改善導航和估計。
在這篇論文中,我們提出了在新環境中改善自主導航的三個貢獻。首先,我們通過將有用的導航行為編碼在由部分占有率和對象級地圖告知的抽樣分布中,來提高新環境中的導航效率。我們認識到,在有效導航時,在有限的視角下,對象層面的估計是具有挑戰性的,因此我們還開發了兩種在線建立對象層面表征的方法。在我們的第二個貢獻中,我們通過引入額外的紋理測量和語義類形狀先驗,提高了帶有橢圓體表征的對象級SLAM的視點效率。最后,在我們的第三個貢獻中,我們提出了一種新的深度學習的三維對象估計方法,利用間接的圖像空間注釋和類內形狀一致性來實現從單一的RGB圖像的三維對象估計。