亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

決策支持是一個至關重要的過程,它能為決策者提供必要的洞察力,使其做出明智的選擇,從而提高任務準備狀態并優化資源分配。要提供有效的決策支持,顧問和分析人員必須理解決策者的優先事項,并采用能靈活、即時地直觀呈現資源情況的決策支持工具。在本研究中,主張實施專門設計的數據分析工具,通過數據分析協助管理決策。評估重點是未來創建戰略決策儀表板的潛在解決方案。評估了數據分析工具在整個決策過程中提供與管理決策相一致的決策支持能力。這項研究深入探討了每種數據分析工具的優缺點。理想的設計應為決策者提供數據可視化技術,使他們能夠做出明智的管理決策,確保資源效率和組織目標的實現。總之,所開展的研究支持使用合適的數據分析工具和未來開發戰略決策儀表板。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

該研究探討了如何利用博弈論來模擬俄羅斯、中國和美國之間的多極升級動態。此外,該研究還重點分析了影響潛在沖突結果的各種參數,以便在三極環境中進一步提出新的威懾思想。

本文建立了一個初步的博弈論模型來模擬和分析升級動態。該模型以扎加雷和基爾古爾在其著作《完美威懾》中提出的框架為基礎。該模型基于博弈前設定的假設和規則。然后,根據這些假設,采用一種適用于博弈理論家的數學逆向歸納法對模型進行分析。然后,對潛在結果進行評估,以提出威懾建議。

為了實現這一目標,設定了一個假設,然后與最終研究結果進行比較。在比較的基礎上,提出最終結論和建議。通過博弈論和研究獲得的結果符合設定的假設,本論文描述了滿足假設背后的原因和理論。

俄羅斯已經與美國達到了粗略的戰略均勢。中國將很快加入美國和俄羅斯的核同行或近鄰行列,從而創造一個新的多極地緣政治環境。美國傳統的核威懾政策植根于兩極背景,需要重新考慮威懾戰略。博弈論模型為探索提供了一個途徑,因為這些模型模擬了參與特定局勢或博弈的多個參與者之間的戰略局勢。戰略局勢涉及的結果取決于所有參與者的行動及其不同的動機。要制定新的威懾政策和戰略以領先于競爭對手,就必須了解和分析結果與形勢。通過對博弈進行正式建模,建模者不得不闡明模型中的任何假設和結論,從而為知情和新的威懾思維創造機會。在建立兩極沖突的博弈論模型方面已經做了大量工作,但在三極領域的研究卻嚴重不足。例如,2000 年,Zagare 和 Kilgour 提出了一種非對稱升級博弈來研究兩極威懾的動態。他們的工作可以擴展到多玩家框架。本論文旨在利用之前的兩極博弈論模型來建立三極模型,分析俄羅斯、中國和美國之間的升級和威懾動態,更具體地說,評估影響沖突結果的關鍵因素,從而解讀不斷變化的地緣政治環境。雖然本項目的大部分內容更廣泛、更具體地研究了這些方面,但首先必須分析以往的兩極博弈論威懾戰略,以理解并擴展以往的理論和研究。目標是找到兩極博弈論模型與當前地緣政治環境之間的相關性,從而建立新的三極博弈論分析模型。本研究的目標是利用博弈論分析俄羅斯、中國和美國之間的多極升級動態。分析將在三種可能的情況下進行。第一種情景假定所有參與者都各自為政、互不協調,模擬等邊三角形環境。第二種假設是中國和俄羅斯之間的協調,第三種假設是中國和美國之間的協調。雖然還有一種可能的情況是俄羅斯和美國之間的協調,但認為這種情況并不可靠。目前雙方在烏克蘭緊張局勢中的敵對行動使得結盟對抗第三方的可能性很小。因此,所有方案都假定兩國繼續對立。

假設在多極化環境中,全面戰略沖突的風險將增加,而緩和沖突的時間將縮短。在從理論和實證兩方面全面分析和建立新模型之前,有必要對威懾和博弈論方面的現有文獻進行調查。下文將簡要概述迄今為止的多項學術研究。

付費5元查看完整內容

軍事決策過程(MDMP)包括分析地形以確保任務成功的關鍵任務。然而,傳統的地形分析方法,如二維(2D)模擬地圖、PowerPoint 演示文稿和任務式指揮系統,資源密集、耗時長,而且會使決策者無所適從。因此,本研究側重于使用移動頭戴式增強現實(AR)顯示技術進行三維(3D)地形可視化,以應對這些挑戰。AR 技術可讓用戶觀察到疊加在物理環境上的虛擬物體,從而增強身臨其境的體驗。該工具允許用戶查看和操作三維地形,添加軍事資源的表示,檢查由此產生的配置,并參與 MDMP。可用性研究評估了界面的有效性、效率和用戶滿意度,重點是三維可視化任務、衍生地形信息提取以及在有爭議的潮濕空隙穿越場景中的部隊部署。結果表明,AR 地形可視化原型為決策者提供了更全面、更準確的信息,使任務規劃和執行取得了成功。這項研究凸顯了三維地形可視化和 AR 技術在改進 MDMP、讓決策者更好地了解環境并做出更明智決策方面的潛力。

A. 研究領域

本研究側重于利用增強現實(AR)技術來支持軍事決策過程(MDMP),這是任務規劃的一個重要方面。該工具可使用戶與描述地形的本地三維(3D)數據集進行交互,并允許使用一套 3D工具。因此,該工具具有增強決策過程和提高 MDMP 會議效率的潛力。

傳統上,美國陸軍在規劃任務時依賴于二維(2D)圖形信息。然而,獲取更詳細的地形信息需要大量的時間和資源,例如創建額外的二維圖形表示法。相比之下,如果地形已被捕獲并表示為三維數據集,工作人員就能獲得所有必要信息,從而參與 MDMP 并做出更明智的決策。

論文研究包括設計和開發一種增強現實(AR)可視化工具,該工具可與三維虛擬地形一起操作,并支持 MDMP,尤其強調濕間隙穿越(WGC)的任務規劃。本論文旨在通過提供虛擬地形的精確數據、允許使用三維工具和更好地做出決策,改善 MDMP 期間的人員協作。此外,這項研究還有助于理解在 MDMP 中促進小團隊合作所需的技術前提條件。

B. 問題與動機

技術進步往往會超越其采用和融入現有系統和流程的速度,這是一種常見現象。例如,在軍事任務中使用 AR 和虛擬現實(VR)技術進行信息共享,可以顯著改善復雜多變行動的規劃和執行。然而,將這些技術納入現有的任務式指揮系統和程序可能具有挑戰性且耗時較長,這主要是由于軍事行動對安全性和可靠性的要求。此外,用戶可能會抵制引入他們不熟悉的新解決方案和技術。因此,盡管信息共享技術進展迅速,但其融入軍事部門的速度卻慢得多。因此,復雜多變的軍事行動仍在使用過時的協議進行規劃和執行,任務式指揮系統長期以來也只是略有改進。

美國陸軍在 MDMP 期間使用各種方法提取信息和分析地形。主要是陸軍的每個作戰職能部門使用二維地圖提取地形信息;參謀部門通過情報地形科請求獲得更詳細的信息。然后,參謀部門將從二維地圖上收集的信息和情報科提供的信息制作成 PowerPoint 演示文稿。指揮官利用這套演示文稿做出最終決定。然而,由于二維地圖的固有局限性及其表現形式(在 PowerPoint 幻燈片中展示靜態二維地圖),參謀部無法始終從地形中提取衍生信息,從而做出明智的決策。如果能以本地三維數據格式顯示地形,并使用一系列合適的三維工具,工作人員就能從地形中提取衍生信息,加強協作,并更好地理解共同行動圖(COP)。

增強現實技術在軍事領域并不新鮮,但在 MDMP 期間尚未得到廣泛應用。通過在 MDMP 期間使用 AR 可視化工具,工作人員可以獲得以前無法用于工作和協作的系統功能。通過 AR 顯示三維虛擬地形并與之互動,每個 WWF 都可以使用簡單的手勢在地形周圍導航,操作這些數據集,操縱和放大縮小地形,并提取決策所需的衍生信息。因此,WWF 可以通過對地形具體情況的透徹了解來證實他們的決策,并更好地闡明他們向指揮官推薦特定行動方案的原因。此外,因誤解二維數據集而可能產生的錯誤也會減少,甚至消除。

關注 WGC 是部署 AR 技術和使用 3D 數據表示的沃土,這是有充分理由的。對于美國陸軍人員來說,WGC 是最具挑戰性的聯合武器任務之一;由于需要投入大量資源和人力資本,這類任務的規劃非常復雜(美國陸軍聯合武器中心,2019 年)。美國陸軍中的六個 WFF 必須緊密配合,以確保 WGC 的安全進行。在 MDMP 開始時,美國陸軍的每個 WFF 都要聽取情報部門關于地形分析的簡報;這一階段稱為戰場情報準備(IPB)。IPB 代表了對部隊行動區(AO)內地形的高層次審視,并提供了有關地形預期的歷史數據(陸軍部總部,2019 年);他們的大部分決策都是基于二維地圖做出的。進行 IPB 后,WFF 根據情報科提供的信息制定行動方案 (COA)。然而,依賴二維地圖有許多固有的局限性。例如,無法從任何給定點查看地形(數據集沒有三維記錄),因此缺少富有成效的 MDMP 所需的豐富地形信息。因此,使用卓越的數據表示,最大限度地減少出錯的可能性,并投入時間有效地研究替代方案和決策,有可能為此類復雜的軍事行動帶來急需的改進和戰略優勢。

C. 研究問題

本論文探討以下研究問題:

1.有可能為聯合武器 MDMP 提供最有效支持的技術框架是什么?

2.AR 支持的 MDMP 工具能否通過提供有關地形分析的衍生信息來增強作戰職能部門對地形的理解?

3.AR 支持的 MDMP 工具能否有效協助資源管理?

4.AR 支持的 MDMP 工具能否有效協助軍事參謀人員在聯合作戰場景中開展協作?

D. 研究范圍

本論文僅限于開發一種 AR 可視化工具和虛擬環境,以支持 "濕間隙穿越 "和提取 MDMP 期間每個 WWF 所需的地形衍生信息。此外,同一工具還可實現軍事參謀部門之間的人員協作和信息交流。

E. 研究方法

用于解決所有研究問題的方法包括以下步驟:

1.文獻綜述:進行文獻綜述,提供論文中使用的基本構造的背景信息。

2.任務分析:對當前開展 MDMP 的實踐進行分析,以跨越濕間隙。這包括但不限于詳細分析行動方案制定過程中不同作戰功能之間的報告和互動、當前地形可視化實踐以及團隊協作。

3.設計 AR 可視化工具: 為工具和用戶界面設計支持系統架構。此外,選擇一套支持用戶任務所需的三維對象和地形。

4.可用性研究:開展可用性研究,重點關注支持 AR 的 MDMP 工具的功能和性能。

5.數據分析:分析在可用性研究中收集的綜合數據集。

6.得出結論并提出未來工作建議。

F. 論文結構

第一章:導言。本章介紹研究空間的最關鍵要素:領域、問題、研究問題、范圍以及用于解決所有研究問題的方法。

第二章:背景和文獻綜述。本章討論美國陸軍如何開展 ADM 和 MDMP 以規劃軍事行動。本章還討論了 VR 和 AR 過去和當前的使用情況,以及在 MDMP 過程中軍事人員合作時 AR 的潛在用途。

第三章:任務分析: 當前 MDMP 實踐。本章分析了當前陸軍參謀人員在 MDMP 期間分析地形時使用的方法和工具,以及如何向指揮官推薦 COA。此外,本章還討論了向指揮官提供 2D 信息時存在的知識差距。

第四章:原型系統設計與實施。本章討論了 AR 可視化工具、系統架構、用戶界面和模擬環境的設計與開發。文中還描述了 WGC 場景和為可用性研究所需的虛擬環境而構建的 3D 模型。

第五章: 可用性研究。本章討論了使用 AR 可視化工具進行可用性研究的方法,包括制定完整的機構審查委員會文件。此外,文中還討論了虛擬環境、技術要求以及在可用性研究中收集的客觀和主觀數據集。最后,本章分析了可用性研究的結果。

第六章:結論和未來工作。本章概述了研究的要點,并對今后的工作提出了建議。

付費5元查看完整內容

誤導信息和虛假信息現象已從多個學術角度得到了廣泛的研究,但在這些現象如何、為何持續存在以及如何解決信息失序問題上卻存在著明顯的空白。這篇論文試圖做到這一點,它建立了一個新穎的框架,用于研究誤導信息和虛假信息在整個信息環境中的蓬勃發展,特別是通過數字媒體渠道。該框架的基礎源于克里斯坦森的破壞性創新理論和羅杰斯的創新擴散理論,這兩個理論范式從商業世界中借鑒而來,用于探討信息作為一種創新在被破壞的信息市場中的銷售問題。通過這一視角來看待錯誤信息和虛假信息,可以更好地理解這些現象的本質和預后,并揭示潛在的緩解途徑。

以下各章將進一步討論和分析顛覆性創新理論、創新擴散、誤導信息和失實信息如何融入信息環境等領域的重要文獻,并探討緩解數字媒體中錯誤信息泛濫的潛在對策。第二章將全面介紹顛覆性創新理論和創新擴散過程的背景,并界定數字媒體出現前后信息環境的性質。在此基礎上,我們將說明錯誤信息和破壞性信息如何融入所提出的分析框架,以及它們對信息環境產生的影響。第三章將說明信息是如何被商品化,以至于看起來更像是一種銷售產品,而不是用戶了解 世界的渠道,以及錯誤信息和失實信息是如何融入當前的數字媒體環境的。然后,本章將全面描繪虛假信息如何與顛覆性創新理論相契合,以及虛假信息的特性如何使其在我們的社會體系中迅速擴散。第四章將探討錯誤信息和虛假信息的擴散如何改變了數字媒體的性質,根據錯誤信息和虛假信息的破壞性軌跡對未來的信息環境狀況做出預測,并提出緩解或干預策略,以幫助阻止虛假數字媒體的病毒式侵襲。

付費5元查看完整內容

這項研究的目的是定義對手作戰方案支持數據模型,以及它與自動白方(TAWC)的關系,后者是一種理論上的先進規劃輔助結構。新提出的作戰概念依賴于較小規模的集中式兵力,需要處理的信息可能更多。這種模式迫使兵力領導者依靠更直觀的決策和/或使用技術來支持傳統上由人類完成的分析功能。要使新技術為規劃做出重要而可靠的貢獻,軟件開發人員必須考慮到條令流程,如 "作戰空間情報準備"(IPB)。軍事出版物中蘊含著無數年的經驗,而將減少不確定性的條令模型映射到領先技術的文獻卻很少。本論文探討了流程如何導致發現,從而減少戰斗空間中的意外情況。

付費5元查看完整內容

軍事分析人員可利用公開數據庫深入了解相關國際事件的發展。然而,這些數據庫依賴于以英語為基礎、經過整理的資料來源。這可能會導致偏差,不利于分析質量,尤其是在關注英語不是主要語言的地區和行動者時更是如此。

本研究旨在利用全球事件、語言和語調數據庫(GDELT)數據集來預測影響烏克蘭戰爭的重要因素,并將使用提取的數據和機器學習技術來開發預測模型。該項目旨在實現兩個目標。首先,提供一種從大數據集合中自動提取和預處理相關事件數據的方法。其次,將不同的機器學習模型應用于提取的數據,以預測重要因素,從而識別持續沖突中的事件趨勢。

所展示的數據采購可自由擴展到不同地區、行為體或其組合。在應用程序接口(API)中配置所需的參數后,相關的 GDELT 事件將自動提取。

由于本論文的重點在于預測,因此建模技術的應用側重于時間序列和遞歸神經網絡(RNN)模型。在測試過的時間序列預測模型中,自回歸綜合移動平均(ARIMA)模型與其他候選模型和天真模型相比,顯示出良好的預測性能。應用時間序列模型預測一至三個月的中期趨勢取得了最佳結果。

為了補充時間序列模型并利用 GDELT 的短期更新間隔,我們建立了不同類型的 RNN,并測試了它們在事件數量短期預測方面的性能。簡單 RNN 與長短期記憶 (LSTM) RNN 進行了比較,結果發現,簡單 RNN 的性能不如 LSTM RNN 模型。由此得出的結論是,數據中確實存在影響模型預測能力的長期和短期效應。

除了最初的跨語言 GDELT 數據庫,RNN 模型還運行了僅基于英語來源的 GDELT 數據提取,以及來自武裝沖突地點和事件數據項目(ACLED)數據庫的數據提取。

總體而言,在幾乎所有測試的模型中,使用基于英語來源的數據集都能獲得更好的均方根誤差值。不過,這并不一定意味著模型在捕捉現實生活中的變化方面表現更好。一項補充性探索數據分析(EDA)得出結論,在以英語為基礎的報告中,一系列事件的代表性不足。這一點在烏克蘭戰爭前奏期間尤為明顯,因為西方公眾對該地區的興趣和英語報道的一致性有時會降溫。事件報道不足導致數據的可變性較低,一致性較高,從而提高了基于英語模式的績效指標。

關于 RNN 模型在 ACLED 數據庫中的性能,除了 "爆炸/遠程暴力 "和 "戰斗 "這兩種事件類型外,本研究選擇的模型無法應用于 ACLED 數據提取。造成兼容性低的原因是報告事件的數量較少,以及報告中的空白與所選模型的相關性不高。

不同數據源之間的性能比較表明,要持續產生可靠的結果,挑選合適的預測因子和對結果進行初步分析并不容易實現自動化。強烈建議每次從 GDELT 首次提取新型數據子集時都進行一次 EDA。

圖 3.1. GDELT 事件數據庫中一個數據元素的示意圖。矩形代表中心數據元素,即事件。圓圈代表屬性,屬性 "GlobalEventID "用作唯一標識符。提及和音調 "屬性是灰色的,因為它不屬于本工作的范圍。

付費5元查看完整內容

算法和數據驅動的決策和建議通常用于刑事司法、醫學和公共政策等高風險決策環境中。我們利用 1969 年底推出的安全評估算法后立即測量的結果,研究是否有可能改進該算法。這一實證應用提出了在高風險算法決策中經常出現的幾個方法論挑戰。首先,在實施新算法之前,必須確定并控制產生比現有算法更差結果的風險。其次,現有算法是確定性的,學習新算法需要透明的外推法。第三,現有算法涉及離散決策表,這些決策表很常見,但很難優化。

為了應對這些挑戰,我們引入了平均條件風險 (ACRisk),它首先量化了新算法政策導致個體單位子群結果變差的風險,然后將其平均到子群分布上。我們還提出了一個貝葉斯政策學習框架,在控制后驗預期 ACRisk 的同時,最大化后驗預期值。這一框架將異質性治療效果的估計與政策優化分離開來,實現了對效果的靈活估計和對復雜政策類別的優化。我們將由此產生的機會受限優化問題描述為受限線性規劃問題。我們的分析表明,與越戰期間使用的實際算法相比,學習算法將大多數地區評估為更安全的地區,并強調經濟和政治因素而非軍事因素。

引言

算法和數據驅動的決策與建議早已應用于信貸市場(Lauer,2017 年)和戰爭(Daddis,2012 年)等不同領域。現在,它們越來越成為當今社會許多方面不可或缺的一部分,包括在線廣告(如 Li 等人,2010 年;Tang 等人,2013 年;Schwartz 等人,2017 年)、醫療(如 Kamath 等人,2001 年;Nahum-Shani 等人,2018 年)和刑事司法(如 Imai 等人,2023 年;Greiner 等人,2020 年)。將數據驅動政策應用于重大決策任務時,面臨的一個主要挑戰是如何描述和控制從數據中學到的任何新政策的相關風險。醫學、公共政策和軍事等領域的利益相關者可能會擔心,采用新的數據衍生政策可能會無意中導致某些人在某些情況下出現更糟糕的結果。

在本文中,我們考慮了一個特別高風險的環境,分析了在越南戰爭中使用的美國軍事安全評估政策。戰爭期間,美國軍方開發了一種名為 "哈姆雷特評估系統"(Hamlet Evaluation System,HES)的數據驅動評分系統,為每個地區得出一個安全分數(PACAF,1969 年);指揮官利用這些分數做出空襲決定。最近一項基于回歸不連續設計的分析表明,空襲對包括地區安全、經濟和公民社會措施在內的發展成果產生了顯著的負面影響,因此在很大程度上適得其反(Dell 和 Querubin,2018 年)。我們考慮是否有可能利用美國軍方和相關機構收集的同期數據來改進 HES,以反映這一事實,同時通過改變評估系統來避免許多地區發展成果惡化的風險。

特別是,最初的 HES 是由各種 "子模型分數 "組成的,這些分數根據調查反饋來衡量每個地區的不同方面(如經濟變量、地方行政管理、敵方軍事存在)。然后,該系統通過使用預定義決策表確定如何合并不同分數的三級分層匯總方法,將這些分數合并為一個單一的安全分數。然后將安全分數提交給空軍指揮官,由他們做出目標選擇決策。因此,我們的目標是通過改變基本決策表來修改 HES,找到能優化各種發展目標的決策表,同時限制個別地區這些目標惡化的風險。

這一經驗性問題提出了幾個在高風險數據驅動決策環境中通常會遇到的方法論挑戰。首先,我們希望描述和控制新的決策、分類或建議政策可能導致某些地區組(即單個單位)結果惡化的風險。其次,HES 是輸入數據的確定性函數,這意味著要學習新政策,就必須進行外推。第三,安全得分是通過使用決策表進行一系列匯總而得出的。事實上,決策表在許多公共政策和醫療決策環境中都得到了廣泛應用(例如,美國刑事司法系統中的風險評分 Greiner 等人,2020 年;Imai 等人,2023 年),但在實踐中對其進行優化卻具有挑戰性。

為了應對這些挑戰,我們引入了一種風險度量--平均條件風險(ACRisk),它首先量化了特定政策對具有一組特定協變量的個體單位群體的風險,然后將這種條件風險平均到協變量的分布上。與描述政策平均績效不確定性的現有風險度量(如 Delage 和 Mannor,2010 年;Vakili 和 Zhao,2015 年;Bai 等人,2022 年)不同,ACRisk 度量的是所學政策對子群產生負面影響的程度。這使我們能夠更好地描述應用新政策的潛在異質性風險。

有了這個風險度量指標,我們提出了一個貝葉斯安全政策學習框架,在控制后驗預期 ACR 風險的同時,最大化觀測數據的后驗預期值。我們將其表述為一個機會受限的優化問題,并展示了如何利用條件平均治療效果(CATE)的后驗分布樣本高效地解決該問題。

擬議框架的主要優勢在于其靈活性。由于偶然性約束優化問題只依賴于后驗樣本,因此可以使用流行的貝葉斯非參數回歸模型,如 BART 和高斯過程回歸(Rasmussen 和 Williams,2006 年;Chipman 等人,2010 年;Branson 等人,2019 年),同時在復雜的政策類別中高效地找到最優政策。這對于像我們這種協變量重疊有限或沒有協變量重疊的情況尤其有幫助,我們的框架允許通過貝葉斯先驗進行靈活的外推。相比之下,頻數主義的安全政策學習概念依賴于穩健優化,需要解決潛在模型類和潛在政策類的最小優化問題,因此很難同時考慮非參數模型和復雜政策類(Pu 和 Zhang,2020 年;Kallus 和 Zhou,2021 年;Ben-Michael 等,2022 年;Zhang 等,2022 年)。

我們通過模擬研究表明,控制后預期 ACR 風險可有效限制各種情況下的 ACR 風險,降低損害某些單位子群的風險。我們還發現,盡管所提出的方法設計得比較保守,但在某些信噪比較低的情況下,它所產生的新政策的平均值要高于沒有安全約束的政策。這證明所提出的安全約束能有效地規范政策優化問題。

在我們的實證分析中,我們應用所提出的方法來尋找對 HES 的調整,以獲得更好的總體結果(以軍事、經濟和社會目標為衡量標準),同時限制某些地區在新系統下的結果比在原始 HES 下更差的后驗概率。我們考慮了兩個政策學習問題--一個是我們只改變分層匯總最后一層中使用的決策表,另一個是我們同時修改所有三層分層匯總中使用的決策表。為了處理后一種復雜情況,我們開發了一種基于有向無環圖分區隨機行走的隨機優化算法,該算法普遍適用于決策表。我們的分析一致表明,原始的 HES 過于悲觀--將地區評估得過于不安全--并且過于強調軍事因素,而對 HES 進行的數據化調整則將地區評估得更為安全,并更多地依賴經濟和社會因素來得出地區安全分數。

文獻綜述

近年來,統計學家和機器學習研究人員對從隨機實驗和觀察研究中尋找最優政策的興趣與日俱增(例如,Beygelzimer 和 Langford, 2009; Qian 和 Murphy, 2011; Dud′?k et al、 2011;Zhao 等人,2012;Zhang 等人,2012;Swaminathan 和 Joachims,2015;Luedtke 和 Van Der Laan,2016;Zhou 等人,2017;Kitagawa 和 Tetenov,2018;Kallus,2018;Athey 和 Wager,2021;Zhou 等人,2022)。這些研究通常在頻繁主義框架下考慮以下兩個步驟--首先通過 CATE 確定給定政策的平均性能或價值,然后根據觀察到的數據,通過最大化估計值來學習最優政策

與此相反,我們采用貝葉斯視角--首先根據觀察到的數據獲得 CATE 的后驗分布,然后通過最大化后驗期望值來學習最優政策。貝葉斯方法已被廣泛用于因果推理(近期綜述見 Li 等人,2022b)。特別是,BART 和高斯過程經常被用來靈活估計 CATE(Hill,2011 年;Branson 等人,2019 年;Taddy 等人,2016 年;Hahn 等人,2020 年)。然而,貝葉斯方法似乎很少應用于政策學習。我們提出的框架利用了這些流行的貝葉斯非參數方法來實現安全的政策學習。

關于在無法識別 CATE 的情況下進行政策學習的文獻也在不斷增加。這些文獻包括帶有未測量混雜因素的觀察研究(Kallus 和 Zhou,2021 年)、帶有不遵守或工具變量的研究(Pu 和 Zhang,2020 年)、由于確定性治療規則而缺乏重疊的研究(Ben-Michael 等,2021 年;Zhang 等,2022 年)以及涉及潛在結果聯合集的效用函數(Ben-Michael 等,2022 年)。這些研究首先部分確定了給定政策的價值,然后通過穩健優化找到使最壞情況價值最大化的政策。我們的方法與之不同,我們只依靠后驗樣本進行政策學習,從而將估計與政策優化分離開來。

在強化學習(RL)文獻中,人們以不同的名稱研究了各種安全概念(如安全強化學習、風險規避強化學習、悲觀強化學習;見 Garc?a 和 Fernandez ′ (2015))。例如,Geibel 和 Wysotzki(2005 年)在尋找最優策略時,通過明確施加風險約束來控制代理訪問 "危險狀態 "的風險。相比之下,Sato 等人(2001 年)和 Vakili 和 Zhao(2015 年)在尋找高預期收益和低方差的最優政策時,將收益方差作為目標中的懲罰項。這些 RL 文獻主要關注在線環境,在在線環境中,算法的設計是為了避免探索過程中的風險,而我們研究的是在離線環境中應用數據驅動策略的風險。

我們還擴展了現有工作,提出了 ACRisk 概念,并將其作為優化新策略后驗預期值的約束條件。相關文獻是悲觀離線 RL,它使用值的置信下限(LCB)來量化給定策略的風險,并找到一個具有最佳 LCB 的策略(Jin 等人,2021 年;Buckman 等人,2020 年;Zanette 等人,2020 年)、 2020;Zanette 等人,2021;Xie 等人,2021;Chen 和 Jiang,2022;Rashidinejad 等人,2021;Yin 和 Wang,2021;Shi 等人,2022;Yan 等人,2022;Uehara 和 Sun,2021;Bai 等人,2022;Jin 等人,2022)。相比之下,擬議的 ACR 風險衡量的是與基線政策相比,新政策對某些群體產生負面影響的程度。

最后,我們的工作還與機會約束優化有關,后者被廣泛應用于不確定性下的決策分析(例如,Schwarm 和 Nikolaou,1999 年;Filar 等人,1995 年;Delage 和 Mannor,2007 年、2010 年;Farina 等人,2016 年)。例如,Delage 和 Mannor(2010 年)考慮了馬爾可夫決策過程的機會約束控制。他們假定獎勵分布為高斯模型,并使用機會約束優化來找到一種能以高后驗概率實現低遺憾的策略。我們的方法考慮了高斯模型之外的更一般的設置,并使用 ACRisk 的后驗期望值作為約束,這與現有的工作有所不同。

提綱

本文的其余部分安排如下。第 2 節介紹了美國在越南戰爭中的軍事安全評估、HES 以及相關的經驗政策學習問題。第 3 節介紹了正式設置,第 4 節介紹了貝葉斯安全政策學習框架和機會約束優化程序,以及通過高斯過程和貝葉斯因果森林實現。第 5 節介紹了評估我們建議的數值實驗。第 6 節將貝葉斯安全策略學習方法應用于軍事安全評估問題。第 7 節總結并討論了局限性和未來方向。

圖 1:20 個子模型分數的匯總。哈姆雷特評估系統 (HES) 使用 20 個子模型分數作為輸入,并使用雙向和三向決策表對其進行匯總。每個圓圈對應一個基于雙向或三向決策表的聚合,不同圓圈使用的決策表相同。

本文提出的方法

現在,我們介紹貝葉斯安全政策學習框架。首先,我們引入了一個新的風險度量--平均條件風險(ACRisk),它表示新政策在協變量條件下產生比基準政策更差的預期效用的概率。然后,我們建議最大化新政策的后驗預期值,同時限制后驗預期 ACRisk。我們的方法包括兩個步驟:首先使用靈活的貝葉斯模型估計條件平均治療效果(CATE),然后找到最優政策。我們將其表述為一個機會約束優化問題,而這個問題又可以使用基于馬爾可夫鏈蒙特卡羅(MCMC)從 CATE 后驗分布中抽取的線性規劃來解決。

付費5元查看完整內容

為了使多域作戰的概念取得成功,聯合部隊之間需要有一種共同的語言,而且這一概念決不能以犧牲在現有領域的機動性或通過創造一個新的領域來放棄單一領域的主導地位。并非所有的問題都需要一個僵化的理論來克服,多領域作戰需要模糊性,以最大限度地發揮其潛力。如果不這樣做,就有可能使概念僵化,使概念的效用受挫。

在美國陸軍和聯合部隊中,最近出現了實施多域解決方案以克服新出現的戰略和戰術挑戰的勢頭。應對這些挑戰的首要機制是制定理論,讓各部門承認并提供跨領域的效果以支持彼此。迄今為止,這一努力遇到了挑戰,因為聯合部隊有定義方面的挑戰,并且最終必須默許在零和資源環境中以犧牲自己的能力為代價來發展支持其他部門的能力。這項任務在最好的情況下是具有挑戰性的,在最壞的情況下是無法實現的。此外,產生一個解決方案本質上增加了與執行有關的復雜性。然而,重大的理論改革是沒有必要的,多領域合作的有利影響最好通過內在的模糊性來體現。

為多域作戰提供一個激烈的理論解決方案既無法實現,也沒有必要。允許思想上的模糊性提供了機會,使各部門能夠保持主要領域的主導地位,這對于多領域合作和跨領域的成功來說是必要的。它還允許制定與特定情況相關的解決方案,利用創造力,而沒有在零和資源環境中進行資源競爭的風險。各部門之間的同步性可以通過更加集中和一致的語言來克服,并通過使用現有的基礎設施來實施變革而不產生重大動蕩,使美國的軍事優勢保持不變,并能夠確保美國持續的全球力量投射。

付費5元查看完整內容

自主和半自主系統在一個系統的框架內運行,利用其自身的感知、認知、分析和執行行動的能力來實現其目標。無人系統對美國國防部(DoD)的采購程序提出了重大挑戰,該程序是為開發和部署人在環型能力而建立的。本論文的目的是對通過軍事采購程序開發半自主和自主系統的挑戰進行分析,以確定增加項目成功的可能性所需的最佳做法和趨勢。

分析的第二個目標是比較和對比具有自主能力的系統的測試和評估方法。測試和評估過程的目的是使決策者能夠管理技術風險,并在做出實戰決定之前評估能力的強大和成熟程度。自主系統需要嚴格的測試/制造策略,對大多數項目來說,這將導致成本超支和進度違反。此外,試圖跟上快速變化的技術步伐超過了美國防部使用尖端技術的成熟系統的能力。

圖12。DoDI 5000.02自適應采購框架。

付費5元查看完整內容

這項工作提出了一個支持決策過程的算法框架,其中終端用戶在領域專家的協助下解決一個問題。此外,終端用戶和領域專家之間的交流的特點是問題和答案的數量有限。開發的框架可以幫助領域專家向終端用戶精確定位少量的問題,以增加其見解正確的可能性。建議的框架是基于領域專家的知識,包括與領域專家和終端用戶的互動。領域專家的知識由知識圖譜表示,而終端用戶與問題相關的信息作為證據被輸入圖譜。這就觸發了圖中的推理算法,該算法向領域專家建議最終用戶的下一個問題。本文在醫學診斷領域提出了一個詳細的建議框架;然而,它也可以適應具有類似設置的其他領域。我們開發的軟件框架使決策過程以互動和可解釋的方式進行,這包括使用語義技術,因此是創新的。

簡介

近年來,"大數據 "世界獲得了巨大的發展動力,并不斷產生機遇和挑戰[1,2]。大數據的各種用途已經滲透到技術世界的幾乎每一個領域。我們對在處理決策過程的技術領域整合大數據的挑戰感興趣,以便利用這些過程。

這些過程可以在各種各樣的內容世界(醫學、商業、教育等)中找到,并且需要了解情況意識、數據建模以及提供智能見解的算法。然而,這些過程為不同的需求提供不同的答案;因此,有幾種類型的決策過程,每一種都有合適的設置[3,4]。

在這項工作中,我們專注于具有以下設置的決策過程:(a)該過程涉及兩個實體:一個最終用戶和一個領域專家,(b)最終用戶啟動該過程,(c)兩個實體之間存在互動,包括(領域專家的)問題和(最終用戶的)答案,(d)兩個實體之間的互動盡可能有限(在時間、問題數量、金錢等方面)。

鑒于上述情況,本報告的目的是提供一個基于語義技術的框架,該框架能夠整合大數據,在決策過程中協助領域專家,向他們建議一套針對最終用戶的問題(從數據中推斷出來的),這將減少問題和答案的循環。 考慮以下兩個領域的例子,其流程自然適合這樣的設置:醫療診斷[5]和家電維修[6](表1)。

如前所述,上述兩個領域包含了一個兩方面的有限互動。這種限制可以用時間、問題的數量等來表示。請注意,醫療和家電維修這兩個領域都是寬泛的領域,可以被專門化為特定的子領域。例如,家電維修領域可以被專業化為建筑服務、互聯網服務、家庭故障服務等。醫療領域也是如此。它也可以包含一些子域,如各領域的醫療咨詢(如心理學)、緊急醫療電話的處理等。

建議的框架包括兩個主要部分:(a) 使用語義技術對相關領域專家的知識進行正式表示,特別是知識圖譜,以及(b) 一套互動的算法,從一組初始領域值(即最終用戶的先驗知識)開始,然后,基于這些先驗知識和知識圖譜表示,它將向最終用戶提出具體問題。這些問題的答案將推動領域專家的決策過程,并成為下一次迭代的輸入。迭代將繼續進行,直到領域專家感到滿意并做出決定。

我們有動力通過知識圖譜來表示專家的知識,因為圖譜已經成為表示連接數據的一種自然方式[7]。在過去的十年中,人們努力將大量的數據組織成節點和邊的集合,特別是在推薦系統、搜索引擎優化和決策過程中[8,9,10]。由此產生的靈活結構,稱為知識圖譜,允許快速適應復雜的數據和通過關系的連接。它們固有的互連性使人們能夠使用圖算法來揭示隱藏的模式和推斷新的知識[11,12,13,14]。此外,知識圖譜在計算上是高效的,并且可以擴展到非常大的規模,社會圖譜分析就是一個例子[15,16]。

我們的框架受到了Musen和他的同事[17]的啟發,他們是生物醫學信息學領域的知名研究者,提出了關于協助臨床決策支持(CDS)的信息技術的看法。Musen等人[17]提出了提供CDS的系統的指導原則:他們的論述是關于交流而不是檢索信息,建議而不是產生報告,以及協助領域專家發展更多的知情判斷。分別來說,引導我們開發框架的概念是為領域專家提供從分析圖表示的相關數據中推斷出的建議,并使他能夠做出明智的決定。然而,另外一個領先的概念是以有限的迭代次數來進行。我們的框架可以擴展到其他領域。

在所提交的工作中,我們為一個交互式框架引入了一種新的方法,以支持以有限的交互次數為特征的決策過程。該框架通過使用圖數據模型、圖算法和語義技術,以通用的方式進行創新。我們在一個真實的數據集上運行我們的算法,并在一個可能的現實場景中展示框架的可行性。因此,我們為我們的框架提供了一個概念證明。

為了說明擬議的框架,我們首先回顧了知識圖譜和決策過程(第2節)。然后,我們定義了該框架的術語和算法(第3節)。隨后,我們在醫學診斷領域使用由疾病和病人癥狀組成的數據集來演示該框架(第4節)。最后,我們總結并考慮潛在的未來方向(第5節)。

框架與算法

這一節中介紹了所提出的框架,其中包括一個算法集合和它們之間的互動。

目標是基于互動的決策過程。互動是在領域專家和終端用戶之間進行的,結果是有限的迭代,由框架建議領域專家問終端用戶的問題組成。決策過程將根據終端用戶的回答而進行。

當分析這些類型的過程時,我們得出結論,它們可以被籠統地建模為一個癥狀和疾病的集合。最終,該過程的目標是協助領域專家決定診斷(即在分析現有數據的基礎上為一組給定的癥狀提供解釋)。Musen將診斷過程描述為決定要問哪些問題,要做哪些測試,或要執行哪些程序[7,17]。診斷過程中可能出現的問題有以下幾種類型。終端用戶是否有一個特定的癥狀?

上述術語(即癥狀、疾病、問題和診斷)產生的行話可以自然地用于醫學診斷領域,然而它也適用于其他領域,如家電維修:癥狀代表問題,疾病代表故障,診斷是一種故障識別,一個典型的問題可以是。終端用戶的電器有什么特別的問題嗎?

當在提議的框架中使用這個行話時,我們用假設一詞來代替診斷,因為該框架并不向領域專家提供診斷,而是提供可能的假設。每個假說實際上是一種潛在的疾病,它伴隨著一個問題,是表明疾病(假說)的癥狀。因此,我們在本文中用來描述框架及其各種算法的行話包括:癥狀、疾病、問題和假設。特別是,該框架推斷出假設及其相關的問題,并將它們提交給領域專家,后者決定是否使用(或不使用)這些問題來確認(或不確認)這些假設(疾病)。

在本節的其余部分,我們將描述該框架及其算法,首先是一般的,然后是詳細的。

一般來說,我們首先從原始數據建立一個知識圖譜,這將有助于探索疾病和癥狀之間的關系。在此之后,我們在KG上使用魯汶分層聚類法[21](算法1)來尋找社區(即具有類似癥狀的疾病群)。然后,給定最終用戶報告的癥狀(稱為證據癥狀),我們使用KG上的推理找到與證據癥狀相匹配的可能疾病(算法2)。在這一點上,我們推斷出最可能的社區,以包括最終用戶的疾病,并向領域專家建議一個表明這個社區的問題(癥狀)(算法3)。最后,我們找到最佳假設建議給領域專家(算法4),也就是說,我們向領域專家建議最終用戶可能有的疾病和癥狀,以解決診斷過程的改進。

整個框架分為兩個主要部分:第一部分,預處理部分,在框架啟動后進行;而第二部分,處理部分,在每次有新請求到達框架時進行。預處理部分包括兩個步驟和一個算法(算法1),而處理部分包括三個步驟和三個算法(算法2-4),正如我們在下面描述的那樣。

我們使用的數據結構包括代表KG的結構(默認是鄰接列表)和運行算法所需的額外結構。在下面描述算法的段落中,我們將詳細介紹這些結構和它們的用途。

預處理部分:

輸入:一個疾病及其癥狀的列表

第1步:構建一個疾病和癥狀的知識圖(KG)(見第3.1節)。

第2步:根據疾病的癥狀將其聚類為一組(稱為社區),即具有類似癥狀的疾病將在同一個社區中(算法1)。

輸出:(1)每一種疾病都與KG中的一個社區相關聯;(2)額外的數據結構,稱為癥狀社區矩陣(SCM),表示疾病組和各種癥狀之間的聯系 處理部分:

輸入:K證據癥狀

第一步:尋找最可能的疾病,即與證據癥狀相匹配的可能疾病(算法2)。

第2步:推斷并向領域專家建議(根據需要重復)一個問題(癥狀),表明最可能的社區包括最終用戶疾病(算法3)。

第3步:推斷并向領域專家建議一個假說(最終用戶可能患有的疾病)及其相關問題(癥狀)的列表,并按相關性排序(算法4)。

圖1顯示了整個建議框架的高級視圖。

付費5元查看完整內容

現實世界中的連續決策任務通常是復雜的,需要在多個通常相互矛盾的目標之間進行權衡。盡管如此,強化學習和決策理論規劃方面的大多數研究要么只假設有一個目標,要么假設多個目標可以通過簡單的線性組合得到充分的處理。這些方法可能會過度簡化基本問題,從而產生次優的結果。本文作為多目標問題上的應用實用指南,主要針對已經熟悉單目標強化學習和規劃方法并希望在研究中采用多目標視角的研究人員,以及在實踐中遇到多目標決策問題的從業人員。它確定了可能影響所需解決方案的性質因素,并通過實例說明了這些因素如何影響復雜問題的多目標決策系統的設計

關鍵詞:多目標決策、多目標強化學習、多目標規劃、多目標多Agent系統

1 引言

在大多數現實世界的決策問題中,我們關心的是不止一個方面。例如,如果我們有一個帶水電站的水庫,我們可能會關心能源生產的最大化,同時最小化灌溉不足量,以及最小化洪澇泛濫[19, 122, 133]。在醫療方面,我們可能希望最大限度地提高治療的有效性,同時盡量減少各種副作用[69, 77, 86]。換句話說,大多數現實世界的決策問題本質上是多目標的。

雖然大多數決策問題實際上有多個目標,但大多數處理需要與連續決策問題互動的智能體算法都集中在優化單一目標上[163]。然而,為了處理現實世界的多個目標,創建決策理論智能體的一個常見方法是將所有重要的方面結合在一起,形成一個單一的、標量的、加法的獎勵函數。這通常涉及到為環境中可能發生的事件分配數字獎勵或懲罰的迭代過程。例如,在水庫環境中,我們可以對洪災的發生進行大的懲罰,對每個時間步驟的電力輸出進行正的獎勵,對每個沒有滿足灌溉需求的時間步驟進行負獎勵。然后,開啟單目標規劃或學習智能體,觀察所產生的策略,如果行為不令人滿意,則重新設計獎勵函數。然后重復這個反復的過程,直到行為被設計者接受。我們認為這種工作流程是有問題的,原因有幾個,我們將逐一詳細討論:(a)它是一個半盲目的手工過程,(b)它使應該做出決定的人無法做出明智的權衡,給工程師帶來了理解手頭決策問題的過度負擔,(c)它破壞了決策過程的可解釋性,以及(d)它不能處理用戶和人類決策者可能實際擁有的所有類型的偏好。最后,(e)目標之間的偏好可能會隨著時間的推移而改變,當這種情況發生時,一個單一目標的智能體將不得不被重新訓練或更新。

首先(a),如果我們通過迭代過程設計一個標量獎勵函數,直到達到可接受的行為,我們會嘗試多個獎勵函數,每個都是實際目標的標度化。然而,我們并沒有系統地檢查所有可能的獎勵函數。換句話說,我們可能達到了可接受行為的最小閾值,但我們只觀察了所有可能的標度化中的一個子集。因此,盡管可能找到一個可接受的解決方案,但它可能離最佳效用有大的距離--如果我們能系統地檢查所有可能的解決方案,我們會得到最佳方案。這就自動把我們帶到了第二點(b)。由于獎勵函數是需要事先設計好的,我們只能猜測這可能對策略產生的影響。例如,當試圖在電力生產系統中訓練一個智能體時,我們可能希望將平均功率輸出提高一倍。然而,即使目標在獎勵函數中是線性加權的,也不是簡單地將與功率輸出方面的性能相關的獎勵增加一倍,因為獎勵權重和實際目標結果之間的關系很可能是非線性的[184]。另一方面,如果我們能夠檢查所有可能的最佳策略--以及它們在目標之間提供不同的權衡值--我們就可以以一種充分了解結果的方式來決定,而不是先驗地對標度進行有根據的猜測。這種有根據的猜測也是把決策權放在了不屬于它的地方:工程師。當工程師創建一個標度獎勵函數時,他們同時對實際決策者(如水庫中的政府)的偏好做出假設,并對標度獎勵函數的變化所導致的行為變化做出猜測。這不是一個可以留給人工智能工程師的責任--至少在具有重大意義的決策問題上不是。

我們還注意到,嘗試不同獎勵函數的迭代過程在樣本復雜度和計算時間方面可能會有很大的、但存在隱藏的成本。然而,這通常不會在最后的研究論文中報告。因此,我們認為,從一開始就使用多目標方法,實際上可以節省計算時間,并可能具有較低的整體樣本復雜度。這一點尤其重要,因為多目標算法可以利用需要產生多個策略的事實,以明確減少計算時間[140]和樣本復雜度[4]。

標量獎勵函數的另一個問題是缺乏(事后的)可解釋性(c)。如果我們問 "為什么機器人碰撞并摧毀了花瓶?",我們可以嘗試輸入一個替代的決定,比如從花瓶邊轉過來。一個具有單一全面目標的智能體,如果學習了一個標量值函數,那么,比如說,會告訴我們這個其他策略的價值減少了3.451,這沒有提供什么啟示。

相反,如果智能體可以告訴我們,在財產損失的目標中,損壞花瓶的概率將下降到幾乎為0,但碰到家里的狗的概率增加了0.5%(一個不同的目標),這將使我們深入了解出了什么問題。我們也可能因為不同的原因而產生分歧:我們可能認為智能體高估了與狗相撞的風險,這將是該目標的價值估計中的一個錯誤。我們也可能認為,撞到狗的可能性增加0.5%是如此之小,以至于可以接受--特別是如果機器人撞到狗可能會給狗帶來不便,但不會對它造成實際危險--如果機器人可以明確避免破壞花瓶。這將是我們分配給不同結果的效用函數中的一個錯誤。換句話說,不采取明確的多目標方法會使我們失去可能需要的基本信息,以評估或理解智能體。

此外(d),并非所有的人類偏好都可以由標量加法獎勵函數來處理[144]。當用戶的偏好應該用非線性而非線性效用函數來建模時,在許多強化學習框架中,先驗的標度化在數學上是不可能的,因為標度化會破壞獎勵函數的可加性。對于某些領域來說,這可能仍然是可以接受的,因為由此產生的優化損失可能不會產生重大影響。然而,在倫理或道德問題變得明顯的重要領域,單目標方法需要明確地將這些因素與其他目標(如經濟結果)結合在一起,而這種方式可能是許多人無法接受的[191]。同樣,對于我們希望確保多個參與者獲得公平或公正的結果的場景,設計單一目標的獎勵可能是困難的,甚至是不可能的[157, 177]。

最后(e),眾所周知,人類會不時地改變他們的想法。因此,不同目標之間的權衡偏好很可能隨著時間的推移而改變。一個明確的多目標系統可以訓練智能體能夠處理這種偏好的變化,從而避免在這種變化發生時需要發現一個新的策略。這增加了多目標決策智能體的適用性,因為智能體不需要從操作中取出來進行更新,它們可以簡單地切換策略以匹配新的用戶偏好。我們注意到,這種類型的變化與單目標和多目標問題中都可能出現的問題的非穩態動態不同;這里的多目標馬爾可夫決策過程(第3節)本身是穩態的,但外部偏好發生了變化。

通過比較將RL應用于濕式離合器接合的兩項不同的研究,可以深入了解單目標和多目標方法之間的差異[17, 187]。任務是控制濕式離合器中的活塞,以便通過最小化接合時間和扭矩損失,產生一個快速和平穩的接合。最初的研究使用了帶有折扣的標量獎勵,它隱含了所需行為的兩個方面,并取得了可接受的結果[187]。然而,隨后的研究考察了由幾個不同的效用函數和這些函數的參數化所產生的策略,并證明其中一些策略優于最初工作中報告的策略[17]。

因此,采取明確的多目標方法來規劃和學習可能是在決策問題上部署人工智能的關鍵。為了提供進一步的動力,以及展示在對多目標問題進行建模時可能出現的一些困難,我們將在第2節中提供此類多目標決策問題的例子。 然后,我們將對多目標問題進行形式化處理(第3節),并推薦一種系統地處理多目標決策問題的方法,在整個過程中把用戶的效用放在前面和中心位置(第4節)。在第5節中,我們概述了從確定多目標決策問題到在實踐中部署政策的過程中應該考慮哪些因素。我們描述了這些因素對這個過程和解決方案概念的影響。然后,我們描述了多目標決策問題和其他已知決策問題之間的關系(第6節),并簡要調查了算法方法(第7節)和用于評估這些算法產生的解決方案的指標(第8節)。為了幫助研究人員開始研究這個領域,我們在第9節中包括了一個多目標決策問題的工作實例,一個有多個目標的水管理問題,此外,我們還增加了一個Jupyter筆記本[74],其中有這些工作實例作為補充材料。最后,我們在第10節中總結了文章并討論了開放性的研究挑戰

我們寫這篇文章的目的是提供一個多目標決策的介紹,并指導讀者開始建立和解決此類決策問題。本文與現有的旨在提供方法和理論的全面概述的文獻調查不同,它旨在成為從業人員和研究人員的指南,強調在將多目標智能體應用于實際問題時需要考慮和解決的問題。作為后續閱讀,我們推薦Roijers、Vamplew、Whiteson和Dazeley[144]提供的更多技術調查。

付費5元查看完整內容
北京阿比特科技有限公司