現實世界中的連續決策任務通常是復雜的,需要在多個通常相互矛盾的目標之間進行權衡。盡管如此,強化學習和決策理論規劃方面的大多數研究要么只假設有一個目標,要么假設多個目標可以通過簡單的線性組合得到充分的處理。這些方法可能會過度簡化基本問題,從而產生次優的結果。本文作為多目標問題上的應用實用指南,主要針對已經熟悉單目標強化學習和規劃方法并希望在研究中采用多目標視角的研究人員,以及在實踐中遇到多目標決策問題的從業人員。它確定了可能影響所需解決方案的性質因素,并通過實例說明了這些因素如何影響復雜問題的多目標決策系統的設計。
關鍵詞:多目標決策、多目標強化學習、多目標規劃、多目標多Agent系統
在大多數現實世界的決策問題中,我們關心的是不止一個方面。例如,如果我們有一個帶水電站的水庫,我們可能會關心能源生產的最大化,同時最小化灌溉不足量,以及最小化洪澇泛濫[19, 122, 133]。在醫療方面,我們可能希望最大限度地提高治療的有效性,同時盡量減少各種副作用[69, 77, 86]。換句話說,大多數現實世界的決策問題本質上是多目標的。
雖然大多數決策問題實際上有多個目標,但大多數處理需要與連續決策問題互動的智能體算法都集中在優化單一目標上[163]。然而,為了處理現實世界的多個目標,創建決策理論智能體的一個常見方法是將所有重要的方面結合在一起,形成一個單一的、標量的、加法的獎勵函數。這通常涉及到為環境中可能發生的事件分配數字獎勵或懲罰的迭代過程。例如,在水庫環境中,我們可以對洪災的發生進行大的懲罰,對每個時間步驟的電力輸出進行正的獎勵,對每個沒有滿足灌溉需求的時間步驟進行負獎勵。然后,開啟單目標規劃或學習智能體,觀察所產生的策略,如果行為不令人滿意,則重新設計獎勵函數。然后重復這個反復的過程,直到行為被設計者接受。我們認為這種工作流程是有問題的,原因有幾個,我們將逐一詳細討論:(a)它是一個半盲目的手工過程,(b)它使應該做出決定的人無法做出明智的權衡,給工程師帶來了理解手頭決策問題的過度負擔,(c)它破壞了決策過程的可解釋性,以及(d)它不能處理用戶和人類決策者可能實際擁有的所有類型的偏好。最后,(e)目標之間的偏好可能會隨著時間的推移而改變,當這種情況發生時,一個單一目標的智能體將不得不被重新訓練或更新。
首先(a),如果我們通過迭代過程設計一個標量獎勵函數,直到達到可接受的行為,我們會嘗試多個獎勵函數,每個都是實際目標的標度化。然而,我們并沒有系統地檢查所有可能的獎勵函數。換句話說,我們可能達到了可接受行為的最小閾值,但我們只觀察了所有可能的標度化中的一個子集。因此,盡管可能找到一個可接受的解決方案,但它可能離最佳效用有大的距離--如果我們能系統地檢查所有可能的解決方案,我們會得到最佳方案。這就自動把我們帶到了第二點(b)。由于獎勵函數是需要事先設計好的,我們只能猜測這可能對策略產生的影響。例如,當試圖在電力生產系統中訓練一個智能體時,我們可能希望將平均功率輸出提高一倍。然而,即使目標在獎勵函數中是線性加權的,也不是簡單地將與功率輸出方面的性能相關的獎勵增加一倍,因為獎勵權重和實際目標結果之間的關系很可能是非線性的[184]。另一方面,如果我們能夠檢查所有可能的最佳策略--以及它們在目標之間提供不同的權衡值--我們就可以以一種充分了解結果的方式來決定,而不是先驗地對標度進行有根據的猜測。這種有根據的猜測也是把決策權放在了不屬于它的地方:工程師。當工程師創建一個標度獎勵函數時,他們同時對實際決策者(如水庫中的政府)的偏好做出假設,并對標度獎勵函數的變化所導致的行為變化做出猜測。這不是一個可以留給人工智能工程師的責任--至少在具有重大意義的決策問題上不是。
我們還注意到,嘗試不同獎勵函數的迭代過程在樣本復雜度和計算時間方面可能會有很大的、但存在隱藏的成本。然而,這通常不會在最后的研究論文中報告。因此,我們認為,從一開始就使用多目標方法,實際上可以節省計算時間,并可能具有較低的整體樣本復雜度。這一點尤其重要,因為多目標算法可以利用需要產生多個策略的事實,以明確減少計算時間[140]和樣本復雜度[4]。
標量獎勵函數的另一個問題是缺乏(事后的)可解釋性(c)。如果我們問 "為什么機器人碰撞并摧毀了花瓶?",我們可以嘗試輸入一個替代的決定,比如從花瓶邊轉過來。一個具有單一全面目標的智能體,如果學習了一個標量值函數,那么,比如說,會告訴我們這個其他策略的價值減少了3.451,這沒有提供什么啟示。
相反,如果智能體可以告訴我們,在財產損失的目標中,損壞花瓶的概率將下降到幾乎為0,但碰到家里的狗的概率增加了0.5%(一個不同的目標),這將使我們深入了解出了什么問題。我們也可能因為不同的原因而產生分歧:我們可能認為智能體高估了與狗相撞的風險,這將是該目標的價值估計中的一個錯誤。我們也可能認為,撞到狗的可能性增加0.5%是如此之小,以至于可以接受--特別是如果機器人撞到狗可能會給狗帶來不便,但不會對它造成實際危險--如果機器人可以明確避免破壞花瓶。這將是我們分配給不同結果的效用函數中的一個錯誤。換句話說,不采取明確的多目標方法會使我們失去可能需要的基本信息,以評估或理解智能體。
此外(d),并非所有的人類偏好都可以由標量加法獎勵函數來處理[144]。當用戶的偏好應該用非線性而非線性效用函數來建模時,在許多強化學習框架中,先驗的標度化在數學上是不可能的,因為標度化會破壞獎勵函數的可加性。對于某些領域來說,這可能仍然是可以接受的,因為由此產生的優化損失可能不會產生重大影響。然而,在倫理或道德問題變得明顯的重要領域,單目標方法需要明確地將這些因素與其他目標(如經濟結果)結合在一起,而這種方式可能是許多人無法接受的[191]。同樣,對于我們希望確保多個參與者獲得公平或公正的結果的場景,設計單一目標的獎勵可能是困難的,甚至是不可能的[157, 177]。
最后(e),眾所周知,人類會不時地改變他們的想法。因此,不同目標之間的權衡偏好很可能隨著時間的推移而改變。一個明確的多目標系統可以訓練智能體能夠處理這種偏好的變化,從而避免在這種變化發生時需要發現一個新的策略。這增加了多目標決策智能體的適用性,因為智能體不需要從操作中取出來進行更新,它們可以簡單地切換策略以匹配新的用戶偏好。我們注意到,這種類型的變化與單目標和多目標問題中都可能出現的問題的非穩態動態不同;這里的多目標馬爾可夫決策過程(第3節)本身是穩態的,但外部偏好發生了變化。
通過比較將RL應用于濕式離合器接合的兩項不同的研究,可以深入了解單目標和多目標方法之間的差異[17, 187]。任務是控制濕式離合器中的活塞,以便通過最小化接合時間和扭矩損失,產生一個快速和平穩的接合。最初的研究使用了帶有折扣的標量獎勵,它隱含了所需行為的兩個方面,并取得了可接受的結果[187]。然而,隨后的研究考察了由幾個不同的效用函數和這些函數的參數化所產生的策略,并證明其中一些策略優于最初工作中報告的策略[17]。
因此,采取明確的多目標方法來規劃和學習可能是在決策問題上部署人工智能的關鍵。為了提供進一步的動力,以及展示在對多目標問題進行建模時可能出現的一些困難,我們將在第2節中提供此類多目標決策問題的例子。 然后,我們將對多目標問題進行形式化處理(第3節),并推薦一種系統地處理多目標決策問題的方法,在整個過程中把用戶的效用放在前面和中心位置(第4節)。在第5節中,我們概述了從確定多目標決策問題到在實踐中部署政策的過程中應該考慮哪些因素。我們描述了這些因素對這個過程和解決方案概念的影響。然后,我們描述了多目標決策問題和其他已知決策問題之間的關系(第6節),并簡要調查了算法方法(第7節)和用于評估這些算法產生的解決方案的指標(第8節)。為了幫助研究人員開始研究這個領域,我們在第9節中包括了一個多目標決策問題的工作實例,一個有多個目標的水管理問題,此外,我們還增加了一個Jupyter筆記本[74],其中有這些工作實例作為補充材料。最后,我們在第10節中總結了文章并討論了開放性的研究挑戰。
我們寫這篇文章的目的是提供一個多目標決策的介紹,并指導讀者開始建立和解決此類決策問題。本文與現有的旨在提供方法和理論的全面概述的文獻調查不同,它旨在成為從業人員和研究人員的指南,強調在將多目標智能體應用于實際問題時需要考慮和解決的問題。作為后續閱讀,我們推薦Roijers、Vamplew、Whiteson和Dazeley[144]提供的更多技術調查。
對于許多人工智能系統的應用領域來說,多目標連續決策問題是常見的。由于這些系統越來越多地被用于與人打交道或做出對人有影響的決策,因此它們的推理對終端用戶和利益相關者來說是很重要的,以促進信任和有效的人-Agent協作。然而,即使在使用馬爾科夫決策過程(MDP)等白盒決策模型時,最終用戶也很難理解解決順序決策問題背后的推理。這種理解性的挑戰是由于解決長視距問題存在爆炸式的潛在策略組合。多目標優化方面使問題進一步復雜化,因為不同的目標可能發生沖突,需要權衡推理。這些復雜的問題給終端用戶帶來了障礙,使他們無法知道Agent是否為特定環境做出了正確的決定,并且可能禁止他們在Agent錯誤的情況下進行干預。本論文的目標是開發一個可解釋的框架,使做出順序決策的Agent能夠向最終用戶傳達其目標和行為的緣由。
我們提出了一個用于MDP的可解釋規劃框架,特別是支持具有多個優化目標的問題域。我們提出以結果為導向的對比性解釋,其中對Agent策略的論證是以其對任務目標的預期后果為基礎的,放在所選擇的可行方案的背景下,以展示Agent的優化和權衡推理。我們的建模框架支持獎勵分解,并增強了MDP表示法,以使獎勵或成本函數的組成部分以領域級概念和語義為基礎,從而促進解釋的生成。我們的解釋生成方法計算策略層面的對比襯托,描述Agent決策中的拐點,即對分解的任務目標進行優化和權衡推理。我們通過將我們的可解釋規劃框架應用于三個規劃問題領域來證明它的適用性:基于航路點的導航、無人機任務規劃和診所調度。
我們設計并進行了人類受試者實驗,以根據可衡量的任務表現來評估解釋的有效性。我們把實驗中用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以結果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策能力,以及用戶對其評估的信心。
最后,我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。我們提出了一個理論框架和方法,將"為什么不"的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯約束,并得出滿意的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。
由于人工智能推理的算法復雜性和所使用的信息不為用戶所知,因此,由帶有人工智能(AI)組件的系統做出的自動決策對最終用戶來說往往是不透明的,難以理解。特別是順序決策過程,在這個過程中,隨著時間的推移連續采取多個依賴性行動,由于可能策略的組合爆炸,特別是涉及到不確定性下的推理時,對終端用戶的理解構成了重大挑戰。隨著人工智能系統越來越多地被用于許多領域,與人們一起工作或做出影響人們的決定,這些系統必須使其推理能夠被最終用戶和利益相關者理解。理解系統的目標和行為,相信系統為他們的任務做出了正確的決定,或者知道他們什么時候沒有做出正確的決定,這對于讓人們信任并有效地使用這些人工智能系統或與之合作至關重要。本論文的目標是開發一個可解釋性框架,使做出順序決策的Agent能夠將其目標和行為的理由傳達給終端用戶。
對于許多順序決策或規劃的應用領域,經常有多種實現目標的方法,這些方法可能在一些重要的品質上有所不同,如執行時間和各種性能和成本的衡量標準。這樣的順序決策問題涉及到特定領域數量屬性的優化[78]。對于這類應用領域的終端用戶或利益相關者來說,一個重要的可理解性類型[61]是:為什么Agent的決策是最優的?這個問題有幾個方面。正在使用的順序決策框架、領域模型、任務目標(即目標和優化目標)以及解決問題的算法都在選擇最優決策方面起作用。因此,問題的多個方面可以得到解釋。在本論文中,我們特別關注領域模型和任務目標方面,以馬爾可夫決策過程(MDP)作為順序決策框架。我們研究了與算法無關的方法,向用戶解釋為什么MDP規劃Agent的策略是最優的,與Agent的決策模型有關。也就是說,我們的方法是根據Agent的MDP模型來解釋他們的最優策略,與解決MDP的具體算法無關。我們的目的是向用戶解釋產生規劃解決方案的推理,這些解決方案對他們來說可能是不明顯的,基于Agent的決策模型所做的,而不是基礎規劃算法如何實現的。
我們認為,對比性解釋對于回答為什么一項計劃或策略是最優的至關重要,因為最優性從根本上說是一種比較性屬性。對比性解釋的思想源于這樣一種社會現象:當人們要求對某一事件,即事實("為什么會發生P?")進行解釋時,他們往往要求相對于某種對比情況,即箔("為什么會發生P而不是Q?")進行解釋[69, 70]。
在可解釋的人工智能規劃中,現有的工作采用對比性解釋來進行推理調和(意味著幫助用戶的推理過程更好地理解規劃者的決策)[18],主要集中在單個行動層面的對比性襯托。這些工作通常旨在回答 "為什么這個行動在這個計劃中?"和 "為什么不是這個其他行動?"的問題。[36]. 然而,為了回答 "為什么這個策略是最優的?"的問題,我們認為在單個行動層面的對比性襯托是不夠的。對于用戶來說,要理解為什么一個策略是最優的,知道在某個狀態下選擇另一個行動會有一個較低的值(即Q(s, a0 )值,或其分解成分,對于在狀態s下的另一個行動a0)可能是不夠的。較低的值可能是沒有向用戶解釋的后續狀態和行動的結果。此外,有許多可能的后續狀態和行動的集合,Agent可以選擇,這將導致不同的策略值。如果解釋將對比性的襯托作為單獨的行動,這些替代性的決定就沒有得到解決。相反,我們認為應該探索導致較低策略值的行動組合,以便為用戶提供更多關于一個策略為什么是最優的洞察力。關鍵的挑戰是如何從一個指數級的大空間中找出適當的行動組合作為對比性的襯托。
在這篇論文中,我們研究了什么是構成策略最優的有效對比性解釋,以及如何自動生成這種解釋的問題。我們專注于解釋馬爾科夫決策過程規劃,對其而言,即使規劃模型是一個白盒,決策的長跨度順序性和概率性仍然使Agent的推理難以被用戶理解。我們的工作特別有動力針對涉及多個獎勵或成本目標的問題域,因為它們反映了規劃的許多現實應用[78]。問題的多目標優化性質增加了用戶需要理解的Agent推理的復雜性。
我們在本論文中研究的解釋的主要目標是使用戶能夠評估規劃Agent的決定對于用戶的目標和偏好來說是否是最優的,這些目標和偏好可能與Agent的目標和偏好不同。我們關注這一目標的原因有兩個方面。首先,在為規劃問題設計獎勵或成本函數時,將Agent和用戶的目標和偏好統一起來是一個困難的問題[37, 59]。特別是,當規劃目標有多個組成部分時,可能會發生錯位。能夠幫助用戶發現這種(錯誤的)排列的解釋可能是有影響的。第二,為解釋建立一個以任務為導向的目標,可以為衡量擬議的解釋方法的有效性提供一個更客觀的評價方法。
我們研究如何使用對比性解釋作為一種機制來描述Agent的規劃目標如何將其決策引向某種策略而不是其他策略。與可解釋人工智能文獻中常用的對比性解釋的定義不同,我們不關注因果差異條件或與不同情況相關的屬性的非因果差異。相反,我們的主要想法是關注Agent決策中的拐點,使其選擇某種策略而不是其他一些合理的選擇。也就是說,我們關注的是Agent改變其優化軌跡以平衡競爭性任務目標的點。為了從一個指數級的大空間中找出一套可管理的信息對比襯托--在行動組合層面上,我們利用規劃問題的多目標性質來解釋。通過獎勵分解,我們確定了一個帕累托有效策略的子集作為候選的對比性襯托。我們的對比性解釋方法的主要思想是描述獎勵或成本值的組成部分如何在帕累托效率子空間中驅動優化決策的拐點,以及如何進行權衡以調和競爭的任務目標。我們對這種類型的對比性解釋的論點是雙重的。首先,它忠實于規劃算法的基本數學方法,即計算多目標獎勵或成本函數的最優價值函數。其次,它支持本論文中所激勵的解釋的目標,即幫助用戶認識到Agent的目標和偏好與他們的目標和偏好之間的一致或不一致。
本論文的論述是:
我們可以通過面向結果的對比性解釋來提高馬爾科夫決策過程(MDP)規劃Agent對終端用戶的透明度和可理解性,即他們如何推理尋找最優策略。我們提出的方法允許用戶從不同序列決策對各種任務目標的影響以及競爭目標之間的權衡角度來理解規劃原理。我們提出的解釋機制使最終用戶能夠評估基于規劃的Agent的目標和他們自己的目標之間的一致性,并有可能從用戶的角度解決Agent的意外決定。
接下來,我們闡述一下論文聲明。
這篇論文的重點是針對最終用戶的馬爾科夫決策過程(MDP)規劃的推理協調問題(即幫助用戶的推理過程更好地理解規劃者的決定[18]),特別是對于涉及多個優化目標的問題領域。也就是說,我們的目標是產生解釋,說明為什么一個Agent的策略是關于任務目標和先驗偏好的最佳選擇。我們將我們的方法設計為算法無關和基于模型。也就是說,我們的方法是根據MDP模型來解釋Agent的最優策略,與解決MDP的具體算法無關。我們提出了以結果為導向的對比性解釋,其中對策略的論證是以其對任務目標的預期后果為基礎的,放在選定的可行替代方案的背景下,以證明Agent的優化和權衡推理。
利用獎勵分解,我們的方法通過對獎勵或成本函數的各個組成部分的價值函數的約束進行重新規劃,計算出一小套替代策略作為對比性的襯托,這與問題的任務目標相對應。價值約束的設置是為了解決帕累托前沿的拐點上的替代策略,這些拐點表明Agent的權衡決定,以調和競爭的任務目標。我們的方法制定了解釋,描述了在行動組合層面上不同的對比性襯托如何影響與Agent策略相比的任務目標。
本論文表明,使用以結果為導向的對比性解釋可以提高終端用戶對規劃原理的理解,其衡量標準是他們評估Agent的決策是否與用戶自己的目標和對任務的偏好相一致的能力,這可能與Agent的目標和偏好不同[59]。我們在本論文中提出,這種解釋為終端用戶提供了關于Agent決策的可操作性的見解。也就是說,用戶可以相信Agent已經做出了正確的決定,或者他們可以確定Agent有可能出錯的地方并進行相應的干預。
此外,我們研究了對我們方法的擴展,允許用戶直接查詢Agent策略中的意外決定。我們探索了一種用戶引導的、以結果為導向的對比性解釋方法,以 "為什么不 "查詢的形式使用用戶的輸入來引導搜索對用戶的具體問題有參考價值的對比性襯托。為此,我們提出了一個理論框架和方法,將 "Why-Not "查詢制定為規劃問題上的狀態-行動約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被查詢行為對后續決策和任務目標的全部影響。使用這個解釋框架的重要考慮因素是:對于滿足被查詢的時間模式的對比性箔,計算出的策略對于原始MDP問題中的狀態抽象來說可能是非馬爾可夫的。必須承認Agent原始推理中的馬爾科夫獎勵假設和用于生成用戶查詢的對比性襯托的非馬爾科夫方法之間的差異。盡管如此,我們認為,允許對比性襯托來挑戰Agent的正式規劃框架中的假設,對于用戶理解和評估他們對Agent的任務所期望的最優性標準是有參考價值的。這項調查是一個概念驗證。它的主要目標是探索在我們面向結果的對比性解釋范式中超越獨白的可行性,并納入復雜的用戶查詢,以確定更相關的對比性襯托,從而實現更好的推理協調。
在這篇論文中,我們做出了以下貢獻:
1.我們為馬爾科夫決策過程(MDP)規劃設計了一種算法無關的、基于模型的可解釋規劃方法[94]。我們的解釋目標是提供推理調節,說明為什么一個策略對于任務目標和規劃Agent的先驗偏好來說是最優的。我們提出了一種方法來產生面向結果的對比性解釋。我們的方法由兩部分組成:
(a) 一個支持獎勵分解的建模框架,并增強了MDP表示法,使獎勵或成本函數的組成部分在領域級概念和語義中有了基礎,以促進解釋的生成。
(b) 一種計算策略層面的對比襯托的方法,它描述了Agent在分解任務目標的優化和權衡推理方面的決策拐點。我們的方法通過對分解的任務目標的價值函數進行硬性和軟性約束的重新規劃來計算對比性箔。我們將約束性規劃問題表述為混合整數線性規劃(MILP)問題。特別是,我們制定MILP問題來解決滿足價值函數的硬約束的確定性策略[28]。我們使用懲罰方法[23]和非線性懲罰函數的分片線性近似[25]在MILP表述中用于軟約束。
2.我們通過將我們的方法應用于三個規劃問題領域來證明我們提出的可解釋規劃框架的適用性:基于航點的室內機器人導航、無人駕駛飛行器(UAV)任務規劃和門診調度。我們展示了每個問題域如何在我們的可解釋規劃表示中建模,并討論了我們的方法對不同問題實例產生的解釋的例子。
3.我們設計并進行了一個人體實驗,以評估基于可測量的任務表現的解釋的有效性。特別是,我們將用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以后果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策的能力,以及用戶對他們的評估的信心。
4.我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。提出了一個理論框架和方法,將 "為什么不 "的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。為了解決具有LTL約束的MDP,我們利用現有的問題制定方法[82]來構建產品MDP,其中包含了由LTL屬性生成的確定性拉賓自動機(DRA),而產品MDP的獎勵或成本函數是根據DRA的接受條件來定義。對于原始MDP問題中的狀態抽象,通過這種方法計算的對比性箔的策略可能是非馬爾科夫的。
人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究,即無人機的自主機動決策。形成了大量研究成果,但其中基于強化學習(RL)的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標,最突出的是遺傳算法(GA),A*,RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗(Alpha Dogfight Trials)中,強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后,強化學習帶來了巨大的關注。在這項研究中,將無人機作為目標,該無人機有一個杜賓斯車動態特性,在二維空間中使用雙延遲深確定策略梯度(TD3)以最佳路徑移動到目標,并用于經驗回放(HER)。首先,它的目的是讓agent采取最佳路徑到達目標,過程中有障礙物。在每個情節中,我們的agent從一個隨機點開始,我們的目標是穩定的,其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后,為了測試機制的極限,使我們的agent更難達到目標,并使其執行不同的機動性,我們添加了障礙物。它表現得很好,克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法,它使用了雙延遲深度確定性策略梯度(TD3),這是一種為具有連續行動的MDP定制的算法,使用強化學習作為基礎。
這篇文章是關于實踐中的強化學習領域的溫和討論,關于機會和挑戰,涉及廣泛的主題,有觀點,沒有技術細節。本文基于歷史和最近的研究論文、調查、教程、談話、博客、書籍、(小組)討論和研討會/會議。不同的讀者群體,如研究人員、工程師、學生、經理、投資者、官員和想要更多地了解該領域的人,可能會發現這篇文章很有趣。在本文中,我們首先簡要介紹了強化學習(RL),以及它與深度學習、機器學習和人工智能的關系。然后,我們討論了RL的機會,特別是產品和服務、游戲、博弈、推薦系統、機器人、交通、金融和經濟、醫療保健、教育、組合優化、計算機系統和科學與工程。然后我們討論挑戰,特別是1)基礎 ,2)表示,3)獎勵,4)勘探、5)模型,模擬、規劃、和基準, 6)離線策略/離線學習,7)學會學習又名元學習,8)explainability和可解釋性,9)限制,10)軟件開發和部署,11)業務視角,還有更多的挑戰。我們以討論結束,試圖回答:“為什么RL還沒有在實踐中被廣泛采用?”和“在線學習什么時候有用?”
可解釋的人工智能(XAI)提供了克服這一問題的手段,它基于有關深度學習(DL)算法結果的額外補充信息。雖然完全透明對于復雜的DL算法來說仍然是不可行的,但解釋有助于用戶在關鍵情況下對AI信息產品進行判斷。應該指出的是,XAI是透明度、因果關系、可信度、信心、公平、信心和隱私等方面的總稱。因此,基本的方法論是多方面的。一種已經流行的方法是局部可解釋模型-預知解釋(LIME)方法,因為它可以很好地應用于各種應用中的不同模型。在本文中,LIME算法是在戰略運營的決策建議背景下進行研究的。在簡單介紹了其概念后,介紹了文獻中的應用。然后,一個戰略博弈的場景被認為是軍事戰爭的替代環境。一個基于DL的國際象棋人工智能被做成 "可解釋的",以評估信息對人類決定者的價值。得出了與戰略混合行動有關的結論,這反映了所提出的方法的局限性。
根據設想,未來戰略戰爭的決策將在很大程度上受到基于人工智能(AI)方法的信息產品的影響。特別是混合作戰,是在一個高維和變異的環境中進行的,在這種環境中,對潛在的威脅和機會的評估是人類操作者難以掌握的,戰略規劃必須納入異質的、多功能的和高容量的數據源。因此,基于人工智能方法的算法產生的分類、預測和建議在這種復雜的場景中變得越來越重要。在過去的幾年里,人工智能的方法已經獲得了巨大的發展,有大量的創新和令人尊敬的成果,可以從大型數據集中獲得更高層次的信息。然而,深度學習(DL)方法的一個主要缺點是其固有的黑箱屬性,即由于計算模型的復雜性,其結果是不透明的。例如,后者可能有數百個層和數百萬個參數,這些參數是在訓練階段通過算法發現和優化的。因此,即使結果是準確的,用戶也沒有機會理解它或掌握輸入數據的因果部分。這反過來又會影響到用戶對輔助設備的信任,在兩個方向上都是如此。這個問題在某些民事應用中起著次要的作用,例如語音識別,它經常被應用于與設備的互動,因為除了體面的失望之外沒有潛在的風險。對于其他非常具體的任務,如手寫字符識別,DL算法的性能超出了人類的平均水平,這意味著失敗的可能性很小,因此關于因果關系的問題可能成為附屬品。然而,在許多軍事應用中,當涉及到與人工智能的互動時,人類的信任是一個關鍵問題,因為錯誤的決定可能會產生嚴重的后果,而用戶始終要負責任。這實際上是兩方面的。一方面,操作者往往需要了解人工智能產品的背景,特別是如果這些產品與他或她自己的本能相悖。另一方面,不可理解的技術會對算法信息產品產生偏見,因為很難確定在哪些條件下它會失敗。因此,適當的信任程度可能很難計算。
可解釋的人工智能(XAI)是向黑盒人工智能模型的用戶提供 "透明度"、"可解釋性 "或 "可解釋性 "的方法的集合。這些術語幾乎沒有一個共同的定義,但許多出版物提到了:
XAI不能完全 "解釋 "DL模型,然而,它為工程師或操作員提供了更好地理解特定AI產品背后的因果關系的手段。而且很多時候,這可以幫助看到,從合理的因果關系鏈暗示算法決策或預測的意義上來說,該模型是否是合理的(或不是)。因此,XAI可以成為人工智能模型工程的一個重要工具,用于安全方面的驗證,甚至用于認證過程,以及為操作員提供額外的信息,以支持明智的決策。
雖然關于XAI的大多數文獻都集中在圖像識別的方法上,但這些結果很難轉化為基于特定挑戰性競爭形勢的戰術和戰略決策領域。在本文中,我們研究了人工智能模型在棋盤評估中的可解釋性。對更復雜的軍事戰略模擬的一些影響進行了討論。
本文的結構如下。在下一節中,簡要介紹了選定的XAI方法。然后,這些方法之一(LIME)被應用于棋盤評估問題,以證明在支持信息方面的解釋的質量。在最后一節,得出了結論,并討論了對更復雜的戰爭博弈和模擬的概括。
圖神經網絡(GNNs)最近在人工智能領域變得越來越受歡迎,這是因為它們具有提取相對非結構化數據類型作為輸入數據的獨特能力。盡管GNN體系結構的一些元素在操作上與傳統神經網絡(以及神經網絡變體)的概念相似,但其他元素則不同于傳統的深度學習技術。本教程通過整理和呈現最常見類型的GNNs的動機、概念、數學和應用的詳細信息,向一般深度學習愛好者展示了GNNs的強大功能和新穎之處。重要的是,我們以介紹性的速度簡要地介紹了本教程,并提供了理解和使用GNNs的實用和可訪問的指南。
摘要:
當代人工智能(AI),或者更具體地說,深度學習(DL)近年來被稱為神經網絡(NN)的學習架構所主導。NN變體被設計用于提高某些問題領域的性能;卷積神經網絡(CNN)在基于圖像的任務環境中表現突出,而遞歸神經網絡(RNN)在自然語言處理和時間序列分析空間中表現突出。神經網絡也被用作復合DL框架的組件——它們在生成對抗網絡(GANs)中被用作可訓練的生成器和判別器,在transformers [46]中被用作編碼器和解碼器。雖然在計算機視覺中作為輸入的圖像和在自然語言處理中作為輸入的句子看起來是不相關的,但是它們都可以用一個單一的、通用的數據結構來表示:圖(見圖1)。
形式上,圖是一組不同的頂點(表示項目或實體),這些頂點通過邊(表示關系)選擇性地連接在一起。被設計來處理這些圖的學習架構是有名稱的圖神經網絡(GNN)。輸入圖之間的頂點和邊的數量可以改變。通過這種方式,GNNs可以處理非結構化的、非歐幾里得數據[4],這一特性使得它們在圖形數據豐富的特定問題域中具有價值。相反,基于NN的算法通常需要對具有嚴格定義維數的結構化輸入進行操作。例如,構建一個用于在MNIST數據集上進行分類的CNN,其輸入層必須為28×28個神經元,后續輸入給它的所有圖像大小必須為28×28像素,才能符合這個嚴格的維數要求[27]。
圖作為數據編碼方法的表達性,以及GNNs相對于非結構化輸入的靈活性,推動了它們的研究和開發。它們代表了一種探索相對通用的深度學習方法的新方法,并且它們促進了深度學習方法對數據集的應用,直到最近,這些數據集還不能使用傳統的神經網絡或其他此類算法。
本篇內容結構:
//deepai.org/publication/a-practical-guide-to-graph-neural-networks
本書的目的是考慮大型和具有挑戰性的多階段決策問題,這些問題可以通過動態規劃和最優控制從原則上解決,但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略(suboptimal policies)的求解方法。這些方法統稱為強化學習(reinforcement learning),也包括近似動態規劃(approximate dynamic programming)和神經動態規劃( neuro-dynamic programming)等替代名稱。
我們的學科從最優控制和人工智能的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界,并形成一個可以在任一領域具有背景的人員都可以訪問的橋梁。
這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴于直觀的解釋,而不是基于證據的洞察力。在附錄中,我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此,我們需要一個適度的數學背景:微積分、初等概率和矩陣向量代數等。
實踐證明這本書中的方法是有效的,最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而,在廣泛的問題中,它們的性能可能不太可靠。這反映了該領域的技術現狀:沒有任何方法能夠保證對所有甚至大多數問題都有效,但有足夠的方法來嘗試某個具有挑戰性的問題,并有合理的機會使其中一個或多個問題最終獲得成功。因此,我們的目標是提供一系列基于合理原則的方法,并為其屬性提供直覺,即使這些屬性不包括可靠的性能保證。 希望通過對這些方法及其變體的充分探索,讀者將能夠充分解決他/她自己的問題。
指南簡介
最近神經網絡在計算機視覺、機器翻譯和時間序列預測等問題上得到了重大突破,但它們也可以與強化學習算法相結合,創造出像AlphaGo這樣令人震驚的東西。強化學習指的是面向目標的算法,它學習如何獲得復雜的目標(目標)或在許多步驟中沿著特定的維度最大化;例如,在許多動作中最大化在游戲中贏得的分數。他們可以從一塊白板開始,在適當的條件下,他們可以達到超人的表現。就像一個被鞭打和糖果激勵的孩子,當他們做出錯誤的決定時,這些算法會受到懲罰,當他們做出正確的決定時,這些算法會得到獎勵——這就是強化。包含深度學習的強化算法可以在圍棋游戲中擊敗世界冠軍,也可以在玩許多阿塔里電子游戲的人類專家。雖然這聽起來微不足道,但與他們之前的成就相比,這是一個巨大的進步,目前的技術正在迅速進步。強化學習解決了將即時行為與其產生的延遲回報關聯起來的難題。與人類一樣,強化學習算法有時需要等待一段時間才能看到決策的成果。它們在延遲返回的環境中運行,在這種環境中,很難理解在許多時間步驟中哪些操作會導致哪些結果。強化學習算法可以期望在更模糊、真實的環境中執行得越來越好,同時可以從任意數量的可能動作中進行選擇,而不是從視頻游戲的有限選項中進行選擇。也就是說,隨著時間的推移,我們期望它們對實現現實世界中的目標是有價值的。Skymind將深度強化學習應用于真實世界用例的模擬,以幫助企業優化他們如何建立工廠、員工呼叫中心、建立倉庫和供應鏈以及管理流量。
內容目錄