人工智能(AI)智能體正在并將繼續成為我們周圍世界中不可或缺的關鍵參與者。我們希望智能體能使我們的生活變得更好、更容易、更安全、更有趣、更有價值。但很明顯,智能體并不總是以我們期望的和我們希望的方式行事。有時,這是因為它們的設計中存在錯誤的規定或缺陷,有時則是因為它們在建造時考慮到了惡意的目標。這篇論文表明,通過仔細思考智能體的世界模型和激勵機制,我們可以設計出性能更強、對對抗性攻擊更強大的多智能體系統。
其中一項研究考慮了在有買票人的情況下選舉系統的設計--買票人是一個試圖付錢給選民讓他們以某種方式投票,從而改變選舉結果的實體。假設選票購買者的預算有限,并試圖從有可能改變選舉結果的選民亞群中購買選票,這項研究顯示了運行和管理選舉的選舉當局如何通過分發誘餌選票并利用這些選票來消耗選票購買者的預算來保護選舉的完整性。
介紹了兩個新的多智能體學習框架。第一個框架包括對Arcade學習環境和OpenAI Gym的一系列修改,允許訓練和部署多個智能體,以及通過寫入模擬器RAM任意修改環境。第二個是一個新的環境(Javatari學習環境),用于將人工智能體與人類一起部署。利用這些新的框架,這項工作研究了可以與人類或低技能智能體在同一世界中合作行動的輔助代理的設計。
序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標。
在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199
做出決定是很難的! 值得慶幸的是,人類已經開發了許多概念框架,如決策理論、運籌學、倫理理論、統計學、博弈論和強化學習,以幫助解決這個過程。這些框架中的每一個都可以通過它們將決策的哪些方面放在前面和中心,哪些方面被忽略來描述。
本論文涉及統計學、博弈論和強化學習的交叉領域的課題。廣義上講,這些領域可以有以下特點。
統計學是關于不確定性的量化:給定一些產生數據的過程,統計學提供了正式的工具,將數據轉換為關于該過程的陳述,這些陳述是根據數據所傳達的證據量來校準的。在一個典型的統計問題中,科學家對一個系統進行干預,并在每次干預后收集系統的數字測量。統計學家的任務是利用這些數據來提供(i)干預措施效果的估計值,以及(ii)這些估計值中不確定性的一些原則性量化。如何處理這些估計值的問題完全由科學家(或其他領域的專家)來決定。
博弈論是關于戰略的,即在有其他決策者存在的情況下的決策考慮。它把有關相互作用的決策者或智能體之間的沖突、合作和激勵的問題放在最前面和中心。一個典型的博弈論問題是:給定一組智能體可用的選項和智能體對結果的偏好,什么樣的智能體行為分配是穩定的,以至于沒有智能體會有動力改變他們的行為?博弈論想當然地認為,智能體確切地知道他們的偏好(用數字表示),并且通常假設,一旦考慮到其他智能體行動的不確定性,就可以確定地知道行動的后果。
強化學習是關于從經驗中學習。在強化學習中,決策者通過采取行動和觀察與所采取行動的質量相關的數字 "獎勵 "信號來與系統互動。學習問題是更新決策規則以獲得更大的獎勵。這些更新可能會影響到收集到的數據的分布,從而引入統計方面的挑戰。在這種情況下,決策者面臨著基本的權衡,如是否采取行動以收集更多的信息,或是否采取行動以獲得更大的獎勵(所謂的探索-利用權衡)。強化學習的一個典型問題是反復玩有限數量的老虎機,保持對其報酬分布的估計,目的是獲得最大的累積報酬。鑒于其對行為和行為引起的獎勵的強調,強化學習(狹義上的解釋)不關注不確定性的量化,也不關注其他決策者的存在。
上述每個框架都提供了一個獨特的視角來分析決策問題,并提供了強大的工具來進行分析。每個框架也都有其局限性。例如,傳統的統計學可以被認為是一種完全的描述性工作,適用于分析者不與之互動的系統:它沒有明確地納入決策,并經常假設數據是以一種方便的方式取樣的,例如,作為獨立和相同的人口抽樣。這就排除了分析本身可能會改變產生的數據。在光譜的另一端,經典博弈論幾乎沒有試圖進行描述,而是相當規范,詳細說明了 "理性 "智能體必須采取行動的方式,并規定了這些智能體的理論上穩定的配置。博弈論是抽象的,它假設了許多不確定性的來源,如環境中的不確定性或自己對結果的偏好。
寬泛地說,強化學習在純粹的描述性或規范性之間做出了妥協:它的工具可以用來分析現實世界的智能體所產生的數據,或者為智能體推薦或規定行動。它的研究重點通常是制造理想的行為,這使得它更適合作為一門工程學科(如控制理論),而不是用于對不確定性進行仔細量化的數據稀缺環境,或對其他智能體的考慮至關重要的現實世界環境。
鑒于它們的優點和缺點,這些框架中的每一個都有一些強大的東西可以提供給其他的框架。正是這種觀察激勵了本論文的工作,它試圖以各種方式將這些框架融合在一起,以提供更好的工具,在復雜的世界中做出決策。下面,我們概述了三種不同的框架融合方式的動機和結果,每一種都構成了本論文的一個章節。
鑒于其規范性方向,博弈論并沒有提供數據驅動的分析工具,因為它們是由人或算法進行的游戲。這種類型的分析是很重要的。視頻游戲是全世界范圍內大規模流行的娛樂形式,為了創造或平衡它們,游戲設計師必須了解它們是如何被玩的。例如:某些策略是否對游戲的結果產生了不良影響?隨機性是否發揮了過大的作用?除了游戲設計之外,在美國和全世界的許多司法管轄區,在游戲上賭博的合法性取決于在決定該游戲的結果時是技巧還是機會 "占優勢"。這個概念并沒有一個既定的正式說法。因此,在游戲設計和賭博法中,都需要有統計工具來描述各方面對游戲結果的影響。
在第二章(廣義形式游戲的方差分解)中,我們采用了一種常見的統計工具,并為廣義形式游戲開發了一個版本,廣義形式游戲是一種具有離散步驟和部分可觀察性的游戲的一般模型,包括國際象棋和撲克這些特殊情況。這個工具就是方差分解,它在統計學中被用來量化感興趣的結果中的變化來源。游戲的方差分解允許用戶將游戲結果的變化歸因于不同的玩家和機會,使分析游戲的新方法可能對賭博法或游戲設計產生影響。具體來說,我們推導出一個封閉式表達式,并估算出可歸因于單一玩家或機會的廣義游戲結果的方差。我們分析了撲克牌,發現發牌的隨機性對每一手牌的結果的影響小得令人吃驚。我們簡要地評論了這一想法的延伸,它可以用來測量游戲的其他有趣的屬性。本章是Cloud和Laber(2021)的翻版,稍作修改。
在過去的五年里,機器學習方法在決策方面有了快速的發展,特別是在復雜的、大規模的、多人游戲中,如國際象棋、圍棋、Dota II、星際爭霸和戰略游戲。學習玩這些游戲的一個明顯的困難是弄清楚如何采取行動,以便在復雜的環境中實現某些變化。這正是強化學習所要解決的問題。然而,還有一個重要的困難,在文獻中得到了很好的理解,但也許并不普遍:在有多個智能體的情況下學習。在上述所有的游戲中,機器學習算法必須學會以尊重游戲的隱含動態性的方式行事:通過游戲環境,智能體可能面臨許多不同種類的對手。這些對手可能會利用曾對其他智能體產生有利結果的行為。例如,應用于 "剪刀石頭布 "游戲的天真強化學習算法,在對 "布"的對手進行訓練后,將產生一個 "剪刀 "智能體,在對其訓練對手時獲得高額獎勵,但被 "石頭 "智能體嚴重懲罰。對這些多智能體動態的考慮存在于博弈論的領域。因此,為了定義合適的收斂概念和設計達到收斂的算法,多智能體強化學習問題必須將博弈論引入其中。
在第三章(預期的虛構游戲)中,我們研究了一種經典的博弈論算法,這種算法之前已經被成功地擴展到多智能體強化學習中。該算法被稱為 "虛構游戲",用于在雙人競爭游戲中尋找平衡點。然而,正如我們在理論上和經驗上所顯示的,它在一些感興趣的游戲中收斂得很慢。為了解決這一缺陷,我們提出了一種新的虛構游戲的變體,稱為預期性虛構游戲。預測性虛構游戲被證明是收斂的,被證明具有優越的經驗性能,并被擴展到多智能體強化學習的環境中。在此過程中,我們提供了一種易于實現的多智能體強化學習算法,其性能優于由虛構游戲驅動的算法。本章是Cloud等人(2022)的復制品,做了些許修改,仿真結果也不那么廣泛。
在許多數據驅動的決策問題中,對其他智能體的考慮并不重要,因此,不需要博弈論。例如,在臨床試驗、推薦系統或其他許多獨立個體與系統互動的環境中,通常把問題當作病人或網站用戶是可以互換的、獨立的和固定的。這是合理的,因為,例如,給一個病人提供治療,不太可能導致另一個病人后來對同一治療有不同的反應。使用數據為臨床試驗中的個人定制治療方法,或向網絡用戶推薦媒體,是一個強化學習問題。然而,在需要 "安全 "概念的環境中,強化學習的天真應用不可能是合適的。如果一個決策系統要可靠地遵守對其行動效果的約束,就必須能夠量化其行動效果的不確定性。進行這種不確定性的量化是統計推理的一個問題。
在第四章(上下文強盜中的安全約束在線學習)中,我們提出并研究了一個受約束的強化學習問題,除了獎勵最大化之外,決策者還必須根據對其 "安全性 "的約束來選擇行動。約束滿足,就像潛在的獎勵信號一樣,是由噪聲數據估計的,因此需要仔細處理不確定性。我們提出了一個新的算法框架,它采用了樣本分割,以便比現有的安全算法更有效地利用數據。我們框架的通用性意味著它有可能被應用于各種現實世界中的安全關鍵決策問題,包括那些使用人工神經網絡等難以分析的函數近似器的問題。然而,我們在更有限的線性背景下研究了我們的框架,以便得出理論結果,暗示該方法的實際安全性和實用性。我們證明,在適當的條件下,我們的算法保證在極限情況下產生最佳的安全行為,甚至在小樣本環境下也是近似安全的。在各種模擬中,我們驗證了該理論,并證明了卓越的經驗性能。通過這種方式,我們提供了一種可靠的算法,可用于現實世界的安全關鍵數據驅動的決策問題。本章是Cloud, Laber和Kosorok(即將出版)的論文的預印本。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
機器人系統正在進入舞臺。在硬件組件和軟件技術進步的推動下,機器人越來越能夠在工廠外運作,協助人類,并與人類一起工作。機器人擴張的限制因素仍然是機器人系統的編程。由于建立一個多機器人系統需要許多不同的技能,只有最大的組織能夠在機器人提供的服務空間中進行創新。
只有最大的組織能夠在機器人提供的服務空間中進行創新。為了使開發新的機器人服務更容易,我在這篇論文中提出了一個規劃模型,在這個模型中,用戶(程序員)給出了需要完成的聲明性規范,然后一個后臺系統確保該規范被安全、可靠地執行。我介紹了Antlab,一個這樣的后端系統。Antlab接受來自多個用戶的線性時態邏輯(LTL)規范,并使用一組不同能力的機器人來執行它們。
在實施Antlab的經驗基礎上,我確定了由所提出的規劃模型產生的問題。這些問題分為兩大類:規范和規劃。
在規范問題的類別中,我解決了從正反兩方面的例子中推斷LTL公式的問題,以及僅從一組正面例子中推斷LTL公式的問題。在這些解決方案的基礎上,我開發了一種方法來幫助用戶將他們的意圖轉移到正式的規范中。本論文所采取的方法是將來自單個演示的意圖信號和用戶給出的自然語言描述結合起來。通過將問題編碼為命題邏輯的可滿足性問題,推斷出一組候選規范。通過與用戶的互動,這組規格被縮小到一個單一的規格;用戶批準或拒絕對機器人在不同情況下的行為進行的模擬。
在規劃問題類別中,我首先解決了目前正在執行任務的機器人的規劃問題。在這種情況下,不清楚應該把什么作為規劃的初始狀態。我通過考慮多個推測的初始狀態來解決這個問題。從這些狀態出發的路徑是根據一個質量函數來探索的,該函數反復估計規劃時間。第二個問題是獎勵函數為非馬爾科夫時的強化學習問題。建議的解決方案包括反復學習代表獎勵函數的自動機,并使用它來指導探索。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。
在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。
強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。
然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。
從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。
這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。
雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。
總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。
隨著機器學習模型越來越多地用于做出涉及人類的重大決策,重要的是,這些模型不能因為種族和性別等受保護的屬性而歧視。然而,模型持有人并不是受到歧視性模型傷害的首當其沖的人,因此模型持有人修復歧視性模型的自然動機很少。因此,如果其他實體也能發現或減輕這些模型中的不公平行為,將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的,因為它們可以在不知道模型的全部細節的情況下執行。
在這篇論文中,我考慮了三種不同形式的不公平,并提出了解決它們的黑盒方法。第一個是代理使用,模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏,這使模型不應該做出任意決定的直覺觀念形式化。最后,模型的訓練集可能不具有代表性,這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個,我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問,即使模型持有者不合作,它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性,表明它們是有用的技術工具,可以支持對歧視的有效回應。
題目: Improving Policies via Search in Cooperative Partially Observable Games
摘要:
最近在游戲中的超人結果很大程度上是在各種零和游戲中實現的,比如圍棋和撲克,在這些游戲中,玩家需要與他人競爭。然而,就像人類一樣,現實世界的人工智能系統也必須在合作的、部分可觀察的環境中與其他智能體進行協調和通信。這些設置通常要求參與者既要解釋他人的行為,又要在解釋時提供信息。這些能力通常被總結為心智理論,并被視為社會交往的關鍵。在本文中,我們提出了兩種不同的搜索技術,可用于改進合作部分可觀察博弈中的任意一致策略。第一個是單智能體搜索,它可以有效地將問題轉換為單智能體。通過使除一個智能體外的所有智能體都按照商定的策略進行設置。相反,在多智能體搜索中,只要在計算上可行,所有智能體都會執行相同的公共知識搜索過程,否則就會退回到根據商定的策略進行搜索。我們證明了這些搜索過程在理論上至少保證了協議策略的原始性能(在有界近似誤差范圍內)。在Hanabi的基準挑戰問題中,我們的搜索技術極大地提高了每一個測試的性能我們測試了智能體,當應用到使用RL訓練的策略時,在游戲中獲得了24.61/25的最新分數,而之前最好的分數是24.08/25。
作者簡介:
Jakob Foerster是Facebook人工智能研究科學家,研究興趣是深度學習,多智能體,強化學習,博弈論。
Noam Brown是Facebook人工智能研究科學家,研究興趣是人工智能,博弈論算法,多智能體系統,機器學習。