深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。
本文的主要貢獻概述如下:
在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;
在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;
在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。
強化學習(RL)在人工智能(AI)領域取得了一些最令人矚目的進展。強化學習從深度神經網絡的出現中獲益匪淺,深度神經網絡使學習代理能夠在日益復雜的環境中逼近最優行為。特別是,競爭性 RL 的研究表明,在對抗環境中競爭的多個智能體可以同時學習,以發現它們的最優決策策略。
近年來,競爭性 RL 算法已被用于訓練各種游戲和優化問題的高性能人工智能。了解訓練這些人工智能模型的基本算法對于利用這些工具應對現實世界的挑戰至關重要。網絡安全領域正在考慮將競爭性 RL 的新興研究成果應用于現實世界。
為了利用 RL 開發自動化網絡行動(ACO) 工具,可以使用各種環境模擬網絡安全事件。其中許多 ACO 環境都是在過去三年中開源的。這些新環境促進了探索人工智能在網絡安全方面潛力的研究。這些環境中的現有研究通常是片面的:紅方或藍方智能體接受訓練,針對具有固定策略的靜態對手優化決策。
通過只針對一個對手或一組靜態對手進行訓練,學習型人工智能在面對場景中其他所有可能的對手時都無法保持高性能。競爭性 RL 可用來發現對抗環境中任何潛在對手的最佳決策策略。然而,在這些新興的 ACO 模擬中還沒有嘗試過。本論文的目的是使用競爭性 RL 訓練智能體,使其在模擬 ACO 環境中接近博弈論中的最優策略。
圖 4:虛構游戲過程中使用的系統概覽,包括actor-critic框架和對手采樣。切換代理和對手,為對手的策略庫訓練新策略。
網絡化多智能體系統已成為許多工程系統不可或缺的一部分。多智能體系統中的協同決策面臨許多挑戰。本文將研究信息及其對智能體的可用性對多智能體系統中協同決策的影響。
本文考慮了使用兩個觀測器從觀測數據中檢測馬爾可夫模型和高斯模型的問題。考慮兩個馬爾可夫鏈和兩個觀察者。每個觀察者觀察真實未知馬爾可夫鏈狀態的不同函數。給定觀察結果后,目標是找出兩個馬爾可夫鏈中哪一個產生了觀察結果。本文為每個觀察者提出了塊二元假設檢驗問題,并證明每個觀察者的決策是局部似然比的函數。本文提出了一種共識方案,讓觀察者就其信念達成一致,并證明了共識決策對真實假設的漸近收斂性。使用兩個觀測者檢測高斯模型時,也考慮了類似的問題框架。為每個觀測者提出了序列假設檢驗問題,并使用局部似然比求解。考慮到觀察者隨機和不對稱的停止時間,提出了一種共識方案。本文引入了 “信息價值 ”的概念,以理解為達成共識而交換的信息的 “有用性”。
接下來,考慮有兩個觀察者的二元假設檢驗問題。自然界有兩種可能的狀態。有兩個觀察者,他們收集的觀察結果在統計學上與真實的自然狀態相關。假設這兩個觀察者是同步的。觀測者的目標是根據觀測結果,共同找出真實的自然狀態。考慮采用集中式和分散式方法來解決問題。每種方法都分為兩個階段:(1) 構建概率空間:已知真實假設,收集觀測數據以建立假設與觀測數據之間的經驗聯合分布;(2) 給定一組新的觀測數據,為觀測者制定假設檢驗問題,以找到他們各自對真實假設的信念。提出了讓觀察者就其對真實假設的信念達成一致的共識方案。比較了集中式方法中錯誤概率的衰減率和分散式方法中就錯誤信念達成一致的概率的衰減率。比較了集中式方法和分散式方法的數值結果。
多智能體系統中一個智能體的事件集中的所有命題可能無法同時驗證。研究了文獻中的事件狀態運行結構和不相容關系的概念,并將其作為研究事件集結構的工具。舉了一個多智能體假設檢驗的例子,在這個例子中,事件集并不構成布爾代數,而是構成了一個正晶格。還討論了 “非交換概率空間 ”的可能構造,其中包含不相容事件(無法同時驗證的事件)。作為這種概率空間中可能存在的決策問題,考慮了二元假設檢驗問題。提出了解決這一決策問題的兩種方法。在第一種方法中,將可用數據表示為來自通過投影估值度量(PVM)建模的測量結果,并檢索使用經典概率模型求解的底層檢測問題的結果。在第二種方法中,使用正算子估值方法(POVM)來表示測量結果。證明,第二種方法實現的最小錯誤概率與第一種方法相同。
最后,考慮了學習經驗分布的二元假設檢驗問題。在任一假設下,觀測值的真實分布都是未知的。經驗分布是從觀測數據中估計出來的。利用經驗分布序列解決一系列檢測問題。經驗分布下的信息狀態和最優檢測成本向真實分布下的信息狀態和最優檢測成本的收斂情況如圖所示。還給出了最佳檢測成本收斂的數值結果。
近年來,軍事行為者廣泛利用數字網絡技術提供的機會與目標受眾直接溝通,并參與復雜的印象管理。本文研究項目采用傳播承受力框架,探討社交網站(SNS)如何與軍事戰略傳播實踐相交融并增強其傳播效果。具體來說,本研究旨在了解 SNS 如何融入軍事戰略傳播實踐,作為實現其更廣泛機構目標的一種手段,同時將研究置于這種傳播所處的復雜混合媒體生態中。
該項目采用了一種混合研究方法,即對愛爾蘭、加拿大、美國、德國、荷蘭、以色列和北約軍事和國防部門的傳播專業人員進行深入訪談,并對三年來上傳到以色列國防軍官方 Facebook 頁面的時間軸圖片進行多模式專題分析。對處于利用 SNS 最前沿的活躍軍事機構進行視覺專題分析,是對半結構式訪談分析的補充,提供了重要的背景資料,使人們對 SNS 作為軍事戰略交流工具的潛在能力和局限性有了更全面的了解。
研究結果深入揭示了軍事傳播行動者如何看待和使用 SNS,并將其作為一個平臺,向多個目標受眾闡明其活動和合法性,以及建立公眾支持。本研究采用了 "社交媒體承受能力 "這一理論框架,對社交網站如何增強軍事戰略傳播實踐進行了概念化。研究結果表明,SNS 的能力、規范和語言使軍事戰略傳播的性質和基調發生了重大轉變。這項實證研究可為混合媒體生態中的軍事媒介化提供更廣泛的理論依據,并為研究在線可視化軍事傳播實踐的概念類型學做出貢獻。
本論文題目源于對政治、軍事和國防行為者使用和占有流行社交網站(SNS)逐漸增多的興趣。現在,全球各地的軍隊都在多個社交媒體平臺上保持在線存在,他們利用這些平臺進行征兵、反擊敵方言論和爭取公眾支持。我認為,對軍事和國防行為者使用 SNS 的特別關注值得學術界關注,因為它們代表了軍事戰略傳播(StratCom)在傳播范圍和語氣方面的巨大變化。如果說公眾認知對當代沖突的成功至關重要(Lind, 2004; Hammes, 2005),那么媒體對軍事戰略傳播實踐也至關重要,因為軍事戰略傳播實踐致力于影響和管理多重復雜目標受眾的認知。正如 Hoskins 和 O'Loughlin(2010 年)所斷言的,對軍事行動的看法正是通過媒體產生、維持或質疑的。然而,軍事和國防行動者不僅在沖突時期參與日益復雜的媒體戰略,而且還在多個媒體平臺上開展日常身份工作。作為軍事戰略情報的渠道,SNS 的新穎之處在于它便于與目標受眾直接溝通,繞過了主流媒體 (MSM) 的傳統過濾和驗證流程(Banham,2013 年)。此外,官方軍事 SNS 上傳播的內容可能會干預傳統的信息流,影響 MSM 的議程,因為記者會直接利用官方軍事社交媒體賬戶上的內容。關注這些賬戶的普通社交媒體用戶也可能會被鼓勵通過傳統的在線實踐和贊美、分享和評論等語言,將軍事戰略信息轉發到他們的網絡中。在復雜的媒體生態中運作的所有這些因素都可能為軍事和國防行為者提供一個反饋回路,以一種以前無法僅通過傳統 MSM 實現的方式擴大他們的傳播。這一點非常重要,因為公眾對軍隊及其行動的認識和看法對軍隊的行動能力和目標的實現至關重要。SNS 為軍事行為體提供了一個新的途徑,使其可以在以非正式、口語化交流形式為核心架構的平臺上與目標受眾接觸,其中可能包括國內公眾、政治精英、記者、國際社會及其自身人員。參與復雜的暴力和防衛現實的國家行為者所傳播的這種傳播的性質,既可能使他們更引人注目,同時也可能混淆該機構的性質及其目的。
關于軍隊與媒體的問題,我認為,目前有關軍事傳播實踐問題的學術研究并不完整,因為對軍隊和國防行動者如何將社交媒體納入其戰略傳播計劃的深入研究相對較少。填補這一空白非常重要,因為在 SNS 上傳播的內容會對現實世界產生影響。人們對恐怖主義招募、干預選舉公正性以及傳播有關氣候和健康危機的虛假信息的擔憂,都表明了 SNS 的多產性及其潛在影響和沖擊社會態度的能力。在軍事領域,2013 年 10 月 10 日,以色列國防軍(IDF)官方推特賬號 @IDFSpokesperson 發布了一條紀念贖罪日戰爭 40 周年的推文。其中有這樣一句話:"以色列空軍轟炸敘利亞機場,阻止蘇聯武器運抵敘利亞陸軍"。這條推文被一些人誤解為當前的攻勢,可能會導致整個中東地區的沖突,隨后導致每桶石油的價格上漲了一美元。這個例子說明了這些賬號的權威性,也說明了軍事行為者在 SNS 上傳播的信息是如何影響現實世界的。關于 SNS 對公眾對重要社會問題看法的影響,大多數關注點都集中在被認為邪惡的行為者對 SNS 的利用上,而較少關注官方或國家行為者如何利用這些 SNS 來影響目標受眾,以實現自己的戰略目標。然而,正如朱迪斯-巴特勒(Judith Butler,2010 年,第 ix 頁)所寫,"如果要反對戰爭,我們就必須了解民眾對戰爭的認同是如何培養和維持的"。本研究認為,關鍵是要了解軍方在 SNS 上的傳播動機和實踐,以了解他們是如何利用這一大眾文化渠道試圖影響人們對戰爭的看法和對戰爭的支持的。
本項目通過對軍事和國防機構將 SNS 納入其 StratCom 計劃的方式,以及 SNS 增強其傳播實踐的性質和基調的方式進行實證分析,為有關軍事媒體化和軍事媒體管理實踐的現有學術辯論做出貢獻。本研究通過對在多個軍事和國防機構工作的傳播從業人員進行半結構式訪談,以及對以色列國防軍使用流行 SNS Facebook 的情況進行分析,來闡明使用 SNS 的視覺效果和方言向在線網絡宣傳其敘事的方式。雖然 SNS 是研究的重點,但這是在混合媒體系統(Chadwick,2013 年)的背景下進行的,在混合媒體系統中,新舊媒體形式和邏輯在軍事傳播實踐中交織互動。在此過程中,本研究匯集并擴展了傳播學、安全研究和國際關系(IR)等學科中通常只存在于平行關系中的文獻,以提供對 SNS 作為軍事戰略情報工具的潛在能力的更全面的理解。
軍事行為體參與社交媒體的實踐和邏輯,以獲取這些平臺中蘊藏的網絡力量,并利用其聲譽管理和形象建設的潛力(Grewal,2008;Pauwels,2019)。然而,正如 Corner 和 Parry(2017 年)以及 Jensen(2014 年)所指出的,媒體與傳播研究并沒有對軍事傳播實踐,更具體地說,對軍事傳播如何整合 SNS 給予足夠的重視。該學科的研究主要集中在媒體如何描繪沖突或軍隊與媒體之間關系的性質(Carruthers, 1998; Der Derian, 2009; Stahl, 2010)。對于軍事行為者如何將 SNS 納入其戰略通信實踐的研究則少得多。與此相反,軍事和國防院校對如何最好地有效利用媒體,特別是新媒體技術為實現軍事目標提供的機會進行了廣泛研究(Caldwell 等人,2009 年;Deverell 等人,2015 年;Nissen,2015 年)。Crilley (2016,第 51-52 頁)認為,軍事機構對 SNS 的使用是一個重要的研究領域,因為軍事社交媒體網站打破了軍隊與媒體之間的隔閡,使軍隊能夠以自身的權利成為媒體行為者。軍事機構為使用 SNS 投入了大量資源,這些網站可以被大量受眾看到,他們可以以獨特的方式參與其中并與之互動(同上)。當代戰爭環境的性質和復雜的媒體生態將公眾輿論和看法置于沖突成功與否的最前沿。正如尼森(Nissen,2015 年,第 10 頁)所指出的,受眾的行為將受到 "對社交網絡(物理或虛擬)中通過爭論(邏輯和情感)和交流所創造的意義的主體間理解 "的影響。因此,全球信息環境是商討可信度和合法性問題的重要戰場。在這些條件下,軍事行為體構建可在多種媒體平臺上傳播的精心策劃的戰略敘事就顯得愈發重要。國際關系學、安全研究、戰爭研究、軍事社會學、文化人類學和批判性軍事研究等學科出現了大量關注軍事與媒體交叉的研究。下面將對軍事與媒體(尤其是軍隊對社交媒體的使用)領域的現狀進行跨學科概述,并論證本研究在這一背景下的意義。
本項目涉及更廣泛的軍事媒體管理策略和軍隊作為一個機構日益媒體化的話題。Maltby(2012 年)和 Shavit(2016 年)都對軍隊日益 "媒體化 "這一觀點做出了重要貢獻。媒體成為軍事活動的 "解釋網格",軍事活動利用媒體來吸引和獲得多方受眾的支持,并影響人們對沖突的看法(Shavit, 2016, p.1)。沙維特特別討論了數字媒體技術在具體沖突事件中對以色列國防軍傳播行動的影響。Maltby、Thornham 和 Bennett(2015 年)通過對互聯網上涉及國防問題的社交媒體網站進行大數據分析,探討了英國軍方如何占領、利用和協商社交媒體空間。
他們發現,在國防部門的特定領域,社交媒體空間的作用主要是公共關系。不過,他們強調了數據挖掘和大數據的局限性,并認為仍需采用定性分析方法,專注于數字環境中傳播的內容,而本研究論文正是采用了這種方法。他們承認,社交媒體日益成為戰略傳播的前沿,因為它為軍事行為者提供了參與和影響受眾的機會(同上,第 2 頁)。Jensen(2014)探討了英國軍方更廣泛的媒體管理結構和動態傳播過程,而Crilley(2016)則具體討論了英國國防部和英國武裝部隊各分支利用SNS建立公共合法性的情況。他恰如其分地指出,如果不考慮這些平臺固有的可視性,我們就無法理解軍事 SNS。Olsson 等人(2016 年)在更廣泛的歐盟背景下,通過針對各機構內權威人士的問卷調查,探討了成員國武裝部隊如何看待社交媒體帶來的機遇和風險。盡管在整個數據集中發現了趨同點和分歧點,但他們的研究結果表明,大多數受訪者都從促進營銷、雙向交流和透明度的角度來看待社交媒體。在美國,Lawson(2014 年)詳細介紹了美國軍方內部對個別軍事專業人員使用社交媒體的抵觸情緒,而 Christensen(2008 年)則分析了美國軍方使用 YouTube 傳播伊拉克戰爭信息的情況。有幾項研究考察了軍事機構在沖突偶發點使用 SNS 的情況(Kuntsman 和 Stein,2015 年;Merrin,2018 年;Seo,2014 年;Shavit,2015 年;Stein,2017 年),但很少有研究對通信技術對軍事機構的變革作用以及軍事機構將流行 SNS 納入其戰略通信實踐的方式進行長期分析,本研究試圖填補這一空白。
從機構層面到軍人個人,一些學者撰文介紹了士兵使用 SNS 和數字技術(如頭盔攝像機)從他們的視角提供沖突圖像的情況(Andén-Papadopoulos, 2009; Kennedy, 2009; Silvestri, 2014, 2015, 2016)。還有人研究了 SNS 獨特的方言所帶來的士兵或退伍軍人的個性化(Chouliaraki,2016 年;Hoskins & O'Loughlin,2015 年)。此外,還對軍人及其家屬使用 SNS 的情況進行了探討,闡明了媒體技術是如何與軍人的平凡經歷相交織的,并探討了此類媒體實踐是如何在個人和機構身份的表現中得以實施的(Corner 和 Parry,2017 年)。Kuntsman 和 Stein(2015 年)詳細闡述了通過社交媒體實踐將軍隊和平民模糊和交織在一起的現象,并將這種現象稱為 "數字軍國主義"。他們以以色列為例,描述了數字通信平臺和消費者行為成為軍事和民事框架中國家和非國家行為者的軍事化工具的過程(第 6 頁)。杰克遜等人(2017, 2020)通過關注全球軍火生產商、軍事視頻游戲產業、私營軍事和安保公司(PMSCs)以及外交部等更廣泛的行業,研究了在日常社交媒體使用中頌揚軍國主義的社交媒體內容。他們的研究符合德-德里安(Der Derian,2009 年)所說的軍事-工業-媒體-娛樂網絡(MIME NET)、軍事娛樂綜合體(Lenoir,2000 年)和軍事娛樂概念(Stahl,2010 年)中通過流行文化在社會中推廣軍國主義樂趣的方式的觀點。上述研究為本研究提供了信息,并對不同背景下軍隊、媒體和社會的性質提供了寶貴的見解,本研究試圖從以下幾個方面對文獻做出貢獻。
盡管現在軍事和國防機構對 SNS 的使用無處不在,但傳播學科對這一主題的研究仍然不足,尤其缺乏對軍事視角的研究。這可能是由于訪問問題,但也可能是由于這些機構給人封閉、神秘的固有印象。本研究通過與來自美國、加拿大、愛爾蘭、德國、荷蘭、以色列和北約等多個國家和地區的軍事通信從業人員(記錄在案)的接觸,以實證為基礎,闡述了人們對 SNS 作為軍事戰略情報工具的承受能力的看法,從而確定人們是如何看待 SNS 并將其融入更廣泛的通信和機構戰略的。本研究致力于填補現有文獻中的這一空白,因為它響應了多位學者的呼吁,將軍事實踐者及其意圖納入軍事與媒體交叉研究中(Corner and Parry, 2017; Gerodimos, 2019; Pauwels, 2019)。此外,本研究通過將權威訪談與以色列國防軍這一在利用 SNS 方面走在前列的現役軍事機構使用 SNS(Facebook)的實證分析相結合,有助于更全面地了解 SNS 作為軍事 StratCom 工具的使用情況。盡管圖像和視覺效果在政治傳播中發揮著核心作用,但大多數有關數字媒體在政治中作用的研究都將文本而非圖像作為最有力的研究對象。這反映了社交媒體研究的一個大趨勢,即單模方法(特別是側重于文本)優于多模方法(承認視覺內容的重要性)(Hansen, 2011; Highfield & Leaver, 2016)。Highfield和Leaver(2016)呼吁對社交媒體視覺研究進行協同投資,認真對待圖像的作用。此外,迄今為止,大多數涉及網絡視覺政治傳播實踐的研究都集中在抗議、政治運動和選舉等偶發事件上,通過強調參與度指標來突出社交媒體視覺效果和受眾感知。雖然參與度指標可以為內容的傳播效果提供重要見解,但本研究認為,以深入、嚴謹的方式研究這些視覺內容同樣具有價值(Gerodimos, 2019)。本研究在三個方面為數字政治傳播研究做出了貢獻。首先,認識到社交媒體的視覺內容作為政治戰略傳播的有力手段的重要性。其次,將視覺政治傳播研究擴展到政治實踐的另一個空間,即活躍在網絡上的軍事機構。第三,對三年內(2015-2018 年)上傳到以色列國防軍官方 Facebook 頁面的時間軸圖片中出現的主要敘事主題進行實證性多模式主題分析。這一時期是 "相對 "和平的時期,有助于說明軍事機構在流行的 SNS 上開展的日常 StratCom 工作。本研究通過說明一個現役軍事機構如何利用視覺效果在全球最受歡迎的 SNS Facebook 上向其目標受眾展示自己,為軍事和媒體研究做出了貢獻。此外,本研究還超越了 "宣傳 "的概念,認識到當代媒體環境的多樣性使得任何對傳播的全面控制和監管在很大程度上都無法實現。軍事行為體必須與其他多個行為體就這一環境進行談判,而成功實現傳播目標絕非必然。
本研究借鑒了媒介化、傳播能力和混合媒體系統等理論框架,并在此基礎上闡釋了既影響媒體又受媒體影響的軍事機構的性質、技術影響軍事傳播實踐的方式,并將他們對 SNS 的使用置于更廣泛的復雜媒體生態中。在此背景下應用媒介化概念,有助于更好地理解軍事行為者將媒體納入其機構實踐的方式。軍方的媒介化非常重要,因為公眾對軍方機構及其活動的看法會影響其成功與否以及分配給他們的資源。此外,SNS 及其潛在的可見性并不代表公平競爭。資源、素養和專業知識都很重要,軍事人員投入了大量資源,以便在網上眾多競爭聲音中占據優勢。溝通能力框架強調行動者的意圖、技術能力和行動潛力之間的相互作用,它的使用有助于理解 SNS 如何融入軍事戰略情報實踐,以及它們如何影響溝通的性質和模式。對混合媒體系統性質的認識(Chadwick,2013 年)有助于理解新媒體技術如何重塑軍事行為體的溝通方式,同時認識到他們對社交媒體的使用并非存在于真空之中,而是融入了新舊媒體戰略的復雜組合之中。
在結構良好、信息完備的環境中,決策制定是無法保證的。研究中的任務通常側重于在無限時間框架內利用完整信息做出決策,而在信息缺失或不確定的情況下,當前的研究并未涉及缺失信息在環境中的分布所產生的影響。本文旨在具體了解這些信息分布如何影響時間壓力下的決策者,以及如何在一系列決策策略中為不完美環境下的決策提供最佳支持。這項工作有三方面的貢獻。首先,研究結果表明,在六項以不同信息復雜性和決策策略偏差為特征的獨立人體研究中,所研究的三個信息分布因素(即總信息、完整屬性對和信息不平衡)對決策準確性具有顯著的預測作用。其次,本論文通過信息估計和決策前信息搜索的視角,強調了專家和新手行為的關鍵差異,這進一步解釋了不確定性下的個體差異,并為這些環境下的決策支持系統(DSS)提供了新穎的設計考慮。最后,在啟發式和分析式偏差環境中,信息修正和選項預測決策支持系統的應用表明,各成績組的準確性顯著提高,響應時間顯著縮短。
圖 3.2:參照兩個示例目標(危險程度高的導彈和危險程度低的運輸工具)的可視化決策任務。
要回答所有研究問題,就必須能夠在信息不完整的情況下,在人體實驗中將這些問題具體化。為此,下文將簡要介紹本論文中使用的兩種決策環境,并在后續章節中對其設計和實施進行詳細說明。
第一個環境要求參與者扮演一艘軍艦上的防空作戰協調員(AAWC),其領空內有目標。決定目標敵意的決策標準基于四個二元線索:高度、速度、與中立空中走廊的距離和大小。標準分數由每個選項的提示分數的線性加權組合計算得出,提示按提示加權的等級順序顯示。參與者只需從兩個目標中選擇一個最危險的目標,并與飛機交戰。每個決定都必須在 20-30 秒內做出,參與者可使用彩色計時器進行時間管理。
第二個環境是由 Unity 游戲引擎構建和托管的車道防御游戲。游戲的每一輪都有一組獨特的三個選項,它們從屏幕左側沿著三條車道中的一條向屏幕右側移動。參與者有 60 秒的時間來判斷這三個選項中哪個最危險。為了做出決定,參與者可以訪問詳細的情報菜單,該菜單顯示了描述每個敵人敵意程度的五個提示值(武器、體型、裝甲、盾牌、頭盔),這些提示值按提示權重排序顯示。在以前的 AAWC 環境中,參與者需要根據閾值臨界值對每個可用線索值做出敵意/非敵意判斷。在這個環境中,參與者的這一過程被簡化了,非敵意提示值用綠色向下箭頭表示,敵意提示值用紅色向上箭頭表示。新環境的特點包括幾乎雙倍的可能信息總量、信息訪問跟蹤以及更靈活的用戶界面設計,所有這些都有助于對所有三個研究問題進行更詳細的探討。
在信息缺失或不確定的環境中,信息的分布如何影響決策結果,文獻尚未對此有全面的認識。本論文在一系列決策環境的人類受試者研究中考察了信息結構的三種測量方法(TI、CAP、II),并證明信息不平衡最小化和完整屬性對最大化最有利于提高決策準確性(第 4、5、8 章)。研究發現,總信息量的增加總體上有助于提高準確性,但如果不包含 CAP 和 II,則不足以解釋準確性的提高。此外,生態合理決策策略(由環境結構定義)對這些結果也有影響(第 8 章)。經測試發現,補償生態學(WADD、高分散和低分散)對信息結構的變化更為敏感,而非補償生態學(TTB)則不太敏感,尤其是對信息不平衡的變化。
此外,本論文還研究了對缺失信息進行估計的作用,并首次對決策者的估計策略進行了直接征詢。這項在 AAWC 環境中完成的研究(第 5 章)表明,新手傾向于估計幾乎所有缺失信息,而任務專家則能夠忽略信息,主要根據第一個可用的(也是最重要的)線索來估計信息。這與 Lane Defense 研究(第 8、9、10 章)中的策略選擇數據相吻合,這些數據表明,無論環境結構如何,新手都傾向于補償性決策行為,這違反了非補償偏置環境中的生態合理性。
最后,決策支持在被拒止和退化的環境中所能發揮的作用在這里得到了更充分的證實。第 6 章測試了獲取和限制信息的概率方法和基于規則的方法,結果表明基于規則和基于概率的修改技術都能帶來更大的決策結果。第 9 章將支持系統的設計向前推進了一步,對比了基于圖形用戶界面的隊友與基于獲取的隊友,前者可以卸載信息估算,而后者則采用第 6 章中基于規則的方法為參與者收集缺失的信息。結果發現,這兩種方法都能顯著提高新手和專家的成績。
面對未來復雜多變的戰場,軍事行動越來越需要自主能力更強的機器人為士兵提供支持。要在軍事行動的整個過程中建立人類與機器人團隊合作的共同基礎,就必須進行有效的溝通。然而,人們對混合主動協作的溝通類型和形式仍不完全了解。本研究探討了人機交互中的兩種交流方式--透明度和通信模式,并研究了在協作演習中,機器人隊友操縱這些元素對人類隊友的影響。參與者與計算機模擬的機器人一起執行一項類似 “警戒搜索 ”的任務。人機界面提供了不同類型的透明度--關于機器人單獨的決策制定過程,或關于機器人的決策制定過程及其對人類隊友決策制定過程的預測--以及不同的通信模式--或者向參與者傳遞信息,或者既向參與者傳遞信息又從參與者那里獲取信息。實驗結果表明,與互動性較弱的機器人相比,既能傳遞信息又能征求信息的機器人更有活力、更討人喜歡、也更智能,但與這些機器人合作會導致在目標分類任務中出現更多失誤。此外,回應機器人的行為也會導致正確識別的數量減少,但只有當機器人只提供有關其自身決策過程的信息時才會出現這種情況。這項研究成果為設計支持人機協作的下一代視覺顯示器提供了參考。
多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。
本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。
對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。
我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。
由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。
任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。
然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。
我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。
近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。
然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。
貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:
圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。
持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。
基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。
基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。
基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。
由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。
結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。
拓撲深度學習最新概述文章,值得關注!
拓撲深度學習是一個迅速發展的領域,涉及為支持拓撲域(如單純復合物、胞復合物和超圖)的數據開發深度學習模型,這些拓撲域推廣了在科學計算中遇到的許多領域。在本文中,我們提出了一個統一的深度學習框架,該框架基于一種更豐富的數據結構,包括廣泛采用的拓撲域。具體來說,我們首先引入組合復合物,一種新型的拓撲域。組合復合物可以看作是保持某些期望性質的圖的泛化。與超圖類似,組合復合物對關系集合沒有約束。此外,組合復合物允許構建類似于單純復合物和胞復合物中的分層高階關系。因此,組合復合物泛化并結合了超圖和胞復合物的有用特性,這兩者已經成為促使圖神經網絡向拓撲空間推廣的有前景的抽象。其次,基于組合復合物及其豐富的組合和代數結構,我們開發了一般類的消息傳遞組合復合物神經網絡(CCNNs),主要關注基于注意力的CCNNs。我們描述了CCNNs的排列和方向等變性,并詳細討論了CCNNs中的匯集和反匯集操作。第三,我們評估了CCNNs在與網格形狀分析和圖學習相關的任務上的性能。我們的實驗表明,與專門針對相同任務的最先進的深度學習模型相比,CCNNs具有競爭性的性能。我們的研究結果證明了將高階關系納入不同應用的深度學習模型的優勢。
引言
近年來,用于計算分析的數據量呈指數級增長,包括科學數據以及文本、圖像和音頻等常見數據類型。這大量的數據使得包括物理學、化學、計算社會科學和生物學在內的各個領域得以利用機器學習技術(主要是深度神經網絡)取得重大進展。由于深度神經網絡可以有效地總結和提取大型數據集中的模式,因此它們適用于許多復雜任務。最初,深度神經網絡是為了學習基于規律(歐幾里得)領域的數據而發展起來的,例如圖像中的網格、文本序列和時間序列。這些模型,包括卷積神經網絡(CNNs)[156, 162, 243]、循環神經網絡(RNNs)[249, 13]和變換器(Transformers)[256],在處理這類歐幾里得數據方面已被證明具有很高的效果[117],在各種應用中取得了空前的性能,最近的例子包括聊天機器人(例如 ChatGPT [2])和文本控制的圖像合成[223]。
然而,各個領域的科學數據往往具有不同的結構,并不都是基于規律的歐幾里得域。因此,調整深度神經網絡來處理這類數據一直是個挑戰。在這一背景下,幾何深度學習(GDL)[50, 284, 268]作為深度學習模型在非歐幾里得領域的擴展應運而生。為了實現這一目標,GDL通過幾何規律原理(如對稱性、不變性和等變性)對執行的計算進行限制。GDL的視角使得在處理任意數據域時可以施加適當的歸納偏見,包括集合[215, 217, 81, 283, 138]、網格[45, 187, 46, 154, 242, 267, 196]、流形[45, 187, 46, 154, 242, 267, 196]和圖[232, 101, 284, 268, 46, 196, 49, 150]。特別是圖,由于其在眾多科學研究中的適用性以及它們能夠泛化傳統網格的能力,因而受到了人們的關注。因此,圖神經網絡(GNNs)[49, 150]的發展顯著提高了我們在自然出現圖的多種數據類型中進行建模和分析的能力。
盡管幾何深度學習(GDL)和圖神經網絡(GNNs)取得了成功,但僅從純幾何的角度看待圖形會產生純粹的局部抽象,并無法捕捉數據中的非局部特性和依賴關系。拓撲數據,包括邊(在圖中)、三角形(在網格中)或團的相互作用,在復雜物理系統[30, 161]、交通預測[144]、社會影響[285]、蛋白質相互作用[200]、分子設計[237]、視覺增強[95]、推薦系統[160]和流行病學[82]等眾多新穎應用中自然產生。為了本質上和有效地對這些數據建模,我們必須超越圖形,考慮在某些幾何變換下保持不變的定性空間屬性。換句話說,我們需要考慮數據的拓撲結構[58],以構建能夠從復雜數據中提取語義含義的神經網絡架構。從數據中提取更多全局信息的一種方法是超越基于圖的抽象,考慮圖的擴展,如單純復形、胞復形和超圖,這些概念可以推廣到科學計算中遇到的大多數數據領域[41, 29, 32, 253]。學習從這些拓撲領域支持的數據中學習的機器學習模型的發展[97, 53, 222, 234, 42, 121, 123, 91, 235, 221, 112, 272]是一個迅速增長的新領域,我們將其稱為拓撲深度學習(TDL)。TDL融合了幾個研究領域,包括拓撲數據分析(TDA)[93, 58, 86, 178, 108]、拓撲信號處理[233, 273, 236, 222, 21, 219, 229]、網絡科學[245, 161, 20, 29, 41, 39, 33, 80, 19, 203]和幾何深度學習[278, 56, 99, 177, 27, 197, 26]。
盡管對拓撲深度學習(TDL)的興趣日益增長,但迄今為止尚未建立這些思想的基本原則的更廣泛綜合。我們認為,這種不足阻礙了TDL的進展,因為這使得在不同概念之間建立聯系變得具有挑戰性,阻礙了比較,并使其他領域的研究者難以找到進入TDL的切入點。因此,在本文中,我們旨在提供一個關于TDL原則的基本概述,不僅作為近年來文獻中涌現出的許多令人興奮的想法的統一框架,還作為一個概念性的起點,以促進新想法的探索。最終,我們希望這項工作將有助于TDL的加速發展,我們相信這將成為將深度學習成功轉移到更廣泛應用場景的關鍵推動力。受到代數拓撲[108, 133]中傳統拓撲概念以及高階網絡方面的最新進展[29, 253, 41, 30]的啟發,我們首先引入組合復形(CCs)作為我們TDL框架的主要構建模塊。組合復形構成了一個新穎的拓撲領域,將圖形、單純復形、胞復形和超圖作為特殊情況加以統一,如圖11所示。與超圖類似,CCs(連接復合體)可以在抽象實體集合之間編碼任意集合式關系。此外,CCs允許構建類似于在單純形和胞腔復合體中發現的分層高階關系。因此,CCs將超圖和胞腔復合體的最期待的 特性進行了概括和整合。
此外,我們引入了構建深度神經網絡所需的運算符,以便基于組合復合體學習輸入特征和抽象概括。這些運算符提供了卷積、注意力機制、信息傳遞方案以及實現不變性、等變性或其他幾何規律的方法。具體而言,我們的新穎的前推操作允許在不同維度之間傳遞數據,從而構成了在CCs(連接復合體)上定義高階信息傳遞協議和(非)池化操作的基本構建模塊。由此產生的學習機器,我們稱之為組合復合體神經網絡(CCNNs),如我們的實驗評估中所清楚地展示的那樣,它們能夠學習抽象的高階數據結構。 我們設想我們的貢獻將成為一個平臺,鼓勵研究人員和實踐者擴展我們的CCNNs,并邀請社區在我們的工作基礎上擴展高階領域的TDL(拓撲數據學習)。我們的貢獻如圖1所示,包括以下幾點:
首先,我們將CCs(連接復合體)引入作為TDL(拓撲數據學習)領域。我們描述了CCs及其屬性,并解釋了它們如何概括主要現有領域,例如圖、超圖、單純形和胞腔復合體。因此,CCs可以作為一個統一的起點,實現拓撲數據的表達式表示的學習。
其次,使用CCs作為領域,我們構建了CCNNs,這是一種基于超圖和胞腔復合體的TDL模型的抽象高階信息傳遞神經網絡類,為這些模型提供了統一的藍圖。
*基于在CCs上定義的前推操作符,我們為CCNNs引入了卷積、注意力、池化和反池化操作符。
第三,我們在實際場景中評估我們的想法。
盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640
在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。
盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。
此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。
我們的貢獻總結如下:
有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。