來自香港科技大學(廣州)等學者發表的《深度多模態學習的身體語言識別與生成》綜述,首次全面了解了深度多模態學習在各種BL生成和識別方面的應用
身體語言(BL)指的是通過身體動作、手勢、面部表情和姿勢表達的非語言溝通方式。它是一種在不使用口頭或書面語言的情況下傳達信息、情感、態度和意圖的形式。在人際交往中起著至關重要的作用,可以作為口頭溝通的補充甚至是替代。深度多模態學習技術在理解和分析BL的這些多樣方面方面顯示出了潛力,這些方面通常涵蓋多種模態。
該綜述探討了深度多模態學習的最新進展,強調了它們在BL生成和識別方面的應用。其中考慮了幾種常見的BL,例如手語(SL)、提示語(CS)、共同語言(CoS)和說話頭像(TH),我們首次對這四種BL進行了分析并建立了它們之間的聯系。它們的生成和識別通常涉及多模態方法,例如多模態特征表示、多模態融合和多模態聯合學習。為BL研究收集和整理了基準數據集,并評估了這些數據集上最先進的方法。本綜述強調了挑戰,如有限的標記數據、多模態學習以及需要領域適應來將模型推廣到未見過的說話者或語言。
本文提出了未來的研究方向,包括探索自監督學習技術、整合來自其他模態的上下文信息以及利用大規模預訓練的多模態模型。強調了面向實際應用和用戶中心評估,以推動實際應用。總之,這篇綜述論文首次全面了解了深度多模態學習在各種BL生成和識別方面的應用。通過分析進展、挑戰和未來方向,它為推動該領域的研究人員和實踐者提供了寶貴的資源。此外,我們維護了一個持續更新的深度多模態學習BL識別和生成論文列表://github.com/wentaoL86/awesome-body-language。
身體語言(BL)作為非語言溝通的重要組成部分,在促進有效溝通和增強社交互動方面具有重要意義。分析和理解BL具有各種應用,從BL識別和生成到數字人類互動和輔助技術。理解BL通常需要融合多種模態。深度多模態學習將視覺、音頻和文本模態相結合,已成為提高智能BL多模態轉換系統的準確性和穩健性的一種有前途的方法。在這項綜述中,我們主要關注四種典型的BL,并以它們為例來回顧和分析多模態BL識別和生成。
圖1展示了這四種類型的簡單圖示,即提示語(CS)[1]、手語(SL)[2]、共同語言(CoS)[3]和說話頭像(TH)[4]。在這個領域,已經有許多先前的工作取得了重要進展。然而,盡管在深度多模態學習用于BL生成和識別方面取得了進展,仍然存在一些挑戰和開放性研究問題,比如不同類型數據模態的多模態學習、標記數據集的稀缺性、表示細粒度線索、建模時間動態以及有限的計算資源。這些挑戰需要在多模態BL識別和生成中得到解決,以進一步推進該領域的發展。
本綜述的組織結構如下:在第2節中,我們首先介紹了四種典型的BL變體,并建立了這四種類型之間的聯系。接著,在第3節中,我們組織并呈現了用于BL識別和生成的各種類型的數據集,同時介紹了評估指標。在第4節和第5節中,我們分別對CS、SL、CoS和TH的BL識別和生成進行了詳細的回顧。此外,在第6節中,我們詳細分析了這些類型BL面臨的挑戰。最后,我們通過提出需要研究的多個研究方向來討論和總結本綜述。本綜述的架構在圖2中進行了可視化展示。現有BL研究的結構化分類以及一些代表性的研究作品在圖3中展示。
自動身體語言識別
在這里,我們將介紹四種BL變體的識別,特別關注多模態學習的應用擴展和創新。在圖8中,我們總結了一些代表性的BL識別研究工作。
自動身體語言生成
姿勢生成任務旨在使用多模態輸入(例如,手語、語音和文本)生成連續的姿勢序列(例如,面部、頭部和手勢)。在本節中,我們介紹與姿勢語言生成相關的研究,并回顧姿勢語言生成應用的發展時間線,例如CS、SL、CoS姿勢生成以及TH生成。
**結論 **
本綜述深入探討了用于自動BL識別和生成的深度多模態學習領域,揭示了其潛力和挑戰。本綜述主要關注四種經典的BL變體,即手語、提示語、共同語言和說話頭像。通過對各種模態(包括視覺、聽覺和文本數據)及其整合的細致考察,我們探索了捕捉和解釋這四種BL的復雜性。通過調研基準方法,如特征融合、表示學習、識別和生成方法,我們揭示了當前方法的優勢和局限性。強調了數據集和基準在促進研究進展方面的重要性,重點關注了注釋方法和評估指標。
盡管取得了進展,但挑戰仍然存在,需要創建多樣化的數據集,解決有限標記數據問題,提高模型的可解釋性,并確保模型在不同環境和文化背景下的魯棒性。展望未來,更復雜的架構和訓練策略有望利用多模態數據的互補性,借助多模態學習、大規模預訓練模型、自監督學習和強化學習等進展。隨著這一研究領域的發展,它有望徹底改變人際和人機交互,促進不同領域之間的自然有效的交流。
人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。
最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。
新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。
本文的貢獻可以總結如下:
? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。
2. 預處理階段
在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。
圖的簡化 (Graph Reduction)
隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。
圖的增強 (Graph Augmentation)
在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)
通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)
眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)
標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)
在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)
推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)
在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。
深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。
如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。
因果機器學習如何用于醫療中?愛丁堡大學最新《因果機器學習醫療應用》綜述,探討因果推理如何利用機器學習的最新進展,納入臨床決策支持系統的不同方面
因果機器學習(CML)在醫療保健領域越來越受歡迎。除了將領域知識添加到學習系統的固有能力之外,CML還提供了一個完整的工具集,用于研究系統對干預的反應(例如,給定治療的結果)。量化干預的效果使我們能夠在混雜因素存在的情況下做出可行的決策,同時保持魯棒性。在此,我們將探討因果推理如何利用機器學習的最新進展,納入臨床決策支持系統的不同方面。在本文中,我們使用阿爾茨海默病創建的例子來說明如何CML可以在臨床場景中是有利的。此外,我們討論了醫療保健應用中存在的重要挑戰,如處理高維和非結構化數據,推廣到非分布樣本和時間關系,盡管研究社區的巨大努力仍有待解決。最后,我們回顧了因果表征學習、因果發現和因果推理的研究路線,這些研究為解決上述挑戰提供了潛力。
隨著強大的機器學習(ML)方法(如深度學習[1])的出現,醫療健康預測系統取得了相當大的進展。在醫療保健領域,臨床決策支持(CDS)工具可以對諸如醫學圖像、臨床免費文本注釋、血液測試和遺傳數據等電子健康記錄(EHR)數據進行檢測、分類和/或分割等任務進行預測。這些系統通常使用監督學習技術進行訓練。然而,大多數由ML技術支持的CDS系統只學習數據中變量之間的關聯,而不區分因果關系和(虛假)相關性。
圖1 醫療健康中的CML有助于理解偏見和對干預效果的形式化推理。我們通過一個假設的例子說明,可以從低級數據(例如,I1可能對應于從醫學圖像中獲得的腦容量)中提取高級特征(因果表征),并將其提取成一個對應于數據生成過程的圖表。CML可以用來發現變量之間哪些關系是虛假的,哪些是因果關系,分別用虛線和實線來說明。最后,CML提供了對干預效果進行推理的工具(使用do()操作符)。例如,對D1的干預只會影響圖中的下游變量,而其他關系要么不相關(由于圖的破壞),要么保持不變。
以精準醫療(也被稱為個性化醫療)為目標的CDS系統需要回答關于個人對干預會如何反應的復雜問題。例如,針對阿爾茨海默病(AD)的精確CDS系統應該能夠量化使用給定藥物治療患者對最終結果的影響,例如預測隨后的認知測試得分。即使有合適的數據和完美的性能,目前的ML系統也只能根據之前數據的相關性來預測最佳的治療,這可能不能代表可操作的信息。當信息能夠根據給定患者的不同情況(如治療結果與未治療結果)之間的比較做出治療(介入)決定時,信息被定義為可操作的。這種系統需要因果推理(CI)來進行可操作的個體化治療效果預測。
在醫療健康中,一個主要的上游挑戰是如何獲得必要的信息來對治療和結果進行因果推理。現代醫療健康數據是多模態、高維且通常是非結構化的。在進行預測時,必須考慮到來自醫學圖像、基因組學、臨床評估和人口統計的信息。多模態方法可以更好地模擬人類專家如何利用信息進行預測。此外,許多疾病是隨著時間的推移而發展的,因此必須考慮到時間(時間維度)。最后,任何系統都必須確保這些預測能夠在不同的部署環境(如不同的醫院、城市或國家)中推廣。有趣的是,CI和ML之間的聯系可以幫助緩解這些挑戰。ML允許因果模型通過學習變量之間復雜的非線性關系來處理高維和非結構化數據。CI利用專家知識對系統進行了額外的理解,提高了多模態數據的信息融合,提高了當前ML系統的泛化和可解釋性。
因果機器學習(CML)文獻提供了幾個方向來解決上述挑戰時使用觀察數據。在此,我們將CML分為三個方向: (i) 學習給定高維數據的因果表示,學習提取低維信息(因果)變量及其因果關系;因果發現——給定一組變量,學習它們之間的因果關系; (iii) 因果推理——給定一組變量及其因果關系,分析系統將如何對干預作出反應。我們在圖1中說明了如何將這些CML方向集成到醫療健康中。在這篇文章中,我們討論了CML如何可以改善個性化決策,以及幫助減輕緊迫的挑戰在CDS系統。我們回顧了CML的代表性方法,解釋了如何在醫療健康上下文中使用它們。特別地,我們 (i) 提出因果關系和因果模型的概念;(二)說明它們如何在醫療健康環境中發揮作用; (iii) 討論緊迫的挑戰,如處理高維和非結構化數據、分布泛化和時間信息; (iv) 綜述CML的潛在研究方向。 什么是因果性?
我們對因果關系有一個寬泛的定義:如果A是原因,B是結果,那么B的值依賴于A。由于因果關系是有方向性的,反之則不成立; A的值不依賴于B。因此,因果關系的概念使分析系統將如何應對干預成為可能。諸如“如果病人接受X治療,這種疾病會如何發展?”’或者‘如果接受了Y的治療,這個病人還會經歷結果Z嗎?需要從因果關系出發來理解干預會如何影響特定的個體。在臨床環境中,因果推理可以用于決定哪種治療將導致最好的結果。例如,在AD場景中,因果關系可以回答這樣的問題:“哪種藥物A或哪種藥物B能在5年內最大程度地減少患者預期的認知衰退?”理想情況下,我們將使用觀察(歷史)數據來比較替代治療的結果。然而,“CI”[3]的“根本問題”是,對于每個單位(即患者),我們要么觀察治療A的結果,要么觀察治療B的結果,但不能同時觀察兩者。這是因為在做出治療的選擇后,我們無法逆轉時間來撤消治療。這些考慮個人假設情況的查詢被稱為潛在結果。因此,我們只能觀察到一個行動的一種潛在后果;未觀察到的量變成了反事實。由Pearl [4], Imbens和Rubin[5]開創的因果關系的數學形式主義允許回答這些更具挑戰性的問題。大多數ML方法(目前)無法識別因果關系,因為不做假設就根本無法實現CI[4,6]。這些假設中的幾個可以通過研究設計或外部語境知識得到滿足,但沒有一個可以僅僅從觀察數據中發現。接下來,我們向讀者介紹兩種定義和推理因果關系的方法:用結構性因果模型(SCMs)和用潛在結果。
為什么我們要考慮醫療健康中的因果框架?
在過去的幾十年里,CI在社會科學、計量經濟學、流行病學和病因學等領域做出了一些貢獻[4,5],最近它已經擴展到其他醫療健康領域,如醫學影像學[14-16]和藥理學[2]。在本節中,我們將詳細闡述因果關系如何用于改善醫療決策。例如,盡管來自EHRs的數據通常是觀察性的,但它們已經成功地用于若干ML應用,如建模疾病進展[18],預測疾病惡化[19]和發現危險因素[20],以及預測治療反應[21]。此外,我們現在有證據表明,算法在成像任務中實現了超人的性能,如分割[22],檢測病理和分類[23]。然而,精確醫學試圖實現的目標并不是以近乎完美的精度預測特定患者的疾病。相反,我們的目標是建立ML方法,從觀察性患者數據中提取可操作的信息,以便做出介入(治療)決定。這就需要CI,它超越了下面詳細介紹的用于預測的標準監督學習方法。為了在患者層面做出可執行的決定,我們需要評估治療效果。治療效果是兩種潛在結果的差異: 事實結果和反事實結果。為了進行可操作的預測,我們需要算法來學習如何對可能采取不同行動的假設場景進行推理,從而創建一個可以導航的決策邊界,以改善患者的結果。最近有證據表明,人類使用反事實推理來做出因果判斷[25],這為這種推理假設提供了支持。這就是為什么推斷治療效果的問題與潛在結果框架定義的標準監督學習[2]有本質區別[5,10]。根據定義,當使用觀測數據集時,我們從未觀察到與事實相反的結果。因此,針對個體的最佳治療(精準醫療[26]的主要目標)只能通過能夠進行因果推理的模型來確定,詳見§3.3。
復雜數據的因果機器學習
在§3中,我們關注在因果模型已知(至少部分已知)且變量劃分良好的情況下的因果推理。我們向讀者推薦Bica等人[2]對這些方法進行全面的綜述。然而,大多數醫療問題在因果推理的上游都有挑戰。在本節中,我們強調處理高維和多模態數據以及時間信息的需要,并討論從非結構化數據學習時在非分布設置中的泛化。
因果機器學習研究方向
本文的最后一部分討論了CML在醫療健康中的應用,包括復雜的多模態、時間和非結構化數據,并討論了一些未來的研究方向。我們根據§1中定義的三個類別來討論CML:(i)因果表征學習; (ii) 因果關系的發現; (iii) 因果推理。
因果表示學習
表示學習[82]指的是ML的組合視圖。我們考慮的不是輸入域和輸出域之間的映射,而是一種捕捉世界概念的中間表示。當考慮使用真實的醫療數據進行學習和推理時,這個概念是必不可少的。§4.3中考慮的高維和非結構化數據,沒有被組織成可以直接用于當前因果模型的單位。在大多數情況下,感興趣的變量不是,例如,圖像本身,而是它的生成因素之一,例如AD例子中的灰質體積。因果表征學習[9]將學習世界因素的概念擴展到用因果模型建模變量之間的關系。換句話說,目標是將表示域Z建模為§2.1中的SCM。因果表征學習建立在解糾纏表征學習文獻[83-85]的基礎上,旨在強化更強的歸納偏差,而非解糾纏表征通常追求的因素獨立假設。這個想法是為了強化遵循因果模型的潛在變量的層次結構,而因果模型又應該遵循真實的數據生成過程。
因果關系的發現
進行隨機對照試驗非常昂貴,有時不道德,甚至是不可能的。例如,為了了解吸煙對肺癌的影響,有必要強制隨機的個人吸煙或不吸煙。大多數真實的數據是觀察性的,發現變量之間的因果關系更具挑戰性。考慮到因果變量已知的設置,因果發現是學習變量之間因果關系方向的任務。在某些設置中,我們有許多輸入變量,目標是構建最好地描述數據生成過程的圖結構。在過去的三十年中,圍繞從觀測數據中發現因果結構的廣泛背景得到了發展,正如最近的主題綜述所描述的[6,86 - 88]。大多數方法依賴于條件獨立檢驗、對可能的DAGs和/或關于數據生成過程的函數類和噪聲分布的假設的組合探索(例如,假設真實的因果關系是線性的,帶有附加噪聲,或外源噪聲具有高斯分布)來尋找給定因果變量的因果關系。在醫療健康領域,Huang等人[89]和Sanchez-Romero等人[90]使用因果發現方法,利用功能性MRI數據了解大腦中不同的生理過程是如何相互造成因果影響的。因果發現仍然是一個開放的研究領域,從觀察數據發現因果效應[6,91]的一些主要挑戰是無法(i)識別所有潛在的偏差來源(未觀察到的混雜因素);(ii)為所有變量選擇適當的函數形式(模型錯誤說明);(iii)建立時間因果關系模型。
因果推理
據推測,人類通過直覺理論[35]內在地構建了生成因果模型來想象近似的物理機制。同樣,利用圍繞干預的因果模型的力量開發模型也將是有用的。因果模型可以被正式地操縱以衡量干預的效果。使用因果模型來量化干預的效果并思考最佳決策被稱為因果推理。正如前面§3.3中所討論的,因果推理在醫療健康中的一個關鍵好處是圍繞個性化決策。在SCMS(§2.1)中,個性化決策通常指的是回答關于歷史情況的反事實問題的能力,例如“如果患者接受了替代治療X會發生什么?”反事實可以通過(i)三步程序53進行估計,該程序最近通過深度學習[15,92]得到增強,使用生成模型,如歸一化流[93]、變分自編碼器[94]和擴散概率模型[95],或(ii)孿生網絡[96],該網絡增強了原始SCM,從而同時表示事實和反事實變量。深度孿生網絡[97]利用神經網絡進一步提高因果機制的靈活性。我們注意到,量化干預效果通常假設因果模型要么是明確給出的[15,98],要么是通過因果發現獲得的[99]。Aglietti等人[98]利用他汀類藥物對前列腺特異性抗原水平的因果效應模型來評估他們的方法[100],而Pawlowski等人[15]和Wang等人[101]則對大腦MRI圖像的數據生成過程建模。Reinhold等[102]在Pawlowski等人[15]的基礎上增加了多發性硬化病變的病理信息。在潛在結果框架(§2.2)中,已經提出了許多方法來根據觀察數據估計個性化(也稱為個體化或條件平均)治療效果。這些技術包括貝葉斯加性回歸樹[103]、雙ML[104,105]、帶積分概率度量[106]或正交約束[107]的神經網絡正則化、高斯過程[108]、生成式對抗網絡[109]或基于能量的模型[110]。另一種估計CATE的趨勢是基于元學習者[111,112]。在元學習設置中,傳統的(監督)ML被用來預測潛在結果和傾向的條件期望。然后,通過取估計的潛在結果之間的差值[112]或使用帶有回歸調整、傾向加權或雙魯棒學習的兩步程序[111]來計算CATE。
基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.
近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.
首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列
,預測隨后一段幀視頻序列
.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.
此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列
,以及機器人未來可能選取的動作序列
,以視頻幀
的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。
本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.
繼AlphaGO系列的巨大成功之后,2019年是一個蓬勃發展的一年,見證了多智能體強化學習(MARL)技術的重大進展。MARL對應于多智能體系統中多個智能體同時學習的學習問題。這是一個具有悠久歷史的跨學科領域,包括博弈論、機器學習、隨機控制、心理學和優化。盡管MARL在解決現實世界的游戲方面取得了相當大的經驗上的成功,但文獻中缺乏一個完整的概述來闡述現代MARL方法的博弈理論基礎,并總結最近的進展。事實上,現有的大多數綜述都是過時的,沒有完全涵蓋2010年以來的最新發展。在這項工作中,我們提供了一個關于MARL的專著,包括基本原理和研究前沿的最新發展。本綜述分為兩部分。從§1到§4,我們介紹了MARL的完備的基礎知識,包括問題公式、基本解決方案和現有的挑戰。具體地說,我們通過兩個具有代表性的框架,即隨機博弈和廣義博弈,以及可以處理的不同博弈變體,來呈現MARL公式。這一部分的目的是使讀者,即使是那些相關背景很少的人,掌握MARL研究的關鍵思想。從§5到§9,我們概述了MARL算法的最新發展。從MARL方法的新分類開始,我們對以前的研究論文進行了調研。在后面的章節中,我們將重點介紹MARL研究中的幾個現代主題,包括Q函數分解、多智能體軟學習、網絡化多智能體MDP、隨機潛在博弈、零和連續博弈、在線MDP、回合制隨機博弈、策略空間響應oracle、一般和博弈中的近似方法、以及具有無限個體的游戲中的平均場類型學習。在每個主題中,我們都選擇了最基礎和最先進的算法。我們調研的目的是從博弈理論的角度對當前最先進的MARL技術提供一個完備的評估。我們希望這項工作能夠為即將進入這個快速發展的領域的新研究人員和現有的領域專家提供一個跳板,他們希望獲得一個全景視圖,并根據最近的進展確定新的方向。
//openreview.net/forum?id=ORgCYmo0os
機器學習可以看作是將數據轉換為知識的過程(Shalev-Shwartz & Ben-David, 2014)。學習算法的輸入是訓練數據(例如,含有貓的圖像),輸出是一些知識(例如,關于如何在圖像中檢測貓的規則)。這些知識通常表示為能夠執行某些任務的計算機(例如,自動貓探測器)。在過去的十年中,一種特殊的機器學習技術——深度學習(LeCun et al., 2015)取得了長足的進步。深度學習的一個重要體現的是不同種類的深層神經網絡(DNNs)(Schmidhuber, 2015),可以找到分離表示(Bengio, 2009)在高維數據, 這使得軟件訓練本身執行新任務而不是僅僅依賴于程序員手工設計規則。通過使用DNNs,計算機視覺(Krizhevsky et al., 2012)和自然語言處理(Brown et al., 2020; Devlin et al., 2018)是取得了顯著的進展。
現代人工智能應用正在從純粹的特征識別(例如,在圖像中檢測一只貓)轉變為決策(安全通過交通十字路口),其中不可避免地會發生多個智能體之間的交互。因此,每個智能體都必須采取戰略性的行為。此外,這個問題變得更具挑戰性,因為當前的決定會影響未來的結果。
除了從現有數據進行特征識別,現代人工智能應用通常需要計算機程序根據所獲得的知識做出決策(見圖1)。為了說明決策的關鍵組成部分,讓我們考慮現實世界中控制汽車安全通過十字路口的例子。在每一個時間步,機器人汽車都可以通過轉向、加速和制動來移動。目標是安全駛出十字路口并到達目的地(可以選擇直走或左轉/右轉入另一條車道)。因此,除了能夠檢測對象,如交通信號燈、車道標記,和其他汽車(通過將數據轉化為知識),我們的目標是找到一個能控制汽車的方向盤政策做出一系列演習達到目標(決策基于獲得的知識)。在這樣的決策環境中,還會出現兩個額外的挑戰:
首先,在決策過程中,在每一個時間步,機器人小車不僅要考慮當前行動的即時價值,還要考慮當前行動在未來的后果。例如,在開車通過一個十字路口的情況下,如果策略選擇在過程的開始轉向一個“安全”的方向,這將是有害的,如果它最終會導致隨后的車禍。
其次,為了正確安全地做出每一個決定,汽車還必須考慮到其他汽車的行為,并采取相應的行動。例如,人類駕駛員通常會提前預測其他車輛的移動,然后采取戰略性的應對措施(比如給迎面駛來的車輛讓路,或者加速駛入另一條車道)。
對適應性決策框架的需求,以及處理多個交互學習者的復雜性,導致了多智能體學習的發展。Multi-agent RL解決的是在一個共享的隨機環境中運行多個智能agent的順序決策問題,每個智能agent的目標是通過與環境和其他agent的交互來最大化其長期回報。多智能體強化學習是在多智能體系統和資源學習的基礎上建立起來的。在下一節中,我們將簡要概述(單agent) RL及其近幾十年的研究進展。
**RL是機器學習的一個子領域,其中代理學習如何在與環境的交互過程中基于試錯過程的最佳行為。與以帶標簽的數據作為輸入的監督學習(例如帶有貓標簽的圖像)不同,RL是面向目標的:它構建了一個學習模型,學習通過試錯改進來實現最優的長期目標,學習者沒有帶標簽的數據來獲取知識。“強化”一詞指的是學習機制,因為導致滿意結果的行動在學習者的行為集合中得到了強化。
歷史上,RL機制最初是在研究貓在謎盒中的行為的基礎上發展起來的(Thorndike, 1898)。Minsky(1954)在他的博士論文中首次提出了RL的計算模型,并將他得到的模擬機器命名為隨機神經模擬強化計算器。幾年后,他首先提出了動態規劃(Bellman, 1952)和RL (Minsky, 1961)之間的聯系。在1972年,Klopf(1972)將試錯學習過程與心理學中發現的時間差異(TD)學習結合起來。在為更大的系統擴展RL時,TD學習很快成為不可或缺的。Watkins & Dayan(1992)在動態規劃和TD學習的基礎上,使用馬爾可夫決策過程(MDP)為今天的RL奠定了基礎,并提出了著名的Q-learning方法作為求解器。作為一種動態規劃方法,原來的Q-learning過程繼承了Bellman (Bellman, 1952)的“維數災難”(curse of dimensional維數災難),當狀態變量數量較大時,極大地限制了它的應用。為了克服這一瓶頸,Bertsekas & Tsitsiklis(1996)提出了基于神經網絡的近似動態規劃方法。最近,來自DeepMind的Mnih等人(2015)通過引入深度q -學習(DQN)架構取得了重大突破,該架構利用了DNN對近似動態規劃方法的表示能力。DQN已經在49款Atari游戲中展示了人類水平的表現。從那時起,深度RL技術在機器學習/人工智能中變得普遍,并引起了研究社區的大量關注。
RL源于對動物行為的理解,動物使用試錯法來強化有益的行為,然后更頻繁地執行這些行為。在其發展過程中,計算RL整合了諸如最佳控制理論和其他心理學發現等思想,這些思想有助于模仿人類做出決策的方式,從而使決策任務的長期收益最大化。因此,RL方法自然可以用來訓練計算機程序(代理),使其在某些任務上達到與人類相當的性能水平。RL方法對人類玩家的最早成功可以追溯到西洋雙陸棋(Tesauro, 1995)。最近,應用RL解決順序決策問題的進展標志著AlphaGo系列的顯著成功(Silver et al., 2016;2017;2018年),一名自學的RL智能體,擊敗了圍棋游戲的頂級專業玩家,這款游戲的搜索空間(10761種可能的游戲)甚至比宇宙中的原子數量還要多。
AlphaGo系列的成功標志著單agent決策過程的成熟。2019年是MARL技術蓬勃發展的一年;在解決極具挑戰性的多人實戰策略電子游戲和多人不完全信息撲克游戲方面取得了顯著進展。
事實上,大多數成功的RL應用,如游戲GO2、機器人控制(Kober et al., 2013)和自動駕駛(Shalev-Shwartz et al., 2016),自然涉及多個人工智能智能體的參與,這探索了MARL領域。正如我們所預期的,單agent RL方法取得的重大進展——以2016年GO的成功為標志——預示著未來幾年多agent RL技術的突破。
2019年是MARL發展的繁榮之年,在過去人們認為不可能通過人工智能解決的極具挑戰性的多智能體任務上取得了一系列突破。盡管如此,MARL領域取得的進展,盡管令人矚目,但在某種程度上已經被AlphaGo之前的成功所掩蓋(Chalmers, 2020)。AlphaGo系列有可能(Silver et al., 2016;2017;2018年)已經在很大程度上滿足了人們對RL方法有效性的期望,因此對該領域的進一步發展缺乏興趣。MARL的進展在學術界引起的反響相對溫和。在本節中,我們將重點介紹幾項工作,我們認為這些工作非常重要,并且可能深刻影響MARL技術的未來發展。
單代理MDP(左)和多代理MDP(右)示意圖
MARL的一個熱門測試平臺是星際爭霸2 (Vinyals等人,2017年),這是一款擁有自己職業聯賽的多人即時策略電腦游戲。在這個博弈中,每個參與人關于博弈狀態的信息都是有限的,而且搜索空間的維度比圍棋大了幾個數量級(每一步有1026種可能的選擇)。《星際爭霸2》中有效的RL方法的設計曾一度被認為是人工智能的一個長期挑戰(Vinyals等人,2017)。然而,AlphaStar在2019年實現了突破(Vinyals et al., 2019b),它已經展示了特級大師水平的技能,排名超過人類玩家的99.8%。
MARL的另一個著名的基于視頻游戲的測試平臺是Dota2,這是一個由兩支隊伍玩的零和游戲,每支隊伍由5名玩家組成。從每個agent的角度來看,除了不完全信息的難度(類似于星際爭霸2),Dota2更具挑戰性,在這個意義上,團隊成員之間的合作和與對手的競爭都必須考慮。OpenAI Five人工智能系統(Pachocki et al., 2018)在一場公開的電子競技比賽中擊敗了世界冠軍,在Dota2中展現了超人的表現。除了星際爭霸2和Dota2, Jaderberg等人(2019)和Baker等人(2019a)分別在抓旗和捉迷藏游戲中表現出了人類水平的表現。雖然游戲本身不如星際爭霸2或Dota2復雜,但對于人工智能agent來說,掌握戰術仍然不是一件容易的事情,所以agent令人印象深刻的表現再次證明了MARL的有效性。有趣的是,兩位作者都報告了由他們提出的MARL方法引發的緊急行為,人類可以理解,并以物理理論為基礎。
MARL最后一個值得一提的成就是它在撲克游戲《Texas hold ' em》中的應用,這是一種多玩家廣泛形式的游戲,玩家可以獲得不完整的信息。Heads-up(即兩個玩家)無限持有的游戲中有超過6 × 10161種信息狀態。直到最近,游戲中才出現了突破性的成就,這多虧了MARL。兩個獨立的程序,DeepStack (Morav?ík等人,2017)和Libratus (Brown & Sandholm, 2018),能夠擊敗專業的人類玩家。最近,Libratus被升級為Pluribus (Brown & Sandholm, 2019年),并表現出非凡的表現,在無限制設置中贏得了5名精英人類專業人士的100多萬美元。為了更深入地理解RL和MARL,需要對概念進行數學表示法和解構。在下一節中,我們將提供這些概念的數學公式,從單代理RL開始,逐步發展到多代理RL方法。
**單agent RL通過試錯,RL agent試圖找到最優策略,使其長期回報最大化。該過程由馬爾可夫決策過程制定。
多智能體RL在多智能體場景中,很像在單智能體場景中,每個智能體仍然試圖通過試錯過程來解決順序決策問題。不同之處在于,環境狀態的演化以及每個agent收到的獎勵函數現在都是由所有agent的聯合行動決定的(見圖3)。因此,agent不僅需要考慮環境,還需要與其他學習agent進行交互。一個涉及多個主體的決策過程通常通過隨機對策(Shapley, 1953)來建模,也被稱為馬爾可夫對策(Littman, 1994)。
與單agent RL相比,多agent RL是一個更適合現實世界AI應用的通用框架。然而,由于多個agent同時學習的存在,除了單agent RL中已經存在的方法外,MARL方法提出了更多的理論挑戰。與通常有兩個代理的經典MARL設置相比,解決多代理RL問題更具挑戰性。事實上,1 組合復雜性,2 多維學習目標和3 非平穩性問題都導致大多數MARL算法能夠解決只有4個參與者的博弈,特別是兩方零和博弈。
群體行為識別是計算機視覺領域應用廣泛且亟待解決的重要研究問題。伴隨著深度神經網絡的發展,群體行為識別與理解的寬度與深度也在不斷擴展。通過調研近十年來群體行為識別的研究文獻,確定了目前群體行為識別研究的問題定義;指出了群體行為識別研究現存的問題與挑戰;在深度學習網絡架構下,描述了從早期僅僅對群體行為進行分類識別,到如今更加側重于對行為群體中活動細節理解的群體行為識別算法的發展歷程;重點介紹了以卷積神經網絡CNN/3DCNN、雙流網絡Two-Stream Network、循環神經網絡RNN/LSTM 和Transformer等網絡架構為基礎的,主流群體行為識別算法的核心網絡架構和主要研究思路,對各算法在常用公共數據集上的識別效果進行了對比;對標注了群體行為類型和個體行為類別等多級標簽的常用的群體行為數據集進行了梳理和對比。期望通過客觀的對各種算法優缺點的討論分析,引發讀者提出群體行為識別研究的新思路或新問題。在結論中對群體行為分析的未來發展進行了展望,期待能夠啟發新的研究方向。
深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(GAN)是深度視覺生成的有效工具,近年來受到了極大關注,成為快速發展的研究方向。GAN能夠接收多種模態的輸入數據,包括噪聲、圖像、文本、視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務,如廣告設計、藝術創作、動畫制作、虛擬現實等。利用GAN實現真實的、多樣化、可控的視覺生成具有重要的研究意義。本文通過系統調研,對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。
視覺多目標跟蹤是計算機視覺領域的熱點問題,然而,場景中目標數量的不確定、目標之間的相互遮擋、目標特征區分度不高等多種難題導致了視覺多目標跟蹤現實應用進展緩慢。近年來,隨著視覺智能處理研究的不斷深入,涌現出多種多樣的深度學習類視覺多目標跟蹤算法。在分析了視覺多目標跟蹤面臨的挑戰和難點基礎上,將算法分為基于檢測跟蹤(Detection-Based-Tracking,DBT)、聯合檢測跟蹤(Joint-Detection-Tracking,JDT)兩大類及六個子類,研究不同類別算法的優缺點。分析表明,DBT類算法結構簡單,但算法各子環節的關聯度不高,JDT類算法融合多模塊聯合學習,在多項跟蹤評價指標中占優。DBT類算法中特征提取模塊是解決目標遮擋問題的關鍵,但損失了算法速度,JDT類算法對檢測模塊更為依賴。目前,多目標跟蹤跟蹤總體是從DBT類算法向JDT發展,分階段實現算法準確度與速度的均衡。提出多目標跟蹤算法未來在數據集、各子模塊、具體場景應用等方面的發展方向。
深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。