人工智能(AI)技術已經深刻地改變了遙感領域,徹底革新了數據收集、處理和分析的方式。傳統上依賴于手工解釋和特定任務模型的遙感,因基礎模型的出現得到了顯著增強。基礎模型是指大規模、預訓練的AI模型,能夠以前所未有的精度和效率執行各種任務。本文對遙感領域的基礎模型進行了全面的綜述,涵蓋了2021年6月至2024年6月期間發布的模型。我們根據這些模型在計算機視覺和特定領域任務中的應用對其進行分類,并提供了關于其架構、預訓練數據集和方法論的深入見解。通過詳細的性能比較,我們突出了這些基礎模型所取得的顯著進展和新興趨勢。此外,我們還討論了技術挑戰、實際影響和未來研究方向,特別是針對高質量數據的需求、計算資源以及模型泛化能力的提升。我們的研究還發現,預訓練方法,尤其是對比學習和掩碼自編碼器等自監督學習技術,顯著提升了基礎模型在遙感任務中的性能和穩健性,例如場景分類、目標檢測等應用。本文旨在為研究人員和從業者提供資源,通過對基礎模型在遙感中的進展和未來發展路徑的全景式綜述,推動該領域的持續發展和應用。
關鍵詞——遙感、機器學習、人工智能、圖像處理、計算機視覺、Transformers。
人工智能(AI)技術已經深刻地變革了遙感領域,徹底革新了數據的收集、處理和分析方式。傳統上,遙感項目嚴重依賴于手動解釋和任務特定模型,這些模型需要大量的標記數據集和顯著的計算資源。然而,隨著AI和深度學習(DL)的出現,一個新的時代已經到來。在這個時代中,大規模的預訓練模型,即基礎模型,能夠以前所未有的精度和效率執行各種任務。這些進步不僅增強了遙感的能力,還為其在各個領域的應用開辟了新的途徑。近年來,出現了許多基礎模型,它們在處理多樣的遙感任務方面表現出了卓越的性能。這些模型有可能顯著提升多個下游任務的性能,如場景分類、語義分割、目標檢測等。通過利用海量的預訓練數據和復雜的架構,這些基礎模型在該領域設立了新的基準,使其成為研究人員和工程師不可或缺的工具。本文旨在提供遙感領域基礎模型的全面綜述,涵蓋了2021年6月至2024年6月期間發布的基礎模型。在圖1中,按時間順序列出了51個視覺模型。為了方便研究人員的導航和使用,我們根據這些模型在計算機視覺任務和特定領域任務中的應用對其進行了分類。這樣的分類方式可以更清晰地了解哪些模型適用于特定目的,無論是一般的基于圖像的挑戰,還是更為專業的應用,如環境監測、土地覆蓋和土地利用、考古勘探、災害管理或其他領域。我們的貢獻包括:
基礎模型(FMs)指的是大規模的預訓練模型,這些模型為不同領域的各種下游任務提供了堅實的起點。基礎模型利用廣泛的數據集和先進的架構,能夠捕捉復雜的模式和特征,并通過較少的額外訓練進行微調以適應特定的應用。在遙感領域,由于數據的多樣性和復雜性,包括多光譜和多時相影像,基礎模型顯得尤為重要。諸如自監督學習(SSL)和Transformers等技術顯著提高了圖像分類、目標檢測和變化檢測等任務的性能和效率,解決了遙感數據所帶來的獨特挑戰。
基礎模型的發展得益于深度學習的進步和大型數據集的可用性。最初,卷積神經網絡(CNNs)如ResNet為圖像識別和分類任務的改進鋪平了道路。Transformers的引入,利用自注意力機制來建模遠程依賴關系,進一步提升了基礎模型在處理大規模圖像數據方面的能力。
遙感中的基礎模型的特點在于它們能夠通過SSL技術利用大量未標記數據,從而在無需大量標記數據集的情況下學習到穩健的表示。主要的SSL方法包括對比學習,它通過比較同一數據點的不同增強視圖來學習表示;以及預測編碼,它通過觀察部分數據來預測輸入數據的缺失部分。
遙感領域的知名基礎模型包括SatMAE,它為時間和多光譜衛星影像預訓練Transformers;Scale-MAE,一種用于多尺度地理空間表示學習的尺度感知掩碼自動編碼器;以及DINO-MC,它通過全球-局部視圖對齊擴展了SSL在遙感影像中的應用。這些模型在場景分類、目標檢測和變化檢測等各種遙感任務中表現出色。
盡管取得了成功,基礎模型仍面臨諸多挑戰,包括對高質量和多樣化訓練數據的需求、顯著的計算資源消耗,以及將模型有效適配于特定遙感任務的領域適應性。這些挑戰的解決對于基礎模型在遙感中的持續進步至關重要。
近年來,遙感基礎模型(FMs)的發展依賴于各種復雜的方法學,包括自監督學習(SSL)、Transformers及視覺Transformers(ViT),以及殘差神經網絡(ResNet)。這些方法顯著增強了基礎模型的能力,使其能夠在沒有大量人工監督的情況下從大量數據中學習,處理復雜的數據結構,并改善特征提取和表示能力。本節將回顧這些方法在遙感領域的機制和貢獻。
自監督學習(SSL)在基礎模型的預訓練階段起著至關重要的作用。通過SSL,模型能夠從輸入數據的部分信息中預測另一部分,從而減少對大量標注數據集的依賴。在遙感中,由于標注數據的稀缺性,SSL顯得尤為重要。使用SSL預訓練的模型能夠有效地從大量未標注的遙感數據中捕捉模式和特征,使其在下游任務中非常高效。圖3展示了自監督學習的一般流程。 在遙感應用中,常用的兩種SSL方法是對比學習和預測編碼。 1. 對比學習:對比學習旨在通過比較同一數據點的不同增強視圖來學習表示。其核心思想是在特征空間中將相似(正樣本)對拉近,而將不相似(負樣本)對推遠。這種方法高度依賴于數據增強,以創建同一圖像的多個視圖。 1. 預測編碼:預測編碼是另一種SSL技術,模型通過觀察部分數據來預測輸入數據的缺失部分。這種方法有助于捕捉數據中的空間和時間依賴性。常見的預測編碼方法包括自動編碼器(AE)和掩碼自動編碼器(MAE)。
常用的SSL方法包括SimCLR、MoCo(動量對比)、BYOL(自我引導潛在空間)和DINO(無標簽自蒸餾)。這些方法各有特色,在生成正負樣本對和更新模型參數方面采取了不同的策略。這些方法在遙感中的場景分類、語義分割和目標檢測等任務中表現出色。例如,SSL可以幫助模型在標注數據有限的情況下,學習分類土地覆蓋類型、識別建筑物和車輛等目標,并分割衛星圖像中的不同區域。
在深度學習中,主干網絡是作為特征提取器的關鍵神經網絡架構。它們構成了模型的基礎層,處理輸入數據以生成豐富的、層次化的特征表示。這些表示可以被模型的后續組件用來執行各種任務,如分類、檢測和分割。通過利用強大的主干網絡,模型能夠高效地處理復雜數據,并在不同應用中提升性能。
主干類型I:Transformers和視覺Transformers(ViT):Transformers最初為自然語言處理設計,通過自注意力機制建模長距離依賴關系,徹底改變了計算機視覺領域。視覺Transformers(ViT)將Vaswani等人(2017)提出的Transformers架構適用于圖像數據,將圖像塊視為序列的token。這種適應在遙感中尤為有用,因為圖像往往較大且包含復雜的空間結構。圖4展示了用于遙感分割任務的ViT基本結構。
ViT的關鍵組件包括圖塊嵌入、位置編碼、Transformer編碼器和分類頭。圖塊嵌入將圖像分割為固定大小的塊,并將每個塊線性嵌入到向量中。位置編碼則為圖塊嵌入添加空間結構信息。Transformer編碼器由多層多頭自注意力和前饋神經網絡組成,處理嵌入塊的序列以捕捉全局依賴關系。最后,分類頭是一個全連接層,用于處理最終的序列表示以執行下游任務,如圖像分類。Transformer中的自注意力機制允許每個token關注所有其他token,為捕捉全局上下文提供了強大的方式。 ViT在遙感任務中表現出色,如土地覆蓋分類、城市區域識別和植被分析,利用其捕捉局部和全局模式的能力。
主干類型II:卷積神經網絡(CNN):卷積神經網絡(CNN),如殘差神經網絡(ResNet),通過引入殘差連接解決了深層神經網絡中的退化問題,這些連接允許梯度繞過某些層,從而促進非常深的網絡訓練。這一能力在遙感中尤為重要,因為通常需要深度模型來捕捉衛星圖像中的復雜細節和變化。
ResNet的特點是其殘差塊,包括繞過一個或多個層的快捷連接。殘差塊可以描述為以下公式:y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中,y\mathbf{y}y是輸出,F\mathcal{F}F表示要學習的殘差映射,x\mathbf{x}x是輸入,{Wi}{W_i}{Wi}是塊中各層的權重。根據維度,快捷方式可以是恒等映射(如果輸入和輸出維度匹配)或卷積層(如果維度不同)。
ResNet有多種架構,如ResNet-50、ResNet-101和ResNet-152,數字表示總層數。這些網絡在各種視覺任務中表現出色,因為它們能夠在不退化的情況下訓練更深的網絡。在遙感中,ResNet廣泛用于圖像分類、目標檢測和變化檢測任務。例如,基于ResNet的模型可以分類不同的土地覆蓋類型,檢測建筑物和車輛等目標,并通過比較時間序列衛星圖像來監測景觀變化。
通過結合這些方法,遙感基礎模型能夠利用大量數據,處理復雜結構,并在各種應用中實現最先進的性能。這些方法使模型能夠有效應對遙感的獨特挑戰,如大圖像尺寸、多樣化數據源,以及在環境監測和分析中對高精度的需求。
在接下來的部分中,我們將探討這些方法在不同遙感任務中的具體應用,分析其性能,并討論用于訓練和評估這些模型的數據集。
在這篇全面的綜述中,我們回顧了2021年6月至2024年6月間開發的遙感基礎模型的進展。我們將這些模型分類為視覺模型和視覺-語言模型,重點介紹了它們獨特的方法論和能力。我們的分析涵蓋了多種先進技術,包括自監督學習(SSL)、視覺Transformers(ViTs)和殘差神經網絡(ResNets)。這些模型在場景分類、語義分割和目標檢測等任務中,以及在環境監測、數字考古、農業、城市規劃和災害管理等特定領域的應用中,顯著提高了性能。盡管取得了顯著進展,但仍存在若干挑戰,如需要更多樣化和高質量的數據集、較高的計算需求以及任務特定的困難。解決這些挑戰需要進一步的研究和跨學科的合作。總而言之,這篇綜述提供了當前遙感基礎模型的詳細概述,提出了寶貴的見解并指明了未來的研究方向。我們建議繼續努力開發高效的模型架構、增強多模態數據整合以及擴大數據集的多樣性,以充分發揮這些模型在遙感領域的潛力。
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。
我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。
在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。
隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。
盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?
為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。
本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。
基于智能體的建模與仿真已發展成為模擬復雜系統的強大工具,提供了對涌現行為和多樣智能體之間互動的洞見。將大型語言模型整合到基于智能體的建模和仿真中,為增強仿真能力提供了有希望的途徑。本文調研了在基于智能體的建模與仿真中利用大型語言模型的領域格局,考察了它們的挑戰和有希望的未來方向。在這項綜述中,由于這是一個跨學科領域,我們首先介紹基于智能體的建模與仿真以及大型語言模型賦能智能體的背景。然后,我們討論將大型語言模型應用于基于智能體的仿真的動機,并系統分析在環境感知、人類協調、行為生成和評估中的挑戰。最重要的是,我們提供了大型語言模型賦能的基于智能體的建模與仿真在多種場景下的最新工作綜述,這些場景可分為四個領域:網絡、物理、社會和混合,涵蓋了現實世界和虛擬環境的仿真。最后,由于這個領域是新的且快速發展的,我們討論了開放性問題和有希望的未來方向。
//www.zhuanzhi.ai/paper/a5b311fe2576ef865dbdcbb6c6eacda5
仿真作為一種計算工具,涵蓋了通過使用數學公式、算法或計算機生成的表示來模擬現實世界過程或系統,以模仿其行為或特征。基于智能體的建模與仿真專注于通過模擬個體智能體及其在環境中的相互作用來模擬復雜系統[135]。它通過賦予這些智能體特定的行為、屬性和決策能力來運作,使我們能夠檢查由智能體相互作用和環境動態產生的涌現現象。仿真的重要性跨越多個領域,是理解、分析和預測實際生活中可能難以或無法直接觀察的復雜現象的寶貴工具。它促進了實驗、假設測試和情景分析,提供了在不同條件下系統行為的洞見,并在經濟學、生物學、社會學和生態學等領域的決策過程中提供幫助。獲得和使用語言的能力是區分人類和其他生物的關鍵方面[90]。大型語言模型(LLMs)的出現是機器學習中的一個最新里程碑,展示了在自然語言處理任務和文本生成方面的巨大能力[235]。利用它們強大的能力,LLMs在通過更細膩和現實的方式表示智能體的決策過程、溝通和適應模擬環境方面顯示出了提升基于智能體仿真的前景。將LLMs整合到基于智能體的建模和仿真中,有潛力豐富仿真的真實性和復雜性,可能會深入洞察系統行為和涌現現象的原因如下: 首先,LLM 智能體可以根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。其次,LLM 智能體具有很強的智能,可以像人一樣做出反應,甚至主動采取具有自導向的規劃和調度的行動 [208, 219]。LLM 智能體的行動空間既不局限于文本,對于文本,工具用法和內部行動模塊允許代理采取各種行動 [171]。最后,LLM 智能體可以與人類或其他智能體進行互動和交流 [152]。憑借以上三點優勢,LLM 智能體已被廣泛接受使用[153、122、117、152、111、125、111、73、105、27、29]。從這個角度看,LLM 智能體顯然可以作為一種新的模擬范例,賦予代理以人類水平的智能。由于 LLM 智能體的巨大潛力,近來這一領域的研究工作呈現出蓬勃發展的態勢。然而,迄今為止,還沒有一份綜述能系統地總結相關工作、討論尚未解決的問題,并為重要的研究方向提供一瞥。在本綜述中,我們分析了為什么大型語言模型在仿真的基本問題中至關重要,尤其是對于基于智能體的仿真而言。在討論了如何在這一新范式中設計智能體之后,我們仔細而廣泛地討論并介紹了各個領域的現有著作,其中大部分是近期發表的。本綜述的貢獻可歸納如下。
-** 我們將基于智能體的建模與仿真分為物理、網絡、社會和混合四個領域,這四個領域可以涵蓋主流的仿真場景和任務**,之后我們介紹了相關的工作,對如何設計仿真環境以及如何構建由大型語言模型驅動的仿真代理進行了詳細的討論。
大型語言模型(LLMs),如 ChatGPT [149]、Gemini [55]、LLaMA [199]、Alpaca [192] 和 GLM [227],是語言模型的最新范式,從早期的統計語言模型 [23] 發展到神經語言模型 [144],再到預訓練語言模型 [31],最后發展到大型語言模型 [235]。憑借數十億個參數和廣泛的預訓練語料庫,LLM 不僅在文本生成、總結、翻譯等自然語言處理任務 [116, 232] 中表現出驚人的能力,而且在解決數學問題等復雜推理和規劃任務 [11] 中也表現出驚人的能力。在大規模語料庫上進行的預訓練為零點泛化奠定了基礎。此外,預訓練模型還可以針對特定任務進一步微調,以適應特定的應用場景 [103]。此外,在過去一年中,大型語言模型(如 ChatGPT 和 GPT-4)的進步已經實現了類似人類的推理能力,這是一個里程碑,現在被認為是人工通用智能(AGI)的種子。具體來說,獲取和使用語言的能力是我們人類區別于其他生物的一個關鍵方面[198]。語言是我們與環境互動的最重要機制之一,語言為高級能力奠定了基礎[90]。
因此,由于在感知環境和做出決策方面具有類似人類的智能,構建大型語言模型賦能的智能體是大有可為的[208, 219]。首先,LLM 智能體能夠根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。此外,在模擬過程中,LLM 智能體甚至可以形成新的想法、解決方案、目標等[71]。例如,AutoGPT [193] 在給出一組可用工具和最終任務目標時,可以自動安排計劃,體現了 LLM 在構建智能體方面的巨大潛力。同時,BabyAGI [226] 創建了一個運行無限循環的 LLM 驅動腳本,該腳本持續維護任務列表,其中每個任務都由 ChatGPT API [149] 根據任務上下文完成。其次,LLM 智能體具有足夠的智能,可以像人類一樣做出反應,甚至主動采取行動,進行自我導向的規劃和調度 [208, 219]。環境輸入并不局限于文本,最近的多模態融合模型還可以輸入其他類型的信息,如圖像或音頻 [239]。LLM 智能體的行動空間既不局限于文本,對于文本,工具使用能力允許智能體采取更多行動 [171]。最后,LLM 智能體具有與人類或其他人工智能智能體互動和交流的能力 [152]。在仿真,尤其是基于智能體的仿真中,代理的交流能力將個體仿真提升到了群體層面[80]。一個 LLM 驅動的智能體可以生成文本,另一個智能體可以接收并理解文本,進而為智能體之間或人類與智能體之間可解釋的交流提供基礎[152]。此外,社區層面的模擬需要智能體的異質性,而 LLM 智能體可以滿足這些要求,在社會中扮演不同的角色 [163]。由 LLM 智能體構建的人工社會可以進一步揭示具有集體智能體行為的蜂群智能體的出現 [73, 152],類似于人類社會中的群體智慧 [190]。如上所述,仿真系統廣泛采用了基于智能體的建模范式,這就要求智能體具有高級能力,很好地激發了大語言模式智能體在仿真場景中的應用。
基于智能體建模和仿真的 LLM 關鍵能力
基于智能體建模與仿真的大語言模式關鍵能力 如上所述,基于智能體的建模與仿真是許多領域仿真的基本方法[135, 65],但它仍然面臨幾個關鍵挑戰。大語言模式驅動的智能體不僅能滿足基于智能體的仿真要求,還能依靠其強大的感知、推理、決策和自我進化能力來解決這些限制,如圖 1 所示。 **感知 **
基于智能體的建模與仿真的核心是模擬單個智能體如何與環境進行交互[135],這就要求智能體能夠準確感知來自上述環境的各類信息。至于大語言模型賦能的智能體,語言能力能使智能體直接或間接地理解和應對多樣化的環境。一方面,理解和生成文本的基本能力使智能體能夠進行復雜的對話、談判和信息交換,并支持直接交互。另一方面,智能體與環境之間的界面可以通過文本進行操作 [194],從而實現間接交互。當然,除了智能體與環境的視角外,這種能力也支持不同智能體之間的交流。 值得一提的是,僅僅具備與環境和其他智能體互動的能力還不足以實現類人模擬。更具體地說,還要求基于大型語言模型的智能體 "設身處地",從而讓智能體想象自己確實身處環境之中。也就是說,LLM 智能體應能從 "第一視角視線"[178]出發,理解、感知并響應不同情境下的不同需求、情感和態度。這種能力能使模型更好地理解來自環境或其他智能體的信息,并產生更真實的反應。
推理和決策
傳統基于代理的仿真面臨的一個關鍵挑戰是,基于規則甚至基于神經網絡的代理不夠智能[48]。也就是說,智能體無法做出正確或最優決策,如在交通仿真中選擇擁擠的道路,或在社交網絡仿真中發送錯誤的信息。這可以解釋為,傳統的基于神經網絡的人工智能仍不如真人智能[97, 130, 139, 94]。相比之下,大語言模型賦能的智能體則表現出更強的推理能力,使其能夠在模擬中做出更明智的決策并選擇合適的行動。盡管能做出合適的決策,但大型語言模型賦能的智能體支持更好的基于智能體的建模和仿真的另一個關鍵優勢是自主性[72]。只需有限的指導、規定和目標,配備大型語言模型的智能體就能自主采取行動,為給定目標制定計劃,甚至實現新目標,而無需顯式編程或預定義規則[152]。也就是說,自主性使 LLM 智能體能夠根據實際情況動態調整自己的行動和策略,有助于提高仿真的真實性。
自適應學習和演化
對于基于智能體的建模與仿真而言,系統始終具有不確定性和不可控性[135]。換句話說,與模擬初始階段相比,環境和智能體的狀態可能完全不同。正如《瑞普-范-溫克爾》(Rip Van Winkle)的古老故事所講述的那樣,一個人在山中睡著了,醒來后發現周圍的世界在他沉睡期間發生了巨大的變化。也就是說,在長期的社會網絡模擬中,環境是不斷變化的[73];智能體應該能夠適應新的環境,制定的決策策略可能會大大偏離其原來的策略。顯然,自適應學習和進化對于傳統方法來說具有挑戰性,但幸運的是,基于大型語言模型的智能體可以解決這個問題 [132]。具體來說,憑借不斷從新數據中學習并適應不斷變化的語境的能力,LLM 智能體可以隨著時間的推移不斷演化行為和決策策略。智能體可以吸收新信息,分析數據中新出現的模式,并根據情境中的學習[60]相應地修改自己的反應或行動,這反映了現實世界實體的動態性質。這種適應性通過模擬智能體在應對不同刺激時的學習曲線和行為演變,增強了模擬的真實性。
異質性和個性化
俗話說,一人之肉,眾人之毒。對于基于智能體的仿真來說,具有異質個體的復雜社會[30]或經濟系統[26],智能體的異質性至關重要。具體來說,在基于智能體的建模和仿真中,智能體的異質性涉及表現個體之間的不同特征、行為和決策過程。與傳統仿真方法相比,基于智能體的仿真因其能夠適應不同的規則或參數而脫穎而出,具體討論如下。首先,現有方法的參數設置極其復雜[64, 135]。在這些模型中,影響智能體行為的變量繁多--從個人特征到環境因素--使得選擇和校準這些參數變得十分困難。這種復雜性往往會導致過度簡化,影響模擬在描述真實異質性方面的準確性[135]。此外,獲取準確、全面的數據為參數選擇提供信息也是另一項挑戰。也就是說,現實世界中能捕捉到不同情境下不同個體行為的數據可能很有限,或者很難收集到。此外,根據真實世界的觀察結果驗證所選參數以確保其可靠性,也增加了另一層復雜性。其次,規則或模型無法涵蓋異質性的所有方面,因為現實世界中的個體非常復雜[135]。使用規則驅動智能體行為只能捕捉到異質性的某些方面,但可能缺乏深度,無法囊括多樣化行為、偏好和決策過程的全部內容。此外,隨著模型能力的提高,試圖在單一模型中涵蓋異質性的所有方面未免過于理想化。因此,如何平衡模型的簡潔性和智能體建模的準確性成為基于智能體建模和仿真的關鍵挑戰,從而導致對智能體異質性某些方面的過度簡化或忽視。與傳統方法不同的是,基于 LLM 的智能體支持:1)通過內部類似人類的認知復雜性來捕捉復雜的內部特征;2)通過提示、上下文學習或微調來實現專業化和定制化特征。
結語
基于智能體的建模與仿真是各領域復雜系統建模的重要方法之一。大型語言模型的最新進展重塑了基于智能體的建模與仿真范式,為構建類似人類的智能體而不是由簡單規則或有限智能神經模型驅動的智能體提供了新的視角。在本文中,我們首先對基于智能體的大語言模型建模與仿真進行了綜述。我們系統地分析了基于智能體的建模與仿真為什么需要 LLM 智能體,以及如何應對關鍵挑戰。隨后,我們廣泛總結了網絡、物理、社會和混合四個領域的現有工作,仔細闡述了如何設計仿真環境、如何構建大語言模型賦能的智能體,以及基于智能體的仿真要觀察和實現什么。最后,考慮到現有研究尚未解決的局限性和這一快速發展的新領域,我們討論了有待解決的問題,并指出了重要的研究方向,希望能對未來的研究有所啟發。
無人機具有體積小、靈活性強、航拍視野廣等特點,廣泛應用于警用巡查、城市交通監管、天氣監測、 電力巡檢、應急救援救災等行業。近年來,隨著計算機視覺領域的蓬勃發展,基于深度學習的目標檢測 技術逐漸應用于無人機領域,并不斷得到改進和加強。本文系統性地闡述了基于深度學習的目標檢測技 術發展歷程和研究現狀。針對現階段無人機航拍影像小目標多、背景復雜、目標尺度變化大的特性,歸 納和分析了近期對無人機目標檢測的相關研究。最后,展望了基于深度學習的無人機目標檢測技術的未 來發展趨勢。 隨著科技的發展,無人機(UAV)已經擺脫了過去的軍事用途,逐漸擴展到民用和商用領域。隨著無 人機技術的發展,基于深度學習的目標檢測技術已成為無人機應用領域的重要研究內容[1]。將目標檢測 技術應用于無人機上,實現在航拍視角下對地面場景的目標檢測和識別。然而,在無人機航拍圖像中, 檢測對象多為小目標,受航拍視角影響,目標尺度變化較大;圖像背景復雜,目標對象易被遮擋。給無 人機的目標檢測帶來了諸多挑戰[2]。常規的目標檢測算法應用于無人機上難以保證檢測精確度,優化無 人機的目標檢測性能成為了無人機應用領域的重要研究內容[3] [4]。本文首先介紹基于深度學習的目標檢 測研究進展,然后總結現階段無人機領域目標檢測的研究難點,針對小目標檢測、背景復雜、多尺度變 化三個方面進行改進和優化的各類方法進行了闡述。最后,對未來無人機目標檢測的研究方向做出了展 望。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。
基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。
1. 引言
隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。
近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。
本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。
**基于深度遷移學習的工業監控方法總結 **
在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。
行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.
零樣本學習旨在通過運用已學到的已知類知識去認知未知類.近年來,“數據+知識驅動”已經成為當下的新潮流,而在計算機視覺領域內的零樣本任務中,“知識”本身卻缺乏統一明確的定義.本文針對這種情況,嘗試從知識的角度出發,梳理了本領域內“知識”這一概念所覆蓋的范疇,共劃分為初級知識、抽象知識以及外部知識.基于前面對知識的定義和劃分梳理了當前的零樣本學習(主要是圖像分類任務的模型)工作,分為基于初級知識的零樣本模型、基于抽象知識的零樣本模型以及引入外部知識的零樣本模型.本文還對領域內存在的域偏移和樞紐點問題進行了闡述,并基于問題對現有工作進行了總結歸納.最后總結了目前常用的圖像分類任務的數據集和知識庫,圖像分類實驗評估標準以及代表性的模型實驗結果;并對未來工作進行了展望.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6146&flag=1