人工通用智能(AGI)已經在許多領域引起了革命性的變化,然而,它與圖數據的整合——在我們互聯世界中的一個基石——仍然處于初期階段。本文提出了一個開創性的關于AGI中新興圖提示領域的綜述,解決了在利用圖數據進行AGI應用中的關鍵挑戰和機遇。盡管在自然語言處理和計算機視覺領域的AGI取得了實質性進展,但其在圖數據方面的應用相對較少被探索。這份綜述批判性地評估了AGI在處理圖數據方面的當前格局,突出了特定于圖的跨模態、跨領域和跨任務應用中的獨特挑戰。我們的工作是第一個提出用于理解圖提示學習的統一框架,為圖域中的提示Token、token結構和插入模式提供了清晰的概念。我們深入探討了圖提示的內在屬性,探索了它們的靈活性、表達性以及與現有圖模型的相互作用。一個全面的分類法將該領域的100多項工作進行了分類,將它們與節點級、邊級和圖級目標的預訓練任務對齊。此外,我們還提出了一個Python庫和配套網站ProG,以支持和推進圖提示研究。這項綜述在討論當前挑戰和未來方向上達到高潮,為AGI中圖提示研究提供了一條研究路線圖。通過這一全面分析,我們旨在催化進一步探索和實際應用AGI在圖數據中的潛力,強調其重塑AGI領域及其它領域的潛力。ProG和網站可以分別通過 //github.com/WxxShirley/Awesome-Graph-Prompt 和 訪問。
在以人工通用智能(AGI)的快速發展為標志的時代中,出現了許多利用AGI技術(如自然語言處理中的ChatGPT和計算機視覺中的Midjourney)的神奇應用。AGI極大地改善了我們的生活,使我們的工作更加高效,并使我們從重復性任務中解脫出來,專注于更有創造性的事業。然而,當涉及到圖數據時,與自然語言處理(NLP)[9, 2, 50]和計算機視覺(CV)[91, 114]領域的巨大成功相比,AGI在圖數據上的應用仍處于早期階段。在我們日益互聯的世界中,理解和提取圖數據中的有價值見解至關重要。這使得將AGI應用于圖數據成為學術和工業界關注的前沿領域[48, 120, 108],有可能重新定義諸如藥物設計[68, 64]和電池開發[90]等領域。 然而,實現這一愿景絕非易事。圖1展示了最近在人工通用智能領域的研究格局,我們可以看到至少有三個基本的技術問題:**如何使模型對不同模態、不同領域和不同任務通用?**在NLP和CV領域,已有許多商業模型可以理解和轉換這些模態間的信息[9, 114, 2]。例如,像BERT [9]和GPT3 [2]這樣的模型已經展示了執行涉及文本和視覺信息的任務的能力。然而,在圖數據的背景下,從多個模態中協調信息的工作仍然是一個基本未探索的領域[44]。對于跨領域問題,遷移學習已被證明是有效的,使模型能夠將從一個領域的圖像和文本中學到的知識應用到另一個領域。然而,在不同圖形領域間轉移知識非常困難,因為語義空間不對齊[125],結構模式也不相似[122],使得圖域適應仍然是一個非常前沿且未很好解決的AGI問題。目前,大多數關于圖遷移學習的研究側重于第三個問題,即如何利用同一圖形領域中預訓練的圖知識來執行不同的圖任務(如節點分類、鏈接預測、圖分類等)[78, 52, 80, 12, 124, 31, 74, 17]。然而,與NLP和CV領域的巨大成功相比,同一圖形領域內的任務轉移仍然很原始,成功的工業應用實例遠遠少于。雖然AGI研究在許多線性數據(如圖像、文本[67, 9, 2]和視頻[91, 114])領域取得了顯著成就,但圖數據領域內的基本問題仍然未被深入探索。除了上述三個基礎問題,人工通用智能還遇到了許多社會爭議。例如,訓練大型基礎模型消耗了大量能源,并可能產生意外的逆向結果[51, 71]。這些擔憂導致AI社區越來越一致地認為,需要有效地提取這些大型模型保存的有用知識,最小化在各種下游任務中重復微調的需要[16, 40]。這種共識不僅承諾減輕環境影響,還為AGI時代模型效率和適應性的挑戰提供了實際解決方案。
最近的人工通用智能(AGI)技術核心之一的提示學習已展示出解決上述問題的巨大潛力,并在自然語言處理(NLP)和計算機視覺(CV)應用中取得顯著成功 [65, 86, 50]。提示學習是設計信息豐富的提示以操縱預訓練基礎模型輸入數據的藝術。圖2顯示了一個應用于預訓練語言模型的文本格式提示的示例,用以直接執行下游推理任務。通過將下游任務重構為預訓練任務,這種方法避免了對模型進行廣泛調整的需要,并有效地提取了保存的知識 [2, 35]。由于其在數據操縱、任務重構和提取重要見解方面的強大能力,提示對于解決跨模態、跨領域和跨任務挑戰非常有前景。與大型模型相比,提示通常非常輕量,可以通過減少這些大型模型重復調整所導致的大量計算資源來高效提取有用知識 [40, 73]。直觀地看,文本和圖像可以被視為更一般的圖數據結構的特定實例。例如,一個句子可以被視為一條圖路徑,單詞作為節點,圖像可以被視為網格圖,每個像素作為圖節點。這一洞察鼓勵我們探索將成功的提示技術從文本轉移到圖領域以解決類似問題。 最近,一些研究人員開始將提示學習引入圖數據 [78, 52, 80, 12, 124, 55, 20, 4, 18]。然而,一些進一步的研究發現,圖提示與NLP領域的提示非常不同 [80]。首先,設計圖提示與制定語言提示相比是一項更加復雜的任務。經典的語言提示通常包括預定義的短語或附加到輸入文本的可學習向量 [2, 16]。這里的主要關注點在于語言提示的內容。然而,我們實際上不知道圖提示長什么樣。圖提示不僅包含提示“內容”,還包括如何構建這些提示令牌并將它們無縫集成到原始圖中的未定義任務。其次,與預訓練任務相比,協調下游圖問題更加困難 [52, 80]。例如,語言模型的典型預訓練方法是通過模型預測掩蔽詞 [9]。然后,許多下游任務如問答和情感分類可以輕松重構為單詞級任務 [50]。與NLP不同,在預訓練任務中,圖任務跨越節點級 [19]、邊級 [117] 和圖級目標 [76, 79],使得預訓練預設不太適應。第三,與通常是一些易懂短語的NLP提示相比,圖提示通常對非專家來說不太直觀。圖提示在圖模型中扮演的基本性質和角色仍然有些難以捉摸,沒有全面的理論分析。設計圖提示的質量也缺乏明確的評估標準。此外,我們還有許多不清晰的問題需要進一步了解圖提示。例如,這些圖提示有多有效?它們在參數復雜性和訓練負擔方面的效率如何?這些提示在操縱原始圖數據方面有多強大和靈活?鑒于這些復雜問題,迫切需要深入探索AGI中圖提示的潛力,為這一不斷發展的前沿領域在更廣泛的數據科學領域內提供更深刻的理解。 雖然最近有努力探索圖提示,但仍缺乏一致的框架或明確的路線。這些努力在觀點、方法論和目標任務方面差異顯著,呈現出圖提示的分散格局,給這一研究領域的系統性進展帶來了相當大的障礙。迫切需要提供一個統一框架下的全景視圖、分析和綜合最新進展。鑒于這種情況,我們提供了這項綜述,介紹現有工作如何嘗試通過圖提示解決之前提到的AGI的三個基礎問題。除此之外,我們還希望通過回答以下詳細的研究問題(RQs)推進研究領域:
為回答第一個研究問題(RQ1),我們提出了一個統一框架來分析圖提示學習工作。我們的框架將圖提示的概念轉化為提示令牌、令牌結構和插入模式。這種更高層次的視角提供了清晰度和全面性,為讀者提供了對這一新興領域的結構化理解。據我們所知,我們的綜述是第一個將圖提示的多方面內容匯集到一個統一框架中的工作。 為回答第二個研究問題(RQ2),我們探索了提示與現有圖模型之間的關系,從靈活性和表達性的角度,然后提出了一個新穎而富有洞見的視角來揭示圖提示的本質。與大多數在NLP領域的提示學習綜述[50]不同,后者將提示視為填補預訓練任務和下游任務之間差距的技巧,我們揭示了圖提示和圖模型在更深層次上是相互關聯的。這種新穎的視角為為什么提示學習在圖領域有潛力以及它與傳統微調方法[30]的區別提供了寶貴的見解。據我們所知,這是第一個提供這種關于圖提示的啟發性視角的努力。 為回答第三個研究問題(RQ3),我們引入了一個涵蓋100多項相關工作的綜合分類法。我們的分類法解析了這些工作,根據節點級、邊級和圖級任務對它們進行分類,從而將它們與預訓練任務的更廣泛背景對齊。這將使我們的讀者對整個“預訓練和提示”工作流程中提示的機制有更清晰的理解。 為回答第四個研究問題(RQ4),我們開發了ProG(prompt graph)1,一個支持圖提示的統一Python庫。此外,我們建立了一個網站2,用作最新圖提示研究的存儲庫。該平臺整理了一系列研究論文、基準數據集和容易獲取的代碼實現。通過提供這個易于訪問的生態系統,我們旨在使研究人員和實踐者更有效地推進這一新興領域。 除此之外,我們的綜述還進一步介紹了潛在應用、對當前挑戰的深思熟慮分析以及對未來方向的討論,從而為這一充滿活力和不斷發展的領域的演變提供了全面的路線圖(RQ5)。我們的貢獻總結如下: * 促進全面分析。我們提出了一個統一框架,用于分析圖提示學習工作,提供了關于提示令牌、令牌結構和插入模式的全面視角。 * 提示模型交互的新視角。我們提供了關于圖提示本質的新見解。不同于傳統工作僅將提示視為填補下游任務和預訓練任務之間差距的技巧,我們探索了圖模型的靈活性和表達性問題,并開創了一種更深入的視角來了解提示與現有圖模型之間的交互。 * 圖提示的系統分類法。我們系統地探索了圖提示領域最近的百余項工作。這個分類法不僅組織了這些貢獻,還為讀者提供了對整個“預訓練和提示”工作流程中提示機制的全面理解。 * 賦能圖提示生態系統。我們開發了支持圖提示的ProG Python庫,并建立了一個全面的網站,用于收集最新的圖提示研究。 * 勾勒未來發展路徑。對領域當前挑戰和未來方向的詳細探索。
路線圖。本綜述的其余部分安排如下:第2節介紹我們的綜述方法,第3節介紹初步知識,第4節介紹預訓練方法,第5節介紹圖模型的提示方法。第7節討論圖提示的潛在應用,并在第8節介紹我們開發的ProG庫。第9節總結我們的綜述,討論當前挑戰和未來方向。第10節結束綜述并介紹作者的貢獻聲明。
如何使用AI生成數據集?這篇綜述詳細涵蓋
隨著數據的可用性,視覺智能的發展與之密切相關。與此同時,生成式人工智能(AI)已經解鎖了創建與真實世界照片極為相似的合成圖像的潛力,這引發了一個引人注目的問題:視覺智能如何從生成式AI的進步中受益?本文探討了利用這些AI生成的圖像作為新的數據來源這一創新概念,重新塑造了視覺智能中的傳統模型范式。與真實數據相比,AI生成的數據來源展現出了卓越的優勢,包括無與倫比的豐富性和可擴展性、快速生成大量數據集、以及輕松模擬邊緣情況。基于生成式AI模型的成功,我們研究了其生成數據在各種應用中的潛力,從訓練機器學習模型到為計算建模、測試和驗證模擬場景。我們探討了支持這一生成式AI突破性應用的技術基礎,并深入討論了伴隨這一轉型范式轉變的倫理、法律和實踐考慮因素。通過對當前技術和應用的詳盡調查,本文為視覺智能中的合成時代提供了一個全面的視角。本文的相關項目可以在//github.com/mwxely/AIGS 找到。
數據在現代機器學習系統中已成為關鍵角色。特別是,利用深度學習模型的系統需要大量數據集來實現準確性、魯棒性和泛化能力。然而,數據收集過程,如各種視覺任務所需的手工標注,常常是繁瑣和耗時的。因此,深度學習模型可能會受到三重困境的制約,即數據質量、數據稀缺,以及數據隱私和公平性[11]。另一方面,我們見證了AI生成內容(AIGC)在生產高度寫實的圖像方面取得了重大進展,確保了質量和多樣性。這樣的AIGC進展開辟了用無盡的AI生成數據替代真實數據的吸引力可能性,增強了數據的可控性和可擴展性,并減少了隱私關切[12]。為此,我們研究AI生成的圖像作為數據來源的概念,稱為AIGS,并深入地了解生成型AI產生的合成數據如何徹底改變視覺智能的發展。 合成數據指的是由計算機算法或模擬生成的數據,作為對在現實世界中收集或測量的信息的近似[13]-[15]。在AIGC爆炸之前,合成數據集通常是由圖形引擎或圖像組合生成的。例如,眾所周知的Virtual KITTI[16]是一個數據集,旨在學習和評估多個視頻理解任務(例如,物體檢測、多物體跟蹤、實例分割等)。作者使用現成的游戲引擎腳本來重構場景,并自動生成基本真實的標簽。Virtual KITTI 2[17]是Virtual KITTI的更新版本,其中包括了場景變體,如修改后的天氣條件和攝像機配置,使其更適合用于評估自動駕駛算法。基于合成的圖像在計算機視覺任務中被廣泛采用,尤其是在場景文本檢測和場景文本識別中,以提供額外的樣本來評估模型的泛化能力,同時節省了手動標注的成本。例如,Gupta等人[18]提議將前景文本覆蓋到現有的背景上下文中,形成合成的場景文本圖像。文本的位置和方向是基于局部顏色和紋理的幾何估計來確定的。Zhan等人[19]在將文本嵌入背景圖像時,考慮了語義連貫性和視覺顯著性,產生了更適當的組合。UnrealText[20]利用3D圖形引擎(Unreal Engine 4)渲染文本圖像和3D世界中的文本。采用了兩階段的流水線來探測對象網格周圍并找到適當的文本區域。上述兩種合成圖像生成方法都可以節省標注成本,然而,圖形引擎生成的圖像與真實世界數據存在域間隔,空間占用巨大,數據量有限。此外,圖像組合需要額外的努力來視覺地理解背景和前景圖像之間的相關性。
另一方面,AIGS方法繞過了繁瑣的視覺理解過程,直接生成高質量、高多樣性的圖像,域間隔更小。總的來說,視覺內容合成的工具可以歸納為兩個分支,即生成模型和神經渲染。在生成模型中,生成對抗網絡(GANs)[21]和擴散模型(DMs)[22]是最常被采用的選擇。自2014年以來,GANs作為一個高效的圖像合成器家族出現,為圖像操作持有豐富的語義潛在空間。作為一種新型的生成基礎模型,DMs具有一個穩定的訓練目標,并展現出了良好的可擴展性[23],以獲得更好的樣本質量[24]。除了生成模型,神經渲染為從學習到的3D場景表示中合成多視圖圖像提供了寶貴的方法,同時保留了底層的3D信息。
AIGS方法利用生成模型主要包括訓練數據合成和測試數據合成。合成訓練數據來源于兩個源,即,具有精確像素級注釋的新生成的圖像,和用于數據增強的補充圖像。在圖像合成期間獲取標簽的三種方法已被廣泛使用,分別是:(1)條件生成模型;(2)潛在空間泛化;(3)復制-粘貼合成。使用條件生成模型,可以從輸入條件中自然地獲得注釋訓練數據,特別是對于分類數據[25]和檢測數據[26]。此外,由于生成模型能夠通過豐富的潛在代碼從圖像中捕獲強大的語義信息,可以使用很少的手動注釋圖像[1],[27],[28]或經過細化的交叉注意力圖[29],[30]生成合成圖像的分割掩碼。這兩種方法都有效地利用了從潛在空間派生的生成特性。此外,復制-粘貼合成已成為生成帶有邊界框注釋的復合圖像的新方法。前景物體被剪切并粘貼到背景上下文中,因此每個對象的類別和位置可以輕松學習。當涉及到數據增強時,既可以使用完全合成的數據,這通常是由條件生成模型[3],[31]指導和生成的,也可以使用語義操作通過潛在空間采樣技術返回的半合成數據(例如,GAN反轉[32],[33])來擴展現有數據集。在測試數據方面,有兩個主要用途,包括泛化能力評估和魯棒性測試。合成測試數據可以用來形成更全面的測試集,從而提高測試模型的泛化性能[34],[35]。此外,由于文本引導的生成模型能夠生成編輯后的圖像同時保留其語義內容,合成的域移位圖像可以成為測試模型魯棒性的有希望的數據源,減少注釋成本[34]。在這次調查中,當我們提到生成圖像時,我們指的是由生成模型生成的圖像。生成圖像和真實圖像之間的關鍵區別在圖2中說明。
隨著神經場的出現,特別是神經輻射場 (NeRF) [36],計算機視覺社區對3D感知圖像合成越來越感興趣。然而,由于訓練數據的稀缺以及多視角一致性的嚴格要求,3D感知的AIGS仍然面臨巨大的挑戰。利用神經渲染的AIGS方法主要包括3D感知訓練數據合成和環境模擬。如圖1所示,已有許多生成帶有3D感知注釋的圖像的例子,如獲得相機和物體姿勢[37]–[44]、物體對應關系[7]、3D邊界框[45]、網格、深度以及法線標簽。NeRF在新視角合成方面表現出色,因此它可以用于增強多視角數據集,特別是在機器人學[7]和自動駕駛[46]領域。目前自動駕駛算法的瓶頸源于意外的特殊情況。為此,環境(傳感器)模擬可以是一個有希望的解決方案。一些最近的工作[8],[47]表明,得益于NeRFs的真實渲染能力,可以輕松完成3D動態場景的模擬,模擬與真實的差距很小。
據我們所知,這是第一個全面審查在各種計算機視覺任務和應用中生成數據的影響和增強的調查,伴隨著對生成數據的廣泛評估。此前,Dankar 等人[13]和Figueira等人[48]發布了有關有效合成數據生成的調查論文,分別關注使用非深度學習技術和GANs生成合成圖像。2022年8月,Joshi等人[12]發布了一個預印本調查,關于人類相關應用的合成數據。2022年11月,Man等人[49]發布了一篇綜述論文,提供了合成圖像的分類學和常見圖像合成方法的總體概述,但沒有強調討論像GANs或DMs這樣的生成深度學習模型和神經渲染方法。2023年2月,Lu等人[11]發布了一個預印本調查,旨在調查使用機器學習模型生成合成數據的研究,并討論隱私和公平問題。最近,Li等人[50]發布了一個預印本報告,對視覺識別任務的生成數據進行了基準測試。與此不同,我們審查了從神經圖像合成管道生成的合成數據作為數據源,通過統一以下三個主要方面: (1) 為生成模型和神經渲染制定AIGS方法論; (2) AIGS應用分類,包括視覺感知、視覺生成、視覺表示以及涉及計算機視覺的其他領域(例如,機器人技術和醫學); (3) 評估AI生成的圖像的內在質量以及它們在各種下游識別任務中的性能提升。
此調查的貢獻可以總結如下:
? 本調查包括大量關于AI生成的圖像作為數據源的工作,并在一個合理結構的框架中體現了最新的AIGS方法。 ? 我們介紹了AIGS的基本思想和背景信息,并強調如何生成和利用合成圖像(第2節)。 ? 我們檢查了計算機視覺領域的廣泛的AIGS應用,如視覺感知任務、視覺生成任務和自我監督學習(第3節)。 ? 我們提供了關于AI生成的圖像的最新數據集和評估指標的總結,并使用精確的定量結果和定性分析對現有方法進行基準測試(第4節)。 ? 本調查總結了AIGS,并討論了社會影響分析(第5節)和當代研究和實際世界中的挑戰(第6節),并附帶了我們對AIGS有前景的研究方向和未來發展趨勢的看法。 2 方法
生成式模型
廣義上講,生成模型包括生成對抗網絡 (GANs) [21]、變分自編碼器 (VAEs) [51]、自回歸模型 [52], [53]、流模型 [54], [55]、以及擴散模型 (DMs) [22]。特別地,由于它們在視覺生成中的廣泛應用,GANs 和 DMs 在AIGS中顯著地成為了最常用的基礎模型。在以下章節中,我們首先回顧GANs 和 DMs的基本原理 (第2.1.1節)。之后,我們展示在訓練數據合成過程中 GANs 和 DMs 是如何工作的 (第2.1.2節)。 **神經渲染 **
在2.1節討論的生成模型僅涵蓋了2D圖像合成,而沒有考慮到3D真實世界的信息。近年來,神經輻射場 (NeRF) [36] 已成為用于3D一致性的新視角合成的熱門模型。我們將深入討論NeRF的基礎原理 (第2.2.1節),并詳細解釋如何使用NeRF生成合成圖像 (第2.2.2節)。
**3 應用 **
作為一個相對新的機器學習范式,AIGS已經賦予計算機視覺中的各種下游任務新的能力。在本節中,我們將深入研究與AIGS相關的那些應用。尤其是,我們將關注以下五個子類:(1) 2D視覺感知任務,包括圖像分類(第3.1節)、圖像分割(第3.2節)和物體檢測(第3.3節),其中這三個任務迄今為止占據了AIGS應用的絕大部分;(2) 視覺生成任務(第3.4節),我們探討在訓練生成模型而非判別模型時如何使用合成圖像;(3) 自我監督學習任務(第3.5節),我們關注合成圖像如何使視覺表示學習者變得更強大;(4) 3D視覺感知任務,包括在機器人技術(第3.6節)和自動駕駛(第3.7節)領域的應用,我們將檢查在建模復雜的3D場景時合成圖像如何傳遞3D感知信息;(5) 其他應用(第3.8節),我們將研究如何在一些特定的場景中,如醫學和測試數據合成,應用AIGS范式。詳細的分類呈現在圖7中。
4. 實驗評價
數據集是計算機視覺任務的本質。得益于AIGS的崛起,現有的稀缺數據集可以在內容和風格上都增加更高的多樣性,同時節省標注成本。在實踐中,合成數據集可以分為兩個子組:(1) 完全合成的數據集(例如,DiffusionDB [213]、JourneyDB [214]),它們包含從T2I生成模型中檢索的合成圖像-文本對。它們通常用于多模態視覺理解任務;(2) 半合成數據集(例如,ForgeryNet [215]、DeepArt [35]、GenImage [216]),其中包含真實圖像和合成圖像。它們通常包含相似數量的真實圖像和偽造圖像。這些數據集非常適合評估基于檢測的應用,如deepfake人臉檢測、deepfake藝術品檢測、通用圖像檢測等。請參閱表1以獲取更詳細的規范。像GTAV [217] 和NeRF-Synthetic [36] 這樣的合成數據集通常被采用作為訓練計算機視覺模型的數據來源。但是,它們的圖像或視圖是從3D圖形引擎生成的,而不是神經圖像合成。
**AIGS與AIGC
**
伴隨著ChatGPT和Stable Diffusion的出現,AIGC的研究主題變得前所未有地受歡迎。AIGS與AIGC有強烈的相關性,因為它們都使用深度學習技術來生成新穎的內容。它們共同擁有的合成產品包括合成圖像、合成特征[83]和合成噪聲[203]等。 盡管如此,AIGS的設計目的是使用這些合成產品作為下游應用的數據源,重點是計算機視覺任務,而AIGC旨在生產更廣泛的創意作品,包括但不限于視覺內容、文本內容、音頻內容等。他們之間的相關性可以從圖11中詳細查看。
結論
****這篇綜述涵蓋了AI生成圖像作為數據源的主要方法。特別是,我們介紹了用于神經圖像合成的模型,包括生成對抗網絡、擴散模型和神經輻射場。在此之后,我們討論了AIGS方法論,用于自動標簽獲取和數據集增強。此外,我們探討了AIGS范例在激活各種應用方面的巨大潛力,如視覺感知和視覺生成任務、自監督學習、機器人技術以及自動駕駛。我們還對現有的合成數據集和AIGS評估指標進行了廣泛的調查,并提供了表格化的總結和實驗結果。最后但同樣重要的是,我們提出了對當前AIGS的社會影響和開放性挑戰的一些看法,這些看法得到了真實世界例子的支持。 這篇綜述表明,由于其在稀缺數據集的豐富化、隱私保護和風險預防、可擴展性和泛化性能方面的全面好處,AIGS的研究正在興起。盡管仍存在挑戰,但我們相信AIGS的潛力尚未被完全激活。未來AIGS方法論的研究和開發可以進一步加強AI生成數據的功能性和可靠性。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
首篇時序預訓練綜述!
時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。
1. 引言
作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。
為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。
最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰。
我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述。
? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。
2. TS-PTMs的概述
在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。
2.1 有監督的PTMs
早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。
通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。
基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。
2.2 無監督預訓練模型
本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。
2.3 自監督預訓練模型
本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。
3. 實驗結果與分析
在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。
6. 結論
在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。
多智能體強化學習(MARL)是一種廣泛使用的人工智能(AI)技術。然而,當前的研究和應用需要解決其可擴展性,非平穩性,以及可信度的問題。本文旨在回顧MARL的方法和應用,并指出未來十年的研究趨勢和遠景。首先,本文總結了MARL的基本方法和應用場景。其次,本文概述了相應的研究方法及其在實際應用MARL時需要解決的安全性,魯棒性,泛化性,以及倫理約束的局限性。特別地,我們認為,未來十年,可信的MARL將成為熱門的研究主題。此外,我們認為考慮人類互動對于MARL在各種社會中的實際應用至關重要。因此,本文還分析了將MARL應用于人機交互時的挑戰。
1. 引言
由于其在解決序列決策任務中的巨大潛力,強化學習(RL)得到了廣泛的探索[88, 107, 129, 131, 168, 169, 197, 216, 218]。Kaelbling等人在1996年指出[76],RL將在游戲和機器人技術中得到廣泛應用。Mnih等人[130]提出深度強化學習(DRL),將具有推理能力的強化學習和具有代表性能力的深度學習(RL)結合起來,訓練出的智能體在各種雅達利游戲中的表現超過了人類玩家。Silver等人在2007年使用RL解決圍棋游戲[180],并在2016年提出使用深度神經網絡和蒙特卡洛樹搜索的AlphaGo[179]。在機器人技術方面,DRL也取得了如四足運動[92, 233]等突出的發展。最新的ChatGPT在全世界范圍內都是眾所周知的,并且使用了與RL相關的技術。自DRL提出以來的20年間,游戲和機器人技術的研究興趣一直在不斷提高。RL的前瞻性應用總結在[76]中。
在整合人類因素時,我們需要考慮的不僅僅是智能體的協作,還要考慮智能物理信息系統與人類文明的互動。在將MARL應用于人機交互時,我們提出了四個挑戰:由于人類干預而產生的非馬爾可夫性質,人類行為的多樣性,復雜的異質性,以及多人多機的可擴展性。本文與其他相關綜述的區別列在表1中。本文的大綱顯示在圖1中。接下來的這個調查組織如下。在第2部分,我們給出了MARL的相關定義,并總結了典型的研究方法。第3部分展示了MARL的具體應用場景。第4部分總結了可信MARL的定義、相關研究和局限性。在第5部分,我們指出了人類兼容的MARL面臨的挑戰。第6部分對整篇文章進行了總結。
2. 方法
強化學習(RL)智能體旨在通過與環境的嘗試和錯誤交互,最大化總的折扣預期獎勵。馬爾可夫決策過程(MDP)有助于為序列決策定義模型。在多智能體系統(MAS)中,每個智能體都通過與環境的嘗試和錯誤接觸解決序列決策問題。然而,它比單智能體場景更復雜,因為環境返回的下一個狀態和獎勵都基于所有智能體的聯合行動,這使得對于任何智能體來說環境都是非馬爾可夫的。隨機博弈(SG)可以用來模擬多智能體序列決策問題。
**3 多智能體強化學習的應用 **
通過MARL,智能體能夠學習并與彼此溝通,從而實現更有效的任務完成和更好的決策結果。這種方法廣泛應用于工程和科學,例如,智能交通,無人駕駛飛機,智能信息系統,公共衛生和智能醫療診斷,智能制造,金融貿易,網絡安全,智能教育,以及科學研究中的強化學習。
**3.1 智能交通 **
智能交通利用物聯網(IoT)和人工智能等先進技術來提高安全性,提高交通效率,并減少其對環境的負面影響。在基于MARL的智能交通中,我們描述了兩個已知的場景:交通燈控制和自動駕駛,并展示了人類在這些智能系統中的作用。這個應用與強化學習方法之間的對應關系顯示在表2中。
**3.2 無人駕駛飛行器 **
在基于MARL的無人駕駛飛行器(UAVs)應用中,我們描述了三個已知的場景:集群控制[124, 158, 207, 210, 222-224],環境監控[75, 134, 148, 204],以及協同運輸[66, 74, 177]。這個應用與強化學習方法之間的對應關系顯示在表3中。
**3.3 智能信息系統 **
MARL在智能信息系統中具有巨大的應用潛力,包括自然語言處理(NLP)[13, 83, 98, 104, 120, 183, 195, 226],編程生成[26, 104, 178],以及推薦系統[40, 51, 72, 231, 245]。基于SARL的技術已在NLP和編程生成中得到研究,我們將總結這些研究并指出MARL在這些應用中的顯著優點。這個應用與強化學習方法之間的對應關系顯示在表4中。
**3.4 公共衛生和智能醫療診斷 **
MARL在公共衛生和智能醫療診斷中得到了廣泛的探索和應用。例如,MARL可以應用于COVID-19的預測和管理、醫療圖像處理和疾病診斷,以提高疾病預防、診斷和治療的效率和準確性。這個應用與強化學習方法之間的對應關系顯示在表5中。
**3.5 智能制造 **
智能制造是將先進技術(如物聯網、人工智能等)整合到制造過程中,以優化生產過程。對于智能制造,MARL是一種有前景的方法。在智能制造的背景下,MARL可以作為生產調度、車間工業機器人控制、質量控制和設備維護的工具,實現智能高效的生產過程[97]。這個應用與強化學習方法之間的對應關系顯示在表6中。
**3.6 金融交易 **
金融交易是一項挑戰性的活動,需要快速判斷并適應不斷變化的市場條件。過去的單智能體方法和深度學習技術已經無法滿足市場的期望。MARL通過結合各種智能體之間的合作與競爭,為應對金融交易中的困難提供了新的思路。我們從投資組合管理[60, 95, 123, 150, 175]、交易策略優化[79, 143, 156, 157]和風險管理[6, 34, 49]的角度總結了MARL在金融交易中的應用。這個應用與強化學習方法之間的對應關系顯示在表7中。
**3.7 網絡安全 **
網絡安全是當今社會面臨的重要問題,攻擊者利用各種技術和手段侵入計算機系統和網絡,威脅到個人、組織和國家的安全。MARL是一種有前景的方法,可以應用在網絡安全領域,主要應用在入侵檢測[54, 118, 118, 132, 172, 173]和網絡資源優化[103, 135, 145, 186, 190]。這個應用與強化學習方法之間的對應關系顯示在表8中。
**3.8 智能教育 **
智能教育利用物聯網和人工智能將學習過程數字化,并根據特定學生的學習風格和特點提供個性化的學習體驗和支持。傳感器可以用來捕捉學生的學習行為和數據。通信使學生與教師之間以及學生之間的協作學習實現實時互動。人工智能可以用來分析學習行為,提供個性化學習和評價教學。虛擬現實技術使得場景重建、實驗模擬和遠程教學變得更加容易。在基于MARL的智能教育中,我們總結了現有的技術[31, 48, 112, 194]。教育4.0旨在將人工智能技術融入學生自主學習的每個階段,以提高學習過程中的興趣和效果[19, 46, 170]。Tang和Hare[194]創建了一個自適應輔導游戲,讓學生在沒有教師指導的情況下個性化學習。為了優化學生學習,該系統使用Petri網圖結構監控學生在游戲中的進展,使用強化學習智能體適應性地改變系統行為以響應學生表現。然后,他們應用Petri網和層次化強化學習算法,基于上述游戲個性化學生的幫助[48]。該算法可以幫助教師根據學生的需求,為他們在游戲中提供定制的指導和反饋,使他們通過將游戲中的任務分解為幾個階段,逐漸掌握復雜的知識和技能。該算法可以幫助教育工作者為游戲中的學生提供定制的支持和反饋,通過將游戲中的任務分為多個層次,逐漸掌握復雜的知識和技能。[112]和[31]都使用傳感器收集的數據監測學生的學習進度,并使用強化學習技術為學生提供個性化的學習建議。
3.9 科學領域的強化學習
近年來,人工智能在科學領域的應用已經成為熱門話題,人工智能被高度評價為實現科學進步的關鍵工具[127]。強化學習已經在化學、物理和材料研究等領域展示出顯著的科學潛力,尤其在探索未知的物理現象等挑戰中,強化學習被證明是解決這些挑戰的關鍵工具。這個應用和強化學習方法之間的對應關系顯示在表9中。Seo等人[171]利用強化學習來控制KSTAR托卡馬克的前饋??。Degrave等人[22]介紹了一種創新的強化學習方法,使托卡馬克聚變裝置的磁控系統能夠自主學習,從而實現對各種等離子體配置的精確控制,大大減少了設計工作量,是強化學習在聚變領域的開創性應用。Bae等人[5]引入了一種科學多智能體強化學習(SciMARL),用于在湍流模擬中發現壁面模型,大大降低了計算成本,同時復制了關鍵流量,并提供了對湍流模擬的前所未有的能力。強化學習的科學研究提供了更多的可能性,我們相信未來強化學習在科學應用中的范圍將會更廣。
4 展望
盡管多智能體強化學習(MARL)在許多領域都已表現出優越的性能,但一些問題,如安全性、魯棒性和泛化能力,限制了MARL在實際環境中的應用。我們認為,要想最大化地利用未來實踐應用中MARL的優越性,首先需要解決這些問題,并需要考慮到人類社會的道德約束。本節回顧了在四個方面的研究現狀:安全性、魯棒性、泛化能力和道德約束,并討論了未來研究需要解決的差距。
4.1 多智能體強化學習的安全性
隨著多智能體強化學習(MARL)的日益普及,確保這些系統的安全性的需求日益突出。在MARL中,一個智能體的行動可能會對任務或其他參與的智能體造成傷害。因此,開發安全的MARL方法的需求迫在眉睫。為了在MARL中實現安全,一種常見的方法是在訓練過程中添加約束。通過引入安全性約束,可以鼓勵智能體避免可能導致任務失敗或對其他智能體造成傷害的不安全行動。已經有很多關于強化學習安全性的綜述,如[35],[39]和[225]所總結的。然而,目前還沒有關于MARL安全性的系統性綜述,而且關于這個話題的研究相對較少。在本節中,我們給出了在[38]中使用的安全MARL的定義。
4.2 多智能體強化學習的魯棒性
在分類任務中,深度學習的魯棒性已有一系列的研究 [36, 58, 69, 71, 142]。強化學習是一個序列決策問題,其中在一個時間步的錯誤分類并不等同于期望最小的獎勵。在多智能體強化學習(MARL)中,任何智能體的決策失敗都可能導致團隊任務失敗,這使得MARL的魯棒性研究具有挑戰性。此外,MARL在現實世界的應用中面臨各種挑戰,例如環境的不確定性,其他智能體的政策不確定性,以及傳感器噪聲。所有這些因素都可能導致訓練的模型表現不佳或者失敗。因此,提高MARL的魯棒性至關重要,這將有助于確保模型在各種情況下都能穩定可靠地運行。以下是關于魯棒MARL的相關定義。我們使用了[253]和[241]的定義。
4.3 多智能體強化學習的泛化
在MARL領域,泛化涉及到智能體將其在特定環境或場景中學到的知識和技能,無需進行大幅度的修改或重新訓練,就能轉移到新的、多樣的環境或場景中的能力。有幾個調查研究了強化學習的泛化 [87, 201, 225, 247]。在SARL的泛化中,各種技術如領域隨機化[133, 160, 165],因果推理[82, 167, 237],以及元學習[3, 27, 77]已被用來解決泛化問題。然而,與單智能體設置相比,對MARL的泛化研究相對較少。在這方面,我們從兩個角度,即多任務學習和sim2real,提供了相關工作的概述,如圖4所示。
4.4 遵循道德約束的學習
隨著AI技術的不斷發展,考慮AI系統的道德含義變得越來越重要[4]。MARL系統涉及多個智能體的互動,其行為可能對現實世界產生重大影響。因此,確保MARL系統的設計和訓練考慮到道德因素至關重要。我們將有關MARL的道德約束的研究總結為隱私保護、公平性和透明度,如圖5所示。
5. 人機協同多智能體強化學習面臨的挑戰
人機協同物理系統(HCPS)是基于物理系統(CPS)發展起來的,它融合了計算機科學、自動化技術、通信科學等領域[9, 115]。本文第3節總結的MARL應用是HCPS的典型應用。人類被視為HCPS的重要組成部分,因此,MARL算法的設計需要考慮人的因素。除了可擴展性和非平穩性的挑戰之外,HCPS中的MARL面臨著許多額外的挑戰,這是由于人類、物理系統和計算機系統之間的相互作用導致的。
6. 結論
本文綜述了MARL的基本方法,并對MARL在智能交通、無人機、智能信息系統、公共健康與智能醫療診斷、智能制造、金融貿易、網絡安全、智慧教育、科學強化學習等各個領域的相關研究進行了綜述。為了更好地服務于人類社會,有必要發展一個值得信賴的MARL。從安全性、魯棒性、泛化性和倫理約束等角度定義了可信MARL,并總結了這些領域的當前研究和局限性。最后,討論了在MARL中考慮HCPS時面臨的其他挑戰,這對其在人類社會的實際應用至關重要。希望本文能夠對各種研究方法和應用場景進行全面綜述,鼓勵和推動MARL在人類社會中的應用,更好地服務于人類。
賓夕法尼亞州立大學等學者最新《圖反事實學習》綜述,值得關注!
圖結構數據在現實世界中應用廣泛,例如社交網絡、分子圖以及交易網絡等。圖神經網絡(GNNs)在圖表示學習領域取得了顯著成功,為各種下游任務帶來了便捷。然而,GNN存在一些缺陷,如可解釋性不足、容易從訓練數據中繼承偏差,以及無法對因果關系進行建模。最近,圖反事實學習在緩解這些問題方面展現出了很好的效果。已經提出了各種圖反事實學習方法,適用于反事實公平性、可解釋性、鏈接預測等其他圖相關應用。為了推動這一有前景的研究方向,我們對圖反事實學習論文進行了分類和全面回顧。根據研究問題的不同,我們將現有方法分為四類。對于每個類別,我們都提供了背景和激勵示例、概括現有工作的通用框架,并進行了詳細回顧。本文在圖結構數據、反事實學習和現實世界應用的交叉領域指出了有希望的未來研究方向。為了為未來研究提供全面的資源視角,我們整理了一組開源實現、公共數據集和常用評估指標。本綜述旨在作為一個“一站式”資源,幫助讀者建立對圖反事實學習類別和當前資源的統一理解。我們還維護了一個論文和資源倉庫,將持續更新倉庫://github.com/TimeLovercc/Awesome-Graph-Causal-Learning。
1. 引言
圖是一種無處不在的數據結構,也是一種表示對象和復雜交互的通用語言[64]。它們可以對廣泛的現實世界系統進行建模,例如社交網絡[167]、化合物[32]、知識圖譜[226]和推薦系統[193]。例如,在社會網絡中[171],節點表示人,節點之間的邊表示人之間的社會聯系。在分子圖中,節點對應原子,邊表示原子之間的化學鍵,提供了化合物的結構表示,可用于藥物發現或材料設計等任務[130,185]。圖結構數據的普遍存在引起了研究人員對圖分析和挖掘的廣泛關注,各種方法被提出[194]。
網絡表示[60,170]是圖挖掘的一個基本任務,旨在學習節點或圖的低維向量表示,以捕獲節點或圖的內在特征和結構信息。學習到的表示可以促進各種下游任務,如節點分類[88],鏈路預測[220],社區檢測[158]和圖分類[163]。神經網絡在許多領域的表示學習中表現出了強大的能力,如計算機視覺[67]、自然語言處理[44]等。基于神經網絡的方法也激發了圖神經網絡(GNNs)的出現和繁榮[88,110,206]。自圖卷積網絡[88]被提出以來,已有各種各樣的GNN[28, 84, 89]變體。它們極大地推動了圖學習方法的發展,并在許多圖挖掘任務上取得了最先進的性能,例如節點分類[84]、鏈接預測[133]和圖分類[134]。由于圖學習方法的強大功能,它們已被成功應用于許多高風險決策場景,如藥物發現[203]、假新聞檢測[159]和金融分析[190]。
盡管現實世界帶來了巨大的好處,但最近的研究表明,現有的圖學習方法傾向于繼承有偏數據集[36]的偏置模式,缺乏可解釋性[37],無法利用圖數據中存儲的豐富信息[228]。例如,在有偏差的數據集下,GNN很容易學習到不公平的分類器,例如,根據申請人的種族或其他敏感信息給予不同的決定[46,92]。這些問題嚴重阻礙了模型的信任,限制了圖學習方法[40]在現實世界的應用。反事實學習提供了機會來減輕內在偏差[94],使模型可解釋[173],并很好地利用數據中存儲的信息[138]。反事實的概念來自因果推理的研究界[208]。反事實的目的是回答“在已知事實發生的情況下,會發生什么”。利用反事實進行學習并泛化到未見過的環境的能力,被認為是通用人工智能的一個重要組成部分。學習因果關系的主題在許多領域都得到了很好的研究,例如經濟學[73]、教育[42]和醫學[33]。要知道一個行為的因果效果,我們需要知道觀察到的行為的事實結果和未觀察到的行為的反事實結果。一個直接的方法是進行隨機對照試驗以獲得反事實的結果。然而,在現實世界的環境中,我們只能訪問觀察到的事實數據,即觀察到的行動及其相應的事實結果,這是學習因果關系的一個關鍵挑戰[62]。幸運的是,信息技術的發展提供了豐富的數據源,我們可以利用這些數據源來發現數據中隱含的信息[79]。因此,核心問題是如何從觀察數據[59]中獲取反事實,以及如何使用反事實來輔助機器學習模型[79]。
圖反事實學習是一個新興的方向,歷史很短[79]。然而,最近關于圖反事實學習的工作顯示出了巨大的潛力,可以克服上述在公平性[121]、解釋性[25]等方面的挑戰。在圖1中,我們展示了一些圖反事實學習的動機示例。具體來說,有了反事實學習,我們可以超越群體層面的公平定義,實現對每個個人的公平,就像在事實世界和反事實世界中一樣[94],其中個人屬于不同的人口統計群體。如圖1 (a)所示,反事實公平的目標是確保申請人和他的反事實對應對象(性別不同)收到相同的信用卡申請結果。對于圖反事實解釋,除了找到一個與預測高度相關的緊湊的子圖[213]外,它的目的是找到一個合理的變化,以獲得不同的結果[112],這不僅可以用來回答為什么模型會給出這樣的預測,還可以給出建議,以實現另一個期望的結果。如圖1 (b)所示,在信用卡應用場景中[173],當申請人被拒絕時,傳統的解釋可能是他們的“信用評分過低”。相反,反事實解釋可以提供可行的建議,說明客戶可以做出哪些最小的改變(例如,在交易關系中)來改變決策并最終獲得批準。除了在公平性和可解釋性方面的幫助外,研究界還利用反事實學習從反事實世界中提供額外的信息,例如,使用事實鏈接和反事實鏈接來幫助構建更強大的GNN[228]。如圖1 (c)所示,兩個朋友住在同一個小區。通過將它們放在不同的鄰域,GNNs可以推斷它們之間的反事實聯系。這使GNN能夠更深入地了解形成其關系的因果因素,同時減輕鄰域因素的影響。考慮到圖反事實學習的增長趨勢和相關前置任務的多樣性,迫切需要對圖反事實學習的方法和應用進行系統的分類總結。
為填補這一空白,本文對蓬勃發展的圖反事實學習領域進行了第一個全面的最新概述,提供了一些見解和潛在的未來方向,并創建了一個"一步停止",收集了一組開源實現、公共數據集和常用的評估指標。本文的目標讀者是想了解圖反事實學習的一般機器學習研究人員,想了解圖神經網絡最新進展的圖學習研究人員,以及想將圖反事實學習推廣到新應用或其他領域的領域專家。這項調研的核心貢獻是:
第一次調研圖反事實學習。據我們所知,本文調研是第一個回顧圖的反事實學習技術。最相關的調研是關于因果推理[62,208]和因果機器學習[79]。迄今為止,圖領域的因果學習還沒有一個專門的、全面的綜述。
全面的最新綜述。回顧了深度學習、數據挖掘、計算機視覺、自然語言處理和人工智能領域有影響的國際會議和期刊上發表的最新圖反事實學習技術,包括ICLR、NeurIPS、ICML、SIGKDD、WSDM、CIKM、WWW、ICDM、CVPR、NAACL、IJCAI、AAAI等。我們還包括其他領域的論文,如化學科學。
系統的分類和統一的框架。將現有工作系統地分為反事實公平、反事實解釋、反事實鏈接預測和推薦以及應用。對于大多數類別,提供了統一的框架,在數學上形式化每個類別中的圖反事實學習方法。該分類法的概述如圖2所示。
資源的未來方向和“一步停止”。從調研結果中,我們指出了未來有希望的重要方向。還提供了一組開源實現、公共數據集和常用的評估指標,以促進社區的發展。我們維護一個存儲庫,其中包含圖反事實學習的論文,我們將在存儲庫中不斷更新這些論文:
與相關調研文章比較。表1突出了我們的調研與相關調研論文之間的差異。大多數現有調研主要關注一般因果推斷[62,208]、反事實公平性[94]和反事實解釋[173],很少討論圖數據的研究進展。雖然其他圖域調研解決了公平性[40]和可解釋性[40,50],但它們很少從因果或反事實學習的角度總結現有工作[140]。本文的調研首次全面概述了圖反事實學習,提供了因果學習背景,回顧了公平性感知模型、可解釋模型、鏈接預測、推薦系統、現實世界的應用和有前途的研究方向的圖反事實學習技術。因此,我們的調查不同于現有的調查,可以支持這一重要的新興領域的增長。
這個調研的概述如圖2所示。第2節定義了相關的概念,并給出了將在以下各節中使用的表示法。第3節和第4節分別描述了圖數據上反事實公平性和反事實解釋的統一框架。總結了有用的資源,包括評估指標和數據集。第5節回顧了反事實鏈接預測和反事實推薦的分類。第6節調查了圖反事實學習在各個領域的實際應用。第7節指出了尚未解決的挑戰和有希望的未來方向。第8節總結了這個調研。
2 . 圖反事實公平性
在許多現實世界的應用中,由于社會或歷史因素,訓練數據可能包含人口統計學偏差。在此類數據上訓練的機器學習模型可能會繼承這些偏見并產生不公平的預測,如在信用卡決策任務中,模型可能表現出性別或種族偏見[27,121]。有偏見的預測可能會導致系統性歧視并破壞公眾對機器學習模型的信任,這導致了人們對公平性感知的機器學習的興趣越來越大[121]。Dai等人[40]強調,公平性問題在圖中更嚴重,節點特征和圖結構都可能導致偏差。由于許多現實世界的系統依賴于圖神經網絡,不公平的預測可能會產生嚴重的后果。研究人員提出了確保圖學習公平性的方法[3,36,38,47,116]。然而,現有的公平概念主要是基于相關的,可能無法檢測到統計異常,如辛普森悖論[118]。為了解決這個問題,反事實學習已經成為一種很有前途的方法,用于構建公平的機器學習模型,實現反事實的公平性[94,118]。反事實公平是基于這樣一種想法:如果對個人的預測在反事實世界中保持不變,那么對個人的預測就是公平的,因為這個人屬于不同的人口統計群體[94]。圖上的反事實公平性正受到越來越多的關注[3,92,116,224]。在本節中,我們介紹圖學習中的公平性問題和反事實公平性的背景,然后介紹圖反事實公平性模型的一般框架及其細節。最后,用廣泛使用的公平性評估指標和數據庫作了總結。
3. 圖反事實解釋
深度神經網絡(DNN)在各個領域都取得了顯著的成功,如分子生物學[129]、社會網絡[194]和金融系統[25]。然而,DNNs的黑盒特性阻礙了其[15]的廣泛采用。透明和可解釋的模型對于確保開發人員理解模型行為和潛在偏見,并獲得用戶信任至關重要,特別是在高風險的場景中[119]。GNN還面臨可解釋性的挑戰,復雜和離散的圖結構進一步加劇了這些挑戰。因此,提高GNN的可解釋性對于用戶信任和進一步最大化GNN潛力至關重要[40,218,229]。例如,在疾病診斷中,GNNs可能使用患者數據、遺傳學和社會聯系來預測疾病的可能性。清晰的解釋可以增進病人和醫生之間的信任和理解。在藥物發現中,GNN解釋可以幫助發現有效的分子結構[23]。在開發其他DNN模型解釋技術的同時,也開發了GNN的各種可解釋性方法[216]。許多現有工作[114,213,216]旨在識別與預測結果高度相關的子圖。然而,由于圖結構復雜,這樣的方法很可能得到與預測結果高度相關的虛假解釋,而不是導致標簽的關鍵子結構[230]。為了避免虛假解釋,找到對預測有顯著貢獻的因果解釋,研究人員建立了各種模型,以在圖[2,11,113,130,164,169]上獲得反事實解釋。圖反事實解釋不是簡單地找到與預測結果高度相關的子圖,而是旨在識別對輸入圖的必要更改,以改變預測結果,這可以幫助過濾虛假解釋。圖4顯示了突變預測結果的不同解釋[140,169]。在致突變性預測任務中,圖4 (a)中黑色突出顯示的硝基苯結構是致突變性的主要原因,這是最真實的事實解釋。圖4 (b)中紅色突出顯示的邊緣顯示了通過事實解釋方法得到的解釋。解釋模型往往包含一些主要原因之外的不希望的邊緣,以給出更有信心的預測。這是因為,在數據集中,紅色的邊在硝基苯結構之外,與硝基苯結構具有很高的共現性。因此,模型傾向于認為這些邊與突變性高度相關,從而導致潛在的誤導性解釋(虛假信息)。圖4 (c)中的綠色虛線邊作為突變預測的反事實解釋。直覺認為,去除硝基苯結構中的邊可能會導致誘變性的消失。因此,反事實解釋可以幫助識別模型預測的最關鍵邊緣,與基態硝基苯結構保持良好的對齊[140]。總而言之,通過專注于識別對輸入圖的必要更改,從而改變預測結果,反事實解釋方法減輕了虛假解釋的影響,并更好地與基本事實因果因素保持一致。因此,圖上的反事實解釋有望提高GNN[40]的可解釋性和可信性,人們已經做出了許多努力。接下來,首先介紹圖反事實解釋的背景和定義。將現有工作總結為一個圖反事實解釋的一般框架,然后對現有方法進行詳細審查[2,11,24,71,107,113,115,130,131,139,164,169]。最后,回顧了廣泛使用的評價指標和數據集。
5 反事實鏈接預測與推薦
在上述章節中,我們主要關注gnn在節點分類和圖分類中的反事實公平性和反事實解釋。鏈接預測[93]是另一項重要的圖挖掘任務,旨在預測圖中缺失的鏈接。它被廣泛應用于各種應用,如推薦系統[212]、知識圖譜[226]和社交網絡[171]。最近研究了反事實鏈接預測[228],其目的是探索鏈接形成的根本原因,過濾掉虛假因素。推薦系統作為鏈接預測任務的一種特殊情況,也可以從去除虛假信息和依賴因果信息中獲益。因此,反事實學習在鏈接預測任務[228]和推薦系統[29,105,125,182]中受到越來越多的關注。本節將全面回顧現有的基于圖學習的反事實鏈接預測和反事實推薦工作。
近年來,深度學習領域取得了重大進展,特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而,它的訓練過程極不穩定,對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高,大量研究在一定程度上探索了高效訓練領域,但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式,并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心",包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”,包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術,注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”,包括在資源受限情況下的一些獨特加速方法,例如對總迭代次數的限制; (5)“以系統為中心”,包括一些高效的分布式框架和開源庫,它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法,本文綜述了一個全面的回顧,以了解每個組件內的一般機制及其聯合交互。同時,對通用加速技術發展的未來工作進行了詳細的分析和討論,這些工作可以啟發我們重新思考和設計新的高效范式。總之,我們希望這項綜述將成為普遍有效訓練的寶貴指南。
//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f
隨著人工智能技術的快速發展,深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律,并表明更大的模型本質上需要大量的數據,在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如,Dehghani等人[44]提出了ViT-22B,該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后,GPT-3[18]在45TB數據樣本上訓練了175B參數,并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型,只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229],這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚,但為了保持實際效率,人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言,訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說,訓練GPT-3消耗大約355 GPU年,成本為460萬美元。在如此龐大的參數和數據樣本下,傳統的從零開始訓練顯然無法承受巨大的費用,特別是在擴展到下游任務[30,138,187,188,211,243]時,這將引入額外的架構和過多的參數。因此,預訓練-微調模式在深度學習領域日益受到關注。
預訓練的主題是繼承遷移學習的范式,在一個通用的數據集上訓練一個通用的基礎模型,以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態),幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像,有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練,為下游任務產生了有希望的遷移性能。同樣,來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48],通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區,Radford等人[196]提出了生成式預訓練(GPT),通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率,GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習,在預訓練中可以顯著增強對知識的理解,在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明,使用預訓練可以提高模型的魯棒性和不確定性,對于在大型數據集上進行訓練表現出極大的優勢,泛化能力較好。最近的進展表明,從具有巨大容量的預訓練模型中獲得了實質性的收獲,特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向,即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴,極大地啟發了大數據的應用。同時,它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本,包括時間和金錢,嚴重阻礙了它的發展。在此背景下,本文介紹和總結了在大規模模型上加速訓練的通用和實用技術,這些技術促進了更快的訓練,也可能有助于預訓練中龐大的基礎模型。
最近的許多工作回顧和總結了高效的訓練技術,主要包括引入了高效的預訓練模型,設計了新的加速組件,先進的優化方法,在NLP或CV社區上的高效訓練,以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作,并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型,主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧,討論了它們在每個不同社區的成果的最新研究進展,這些成果可能會給本地研究帶來新的思考。同時,系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型,并回顧了Transformer模型的幾種變體,這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展,介紹了Transformer模型的詳細演變,并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發,提出了一些提高Transformer模型訓練效率的策略,并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述,包括計算效率、存儲效率和硬件/算法協同設計。與它們不同,我們更關注基本的加速技術,不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐,以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展,包括新的優化器和策略,以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗,總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法,并討論了它們的效率和缺點。
近年來,高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展,但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下,本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧,這些技術獨立于任務或模型架構。從實踐效率的角度來看,我們認為高效的訓練主要圍繞兩個明確的目標:
為了達到相當的測試精度,高效的訓練需要更少的訓練時間。
在相似的訓練成本下,高效的訓練可以實現更高的性能。
該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構,本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外,由于我們的調研是無任務和無模型的,因此提供了訓練加速技術的廣泛泛化,可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理,研究人員可以開發更快、更有效的模型,而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述,為機器學習領域做出了重大貢獻。 本文對解決一般的基本最小化問題很感興趣,可以很容易地擴展到訓練基礎模型或預訓練任務:
與之前的工作不同,本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件,這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中,省略了額外的近端項。在不損失通用性的情況下,使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:
在表1中,我們總結了這些符號及其對應的研究領域。基于式(3),通過提煉和拆分組件的不同角色,將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析,以對當前用于訓練大規模模型的通用加速技術進行分類,并結合實際實現的可行性。具體來說,它們是:
以數據為中心的有效訓練。在深度學習中,全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高,盡管在早期階段表現有效。為了解決這個問題并提高泛化性能,以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性,從而在實際應用中具有更好的泛化性能。同時,為了實現有效加速并進一步提高模型的通用性,以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外,它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明,課程學習是一個循序漸進的過程,可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本,逐步恢復到高質量的樣本。總之,以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。
以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡,例如基于卷積的神經網絡(CNN),多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化,更多地關注DNNs的計算復雜性,以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說,架構近似側重于采用簡化的算子組合,以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率,也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態,可以有效地加快收斂速度,防止訓練過程在早期崩潰。總之,以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法,它具有很強的實用性,可以很容易地在任何深度學習框架中實現。
以優化為中心的高效訓練。為提高優化效率,總結了三個主要因素,即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而,要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此,以學習率為中心的方法旨在開發高效和靈活的策略,以高效和穩定地訓練模型。第二個因素,批量大小,在優化中也起著關鍵作用。借助GPU設備的并行計算能力,特別是在計算資源充足的情況下,通過增加單個minibatch中的樣本數量可以提高訓練效率。因此,以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看,我們總是努力實現一個具有高穩定性的目標,這是以目標為中心的方法的主要關注點。這些方法專注于優化目標,提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述,以優化為中心的方法研究了訓練過程中的高效迭代計算,為高效訓練提供了堅實的保證。
有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率,在這些場景中,計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練,同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練,研究人員和從業人員可以充分利用可用資源,避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發,這些模型更實用,更適合于資源通常有限的現實世界應用程序。
以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現,能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯,以解決跨設備通信中的瓶頸,并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練,訓練過程被分布為更小的計算任務,在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架,如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練,并顯著減少了大規模深度學習模型的訓練時間。
總而言之,本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分,我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分,我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:
從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術,總結了它們的技術路線和每個組件的實現,有助于為無任務和無模型的高效訓練提供堅實的指導。
比較了訓練加速中每個組件的優缺點,展示了它們的見解和互動,可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。
對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析,這可以為它們未來的發展提供指導。
本調查的主要結構組織如下。在第2節中,介紹了一些初步工作,包括不同骨干中的基本模塊,以及對大規模深度學習模型、數據集的預訓練,以及本綜述中采用的詳細符號。在第3 ~ 6節中,基于迭代公式(3),從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中,我們討論和總結了本綜述中的技術,并提出了一些有前途的研究方向。
知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。
//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5
從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。
知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。
預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:
知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。
對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。
我們的貢獻總結如下:
建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。
概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。
**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。
**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。
**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。
東北大學等最新《進化深度學習:原理、算法、應用》綜述,34頁pdf闡述EDL概念以及技術體系。
近年來,深度學習(deep learning, DL)在業界和學術界都有了迅速的發展。然而,尋找DL模型的最優超參數往往需要很高的計算成本和人類的專業知識。為了緩解上述問題,進化計算(EC)作為一種強大的啟發式搜索方法,在DL模型的自動化設計中顯示出了顯著的優點,即進化深度學習(EDL)。本文旨在從自動化機器學習(AutoML)的角度分析EDL。具體地說,我們首先從機器學習和EC兩個方面闡述了EDL,并將EDL視為一個優化問題。在此基礎上,我們系統地介紹了特征工程、模型生成、模型部署和新的分類(即,什么和如何進化/優化)的EDL方法,并重點討論了EC處理優化問題時的解決方案表示和搜索范式。最后,提出了該技術的關鍵應用、有待解決的問題和未來的研究方向。本調研回顧了EDL的最新發展,并為EDL的發展提供了有見地的指導方針。
//www.zhuanzhi.ai/paper/63eefaab90ccabdeb3609e320198c072
深度學習(Deep learning, DL)作為一種很有前景的技術,已被廣泛應用于各種具有挑戰性的任務,如圖像分析[102]和模式識別[104]。然而,DL的實踐者努力手動設計深度模型,并通過試錯找到合適的配置。如圖1所示,在特征工程(feature engineering, FE)[225]、模型生成[257]和模型部署[29,31]等不同階段,將領域知識輸入DL。然而,專家知識的難以獲取使得深度學習的發展面臨著巨大的挑戰。相比之下,深度神經網絡(DNNs)的自動設計在最近幾十年趨于流行[71,257]。主要原因在于自動機器學習(AutoML)在FE[225]、參數優化(PO)[242]、超參數優化(HPO)[185]、神經結構搜索(NAS)[71,230,257]和模型壓縮(MC)[78]中的靈活性和計算效率。因此,無需人工干預的AutoML技術引起了人們的極大關注,并取得了很大的進展。
進化計算(Evolutionary computation, EC)因其靈活性和自動進化機制而被廣泛應用于自動數字學習中。在電子商務中,環境選擇驅動種群個體向最優解或前沿進化[88]。目前,有許多由EC驅動的自動深度學習方法,被稱為進化深度學習(EDL)[52, 196, 246, 247]。例如,在特征工程[225]、模型生成[230,257]和模型部署[31]等方面開展了大量EC研究,如圖1所示。因此,電子商務與數字圖書館的整合已經成為學術界和產業界的研究熱點。此外,在圖2中,Web of Science中涉及EC & DL的文章數和被引用數在2012年前后逐漸增加,而在隨后的十年中急劇增加。因此,EDL領域的研究越來越多。
為了填補這一空白,我們打算對EDL進行詳細的全面回顧。這項工作的主要貢獻如下。
本文從DL和EC的角度對EDL的現有工作進行了綜述,以促進ML和EC社區讀者的理解,并從EC的角度將EDL制定為一個優化問題。
該調研從特征工程、模型生成和新分類法的模型部署方面描述和討論了EDL,其中重點討論了解決方案表示和搜索范式。據我們所知,很少有調研研究進化模型的部署。
在全面回顧EDL方法的基礎上,討論了EDL的一些應用、有待解決的問題和發展趨勢,對EDL的發展具有指導意義。
本文的其余部分組織如下。第2節介紹了EDL的概述。在第3節中,介紹了EC驅動的特征工程。EC驅動的模型生成將在第4節中討論。第5節回顧EC驅動的模型壓縮。然后,在第6節討論了EDL的相關應用、有待解決的問題和發展趨勢。最后,第七部分對本文進行了總結。
進化深度學習 Evolutionary Deep Learning
與傳統的深度學習嚴重依賴專家或領域知識來構建深度模型不同,深度學習是通過進化過程來自動設計深度模型[164,191,231,246]。
從深度學習的角度來看:傳統的深度學習需要大量的專家知識來發明和分析特定數據集或任務的學習工具。相反,EDL可以被視為一種對人類友好的學習工具,它可以在給定的數據集或任務上自動找到合適的深度模型[230]。換句話說,EDL專注于學習工具的易用性。
從EC的角度來看:將模型的配置表示為個體,將性能作為需要優化的目標。EC在進化機制驅動的優化過程中起著重要作用。也就是說,EDL可以看作是一個尋找高性能的深度模型的最優配置的進化優化過程。
從上面的分析來看,EDL的目的不僅是通過自動構建的方法(從深度學習的角度)增加深度模型對學習任務的適應性,而且試圖在設計的目標或約束下(從EC的角度)實現最優模型。
在本節中,根據“要進化/優化什么”和“如何進化/優化”,提出了EDL方法的新分類,如圖4所示。
“要進化/優化什么”: 我們可能關心“EDL可以做什么”或“EDL可以解決什么類型的問題”。在特征工程中,有三個關鍵問題需要解決,分別是特征選擇、特征構建和特征提取[230]。在模型生成中,參數優化、架構優化和聯合優化成為關鍵問題[257],而模型部署則涉及到模型剪枝等壓縮技術問題。
“如何發展/優化”: 這個問題的答案是為EC設計合適的解決方案表示和搜索范式,以及為NAS設計加速策略。該表示方案設計用于個體編碼、實現最優配置的搜索范式、減少時間或資源消耗的加速策略。根據以上分類,我們將在第3節、第4節和第5節分別詳細介紹特征工程、模型生成和模型部署中的EDL。
結論
隨著機器學習和進化計算的發展,在EC優化框架下,提出了許多EDL方法來自動優化深度模型的參數或結構。與人工設計的方法相比,EDL方法在魯棒性和搜索能力方面具有競爭力。因此,EDL已經成為一個熱門的研究課題。
在這次調研中,我們首先從DL和EC的角度介紹EDL,以方便來自ML和EC社區的讀者理解。然后,我們將EDL定義為一個復雜的優化問題,并從特征工程、模型生成到模型部署等方面全面介紹了解決EDL優化問題的EC技術,以形成一個新的分類(即,在EDL中什么、哪里和如何進化/優化)。詳細討論了EDL流水線不同階段的解表示和搜索范式。然后討論了基于歐共體的研究方法與非歐共體研究方法的優缺點。隨后,對各種應用程序進行了總結,以展示EDL在處理現實世界問題方面的潛在能力。
盡管EDL方法在AutoML中取得了很大的進展,但仍有許多具有挑戰性的問題需要解決。例如,有效的加速策略對于減少昂貴的優化過程至關重要。另一個問題是處理大規模數據集,以及如何在不同的EDL方法或非ec方法之間進行公平的比較。需要更多的研究從理論上分析或解釋EDL的搜索能力。此外,在提高EDL在兩種基準測試(例如,大規模和小規模數據)和真實應用程序上的性能方面還需要做很多工作。最后,端到端EDL的開發具有一定的挑戰性,值得我們付出更多的努力。
來自香港科技大學、IDEA、中科院、清華、微軟等發表《視覺語言智能》綜述論文,從時間的角度對視覺語言智能進行了全面的研究。非常值得關注!
本文從時間的角度對視覺語言智能進行了全面的研究。這項研究的靈感來自于計算機視覺和自然語言處理的顯著進展,以及從單一模態處理到多模態理解的最新趨勢。我們將這一領域的發展總結為三個時期,即任務特定方法,視覺語言預訓練(VLP)方法,以及由大規模弱標記數據訓練的大模型。我們首先以一些常見的VL任務為例,介紹了特定于任務的方法。然后我們重點介紹了VLP方法,并全面回顧了模型結構和訓練方法的關鍵組成部分。之后,我們展示了最近的工作是如何利用大規模的原始圖像-文本數據來學習語言對齊的視覺表示,這種視覺表示在零或少數樣本學習任務中得到了更好的泛化。最后,我們討論了在模態協同、統一表示和知識整合方面的一些潛在的未來趨勢。我們相信這篇綜述將有助于人工智能和ML的研究人員和實踐者,特別是那些對計算機視覺和自然語言處理感興趣的人。
引言
計算機視覺(CV)和自然語言處理(NLP)是人工智能(AI)的兩個分支,它們專注于在視覺和語言上模擬人類智能。近十年來,深度學習在這兩個領域極大地推進了單模態學習,并在一系列任務上取得了最先進的成果。深度學習的顯著進步的核心在于快速發展的GPU和大規模數據集的可用性,這允許在大規模上加速深度模型的訓練。
隨著深度學習的發展,我們看到了一系列功能強大的神經網絡的發展。傳統的神經網絡通常是多層感知器(MLP),由多個堆疊的線性層和非線性激活組成(Rosenblatt, 1957, 1961)。LeCun等人(1998)提出了卷積神經網絡(CNN),將平移不變特性作為對2D視覺輸入更好的誘導偏差,這啟發了大量的深度神經網絡,包括AlexNet (Krizhevsky et al., 2012)、VGGNet (Simonyan and Zisserman, 2015a)、googlet (Szegedy et al., 2015)、和ResNet (He et al., 2016a)。另一個突出的突破是自然語言處理(NLP)領域的循環神經網絡(RNN),它提出了循環細胞用于順序數據建模(Rumelhart et al., 1985; Hochreiter and Schmidhuber, 1997a)。為了緩解長序列訓練中梯度的消失和爆炸問題,提出了RNN的一種變體LSTM (Hochreiter and Schmidhuber, 1997a)和LSTM的一種更高效的版本GRU (Chung et al., 2014)。NLP的另一個重大突破是Transformer (Vaswani et al., 2017),它利用注意力機制追求更好的語言表征。使用多個堆疊的注意力層,Transformer可以以高并行性在全局范圍內融合語言標記上的信息,這有利于強大的表示和大規模的訓練。
雖然在單一模態領域取得了令人鼓舞的進展,但現實世界的問題往往涉及多種模態。例如,自動駕駛汽車應該能夠處理人類的命令(語言)、交通信號(視覺)、道路狀況(視覺和聲音)。即使是單模態學習也能從多模態學習中受益。例如,語言學習需要感知,而感知是許多語義公理的基礎(Bisk et al., 2020)。感知是人類理解物質世界的方式,決定了人類語言背后的假設。因為我們都聽到和看到同樣的事情,我們會留下一些知識作為常識,這些知識在我們的語言中是不成文的(Bisk et al., 2020)。即使局限于語言,言語也比文本包含更多有用的信息,例如,韻律可以暗示情感。注意到多模態感知在多模態和單模態任務中都有幫助,有大量的研究工作。多模的領域內, 視覺和語言的集成得到太多的關注, 因為視覺是人類最重要的感知理解環境和l語言對齊視覺特征可以極大地提高視覺任務的表現和視覺語言任務。此外,視覺語言智能的普及還得益于該領域豐富的數據集和基準。
解決許多特定于任務的VL問題的動力推動了VL學習的初步發展。這些VL問題包括圖像描述、視覺問答(VQA)、圖像-文本匹配等。Xu et al. (2015); Karpathy et al. (2014); Vinyals et al. (2015)集成了一個CNN圖像編碼器和一個RNN文本解碼器用于圖像描述。Antol et al. (2015); Yang et al. (2016); Anderson et al. (2018b) 通過將圖像和文本映射到相同的潛在空間并從潛在表征中預測答案來解決VQA任務。Kiros et al. (2014); Karpathy et al. (2014); Huang et al. (2016); Lee et al. (2018)通過計算圖像和文本在句子級別或標記級別上的相似度來進行圖像-文本匹配。這些模型是為各種數據集的特定問題量身定制的,每個模型只能解決一個任務。
受普遍存在的語言(Devlin et al., 2018)和視覺的預訓練和微調的啟發,視覺和語言跨學科領域迎來了一個新時代:通過圖像-文本對的預訓練來學習視覺和語言的聯合表征。VLP模型的興起主要是受到了架構設計和訓練方法中的語言模型的啟發。例如,最近的許多研究(Li et al., 2019b; Lu et al., 2019; Zhang et al., 2021; Tan and Bansal, 2019; Li et al., 2020b; Yu et al., 2020; Chen et al., 2020)采用了BERT-like (Devlin et al., 2018)架構和訓練方法。由于缺乏足夠大規模的人工標注數據,VL學習的發展面臨著嚴峻的挑戰。最近,一些研究(Radford et al., 2021; Jia et al., 2021; Wang et al., 2021; Li et al., 2021b)通過采用對比學習和利用大規模網絡爬行數據學習視覺語言特征,打破了這一限制,這些特征可用于零樣本學習。
VL領域的快速發展推動了對該領域現有研究的全面綜述。本文旨在提供一個結構化的綜述,在VL領域的最新進展,以幫助研究人員獲得一個整體的視圖,并更好地理解最近的研究。我們將VL學習的發展分為三個階段。第一個是從2014年到2018年,專門的模型被設計用于不同的任務。第二個時代是2019年至2021年,在此期間,通過對標記良好的VL數據集進行預訓練,學習視覺和語言的聯合表征。最后,隨著2021年CLIP的出現,第三個時代開始了(Shen等人,2021年),研究人員尋求在更大的弱標記數據集上預先訓練VL模型,并通過預訓練VL獲得強大的零樣本/少樣本視覺模型。
回顧VL智能的整個發展過程,我們發現總體目標是學習良好的視覺表征。一個好的視覺表示應該具有(Li et al., 2021b)中總結的三個屬性,即對象級、語言對齊和語義豐富。對象級意味著視覺和語言特性的粒度應該分別與對象級和詞級一樣細。語言對齊強調與語言對齊的視覺特征可以幫助完成視覺任務。語義豐富是指不受領域限制地從大規模數據中學習表示。在VL的第一個時代,研究工作的目的是解決具體的問題,而不是學習上述好的表征。在第二個時代,研究人員訓練模型的圖像-文本對,以獲得語言對齊的視覺特征。這個時代的一些作品采用檢測到的區域作為圖像表示,學習對象級的特征。只有在第三時代,研究人員才能處理大規模的數據集和預訓練的語義豐富的特征。
據我們所知,這是第一次從時間段的角度總結研究的VL綜述。本文的其余部分組織如下。我們從VL中的一些特定于任務的問題開始,如第二節中的圖像標題、VQA和圖像-文本檢索。然后,我們在第三節中全面解釋了預訓練增強的視覺-語言聯合表征學習。在第六節中,我們展示了一些直接從原始圖像-文本數據學習語言對齊的視覺表示的工作,以及大規模的視覺語言訓練。
VLP方法發展概覽
與特定任務問題的比較。任務分為四類。對于每個任務,我們總結了輸入、輸出、數據集、度量和主流方法。
未來發展
在過去的幾年中,我們見證了VLP模型如何擴展到使用大量弱標記和更多樣化的數據。在未來,模型和數據將繼續擴大,以實現更強的模態協作,甚至統一表示。此外,知識的整合可以進一步增強VLP模型的泛化能力。在本節中,我們將討論這些未來的趨勢。
模態合作
除了利用VL數據集改進跨模態任務外,模態合作還出現在訓練前以提高單模態任務和多模態任務的性能。模態合作是幫助不同模態的人互相幫助,學習更好的表現。例如,用視覺數據改進語言任務,用單模態數據改進跨模態任務
通用統一模態
由于Transformer架構,研究人員在單模態和多模態表示學習方面都取得了顯著進展。在前幾節中,我們討論了多模態表示和模態合作,它們以不同的方式連接視覺和語言。一個更雄心勃勃的目標是建立一個通用的表示模型,它可以統一多種模態。
VL+知識
許多VL任務需要常識和事實信息超出訓練數據集。