亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于智能體的建模與仿真已發展成為模擬復雜系統的強大工具,提供了對涌現行為和多樣智能體之間互動的洞見。將大型語言模型整合到基于智能體的建模和仿真中,為增強仿真能力提供了有希望的途徑。本文調研了在基于智能體的建模與仿真中利用大型語言模型的領域格局,考察了它們的挑戰和有希望的未來方向。在這項綜述中,由于這是一個跨學科領域,我們首先介紹基于智能體的建模與仿真以及大型語言模型賦能智能體的背景。然后,我們討論將大型語言模型應用于基于智能體的仿真的動機,并系統分析在環境感知、人類協調、行為生成和評估中的挑戰。最重要的是,我們提供了大型語言模型賦能的基于智能體的建模與仿真在多種場景下的最新工作綜述,這些場景可分為四個領域:網絡、物理、社會和混合,涵蓋了現實世界和虛擬環境的仿真。最后,由于這個領域是新的且快速發展的,我們討論了開放性問題和有希望的未來方向。

//www.zhuanzhi.ai/paper/a5b311fe2576ef865dbdcbb6c6eacda5

仿真作為一種計算工具,涵蓋了通過使用數學公式、算法或計算機生成的表示來模擬現實世界過程或系統,以模仿其行為或特征。基于智能體的建模與仿真專注于通過模擬個體智能體及其在環境中的相互作用來模擬復雜系統[135]。它通過賦予這些智能體特定的行為、屬性和決策能力來運作,使我們能夠檢查由智能體相互作用和環境動態產生的涌現現象。仿真的重要性跨越多個領域,是理解、分析和預測實際生活中可能難以或無法直接觀察的復雜現象的寶貴工具。它促進了實驗、假設測試和情景分析,提供了在不同條件下系統行為的洞見,并在經濟學、生物學、社會學和生態學等領域的決策過程中提供幫助。獲得和使用語言的能力是區分人類和其他生物的關鍵方面[90]。大型語言模型(LLMs)的出現是機器學習中的一個最新里程碑,展示了在自然語言處理任務和文本生成方面的巨大能力[235]。利用它們強大的能力,LLMs在通過更細膩和現實的方式表示智能體的決策過程、溝通和適應模擬環境方面顯示出了提升基于智能體仿真的前景。將LLMs整合到基于智能體的建模和仿真中,有潛力豐富仿真的真實性和復雜性,可能會深入洞察系統行為和涌現現象的原因如下: 首先,LLM 智能體可以根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。其次,LLM 智能體具有很強的智能,可以像人一樣做出反應,甚至主動采取具有自導向的規劃和調度的行動 [208, 219]。LLM 智能體的行動空間既不局限于文本,對于文本,工具用法和內部行動模塊允許代理采取各種行動 [171]。最后,LLM 智能體可以與人類或其他智能體進行互動和交流 [152]。憑借以上三點優勢,LLM 智能體已被廣泛接受使用[153、122、117、152、111、125、111、73、105、27、29]。從這個角度看,LLM 智能體顯然可以作為一種新的模擬范例,賦予代理以人類水平的智能。由于 LLM 智能體的巨大潛力,近來這一領域的研究工作呈現出蓬勃發展的態勢。然而,迄今為止,還沒有一份綜述能系統地總結相關工作、討論尚未解決的問題,并為重要的研究方向提供一瞥。在本綜述中,我們分析了為什么大型語言模型在仿真的基本問題中至關重要,尤其是對于基于智能體的仿真而言。在討論了如何在這一新范式中設計智能體之后,我們仔細而廣泛地討論并介紹了各個領域的現有著作,其中大部分是近期發表的。本綜述的貢獻可歸納如下

  • 我們首先回顧了基于大型語言模型的智能體建模與仿真的現有著作。與現有方法相比,我們系統地分析了為什么大型語言模型可以作為基于智能體建模與仿真的先進解決方案。具體而言,我們首先從自主性、社會能力、反應性和主動性四個方面廣泛闡述了基于智能體的建模與仿真對智能體能力的要求。然后,我們分析了大型語言模型如何應對這些挑戰,包括感知、推理和決策、適應性和異質性。

-** 我們將基于智能體的建模與仿真分為物理、網絡、社會和混合四個領域,這四個領域可以涵蓋主流的仿真場景和任務**,之后我們介紹了相關的工作,對如何設計仿真環境以及如何構建由大型語言模型驅動的仿真代理進行了詳細的討論。

  • 除了這一新領域的現有工作外,我們還討論了四個重要的研究方向,包括改進仿真的擴展性、開放仿真平臺、魯棒性、倫理風險等,相信這將對未來的研究有所啟發大型語言模型和 LLM 驅動的智能體

大型語言模型(LLMs),如 ChatGPT [149]、Gemini [55]、LLaMA [199]、Alpaca [192] 和 GLM [227],是語言模型的最新范式,從早期的統計語言模型 [23] 發展到神經語言模型 [144],再到預訓練語言模型 [31],最后發展到大型語言模型 [235]。憑借數十億個參數和廣泛的預訓練語料庫,LLM 不僅在文本生成、總結、翻譯等自然語言處理任務 [116, 232] 中表現出驚人的能力,而且在解決數學問題等復雜推理和規劃任務 [11] 中也表現出驚人的能力。在大規模語料庫上進行的預訓練為零點泛化奠定了基礎。此外,預訓練模型還可以針對特定任務進一步微調,以適應特定的應用場景 [103]。此外,在過去一年中,大型語言模型(如 ChatGPT 和 GPT-4)的進步已經實現了類似人類的推理能力,這是一個里程碑,現在被認為是人工通用智能(AGI)的種子。具體來說,獲取和使用語言的能力是我們人類區別于其他生物的一個關鍵方面[198]。語言是我們與環境互動的最重要機制之一,語言為高級能力奠定了基礎[90]。

因此,由于在感知環境和做出決策方面具有類似人類的智能,構建大型語言模型賦能的智能體是大有可為的[208, 219]。首先,LLM 智能體能夠根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。此外,在模擬過程中,LLM 智能體甚至可以形成新的想法、解決方案、目標等[71]。例如,AutoGPT [193] 在給出一組可用工具和最終任務目標時,可以自動安排計劃,體現了 LLM 在構建智能體方面的巨大潛力。同時,BabyAGI [226] 創建了一個運行無限循環的 LLM 驅動腳本,該腳本持續維護任務列表,其中每個任務都由 ChatGPT API [149] 根據任務上下文完成。其次,LLM 智能體具有足夠的智能,可以像人類一樣做出反應,甚至主動采取行動,進行自我導向的規劃和調度 [208, 219]。環境輸入并不局限于文本,最近的多模態融合模型還可以輸入其他類型的信息,如圖像或音頻 [239]。LLM 智能體的行動空間既不局限于文本,對于文本,工具使用能力允許智能體采取更多行動 [171]。最后,LLM 智能體具有與人類或其他人工智能智能體互動和交流的能力 [152]。在仿真,尤其是基于智能體的仿真中,代理的交流能力將個體仿真提升到了群體層面[80]。一個 LLM 驅動的智能體可以生成文本,另一個智能體可以接收并理解文本,進而為智能體之間或人類與智能體之間可解釋的交流提供基礎[152]。此外,社區層面的模擬需要智能體的異質性,而 LLM 智能體可以滿足這些要求,在社會中扮演不同的角色 [163]。由 LLM 智能體構建的人工社會可以進一步揭示具有集體智能體行為的蜂群智能體的出現 [73, 152],類似于人類社會中的群體智慧 [190]。如上所述,仿真系統廣泛采用了基于智能體的建模范式,這就要求智能體具有高級能力,很好地激發了大語言模式智能體在仿真場景中的應用。

基于智能體建模和仿真的 LLM 關鍵能力

基于智能體建模與仿真的大語言模式關鍵能力 如上所述,基于智能體的建模與仿真是許多領域仿真的基本方法[135, 65],但它仍然面臨幾個關鍵挑戰。大語言模式驅動的智能體不僅能滿足基于智能體的仿真要求,還能依靠其強大的感知、推理、決策和自我進化能力來解決這些限制,如圖 1 所示。 **感知 **

基于智能體的建模與仿真的核心是模擬單個智能體如何與環境進行交互[135],這就要求智能體能夠準確感知來自上述環境的各類信息。至于大語言模型賦能的智能體,語言能力能使智能體直接或間接地理解和應對多樣化的環境。一方面,理解和生成文本的基本能力使智能體能夠進行復雜的對話、談判和信息交換,并支持直接交互。另一方面,智能體與環境之間的界面可以通過文本進行操作 [194],從而實現間接交互。當然,除了智能體與環境的視角外,這種能力也支持不同智能體之間的交流。 值得一提的是,僅僅具備與環境和其他智能體互動的能力還不足以實現類人模擬。更具體地說,還要求基于大型語言模型的智能體 "設身處地",從而讓智能體想象自己確實身處環境之中。也就是說,LLM 智能體應能從 "第一視角視線"[178]出發,理解、感知并響應不同情境下的不同需求、情感和態度。這種能力能使模型更好地理解來自環境或其他智能體的信息,并產生更真實的反應。

推理和決策

傳統基于代理的仿真面臨的一個關鍵挑戰是,基于規則甚至基于神經網絡的代理不夠智能[48]。也就是說,智能體無法做出正確或最優決策,如在交通仿真中選擇擁擠的道路,或在社交網絡仿真中發送錯誤的信息。這可以解釋為,傳統的基于神經網絡的人工智能仍不如真人智能[97, 130, 139, 94]。相比之下,大語言模型賦能的智能體則表現出更強的推理能力,使其能夠在模擬中做出更明智的決策并選擇合適的行動。盡管能做出合適的決策,但大型語言模型賦能的智能體支持更好的基于智能體的建模和仿真的另一個關鍵優勢是自主性[72]。只需有限的指導、規定和目標,配備大型語言模型的智能體就能自主采取行動,為給定目標制定計劃,甚至實現新目標,而無需顯式編程或預定義規則[152]。也就是說,自主性使 LLM 智能體能夠根據實際情況動態調整自己的行動和策略,有助于提高仿真的真實性。

自適應學習和演化

對于基于智能體的建模與仿真而言,系統始終具有不確定性和不可控性[135]。換句話說,與模擬初始階段相比,環境和智能體的狀態可能完全不同。正如《瑞普-范-溫克爾》(Rip Van Winkle)的古老故事所講述的那樣,一個人在山中睡著了,醒來后發現周圍的世界在他沉睡期間發生了巨大的變化。也就是說,在長期的社會網絡模擬中,環境是不斷變化的[73];智能體應該能夠適應新的環境,制定的決策策略可能會大大偏離其原來的策略。顯然,自適應學習和進化對于傳統方法來說具有挑戰性,但幸運的是,基于大型語言模型的智能體可以解決這個問題 [132]。具體來說,憑借不斷從新數據中學習并適應不斷變化的語境的能力,LLM 智能體可以隨著時間的推移不斷演化行為和決策策略。智能體可以吸收新信息,分析數據中新出現的模式,并根據情境中的學習[60]相應地修改自己的反應或行動,這反映了現實世界實體的動態性質。這種適應性通過模擬智能體在應對不同刺激時的學習曲線和行為演變,增強了模擬的真實性。

異質性和個性化

俗話說,一人之肉,眾人之毒。對于基于智能體的仿真來說,具有異質個體的復雜社會[30]或經濟系統[26],智能體的異質性至關重要。具體來說,在基于智能體的建模和仿真中,智能體的異質性涉及表現個體之間的不同特征、行為和決策過程。與傳統仿真方法相比,基于智能體的仿真因其能夠適應不同的規則或參數而脫穎而出,具體討論如下。首先,現有方法的參數設置極其復雜[64, 135]。在這些模型中,影響智能體行為的變量繁多--從個人特征到環境因素--使得選擇和校準這些參數變得十分困難。這種復雜性往往會導致過度簡化,影響模擬在描述真實異質性方面的準確性[135]。此外,獲取準確、全面的數據為參數選擇提供信息也是另一項挑戰。也就是說,現實世界中能捕捉到不同情境下不同個體行為的數據可能很有限,或者很難收集到。此外,根據真實世界的觀察結果驗證所選參數以確保其可靠性,也增加了另一層復雜性。其次,規則或模型無法涵蓋異質性的所有方面,因為現實世界中的個體非常復雜[135]。使用規則驅動智能體行為只能捕捉到異質性的某些方面,但可能缺乏深度,無法囊括多樣化行為、偏好和決策過程的全部內容。此外,隨著模型能力的提高,試圖在單一模型中涵蓋異質性的所有方面未免過于理想化。因此,如何平衡模型的簡潔性和智能體建模的準確性成為基于智能體建模和仿真的關鍵挑戰,從而導致對智能體異質性某些方面的過度簡化或忽視。與傳統方法不同的是,基于 LLM 的智能體支持:1)通過內部類似人類的認知復雜性來捕捉復雜的內部特征;2)通過提示、上下文學習或微調來實現專業化和定制化特征。

結語

基于智能體的建模與仿真是各領域復雜系統建模的重要方法之一。大型語言模型的最新進展重塑了基于智能體的建模與仿真范式,為構建類似人類的智能體而不是由簡單規則或有限智能神經模型驅動的智能體提供了新的視角。在本文中,我們首先對基于智能體的大語言模型建模與仿真進行了綜述。我們系統地分析了基于智能體的建模與仿真為什么需要 LLM 智能體,以及如何應對關鍵挑戰。隨后,我們廣泛總結了網絡、物理、社會和混合四個領域的現有工作,仔細闡述了如何設計仿真環境、如何構建大語言模型賦能的智能體,以及基于智能體的仿真要觀察和實現什么。最后,考慮到現有研究尚未解決的局限性和這一快速發展的新領域,我們討論了有待解決的問題,并指出了重要的研究方向,希望能對未來的研究有所啟發。

付費5元查看完整內容

相關內容

本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。

視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。

在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。

**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。

在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。

其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。

?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。

1.1 什么是多模態基礎模型?

正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。

在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。

視覺理解模型(在圖1.2中用橙色突出顯示)

學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:

  • 標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。

  • 語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。

  • 僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。

  • 多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。

視覺生成模型(在圖1.2中用綠色突出顯示)

最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。

  • 基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。

  • 與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等

1.2 定義和從專業模型到通用助手的過渡

根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。

? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。

第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式

在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。

**提示范式的解釋 **

在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。

基礎模型解釋

隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。

結論

在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。

付費5元查看完整內容

新加坡公立大學最新《有限數據、少量樣本和零樣本下的生成建模》綜述》,詳述在數據約束下的生成建模,非常值得關注!

在機器學習中,生成建模旨在學習生成與訓練數據分布統計上相似的新數據。在本文中,我們調研了在有限數據、少量樣本和零樣本下學習生成模型的方法,稱之為“在數據約束下的生成建模”(GM-DC)。當數據獲取具有挑戰性時,例如在醫療健康應用中,這是一個重要的議題。我們討論了背景、挑戰,并提出了兩種分類法:一種是基于GM-DC任務,另一種是基于GM-DC方法。更重要的是,我們研究了不同的GM-DC任務和方法之間的交互。此外,我們強調了研究的空白、研究趨勢以及未來探索的可能方向。項目網站://gmdc-survey.github.io

生成建模是機器學習的一個領域,專注于學習訓練樣本的底層分布,從而能夠生成與訓練數據在統計屬性上相似的新樣本。生成建模在多個領域都產生了深遠的影響,包括計算機視覺[12, 78, 134]、自然語言處理[52, 171, 202]和數據工程[6, 76, 168]。多年來,生成建模取得了顯著的進展。諸如生成對抗網絡(GANs)[7, 12, 22, 48, 77, 125, 223]、變分自動編碼器(VAEs)[83, 170, 171]和擴散模型(DMs)[32, 118, 140, 161]這樣的創新方法在提高生成樣本的質量和多樣性上起到了核心作用。生成建模的進步推動了生成AI的最近的變革,為各種應用如圖像合成[24, 136]、文本生成[56, 66]、音樂創作[37, 190]、基因組學[115]等解鎖了新的可能性,還有更多其他應用[86, 148]。生成真實和多樣的樣本的能力為創意應用和新奇解決方案打開了大門[137, 142]。對生成建模的研究主要集中在擁有大型訓練數據集的設置上。StyleGAN [77] 使用Flickr-Faces-HQ (FFHQ) 學習生成逼真和多樣的人臉圖像,FFHQ是一個從圖片分享網站Flickr上收集的高質量的7萬張人臉圖片的數據集。更近期的文本到圖像生成模型是基于數百萬的圖像-文本對進行訓練的,例如,潛在擴散模型[140]是在擁有4億樣本的LAION-400M上訓練的[152]。但是,在許多領域(例如,醫學),收集數據樣本是具有挑戰性且昂貴的。在本文中,我們調查在數據約束下的生成建模 (GM-DC)。這個研究領域對于許多存在數據收集挑戰的領域/應用來說是非常重要的。我們對有限數據、少量樣本和零樣本下的學習生成模型進行了深入的文獻綜述。我們的調查是第一個為GM-DC中研究的所有類型的生成模型、任務和方法提供全面概述和詳細分析的,為研究景觀提供了一個易于訪問的指南(圖1)。我們涵蓋了基本的背景,提供了GM-DC的獨特挑戰的詳細分析,討論了當前的趨勢,并介紹了GM-DC的最新進展。我們的貢獻包括:i) GM-DC的趨勢、技術進化和統計數據(圖3; 圖4; 第5.1節); ii) 對GM-DC挑戰的新見解(第3.2節); iii) 兩個新的、詳細的分類法,一個是關于GM-DC任務(第3.1節),另一個是關于GM-DC方法(第4節); iv) 一個新的桑基圖,用于可視化研究景觀以及GM-DC任務、方法和方法之間的關系(圖1); v) 對單個GM-DC作品的有組織的總結(第4節); vi) 對未來方向的討論(第5.2節)。我們還提供了一個項目網站,其中包含一個交互式圖表,用于可視化GM-DC的景觀。我們的調查旨在為當前的研究景觀提供新的視角,為綜合文獻提供有組織的指針,并對GM-DC的最新進展提供有見地的趨勢。對于GM-DC的調查是不足的,我們的工作旨在填補這一空白。我們在arXiv上只找到了一篇關于GM-DC早期工作的調查,重點是GM-DC的某些方面[105]。這篇之前的調查集中在一部分GM-DC的論文上,只研究了以GANs為生成模型和一部分技術任務/方法的工作。我們的調查與[105]的差異在于:i) 范圍 - 我們的調查是第一個涵蓋所有類型的生成模型以及所有GM-DC任務和方法的調查(圖3); ii) 規模 - 我們的研究包括了113篇論文,并廣泛涵蓋了GM-DC的工作,而之前的調查[105]只涵蓋了我們調查中討論的工作的≈27%(圖2); iii) 時效性 - 我們的調查收集并調查了GM-DC中最新的論文; iv) 詳細性 - 我們的論文包括詳細的可視化(桑基圖、圖表)和表格,以突出顯示GM-DC文獻的交互和重要屬性; v) 技術進化分析 - 我們的論文分析了GM-DC任務和方法的進化,為最近的進展提供了新的視角; vi) 視野分析 - 我們的論文討論了在GM-DC中遇到的獨特障礙,并確定了未來研究的方向。本文的其余部分組織如下。在第2節,我們提供了必要的背景。在第3節,我們討論GM-DC的任務和獨特的挑戰。在第4節,我們分析了GM-DC的方法和手段。在第5節,我們討論開放的研究問題和未來的方向。第6節總結了這次調查。

圖1. GM-DC的研究景觀。該圖展示了GM-DC任務與方法(主要和子類別)以及GM-DC方法之間的互動。任務在我們提議的分類法中的表2中定義,方法在我們提議的分類法中的表3中定義。該圖的互動版本可以在我們的項目網站上查看。最好以彩色并放大查看

在數據約束下的生成建模:任務分類、挑戰

在本節中,首先,我們介紹了我們提出的關于不同GM-DC任務的分類方法(第3.1節),基于它們的屬性(例如,無條件或有條件的生成)來強調它們之間的關系和差異。接著,我們介紹了GM-DC的獨特挑戰(第3.2節),包括像領域接近度和不兼容的知識轉移等新的見解。后面,在第4節,我們介紹了我們提出的關于GM-DC方法的分類,其中詳細回顧了按照我們提出的分類法組織的各個工作。

在這一節中,首先,我們將展示我們為GM-DC提出的方法分類法。這種分類法系統地將GM-DC方法根據這些方法的主要思想分為七種方法(表3)。然后,我們將討論在我們提出的分類法下組織的各種GM-DC方法。 我們為GM-DC提出的方法分類法將GM-DC方法分為七組: (1)遷移學習:在GM-DC中,遷移學習的目的是使用在源域(擁有眾多和多樣的樣本)上預先訓練過的生成器的知識,來改善目標域生成器的學習效果。例如,此類別下的一些方法使用StyleGAN2在大型FFHQ[77]上的預訓練知識,來改進僅使用藝術家的少量畫作圖像為該藝術家的臉部畫作生成學習[122, 189, 213]。基于TL的GM-DC的主要挑戰是確定、選擇并保留源生成器對目標生成器有用的知識。在這一點上,有六個子類別:i) 基于正則化的微調,探索正則化來保留適當的源生成器知識以改進目標生成器的學習;ii) 隱空間,探索源生成器隱空間的轉換/操作;iii) 調制,將源生成器的權重凍結并傳輸給目標生成器,并在凍結權重之上添加可訓練的調制權重,以增加對目標域的適應能力;iv) 自然語言引導,使用自然語言提示和語言-視覺模型的監督信號來適應源生成器到目標域;v) 適應性意識,確定并保留對適應任務有重要意義的源生成器知識;vi) 提示調整,這是一個新興的思想,它凍結源生成器的權重,并學習生成視覺提示(令牌)來引導目標域的生成。

(2)數據增強:增強的目的是通過對可用數據應用各種變換{???? } ?? ??=1來增加數據分布的覆蓋面,從而改善GM-DC。例如,在此類別內,一些作品對可用的有限數據進行增強,使用100張Obama數據集訓練一個無條件的StyleGAN2[78],或者僅使用CIFAR-100數據集的10%訓練一個有條件的BigGAN[12]。這些方法的主要挑戰是增強泄露,其中生成器學習了增強的分布,例如,生成旋轉/噪音樣本。有三個代表性的類別:i) 圖像級增強,在圖像空間上應用變換;ii) 特征級增強,在特征空間上應用變換;iii) 變換驅動設計,利用每個單獨變換????的信息為高效的學習機制。

(3) 網絡架構:這些方法為生成器設計特定的架構,以在數據受限情況下提高其學習效果。此類別中的一些工作設計了淺層/稀疏的生成器,以防止由于過度參數化而對訓練數據過度擬合。設計新架構時的主要挑戰是,發現最優超參數的過程可能是費力的。對于GM-DC,有三種主要的架構設計:i) 特征增強,引入附加模塊以增強/保留特征圖中的知識;ii) 集成大型預訓練視覺模型,利用大型預訓練的視覺模型來幫助更準確的生成建模;iii) 動態網絡架構,在訓練過程中發展生成模型的架構,以補償數據受限。

(4) 多任務目標:這些方法通過引入額外的任務來修改生成模型的學習目標,以提取泛化表示并在數據受限情況下減少過度擬合。例如,一些工作基于對比學習[54]定義了一個前景任務,除了原始的生成學習任務,還可以拉近正樣本并推遠負樣本,以防止在有限的可用數據下過度擬合。在數據受限情況下,新目標與生成學習目標的有效整合可能具有挑戰性。這些工作可以被歸類為幾種方法:i) 正則化器,增加一個額外的學習目標作為正則化器,在數據受限時防止生成模型訓練過程中的不良行為。注意,此類別與基于正則化的微調不同,后者旨在保留源知識,而前者是在沒有源生成器的情況下進行訓練;ii) 對比學習,增加與前景任務相關的學習目標,使用解決此前景任務的額外監督信號來增強生成模型的學習過程;iii) 遮蔽,通過遮蔽圖像/信息的一部分引入替代學習目標,以提高生成建模,增加任務難度并防止學習瑣碎的解決方案;iv) 知識蒸餾,引入一個額外的學習目標,使生成器遵循一個強大的老師;v) 原型學習,強調學習分布中樣本/概念的原型作為一個額外的目標;vi) 其他多任務目標,包括共同訓練、塊級學習和使用擴散來增強生成。

(5) 利用頻率成分:深度生成模型顯示出頻率偏見,傾向于忽略高頻信號,因為它們很難生成[153]。數據受限可能會加劇這個問題[197]。此類別中的方法旨在通過在訓練過程中利用頻率組件來提高生成模型的頻率意識。例如,某些方法采用Haar小波變換從樣本中提取高頻組件。然后,這些頻率組件通過跳過連接輸入到各種層,以減輕與生成高頻細節相關的挑戰。盡管這種方法有效,但對于GM-DC使用頻率組件還沒有被徹底研究。通過合并更先進的提取頻率組件的技術,可以增強性能。

(6) 元學習:這些方法為看到的類創建帶有數據約束的樣本生成任務,并在元訓練期間跨這些任務學習元知識——所有任務共享的知識。然后,這些元知識被用于改善具有數據約束的未見類的生成建模。例如,一些研究作為元知識,學習融合花卉數據集[120]的看到類別??????????的樣本進行樣本生成。這種元知識使模型能夠從未見類??????????????生成新樣本,只需融合每個類的3個樣本。注意,由于這些作品在生成框架內采用了情景學習,訓練穩定性可能受到影響。沿這條線提出的方法可以歸類為三個類別:i) 優化,使用在看到的類上學到的權重初始化生成模型作為元知識,以便快速適應只有有限步驟優化的未見類;ii) 轉換,從看到的類的樣本中學習跨類別轉換作為元知識,并將它們應用于未見類的可用樣本以生成新樣本;iii) 融合,學習融合看到的類的樣本作為元知識,并將學到的元知識應用于通過融合未見類的樣本進行樣本生成。

(7) 建模內部塊分布:這些方法旨在學習一個圖像(在某些情況下是幾個圖像)內部的塊分布,然后生成具有任意大小和縱橫比的多樣本,這些樣本具有相同的視覺內容(塊分布)。例如,一些作品使用單個圖像訓練擴散模型,如“濱海灣金沙”,訓練后,擴散模型可以生成類似的圖像,但包括頂部相似的“金沙天空公園”的附加塔樓。然而,這些方法的主要限制在于,對于每一張單獨的圖像,通常都要從頭開始訓練一個單獨的生成模型,忽略了在這種情境下知識轉移的有效訓練潛力。沿這一線提出的方法可以歸類為兩個主要群體:i) 漸進訓練,逐步訓練生成模型,以在不同的尺度或噪聲水平上學習塊分布;ii) 非漸進訓練,通過實施額外的采樣技術或新模型架構在單一尺度上學習生成模型。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容

基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。

1. 引言

隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。

近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。

本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。

**基于深度遷移學習的工業監控方法總結 **

在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。

付費5元查看完整內容

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。

通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.

付費5元查看完整內容
北京阿比特科技有限公司