亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

生成人工智能(GenAI)標志著人工智能從“識別”能力轉變為能夠為廣泛任務“生成”解決方案的能力。隨著生成的解決方案和應用變得日益復雜和多面,解釋性(XAI)的新需求、目標和可能性也隨之涌現。在本工作中,我們詳細討論了隨著GenAI興起,XAI為何變得重要及其對解釋性研究的挑戰。我們還揭示了解釋應滿足的新興和出現的期望,例如涵蓋可驗證性、互動性、安全性和成本方面。為此,我們專注于綜述現有工作。此外,我們提供了一個相關維度的分類體系,使我們能更好地描述現有的XAI機制和GenAI的方法。我們討論了從訓練數據到提示的不同途徑以確保XAI。我們的論文為非技術讀者提供了簡短但精確的GenAI技術背景,重點介紹文本和圖像以更好地理解為GenAI新穎或調整的XAI技術。然而,由于關于GenAI的作品眾多,我們決定忽略與評估和使用解釋相關的XAI的詳細方面。因此,該手稿既適合技術導向的人員,也適合其他學科,如社會科學家和信息系統研究者。我們的研究路線圖提供了超過十個未來調查的方向。

生成人工智能(GenAI)展示了引起全球廣泛關注的顯著能力,涉及多個領域——從監管機構(歐洲聯盟,2023年),教育工作者(Baidoo-Anu和Ansah,2023年),程序員(Sobania等人,2023年)到醫療人員(Thirunavukarasu等人,2023年)。對于企業(Porter,2023年),GenAI有潛力每年解鎖數萬億美元的價值(麥肯錫公司,2023年)。同時,它也被認為是對人類的威脅(《衛報》,2023年)。這些相反的觀點是理解和解釋GenAI的關鍵動力。生成人工智能代表了由基礎模型驅動的AI的下一個層次(Schneider等人,2024b),AI能夠創造文本、圖像、音頻、3D解決方案和視頻(Gozalo-Brizuela和Garrido-Merchan,2023年;Cao等人,2023年),可以通過文本提示(White等人,2023年)由人類控制——參見表1,了解公共GenAI系統的示例。這是AI從主要能“識別”到能“生成”的重大進步。GenAI展示了前所未有的能力,如通過大學級考試(Choi等人,2021年;Katz等人,2024年)。它在被認為不適合機器的領域也取得了顯著的成果,例如創造力(Chen等人,2023a)。它對每個人都是可訪問的,如商業系統ChatGPT(Achiam等人,2023年)和Dall-E(Betker等人,2023年;Ramesh等人,2022年)所示。早期的生成人工智能方法,如生成對抗網絡(GANs),也能生成作品,但通常比現代模型如變壓器和擴散架構更難以控制。 對于GenAI的可解釋人工智能(GenXAI)技術能夠生成幫助理解AI的解釋,例如針對單個輸入或整個模型的輸出。傳統上,解釋由于多種需求而服務于多種目的;例如,它們可以增加信任并支持模型的調試(Meske等人,2022年)。對AI的理解需求在前GenAI時代更為廣泛。例如,解釋可以支持生成內容的可驗證性,從而有助于解決GenAI的主要問題之一:幻覺(如第3.1節所論述)。不幸的是,盡管過去幾年試圖設計解決方案來解決這些問題,可解釋人工智能(即使是前GenAI模型)仍然存在一些尚未解決的問題(Longo等人,2024年;Meske等人,2022年)。例如,最近一項關于XAI對人機交互影響的方法比較(Silva等人,2023年)發現,最好的方法(反事實)和最差的方法(僅使用概率分數)之間的得分差距僅為20%,這暗示復雜的現有方法與更復雜的方法相比優勢有限。因此,XAI技術距離最佳狀態仍有很大差距。其他工作甚至公開稱解釋性研究的“現狀大體上是無效的”(R¨auker等人,2023年)。因此,還有很多工作要做,了解當前的努力并在此基礎上進行改進是至關重要的——尤其是在減少高風險(《衛報》,2023年)的同時利用機會(Schneider等人,2024b)。 這篇研究手稿是朝這個方向進展的真誠嘗試。我們的目標不僅是(僅)列出和結構現有的XAI技術,因為在當前領域階段,需要解決更基本的問題,如識別GenXAI的關鍵挑戰和期望。為此,我們因此選擇了更多敘述性的審查方法(King和He,2005年)并伴隨著來自信息系統領域的分類發展方法(Nickerson等人,2013年)。已有多篇關于XAI的綜述關注前GenAI時代,主要是技術焦點(Adadi和Berrada,2018年;Zini和Awad,2022年;Dwivedi等人,2023年;Schwalbe和Finzel,2023年;R¨auker等人,2023年;Saeed和Omlin,2023年;Speith,2022年;Minh等人,2022年;Bodria等人,2023年;Theissler等人,2022年;Guidotti等人,2019年;Guidotti,2022年)和跨學科或社會科學焦點(Miller,2019年;Meske等人,2022年;Longo等人,2024年)。特別是,通過利用這些綜述,我們進行了一項元綜述來構建我們的方法,同時也借鑒了前GenAI的知識。然而,我們也揭示了與GenAI相關的尚未涵蓋的新方面。許多綜述調查了GenAI的各個方面(不包括XAI)(Xu等人,2023年;Lin等人,2022年;Xing等人,2023年;Yang等人,2023b;Zhang等人,2023a,c;Pan等人,2023年)。我們利用這些綜述為我們的技術背景。GenAI的某些子領域,例如知識識別和編輯(Zhang等人,2024年),使用孤立的XAI技術作為工具,但不旨在一般性地詳細論述它。雖然我們未能識別任何討論GenAI的XAI的綜述,但一些研究手稿對大型語言模型(LLM)的XAI采取了更全面、部分帶有觀點的觀點(Singh等人,2024年;Liao和Vaughan,2023年)或顯式綜述LLM的XAI(Zhao等人,2023a;Luo和Specia,2024年)。以前的工作沒有提供一份全面的GenAI XAI的期望、動機和挑戰清單和分類。特別是,我們的許多新方面在之前的工作中找不到。除此之外,即使只關注LLM,我們與以前的工作也有相當大的不同。 我們首先提供技術背景。 為了推導出貢猩,我們按照圖1所述進行:然后,我們提供了GenAI的XAI的動機和挑戰,尤其指向GenAI帶來的新方面,如GenAI在整個社會的廣泛影響和用戶需要交互調整通常復雜、難以評估的輸出的需求。基于此,我們推導出期望,即解釋應 ideally fulfill的要求,如支持互動和驗證輸出。然后,我們為GenAI的現有和未來的XAI技術推導出一個分類,為了分類XAI,我們使用與GenXAI技術的輸入、輸出和內部屬性相關的維度,這些維度將它們與前GenAI區分開來,例如自我解釋以及不同的來源和XAI的驅動因素,例如提示和訓練數據。 使用識別的挑戰和期望,本手稿的其余部分專注于討論GenXAI的新維度和 RESULTING TAXONOMY,討論與GenAI相關的XAI方法。最后,我們提供未來的方向 我們的關鍵貢獻包括描述GenAI的XAI需求、解釋的期望和包括新維度的機制和算法的分類。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

隨著大型語言模型(LLMs)的最新進展,結合LLMs與多模態學習的興趣日益增長。先前關于多模態大型語言模型(MLLMs)的綜述主要集中在理解方面。本綜述詳細闡述了不同領域的多模態生成,包括圖像、視頻、3D和音頻,并重點介紹了這些領域的里程碑式的顯著進展。具體來說,我們詳盡調查了這些方法背后的關鍵技術組件和研究中使用的多模態數據集。此外,我們深入探討了可以利用現有生成模型進行人機交互的工具增強型多模態代理。最后,我們還全面討論了人工智能安全的進展,并研究了新興應用及未來前景。我們的工作提供了對多模態生成的系統且深入的概述,預計將推動生成內容人工智能(AIGC)和世界模型的發展。所有相關論文的精選列表可以在//github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。

人與物理世界的互動涉及來自多種模態的信息,例如語言、視覺和音頻。因此,實現一個世界模擬器也需要模型能夠以靈活的方式感知和響應多模態信息。最近,OpenAI提出了一個基礎視頻生成模型Sora [1],能夠生成高度逼真的視頻作為世界模擬器。它在模擬或生成真實世界視頻方面取得了很大進展,但無法生成其他模態,如文本、3D和音頻。此外,它缺乏感知其他模態(如圖像、視頻、3D和音頻)的能力,使其成為一個無法全面理解的世界模擬器。

在過去的幾年中,研究人員專注于單一模態的生成并取得了很大的進展:在文本生成方面,我們見證了從BERT [2]、GPT1 [3]、GPT2 [4]、GPT3 [5]、GPT4 [6]到ChatGPT [7]、LLaMA [8]、[9]的定性飛躍,模型參數和訓練樣本數量迅速增長,導致模態能力和產品部署的不斷提升。在視覺生成領域,隨著擴散模型和大規模圖文數據集的快速進步,圖像生成取得了顯著成就,能夠根據各種用戶提供的提示文本合成高質量的圖像 [10]–[13]。隨后,通過視頻擴散模型和大規模視頻語言數據集,視頻生成領域也取得了重要進展,出現了許多開創性的工作,如 [14]–[22] 和Sora [1]。在3D生成方面,隨著CLIP [23]模型的出現,一些方法 [24]–[26] 嘗試將文本信息帶入3D表示的渲染圖像(即點云、網格、NeRF [27]和高斯投影 [28]),這些方法在文本到3D生成方面取得了顯著進展。此外,將Stable Diffusion (SD) [10]與文本到圖像渲染相結合,推動了一系列文本到3D生成的工作 [29]–[43]。強大的文本到圖像模型幫助3D生成實現了更高的性能和更好的結果。在音頻生成領域,一系列代表性工作涉及不同的音頻域,如 [44]–[46] 的文本到音頻、 [47]–[49] 的文本到音樂和 [50]–[55] 的文本到語音,它們在生成高質量的自然聲音、音樂和人類級語音方面取得了顯著的性能。

隨著大型語言模型(LLMs)的顯著進步,其他非文本模態開始利用LLMs的力量來增強其生成流程,或將文本生成與非文本生成集成到一個統一系統中,旨在實現更高級的功能和改進的生成性能。在圖像生成方面,有兩類方法與語言模型實現了顯著的整合。第一類方法涉及將視覺信息編碼為離散的令牌ID,試圖統一視覺理解與生成 [56]–[61]。具體來說,視覺信息被編碼為令牌表示,LLMs直接理解并生成視覺令牌,從而實現視覺理解與生成的同步。第二類方法專注于利用LLMs提升現有預訓練文本到圖像(T2I)模型的生成質量:一類工作涉及利用LLMs作為布局規劃器,結合對象的空間位置、數量和對象大小的知識,生成所需的邊界框 [62]–[66]。在獲得邊界框后,可以通過一個基于文本到圖像(T2I)模型生成圖像 [67]。另一種方法是利用LLMs擴展用戶輸入的提示 [68]:通過提供高度詳細和全面的用戶提示,LLMs通過豐富提示信息生成高質量的圖像。在LLMs的幫助下,視覺生成實現了更高的生成質量、改進的提示跟隨能力、對話功能和用戶友好界面。在視頻生成方面,LLMs作為統一的多模態聯合生成的通用骨干 [69]、[70],用于視頻布局規劃 [63]、[71]–[74] 和動態指導的時間提示生成 [75]–[79]。在3D生成和編輯方面,LLMs作為用戶與3D資產之間的橋梁,提高了交互效率 [80]、[81] 并幫助用戶理解 [82]、[83] 3D資產。在音頻生成和編輯方面,語言模型主要作為多模態音頻的協調骨干 [84]–[96],用于特定任務的條件器 [97]–[99],用于音頻理解的標簽器 [100]–[102],以及用于交互生成/編輯的代理 [103]–[108],并作為新方法的靈感來源 [47]、[48]、[53]、[109]–[111]。LLMs在音頻領域的日益廣泛使用不僅改變了我們與聲音和音樂互動的方式,還擴展了AGI與音頻技術交叉點的邊界。此外,多模態代理將多種模態整合到一個系統中,開發出一個能夠理解和生成非文本模態的通用系統。因此,LLMs在生成各種模式的內容中扮演著越來越不可或缺的角色。

為了賦能世界模擬器并推動多模態生成的發展,在這項工作中,我們對涉及LLMs在多模態生成中的工作及其在這一過程中的角色進行了全面回顧。如圖1所示,我們將LLMs的角色總結為幾個關鍵方面,如評估者、標注者、指令處理器、規劃者、語義指導的提供者或骨干架構。此外,我們在第9節討論了AIGC時代的重要安全問題,在第10節和第11節探討了新興應用和未來前景。

我們總結了我們的貢獻如下

  • 我們首次系統性地回顧了LLMs在多模態生成中的應用,包括圖像、視頻、3D和音頻。
  • 我們通過比較分析前LLM時代和后LLM時代的生成技術演變,提供了對這些方法進展和改進的清晰視角。
  • 我們從技術角度總結了LLMs在各模態生成過程中的各種角色。
  • 我們討論了重要的AI安全問題,研究了新興應用,并探索了未來方向,以促進多模態生成和世界模型的發展。 內容概述

我們首先在第2節回顧了關于特定模態生成和LLMs的相關綜述。接著在第3節簡要回顧了代表性生成模型、多模態編碼器、Transformer和LLMs的基本技術。然后,我們在第4節、第5節、第6節、第7節和第8節分別回顧了基于LLMs的不同視覺模態的視覺生成,包括圖像、視頻、3D、音頻和多模態代理。最后,我們在第9節討論了生成式AI的安全性,并在第11節探討了基于LLMs的多模態生成領域的幾個潛在未來方向。

范圍

本綜述探討了多種模態的生成,包括圖像、視頻、3D模型和音頻。我們的多模態生成綜述涵蓋了不同模態的單獨生成以及多模態的聯合生成。我們不會深入探討純文本生成,因為已有許多綜述專門關注該領域的進展 [112]–[114]。我們的主要關注點是近年來大型語言模型的出現如何幫助生成其他視覺和音頻模態,特別是在開放域生成方面。這將有助于我們設計更好的多模態統一生成模型。具體來說,我們關注以下任務:

  • 圖像生成與編輯:圖像生成旨在根據用戶提供的文本描述創建各種開放域圖像內容,包括圖片、照片或風格化繪畫。圖像編輯旨在根據用戶指示修改輸入的圖像內容。
  • 視頻生成與編輯:模型根據自由形式的文本描述生成或修改任意和各種動態視覺內容。
  • 3D生成與編輯:生成和編輯3D對象、場景或頭像的任務,基于用戶提供的文本描述。
  • 音頻生成與編輯:使用文本描述生成音頻,包括一般聲音、音樂和語音。音頻編輯任務如添加、刪除或修復涉及使用文本描述修改現有音頻。
  • 多模態生成代理:使LLMs能夠通過利用各種專門的多模態工具處理不同模態的數據。
  • 生成式AI安全:關注減少有害和偏見內容,保護版權,并解決多模態生成模型創建虛假內容的問題

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。

顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

在進行因果分析的關鍵挑戰是,確定正確的假設(如因果圖)需要大量的手動努力。由于不能僅從數據中學習因果圖,領域專家面臨著提供并驗證潛在因果關系的困難任務。在本次演講中,我將討論大型語言模型(LLMs)如何提供到目前為止被認為僅限于領域專家的新功能,例如推斷因果關系的方向,識別任何缺失的關系,或驗證因果分析中的基礎假設。首先,我將展示LLMs在因果圖發現方面的成果。基于GPT-3.5和4的算法在多種數據集上表現優于現有算法:涵蓋物理學、工程學、生物學和土壤科學等領域的Tuebingen成對數據集(97%,13點增益)、北極海冰覆蓋數據集(0.22漢明距離,11點增益)以及醫療疼痛診斷數據集。我們發現LLMs通過依賴如變量名等信息來推斷因果關系,這一過程我們稱之為基于知識的推理,它與非LLM基礎的因果發現是不同且互補的。其次,我將描述這些LLMs的功能如何可以擴展用于因果推斷流程中的有用任務:識別任何缺失的混淆變量,建議工具變量,建議可驗證因果分析的特殊變量(如負對照),以及關于根本原因歸因的推理。與此同時,LLMs展示了不可預測的故障模式,我將提供一些解釋它們穩健性的技術,特別是與數據集記憶有關。展望未來,通過捕捉關于因果機制的領域知識,LLMs可能為推動因果推理研究開辟新的前沿,并促使因果方法的廣泛采用。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容

可解釋人工智能(XAI)是一個新興的研究領域,為高度復雜和不透明的機器學習(ML)模型帶來了透明度。盡管近年來發展了多種方法來解釋黑盒分類器的決策,但這些工具很少用于可視化目的之外。直到最近,研究人員才開始在實踐中使用解釋來實際改進模型。本文對實際應用XAI以獲得更好的機器學習模型的技術進行了全面的概述,并系統地對這些方法進行了分類,比較了它們各自的優缺點。本文為這些方法提供了一個理論視角,并通過在toy和現實場景上的實驗,實證地展示了解釋如何有助于改善模型泛化能力或推理等屬性。進一步討論這些方法的潛在注意事項和缺點。我們的結論是,雖然基于XAI的模型改進甚至可以對復雜的和不容易量化的模型屬性產生顯著的有益影響,但這些方法需要謹慎應用,因為它們的成功取決于許多因素,例如使用的模型和數據集,或采用的解釋方法。

付費5元查看完整內容

機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作

付費5元查看完整內容

單圖像超分辨率(SISR)是圖像處理中的一項重要任務,其目的是提高成像系統的分辨率。近年來,在深度學習(deep learning, DL)的幫助下,SISR取得了巨大的飛躍,并取得了可喜的成果。在本文中,我們概述了基于深度學習的SISR方法,并根據它們的目標,如重建效率、重建精度和感知精度進行分組。具體地,首先介紹了問題的定義、研究背景和研究意義。其次,介紹了相關工作,包括基準數據集、上采樣方法、優化目標和圖像質量評價方法。第三,詳細介紹了系統集成研究的基本原理,并給出了系統集成研究的一些具體應用。第四,我們給出了一些經典的SISR方法的重構結果,直觀地了解了它們的性能。最后,本文還討論了該研究中存在的一些問題,并總結了一些新的發展趨勢和未來的發展方向。這是對SISR的詳細調研,有助于研究者更好地理解SISR,并激發更多的研究。關于SISR的調研項目見//github.com/CV-JunchengLi/SISR-Survey。

引言

圖像超分辨率,特別是單圖像超分辨率是一種圖像轉換任務,受到了學術界和工業界的越來越多的關注。如圖1所示,SISR的目標是從退化的低分辨率(LR)圖像重建超分辨率(SR)圖像。它被廣泛應用于各種計算機視覺應用,包括安全和監控圖像、醫學圖像重建、視頻增強和圖像分割。

許多SISR方法的研究由來已久,如基于插值的雙三次插值和Lanczos重采樣[1]。然而,SISR是一個固有的不適定問題,總是存在多個HR圖像對應一個原始LR圖像。為了解決這一問題,一些數值方法利用先驗信息來限制重構的解空間,如基于邊緣的方法[2]和基于圖像統計的方法[3]。同時,也有一些被廣泛使用的學習方法,如鄰居嵌入方法[4]和稀疏編碼方法[5],這些方法假設LR和HR patch之間存在轉換。

最近,深度學習(DL)[6]在許多人工智能領域表現出比傳統機器學習模型更好的性能,包括計算機視覺[7]和自然語言處理[8]。隨著DL技術的快速發展,許多基于DL的方法被提出用于SISR,不斷地推動了SOTA的發展。與其他圖像變換任務一樣,SISR任務一般分為三個步驟:特征提取與表示、非線性映射和圖像重構[9]。在傳統的數值模型中,設計滿足這些過程的算法既費時又低效。相反,DL可以將SISR任務轉移到一個幾乎端到端的框架中,包含所有這三個過程,這可以大大減少人工和計算費用[10]。此外,考慮到SISR的病態性質會導致結果不穩定和難以收斂,DL可以通過有效的網絡結構和損失函數設計來緩解這個問題。此外,現代GPU使更深、更復雜的DL模型能夠快速訓練,表現出比傳統數值模型更強的表示能力。

眾所周知,基于深度學習的方法可以分為監督方法和非監督方法。這是最簡單的分類標準,但這個分類標準的范圍太大,不清楚。因此,許多技術上不相關的方法可能被歸為同一類型,而策略相似的方法可能被歸為完全不同的類型。不同于以往的基于DL的SISR調研[11]、[12]以監督為分類標準或以純文獻的方式介紹方法,本次調研試圖對基于DL的SISR方法進行全面概述,并根據其具體目標進行分類。在圖2中,我們展示了這次調研查的內容和分類。顯然,我們將基于DL的SISR方法分為四類:重構效率方法、重構精度方法、感知質量方法和進一步改進方法。本調研有明確的背景,便于讀者查閱。具體來說,本文首先介紹了SISR的問題定義、研究背景和意義。然后介紹了相關的工作,包括基準數據集、上樣本方法、優化目標和評價方法。在此基礎上,詳細介紹了各種方法,并給出了它們的重建結果。最后,本文還討論了該技術存在的一些問題,并提出了一些新的發展方向和方向。總的來說,本次綜述的主要貢獻如下:

  • (1) 根據基于dl的SISR方法的目標,對其進行了全面的概述。這是一個新的視角,使調研有一個清晰的背景,便于讀者查閱。

  • (2) 本綜述涵蓋了100多種SR方法,并介紹了近年來SISR擴展的一系列新任務和特定領域的應用。

  • (3) 我們提供了詳細的重構結果對比,包括經典的、最新的和SOTA SISR方法,幫助讀者直觀地了解它們的性能。

  • (4) 討論了SISR存在的一些問題,總結了一些新的發展趨勢和未來的發展方向。

付費5元查看完整內容
北京阿比特科技有限公司