亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,隨著大型模型的顯著發展,大型視覺-語言模型(LVLMs)在各種多模態理解和推理任務中展示了卓越的能力。相比于傳統的大型語言模型(LLMs),由于更接近多資源的現實世界應用和多模態處理的復雜性,LVLMs 展示了巨大的潛力和挑戰。然而,LVLMs 的脆弱性相對較少被探索,在日常使用中可能存在潛在的安全風險。在本文中,我們對現有的各種 LVLM 攻擊形式進行了全面的回顧具體來說,我們首先介紹了針對 LVLMs 攻擊的背景,包括攻擊的初步知識、攻擊的挑戰和攻擊資源。然后,我們系統地回顧了 LVLM 攻擊方法的發展,如操縱模型輸出的對抗攻擊,利用模型漏洞進行未授權操作的越獄攻擊,設計提示類型和模式的提示注入攻擊,以及影響模型訓練的數據投毒攻擊。最后,我們討論了未來有前景的研究方向。我們相信,我們的調查為 LVLM 脆弱性的現狀提供了洞見,激勵更多研究人員探索和緩解 LVLM 開發中的潛在安全問題。最新的 LVLM 攻擊論文會在 //github.com/liudaizong/Awesome-LVLM-Attack 持續收集。

大型視覺-語言模型(LVLMs)在各種多模態下游任務中取得了顯著成功,并展示了很有前途的能力,如文本生成圖像 [91], [102], [104]、視覺問答 [2], [61], [115] 等等,這得益于數據量、計算資源和模型參數數量的增加。通過進一步利用大型語言模型(LLMs)[56], [63], [71], [94], [112], [143] 的強大理解能力,最近的 LVLMs [33], [75], [144] 基于 LLMs 展示出在解決復雜視覺-語言任務方面的優異表現,利用了適當的人類指令提示。盡管 LVLMs 具有顯著的能力,但其復雜性和部署的增加也暴露了其面臨的各種安全威脅和脆弱性,使得對這些模型攻擊的研究成為一個重要的研究領域。 一般來說,LVLMs 通過使用預訓練的視覺編碼器與語言模型結合,具備處理視覺信息和自然語言理解的能力。由于這種多模態特性,LVLMs 特別容易受到攻擊,因為多模態整合不僅放大了它們的脆弱性,還引入了在單模態系統中不存在的新攻擊向量。例如,視覺領域中的對抗樣本,通過細微改變圖像來欺騙模型,可以擴展到多模態場景中,在圖像和文本輸入都被操縱的情況下。類似地,針對語言理解組件的攻擊,如惡意設計的提示詞,當與視覺輸入結合時,可以破壞模型輸出的完整性。因此,有必要探索 LVLM 模型的潛在攻擊的安全性。 在過去的兩年中,有很多關于 LVLM 攻擊的論文提出。然而,如圖 1 所示,現有的 LVLM 攻擊發展多種多樣,從對抗攻擊、越獄攻擊、提示注入和數據投毒/后門攻擊到更微妙的形式,如偏見操縱和隱私泄露。具體來說,對抗攻擊是故意擾亂輸入以導致錯誤輸出,可能導致錯誤分類或錯誤的圖像描述,這在自動駕駛 [88], [106], [135] 或醫療診斷 [11], [68] 等應用中構成顯著風險。越獄攻擊利用模型的弱點繞過其預定限制,可能導致執行未授權命令或訪問敏感信息。提示注入攻擊通過操縱模型的提示輸入來改變其行為或輸出,這在依賴精確和準確響應的系統中特別危險。數據投毒,即篡改訓練數據,可能破壞模型的性能和可靠性。因此,對現有 LVLM 攻擊進行全面系統的回顧是必要的。 進行這項調查的動機。在過去的兩年中,提出了大量 LVLM 攻擊方法,并取得了相當的對抗性能。然而,這些方法的可用性很容易使研究人員或從業者在嘗試選擇或比較適用于手頭具體問題的算法時感到困惑。因此,有必要編寫一篇全面系統的調查,以供參考。盡管有少量針對大模型攻擊的相關調查論文,但我們在表 I 中列出了這些論文,并認為它們未能從完整的視角總結現有 LVLM 攻擊方法的全部類別和詳細發展。特別是,Chowdhury 等人 [29] 通過提供不同的文本提示修改策略,對 LLM 攻擊進行了調查,但在多模態場景中缺乏對更復雜 LVLM 的普遍性。劉等 [77] 是第一篇討論 LVLM 研究高層次安全問題的調查,但該文中提出的分類相對不完整和粗略。Fan 等 [38] 只總結了現有的基于圖像的 LVLM 攻擊方法,無法很好地涵蓋各種模態類型的 LVLM 攻擊方法(如文本提示注入)。因此,缺少對現有 LVLM 攻擊方法的全面回顧。 我們希望通過本調查論文能夠完整系統地梳理現有的 LVLM 攻擊方法,并以清晰的方式呈現出來。特別是,我們的調查涵蓋了 LVLM 攻擊的最新進展。首先,我們仔細整理了準備特定類型 LVLM 攻擊的基本背景知識。然后,我們全面總結了不同類型的 LVLM 攻擊方法,通過抽象出所有方法的共性,建立一個更全面的分類體系,并提出更具體和有前景的未來研究方向。通過這樣的視角,信息豐富的從業者可以自信地評估各種 LVLM 攻擊的權衡,并在使用一系列技術設計所需的 LVLM 攻擊時做出明智的決策。同時,系統開發者也可以認識到現有 LVLM 攻擊的局限性,并設計相應的防御策略,以提高模型的魯棒性。 進行這項調查的貢獻。我們的調查主要貢獻可以總結為三點

  • 據我們所知,這是第一篇全面概述 LVLM 攻擊現狀的調查,包括單模態和多模態攻擊方法。我們對不同類型的攻擊進行分類和檢查,突出了它們的方法、影響和所利用的潛在漏洞。通過揭示這些挑戰,這項調查強調了強大安全措施的重要性以及在不斷變化的威脅中保護 LVLMs 的持續進步的必要性。
  • 除了總結 LVLM 攻擊方法外,我們還仔細提供了通用 LVLM 攻擊的詳細背景: (1) 如何定義 LVLM 攻擊? (2) 實施 LVLM 攻擊常用的工具有哪些? (3) 應如何使用和處理 LVLM 數據? (4) 如何在不同設置下評估攻擊性能?
  • 提供了全面的方法比較和討論,幫助讀者更好地理解相應的攻擊架構。我們還概述了 LVLM 攻擊的潛在未來方向。 我們的調查組織如下。第二部分,我們提供了通用 LVLM 攻擊的詳細背景,包括攻擊初步知識、現有挑戰和攻擊資源。第三部分將現有攻擊方法分類為四類,即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊,并討論它們的優缺點。第四部分,我們概述了未來的研究方向。最后,第五部分總結了本文。

**方法 **

現有的 LVLM 攻擊者通常可以分為四類:對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊。對于對抗攻擊,它們利用梯度優化噪聲,以一種對人類來說通常是不可察覺的方式擾亂輸入數據,但卻導致模型產生不正確或不理想的輸出。這些擾動是精心設計的,旨在利用模型的脆弱性。對于越獄攻擊,它們利用模型中的弱點繞過其預定的限制和控制。這種類型的攻擊可能導致模型執行未經授權的命令、訪問受限數據或執行超出其設計能力的操作。對于提示注入攻擊,它們通過操縱模型的輸入提示來以意想不到的方式改變其行為或輸出。通過注入惡意或誤導性提示,攻擊者可以引導模型生成不正確、偏見或有害的響應。對于數據投毒/后門攻擊,攻擊者篡改訓練數據以破壞模型的性能和可靠性。在這些攻擊中,惡意數據被插入訓練數據集中,導致模型學習和傳播錯誤的模式。特別是,后門攻擊通常涉及在數據訓練中嵌入隱藏觸發器。當觸發器被激活時,會導致模型以特定和有害的方式行為。基于上述攻擊者的動機和架構,我們提出了圖 2 中的分類法來分類 LVLM 攻擊方法。接下來,我們將按照此分類法回顧現有的研究工作,并討論每種方法類別的特征。

** **

**未來方向 **

盡管當前的研究已經識別并探索了大型視覺-語言模型(LVLMs)上的各種攻擊方法,但我們期望未來在潛在 LVLM 攻擊方面取得更多進展。未來的研究應深入了解和開發新穎的攻擊方法,以全面評估和提高這些模型的魯棒性。未來研究的關鍵領域包括:

  1. 現有的 LVLM 攻擊者通常依賴于受害模型的詳細先驗知識,并且是任務特定的,導致設計擾動的成本顯著。然而,大多數現實世界的 LVLM 應用不會向用戶公開其模型細節。
  2. 大多數 LVLM 攻擊者生成針對特定受害模型的對抗樣本,這可能傾向于過擬合目標網絡,但一旦轉移到攻擊不同的受害模型時,很難保持惡意性。
  3. 在現有的 LVLM 攻擊中,擾動分別隱藏在不同的模態中。然而,多模態擾動之間的相互作用仍然未被充分探索。
  4. LVLM 模型嚴重依賴于訓練數據的質量。因此,研究如何通過有針對性的操縱而無需直接的對抗輸入來放大訓練數據中的現有偏見是一個有前景的方向。
  5. 隨著 LVLMs 日益復雜并集成到各種應用中,潛在攻擊的復雜性也在增加。結合人類智能與 AI 能力為揭示和利用這些系統中的脆弱性提供了有力的方法。
  6. 現有的 LVLM 攻擊者在不同的模型和數據集上使用不同的指標評估其方法,使得研究人員難以進行統一比較。因此,有必要開發全面的基準和評估工具,以評估不同攻擊的質量。

在本節中,我們將描述以下主題A. 提高攻擊的實用性現有的 LVLM 攻擊方法嚴重依賴于先驗模型知識,使得攻擊的實用性較低。然而,在現實情況下,攻擊者只能查詢 LVLMs 以獲得相應的輸出結果,這使得在優化過程中很難在正確的優化方向上引導對抗擾動。此外,這些針對 LVLMs 的攻擊者只能生成對抗樣本來欺騙單個過程中的特定下游任務。因此,為了破壞不同的下游任務,他們必須為每個任務生成不同的對抗擾動,這會耗費大量時間和資源。因此,有必要設計一種通用擾動,通過僅查詢 LVLM 模型來跨不同任務和樣本使用。實現通用攻擊的潛在解決方案是將先前基于圖像的策略[20], [87] 應用于多模態任務。通過對多個任務和輸入進行對抗訓練通用擾動,攻擊在各種 LVLM 模型中更具實用性。此外,為了處理梯度估計,可以采用硬標簽策略[26], [27] 通過僅查詢模型來獲得梯度。 B. 自適應和可遷移攻擊一種穩健的攻擊應減少對特定受害網絡的依賴,并更好地泛化到不同的網絡。因此,研究對抗攻擊如何在不同的 LVLMs 之間轉移或隨時間自適應也很重要。然而,現有的 LVLM 攻擊者未能考慮這種特性,而是直接生成特定于某個受害模型的對抗樣本。為了提高生成的對抗樣本的可遷移性,我們建議幾種設計思路:一方面,攻擊者可以遵循集成學習[35], [97],聯合學習攻擊多個 LVLM 模型。這樣,梯度可以指向多個模型之間的全局對抗性方向。另一方面,有許多基于圖像的工作[123], [125], [138] 被提出以提高對抗圖像的可遷移性。通過適當地將這些策略應用于 LVLM 模型中的特定設計,攻擊者也可以生成可遷移的對抗樣本。總體而言,理解對抗樣本在不同模型和任務之間的可遷移性有助于開發通用的攻擊方法。 C. 跨模態對抗樣本盡管在單個模態(視覺或語言)中設計對抗攻擊取得了很大進展,但模態之間的交互仍未被充分探索。現有的攻擊者通常將不同模態的擾動視為不同的,并分別設計它們。然而,這將導致擾動多模態輸入之間的交互關系較少,并且容易被安全對齊系統識別。因此,未來的工作應探索新的方法,同時擾動視覺和文本輸入并具有強關聯性。這包括研究模態之間的交互和依賴關系,以創建更有效的跨模態攻擊,從而躲避當前的防御。潛在的解決方案可以利用多鍵策略[118]或多模態對比學習[12]來增強多模態擾動之間的關系,以共同控制攻擊。 D. 基于數據偏見的攻擊現有的 LVLM 模型數據需求量大,需要大量完全標注的數據進行訓練。因此,LVLMs 容易繼承并甚至放大其訓練數據中的偏見。未來的研究可以集中于理解、識別和緩解這些偏見,以確保公平和公正的結果。例如,可以開發偏見放大攻擊[14], [85] 來研究如何通過有針對性的操縱放大訓練數據中的現有偏見。這涉及創建利用這些偏見的輸入,以生成偏斜或有害的輸出,從而突出并加劇模型的內在弱點。具體來說,受此啟發,我們可以首先研究偏見在訓練和推理過程中如何通過 LVLMs 傳播和放大,然后開發技術來創建利用和放大這些偏見的輸入,以更好地了解其影響。此外,潛意識操縱攻擊[141]也是一種有前景的方法,用于開發在沒有直接對抗輸入的情況下微妙地影響模型行為的方法,例如通過在訓練期間引入不可察覺的偏見,影響模型在特定未預期方式中的決策過程。通常研究在訓練期間如何引入微小且不可察覺的偏見,這些偏見僅在特定條件下顯現。 E. 人工智能與人類協作的攻擊現有的 LVLM 攻擊完全基于數字環境開發。然而,除了模型的輸入和輸出,現實世界的應用還具有允許人與 LVLM 系統互動的能力。因此,結合人類智能與 AI 能力為實施攻擊提供了有力的方法。這里,我們將簡單介紹兩種代表性的攻擊視角:(1) 人機協作攻擊[16], [60]:探索人類在環中的攻擊策略的潛力,將人類專長與 AI 工具結合,以設計更復雜和有效的攻擊。這涉及利用人類的直覺和創造力,識別和利用自動化方法可能遺漏的模型弱點。特別是,開發人類攻擊者在 AI 工具的協助下迭代優化對抗輸入的框架。這可以包括人類設計初始攻擊向量,然后由 AI 系統優化以達到最大效果。(2) 社會工程與操縱[48], [86]:這種類型的攻擊研究如何將社會工程技術與對 LVLMs 的技術攻擊結合。它包括研究如何基于社會背景或用戶行為設計操縱輸入,以欺騙模型及其用戶。 F. 綜合基準和評估為了確保 LVLM 模型對各種攻擊方法的魯棒性和安全性,全面的基準和評估框架是必不可少的。這些框架不僅有助于評估 LVLMs 當前對攻擊的抵御能力,還能指導開發更魯棒的模型。未來在這一領域的研究可以集中在以下關鍵方面:(1) 標準化攻擊基準[54]:開發全面的基準來評估各種攻擊策略對 LVLMs 的有效性。這些基準應包括多種攻擊類型、場景和指標,以提供模型魯棒性的整體評估。(2) 持續評估框架[58]:開發持續集成和測試管道,定期評估 LVLMs 對最新已知攻擊的抵御能力。這些管道應自動更新新的攻擊方法和數據集,以確保模型持續進行魯棒性測試。(3) 綜合攻擊分類法[19]:創建詳細的分類法,根據攻擊的特征進行分類,例如其目標模態(視覺、語言或兩者)、執行方法(例如對抗樣本、數據投毒、模型反演)及其影響。(4) 魯棒性指標和評估標準[83]:開發和標準化量化 LVLMs 對各種攻擊抵御能力的魯棒性指標。這些指標應捕捉攻擊的嚴重性以及模型在各種攻擊下的性能。

通過在這些領域擴展研究,社區可以更深入地了解 LVLM 模型的脆弱性,并開發更有效的策略來評估和增強其安全性。這種前瞻性的方法對于確保 LVLMs 在各種現實應用中的安全可靠部署至關重要。

**結論 **

總體而言,這篇綜述論文全面概述了 LVLM 攻擊的研究,旨在幫助研究人員了解該領域。首先,我們介紹了 LVLM 攻擊的背景,包括一般 LVLM 攻擊的初步知識、實施 LVLM 攻擊的挑戰以及當前的 LVLM 攻擊資源,如數據集、模型和評估指標。有了這些先驗知識,研究人員可以輕松開始探索,并迅速了解 LVLM 攻擊。然后,我們總結并分類了現有的 LVLM 攻擊文獻,提出了一個新穎的分類法,即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊,以幫助理清其發展脈絡。最后,我們指出了幾個有前景的 LVLM 攻擊未來研究機會。我們希望這篇綜述能為研究人員提供見解,并吸引更多研究人員為這一領域做出貢獻。

付費5元查看完整內容

相關內容

作為人工智能領域最先進的技術之一,檢索增強生成(RAG) 技術能夠提供可靠且最新的外部知識,為眾多任務帶來了巨大的便利。特別是在AI生成內容(AIGC)時代,RAG強大的檢索能力可以提供額外的知識,幫助現有的生成式AI生成高質量的輸出。最近,大型語言模型(LLMs)在語言理解和生成方面展現了革命性的能力,但它們仍面臨固有的局限性,如幻覺和過時的內部知識。鑒于RAG在提供最新且有用的輔助信息方面的強大能力,檢索增強的大型語言模型(RA-LLMs) 應運而生,利用外部的權威知識庫,而不是單純依賴模型的內部知識,從而增強LLMs的生成質量。

在本教程中,我們全面回顧了現有的關于檢索增強大型語言模型(RA-LLMs)的研究工作,涵蓋了三個主要技術視角:架構、訓練策略和應用。作為基礎知識,我們簡要介紹了LLMs的基本原理及其最近的進展。接著,為了展示RAG對LLMs的實際意義,我們按應用領域對主流相關工作進行分類,詳細說明了每個領域面臨的挑戰及RA-LLMs的對應能力。最后,為了提供更深刻的見解,我們討論了當前的局限性以及未來研究的幾個有前景的方向。

我們的綜述論文:《RAG-Meets-LLMs: 邁向檢索增強的大型語言模型》

付費5元查看完整內容

 大型語言模型(LLMs)和擴散模型,如ChatGPT和Stable Diffusion,具有前所未有的潛力。由于它們經過了對互聯網公開文本和圖像的訓練,它們可以為各種任務做出有用的貢獻。隨著入門門檻的顯著降低,幾乎任何開發者都可以利用LLMs和擴散模型來解決以前不適合自動化的問題。通過本書,您將獲得生成式AI的堅實基礎,包括如何在實踐中應用這些模型。大多數開發者在首次將LLMs和擴散模型集成到他們的工作流程中時,往往難以從中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套稱為提示工程的原則,這些原則可以使您有效地與AI合作。學習如何讓AI為您服務。本書解釋了:

  • 您程序的AI模型的交互鏈結構及其之間的細化步驟- 如何將應用問題轉化為模型訓練領域的文檔完成問題,從而產生AI模型請求- LLM和擴散模型架構的影響——以及如何與其最佳互動- 這些原則在自然語言處理、文本和圖像生成以及代碼領域的實踐應用書評“這是我讀過的關于提示工程的最好的書籍資源。Mike和James是他們領域的專家。” ——Dan Shipper,Every聯合創始人兼CEO“這本書是生成式AI和提示工程基礎知識的一個堅實介紹。作者涵蓋了從初學者到高級用戶的各種有用技巧,簡單、實用且易于理解。如果您希望提高AI系統的準確性和可靠性,這本書應當在您的書架上。”——Mayo Oshin,Siennai Analytics創始人兼CEO,LangChain早期貢獻者“Phoenix和Taylor的指南是生成式AI浩瀚海洋中的燈塔。這本書成為了我們團隊在Phiture AI Labs學習如何利用LLMs和擴散模型創建與客戶應用和游戲本質相符的營銷資產的基石。通過提示工程,我們能夠大規模生成定制的品牌內容。這不僅僅是理論;這是將AI的原始潛力轉化為定制解決方案的實踐大師課程,使其成為希望將AI集成提升到新的創造力和效率高度的開發者的必讀書籍。” ——Moritz Daan,Phiture移動增長咨詢公司創始人/合伙人

“《生成式AI的提示工程》可能是未來保障您技術職業的最具前瞻性的方法。這無疑是任何從事AI實際應用工作的人的最佳資源。這里面豐富、精煉的原則將幫助新老AI工程師在未來可預見的競爭中保持領先。” ——Ellis Crosby,Incremento CTO兼聯合創始人“這是代理和服務專業人員的必備指南。將AI與服務和客戶交付結合起來,利用自動化管理,加快解決方案的速度,將設定新的行業標準。您會在書中找到有用、實用的信息和策略,使您能夠充分理解和利用AI的潛力。” ——Byron Tassoni-Resch,WeDiscover CEO兼聯合創始人作者的話自2020年GPT-3測試版以來,我們一直在做提示工程,當GPT-4推出時,我們發現許多我們曾使用的技巧和竅門已不再必要。這促使我們定義了一套可跨模型和模態轉移的面向未來的原則,這些原則在使用GPT-5或未來的任何模型時仍然有用。提示的五項原則是:1. 提供方向:詳細描述所需的風格,或參考相關的角色。2. 指定格式:定義要遵循的規則和響應的必要結構。3. 提供示例:插入一組多樣的測試案例,其中任務已正確完成。4. 評估質量:識別錯誤并評價響應,測試驅動性能的因素。5. 分工:將任務分成多個步驟,鏈式連接以實現復雜目標。我們首次在2022年7月以博客文章的形式發布了這些原則,它們經受住了時間的考驗,包括與OpenAI自己一年后發布的提示工程指南高度契合。任何與生成式AI密切合作的人都可能會收斂到一組類似的策略來解決常見問題,但這本書旨在更快地讓您達到這一點。在本書中,您將看到數百個提示技術的示例,包括文本和圖像提示,以及使用Python構建AI自動化腳本和產品。這不是一個尋找正確魔法詞組組合的提示技巧列表,而是一個構建系統的實用指南,提供AI應用所需的正確上下文,以及如何測試和擴展生產環境中的AI系統。如果您符合以下情況,這本書將對您有用:- 您的時間價值超過每小時40美元,閱讀這本書節省的幾個小時,而不是從多個來源拼湊一切,對您來說是值得的。- 您不僅是隨便使用AI,而是實際在構建一個AI應用或內部模板,許多人每天將使用數百或數千次。- 您希望通過學習數百個如何解決AI常見問題的真實案例來減少幻覺并提高AI的可靠性。- 您希望比較OpenAI與其他模型的優缺點,以及LangChain等常見框架、不同的向量數據庫選項和AUTOMATIC1111。- 您想看到從一個天真的提示到一個完整AI代理,包括使用Gradio構建基本用戶界面的端到端AI應用構建過程。

付費5元查看完整內容

近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。

圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。

為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。

在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。

繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。

近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。

盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:

圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。

我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。

我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。

我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。

我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。

付費5元查看完整內容

Machine Intelligence Research

知識在人工智能發展中起著至關重要的作用。近年來,大規模語言模型(LLMs)取得了令人矚目的進展,引發了人們對語言模型獲取、維護、更新和使用知識方面的極大關注。盡管已經存在大量的相關研究,但學界對于知識如何在語言模型的學習、調整和應用過程中流動的完整生命周期,仍然缺乏整體性的觀點,這可能會阻礙人們深入了解各個研究方向之間的聯系,以及認識到現有研究中所存在的局限性。因此,本綜述將語言模型視作一個大規模的知識系統,將知識在大規模語言模型中的生命周期劃分為五個關鍵階段,研究語言模型中的知識在構建、維護和使用過程中如何流動和循環。為此,**本文系統性地回顧了知識在語言模型中生命周期的各個階段的代表性研究,總結了當前每個階段的核心挑戰和主要局限性,并討論了未來潛在的發展方向。**相關成果已發表于《機器智能研究(英文)》2024年第2期中。****

圖片來自Springer

全文下載:

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun

全文導讀

從根本上來說,人工智能是一門研究知識的科學--如何表示、獲取和使用知識的科學。 ---尼爾森(1974年)

知識是通向高級智能的關鍵。一直以來,模型如何獲取、存儲、理解和應用知識一直都是機器智能領域的重要研究課題。近年來,大規模語言模型(LLMs)取得了飛速的發展。通過在大規模無標注語料庫上進行自監督預訓練,再通過指令微調和強化學習等手段與人類偏好對齊,大規模語言模型在不同領域、任務、數據集中表現出了遠超以往方法的泛化和遷移能力,從而在人工智能領域取得了令人矚目的成就。

大規模語言模型的成功引起了人們對其隱含知識的極大關注。許多研究都已經在關注大規模語言模型如何獲取、維護和使用知識。基于此,研究者們探索了許多新的研究方向。例如,知識注入旨在將顯式結構化知識注入LLM的參數中;知識探測用于評估存儲在LLM參數中的知識類型和數量;知識編輯旨在修改LLM中不正確的或者過時的知識。

盡管有大量的相關研究,但目前的研究主要還是集中在知識在語言模型中的某一特定階段,而對知識如何在整個模型學習、調整和應用階段中循環缺乏一個統一視角。由于缺乏這種全面的研究,研究者們難以充分理解不同知識型任務之間的聯系,發現LLM知識生命周期中不同階段之間的相關性,以及探索現有研究的不足和局限性。例如,雖然許多研究致力于評估預訓練語言模型中的知識,但很少有研究探討為什么語言模型可以在沒有任何知識監督的情況下從純文本中學習海量的知識,以及語言模型表示和存儲這些知識背后的機制。同時,許多研究嘗試向LLM顯示注入各類結構化知識,但少有研究嘗試深入研究模型潛在的知識獲取機制來幫助LLM更好地從純文本中學習特定種類的知識。因此,該領域內的研究可能會過度關注某幾個方向,而難以全面理解、維護和控制LLM中的知識,從而限制相關研究的進一步改進和應用。

本綜述提出從知識工程的角度系統回顧大規模語言模型中與知識相關的研究。受認知科學和知識工程研究的啟發,本文將大規模語言模型視為基于知識的系統,并研究知識在語言模型中的獲取、維護和使用的完整生命周期。具體來說,本文將大規模語言模型中知識的生命周期分為以下五個關鍵階段,如圖 1 所示:

? 知識獲取:旨在研究語言模型從文本或其他知識源中學習各類知識的方法和機制。 ? 知識表示:旨在研究各種知識在語言模型參數中編碼、存儲和分布的規律和機制。 ? 知識探測:旨在探究語言模型中包含知識的種類,以及對相應知識規模的量化分析。 ? 知識編輯:旨在編輯或者刪除語言模型中存儲的特定知識。 ? 知識應用:旨在將大規模語言模型中的知識應用于真實場景中。

圖 1 語言模型知識生命周期的五個關鍵時期

對于每個階段,本文系統性地梳理了現有的研究,總結了主要挑戰和局限性,并討論了未來的發展方向。基于一個統一的視角,本文能夠幫助理解和利用語言模型知識生命周期不同階段之間的密切聯系,而不是將其視為獨立的任務。例如,了解語言模型的知識表示機制對研究人員設計更好的知識獲取目標和知識編輯策略具備啟發性的價值。提出可靠的知識探測方法可以幫助研究者們找到更適合不同語言模型的應用場景,并深入了解其局限性,從而促進其進一步的改進。我們希望通過該綜述全面總結當前研究的進展、挑戰和局限,幫助研究人員從新的視角更好地理解整個領域,并從整體性角度闡明如何更好地規范、表示和應用語言模型中的知識的未來方向。

本文貢獻總結如下:

  1. 本文將大規模語言模型視作一個新時代的知識系統,并將大規模語言模型中知識的生命周期劃分為五個關鍵階段。
  2. 如圖2所示,針對每個階段,本文系統性地回顧了現有研究,總結了每個研究方向的主要挑戰和不足。
  3. 在此基礎上,本文討論了當前研究的局限性,并闡明了未來的潛在發展方向。

圖 2 大模型知識生命周期的分類系統

· 本文作者 ·

全文下載:

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun BibTex:

@Article {MIR-2022-10-329, author={ Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun }, journal={Machine Intelligence Research}, title={The Life Cycle of Knowledge in Big Language Models: A Survey}, year={2024}, volume={21}, issue={2}, pages={217-238}, doi={10.1007/s11633-023-1416-x}}

付費5元查看完整內容

在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。

擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。

雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。

總結來說,我們的貢獻包括

我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。

我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。

我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。

我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。

本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。

分類法

利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件

在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。

在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。

通用可控文本到圖像生成

除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論

在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。

因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。

在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。

本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。

 傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。

IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。

IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。

因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。

這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。

付費5元查看完整內容

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容
北京阿比特科技有限公司