亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

游戲智能體的發展在推進向人工通用智能(AGI)的道路上扮演著至關重要的角色。大型語言模型(LLMs)及其多模態對應物(MLLMs)的進展為在復雜的電腦游戲環境中賦予游戲智能體類似人類的決策能力提供了前所未有的機會。本文從一個全面的視角對基于LLM的游戲智能體進行了綜述。首先,我們介紹了基于LLM游戲智能體的概念架構,圍繞六個基本功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們調研了文獻中記錄的現有代表性的基于LLM游戲智能體,這些智能體在方法論和跨六大游戲類型的適應性靈活性方面進行了探討,包括冒險、溝通、競爭、合作、模擬以及制作與探索游戲。最后,我們展望了這一新興領域未來研究和發展的方向。維護并可訪問的相關論文精選列表位于://github.com/git-disl/awesome-LLM-game-agent-papers。

智能在代理與環境的互動中以及作為感覺運動活動的結果而出現。 ——體現認知假說 [1] 大型語言模型(LLMs),如ChatGPT [2]所示,代表了自然語言理解(NLU)和生成性人工智能(Gen-AI)中的一個重要里程碑。通過在包含數百億參數的大量多樣化網絡來源上進行生成性訓練,LLMs展示了從龐大文本語料庫中概括知識的驚人能力,并以接近人類水平的NLU表現展示對話智能。多模態LLMs(MLLMs),如GPT-4V [3]和Gemini [4]的出現,標志著另一個里程碑,使LLMs能夠感知和理解視覺輸入。我們推測,LLM技術的成功為追求類人人工通用智能(AGI)提供了前所未有的機會:以前認為僅限于人類的認知能力,如推理、規劃和反思,以及自我控制、自我理解和自我改進的程度,現在通過適當提示集成了內置認知智能的LLMs來實現。

我們將基于LLM的智能體(LLMA)定義為一個智能實體,它使用LLMs1作為執行類人決策過程的核心組件 [5]。盡管LLMAs能夠進行類似人類的認知處理,但現有LLMAs與類人AGI之間的區別是顯而易見的:當前的LLMAs依賴于解碼和概括來自預訓練數據的預先存在的知識 [6],而AGI能夠通過在現實世界中的實驗和經驗發現和學習新知識 [7; 8]。受到人類嬰兒智力發展過程的啟發,體現認知假說 [1] 假設智能體的智能源于觀察和與其環境的互動,即,將智能體植入一個集成了物理、社會和語言經驗的世界對于促進有利于發展類人智能的條件至關重要。

數字游戲被認為是培養AI智能體的理想環境,因為它們具有復雜性、多樣性、可控性、安全性和可復制性。從經典的國際象棋和撲克游戲 [9; 10; 11] 到現代視頻游戲如Atari游戲 [12]、星際爭霸II [13]、Minecraft [14] 和DOTA II [15],長期以來一直是推進AI研究的工具。與基于傳統強化學習(RL)的智能體 [10; 16; 17; 18] 不同,這些智能體通過行為級策略學習做出決策,目標是最大化預期獎勵,構建能夠運用認知能力獲得游戲玩法基本洞察力的基于LLM的游戲智能體(LLMGAs)可能更貼近AGI的追求。 先前關于LLMs [19; 20; 21] 或LLMAs [22; 23; 24] 的綜述論文主要關注審查行業和學術研究團隊開發的現有LLMs,以及LLMAs的一般應用,較少關注游戲代理領域。同時期的綜述論文 [25; 26] 顯著強調了游戲開發,并涵蓋了有限數量的LLMGAs出版物。為了彌補這一差距,本文試圖對LLMGAs的最新發展進行全面和系統的綜述。具體而言,本綜述分為三個相輔相成的部分:首先,我們提供了一個統一的參考框架,在其中我們描述了構建LLMGAs所需的基本模塊,涵蓋六個核心功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們介紹了一個將現有文獻分類為六個游戲類別的分類法,包括冒險、競爭、合作、模擬和制作與探索。對于每個類別,我們描述了技術挑戰、支持的游戲環境,以及常用的優化策略。在第三部分和最后一部分,我們設想LLMGAs未來進步的不同方向。

總之,這篇綜述論文作為對LLMGAs文獻的全面回顧,提供了六個游戲類別的分類,以增強理解并促進各種LLMGAs的開發和評估。它旨在促進這一新興研究領域的進步,并激發LLMGAs的研究和開發中的進一步創新。鑒于這是一個新興且蓬勃發展的研究領域,這篇綜述論文將持續更新,以跟蹤最新研究。維護并可訪問的相關文獻精選列表位于

統一的LLMGAs架構

圖1提供了LLMGAs的概念架構,包括六個基本功能組件及其工作流程:對于每個游戲步驟,感知模塊捕獲游戲狀態信息,為智能體理解其當前環境提供必要的數據。思考模塊處理感知到的信息,基于推理、規劃和反思生成思考,以便做出明智的決策。記憶作為一個外部存儲,過去的經驗、知識和精心挑選的技能被保留,并可以為將來使用而檢索。角色扮演模塊使智能體能夠在游戲中模擬特定角色,展示與每個角色的特征和目標一致的可信行為。行動模塊將生成的文本決策轉換為可執行的動作,允許智能體有效地與游戲元素互動和操縱。學習模塊通過在游戲環境中積累的經驗和互動,不斷改善智能體的認知和游戲技能。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)的迅速發展為在多種應用領域利用人工智能提供了新機遇,包括網絡安全領域。隨著網絡威脅的數量和復雜性不斷增長,迫切需要能夠自動檢測漏洞、分析惡意軟件并響應攻擊的智能系統。在這項綜述中,我們對LLMs在網絡安全(LLM4Security)中的應用進行了全面的文獻回顧。通過全面收集超過30,000篇相關論文,并系統分析來自頂級安全和軟件工程領域的127篇論文,我們旨在提供一個關于LLMs如何被用于解決網絡安全領域多樣化問題的整體視角。

通過我們的分析,我們識別出幾個關鍵發現。首先,我們觀察到LLMs被應用于網絡安全的廣泛任務中,包括漏洞檢測、惡意軟件分析、網絡入侵檢測和釣魚檢測。其次,我們發現這些任務中用于訓練和評估LLMs的數據集往往在大小和多樣性上有限,這突顯了需要更全面和具有代表性的數據集的必要性。第三,我們識別出幾種將LLMs適應特定網絡安全領域的有希望的技術,如微調、遷移學習和領域特定的預訓練。最后,我們討論了LLM4Security未來研究的主要挑戰和機遇,包括需要更多可解釋和可說明的模型、解決數據隱私和安全問題的重要性,以及利用LLMs進行主動防御和威脅狩獵的潛力。

總體而言,我們的綜述提供了LLM4Security當前最先進狀態的全面概述,并識別了未來研究的幾個有希望的方向。我們相信,這項綜述中呈現的見解和發現將有助于增加LLMs在網絡安全應用方面的知識體系,并為在該領域工作的研究人員和實踐者提供寶貴的指導。

1 引言

在過去十年中,自然語言處理(NLP)的快速發展主要得益于大型語言模型(LLMs)的發展。通過利用變換器架構[205]和在大量文本數據上的訓練,像BERT[49]、GPT-3,4[147, 149]、PaLM[40]、Claude[15]和Chinchilla[78]這樣的LLMs在廣泛的NLP任務中取得了顯著的表現,包括語言理解、生成和推理。這些基礎模型學習了豐富的語言表征,可以通過最小的微調來適應下游應用,實現了如開放域問答[1]、對話系統[151, 230]和程序合成[5]等領域的突破。特別是在網絡安全這一重要領域,LLMs開始顯示出潛力。隨著網絡威脅的數量和復雜性的增長,迫切需要智能系統自動檢測漏洞、分析惡意軟件并響應攻擊[19, 35, 137]。近期的研究已經探索了LLMs在廣泛的網絡安全任務中的應用,即此后稱為LLM4Security。在軟件安全領域,LLMs已被用于從自然語言描述和源代碼中檢測漏洞,以及生成安全相關的代碼,如補丁和漏洞利用代碼。這些模型在識別易受攻擊的代碼片段和為常見漏洞類型生成有效補丁方面表現出高精度[29, 39, 64]。在代碼級分析之外,LLMs還被應用于理解和分析更高層次的安全文檔,如安全政策和隱私政策,幫助分類文件和檢測潛在違規[74, 134]。在網絡安全領域,LLMs已展示出從網絡流量數據中檢測和分類各種類型攻擊的能力,包括DDoS攻擊、端口掃描和僵尸網絡流量[9, 10, 139]。惡意軟件分析是LLMs顯示出前景的另一個關鍵領域,模型被用于基于文本分析報告和行為描述對惡意軟件家族進行分類,以及檢測惡意域名和URLs[22, 122]。LLMs還在社交工程領域被用于通過分析電子郵件內容和識別欺騙性語言模式來檢測和防御釣魚攻擊[89, 171]。此外,研究人員正在探索使用LLMs來增強安全系統本身的魯棒性和復原力,通過生成對抗性樣本來測試安全分類器的魯棒性,并模擬現實攻擊場景以用于培訓和評估[30, 178, 197]。這些多樣的應用展示了LLMs在通過處理和提取大量非結構化文本的洞見、從龐大數據集中學習模式以及生成用于測試和培訓的相關示例方面,提高網絡安全實踐的效率和效果的顯著潛力。

盡管已有幾項寶貴的努力在文獻中對LLM4Security進行了調查[42, 50, 140, 229],鑒于這一方向工作的日益增多,這些研究通常具有更加聚焦的范圍。許多現有的綜述主要集中于審查LLMs可以應用的任務類型,而沒有提供關于這些任務的其他關鍵方面的廣泛分析,如所使用的數據和領域特定技術[145, 231],如表1所示。例如,Divakaran等人[50]僅分析了LLMs在各種安全任務中的前景和挑戰,分別討論了每個任務的特點。然而,它缺乏對這些安全任務的要求與數據之間的聯系以及LLMs在領域特定技術中的應用的洞察。 為了解決這些限制并提供對LLM4Security最新研究的深入了解,我們進行了一項系統而廣泛的文獻調查。通過全面收集38,112篇相關論文并系統分析來自頂級安全和軟件工程領域的127篇論文,我們的調查旨在提供一個關于LLMs如何被用于解決網絡安全領域多樣化問題的整體視角。除了識別LLMs正在使用的任務類型外,我們還檢查了每種情況中使用的具體數據集、預處理技術和領域適應方法。這使我們能夠提供不同方法的優勢和限制的更細致分析,并識別未來研究最有前景的方向。具體來說,我們專注于回答四個關鍵研究問題(RQs):

**? RQ1:哪些LLMs被用于支持安全任務? ** **? RQ2:哪些類型的安全任務已通過基于LLM的方法得到了促進? ** **? RQ3:使用了哪些領域規范技術來適應LLMs到安全任務? ** ? RQ4:在將LLMs應用到安全任務時,數據收集和預處理有何不同?

對于每個研究問題,我們提供了對調查論文中使用的方法、數據集和評估協議的細致分析。我們識別常見主題并按不同維度對論文進行分類,以提供景觀的結構化概覽。此外,我們強調當前方法的主要挑戰和限制,以指導未來的研究彌補這些差距。我們相信我們的調查可以為在NLP、AI和網絡安全交叉領域工作的研究人員提供寶貴的資源。此項工作的貢獻總結如下: ?** 我們進行了一項全面的系統性文獻綜述(SLR),以調查LLM4Security的最新研究,提供了當前景觀的映射**。我們的搜索涵蓋了超過38,112篇論文,通過進一步基于質量和相關性的篩選,我們保留了127篇論文以供后續詳細審查。 ?** 我們制定了四個關鍵RQs**,以了解LLM在安全中的各個不同維度的應用,包括使用的LLM類型、得到促進的安全任務、領域規范技術以及數據收集和預處理的差異。 ? 我們分析了127篇選定論文在會議地點和時間上的分布,揭示了特別是在2022-2023年LLM4Security研究的迅速增長,并對主流LLMs在安全領域的使用特征進行了分類。 調查按以下框架進行。我們在第2節概述了我們的調查方法,包括搜索策略、包含/排除標準和數據提取過程。第3至6節可以找到對四個研究問題的分析和發現。第7至8節探討了我們結果的約束和意義,同時也識別了未來研究的有前景的方向。最后,第9節總結了本文。

在這項研究中,我們進行了一項系統性文獻綜述(SLR),以調查LLM4Security的最新研究。這項綜述旨在提供一個全面的景觀映射,識別LLMs如何被部署以增強網絡安全措施。根據既定的SLR指南[98, 163],我們的方法論被結構化為三個關鍵階段,如圖2所示:規劃(§2.1)、執行(§2.2, §2.3)和報告(§2.4),每個階段都被精心設計以確保對這一新興領域的研究狀態進行全面覆蓋和深入分析。

規劃 最初,我們制定了精確的研究問題,以理解LLMs如何在安全任務中被利用、所得益處及相關挑戰。隨后,我們制定了一個詳細的協議,描述了我們的搜索策略,包括具體的數據庫和關鍵詞、包含和排除標準以及數據提取。每位合作者都審查了這一協議,以增強其穩健性并與我們的研究目標保持一致。 執行 我們精心設計了文獻搜索,以確保全面性,采用了手動和自動策略,跨越多個數據庫,涵蓋了廣泛的研究。識別的每項研究都經歷了嚴格的篩選過程,最初基于標題和摘要,隨后對全文進行徹底審查,以確保符合我們預定義的標準。為了防止忽視相關論文,我們還對收集的論文進行了前向和后向滾動式引用搜索。 報告 我們通過結構化的敘述呈現我們的發現,輔以流程圖和表格等視覺輔助工具,提供了現有文獻的清晰和全面概覽。討論深入探討了我們的發現的含義,解決了LLMs革新網絡安全實踐的潛力,并識別了需要進一步調查的空白。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.

** 引言**

近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。

幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。

在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。

由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。

通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。

與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。

本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。

數據

數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。

噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。

缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。

詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。

1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。

2 模型

目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。

弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。

語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。

弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。

3 訓練

MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。

4 推理

就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。

結論

基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大型語言模型(LLMs)在推動文本基礎的智能體方面已經取得了超群的性能,賦予它們類似人類的決策和推理能力。與此同時,一個新興的研究趨勢集中于將這些LLM驅動的智能體擴展到多模態領域。這種擴展使得智能體能夠解釋和響應多樣化的多模態用戶查詢,因此處理更復雜和細膩的任務。在本文中,我們對LLM驅動的多模態智能體進行了系統性回顧,我們將其稱為大型多模態智能體(簡稱LMAs)。首先,我們介紹了開發LMAs所涉及的基本組件,并將現有研究分類為四種不同類型。隨后,我們回顧了集成多個LMAs的協作框架,增強了集體效能。該領域的一個關鍵挑戰是現有研究中使用的多樣化評估方法,妨礙了不同LMAs之間的有效比較。因此,我們匯編了這些評估方法并建立了一個全面框架來彌合差距。該框架旨在標準化評估,促進更有意義的比較。在我們的回顧中,我們強調了LMAs的廣泛應用并提出了可能的未來研究方向。我們的討論旨在為這個迅速發展的領域的未來研究提供有價值的見解和指南。最新的資源列表可在 //github.com/jun0wanan/awesome-large-multimodal-agents 上找到。

智能體是一個能夠感知其環境并基于這些感知做出決策以實現特定目標的系統[56]。雖然在狹窄的領域內熟練,早期的智能體[35, 50]往往缺乏適應性和泛化能力,這凸顯了與人類智能之間的顯著差異。近期在大型語言模型(LLMs)方面的進展開始彌合這一差距,其中LLMs增強了它們在命令解釋、知識同化[36, 78]以及模仿人類推理和學習[21, 66]方面的能力。這些智能體將LLMs作為其主要的決策制定工具,并進一步增強了關鍵的類人特征,如記憶。這種增強使它們能夠處理各種自然語言處理任務,并使用語言與環境互動[40, 38]。

然而,現實世界場景往往涉及超越文本的信息,包含多個模態,特別強調視覺方面。因此,LLM驅動的智能體的下一個進化步驟是獲得處理和生成多模態信息的能力,特別是視覺數據。這一能力對于這些智能體進化成更強大的AI實體至關重要,以反映人類級別的智能。裝備有這種能力的智能體在我們的論文中被稱為大型多模態智能體(LMAs)。通常,它們面臨的挑戰比僅語言的智能體更為復雜。以網絡搜索為例,LMA首先需要用戶需求的輸入,通過搜索欄查找相關信息。隨后,它通過鼠標點擊和滾動導航到網頁,瀏覽實時網頁內容。最后,LMA需要處理多模態數據(例如,文本、視頻和圖像)并執行多步驟推理,包括從網頁文章、視頻報道和社交媒體更新中提取關鍵信息,并整合這些信息以響應用戶的查詢。我們注意到,現有的LMA研究是孤立進行的,因此有必要通過總結和比較現有框架來進一步推進該領域。存在幾項與LLM驅動的智能體[60, 42, 49]相關的綜述,而其中很少有關注多模態方面。

在這篇論文中,我們旨在通過總結LMAs的主要發展來填補這一空白。首先,我們介紹了核心組件(§2)并提出了現有研究的新分類法(§3),隨后進一步討論了現有的協作框架(§4)。關于評估,我們概述了評估LMAs性能的現有方法,隨后提供了一個全面的總結(§5)。然后,應用部分提供了多模態智能體及其相關任務的廣泛實際應用的詳盡概覽(§6)。我們通過討論并建議LMAs可能的未來方向來結束這項工作,以提供有用的研究指導。

LMAs的核心組件

在本節中,我們詳細介紹了LMAs的四個核心元素,包括感知、規劃、行動和記憶感知。感知是一個復雜的認知過程,使人類能夠收集和解釋環境信息。在LMAs中,感知組件主要專注于處理來自多樣化環境的多模態信息。如表1所示,不同任務中的LMAs涉及各種模態。它們需要從這些不同模態中提取對任務完成最有益的關鍵信息,從而促進任務的更有效規劃和執行。

早期關于處理多模態信息的研究[57, 43, 70, 9]經常依賴于簡單的相關模型或工具,將圖像或音頻轉換成文本描述。然而,這種轉換方法往往會產生大量不相關和冗余的信息,尤其是對于復雜的模態(例如,視頻)。隨著輸入長度的限制,LLMs在有效提取規劃所需的相關信息方面經常面臨挑戰。為了解決這個問題,最近的研究[71, 47]引入了子任務工具的概念,這些工具旨在處理復雜的數據類型。在類似真實世界的環境中(即,開放世界游戲),[51]提出了一種處理非文本模態信息的新方法。這種方法首先從環境中提取關鍵的視覺詞匯,然后使用GPT模型進一步將這些詞匯細化為一系列描述性句子。當LLMs在環境中感知視覺模態時,它們使用這些模態來檢索最相關的描述性句子,有效地增強了它們對周圍環境的理解。

規劃。規劃者在LMAs中扮演著類似于人腦功能的核心角色。它們負責對當前任務進行深入推理并制定相應的計劃。與僅語言的智能體相比,LMAs在更復雜的環境中運行,使得制定合理計劃更具挑戰性。我們從四個角度詳細介紹規劃者(模型、格式、檢查與反思以及規劃方法):

模型:如表1所示,現有研究采用不同的模型作為規劃者。其中,最受歡迎的是GPT-3.5或GPT-4[43, 41, 9, 30, 57, 51]。然而,這些模型并非公開可用,因此一些研究已開始轉向使用開源模型,如LLaMA[67]和LLaVA[23],后者可以直接處理多種模態的信息,增強了制定更優化計劃的能力。

格式:它表示規劃者制定計劃的方式。如表1所示,有兩種格式化方式。第一種是自然語言。例如,在[41]中,獲得的規劃內容是“我做的第一件事是使用OpenCV的openpose控制模型來分析圖像中男孩的姿勢...”,其中制定的計劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如“image_patch = ImagePatch(image)”所述[43],它調用ImagePatch函數來執行規劃。還有混合形式,如[9]。

檢查與反思:對于LMAs而言,在復雜的多模態環境中持續制定有意義且能完成任務的計劃是具有挑戰性的。這個組件旨在增強魯棒性和適應性。一些研究方法[51, 52]將成功的經驗存儲在長期記憶中,包括多模態狀態,以指導規劃。在規劃過程中,它們首先檢索相關經驗,幫助規劃者進行深思熟慮,以減少不確定性。此外,[12]利用人在執行相同任務時在不同狀態下制定的計劃。當遇到類似狀態時,規劃者可以參考這些“標準答案”進行思考,從而制定更合理的計劃。此外,[71]采用更復雜的規劃方法,如蒙特卡羅,以擴大規劃搜索范圍,找到最佳規劃策略。

規劃方法:現有的規劃策略可以分為兩種類型:動態規劃和靜態規劃,如表1所示。前者[57, 43, 70, 30, 41]指的是基于初始輸入將目標分解為一系列子計劃,類似于思維鏈(CoT)[80],其中即使在過程中出現錯誤,計劃也不會重新制定;后者[9, 25, 51, 71]意味著每個計劃都是基于當前環境信息或反饋制定的。如果在計劃中檢測到錯誤,它將回到原始狀態進行重新規劃[12]。

行動。多模態智能體系統中的行動組件負責執行規劃者制定的計劃和決策。它將這些計劃轉化為具體的行動,例如使用工具、身體運動或與界面的互動,從而確保智能體能夠準確高效地實現其目標并與環境互動。我們的討論集中在兩個方面:類型和方法。

記憶。早期研究表明,記憶機制在通用智能體的運作中發揮著至關重要的作用。與人類相似,智能體中的記憶可以分為長期記憶和短期記憶。在簡單的環境中,短期記憶足以讓智能體處理手頭任務。然而,在更復雜和現實的設置中,長期記憶變得至關重要。在表1中,我們可以看到,只有少數LMAs包含長期記憶。與僅語言的智能體不同,這些多模態智能體需要能夠存儲跨各種模態信息的長期記憶。在一些研究[71, 47, 69, 7]中,所有模態都轉換為文本格式進行存儲。然而,在[51]中,提出了一個多模態長期記憶系統,專門設計用于存檔之前的成功經驗。具體來說,這些記憶以鍵值對的形式存儲,其中鍵是多模態狀態,值是成功的計劃。

LMAs的分類

在本節中,我們通過將現有研究分類為四種類型來呈現LMAs的分類類型I:封閉源LLMs作為規劃者且不帶長期記憶。早期研究[11, 43, 57, 41, 9, 25]使用提示來利用封閉源的大型語言模型(例如,GPT-3.5)作為推理和規劃的規劃者,如圖2(a)所示。根據特定環境或任務要求,這些計劃的執行可能通過下游工具包或通過使用物理設備(如鼠標或機械臂)與環境直接互動來進行。這種類型的LMAs通常在更簡單的設置中操作,承擔傳統任務,如圖像編輯、視覺定位和視覺問答(VQA)。

類型II:微調LLMs作為規劃者且不帶長期記憶。這種類型的LMAs涉及收集多模態指令跟隨數據或使用自我指導來微調開源大型語言模型(如LLaMA)[67]或多模態模型(如LLaVA)[23, 46],如圖2(b)所示。這種增強不僅允許模型作為推理和規劃的中心“大腦”,還能執行這些計劃。類型II LMAs面臨的環境和任務與類型I相似,通常涉及傳統的視覺或多模態任務。與以相對簡單的動態、封閉環境和基本任務為特征的典型場景相比,像Minecraft這樣的開放世界游戲中的LMAs需要在動態上下文中執行精確規劃,處理高復雜性任務,并進行終身學習以適應新挑戰。因此,在類型I和類型II的基礎上,類型III和類型IV LMAs整合了記憶組件,在發展成為人工智能領域的通用智能體方面顯示出巨大的潛力。

類型III:帶有間接長期記憶的規劃者。對于類型III LMAs[71, 47],如圖2(c)所示,LLMs作為中心規劃者并配備了長期記憶。這些規劃者通過調用相關工具訪問和檢索長期記憶,利用這些記憶進行增強的推理和規劃。例如,在[71]中開發的多模態智能體框架專為動態任務(如視頻處理)量身定制。該框架由規劃者、工具包和一個任務相關的記憶庫組成,該記憶庫記錄了空間和時間屬性。規劃者使用專門的子任務工具查詢記憶庫以獲取與視頻內容相關的時空屬性,使其能夠對任務相關的時空數據進行推斷。每個工具都存儲在工具包內,專為特定類型的時空推理設計,并在框架內充當執行器。

類型IV:帶有原生長期記憶的規劃者。與類型III不同,類型IV LMAs[51, 37, 7, 76]的特點是LLMs直接與長期記憶交互,繞過了使用工具訪問長期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態智能體在Minecraft的開放世界背景下完成了200多個不同任務的熟練度。在他們的多模態智能體設計中,交互式規劃者將多模態基礎模型與LLM合并,首先將環境的多模態輸入轉換為文本。規劃者進一步采用自我檢查機制來預測和評估執行中的每一步,主動發現潛在缺陷,并結合環境反饋和自我解釋,迅速糾正和優化計劃,無需額外信息。此外,這個多模態智能體框架包括一個新穎的多模態記憶。成功的任務計劃及其初始多模態狀態被存儲,規劃者從這個數據庫中檢索新任務的相似狀態,使用積累的經驗實現更快、更高效的任務完成。

多智能體協作

我們在這一節進一步介紹了超出單獨智能體討論范圍的LMAs的協作框架。 如圖3(a)(b)所示,這些框架采用多個LMAs協同工作。兩個框架之間的關鍵區別在于是否具有記憶組件,但它們的基本原則是一致的:多個LMAs擁有不同的角色和責任,使它們能夠協調行動,共同實現一個共同目標。這種結構減輕了單一智能體的負擔,從而提高了任務性能[12, 37, 17, 29]。

例如,在表1中,在[37]的多模態智能體框架中,引入了一個感知者智能體來感知由大型多模態模型組成的多模態環境。一個被指定為巡邏者的智能體負責與感知者智能體進行多次互動,對感知到的環境數據進行實時檢查和反饋,以確保當前計劃和行動的準確性。當檢測到執行失敗或需要重新評估時,巡邏者向規劃者提供相關信息,促使在子目標下的行動序列進行重新組織或更新。MemoDroid框架[17]包含了幾個關鍵的智能體,它們協同工作以自動化移動任務。探索智能體負責目標應用界面的離線分析,基于UI元素生成潛在子任務列表,然后將其存儲在應用記憶中。在在線執行階段,選擇智能體根據用戶命令和當前屏幕狀態從探索集合中確定要執行的特定子任務。推斷智能體進一步通過提示LLM識別并完成所選子任務所需的底層動作序列。同時,當遇到與以前學習的任務相似的任務時,回憶智能體可以直接從記憶中調用并執行相應的子任務和動作序列

結論

在這篇綜述中,我們提供了由大型語言模型(LLMs)驅動的多模態智能體(LMAs)的最新研究的全面概述。我們首先介紹LMAs的核心組件(即感知、規劃、行動和記憶),并將現有研究分類為四個類別。隨后,我們編譯了評估LMAs的現有方法,并設計了一個全面的評估框架。最后,我們聚焦于LMAs領域內一系列當前和重要的應用場景。盡管取得了顯著進展,這一領域仍面臨許多未解決的挑戰,并且有相當大的改進空間。基于回顧的進展,我們最終強調了幾個有前景的方向:

關于框架:LMAs的未來框架可能會從兩個不同的視角發展。從單個智能體的角度來看,發展可能會向創建更統一的系統進步。這涉及規劃者直接與多模態環境互動[71],利用一套全面的工具[30],并直接操作記憶[51];從多個智能體的角度來看,推進多個多模態智能體之間的有效協調以執行集體任務成為一個關鍵的研究方向。這包括協作機制、通信協議和戰略任務分配等基本方面。

關于評估:這個領域迫切需要系統和標準的評估框架。理想的評估框架應包括一系列評估任務[58, 16],從簡單到復雜不等,每個任務都具有顯著的相關性和對人類的實用性。它應該包含清晰和明智的評估指標,精心設計以全面且非重復的方式評估LMA的多樣化能力。此外,用于評估的數據集應該被精心策劃,以更接近地反映現實世界場景。

關于應用:LMAs在現實世界中的潛在應用是巨大的,為以前對傳統模型來說具有挑戰性的問題提供解決方案,例如網頁瀏覽。此外,LMAs與人機交互領域的交集[54, 44]代表了未來應用的一個重要方向。它們處理和理解來自不同模態的信息的能力使它們能夠執行更復雜和細膩的任務,從而增強它們在現實世界場景中的實用性,并改善人與機器之間的互動。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。

1. 引言

在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。

現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。

LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。

盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。

2 幻覺在LVLM時代

**2.1 大型視覺-語言模型

LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。

**2.2 LVLMs中的幻覺

LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。

**2.3 LVLMs中幻覺的獨特挑戰

LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。

交織的原因

LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。

綜合緩解方法

除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。

3 評估方法和基準

在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。

評估方法:

非幻覺內容生成評估(Evaluation on Non-Hallucinatory Generation):

手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。

幻覺鑒別評估(Evaluation on Hallucination Discrimination)

這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。

基準(Benchmarks):

基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:

判別性基準(Discriminative Benchmarks):

這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。

生成性基準(Generative Benchmarks):

生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。

這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。

4. LVLM幻覺的原因

數據問題(Data Issues)

數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。

視覺編碼器問題(Vision Encoder Issues)

有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。

模態對齊問題(Modality Alignment Issues)

連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。

LLM問題(LLM Issues)

上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。

這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。

5. LVLM幻覺的緩解

LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。

6 結論

配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:

eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容
北京阿比特科技有限公司