亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)在各個領域和智能代理應用中取得了顯著進展。然而,當前從人類或外部模型監督學習的LLMs成本高昂,并且隨著任務復雜性和多樣性的增加,可能面臨性能上限的挑戰。為了解決這個問題,自我進化方法使LLM能夠自主獲取、精煉和學習模型自身生成的經驗,正迅速發展。這種受人類經驗學習過程啟發的新訓練范式為將LLMs擴展到超級智能提供了潛力。在這項工作中,我們提出了對LLMs中自我進化方法的全面調查首先,我們提出了一個自我進化的概念框架,并概述了演化過程,該過程由四個階段的迭代循環組成:經驗獲取、經驗精煉、更新和評估。其次,我們對LLMs和基于LLMs的代理的演化目標進行分類;然后,我們總結了文獻,并為每個模塊提供了分類法和見解。最后,我們指出了現有的挑戰,并提出了未來的方向,以改進自我進化框架,為研究人員提供關鍵的見解,加快自我進化LLMs的發展。我們對應的 GitHub 倉庫可以在 //github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 獲取。

****隨著人工智能的快速發展,諸如GPT3.5(Ouyang等,2022)、GPT-4(Achiam等,2023)、Gemini(Team等,2023)、LLaMA(Touvron等,2023a,b)和Qwen(Bai等,2023)等大型語言模型(LLMs)標志著語言理解和生成方面的重大轉變。這些模型經歷了三個發展階段,如圖1所示:首先,在大規模和多樣化的語料庫上進行預訓練,以獲得對語言和世界知識的一般理解(Devlin等人,2018;Brown等人,2020),然后進行監督微調以引發下游任務的能力(Raffel等人,2020;Chung等人,2022)。最后,人類偏好對齊訓練使LLMs能夠以人類行為作出反應(Ouyang等,2022)。這種連續的訓練范 paradigms 取得了重大突破,使LLMs能夠執行一系列任務,具有顯著的零射擊和上下文能力,例如問答(Tan等,2023)、數學推理(Collins等,2023)、代碼生成(Liu等,2024b)以及需要與環境進行交互的任務解決(Liu等,2023b)。

盡管取得了這些進展,但人們預計新興一代的LLMs可以被賦予更高復雜度的任務,例如科學發現(Miret和Krishnan,2024)和未來事件預測(Schoenegger等,2024)。然而,由于現有訓練范 paradigms 中建模、標注和評估的固有困難,當前的LLMs在這些復雜任務中面臨挑戰(Burns等,2023)。此外,最近開發的Llama-3模型已經在包含15萬億標記的廣泛語料庫上進行了訓練。這是一個龐大的數據量,表明通過添加更多現實世界的數據來顯著擴展模型性能可能存在限制。這引起了人們對LLMs自我進化機制的興趣,類似于人類智能的自然演變,并由游戲中的人工智能發展所說明,例如從AlphaGo(Silver等,2016)到AlphaZero(Silver等,2017)的過渡。AlphaZero的自我對弈方法,無需標記數據,為LLMs超越當前限制并實現超人類表現提供了前進的道路。

受到上述范 paradigm 的啟發,LLMs的自我進化研究在模型發展的不同階段迅速增加,例如自我指導(Wang等,2023b)、自我對弈(Tu等,2024)、自我改進(Huang等,2022)和自我訓練(Gulcehre等,2023)。值得注意的是,DeepMind的AMIE系統(Tu等,2024)在診斷準確性方面超過了初級保健醫生,而微軟的WizardLM-2系統超過了GPT-4的初始版本的性能。這兩個模型都是使用具有自主學習能力的自我進化框架開發的,并代表了LLM培訓范 paradigm 的潛在轉變。然而,這些方法之間的關系仍然不清楚,缺乏系統的組織和分析。 因此,我們首先全面調查LLMs中的自我進化過程,并為其發展建立一個概念框架。

這種自我進化的特點是一個迭代循環,涉及經驗獲取、經驗改進、更新和評估,如圖2所示。在循環過程中,LLM通過不斷發展新任務和生成相應的解決方案來獲得經驗,隨后通過更新模型的重量或上下文來獲取更好的監督信號。在評估模型進展并設定新目標后,LLM最終被評估。 LLMs中自我進化的概念在各種研究社區中引起了相當大的興奮,承諾一個能夠自適應、學習和自主改進的模型新時代,類似于人類對不斷變化的環境和挑戰的演變。自我進化的LLMs不僅能夠超越當前靜態、數據約束的模型的局限,而且還標志著向更加動態、健壯和智能的系統的轉變。

通過提供一個結構化的概念框架,這項調查通過全面概述深化了對自我進化LLMs新興領域的理解。我們追溯了該領域從過去到最新的前沿方法和應用的演變,同時檢查了現有的挑戰并勾勒了未來的研究方向,為自我進化框架和下一代模型的開發鋪平了道路。

本調查分為以下幾個部分:我們首先介紹自我進化的概述(§2),包括背景和概念框架。我們總結了當前方法的現有進化能力和領域(§3)。然后,我們對自我進化過程的不同階段的最新進展進行了深入分析和討論,包括經驗獲取(§4)、經驗改進(§5)、更新(§6)和評估(§7)。最后,我們概述了開放性問題和未來方向(§8)。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

圖在表示社交網絡、知識圖譜和分子發現等各種領域的復雜關系中發揮著重要作用。隨著深度學習的出現,圖神經網絡(GNNs)已成為圖機器學習(Graph ML)的基石,促進了圖結構的表示和處理。最近,大語言模型(LLMs)在語言任務中展示了前所未有的能力,并廣泛應用于計算機視覺和推薦系統等多種應用中。這一顯著的成功也吸引了人們將LLMs應用于圖領域的興趣。人們越來越多地努力探索LLMs在推進圖機器學習的泛化、可遷移性和小樣本學習能力方面的潛力。同時,圖,特別是知識圖譜,富含可靠的事實知識,可以用來增強LLMs的推理能力,潛在地緩解它們的局限性,如幻覺現象和缺乏可解釋性。鑒于這一研究方向的迅速進展,對LLMs時代圖機器學習的最新進展進行系統的綜述是必要的,以便為研究人員和實踐者提供深入的理解。因此,在這篇綜述中,我們首先回顧了圖機器學習的最近發展。然后,我們探討如何利用LLMs來提高圖特征的質量,減輕對標記數據的依賴,并應對圖異質性和分布外(OOD)泛化等挑戰。之后,我們深入探討了圖如何增強LLMs,突出了它們提升LLM預訓練和推理的能力。此外,我們還研究了各種應用,并討論了這一有前途的領域的潛在未來發展方向。

圖數據在許多實際應用中都有廣泛的應用,包括社交圖、知識圖譜和推薦系統。通常,圖由節點和邊組成,例如,在社交圖中,節點代表用戶,邊代表關系。除了拓撲結構外,圖還傾向于擁有各種節點特征,如文本描述,這些特征提供了有關節點的寶貴上下文和語義信息。為了有效地建模圖,圖機器學習(Graph ML)已引起了重大關注。隨著深度學習(DL)的出現,圖神經網絡(GNNs)因其消息傳遞機制而成為圖機器學習的關鍵技術。該機制允許每個節點通過遞歸接收和聚合來自鄰近節點的消息來獲取其表示,從而捕捉圖結構中的高階關系和依賴性。為了減少對監督數據的依賴,許多研究集中于開發自監督圖機器學習方法,以提升GNNs捕捉可遷移圖模式的能力,增強它們跨各種任務的泛化能力。鑒于圖數據應用的指數級增長,研究人員正在積極開發更強大的圖機器學習方法。

最近,大語言模型(LLMs)開啟了人工智能的新趨勢,并在自然語言處理(NLP)中展示了顯著的能力。隨著這些模型的發展,LLMs不僅被應用于語言任務,還在計算機視覺(CV)、推薦系統等各種應用中展示了巨大的潛力。LLMs在復雜任務中的有效性歸因于它們在架構和數據集大小上的廣泛規模。例如,擁有1750億參數的GPT-3展示了生成類人文本、回答復雜問題和編程的激動人心的能力。此外,由于其龐大的訓練數據集,LLMs能夠掌握廣泛的通用知識和復雜的推理能力。因此,它們在語言語義和知識推理方面的能力使它們能夠學習語義信息。此外,LLMs展示了在有限或無特定訓練的新任務和領域中的突出能力,這一屬性預計將在不同的下游數據集和任務中提供高泛化能力,即使在少樣本或零樣本情況下也是如此。因此,利用LLMs在圖機器學習(Graph ML)中的能力引起了越來越多的關注,并有望增強Graph ML,推動圖基礎模型(GFMs)的發展。

GFMs通常在廣泛的數據上訓練,并可以適應廣泛的下游任務。通過利用LLMs的能力,有望增強Graph ML在各種任務中的泛化能力,從而促進GFMs的發展。目前,研究人員已經進行了一些初步努力,探索LLMs在推進Graph ML向GFMs發展中的潛力。圖1展示了將LLMs和GNNs集成用于各種圖任務的一個例子。首先,一些方法利用LLMs減輕原始Graph ML對標記數據的依賴,它們根據隱含和顯式圖結構信息進行推斷。例如,InstructGLM通過將圖數據序列化為令牌并編碼圖的結構信息來解決圖任務,對諸如LlaMA和T5的模型進行微調。其次,為了克服特征質量的挑戰,一些方法進一步利用LLMs提高圖特征的質量。例如,SimTeG在文本圖數據集上對LLMs進行微調,獲取文本屬性嵌入,然后利用這些嵌入增強GNN以執行各種下游任務。此外,一些研究探索使用LLMs來解決圖的異質性和OOD問題。

另一方面,盡管LLM在各個領域取得了巨大成功,但它仍面臨幾個挑戰,包括幻覺、實際意識缺乏和解釋性不足。圖,尤其是知識圖譜,以結構化格式捕獲大量高質量可靠的事實知識。因此,將圖結構整合到LLMs中可以提高LLMs的推理能力并緩解這些限制。為此,已進行了一些努力,探索圖在增強LLMs解釋性和緩解幻覺方面的潛力。鑒于這一領域的迅速發展和巨大潛力,對LLMs時代圖應用和圖機器學習的最新進展進行全面回顧是必要的。

因此,在這篇綜述中,我們旨在提供關于LLMs時代圖機器學習的全面回顧。綜述的大綱如圖2所示:第二部分回顧與圖機器學習和基礎模型相關的工作。第三部分介紹了圖上的深度學習方法,重點是各種GNN模型和自監督方法。隨后,綜述深入探討了如何在第四部分使用LLMs來增強Graph ML,以及在第五部分如何采用圖來增強LLMs。最后,第六部分和第七部分分別討論了Graph ML在LLMs時代的一些應用和潛在的未來方向。我們的主要貢獻可以總結如下:

我們詳細描述了從早期圖學習方法到LLMs時代最新的GFMs的演變; 我們提供了當前LLMs增強的Graph ML方法的全面分析,突出了它們的優勢和局限,并提供了系統的分類; 我們徹底調查了圖結構應對LLMs限制的潛力;

我們探索了Graph ML在LLMs時代的應用和未來方向,并討論了各個領域的研究和實際應用。 與我們的綜述同時進行的,Wei等人回顧了圖學習的發展。Zhang等人提供了大型圖模型的前瞻性回顧。Jin等人和Li等人分別回顧了在圖上預訓練語言模型(特別是LLMs)及其應用到不同類型的圖的不同技術。Liu等人根據流程回顧了圖基礎模型。Mao等人關注基本原則,并討論了GFMs的潛力。

與這些同時進行的綜述不同,我們的綜述提供了更全面的回顧,具有以下不同之處:(1)我們提供了關于Graph Machine Learning發展的更系統的回顧,并進一步探索了LLMs對Graph ML向GFMs的發展;(2)我們提出了LLMs時代Graph ML最新進展的更全面和細致的分類;(3)我們深入探討了最近Graph ML的局限性,并提供了從LLMs的角度克服這些局限性的洞見;(4)我們進一步探討了如何使用圖來增強LLMs;(5)我們徹底總結了廣泛的應用范圍,并提出了對挑戰和未來方向的更前瞻性討論。

盡管具有巨大潛力,基于GNN的圖機器學習(Graph ML)仍存在固有局限。首先,常規的GNN模型通常需要標記數據進行監督,獲取這些注釋可能在時間和成本上非常耗資源。其次,現實世界中的圖往往包含豐富的文本信息,這對下游任務至關重要。然而,GNN通常依賴于淺層文本嵌入來提取語義,從而限制了它們捕捉復雜語義和文本特征的能力。此外,圖的多樣性為GNN模型在不同領域和任務中的泛化提出了挑戰。最近,大語言模型(LLMs)在處理自然語言方面取得了顯著成功,具有如下激動人心的特點:(1)進行零/少樣本預測;(2)提供統一的特征空間。這些能力為解決圖機器學習和圖基礎模型(GFMs)所面臨的上述挑戰提供了潛在的解決方案。因此,本節旨在研究當前LLMs能為提升圖機器學習向GFMs的進展做出什么貢獻,同時也審視它們當前的局限性,如圖4所示。

大語言模型(LLMs)在各個領域展示了令人印象深刻的語言生成和理解能力。然而,它們仍面臨幾個迫切的挑戰,包括事實性認知、幻覺、推理過程中的有限可解釋性等問題。為了緩解這些問題,一種潛在的方法是利用知識圖譜(KGs),知識圖譜以結構化格式存儲高質量、人工策劃的事實知識。最近的綜述[152]–[154]總結了使用KGs來增強語言模型(LMs)的研究。Hu等人[152]提供了關于知識增強的預訓練語言模型用于自然語言理解和自然語言生成的綜述。Agrawal等人[153]系統地回顧了通過利用KGs來減輕LLMs中的幻覺的研究,這些研究涵蓋三個維度:推理過程、學習算法和答案驗證。Pan等人[154]從三個不同的視角全面總結了KGs和LLMs的整合:KG增強的LLMs、LLM增強的KGs和雙方相互加強的LLMs與KGs的協同作用。在本節中,我們將深入探討相關研究,這些研究探索了使用KGs實現知識增強的語言模型預訓練、減輕幻覺和提高推理可解釋性的用途。

結論

在這項綜述中,我們全面回顧了大語言模型(LLMs)時代圖應用和圖機器學習(Graph ML)的最新進展,這是圖學習中的一個新興領域。我們首先回顧了圖機器學習的發展,然后深入探討了各種LLMs增強圖機器學習的方法。由于在各個領域的顯著能力,LLMs有巨大的潛力推動圖機器學習向圖基礎模型(GFMs)發展。我們進一步探索了用圖增強LLMs,突出了它們在增強LLM預訓練和推理方面的能力。此外,我們展示了它們在多樣化應用中的潛力,如分子發現、知識圖譜和推薦系統。盡管取得了成功,這個領域仍在發展中,呈現了許多進一步發展的機會。因此,我們進一步討論了幾個挑戰和潛在的未來方向。總的來說,我們的綜述旨在為研究人員和實踐者提供一個系統和全面的回顧,激發對這一有前途領域的未來探索。

付費5元查看完整內容

在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。

擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。

雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。

總結來說,我們的貢獻包括

我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。

我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。

我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。

我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。

本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。

分類法

利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件

在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。

在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。

通用可控文本到圖像生成

除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論

在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。

付費5元查看完整內容

大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。

引言

近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

  • 先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。

  • 基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。

  • NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。

  • 生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:

  • 數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。

范式1: 先訓練,然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

深度神經網絡(DNNs)在許多計算機視覺任務中是成功的。然而,最精確的DNN需要數以百萬計的參數和操作,這使得它們需要大量的能量、計算和內存。這就阻礙了大型DNN在計算資源有限的低功耗設備中的部署。最近的研究改進了DNN模型,在不顯著降低精度的前提下,降低了內存需求、能耗和操作次數。本文綜述了低功耗深度學習和計算機視覺在推理方面的研究進展,討論了壓縮和加速DNN模型的方法。這些技術可以分為四大類:(1)參數量化和剪枝;(2)壓縮卷積濾波器和矩陣分解;(3)網絡結構搜索;(4)知識提取。我們分析了每一類技術的準確性、優點、缺點和潛在的問題解決方案。我們還討論了新的評價指標,作為今后研究的指導。

付費5元查看完整內容
北京阿比特科技有限公司