亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

將自然語言(NL)問題轉換為SQL查詢,稱為文本到SQL(Text-to-SQL),已成為促進關系型數據庫訪問的關鍵技術,尤其對于沒有SQL知識的用戶。大型語言模型(LLMs)在自然語言處理(NLP)領域的最新進展,顯著推動了文本到SQL系統的發展,開辟了提升此類系統的新途徑。本研究系統地回顧了基于LLM的文本到SQL,重點討論四個關鍵方面:(1)對基于LLM的文本到SQL研究趨勢的分析;(2)從多角度對現有的基于LLM的文本到SQL技術進行深入分析;(3)總結現有的文本到SQL數據集和評估指標;(4)討論這一領域潛在的障礙和未來探索的方向。本綜述旨在為研究人員提供對基于LLM的文本到SQL的深入理解,激發該領域的新創新和進展。 CCS概念:? 計算方法 → 自然語言處理;? 信息系統 → 結構化查詢語言(SQL)。 附加關鍵詞:文本到SQL、大型語言模型(LLMs)。

引言 SQL查詢的利用顯著提高了從多個數據庫中提取數據的效率。這些數據已被有效應用于多個重要領域,如商業智能 [80] 和醫療分析 [78]。雖然技術專業人員擅長處理SQL查詢,但數據庫的自然語言接口(NLIDB)使得非技術用戶也能夠無縫地從結構化數據庫中提取信息 [20]。這種便捷性顯著推動了文本到SQL系統的發展,這些系統能夠自動將自然語言(NL)查詢轉換為有效的SQL查詢。為了說明這一點,我們考慮一個簡單的數據庫,如圖1所示,包含一個名為“cities”的表格,表中有“country”、“city_name”和“population”三列。通過使用文本到SQL系統,用戶輸入類似“Identify all cities in the UK with populations over five million”的查詢,將其轉換為以下SQL查詢:“SELECT city_name FROM cities WHERE country = ‘UK’ AND population > 5000000”。生成的SQL查詢隨后在給定數據庫中執行,返回的結果(如“[London]”)將反饋給用戶。整個過程簡化了不熟悉SQL的用戶對信息的訪問。

近年來,自然語言處理(NLP)領域出現了重大突破,隨著大型語言模型(LLMs)的出現 [1, 38],這些模型具有前所未有的處理和生成類人語境的能力,受到了廣泛關注 [12, 145]。隨著LLM的不斷發展,新的能力開始顯現,例如零-shot學習 [132]、few-shot學習 [108] 和指令跟隨 [136]。鑒于這些能力,基于LLM的文本到SQL方法逐漸嶄露頭角,尤其是基于上下文學習(ICL-based) [89] 和微調(FT-based)技術 [63] 的方法。因此,研究人員有必要系統地理解基于LLM的文本到SQL的關鍵方法、挑戰和未來方向。鑒于這一重要性,我們對2022年4月到2024年10月期間發表的92篇相關文獻進行了系統概述,并選擇了2017年到2024年10月間關于文本到SQL的開源數據集和評估指標。通過考察基于LLM的文本到SQL的發展趨勢,并從多角度審視一系列研究成果,我們旨在概述潛在的挑戰和未來研究的方向。 總之,本綜述的貢獻包括: ? 研究趨勢分析:我們對所調查的文獻進行了分析,識別出研究趨勢,包括按出版日期、出版平臺和主要貢獻類型進行的分類。 ? 文獻概覽:我們將基于LLM的文本到SQL研究分為三大類:方法論、數據集和評估指標。每一類別都按順序介紹,為讀者提供系統的概述。 ? LLM方法的新分類法:我們提出了一種新的SQL生成方法分類法,將其分為四種主要范式:預處理、上下文學習、微調和后處理。每個領域根據特定的模型設計進一步細分,提供了對當前創新的系統回顧。 ? 數據集和評估指標概述:我們對現有的文本到SQL任務的數據集和評估指標進行了概述。 ? 當前挑戰與未來方向的討論:通過對所調查文獻的分析,我們識別出當前研究中的幾個重要障礙。此外,我們還討論了未來研究的關鍵方向,為開發更健壯、高效和可靠的系統提供指導。 本文的其余部分安排如下:第二部分介紹了文本到SQL模型的發展,強調了使用LLM進行SQL生成的原因。第三部分概述了我們的系統文獻綜述方法。第四部分考察了基于LLM的文本到SQL研究趨勢。第五部分探討了現有的方法論,并將其分類為預處理、上下文學習、微調和后處理范式。第六部分回顧了現有的文本到SQL數據集和評估指標。第七部分討論了文本到SQL中的當前挑戰和潛在的未來研究方向。第八部分分析了我們研究的有效性威脅,第九部分總結了本綜述。我們希望本綜述能夠為當前進展提供清晰的全景圖,并激發未來在基于LLM的SQL生成領域的探索。

付費5元查看完整內容

相關內容

多模態大語言模型(Multimodal Large Language Model, MLLM)當前正處于快速發展階段,這一進展主要得益于基于語言的大模型(LLM)的先進能力。不同于以往的專用型模型,現有的MLLM正朝著“多模態通才”的范式演進。從最初僅具備多模態理解能力,這些模型已發展到不僅能夠理解,還能夠跨模態生成內容。其能力已從粗粒度的多模態理解擴展到細粒度層面,同時也從支持單一模態拓展到支持廣泛甚至任意模態。

為了評估各類MLLM的能力,研究者提出了多樣化的基準測試集。這引出了一個關鍵問題:我們是否可以簡單地認為,在多個任務上取得更高性能就意味著更強的MLLM能力,從而更接近人類級別的人工智能?我們認為,答案遠沒有那么簡單。在本項目中,我們提出了一個評估框架,用以描繪當前多模態通才模型的能力和行為。該框架被稱為“通用級別(General-Level)”,建立了一個涵蓋五個等級的MLLM性能與通用性評估體系,提供了一種比較不同MLLM的方法論,并用于衡量現有系統向更強大多模態通才,乃至通用人工智能(AGI)演進的進展。

該框架的核心是以“協同效應(Synergy)”作為評估標準,依據模型是否在理解與生成之間,以及在多模態交互中保持協同關系,對其能力進行分類。為了全面評估不同通才模型的綜合能力,我們構建了一個大規模的多模態基準測試集——General-Bench。該基準覆蓋了更廣泛的技能、模態、格式與能力,包含超過700個任務和325,800個實例。通過對100多個當前最先進的MLLM進行評估,結果揭示了各通才模型的能力排名,凸顯了實現真正人工智能所面臨的挑戰。我們希望本項目能夠為下一代多模態基礎模型的研究鋪平道路,提供穩健的基礎設施,以加速AGI的實現進程。

1 引言

大型語言模型(Large Language Models, LLMs,例如 ChatGPT(OpenAI, 2022a)和 LLaMA(Touvron 等,2023))通過以通才身份應對廣泛的自然語言處理(NLP)任務,徹底變革了該領域。這種能力的廣度,使人類在實現通用人工智能(Artificial General Intelligence, AGI)的道路上更進一步。然而,人類智能本質上是多模態的,而不僅僅依賴語言。這一認知推動了多模態大語言模型(Multimodal Large Language Models, MLLMs)的發展(Alayrac 等, 2022;Li 等, 2023a;Liu 等, 2023a;OpenAI, 2022b),即“多模態通才”,目前正迅速發展,并逐步向 AGI 靠近。 MLLM 的最新進展表現為多個重要突破。例如,最初的多模態智能體中,LLMs 僅作為任務調度器出現,后來逐步演化為聯合訓練的基礎型多模態模型(Zhu 等, 2023a;Liu 等, 2023a;Zhang 等, 2023a;OpenAI, 2022b;Wu 等, 2024a;Chen 等, 2024a;Sun 等, 2024)。此外,MLLM 的能力已從僅能理解多模態信號,發展到可同時進行理解與生成,甚至具備編輯能力(Wang 等, 2023a;Munasinghe 等, 2023;Zhang 等, 2024a;Fei 等, 2024a)。模型的理解能力也從粗粒度跨模態理解,提升到細粒度層級,例如像素級視覺建模(Ren 等, 2023;Yuan 等, 2023a;Rasheed 等, 2023)。更為關鍵的是,這些模型已從只支持單一非文本模態,擴展到能同時理解和生成多種模態,甚至能夠處理任意模態的輸入(Wu 等, 2024a;Zhan 等, 2024;Lu 等, 2024a)。 因此,研究社區相繼提出了多種用于評估 MLLM 的基準測試集(Wu 等, 2023a;Xia 等, 2024a;Yue 等, 2024a;Meng 等, 2024a;Liu 等, 2025;Li 等, 2024a;Ying 等, 2024a;Li 等, 2024b)。然而,當前主流的評估觀念可能已經滯后,往往簡單地假設:在多個任務上獲得更高性能,就代表具備更強的通才能力,也就更接近 AGI(Xu 等, 2023a;Yu 等, 2023;Fu 等, 2024a;Chen 等, 2024b)。我們認為這種觀點過于簡化了“真實多模態泛化能力”背后的深層含義。理論上,我們可以將多個任務上表現最好的 SoTA 專家模型拼接在一起,構建一個“超級智能體”,看似也可達成類似目標,但這種簡單堆疊式整合遠不能實現真正的 AGI。 我們認為,邁向 AGI 的關鍵在于“協同效應(Synergy Effect)”——即一種能力,能夠使模型在某一模態或任務中學到的知識遷移并增強對其他模態或任務的掌握,實現不同模態和任務之間的互促與提升。 如圖 2 所示,目前大多數 MLLM 主要建立在語言模型的智能基礎上,模擬出一種“間接的多模態智能”,本質上是將語言智能延伸用于多模態理解。盡管某些 LLM(如 ChatGPT)已在 NLP 任務中展示出跨任務的協同效應,反映了語言智能的潛力,但多數 MLLM 并未真正實現在模態之間或任務之間的協同。 在本項目中,我們提出了一個更為精細的評估框架——General-Level,以更準確地定位并評估當前多模態通才模型的能力,為實現真正的多模態 AGI 指明路徑。受到自動駕駛領域分級標準的啟發(Yurtsever 等, 2020),General-Level 建立了五個主要性能與通用性等級的劃分標準。該框架以“協同能力”作為核心評估準則,依據模型在多模態理解與生成、以及模態交互中的協同表現,對其能力進行分級。從最低到最高等級,所要求的協同能力范圍依次從單一任務或模態擴展到“完全協同”,并且等級越高,模型所需跨模態整合與泛化的能力也越高,晉升難度也隨之增加。 要在 General-Level 框架中進行有效評估,一個合適的基準體系至關重要。盡管已有多個 MLLM 評估基準,例如 LVLM-eHub(Xu 等, 2023a)、MME(Fu 等, 2024a)、MMMU(Yue 等, 2024a)、SEED-Bench(Li 等, 2024a)、MMT-Bench(Ying 等, 2024a)和 MEGA-Bench(Chen 等, 2024b),但它們往往存在以下局限: 1. 多數現有基準將所有任務統一轉換為多選題格式(Fu 等, 2024a;Ying 等, 2024a),雖然簡化了評估流程,卻局限在“多模態理解”能力評估上,忽略了生成、編輯等關鍵能力; 1. 多數基準集中于圖像模態,忽視了視頻、音頻、三維等其他關鍵模態(Wu 等, 2023a;Liu 等, 2025;Li 等, 2024a); 1. 當前評估體系主要停留在粗粒度理解層面,無法評估如像素級圖像理解與生成等細粒度能力(Fei 等, 2024a;Zhang 等, 2024a)。

為應對上述挑戰,我們提出了一個大規模多模態評估基準——General-Bench,覆蓋圖像、視頻、音頻、三維、語言等多種原生模態格式,涵蓋范圍廣泛的任務,全面評估一個多模態通才應具備的核心能力。 我們對 100 多個當前最先進的 LLM/MLLM 系統進行了評估,揭示了它們作為多模態通才的能力與排名。其中一個顯著發現是:絕大多數 MLLM 缺乏“跨任務”或“跨模態”的協同能力,因此難以達到較高等級評估標準,甚至 GPT-4V 和 GPT-4o 等先進模型也未能獲得頂級排名。這表明在邁向真正多模態 AGI 的道路上仍存在明顯差距。同時,大多數模型只能完成少數基本的多模態任務與技能,這也拉低了其綜合評分。更關鍵的是,當前尚無模型能夠通過非語言模態提升語言智能,這一現象凸顯了實現 AGI 所面臨的重大挑戰。 主要貢獻:

1)我們提出了一個多模態通才的分級標準體系——General-Level,為 MLLM 研究提供了嚴謹的評估規范與標準; 2)我們構建了一個全新的多模態評估基準——General-Bench,提供了當前最廣泛的模態與任務覆蓋。 我們希望本項目能夠作為推動下一代多模態基礎模型發展的基礎設施,助力構建更強大、通用的多模態智能系統,進一步邁向 AGI。

付費5元查看完整內容

大型語言模型(LLMs)在復雜任務中展現了卓越的能力。近年來,大型推理模型(LRMs)的進展,例如OpenAI的o1和DeepSeek的R1,通過利用監督微調(SFT)和強化學習(RL)技術來增強鏈式思維(CoT)推理,進一步提升了在數學和編程等系統-2推理領域的性能。然而,盡管更長的CoT推理序列能夠提高性能,但它們也因冗長和冗余的輸出而引入了顯著的計算開銷,這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度,同時保留推理能力,從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大,高效推理仍處于研究的早期階段。在本文中,我們首次提供了結構化綜述,系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言,基于LLMs的內在機制,我們將現有研究分為幾個關鍵方向:(1)基于模型的高效推理,即考慮將完整推理模型優化為更簡潔的推理模型,或直接訓練高效推理模型;(2)基于推理輸出的高效推理,旨在推理過程中動態減少推理步驟和長度;(3)基于輸入提示的高效推理,通過輸入提示的屬性(如難度或長度控制)來提高推理效率。此外,我們還介紹了使用高效數據訓練推理模型的方法,探索了小型語言模型的推理能力,并討論了評估方法和基準測試。我們維護了一個公共資源庫,以持續跟蹤和更新這一前景廣闊領域的最新研究進展。

1 引言

大型語言模型(LLMs)已成為異常強大的人工智能工具,在自然語言理解和復雜推理任務中展現了卓越的能力。近年來,專注于推理的大型語言模型(也稱為大型推理模型,LRMs)[91]的出現,例如OpenAI的o1 [61]和DeepSeek的R1 [31],顯著提升了其在系統-2推理領域(如數學[16, 35]和編程[7, 17])的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型(如LLaMA [30, 80]、Qwen [95])演化而來,通過鏈式思維(CoT)提示[86]生成顯式的、逐步的推理序列,從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調(SFT)和強化學習(RL)來開發,這些方法促進了迭代和系統化的問題解決能力。具體而言,OpenAI的o1 [61]訓練流程可能結合了SFT和RL,并采用了蒙特卡洛樹搜索(MCTS)[71]和經過處理的獎勵模型(PRM)[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調,這些數據由經過RL訓練的DeepSeek-R1-Zero生成,隨后通過基于規則的獎勵函數進一步優化。然而,盡管長鏈式思維推理顯著增強了推理能力和準確性,但類似CoT機制(如自洽性[84]、思維樹[96]、激勵性RL[31])的引入也導致了冗長的輸出響應,從而帶來了巨大的計算開銷和思考時間。例如,當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少?”[10]時,這些模型的推理序列有時可能長達數千個詞元,其中許多是冗余的,并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲,限制了推理模型在計算敏感的實際應用中的使用,包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理,尤其是減少推理長度,具有顯著的優勢,例如降低成本并增強實際部署中的推理能力。近年來,許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑,使高效推理成為一個備受關注且快速發展的研究領域。在本文中,我們首次提供了結構化綜述,系統性地探索了LLMs高效推理的當前進展。如圖2所示,我們將現有研究分為以下關鍵方向:(1)基于模型的高效推理,即將完整推理模型優化為更簡潔的推理模型,或直接通過微調實現高效推理;(2)基于推理輸出的高效推理,即在推理過程中動態減少推理步驟和輸出長度;(3)基于輸入提示的高效推理,通過利用提示屬性(如提示引導的長度或提示難度)提高推理效率。與LLMs中的模型壓縮技術(如量化[27, 48]或kv緩存壓縮[52,103])不同,這些技術側重于壓縮模型規模并實現輕量級推理,而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言,我們將高效推理方法總結為以下幾類:基于長度獎勵設計的強化學習(第3.1節);基于可變長度CoT數據的監督微調(第3.2節);將推理步驟壓縮為更少的潛在表示(第4.1節);推理過程中的動態推理范式(第4.2節);基于提示引導的高效推理(第5.1節);通過路由提示優化推理效率(第5.2節);此外,本文還探討了其他有趣的主題,包括:使用高效數據訓練推理模型(第6.1節);小型語言模型的推理能力與模型壓縮(第6.2節);高效推理模型的評估與基準測試(第7節);我們將持續更新公共資源庫,以跟蹤高效推理領域的最新研究進展。

付費5元查看完整內容

隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322

**1.1 研究動機

近年來,大語言模型(LLMs)的進展徹底改變了人工智能(AI)領域,使其能夠執行復雜的任務,如創意寫作、推理和決策,甚至在某些方面可與人類水平相媲美 [156]。然而,盡管這些模型在個體層面展現了卓越的能力,它們仍存在一些固有局限性,例如幻覺問題 [57]、自回歸特性(如無法進行慢思考 [49])以及擴展規律 [55, 69]。為了解決這些挑戰,智能體人工智能(Agentic AI)將LLMs作為“大腦”或“協調者”,將其與外部工具和議程(如規劃)相結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行學習和交互 [1,2]。此外,研究人員越來越多地探索水平擴展——利用多個基于LLM的智能體協同工作,以實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使智能體群體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的MASs,它們利用多個LLM的集體智能來應對復雜的多步驟挑戰 [118]。MASs的靈感不僅來自技術進步,還源于人類集體智能(如“心智社會” [87]、“心智理論” [45])。人類社會擅長通過團隊合作和專業化實現共同目標,從日常任務到科學發現皆是如此。類似地,MASs旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角進行有效協作。基于LLM的MAS可以具有多種不同特性的協作渠道,如圖1所示。MASs在各個領域取得了顯著成功,通過利用專業智能體之間的協作和協調,增強了個體LLM的能力。這些系統在智能體之間分配任務,使智能體能夠共享知識、執行子任務,并將其努力與共同目標對齊。MASs的潛在益處是變革性的。它們在知識記憶方面表現出色,使分布式智能體能夠保留和共享多樣化的知識庫,而不會使單個系統過載 [51, 154]。它們通過將任務分配給多個智能體來增強長期規劃能力,支持在長期交互中持續解決問題 [58]。此外,MASs通過匯集具有專門提示/角色的多個模型的專業知識,實現了有效的泛化,使其能夠比獨立模型更有效地解決多樣化問題。最后,MASs通過同時管理由專業智能體處理的子任務,提高了交互效率,加速了復雜多步驟任務的解決。MAS致力于實現集體智能,即多個智能體的綜合能力超越其個體貢獻的總和 [24]。有效MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],這些機制推動了從傳統的孤立模型向強調交互的方法的轉變,使智能體能夠連接、協商、決策、規劃并共同行動,從而在集體環境中推動AI能力的提升。深入了解協作機制在MASs中的運作方式,對于釋放其全部潛力至關重要。

**1.2 研究現狀與貢獻

由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些關于該主題的綜述。然而,這些工作往往未能全面探討基于LLM的MASs的協作方面和機制,而這些對于使智能體能夠有效實現共同目標至關重要,如表1所總結。例如,[47, 107, 136] 主要關注單智能體系統,僅淺顯地涉及多智能體協作。[136] 提出了一個基于LLM的智能體框架,包括三個組件:大腦、感知和行動。他們的工作強調了將LLMs作為智能體的“大腦”,利用輸入模態集成、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,缺乏對使智能體協同工作的機制的深入探討。[47] 調查了基于LLM的MASs成功應用的領域和場景,分析了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但未涉及協作的其他特征,如類型、策略或協調架構。其他工作,如[82],專注于協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLMs,并將合作擴展到傳統融合技術之外,但忽略了其他關鍵的協作機制,如競爭和競合,以及除流行協作類型之外的維度。相比之下,[120] 提出了一個通過MASs增強LLM能力的通用框架,展示了Auto-GPT等工具如何與其框架對齊。然而,協作機制仍停留在概念層面,缺乏詳細的實現和特征描述。[50] 的重點是配置LLMs以利用多樣化的能力和角色,例如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局和局部任務規劃。與此同時,[46] 將其研究范圍縮小到基于LLM的MASs在基于智能體的建模和模擬中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管對模擬特定應用具有啟發性,但它缺乏對深入協作機制的更廣泛視角。類似地,[68] 調查了這些系統在數字孿生中的應用,而[52, 70] 則專注于軟件工程領域。從上述總結和解釋中可以看出,現有研究在全面探索基于LLM的MASs的協作方面和機制方面存在明顯不足,而這些對于使智能體能夠共同實現目標至關重要。本文旨在提供基于LLM的智能體在多智能體協作系統中協作基礎的全面視角。以協作為核心,我們的研究基于參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)以及協調層對智能體之間的協作進行了特征化。我們強調了促進有效協作的機制和關鍵技術,識別了MAS設計中的關鍵特征和趨勢。通過對現有方法的綜述和開放挑戰的識別,我們將這些發現綜合為一個連貫的框架。該框架為未來研究奠定了基礎,推動了LLMs在MASs中的集成,并為開發更具適應性、智能性和協作性的AI系統鋪平了道路,以應對復雜的現實世界應用。我們的主要貢獻如下:

  • 基于LLM的MAS中的協作方面和機制:我們專注于基于LLM的多智能體協作的操作機制,強調實現有效協作所需的“技術訣竅”,包括協作類型、策略、通信結構和協調架構。
  • 基于LLM的MAS的通用框架:我們提出了一個綜合框架,整合了MAS的多樣化特征,使研究人員能夠理解、設計和開發多智能體協作系統。
  • 現實世界應用的綜述:我們研究了基于LLM的MASs在各個領域的實際應用,突出了其實際應用、成功案例和局限性。
  • 經驗教訓與開放問題的討論:我們識別了MASs發展議程中的關鍵挑戰,如集體推理和決策,并概述了解決這些挑戰的潛在研究方向。

**1.3 論文結構

本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。

付費5元查看完整內容

多模態視覺語言模型(VLMs)作為一種變革性技術,出現在計算機視覺與自然語言處理的交叉領域,使得機器能夠通過視覺和文本兩種模態感知和推理世界。例如,像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型,在視覺和文本數據上展示了強大的推理和理解能力,并在零-shot 分類任務中超過了傳統的單模態視覺模型 [108]。盡管在研究中的快速進展和在應用中的日益普及,關于VLM的現有研究的綜合綜述仍然顯著缺乏,特別是對于那些希望在特定領域利用VLM的研究者。為此,我們在以下幾個方面提供了VLM的系統性概述:[1] 過去五年(2019-2024)中開發的主要VLM模型的信息;[2] 這些VLM的主要架構和訓練方法;[3] 對VLM的流行基準和評估指標的總結和分類;[4] VLM的應用,包括具身智能體、機器人技術和視頻生成;[5] 當前VLM面臨的挑戰和問題,如幻覺、 fairness(公平性)和安全性。詳細的文獻和模型庫鏈接收集可見于 //github.com/zli12321/Awesome-VLM-Papers-And-Models.git。 預訓練的大型語言模型(LLMs),如LLaMA [237] 和 GPT-4 [199],在廣泛的自然語言處理(NLP)任務中取得了顯著成功 [173, 184]。然而,隨著這些模型的不斷擴展 [191],它們面臨著兩個挑戰:(1)高質量文本數據的有限供應 [241, 142];(2)單一模態架構在捕捉和處理需要理解不同模態之間復雜關系的現實世界信息時的固有限制 [73, 95]。這些局限性促使了對視覺語言模型(VLMs)的探索和開發,VLM結合了視覺(例如圖像、視頻)和文本輸入,提供了更全面的理解,能夠理解視覺空間關系、物體、場景和抽象概念 [22, 85]。VLM突破了此前單模態方法的表示邊界,支持了更豐富、更加具有上下文信息的世界觀 [59, 244, 168],例如視覺問答(VQA)[4]、自動駕駛 [235]。與此同時,VLM遇到了與單模態模型不同的新挑戰,例如視覺幻覺,當VLM生成響應時,沒有進行有意義的視覺理解,而是主要依賴存儲在LLM組件中的參數知識 [76, 152]。目前已經有若干關于單模態模型的綜述 [190, 30],但多模態模型的綜述仍然缺乏。在本文中,我們對VLM的研究成果進行了批判性審視,系統地回顧了當前主要的VLM架構、評估與基準、應用以及VLM面臨的挑戰。

付費5元查看完整內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容
北京阿比特科技有限公司