亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態大語言模型(Multimodal Large Language Model, MLLM)當前正處于快速發展階段,這一進展主要得益于基于語言的大模型(LLM)的先進能力。不同于以往的專用型模型,現有的MLLM正朝著“多模態通才”的范式演進。從最初僅具備多模態理解能力,這些模型已發展到不僅能夠理解,還能夠跨模態生成內容。其能力已從粗粒度的多模態理解擴展到細粒度層面,同時也從支持單一模態拓展到支持廣泛甚至任意模態。

為了評估各類MLLM的能力,研究者提出了多樣化的基準測試集。這引出了一個關鍵問題:我們是否可以簡單地認為,在多個任務上取得更高性能就意味著更強的MLLM能力,從而更接近人類級別的人工智能?我們認為,答案遠沒有那么簡單。在本項目中,我們提出了一個評估框架,用以描繪當前多模態通才模型的能力和行為。該框架被稱為“通用級別(General-Level)”,建立了一個涵蓋五個等級的MLLM性能與通用性評估體系,提供了一種比較不同MLLM的方法論,并用于衡量現有系統向更強大多模態通才,乃至通用人工智能(AGI)演進的進展。

該框架的核心是以“協同效應(Synergy)”作為評估標準,依據模型是否在理解與生成之間,以及在多模態交互中保持協同關系,對其能力進行分類。為了全面評估不同通才模型的綜合能力,我們構建了一個大規模的多模態基準測試集——General-Bench。該基準覆蓋了更廣泛的技能、模態、格式與能力,包含超過700個任務和325,800個實例。通過對100多個當前最先進的MLLM進行評估,結果揭示了各通才模型的能力排名,凸顯了實現真正人工智能所面臨的挑戰。我們希望本項目能夠為下一代多模態基礎模型的研究鋪平道路,提供穩健的基礎設施,以加速AGI的實現進程。

1 引言

大型語言模型(Large Language Models, LLMs,例如 ChatGPT(OpenAI, 2022a)和 LLaMA(Touvron 等,2023))通過以通才身份應對廣泛的自然語言處理(NLP)任務,徹底變革了該領域。這種能力的廣度,使人類在實現通用人工智能(Artificial General Intelligence, AGI)的道路上更進一步。然而,人類智能本質上是多模態的,而不僅僅依賴語言。這一認知推動了多模態大語言模型(Multimodal Large Language Models, MLLMs)的發展(Alayrac 等, 2022;Li 等, 2023a;Liu 等, 2023a;OpenAI, 2022b),即“多模態通才”,目前正迅速發展,并逐步向 AGI 靠近。 MLLM 的最新進展表現為多個重要突破。例如,最初的多模態智能體中,LLMs 僅作為任務調度器出現,后來逐步演化為聯合訓練的基礎型多模態模型(Zhu 等, 2023a;Liu 等, 2023a;Zhang 等, 2023a;OpenAI, 2022b;Wu 等, 2024a;Chen 等, 2024a;Sun 等, 2024)。此外,MLLM 的能力已從僅能理解多模態信號,發展到可同時進行理解與生成,甚至具備編輯能力(Wang 等, 2023a;Munasinghe 等, 2023;Zhang 等, 2024a;Fei 等, 2024a)。模型的理解能力也從粗粒度跨模態理解,提升到細粒度層級,例如像素級視覺建模(Ren 等, 2023;Yuan 等, 2023a;Rasheed 等, 2023)。更為關鍵的是,這些模型已從只支持單一非文本模態,擴展到能同時理解和生成多種模態,甚至能夠處理任意模態的輸入(Wu 等, 2024a;Zhan 等, 2024;Lu 等, 2024a)。 因此,研究社區相繼提出了多種用于評估 MLLM 的基準測試集(Wu 等, 2023a;Xia 等, 2024a;Yue 等, 2024a;Meng 等, 2024a;Liu 等, 2025;Li 等, 2024a;Ying 等, 2024a;Li 等, 2024b)。然而,當前主流的評估觀念可能已經滯后,往往簡單地假設:在多個任務上獲得更高性能,就代表具備更強的通才能力,也就更接近 AGI(Xu 等, 2023a;Yu 等, 2023;Fu 等, 2024a;Chen 等, 2024b)。我們認為這種觀點過于簡化了“真實多模態泛化能力”背后的深層含義。理論上,我們可以將多個任務上表現最好的 SoTA 專家模型拼接在一起,構建一個“超級智能體”,看似也可達成類似目標,但這種簡單堆疊式整合遠不能實現真正的 AGI。 我們認為,邁向 AGI 的關鍵在于“協同效應(Synergy Effect)”——即一種能力,能夠使模型在某一模態或任務中學到的知識遷移并增強對其他模態或任務的掌握,實現不同模態和任務之間的互促與提升。 如圖 2 所示,目前大多數 MLLM 主要建立在語言模型的智能基礎上,模擬出一種“間接的多模態智能”,本質上是將語言智能延伸用于多模態理解。盡管某些 LLM(如 ChatGPT)已在 NLP 任務中展示出跨任務的協同效應,反映了語言智能的潛力,但多數 MLLM 并未真正實現在模態之間或任務之間的協同。 在本項目中,我們提出了一個更為精細的評估框架——General-Level,以更準確地定位并評估當前多模態通才模型的能力,為實現真正的多模態 AGI 指明路徑。受到自動駕駛領域分級標準的啟發(Yurtsever 等, 2020),General-Level 建立了五個主要性能與通用性等級的劃分標準。該框架以“協同能力”作為核心評估準則,依據模型在多模態理解與生成、以及模態交互中的協同表現,對其能力進行分級。從最低到最高等級,所要求的協同能力范圍依次從單一任務或模態擴展到“完全協同”,并且等級越高,模型所需跨模態整合與泛化的能力也越高,晉升難度也隨之增加。 要在 General-Level 框架中進行有效評估,一個合適的基準體系至關重要。盡管已有多個 MLLM 評估基準,例如 LVLM-eHub(Xu 等, 2023a)、MME(Fu 等, 2024a)、MMMU(Yue 等, 2024a)、SEED-Bench(Li 等, 2024a)、MMT-Bench(Ying 等, 2024a)和 MEGA-Bench(Chen 等, 2024b),但它們往往存在以下局限: 1. 多數現有基準將所有任務統一轉換為多選題格式(Fu 等, 2024a;Ying 等, 2024a),雖然簡化了評估流程,卻局限在“多模態理解”能力評估上,忽略了生成、編輯等關鍵能力; 1. 多數基準集中于圖像模態,忽視了視頻、音頻、三維等其他關鍵模態(Wu 等, 2023a;Liu 等, 2025;Li 等, 2024a); 1. 當前評估體系主要停留在粗粒度理解層面,無法評估如像素級圖像理解與生成等細粒度能力(Fei 等, 2024a;Zhang 等, 2024a)。

為應對上述挑戰,我們提出了一個大規模多模態評估基準——General-Bench,覆蓋圖像、視頻、音頻、三維、語言等多種原生模態格式,涵蓋范圍廣泛的任務,全面評估一個多模態通才應具備的核心能力。 我們對 100 多個當前最先進的 LLM/MLLM 系統進行了評估,揭示了它們作為多模態通才的能力與排名。其中一個顯著發現是:絕大多數 MLLM 缺乏“跨任務”或“跨模態”的協同能力,因此難以達到較高等級評估標準,甚至 GPT-4V 和 GPT-4o 等先進模型也未能獲得頂級排名。這表明在邁向真正多模態 AGI 的道路上仍存在明顯差距。同時,大多數模型只能完成少數基本的多模態任務與技能,這也拉低了其綜合評分。更關鍵的是,當前尚無模型能夠通過非語言模態提升語言智能,這一現象凸顯了實現 AGI 所面臨的重大挑戰。 主要貢獻:

1)我們提出了一個多模態通才的分級標準體系——General-Level,為 MLLM 研究提供了嚴謹的評估規范與標準; 2)我們構建了一個全新的多模態評估基準——General-Bench,提供了當前最廣泛的模態與任務覆蓋。 我們希望本項目能夠作為推動下一代多模態基礎模型發展的基礎設施,助力構建更強大、通用的多模態智能系統,進一步邁向 AGI。

付費5元查看完整內容

相關內容

語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。

然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。

付費5元查看完整內容

將自然語言(NL)問題轉換為SQL查詢,稱為文本到SQL(Text-to-SQL),已成為促進關系型數據庫訪問的關鍵技術,尤其對于沒有SQL知識的用戶。大型語言模型(LLMs)在自然語言處理(NLP)領域的最新進展,顯著推動了文本到SQL系統的發展,開辟了提升此類系統的新途徑。本研究系統地回顧了基于LLM的文本到SQL,重點討論四個關鍵方面:(1)對基于LLM的文本到SQL研究趨勢的分析;(2)從多角度對現有的基于LLM的文本到SQL技術進行深入分析;(3)總結現有的文本到SQL數據集和評估指標;(4)討論這一領域潛在的障礙和未來探索的方向。本綜述旨在為研究人員提供對基于LLM的文本到SQL的深入理解,激發該領域的新創新和進展。 CCS概念:? 計算方法 → 自然語言處理;? 信息系統 → 結構化查詢語言(SQL)。 附加關鍵詞:文本到SQL、大型語言模型(LLMs)。

引言 SQL查詢的利用顯著提高了從多個數據庫中提取數據的效率。這些數據已被有效應用于多個重要領域,如商業智能 [80] 和醫療分析 [78]。雖然技術專業人員擅長處理SQL查詢,但數據庫的自然語言接口(NLIDB)使得非技術用戶也能夠無縫地從結構化數據庫中提取信息 [20]。這種便捷性顯著推動了文本到SQL系統的發展,這些系統能夠自動將自然語言(NL)查詢轉換為有效的SQL查詢。為了說明這一點,我們考慮一個簡單的數據庫,如圖1所示,包含一個名為“cities”的表格,表中有“country”、“city_name”和“population”三列。通過使用文本到SQL系統,用戶輸入類似“Identify all cities in the UK with populations over five million”的查詢,將其轉換為以下SQL查詢:“SELECT city_name FROM cities WHERE country = ‘UK’ AND population > 5000000”。生成的SQL查詢隨后在給定數據庫中執行,返回的結果(如“[London]”)將反饋給用戶。整個過程簡化了不熟悉SQL的用戶對信息的訪問。

近年來,自然語言處理(NLP)領域出現了重大突破,隨著大型語言模型(LLMs)的出現 [1, 38],這些模型具有前所未有的處理和生成類人語境的能力,受到了廣泛關注 [12, 145]。隨著LLM的不斷發展,新的能力開始顯現,例如零-shot學習 [132]、few-shot學習 [108] 和指令跟隨 [136]。鑒于這些能力,基于LLM的文本到SQL方法逐漸嶄露頭角,尤其是基于上下文學習(ICL-based) [89] 和微調(FT-based)技術 [63] 的方法。因此,研究人員有必要系統地理解基于LLM的文本到SQL的關鍵方法、挑戰和未來方向。鑒于這一重要性,我們對2022年4月到2024年10月期間發表的92篇相關文獻進行了系統概述,并選擇了2017年到2024年10月間關于文本到SQL的開源數據集和評估指標。通過考察基于LLM的文本到SQL的發展趨勢,并從多角度審視一系列研究成果,我們旨在概述潛在的挑戰和未來研究的方向。 總之,本綜述的貢獻包括: ? 研究趨勢分析:我們對所調查的文獻進行了分析,識別出研究趨勢,包括按出版日期、出版平臺和主要貢獻類型進行的分類。 ? 文獻概覽:我們將基于LLM的文本到SQL研究分為三大類:方法論、數據集和評估指標。每一類別都按順序介紹,為讀者提供系統的概述。 ? LLM方法的新分類法:我們提出了一種新的SQL生成方法分類法,將其分為四種主要范式:預處理、上下文學習、微調和后處理。每個領域根據特定的模型設計進一步細分,提供了對當前創新的系統回顧。 ? 數據集和評估指標概述:我們對現有的文本到SQL任務的數據集和評估指標進行了概述。 ? 當前挑戰與未來方向的討論:通過對所調查文獻的分析,我們識別出當前研究中的幾個重要障礙。此外,我們還討論了未來研究的關鍵方向,為開發更健壯、高效和可靠的系統提供指導。 本文的其余部分安排如下:第二部分介紹了文本到SQL模型的發展,強調了使用LLM進行SQL生成的原因。第三部分概述了我們的系統文獻綜述方法。第四部分考察了基于LLM的文本到SQL研究趨勢。第五部分探討了現有的方法論,并將其分類為預處理、上下文學習、微調和后處理范式。第六部分回顧了現有的文本到SQL數據集和評估指標。第七部分討論了文本到SQL中的當前挑戰和潛在的未來研究方向。第八部分分析了我們研究的有效性威脅,第九部分總結了本綜述。我們希望本綜述能夠為當前進展提供清晰的全景圖,并激發未來在基于LLM的SQL生成領域的探索。

付費5元查看完整內容

將強化學習(Reinforcement Learning,RL)融入多模態大語言模型(Multimodal Large Language Models,MLLMs)推理能力的研究方向正迅速發展,成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型(LLMs)的基礎上顯著擴展,能夠處理圖像、音頻和視頻等多種模態,但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展,涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法(value-free)和基于價值函數方法(value-based),并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外,本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性,并提出了未來可能的研究方向,以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。

1 引言

大型語言模型(Large Language Models,LLMs)的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元,展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而,實現類人智能不僅需要超越基礎感知能力,更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發,情境學習(In-context Learning,ICL)技術 [112, 113, 121] 賦予了LLMs逐步推理的能力,這種機制通常被稱為“思維鏈條”(Chain-of-Thought,CoT)推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色,引發了各領域對推理能力推理時間擴展(test-time scaling)研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49],該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下,多模態大語言模型(Multimodal Large Language Models,MLLMs)中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索(Monte Carlo Tree Search)[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據,并通過監督微調使模型學習自主推理能力。

隨著強化學習(Reinforcement Learning,RL)理論和技術的進步,DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法(如GRPO [85])自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”(Aha Moment),表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs,并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能,在域內測試中可媲美監督微調(SFT)方法,在分布外(OOD)評估中更是超越了SFT模型。

然而,正如圖1所示,這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效,但大多數仍延續文本思維范式,忽視了在多模態場景中其他模態所扮演的關鍵角色。此外,當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案,未能覆蓋更廣泛的泛化場景問題,如無明確答案的問題。 盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110],但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白,本文系統綜述了基于RL的MLLMs推理方法,全面梳理技術發展、方法體系、實際應用與未來方向,旨在為快速演進的MLLM推理研究提供系統化的參考與指導,從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略;第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估;最后,第7節探討當前限制與未來研究方向。 本文從以下四個關鍵視角出發,系統分析MLLMs中基于強化學習的推理方法: * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略:重點分析無價值函數方法(value-free)與基于價值函數方法(value-based)的核心理念與改進方向,探討其在提升訓練效率、穩定性與推理性能方面的創新方案,比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略:從所使用的強化學習算法、獎勵機制(以準確性或結構為導向)及多模態輸入整合(包括視覺、音頻與時序信息)等維度,對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議:分析數據集的構建流程,包括數據來源、模型輸出收集及偏好標注方法,涵蓋數學、科學、空間、交互等多種類型的推理任務,并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向:討論當前面臨的挑戰,如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題,探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

視覺-語言模態的集成一直是多模態學習的一個重要研究方向,傳統上依賴于視覺-語言預訓練模型。然而,隨著大語言模型(LLMs)的出現,越來越多的研究開始關注將LLMs與視覺模態相結合。隨之而來的是將視覺模態融入LLMs的訓練范式的演變。最初,集成模態的方法是通過預訓練模態集成器來實現,稱為單階段微調(Single-stage Tuning)。此后,這一方法逐漸分化為兩種主要的研究方向:一是專注于性能提升的二階段微調(Two-stage Tuning),二是優先考慮參數效率的直接適應(Direct Adaptation)。然而,現有的綜述主要集中在最新的視覺大語言模型(VLLMs)與二階段微調方法上,缺乏對訓練范式演變及其獨特的參數效率考慮的深入理解。 本文對34篇來自頂級會議、期刊和高引用的Arxiv論文中的VLLM進行了分類和綜述,重點從訓練范式角度討論在適應過程中的參數效率。我們首先介紹LLMs的架構和參數效率學習方法,接著討論視覺編碼器和模態集成器的全面分類。然后,我們回顧了三種訓練范式及其效率考量,并總結了VLLM領域的基準測試。為了更深入了解它們在參數效率上的效果,我們比較并討論了具有代表性的模型的實驗結果,其中包括復制直接適應范式的實驗。通過提供對近期發展的見解以及實際應用的參考,本綜述為研究人員和從業人員在高效集成視覺模態到LLMs中的探索提供了重要指導。 關鍵詞: 多模態 · 大語言模型 · 視覺-語言模型 · 參數效率學習 · 指令微調 · 強化學習

付費5元查看完整內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

語言模型(LM)基于深度神經網絡(DNN)的構建,最近在軟件工程任務中,如代碼生成、代碼補全和代碼修復,表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路,這些技術對于提升現有程序的性能,特別是加速程序執行時間,具有重要意義。然而,專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白,我們進行了一項系統的文獻綜述,分析了超過50篇核心研究,識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰,例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外,我們提供了八個未來的研究方向,以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此,本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。

1. 引言

代碼優化,或程序優化,長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標,例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程(SE)任務,包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。

傳統上,代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合,以捕獲程序的關鍵屬性,例如數據和控制依賴,進而識別出優化代碼的最有效方法。隨著時間的推移,已經開發出多種優化技術,涵蓋從低級策略,如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略,旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。

代碼優化的一個關鍵挑戰是存在大量可能的優化方式,使得窮舉搜索在計算上是不可行的,通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中,好的優化往往是稀缺的,并且在不同的程序之間差異很大[48, 137]。對于低級性能優化,最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法,它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。

在過去的幾十年中,已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明,機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年,基于深度神經網絡(DNN)的語言模型(LM)和生成性人工智能(genAI)的出現,標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44],并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理,進一步推動了將語言模型應用于軟件工程的廣泛研究[57],并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用,為這一領域的研究和創新開辟了新的方向。

然而,盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展,現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域,如自動程序修復[155]。值得注意的是,文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示,本文旨在填補這一空白,提供一項系統的文獻綜述(SLR),聚焦于基于語言模型的最前沿代碼優化方法。具體來說,我們通過六個學術索引引擎進行檢索,識別并系統地回顧了53篇核心研究[1]。基于四個研究問題(RQ)和11個具體的子問題,我們對這些研究進行了分類,概括了結果中的關鍵發現,并為讀者提供了有價值的建議。例如,我們的主要發現包括:

  • 像 GPT-4 這樣的通用語言模型(LM)被比專門用于代碼的語言模型(43個實例)更廣泛地采用(61個實例),這是由于其更廣泛的理解和推理能力。

  • 大多數研究(57%)利用了預訓練模型,以節省時間和資源,而43%的研究通過微調模型來定制任務特定需求。

  • 最常被提到的挑戰是性能和代碼相關的問題,例如一步優化的限制(18項研究)、平衡正確性和效率(15項研究)以及代碼語法的復雜性(10項研究)。

  • 大多數研究通過設計專門的模型(51個實例)來解決現有挑戰,這些模型雖然有效,但缺乏通用性。提示工程(Prompt Engineering)作為第二大類(34個實例)因其數據效率而脫穎而出,盡管依賴于專家知識。另一類則通過提出新的代碼優化問題(33個實例)提供了更大的優化靈活性,但也需要大量的數據集準備工作。

此外,我們還揭示了現有文獻中的五個關鍵挑戰,并提供了未來研究的潛在方向,總結如下:

  • 語言模型(LM)的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時,需要大量的計算資源,這就提出了模型壓縮和集成技術的需求。

  • 基于語言模型的代碼優化方法通常在孤立的環境中操作,缺乏與外部系統的無縫集成,強調了具有主動性(agentic)的語言模型的重要性。

  • 單語言研究的主導地位(81%)和對單一性能指標的強調(79%)凸顯了通用性問題,以及對多語言和多目標優化方法的需求。

  • 大多數基于語言模型的方法的研究(68%)是在合成數據集上進行評估的,而不是在更大且更復雜的真實世界代碼庫上進行的,這表明需要標準化基準測試,以反映不同的真實世界場景。

  • 語言模型常常生成不一致或幻覺化的輸出,因此人類與語言模型的協作對于利用AI的計算能力至關重要,同時確保優化結果的可信度和可靠性。

本文的其余部分安排如下:第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述(SLR)方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后,第9節總結了本文內容。 方法論

本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述(SLR)指南,這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示,研究方法包括三個關鍵階段:

  1. 搜索:進行了全面的自動化檢索,使用了精心定義的搜索字符串,遵循“準黃金標準”方法論[152],并輔以雪球式搜索,以確保覆蓋面廣泛。
  2. 研究選擇:對檢索到的研究進行嚴格的納入和排除標準篩選,隨后進行質量評估,只包含可靠且高質量的研究。
  3. 數據收集:制定了四個主要研究問題(RQ),包含11個具體問題,以指導數據提取和分析,最終得出本次調研的主要成果。

圖5提供了所有問題的分類概述,接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。

 結論我們為語言模型(LMs)在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄,我們盡力提供了一個全面且易于理解的綜述,涵蓋了主要的研究領域和未來的發展方向。具體來說,我們識別出五個關鍵的知識空白,這些空白可能會阻礙該領域的發展,包括平衡模型復雜性與實際應用性之間的挑戰,以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究,并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局,本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習,這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反,它們實際上為增強創造力和探索新的研究前沿提供了機會。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司