亚洲成AV人片乱码色午夜刚交,亚洲精品无码中出中文字幕,人妻无码专区久久,欧美专区一区二区三区四区,亚洲婷婷国产天美蜜桃

冷啟動問題是推薦系統中一個長期存在的挑戰，主要集中在準確建模新用戶或互動有限的用戶，或新物品，以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長，冷啟動推薦（CSR）的重要性日益顯現。與此同時，大語言模型（LLMs）已取得了巨大的成功，并具備強大的用戶和物品信息建模能力，為冷啟動推薦提供了新的潛力。然而，冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此，本文基于大語言模型時代的背景，提供了一項關于冷啟動推薦的全面綜述，討論了其路線圖、相關文獻及未來方向。具體而言，我們探討了現有的冷啟動推薦如何利用信息發展路徑，包括從內容特征、圖譜關系和領域信息，到大語言模型所擁有的世界知識，旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新，供社區參考，

鏈接：//github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下，推薦系統（RecSys）已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署，但仍面臨持續的挑戰，特別是在“冷啟動”場景中，即新用戶或物品沒有歷史交互數據可用的情況下。具體來說，在現實場景中，冷啟動問題可能表現為新物品的引入、新用戶的加入，或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要，而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先，解決這個問題確保新用戶和物品得到公平的推薦，減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性，通過防止新物品被忽視，促進了多樣化內容的曝光【114, 288】。此外，解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中，為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶，避免了由于推薦內容不相關或缺失而導致的用戶流失，從而留下了強烈的初始印象，培養了忠誠度。對于平臺而言，這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后，能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加，能夠有效整合這些新實體的持續涌入，使推薦引擎保持動態和相關性，這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機，冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據，如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】，這些方法豐富了冷啟動實體的表示和建模，使推薦系統在數據稀疏的情況下依然能夠有效運作。因此，解決冷啟動問題不僅僅是一個技術挑戰，更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】，重點關注分類文本特征，如物品類別、物品標題和用戶資料，這些對冷啟動實體的表示起著至關重要的作用。隨后，隨著圖挖掘技術的進步【101, 225, 231】，從圖結構中派生出的高階關系，如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時，有研究者開始轉向不同領域之間的關系，而非挖掘圖中節點之間的關系【92, 249】。特別是，目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別，提升冷啟動推薦的表現。近年來，大語言模型（LLMs）的興起，如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理，展示了在理解和生成類人文本方面的卓越能力，這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變，借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識，研究人員開始探索為冷啟動用戶和物品建模和表示的新策略，以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢，突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略，并逐步擴展知識范圍（如圖1所示）。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述，特別關注大語言模型時代下知識范圍擴展的方向，如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作，如圖2b所示。基于這些工作，我們將現有研究按照外部知識源的規模分為四個知識范圍：內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法，本文綜述旨在呈現對冷啟動推薦領域的全面理解，并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力，并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍，但沒有明確界定具體的冷啟動問題。隨后，IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息，并首次明確界定了系統冷啟動和用戶冷啟動問題，涵蓋了2021年前相關文獻。更近的綜述，如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量，特別是【246】重點關注用戶冷啟動問題。總體來說，現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面（特征、圖譜、領域和LLMs），并同時處理多個冷啟動問題。在本文中，我們旨在填補這一空白，提供一篇全面且系統的綜述，涵蓋220篇文獻，明確界定9個不同的冷啟動問題，并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻，我們采用了半系統化的綜述方法來識別相關論文。首先，我們通過預定義的搜索關鍵詞，如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”，查詢了主要學術數據庫，如Google Scholar和Web of Science。此外，我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果，以評估其相關性。然后，對相關文獻進行了進一步的詳細審閱，并使用引用鏈方法（snowballing）找出了更多相關論文。最終，我們根據貢獻將收集到的文獻分為四個核心領域，分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識，如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架，少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

開創性的全面綜述：我們提出了首個關于冷啟動推薦方法的全面綜述，系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻，考察了它們的動機、數據需求和技術方法，并提供了領先會議（如SIGIR、CIKM、KDD）和期刊（如TKDE、TOIS）中的研究出版物的時間線和統計概述，如圖2所示。
創新的分類法引入：我們提出了一種新的分類法，提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來，超越傳統方法，向更廣泛的冷啟動問題解決方案擴展。
冷啟動問題的明確定義：根據我們的知識，本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文，包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
前瞻性的研究路線圖：基于我們的全面綜述和創新的分類法，我們提出了一個前瞻性的研究路線圖，連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導，提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下，我們可以發現，當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而，隨著互聯網的快速發展，推薦系統面臨的一個重大挑戰是冷啟動推薦（CSR），即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于，新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下，系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此，冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法，從第2.2節對不同冷啟動問題的詳細定義開始，到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論，涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息，用以表征其屬性，如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄，內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式，我們將方法分為兩類：數據不完整學習（第3.1節），它解決了沒有歷史交互的嚴格冷啟動場景；以及數據高效學習（第3.2節），它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息，而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而，該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息，因為缺乏歷史交互數據。首先，這里簡要介紹一下圖神經網絡（GNNs），它們在本節被廣泛用于圖關系推理：近年來，圖神經網絡（Graph Neural Networks, GNNs）受到了極大的關注，并在許多圖挖掘任務中展示了最前沿的性能，如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞（message-passing）范式，通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分，推薦系統近年來涌現出大量基于GNN的推薦模型，并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制，在圖結構中建模用戶-物品交互，從而更好地理解用戶偏好和物品相關性，并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中，只有少數平臺能夠實現顯著的用戶參與，而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此，跨域遷移學習【213, 290】提供了一個有前景的解決方案，通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同，跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識，而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶，并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法，我們將現有的研究工作分為三類：域知識遷移（第5.1節）、域分布對齊（第5.2節）和域不變表示學習（第5.3節），如圖6所示。

6 來自大語言模型的世界知識

大語言模型（LLMs）是通過深度學習技術訓練的生成型人工智能系統，旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯，甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功，越來越多的領域開始利用大語言模型的能力來完成各種任務，如多模態學習【217】、圖學習【159】和推薦系統【219】，并取得了顯著成果。由于大語言模型強大的文本特征處理能力，冷啟動，尤其是零樣本和少樣本場景，已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色，我們將現有的研究工作分為兩個主要方面：大語言模型作為推薦系統（第6.1節）和大語言模型作為知識增強器（第6.2節）。

結論

在本文中，我們對冷啟動推薦進行了全面的綜述，并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言，我們首先正式定義了冷啟動推薦領域的不同研究問題，然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中，我們不僅總結了相關研究背后的核心洞見，還列舉了一些代表性工作，以幫助讀者更好地理解。此外，我們重新審視了冷啟動推薦的一些關鍵挑戰，并總結了一些有意義的未來研究方向。相關資源已整理至Github：

付費5元查看完整內容

5.1 個性化對齊數據構建

高質量的數據構建對于學習個性化大型語言模型（PLLMs）至關重要，主要涉及通過與LLM的交互生成自我生成的數據。Wu 等 [2024c] 構建了一個數據集，用于將LLM與個體偏好對齊，該數據集通過初步創建一個包含3,310個用戶角色池，并通過迭代自我生成和過濾進行擴展。這種方法與PLUM [Magister et al., 2024] 相似，后者通過多輪對話樹模擬動態交互，使得LLM能夠推斷并適應用戶的偏好。為了讓LLM能夠在不重新訓練的情況下適應個體用戶的偏好，Lee 等 [2024] 使用了多樣化的系統消息作為元指令來指導模型的行為。為此，創建了MULTIFACETED COLLECTION數據集，其中包含197,000條系統消息，代表了廣泛的用戶價值觀。為了支持邊緣設備上的實時隱私保護個性化，并解決數據隱私、存儲有限和最小化用戶干擾的問題，Qin 等 [2024] 提出了一個自監督方法，該方法能夠高效地選擇并綜合重要的用戶數據，從而在最小化用戶交互的情況下改善模型適應性。研究工作也越來越集中于開發能夠評估模型理解個性化偏好的數據集。Kirk 等 [2024] 引入了PRISM Alignment Dataset，該數據集將來自75個國家的1,500名參與者的社會人口統計信息和偏好映射到他們與21個LLM的實時交互反饋中，重點關注關于有爭議話題的主觀和多文化視角。PersonalLLM [Zollo 等，2024] 提出了一個新型的個性化測試數據庫，它策劃了開放式提示和多個高質量的回應，以模擬用戶之間的多樣化潛在偏好。該方法通過從預訓練的獎勵模型生成模擬用戶群體，解決了個性化中的數據稀缺問題。

5.2 個性化對齊優化

個性化偏好對齊通常被建模為一個多目標強化學習（MORL）問題，其中個性化偏好是由多個偏好維度的用戶特定組合來決定的。基于此，典型的對齊范式包括使用從多個獎勵模型派生的個性化獎勵來指導LLM策略的訓練階段，以實現個性化目標。MORLHF [Wu 等，2023] 為每個偏好維度分別訓練獎勵模型，并使用鄰近策略優化（PPO）重新訓練策略語言模型，指導模型通過多個獎勵模型的線性組合。這種方法允許重用標準的RLHF管道。 MODPO [Zhou 等，2023] 引入了一種新穎的無強化學習（RL-free）算法，擴展了直接偏好優化（DPO），以管理多個對齊目標。它將線性標量化直接集成到獎勵建模過程中，使得通過簡單的基于邊際的交叉熵損失來訓練語言模型，作為隱式的集體獎勵函數。另一種MORL策略是在解碼階段考慮多個訓練好的策略LLM的即席組合，以實現個性化。Personalized Soups [Jang 等，2023] 和Reward Soups [Rame 等，2024] 通過首先獨立訓練多個具有不同偏好的策略模型，然后在推理階段合并它們的參數來解決個性化人類反饋中的RL挑戰。兩種方法都允許根據用戶偏好動態加權網絡，增強模型對齊并減少獎勵的誤差。此外，策略LLM的個性化融合不僅可以通過參數合并來實現，也可以通過模型集成來實現。MOD [Shi 等，2024] 從所有基礎模型的線性組合中輸出下一個令牌，允許通過組合它們的預測來精確控制不同目標，而無需重新訓練。與參數合并基準相比，該方法顯示出了顯著的效果。PAD [Chen 等，2024b] 利用個性化獎勵建模策略生成令牌級別的個性化獎勵，并用這些獎勵來指導解碼過程，從而動態地調整基礎模型的預測，以適應個體偏好。圖5可視化了上述典型的MORL方法，用于個性化對齊。還有一些新興的個性化對齊研究，超越了“多目標”范式。PPT [Lau 等，2024] 通過生成每個用戶提示的兩個潛在回答，要求用戶對其進行排名，并將該反饋融入到模型的上下文中，以動態適應用戶的個性化偏好，從而解鎖了上下文學習在可擴展性和高效性上的潛力。VPL [Poddar 等，2024] 利用變分推斷框架，通過用戶特定的潛在變量來捕捉多樣化的人類偏好。從少量偏好注釋推斷用戶特定的潛在分布，能夠以更高的數據效率實現更準確的個性化獎勵建模。

5.3 討論

當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題，其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常，這些方法限于少數（例如三個）預定義的偏好維度，并通過文本用戶偏好提示來表示。然而，在現實場景中，可能存在大量個性化用戶，并且他們的偏好向量可能并不完全已知，僅能訪問到他們的交互歷史。因此，開發更現實的對齊基準，以有效評估這些技術，是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型（PLLMs）近年來取得了顯著進展，但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好，處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如，使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據，而針對多模態數據（如圖像、視頻、音頻）的個性化基礎模型仍然沒有得到充分探索，盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備（如手機）上高效地更新模型，這些設備的存儲和計算資源有限。例如，微調可以提供更深層次的個性化，但它需要大量資源，并且難以擴展，尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024]，利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性，尤其是在個性化模型（PLLMs）的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新（例如推出新版本時），如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性，重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數，而無需完全重新訓練，例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性，一個關鍵的挑戰是如何防止災難性遺忘，同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b]，以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要，尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制，LLMs無法本地部署，這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法，例如聯邦學習、安全計算和差分隱私，以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了個性化大型語言模型（PLLMs），重點強調了根據個體用戶數據量身定制的個性化響應。我們提出了一個結構化的分類法，將現有的方法分為三個關鍵技術視角：個性化提示（輸入層）、個性化適配（模型層）和個性化對齊（目標層），并在每個層次內進一步細分。我們還討論了當前的局限性，并提出了幾個有前景的未來研究方向。我們的工作為推動PLLMs的發展提供了寶貴的見解和框架。

付費5元查看完整內容

迭代優化 · 大語言模型 · LLM4Code ·

1 月 5 日

[付費5元查看完整內容]【LLM4Code】代碼優化的語言模型：綜述、挑戰與未來方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言模型（LM）基于深度神經網絡（DNN）的構建，最近在軟件工程任務中，如代碼生成、代碼補全和代碼修復，表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路，這些技術對于提升現有程序的性能，特別是加速程序執行時間，具有重要意義。然而，專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白，我們進行了一項系統的文獻綜述，分析了超過50篇核心研究，識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰，例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外，我們提供了八個未來的研究方向，以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此，本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。

1. 引言

代碼優化，或程序優化，長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標，例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程（SE）任務，包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。

傳統上，代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合，以捕獲程序的關鍵屬性，例如數據和控制依賴，進而識別出優化代碼的最有效方法。隨著時間的推移，已經開發出多種優化技術，涵蓋從低級策略，如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略，旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。

代碼優化的一個關鍵挑戰是存在大量可能的優化方式，使得窮舉搜索在計算上是不可行的，通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中，好的優化往往是稀缺的，并且在不同的程序之間差異很大[48, 137]。對于低級性能優化，最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法，它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。

在過去的幾十年中，已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明，機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年，基于深度神經網絡（DNN）的語言模型（LM）和生成性人工智能（genAI）的出現，標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44]，并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理，進一步推動了將語言模型應用于軟件工程的廣泛研究[57]，并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用，為這一領域的研究和創新開辟了新的方向。

然而，盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展，現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域，如自動程序修復[155]。值得注意的是，文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示，本文旨在填補這一空白，提供一項系統的文獻綜述（SLR），聚焦于基于語言模型的最前沿代碼優化方法。具體來說，我們通過六個學術索引引擎進行檢索，識別并系統地回顧了53篇核心研究[1]。基于四個研究問題（RQ）和11個具體的子問題，我們對這些研究進行了分類，概括了結果中的關鍵發現，并為讀者提供了有價值的建議。例如，我們的主要發現包括：

像 GPT-4 這樣的通用語言模型（LM）被比專門用于代碼的語言模型（43個實例）更廣泛地采用（61個實例），這是由于其更廣泛的理解和推理能力。
大多數研究（57%）利用了預訓練模型，以節省時間和資源，而43%的研究通過微調模型來定制任務特定需求。
最常被提到的挑戰是性能和代碼相關的問題，例如一步優化的限制（18項研究）、平衡正確性和效率（15項研究）以及代碼語法的復雜性（10項研究）。
大多數研究通過設計專門的模型（51個實例）來解決現有挑戰，這些模型雖然有效，但缺乏通用性。提示工程（Prompt Engineering）作為第二大類（34個實例）因其數據效率而脫穎而出，盡管依賴于專家知識。另一類則通過提出新的代碼優化問題（33個實例）提供了更大的優化靈活性，但也需要大量的數據集準備工作。

此外，我們還揭示了現有文獻中的五個關鍵挑戰，并提供了未來研究的潛在方向，總結如下：

語言模型（LM）的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時，需要大量的計算資源，這就提出了模型壓縮和集成技術的需求。
基于語言模型的代碼優化方法通常在孤立的環境中操作，缺乏與外部系統的無縫集成，強調了具有主動性（agentic）的語言模型的重要性。
單語言研究的主導地位（81%）和對單一性能指標的強調（79%）凸顯了通用性問題，以及對多語言和多目標優化方法的需求。
大多數基于語言模型的方法的研究（68%）是在合成數據集上進行評估的，而不是在更大且更復雜的真實世界代碼庫上進行的，這表明需要標準化基準測試，以反映不同的真實世界場景。
語言模型常常生成不一致或幻覺化的輸出，因此人類與語言模型的協作對于利用AI的計算能力至關重要，同時確保優化結果的可信度和可靠性。

本文的其余部分安排如下：第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述（SLR）方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后，第9節總結了本文內容。 方法論

本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述（SLR）指南，這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示，研究方法包括三個關鍵階段：

搜索：進行了全面的自動化檢索，使用了精心定義的搜索字符串，遵循“準黃金標準”方法論[152]，并輔以雪球式搜索，以確保覆蓋面廣泛。
研究選擇：對檢索到的研究進行嚴格的納入和排除標準篩選，隨后進行質量評估，只包含可靠且高質量的研究。
數據收集：制定了四個主要研究問題（RQ），包含11個具體問題，以指導數據提取和分析，最終得出本次調研的主要成果。

圖5提供了所有問題的分類概述，接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。

結論我們為語言模型（LMs）在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄，我們盡力提供了一個全面且易于理解的綜述，涵蓋了主要的研究領域和未來的發展方向。具體來說，我們識別出五個關鍵的知識空白，這些空白可能會阻礙該領域的發展，包括平衡模型復雜性與實際應用性之間的挑戰，以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究，并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局，本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習，這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反，它們實際上為增強創造力和探索新的研究前沿提供了機會。

付費5元查看完整內容

不確定性 · 大型語言模型 · 綜述論文 ·

2024 年 11 月 20 日

[付費5元查看完整內容]重新思考不確定性：大語言模型時代的關鍵綜述與分析

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大語言模型（Large Language Models, LLMs）已成為廣泛人工智能應用的核心工具。隨著 LLMs 的使用范圍不斷擴展，精準評估其預測中的不確定性變得至關重要。然而，當前方法通常難以準確識別、衡量和解決真正的不確定性，許多研究主要集中在估算模型的置信度。這種差異很大程度上源于對不確定性注入模型的方式、時機和來源缺乏完整的理解。本文提出了一個專門設計的綜合框架，用于識別和理解不確定性的類型及來源，并與 LLMs 的獨特特性相契合。該框架通過系統地分類和定義每種類型的不確定性，增進了對不確定性多樣性格局的理解，為開發能夠精準量化這些不確定性的方法奠定了堅實基礎。此外，我們詳細介紹了關鍵相關概念，并深入探討了當前方法在任務關鍵型和安全敏感應用中的局限性。本文最后展望了未來研究方向，旨在提升這些方法的可靠性及其在真實場景中的實用性，從而促進其廣泛應用。

近年來，大語言模型（Large Language Models, LLMs）在復雜推理和問答任務中表現出了顯著的能力（Zhao et al., 2023; Wang et al., 2024c; Liang et al., 2022）。然而，盡管展現了巨大的潛力，LLMs 仍然面臨生成錯誤答案的重大挑戰（Ji et al., 2023a; Li et al., 2023a; Huang et al., 2023），在對高精度和高可靠性要求較高的領域，這種情況可能產生嚴重后果。LLM 輸出中信任度不足的一個核心問題在于其決策過程缺乏透明性和可解釋性（Zhou et al., 2023; Lin et al., 2023; Yin et al., 2023; Xiao & Wang, 2018; Hullermeier & Waegeman, 2021）。在這種背景下，全面理解和評估模型的不確定性至關重要。例如，在醫療領域，當醫生診斷如癌癥等關鍵病癥時，不僅需要模型提供高預測準確性，還需要明確了解預測中的不確定性（Gawlikowski et al., 2022a; Wang et al., 2022）。盡管量化 LLMs 不確定性的必要性已被廣泛認可，但對于不確定性的定義和解釋在這一新背景下仍未達成一致（Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018），這進一步增加了其估計的復雜性。不確定性、置信度和可靠性等術語常被混用，但它們實際上代表著需要仔細區分的不同概念（Gawlikowski et al., 2021）。例如，LLM 可能對一個本質上不確定且無答案的問題生成高置信度的回應，但這種回應可能在語境上不恰當或在事實層面上不正確，這表明高置信度并不等同于低不確定性（Gawlikowski et al., 2022b）。因此，現有文獻中面臨的首個挑戰是明確 LLMs 背景下的不確定性定義，并探討這些交織概念之間的細微差別。傳統上，深度神經網絡（DNNs）中的不確定性被劃分為兩類：固有不確定性（aleatoric），由數據隨機性（如傳感器噪聲）引起；以及認知不確定性（epistemic），源于模型知識的局限性，如數據不足或未建模的復雜性（Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018）。盡管這些分類在深度學習領域廣泛使用，但它們無法完全涵蓋 LLMs 的獨特挑戰，包括處理復雜文本數據、管理極其龐大的參數量，以及面對通常不可訪問的訓練數據。此外，LLM 生命周期的各個階段——從預訓練到推理——都會引入獨特的不確定性，而用戶與這些模型的交互同樣如此。理解這些不確定性來源，特別是從提高 LLMs 可解釋性和魯棒性的角度來看，至關重要。然而，若沒有一個包容性和細粒度的框架來系統地識別和分析 LLMs 中的不確定性來源，實現這一目標是不可能的。

近期，已有大量研究嘗試估計 LLMs 的不確定性（Manakul et al., 2023; Beigi et al., 2024; Azaria & Mitchell, 2023a; Kadavath et al., 2022; Kuhn et al., 2023），這些方法大致可以根據其基本機制分為四類：基于 logits 的方法（Lin et al., 2022b; Mielke et al., 2022a; Jiang et al., 2021; Kuhn et al., 2023）、自評估方法（Kadavath et al., 2022; Manakul et al., 2023; Lin et al., 2024a）、基于一致性的方法（Portillo Wightman et al., 2023; Wang et al., 2023），以及內部機制驅動的方法（Beigi et al., 2024）。然而，鑒于 LLMs 的獨特特性和不確定性的微妙方面，各類方法在 LLMs 背景下捕捉真正的不確定性或相關因素的有效性，以及在 LLM 生命周期不同階段中檢測到的具體不確定性來源，仍然存在關鍵問題。這些問題的回答對于開發更可靠、更全面的不確定性估計方法至關重要。

為了解決上述挑戰和問題，我們對與不確定性及其相關概念相關的研究進行了關鍵綜述和分析，旨在呈現涵蓋 LLMs 不確定性全景的綜合綜述，特別關注不確定性概念、來源、估計方法與文本數據特征之間的相互作用。據我們所知，這一領域尚缺乏類似的系統性研究**。綜上所述，本文的貢獻體現在以下幾個方面，這些貢獻具有開創性和多樣性**：

標準化了不確定性的定義，并探索了相關概念，從而促進了領域內的交流（第二節）。
首次提出了一個全面的框架，用于分析 LLM 生命周期中所有不確定性來源，深入揭示其起源及有效管理策略（第三節）。
對當前用于估計和評估 LLM 不確定性的方法進行了評估和比較，討論了它們的優缺點（第四節）。
最后，識別了增強 LLM 不確定性估計的未來研究方向，解決關鍵研究空白并探討新興趨勢，以在任務關鍵型應用中提高可靠性和準確性（第五節）。

在深度學習中，不確定性傳統上被劃分為三類：（1）模型（認知）不確定性，與模型參數估計中的不確定性相關，反映了模型擬合的能力及其對未見數據的泛化局限性（Der Kiureghian & Ditlevsen, 2009；Lahlou et al., 2023；Hullermeier & Waegeman, 2021；Malinin & Gales, 2018）；（2）數據（或固有）不確定性，源于數據本身的復雜性，例如類別重疊和各種噪聲（Der Kiureghian & Ditlevsen, 2009；Rahaman & Thiery, 2020；Wang et al., 2019；Malinin & Gales, 2018）；（3）分布不確定性，通常由于數據集分布偏移引起，當訓練和測試數據分布不同而導致模型在真實場景中面臨泛化問題（Malinin & Gales, 2018；Nandy et al., 2021；Gawlikowski et al., 2022a；Chen et al., 2019；Mena et al., 2021）。

盡管這些傳統分類在深度學習中應用廣泛，但它們無法充分應對 LLMs 所面臨的獨特挑戰。LLMs 的特點包括龐大的參數規模、復雜的文本數據處理，以及通常難以獲取的訓練數據，這些特性在模型輸出中引入了特定的不確定性。此外，與用戶在動態環境中的交互，以及數據標注或模型校準中的人為偏差，使不確定性的景觀更加復雜。與主要預測數值輸出或類別的通用深度學習模型不同，LLMs 生成的是基于知識的輸出，這些輸出可能包含不一致或過時的信息（Lin et al., 2024b）。這些特性無法通過簡單地將不確定性劃分為三種傳統類型來充分描述。

新框架：LLM 不確定性分類

為了應對這些挑戰，我們提出了一個新的框架，用于對 LLMs 中的不確定性進行分類，如圖 2 所示。該框架將不確定性區分為兩類：操作性不確定性和輸出不確定性，分別對應模型和數據處理過程以及生成內容的質量。

**1. 操作性不確定性

操作性不確定性貫穿于從預訓練到推理的整個生命周期，涵蓋數據獲取、模型和架構設計、訓練與優化過程、校準以及推理活動。這些不確定性源于以下方面：

數據處理與模型訓練：LLMs 在處理大規模數據集、輸入數據及生成文本時無法完全捕捉數據的復雜性。
輸入數據的模糊性或噪聲：輸入數據本身的不完整性或多義性增加了操作性不確定性。

**2. 輸出不確定性

輸出不確定性與生成文本的分析和解釋中的挑戰相關，具體涉及信息質量及其在決策過程中的可靠性。例如，在醫療場景中，LLM 需要根據患者癥狀提供診斷建議。若生成的建議缺乏充分的證據支持或包含矛盾信息，醫生需要判斷這些建議的可信度，這就帶來了顯著的不確定性。醫生在決定進一步調查哪種診斷時可能面臨巨大挑戰，這突顯了 LLM 提供支持充分、輸出一致且可靠內容的重要性，以確保其在決策過程中的實用性。

框架的優勢

通過區分操作性不確定性和輸出不確定性，該框架帶來了以下幾個關鍵優勢：

細粒度視角：捕捉 LLMs 的獨特特性，更精準地反映不確定性，從而有助于更好的建模與理解。
明確不確定性來源：為開發針對性的量化方法奠定基礎，能夠準確地量化各類不確定性。
針對不同角色的洞見：為開發者、用戶和管理員提供具體的指導，幫助其解決各自角色中相關的不確定性問題，從而提升模型魯棒性、用戶交互體驗和治理能力。
構建對模型輸出的信任：通過匯總多種觀點和評估輸出證據，該框架特別適用于醫療診斷或法律推理等關鍵領域，增強對 LLM 輸出的信任度。

這一框架為更深入地理解 LLMs 的不確定性提供了基礎，并為進一步提升其可靠性和實用性指明了方向。

付費5元查看完整內容

算法設計 · 大語言模型 ·

2024 年 10 月 26 日

[付費5元查看完整內容]關于用于算法設計的大型語言模型的系統性綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

算法設計（AD）在各個領域的高效問題解決中至關重要。大型語言模型（LLM）的出現顯著提升了該領域的自動化和創新，提供了新的視角和優越的解決方案。在過去的三年中，LLM在算法設計（LLM4AD）中的應用取得了顯著進展，應用領域廣泛，包括優化、機器學習、數學推理和科學探索。鑒于該領域的快速發展和應用范圍的擴展，進行系統性的綜述已成為必要。本論文對LLM4AD領域的研究工作進行了系統性綜述。首先，我們概述并總結了現有研究成果。接著，我們從四個維度——LLM的作用、搜索技術、提示策略和應用領域——對現有研究進行了系統分類和評審。此外，我們討論了各個領域的成就與挑戰，以及LLM4AD在應對這些挑戰方面的能力。最后，我們探討了當前的局限性，并提出了若干開放性問題和未來研究的潛在方向。

附加關鍵詞和短語：算法設計、大型語言模型、學習優化、優化、啟發式方法、超啟發式方法、進化計算。

1 引言

算法在解決工業、經濟、醫療和技術等多個領域的各種問題中發揮著關鍵作用[32, 82]。傳統的手工算法設計方法需要大量的專家知識和時間，過程繁瑣且耗時。因此，越來越多的研究者關注將學習和計算智能技術整合到算法開發過程中，以簡化并優化算法的設計[12, 154]。近年來，大型語言模型（LLMs）作為生成式人工智能的重大突破，因其龐大的模型規模、海量的訓練數據及其在數學推理[5]、代碼生成[80]和科學發現[163]等多個研究領域中的出色表現而備受矚目。

在過去三年中，將大型語言模型應用于算法設計（LLM4AD）逐漸成為一個新興的研究領域，有望徹底改變算法的構思、優化和實施方式。LLM的強大性能和適應性在提高和轉變算法設計過程方面展現出了巨大的潛力，包括啟發式生成[98]、代碼優化[109]，甚至為特定問題定制新算法的創建[54]。這種方法不僅減少了設計階段所需的人力，還提升了解決方案的創造性和效率[98, 139]。

盡管LLM4AD備受關注，但這一新興領域內的系統綜述仍然稀缺。現有文獻主要關注LLM在特定算法上下文中的單一應用，缺乏對方法、應用、挑戰和未來方向的系統概覽。已有的綜述主要集中在LLM用于特定優化主題[66, 72, 177]，或LLM在電子設計自動化[205]、規劃[129]、軟件工程[69]、推薦系統[176]和智能代理[165]等特定問題上的應用。本論文旨在彌補這一空白，提供對LLM在算法設計領域的系統性綜述，探索其應用、討論關鍵挑戰，并提出未來的研究方向。通過整合這些見解，本文將加深對LLM在算法設計中潛力的理解，并為該領域進一步創新奠定基礎。

本論文的貢獻如下：

LLM4AD的系統性綜述：我們對最近三年內發表的180余篇研究論文進行了系統綜述，不僅匯總了該領域的現狀，還對研究成果進行了分類，深入分析了方法、結果和算法設計的進展。該綜述可為新入門的研究人員和尋求最新進展的資深專家提供寶貴的資源。
多維分類法的開發：我們引入了一個多維分類法，將LLM4AD的研究工作和功能分為四個不同的維度：1) LLM在算法設計中的角色，包括作為優化器、預測器、信息提取器和設計者，闡明了LLM在算法設計中的具體貢獻；2) 搜索方法，分析了LLM在算法設計中用于導航和優化搜索空間的各種方法；3) 提示方法，探討了多樣化的提示策略；4) 應用領域，確定了LLM在解決復雜算法問題時所應用的關鍵領域和行業。此分類法不僅澄清了LLM4AD的研究現狀，還有助于識別未來研究的空白和機會。
關于局限性和未來方向的討論：我們不僅對現有文獻進行總結，還深入分析了LLM用于算法設計研究中的局限性，討論了可擴展性、可解釋性、高成本和安全性等挑戰。此外，我們提出了若干潛在的未來研究方向，以應對這些限制，包括開發特定領域的LLM、探索多模態LLM、實現與人類專家交互的系統、使用LLM進行算法評估、理解LLM行為、推動完全自動化的算法設計，以及為LLM在算法設計中的系統評估建立基準標準。這些討論旨在激發新的研究方法，推動該領域的進一步發展。

2 方法和分類法

2.1 綜述范圍

本文旨在對算法設計的大型語言模型（LLM4AD）這一新興領域的現有研究工作進行系統性綜述和分類。我們進一步明確了本文綜述的范圍如下：

我們不打算涵蓋所有關于LLM和算法的文獻。具體而言，我們排除了其他分支的工作，如針對LLM優化的算法（例如提示工程算法[141]）和LLM訓練算法[1]。
“大型語言模型”指的是具有足夠規模，以實現各種任務的強大零樣本性能的語言模型，包括語言理解、代碼生成和數學推理等。這些模型通常采用變換器架構并以自回歸的方式運行[204]。
我們排除了使用較小模型進行算法設計的研究，例如傳統模型算法和機器學習輔助算法[12]。盡管“大型”模型的定義存在挑戰，但目前大多數前沿的LLM包含超過十億個參數[119, 204]。
僅具備視覺處理功能的其他大型模型不在我們的考慮范圍內，但包含語言處理功能的多模態LLM屬于我們的范圍。
在此背景下，算法指的是一組設計用于解決問題的數學指令或規則，特別是在計算機上執行時[32]。該廣義定義涵蓋了傳統數學算法[5]、大多數啟發式方法[113, 117]以及某些可以解釋為算法的智能體或策略[179]。

2.2 統計

我們介紹了論文收集和篩選的詳細流程，分為四個階段：

第一階段：數據提取和收集：我們通過Google Scholar、Web of Science和Scopus收集相關論文。我們的搜索邏輯是標題必須包含以下兩個組中的至少一個詞的組合：“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”（例如，LLM和優化、LLMs和算法）。作為一個快速發展的研究領域，大多數關于LLM4AD的論文以Arxiv等預印本形式在線發表，因此從Google Scholar收集的論文數量顯著多于Web of Science和Scopus（超過800篇）。去重后，截至2024年7月1日，我們最終收集了850篇論文。
第二階段：摘要篩選：我們首先檢查每篇論文的標題和摘要，以高效排除無關的論文。排除標準包括非英語論文、非算法設計領域及不使用大型語言模型的論文。篩選后，剩余260篇論文。
第三階段：全文篩選：在此階段，我們仔細閱讀每篇論文的全文，剔除未包含相關內容的論文。篩選后，剩余160篇論文。
第四階段：補充：為了避免遺漏重要研究，我們根據領域內的相關知識手動搜索相關文獻。整合額外的論文后，最終收集了180余篇。

我們將首先概述LLM4AD的論文列表，并呈現一個分類法來系統地審視進展。除了整理好的論文列表外，本綜述還包含一些在2024年7月1日之后發布的出版物，統計數據將根據需要更新。 2.3 概述

圖2a展示了按月劃分的論文發表趨勢。圖中顯示了與LLM4AD相關的研究活動顯著增加，尤其是大多數研究集中在過去一年內進行。這表明LLM4AD是一個新興領域，隨著不同領域學者逐漸意識到其巨大的潛力，未來研究成果的數量將顯著增加。值得注意的是，作為快速擴展的領域，大部分研究首先以Arxiv預印本的形式發表，其中許多隨后被頂級會議（如ICML和NeurIPS）接收。圖2c和圖2b展示了主要貢獻機構及其所屬國家在LLM4AD領域的研究分布。美國位居首位，中國緊隨其后，兩國的論文數量占總數的50%。接下來的八個國家（包括新加坡、加拿大和日本）共同貢獻了總出版量的三分之一。主要參與該領域研究的機構包括著名大學如清華大學、南洋理工大學、多倫多大學，以及大型企業如華為、微軟和谷歌。此分布表明了該研究主題的廣泛關注及其在實際應用中的巨大潛力。在圖3中，我們基于所有被審查論文的標題和摘要生成了詞云，其中每個詞至少出現五次。該詞云展示了前80個關鍵詞，分為四個顏色編碼的集群，分別為“語言”、“GPT”、“搜索與優化”和“科學發現”。幾個關鍵字如“演化”、“策略”、“優化器”和“智能體”也被重點標出。

付費5元查看完整內容

大型語言模型 · 知識蒸餾 · 綜述論文 ·

2024 年 7 月 4 日

[付費5元查看完整內容]大型語言模型的知識蒸餾綜述：方法、評估與應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在各個領域展示了卓越的能力，吸引了學術界和工業界的廣泛關注。盡管它們表現出色，但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰，特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中，知識蒸餾已成為一種有效的技術，可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查，探討了專門為LLMs量身定制的知識蒸餾技術。具體來說，我們將方法分為白盒KD和黑盒KD，以更好地說明它們的差異。此外，我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果，并提出了未來研究的方向。通過深入理解最新進展和實際應用，這項調查為研究人員提供了寶貴的資源，為該領域的持續進步鋪平了道路。

** 簡介**

大型語言模型（LLMs）[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量，成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比，這些模型對未見數據的泛化能力更強。此外，它們還展示了小型模型所不具備的能力，如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加（例如，具有1750億參數的GPT-3[12]）。然而，參數規模的擴展帶來了顯著的缺點，尤其是在高推理成本和大量內存需求方面，使得實際部署變得具有挑戰性。例如，GPT-3需要大約350GB的模型存儲（float16），并且推理至少需要5個每個80GB內存的A100 GPU，這對碳排放的影響顯著。為了解決這些挑戰，模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行，或在最小延遲和模型性能之間取得平衡。因此，在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們，減少參數數量，同時保持最大性能。

隨著減少計算資源需求的必要性日益重要，知識蒸餾（Knowledge Distillation, KD）[43] 作為一種有前景的技術出現。KD是一種機器學習方法，專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中，從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講，知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中，較小的模型不僅要匹配原始數據標簽，還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型，生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展，許多研究綜合了各種蒸餾技術的最新進展。具體來說，Gou等[37] 對知識蒸餾進行了廣泛的綜述，涉及六個關鍵方面：知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣，Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準，稱為蒸餾度量標準，他們用它來評估不同的知識壓縮方法。此外，Hu等[48] 探討了跨多個蒸餾目標的各種師生架構，提出了不同的知識表示及其相應的優化目標，并系統地概述了師生架構，結合了代表性的學習算法和有效的蒸餾方案。

現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而，LLMs的出現給KD帶來了若干新挑戰：1）大型語言模型設計并非僅用于單一任務如文本生成，而是廣泛應用于各種任務和未見數據，包括新興能力。因此，評估壓縮LLMs的泛化能力需要仔細和全面的評估。2）現有綜述僅是對現有工作的總結，未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。

為應對這些挑戰，已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示，從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法，我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型：基于Logits的方法[43]，在Logits層面傳遞知識，以及基于Hint的方法[109]，通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法，其中僅能訪問教師模型的輸出。此類別通常包括三種方法：上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外，我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后，我們討論了不同蒸餾方法之間的關系和應用場景，并提出了未來研究方向。

本文其余部分安排如下：第2節簡要回顧了知識蒸餾方法的定義。接下來，第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景，第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后，第6節對本文進行了總結。

付費5元查看完整內容

多任務學習 · 基礎模型 ·

2024 年 5 月 2 日

[付費5元查看完整內容]釋放多任務學習的力量：涵蓋傳統、深度和預訓練基礎模型時代的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多任務學習（MTL）是一種學習范式，有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習（STL）相比，MTL提供了一系列優勢，增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中，MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中，一種靈活有效的方法。本綜述全面概述了MTL的演變，涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域：正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展，還深入探討了每個類別內的各種專門策略。此外，綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念，以及零樣本學習的能力，這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說，我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽，直至2023年。我們討論了當前挑戰，并展望未來的可能性，從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中，我們希望在回顧多任務學習（MTL）的方法論之前回答以下五個研究問題（RQs）： * RQ1：多任務學習的概念和定義是什么？（見§ 1.1） * RQ2：多任務學習如何從其他學習范式中區分出來？（見§ 1.2） * RQ3：在學習場景中使用多任務學習的動機是什么？（見§ 1.3） * RQ4：多任務學習的有效性依賴于哪些基本原理？（見§ 1.4） * RQ5：我們的綜述與以往的研究有何不同？（見§ 1.5）

在§ 1.1中，我們逐步介紹多任務學習（MTL），從廣義上開始，最終給出一個正式定義。隨后，§ 1.2探討了MTL在機器學習（ML）領域中的定位，與轉移學習（TL）、少樣本學習（FSL）、終身學習、多視圖學習（MVL）等相關范式進行比較。§ 1.3深入探討了采用MTL的動機，從明顯和微妙的角度提供見解，同時也討論了MTL如何惠及相關任務。在§ 1.4中，我們更深入地探討了支撐MTL的基本機制和理論，具體包括：1) 正則化，2) 歸納偏見，以及3) 特征共享，為理解其基本原理提供了解釋。最后，§ 1.5回顧了關于MTL的現有綜述，強調我們綜述的獨特貢獻，并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前，讀者可以快速參考表1，了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表，而數學符號概述則提供在表3和表6中。

在過去幾十年中，MTL的日益流行在圖3中得到了明顯體現，該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢，數據來源于谷歌學術。正如其名稱所示，MTL是ML的一個子領域，在此多個任務被共同學習。通過這種方式，我們希望利用這些相關任務之間的有用信息，并打破傳統的各任務獨立執行的做法。在單任務學習（STL）中，手頭任務的特定數據是支撐學習者的唯一來源。然而，MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識，利用任務之間的共識和補充信息。這揭示了一種更好的學習范式，可以減少內存負擔和數據消耗，并提高訓練速度和測試性能。例如，同時學習圖像中的單眼深度估計（測量到相機的距離）（Eigen等，2014年）和語義分割（為每個像素值分配一個類別標簽）（傅克勝和梅玉，1981年）是有益的，因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果，MTL已變得越來越普遍。例如，使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用，涉及同時定位用戶的面部和識別用戶。通常，當我們在優化階段嘗試處理兩個或更多的目標時，就會發生多任務處理。因此，即使在執行帶有正則化的STL時，MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務，例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見，增強歸納學習者（Caruna, 1993）。在MTL的早期探索中（R. Caruana, 1997），所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際，因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處： MTL可以從以下五個具有不同好處的角度受到激勵：認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看，人類天生具有適應新問題和環境的靈活性，因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中（Council等，2000）。因此，MTL的靈感來自于模擬這一過程，賦予模型多任務處理的潛力。巧合的是，這種知識轉移也發生在組織之間（Argote等，2000）。已證明，具有更有效知識轉移的組織更具生產力，并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習（R. Caruana, 1997）。

在大數據時代之前，現實世界的問題通常由小型但高維的數據集表示（樣本數 < 特征數）。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型，總是導致對數據不足問題的簡約解決方案。然而，MTL的出現是為了聚合來自不同領域或任務的標記數據，以擴大訓練數據集，對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起，多任務的聯合訓練過程可以節省計算和存儲資源。此外，性能提升的潛力使其在研究社區中廣受歡迎。簡而言之，可以從多源數據中學習任何任務的通用表征，并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的，MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如，預測阿爾茨海默病（AD）生物標志物對輕度認知障礙（MCI）風險和臨床診斷的進展同時基于多模態數據，如計算機斷層掃描（CT）、磁共振成像（MRI）和正電子發射斷層掃描（PET）（H. Chen等，2022；Jie等，2015；Kwak等，2018）。自動駕駛是另一個例子，也涉及多個子任務來計算最終預測（Chowdhuri等，2019；Z. Yang等，2018），包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看，已證明無偏學習是不可能的（Mitchell，1980），因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常，MTL是通過多任務協助實現歸納轉移的方式之一，它可以提高學習速度和泛化能力。具體來說，在多任務聯合訓練過程中，某些任務可以從其他相關任務獲得歸納偏見，這些較強的歸納偏見（與通用正則化器相比，例如?2）能夠實現知識轉移，并在固定訓練數據集上產生更多的泛化能力。換句話說，與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設，并防止特定任務過擬合。

機制與解釋。在本節中，我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中，總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色，增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此，對假設空間這種約束減少了模型復雜性，減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移，引導模型偏好與任務相關的概念而不是任務本身。因此，這擴展了模型的視野，超越單一任務，增強了其對未見分布（OOD）數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”（Ruder，2017），考慮到某些特征可能對特定任務不可用，但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起；這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說，通過正則化、歸納轉移和特征共享，MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述，提供了MTL的廣泛概述，并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法，主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述，簡要回顧了近期的深度MTL方法，特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述，這些任務生成像素級預測，如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述，但對深度學習（DL）方法的包含有限。值得注意的是，所有這些綜述都忽略了過去三到四年MTL的發展，即大型PFMs（預訓練基礎模型）時代（Bommasani等，2021；C. Zhou等，2023），以GPT系列模型為代表（Brown等，2020；OpenAI，2023；Radford等，2018，2019）。

路線圖。本綜述采用了一個組織良好的結構，區別于其前輩們，展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅，如圖1所示。在§ 2.1中，我們提供了傳統MTL技術的全面總結，包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來，§ 2.2致力于探索深度MTL方法的關鍵維度，包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化（MOO）、對抗訓練、專家混合（MoE）、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展，分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外，我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具，以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現，隨后是我們在§ 6中的結論。這篇綜述的目標是三重的：1) 為新來者提供MTL的全面理解；2) 作為工程實踐者的工具箱或手冊；3) 通過提供對MTL未來方向和潛力的洞察，激發專家的靈感。

付費5元查看完整內容

大型語言模型 · 持續學習 ·

2024 年 4 月 26 日

[付費5元查看完整內容]《大型語言模型持續學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在靜態、預先收集的通用數據集上的訓練取得的最近成功，已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習（CL）社區進行了廣泛研究，但在LLMs領域呈現出新的表現形式。在這篇綜述中，我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外，這篇綜述被分為四個主要部分：我們首先描述了持續學習LLMs的概覽，包括兩個連續性方向：垂直連續性（或垂直持續學習），即從一般到特定能力的持續適應；和水平連續性（或水平持續學習），即跨時間和領域的持續適應（第3節）。在垂直連續性之后，我們總結了在現代CL背景下學習LLMs的三個階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。然后我們提供了LLMs的持續學習評估協議的概覽，以及當前可用的數據來源（第5節）。最后，我們討論了有關LLMs持續學習的引人深思的問題（第6節）。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域，表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準，以及專門設計的方法論，以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型（LLMs）的進步顯示了實現人工普遍智能（AGI）的巨大潛力。研究人員觀察到，隨著參數規模的增加，多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性，促使機器學習從業者重新考慮傳統的計算范式，用于處理一些曾經具有挑戰性的人類水平任務，如問答、機器翻譯和對話系統。然而，LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練，導致性能隨時間逐漸降低，并且在不同內容領域之間也會降低。此外，單一的預訓練大模型無法滿足每個用戶的需求，需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案，但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務，同時盡量減少對以前知識領域的性能退化，研究者采用了持續學習的方法，也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發，涉及按順序在一系列任務上訓練機器學習模型，期望在所有任務中保持性能。在訓練過程中，模型對以前的數據有限或無法訪問，這在保留過去知識時構成了一個挑戰，因為在當前任務學習時，來自未見過的以前數據的優化約束是不存在的。這一挑戰，被稱為災難性遺忘，自持續學習研究開始以來一直是研究的中心焦點。多年來，研究者探索了各種技術來減輕機器學習模型中的遺忘，這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下，CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變，在這篇綜述中，我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況，我們將其分為兩個需要由從業者解決的連續性方向（第3節）：

垂直連續性（或垂直持續學習），指的是LLMs從大規模通用領域到小規模特定領域的持續適應，涉及學習目標和執行實體的轉變。例如，醫療機構可能開發專門為醫療領域定制的LLMs，同時保留其一般推理和問答能力，以服務用戶。
水平連續性（或水平持續學習），指的是跨時間和領域的持續適應，通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如，社交媒體平臺不斷更新LLMs以反映最近的趨勢，確保精確地定位下游服務如廣告和推薦，同時為現有用戶提供無縫的用戶體驗。

在圖1中，繼垂直連續性之后，我們勾畫了現代CL中LLM學習的三個關鍵階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。在CPT中，現有研究主要調查三種類型的分布式轉變：時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中，雖然它主要被視為為下游任務準備LLMs的過程，但頻繁地使用CL評估和技術。然而，這些技術的多樣性明顯不足，考慮到傳統CL社區的成熟度。在CFT中，我們關注的是學習LLMs的新興領域，涵蓋持續指令調整（CIT）、持續模型精煉（CMR）、持續模型對齊（CMA）和持續多模態LLMs（CMLLMs）等主題。接下來，我們呈現了一系列公開可用的評估協議和基準（第5節）。我們總結我們的綜述，討論了LLMs持續學習的最新出現的特性，傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化，以及這個主題的潛在研究方向（第6節）。總結而言，本文提供了一份詳盡的現有持續學習研究LLMs的綜述，顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域，特別是在持續預訓練（CPT）和領域適應性預訓練（DAP）領域的研究。我們強調需要社區更多的關注，迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外，需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角，在迅速變化的LLMs領域中，幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看，它可以大致分為三個階段的LLMs持續訓練，我們將在第4節逐一介紹每個階段。在4.3節中，將介紹持續微調LLMs的獨特方面，包括持續指令調整（4.3.3節）、持續模型精煉（4.3.4節）、持續模型對齊（4.3.5節）和持續多模態大型語言模型（4.3.6節）。在第5節中，我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后，在第6節中，我們討論了在大型語言模型時代持續學習的角色，包括大規模持續LLMs的新興能力（6.1節）、三種類型的持續學習（6.2節）、LLMs持續學習中的記憶角色（6.3節）以及未來的研究方向（6.4節）。持續學習與大型語言模型相遇：概覽****大型語言模型（LLMs）在多個維度上都非常龐大，包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰，特別是在快速變化的環境中保持更新。舉例來說，2023年，用戶發布的新推文的平均每日流量超過5億，即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時，有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側，模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后，消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率，他們最初對持續預訓練的LLMs進行了幾項關鍵觀察，聚焦于模式連接性和功能相似性。此外，他們提出在上游預訓練LLM進行重大更新后，復用過時的微調組件。基于《可回收調整》引入的概念框架，我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架，涉及持續LLM預訓練、適應和部署，如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向：垂直連續性和水平連續性。

結論

在這項工作中，我們提供了一份關于持續LLMs的綜述，從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置，對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長，但我們也注意到幾個缺失的基石，包括算法多樣性以及對大模型行為（如知識遺忘、轉移和獲取）的基本理解。通過全面而詳細的方法，我們希望這篇綜述能激勵更多從業者探索持續學習技術，最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大模型 · 圖表理解 · 圖表問答 · 視覺語言模型 ·

2024 年 3 月 19 日

[付費5元查看完整內容]大模型時代的自動圖表理解綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據可視化以圖表形式在數據分析中發揮著關鍵作用，提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起，自動圖表理解取得了顯著進展。基礎模型，如生成預訓練變換器（Generative Pre-trained Transformers, GPT），已經革新了多種自然語言處理（NLP）任務，并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始，定義圖表理解，概述問題表述，并討論研究圖表理解任務至關重要的基本構建塊，包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分，我們探討了圖表理解內的各種任務，包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略，包括分類基礎和生成基礎的方法，以及增強圖表理解性能的工具增強技術。此外，我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中，我們討論了挑戰和未來方向，強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分，包括調整LM主干的必要性、多階段訓練過程的有效性，以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后，我們討論了如自然圖像理解、表格理解和文檔理解等相關任務，提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源，為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于： //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性：在我們當代的多媒體信息世界里，數據的體量和復雜性持續膨脹，圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域，圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集，使決策者能夠迅速把握關鍵見解，輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用，計算社區持續對自動圖表理解表現出興趣，如自動圖表理解的大量研究所證明。特別是，關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇：傳統的圖表理解工作聚焦于微調方法，通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是，大視覺-語言基礎模型（例如，GPT-4V、LLaVA）的出現引發了在自動推理能力上的范式轉變，催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中，圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖，每種圖表類型都采用獨特的視覺語法來傳達數據關系，需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析，為簡潔地并置不同實體或時間段提供一個視覺平臺。此外，從簡單的數字關系到復雜的多維實體，底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰，自動圖表理解位于機遇與影響的交匯處，提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力，圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力，從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域，但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集，以及最新的建模方法，如涉及預訓練的視覺-語言模型和大型基礎模型。相反，其他綜述主要集中在可視化方面（即數據轉換為圖表的過程），因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性，包括從解釋圖表視覺到分析底層數據的任務，以及概述了圖表理解的結構性建模組件，如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后，在第3節，我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性，提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標，強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解，我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略，包括從自然圖像理解、視覺-語言預訓練和基礎模型，如大型語言模型（LLMs）和大型視覺-語言模型（LVLMs）的調整。特別是，我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響，并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后，第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求，以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束，如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽，而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

大型語言模型 · 多智能體 ·

2024 年 2 月 6 日

[付費5元查看完整內容]基于大型語言模型的多智能體：進展與挑戰綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力，它們被用作自動執行許多任務的自主智能體。最近，基于將一個LLM作為單一規劃或決策智能體的發展，基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽，我們呈現這篇綜述，以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解：基于LLM的多智能體模擬哪些領域和環境？這些智能體如何被描述，它們如何通信？什么機制有助于智能體能力的增長？對于那些有興趣深入研究這一領域的人，我們還總結了常用的數據集或基準，以便他們方便地訪問。為了讓研究人員了解最新的研究，我們維護一個開源的GitHub倉庫，致力于概述基于LLM的多智能體系統的研究。

1 引言

最近，大型語言模型（LLMs）展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等，2023；Wooldridge和Jennings，1995；Russell和Norvig，2009；Guo等，2023；Liang等，2023]。因此，基于LLM的智能體已被研究和快速發展，以理解和生成類似人類的指令，促進在廣泛的上下文中進行復雜的互動和決策[Yao等，2023；Shinn等，2023；Li等，2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展，如在文獻[Xi等，2023；Wang等，2023b]中所見。

基于單個LLM智能體的啟發性能力，已提出基于LLM的多智能體，以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比，多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體，以及2) 使這些多樣化的智能體之間進行互動，有效地模擬復雜的現實世界環境，提供了先進的能力。在這一背景下，多個自主智能體協作參與規劃、討論和決策，反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力，借助它們生成文本進行交流和對文本輸入的響應能力。此外，它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果，如軟件開發[Hong等，2023; Qian等，2023]、多機器人系統[Mandi等，2023; Zhang等，2023c]、社會模擬[Park等，2023; Park等，2022]、政策模擬[Xiao等，2023; Hua等，2023]以及游戲模擬[Xu等，2023c; Wang等，2023c]。由于這個領域的跨學科研究性質，它吸引了來自社會科學、心理學和政策研究等不同背景的研究者，研究論文的數量正在迅速增加，如圖1所示（受[Gao等，2023b]設計的啟發），從而擴大了基于LLM的多智能體研究的影響。盡管如此，早期的工作是獨立進行的，導致缺乏系統回顧以總結它們，建立這個領域的全面藍圖，并檢查未來的研究挑戰。這強調了我們工作的重要性，并作為呈現這篇綜述論文的動機，致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體（LLM-MA）系統的全面概覽，把握基于LLMs建立多智能體系統所涉及的基本概念，并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段，并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文，我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新，以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術，并補充現有的綜述通過解決未解決的問題，我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后，我們提出了一個關鍵問題：LLM-MA系統如何與協作任務解決環境對齊？為了回答這個問題，我們在第3節提出了一個全面的框架，用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論： 1）智能體-環境界面，詳細說明智能體如何與任務環境互動； 2）智能體輪廓，解釋一個智能體如何被LLM描述以以特定方式行為； 3）智能體通信，考察智能體如何交換信息和協作；以及 4）智能體能力獲取，探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節，我們將當前應用分為兩個主要流：用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源，我們在第5節提出了用于研究LLM-MA的開源實現框架，以及可用的數據集和基準。基于前面的總結，我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統：界面、輪廓、通信和能力

在本節中，我們深入探討LLM-MA系統的復雜性，其中多個自主智能體參與類似于人類群體動力學的協作活動，應對問題解決場景。我們要解決的一個關鍵問題是，這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點，我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架，重點關注四個關鍵方面：智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用：問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意，這是一個快速發展的研究領域，幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體，每個都作為個體行動，協作以有效地解決復雜問題，例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長，涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力，這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景，智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同，世界模擬系統涉及多種智能體管理和通信方法，反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能，并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中，我們首先系統回顧了LLM-MA系統的發展，通過從不同方面定位、區分和連接它們，涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準，并討論挑戰和未來機會，我們希望這篇綜述能成為各個研究領域的研究者們的有用資源，激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

圖神經網絡 · 社會推薦系統 · 綜述論文 ·

2022 年 12 月 10 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

社會化推薦系統(SocialRS)同時利用用戶到項目的交互和用戶到用戶的社會關系來為用戶生成項目推薦。此外，由于同質性和社會影響的作用，利用社會關系顯然可以有效地理解用戶的品味。因此，SocialRS越來越受到關注。特別是，隨著圖神經網絡(GNN)的發展，最近發展了許多基于GNN的社交方法。對基于GNN的SocialRS文獻進行了全面和系統的回顧。在遵循PRISMA框架(系統評審和元分析的首選報告項目)注釋了2151篇論文后，確定了80篇關于基于GNN的社交網絡的論文。然后，從輸入和體系結構兩個方面對它們進行了全面的綜述，提出了一個新的分類方法:(1)輸入分類方法包括5組輸入類型符號和7組輸入表示符號;(2)架構分類包括8組GNN編碼器符號，2組解碼器符號和12組損失函數符號。本文根據分類法將基于GNN的SocialRS方法分為幾個類別，并描述了它們的細節。總結了廣泛用于評估基于GNN的SocialRS方法的基準數據集和指標。最后，展望了未來的研究方向。 //www.zhuanzhi.ai/paper/19ce4b0c70cda5c6a61eeb8b8d8d6d1f

引言

隨著在線社交網絡平臺(如Facebook、Twitter、Instagram等)的出現，社交推薦系統(social recommender systems, SocialRS)得到了大量的研究，它同時利用用戶-用戶的社交關系和用戶-物品的交互關系向用戶推薦相關物品。利用社交關系進行推薦可以取得很好的效果，這是因為社交同質性[61]和社交影響力[60]的作用:(1)社交同質性表示用戶傾向于將自己與具有相似屬性和偏好的其他用戶聯系起來;(2)社交影響力表示具有直接或間接關系的用戶傾向于相互影響，使自己變得更加相似。因此，SocialRS通過利用社交鄰居來捕捉交互稀疏用戶的偏好，可以有效緩解數據稀疏問題。

通過利用社交鄰居來捕獲交互稀疏的用戶的偏好問題。文獻表明，SocialRS可以成功地應用于各種推薦領域(例如，產品[101,103]，音樂[116-118]，位置[39,72,100]和圖像[86,99,102])，從而提高用戶滿意度。此外，社會學家探索的技術和見解也可以用于現實世界的應用，而不是推薦。例如，GarcíaSánchez等人[20]利用SocialRS設計了一個營銷決策系統(如廣告)，而Gasparetti等人[21]從社區發現的角度分析了SocialRS。

在這種廣泛適用性的推動下，人們對開發精確社交模型的研究越來越感興趣。早期，研究集中在矩陣分解(MF)技術[28,54 - 57,84,112]。然而，基于MF的方法無法有效建模用戶-用戶社會關系和用戶-物品交互中固有的復雜(即非線性)關系[76]。受此啟發，最近的大多數工作都專注于將深度學習技術應用于社交網絡，例如自編碼器[11,115]，生成對抗網絡(GAN)[35]和圖神經網絡(GNN)[16,102]。

特別是，由于用戶-物品交互和用戶-用戶社會關系可以自然地表示為圖形數據，基于GNN的SocialRS在文獻中越來越受到關注。圖1顯示，自2019年以來，與基于GNN的SocialRS相關的論文數量持續增加。鑒于人們對這一領域的興趣日益增長和及時，我們在本次綜述中調查了基于GNN的SocialRS方法。

1.1 將GNN應用于SocialRS并非易事，面臨以下挑戰。

**輸入表示。**輸入數據應該適當地建模為異構圖結構。許多SocialRS方法構建兩個獨立的圖:其中一個圖的節點表示用戶和物品，邊表示用戶與物品的交互;另一種是節點代表用戶，邊代表用戶與用戶的社會關系。因此，用于SocialRS的GNN方法需要同時從兩個網絡中提取知識，以進行準確的推斷。這與大多數只考慮單個網絡的常規GNN形成對比。此外，我們注意到這兩個網絡中存在有價值的輸入特征，例如用戶/物品屬性，物品知識/關系，

此外，我們注意到兩個網絡中存在有價值的輸入特征，如用戶/項目屬性、項目知識/關系和組信息。因此，在基于GNN的社交網絡中，方法將特征和網絡信息融合在一起。本文討論了基于GNN的SocialRS方法中使用的輸入類型，以及它們表示為圖的不同方式。

**GNN編碼器的設計。**基于GNN的SocialRS方法的性能在很大程度上依賴于它們的GNN編碼器，這些編碼器旨在將用戶和項目表示為低維嵌入。因此，現有的SocialRS方法探索了關于GNN編碼器的各種設計選擇，并根據其目標采用了不同的架構。例如，許多SocialRS方法采用圖注意力神經網絡(GANN)[88]來區分每個用戶對項目的偏好或每個用戶對其社交朋友的影響。另一方面，一些方法[22,65,66,82,111]使用圖遞歸神經網絡(GRNN)[68, 120]對用戶的順序行為進行建模。需要注意的是，面向社交網絡的GNN編碼器需要同時考慮用戶-物品交互和用戶-用戶社會關系的特征。這與僅對用戶-項目交互建模的非社交者的GNN編碼器形成了對比。本文討論了SocialRS方法使用的不同類型的GNN編碼器。

**訓練。**基于GNN的社交網絡訓練應設計為在對應用戶和項目的嵌入中反映用戶的品味和項目的特征。為此，SocialRS方法采用眾所周知的損失函數，如均方誤差(MSE)、貝葉斯個性化排名(BPR)[70]和交叉熵(CE)，來重構用戶行為。此外，為了緩解數據稀疏性問題，一些工作還采用了輔助損失函數，如自監督損失[49]和基于分組的損失[36,42]。值得一提的是，基于GNN的社交網絡使用的損失函數被設計為可以利用豐富的結構信息，如motifs和用戶屬性。非社會推薦系統的損失函數不考慮這些。本綜述討論了基于GNN的SocialRS方法的訓練補救措施，以學習用戶和項目嵌入。

圖2所示。基于GNN的SocialRS方法時間表。根據其GNN編碼器對方法進行分類:圖卷積網絡(GCN)、輕量級GCN (LightGCN)、圖注意力神經網絡(GANN)、異構GNN (HetGNN)、圖循環神經網絡(GRNN)、超圖神經網絡(HyperGNN)、圖自編碼器(GAE)和雙曲GNN。值得注意的是，一些方法在其架構中使用了兩個或更多的GNN編碼器。

本文的主要貢獻總結如下:

基于GNN的社交網絡的第一個綜述:據我們所知，我們是第一個系統地致力于回顧基于GNN的社交網絡方法的人。大多數現有綜述要么關注傳統方法7,14,67,75,85,109,114，要么關注特征信息77，要么關注特定應用21。其他相關的綜述[12,19,94,104]關注基于圖的推薦系統，但它們部分覆蓋了社交網絡。

綜合調研: 通過遵循系統評審和元分析(PRISMA框架)首選報告項目的指導方針，系統地確定了基于GNN的社會RS的相關論文[63]。然后，從它們的輸入和架構方面全面回顧了它們。圖2提供了基于GNN的SocialRS方法的簡要時間表。此外，圖3顯示了在相關期刊(如IEEE TKDE和ACM TOIS)和會議(如WWW、ACM SIGIR和ACM CIKM)上發表的相關論文數量。

輸入和架構的新分類:在基于GNN的SocialRS方法中提供了一種新的輸入和架構分類，使研究人員能夠輕松捕捉該領域的研究趨勢。輸入分類法包括5組輸入類型表示法和7組輸入表示表示法。另一方面，架構分類包括8組GNN編碼器符號、2組解碼器符號和12組損失函數符號(4組為主要損失，8組為輔助損失)。

基準數據集:回顧了17個基準數據集，用于評估基于GNN的SocialRS方法的性能。將數據集分為8個領域(即產品、位置、電影、圖像、音樂、書簽、微博和雜項)。此外，我們提供了每個數據集的一些統計數據和使用該數據集的論文列表。

未來方向: 討論了現有的基于GNN的社會RS方法的局限性，并提供了幾個未來的研究方向。

在本節中，我們將介紹基于GNN的SocialRS的架構分類。模型架構由三個關鍵組件組成，如圖6所示: (C1)編碼器;(C2)解碼器;(C3)損失函數。在(C1)中，編碼器將用戶和物品表示為低維向量(即嵌入)通過使用不同的GNN編碼器。在這里，一些作品利用了用戶和/或項目的附加信息(例如，他們的屬性和組;請參考第4節)以構建更準確的用戶和項目嵌入。在(C2)中，解碼器通過對(C1)中獲得的用戶和物品嵌入的不同操作來預測每個用戶對每個物品的偏好。最后，在(C3)中，不同的損失函數被優化，以端到端的方式學習嵌入。