亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

語言模型(LM)基于深度神經網絡(DNN)的構建,最近在軟件工程任務中,如代碼生成、代碼補全和代碼修復,表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路,這些技術對于提升現有程序的性能,特別是加速程序執行時間,具有重要意義。然而,專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白,我們進行了一項系統的文獻綜述,分析了超過50篇核心研究,識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰,例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外,我們提供了八個未來的研究方向,以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此,本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。

1. 引言

代碼優化,或程序優化,長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標,例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程(SE)任務,包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。

傳統上,代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合,以捕獲程序的關鍵屬性,例如數據和控制依賴,進而識別出優化代碼的最有效方法。隨著時間的推移,已經開發出多種優化技術,涵蓋從低級策略,如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略,旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。

代碼優化的一個關鍵挑戰是存在大量可能的優化方式,使得窮舉搜索在計算上是不可行的,通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中,好的優化往往是稀缺的,并且在不同的程序之間差異很大[48, 137]。對于低級性能優化,最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法,它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。

在過去的幾十年中,已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明,機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年,基于深度神經網絡(DNN)的語言模型(LM)和生成性人工智能(genAI)的出現,標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44],并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理,進一步推動了將語言模型應用于軟件工程的廣泛研究[57],并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用,為這一領域的研究和創新開辟了新的方向。

然而,盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展,現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域,如自動程序修復[155]。值得注意的是,文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示,本文旨在填補這一空白,提供一項系統的文獻綜述(SLR),聚焦于基于語言模型的最前沿代碼優化方法。具體來說,我們通過六個學術索引引擎進行檢索,識別并系統地回顧了53篇核心研究[1]。基于四個研究問題(RQ)和11個具體的子問題,我們對這些研究進行了分類,概括了結果中的關鍵發現,并為讀者提供了有價值的建議。例如,我們的主要發現包括:

  • 像 GPT-4 這樣的通用語言模型(LM)被比專門用于代碼的語言模型(43個實例)更廣泛地采用(61個實例),這是由于其更廣泛的理解和推理能力。

  • 大多數研究(57%)利用了預訓練模型,以節省時間和資源,而43%的研究通過微調模型來定制任務特定需求。

  • 最常被提到的挑戰是性能和代碼相關的問題,例如一步優化的限制(18項研究)、平衡正確性和效率(15項研究)以及代碼語法的復雜性(10項研究)。

  • 大多數研究通過設計專門的模型(51個實例)來解決現有挑戰,這些模型雖然有效,但缺乏通用性。提示工程(Prompt Engineering)作為第二大類(34個實例)因其數據效率而脫穎而出,盡管依賴于專家知識。另一類則通過提出新的代碼優化問題(33個實例)提供了更大的優化靈活性,但也需要大量的數據集準備工作。

此外,我們還揭示了現有文獻中的五個關鍵挑戰,并提供了未來研究的潛在方向,總結如下:

  • 語言模型(LM)的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時,需要大量的計算資源,這就提出了模型壓縮和集成技術的需求。

  • 基于語言模型的代碼優化方法通常在孤立的環境中操作,缺乏與外部系統的無縫集成,強調了具有主動性(agentic)的語言模型的重要性。

  • 單語言研究的主導地位(81%)和對單一性能指標的強調(79%)凸顯了通用性問題,以及對多語言和多目標優化方法的需求。

  • 大多數基于語言模型的方法的研究(68%)是在合成數據集上進行評估的,而不是在更大且更復雜的真實世界代碼庫上進行的,這表明需要標準化基準測試,以反映不同的真實世界場景。

  • 語言模型常常生成不一致或幻覺化的輸出,因此人類與語言模型的協作對于利用AI的計算能力至關重要,同時確保優化結果的可信度和可靠性。

本文的其余部分安排如下:第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述(SLR)方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后,第9節總結了本文內容。 方法論

本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述(SLR)指南,這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示,研究方法包括三個關鍵階段:

  1. 搜索:進行了全面的自動化檢索,使用了精心定義的搜索字符串,遵循“準黃金標準”方法論[152],并輔以雪球式搜索,以確保覆蓋面廣泛。
  2. 研究選擇:對檢索到的研究進行嚴格的納入和排除標準篩選,隨后進行質量評估,只包含可靠且高質量的研究。
  3. 數據收集:制定了四個主要研究問題(RQ),包含11個具體問題,以指導數據提取和分析,最終得出本次調研的主要成果。

圖5提供了所有問題的分類概述,接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。

 結論我們為語言模型(LMs)在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄,我們盡力提供了一個全面且易于理解的綜述,涵蓋了主要的研究領域和未來的發展方向。具體來說,我們識別出五個關鍵的知識空白,這些空白可能會阻礙該領域的發展,包括平衡模型復雜性與實際應用性之間的挑戰,以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究,并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局,本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習,這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反,它們實際上為增強創造力和探索新的研究前沿提供了機會。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)在處理通用知識任務方面表現出色,但在用戶個性化需求方面存在挑戰,如理解個人情感、寫作風格和偏好。個性化大型語言模型(PLLMs)通過利用個體用戶數據,例如用戶資料、歷史對話、內容和互動,解決了這些問題,以提供在上下文上相關且量身定制的回答,滿足每個用戶的特定需求。這是一個極具價值的研究課題,因為PLLMs可以顯著提升用戶滿意度,并在對話代理、推薦系統、情感識別、醫療助手等領域具有廣泛的應用。 本綜述從三個技術角度回顧了個性化大型語言模型(PLLMs)的最新進展:針對個性化上下文的提示設計(輸入層)、個性化適配器的微調(模型層)以及個性化偏好的對齊(目標層)。為了提供更深入的洞察,我們還討論了當前的局限性,并概述了未來研究的幾個有前景的方向。有關本綜述的最新信息,請訪問Github倉庫。

1 引言

近年來,像GPT、PaLM、LLaMA、DeepSeek及其變種等大型語言模型(LLMs)取得了顯著進展。這些模型展現了卓越的多功能性,在各種自然語言處理任務中取得了最先進的表現,包括問答、推理和機器翻譯 [Zhao et al., 2023],且幾乎不需要針對特定任務的適應。

個性化LLMs(PLLMs)的必要性

雖然LLMs在通用知識和多領域推理方面表現出色,但它們缺乏個性化,導致在用戶特定理解至關重要的場景中遇到挑戰。例如,對話代理需要適應用戶的偏好語氣,并結合過去的互動,提供相關的個性化回應。隨著LLMs的發展,集成個性化能力已成為推動人機交互在多個領域發展的一個有前景的方向。 技術挑戰

盡管個性化LLMs具有巨大潛力,但個性化過程中仍面臨若干挑戰。這些挑戰包括如何高效地表示和整合多樣化的用戶數據、解決隱私問題、管理長期用戶記憶、適應用戶的多樣化需求以及應對用戶行為的變化 [Salemi et al., 2023]。此外,實現個性化通常需要在準確性和效率之間找到平衡,同時解決偏見問題并保持生成結果的公平性。 貢獻

盡管個性化LLMs日益受到關注,但該領域缺乏一篇系統性的綜述文章來整合最新的研究進展。本文旨在填補這一空白,通過系統地組織現有的PLLMs研究,并提供對其方法論和未來方向的深入見解。本文的貢獻可以總結如下:(1)結構化分類法:我們提出了一種全面的分類法,從技術角度對現有的PLLMs構建方法進行分析。(2)全面綜述:我們系統地回顧了PLLMs的最先進方法,分析了各個方法的特點和優缺點。

2 預備知識

大語言模型 大語言模型(LLMs)通常指利用Transformer架構并配備數十億參數的模型,這些模型在數萬億文本標記上進行訓練。這些模型在自然語言理解和生成任務中表現出顯著改進,越來越多地證明其在輔助人類活動中的益處。在本報告中,我們主要關注自回歸LLMs,它們基于兩種主要架構:僅解碼器模型和編碼器-解碼器模型。編碼器-解碼器模型如Flan-T5和ChatGLM通過編碼器分析輸入以獲取語義表示,使其在語言理解和生成方面表現出色。僅解碼器LLMs專注于從左到右的生成,通過預測序列中的下一個標記,許多實例在此范式下實現了指令跟隨和推理等高級能力的突破。 然而,這些模型通常在通用數據上進行預訓練,缺乏對特定用戶信息的理解。因此,它們無法生成適應用戶獨特品味、偏好和期望的響應,限制了其在需要用戶特定適配的個性化應用中的有效性。 問題陳述 個性化大語言模型(PLLMs)生成與用戶風格和期望一致的響應,為不同用戶提供多樣化的答案。PLLMs定義為不僅基于輸入查詢qq,還基于用戶uu的個性化數據CuCu生成響應的LLMs。其目標是預測給定查詢qq和個性化上下文CuCu的最可能響應序列yy,即:y=argmaxyP(y∣q,Cu)y=argmaxyP(y∣q,Cu)。個性化數據CuCu可能包含用戶偏好、歷史、上下文和其他用戶特定屬性的信息。這些信息可以包括(圖1): 檔案/關系:用戶檔案,包括屬性(如姓名、性別、職業)和關系(如朋友、家人),例如Cu={A,18,學生,朋友{B,C,D}… }Cu={A,18,學生,朋友{B,C,D}…}。 歷史對話:歷史對話,如用戶uu與LLM互動的問答對(例如Cu={(q0,a0),(q1,a1),…,(qi,ai)}Cu={(q0,a0),(q1,a1),…,(qi,ai)}),其中每個qiqi是查詢,aiai是相應的答案。 歷史內容:包括用戶uu的文檔、先前評論、評論或反饋。例如,Cu={1喜歡Avtar因為…,… }Cu={1喜歡Avtar因為…,…}。 歷史互動:包括用戶uu的歷史互動、偏好、評分。例如,Cu={指環王:5,星際穿越:3… }Cu={指環王:5,星際穿越:3…}。 通過整合個性化數據,PLLMs增強了傳統LLMs,改進了響應生成、推薦和分類任務。 注意,我們的報告與角色扮演相關的LLM個性化有顯著不同。雖然角色扮演側重于在對話中模仿角色,但本報告中的PLLMs側重于理解用戶的上下文和偏好,以滿足其特定需求。與強調廣泛類別的[29]相比,我們的工作提供了增強PLLM效率和性能技術的系統性分析,并提供了更詳細的技術分類。 提出的分類法 我們提出了一個從技術角度出發的分類法(如圖1和圖2所示),將個性化大語言模型(PLLMs)的方法分為三個主要層面:(1)輸入層面:個性化提示側重于處理用戶特定數據并將其注入模型。(2)模型層面:個性化適配強調設計框架以高效微調或適配模型參數以實現個性化。(3)目標層面:個性化對齊旨在優化模型行為以有效對齊用戶偏好。由于篇幅限制,分析論文、數據集和基準測試總結在Github Repo中。 3 個性化提示

提示工程作為用戶與LLMs之間的交互橋梁。在本報告中,提示涉及使用各種技術引導LLM生成期望的輸出,從傳統文本提示到軟嵌入等高級方法。軟嵌入不僅可以通過輸入擴展,還可以通過交叉注意力或調整輸出logits實現,從而實現更靈活和上下文敏感的響應。 該框架可以表示為,對于每個用戶uu:

其中,fLLMfLLM是生成響應的LLM模型;??是從用戶個人上下文CuCu中提取相關上下文的函數;⊕⊕表示將查詢qq和相關個性化上下文?(Cu)?(Cu)結合的組合運算符,為LLM生成豐富的信息。 檔案增強提示 檔案增強提示方法明確利用總結的用戶偏好和檔案的自然語言來增強LLMs的輸入(??是總結器模型)。圖3(a)展示了該方法的示意圖。 非調優總結器:凍結的LLM可以直接用作總結器,以總結用戶檔案,因其具有強大的語言理解能力,即?(Cu)=fLLM(Cu)?(Cu)=fLLM(Cu)。例如,_Cue-CoT_使用思維鏈提示進行個性化檔案增強,利用LLMs從歷史對話中提取和總結用戶狀態(如情感、個性和心理)。_PAG_利用指令調優的LLMs基于歷史內容預總結用戶檔案。這些總結離線存儲,從而在滿足運行時約束的同時實現高效的個性化響應生成。_ONCE_提示閉源LLMs從用戶的瀏覽歷史中總結主題和興趣區域,增強個性化推薦。 調優總結器:黑箱LLMs對輸入噪聲(如離題總結)敏感,難以提取相關信息。因此,訓練總結器以適應用戶偏好和風格至關重要。_Matryoshka_使用白箱LLM總結用戶歷史,類似于PAG,但微調總結器而不是生成器LLM。_RewriterSIRI_重寫查詢qq而不是連接總結,通過監督學習和強化學習進行優化。 _CoS_是一個特殊情況,假設一個簡短的用戶檔案?(Cu)?(Cu),并通過比較有和沒有檔案的輸出概率來放大其在LLM響應生成中的影響,從而在不微調的情況下調整個性化。 檢索增強提示 檢索增強提示[8, 10, 11]擅長從用戶數據中提取最相關的記錄以增強PLLMs(見圖3(b))。由于用戶數據的復雜性和體量,許多方法使用額外的記憶來實現更有效的檢索。常見的檢索器包括稀疏檢索器(如BM25 [21])和密集檢索器(如Faiss [23], Contriever [24])。這些方法有效地管理了LLM上下文限制內不斷增長的用戶數據量,通過整合用戶個性化數據中的關鍵證據來提高相關性和個性化。 3.2.1 個性化記憶構建 這部分設計了保留和更新記憶的機制,以實現高效檢索相關信息。 非參數記憶:此類記憶維護一個基于標記的數據庫,以原始標記形式存儲和檢索信息,而不使用參數化向量表示。例如,_MemPrompt_和_TeachMe_維護基于字典的反饋記憶(錯誤和用戶反饋的鍵值對)。MemPrompt側重于基于提示的改進,而TeachMe強調通過動態記憶進行持續學習,隨時間適應。_Mal.P_進一步整合了多種記憶類型,利用工作記憶進行即時處理,短期記憶(STM)進行快速訪問,長期記憶(LTM)存儲關鍵知識。 參數記憶:最近的研究將個性化用戶數據參數化并投影到可學習空間中,參數記憶過濾冗余上下文以減少噪聲。例如,_LD-Agent_維護具有獨立短期和長期庫的記憶,將長期事件編碼為通過可調模塊精煉的參數向量表示,并通過基于嵌入的機制進行檢索。_MemoRAG_采用不同的方法,利用輕量級LLM作為記憶來學習用戶個性化數據。它不維護用于檢索的向量數據庫,而是生成一系列標記作為草案以進一步指導檢索器,提供更動態和靈活的檢索增強方法。 3.2.2 個性化記憶檢索 個性化檢索器設計的關鍵挑戰在于選擇不僅相關而且具有代表性的個性化數據用于下游任務。_LaMP_研究通過兩種機制(提示內增強(IPA)和解碼器內融合(FiD))檢索的個性化信息如何影響大語言模型(LLMs)的響應。_PEARL_和_ROPG_同樣旨在通過個性化生成校準指標增強檢索器,提高檢索文檔的個性化和文本質量。同時,_HYDRA_訓練一個重排序器,從頂部檢索的歷史記錄中優先選擇最相關的信息以增強個性化。 軟融合提示 軟提示與檔案增強提示不同,它將個性化數據壓縮為軟嵌入,而不是將其總結為離散標記。這些嵌入由用戶特征編碼器??生成。 在本報告中,我們概括了軟提示的概念,表明軟嵌入不僅可以通過輸入集成,還可以通過交叉注意力或調整輸出logits集成,從而實現更靈活和上下文敏感的響應(見圖3(c))。 輸入前綴:軟提示作為輸入前綴,專注于嵌入級別,通過將查詢嵌入與軟嵌入連接,通常應用于推薦任務。_UEM_是一個用戶嵌入模塊(變換器網絡),生成基于用戶個性化數據的軟提示。_PERSONA_通過采用重采樣增強UEM,根據相關性和重要性選擇用戶互動的子集。_REGEN_通過協作過濾和項目描述結合用戶-項目互動的項目嵌入,使用軟提示適配器生成上下文個性化的響應。_PcaPOD_通過將用戶偏好提煉為有限的一組可學習的動態加權提示來個性化軟提示。與之前提到的方法不同,這些方法側重于直接嵌入用戶互動或重采樣相關數據,PcaPOD通過加權共享提示集來適應用戶興趣。 交叉注意力:交叉注意力使模型能夠通過允許其關注個性化數據和查詢來處理和整合多個輸入源。_User-LLM_使用自回歸用戶編碼器通過自監督學習將歷史互動轉換為嵌入,然后通過交叉注意力集成。該系統采用聯合訓練來優化檢索器和生成器以獲得更好的性能。_RECAP_利用為對話域設計的層次變換器檢索器獲取個性化信息。該信息通過上下文感知前綴編碼器集成到響應生成中,提高了模型生成個性化、上下文相關響應的能力。 輸出Logits:_GSMN_從個性化數據中檢索相關信息,將其編碼為軟嵌入,并與查詢向量在注意力中使用。之后,生成的嵌入與LLM生成的嵌入連接,修改最終logits以生成更個性化和上下文相關的響應。 討論 三種提示方法各有優缺點:1)檔案增強提示通過壓縮歷史數據提高效率,但存在信息丟失和個性化降低的風險。2)檢索增強提示提供豐富的上下文感知輸入,適用于長期記憶,但可能受計算限制和無關數據檢索的影響。3)軟提示高效嵌入用戶特定信息,捕捉語義細微差別而不冗余,但僅限于黑箱模型,缺乏明確的用戶偏好分析。總體而言,基于提示的方法高效且適應性強,能夠以最小的計算開銷實現動態個性化。然而,它們缺乏更深入的個性化分析,因為它們依賴于預定義的提示結構來注入用戶特定信息,并且由于提示范圍狹窄,訪問全局知識的能力有限。 4 個性化適配

PLLMs需要在微調的深度適應性和提示的效率之間取得平衡。因此,需要專門為PLLMs設計的方法,利用參數高效微調方法(PEFT),如LoRA [Hu et al., 2021, Yang et al., 2024], IA3 [Liu et al., 2022]等(見圖4)。 一個PEFT適用于所有用戶 該方法使用共享的PEFT模塊對所有用戶的數據進行訓練,消除了每個用戶單獨模塊的需求。共享模塊的架構可以進一步分類。 單一PEFT:_PLoRA_和_LMP_利用LoRA進行LLM的PEFT,分別通過用戶嵌入和用戶ID注入個性化信息。PLoRA進一步擴展并支持冷啟動場景的在線訓練和預測。_UserIdentifier_使用靜態、不可訓練的用戶標識符來調節模型對用戶特定信息的條件,避免了可訓練用戶特定參數的需求,降低了訓練成本。_Review-LLM_將用戶的歷史行為和評分聚合到提示中以引導情感,并利用LoRA進行高效微調。然而,這些方法依賴于具有固定配置的單一架構(如隱藏大小、插入層),使其無法存儲和激活多樣化的個性化信息[Zhou et al., 2024]。為了解決這個問題,_MiLP_利用貝葉斯優化策略自動識別應用多個LoRA模塊的最佳配置,從而實現高效和靈活的個性化。 專家混合(MoE):幾種方法使用LoRA模塊,但所有用戶使用靜態配置。這種缺乏參數個性化限制了適應用戶動態和偏好變化的能力,可能導致次優性能[Cai et al., 2024]。_RecLoRA_通過維護一組并行、獨立的LoRA權重并采用軟路由方法聚合元LoRA權重來解決這一限制,從而實現更個性化和自適應的結果。類似地,_iLoRA_創建了一組多樣化的專家(LoRA)以捕捉用戶偏好的特定方面,并生成動態專家參與權重以適應用戶特定行為。 共享PEFT方法依賴于集中式方法,其中用戶特定數據被編碼到集中式LLMs的共享適配器中。這限制了模型提供深度個性化體驗的能力。此外,使用集中式模型通常要求用戶與服務提供商共享個人數據,引發了對這些數據的存儲、使用和保護的擔憂。

每個用戶一個PEFT

為每個用戶配備用戶特定的PEFT模塊使LLM部署更加個性化,同時保護數據隱私。然而,挑戰在于確保在資源有限的環境中高效運行,因為用戶可能缺乏足夠的本地資源來執行微調。 無協作:此類別中適配器之間或學習過程中沒有協作或協調。_UserAdapter_通過前綴調優個性化模型,為每個用戶微調唯一的前綴向量,同時保持底層變換器模型共享和凍結。_PocketLLM_利用基于MeZo [Malladi et al., 2023]的無導數優化方法,在內存受限的移動設備上微調LLMs。_OPPU_為每個用戶配備一個LoRA模塊。 協作努力:沒有協作的“每個用戶一個PEFT”范式在計算和存儲方面非常密集,特別是對于大型用戶群。此外,個人擁有的PEFTs阻礙了社區價值,因為個人模型無法輕松共享知識或從協作改進中受益。_PER-PCS_通過跨用戶共享一小部分PEFT參數實現高效和協作的PLLMs。它首先將PEFT參數劃分為可重用的部分,并存儲在共享池中。對于每個目標用戶,從其他用戶自回歸選擇部分,確保可擴展性、效率和個性化適配,而無需額外訓練。 另一種高效的協作策略基于聯邦學習(FL)框架。例如,Wagner et al.[2024]引入了用于設備上LLM微調的FL框架,使用策略聚合LoRA模型參數并高效處理數據異質性,優于純本地微調。FDLoRA_引入了一個個性化的FL框架,使用雙LoRA模塊捕捉個性化和全局知識。它僅與中央服務器共享全局LoRA參數,并通過自適應融合結合它們,在最小化通信和計算成本的同時提高性能。 還有其他框架可以探索,例如_HYDRA,它也采用基礎模型來學習共享知識。然而,與聯邦學習相比,它為每個個體用戶分配不同的頭以提取個性化信息。 討論 微調方法通過修改大量模型參數實現深度個性化,而參數高效微調方法(如前綴向量或適配器)在保持高個性化水平的同時降低了計算成本和內存需求。這些方法通過針對特定用戶需求定制模型來提高任務適應性,增強情感分析和推薦等任務的性能。它們還提供了靈活性,允許用戶特定調整,同時利用預訓練知識。然而,它們仍然面臨過擬合的風險,特別是在有限或嘈雜的用戶數據情況下,這可能影響對新用戶或多樣化用戶的泛化和性能。 5. 個性化對齊

個性化對齊技術 [Bai et al., 2022; Rafailov et al., 2024] 通常旨在優化大型語言模型(LLMs),使其符合人類的通用偏好。然而,現實中,個體在語言風格、知識深度、價值觀等方面對LLM回答的偏好可能存在顯著差異。個性化對齊則力圖進一步滿足個體用戶的獨特偏好,超越通用的偏好。個性化對齊面臨的一大挑戰是構建高質量的用戶特定偏好數據集,這比通用對齊數據集更為復雜,原因在于數據的稀缺性。第二個挑戰來自于需要改進傳統的基于強化學習的人類反饋(RLHF)框架 [Ouyang et al., 2022],以處理用戶偏好的多樣化問題,這對于整合個性化偏好而不妥協效率和性能至關重要。

5.1 個性化對齊數據構建

高質量的數據構建對于學習個性化大型語言模型(PLLMs)至關重要,主要涉及通過與LLM的交互生成自我生成的數據。Wu 等 [2024c] 構建了一個數據集,用于將LLM與個體偏好對齊,該數據集通過初步創建一個包含3,310個用戶角色池,并通過迭代自我生成和過濾進行擴展。這種方法與PLUM [Magister et al., 2024] 相似,后者通過多輪對話樹模擬動態交互,使得LLM能夠推斷并適應用戶的偏好。為了讓LLM能夠在不重新訓練的情況下適應個體用戶的偏好,Lee 等 [2024] 使用了多樣化的系統消息作為元指令來指導模型的行為。為此,創建了MULTIFACETED COLLECTION數據集,其中包含197,000條系統消息,代表了廣泛的用戶價值觀。為了支持邊緣設備上的實時隱私保護個性化,并解決數據隱私、存儲有限和最小化用戶干擾的問題,Qin 等 [2024] 提出了一個自監督方法,該方法能夠高效地選擇并綜合重要的用戶數據,從而在最小化用戶交互的情況下改善模型適應性。 研究工作也越來越集中于開發能夠評估模型理解個性化偏好的數據集。Kirk 等 [2024] 引入了PRISM Alignment Dataset,該數據集將來自75個國家的1,500名參與者的社會人口統計信息和偏好映射到他們與21個LLM的實時交互反饋中,重點關注關于有爭議話題的主觀和多文化視角。PersonalLLM [Zollo 等,2024] 提出了一個新型的個性化測試數據庫,它策劃了開放式提示和多個高質量的回應,以模擬用戶之間的多樣化潛在偏好。該方法通過從預訓練的獎勵模型生成模擬用戶群體,解決了個性化中的數據稀缺問題。

5.2 個性化對齊優化

個性化偏好對齊通常被建模為一個多目標強化學習(MORL)問題,其中個性化偏好是由多個偏好維度的用戶特定組合來決定的。基于此,典型的對齊范式包括使用從多個獎勵模型派生的個性化獎勵來指導LLM策略的訓練階段,以實現個性化目標。MORLHF [Wu 等,2023] 為每個偏好維度分別訓練獎勵模型,并使用鄰近策略優化(PPO)重新訓練策略語言模型,指導模型通過多個獎勵模型的線性組合。這種方法允許重用標準的RLHF管道。 MODPO [Zhou 等,2023] 引入了一種新穎的無強化學習(RL-free)算法,擴展了直接偏好優化(DPO),以管理多個對齊目標。它將線性標量化直接集成到獎勵建模過程中,使得通過簡單的基于邊際的交叉熵損失來訓練語言模型,作為隱式的集體獎勵函數。 另一種MORL策略是在解碼階段考慮多個訓練好的策略LLM的即席組合,以實現個性化。Personalized Soups [Jang 等,2023] 和Reward Soups [Rame 等,2024] 通過首先獨立訓練多個具有不同偏好的策略模型,然后在推理階段合并它們的參數來解決個性化人類反饋中的RL挑戰。兩種方法都允許根據用戶偏好動態加權網絡,增強模型對齊并減少獎勵的誤差。此外,策略LLM的個性化融合不僅可以通過參數合并來實現,也可以通過模型集成來實現。MOD [Shi 等,2024] 從所有基礎模型的線性組合中輸出下一個令牌,允許通過組合它們的預測來精確控制不同目標,而無需重新訓練。與參數合并基準相比,該方法顯示出了顯著的效果。PAD [Chen 等,2024b] 利用個性化獎勵建模策略生成令牌級別的個性化獎勵,并用這些獎勵來指導解碼過程,從而動態地調整基礎模型的預測,以適應個體偏好。圖5可視化了上述典型的MORL方法,用于個性化對齊。 還有一些新興的個性化對齊研究,超越了“多目標”范式。PPT [Lau 等,2024] 通過生成每個用戶提示的兩個潛在回答,要求用戶對其進行排名,并將該反饋融入到模型的上下文中,以動態適應用戶的個性化偏好,從而解鎖了上下文學習在可擴展性和高效性上的潛力。VPL [Poddar 等,2024] 利用變分推斷框架,通過用戶特定的潛在變量來捕捉多樣化的人類偏好。從少量偏好注釋推斷用戶特定的潛在分布,能夠以更高的數據效率實現更準確的個性化獎勵建模。

5.3 討論

當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題,其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常,這些方法限于少數(例如三個)預定義的偏好維度,并通過文本用戶偏好提示來表示。然而,在現實場景中,可能存在大量個性化用戶,并且他們的偏好向量可能并不完全已知,僅能訪問到他們的交互歷史。因此,開發更現實的對齊基準,以有效評估這些技術,是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型(PLLMs)近年來取得了顯著進展,但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好,處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如,使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據,而針對多模態數據(如圖像、視頻、音頻)的個性化基礎模型仍然沒有得到充分探索,盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備(如手機)上高效地更新模型,這些設備的存儲和計算資源有限。例如,微調可以提供更深層次的個性化,但它需要大量資源,并且難以擴展,尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024],利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性,尤其是在個性化模型(PLLMs)的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新(例如推出新版本時),如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性,重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數,而無需完全重新訓練,例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性,一個關鍵的挑戰是如何防止災難性遺忘,同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b],以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要,尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制,LLMs無法本地部署,這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法,例如聯邦學習、安全計算和差分隱私,以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了個性化大型語言模型(PLLMs),重點強調了根據個體用戶數據量身定制的個性化響應。我們提出了一個結構化的分類法,將現有的方法分為三個關鍵技術視角:個性化提示(輸入層)、個性化適配(模型層)和個性化對齊(目標層),并在每個層次內進一步細分。我們還討論了當前的局限性,并提出了幾個有前景的未來研究方向。我們的工作為推動PLLMs的發展提供了寶貴的見解和框架。

付費5元查看完整內容

最近在大型語言模型(LLMs)方面的進展使得視頻語言模型(Video-LLMs)的發展成為可能,通過將視頻數據與語言任務結合,推動了多模態學習的進步。然而,當前的視頻理解模型在處理長視頻序列、支持多輪對話以及適應現實世界的動態場景方面存在困難。為了解決這些問題,我們提出了STREAMCHAT,一個無需訓練的框架,用于流媒體視頻推理和對話互動。STREAMCHAT利用一種新穎的分層記憶系統,能夠高效地處理和壓縮長序列中的視頻特征,從而實現實時的多輪對話。我們的框架結合了并行系統調度策略,提高了處理速度并降低了延遲,確保在現實應用中的強大性能。此外,我們還推出了STREAMBENCH,一個多功能的基準測試,能夠評估流媒體視頻理解在多種媒體類型和互動場景下的表現,包括多輪互動和復雜推理任務。在STREAMBENCH和其他公開基準上的廣泛評估表明,STREAMCHAT在準確性和響應時間方面顯著超越了現有的最先進模型,驗證了其在流媒體視頻理解中的有效性。代碼可在StreamChat獲取。

付費5元查看完整內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

近年來,大語言模型(Large Language Models, LLMs)已成為廣泛人工智能應用的核心工具。隨著 LLMs 的使用范圍不斷擴展,精準評估其預測中的不確定性變得至關重要。然而,當前方法通常難以準確識別、衡量和解決真正的不確定性,許多研究主要集中在估算模型的置信度。這種差異很大程度上源于對不確定性注入模型的方式、時機和來源缺乏完整的理解。本文提出了一個專門設計的綜合框架,用于識別和理解不確定性的類型及來源,并與 LLMs 的獨特特性相契合。該框架通過系統地分類和定義每種類型的不確定性,增進了對不確定性多樣性格局的理解,為開發能夠精準量化這些不確定性的方法奠定了堅實基礎。 此外,我們詳細介紹了關鍵相關概念,并深入探討了當前方法在任務關鍵型和安全敏感應用中的局限性。本文最后展望了未來研究方向,旨在提升這些方法的可靠性及其在真實場景中的實用性,從而促進其廣泛應用。

近年來,大語言模型(Large Language Models, LLMs)在復雜推理和問答任務中表現出了顯著的能力(Zhao et al., 2023; Wang et al., 2024c; Liang et al., 2022)。然而,盡管展現了巨大的潛力,LLMs 仍然面臨生成錯誤答案的重大挑戰(Ji et al., 2023a; Li et al., 2023a; Huang et al., 2023),在對高精度和高可靠性要求較高的領域,這種情況可能產生嚴重后果。LLM 輸出中信任度不足的一個核心問題在于其決策過程缺乏透明性和可解釋性(Zhou et al., 2023; Lin et al., 2023; Yin et al., 2023; Xiao & Wang, 2018; Hullermeier & Waegeman, 2021)。在這種背景下,全面理解和評估模型的不確定性至關重要。例如,在醫療領域,當醫生診斷如癌癥等關鍵病癥時,不僅需要模型提供高預測準確性,還需要明確了解預測中的不確定性(Gawlikowski et al., 2022a; Wang et al., 2022)。 盡管量化 LLMs 不確定性的必要性已被廣泛認可,但對于不確定性的定義和解釋在這一新背景下仍未達成一致(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018),這進一步增加了其估計的復雜性。不確定性、置信度和可靠性等術語常被混用,但它們實際上代表著需要仔細區分的不同概念(Gawlikowski et al., 2021)。例如,LLM 可能對一個本質上不確定且無答案的問題生成高置信度的回應,但這種回應可能在語境上不恰當或在事實層面上不正確,這表明高置信度并不等同于低不確定性(Gawlikowski et al., 2022b)。因此,現有文獻中面臨的首個挑戰是明確 LLMs 背景下的不確定性定義,并探討這些交織概念之間的細微差別。 傳統上,深度神經網絡(DNNs)中的不確定性被劃分為兩類:固有不確定性(aleatoric),由數據隨機性(如傳感器噪聲)引起;以及認知不確定性(epistemic),源于模型知識的局限性,如數據不足或未建模的復雜性(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018)。盡管這些分類在深度學習領域廣泛使用,但它們無法完全涵蓋 LLMs 的獨特挑戰,包括處理復雜文本數據、管理極其龐大的參數量,以及面對通常不可訪問的訓練數據。此外,LLM 生命周期的各個階段——從預訓練到推理——都會引入獨特的不確定性,而用戶與這些模型的交互同樣如此。理解這些不確定性來源,特別是從提高 LLMs 可解釋性和魯棒性的角度來看,至關重要。然而,若沒有一個包容性和細粒度的框架來系統地識別和分析 LLMs 中的不確定性來源,實現這一目標是不可能的。

近期,已有大量研究嘗試估計 LLMs 的不確定性(Manakul et al., 2023; Beigi et al., 2024; Azaria & Mitchell, 2023a; Kadavath et al., 2022; Kuhn et al., 2023),這些方法大致可以根據其基本機制分為四類:基于 logits 的方法(Lin et al., 2022b; Mielke et al., 2022a; Jiang et al., 2021; Kuhn et al., 2023)、自評估方法(Kadavath et al., 2022; Manakul et al., 2023; Lin et al., 2024a)、基于一致性的方法(Portillo Wightman et al., 2023; Wang et al., 2023),以及內部機制驅動的方法(Beigi et al., 2024)。然而,鑒于 LLMs 的獨特特性和不確定性的微妙方面,各類方法在 LLMs 背景下捕捉真正的不確定性或相關因素的有效性,以及在 LLM 生命周期不同階段中檢測到的具體不確定性來源,仍然存在關鍵問題。這些問題的回答對于開發更可靠、更全面的不確定性估計方法至關重要。

為了解決上述挑戰和問題,我們對與不確定性及其相關概念相關的研究進行了關鍵綜述和分析,旨在呈現涵蓋 LLMs 不確定性全景的綜合綜述,特別關注不確定性概念、來源、估計方法與文本數據特征之間的相互作用。據我們所知,這一領域尚缺乏類似的系統性研究**。綜上所述,本文的貢獻體現在以下幾個方面,這些貢獻具有開創性和多樣性**:

  1. 標準化了不確定性的定義,并探索了相關概念,從而促進了領域內的交流(第二節)。
  2. 首次提出了一個全面的框架,用于分析 LLM 生命周期中所有不確定性來源,深入揭示其起源及有效管理策略(第三節)。
  3. 對當前用于估計和評估 LLM 不確定性的方法進行了評估和比較,討論了它們的優缺點(第四節)。
  4. 最后,識別了增強 LLM 不確定性估計的未來研究方向,解決關鍵研究空白并探討新興趨勢,以在任務關鍵型應用中提高可靠性和準確性(第五節)。

在深度學習中,不確定性傳統上被劃分為三類:(1)模型(認知)不確定性,與模型參數估計中的不確定性相關,反映了模型擬合的能力及其對未見數據的泛化局限性(Der Kiureghian & Ditlevsen, 2009;Lahlou et al., 2023;Hullermeier & Waegeman, 2021;Malinin & Gales, 2018);(2)數據(或固有)不確定性,源于數據本身的復雜性,例如類別重疊和各種噪聲(Der Kiureghian & Ditlevsen, 2009;Rahaman & Thiery, 2020;Wang et al., 2019;Malinin & Gales, 2018);(3)分布不確定性,通常由于數據集分布偏移引起,當訓練和測試數據分布不同而導致模型在真實場景中面臨泛化問題(Malinin & Gales, 2018;Nandy et al., 2021;Gawlikowski et al., 2022a;Chen et al., 2019;Mena et al., 2021)。

盡管這些傳統分類在深度學習中應用廣泛,但它們無法充分應對 LLMs 所面臨的獨特挑戰。LLMs 的特點包括龐大的參數規模、復雜的文本數據處理,以及通常難以獲取的訓練數據,這些特性在模型輸出中引入了特定的不確定性。此外,與用戶在動態環境中的交互,以及數據標注或模型校準中的人為偏差,使不確定性的景觀更加復雜。與主要預測數值輸出或類別的通用深度學習模型不同,LLMs 生成的是基于知識的輸出,這些輸出可能包含不一致或過時的信息(Lin et al., 2024b)。這些特性無法通過簡單地將不確定性劃分為三種傳統類型來充分描述。

新框架:LLM 不確定性分類

為了應對這些挑戰,我們提出了一個新的框架,用于對 LLMs 中的不確定性進行分類,如圖 2 所示。該框架將不確定性區分為兩類:操作性不確定性輸出不確定性,分別對應模型和數據處理過程以及生成內容的質量。

**1. 操作性不確定性

操作性不確定性貫穿于從預訓練到推理的整個生命周期,涵蓋數據獲取、模型和架構設計、訓練與優化過程、校準以及推理活動。這些不確定性源于以下方面:

  • 數據處理與模型訓練:LLMs 在處理大規模數據集、輸入數據及生成文本時無法完全捕捉數據的復雜性。
  • 輸入數據的模糊性或噪聲:輸入數據本身的不完整性或多義性增加了操作性不確定性。

**2. 輸出不確定性

輸出不確定性與生成文本的分析和解釋中的挑戰相關,具體涉及信息質量及其在決策過程中的可靠性。例如,在醫療場景中,LLM 需要根據患者癥狀提供診斷建議。若生成的建議缺乏充分的證據支持或包含矛盾信息,醫生需要判斷這些建議的可信度,這就帶來了顯著的不確定性。醫生在決定進一步調查哪種診斷時可能面臨巨大挑戰,這突顯了 LLM 提供支持充分、輸出一致且可靠內容的重要性,以確保其在決策過程中的實用性。

框架的優勢

通過區分操作性不確定性和輸出不確定性,該框架帶來了以下幾個關鍵優勢:

  1. 細粒度視角:捕捉 LLMs 的獨特特性,更精準地反映不確定性,從而有助于更好的建模與理解。
  2. 明確不確定性來源:為開發針對性的量化方法奠定基礎,能夠準確地量化各類不確定性。
  3. 針對不同角色的洞見:為開發者、用戶和管理員提供具體的指導,幫助其解決各自角色中相關的不確定性問題,從而提升模型魯棒性、用戶交互體驗和治理能力。
  4. 構建對模型輸出的信任:通過匯總多種觀點和評估輸出證據,該框架特別適用于醫療診斷或法律推理等關鍵領域,增強對 LLM 輸出的信任度。

這一框架為更深入地理解 LLMs 的不確定性提供了基礎,并為進一步提升其可靠性和實用性指明了方向。

付費5元查看完整內容

大型語言模型(LLM)在代碼生成方面取得了顯著進展,但它們在處理具有復雜需求的程序時仍面臨挑戰。近期的研究嘗試通過“規劃與求解”(Plan-and-Solve)的分解策略以降低復雜性,并利用自測機制不斷優化生成的代碼。然而,提前規劃復雜需求可能非常困難,同時生成的自測需要非常準確才能實現自我改進。針對這一問題,我們提出了 FunCoder,一個結合了分治(divide-and-conquer)策略和功能共識(functional consensus)的代碼生成框架。具體而言,FunCoder 在代碼生成過程中遞歸地將子函數分解為較小的目標,并用樹狀層次結構加以表示。這些子函數隨后會組合在一起,以解決更為復雜的任務。此外,我們通過識別程序行為的相似性來形成共識函數,從而降低錯誤傳播的風險。在 HumanEval、MBPP、xCodeEval 和 MATH 測試中,FunCoder 在 GPT-3.5 和 GPT-4 上相較于現有方法平均性能提升了 9.8%。不僅如此,FunCoder 在較小的模型上同樣展現了出色的表現:借助 FunCoder,StableCode-3b 在 HumanEval 測試中的性能超越了 GPT-3.5(提升了 18.6%),并達到了 GPT-4 性能的 97.7%。進一步分析表明,我們提出的動態函數分解方法能夠有效應對復雜需求,且功能共識在正確性評估方面優于自測機制。

//www.zhuanzhi.ai/paper/e9b3b05614fb83a0e858cdc7aa5bf3fa

付費5元查看完整內容

大型語言模型(LLMs)在各個領域展示了卓越的能力,吸引了學術界和工業界的廣泛關注。盡管它們表現出色,但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰,特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中,知識蒸餾已成為一種有效的技術,可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查,探討了專門為LLMs量身定制的知識蒸餾技術。具體來說,我們將方法分為白盒KD和黑盒KD,以更好地說明它們的差異。此外,我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果,并提出了未來研究的方向。通過深入理解最新進展和實際應用,這項調查為研究人員提供了寶貴的資源,為該領域的持續進步鋪平了道路。

** 簡介**

大型語言模型(LLMs)[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量,成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比,這些模型對未見數據的泛化能力更強。此外,它們還展示了小型模型所不具備的能力,如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加(例如,具有1750億參數的GPT-3[12])。然而,參數規模的擴展帶來了顯著的缺點,尤其是在高推理成本和大量內存需求方面,使得實際部署變得具有挑戰性。例如,GPT-3需要大約350GB的模型存儲(float16),并且推理至少需要5個每個80GB內存的A100 GPU,這對碳排放的影響顯著。為了解決這些挑戰,模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行,或在最小延遲和模型性能之間取得平衡。因此,在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們,減少參數數量,同時保持最大性能。

隨著減少計算資源需求的必要性日益重要,知識蒸餾(Knowledge Distillation, KD)[43] 作為一種有前景的技術出現。KD是一種機器學習方法,專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中,從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講,知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中,較小的模型不僅要匹配原始數據標簽,還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型,生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展,許多研究綜合了各種蒸餾技術的最新進展。具體來說,Gou等[37] 對知識蒸餾進行了廣泛的綜述,涉及六個關鍵方面:知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣,Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準,稱為蒸餾度量標準,他們用它來評估不同的知識壓縮方法。此外,Hu等[48] 探討了跨多個蒸餾目標的各種師生架構,提出了不同的知識表示及其相應的優化目標,并系統地概述了師生架構,結合了代表性的學習算法和有效的蒸餾方案。

現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而,LLMs的出現給KD帶來了若干新挑戰:1)大型語言模型設計并非僅用于單一任務如文本生成,而是廣泛應用于各種任務和未見數據,包括新興能力。因此,評估壓縮LLMs的泛化能力需要仔細和全面的評估。2)現有綜述僅是對現有工作的總結,未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。

為應對這些挑戰,已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示,從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法,我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型:基于Logits的方法[43],在Logits層面傳遞知識,以及基于Hint的方法[109],通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法,其中僅能訪問教師模型的輸出。此類別通常包括三種方法:上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外,我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后,我們討論了不同蒸餾方法之間的關系和應用場景,并提出了未來研究方向。

本文其余部分安排如下:第2節簡要回顧了知識蒸餾方法的定義。接下來,第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景,第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后,第6節對本文進行了總結。

付費5元查看完整內容

機器學習的最新進展提高了源代碼的理解和生成,從而在各種軟件工程任務中取得了更好的性能。在大規模代碼庫上進行預訓練的編程語言模型(Programming language model, PLM)在代碼摘要、代碼翻譯和程序合成等任務中顯示出良好的效果。然而,目前的方法主要依賴于直接從文本生成文獻中借鑒的有監督的微調目標,而忽略了代碼特定的功能,如語法和功能正確性。在本次演講中,我將介紹保留生成代碼的語法和數據流的各種機制,然后描述我們的新框架PPOCoder,它將預訓練代碼PLM與深度強化學習相結合,并將執行反饋作為模型優化過程的外部知識來源。我將通過討論CodeAttack框架來結束這次演講,這是一個簡單但有效的黑盒攻擊模型,用于生成對抗代碼樣本,可以檢測code PLM中的漏洞。

講者:Chandan Reddy是弗吉尼亞理工大學計算機科學系的教授,他擁有康奈爾大學的博士學位和密歇根州立大學的碩士學位。他的主要研究興趣是機器學習和自然語言處理及其在醫療保健、軟件、交通和電子商務中的應用。他的研究得到了NSF、NIH、DOE、DOT和各種行業的資助。他在領先的會議和期刊上發表了160多篇同行評議的文章。他的研究工作獲得了多個獎項,包括2010年ACM SIGKDD會議的最佳應用論文獎,2014年IEEE VAST會議的最佳海報獎,2016年IEEE ICDM會議的最佳學生論文獎,并在2011年INFORMS Franz Edelman Award競賽中入圍。他是ACM TKDD、ACM TIST和IEEE大數據期刊的編輯委員會成員。他是IEEE的高級成員和ACM的杰出成員。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。

本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?

//normalization-dnn.github.io

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司