大語言模型(LLMs)與知識表示學習(KRL)的整合,標志著人工智能領域的重要進展,增強了捕捉和利用復雜知識結構的能力。這種協同作用利用了LLMs的高級語言和語境理解能力,以提升KRL的準確性、適應性和效能,從而擴展其應用和潛力。盡管有越來越多的研究集中在將LLMs嵌入到知識表示領域,但關于這些增強模型基本組件和過程的徹底審查明顯缺乏。我們的綜述通過基于三種不同的Transformer架構對這些模型進行分類,并分析來自各種KRL下游任務的實驗數據,以評估每種方法的優勢和劣勢。最后,我們確定并探討了這一新興但尚未深入探討的領域的潛在未來研究方向,提出了持續進展的路徑。
介紹
大語言模型(LLMs)(例如,BERT [18],LLaMA [59]),代表了一個不斷增長模型大小的方向,這些模型在更大的語料庫上進行預訓練,已經展示出在解決自然語言處理(NLP)任務中的強大能力,包括問答 [99],文本生成 [100] 和文檔理解 [101]。關于模型大小,沒有明確和靜態的閾值。早期的LLMs(例如BERT,RoBERTa)采用了編碼器架構,并展示了在文本表示學習和自然語言理解方面的能力。近年來,更多的關注點轉向了更大的編碼器-解碼器 [102] 或僅解碼器 [103] 架構。隨著模型大小的增加,這些LLMs還展示了推理能力甚至更高級的新興能力 [104],展示出對人工通用智能(AGI)的強大潛力。
這個拐點,隨著LLMs的到來,標志著從顯式知識表示向重新關注顯式知識和參數化知識混合表示的范式轉變。作為顯式知識表示的一種流行方法,知識圖譜(KGs)現在被廣泛研究,用于與基于Transformer的LLMs結合,包括預訓練的掩蔽語言模型(PLMs)如BERT和RoBERTa,以及更近期的生成式LLMs如GPT系列和LLaMA。一些工作利用LLMs來增強知識圖譜表示學習。在這篇綜述中,考慮到三個方向,即基于編碼器的方法、基于編碼器-解碼器的方法和基于解碼器的方法。我們對從顯式知識表示向重新關注顯式知識和參數化知識混合表示的轉變有了更深入的理解。
Cao等人 [22] 和Biswas等人 [40] 討論了知識圖譜表示學習的最新進展,但他們對與大型模型整合相關的方面處理不足。Pan等人 [42] 和Pan等人 [43] 探討了知識圖譜與大型模型的結合,特別是LLM4KG和KG4LLM;然而,他們在表示學習方面的覆蓋有限。因此,目前還沒有專門概述知識圖譜表示學習領域最新發展的綜述文章。
貢獻 本綜述的顯著貢獻總結如下:
組織結構 本綜述的結構如下:
近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。
我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。
大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。
人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:
本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。
外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。
通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。
本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。
本綜述的貢獻。我們的綜述的主要貢獻包括:
-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。
本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
在過去的一年中,多模態大型語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中表現出色。然而,龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此,研究高效且輕量級的MLLMs具有巨大的潛力,特別是在邊緣計算場景中。在這篇綜述中,我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說,我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后,我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。
大規模預訓練作為人工智能(AI)領域的一種領先方法,使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型(LLM)的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此,多模態大型語言模型(MLLMs)應運而生,包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識,繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力,展示了許多顯著特性,如強大的語言生成和遷移學習能力。此外,通過與其他基于模態的模型建立強大的表示連接和對齊,MLLMs能夠處理來自多種模態的輸入,顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律:隨著數據、計算能力或模型規模等資源的增加,AI模型的性能會提高。然而,可擴展性伴隨著高資源需求,這阻礙了大型模型的發展和部署。例如,MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外,推理也是MLLMs資源消耗的主要部分。考慮一個典型場景,模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示,使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂,因為當前主流的MLLMs,如GPT-4V和Gemini,由少數幾家主導企業控制,并在云端運行。如上述實驗所示,即使是開源的MLLMs,對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。
鑒于這些挑戰,高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗,擴大其適用性,同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型,并進行典型的視覺指令微調。隨后,研究進一步通過以下方式增強了能力并擴展了用例:(1)引入更輕量的架構,注重效率,旨在減少參數數量或計算復雜度[25, 13, 18];(2)開發了更專業的組件,聚焦于高級架構的效率優化或賦予特定屬性,如局部性[19, 17, 12];(3)支持資源敏感任務,一些工作采用視覺token壓縮來提高效率,使MLLM的能力能夠轉移到資源密集型任務中,如高分辨率圖像和視頻理解[35, 39, 14, 40]。
在本綜述中,我們旨在呈現快速發展的高效MLLMs領域的最新進展,如圖2所示。我們將文獻組織成六個主要類別,涵蓋高效MLLMs的各個方面,包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架,以降低計算成本。該架構由多個基于模態的基礎模型組成,具有不同于單模態模型的特征,從而促進了新技術的發展。
Efficient Vision 探討優化高效視覺特征提取策略,強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。
Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡,并提出了平衡這些競爭因素的有前景途徑。
Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰,以實現最先進的結果。
Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡,同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。
Application 研究高效MLLMs在各個領域的實際影響,強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務,本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。
總之,這篇綜述深入探討了這些研究工作,探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史,提供了高效MLLMs策略的分類法,并全面比較了現有高效MLLMs的性能。通過這一探索,我們希望提供對當前最先進技術的全面理解,從而揭示這一新興領域的復雜細微之處。此外,這篇綜述還充當了路線圖,突出了未來研究的潛在途徑,促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述,我們還建立了一個GitHub倉庫,收錄了綜述中提到的論文,并按照相同的分類法進行整理,地址為:
按照標準的MLLM框架,高效MLLMs可以分為三個主要模塊:視覺編碼器g,負責接收和處理視覺輸入;預訓練語言模型,管理接收到的多模態信號并進行推理;視覺-語言投影器P,作為連接兩種模態的橋梁。為了提高通用MLLMs的效率,主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結,包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括:MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中,我們將按順序全面概述這三個模塊以及其他高效組件。
Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而,隨著ViT模型規模的增長,可訓練參數和操作數量也隨之增加,影響了它們的部署和性能。此外,自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95],本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。
自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。
軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。
論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么?
(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR?
(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進?
總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合?
(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。
人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。
1 引言
在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。
作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。
因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。
1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。
1.2 人類反饋強化學習的起源
作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。
從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。
由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。
1.3 綜述范圍
本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。
獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。
人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。
互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。
1.4 先前的綜述
根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。
強化學習是一種從試錯過程中發現最優行為策略的技術,已經成為解決環境交互問題的通用方法.然而,作為一類機器學習算法,強化學習也面臨著機器學習領域的公共難題,即難以被人理解.缺乏可解釋性限制了強化學習在安全敏感領域中的應用,如醫療、駕駛等,并導致強化學習在環境仿真、任務泛化等問題中缺乏普遍適用的解決方案.為了克服強化學習的這一弱點,涌現了大量強化學習可解釋性(Explainable Reinforcement Learning,XRL)的研究.然而,學術界對XRL尚缺乏一致認識.因此,本文探索XRL的基礎性問題,并對現有工作進行綜述.具體而言,本文首先探討了父問題——人工智能可解釋性,對人工智能可解釋性的已有定義進行了匯總;其次,構建了一套可解釋性領域的理論體系,從而描述XRL與人工智能可解釋性的共同問題,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性;然后,根據強化學習本身的特征,定義了XRL的三個獨有問題,即環境解釋、任務解釋、策略解釋;之后,對現有方法進行了系統的歸類,并對XRL的最新進展進行綜述;最后,展望了XRL領域的潛在研究方向.
//www.jos.org.cn/jos/article/abstract/6485
人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體策略[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表 現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫 療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.
強化學習(Reinforcement Learning, RL)被驗證適用于復雜的環境交互類問題[6]-[8] ,如機器人控制[9] ,游 戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨著缺乏可解釋性的問題,主要表現在如下 4 個方面:
(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 策略難以保證其可靠性,存在安全隱患.這一問題 在安全敏感任務(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來的危險,RL 在安全敏感 任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;
(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單游戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過擬合. 當過擬合發生時,模型學到環境的背景信息,而非真正的知識.這導致了兩難的問題,一方面,在真實世 界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環境中訓練的模型學到了真實的規律.
(3) 相似任務的策略泛化困難.RL 策略通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的 環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以確定模 型在相似任務中的表現.
(4) 對抗攻擊的安全隱患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過將微小的惡意擾 動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型 而言,對抗樣本會使模型的輸出產生極大的偏差.對抗攻擊從深度學習擴展到 RL[15] [16] ,成為 RL 算 法的安全隱患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模 型并未學到真正的知識.
解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學的知識,便于 通過人的經驗驗證模型是否學到魯棒的知識,從而使人高效地參與到模型的設計和優化中;對于特定領域的專 家使用者,解釋提供模型的內部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域內的實 踐.對于普通用戶,解釋呈現模型的決策的原因,從而加深用戶對模型的理解,增強用戶對模型的信心.
強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型理解,優化模型性能,從而解決上述缺乏可 解釋性導致的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.
一方面,XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找 等,其特點是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算 法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法 關注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過程 必然伴隨對模型策略的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一致性;最 后,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下相互轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直觀的展示輸入和輸出之間的邏輯關系,但面對由 大量簡單結構組成的龐大模型,其錯綜復雜的邏輯關系仍然導致模型的整體不可理解.同時,雖然結構復雜的模 型(如神經網絡)通常難以被理解,但當模型被極致約減時(如將神經網絡塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。
另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體策略三個關鍵因素組成,因此, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏 對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨復雜任務時,缺乏對環境內部 規律的理解,導致對環境狀態進行抽象時忽略有利信息,使智能體難以學到真實的規律;缺乏對任務的解釋使任 務目標與過程狀態序列之間的關聯不明確,不利于智能體策略與環境的解耦合,影響強化學習智能體策略在相 似任務或動態環境中的泛化能力.因此,對環境、任務和策略的解釋存在強關聯,是實現強化學習解釋必然面臨 的問題.
目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性 問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然后, 分析 XRL 與 XAI 的共同問題,構建出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋 的含義、討論影響可解釋性的因素、劃分解釋的直觀性;其次,探討 XRL 問題的獨特性,提出包括環境解釋、任 務解釋和策略解釋的三個 XRL 領域的獨有問題;隨后,對現有 XRL 領域的研究進展進行總結.以技術類別和解 釋效果為依據將對現有方法進行分類,對于每個分類,根據獲取解釋的時間、解釋的范圍、解釋的程度和 XRL 的獨有問題,確定每類方法的屬性;最后,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的 評估標準兩個方向進行展開.
1 人工智能可解釋性的觀點總結
對 XRL 的研究不能脫離 XAI 的基礎.一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,因此 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論 較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義.基于上述原因, 本文從 XAI 的角度探討可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎.
雖然學者們從不同角度對 XAI 的定義在特定情況下指導著一類研究.然而,缺乏精確而統一的定義使得學 術界對 XAI 的認識存在一定差異.本文對 XAI 相關的定義進行總結,并將其分為形而上的概念描述、形而下的 概念描述兩類.
形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] .這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等.其中可信性意味著人以較強的信心相信模型所做的決定,而可 靠性意味著模型不同場景下總是能保持其性能.雖然這樣抽象的概念不夠精確,只能產生直觀的解釋,但仍然可以使人準確了解可解釋性的目標、對象和作用,建立對可解釋性的直覺認知.這些概念表明,可解釋性算法具備 兩個關鍵實體,即人和模型.換而言之,可解釋性是一項以模型為對象,以人為目標的技術.
形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義.如 Páez 等人[17] 從哲 學角度出發,認為解釋所產生的理解并不完全等同于知識,同時理解的過程也不一定建立在真實的基礎上.我們 認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或構建虛擬邏輯的方式,增強人對模型的理解.同 時,人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進行符合認知 的預測. Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學映 射. 一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是將這樣的數學映射以人類可理解和 研究的方式展現出來.雖然數學映射也是人們為描述世界而創造的一種方式,但對于復雜的數學映射(如用于表 示神經網絡的高維多層嵌套函數),人們卻無法將其與生活中的直觀邏輯相聯系. Tjoa 等人[19] 認為,可解釋性 是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導.這一解釋也 基于數學表達,反映出人們更多地通過模型的決策模式來理解模型,而非數學上的可重現性.
一些觀點與上述文獻存在微小出入,但仍具有借鑒意義.例如,Arrieta 等人[21] 認為可解釋性是模型的被動 特征,指示模型被人類觀察者理解的程度.這個觀點將模型的可解釋性視為被動特征,忽略了模型為了更強的可 解釋性而主動提出解釋的可能. Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式.這一觀點 傾向于關注模型的結果,其目的是為了確保模型一貫的性能.然而該描述忽略了一個事實,即模型本身意味著知 識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發 展.雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個特性,而評 估模型的性能是解釋的重要功能.
雖然對 XAI 的定義眾多,但就整體而言,學術界對 XAI 的基本概念仍然是一致的.本文嘗試提取其中的共 性作為研究 XRL 問題的理論基礎.通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:
(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目標的技 術; (2) 解釋作為理解的媒介存在,該媒介可以是真實存在的事物,也可以是理想構建的邏輯,亦或是二者并 舉,達到讓人能夠理解模型的目的; (3) 人的對模型的理解不需要建立在完全掌握模型的基礎上; (4) 可準確重現的數學推導不可取代可解釋性,人對模型的理解包括感性和理性的認知; (5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能.
2 強化學習可解釋性與人工智能可解釋性的共同問題
在對 XAI 定義進行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問題.由于 XRL 與 XAI 之間存在強 耦合,因此本節內容既適用于 XAI,同時也是 XRL 的基礎問題.
2.1 智能算法和機械算法界定
可解釋性的對象是智能算法而非機械算法.傳統認知中的機械算法,如排序、查找等,面對確定的任務目標, 同時具有固定的算法程序.強化學習作為一種智能算法,在與環境動態交互的過程中尋找最優的策略,最大化獲 得的獎賞.界定智能算法和機械算法可用于確定被解釋的對象,進而回答“什么需要被解釋”的問題.一方面,智能 算法與機械算法存在差異,而解釋只在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其 所有過程產生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀態轉移等.因此,在討論 可解釋性問題前,有必要區分智能算法和機械算法.
本文根據算法對已知條件的獲取程度和建模的完整性,定義“完全知識”和“完全建模”:
完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;
完全建模:進行完整的問題建模,具備完成任務所需的計算能力;
完全知識是以機械方法確定最優解的前提.例如,求解系數矩陣的秩為 的線性方程組,完全知識表示其增 廣矩陣的秩大于等于系數矩陣的秩,此時可以根據當前知識,獲得確定的解或者確定其無解;完全建模意味著對 現有知識的充分利用,換言之,完全建模從建模者的角度出發,表示在解決任務的過程中有能力(包括程序設計 者的設計能力和硬件的算力)利用所有的知識.例如,在 19×19 圍棋游戲中,存在理論上的最優解法,但目前尚不具備足夠的計算能力在有限時間內獲取最優解.
根據上述對完全知識和完全建模的定義,本文進一步提出“任務完全”的概念來確定機械算法與智能算法 之間的邊界:
任務完全:對特定任務,具備完全知識并進行完全建模.
任務完全必須在完全知識的前提下進行完全建模.滿足任務完全的條件后,算法的優劣取僅決于建模方式 和使用者的實際需求.任務完全的定義考慮了知識和建模兩方面因素(圖 1).
任務完全的概念可以用來區分機械算法和智能算法.機械算法是任務完全的,具體來說,算法已知足夠的 知識,并進行了無簡化的建模.此時,算法具備獲取最優解的條件,因此算法的過程是確定的,獲得的解也是可預期的.例如,經典排序算法、傳統數據查詢、3×3 井字棋游戲算法等都屬于機械算法.智能算法是任務不完全的, 這意味著算法不具備足夠的知識,或者采取了簡化的建模方式.智能算法無法直接獲取最優解,通常在解空間中 尋找較優的解.如基于貪心策略的算法,線性回歸方法,19×19 傳統圍棋策略,機器學習類算法等。
導致任務不完全的可能有二,即知識不完全和建模不完全.在知識不完全的情況下,算法無法直接確定最 優解,因此只能在解空間中逼近最優解.此時,智能算法的實際作用是在解空間中進行解的選擇.導致知識不完 全的因素通常是客觀的,如環境狀態無法被完全觀測,任務目標不可預知,任務評價指標的不可知,任務始終點 不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過程沒有充分利用知識,從而無法獲得 最優解.建模不完全的原因有客觀和主觀兩方面,客觀原因如建模偏差,不完全建模等,主觀原因包括降低硬件 需求,模型提速等.在強化學習中,并非所有過程具備任務不完全的特點,因此只有部分需要進行解釋,如策略生 成、環境狀態轉移等.
2.2 對“解釋”的定義
在漢語詞典中,解釋有“分析、闡明”的含義.這不僅符合生活中對該詞的理解,同時也與可解釋性研究中“解 釋”的含義相近.然而,具體到可解釋性的研究中,這一含義顯得寬泛.我們希望結合對可解釋性的理解,細化“解 釋”的含義,使之具有更強的指導意義.以強化學習模型為例,模型學習使獎勵最大化的策略,其中包含著環境、獎 勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來.本文將多個知識視為集合,稱 為知識體系,從知識體系相互之間關系的角度,對“解釋”做出如下定義:
解釋:知識體系之間的簡潔映射.簡潔映射是在不引入新知識的條件下對目標知識進行表達;
具體來說,解釋是將基于原知識體系的表達轉換為目標知識體系表達的過程,這個過程僅使用目標知識體 系的知識,而不引入新的知識.而 XRL 算法的目的在于產生解釋,從而使原知識體系能夠被目標知識體系簡潔 的表達出來.在 XRL 中,原知識體系通常指代強化學習模型,而目標知識體系通常指人的認知,模型和人是可解 釋性的兩個關鍵實體.本文將原知識體系看作由多個元知識及其推論構成的集合.以 表示元知識, 表示知識 體系,則 .假設智能體習得的知識屬于知識體系 ,而人類能夠理解的知識屬于知識體系 ,則解釋 是將知識體系 轉換為知識體系 表達的過程.對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋 本身的被理解難度,進而導致解釋本身讓人無法理解(見 2.3 ).
在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目標知識體系進行描述,這時只有部分 知識可以被解釋.本文使用“完全解釋”和“部分解釋”的概念描述這一情況:
完全解釋:待解釋的知識完全被目標知識體系表達.其中,被解釋的知識屬于目標知識體系是其必要條件;
部分解釋:待解釋的知識的部分被目標知識體系表達.
具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2).只有當待解釋的知識體系完全 被目標知識體系所包含時,才可能進行完全解釋,否則只能進行部分解釋.在 XRL 中,完全解釋通常是不必要的.
一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實現對 模型的解釋通常不需要建立在對模型完全掌握的基礎上.因此,部分解釋是大部分可解釋性研究中采用的方法, 即只描述算法的主要決策邏輯.
2.3 可解釋性的影響因素
一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性產生了短板,導 致 ML難于解釋,因此 ML 解釋的本質是對深度學習的解釋[21] .這與可解釋性領域的認知相悖[28] .這一觀點只 關注模型而忽略了人在可解釋性中的地位.對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度 時,仍然會導致整體的不可理解.本文對可解釋性的影響因素進行如下定義:
透明度:待解釋模型結構的簡潔程度;
模型規模:待解釋模型包含的知識量和知識組合多樣化程度;
本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述.透明度和模型規模是影響可解釋性的兩 個主要因素.具體來說,可解釋性強意味著同時具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低 將導致模型的弱可解釋性(圖 3).
在不同語境下,“透明”一詞具有不同的含義.例如,在軟件結構中,透明指的是對底層過程的抽象程度,意味 著上層程序無需關注底層的實現.類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明 度是模型可以被理解的程度,將透明度與可解釋性等價.以強化學習為例,基于值表的強化學習算法在規模一定 時通常具有更強的可解釋性,而使用深度學習擬合值表則可解釋性更弱,這是因為通過查詢值表而產生策略的 過程符合人的直觀理解,但神經網絡傳播過程僅在數學上可被準確描述,于人而言透明度更低.然而,這一思考 將構建模型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目標—— 人.因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡潔程度.
模型規模從人理解能力的角度衡量解釋的難度.具體來說,假設模型中的知識由一系列元知識構成,則模 型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模 超過特定范圍(人的理解能力)時模型將無法被理解.例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過 程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的.然而,當模型規模逐漸 龐大時,各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無法抓住其主從關系.對于以簡潔 結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類的理解能 力,導致系統整體將仍然不具備可解釋性.
2.4 可解釋性的程度劃分
人的學習過程與強化學習過程存在一定的相似性,因此,如果將人腦看作目前最先進的智能模型,則人對 模型的理解不僅僅是人對模型的直觀感受,也是一個先進的智能體對強化學習模型的綜合評估.然而,一個無法 理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介.作為人和模型之間媒介,可解釋性算 法不同程度的具備兩個相互平衡特點:接近模型和接近人的感知.具體來說,不同的解釋有的更注重準確的描述 模型,而另一些更注重與人的感知一致.基于這一概念,本文將可解釋性分為如下三個層次:
(1) 數學表達: 通過理想化的數學推導解釋模型.數學表達是使用數學語言簡化模型的表達.由于強化學 習模型建立在數學理論的基礎上,因此通過數學表達可以準確地描述和重構模型.雖然數學理論體 系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異.以深度學習為例,雖然存 在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的.因此,數學的表 達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;
(2) 邏輯表達: 通過將模型轉換為顯性的邏輯規律解釋模型.邏輯表達是對模型中主體策略的提取,即忽 略其細微分支,凸顯主體邏輯.一方面,邏輯表達保留了模型的主體策略,因此與模型真實決策結果相 近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知.邏輯表達是較 為直觀的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般用戶尚不夠直觀;
(3) 感知表達: 通過提供符合人類直覺感知的規律解釋模型.感知表達基于模型生成符合人類感知的解 釋,由于不需要人具備特定領域的知識,因此易于理解.例如,可視化關鍵輸入、示例對比等解釋形式 都屬于感知表達的范疇.然而,感知表達通常是對模型策略的極大精簡,因為無法重現模型的決策,導 致其只解釋決策的合理性.
在可解釋性的三個層次中,數學表達作為第一個層次,也是構建強化學習算法的理論基礎.在已知模型所 有參數的情況下,數學表達通常可以較為準確的推斷出模型的結果,然而,數學上的合理性不意味著能被人所理 解;邏輯表達介于數學表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產生的解釋通常要求用戶具 備特定領域的專業知識;感知表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結 果易于理解,但已經不具備重構策略的能力.總而言之,不同的解釋在接近模型和接近人類感知之間存在著平 衡,難以兼顧.
3 強化學習可解釋性的獨有問題
與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成.其中,環境為給定的具有一定內部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系 列行為之間的關聯.根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解 釋,策略解釋.三個獨有問題之間存在著密切的關聯,與整個強化學習過程密不可分,是實現強化學習解釋直接 面臨的問題.
4 強化學習可解釋性研究現狀
由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導致所提出的方法具有較大差異.因此,本節分兩步 對相關方法進行總結.首先,根據技術類別和解釋的展現形式,將現有方法分為視覺和語言輔助解釋、策略模仿、 可解釋模型、邏輯關系提取和策略分解五個類別.然后,在通用分類方法(即獲取解釋的時間、解釋的范圍)的基 礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),確定不同類別方法的屬性.
在可解釋性領域中,分類通常基于獲取解釋的時間和解釋的范圍兩個因素[31] .具體而言,根據獲取解釋的 時間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋.固有解釋通過限制模型的表達,使模型在運 行時生成具備可解釋性的輸出.例如,基于較強可解釋性的原理和組件(決策樹、線性模型等)構造模型,或者通過 增加特定過程使模型生成可解釋性的輸出;事后解釋是通過對模型行為的分析,總結模型的行為模式,從而達到 解釋的目的.通常而言,固有解釋是策略產生過程中的解釋,特定于某個模型,而事后解釋是策略產生后的解釋, 與模型無關.根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微 觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲 得對模型的解釋.
除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感知的符合程度,將可解釋性方法分為數學 表達、邏輯表達和感知表達三類(見 2.4 ).這三類可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模 型結果的近似程度和解釋的直觀度等方面的區別.前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和策略解釋.目前,單個 XRL 方法難以同時解決三類問題,因此,我們也以此為依據,對當前 XRL 方法所 著眼的問題進行區分.
綜上所述,本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關鍵問題”為依據,對 XRL 方法 進行分類(見表 1).由于算法多樣,表 1 僅顯示大類別算法的特點,部分算法可能不完全符合
總結
本文以 XRL 的問題為中心,討論了該領域的基礎問題,并對現有方法進行總結.由于目前在 XRL 領域,乃至 整個 XAI 領域尚未形成完整、統一的共識,導致不同研究的基礎觀點存在較大差異,難于類比.本文針對該領域 缺乏一致認知的問題,進行了較為深入的研究工作.首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域 的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,討論 XAI 與 XRL 面臨的共同 問題;然后,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最后,總結了相關的研究方法,并對相關方法進 行分類.分類中包括作者明確指出為 XRL 的方法,也包括作者雖未著重強調,但實際對 XRL 有重要意義的方法. XRL 目前尚處于初步階段,因此存在大量亟待解決的問題.本文重點提出環境和任務的解釋、統一的評估標準 兩類問題.本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域.