如今,現實世界的應用經常面臨著流數據,這要求學習系統在數據演變時吸收新知識。持續學習(CL)旨在實現這一目標,同時在學習新知識時克服對既有知識的災難性遺忘。典型的CL方法從頭開始構建模型,以適應不斷涌入的數據。然而,預訓練模型(PTM)時代的到來激發了巨大的研究興趣,特別是在利用PTM的強大表示能力進行CL方面。本文提供了一項關于基于PTM的CL的最新進展的全面綜述。我們將現有方法分為三個不同的組別,并提供了它們的相似性、差異性以及各自的優勢和劣勢的比較分析。此外,我們提供了一個實證研究,對比各種最新的方法,以突出比較中的公平性問題。要重現這些評估的源代碼可在以下地址獲取://github.com/sun-hailong/LAMDA-PILOT。
隨著深度神經網絡的快速發展,深度學習模型在各種應用中展現出了令人期待的結果 [He等人,2016年;Chao等人,2020年;Yang等人,2015年;Ye等人,2021年;Ning等人,2022年]。然而,現實世界的場景往往以流數據的形式呈現。例如隱私問題 [Ning等人,2023年] 和存儲限制阻止了流數據的永久保留,這就需要一個能夠持續適應和進化的學習系統,這個過程被稱為持續學習(CL)[van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。CL中的一個關鍵問題是災難性遺忘的現象,即獲得新知識導致在以前學過的任務上的性能顯著下降 [McCloskey和Cohen,1989年]。眾多研究致力于在CL內部解決這一問題 [Gunasekara等人,2023年;Wang等人,2023d;Wang等人,2023a;Wang等人,2023c;Zhuang等人,2022年;Zhao等人,2021年;Liu等人,2024年;Zhou等人,2023b]。 傳統的CL方法從“零開始訓練”的模型開始,即從隨機初始化的權重開始。然而,預訓練技術的蓬勃發展開辟了新的途徑。利用預訓練模型(PTMs),這些模型是從大量數據集和復雜技術 [Steiner等人,2021年] 開發而來,對CL展示了巨大的潛力。這些PTM本質上具有對各種下游任務的強大泛化能力,使基于PTM的CL成為一個日益流行的話題。 圖1展示了基于PTM的持續學習方法與傳統持續學習方法之間的區別。兩種方法都在數據流中使用CL模型來適應一系列即將到來的任務。目標是讓模型在吸收新信息的同時保留之前獲得的知識。這需要在學習每個新任務后評估模型在所有遇到的任務上的表現。基于PTM的CL與傳統CL之間的主要區別在于CL模型的初始設置。基于PTM的策略從一個大規模的預訓練模型開始,而傳統方法從零開始訓練一個模型。這種差異可以類比為人類學習:傳統方法類似于訓練一個嬰兒成長并獲得新知識,而基于PTM的方法類似于利用成人的專業知識來完成相同的學習任務。 在這個快速發展的領域中,現有關于CL的綜述主要關注不包括預訓練模型的典型算法 [van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。然而,在當前的PTM時代,基于PTM的CL正成為一個中心關注領域。觀察表明,基于PTM的CL的性能正在接近持續學習潛力的上限 [Zhou等人,2023a],表明這是一個有前途的實際應用領域。因此,迫切需要對基于PTM的CL進行一次全面、最新的綜述,以推進CL領域的進步。我們綜述的具體貢獻如下: 1. 我們提出了第一個全面的關于基于預訓練模型的持續學習最新進展的綜述,包括問題定義、基準數據集和評估協議。我們根據這些方法的定義特征,將它們系統地分類為三個子類別,提供了一個全面和結構化的主題概述。 1. 我們的評估擴展到每個子類別中的代表性方法在七個基準數據集上。此外,我們識別了一個可能影響基于PTM的持續學習中比較公平性的關鍵因素,為方法論評估提供了見解。 1. 我們突出了基于PTM的持續學習中當前的挑戰和潛在的未來方向。我們打算揭示未經充分研究的方面,以激發進一步的調查,探索這個領域內各種可能的路徑及其相互關系。
基于PTM的持續學習 我們將當前基于PTM的CL研究分類為三個類別,這些類別基于不同的理念來解決學習問題,即基于提示的方法、基于表示的方法和基于模型混合的方法。這些類別利用預訓練模型的不同方面來促進持續學習。例如,考慮到PTM的強大泛化能力,基于提示的方法會采用提示調整 [Jia等人,2022年] 來進行PTM的輕量級更新。由于預訓練的權重保持不變,PTM的泛化能力可以被保留,從而緩解了遺忘。類似地,基于表示的方法直接利用PTM的泛化能力來構建分類器。最后,基于模型混合的方法在學習過程中設計了一組模型,并利用模型合并、模型集成和其他混合技術來得出最終預測。 我們展示了基于PTM的CL的分類法,并在圖2中列出了代表性的作品。在接下來的部分中,我們將介紹每個類別,并深入討論它們的優點和缺點。
大模型在人工智能領域取得了革命性的突破,但它們也可能帶來潛在的擔憂。為了解決這些擔憂,引入了對齊技術,以使這些模型遵循人類的偏好和價值觀。盡管過去一年取得了相當大的進展,但在建立最佳對齊策略時仍然存在各種挑戰,例如數據成本和可擴展的監督,如何對齊仍然是一個懸而未決的問題。在這篇綜述文章中,我們全面調查了價值對齊方法。我們首先解析對齊的歷史背景,追溯到20世紀20年代(它來自哪里),然后深入探討對齊的數學本質(它是什么),揭示了固有的挑戰。在此基礎上,我們詳細檢查了現有的對齊方法,這些方法分為三類:強化學習、監督式微調和上下文內學習,并展示了它們之間的內在聯系、優勢和限制,幫助讀者更好地理解這一研究領域。此外,還討論了兩個新興主題:個人對齊和多模態對齊,作為該領域的新前沿。展望未來,我們討論了潛在的對齊范式以及它們如何處理剩余的挑戰,展望未來對齊的方向。
大模型,是指在大量數據上訓練并包含超過數十億參數的神經模型(Bommasani et al., 2021),通常包括大型語言模型(LLMs)和大型多模態模型(LMMs)。LLMs 通常是基于Transformer(Vaswani et al., 2017)的大規模語言模型,以自回歸方式訓練(Zhao et al., 2023a),如GPT-3(Brown et al., 2020)、PaLM(Narang and Chowdhery, 2022)、ChatGPT(Ouyang et al., 2022)、Bard(Aydin, 2023)和LLaMA(Touvron et al., 2023a)。LLMs 的卓越能力也促進了LMMs 的發展,LMMs 能夠處理圖像(視覺)和自然語言文本(語言)(Dirik and Paul, 2023),如PaLM-E(Driess et al., 2023)、LLaVA(Liu et al., 2023c)、DALL-E 3(Betker et al., 2023)和Gemini(Team et al., 2023)。與小模型(Cho et al., 2014;Devlin et al., 2018)不同,大模型展示了兩個獨特特征:規模化法則(Kaplan et al., 2020),闡明了模型規模增長與性能改進之間的一致關系,以及新興能力(Wei et al., 2022a)顯示,當模型規模超過某一閾值時,意外地出現了在小模型中未觀察到的新能力,如上下文內學習(Wang et al., 2023a)、指令跟隨和跨多種任務和領域的逐步推理(Wei et al., 2022b),革新了AI的角色。因此,語言模型(LMs)經歷了逐步的演化,從統計語言模型(SLMs)(Pauls and Klein, 2011)和神經語言模型(NLMs)(Cho et al., 2014)開始,進步到預訓練語言模型(PLMs)(Devlin et al., 2018;Radford et al., 2019),最終導致LLMs的復雜出現。沿著這樣的軌跡,LLMs 也通過整合大規模圖文對和精心設計的目標進行預訓練,建立這兩種模態之間的內在聯系(Dosovitskiy et al., 2020;Liu et al., 2021)。這些大模型已經演變成各種變體,如圖1所示,深刻影響了多個行業和領域,根本性地改變了我們解決實際問題的方式。 然而,每枚硬幣都有兩面。由于大模型通常是在從互聯網爬取的數據集上預訓練的,它們也可能內化風險信息并引發一些潛在的擔憂(Tamkin et al., 2021; Bender et al., 2021; Kaddour et al., 2023),包括產生社會偏見(Sheng et al., 2019)、有害語言和排斥(Gehman et al., 2020)、錯誤信息(Bommasani et al., 2021)和社會經濟傷害(Weidinger et al., 2022),對社會造成深遠的影響。此外,觀察到兩個風險特征,(1)逆規模化:某些風險可能不僅僅是保持不變,而且隨著模型規模的增加而惡化(McKenzie et al., 2023),(2)新興風險:未見的風險可能出現或顯著放大的現有風險隨著更大的模型而出現(Wei et al., 2022a),使得之前建立的特定風險方法難以處理迅速出現的潛在問題。對這些倫理和社會風險給予極高的重視是至關重要的。低估這些風險可能會導致嚴重的后果。例如,可能煽動仇恨或暴力的有害語言,可能導致財產損失的私人數據泄露,以及在敏感領域可能造成傷害的錯誤信息,例如不準確的法律或醫療建議(Weidinger et al., 2021)。
為了解決上述風險,研究人員開發了各種對齊方法,以使LLMs與人類指令、偏好和價值觀對齊(Ouyang et al., 2022; Liu et al., 2022; Rafailov et al., 2023)。在LMMs的背景下,"對齊"這一術語傳統上指的是不同模態之間的對齊,如視覺和語言(Jia et al., 2021; Radford et al., 2021)。然而,隨著LLMs中對齊技術的進步,現在它傾向于代表使LMMs對齊,以使它們遵循人類指令并完成多樣化的任務(Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023)。對齊的概念可以追溯到諾伯特·維納的表述,“我們最好確信放入機器中的目的是我們真正想要的目的”(Wiener, 1960),這被定義為“A試圖做H想要它做的事情”,其中A和H是現代AI研究中的兩個智能代理(Yudkowsky, 2016; Christiano, 2018)。隨后,對齊的研究在強化學習(RL)領域逐漸獲得重要性(Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018),并在大模型時代蓬勃發展(Kenton et al., 2021),培育了多樣化的生成模型和多模態模型,如圖1所示。良好對齊的AI代理,例如LLMs,不僅具有遵循用戶指令從而協助完成任務或回答問題的能力,還有避免生成攻擊性或歧視性內容的能力(Askell et al., 2021)。相反,未對齊的AI將會導致潛在風險,如真實性問題、錯誤信息、上癮和群體兩極分化(Zhuang and Hadfield-Menell, 2020; Pan et al., 2022),如前所述。
盡管近年來取得了顯著進展,但對大模型對齊的研究仍處于初級階段,理解這一主題仍存在許多模糊和困難。認識到對齊的重要性,本文致力于對現有對齊方法進行全面的綜述和分析,以促進人工智能與人類的共生未來。我們的范圍包括:i) 介紹對齊的歷史并詳述對齊的本質(第2節),ii) 回顧現有方法論并分析其優勢、劣勢和聯系(第3節),以及iii) 討論未來的挑戰和研究方向(第4節)。
對齊目標
在深入探討如何對齊之前,我們首先簡要介紹需要對齊的目標。對齊目標的討論源自于規范問題,即我們如何定義我們期望從人工智能中得到的目的?(Leike et al., 2018),這可以從兩個方面考慮(Gabriel, 2020):(1)規范方面:我們應該將什么目標編碼進人工智能中,以及(2)技術方面:我們如何形式化和建模這些目標。未能實現目標可能會導致人工智能尋找漏洞并以意料之外的方式實現目標,這被稱為規范游戲(Skalse et al., 2022)。從前者方面來看,對齊目標范圍從指令、意圖和偏好到利益、價值等(Gabriel, 2020)。另一個流行的目標是有益、誠實和無害(HHH)原則(Askell et al., 2021)。然而,大部分工作(Ouyang et al., 2022; Rafailov et al., 2023)強調對齊方法,而忽略了關于哪個目標最合適的分析。
良好對齊的模型能夠生成與這些確定的目標一致的內容。然而,由于評估者追求錯誤的目標、問題獎勵模型或策略(Casper et al., 2023),可能會出現錯位問題。錯位的模型可能會無意中導致意料之外或不希望的傷害和后果。例如,存在惡意使用的潛力,這些模型可能生成錯誤信息或歧視性和有害的內容(Brundage et al., 2018)。此外,即便是相當良好對齊的模型,也仍然可能展現出某些缺陷。它們可能產生幻覺(Ji et al., 2023),傳播偏見(Santurkar et al., 2023),并且容易受到如越獄(Li et al., 2023b)等對抗性攻擊的影響。
總體而言,實現對齊需要仔細考慮它們應該對齊的各種目標,解決潛在的錯位問題,并減輕這些模型可能具有的限制和脆弱性。
對齊方法
LLMs的對齊方法主要分為三種范式:基于強化學習的對齊(第3.1節)、基于監督式微調的對齊(第3.2節)和上下文內對齊(第3.3節)。在這一節中,我們將介紹和討論它們,以及個性化對齊(第3.5節)和LMM對齊(第3.4節),并建立它們與第2節中介紹的定義的聯系。所有類別的對齊方法都在附錄中的圖7中總結。
強化學習對齊
RLHF的理念最初在(Christiano et al., 2017)中被揭示,其中人類偏好是針對代理軌跡的片段表達的,用于深度強化學習,使得學習更復雜的行為成為可能。之后,Stiennon等人(2020)將RLHF技術應用于摘要任務中,并學習人類對不同摘要的偏好,從而顯著提高了質量。此外,Nakano等人(2021)提出了WebGPT,它在GPT-3上進行微調,并利用RLHF來提煉網頁導航和信息檢索的能力。這些早期使用RLHF的研究主要旨在提高模型性能,特別是在“有用性”或“誠實性”方面,可能忽略了“無害性”(HHH)(Askell et al., 2021)。這種失敗可能會導致LLMs與人類價值觀的錯位,導致模型輸出對用戶有害或不真實,如第1節所述。 為了減少這種傷害,InstructGPT(Ouyang et al., 2022)利用RLHF與用戶的意圖對齊,后者通過標記的模型響應來表示,以滿足HHH原則。RLHF技術直接催生了最成功的互動對話LLMs之一,ChatGPT,激發了對人工通用智能(AGI)的追求。
盡管RLHF的效果令人滿意,但它需要同時加載至少三個LLMs,即πθ、πSFT和R?,以及大量高質量的手動標記數據,D(x, yw, yl)。這帶來了無法承受的數據/訓練成本(RC3)。為了應對這一挑戰,提出了Constitutional AI(Bai et al., 2022b)以實現與人類標簽的對齊。這種方法類似于RLHF,但通過要求LLM生成并修正其響應來自動創建對(yw, yl)。這個框架促進了對齊的新方向,即基于AI反饋的強化學習(RLAIF)。隨后,開發了RLAIF的不同變體。Kim等人(2023)首先利用來自不同規模和提示的LLMs衍生的合成偏好數據來訓練獎勵模型。然后,他們自動生成高質量的示范用于SFT步驟,接著進行獎勵模型的RL調整。另一方面,為了提高RLHF的計算效率,Gulcehre等人(2023)提出了一種離線強化自訓練(ReST)方法。ReST從最新LLM策略中采樣多個響應以擴充訓練數據集(增長步驟),然后使用過濾后的數據通過離線RL目標對LLM策略進行微調(改進步驟)。
RLHF在實現相對良好的泛化方面已被證明是有效的,具有更好利用人類反饋信號的潛力。然而,它因訓練不穩定和高訓練/數據成本(RC3)而臭名昭著,這阻礙了RLHF進一步的適應性(RC2)和可擴展性(RC6)。此外,方程(7)中不同項之間的權衡是難以處理的(RC5),而RC4&7也仍未解決(Casper et al., 2023)。
考慮到SFT和RL的成本,以及大多數主流LLMs是黑盒的事實,基于微調的對齊方法變得越來越難以承擔或不可行。因此,另一種受歡迎的范式——基于上下文學習(ICL)的對齊——吸引了更多的注意。這種方法利用了LLMs在預訓練和指令調整階段獲得的龐大知識和遵循指令的能力。
多模態對齊
除了LLMs之外,大型多模態模型(LMMs)近年來也開啟了發展的新篇章,能夠同時處理多種模態,如圖像、視頻和文本,并學習從一種模態到另一種模態的映射(Liu et al., 2023c)。對LLMs的初步對齊成就表明了在多模態場景中進行對齊的潛力。具體來說,一系列工作整合了預訓練的視覺編碼器和LLM,并進行指令調整,以賦予LLM視覺問答(QA)能力,例如LLaVA(Liu et al., 2023c)、MiniGPT-4(Zhu et al., 2023)等(Li et al., 2023a;Gong et al., 2023;Dai et al., 2023)。LLaVA(Liu et al., 2023c)是將指令調整擴展到LLMs的第一步,它結合了CLIP的視覺編碼器和基于LLaMA的語言解碼器,并在GPT-4生成的多模態數據集上進行視覺指令調整。MiniGPT-4(Zhu et al., 2023)僅訓練單個投影層以將編碼的視覺特征與Vicuna語言模型對齊。經過在精選小數據集上的指令調整后,MiniGPT-4能生成更自然、更可靠的語言輸出。對于文本到圖像的任務,受LLMs中RLHF有效性的啟發,Lee等人(2023)提出了一種直接從人類反饋中學習的微調方法。該過程首先收集人類關于生成圖像是否與其輸入文本提示相對應的偏好數據,學習基于這些數據的獎勵模型,最后,使用獎勵加權似然最大化優化文本到圖像模型以實現對齊。為了與人類審美價值對齊,Wu等人(2023b)首先利用人類選擇的圖像微調CLIP模型作為偏好分類器。這個分類器用于為訓練數據集產生偽獎勵,進一步用于微調Stable Diffusion模型。訓練后的模型可以生成人類更偏好的更好審美質量的圖像。
多模態對齊目前處于其發展的非常初期階段,主要強調與人類指令的對齊,但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。
個性化對齊
在心理學領域,個性指的是構成個體獨特性的獨特特征、特質以及思想、感覺和行為模式的模式。由于個性在塑造人類行為中扮演著重要角色,過去幾十年提出了大量理論和模型來解釋和分類個性的不同方面(McAdams and Pals, 2006; Roccas et al., 2002; Maslow, 1958; Freud, 1975; Bandura and Walters, 1977)。隨著大型語言模型在自然語言處理(NLP)中的革命性出現,研究發現,大型語言模型在特定提示配置下可以模擬出可靠和有效的個性(Safdari et al., 2023; Hagendorff, 2023; Jiang et al., 2023),而且對于更大和經過指令微調的模型,LLMs模擬的個性可能更強(Safdari et al., 2023),這為個性化大型語言模型提供了支持。
結論
在這項工作中,我們深入探討了對齊的起源和本質,系統地介紹了其發展、目標、形式化和評估。我們還回顧了現有的對齊研究,并分析了每個范式是如何從原始形式衍生出來的,并建立了它們的內在聯系。通過對對齊進行全面分析并識別未來的挑戰和研究方向,我們旨在為大模型的對齊方法的理解和進步做出貢獻,指導這些人工智能系統不僅避免造成傷害,而且還意圖做出善舉,最終實現一個人工智能與人類共生的未來社會。
大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。
數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。
數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。
為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。
擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。
方法論
大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。
圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。
文本增強
文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。
配對數據增強
MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。
總結
在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。
人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。
1 引言
在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。
作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。
因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。
1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。
1.2 人類反饋強化學習的起源
作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。
從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。
由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。
1.3 綜述范圍
本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。
獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。
人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。
互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。
1.4 先前的綜述
根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。
最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。
新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。
本文的貢獻可以總結如下:
? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。
2. 預處理階段
在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。
圖的簡化 (Graph Reduction)
隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。
圖的增強 (Graph Augmentation)
在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)
通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)
眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)
標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)
在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)
推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)
在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。
最近的努力已經將大型語言模型(LLMs)與外部資源(例如,互聯網)或內部控制流(例如,提示鏈接)結合起來,用于需要定位或推理的任務。然而,這些努力大都是零散的,缺乏構建一個完整的語言智能體的系統框架。為了應對這一挑戰,我們借鑒了符號人工智能中智能體設計的豐富歷史,為新一波的認知語言智能體開發了一個藍圖。我們首先展示LLMs具有與生產系統相同的許多屬性,而最近為改進其定位或推理所做的努力反映了圍繞生產系統構建的認知架構的發展。接著,我們提出了“語言智能體的認知架構”(CoALA) ,這是一個概念框架,用于系統化地將基于LLM的推理、定位、學習和決策作為框架中語言智能體的實例化方法。最后,我們使用CoALA框架來突出顯示缺口,并提出實際的方向,以便在未來培養更有能力的語言智能體。
近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。
//ruder.io/recent-advances-lm-fine-tuning/index.html
在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。
如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。
標準的pre-train —— fine-tuning 場景
雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示: