亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅在參數量和預訓練語料庫規模上遠超前代模型,還通過大量高質量的人工標注數據進行微調,實現了革命性的性能突破。此類進展促使得企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。因此,數據集的建設與優化成為了人工智能領域的關鍵方向。本文對訓練大規模語言模型所需的預訓練數據和微調數據的現狀進行了總結,涵蓋了數據規模、搜集方式、數據類型及其特點、處理流程等,并對當前可用的開源數據集進行了梳理和介紹。

1 引言

在人工智能領域,語言模型的發展一直是推動技術進步的核心動力之一。語言模型的目標是通過模擬文本數據的生成概率,來實現對自然語言的理解和生成。最初的模型,如n-gram,依賴于統計分析來預測詞語序列,但這些模型難以捕捉復雜的語本依賴性,因此在處理復雜任務時表現有限。隨著深度學習技術的發展,特別是AlexNet在視覺識別領域的突破,神經網絡被引入到自然語言處理中。循環神經網絡(RNN)及其衍生的LSTM和GRU顯著提高了模型對序列數據的建模能力,使其能夠更好地建模語言中的時序特征和文本關系。然而,這些方法仍然依賴于傳統的監督學習范式,訓練數據規模普遍較小,大部分數據集的規模以MB為量級。 真正的革命來自于以Transformer為基礎的預訓練語言模型的推出。Transformer架構通過自注意力機制(Self-Attention)有效地捕捉長距離依賴關系,并且由于其高并行化特性,極大地提高了語言模型的訓練效率。這使得以大規模無標記文本作為訓練語料成為可能。GPT和BERT等模型以Transformer為基礎,加速了語言模型的迭代性能,將語言模型的“深度”推向了一個新的高度。 預訓練語言模型之所以強大,是因為它們能夠在未經過人工標注的大規模集群中自動學習豐富的特征。這些模型在預訓練階段以無監督大數據集發現和生成規律,并將其廣泛的預測能力擴展到眾多任務的表征能力。然而,預訓練模型的強大性能離不開高質量大數據的支持,微調階段在特定任務完成精調工作。因此,隨著各個領域的數據集進一步微調,模型模型的更好地適應特定應用需求。 2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅擁有遠超之前模型的參數量,且使用大規模高質量的人類標注數據對模型進行微調。ChatGPT革命性的性能突破讓企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。自此,數據集的建設和優化成為了人工智能領域未來發展的方向。在這個背景下,許多公司和組織參與到訓練數據的構建和優化工作中,而許多大規模模型語言集(如Baichuan、Qwen、Chatglm等)已經相繼開源,但其訓練數據幾乎完全保密。 模型訓練所涉及的語料的廣度和質量是其核心競爭力。當然,也有非常多的公司和組織把投入大量資源構建的數據集進行開源,為社區的發展做出貢獻。比如Together AI的RedPajama數據集或Hugging Face的Common Crawl數據。這些數據集中不僅標了降噪和不相關內容,還進行了結構化和標準化處理,使其適用于訓練所需高質量數據。 與此同時,盡管許多商業組織的預訓練數據與訓練語料已被開源,其他在語音和世界的被公開總量并不理想。此外,數據的提升和可視化。隨著模型的不斷增大。 未來的數據建設成為一種非常核心的關鍵要求。當前對前沿問題和數據資源的需求是快速且不斷增長的挑戰之一,而隨著對隱私問題和標準化的處理未來更需要建設和高質量基礎來推動數據。


2 預訓練數據

預訓練任務通過讓模型基于已有文本預測未知的Token,以此來學習語言結構和語義規則。自編碼訓練任務(如BERT)和自回歸訓練任務(如GPT)分別代表了兩種主要的方法。在ChatGPT發布后,自回歸訓練任務逐漸成為訓練大規模語言模型的主流方法。在預訓練過程中,模型通過估計預測Token的原始概率,逐步掌握文本的語法和語義,從而積累大量語言知識,提升文本理解和生成能力。核心機制在于,模型能夠通過預測文本的一部分,逐漸建立對整個文本結構的理解。此外,模型不僅能記住具體的單詞和短語,還能學習更高層次的語言結構和語義關系。這種能力對于生成連貫且有意義的文本至關重要,使得模型在實際應用中能夠提供更恰當的回答,上一文一致的回答。 預訓練數據集對于訓練模型理解和生成能力至關重要,是大規模語言模型開發的基礎。預訓練數據集通常來自人工標記,含有豐富的語言元素和復雜的結構。這種標注數據為模型提供了真實、自然的語言使用場景,使得模型學習到語言的本質特征和標準規則。預訓練語料的背景特征就是規模龐大。大規模的數據集能夠提供豐富的語言現象和多樣的上下文場景,使模型在訓練過程中接觸到各種語言結構、詞匯用法和語法規則。這種規模保證了模型可以捕捉到更廣泛的語言模式和關系,從而在多種任務中表現出色。 除了規模龐大,其第二個重要特性就是來源廣泛。預訓練語料涵蓋了從日常通信到專業學術的各種文本類型。這包括新聞報道、科學論文、文學作品等。這種多樣化的文本來源確保了模型能夠在不同的語境中靈活應用,既能理解口語的表達,也能處理學術術語和復雜的學術論述。模型通過在這些不同類型的文本中學習,可以獲得更全面的語言知識和更強的適應能力。 通過預訓練,模型能夠積累大量的背景知識,這使得它在面對新的任務時,能夠迅速適應并表現出色。預訓練就像是讓模型“打下上萬本書,見多識廣”,積累了豐富的知識儲備,而微調過程則是讓模型在特定領域進行專門訓練,以便更好地完成特定任務。此外,預訓練數據的多樣性和復雜性也意味著在預訓練過程中對數據的處理需要結合高度清洗和精細的標注。盡管如此,其中一些噪音可能是模型成長的營養劑,而非阻礙。例如別字、模棱兩可的語言、復雜的語音環境中學習,模型能夠得到更加健壯和靈活,能夠更好地處理實際應用中遇到的各種問題。

3 微調數據

微調過程是訓練語言模型不可或缺的一環,其目的是在于將模型從面向語言知識的通用訓練轉向面向具體任務的針對訓練。在預訓練階段,模型通過預測被掩碼的Token任務學習了大量的語言知識,使其具備理解和生成文本的能力。然而,這些知識是通用的,無法被直接應用于具體任務的實現。微調階段旨在針對特定任務的語料庫上進行訓練,使模型能夠學習到具體任務的需求和規則,從而將所學的語言知識和生成能力在應用任務中按特定任務。與預訓練階段相比,微調數據集通常是經過人工標記和精心設計的,記錄了特定任務中的輸入輸出對應關系或其他更精細的上下文標記,從而更有針對性和強關聯性。對不同讀懂程度任務,微調數據包括任務參考文本、問題和問題的答案。通過這個訓練,模型能夠學習到解決特定任務的特征和模式,從而將訓練階段學到的通用知識應用到特定任務中。 微調數據集在分布式配置中包含:命令類問題、機器翻譯、文本分類、自動問答等。這些任務需要語言模型學習更具體的問題解答能力,自動語言掌握模型的各種領域,知識儲備和生成能力的需求。然而,隨著ChatGPT的發布,人們發現,機器人語言模型在預訓練階段學到了更多的語言知識,獲得了更強的語言能力,便能設計話和領域解決語用中所有高表達意圖任務的各種應用任務。這些數據集使得模型在解決復雜多種問題中優化。 傳統微調數據有可能有各種形式,如文本大小(機器翻譯或其他文本類)等。但在傳統微調數據集基礎上強調對更高的基準結構變化而構建大規模系統。對于優化微調數據庫。

結尾:

主要任務包括指令集跟隨,日常對話、數學推理、代碼生成、醫療問答等。構建微調數據集的主要問題分為兩個方面,問題的收集和答案獲取。其構建方式大致可以分為以下幾種:人工撰寫、真實用戶對話、基于已有數據集的擴充、利用語言模型直接生成以及基于傳統數據集的改寫。下面介紹這幾種基本的數據構建方式。 4 總結 本論文概述了大語言模型在預訓練和微調階段的數據構建要點。在預訓練數據方面,英文數據在 數量和質量上優于中文數據,成為訓練英文大語言模型的有力資源,而中文數據因網頁資源有限、學 術數據匱乏、社交媒體平臺閉源等因素受限。中文領域開源數據集的缺乏,也阻礙了中文大語言模型 的發展,盡管模型可以通過英文數據學習多語言能力,但中文特有的知識和文本風格仍難以完全涵 蓋。此外,數據隱私與開放性之間的平衡成為關注點,語料枯竭也帶來新的挑戰,促使研究者探索合 成數據等新來源。 在微調數據方面,構建方法多樣,包括人工撰寫、真實用戶數據擴充等。多樣性、質量和安全性 是微調數據的重要目標,實際應用中常融合多種數據來源以取得最佳效果,并在不同領域數據配比上 進行優化。總體而言,預訓練與微調數據的高質量構建對于提升大語言模型的性能至關重要。特別在 中文領域,各方需協力推動數據來源的拓展與技術改進,使中文大語言模型在各類應用中更具競爭 力。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?

為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

大語言模型(LLMs)與知識表示學習(KRL)的整合,標志著人工智能領域的重要進展,增強了捕捉和利用復雜知識結構的能力。這種協同作用利用了LLMs的高級語言和語境理解能力,以提升KRL的準確性、適應性和效能,從而擴展其應用和潛力。盡管有越來越多的研究集中在將LLMs嵌入到知識表示領域,但關于這些增強模型基本組件和過程的徹底審查明顯缺乏。我們的綜述通過基于三種不同的Transformer架構對這些模型進行分類,并分析來自各種KRL下游任務的實驗數據,以評估每種方法的優勢和劣勢。最后,我們確定并探討了這一新興但尚未深入探討的領域的潛在未來研究方向,提出了持續進展的路徑。

介紹

大語言模型(LLMs)(例如,BERT [18],LLaMA [59]),代表了一個不斷增長模型大小的方向,這些模型在更大的語料庫上進行預訓練,已經展示出在解決自然語言處理(NLP)任務中的強大能力,包括問答 [99],文本生成 [100] 和文檔理解 [101]。關于模型大小,沒有明確和靜態的閾值。早期的LLMs(例如BERT,RoBERTa)采用了編碼器架構,并展示了在文本表示學習和自然語言理解方面的能力。近年來,更多的關注點轉向了更大的編碼器-解碼器 [102] 或僅解碼器 [103] 架構。隨著模型大小的增加,這些LLMs還展示了推理能力甚至更高級的新興能力 [104],展示出對人工通用智能(AGI)的強大潛力。

這個拐點,隨著LLMs的到來,標志著從顯式知識表示向重新關注顯式知識和參數化知識混合表示的范式轉變。作為顯式知識表示的一種流行方法,知識圖譜(KGs)現在被廣泛研究,用于與基于Transformer的LLMs結合,包括預訓練的掩蔽語言模型(PLMs)如BERT和RoBERTa,以及更近期的生成式LLMs如GPT系列和LLaMA。一些工作利用LLMs來增強知識圖譜表示學習。在這篇綜述中,考慮到三個方向,即基于編碼器的方法、基于編碼器-解碼器的方法和基于解碼器的方法。我們對從顯式知識表示向重新關注顯式知識和參數化知識混合表示的轉變有了更深入的理解。

Cao等人 [22] 和Biswas等人 [40] 討論了知識圖譜表示學習的最新進展,但他們對與大型模型整合相關的方面處理不足。Pan等人 [42] 和Pan等人 [43] 探討了知識圖譜與大型模型的結合,特別是LLM4KG和KG4LLM;然而,他們在表示學習方面的覆蓋有限。因此,目前還沒有專門概述知識圖譜表示學習領域最新發展的綜述文章。

貢獻 本綜述的顯著貢獻總結如下:

  • 知識表示學習的分類。我們系統總結了大語言模型可以采用的知識表示學習方法,包括基于編碼器、基于編碼器-解碼器和基于解碼器的方法。
  • 技術的系統回顧。我們提供了關于大語言模型在知識圖譜表示學習技術中的最全面概述。針對不同方法,我們總結了代表性模型,提供了詳細的說明,并進行了必要的比較。
  • 未來方向。我們深入探討了語言模型在圖譜上的基礎原理,并提出了六個未來探索的前景方向。

組織結構 本綜述的結構如下:

  • 第2節介紹基礎,包括知識圖譜、大語言模型和基于文本的表示學習等相關概念。
  • 第3節綜述當前研究中采用的核心方法,將其分為三種Transformer類型。每個部分進一步探討了各種子方法。
  • 在第4節,我們從每個下游任務的性能評估結果討論了每種方法的優勢。
  • 第5節概述了與討論的類別相一致的潛在未來研究方向,并提出了有望實現顯著進展的領域。
  • 第6節的結論綜合了綜述中得出的見解,并突出了對未來研究的影響。
付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

根據最近大語言模型(LLMs)的流行,已經有多次嘗試將其擴展到視覺領域。從擁有可以引導我們穿越陌生環境的視覺助手到僅使用高級文本描述生成圖像的生成模型,視覺-語言模型(VLM)的應用將極大地影響我們與技術的關系。然而,為了提高這些模型的可靠性,還有許多挑戰需要解決。雖然語言是離散的,但視覺在更高維的空間中演變,其中的概念并不總是容易離散化。為了更好地理解將視覺映射到語言的機制,我們介紹了這篇關于VLMs的綜述,希望能幫助任何希望進入該領域的人。首先,我們介紹了什么是VLMs,它們是如何工作的,以及如何訓練它們。然后,我們展示并討論了評估VLMs的方法。盡管這項工作主要關注將圖像映射到語言,但我們也討論了將VLMs擴展到視頻的可能性。

近年來,我們在語言建模方面看到了令人印象深刻的發展。許多大型語言模型(LLMs),如Llama或ChatGPT,現在能夠解決各種各樣的任務,其使用也越來越普及。這些模型主要局限于文本輸入,現在已經擴展到包含視覺輸入。將視覺與語言連接將開啟幾個在當前基于AI的技術革命中關鍵的應用。盡管已經有多項工作將大型語言模型擴展到視覺領域,但語言與視覺的連接并未完全解決。例如,大多數模型在沒有復雜的工程開銷和額外數據標注的情況下,難以理解空間關系或進行計數。許多視覺語言模型(VLMs)也缺乏對屬性和順序的理解。它們經常忽略輸入提示的一部分,導致需要進行大量的提示工程才能得到所需結果。其中一些還會產生幻覺,生成不必要或不相關的內容。因此,開發可靠的模型仍然是一個非常活躍的研究領域。 在這項工作中,我們介紹了視覺語言模型(VLMs)的入門知識。我們解釋了什么是VLMs,它們是如何訓練的,以及如何根據不同的研究目標有效評估VLMs。本工作不應被視為關于VLMs的綜述或完整指南。因此,我們并不打算引用VLM研究領域的每一項工作;也不涵蓋該領域的所有最佳實踐。相反,我們旨在提供一個清晰且易于理解的VLM研究介紹,并強調在該領域進行研究的有效實踐。該介紹特別適合希望進入該領域的學生或其他領域的研究人員。

我們首先介紹不同的VLM訓練范式。我們討論了對比方法如何改變了該領域。接著,我們介紹利用掩碼策略或生成組件的方法。最后,我們介紹使用預訓練骨干(如LLMs)的VLMs。將VLMs分類成不同的家族并不是一項容易的任務,因為它們中的大多數都有重疊的組件。然而,我們希望我們的分類能幫助新研究人員導航該領域,并揭示VLMs背后的內在機制。

接下來,我們介紹訓練VLMs的典型方法。例如,我們涵蓋了:根據不同的研究目標,哪些數據集是合適的?哪種數據策展策略?我們是否需要訓練一個文本編碼器,還是可以利用一個預訓練的LLM?對比損失對于理解視覺是否足夠,還是生成組件是關鍵?我們還介紹了用于提高模型性能以及更好地對齊和錨定的常見技術。 提供訓練模型的方法是更好地理解VLM需求的關鍵步驟,而提供對這些模型的穩健和可靠的評估同樣重要。許多用于評估VLMs的基準最近已經被引入。然而,其中一些基準有重要的局限性,研究人員應當注意。通過討論VLM基準的優缺點,我們希望揭示改善我們對VLMs理解的挑戰。我們首先討論評估VLMs視覺語言能力的基準,然后介紹如何衡量偏見。

下一代VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻面臨的挑戰與圖像不同。計算成本當然更高,但也有其他關于如何通過文本映射時間維度的考慮。通過揭示當前從視頻中學習的方法,我們希望強調需要解決的當前研究挑戰。

通過降低進入VLM研究的門檻,我們希望為更負責任的發展VLMs提供基礎,同時推動視覺理解的邊界。

鑒于深度學習在計算機視覺和自然語言處理領域的顯著進展,已經有多項將這兩個領域橋接起來的倡議。在本文中,我們重點介紹基于Transformers [Vaswani et al., 2017] 的最新技術。我們將這些最新的技術分為四種不同的訓練范式(圖1)。

第一種是對比訓練,這是一個常用的策略,它利用正負樣本對。VLM通過訓練,使其能夠為正樣本對預測相似的表示,而為負樣本對預測不同的表示。

第二種是掩碼策略,通過給定一些未掩碼的文本來重建被掩碼的圖像塊。同樣,通過掩碼標題中的詞語,可以訓練VLM在給定未掩碼圖像的情況下重建這些詞語。

基于預訓練骨干的VLMs通常利用開源的LLMs,如Llama [Touvron et al., 2023],以學習圖像編碼器(也可以是預訓練的)和LLM之間的映射。與從頭訓練文本和圖像編碼器相比,學習預訓練模型之間的映射通常計算成本較低。

雖然大多數方法利用中間表示或部分重建,生成式VLMs則以能夠生成圖像或標題的方式進行訓練。鑒于這些模型的性質,它們往往是訓練成本最高的。 我們強調,這些范式并不是互斥的;許多方法依賴于對比、掩碼和生成標準的混合。對于每種范式,我們僅介紹一到兩個模型,以便讀者對這些模型的設計有一些高層次的見解。

VLM訓練指南

多項研究 [Henighan et al., 2020b,a] 強調了擴展深度神經網絡規模以提升其性能的重要性。受到這些擴展規律的啟發,最近的工作主要集中在增加計算能力和模型規模以學習更好的模型。這導致了諸如CLIP [Radford et al., 2021] 這樣的模型的出現,該模型使用了400M張圖像進行訓練,計算預算非常高。即使是相應的開源實現OpenCLIP [Ilharco et al., 2021] 也使用了256到600個GPU,訓練時間長達數天或數周,具體取決于模型規模。然而,最近的研究 [Sorscher et al., 2022] 表明,通過數據策展流水線,可以超越擴展定律。在本節中,我們首先討論訓練模型時數據的重要性,并介紹一些用于創建訓練VLMs數據集的方法。接著,我們討論從業者可能用來更高效地訓練VLMs的常用軟件、工具和技巧。由于訓練VLMs的方法不同,我們還討論了在特定情況下選擇哪種類型的模型。最后,我們介紹了一些提高錨定(正確將文本與視覺線索匹配)的技巧。我們還介紹了使用人類偏好改進對齊的方法。由于VLMs經常用于讀取和翻譯文本,我們也介紹了一些可以進一步提升VLMs OCR能力的技術。最后,我們討論了常見的微調方法。

負責的VLM評估方法

由于VLMs的主要能力是將文本與圖像進行映射,因此測量視覺-語言能力至關重要,以確保文字確實與視覺線索相匹配。早期用于評估VLMs的任務是圖像描述和視覺問答(VQA)[Antol et al., 2015]。在本節中,我們還討論了評估模型從圖像中理解和讀取文本能力的文本中心VQA任務。另一個由Radford等人 [2021] 引入的常見評估方法基于零樣本預測,例如ImageNet [Deng et al., 2009] 分類任務。這類分類任務對于評估VLM是否具備足夠的世界知識非常重要。更近期的基準如Winoground [Thrush et al., 2022] 測量視覺-語言組合推理。由于VLM模型已知會表現出偏見或幻覺,因此評估這兩個組成部分也很重要。

擴展VLMs至視頻

我們迄今為止的重點是訓練和評估基于靜態視覺數據(即圖像)的VLMs。然而,視頻數據為模型帶來了新的挑戰和潛在的新功能,例如理解物體的運動和動態,或在空間和時間中定位物體和動作。文本到視頻的檢索、視頻問答和生成迅速成為計算機視覺的基本任務 [Xu et al., 2015, Tapaswi et al., 2016, Brooks et al., 2024]。視頻的時間維度對存儲、GPU內存和訓練提出了新的挑戰,例如,24幀每秒的視頻需要24倍的存儲和處理,如果每幀都被視為圖像。這需要在視頻VLMs中進行權衡,例如使用壓縮形式的視頻(例如,H.264編碼)并在數據加載器中即時解碼視頻;從圖像編碼器初始化視頻編碼器;視頻編碼器具有空間/時間池化/掩碼機制 [Fan et al., 2021, Feichtenhofer et al., 2022];非端到端VLMs(離線提取視頻特征并訓練模型,這些模型采用視頻特征而不是長視頻的像素幀)。與圖像-文本模型類似,早期的視頻-文本模型從頭開始訓練視覺和文本組件,并采用自監督標準 [Alayrac et al., 2016]。但與圖像模型不同的是,對比視頻-文本模型并不是首選方法,視頻和文本的早期融合和時間對齊更受青睞 [Sun et al., 2019],因為與計算視頻的全局表示相比,表示中的時間粒度更為有趣。最近,視頻-語言模型中也出現了類似于圖像-語言模型的趨勢:預訓練的LLMs被用于與視頻編碼器對齊,增強LLMs的視頻理解能力。現代技術如視覺指令微調也被廣泛使用并適應于視頻。

結論

將視覺映射到語言仍然是一個活躍的研究領域。從對比方法到生成方法,有許多訓練VLMs的方法。然而,高計算和數據成本常常成為大多數研究人員的障礙。這主要激勵了使用預訓練的LLMs或圖像編碼器,僅學習模態之間的映射。無論訓練VLMs的方法是什么,都有一些普遍的考慮需要記住。大規模高質量的圖像和標題是提升模型性能的重要因素。改進模型的錨定能力和與人類偏好的對齊也是提高模型可靠性的重要步驟。 為了評估性能,已經引入了多個基準來測量視覺語言和推理能力;然而,其中許多基準有嚴重的局限性,如僅使用語言先驗就能解決。將圖像與文本綁定并不是VLMs的唯一目標;視頻也是一種可以用來學習表示的重要模態。然而,在學習良好的視頻表示之前,還有許多挑戰需要克服。VLMs的研究仍然非常活躍,因為要使這些模型更可靠,還需要很多缺失的組件。

付費5元查看完整內容

預訓練的大型語言模型(LLM)和大型多模態模型(LMM)的迅速發展開啟了智能應用的新時代,從自然語言處理到內容生成等領域都發生了變革。LLM供應鏈代表了當代人工智能領域的一個關鍵方面。它包括預訓練模型的整個生命周期,從最初的開發和訓練到最終的部署和在各個領域的應用。本文提供了LLM供應鏈的全面概述,突出了其三個核心元素:1)模型基礎設施,包括用于訓練、優化和部署的數據集和工具鏈;2)模型生命周期,涵蓋訓練、測試、發布和持續維護;3)下游應用生態系統,使預訓練模型能夠集成到各種智能應用中。然而,這個快速發展的領域在這些關鍵組成部分中面臨著許多挑戰,包括數據隱私和安全、模型可解釋性和公平性、基礎設施的可擴展性,以及監管合規性。解決這些挑戰對于充分發揮LLM的潛力并確保其道德和負責任的使用至關重要。本文為LLM供應鏈提供了未來的研究議程,旨在推動這些變革性LLM的持續進步和負責任的部署。

預訓練的大型語言模型(LLM)和大型多模態模型(LMM),如GPT4 [2]、Gemini [183]和LLaMA [187]的快速進步,已經徹底改變了人工智能(AI)領域,開啟了智能應用的新時代。這些強大的模型,經過大量數據的訓練,已在從自然語言處理到多模態內容生成的廣泛任務中展示了卓越的能力。 隨著LLM的不斷普及,支持其開發、部署和維護的強大且高效的供應鏈的需求變得越來越明顯。LLM供應鏈涵蓋了從模型訓練到測試、發布及持續維護的整個生命周期。這一復雜的生態系統涉及多種利益相關者,包括模型開發者、數據提供者和終端用戶,他們都必須應對一系列獨特的挑戰,以釋放這些變革性技術的全部潛力。 在本文中,我們將全面概述LLM供應鏈,強調必須解決的關鍵組成部分和關鍵挑戰,以確保LLM的安全、可靠和公平部署。我們將探索這一供應鏈的技術、倫理和操作方面,借鑒軟件工程、系統架構、安全和數據治理領域的見解。我們的目標是全面理解LLM供應鏈,并識別可以推動這一快速發展領域未來的最有前景的研究和開發機會。 LLM供應鏈的定義類似于開源軟件(OSS)供應鏈[93, 164, 204],LLM供應鏈指的是圍繞模型的開發、分發和部署的關系網絡。這一供應鏈包括上游的模型開發社區、模型倉庫、分發平臺和應用市場,以及數據提供者、工具鏈/模型開發者、維護者和終端用戶。如圖1所示,這一供應鏈可以進一步分為三個關鍵組成部分:

基礎設施基礎:LLM供應鏈的基礎是堅實的模型基礎設施,包括多樣化數據集的策劃和管理,以及支持模型高效訓練、優化和部署的工具鏈(如PyTorch [158]、TensorFlow [184]和LangChain [94]);

模型生命周期:模型生命周期是復雜LLM供應鏈生態系統中的關鍵節點。這一全面的生命周期,覆蓋了模型從概念到退役的整個過程,是供應鏈復雜相互依存關系的匯聚點。它不僅涵蓋了模型重用引入的依賴關系,而且與基礎設施層的數據集和開發工具供應鏈緊密交織;

  • 下游應用生態系統:在模型基礎設施和生命周期之上,LLM供應鏈包括一個活躍的下游應用生態系統。這一生態系統包括由LLM驅動的應用和服務,例如GPTs [144],以及直接將這些變革性技術的能力帶給終端用戶的領域特定模型(DSMs)。這些組成部分之間的復雜相互依存關系和互動構成了LLM供應鏈的支柱。通過這樣定義LLM供應鏈,我們可以借鑒現有的OSS供應鏈研究的見解,并將其應用于LLM生態系統的獨特需求和復雜性。這一全面的理解將為隨后探索LLM供應鏈內的機會和挑戰提供基礎。

本文的其余部分安排如下。我們將在第3、第4和第5節分別深入討論模型基礎設施、模型生命周期和下游應用生態系統。每一節的結構依次為愿景、挑戰和機會。最后,在第6節中我們將結束本文。

在本文中,我們對LLM供應鏈進行了全面探討,深入研究了模型基礎設施、生命周期和下游應用生態系統的復雜階段。我們在每個階段都確定了關鍵挑戰,突出了未來研究的機會。在基礎設施領域,我們強調了高質量數據集和魯棒安全的工具鏈的至關重要性。LLM的生命周期,通過開發、測試、發布和維護階段,顯示出持續創新和警惕的需要,以確保模型保持有效、安全,并符合道德標準。對下游應用生態系統的探索,包括LLM應用市場、設備上的LLM和DSM,打開了一個窗口,展示了LLM在各行各業和各種應用中的未來潛力。總之,我們認為LLM供應鏈代表了一個充滿活力和復雜的生態系統,希望本文能為未來研究提供一個議程。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

如今,現實世界的應用經常面臨著流數據,這要求學習系統在數據演變時吸收新知識。持續學習(CL)旨在實現這一目標,同時在學習新知識時克服對既有知識的災難性遺忘。典型的CL方法從頭開始構建模型,以適應不斷涌入的數據。然而,預訓練模型(PTM)時代的到來激發了巨大的研究興趣,特別是在利用PTM的強大表示能力進行CL方面。本文提供了一項關于基于PTM的CL的最新進展的全面綜述。我們將現有方法分為三個不同的組別,并提供了它們的相似性、差異性以及各自的優勢和劣勢的比較分析。此外,我們提供了一個實證研究,對比各種最新的方法,以突出比較中的公平性問題。要重現這些評估的源代碼可在以下地址獲取://github.com/sun-hailong/LAMDA-PILOT。

隨著深度神經網絡的快速發展,深度學習模型在各種應用中展現出了令人期待的結果 [He等人,2016年;Chao等人,2020年;Yang等人,2015年;Ye等人,2021年;Ning等人,2022年]。然而,現實世界的場景往往以流數據的形式呈現。例如隱私問題 [Ning等人,2023年] 和存儲限制阻止了流數據的永久保留,這就需要一個能夠持續適應和進化的學習系統,這個過程被稱為持續學習(CL)[van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。CL中的一個關鍵問題是災難性遺忘的現象,即獲得新知識導致在以前學過的任務上的性能顯著下降 [McCloskey和Cohen,1989年]。眾多研究致力于在CL內部解決這一問題 [Gunasekara等人,2023年;Wang等人,2023d;Wang等人,2023a;Wang等人,2023c;Zhuang等人,2022年;Zhao等人,2021年;Liu等人,2024年;Zhou等人,2023b]。 傳統的CL方法從“零開始訓練”的模型開始,即從隨機初始化的權重開始。然而,預訓練技術的蓬勃發展開辟了新的途徑。利用預訓練模型(PTMs),這些模型是從大量數據集和復雜技術 [Steiner等人,2021年] 開發而來,對CL展示了巨大的潛力。這些PTM本質上具有對各種下游任務的強大泛化能力,使基于PTM的CL成為一個日益流行的話題。 圖1展示了基于PTM的持續學習方法與傳統持續學習方法之間的區別。兩種方法都在數據流中使用CL模型來適應一系列即將到來的任務。目標是讓模型在吸收新信息的同時保留之前獲得的知識。這需要在學習每個新任務后評估模型在所有遇到的任務上的表現。基于PTM的CL與傳統CL之間的主要區別在于CL模型的初始設置。基于PTM的策略從一個大規模的預訓練模型開始,而傳統方法從零開始訓練一個模型。這種差異可以類比為人類學習:傳統方法類似于訓練一個嬰兒成長并獲得新知識,而基于PTM的方法類似于利用成人的專業知識來完成相同的學習任務。 在這個快速發展的領域中,現有關于CL的綜述主要關注不包括預訓練模型的典型算法 [van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。然而,在當前的PTM時代,基于PTM的CL正成為一個中心關注領域。觀察表明,基于PTM的CL的性能正在接近持續學習潛力的上限 [Zhou等人,2023a],表明這是一個有前途的實際應用領域。因此,迫切需要對基于PTM的CL進行一次全面、最新的綜述,以推進CL領域的進步。我們綜述的具體貢獻如下: 1. 我們提出了第一個全面的關于基于預訓練模型的持續學習最新進展的綜述,包括問題定義、基準數據集和評估協議。我們根據這些方法的定義特征,將它們系統地分類為三個子類別,提供了一個全面和結構化的主題概述。 1. 我們的評估擴展到每個子類別中的代表性方法在七個基準數據集上。此外,我們識別了一個可能影響基于PTM的持續學習中比較公平性的關鍵因素,為方法論評估提供了見解。 1. 我們突出了基于PTM的持續學習中當前的挑戰和潛在的未來方向。我們打算揭示未經充分研究的方面,以激發進一步的調查,探索這個領域內各種可能的路徑及其相互關系。

基于PTM的持續學習 我們將當前基于PTM的CL研究分類為三個類別,這些類別基于不同的理念來解決學習問題,即基于提示的方法、基于表示的方法和基于模型混合的方法。這些類別利用預訓練模型的不同方面來促進持續學習。例如,考慮到PTM的強大泛化能力,基于提示的方法會采用提示調整 [Jia等人,2022年] 來進行PTM的輕量級更新。由于預訓練的權重保持不變,PTM的泛化能力可以被保留,從而緩解了遺忘。類似地,基于表示的方法直接利用PTM的泛化能力來構建分類器。最后,基于模型混合的方法在學習過程中設計了一組模型,并利用模型合并、模型集成和其他混合技術來得出最終預測。 我們展示了基于PTM的CL的分類法,并在圖2中列出了代表性的作品。在接下來的部分中,我們將介紹每個類別,并深入討論它們的優點和缺點。

付費5元查看完整內容

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

近年來,大型語言模型(LLMs)已取得了顯著的進展。這些進展,雖然引起了極大的關注,同時也引發了各種擔憂。這些模型的潛力無疑是巨大的;然而,它們可能會產生不準確、誤導性或甚至有害的文本。因此,采用對齊技術來確保這些模型表現出與人類價值觀一致的行為變得至關重要本調查旨在為大型語言模型的對齊方法提供廣泛的探討,結合現有的能力研究。通過AI對齊的視角,我們將現行的方法和新出現的大型語言模型的對齊提案分類為外部和內部對齊。我們還探討了一些顯著問題,包括模型的可解釋性和潛在的對抗攻擊的脆弱性。為了評估大型語言模型的對齊,我們提出了各種基準和評估方法。在討論了大型語言模型的對齊研究狀況之后,我們最終展望未來,思考了未來有前途的研究方向。 我們對本次調查的愿景不僅僅是激發在這一領域的研究興趣。我們還希望彌合AI對齊研究社群和致力于探索大型語言模型能力的研究人員之間的差距,為能力強大且安全的大型語言模型牽線搭橋。

1 引言

以OpenAI的ChatGPT(OpenAI,2022年)和GPT-4(OpenAI,2023a年)為例的大型語言模型(LLMs)已經迅速發展,重新點燃了對人工通用智能(AGI)的熱忱和期望。雖然LLMs作為通向AGI的路徑仍是一個討論的話題,但這些模型,憑借著擴展規律(Kaplan等,2020年;Hoffmann等,2022年),越來越展現出類似AGI的特征(Bubeck等,2023年)。在大量數據的訓練下,LLMs不僅展示出了強大的語言能力,而且在數學、推理、醫學、法律和編程等多個領域迅速接近人類水平的熟練度(Bubeck等,2023年)。 伴隨著LLMs在技術上的突破,人們越來越關注它們可能對人類構成的潛在威脅和倫理風險。有明確的倫理風險已被發現。研究表明,LLMs可能會無意中傳播它們訓練數據中的有害信息,例如偏見、歧視和有毒內容(Weidinger等,2021年)。它們可能會泄露訓練數據中的私人和敏感信息,或生成誤導性、虛假或低質量的信息。此外,部署LLMs也引入了社會和倫理挑戰,例如LLMs的潛在濫用和對嚴重依賴LLM代理的用戶的負面影響,以及對環境、信息傳播和就業的更廣泛影響(Bubeck等,2023年)。

對于長期影響,人們普遍擔憂未對齊的AGI構成存在風險。超越人類智力和知識的AI代理可能會發展出自己的目標,與人類設定的目標產生分歧。在追求其目標的過程中,這樣的代理可能會壟斷資源,確保其保存和自我增強。這一軌跡可能導致人類完全失權,不可避免地導致人類存在的災難性后果(Carlsmith,2022年)。

作為解決這些問題的技術解決方案,AI對齊,即確保AI系統產生與人類價值觀一致的輸出,越來越受到關注。在LLMs的背景下,對齊確保模型的響應不僅準確和連貫,而且從開發人員和用戶的角度來看是安全、道德和可取的。隨著語言代理越來越融入我們日常生活的各個方面,從內容創建到決策支持,任何未對齊都可能導致意想不到的后果。正確地將大型語言模型與人類價值觀對齊,確保了這些模型的巨大潛力得到可信賴和負責任的利用。

響應這一領域日益增長的興趣,最近有一些文章回顧了(或偶然討論了)LLMs的對齊方法(Pan等,2023年;Zhao等,2023b年;Fernandes等,2023年;Liu等,2023d年;Wang等,2023d年)。然而,一個值得注意的觀察是,這些評論主要集中在外部對齊上,常常忽略了AI對齊中的其他重要主題,如內部對齊和機械解釋性。雖然無可否認,外部對齊在LLM對齊中占據了關鍵地位,并且一直是深入和深刻研究的主題,但從更廣泛的AI對齊角度來看,它只是整個對齊景觀的一部分。

了彌補這一差距,我們從AI對齊的角度提供了LLM對齊的全面概述。我們認為,對齊的全面理解不僅應該包括廣泛研究的外部對齊,還應該深入探討目前還處于起步階段的領域。諸如內部對齊和機械解釋性這樣的主題,雖然目前還處于研究的初級階段,但卻擁有巨大的潛力。在這個階段,這些領域的許多提案仍然是理論性的,或者僅僅是思考實驗。然而,我們認為,它們對LLM對齊研究的未來軌跡是不可或缺的。通過揭示這些被忽視的領域,我們希望呈現出一個更為全面的對齊視角。因此,除了現有的LLM對齊方法,我們還將介紹幾個對齊主題,盡管這些主題尚未應用于LLMs,但顯示出前景,并可能在可預見的未來成為LLM對齊的組成部分。通過這樣做,我們致力于豐富AI對齊及其在大型語言模型領域的多方面應用的論述。

總結所有這些因素,我們在圖1中提出了一個LLM對齊的分類法。具體來說,本調查將首先討論LLM對齊研究的必要性(第2節)。為了提供AI/LLM對齊的歷史和鳥瞰視圖,我們介紹了AI對齊的起源和相關概念(第3節)。根據我們提出的分類法,將對齊LLMs的理論和技術方法分為外部對齊(第4節)、內部對齊(第5節)和機械解釋性(第6節),遵循AI對齊的哲學(Krakovna,2022年)。除了這些理論和實證方法外,我們還進一步討論了LLMs當前對齊方法的潛在副作用和脆弱性,包括對抗攻擊(第7節),以及LLM對齊評估的方法和基準(第8節)。最后,我們提出了我們對LLM對齊研究未來趨勢的有限觀點(第9節)。

為什么LLM對齊?

LLMs不僅在文本生成方面變得越來越有能力,還在許多其他任務中展現出能力,例如,文本到代碼生成(Poesia等,2022年),計劃(Huang等,2022年;Song等,2022年),工具學習(Qin等,2023年),推理(Mialon等,2023年)。然而,LLMs的訓練目標(Radford等,2019年;Devlin等,2019年),例如,下一個單詞預測(Radford等,2019年)或確定兩個句子在上下文中是否相關(Devlin等,2019年),并不一定符合人類價值觀。因此,LLMs可能會生成人類希望避免的不良內容或冒險行為。LLM風險通常可以從兩個方面來看:已建立的風險和預期的風險(Weidinger等,2021年)。前者主要是觀察到的社會和倫理風險(Weidinger等,2021年),而后者是與高級LLM相關的未來潛在風險(Hendrycks等,2023年)。 什么是LLM對齊?

為了深入理解大型語言模型(LLMs)中的技術對齊,我們需要討論更廣泛的概念,即AI對齊。盡管這是一個新興領域,但在LLMs出現之前就已經進行了研究。我們簡要介紹AI對齊的起源、研究格局和要點,以及與AI對齊相關的概念,這些都為LLM對齊及其最近出現的子領域提供了背景。

AI對齊的起源

AI對齊的起源可以追溯到激發AI革命的最初愿望:創建能夠像人類一樣思考和行動,甚至超越人類的機器。如果我們成功創建了這樣強大的機器,我們如何確保它們按照我們的最佳利益行事,而不是反對我們呢?這個未解之謎不僅引發了好奇心,而且強調了我們在塑造AI未來時所承擔的深遠責任。

賽博格學之父Norbert Wiener在一篇發表在《科學》雜志上的論文中提出了這樣的擔憂(Wiener, 1960): “如果我們為了實現我們的目的,使用了一個我們一旦啟動就無法有效干預其操作的機械機構,因為這個行動如此迅速和不可逆,以至于我們在行動完成之前沒有數據進行干預,那么我們最好確保放入機器的目的是我們真正的愿望,而不僅僅是它的多彩模仿。”

這個聲明強調了確保“機械機構”的目標與我們為它設定的真正目標一致的重要性,強調了機器和人類目標之間的對齊。

2014年,人工智能:一種現代的方法(Russell和Norvig,2010)的作者之一Stuart Russell在一次采訪中表示:要深入了解LLMs中的技術對齊,我們需要討論AI對齊這一更為廣泛的概念。即便這是一個新興領域,但AI對齊的研究在LLMs出現之前就已經開始。我們簡要介紹了AI對齊的起源、研究景觀和成分以及相關概念,為LLM對齊及其新興的子領域提供背景。

“正確的響應似乎應該是改變該領域本身的目標;我們需要構建的不是純粹的智能,而是可以證明與人類價值觀相一致的智能。由于實際原因,我們需要解決即便是在人類環境中操作的相對不那么智能的AI系統的價值對齊問題。如果我們理解這個問題是AI固有的一部分,就像容納是現代核聚變研究的固有部分一樣,那么我們有理由保持樂觀。世界不需要走向悲傷。” —— Stuart Russell, 2014。 他定義了“價值對齊問題”(VAP),強調了建造不僅聰明而且與人類價值觀一致的AI系統的需要。盡管AI對齊的概念在AI誕生之初就已經種下,但過去幾十年基本上沒有進行研究。長時間以來,AI在各種能力方面都沒有達到人類水平,甚至被嘲笑稱為“人工白癡”。

然而,最近的進展,尤其是大型語言模型的崛起,已經將AI能力推向了接近甚至超過人類在許多任務上的表現的水平。這種復蘇使得AI對齊的重要性和緊迫性浮出水面。從2012年開始,在相關論壇和arXiv上已經開始出現了關于AI對齊的討論和研究文章。到2017年,關于AI對齊的出版物已經爆炸性地增長,論文數量從每年不到20篇增加到了超過400篇(Kirchner等,2022),與Transformer(Vaswani等,2017)和GPT(Radford等,2018)的發明相吻合。

相較于其他AI研究領域,如自然語言處理,AI對齊還處于前范例階段(Kirchner等,2022)。這個新興領域中的許多關鍵概念和術語還沒有達成共識。術語如“對齊”,“AI對齊”,和“價值對齊”在討論中經常可以互換使用。在某些上下文中,“人機對齊”作為“AI對齊”的替代詞出現。而“對齊”一詞在AI對齊的上下文中是合適的,但在更廣泛的上下文中可能會產生歧義,可能與機器翻譯中的雙語對齊等其他對齊概念混淆。 此外,對AI對齊的定義還沒有達成共識。Paul Christiano將AI對齊定義為“如果A在嘗試做H希望它做的事,那么A就與H一致。”這個定義過于泛泛了然,因為幾乎所有的AI模型都在盡力做其創建者希望它們做的事。

在此調查中,我們從其內在的角度定義AI對齊:AI對齊確保AI代理的內外目標都與人類價值觀一致。外部目標是基于人類價值觀由AI設計師定義的,而內部目標則是AI代理內部優化的。這一定義雖然區分了AI代理的內外目標,但并未準確定義人類價值觀,因此略顯不精確。將AI系統的目標分類為外部目標和內部目標的原因在于AI對齊的技術性質(Hubinger等,2019c)。在這個定義中沒有指定人類價值觀,是因為AI對齊固有的社會和技術挑戰(Hendrycks等,2021)。

AI對齊的研究格局和成分

眾所周知,從廣泛的角度來看,AI對齊的關鍵研究議程包括外部對齊、內部對齊和可解釋性(Hubinger, 2020b; Ngo, 2022; Krakovna, 2022)。

外部對齊

這是選擇正確的損失函數或獎勵函數,并確保AI系統的訓練目標符合人類價值觀。換句話說,外部對齊試圖將指定的訓練目標與其設計者的目標對齊。至少出于以下原因,這在實踐中非常困難: ? 通常很難理解和定義人類價值觀或意圖。 ? 人類價值觀有很多不同的細粒度維度。我們需要將指定的目標與所有這些維度對齊嗎? ? 人類價值觀通常受社會和文化限制。我們需要將指定的目標與所有不同的文化和社會對齊,還是只對其中的一部分對齊?考慮到文化和社會的多樣性,我們如何確保價值對齊的公平性? ? 由于人類價值觀/意圖通常是定性的,而要優化的損失或獎勵必須是可衡量和可計算的,我們如何彌合它們之間的差距?這被稱為目標規范問題。 ? 外部對齊可能會遭受規范游戲的困擾,其中由于古德哈特定律,可能會出現無法預見的目標或后果。古德哈特定律起源于經濟學,其內容是“當一項衡量變成一個目標時,它就不再是一個好的衡量”。這與外部對齊有關,因為某個價值的代理是要被優化的目標,它可能不再是一個好的代理。

**內部對齊

這是為了確保AI系統實際上經過培訓以實現設計師設定的目標。一旦我們指定了培訓目標,我們需要確保AI系統的行為實際上符合這些規范。由于AI系統,尤其是深度學習模型,可以開發出難以從其訓練數據或目標中預測的行為,這是具有挑戰性的。例如,一個經過訓練來贏得游戲的AI系統可能會找到一個意想不到的漏洞或者逃避通道,這在技術上滿足了它的目標,但違反了游戲的精神。目標錯誤泛化問題(Shah等人,2022)是另一個例子,即使我們有正確的目標規范,由于在未見情況下的魯棒性失敗,仍然可能產生無意的目標。內部對齊確保AI的“內部”目標(它在學習過程中推導或優化的目標)符合設計師設定的“外部”目標。 外部和內部對齊對于構建安全可靠的AI至關重要。如果失敗,我們冒著創造的系統的行為與人類價值觀或意圖不一致的風險。隨著LLMs變得更加有能力,這些對齊問題的重要性增加,使得LLM對齊的研究與LLM能力的研究一樣關鍵。

**可解釋性

在AI對齊的背景下,可解釋性廣泛地指的是促使人們理解AI系統的內部運作、決定和行為的方法、模型和工具。它可以進一步分為: ? 透明性:這是通過追蹤AI系統的內部狀態來理解黑盒中的AI系統的內部運作,從而引導其行為和決定。透明性的一個新興而有趣的方法是機械可解釋性,它尋求將機器學習系統(特別是神經網絡)的輸出和行為逆向工程到其內部狀態、權重和組件(Nanda等人,2023)。由于LLMs中參數的巨大數量以及LLMs作為大型神經網絡的系統復雜性,逆向工程LLMs是非常困難的。當前的機械可解釋性通常在LLMs的小型和簡化模型上進行(例如,去除了FFN子層的兩個神經層)(Elhage等人,2021; 2022a)。然而,這是一個相當有前途的方向,為神經網絡的對齊提供了深刻的見解,并有望在未來取得突破。 ? 可解釋性:這涉及AI系統為其決定提供人類可理解的解釋的能力。在許多關鍵領域,例如醫療保健、金融和執法,AI做出的決定對許多方面都有深遠的影響。例如,考慮一個醫療診斷AI。如果這個系統預測一個患者患有特定的醫療病癥,僅僅輸出這樣的預測結果是不夠的。醫療專業人員、患者和其他利益相關者會想要知道這個預測是如何做出的。它是否考慮了患者的病史、最近的實驗室結果或特定的癥狀來做出全面的決定? 解釋通常被視為模型輸出的事后分析,該模型允許模型更多地了解其預測。透明度是查看模型內部以揭示模型的運作方式。盡管這種劃分不是絕對的(Lipton,2017),透明度更多地與對齊相關,因為透明度工具不僅使我們了解模型的內部結構,還提供了模型在培訓過程中變化的見解(Hubinger,2022a)。

**外部對齊、內部對齊和可解釋性之間的關系

外部和內部對齊共同確保模型的行為與人類的價值觀和意圖一致。外部對齊專注于從人類目標到模型的規范,而內部對齊深入研究模型的內部優化過程,以保證模型本質上試圖做設計師希望它做的事情。盡管存在這種差異,他們的二元和形式主義二分法并不建議,因為對齊失敗的分類有時是模糊的,構建安全和可信賴的系統時,整體對齊觀點是重要的。8雖然可解釋性不直接針對對齊,但其工具和技術可以幫助外部和內部對齊。通過了解模型如何演化和做出決定,我們可以更好地識別何時以及在哪里發生不對齊。例如,如果模型采取意想不到的捷徑來實現其目標,可解釋性可能會幫助我們了解這何時以及如何發生。此外,可解釋性可以向我們提供模型的內部推理過程的見解。

近年來,LLM(大型語言模型)的快速發展無疑揭開了新技術力量的新紀元。然而,隨著這一力量的出現,我們也承擔著確保這些模型在人類倫理和期望的范圍內運作的責任。本文提供了針對LLM的對齊方法的全面概述,強調了將能力研究與倫理考慮相結合的重要性。我們通過將對齊技術分類為外部對齊和內部對齊,揭示了研究社區目前所采用的多方面方法。同時,我們也討論了新興的主題,如模型的可解釋性和對抗性攻擊的脆弱性,突出了對齊過程中的復雜性。此外,本文不僅記錄了當前對齊研究的現狀,還展望了未來,確定了有望進一步完善和提高LLM對齊的潛在研究軌跡。我們真誠希望這份調查能作為催化劑,促進AI對齊社區與LLM研究人員之間的合作。這樣的合作方法是實現LLM全部潛力的必要條件,確保它們以道德合規和有益的方式服務于人類。總之,當我們繼續推動LLM的可能性邊界時,我們必須始終堅守對其負責任和有原則的部署的承諾。

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容
北京阿比特科技有限公司