亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。

1 引言

時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。

盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。

為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。

本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。

論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。

付費5元查看完整內容

相關內容

時間序列分析是根據系統觀測得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法。它一般采用曲線擬合和參數估計方法(如非線性最小二乘法)進行。時間序列分析常用在國民經濟宏觀控制、區域綜合發展規劃、企業經營管理、市場潛量預測、氣象預報、水文預報、地震前兆預報、農作物病蟲災害預報、環境污染控制、生態平衡、天文學和海洋學等方面。

時間序列數據的研究對于理解隨時間變化的趨勢和異常至關重要,使得在各個領域內能夠實現預測性洞察。另一方面,時空數據對于分析空間和時間中的現象至關重要,為復雜系統交互提供動態視角。近期,擴散模型在時間序列和時空數據挖掘中得到了廣泛應用。這些模型不僅增強了序列和時間數據的生成和推理能力,而且還擴展到其他下游任務。在本綜述中,我們全面而深入地回顧了擴散模型在時間序列和時空數據中的使用,按模型類別、任務類型、數據形態和實際應用領域進行分類。具體而言,我們將擴散模型分為無條件和有條件兩種類型,并分別討論時間序列數據和時空數據。無條件模型,即無監督運行的模型,被進一步細分為基于概率和基于分數的模型,服務于預測和生成任務,如預測、異常檢測、分類和填補。有條件模型則利用額外信息以增強性能,同樣也針對預測和生成任務進行劃分。我們的綜述廣泛涵蓋了它們在包括醫療保健、推薦系統、氣候、能源、音頻和交通等多個領域的應用,為這些模型如何分析和生成數據提供了基礎理解。通過這一結構化概覽,我們旨在為研究人員和實踐者提供關于時間序列和時空數據分析中擴散模型的全面理解,旨在通過解決傳統挑戰和探索擴散模型框架內的創新解決方案,引導未來的創新和應用。 //www.zhuanzhi.ai/paper/38a12a5bf6945d011c3aa4827f0df55a

擴散模型代表了一類概率生成模型,這些模型通過一個包括在一組訓練樣本中注入噪聲及其后續移除的兩步過程進行優化。這個過程包括一個前向階段,稱為擴散,以及一個反向階段,稱為去噪。通過訓練模型去除在擴散過程中加入的噪聲,模型在推斷過程中學會生成與訓練數據分布緊密對齊的有效數據樣本。 近年來,擴散模型在各個領域中獲得了顯著的關注并產生了重大影響,包括計算機視覺(CV)、自然語言處理(NLP)和一般的多模態學習。這挑戰了生成對抗網絡(GANs)長期的主導地位。在這些領域中,擴散模型在如文本到圖像轉換、實例分割、3D形狀生成、分子設計和音頻生成等應用中展示了卓越的能力。值得注意的是,擴散模型也作為一種非自回歸的替代方案,開始在傳統由自回歸方法主導的任務中獲得人氣。最近,OpenAI Sora的推出標志著擴散模型在模擬嵌入時空連續體的物理世界中的新進展,突顯了它們的關鍵重要性。

時間數據主要包括時間序列和時空數據,封裝了絕大多數現實世界系統的動態。這些時間數據形式已被廣泛研究,并被認為對眾多應用至關重要。然而,從各種數據形態中導出物理世界的普適動態法則仍然是該領域內的一個重大挑戰。最近,時間序列和時空建模領域經歷了從感知智能向通用智能的顯著轉變。這一轉變由具有廣泛時間數據分析能力的統一基礎模型(FMs)的出現所特征化,挑戰了特定領域模型的優勢。擴散模型在許多模態上實現了最先進的成果,包括圖像、語音和視頻。由于這些領域中廣泛且多樣的可用數據,擴散模型常作為生成型基礎模型與大型語言模型(LLMs)或其他基礎模型一同促進了這些領域的快速發展。 近年來,也出現了越來越多專為模擬時間序列和時空數據而設計的擴散模型。同時,我們也注意到越來越多的嘗試使用擴散模型進行時間建模。觀察擴散模型的成功,引發了一個引人入勝的問題:時間序列/時空數據分析與擴散模型的交叉會擦出什么樣的火花?

時間序列和時空數據分析基本上依賴于對它們固有的時間動態的深刻理解,其主要任務主要集中在骨干模型的生成能力上,例如預測、填補和生成。這些分析聚焦于為特定目的生成時間數據樣本,無論是有條件的還是無條件的。目睹了時間序列和時空基礎模型的最近發展,無論是基于LLMs構建還是從零開始訓練,它們的成功可以歸功于估計訓練樣本分布的能力,從中可以提取有效的數據表示。在這方面,擴散模型作為一個強大的生成框架出現,使得(1)模擬時間數據中的復雜模式成為可能,以及(2)支持廣泛的下游任務。為特定任務生成有效的數據樣本時,時間序列和時空擴散模型通常以無條件方式操作,無需監督信號。鑒于實際應用的部分觀察性質,有條件的擴散模型已經出現。它們利用數據標簽(例如指令、元數據或外來變量)來調控生成過程,從而使得有效的跨模態提示成為可能,導致更定制化和改進的結果。

我們在圖3中提出了一個發展路線圖。通過在大規模時間數據上訓練,擴散模型有效地填補了時間序列/時空數據生成的空白,并展示了在解決下一代以LLM為中心的時間數據代理的難題中的重大潛力。

盡管擴散模型在處理時間序列和時空數據方面展示了充滿希望的前景和迅速的進步,現有文獻中對這一模型家族的系統分析卻明顯不足。本文旨在通過提供一份前瞻性的綜述來彌補這一差距,闡明擴散模型適用于這些數據形態的原因(“為什么”)以及它們如何提供優勢的機制(“如何”)。在這份綜述中,我們提供了細的分類,進行了徹底的評審,并識別了這一迅速發展領域內的新興趨勢。我們的主要貢獻總結如下:

全面且最新的綜述。我們呈現了一個全面、最新且前瞻性的擴散模型在時間序列和時空數據應用的綜述。我們的調查強調了擴散模型適用于這些數據形態的適宜性,并討論了它們提供的益處。通過覆蓋領域的廣泛譜系和各個方法的細節,我們為讀者提供了對這一主題領域的深入洞見。

統一和結構化的分類。我們引入了一個清晰且有組織的框架,用于將現有文獻分類為兩種主要類型:無條件和有條件的擴散模型,重點關注時間序列和時空數據,這些數據涵蓋了預測性和生成性任務。這種分類為讀者提供了從多個角度對該主題的連貫路線圖。

洞察新興進展。我們討論了無條件和有條件擴散模型中的前沿技術,關注時間序列和時空數據。我們的覆蓋范圍包括最新技術和新興趨勢,如多模態有條件生成。

挑戰和未來方向的總結。我們確定了當前研究環境中面臨的關鍵挑戰,并突出了幾個未來探索的有希望方向。

本文的其余部分結構如下:第2節提供了關于擴散模型的全面背景,詳細介紹了它們的發展、理論基礎和各種實現。第3節呈現了對時間序列和時空數據應用擴散模型的結構化概覽和分類,為在第4節中更深入探討模型視角奠定了基礎,該節將討論標準和先進的擴散模型。第5節關注于任務視角,檢查擴散模型如何處理預測、生成、填補、異常檢測等任務。第6節討論數據視角,強調針對時間序列和時空數據的特定挑戰和解決方案。第7節探索擴散模型在各種領域的應用,如醫療、交通和能源,展示了它們的廣泛實用性。最后,第8節以對未來機會的展望和總結性評論結束本文。

本節提供了針對時間序列和時空數據分析挑戰的擴散模型的概述和分類。我們的調查沿四個主要維度組織討論:擴散模型的類別、任務類型、數據形態和實際應用。圖7中展示了相關工作的全面總結。現有文獻被分類為兩個主要組別:無條件和有條件的擴散模型,重點關注時間序列和時空數據。

在無條件類別中,擴散模型以無監督方式操作,生成數據樣本無需監督信號。這一設置代表了分析時間序列和時空數據的基礎方法。在此類別中,文獻可以進一步分為基于概率的和基于評分的擴散模型。例如,去噪擴散概率模型(DDPMs)[2]和基于評分的隨機微分方程(Score SDEs)[4],[6],如第2節所介紹。這一類別的研究廣泛地組織為兩個任務組:預測任務和生成任務。預測任務通常涉及預測和異常檢測,利用歷史數據和模式來預測當前和/或未來事件。相反,生成任務則專注于識別大型數據集中的模式以生成新內容,如時間序列的插值和增強。這些方法被開發用于兩種主要數據形態:時間序列和時空數據,以滿足包括醫療保健、能源、氣候、交通等多個領域的廣泛應用。

在有條件類別中,擴散模型被定制用于時間序列和時空數據的條件分析。實證研究表明,使用數據標簽的條件生成模型比它們的無條件對應物更易于訓練且性能更優[75]。在這一上下文中,標簽(也稱為條件)通常來自各種來源,例如提取的短期趨勢[34]和城市流量圖[35],以增強模型推斷。這一類別采用基于概率和基于評分的擴散模型來應對預測和生成任務,提供了在特定約束下利用擴散模型應對時間序列和時空數據分析實際挑戰的新視角。

在對模型類別、任務類型、數據形態和應用領域的基礎理解的基礎上,我們更深入地探索了時間序列和時空數據分析中的擴散模型。每個部分都旨在解開擴散模型應用中固有的復雜性和細微差別,從多個視角提供全面概述。在第4節中,我們探討擴散模型的景觀,突出無條件和有條件方法之間的區別及其含義。第5節從預測和生成的視角分析任務,詳細說明了預測、生成、異常檢測和數據插值等具體功能。第6節檢查數據形態,區分時間序列和時空數據,概述模型挑戰和適用性。最后,第7節將討論擴展到應用領域,展示擴散模型在醫療、交通、序列推薦、氣候、能源和音頻等領域的廣泛實用性。這種結構化的探索旨在裝備讀者深入理解擴散模型處理復雜時間序列和時空數據挑戰的潛力和當前狀態。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

時間序列分類在金融、醫療和傳感器數據分析等多個領域都是一個關鍵任務。無監督的對比學習在從標簽有限的時間序列數據中學習有效表示方面引起了廣泛關注。現有的對比學習方法中普遍的方法包括兩個獨立的階段:在無標簽數據集上預訓練編碼器,然后在小規模有標簽數據集上對經過良好訓練的模型進行微調。然而,這種兩階段方法存在幾個缺點,例如:無監督預訓練對比損失不能直接影響下游的微調分類器,以及缺乏利用由有價值的真實標簽指導的分類損失。在本文中,我們提出了一個名為SLOTS(半監督時間分類學習)的端到端模型。SLOTS接收半標簽數據集,其中包含大量的無標簽樣本和少量的有標簽樣本,并通過編碼器將它們映射到一個嵌入空間。我們不僅計算無監督的對比損失,而且在具有真實標簽的樣本上測量有監督的對比損失。學到的嵌入被送入一個分類器,并使用可用的真實標簽計算分類損失。無監督、有監督對比損失和分類損失被聯合用來優化編碼器和分類器。我們通過與五個數據集上的十種最先進方法進行比較來評估SLOTS。結果表明,與兩階段框架相比,我們的端到端SLOTS使用相同的輸入數據,消耗類似的計算成本,但提供了明顯優化的性能。我們在 //anonymous.4open.science/r/SLOTS-242E 發布了代碼和數據集。

付費5元查看完整內容

近年來,大型語言模型(LLMs)已取得了顯著的進展。這些進展,雖然引起了極大的關注,同時也引發了各種擔憂。這些模型的潛力無疑是巨大的;然而,它們可能會產生不準確、誤導性或甚至有害的文本。因此,采用對齊技術來確保這些模型表現出與人類價值觀一致的行為變得至關重要本調查旨在為大型語言模型的對齊方法提供廣泛的探討,結合現有的能力研究。通過AI對齊的視角,我們將現行的方法和新出現的大型語言模型的對齊提案分類為外部和內部對齊。我們還探討了一些顯著問題,包括模型的可解釋性和潛在的對抗攻擊的脆弱性。為了評估大型語言模型的對齊,我們提出了各種基準和評估方法。在討論了大型語言模型的對齊研究狀況之后,我們最終展望未來,思考了未來有前途的研究方向。 我們對本次調查的愿景不僅僅是激發在這一領域的研究興趣。我們還希望彌合AI對齊研究社群和致力于探索大型語言模型能力的研究人員之間的差距,為能力強大且安全的大型語言模型牽線搭橋。

1 引言

以OpenAI的ChatGPT(OpenAI,2022年)和GPT-4(OpenAI,2023a年)為例的大型語言模型(LLMs)已經迅速發展,重新點燃了對人工通用智能(AGI)的熱忱和期望。雖然LLMs作為通向AGI的路徑仍是一個討論的話題,但這些模型,憑借著擴展規律(Kaplan等,2020年;Hoffmann等,2022年),越來越展現出類似AGI的特征(Bubeck等,2023年)。在大量數據的訓練下,LLMs不僅展示出了強大的語言能力,而且在數學、推理、醫學、法律和編程等多個領域迅速接近人類水平的熟練度(Bubeck等,2023年)。 伴隨著LLMs在技術上的突破,人們越來越關注它們可能對人類構成的潛在威脅和倫理風險。有明確的倫理風險已被發現。研究表明,LLMs可能會無意中傳播它們訓練數據中的有害信息,例如偏見、歧視和有毒內容(Weidinger等,2021年)。它們可能會泄露訓練數據中的私人和敏感信息,或生成誤導性、虛假或低質量的信息。此外,部署LLMs也引入了社會和倫理挑戰,例如LLMs的潛在濫用和對嚴重依賴LLM代理的用戶的負面影響,以及對環境、信息傳播和就業的更廣泛影響(Bubeck等,2023年)。

對于長期影響,人們普遍擔憂未對齊的AGI構成存在風險。超越人類智力和知識的AI代理可能會發展出自己的目標,與人類設定的目標產生分歧。在追求其目標的過程中,這樣的代理可能會壟斷資源,確保其保存和自我增強。這一軌跡可能導致人類完全失權,不可避免地導致人類存在的災難性后果(Carlsmith,2022年)。

作為解決這些問題的技術解決方案,AI對齊,即確保AI系統產生與人類價值觀一致的輸出,越來越受到關注。在LLMs的背景下,對齊確保模型的響應不僅準確和連貫,而且從開發人員和用戶的角度來看是安全、道德和可取的。隨著語言代理越來越融入我們日常生活的各個方面,從內容創建到決策支持,任何未對齊都可能導致意想不到的后果。正確地將大型語言模型與人類價值觀對齊,確保了這些模型的巨大潛力得到可信賴和負責任的利用。

響應這一領域日益增長的興趣,最近有一些文章回顧了(或偶然討論了)LLMs的對齊方法(Pan等,2023年;Zhao等,2023b年;Fernandes等,2023年;Liu等,2023d年;Wang等,2023d年)。然而,一個值得注意的觀察是,這些評論主要集中在外部對齊上,常常忽略了AI對齊中的其他重要主題,如內部對齊和機械解釋性。雖然無可否認,外部對齊在LLM對齊中占據了關鍵地位,并且一直是深入和深刻研究的主題,但從更廣泛的AI對齊角度來看,它只是整個對齊景觀的一部分。

了彌補這一差距,我們從AI對齊的角度提供了LLM對齊的全面概述。我們認為,對齊的全面理解不僅應該包括廣泛研究的外部對齊,還應該深入探討目前還處于起步階段的領域。諸如內部對齊和機械解釋性這樣的主題,雖然目前還處于研究的初級階段,但卻擁有巨大的潛力。在這個階段,這些領域的許多提案仍然是理論性的,或者僅僅是思考實驗。然而,我們認為,它們對LLM對齊研究的未來軌跡是不可或缺的。通過揭示這些被忽視的領域,我們希望呈現出一個更為全面的對齊視角。因此,除了現有的LLM對齊方法,我們還將介紹幾個對齊主題,盡管這些主題尚未應用于LLMs,但顯示出前景,并可能在可預見的未來成為LLM對齊的組成部分。通過這樣做,我們致力于豐富AI對齊及其在大型語言模型領域的多方面應用的論述。

總結所有這些因素,我們在圖1中提出了一個LLM對齊的分類法。具體來說,本調查將首先討論LLM對齊研究的必要性(第2節)。為了提供AI/LLM對齊的歷史和鳥瞰視圖,我們介紹了AI對齊的起源和相關概念(第3節)。根據我們提出的分類法,將對齊LLMs的理論和技術方法分為外部對齊(第4節)、內部對齊(第5節)和機械解釋性(第6節),遵循AI對齊的哲學(Krakovna,2022年)。除了這些理論和實證方法外,我們還進一步討論了LLMs當前對齊方法的潛在副作用和脆弱性,包括對抗攻擊(第7節),以及LLM對齊評估的方法和基準(第8節)。最后,我們提出了我們對LLM對齊研究未來趨勢的有限觀點(第9節)。

為什么LLM對齊?

LLMs不僅在文本生成方面變得越來越有能力,還在許多其他任務中展現出能力,例如,文本到代碼生成(Poesia等,2022年),計劃(Huang等,2022年;Song等,2022年),工具學習(Qin等,2023年),推理(Mialon等,2023年)。然而,LLMs的訓練目標(Radford等,2019年;Devlin等,2019年),例如,下一個單詞預測(Radford等,2019年)或確定兩個句子在上下文中是否相關(Devlin等,2019年),并不一定符合人類價值觀。因此,LLMs可能會生成人類希望避免的不良內容或冒險行為。LLM風險通常可以從兩個方面來看:已建立的風險和預期的風險(Weidinger等,2021年)。前者主要是觀察到的社會和倫理風險(Weidinger等,2021年),而后者是與高級LLM相關的未來潛在風險(Hendrycks等,2023年)。 什么是LLM對齊?

為了深入理解大型語言模型(LLMs)中的技術對齊,我們需要討論更廣泛的概念,即AI對齊。盡管這是一個新興領域,但在LLMs出現之前就已經進行了研究。我們簡要介紹AI對齊的起源、研究格局和要點,以及與AI對齊相關的概念,這些都為LLM對齊及其最近出現的子領域提供了背景。

AI對齊的起源

AI對齊的起源可以追溯到激發AI革命的最初愿望:創建能夠像人類一樣思考和行動,甚至超越人類的機器。如果我們成功創建了這樣強大的機器,我們如何確保它們按照我們的最佳利益行事,而不是反對我們呢?這個未解之謎不僅引發了好奇心,而且強調了我們在塑造AI未來時所承擔的深遠責任。

賽博格學之父Norbert Wiener在一篇發表在《科學》雜志上的論文中提出了這樣的擔憂(Wiener, 1960): “如果我們為了實現我們的目的,使用了一個我們一旦啟動就無法有效干預其操作的機械機構,因為這個行動如此迅速和不可逆,以至于我們在行動完成之前沒有數據進行干預,那么我們最好確保放入機器的目的是我們真正的愿望,而不僅僅是它的多彩模仿。”

這個聲明強調了確保“機械機構”的目標與我們為它設定的真正目標一致的重要性,強調了機器和人類目標之間的對齊。

2014年,人工智能:一種現代的方法(Russell和Norvig,2010)的作者之一Stuart Russell在一次采訪中表示:要深入了解LLMs中的技術對齊,我們需要討論AI對齊這一更為廣泛的概念。即便這是一個新興領域,但AI對齊的研究在LLMs出現之前就已經開始。我們簡要介紹了AI對齊的起源、研究景觀和成分以及相關概念,為LLM對齊及其新興的子領域提供背景。

“正確的響應似乎應該是改變該領域本身的目標;我們需要構建的不是純粹的智能,而是可以證明與人類價值觀相一致的智能。由于實際原因,我們需要解決即便是在人類環境中操作的相對不那么智能的AI系統的價值對齊問題。如果我們理解這個問題是AI固有的一部分,就像容納是現代核聚變研究的固有部分一樣,那么我們有理由保持樂觀。世界不需要走向悲傷。” —— Stuart Russell, 2014。 他定義了“價值對齊問題”(VAP),強調了建造不僅聰明而且與人類價值觀一致的AI系統的需要。盡管AI對齊的概念在AI誕生之初就已經種下,但過去幾十年基本上沒有進行研究。長時間以來,AI在各種能力方面都沒有達到人類水平,甚至被嘲笑稱為“人工白癡”。

然而,最近的進展,尤其是大型語言模型的崛起,已經將AI能力推向了接近甚至超過人類在許多任務上的表現的水平。這種復蘇使得AI對齊的重要性和緊迫性浮出水面。從2012年開始,在相關論壇和arXiv上已經開始出現了關于AI對齊的討論和研究文章。到2017年,關于AI對齊的出版物已經爆炸性地增長,論文數量從每年不到20篇增加到了超過400篇(Kirchner等,2022),與Transformer(Vaswani等,2017)和GPT(Radford等,2018)的發明相吻合。

相較于其他AI研究領域,如自然語言處理,AI對齊還處于前范例階段(Kirchner等,2022)。這個新興領域中的許多關鍵概念和術語還沒有達成共識。術語如“對齊”,“AI對齊”,和“價值對齊”在討論中經常可以互換使用。在某些上下文中,“人機對齊”作為“AI對齊”的替代詞出現。而“對齊”一詞在AI對齊的上下文中是合適的,但在更廣泛的上下文中可能會產生歧義,可能與機器翻譯中的雙語對齊等其他對齊概念混淆。 此外,對AI對齊的定義還沒有達成共識。Paul Christiano將AI對齊定義為“如果A在嘗試做H希望它做的事,那么A就與H一致。”這個定義過于泛泛了然,因為幾乎所有的AI模型都在盡力做其創建者希望它們做的事。

在此調查中,我們從其內在的角度定義AI對齊:AI對齊確保AI代理的內外目標都與人類價值觀一致。外部目標是基于人類價值觀由AI設計師定義的,而內部目標則是AI代理內部優化的。這一定義雖然區分了AI代理的內外目標,但并未準確定義人類價值觀,因此略顯不精確。將AI系統的目標分類為外部目標和內部目標的原因在于AI對齊的技術性質(Hubinger等,2019c)。在這個定義中沒有指定人類價值觀,是因為AI對齊固有的社會和技術挑戰(Hendrycks等,2021)。

AI對齊的研究格局和成分

眾所周知,從廣泛的角度來看,AI對齊的關鍵研究議程包括外部對齊、內部對齊和可解釋性(Hubinger, 2020b; Ngo, 2022; Krakovna, 2022)。

外部對齊

這是選擇正確的損失函數或獎勵函數,并確保AI系統的訓練目標符合人類價值觀。換句話說,外部對齊試圖將指定的訓練目標與其設計者的目標對齊。至少出于以下原因,這在實踐中非常困難: ? 通常很難理解和定義人類價值觀或意圖。 ? 人類價值觀有很多不同的細粒度維度。我們需要將指定的目標與所有這些維度對齊嗎? ? 人類價值觀通常受社會和文化限制。我們需要將指定的目標與所有不同的文化和社會對齊,還是只對其中的一部分對齊?考慮到文化和社會的多樣性,我們如何確保價值對齊的公平性? ? 由于人類價值觀/意圖通常是定性的,而要優化的損失或獎勵必須是可衡量和可計算的,我們如何彌合它們之間的差距?這被稱為目標規范問題。 ? 外部對齊可能會遭受規范游戲的困擾,其中由于古德哈特定律,可能會出現無法預見的目標或后果。古德哈特定律起源于經濟學,其內容是“當一項衡量變成一個目標時,它就不再是一個好的衡量”。這與外部對齊有關,因為某個價值的代理是要被優化的目標,它可能不再是一個好的代理。

**內部對齊

這是為了確保AI系統實際上經過培訓以實現設計師設定的目標。一旦我們指定了培訓目標,我們需要確保AI系統的行為實際上符合這些規范。由于AI系統,尤其是深度學習模型,可以開發出難以從其訓練數據或目標中預測的行為,這是具有挑戰性的。例如,一個經過訓練來贏得游戲的AI系統可能會找到一個意想不到的漏洞或者逃避通道,這在技術上滿足了它的目標,但違反了游戲的精神。目標錯誤泛化問題(Shah等人,2022)是另一個例子,即使我們有正確的目標規范,由于在未見情況下的魯棒性失敗,仍然可能產生無意的目標。內部對齊確保AI的“內部”目標(它在學習過程中推導或優化的目標)符合設計師設定的“外部”目標。 外部和內部對齊對于構建安全可靠的AI至關重要。如果失敗,我們冒著創造的系統的行為與人類價值觀或意圖不一致的風險。隨著LLMs變得更加有能力,這些對齊問題的重要性增加,使得LLM對齊的研究與LLM能力的研究一樣關鍵。

**可解釋性

在AI對齊的背景下,可解釋性廣泛地指的是促使人們理解AI系統的內部運作、決定和行為的方法、模型和工具。它可以進一步分為: ? 透明性:這是通過追蹤AI系統的內部狀態來理解黑盒中的AI系統的內部運作,從而引導其行為和決定。透明性的一個新興而有趣的方法是機械可解釋性,它尋求將機器學習系統(特別是神經網絡)的輸出和行為逆向工程到其內部狀態、權重和組件(Nanda等人,2023)。由于LLMs中參數的巨大數量以及LLMs作為大型神經網絡的系統復雜性,逆向工程LLMs是非常困難的。當前的機械可解釋性通常在LLMs的小型和簡化模型上進行(例如,去除了FFN子層的兩個神經層)(Elhage等人,2021; 2022a)。然而,這是一個相當有前途的方向,為神經網絡的對齊提供了深刻的見解,并有望在未來取得突破。 ? 可解釋性:這涉及AI系統為其決定提供人類可理解的解釋的能力。在許多關鍵領域,例如醫療保健、金融和執法,AI做出的決定對許多方面都有深遠的影響。例如,考慮一個醫療診斷AI。如果這個系統預測一個患者患有特定的醫療病癥,僅僅輸出這樣的預測結果是不夠的。醫療專業人員、患者和其他利益相關者會想要知道這個預測是如何做出的。它是否考慮了患者的病史、最近的實驗室結果或特定的癥狀來做出全面的決定? 解釋通常被視為模型輸出的事后分析,該模型允許模型更多地了解其預測。透明度是查看模型內部以揭示模型的運作方式。盡管這種劃分不是絕對的(Lipton,2017),透明度更多地與對齊相關,因為透明度工具不僅使我們了解模型的內部結構,還提供了模型在培訓過程中變化的見解(Hubinger,2022a)。

**外部對齊、內部對齊和可解釋性之間的關系

外部和內部對齊共同確保模型的行為與人類的價值觀和意圖一致。外部對齊專注于從人類目標到模型的規范,而內部對齊深入研究模型的內部優化過程,以保證模型本質上試圖做設計師希望它做的事情。盡管存在這種差異,他們的二元和形式主義二分法并不建議,因為對齊失敗的分類有時是模糊的,構建安全和可信賴的系統時,整體對齊觀點是重要的。8雖然可解釋性不直接針對對齊,但其工具和技術可以幫助外部和內部對齊。通過了解模型如何演化和做出決定,我們可以更好地識別何時以及在哪里發生不對齊。例如,如果模型采取意想不到的捷徑來實現其目標,可解釋性可能會幫助我們了解這何時以及如何發生。此外,可解釋性可以向我們提供模型的內部推理過程的見解。

近年來,LLM(大型語言模型)的快速發展無疑揭開了新技術力量的新紀元。然而,隨著這一力量的出現,我們也承擔著確保這些模型在人類倫理和期望的范圍內運作的責任。本文提供了針對LLM的對齊方法的全面概述,強調了將能力研究與倫理考慮相結合的重要性。我們通過將對齊技術分類為外部對齊和內部對齊,揭示了研究社區目前所采用的多方面方法。同時,我們也討論了新興的主題,如模型的可解釋性和對抗性攻擊的脆弱性,突出了對齊過程中的復雜性。此外,本文不僅記錄了當前對齊研究的現狀,還展望了未來,確定了有望進一步完善和提高LLM對齊的潛在研究軌跡。我們真誠希望這份調查能作為催化劑,促進AI對齊社區與LLM研究人員之間的合作。這樣的合作方法是實現LLM全部潛力的必要條件,確保它們以道德合規和有益的方式服務于人類。總之,當我們繼續推動LLM的可能性邊界時,我們必須始終堅守對其負責任和有原則的部署的承諾。

付費5元查看完整內容

中文關系抽取任務旨在識別中文文本中實體對的語義關系。基于預訓練語言模型的方法達到了當前最優 結果。得益于大規模的訓練語料,預訓練語言模型能夠學習到訓練語料中的語言知識,提高了中文關系抽取模型 的泛化能力,但其龐大的參數規模需要消耗大量的存儲和計算資源。為此,該文提出了基于語言模型增強的中文 關系抽取方法,該方法基于多任務學習范式,促進輕量級的中文關系抽取模型學習預訓練語言模型中的語言知識。 該文在三個中文關系抽取數據集上的實驗結果表明了基于語言模型增強的中文關系抽取方法的有效性,僅使用預 訓練語言模型1%的參數即可達到其95%的性能。

付費5元查看完整內容

為了追求精度,深度學習模型框架的結構越來越復雜,網絡越來越深。參數量的增加意味著訓練模型需要更多的數據。然而人工標注數據的成本是高昂的,且受客觀原因所限,實際應用時可能難以獲得特定領域的數據,數據不足問題非常常見。數據增強通過人為地生成新的數據增加數據量來緩解這一問題。數據增強方法在計算機視覺領域大放異彩,讓人們開始關注類似方法能否應用在序列數據上。除了翻轉、裁剪等在時間域進行增強的方法外,也描述了在頻率域實現數據增強的方法;除了人們基于經驗或知識而設計的方法以外,對一系列基于GAN的通過機器學習模型自動生成數據的方法也進行了詳細的論述。介紹了應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法,亦有涉及它們在醫療診斷、情緒判斷等問題上的表現。盡管數據類型不同,但總結了應用在這些類型上的數據增強方法背后的相似的設計思路。以這一思路為線索,梳理應用在各類序列數據類型上的多種數據增強方法,并進行了一定的討論和展望。

//fcst.ceaj.org/CN/abstract/abstract2790.shtml

付費5元查看完整內容

來自傳感器網絡、可穿戴設備和物聯網(IoT)設備的大量數據凸顯了對利用去中心化數據的時空結構的高級建模技術的需求,因為需要邊緣計算和許可(數據訪問)問題。雖然聯邦學習(FL)已經成為一種無需直接數據共享和交換的模型訓練框架,但有效地建模復雜的時空依賴關系以提高預測能力仍然是一個懸而未決的問題。另一方面,最先進的時空預測模型假定對數據的訪問不受限制,而忽略了數據共享的約束。在跨節點聯合學習的約束下,我們提出了跨節點聯合圖神經網絡(CNFGNN)的聯邦時空模型,該模型使用基于圖神經網絡(GNN)的體系結構對底層圖結構進行顯式編碼,這要求節點網絡中的數據在每個節點上本地生成,并且保持分散。CNFGNN通過分離設備上的時間動態建模和服務器上的空間動態,利用交替優化來降低通信成本,促進邊緣設備上的計算。交通流預測任務的計算結果表明,CNFGNN在不增加邊緣設備的計算成本的情況下,在傳感和歸納學習環境下均取得了最佳的預測性能,同時通信成本較低。

付費5元查看完整內容

持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司