表格數據作為各個領域中廣泛存在的數據類型,由于其異質性和復雜的結構關系,帶來了獨特的挑戰。在表格數據分析中實現高預測性能和魯棒性,對眾多應用具有重要意義。受自然語言處理領域近期進展的影響,特別是Transformer架構的影響,表格數據建模的新方法不斷涌現。早期技術集中在從頭開始訓練Transformers,但往往遇到可擴展性問題。隨后,利用預訓練語言模型(如BERT)的方法得到了發展,這些方法需要較少的數據,并且表現出更好的性能。最近,隨著大型語言模型(如GPT和LLaMA)的出現,這一領域發生了進一步的革命,使得僅需最少微調便可實現更先進和多樣的應用。
盡管人們對此領域的興趣日益增長,但關于表格數據語言建模技術的全面綜述仍然缺乏。本文填補了這一空白,系統回顧了表格數據語言建模的發展,內容包括:(1) 不同表格數據結構和數據類型的分類;(2) 模型訓練中使用的關鍵數據集和評估任務的回顧;(3) 建模技術的總結,包括廣泛采用的數據處理方法、流行架構和訓練目標;(4) 從傳統的預訓練/預訓練語言模型到大型語言模型的演變;(5) 識別表格數據分析中語言建模的持續挑戰和潛在的未來研究方向。與本綜述相關的GitHub頁面可訪問://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。 關鍵詞: 語言建模, 表格數據, 預訓練語言模型, 大型語言模型
表格數據由具有一致特征集的行組成,是現實世界中最常見的數據類型之一,廣泛應用于不同領域[1, 2]。在某些關鍵領域[3-5],實現高預測性能和魯棒性可以帶來顯著的利益。然而,由于表格數據的復雜結構,進行有效分析具有一定挑戰性。例如,表格數據中的一個樣本可以是表格中的單行(1D表格數據),也可以是一組表格中的完整表格(2D表格數據)。此外,表格數據通常具有廣泛的異質特性[6],如數值型、分類型和文本元素等多種數據類型。同時,表格中的列與行之間往往存在復雜的關系。 在過去的幾十年中,自然語言處理(NLP)領域的語言建模取得了顯著的進展,特別是Transformer架構的出現。在表格建模的背景下,早期研究主要集中于使用NLP技術處理表格數據,如嵌入機制、預訓練方法和架構修改。這些工作主要涉及從頭開始為表格數據預訓練基于Transformer的模型,這需要大量的數據,在某些領域(如醫療[7, 8])中可能不切實際。雖然這些方法在某些場景中有效,但往往面臨可擴展性和效率方面的挑戰。同時,一些研究者利用預訓練語言模型(PLMs)(如BERT [9])對表格數據進行建模。這些基于PLM的模型需要較少的訓練數據,同時提供了更優越的預測性能。這表明,在特定任務的表格數據集上調整和重用預訓練語言模型的有效性[10]。
最近,大型語言模型(LLMs)的出現進一步改變了這一領域的格局。諸如GPT [11]和LLaMA [12]等模型展示了卓越的能力,在多種任務中實現了最先進的結果,且僅需少量微調。這些模型在少樣本和零樣本學習場景中表現出色,能夠在幾乎無需額外訓練數據的情況下執行復雜任務。這一發展為在表格數據中利用LLMs進行更高級和多樣化的應用開辟了新的途徑[13]。這一從從頭訓練模型或使用PLMs到采用LLMs的演變,標志著表格數據語言建模中的一個重大范式轉變。
盡管對從表格數據中提取廣泛知識的興趣日益濃厚,但研究社區中缺乏一個全面的綜述,能夠清晰地整理現有的表格數據語言建模方法,概述技術趨勢,識別挑戰,并提出未來的研究方向。為填補這一空白,本文通過對表格數據語言建模的系統回顧,提供了一次全面的綜述。本文旨在在這一范式轉變的關鍵時刻,對表格數據語言建模的發展進行全面的總結和分類,展示這一前景廣闊的研究領域的全貌。 總而言之,本綜述的主要貢獻有三點。首先,本文首次將表格數據分類為1D和2D數據格式。與現有綜述只關注用于傳統任務(如推理和數據生成)的1D表格數據[14, 15]或專注于更復雜任務(如信息檢索和表格理解)的2D表格數據[16, 17]不同,本文首次對兩種類型的表格數據的任務和數據集進行系統回顧。其次,本文回顧了表格數據語言建模技術的最新進展,并提供了詳盡的分類。第三,本文強調了表格數據語言建模中的各種研究挑戰和潛在的探索方向。
本文的結構如圖2所示。首先,我們在第2節介紹了表格數據的基礎,提供了四個主要部分的全面概述:數據結構(第2.1節)、數據類型(第2.2節)、下游任務(第2.3節)和數據集(第2.4節)。我們解釋了最近研究關注的兩種主要表格數據結構:1D和2D表格數據。同時,我們討論了表格領域中的不同數據類型。接下來,我們詳細描述了八大主要下游任務:表格問答(第2.3.1節)、表格檢索(第2.3.2節)、表格語義解析(第2.3.3節)、表格元數據預測(第2.3.4節)、表格內容填充(第2.3.5節)、表格預測(第2.3.6節)、表格事實核查(第2.3.7節)和表格生成(第2.3.8節)。隨后,我們概述了一些常用的數據集及其關鍵特性,這些數據集與不同的下游任務相關聯。
接下來,我們呈現了對近期研究的分類,總結了表格數據語言建模技術,并將其分為三個關鍵領域:輸入處理(第3.1節)、中間模塊(第3.2節)和訓練目標(第3.3節)。具體而言,輸入處理專注于將原始表格數據轉換為適合語言模型的格式。我們進一步將輸入處理技術分為具體的子類別:數據檢索(第3.1.1節)、表格序列化(第3.1.2節)和上下文整合(第3.1.3節)。在中間模塊中,我們討論了兩個組成部分:位置編碼(第3.2.1節)和注意力機制(第3.2.2節),這些組件經過修改以在表格領域中實現更好的預測性能。此外,我們討論了訓練目標,它在幫助語言模型學習語義信息方面起著關鍵作用。 隨后,我們分析了語言模型在表格領域的演變(第4節)。首先,我們描述了早期從頭預訓練和使用PLM的適應性及其優勢,特別是Transformer的引入(第4.1節)。然后,我們回顧了LLMs在表格數據建模中的最新進展,并強調了它們與以往方法的不同之處(第4.2節)。 最后,我們在第5節中指出了表格數據語言建模中的若干挑戰和未來的機遇,并在第6節總結了本文的內容。
隨著人工智能技術的飛速發展,大語言模型已在眾多領域得到了廣泛應用。然而,大語言模型可能 會生成不準確、有誤導性甚至有害的內容,這引發了人們對大語言模型可靠性的擔憂,采用對齊技術來確保 大語言模型的行為與人類價值觀一致已經成為一個亟待解決的問題。對近年來大語言模型對齊技術的研究進 展進行綜述。介紹了常用的指令數據收集方法和人類偏好數據集,概述了監督調整和對齊調整的相關研究, 討論了模型評估常用的數據集和方法,總結并展望了未來的研究方向。
近年來,大語言模型(如 OpenAI 的 Chat‐ GPT)[1] 的迅猛發展引發了人們對人工智能的濃 厚興趣和高度期望,同時也引發了人們的廣泛探 討。大語言模型不僅展現出卓越的自然語言處理 能力,還在數學、推理和編程等多個領域中接近 甚至超越普通人類的水平[2] 。這些成就主要得益于大語言模型在超大規模的文本語料庫上的預訓 練,這使它們積累了海量的世界知識,并能基于 這些知識生成連貫和流暢的文本輸出。盡管大語 言模型已在眾多領域得到了廣泛應用,但它們在 生成內容時仍可能存在不準確、有誤導性甚至包 含有害信息的風險,這引發了人們對大語言模型 可靠性的擔憂。 當前,研究人員正在積極探索如何確保大語 言模型的行為與人類價值觀一致。對齊是指通過 調整和優化大語言模型的決策過程,以確保其輸 出不僅準確無誤,而且遵循道德規范、沒有偏 見,并且能反映出社會普遍認可的價值觀和倫理 標準。對齊的目的在于創建一個既能理解和生成 人類語言的模型,又能在其決策中體現出對公 平、透明和責任的重視,減少可能產生的負面影 響,如傳播虛假信息或有害內容。然而在對大語 言模型進行對齊調整及后續評估過程中仍面臨著 以下挑戰。 (1)數據質量和多樣性問題 調整大語言模型需要大規模和高質量的指令 數據集,這可以確保模型在各種場景下都擁有良 好的表現。訓練數據的質量和多樣性會直接影響 大語言模型回復的準確性,但為模型調整階段收 集高質量的訓練數據十分困難且代價高昂。 (2)訓練策略問題 在大語言模型的對齊調整階段,為模型制定 合適的訓練策略至關重要。這一階段通常采用強 化學習算法來為模型注入人類偏好,但這類算法 常常會面臨穩定性和可靠性方面的挑戰,這可能 會導致模型在面對不同場景時的表現有所差異。 (3)缺乏評估標準和指標問題 由于大語言模型的多功能性和廣泛的應用領 域,目前大語言模型缺乏通用的評估標準和指 標。大語言模型在不同任務和應用中可能需要不 同的指標,例如,對于語言生成類任務,模型的 流暢性、多樣性和信息準確性可能是關鍵指標; 而對于文本分類任務,人們則更關注模型的準確 率、召回率等傳統性能指標,這進一步增加了模 型評估的復雜性。此外,大語言模型在不同應用 場景下可能呈現出截然不同的表現,這也給評估 工作帶來了挑戰。 研究人員為解決這些問題進行了大量研究。 對于數據質量和多樣性問題,研究人員提議利用 現有的自然語言處理(natural language process‐ ing,NLP)基準、人類標注和目前性能較先進的 大語言模型(如ChatGPT[1] 和GPT-4[3] )來生成大 規模和高質量的指令數據。對于訓練策略問題, 目前的解決方案主要涉及優化訓練方法,在注入 人類偏好時提高模型訓練的效率和穩定性。目前 研究人員已經提出了基于強化學習和獎勵模型的 訓練方法,如人類反饋強化學習(reinforcement learning from human feedback,RLHF)[4] ,這可 以有效地將人類偏好與大語言模型整合。還有研 究將人類偏好視為基于排名的訓練數據進一步增 強訓練的穩定性和性能。對于缺乏評估標準和指 標的問題,目前研究人員已提出了針對大語言模 型的評估基準和專門用于評估大語言模型的大 模型。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
隨著 ChatGPT 等基于大模型的產品展現出強大的通用性能,學術界和工業界正積極探索如何 將這些模型適配到特定行業和應用場景中,即進行垂直領域大模型的定制化。然而,現有的通用大模 型可能無法完全適配特定領域數據的格式,或不足以捕捉該領域的獨特需求。因此,本文旨在探討垂 直領域大模型定制化的方法論,包括大模型的定義和類別、通用架構的描述、大模型有效性背后的理論 基礎,以及幾種可行的垂直領域大模型構建方法,期望通過這些內容為相關領域的研究者和從業者在 垂直領域大模型定制化方面提供指導和參考。
ChatGPT 以其卓越的通用性能重塑了人們對人工智能的理解。作為 ChatGPT 的核心,大語言模 型(Large language model)已經成為眾多領域研究人員和專業人士改進工作流程的重要工具。通用大 模型通常在廣泛的公開數據集上進行訓練,這使得它們能夠學習并解決各種常見問題,但這些數據集 無法完全覆蓋某些特定領域的所有專業知識和技術細節,這導致盡管通用大模型具備廣泛的通用知 識,卻缺乏足夠的知識深度來滿足某些特定領域的復雜需求。因此,針對特定行業的需求來構建垂直 領域大模型變得尤為重要。垂直領域大模型,或稱垂類大模型、行業大模型,是針對特定領域的數據和 應用而開發的大模型[1] 。與通用大模型相比,它們在訓練過程中會使用大量特定領域的數據,從而能夠 更準確地理解和生成與該領域相關的專業內容。 隨著類 ChatGPT 的產品和神經網絡模型的接連推出,“大模型”概念的范圍也在逐步擴張[2?4] 。鑒 于相關概念繁雜,為了確定本文的研究共識,需要對“大模型”概念進行定義并闡述其特點,從而奠定后 文對垂直領域大模型定制化的敘述基礎。本文所提及的大模型(Foundation model),是在多模態大模型 (Multimodal large model)五模塊框架(下文將詳細介紹該框架)中,包含了能夠實現其中一個或多個模 塊功能的神經網絡模型,且該模型符合以下特點: (1)大數據。使用覆蓋了多種場景的大量數據進行模型的訓練,為模型提供充足的知識。 (2)大參數。模型的參數量達到一定規模,足以將大量數據中隱含的知識固化到模型參數中。 (3)通用性。模型的輸入數據格式和數據處理流程能夠適配多種任務場景下的輸入格式和需求。 (4)泛化性。模型擁有一定的泛化性,使其在未知數據域中依然具有良好性能。 根據大模型可處理的模態數量,可將大模型分為單模態大模型和多模態大模型: (1)單模態大模型。VGG[5] ,ResNet[6] ,GPT?1 [7] ,GPT?2 [8] ,GPT?3 [9] ,GPT?3.5 turbo[10] ,BERT[11] , GLM[12?13] ,LLaMA[14] ,LLaMA?2 [15] ,iGPT[16] ,LVM[17] ,BART[18] 和 T5 [19] 。 (2)多 模 態 大 模 型 。 CoDi[20],CoDi ? 2 [21],Claude ? 3 [22],GPT ? 4 [23],LLaVA[24],BriVL[25],Image? Bind[26] 和 NExT?GPT[27] 。 在構建垂直領域大模型的過程中將面臨一系列挑戰,尤其是在數據獲取和預處理階段。比如,其 需要處理的垂直領域數據并不開源或難以獲取,具有私密性;或是數據模態與通用大模型使用的中心 模態不同,導致無法遷移現成的大模型處理該數據;又或是垂直領域數據與預訓練模型的數據域有所 不同,需要向預訓練模型輸入專業領域知識。垂直領域大模型應用方式靈活,涉及的應用領域繁雜,構 建難度大、開銷大,涉及的技術安全問題至關重要,期望產生的經濟效益高[28?30] ,因此有必要對其構建方 法論進行深入探索和全面梳理,并總結出相應的方法論。 以往的綜述文獻都更多地關注大模型本身的發展[2?4,31?36] ,但對于垂直領域大模型的定制化方法論 方面缺乏詳細的討論。本文通過介紹垂直領域大模型定制的理論基礎、垂直領域大模型的定制方法、 垂直領域大模型的應用實例,以及垂直領域大模型定制化的未來發展方向,為有意構建垂直領域大模 型應用的研究者及工作者提供模型定制方法論層面的參考。
在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。
在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?
鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。
作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。
盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。
大型語言模型(LLMs)在各個領域展示了卓越的能力,吸引了學術界和工業界的廣泛關注。盡管它們表現出色,但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰,特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中,知識蒸餾已成為一種有效的技術,可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查,探討了專門為LLMs量身定制的知識蒸餾技術。具體來說,我們將方法分為白盒KD和黑盒KD,以更好地說明它們的差異。此外,我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果,并提出了未來研究的方向。通過深入理解最新進展和實際應用,這項調查為研究人員提供了寶貴的資源,為該領域的持續進步鋪平了道路。
** 簡介**
大型語言模型(LLMs)[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量,成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比,這些模型對未見數據的泛化能力更強。此外,它們還展示了小型模型所不具備的能力,如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加(例如,具有1750億參數的GPT-3[12])。然而,參數規模的擴展帶來了顯著的缺點,尤其是在高推理成本和大量內存需求方面,使得實際部署變得具有挑戰性。例如,GPT-3需要大約350GB的模型存儲(float16),并且推理至少需要5個每個80GB內存的A100 GPU,這對碳排放的影響顯著。為了解決這些挑戰,模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行,或在最小延遲和模型性能之間取得平衡。因此,在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們,減少參數數量,同時保持最大性能。
隨著減少計算資源需求的必要性日益重要,知識蒸餾(Knowledge Distillation, KD)[43] 作為一種有前景的技術出現。KD是一種機器學習方法,專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中,從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講,知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中,較小的模型不僅要匹配原始數據標簽,還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型,生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展,許多研究綜合了各種蒸餾技術的最新進展。具體來說,Gou等[37] 對知識蒸餾進行了廣泛的綜述,涉及六個關鍵方面:知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣,Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準,稱為蒸餾度量標準,他們用它來評估不同的知識壓縮方法。此外,Hu等[48] 探討了跨多個蒸餾目標的各種師生架構,提出了不同的知識表示及其相應的優化目標,并系統地概述了師生架構,結合了代表性的學習算法和有效的蒸餾方案。
現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而,LLMs的出現給KD帶來了若干新挑戰:1)大型語言模型設計并非僅用于單一任務如文本生成,而是廣泛應用于各種任務和未見數據,包括新興能力。因此,評估壓縮LLMs的泛化能力需要仔細和全面的評估。2)現有綜述僅是對現有工作的總結,未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。
為應對這些挑戰,已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示,從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法,我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型:基于Logits的方法[43],在Logits層面傳遞知識,以及基于Hint的方法[109],通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法,其中僅能訪問教師模型的輸出。此類別通常包括三種方法:上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外,我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后,我們討論了不同蒸餾方法之間的關系和應用場景,并提出了未來研究方向。
本文其余部分安排如下:第2節簡要回顧了知識蒸餾方法的定義。接下來,第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景,第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后,第6節對本文進行了總結。
根據最近大語言模型(LLMs)的流行,已經有多次嘗試將其擴展到視覺領域。從擁有可以引導我們穿越陌生環境的視覺助手到僅使用高級文本描述生成圖像的生成模型,視覺-語言模型(VLM)的應用將極大地影響我們與技術的關系。然而,為了提高這些模型的可靠性,還有許多挑戰需要解決。雖然語言是離散的,但視覺在更高維的空間中演變,其中的概念并不總是容易離散化。為了更好地理解將視覺映射到語言的機制,我們介紹了這篇關于VLMs的綜述,希望能幫助任何希望進入該領域的人。首先,我們介紹了什么是VLMs,它們是如何工作的,以及如何訓練它們。然后,我們展示并討論了評估VLMs的方法。盡管這項工作主要關注將圖像映射到語言,但我們也討論了將VLMs擴展到視頻的可能性。
近年來,我們在語言建模方面看到了令人印象深刻的發展。許多大型語言模型(LLMs),如Llama或ChatGPT,現在能夠解決各種各樣的任務,其使用也越來越普及。這些模型主要局限于文本輸入,現在已經擴展到包含視覺輸入。將視覺與語言連接將開啟幾個在當前基于AI的技術革命中關鍵的應用。盡管已經有多項工作將大型語言模型擴展到視覺領域,但語言與視覺的連接并未完全解決。例如,大多數模型在沒有復雜的工程開銷和額外數據標注的情況下,難以理解空間關系或進行計數。許多視覺語言模型(VLMs)也缺乏對屬性和順序的理解。它們經常忽略輸入提示的一部分,導致需要進行大量的提示工程才能得到所需結果。其中一些還會產生幻覺,生成不必要或不相關的內容。因此,開發可靠的模型仍然是一個非常活躍的研究領域。 在這項工作中,我們介紹了視覺語言模型(VLMs)的入門知識。我們解釋了什么是VLMs,它們是如何訓練的,以及如何根據不同的研究目標有效評估VLMs。本工作不應被視為關于VLMs的綜述或完整指南。因此,我們并不打算引用VLM研究領域的每一項工作;也不涵蓋該領域的所有最佳實踐。相反,我們旨在提供一個清晰且易于理解的VLM研究介紹,并強調在該領域進行研究的有效實踐。該介紹特別適合希望進入該領域的學生或其他領域的研究人員。
我們首先介紹不同的VLM訓練范式。我們討論了對比方法如何改變了該領域。接著,我們介紹利用掩碼策略或生成組件的方法。最后,我們介紹使用預訓練骨干(如LLMs)的VLMs。將VLMs分類成不同的家族并不是一項容易的任務,因為它們中的大多數都有重疊的組件。然而,我們希望我們的分類能幫助新研究人員導航該領域,并揭示VLMs背后的內在機制。
接下來,我們介紹訓練VLMs的典型方法。例如,我們涵蓋了:根據不同的研究目標,哪些數據集是合適的?哪種數據策展策略?我們是否需要訓練一個文本編碼器,還是可以利用一個預訓練的LLM?對比損失對于理解視覺是否足夠,還是生成組件是關鍵?我們還介紹了用于提高模型性能以及更好地對齊和錨定的常見技術。 提供訓練模型的方法是更好地理解VLM需求的關鍵步驟,而提供對這些模型的穩健和可靠的評估同樣重要。許多用于評估VLMs的基準最近已經被引入。然而,其中一些基準有重要的局限性,研究人員應當注意。通過討論VLM基準的優缺點,我們希望揭示改善我們對VLMs理解的挑戰。我們首先討論評估VLMs視覺語言能力的基準,然后介紹如何衡量偏見。
下一代VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻面臨的挑戰與圖像不同。計算成本當然更高,但也有其他關于如何通過文本映射時間維度的考慮。通過揭示當前從視頻中學習的方法,我們希望強調需要解決的當前研究挑戰。
通過降低進入VLM研究的門檻,我們希望為更負責任的發展VLMs提供基礎,同時推動視覺理解的邊界。
鑒于深度學習在計算機視覺和自然語言處理領域的顯著進展,已經有多項將這兩個領域橋接起來的倡議。在本文中,我們重點介紹基于Transformers [Vaswani et al., 2017] 的最新技術。我們將這些最新的技術分為四種不同的訓練范式(圖1)。
第一種是對比訓練,這是一個常用的策略,它利用正負樣本對。VLM通過訓練,使其能夠為正樣本對預測相似的表示,而為負樣本對預測不同的表示。
第二種是掩碼策略,通過給定一些未掩碼的文本來重建被掩碼的圖像塊。同樣,通過掩碼標題中的詞語,可以訓練VLM在給定未掩碼圖像的情況下重建這些詞語。
基于預訓練骨干的VLMs通常利用開源的LLMs,如Llama [Touvron et al., 2023],以學習圖像編碼器(也可以是預訓練的)和LLM之間的映射。與從頭訓練文本和圖像編碼器相比,學習預訓練模型之間的映射通常計算成本較低。
雖然大多數方法利用中間表示或部分重建,生成式VLMs則以能夠生成圖像或標題的方式進行訓練。鑒于這些模型的性質,它們往往是訓練成本最高的。 我們強調,這些范式并不是互斥的;許多方法依賴于對比、掩碼和生成標準的混合。對于每種范式,我們僅介紹一到兩個模型,以便讀者對這些模型的設計有一些高層次的見解。
多項研究 [Henighan et al., 2020b,a] 強調了擴展深度神經網絡規模以提升其性能的重要性。受到這些擴展規律的啟發,最近的工作主要集中在增加計算能力和模型規模以學習更好的模型。這導致了諸如CLIP [Radford et al., 2021] 這樣的模型的出現,該模型使用了400M張圖像進行訓練,計算預算非常高。即使是相應的開源實現OpenCLIP [Ilharco et al., 2021] 也使用了256到600個GPU,訓練時間長達數天或數周,具體取決于模型規模。然而,最近的研究 [Sorscher et al., 2022] 表明,通過數據策展流水線,可以超越擴展定律。在本節中,我們首先討論訓練模型時數據的重要性,并介紹一些用于創建訓練VLMs數據集的方法。接著,我們討論從業者可能用來更高效地訓練VLMs的常用軟件、工具和技巧。由于訓練VLMs的方法不同,我們還討論了在特定情況下選擇哪種類型的模型。最后,我們介紹了一些提高錨定(正確將文本與視覺線索匹配)的技巧。我們還介紹了使用人類偏好改進對齊的方法。由于VLMs經常用于讀取和翻譯文本,我們也介紹了一些可以進一步提升VLMs OCR能力的技術。最后,我們討論了常見的微調方法。
由于VLMs的主要能力是將文本與圖像進行映射,因此測量視覺-語言能力至關重要,以確保文字確實與視覺線索相匹配。早期用于評估VLMs的任務是圖像描述和視覺問答(VQA)[Antol et al., 2015]。在本節中,我們還討論了評估模型從圖像中理解和讀取文本能力的文本中心VQA任務。另一個由Radford等人 [2021] 引入的常見評估方法基于零樣本預測,例如ImageNet [Deng et al., 2009] 分類任務。這類分類任務對于評估VLM是否具備足夠的世界知識非常重要。更近期的基準如Winoground [Thrush et al., 2022] 測量視覺-語言組合推理。由于VLM模型已知會表現出偏見或幻覺,因此評估這兩個組成部分也很重要。
我們迄今為止的重點是訓練和評估基于靜態視覺數據(即圖像)的VLMs。然而,視頻數據為模型帶來了新的挑戰和潛在的新功能,例如理解物體的運動和動態,或在空間和時間中定位物體和動作。文本到視頻的檢索、視頻問答和生成迅速成為計算機視覺的基本任務 [Xu et al., 2015, Tapaswi et al., 2016, Brooks et al., 2024]。視頻的時間維度對存儲、GPU內存和訓練提出了新的挑戰,例如,24幀每秒的視頻需要24倍的存儲和處理,如果每幀都被視為圖像。這需要在視頻VLMs中進行權衡,例如使用壓縮形式的視頻(例如,H.264編碼)并在數據加載器中即時解碼視頻;從圖像編碼器初始化視頻編碼器;視頻編碼器具有空間/時間池化/掩碼機制 [Fan et al., 2021, Feichtenhofer et al., 2022];非端到端VLMs(離線提取視頻特征并訓練模型,這些模型采用視頻特征而不是長視頻的像素幀)。與圖像-文本模型類似,早期的視頻-文本模型從頭開始訓練視覺和文本組件,并采用自監督標準 [Alayrac et al., 2016]。但與圖像模型不同的是,對比視頻-文本模型并不是首選方法,視頻和文本的早期融合和時間對齊更受青睞 [Sun et al., 2019],因為與計算視頻的全局表示相比,表示中的時間粒度更為有趣。最近,視頻-語言模型中也出現了類似于圖像-語言模型的趨勢:預訓練的LLMs被用于與視頻編碼器對齊,增強LLMs的視頻理解能力。現代技術如視覺指令微調也被廣泛使用并適應于視頻。
將視覺映射到語言仍然是一個活躍的研究領域。從對比方法到生成方法,有許多訓練VLMs的方法。然而,高計算和數據成本常常成為大多數研究人員的障礙。這主要激勵了使用預訓練的LLMs或圖像編碼器,僅學習模態之間的映射。無論訓練VLMs的方法是什么,都有一些普遍的考慮需要記住。大規模高質量的圖像和標題是提升模型性能的重要因素。改進模型的錨定能力和與人類偏好的對齊也是提高模型可靠性的重要步驟。 為了評估性能,已經引入了多個基準來測量視覺語言和推理能力;然而,其中許多基準有嚴重的局限性,如僅使用語言先驗就能解決。將圖像與文本綁定并不是VLMs的唯一目標;視頻也是一種可以用來學習表示的重要模態。然而,在學習良好的視頻表示之前,還有許多挑戰需要克服。VLMs的研究仍然非常活躍,因為要使這些模型更可靠,還需要很多缺失的組件。
時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。
1 引言
時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。
盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。
為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。
本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。
論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。
智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。
多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。
近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。
實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。
盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。
本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。
如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。