盡管人工智能,特別是深度學習在智能制造的各個方面都有顯著的改進,但由于泛化能力差、建立高質量訓練數據集的困難以及深度學習方法的不盡人意的性能,這些技術在廣泛應用方面仍面臨挑戰。大規模基礎模型(LSFMs)的出現在人工智能領域引發了一波浪潮,使深度學習模型從單任務、單模態、有限數據模式轉變為涵蓋多種任務、多模態并在大量數據集上進行預訓練的范式。盡管LSFMs已經展示出強大的泛化能力、自動高質量訓練數據集生成能力以及在各個領域的卓越性能,但LSFMs在智能制造領域的應用仍處于起步階段。對這個主題的系統性概述尚缺乏,尤其是關于深度學習的哪些挑戰可以通過LSFMs解決,以及如何系統地應對這些挑戰。為了填補這一空白,本文系統地闡述了LSFMs當前的狀況及其在智能制造背景下的優勢,并與當前深度學習模型在各種智能制造應用中面臨的挑戰進行了全面比較。我們還概述了利用LSFMs解決這些挑戰的路線圖。最后,通過在真實世界智能制造場景中應用LSFMs的案例研究來說明LSFMs如何幫助行業提高效率。
制造業是國家經濟的支柱之一,幾個國家已經宣布了戰略路線圖,以促進新制造技術的應用,確保在這一領域的領導地位,例如德國的工業4.0 [1]、美國的智能制造領導聯盟(SMLC) [2] 和中國制造2025 [3]。在過去的幾十年里,通過部署新技術如傳感器、物聯網(loT)、機器人、數字孿生以及網絡物理系統(CPSs) [4]–[15],制造業變得更加智能,其中在制造過程的所有階段持續生成并捕獲前所未有的數據量。因此,高效的數據處理算法被極為渴求,以實現有效的故障診斷和預測性維護、質量控制、人類操作、流程優化以及智能制造所需的許多其他智能決策 [16]–[20]。統計數據顯示,82% 使用智能制造技術的工業活動獲得了效率和性能的提升 [16], [21]。智能制造的這些改進主要歸功于各種機器學習算法的實施,這些算法隨著制造數據的規模和復雜性的增加,其中許多先進的數據驅動方法已被研究和采用,以實現大規模數據處理能力,高效率和強大的決策制定能力,這兩者通常是復雜制造活動所共同需要的。表1列出了這一領域的一些綜述文章 [22]–[88]。 傳統機器學習方法,如支持向量機、K最近鄰、樸素貝葉斯等,在一定程度上可以提高制造業的決策性能 [89]–[91]、生產線調度 [92], [93]、機器維護安排 [94], [95]、故障預測 [96]–[98]、質量評估 [99], [100] 和缺陷檢測 [101], [102]。然而,它們過分依賴于手工特征工程以用領域知識表示數據,并且缺乏處理大規模數據中高度非線性關系的能力,限制了它們在智能制造中的應用 [103], [104]。 深度學習作為一種先進的機器學習方法,能夠通過采用多層神經網絡架構,從高維非線性原始數據中自動提取特征和識別模式,使其更適應智能制造的復雜數據處理。在過去的十年里,深度學習方法是智能制造各個領域中主流的數據驅動方法,例如健康管理(PHM) [105]–[125]、質量控制 [126]–[142]、機器人 [143]–[149] 和人類活動識別 [66], [150]–[165]。 盡管深度學習展示了高層次的特征學習抽象表達能力,具有出色的端到端決策模型能力并且顯著減少了對人力的需求,從而大大推動了智能制造的發展,但在應用時仍面臨重大困難 [45], [166]–[169]。首先,為特定模式和目標定制的小型深度學習模型的性能受限。這些模型存在泛化能力有限、可解釋性差、易受攻擊等問題,無法滿足企業在智能生產和管理方面的需求,尤其是在數據多樣的復雜任務中 [170]–[175]。此外,它們只能以分散、松散耦合的方式處理個別任務 [176]–[178]。其次,數據規模增長和數據集建立成本的要求限制了深度學習模型的性能。作為一種數據驅動的方法,深度學習模型依賴于擬合輸入和輸出之間的關系,其中訓練數據集的數量和質量起著關鍵作用 [166]。盡管新技術如傳感器和物聯網使得高效收集大量數據成為可能 [179]–[184],但這些數據通常分布不均、噪聲多、缺乏標簽,并包含大量非結構化數據。因此,這些數據不足以訓練出好的深度學習模型。與此同時,深度學習模型處理大規模數據的效率不足。最近出現的大規模基礎模型 [185]–[189] 通常通過廣泛的自監著學習進行訓練,并展示了強大的泛化能力、卓越的零樣本性能和令人印象深刻的多模態融合能力,這在自然語言處理、計算機視覺等多種下游任務中取得的成功中得到了證明 [190]–[197]。盡管利用LSFMs應對智能制造中的挑戰的努力才剛剛開始,但已有一些進展被嘗試。[198], [199] 討論了LSFMs在工業制造中的潛在應用,但僅限于特定的工業任務或特定LSFM。Ji等人 [200] 提出了對比視覺基礎模型在隱蔽場景中的性能與最新深度學習模型的定量比較。Ogundare等人 [201] 提出了一項關于大型語言模型(LLMs)生成的工業自動化和控制系統的彈性和效率的研究。
盡管LSFMs在智能制造中展現出巨大潛力,其中強大的泛化能力、自動高質量訓練數據集生成和卓越性能非常受歡迎,但這一領域的研究仍處于早期階段,且關于智能制造應用中LSFMs的系統性綜述尚未出現。本文提出了在智能制造中使用LSFMs的技術路線圖,特別是在深度學習方法遇到重大障礙的地方。我們的工作旨在提供指導方向和討論,幫助理解LSFMs如何能夠惠及智能制造。
本文的其余部分組織如下。第二部分描述了深度學習模型在智能制造中遇到的挑戰。在第三部分,我們首先提供了LSFMs當前進展的簡要概述,隨后我們討論了LSFMs在智能制造中的技術優勢,這些優勢解決了深度學習所面臨的挑戰。第四部分闡述了在智能制造中應用LSFMs的路線圖。最后,在第五部分,我們通過幾個我們在實際制造場景中應用的案例來說明LSFMs如何在智能制造中取得進展。
大規模基礎模型(LSFMs)的進展
基礎模型旨在通過大規模數據集進行訓練,即擁有數十億至數千億的參數,并在近期首次被命名 [185]。這些模型在預訓練后可以固定大部分參數,并通過微調適應廣泛的下游應用。事實上,大規模基礎模型(LSFMs)在自然語言處理 [292]、計算機視覺 [293] 等領域取得了革命性的進展。
如圖2所示,大型語言模型(LLMs)領域見證了眾多令人印象深刻的進展 [294]–[297]。其中,GPT系列 [292], [294], [298], [299] 無疑是LLMs中最著名和最具標桿性的。GPT系列的最新版本,GPT-4 [292],支持多模態輸入,接受圖像和文本,并生成文本輸出。它是一個基于Transformer的模型,預訓練用于預測文檔中的下一個詞。后續的微調過程可以增強其事實準確性,并確保其性能與期望的行為一致。在各種專業和學術基準測試中,GPT-4展示了與人類水平相當的性能,尤其是在人機交互、教育、醫療和法律等領域。LlaMA模型 [300] 目前是最受歡迎的開源LLM,提供四種規模:7B、13B、30B和65B。由于LlaMA是在英文語料庫上進行預訓練的,因此在使用時通常需要用目標語言的指令或數據進行微調,從而產生了一系列擴展模型 [301]–[303],構成了LlaMA家族。
LSFMs在智能制造應用中的路線圖
A. 提升泛化能力的路線圖
預訓練與微調相結合:當模型參數和大小超過一定閾值時,這些模型不僅展示了突現的性能提升,還獲得了小規模模型所缺乏的功能,如邏輯推理能力 [294], [340]。在智能制造中,LSFMs結合預訓練和微調的方式提供了多種可能性,用以解決傳統小規模深度學習方法所遇到的問題。LSFMs在多樣化的通用數據集上進行預訓練,減少了對有限的、特定任務的數據集的依賴,因此盡管模型的參數量很大,也減輕了過擬合的風險。Kahatapitiya等人 [341],考慮到視頻-文本匹配數據的有限可用性,應用了一個預訓練的圖像-文本模型到視頻領域,用于視頻-文本匹配,而不是從頭開始訓練。此外,特定的微調策略可以增強模型的泛化能力,以進一步避免在小樣本學習中微調過程中可能出現的模型過擬合。Song等人 [342] 提出了一種稱為特征判別對齊(FD Align)的微調方法,通過保持偽特征的一致性來增強模型泛化能力,在分布內(ID)和分布外(OOD)任務中展示了有效性。
通過LSFMs構建結構化數據:LSFMs可用于提取和理解復雜的非結構化數據,并將其編碼為可管理的結構化格式,例如,處理工單中的非結構化文本數據 [343]。深度生成模型(DGM)和諸如VIT [304]之類的模型旨在從非結構化數據中發現復雜的高維概率分布,以提取更抽象、更復雜的特征。Oliveira等人 [344] 概述了四種類型的DGM:基于能量的模型(EBM)、生成對抗網絡(GAN)、變分自編碼器(VAE)和自回歸模型,以及它們如何應用于供應鏈管理(SCM)優化。
通過提示嵌入知識:一旦專家知識被編碼,它可以與輸入文本或圖像特征融合,從而提高輸出的準確性 [345]。許多LSMFs,如ChatGPT和SAM,固有地包含了手動提示編碼,允許通過提示融合領域知識,而無需修改模型。例如,對于抽象的人類行為活動,模型可能難以一次性描述它們。因此,可以引導它首先生成與對象相關的活動描述,強調區分相似活動的關鍵對象。隨后,它可以識別人類活動的活動類別并幫助解釋上下文 [346]。此外,LSFMs甚至可以在訓練過程中通過收集案例研究來收集相關的領域知識 [347]。
使用多模態LSFMs:智能制造通常產生多種形式的數據,包括自由文本維護日志、圖像、音頻和視頻記錄。這些數據的固有多樣性對深度學習模型中的單一模態構成了巨大的挑戰。諸如Visual-GPT [348] 和ImageBind [318] 之類的LSFMs已成為可行的解決方案。這些模型擅長于同時編碼一系列數據,包括圖像、文本、音頻、深度、熱能、IMU數據和時間序列信號數據 [349], [350]。這種擴展的能力不僅可以豐富智能制造中捕獲的數據范圍,還可以賦予LSFMs獨特的功能,如跨模態檢索、通過算術運算進行模態融合以及跨模態檢測和生成。利用這些廣泛的LSFMs有助于精確處理非結構化數據和綜合多樣化的結構化數據來源。在多種干擾特征的復雜工業環境中,LSFMs與傳統單模態深度學習方法相比展示了更強的魯棒性。
正則化和集成學習:LSFMs可以通過正則化和集成學習等方法解決過擬合問題。正則化可以限制模型的復雜性,修剪可以移除不必要的節點和連接,集成學習可以結合多個模型的預測結果以提高模型的泛化能力。盡管許多LSFMs,如GPT-3和PaLM在訓練期間沒有使用dropout [351],但它仍對LSFMs有重要影響。例如,通過在訓練過程中使用dropout,Galactica [296] 實現了一個1200億參數的模型而沒有過擬合。此外,為了緩解由于dropout導致的LSFMs訓練速度降低,逐漸在訓練過程中引入dropout可以產生與始終使用dropout相當的性能 [352]。
持續學習/終身學習:大多數當前在智能制造中的深度學習模型假設正常模式保持不變。然而,制造環境中的變化頻繁發生。持續學習/終身學習涉及在保留以前學到的知識的同時獲取和識別新知識。LSFMs具有通過收集過去任務結果作為經驗來進行持續學習的強大能力。通過這個過程,LSFMs利用以前的知識不斷提升自己 [347], [353]。LSFMs的持續學習特性使它們能夠在實際生產過程中不斷積累新知識,以適應復雜實際環境中的潛在變化 [347], [353]。這一能力有助于防止在固定模式上訓練的模型出現過擬合。對這個過程施加特定約束可以進一步提高模型的性能和穩定性 [354]。
LSFM輔助的知識圖譜構建:知識圖譜是通過理解圖結構獲取知識的表達形式 [355]。然而,知識圖譜工程(KGE)需要對圖結構、邏輯和知識內容有深入理解,因此工作量巨大。深度學習方法的上下文理解和表示能力不盡人意,特別是在遇到全新或罕見的知識時。利用LLMs的知識理解能力和高級推理技能,可以自動生成專業領域的知識圖譜 [356],并預計通過將知識圖譜與預訓練的語言模型相結合,增強模型對特定領域知識的理解 [357]。
B. 自動高質量訓練數據集生成的路線圖
生成更高質量的數據集:生成模型如擴散模型可以較傳統數據合成方法更有效地促進高質量合成數據的生成 [315]。使用文本到圖像的擴散模型可以生成真實的圖像變化以進行數據增強。與簡單的增強方法如拼接、旋轉、翻轉不同,基于擴散模型的增強可以改變更高層次的語義屬性,例如卡車上的油漆工作 [358]。為了解決訓練擴散模型本身需要大量數據的問題,Wang及其同事將二維擴散模型轉換為三維,使用鏈式規則,使得生成三維對象數據成為可能 [359]。此外,轉換可以用于加權平均或評分多個預測模型的結果,并學習和模擬歷史數據以獲得更強大的預測結果。 在第五部分,我們展示了如何使用LSFMs在工業生產線上實現低成本、自動化的動作識別數據注釋。
提高數據質量:高質量數據對模型訓練和智能制造中的決策至關重要,原始數據通常存在缺失值、異常值和重復值等問題。LSFMs可用于自動去除雜質數據,減少預測錯誤,提高數據質量。例如,BLIP [309] 依賴于中間訓練模型在訓練期間自動從數據集中移除匹配不良的圖像-文本對,并改進某些圖像的文本注釋。Lin等人 [360] 提出了一種基于條件生成對抗網絡(CGANs)的動態供應鏈成員選擇算法。為確保分類性能不會降低,鏈上的成員分類方法能成功降低分類過程中的數據維度和復雜性。
零樣本和少樣本:工業缺陷檢測的一個主要挑戰是缺乏異常樣本,工業產品的異常情況通常多樣且不可預測。LSFM可以有效地實現零樣本檢測或少樣本檢測。Gu等人 [324] 探索了使用大型視覺-語言模型(LVLMs)解決工業異常檢測問題,并提出了一種基于LVLM的工業異常檢測新方法,AnomalyGPT。在MVTec異常檢測數據集上,AnomalyGPT僅使用一個正常樣本就能實現86.1%的準確率,94.1%的圖像級AUC和95.3%的像素級AUC。這種應用方法不再需要收集異常樣本或為每個任務創建數據集來訓練特定模型,只需要少量數據的微調就能實現良好的檢測結果。例如,在預測性維護中,Leite等人 [361] 使用LLMs對可信度信號進行分類,這些信號通常用于評估預測內容的真實性。基于LLM的方法在兩個虛假信息數據集上的表現優于最先進的分類器,無需任何真實標簽。
預訓練與微調相結合:盡管一些初步工作為智能制造場景提供了數據集,如HAR [362]–[364]、質量控制 [365]–[367] 和PHM [368], [369],但這些數據集的特點是規模小、覆蓋范圍狹窄、場景單一、操作條件簡單、數據分布不均。LSFMs在廣泛數據上進行預訓練,可以識別真實世界實體的一般特征,為數據有限環境中實現精準靈活的智能制造提供有效解決方案 [294]。在大規模數據上訓練的預訓練模型隨后在小規模數據上進行微調,以提高模型的準確性和泛化能力。例如,Sun等人 [370] 在醫學文本中使用了BERT,并僅使用小數據集進行微調就取得了良好的性能。同樣,Radford等人 [299] 展示了GPT在不同任務中的遷移學習能力。
C. 卓越性能的路線圖
通過提示改進:通常情況下,訓練完成后,深度學習模型不再接受“指導”,而是基于訓練的參數進行推理。然而,LSFMs具有卓越的數據整合能力,可以通過利用各種形式的提示來提高輸出性能。Ji等人 [321] 發現提示的質量對LSFMs的準確性有重要影響。為了解決SAM在小尺度和不規則邊界上的次優分割性能,可以使用多個提示從分布中導出更精確的分割結果 [371]。特別是,Deng等人 [372] 使用先前分布參數的蒙特卡羅模擬來估計SAM的預測分布。這種方法允許通過考慮單個圖像的多個預測來估計任意不確定性。另外,也可以使用網絡來獲取增強的線索,通過輸入原始線索生成增強線索以產生遮罩,然后輸出增強線索。通過將這些線索合并為新的提示,可以提高分割性能 [373]。還應該謹慎處理解耦遮罩生成和提示嵌入,以防止誤導性提示對遮罩生成產生不利影響 [370]。
增強輸入數據:在LSFMs中,“基礎”一詞表明LSFMs可以輕松地作為與其他算法結合的基礎。這確保了即使LSFMs單獨使用時表現不佳,通過與其他算法結合仍能保證良好的性能。例如,視覺語言模型(VLM)表現出對各種損壞的強大魯棒性,但某些損壞如模糊相關的損壞會導致模型性能下降 [374]。此外,SAM在隱蔽和偽裝場景中的性能被證明是不足的 [200], [375]。幸運的是,已有大量關于去模糊 [376]–[378] 和檢測隱蔽和偽裝場景中目標的技術研究 [379], [380]。作為LSFMs的特點和優勢之一,VLM可以輕松地與其他模型結合,使用預處理數據作為輸入或將其他對象檢測器的檢測框作為提示。
跨模態預訓練:LSMFs克服了深度學習中單一任務和單一模態的限制,能夠在跨模態預訓練后通過統一模型實現多任務和多模態應用 [381]。通過在訓練中利用對比損失建立圖像和文本特征之間的關聯,可以實現開放集對象識別和檢測 [310]–[312]。這可以防止任務受到訓練中預定義類別的限制。為了達到令人滿意的預訓練性能,成功依賴于跨模態數據集的規模 [381], [382] 和模型利用弱對齊數據的能力 [383]。李等人 [384] 使用預訓練模型進行工業系統中視頻的弱監督標簽分類,以衡量視頻中的語義相似性。通過加入增強的跨模態Transformer模塊,他們最大限度地利用了視頻和紋理特征之間的交互信息。
預訓練結合微調:與深度學習在數據有限和流程復雜的情況下所達到的不令人滿意的準確度相比,大規模預訓練不僅賦予LSFMs強大的泛化能力,還賦予了它們更高準確度的潛力 [294], [340]。雖然直接使用預訓練的LSFMs可能并不總是優于特別設計的深度神經網絡 [321],但用特定智能制造領域的數據集數據有效地微調它們可以提高它們的準確度 [385], [386],潛在地超越現有的深度學習模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技術促進了LSFMs的微調過程。
此外,在集成數據集上訓練深度學習模型增加了數據泄露的隱私風險。使用預訓練的LSFMs作為解決方案可以提高數據安全性,減少從零開始訓練模型所需的大量數據帶來的隱私風險。這些預訓練模型能夠在最小化微調的情況下實現有效的結果,從而減少對敏感數據的暴露。在微調階段,LSFM網絡的有限部分需要調整,引入差分隱私技術。具體來說,Abadi等人 [390] 提出的技術在微調過程中得到了應用。這些措施可以保持微調LSFM過程中涉及數據的隱私,確保更安全的訓練環境。
采用分布式學習:制造業中的數據不像自然語言和其他領域那樣容易獲得,因此采用分布式學習方法 [391] 對于在智能制造中使用的LSFMs在訓練和安全方面可能都有益處,其中訓練數據可以從不同的生產線、工廠甚至國家獲得。分布式學習方法,如聯邦學習,涉及每個方的本地數據處理,只有中間結果(如梯度)被聚合用于模型更新。這使得客戶端(設備或組織)能夠協作訓練機器學習模型,而不暴露其數據,大大提高了數據使用效率 [392], [393]。與這些技術結合可以使LSFMs不僅在性能上超越傳統方法,而且在處理敏感工業信息時提供更安全的數據處理框架。
使用LSFM自身的輸出進行解釋:由于其決策過程高度抽象和非直觀,深度學習模型通常被認為是“黑箱”。LSFMs,特別是LLMs,在任務中展示了卓越的上下文理解能力,因此嘗試使用LLMs來解釋模型是潛在可行的。在Bubeck等人的一項研究中 [274],發現LLMs在其輸出中展現了強大的結果一致性,這意味著模型遵循了固定的“思考”模式。因此,向chat-GPT提出類似“請解釋你預測背后的原因”的問題被證明是有效的,尤其是在合理的先前問題之后。這個想法也可以應用于基于編碼器結構的模型 [394],通過對重構輸入特征進行偏差分析來解決AE的局限性,以獲得解釋 [395]。
使用LLM解釋其他模型:LLMs具有強大的文本能力,可以利用從LLMs獲得的知識來解釋其他神經網絡。為了實現這一點,LLMs被用來總結和評分待分析模型的輸出 [396]。此外,LLMs可用于生成或匹配反事實,模擬或估計事件或行為中的不同選擇,以更好地理解模型的預測結果 [397]。或者,將LLMs直接嵌入到模型訓練中,可以實現高效推理的同時獲得良好的可解釋性 [398]。
可視化運行過程:從神經網絡輸出中提取中間特征圖可以幫助理解模型關注的特征,即使這些特征圖可能仍然高度抽象。通過使用其架構中的自注意機制和令牌鏈接,可視化注意力可以提供比特征圖更直觀的解釋。注意力鏈接的強度直觀上可以被認為是每個令牌對分類的貢獻的指示器。可視化注意力有助于理解模型感興趣的部分 [399]。考慮到LSFMs大多基于transformer結構,可視化注意力輸出以提高LSFMs的可解釋性是有前景的。
結論
LSFMs表現出強大的泛化能力、自動生成高質量訓練數據集的能力和優越的性能,能夠將人工智能從單一模態、單任務、有限數據訓練的范式轉變為多模態、多任務、海量數據預訓練然后微調的模式,必將帶來智能制造的新一波變革。針對將LSFMs應用于智能制造的研究尚處于起步階段,缺乏系統的方向性指導的問題,總結了深度學習在智能制造中的進展與挑戰,以及LSFMs在智能制造應用中的進展及其潛在優勢。在此基礎上,從通用性、數據性和性能等角度全面探討了如何構建適用于智能制造領域的LSFM系統,并以美的集團生產線的實際應用為例,說明了LSFMs的應用如何幫助企業提高效率、降低成本。
大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。
數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。
數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。
為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。
擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。
方法論
大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。
圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。
文本增強
文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。
配對數據增強
MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。
總結
在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。
大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。
//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053
在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。
然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey
模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。
本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。
本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。
資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。
近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。
然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。
這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。
這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:
建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。
探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。
確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。
考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。
綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。
總述
在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。
基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。
? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。
? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。
? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。
結論
在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。
最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。
在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。
至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。
通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。
與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。
本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。
幻覺的原因
幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)。
數據引起的幻覺
預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。
訓練引起的幻覺
大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。
推理引起的幻覺
解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。
幻覺緩解
在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。
緩解與數據相關的幻覺
與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。
緩解與訓練相關的幻覺
與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。
緩解與推理相關的幻覺
在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。
結論
在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢?
近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。
標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf
作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。
簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。
就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。
基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。
圖1:深度圖學習和圖基礎模型的對比
受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。
表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。
圖3:基于GNN的模型示意圖
圖5:基于LLM的模型示意圖
圖7:基于GNN+LLM的模型示意圖
據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。
在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。
**基于GNN的模型 **
得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。
基于LLM的模型
研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。
**基于GNN+LLM的模型 **
GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。
**結論 **
基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。
基礎模型如ChatGPT和GPT-4由于其新興的能力,如少量提示、多步推理、指令跟隨和模型校準,在學術界和工業界都受到了極大的關注。這樣的能力過去只能通過特別設計的模型獲得,例如使用知識圖譜的模型,但現在可以通過基礎模型在更大的規模上實現。
隨著基礎模型的能力的增加,它們的大小也以遠遠超過摩爾定律的速度增長。例如,2018年發布的BERT大型模型是一個334M參數模型。而2022年發布的Pathways Language Model (PaLM)是一個540B參數模型,這在短短4年內增加了超過三個數量級。基礎模型的訓練需要大量的計算能力。例如,使用多個A100芯片的單一最先進的GPU機器訓練BERT模型可能需要幾天,而在大型多實例GPU集群上訓練GPT-3模型可能需要幾個月的時間來完成估計的3*10^23 flops。
本教程提供了對支持新AI芯片的基礎模型訓練和推理的最新進展的概述。它回顧了建模方面的進展,重點是Transformer架構,并介紹了支持訓練和服務基礎模型的系統架構。這包括編程語言框架如PyTorch和TensorFlow、圖編譯器、3D并行性,以及像GPU H100、TPU和Trainium這樣的加速器。最后,該教程介紹了我們使用不同系統訓練基礎模型的經驗。
1.1 從模型到比特
1.1.1 算法概覽。 我們涵蓋了廣泛使用的深度學習(DL)架構,包括遞歸和卷積神經網絡,以及穩定的擴散模型和Transformer架構(例如,僅編碼器、僅解碼器、編碼器-解碼器和多模態模型)。我們概述了常見的訓練和推理任務,如預訓練、微調、推理和評估。我們介紹了高級建模技術,如不同的注意機制、訓練目標及其實現細節。 1.1.2 系統概覽。 有效地訓練大規模的基礎模型需要在所有層面上都有強大的系統支持。在前端,我們需要在DL框架中適當地表示模型和分布式處理策略。在中端,模型執行需要廣泛的性能優化,如圖重寫、內核融合、內核優化、計算和通信重疊等。在后端,模型將在某種硬件上運行,該硬件按照某種網絡拓撲連接。在這個環節中,我們將概述每一層中出現的挑戰。
1.2 使用模型并行化訓練基礎模型
在這一節中,我們將討論用于跨多臺機器訓練擁有數十億參數的模型的現代分布式訓練技術,包括完全分片數據并行(FSDP)[16, 15]、Deepspeed Zero [11, 10]、張量并行化[4, 7, 14]和流水線并行化[3, 6]。這些技術在使大型神經網絡的訓練成為可能方面起到了關鍵的作用。我們將研究和比較與特定模型架構緊密集成的方法的局限性,以及依賴于底層ML框架快速演變的內部接口的技術。最后,我們將介紹可以用來使用這些技術訓練模型的開源庫。
1.3 案例研究
在四個案例研究中,我們將介紹不同基礎模型的特點以及在新興AI加速器上運行它們時出現的挑戰。我們將介紹包括BERT[2]、RoBERTa[5]和DistilBERT[13]在內的“BERT系列”模型、GPT2[8]和GPT-3[1]、文本到文本轉移變換器(T5)[9]和穩定擴散[12]。在對每種架構簡要介紹之后,我們將分享我們在不同加速器上訓練這些模型的經驗。我們將以對有興趣在新興AI芯片上訓練或評估模型的實踐者的實際建議和注意事項來結束本教程。
講者:
Jun (Luke) Huan 是AWS AI實驗室的首席科學家。煥博士的研究領域是AI和數據科學。他已經發表了超過160篇的同行評審的文章并指導了11名博士學生完成學業。在加入AWS之前,他在百度研究院工作,并曾創建了一個AI初創公司StylingAI Inc。在進入工業界之前,他在堪薩斯大學的EECS部門擔任教授。煥博士還在美國的NSF工作過,負責其大數據項目。 Yida Wang 是亞馬遜的AWS AI團隊的首席科學家。他的研究領域包括系統、高性能計算和大數據分析。他目前專注于深度學習系統的研究,特別是編譯和優化深度學習模型。 Youngsuk Park 是AWS AI實驗室的高級應用科學家。他的研究興趣集中在機器學習、基礎模型、優化和決策制定等方面。在加入AWS之前,他在Stanford University完成了電氣工程的碩士和博士學位。 Aashiq Muhamed 在AWS AI實驗室工作,專注于優化深度學習系統。在加入AWS AI實驗室之前,他在Amazon Search工作,并在Stanford University進行研究生學習。 Rahul Solanki 在亞馬遜的AWS Neuron團隊工作。他目前的工作重點是構建可以高效地在AI加速器上進行深度學習模型訓練和推理的框架和工具。他從Georgia Institute of Technology獲得了碩士學位。 Christian Bock 是AWS AI實驗室的應用科學家。他的研究興趣主要集中在語言模型的可解釋性以及其在各個領域的應用上。他在ETH Zurich完成了博士學位。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新