隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。
近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。
然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。
這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。
這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:
建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。
探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。
確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。
考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。
綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。
總述
在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。
基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。
? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。
? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。
? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。
結論
在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。
大型語言模型(LLMs),例如ChatGPT,由于其出色的自然語言處理能力而獲得了極大的關注。然而,這些LLMs面臨許多挑戰,特別是在可信度方面。因此,確保LLMs的可信度成為一個重要話題。本文引入了TRUSTLLM,一項關于LLMs可信度的全面研究,包括不同維度的可信度原則、確立的基準、可信度評估和分析,以及對主流LLMs的討論,開放的挑戰和未來方向。具體來說,我們首先提出了一套涵蓋八個不同維度的可信LLMs原則。基于這些原則,我們進一步建立了一個跨越真實性、安全性、公平性、穩健性、隱私和機器倫理六個維度的基準。我們隨后展示了一個在TRUSTLLM中評估16個主流LLMs的研究,涉及超過30個數據集。
我們的發現首先表明,一般而言,可信度和效用(即功能效能)是正相關的。例如,像GPT-4、ERNIE和Llama2這樣在刻板印象分類中表現強勁的LLMs,更可靠地拒絕刻板印象陳述。同樣,以自然語言推理能力著稱的Llama2-70b和GPT-4,在抵御對抗性攻擊方面表現出增強的韌性。其次,我們的觀察揭示,專有LLMs通常在可信度方面優于大多數開源同行,這引發了對廣泛可獲取的開源LLMs潛在風險的擔憂。然而,少數開源LLMs非常接近專有模型。值得注意的是,Llama2在幾項任務中表現出卓越的可信度,表明開源模型可以在沒有額外機制(如審查員)的情況下達到高水平的可信度,為開發人員提供了寶貴的洞見。第三,值得注意的是,一些LLMs(例如Llama2)可能過度調整以展示可信度,以至于它們在錯誤地將良性提示視為有害并因此不做出回應的情況下,降低了它們的實用性。除了這些觀察之外,我們還發現了LLMs多方面可信度的關鍵洞見。在真實性方面,LLMs經常由于訓練數據中的噪音、錯誤信息或過時信息而難以提供真實的回答。值得注意的是,增強了外部知識來源的LLMs在性能上表現出明顯的提升。在安全性方面,大多數開源LLMs在越獄、毒性和濫用等方面顯著落后于專有LLMs,同時在不過度謹慎的同時保持安全性的挑戰仍然存在。在公平性方面,大多數LLMs在刻板印象識別方面的表現不盡人意,即使是表現最好的GPT-4也只有65%的總體準確率。在穩健性方面,LLMs表現出顯著的變化性,尤其是在開放式任務和分布外任務中。在隱私方面,雖然LLMs顯示出對隱私規范的認識,但對私人信息的理解和處理差異很大,一些模型甚至在Enron Email數據集上測試時顯示出信息泄露。最后,在機器倫理方面,LLMs展示了基本的道德理解,但在復雜的倫理場景中表現不足。這些洞見強調了LLMs中可信度的復雜性,并突出了繼續研究以提高它們的可靠性和倫理一致性的必要性。最后,我們強調不僅要確保模型本身的透明度,還要確保支持可信度的技術的透明度。了解已采用的具體可信技術對于分析它們的有效性至關重要。我們主張建立行業、學術界、開源社區以及各種實踐者之間的人工智能聯盟,以促進合作,提升LLMs的可信度至關重要。我們的數據集、代碼和工具包將在 //github.com/HowieHwong/TrustLLM 上提供,排行榜發布在
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)和生成式人工智能領域的重要里程碑,眾多基礎研究[1, 2]證實了這一點。這些模型在NLP方面的卓越能力引起了廣泛關注,導致了影響我們生活各個方面的多樣化應用。LLMs被用于多種與語言相關的任務,包括自動文章寫作[3]、博客和社交媒體帖子的創作、以及翻譯[4]。此外,它們還改進了搜索功能,如在Bing Chat等平臺上看到的[5, 6, 7],以及其他應用[8]。LLMs在人類其他領域的效用也顯而易見。例如,如Code Llama[9]等模型為軟件工程師提供了相當大的幫助[10]。在金融領域,像BloombergGPT[11]這樣的LLMs被用于情感分析、命名實體識別、新聞分類和問答等任務。此外,LLMs在科學研究[12, 13, 14, 15]中的應用日益增多,涵蓋了醫學應用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治學[26]、法律[27, 28]、化學[29, 30]、海洋學[31, 32]、教育[33]和藝術[34]等領域,凸顯了它們廣泛和多樣化的影響。
LLMs的出色能力歸因于多個因素,例如使用來自Web的大規模原始文本作為訓練數據(例如,PaLM[35, 36]是在包含超過7000億令牌的大型數據集上訓練的[37]),采用具有大量參數的變壓器架構設計(例如,GPT-4估計具有1萬億參數范圍[38]),以及加速訓練過程的先進訓練方案,例如低秩適應(LoRA)[39]、量化LoRA [40]和路徑系統[41]。此外,它們出色的指令遵循能力主要歸因于與人類偏好的對齊實現[42]。現行的對齊方法使用人類反饋的強化學習(RLHF)[43]以及各種替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。這些對齊策略塑造了LLMs的行為,使其更加符合人類偏好,從而提高了它們的實用性并確保遵守倫理考慮。
然而,LLMs的興起也引入了關于它們可信度的擔憂。與傳統語言模型不同,LLMs具有可能導致可信度問題的獨特特性。1)LLMs的輸出復雜多樣,加之它們新出現的生成能力。LLMs展示了處理廣泛的復雜和多樣化主題的無與倫比的能力。然而,這種復雜性可能導致不可預測性,從而可能產生不準確或誤導性的輸出[56, 57, 58]。同時,它們先進的生成能力為惡意行為者開辟了傳播虛假信息[59]和促進網絡攻擊[60]的途徑。例如,攻擊者可能使用LLMs編寫欺騙性和誤導性文本,誘導用戶點擊惡意鏈接或下載惡意軟件。此外,LLMs可以被用于自動化網絡攻擊,例如生成大量假賬戶和評論以擾亂網站的正常運營。從設計用于繞過LLMs安全機制的技術(稱為越獄攻擊[61])來的重大威脅,允許攻擊者非法濫用LLMs。2)大型訓練數據集中的數據偏見和私人信息。可信度的一個主要挑戰來自訓練數據集中潛在的偏見,這對LLMs生成的內容的公平性具有重大影響。例如,數據中的男性中心偏見可能產生主要反映男性觀點的輸出,從而掩蓋女性的貢獻和觀點[62]。同樣,偏向某一特定文化背景的偏見可能導致對該文化的偏見回應,從而忽視其他文化背景中存在的多樣性[63]。另一個關鍵問題是訓練數據集中包含敏感個人信息的問題。在缺乏嚴格保護的情況下,這些數據可能被濫用,潛在地導致隱私泄露[64]。這個問題在醫療保健領域尤其嚴重,在這里保持患者數據的機密性至關重要[65]。3)用戶期望值高。用戶可能對LLMs的性能抱有很高的期望,期待準確和富有洞察力的回應,強調模型與人類價值觀的一致性。許多研究人員對LLMs是否與人類價值觀一致表示擔憂。不一致可能會對它們在各個領域的廣泛應用產生重大影響。例如,LLM可能認為某些情況下的行為是適當的,但人類可能認為它不適當,導致在其應用中出現沖突和矛盾,特定案例中強調了這一點[66]。
LLMs的開發者已經做出了重大努力來解決上述問題。OpenAI[67]已采取措施確保LLMs在訓練數據階段、訓練方法和下游應用中的可信度。WebGPT[7]被引入以幫助人類評估者識別LLM回應中的不準確信息。致力于負責任的AI的Meta[68],其方法基于五大支柱:隱私、公平、穩健性、透明性和問責制。Llama2[69]的引入為LLMs設定了新的安全對齊基準,包括在預訓練、微調和紅隊測試中進行廣泛的安全調查。關于開發者采用的各種策略以確保LLMs的可信度的更多討論可以在第3.3節中找到。盡管做出了這些共同的努力,但仍有一個持續的問題:我們到底可以在多大程度上真正信任LLMs?
為了解決大型語言模型(LLMs)可信度的關鍵問題,關鍵在于確定如何基準化LLMs的可信度。關于定義LLMs可信度的關鍵要素,以及如何從各種角度評估這種可信度,此外,探索實際評估這些維度上可信度的方法也至關重要。然而,回答這些問題遠非簡單。主要挑戰包括:1) 綜合各方面的定義。主要障礙之一是缺乏一個普遍接受的標準準則,全面涵蓋可信度的所有方面。這種標準化指標的缺乏使得統一評估和比較不同LLMs的可信度變得困難。2) 可擴展性和普適性:創建適用于不同大小和類型LLMs的基準,并且能夠普遍適用于不同領域和應用是一項復雜的任務;3) 實際評估方法。需要設計有效的提示來測試明顯的可信度問題,并發現可能不會立即顯現的更微妙的偏見和錯誤。這需要深入理解技術及其產出對社會的潛在影響。 先前的研究[70, 71, 72]已經為LLMs的可信度建立了基礎見解。這些研究提出了評估LLMs的方法,并制定了衡量其可信度的分類法。然而,某些分類法[70, 73]并未完全涵蓋與LLMs可信度相關的所有方面。此外,一些分類法[71, 72]專注于細微的區別,導致重疊的子類別使建立清晰的評估基準變得復雜。因此,需要一種更全面和細致的方法來準確評估LLMs的可信度。
在這里,我們提出了TRUSTLLM,一個統一框架,支持對LLM中的可信度進行全面分析,包括現有工作的調查,組織不同維度的可信LLMs的原則,一個新穎的基準,以及對主流LLMs的全面可信度評估。具體來說,我們如下解決上述三個挑戰:
確定八個可信度方面。為了探索LLMs有多可信,我們融合了來自人工智能、機器學習、數據挖掘、人機交互(HCI)和網絡安全的領域知識。我們對過去五年發表的500篇關于LLMs可信度的論文進行了廣泛的回顧,并確定了定義LLMs可信度的八個關鍵方面,即真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性。在這項工作中,為了便于我們的調查,我們將效用(即功能效能)與這八個確定的維度分開,并定義可信LLMs為“為了被認為是可信的,LLMs必須適當地反映真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性等特性。”詳細討論可以在第4節中找到。
選擇全面且多樣化的LLMs進行調查。通過評估16個LLMs,包括專有和開源模型,我們涵蓋了模型大小、訓練策略和功能能力的廣泛范圍。這種多樣性保證了TRUSTLLM不局限于特定類型或大小的LLM。它還建立了一個全面的評估框架,用于評估未來LLMs的可信度。
在各種任務和數據集上進行基準測試和評估:我們基準測試了30個數據集,以全面評估LLMs的功能能力,從簡單的分類任務到復雜的生成任務。每個數據集提出了獨特的挑戰,并在多個可信度維度上對LLMs進行了基準測試。同時,采用了多種評估指標來理解LLMs的能力。這種方法確保了評估是全面和多方面的。
貢獻。TRUSTLLM評估的結果在圖1中總結,觀察和洞見在第2節中展示。我們在這項工作中的貢獻簡要概述如下。 首先,我們基于全面的文獻綜述提出了一套評估LLMs可信度的指南,這是一個涵蓋包括真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性在內的八個方面的分類法。
其次,由于透明度和問責性的基準測試難度,我們為這六個方面建立了基準。這是第一個全面且綜合的基準,包括超過18個子類別,涵蓋超過30個數據集和16個LLMs,包括專有和開放權重模型。除了圖1中展示的這些模型的可信度排名外,我們在后續各節中提出了評估細節。
最后但同樣重要的是,從廣泛的實驗結果中,我們得出了有洞見的發現(詳見第2節)。我們對LLMs的可信度評估考慮了整體觀察和基于每個維度的個別發現,強調了效能和可信度之間的關系,大多數LLMs中普遍缺乏的一致性,專有和開放權重LLMs之間的差異,以及當前與可信度相關技術的不透明性。我們旨在為未來的研究提供有價值的洞見,為大型語言模型中的可信度景觀提供更細膩的理解。
觀察和洞見
為了更好地理解我們的研究,我們首先基于我們在這項工作中的廣泛實證研究,提出了我們的觀察和洞見。
2.1 總體觀察
可信度與效用緊密相關。我們的發現表明,可信度和效用之間存在正相關,特別是在特定任務中顯而易見。例如,在道德行為分類(第11.1節)和刻板印象識別任務(第8.1節)中,像GPT-4這樣具有強大語言理解能力的LLMs傾向于做出更準確的道德判斷,并更可靠地拒絕刻板印象陳述。類似地,Llama2-70b和GPT-4在自然語言推理方面的熟練度,表現出對抗性攻擊的增強韌性。此外,我們觀察到LLMs的可信度排名往往與以效用為中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。這一觀察強調了可信度和效用的相互關聯性,凸顯開發者和用戶在實施和使用LLMs時,需要同時考慮這些方面。
大多數LLMs“過度對齊”。我們發現許多LLMs表現出一定程度的過度對齊(即夸大的安全性),這可能損害它們的整體可信度。這樣的LLMs可能將許多無害的提示內容識別為有害,從而影響它們的效用。例如,Llama2-7b在對實際上并非有害的提示做出回應時,拒絕率達到57%。因此,訓練LLMs在對齊過程中理解提示背后的意圖,而不僅僅是記憶示例,對降低錯誤識別有害內容的比率至關重要。
一般而言,專有LLMs在可信度上優于大多數開放權重LLMs。然而,少數開源LLMs能夠與專有模型競爭。我們發現,在可信度方面,開放權重和專有LLMs之間存在性能差距。通常,專有LLMs(例如ChatGPT、GPT-4)的表現遠優于大多數開放權重LLMs。這是一個嚴重的問題,
因為開放權重模型可以被廣泛下載。一旦集成到應用場景中,它們可能帶來嚴重的風險。然而,我們驚訝地發現,Llama2 [69] 系列這樣的開放權重LLMs,在許多任務中的可信度超過了專有LLMs。這表明,開放權重模型即使在沒有添加外部輔助模塊(如審查員 [76])的情況下,也能展示出色的可信度。這一發現為相關開放權重開發者提供了重要的參考價值。
模型本身和與可信度相關的技術應該是透明的(例如,開源)。鑒于不同LLMs在可信度方面的性能差距顯著,我們強調模型本身及旨在提高可信度的技術的透明度的重要性。如最近研究[77, 78]所強調,充分理解模型的訓練機制,包括參數和架構設計等方面,是研究LLMs的基石。我們的實驗發現,雖然一些專有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技術細節仍未公開。使這些可信技術透明化或開源可以促進這些技術的更廣泛采用和改進,顯著提升LLMs的可信度。這反過來使LLMs更可靠,并加強了AI社區對這些模型的整體信任,從而有助于AI技術的健康發展。
2.2 對可信度各個維度的新洞見真實性。
AI系統的真實性是指準確地呈現信息、事實和結果。我們的發現表明:1) 專有LLMs如GPT-4和開源LLMs如Llama2在僅依賴其內部知識時,經常難以提供真實的回應。這主要是由于其訓練數據中的噪聲,包括錯誤信息或過時信息,以及底層Transformer架構缺乏泛化能力所致。2) 此外,所有LLMs在零樣本常識推理任務中面臨挑戰,表明它們在對于人類相對直接的任務中存在困難。3) 相比之下,增強了外部知識的LLMs表現出顯著改善的性能,超越了原始數據集上報告的最新結果。4) 我們觀察到在不同的幻覺任務中存在顯著差異。大多數LLMs在多項選擇問答任務中的幻覺較少,與知識引導對話等更開放式任務相比, 可能是由于提示敏感性(第14節)。5) 此外,我們發現獻媚和對抗性現實之間存在正相關。獻媚水平較低的模型在識別和突出用戶輸入中的事實錯誤方面更為有效。
安全性。LLMs的安全性對于避免不安全或非法輸出并確保進行健康對話至關重要[72]。在我們的實驗(第7節)中,我們發現:1) 大多數開源LLMs的安全性仍然是一個問題,特別是在越獄、毒性和濫用等領域,顯著落后于專有LLMs。2) 值得注意的是,LLMs對不同的越獄攻擊并不是統一抵抗。我們的觀察發現,各種越獄攻擊,特別是leetspeak攻擊[61],對LLMs的成功率各不相同。這強調了LLM開發者需要采取全面的防御策略來應對多種攻擊類型。3) 對于大多數LLMs而言,平衡安全性是一個挑戰;那些具有嚴格安全協議的LLMs經常表現出夸張的謹慎,如Llama2系列和ERNIE所表現出的。這表明許多LLMs并未完全對齊,可能依賴于表面的對齊知識。
公平性。公平性是確保LLMs在設計、訓練和部署過程中不會導致有偏見或歧視性結果的道德原則,確保它們公平對待所有用戶和群體。在我們的實驗中(第8節),我們發現:1) 大多數LLMs在識別刻板印象方面的表現并不令人滿意,即使表現最好的GPT-4,其總體準確率也僅為65%。當面對包含刻板印象的句子時,不同LLMs的一致性百分比差異很大,最好的表現僅為0.5%的一致率,最差的接近60%。2) 只有少數LLMs,如Oasst-12b[81]和Vicuna-7b[82],在處理貶低性內容時表現出公平性;大多數LLMs在處理包含貶低傾向的問題時仍顯示出對特定屬性的偏見。3) 關于偏好,大多數LLMs在普通基線上表現非常好,保持客觀性和中立性,或拒絕直接回答。然而,當被迫選擇時,LLMs的表現顯著下降。
穩健性。穩健性定義為系統在各種情況下保持其性能水平的能力[83]。在我們的實驗中(第9節),我們發現:1) Llama2系列和大多數專有LLMs在傳統下游任務中超越了其他開源LLMs。2) 然而,LLMs在開放式任務的表現表現出顯著的變化性。表現最差的模型在擾動前后的平均語義相似度僅為88%,遠低于最佳表現者的97.64%。3) 在OOD(超出分布)穩健性方面,LLMs展現出相當大的性能差異。表現最佳的模型GPT-4在OOD檢測中拒絕回答(RtA)率超過80%,在OOD泛化中平均F1得分超過92%。相比之下,表現最差的模型RtA率僅為0.4%,F1得分約為30%。4) 此外,我們的觀察沒有發現參數大小和OOD性能之間存在一致的正相關性,這可以從Llama2模型的不同參數大小的不同表現水平中得到證明。
隱私。隱私包括旨在保護人類自主權、身份和尊嚴的規范和實踐[83]。在我們的實驗中(第10節),我們發現: 大多數LLMs表現出一定程度的隱私意識,這可以從這些模型在被告知必須遵守隱私政策時拒絕回應有關私人信息的查詢的可能性顯著增加中看出。2) 用于測量人類和LLMs在使用隱私信息方面的一致性的皮爾森相關系數差異很大。表現最佳的模型,ChatGPT,達到了0.665的相關性,而Oass-12b展現出令人驚訝的負相關性,低于零,表明與人類相比,它對隱私的理解存在差異。3) 我們觀察到幾乎所有LLMs在Enron電子郵件數據集[84]的測試中都顯示出一定程度的信息泄露。
機器倫理。機器倫理確保利用人工智能的人造機器(通常稱為AI代理)的道德行為[85, 86]。在我們的實驗中(第11節),我們發現:1) LLMs已經發展出一套特定的道德價值觀,但在完全與人類倫理一致方面仍有顯著差距。在低歧義場景中的隱性任務中,大多數LLMs的準確性不足70%,不論是哪個數據集。在高歧義場景中,不同LLMs的表現有很大差異;例如,Llama2系列達到了99.9%的拒絕回答率(RtA),而其他模型的得分不到70%。2) 在情感意識方面,LLMs顯示出更高的準確性,表現最佳的模型如GPT-4的準確率超過94%。 這些觀察和洞見提供了對LLMs可信度各個維度的深入理解,揭示了它們在處理復雜任務和維護道德準則方面的能力和局限性。這些發現對于開發更可靠、公平、安全且符合倫理的LLMs至關重要,同時也為未來的研究和應用提供了重要的參考。通過這樣的深入分析,我們能夠更好地理解和提升大型語言模型的整體可信度,使其在各種應用場景中更加有效且符合倫理標準。
大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。
知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。
更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。
本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:
? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。
? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。
?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。
這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:
? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。
最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。
大模型知識編輯
知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。
知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。
LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。
? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。
? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。
? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。
實驗結果
主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。
我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。
盡管人工智能,特別是深度學習在智能制造的各個方面都有顯著的改進,但由于泛化能力差、建立高質量訓練數據集的困難以及深度學習方法的不盡人意的性能,這些技術在廣泛應用方面仍面臨挑戰。大規模基礎模型(LSFMs)的出現在人工智能領域引發了一波浪潮,使深度學習模型從單任務、單模態、有限數據模式轉變為涵蓋多種任務、多模態并在大量數據集上進行預訓練的范式。盡管LSFMs已經展示出強大的泛化能力、自動高質量訓練數據集生成能力以及在各個領域的卓越性能,但LSFMs在智能制造領域的應用仍處于起步階段。對這個主題的系統性概述尚缺乏,尤其是關于深度學習的哪些挑戰可以通過LSFMs解決,以及如何系統地應對這些挑戰。為了填補這一空白,本文系統地闡述了LSFMs當前的狀況及其在智能制造背景下的優勢,并與當前深度學習模型在各種智能制造應用中面臨的挑戰進行了全面比較。我們還概述了利用LSFMs解決這些挑戰的路線圖。最后,通過在真實世界智能制造場景中應用LSFMs的案例研究來說明LSFMs如何幫助行業提高效率。
制造業是國家經濟的支柱之一,幾個國家已經宣布了戰略路線圖,以促進新制造技術的應用,確保在這一領域的領導地位,例如德國的工業4.0 [1]、美國的智能制造領導聯盟(SMLC) [2] 和中國制造2025 [3]。在過去的幾十年里,通過部署新技術如傳感器、物聯網(loT)、機器人、數字孿生以及網絡物理系統(CPSs) [4]–[15],制造業變得更加智能,其中在制造過程的所有階段持續生成并捕獲前所未有的數據量。因此,高效的數據處理算法被極為渴求,以實現有效的故障診斷和預測性維護、質量控制、人類操作、流程優化以及智能制造所需的許多其他智能決策 [16]–[20]。統計數據顯示,82% 使用智能制造技術的工業活動獲得了效率和性能的提升 [16], [21]。智能制造的這些改進主要歸功于各種機器學習算法的實施,這些算法隨著制造數據的規模和復雜性的增加,其中許多先進的數據驅動方法已被研究和采用,以實現大規模數據處理能力,高效率和強大的決策制定能力,這兩者通常是復雜制造活動所共同需要的。表1列出了這一領域的一些綜述文章 [22]–[88]。 傳統機器學習方法,如支持向量機、K最近鄰、樸素貝葉斯等,在一定程度上可以提高制造業的決策性能 [89]–[91]、生產線調度 [92], [93]、機器維護安排 [94], [95]、故障預測 [96]–[98]、質量評估 [99], [100] 和缺陷檢測 [101], [102]。然而,它們過分依賴于手工特征工程以用領域知識表示數據,并且缺乏處理大規模數據中高度非線性關系的能力,限制了它們在智能制造中的應用 [103], [104]。 深度學習作為一種先進的機器學習方法,能夠通過采用多層神經網絡架構,從高維非線性原始數據中自動提取特征和識別模式,使其更適應智能制造的復雜數據處理。在過去的十年里,深度學習方法是智能制造各個領域中主流的數據驅動方法,例如健康管理(PHM) [105]–[125]、質量控制 [126]–[142]、機器人 [143]–[149] 和人類活動識別 [66], [150]–[165]。 盡管深度學習展示了高層次的特征學習抽象表達能力,具有出色的端到端決策模型能力并且顯著減少了對人力的需求,從而大大推動了智能制造的發展,但在應用時仍面臨重大困難 [45], [166]–[169]。首先,為特定模式和目標定制的小型深度學習模型的性能受限。這些模型存在泛化能力有限、可解釋性差、易受攻擊等問題,無法滿足企業在智能生產和管理方面的需求,尤其是在數據多樣的復雜任務中 [170]–[175]。此外,它們只能以分散、松散耦合的方式處理個別任務 [176]–[178]。其次,數據規模增長和數據集建立成本的要求限制了深度學習模型的性能。作為一種數據驅動的方法,深度學習模型依賴于擬合輸入和輸出之間的關系,其中訓練數據集的數量和質量起著關鍵作用 [166]。盡管新技術如傳感器和物聯網使得高效收集大量數據成為可能 [179]–[184],但這些數據通常分布不均、噪聲多、缺乏標簽,并包含大量非結構化數據。因此,這些數據不足以訓練出好的深度學習模型。與此同時,深度學習模型處理大規模數據的效率不足。最近出現的大規模基礎模型 [185]–[189] 通常通過廣泛的自監著學習進行訓練,并展示了強大的泛化能力、卓越的零樣本性能和令人印象深刻的多模態融合能力,這在自然語言處理、計算機視覺等多種下游任務中取得的成功中得到了證明 [190]–[197]。盡管利用LSFMs應對智能制造中的挑戰的努力才剛剛開始,但已有一些進展被嘗試。[198], [199] 討論了LSFMs在工業制造中的潛在應用,但僅限于特定的工業任務或特定LSFM。Ji等人 [200] 提出了對比視覺基礎模型在隱蔽場景中的性能與最新深度學習模型的定量比較。Ogundare等人 [201] 提出了一項關于大型語言模型(LLMs)生成的工業自動化和控制系統的彈性和效率的研究。
盡管LSFMs在智能制造中展現出巨大潛力,其中強大的泛化能力、自動高質量訓練數據集生成和卓越性能非常受歡迎,但這一領域的研究仍處于早期階段,且關于智能制造應用中LSFMs的系統性綜述尚未出現。本文提出了在智能制造中使用LSFMs的技術路線圖,特別是在深度學習方法遇到重大障礙的地方。我們的工作旨在提供指導方向和討論,幫助理解LSFMs如何能夠惠及智能制造。
本文的其余部分組織如下。第二部分描述了深度學習模型在智能制造中遇到的挑戰。在第三部分,我們首先提供了LSFMs當前進展的簡要概述,隨后我們討論了LSFMs在智能制造中的技術優勢,這些優勢解決了深度學習所面臨的挑戰。第四部分闡述了在智能制造中應用LSFMs的路線圖。最后,在第五部分,我們通過幾個我們在實際制造場景中應用的案例來說明LSFMs如何在智能制造中取得進展。
大規模基礎模型(LSFMs)的進展
基礎模型旨在通過大規模數據集進行訓練,即擁有數十億至數千億的參數,并在近期首次被命名 [185]。這些模型在預訓練后可以固定大部分參數,并通過微調適應廣泛的下游應用。事實上,大規模基礎模型(LSFMs)在自然語言處理 [292]、計算機視覺 [293] 等領域取得了革命性的進展。
如圖2所示,大型語言模型(LLMs)領域見證了眾多令人印象深刻的進展 [294]–[297]。其中,GPT系列 [292], [294], [298], [299] 無疑是LLMs中最著名和最具標桿性的。GPT系列的最新版本,GPT-4 [292],支持多模態輸入,接受圖像和文本,并生成文本輸出。它是一個基于Transformer的模型,預訓練用于預測文檔中的下一個詞。后續的微調過程可以增強其事實準確性,并確保其性能與期望的行為一致。在各種專業和學術基準測試中,GPT-4展示了與人類水平相當的性能,尤其是在人機交互、教育、醫療和法律等領域。LlaMA模型 [300] 目前是最受歡迎的開源LLM,提供四種規模:7B、13B、30B和65B。由于LlaMA是在英文語料庫上進行預訓練的,因此在使用時通常需要用目標語言的指令或數據進行微調,從而產生了一系列擴展模型 [301]–[303],構成了LlaMA家族。
LSFMs在智能制造應用中的路線圖
A. 提升泛化能力的路線圖
預訓練與微調相結合:當模型參數和大小超過一定閾值時,這些模型不僅展示了突現的性能提升,還獲得了小規模模型所缺乏的功能,如邏輯推理能力 [294], [340]。在智能制造中,LSFMs結合預訓練和微調的方式提供了多種可能性,用以解決傳統小規模深度學習方法所遇到的問題。LSFMs在多樣化的通用數據集上進行預訓練,減少了對有限的、特定任務的數據集的依賴,因此盡管模型的參數量很大,也減輕了過擬合的風險。Kahatapitiya等人 [341],考慮到視頻-文本匹配數據的有限可用性,應用了一個預訓練的圖像-文本模型到視頻領域,用于視頻-文本匹配,而不是從頭開始訓練。此外,特定的微調策略可以增強模型的泛化能力,以進一步避免在小樣本學習中微調過程中可能出現的模型過擬合。Song等人 [342] 提出了一種稱為特征判別對齊(FD Align)的微調方法,通過保持偽特征的一致性來增強模型泛化能力,在分布內(ID)和分布外(OOD)任務中展示了有效性。
通過LSFMs構建結構化數據:LSFMs可用于提取和理解復雜的非結構化數據,并將其編碼為可管理的結構化格式,例如,處理工單中的非結構化文本數據 [343]。深度生成模型(DGM)和諸如VIT [304]之類的模型旨在從非結構化數據中發現復雜的高維概率分布,以提取更抽象、更復雜的特征。Oliveira等人 [344] 概述了四種類型的DGM:基于能量的模型(EBM)、生成對抗網絡(GAN)、變分自編碼器(VAE)和自回歸模型,以及它們如何應用于供應鏈管理(SCM)優化。
通過提示嵌入知識:一旦專家知識被編碼,它可以與輸入文本或圖像特征融合,從而提高輸出的準確性 [345]。許多LSMFs,如ChatGPT和SAM,固有地包含了手動提示編碼,允許通過提示融合領域知識,而無需修改模型。例如,對于抽象的人類行為活動,模型可能難以一次性描述它們。因此,可以引導它首先生成與對象相關的活動描述,強調區分相似活動的關鍵對象。隨后,它可以識別人類活動的活動類別并幫助解釋上下文 [346]。此外,LSFMs甚至可以在訓練過程中通過收集案例研究來收集相關的領域知識 [347]。
使用多模態LSFMs:智能制造通常產生多種形式的數據,包括自由文本維護日志、圖像、音頻和視頻記錄。這些數據的固有多樣性對深度學習模型中的單一模態構成了巨大的挑戰。諸如Visual-GPT [348] 和ImageBind [318] 之類的LSFMs已成為可行的解決方案。這些模型擅長于同時編碼一系列數據,包括圖像、文本、音頻、深度、熱能、IMU數據和時間序列信號數據 [349], [350]。這種擴展的能力不僅可以豐富智能制造中捕獲的數據范圍,還可以賦予LSFMs獨特的功能,如跨模態檢索、通過算術運算進行模態融合以及跨模態檢測和生成。利用這些廣泛的LSFMs有助于精確處理非結構化數據和綜合多樣化的結構化數據來源。在多種干擾特征的復雜工業環境中,LSFMs與傳統單模態深度學習方法相比展示了更強的魯棒性。
正則化和集成學習:LSFMs可以通過正則化和集成學習等方法解決過擬合問題。正則化可以限制模型的復雜性,修剪可以移除不必要的節點和連接,集成學習可以結合多個模型的預測結果以提高模型的泛化能力。盡管許多LSFMs,如GPT-3和PaLM在訓練期間沒有使用dropout [351],但它仍對LSFMs有重要影響。例如,通過在訓練過程中使用dropout,Galactica [296] 實現了一個1200億參數的模型而沒有過擬合。此外,為了緩解由于dropout導致的LSFMs訓練速度降低,逐漸在訓練過程中引入dropout可以產生與始終使用dropout相當的性能 [352]。
持續學習/終身學習:大多數當前在智能制造中的深度學習模型假設正常模式保持不變。然而,制造環境中的變化頻繁發生。持續學習/終身學習涉及在保留以前學到的知識的同時獲取和識別新知識。LSFMs具有通過收集過去任務結果作為經驗來進行持續學習的強大能力。通過這個過程,LSFMs利用以前的知識不斷提升自己 [347], [353]。LSFMs的持續學習特性使它們能夠在實際生產過程中不斷積累新知識,以適應復雜實際環境中的潛在變化 [347], [353]。這一能力有助于防止在固定模式上訓練的模型出現過擬合。對這個過程施加特定約束可以進一步提高模型的性能和穩定性 [354]。
LSFM輔助的知識圖譜構建:知識圖譜是通過理解圖結構獲取知識的表達形式 [355]。然而,知識圖譜工程(KGE)需要對圖結構、邏輯和知識內容有深入理解,因此工作量巨大。深度學習方法的上下文理解和表示能力不盡人意,特別是在遇到全新或罕見的知識時。利用LLMs的知識理解能力和高級推理技能,可以自動生成專業領域的知識圖譜 [356],并預計通過將知識圖譜與預訓練的語言模型相結合,增強模型對特定領域知識的理解 [357]。
B. 自動高質量訓練數據集生成的路線圖
生成更高質量的數據集:生成模型如擴散模型可以較傳統數據合成方法更有效地促進高質量合成數據的生成 [315]。使用文本到圖像的擴散模型可以生成真實的圖像變化以進行數據增強。與簡單的增強方法如拼接、旋轉、翻轉不同,基于擴散模型的增強可以改變更高層次的語義屬性,例如卡車上的油漆工作 [358]。為了解決訓練擴散模型本身需要大量數據的問題,Wang及其同事將二維擴散模型轉換為三維,使用鏈式規則,使得生成三維對象數據成為可能 [359]。此外,轉換可以用于加權平均或評分多個預測模型的結果,并學習和模擬歷史數據以獲得更強大的預測結果。 在第五部分,我們展示了如何使用LSFMs在工業生產線上實現低成本、自動化的動作識別數據注釋。
提高數據質量:高質量數據對模型訓練和智能制造中的決策至關重要,原始數據通常存在缺失值、異常值和重復值等問題。LSFMs可用于自動去除雜質數據,減少預測錯誤,提高數據質量。例如,BLIP [309] 依賴于中間訓練模型在訓練期間自動從數據集中移除匹配不良的圖像-文本對,并改進某些圖像的文本注釋。Lin等人 [360] 提出了一種基于條件生成對抗網絡(CGANs)的動態供應鏈成員選擇算法。為確保分類性能不會降低,鏈上的成員分類方法能成功降低分類過程中的數據維度和復雜性。
零樣本和少樣本:工業缺陷檢測的一個主要挑戰是缺乏異常樣本,工業產品的異常情況通常多樣且不可預測。LSFM可以有效地實現零樣本檢測或少樣本檢測。Gu等人 [324] 探索了使用大型視覺-語言模型(LVLMs)解決工業異常檢測問題,并提出了一種基于LVLM的工業異常檢測新方法,AnomalyGPT。在MVTec異常檢測數據集上,AnomalyGPT僅使用一個正常樣本就能實現86.1%的準確率,94.1%的圖像級AUC和95.3%的像素級AUC。這種應用方法不再需要收集異常樣本或為每個任務創建數據集來訓練特定模型,只需要少量數據的微調就能實現良好的檢測結果。例如,在預測性維護中,Leite等人 [361] 使用LLMs對可信度信號進行分類,這些信號通常用于評估預測內容的真實性。基于LLM的方法在兩個虛假信息數據集上的表現優于最先進的分類器,無需任何真實標簽。
預訓練與微調相結合:盡管一些初步工作為智能制造場景提供了數據集,如HAR [362]–[364]、質量控制 [365]–[367] 和PHM [368], [369],但這些數據集的特點是規模小、覆蓋范圍狹窄、場景單一、操作條件簡單、數據分布不均。LSFMs在廣泛數據上進行預訓練,可以識別真實世界實體的一般特征,為數據有限環境中實現精準靈活的智能制造提供有效解決方案 [294]。在大規模數據上訓練的預訓練模型隨后在小規模數據上進行微調,以提高模型的準確性和泛化能力。例如,Sun等人 [370] 在醫學文本中使用了BERT,并僅使用小數據集進行微調就取得了良好的性能。同樣,Radford等人 [299] 展示了GPT在不同任務中的遷移學習能力。
C. 卓越性能的路線圖
通過提示改進:通常情況下,訓練完成后,深度學習模型不再接受“指導”,而是基于訓練的參數進行推理。然而,LSFMs具有卓越的數據整合能力,可以通過利用各種形式的提示來提高輸出性能。Ji等人 [321] 發現提示的質量對LSFMs的準確性有重要影響。為了解決SAM在小尺度和不規則邊界上的次優分割性能,可以使用多個提示從分布中導出更精確的分割結果 [371]。特別是,Deng等人 [372] 使用先前分布參數的蒙特卡羅模擬來估計SAM的預測分布。這種方法允許通過考慮單個圖像的多個預測來估計任意不確定性。另外,也可以使用網絡來獲取增強的線索,通過輸入原始線索生成增強線索以產生遮罩,然后輸出增強線索。通過將這些線索合并為新的提示,可以提高分割性能 [373]。還應該謹慎處理解耦遮罩生成和提示嵌入,以防止誤導性提示對遮罩生成產生不利影響 [370]。
增強輸入數據:在LSFMs中,“基礎”一詞表明LSFMs可以輕松地作為與其他算法結合的基礎。這確保了即使LSFMs單獨使用時表現不佳,通過與其他算法結合仍能保證良好的性能。例如,視覺語言模型(VLM)表現出對各種損壞的強大魯棒性,但某些損壞如模糊相關的損壞會導致模型性能下降 [374]。此外,SAM在隱蔽和偽裝場景中的性能被證明是不足的 [200], [375]。幸運的是,已有大量關于去模糊 [376]–[378] 和檢測隱蔽和偽裝場景中目標的技術研究 [379], [380]。作為LSFMs的特點和優勢之一,VLM可以輕松地與其他模型結合,使用預處理數據作為輸入或將其他對象檢測器的檢測框作為提示。
跨模態預訓練:LSMFs克服了深度學習中單一任務和單一模態的限制,能夠在跨模態預訓練后通過統一模型實現多任務和多模態應用 [381]。通過在訓練中利用對比損失建立圖像和文本特征之間的關聯,可以實現開放集對象識別和檢測 [310]–[312]。這可以防止任務受到訓練中預定義類別的限制。為了達到令人滿意的預訓練性能,成功依賴于跨模態數據集的規模 [381], [382] 和模型利用弱對齊數據的能力 [383]。李等人 [384] 使用預訓練模型進行工業系統中視頻的弱監督標簽分類,以衡量視頻中的語義相似性。通過加入增強的跨模態Transformer模塊,他們最大限度地利用了視頻和紋理特征之間的交互信息。
預訓練結合微調:與深度學習在數據有限和流程復雜的情況下所達到的不令人滿意的準確度相比,大規模預訓練不僅賦予LSFMs強大的泛化能力,還賦予了它們更高準確度的潛力 [294], [340]。雖然直接使用預訓練的LSFMs可能并不總是優于特別設計的深度神經網絡 [321],但用特定智能制造領域的數據集數據有效地微調它們可以提高它們的準確度 [385], [386],潛在地超越現有的深度學習模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技術促進了LSFMs的微調過程。
此外,在集成數據集上訓練深度學習模型增加了數據泄露的隱私風險。使用預訓練的LSFMs作為解決方案可以提高數據安全性,減少從零開始訓練模型所需的大量數據帶來的隱私風險。這些預訓練模型能夠在最小化微調的情況下實現有效的結果,從而減少對敏感數據的暴露。在微調階段,LSFM網絡的有限部分需要調整,引入差分隱私技術。具體來說,Abadi等人 [390] 提出的技術在微調過程中得到了應用。這些措施可以保持微調LSFM過程中涉及數據的隱私,確保更安全的訓練環境。
采用分布式學習:制造業中的數據不像自然語言和其他領域那樣容易獲得,因此采用分布式學習方法 [391] 對于在智能制造中使用的LSFMs在訓練和安全方面可能都有益處,其中訓練數據可以從不同的生產線、工廠甚至國家獲得。分布式學習方法,如聯邦學習,涉及每個方的本地數據處理,只有中間結果(如梯度)被聚合用于模型更新。這使得客戶端(設備或組織)能夠協作訓練機器學習模型,而不暴露其數據,大大提高了數據使用效率 [392], [393]。與這些技術結合可以使LSFMs不僅在性能上超越傳統方法,而且在處理敏感工業信息時提供更安全的數據處理框架。
使用LSFM自身的輸出進行解釋:由于其決策過程高度抽象和非直觀,深度學習模型通常被認為是“黑箱”。LSFMs,特別是LLMs,在任務中展示了卓越的上下文理解能力,因此嘗試使用LLMs來解釋模型是潛在可行的。在Bubeck等人的一項研究中 [274],發現LLMs在其輸出中展現了強大的結果一致性,這意味著模型遵循了固定的“思考”模式。因此,向chat-GPT提出類似“請解釋你預測背后的原因”的問題被證明是有效的,尤其是在合理的先前問題之后。這個想法也可以應用于基于編碼器結構的模型 [394],通過對重構輸入特征進行偏差分析來解決AE的局限性,以獲得解釋 [395]。
使用LLM解釋其他模型:LLMs具有強大的文本能力,可以利用從LLMs獲得的知識來解釋其他神經網絡。為了實現這一點,LLMs被用來總結和評分待分析模型的輸出 [396]。此外,LLMs可用于生成或匹配反事實,模擬或估計事件或行為中的不同選擇,以更好地理解模型的預測結果 [397]。或者,將LLMs直接嵌入到模型訓練中,可以實現高效推理的同時獲得良好的可解釋性 [398]。
可視化運行過程:從神經網絡輸出中提取中間特征圖可以幫助理解模型關注的特征,即使這些特征圖可能仍然高度抽象。通過使用其架構中的自注意機制和令牌鏈接,可視化注意力可以提供比特征圖更直觀的解釋。注意力鏈接的強度直觀上可以被認為是每個令牌對分類的貢獻的指示器。可視化注意力有助于理解模型感興趣的部分 [399]。考慮到LSFMs大多基于transformer結構,可視化注意力輸出以提高LSFMs的可解釋性是有前景的。
結論
LSFMs表現出強大的泛化能力、自動生成高質量訓練數據集的能力和優越的性能,能夠將人工智能從單一模態、單任務、有限數據訓練的范式轉變為多模態、多任務、海量數據預訓練然后微調的模式,必將帶來智能制造的新一波變革。針對將LSFMs應用于智能制造的研究尚處于起步階段,缺乏系統的方向性指導的問題,總結了深度學習在智能制造中的進展與挑戰,以及LSFMs在智能制造應用中的進展及其潛在優勢。在此基礎上,從通用性、數據性和性能等角度全面探討了如何構建適用于智能制造領域的LSFM系統,并以美的集團生產線的實際應用為例,說明了LSFMs的應用如何幫助企業提高效率、降低成本。
隨著大型語言模型(LLMs)和視覺基礎模型(VFMs)的出現,利用大型模型的多模態AI系統有潛力像人類一樣感知現實世界、做出決策和控制工具。近幾個月來,LLMs在自動駕駛和地圖系統中顯示出廣泛的關注。盡管潛力巨大,但對關鍵挑戰、機會和未來應用于LLM駕駛系統的努力仍缺乏全面理解。在這篇論文中,我們對這一領域進行了系統性的研究。我們首先介紹多模態大型語言模型(MLLMs)的背景、使用LLMs的多模態模型開發以及自動駕駛的歷史。然后,我們概述了現有的MLLM工具,用于駕駛、交通和地圖系統,以及現有的數據集和基準測試。此外,我們總結了第一屆WACV關于自動駕駛的大型語言和視覺模型研討會(LLVM-AD)的工作,這是首個關于自動駕駛中LLMs的綜述。為了進一步推動這一領域的發展,我們還討論了在自動駕駛系統中使用MLLMs需要由學術界和工業界解決的幾個重要問題。論文集可以在Awesome-Multimodal-LLM-Autonomous-Driving中找到。
大型語言模型(LLMs)最近獲得了顯著的關注,顯示出在模仿類似人類的智能方面的顯著潛力。這些進展激發了對多模態大型語言模型(MLLMs)[199]的熱情,這些模型將LLMs的復雜推理能力與圖像、視頻和音頻數據結合起來。模態對齊使它們能夠以更高的熟練度執行各種任務,包括分類圖像、匹配文本和對應視頻以及語音檢測。此外,[174] 證明LLMs可以處理機器人領域的簡單任務,包括基本的邏輯、幾何和數學推理,到復雜的任務,如空中導航、操縱和具體化的代理。然而,LLMs融入交通和自動駕駛車輛領域還處于開創階段。將語言交流與全景圖像、激光雷達點云和駕駛行為等多模態感官輸入相結合,可以徹底改變當前自動駕駛系統的基礎模型。 最近,更有能力的基礎模型的出現使SAE L3駕駛自動化成為可能[28]。然而,多模態LLMs在自動駕駛中的集成并沒有跟上這些進展,一個自然的問題是,基于LLM的模型如GPT-4、PaLM-2和LLaMA-2是否有潛力增強自動駕駛?圖2為我們提供了一個很好的例子。不可否認,將LLMs整合到自動駕駛車輛行業可以帶來車輛智能、決策和乘客互動方面的重大范式轉變[30,31],提供一個更以用戶為中心、適應性強和值得信賴的交通未來。 在自動駕駛的背景下,LLMs將在關鍵模塊上帶來變革性影響:感知、運動規劃和運動控制[180]。在感知方面,LLMs可以利用外部API訪問實時基于文本的信息源,如高清地圖、交通報告和天氣更新,使車輛獲得對周圍環境更全面的了解[30]。一個很好的例子是改進車載地圖中的導航。LLMs可以處理實時交通數據,識別擁擠的路線,并提出替代路徑,最終優化導航的效率和安全性[159]。在運動規劃方面,LLMs通過利用它們的自然語言理解和推理[110]發揮作用。它們促進以用戶為中心的溝通,并使乘客能夠使用日常語言表達他們的意圖和偏好。此外,LLMs還處理文本數據源,如地圖、交通報告和實時信息,然后為優化路線規劃做出高層決策[124]。
在運動控制的背景下,大型語言模型(LLMs)首先使控制器參數的定制化成為可能,以符合駕駛者的偏好,實現駕駛體驗的個性化。此外,LLMs還可以通過解釋運動控制過程的每一步提供透明度。多模態大型語言模型(MLLMs)代表了LLMs的下一個發展層次,將語言理解的能力與處理和整合多樣數據模式的能力結合在一起。在自動駕駛的領域內,MLLMs的重要性是巨大且變革性的。裝備了MLLMs的車輛可以處理來自文本輸入的信息以及車載攝像頭和其他傳感器捕獲的其他特征,使復雜交通場景和駕駛行為的學習變得更加容易。在自動駕駛之外,MLLMs還可以通過語音通信和用戶偏好分析,顯著增強個性化的人車交互。在未來的SAE L4-L5級自動駕駛車輛中,乘客可以在駕駛過程中通過語言、手勢甚至目光來傳達他們的請求,而MLLMs可以通過集成視覺顯示或語音響應提供實時的車內反饋。
在我們將自動駕駛和高級建模領域橋接起來的追求中,我們聯合舉辦了2024年IEEE/CVF冬季計算機視覺應用會議(WACV)上的首屆大型語言和視覺模型自動駕駛研討會(LLVM-AD)。該活動旨在增強學術研究人員和行業專業人士之間的合作,探索在自動駕駛領域實施多模態大型語言模型的可能性和挑戰。LLVM-AD還發布了一個后續的開源真實世界交通語言理解數據集,催化了實際進展。
本文的主要貢獻可以概括如下:
如圖1所示,我們的綜述論文旨在為自動駕駛的MLLMs提供全面概述,并討論不斷增長的趨勢和未來方向。接下來的兩個部分分別簡要描述了自動駕駛和MLLMs的發展歷史。第4節介紹了關于自動駕駛中MLLMs的當前已發表作品,涵蓋感知、運動規劃和運動控制。第5節介紹了利用MLLMs的相關自動駕駛行業應用。在最后三個部分中,我們總結了第一屆WACV LLVM-AD研討會的論文,并討論了LLMs和MLLMs在自動駕駛領域的潛在研究方向。 自動駕駛的發展 自動駕駛的追求是一個逐步前進的旅程,它由愿景抱負和技術能力之間的持續互動所標志。自動駕駛的第一波全面研究始于20世紀末。例如,由卡內基梅隆大學發起的自主陸地車輛(ALV)項目利用來自立體攝像頭、聲納和ERIM激光掃描儀的傳感器讀數執行諸如車道保持和障礙物避讓等任務。然而,這些研究受限于傳感器精度和計算能力的限制。
自動駕駛發展
在過去的二十年中,自動駕駛系統取得了快速的改進。2014年由汽車工程師學會(SAE)發布的分類系統定義了六個級別的自動駕駛系統。這種分類方法現已被廣泛接受,并揭示了研究和開發進程的重要里程碑。深度神經網絡(DNNs)的引入也發揮了重要作用。借助深度學習,計算機視覺對于解釋復雜的駕駛環境至關重要,為諸如目標檢測、場景理解和車輛定位等問題提供了最先進的解決方案。深度強化學習(DRL)在提升自動駕駛車輛的控制策略方面也發揮了關鍵作用,完善了運動規劃和決策過程,以適應動態和不確定的駕駛條件。此外,傳感器精度和計算能力的提高使得車輛上能運行更大、更準確的模型。隨著這些改進,更多L1至L2級別的高級駕駛輔助系統(ADAS)如車道居中和自適應巡航控制現在已在日常車輛上可用。諸如Waymo、Zoox、Cruise和百度等公司也在推出具有3級或更高自主性的Robotaxis。然而,這些自動駕駛系統在許多駕駛邊緣情況下仍然會失敗,例如極端天氣、糟糕的光照條件或罕見情況。
受當前局限性的啟發,自動駕駛研究的一部分現在專注于解決自動系統的安全性和增強自動系統的安全性。由于深度神經網絡通常被視為黑盒,可信AI旨在使系統更加可靠、可解釋和可驗證。例如,為自動駕駛系統生成對抗性的安全關鍵場景,以便系統更有能力處理低概率事件。另一種提高整體安全性的方法是通過車對基礎設施和車對車通信。通過來自附近實例的信息,系統將具有改進的魯棒性,并可以接收早期警告。與此同時,隨著大型語言模型展示出其強大的推理和場景理解能力,正在進行研究以利用它們來提高自動駕駛系統的安全性和整體性能。
多模態大型語言模型
最近,多模態大型語言模型(MLLMs)已成為一個重要的研究領域。這些模型利用了大型語言模型(LLMs)的力量,如ChatGPT、InstructGPT、FLAN和OPT-IML,來執行跨越多種模態(如文本和圖像)的任務。它們展現出了令人驚訝的新興能力,例如基于圖像編寫故事和執行無需光學字符識別的數學推理,這在傳統方法中很罕見。這表明了通往人工通用智能的潛在路徑。MLLMs中的關鍵技術和應用包括多模態指令調整(Multimodal Instruction Tuning),它調整模型以跟隨不同模態的指令;多模態上下文學習(Multimodal In-Context Learning),允許模型從多模態數據的上下文中學習;多模態思維鏈(Multimodal Chain of Thought),使模型能夠跨不同模態保持思維鏈;以及LLM輔助視覺推理(LLM-Aided Visual Reasoning, LAVR),利用LLMs來幫助視覺推理任務。MLLMs更符合人類感知世界的方式,提供了比LLMs更友好的用戶界面,并支持更廣泛的任務范圍。MLLMs的最新進展得益于GPT-4V的發展,盡管它沒有開放的多模態界面,但已展示出驚人的能力。研究社區已經做出了重大努力,開發了功能強大的開源MLLMs,并展示了驚人的實際能力。
**多模態語言模型在自動駕駛領域 **
在自動駕駛行業中,多模態語言模型(MLLMs)有潛力理解交通場景,改善駕駛決策過程,并徹底改變人與車輛的互動方式。這些模型接受了大量交通場景數據的訓練,使它們能夠從地圖、視頻和交通規則等不同來源提取有價值的信息。因此,它們可以增強車輛的導航和規劃能力,確保安全性和效率。此外,它們能夠適應不斷變化的道路條件,并具有與人類直覺非常相似的理解水平。
多模態語言模型在感知方面的應用 傳統的感知系統通常僅限于識別一組預定義的特定對象類別,這限制了它們的適應性,并需要收集和注釋新數據的繁瑣過程以識別不同的視覺概念。因此,它們的通用性和實用性受到了削弱。相比之下,一種新的范式正在興起,它涉及從原始文本描述和各種模態中學習,提供更豐富的監督來源。
多模態大型語言模型(MLLMs)由于能夠通過文本分析來分析非文本數據(如圖像和點云)而受到了顯著關注。這些進展極大地提高了零樣本和少樣本圖像分類、分割和對象檢測。
開創性的模型如CLIP已經表明,通過訓練將圖像與標題匹配,可以有效地從頭開始創建圖像表示。在此基礎上,Liu等人引入了LLaMa,它結合了視覺編碼器和LLM,增強了對視覺和語言概念的理解。Zhang等人進一步擴展了這項工作,開發了Video-LLaMa,使MLLMs能夠處理視頻中的視覺和聽覺信息。這代表了機器感知在整合語言和視覺模態方面的重大進展。
多模態語言模型用于規劃和控制 在機器人學領域,語言在規劃和控制任務中的使用已有悠久的歷史,可以追溯到早期展示人機互動的自然語言詞匯解析的使用[187],并且它已經被廣泛研究用于機器人領域。關于這個主題存在廣泛的綜述性研究[104, 164]。已經被充分證明,語言作為非專業人員與機器人交流的有價值接口[82]。此外,通過基于語言的控制實現機器人系統對新任務的泛化能力已經在各種研究中得到證明[2, 66]。已經廣泛研究了實現特定規劃或控制任務或策略,包括基于模型的[5, 121, 153]、模仿學習[105, 155]和強化學習[47, 67, 116]。
由于多模態語言模型在零樣本學習[167]、上下文學習[114]和推理[184]方面具有顯著的能力,許多研究表明LLM(多模態語言模型)可以啟用規劃[152, 176]和通過文本描述來感知環境[157],以開發用戶在機器人控制中的參與[174]。[81]通過文本完成和語義翻譯的組合將自然語言命令分解為可執行操作序列,以控制機器人。SayCan [2]利用加權LLMs來生成合理的動作并控制機器人,而[62]使用環境反饋,LLMs可以發展內心的自言自語,增強了它們在機器人控制場景中進行更全面處理的能力。Socratic Models [202]使用視覺語言模型替代用于機器人行動生成的語言提示中的感知信息。[96]介紹了一種使用LLMs直接生成機器人執行任務的策略代碼、指定反饋循環和編寫低級控制原語的方法。
在自動駕駛方面,LLMs可以作為支持人機交互的橋梁。對于通用目的,LLMs可以是任務無關的規劃器。在[60]中,作者發現預訓練的LLMs包含了關于一致和可執行行動計劃的可操作知識,無需額外的訓練。黃等人[61]提出了使用LLMs將任意自然語言命令或任務描述轉化為具體和詳細列出的目標和約束。[185]提出將LLMs集成為決策解碼器,以生成沿著自主車輛中的思維鏈提示的行動序列。在[31]中,作者展示了LLMs可以將駕駛員的任意命令分解為一系列中間階段,其中包括實現目標的行動的詳細描述。
同時,增強自動駕駛的安全性和可解釋性也是至關重要的。多模態語言模型提供了理解環境及決策過程透明性的潛力。[77]顯示,視頻到文本模型可以幫助生成與下游控制器對齊的環境文本解釋。Deruyttere等人[33]比較了基線模型,并顯示LLMs可以識別與自然語言命令或描述相關的環境中的特定對象。為了提高模型的可解釋性,Xu等人[193]提出了集成LLMs以生成關于計劃行動的解釋的方法。在[31]中,作者提出了一個框架,LLMs可以提供關于它們如何感知和對環境因素(如天氣和交通狀況)做出反應的描述。
此外,自動駕駛中的LLMs還可以促進控制器參數的微調,使其與駕駛員的偏好相一致,從而獲得更好的駕駛體驗。[150]通過引導參數矩陣適應將LLMs集成到低級控制器中。除了LLMs的發展,多模態語言-圖像模型(MLLMs)也取得了巨大進展。MLLMs具有作為自動駕駛的通用和安全規劃模型的潛力。處理和融合視覺信號,如圖像,可以通過結合視覺線索和語言指令[69, 84]增強導航任務。在自動規劃過程中,互操作性挑戰一直是一個問題[23, 46]。然而,近年來在解決自動規劃中的互操作性挑戰方面取得了巨大進展,利用MLLMs在自動駕駛規劃階段的出色推理能力[22, 41]。在一個顯著的方法中,陳等人[22]將矢量化的對象級2D場景表示集成到預訓練的LLM中,通過適配器實現直接解釋和全面推理各種駕駛場景。此外,付等人[41]利用LLMs進行推理,并將這種推理轉化為可執行的駕駛行為,展示了LLMs在增強自動駕駛規劃方面的多功能性。
此外,GPT-Driver [110]將運動規劃重新構想為一個語言建模問題,并利用LLMs在運動規劃中以自然語言描述高精度軌跡坐標及其內部決策過程。SurrealDriver [68]模擬了基于MLLM的生成駕駛代理,可以感知復雜的交通情景并生成相應的駕駛操作。[76]研究了在自動駕駛中使用文本描述與預訓練的語言編碼器進行運動預測的可能性。
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。
最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。
在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。
至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。
通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。
與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。
本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。
幻覺的原因
幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)。
數據引起的幻覺
預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。
訓練引起的幻覺
大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。
推理引起的幻覺
解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。
幻覺緩解
在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。
緩解與數據相關的幻覺
與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。
緩解與訓練相關的幻覺
與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。
緩解與推理相關的幻覺
在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。
結論
在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。
//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804
我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。
隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。
因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。
雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。
現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。
在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。
查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。
存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。
優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。
相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。
可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。
自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。
在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。
然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。
在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。
本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。
基于PLM的CTG主要方法
從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。
基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。
結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。
確保對齊,也就是使模型按照人類的意圖行事[1, 2],已經成為在實際應用中部署大型語言模型(LLMs)之前的關鍵任務。例如,OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而,實踐者面臨的一個主要挑戰是缺乏明確的指導方針,以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。
為了解決這個問題,本文提出了一個全面的調查,探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別進行進一步研究,在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明,總的來說,對齊度更高的模型在整體可信度方面表現得更好。然而,對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。
通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。
//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f
自然語言處理(NLP)的格局隨著大型語言模型(LLMs)的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大,通常達到數十億,且在大量的數據語料庫上進行訓練[4]。近年來,LLMs的影響確實是革命性的,它們徹底改變了學術研究和各種工業應用。值得注意的是,OpenAI開發的LLMs,包括ChatGPT [5, 6],取得了卓越的成功,其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型(LLMs)變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。
在過去,早期版本的LLMs,如GPT-3 [8],能夠生成有意義和信息豐富的文本。但是,它們存在許多問題,嚴重影響了它們的可靠性和安全性。例如,這些模型容易生成事實上不正確的文本,包含有錯覺。此外,生成的內容經常展現出偏見,進一步加強刻板印象和社會偏見。而且,LLMs傾向于生成社會上破壞性的內容,包括有毒的語言,這對它們的可靠性和實用性產生了不良影響。此外,它們容易被誤用,導致產生有害的宣傳,這對它們負責任的部署帶來了重大關切。此外,人們發現LLMs容易受到對抗性攻擊,如提示攻擊,進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響,尤其是當它們對公眾開放時。為了應對這些挑戰,研究人員和開發人員一直在努力改進對齊技術,使LLMs變得更可靠、更安全,并與人類價值觀更為一致。通過減輕這些問題,可以充分利用LLMs的潛在好處,同時將誤用的風險降到最低。
觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督,這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素,包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15],有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs,結果,LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外,單純地優化訓練和生成文本的目標函數,而不考慮人類價值觀,也是另一個原因。需要注意的是,確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰,研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟,確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。
后者達到了令人印象深刻的里程碑,在發布僅兩個月內吸引了1億用戶,使其成為歷史上增長最快的平臺。這一成就并不令人驚訝,因為對齊不僅減少了LLMs生成有害輸出的可能性,而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術,LLMs變得更加可靠、安全,并與人類價值觀更加和諧,從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路,釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。
然而,盡管對齊是LLMs受歡迎的核心技術,但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰,目前沒有明確和有原則的指導可供參考。特別地,缺乏既定和統一的討論,涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素,其中一個值得注意的一般指導原則是“HHH" 原則[20],主張對齊應該是有幫助的、誠實的和無害的。此外,[21]中提出了一個與構建LLMs相關的風險分類,包括六個風險:(1) 歧視、排斥和有毒性,(2) 信息危害,(3) 虛假信息危害,(4) 惡意使用,(5) 人機交互危害,以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋,但它可以進一步解開每一個維度。
此外,像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查,包括文本、圖像、視頻和音頻等各種類型。然而,我們的重點特別是在語言模型上,探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外,[23]以全面的方式評估了LLMs,包括一些值得信賴的類別,但它并沒有單獨解決可信性和對齊問題。據我們所知,一個被廣泛接受的評估LLM對齊的分類法尚未出現,目前的對齊分類法缺乏進行全面評估所需的精細度。
鑒于確保LLMs的可信度和其負責任的部署的重要性,開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解,而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中,我們提出了一個更為細致的LLM對齊要求分類體系,它不僅可以幫助從業者解開和理解對齊的維度,還為數據收集努力提供了可行的指導方針,以開發出可取的對齊過程。例如,“有害”內容的概念可以進一步細分為對個人用戶造成的傷害(如情感傷害、冒犯和歧視)、對社會造成的傷害(如創造暴力或危險行為的指導)或對利益相關者造成的傷害(如提供導致錯誤業務決策的誤導信息)。在Anthropic發布的對齊數據[18]中,存在一個在不同考慮因素之間的明顯的不平衡(附錄A的圖46)。例如,盡管“暴力”類別出現的頻率極高,“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事,因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的(第11節),與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此,我們有強烈的動機去構建一個框架,以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先,我們深入地調查了可能重要的LLMs的類別,根據我們對文獻和公眾討論的閱讀,為從業者關注以提高LLMs的可信度。其次,我們詳細解釋如何根據上述類別評估LLM的可信度,以及如何相應地構建對齊的評估數據集。此外,我們為廣泛使用的LLMs提供了測量研究,并顯示即使被廣泛認為是良好對齊的LLMs,也可能不滿足一些對齊任務的標準,從而突顯了我們對更細致的對齊評估的建議。第三,我們證明我們構建的評估數據集也可以用來執行對齊,并展示了這種更有針對性的對齊的有效性。
路線圖。本文的組織結構如下。首先,我們在第2節介紹LLMs和對齊的必要背景。然后,在第3節,我們對提議的LLMs對齊分類提供一個高層次的概述。之后,在第4-10節,我們詳細解釋每個單獨的對齊類別。在每一節中,我們針對一個被考慮的類別,為其重要性提供論據,調查文獻中存在的問題和相應的潛在解決方案(如果存在的話),并通過案例研究來說明問題。調查之后,我們在第11節提供了一個指南,介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節,我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后,在第12節,我們通過討論潛在的機會和挑戰來總結本文。
方法概述
圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別,每個類別進一步細分為更詳細的討論,總共有29個子類別。以下是每個類別的概述:
當前LLM應用
為了說明我們如何確定建議的分類法,我們首先簡要概述了圖4中LLM的當前主要應用,這在很大程度上影響了我們選擇分類法的方式。不用說,考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法,圖4中涵蓋的應用是不盡的。
我們如何確定分類法
我們通過兩個主要因素確定類別和子類別:(1)對LLM應用的影響以及(2)現有文獻。首先,我們考慮如果某個信任度類別未能滿足期望,會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外,我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如,我們認為可靠性是一個主要的關注點,因為幻覺目前是LLM中一個眾所周知的問題,它可以顯著損害其輸出的信任度,幾乎所有的LLM應用(可能除了創意寫作)都會受到事實錯誤答案的負面影響。而根據應用的風險有多高,它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯,我們認為安全性是一個重要的話題,因為它幾乎影響到所有的應用和用戶,不安全的輸出可能會對用戶造成多種心理傷害,對平臺造成公關風險。公平性很重要,因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視,降低用戶信任,對部署者產生負面的公眾意見,并違反反歧視法。此外,抵抗誤用實際上是必要的,因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地,可解釋性為用戶帶來了更多的透明度,與社會規范保持一致確保了LLM不會引起情感傷害,改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意,我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上,我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考,徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。
結論
在本文中,我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法,并討論了在這些維度上對齊的挑戰。我們還查閱了文獻,尋找相應的潛在解決方案(如果存在的話)。除了我們提議的分類法,我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到,更加對齊的LLM(基于公開聲明的已執行對齊信息)通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。
ChatGPT和GPT-4的顯著成就引發了對大型語言模型在通用人工智能(AGI)領域的研究和關注。這些模型為我們提供了更接近人類思維的智能解決方案,使我們能夠使用通用人工智能來解決各種應用中的問題。然而,在遙感領域,關于AGI實施的科學文獻相對較少。現有的與AI相關的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。這正是視覺-語言模型的優勢所在,因為它們可以推理關于圖像及其關聯文本描述的信息,從而更深入地理解基礎語義。視覺-語言模型可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。本文對遙感領域的視覺-語言模型研究進行了全面的回顧,總結了最新的進展,突出了當前的挑戰,并指出了潛在的研究機會。具體來說,我們回顧了視覺-語言模型在幾個主流遙感任務中的應用,包括圖像描述,基于文本的圖像生成,基于文本的圖像檢索,視覺問題回答,場景分類,語義分割和對象檢測。對于每個任務,我們簡要描述了任務背景并回顧了一些代表性的工作。最后,我們總結了現有工作的局限性,并提供了一些未來發展的可能方向。本回顧旨在為遙感領域的視覺-語言模型研究的當前狀態提供全面的概述,并激發對這一激動人心且重要領域的進一步研究。
1. 引言
深度學習已經成為遙感(RS)應用的強大工具。早期的遙感工作主要側重于使用從圖像中提取的視覺特征來執行各種任務,例如物體檢測、語義分割、土地覆蓋分類和變化檢測。作為最常用的深度學習方法之一,卷積神經網絡(CNNs)可以自動學習遙感圖像的分層表示,使它們能夠捕獲局部和全局的空間特征和模式。此外,注意力機制已被整合進深度學習模型,通過讓模型關注輸入的特定區域來提高其在遙感任務中的表現。由于深度神經網絡強大的特征學習能力,深度學習模型在各種遙感任務中的有效性得到了證明,與傳統的機器學習方法相比,它們達到了最先進的性能。然而,現有的基于深度學習的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。例如,在進行土地覆蓋分類時,如果只有視覺的模型可能會把一個像高速公路的建筑物屋頂像素分類為高速公路。這是因為模型缺乏高速公路不能在建筑物屋頂內的一般知識。 近年來,大型語言模型(LLMs)在自然語言處理(NLP)和計算機視覺領域成為了熱門的研究話題。這些模型構建了大規模的視覺和自然語言理解轉換網絡,并在各種語言理解任務中取得了最先進的性能,例如語言建模、文本生成和問題回答[115]。值得注意的是,ChatGPT的顯著成就在通用人工智能(AGI)領域的大型語言模型研究中引發了一波關注和研究。預期這些模型在圖像理解和自然語言處理方面將會有更多的進步,他們有望將語言理解的水平提升到前所未有的水平。大型語言模型的巨大成功鼓勵了大量的視覺-語言模型(VLMs)研究。
視覺-語言模型(VLMs)通常被定義為一類結合了計算機視覺和自然語言處理技術的人工智能模型,它們能夠生成對視覺和文本信息的全面理解。通過共同識別視覺和語義模式及其關系,VLMs可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。更重要的是,通過將視覺模型與具有一般推理能力的大型語言模型(LLMs)結合,VLMs提供了一種更全面和類人的方法來理解視覺內容。近年來,VLMs在各種計算機視覺任務中展示了令人印象深刻的結果,包括圖像理解[19],[198],視覺問題回答[75],[74],文本到圖像生成[125],語義分割[20],[187],對象檢測[183],[99]等。 在遙感中,使用VLMs是一個相對新的研究領域。隨著與遙感數據相關的文本元數據的日益增多,研究人員已經開始探索在這個領域使用視覺和語言模型[147]。近年來,一些早期的嘗試試圖探索VLMs用于各種遙感數據分析任務,包括遙感圖像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遙感圖像生成[10],[18],[189],[48],[168],基于文本的遙感圖像檢索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],視覺問題回答[96],[192],[192],[15],[15],[3],[9],[174],[175],場景分類[72],[136],[113],[150],[86],語義分割[20],[187],對象檢測[58],[183],[99]等。隨著大規模遙感數據集的可用性增加和深度學習技術的進步,預計視覺和語言模型的使用將在遙感應用的未來中發揮重要作用。
在這項研究中,我們提供了一項全面的綜述,從視覺到語言,再到視覺-語言模型(VLMs)在遙感(RS)中模型的演變。具體來說,我們對近期在遙感領域VLMs的進展進行了廣泛的文獻調研。此外,我們為遙感應用領域VLMs的未來研究方向提供了有價值的見解和建議。我們的工作有助于更好地理解VLMs的當前最新水平,并為這個領域的研究人員提供了探索這些模型在遙感任務中潛力的指導。
遙感中的視覺-語言模型
A. 基礎模型。
基礎模型指的是在大量數據上以任務無關的方式預訓練的大型深度學習神經網絡。這些模型可以通過微調、少樣本學習或零樣本學習應用于各種下游任務。基礎模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。這些模型已經在大量文本數據上進行了預訓練,并能夠為各種NLP任務進行微調,如語言翻譯、問答和文本分類。在遙感(RS)中,預訓練對于提高分類、檢測和分割任務的性能至關重要[165]。以前的方法主要利用ImageNet數據集進行預訓練。然而,將ImageNet預訓練模型轉移到RS任務會因自然圖像和RS圖像之間的巨大差異而產生巨大的領域差距。因此,設計一個針對RS數據的基礎模型是必要的。研究人員使用兩種方法來達到這個目標:監督學習和自我監督學習。在監督學習中,[152]在MillionAID數據集上預訓練了深度神經網絡,這是一個大規模的RS數據集,并提高了這些模型在RS數據集上的性能。然而,需要大量標注數據仍然是一個障礙,因為它可能阻礙更大模型的訓練。因此,自我監督技術逐漸成為開發遙感基礎模型的主要方法,因為它們可以利用大量的未標注數據[157]。一些工作[2],[79],[6],[105],[47]采用對比學習訓練基礎模型,加入RS特定信息,如地理數據、時間序列數據、音頻數據等。
最近,遮蔽圖像建模(MIM)在計算機視覺中越來越受到關注,如BEiT [8],MAE [45],SimMIM [164],因為它消除了對額外信息、數據增強和正負對選擇的需要。因此,利用大量數據變得更容易。一些工作將MIM應用于開發RS基礎模型。例如,[137]從衛星和航空平臺收集了200萬張RS圖像,創建了一個大規模的RS數據集。基于這個數據集,他們設計了第一個生成自監督RS基礎模型,RingMo。RingMo在包括變化檢測、場景識別、對象檢測和語義分割在內的四個下游任務的八個數據集上取得了最新的成果。[153]首次嘗試構建一個具有大約1億參數的簡單視覺變換器,用于定制RS任務的大型視覺基礎模型。方法概述如圖7所示。他們還引入了一個旋轉的可變大小窗口注意機制,以增強視覺變換器適應RS圖像的能力。[106]發現在構建地理空間基礎模型時,應該考慮到在多樣化數據集上預訓練的模型,例如ImageNet-22k,因為它們的表現仍然有效。因此,他們以可持續的方式構建了一個用于地理空間應用的地理空間基礎模型。[14]開發了RS領域的第一個十億規模的基礎模型,并證明了將模型的大小從百萬規模增加到十億規模的效果。
B. 遙感圖像描述
遙感圖像描述(RSIC)是一項復雜的任務,需要機器理解遙感(RS)圖像的內容并用自然語言進行描述。這是一個具有挑戰性的任務,因為生成的描述不僅必須捕捉到不同規模的地面元素,還必須描述出它們的屬性以及它們之間的相互關系。與其它旨在預測單個標簽或單詞的任務不同,RSIC旨在生成全面的句子。為了生成簡潔而有意義的句子描述,重要的是要識別并識別出不同級別的地面元素,分析它們的屬性,并從高級角度利用類別依賴性和空間關系。
C. 基于文本的圖像生成
基于文本的圖像生成是一個新興的研究領域,它結合了自然語言處理和計算機視覺,以便從文本描述中創建逼真的圖像。將這種技術應用到遙感(RS)圖像中,在現實世界的應用中具有巨大的潛力。它可能帶來的一大益處是,通過根據文本描述生成逼真的RS圖像,來幫助城市規劃者。這將使他們能夠評估他們設計的可行性,并做出更明智的決策。另一個可能的用例是生成高質量的RS圖像標注數據集,這通常是一個具有挑戰性和耗時的過程。基于文本的圖像生成技術可以用于從文本描述中創建合成的RS數據集,從而緩解標注樣本的短缺。
D. 基于文本的圖像檢索
如何有效組織和管理大量的遙感(RS)數據,長期以來都是RS領域面臨的重大挑戰。為了解決這個挑戰,基于文本的圖像檢索(TBIR)已經成為一個突出的研究課題,旨在為RS數據管理提供有效的解決方案。圖像檢索的主要目標是從大型數據集中提取特定的圖像,近年來該領域已經得到了相當多的關注。其基本思想是縮小對目標圖像的搜索范圍,并檢索出與特定查詢相匹配的圖像。這項任務在諸如森林砍伐檢測、視覺導航和城市規劃等實際應用中具有價值。
E. 視覺問題回答
視覺問題回答(VQA)是一項旨在對與圖像相關的問題提供答案的任務。盡管在計算機視覺領域已經獲得了廣泛的關注,但在遙感(RS)領域仍處于早期階段。遙感VQA系統使非專業用戶可以使用自然語言問題作為查詢來與RS圖像進行交互,從而實現對圖像的用戶友好和高級理解。開創性的工作[96]建立了RS圖像的第一個大規模VQA基準數據集。從OpenStreetMap中收集了低分辨率和高分辨率的RS圖像數據,以及與圖像相關的人生成的問題和答案。在[96]中,作者提供了一種基準方法,使用卷積神經網絡(CNNs)進行視覺特征學習,采用長短期記憶網絡(LSTM)[48]進行文本嵌入提取。進一步設計了相互關注機制以增強視覺和文本特征之間的對齊。在[95]中,作者通過參考每張RS圖像中土地使用類別的存在,構建了一個大規模的遙感VQA數據集。鄭等人[192]引入了一個相互關注網絡,利用視覺和文本特征之間的語義對應關系,采用雙線性模塊進行特征融合。Chappuis等人[15]建議使用大型語言轉換器,例如BERT[32]進行文本特征學習,并證明其性能優于循環神經網絡。
F. 視覺定位
針對遙感數據的視覺定位(RSVG)是近期的一個新穎課題,對于這個任務的研究仍然有限。具體來說,RSVG涉及使用遙感圖像和相關的查詢表達式,為特定的感興趣的對象提供邊界框[180]。通過使用自然語言引導在遙感場景中定位對象的過程,RSVG提供了對象級別的理解,并為終端用戶提供便利。RSVG的潛在應用包括目標對象的檢測和識別、搜索和救援任務、城市規劃等。
G. 零樣本場景分類
零樣本遙感場景分類(RSSC)的目標是通過參考視覺特征和語義類別之間的語義關系來識別未見過的場景概念。Li等人[72]提出了第一種基于零樣本學習的遙感(RS)場景分類方法,該方法使用在Wikipedia語料庫上預訓練的word2vec模型來獲取類別名稱的語義嵌入,然后構建語義圖以捕獲類別間的關系。Quan等人[113]通過結合半監督的Sammon嵌入算法[127]來對齊語義和視覺原型,從而加強了這種方法。
H. 少樣本目標檢測
目標檢測是遙感(RS)中的一個重要任務,涉及到通過識別其邊界框和類別標簽來檢測對象實例。由于近年來的大量研究努力,這個領域已經取得了重大進步,包括兩階段檢測器,如Fast RCNN[40]和Faster R-CNN[123],一階段檢測器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR變體[13],[200]。
I. 少樣本/零樣本語義分割
在語義分割領域,少樣本學習方法使得在有限數量的標注圖像下能夠進行新類別的分割。最近的研究主要集中在兩類方法,即參數匹配方法和原型方法。值得注意的是,開創性的工作PANet [154]通過引入一個原型對齊模塊,為每個語義類別生成高度代表性的原型,并基于特征匹配進行查詢對象的分割,從而在少樣本分割領域實現了突破。Jiang等人[58]提出了一種用于遙感(RS)圖像分割的少樣本學習方法,但是少樣本學習在RS圖像分割中的應用仍然處于起步階段。為了克服深度學習分割方法對數據的依賴,最近的研究[20],[187]已經探索了自我/半監督學習和弱監督學習,以減少對密集標注的需求。Chen等人[20]介紹了一種基于對比學習的RS圖像少樣本分割的半監督方法。Zhang等人[187]引入了一個用于跨場景高光譜圖像分類的網絡,該網絡利用語言指導實現領域泛化。圖15給出了該方法的概述。
3. 結論與未來趨勢
計算機視覺和自然語言處理傳統上被視為兩個不同的領域,每個領域都有自己獨特的挑戰和應用。然而,ChatGPT的非凡成功最近在大型語言模型(AGI)領域的研究者中引發了巨大關注。這些模型將計算機視覺和自然語言處理的優勢結合在一起,促進了更像人類的智能系統的開發,這些系統是基于VLMs構建的。在遙感(RS)的一些研究中,已經證明了VLMs在各種RS任務中比純視覺模型更優越,包括圖像標注、基于文本的圖像生成、基于文本的圖像檢索、視覺問題回答、場景分類、語義分割和目標檢測。雖然這些早期的嘗試已經展示了將VLMs應用于遙感的成功,但對于大多數研究者來說,這仍然是一個新興領域。因此,本文旨在提供一個全面的關于在遙感中應用視覺語言模型的綜述,為其他研究者提供關于該領域背景和最近進展的快速理解。它還旨在鼓勵在這個令人興奮且重要的領域進行進一步的研究。在回顧了遙感中VLMs的文獻后,我們發現了當前研究的一些限制。首先,用于訓練VLMs的RS數據集數量有限,樣本量遠小于計算機視覺領域的數十億圖像數據集。其次,大多數現有的RS VLMs仍然使用經典的CNN和RNN作為圖像和語言編碼器,只有少數工作探討了在計算機視覺中使用預訓練的視覺變換器和大型語言模型,如GPT、BERT和Flan-T5。這可能限制了這些模型的特征學習能力。此外,從零開始訓練這些VLMs需要大量的計算負擔,尤其是對于擁有數十億參數的大網絡。這就需要在RS中為大型VLMs提供有效的模型微調技術。此外,由于光照條件、大氣干擾和傳感器噪聲等因素的影響,RS數據可能會表現出高度的變化性。