亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)自從2022年11月ChatGPT發布以來,因其在廣泛的自然語言任務上的強大表現而受到了大量關注。LLMs通過在海量文本數據上訓練數十億模型參數獲得了通用語言理解和生成的能力,正如擴展定律[1]、[2]所預測的。盡管LLMs的研究領域非常新近,但它正在多個不同的方向上迅速發展。在本文中,我們回顧了一些最突出的LLMs,包括三個受歡迎的LLM家族(GPT, LLaMA, PaLM),并討論了它們的特點、貢獻和限制我們還概述了構建和增強LLMs的技術。接著,我們調研了為LLM訓練、微調和評估準備的流行數據集,回顧了廣泛使用的LLM評估指標,并比較了幾種受歡迎的LLMs在一組代表性基準測試上的性能。最后,我們通過討論開放性挑戰和未來研究方向來結束本文。

//www.zhuanzhi.ai/paper/6211cbd80a246ae8e282d1b2ebf0ab23

1. 引言

大型語言模型(LLMs)自ChatGPT于2022年11月發布以來,因其在廣泛的自然語言任務上的強大表現而吸引了大量關注。LLMs通過在大量文本數據上訓練數十億參數來獲得通用語言理解和生成能力,這與擴展定律的預測相符。雖然LLMs的研究領域非常新,但它在許多不同方面迅速發展。在本文中,我們回顧了一些最突出的LLMs,包括三個受歡迎的LLM家族(GPT, LLaMA, PaLM),并討論了它們的特點、貢獻和限制。我們還概述了用于構建和增強LLMs的技術。然后,我們調查了為LLM訓練、微調和評估準備的流行數據集,回顧了廣泛使用的LLM評估指標,并比較了幾種受歡迎的LLMs在一組代表性基準測試上的性能。最后,我們通過討論開放性挑戰和未來研究方向來結束本文。

LLMs是基于神經網絡的大規模預訓練統計語言模型。LLMs的成功是數十年語言模型研究和開發積累的結果,可以分為四個波浪,這些波浪有不同的起點和速度:統計語言模型、神經語言模型、預訓練語言模型和LLMs。

統計語言模型(SLMs)將文本視為單詞序列,并估計文本的概率為其單詞概率的乘積。SLMs的主要形式是馬爾可夫鏈模型,即n-gram模型,它計算一個詞的概率,條件是其前n-1個詞。由于單詞概率是根據從文本語料庫收集的單詞和n-gram計數估計的,模型需要通過使用平滑處理數據稀疏性(即,為未見單詞或n-gram分配零概率)。 早期的神經語言模型(NLMs)通過將單詞映射到低維連續向量(嵌入向量)并使用神經網絡基于其前序單詞的嵌入向量聚合來預測下一個單詞,來處理數據稀疏性。NLMs學習的嵌入向量定義了一個隱藏空間,其中向量之間的語義相似性可以通過它們的距離輕松計算。 預訓練語言模型(PLMs)與早期NLMs不同,它們是任務不可知的。PLMs的訓練和推理遵循預訓練和微調范式,其中基于循環神經網絡或變換器的語言模型在Web規模的未標記文本語料庫上進行預訓練,然后使用少量(標記的)特定任務數據進行微調。 大型語言模型(LLMs)主要指基于變換器的神經語言模型,包含數十億到數千億參數,預訓練于大量文本數據。與PLMs相比,LLMs不僅在模型大小上要大得多,而且在語言理解和生成能力上也更強,更重要的是,它們展示了在小規模語言模型中不存在的新興能力。這些新興能力包括在推理時從提示中給出的少量示例學習新任務的上下文內學習、在不使用明確示例的情況下遵循新類型任務指令的指令跟隨,以及通過將復雜任務分解為中間推理步驟來解決復雜任務的多步驟推理。 通過高級使用和增強技術,LLMs可以部署為所謂的AI代理:感知環境、做出決策并采取行動的人工實體。以前的研究集中在為特定任務和領域開發代理。LLMs展示的新興能力使基于LLMs構建通用AI代理成為可能。盡管LLMs被訓練以在靜態設置中產生響應,但AI代理需要采取行動與動態環境互動。因此,基于LLM的代理通常需要增強LLMs,例如,從外部知識庫獲取更新的信息,驗證系統操作是否產生預期結果,以及應對事情不如預期進行時的情況等。我們將在第四節詳細討論基于LLM的代理。 本文的其余部分,第二節介紹LLMs的最新進展,重點是三個LLM家族(GPT,LLaMA和PaLM)及其他代表性模型。第三節討論了如何構建LLMs。第四節討論了如何使用LLMs,并為現實世界的應用增強LLMs。第五節和第六節回顧了評估LLMs的流行數據集和基準,總結了報告的LLM評估結果。最后,第七節通過總結挑戰和未來研究方向來結束本文。

II. 大型語言模型在這一部分,我們首先回顧早期的預訓練神經語言模型,因為它們是LLMs的基礎,然后我們將討論三個LLMs家族:GPT、LlaMA和PaLM。表I提供了這些模型及其特性的概覽。

大型語言模型(LLMs)主要指基于變換器的預訓練語言模型(PLMs),包含數十億到數百億的參數。與上述的PLMs相比,LLMs不僅在模型大小上要大得多,而且還展示了更強的語言理解和生成能力以及在小規模模型中不存在的新興能力。下面,我們將回顧三個LLM家族:GPT、LLaMA和PaLM,如圖8所示。

如何構建LLMs?

在本節中,我們首先回顧用于LLMs的流行架構,然后討論從數據準備、標記化,到預訓練、指令調整和對齊等一系列數據和建模技術。 一旦選擇了模型架構,訓練LLM涉及的主要步驟包括:數據準備(收集、清洗、去重等)、標記化、模型預訓練(以自監督學習的方式)、指令調整和對齊。我們將在下面的各個小節中解釋每一個步驟。這些步驟也在圖25中示意。

如何使用和增強LLMs?

一旦LLMs被訓練好,我們就可以使用它們為各種任務生成所需的輸出。LLMs可以通過基本的提示直接使用。然而,為了充分發揮它們的潛力或解決某些缺陷,我們需要通過一些外部手段來增強模型。在本節中,我們首先簡要概述LLMs的主要缺點,更深入地探討了幻覺問題。然后,我們描述了如何通過提示和一些增強方法不僅解決這些限制,還可以增強LLMs的能力,甚至將LLM轉變為具有與外部世界交互能力的全功能AI代理。

評估不同的LLMs也可以從不同的角度進行。例如,參數數量大幅減少的LLM與參數數量更多的LLM并不完全可比。從這個角度出發,我們也將LLMs分為四類:小型(等于或少于10億參數)、中型(在10億到100億之間)、大型(在100億到1000億之間)和超大型(超過1000億)。我們使用的另一種LLM分類是它們的主要用途。我們認為每個LLM要么是:基礎模型(預訓練的語言模型,沒有指令微調和聊天微調)、指令模型(只有指令微調的預訓練語言模型)、聊天模型(有指令和聊天微調的預訓練語言模型)。除了所有描述的分類之外,還需要另一個分類來區分原始模型和調整過的模型。原始模型是那些作為基礎模型或微調模型發布的。調整過的模型是那些抓住原始模型并用不同的數據集或甚至不同的訓練方法進行調整的模型。同樣值得注意的是,原始模型通常是基礎模型,已經在特定數據集上進行了微調,甚至是不同的方法。模型權重的可用性,不論許可如何,是我們分類中的另一個類別。權重公開可用(即使通過請求)的模型被標記為公共模型,而其他的則被標記為私有模型。表III展示了本文余下部分使用的所有這些定義和縮寫。圖43直觀地說明了這些。

結論

本文對過去幾年發展的LLMs進行了綜述。我們首先提供了早期預訓練語言模型(例如,BERT)的概覽,然后回顧了三個受歡迎的LLM家族(GPT、LLaMA、PaLM)和其他代表性LLMs。接著,我們調研了構建、增強和使用LLMs的方法和技術。我們回顧了流行的LLM數據集和基準,并比較了一組杰出模型在公共基準上的性能。最后,我們提出了開放性挑戰和未來研究方向。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。

大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。

? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。

? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。

然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:

? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:

? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。

最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。

? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。

實驗結果

主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言理解、語言生成和復雜推理等重要任務中展示了顯著能力,并有潛力對我們的社會產生重大影響。然而,這些能力伴隨著它們所需的大量資源,突顯了開發有效技術以應對其效率挑戰的強烈需求。在本綜述中,我們提供了對高效LLMs研究的系統性和全面的回顧。我們組織了文獻,形成了一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了不同但相互關聯的高效LLMs主題。我們還創建了一個GitHub倉庫,在 //github.com/AIoTMLSys-Lab/Efficient-LLMs-Survey 收錄了本綜述中的論文,并將積極維護這個倉庫,將新的研究成果納入其中。我們希望我們的綜述能成為幫助研究人員和實踐者系統理解高效LLMs研究發展的寶貴資源,并激勵他們為這個重要且令人興奮的領域做出貢獻。

大型語言模型(LLMs)是一種先進的人工智能模型,旨在理解和生成人類語言。最近,我們見證了GPT系列(GPT-3 [21] 和 GPT-4 [197])、谷歌系列(Gemini [266]、GLaM [71]、PaLM [50]、PaLM-2 [8])、Meta系列(LLaMA 1&2 [272, 273])、BLOOM [233]、盤古之心 [227] 和 GLM [339]等LLMs的興起,以及它們在自然語言理解(NLU)、語言生成、復雜推理[320]和與生物醫學[278, 280]、法律[72]及代碼生成[34, 300]等領域相關的任務中取得的顯著表現。這些性能突破歸功于它們的巨大規模,因為它們包含數十億甚至數萬億個參數,同時又在大量數據上進行訓練,這些數據來自多樣化的來源。 盡管LLMs引領著人工智能的下一波革命,但LLMs的顯著能力卻以其巨大的資源需求為代價[50, 71, 197, 227]。圖1展示了LLaMA系列模型性能與訓練過程中碳排放之間的關系。如圖所示,隨著模型參數數量的增加,碳排放量呈指數級增長。除了訓練之外,推理(inference)也對LLMs的運營成本有著相當大的貢獻。如圖2所示,更先進的LLMs在推理過程中表現出更高的內存使用和能源消耗,這對于以經濟有效的方式將這些模型擴展到更廣泛的客戶群和多樣化的應用中提出了挑戰。隨著LLMs應用和客戶群的快速擴張,推理過程中的運營成本(包括能源消耗和內存使用)將增加,超過訓練成本,成為整體環境影響的主導因素。 LLMs的高資源消耗推動了開發技術以提高LLMs效率的需求。本綜述的總體目標是提供一個全面的視角,概述高效LLMs的技術進展,并總結現有的研究方向。如圖3所示,我們將文獻組織成一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了高效LLMs的主題。這三個類別涵蓋了不同但相互關聯的研究主題,共同提供了對高效LLMs研究的系統性和全面的回顧。具體來說,

?** 模型中心方法**:模型中心方法側重于以模型本身為焦點的算法層面和系統層面的高效技術。由于LLMs擁有數十億甚至數萬億個參數,它們表現出與小規模模型不同的特征[299],這促使了新技術的發展。在第2部分,我們調查了涵蓋模型壓縮、高效預訓練、高效微調、高效推理和高效架構設計相關的研究方向的高效技術。

? 數據中心方法:在LLMs領域,數據的重要性與模型本身一樣關鍵。數據中心方法側重于數據質量和結構在提高LLMs效率方面的作用。在第3部分,我們調查了涵蓋數據選擇和提示工程相關研究方向的高效技術。

? LLM框架:LLMs的出現促使開發專門的框架,以高效地處理它們的訓練、推理和服務。雖然主流的人工智能框架(如TensorFlow、PyTorch和JAX)提供了基礎,但它們缺乏對LLMs至關重要的特定優化和特性的內置支持。在第4部分,我們調查了專門為高效LLMs設計的現有框架,介紹了它們的獨特特性、底層庫和專門化。

最后,我們建立了一個GitHub倉庫,在 上匯編了本綜述中的論文,并將它們按照相同的分類法組織起來。我們將積極維護它并納入新的研究成果。我們希望這個綜述以及GitHub倉庫能幫助研究人員和從業者瀏覽文獻,并作為激發對高效LLMs進一步研究的催化劑。

以模型為中心

正如圖4所總結的,大型語言模型(LLMs)的模型壓縮技術可以分為四類:量化、參數剪枝、低秩近似和知識蒸餾

如表1所示,預訓練大型語言模型(LLMs)的成本極其昂貴。高效的預訓練旨在提高預訓練過程的效率并降低成本。正如圖7所總結的,高效預訓練技術可以分為四類:混合精度加速、模型縮放、初始化技術和優化策略

高效微調旨在提高大型語言模型(LLMs)微調過程的效率。正如圖8所示,高效微調方法可以分為參數高效微調(PEFT)和內存高效微調(MEFT)。

高效推理旨在提高大型語言模型(LLMs)推理過程的效率。正如圖10所總結的,高效推理技術可以分為算法層面和系統層面的加速技術。

針對大型語言模型(LLMs)的高效架構設計是指對模型結構和計算過程進行戰略性優化,以提升性能和可擴展性,同時最小化資源消耗。圖12總結了大型語言模型的高效架構設計。

以數據為中心

大型語言模型(LLMs)的數據選擇涉及對數據源、質量和預處理的仔細考慮。確保高質量數據是開發高效可靠的LLMs的基礎,因為它影響著它們的學習、泛化和在各種任務上準確執行的能力。[84, 232, 311, 325]。這個過程對于避免在模型中傳播偏見和不準確性至關重要,使得LLMs訓練能夠收斂。研究人員正在開發優化數據選擇、數據壓縮和提示微調等策略,以提高性能同時使用較少的資源。圖15總結了高效預訓練和微調的最新數據選擇技術。

提示工程[167]涉及設計有效的輸入(提示),以引導大型語言模型(LLMs)生成期望的輸出。這對于LLMs至關重要,因為提示工程使得LLMs能夠針對特定任務進行定制,而無需大量標記數據。高效技術使得這些模型能夠在較少的計算開銷下準確處理信息和響應。基于提示的語言模型所涉及的計算成本一直是持續研究的主題,特別是在特定任務應用的背景下。正如圖17所總結的,提示工程技術可以分為少量樣本提示、提示壓縮和提示生成。

LLM框架

結論

在這篇綜述中,我們提供了對高效大型語言模型(LLMs)的系統性回顧,這是一個旨在實現LLMs民主化的重要研究領域。我們從闡述高效LLMs的必要性開始。通過一個分類體系,我們分別從以模型為中心和以數據為中心的角度,回顧了LLMs的算法層面和系統層面的高效技術。此外,我們還回顧了具有特定優化和特性的LLMs框架,這些對高效LLMs至關重要。我們認為,效率將在LLMs及以LLMs為導向的系統中發揮越來越重要的作用。我們希望這篇綜述能夠使研究人員和實踐者快速進入這一領域,并作為激發高效LLMs新研究的催化劑。

付費5元查看完整內容

自從OpenAI開發的強大AI聊天機器人ChatGPT推出以來,大型語言模型(LLMs)在學術界和工業界均取得了顯著進步,為許多領域帶來了根本性的工程范式轉變。雖然LLMs強大,但正確利用其力量也至關重要,其中“提示”扮演著核心角色。然而,蓬勃發展的LLMs本身,包括像ChatGPT這樣的優秀API,也有幾個固有的局限性:1)訓練數據的時間滯后性,以及2)缺乏執行外部動作的物理能力。最近,我們觀察到了使用基于提示的工具來更好地利用LLMs的下游任務的趨勢,但由于這一領域的快速發展,系統性的文獻和標準化術語仍然缺乏。因此,在這項工作中,我們綜述了相關的提示工具,并推廣了“提示框架”(PF)的概念,即用于管理、簡化和促進與大型語言模型交互的框架。我們將PF的生命周期定義為一個分層結構,從下到上依次為**:數據層級、基礎層級、執行層級和服務層級**。我們還系統地描述了新興PF領域的整體格局,并討論了潛在的未來研究和挑戰。為了持續跟蹤這一領域的發展,我們維護了一個存儲庫//github.com/lxx0628/Prompting-Framework-Survey,這可以成為該領域學術界和工業界的有用資源共享平臺。

自從引起廣泛社會關注的ChatGPT發布以來,大型語言模型(LLMs)的研究在學術界和工業界已全面展開,產生了許多令人驚嘆的產品,如PaLM [27]、GPT-4 [82]和LLaMA [108, 109]。這些LLMs在對話、文本翻譯和情感分析[2, 11, 25, 54]等方面顯示出接近甚至超越人類水平的卓越能力,可能會為許多領域帶來根本性的變革[18, 30, 38, 61, 65, 76, 123, 137]。語言模型的發展到目前的繁榮狀態經歷了一系列演變過程:全監督學習 → NLP的深度學習 → “預訓練,微調” → “預訓練,提示,預測”[60, 135]。最初,語言模型(LMs)應用了全監督學習范式,其中特定任務的模型僅在目標任務數據集上訓練,嚴重依賴特征工程[53, 80, 98]。隨后,隨著深度學習的興起,出現了NLP的神經網絡,實現了特征學習和模型訓練的集成,即設計用于自動學習數據特征的網絡架構[7, 8, 29, 72]。后來,隨著LMs的需求增加并適應越來越多的NLP任務,“預訓練,微調”范式被引入。在此范式中,具有固定架構的模型經過預訓練來預測觀察到的文本數據的概率。然后引入額外的參數,并使用特定于任務的目標函數對模型進行微調,以將預訓練的LM適應于各種下游任務[55, 100, 111, 128]。然后是LLMs的時代,趨勢轉向下游任務主動適應預訓練模型。“預訓練,提示,預測”的范式成為主流,提示成功地賦予LLMs輕松應對各種復雜和多樣化任務的能力。通過提供一套合適的提示,一個完全基于上下文預測訓練的單一語言模型可以被用來解決各種任務[13, 95]。因此,提示的質量和適當性在任務解決中越來越起到關鍵作用[51, 120, 136]。學術界和工業界對與提示相關的研究都表現出日益增長的關注和興趣。

眾多研究表明,使用合適的方法發揮LLMs的潛力是必要的[116, 120, 129, 136]。2023年3月,OpenAI正式推出了一個重大創新,稱為ChatGPT插件,它使ChatGPT能夠使用外部工具,反映了增強LLMs與外部世界交互能力的日益增長的需求。當類比于人類時,LLMs可以被視為智能系統的大腦,負責感知指令并生成和控制一系列動作。因此,通過將它們固有的知識和能力與搜索引擎、計算工具、視覺模型等外部工具結合,LLMs可以執行廣泛的現實世界任務,包括實時數據檢索、基于瀏覽器的信息檢索、數據庫訪問、精確的數學計算、復雜的語言生成和圖像分析,從而在教育、醫療保健、社交媒體、金融和自然科學等多個領域展示其潛力[64, 68, 78, 93]。因此,開發促進交互過程優化和簡化的工具變得至關重要。在本文中,我們將這些前瞻性工具統稱為一個新穎的概念:“提示框架”(PF)。

自Harrison Chase于2022年10月發布開源項目LangChain [20]以來,它已在GitHub上吸引了超過60,000名支持者,成為迄今為止最受歡迎的提示框架之一。LangChain是一個通過可組合性構建帶有LLMs的應用程序的框架。除了LangChain外,我們的調查還涵蓋了各種最先進的提示框架,包括1) 可以被認為是LLMs的操作系統的Semantic Kernel [112]、LlamaIndex [59]和OpenDAN [83],以及2) LLMs的輸出限制器,如Guidance [69]、TypeChat [70]、NeMo-Guardrails [79],和3) 與LLMs交互的語言,如LMQL [10]、gpt-jargon [14]、SudoLang [40]。在提到提示框架時,由于該領域發展迅速,難以追蹤并了解分布在GitHub、預印本論文、Twitter以及頂級會議/期刊上的眾多方法,這帶來了一個顯著的挑戰。此外,具有不同重點的眾多提示框架方法的豐富性使得系統性地分類和比較它們變得具有挑戰性,阻礙了為特定需求選擇最合適產品的過程。因此,目前缺乏但迫切需要系統性的文獻和標準化術語來介紹和比較這些對于更好利用LLMs能力至關重要的工具。

在這份綜述中,我們介紹了‘提示框架’的概念,并對現有的提示框架進行了全面和系統的調查。我們為它們提供分類、比較分析和評估標準,評估它們的適用性和局限性,并為其有效利用于實際LLM啟用的任務提供實用建議。此外,我們還討論了一些超出提示框架范圍但與提示相關的有用工具包。我們還為未來的研究提出了建議。簡而言之,我們作出了以下主要貢獻:

? 我們介紹了在學術界和工業界引起關注的提示框架概念,并提供了系統化和標準化的定義和術語。 ? 我們將現有的提示框架分為3類,進行了全面的比較,探討了它們在不同維度的優勢和局限性,并提供了實用建議。基于研究發現,我們展示了提示框架的未來方向,并廣泛探索了其在更多領域的潛在發展和挑戰。 ?** 我們進行了廣泛的研究,超出了提示框架的范圍,包括與LLMs的提示和提示框架的任務執行相關的作品和工具**。我們將它們匯集在我們的GitHub存儲庫中,以便研究人員訪問和探索進一步的研究。 文章的其余部分安排如下

第2部分介紹了提示框架的背景知識,包括LLMs的特性和提示框架的必要性。第3部分描述了調查,包括方法論和結果。第4部分提供了提示框架的系統性定義和分類。第6部分展示了各種提示框架在不同維度上的比較和挑戰。第5部分回顧了與LLMs相關但超出提示框架范圍的基于提示的工作。第7部分展示了提示框架的未來方向以及在更多領域的潛在發展和挑戰。

總述

在本節中,我們提供了對我們調查過程的全面描述。LLMs及相關技術領域目前正在經歷一個前所未有的快速發展階段。因此,相關研究和成就的景觀以其分散的性質為特征。許多貢獻尚未在傳統學術期刊或會議上正式發表。相反,它們通常在像arXiv這樣的平臺上找到,或作為GitHub上可用的開源工具包。一些值得注意的發展主要存在于Twitter、GitHub和Discord等平臺上的在線社區中,缺乏正式文檔。此外,該領域缺乏全面的綜述文獻,導致建立的學術術語和官方定義的稀缺。

我們對提示框架的探索始于對LangChain的深入調研,該框架被認為是該領域最有影響力的框架之一。我們首先深入研究LangChain的官方描述,該描述強調了“通過可組合性用大型語言模型(LLMs)構建應用程序”的概念。我們研究的主要階段旨在建立對這些框架的術語和概念的基礎性理解。我們仔細調研并分析了諸如“框架”、“工具”、“代理”、“大型模型”、“提示”和“工具包”等術語。這些關鍵詞被深思熟慮地選擇,以確保全面的視角,使我們能夠包括廣泛的相關材料和資源。

在我們對全面調研的追求中,我們在不同平臺上進行了多輪關鍵詞搜索。這包括在GitHub等著名存儲庫和arXiv等學術數據庫上進行徹底的搜索。此外,我們擴展了我們的探索范圍,以涵蓋人工智能(AI)和自然語言處理(NLP)領域內的知名會議和期刊。這些額外的搜索確保我們不僅捕捉到最新的發展,而且還能訪問具有重要性的學術和研究導向的材料。在整個研究過程中,我們的重點是識別、收集和分析相關材料。總的來說,我們積累了大量的作品,包括GitHub上可用的49個開源項目和大量的學術論文。這種方法論的方法和對資源的嚴格調研是我們對提示框架研究的基石,促進了全面和全方位的探索。

隨后,我們的調查深入進行了對49項作品的細致和系統性評估。這項全面的評估始于對它們的技術文檔進行詳盡的調研,在此過程中,我們仔細調研了每項作品的概念基礎、功能實現和關鍵代碼段。我們著手進行深入探索,配置并實際使用這些工具進行科學和方法論的分析,評估它們的性能、效率和適用性。具體來說,我們進行了廣泛的測試和研究,包括運行技術文檔中提供的所有測試用例,并手動創建更多詳細的測試用例,以更好地反映現實世界的要求。遵循軟件測試的基本程序,我們首先進行每個框架內各個模塊的單元測試。隨后,我們進行模塊的性能測試,這些模塊根據要求和標準在復雜的應用程序中組裝起來,從而完成集成測試。最后,我們進行全面的系統測試,以驗證和評估這些任務中聲稱的能力,同時也組織與用戶體驗相關的方面。 最后,這種多方位的調研使我們能夠識別每項作品的優點和局限性,為我們提供了對它們的能力和與我們調查的總體目標的相關性的細致理解。經過這種嚴格的評估,我們審慎地選擇了約30項作品,這些作品不僅符合提示框架的概念先決條件,而且在該領域中脫穎而出。這些選定的作品被選入我們的調查中,以確保全面和具有代表性地描繪不斷涌現且不斷發展的提示框架景觀,這在很大程度上塑造了個人與LLMs之間的互動。

付費5元查看完整內容

大型語言模型(LLMs)在各種自然語言任務上展現出卓越的性能,但它們容易受到過時數據和領域特定限制的影響。為了解決這些挑戰,研究人員主要采用了兩種策略:知識編輯和檢索增強,通過整合來自不同方面的外部信息來增強LLMs。然而,目前仍然缺乏一個全面的綜述。在本文中,我們提出一項回顧,討論知識與大型語言模型整合的趨勢,包括方法的分類、基準和應用。此外,我們對不同方法進行了深入分析,并指出了未來的潛在研究方向。我們希望這篇綜述能為社區提供快速訪問和對這一研究領域的全面概覽,旨在激發未來的研究努力。

大型語言模型(LLMs)已經展示了在其參數中編碼現實世界知識的令人印象深刻的能力,以及解決各種自然語言處理任務的顯著能力(Brown等,2020年;Hoffmann等,2022年;Zeng等,2022年;Chowdhery等,2022年;Touvron等,2023年;Zhao等,2023b年)。然而,它們在知識密集型任務上仍面臨嚴峻挑戰(Petroni等,2021年),這些任務需要大量的現實世界知識。最近的研究表明,LLMs難以學習長尾知識(Kandpal等,2023年;Mallen等,2023年),無法及時更新其參數以捕捉變化的世界(De Cao等,2021年;Kasai等,2022年)(例如,ChatGPT 1的參數只包含2021年9月之前的信息,對最新的世界知識完全不知情),并且受到幻覺的困擾(Zhang等,2023a;Rawte等,2023年;Huang等,2023a年)。為了緩解這些問題,人們越來越關注通過知識編輯或檢索增強來整合知識和大型語言模型。知識編輯(De Cao等,2021年;Sinitsin等,2020年)旨在使用一種有效的方法修改LLMs中過時的知識,該方法僅更新部分模型參數。檢索增強(Mallen等,2023年;Shi等,2023年;Trivedi等,2023年)采用現成的檢索模型從外部語料庫中獲取相關文檔,以幫助大型語言模型并保持其參數不變。已有許多工作提出整合知識和大型語言模型,專注于上述兩個方面。然而,這些努力仍然相對零散,缺乏全面和系統的綜述。

為了填補這一空白,本文提出了我們的綜述的具體組織,重點關注知識編輯和檢索增強,如圖1所示。我們首先系統地介紹了根據模型處理結構的知識編輯方法(§2),包括輸入編輯(§2.1),模型編輯(§2.2)以及評估知識編輯(§2.3),涵蓋了代表性方法和通用基準。此外,我們對檢索增強進行了詳細討論(§3),包括檢索判斷(§3.1),文檔檢索(§3.2),文檔利用(§3.3),知識沖突(§3.4)和基準(§3.5)。然后,我們總結了一些知識與大型語言模型整合的前沿應用(§4),例如新版Bing 2。最后,為了激發該領域的進一步研究,我們提供了對未來調查方向的洞見(§5)。

2 知識編輯

知識編輯是一種新興方法,通過整合新知識來糾正大型語言模型(LLMs)中的不準確性和更新過時信息。在這一部分,我們深入研究了關于知識編輯的當前工作,特別關注LLMs處理結構在不同方法中的應用。如圖2所示,我們將它們分為三類:輸入編輯(§2.1),模型編輯(§2.2),和評估知識編輯(§2.3)。

2.1 輸入編輯許多大型模型龐大的參數規模和“黑盒”形式常常阻礙它們進行常規的微調,以獲取新知識,例如ChatGPT、Bard3。因此,將知識注入LLMs最直接的方法涉及編輯輸入(Zheng等,2023;Luo等,2023),這既節省成本又減少資源需求。輸入編輯有兩個方面:包括外部信息以增強提示,以及基于反饋編輯提示。調整輸入不僅提供了一種直觀、易理解的新知識過程描述,而且保證了原始模型知識的保存。

2.2 模型編輯與編輯輸入不同,許多研究致力于以參數化方式進行細粒度的模型編輯,這可以確保注入知識的持久性。根據針對LLMs參數的不同操作,我們將它們分為三類,即知識插件、定位然后編輯和整體編輯。

2.3 評估知識編輯在編輯輸入和模型之后,可以通過審查輸出來評估知識整合的程度。這一小節主要介紹模型評估的特點,并提供表1中知識編輯的一般基準概覽。當前用于編輯知識的方法主要旨在整合三元事實知識,這些知識集中在問答(QA)任務上,即ZsRE(Levy等,2017年)。此外,CounterFact是一個專門為知識編輯任務構建的評估數據集,用于衡量與僅僅表面上改變目標詞匯相比顯著變化的有效性(Meng等,2022年)。評估知識編輯的三個主要屬性包括可靠性、通用性、局部性(Yao等,2023b;Huang等, 2023b)。

3 檢索增強如第2節所討論,知識編輯(De Cao等,2021年)是一種有效的方法,通過修改大型語言模型特定部分的參數來更新過時的知識。然而,知識編輯也面臨著一些其他問題。首先,目前還不完全清楚知識在大型語言模型中是如何以及在哪里存儲的。其次,知識與參數之間的映射關系非常復雜,修改與某些知識對應的參數可能會影響其他知識。在本節中,我們介紹了檢索增強,這是一種在保持參數不變的情況下整合知識和大型語言模型的另一種方法。

與主要將外部知識參數化以更新大型語言模型的知識編輯不同,檢索增強在推理階段使用非參數化形式的外部知識。檢索增強通常由一個檢索器和一個大型語言模型組成。給定輸入上下文后,檢索器首先從外部語料庫中獲取相關文檔。然后,我們可以在不同階段使用相關文檔來提高大型語言模型的性能。在本節中,我們專注于檢索增強的以下關鍵問題:

? 大型語言模型什么時候需要通過檢索來增強?(§3.1) ? 如何檢索相關文檔?(§3.2) ? 大型語言模型如何利用檢索到的文檔?(§3.3) ? 如何解決不同文檔中的知識沖突?(§3.4)"

檢索判斷對于檢索增強的大型語言模型,一個非常重要的問題是了解LLMs的知識邊界(Yin等,2023年)并確定何時檢索補充知識。當前的檢索判斷方法主要分為兩類:基于校準的判斷和基于模型的判斷。

文檔檢索如圖3所示,獲取相關文檔有兩種方法。一種方法是使用檢索器從外部語料庫(例如維基百科)中獲取相關文檔。另一種方法是使用大型語言模型生成相關文檔。文檔利用一旦我們擁有了相關文檔,我們如何使用它們來提升大型語言模型的能力?如圖4所示,我們將使用文檔的不同方式分為三類:輸入增強、推理驗證和答案驗證。

檢索增強LLMs中的知識沖突,在模型推理中有兩個知識來源,它們的分工模糊且不透明。第一個是通過預訓練和微調注入的隱含參數化知識(即它們學習到的權重)。第二個是上下文知識,通常作為文本段落從檢索器中獲取。知識沖突意味著所包含的信息是不一致和矛盾的。如圖5所示,知識沖突有兩種類型:內部沖突和外部沖突。內部沖突指的是大型語言模型中的知識與檢索文檔中的知識之間的不一致。外部沖突指的是檢索到的多個文檔之間的不一致。

結論

在本文中,我們對知識與大型語言模型的整合進行了綜述,并提供了其主要方向的廣泛視角,包括知識編輯和檢索增強。此外,我們總結了常用的基準和前沿應用,并指出了一些有希望的研究方向。我們希望這篇綜述能為讀者提供當前進展的清晰圖景,并激發更多的工作。

付費5元查看完整內容

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

隨著大型語言模型(LLMs)能力的不斷提高,語境學習( in-context learning,ICL)已經成為自然語言處理(NLP)的一種新范式,其中LLMs僅根據由少量訓練樣本增強的上下文進行預測。探索ICL來評估和推斷LLM的能力已經成為一個新的趨勢。文中對ICL的研究進展、面臨的挑戰以及未來的研究方向進行了綜述和總結

本文首先給出了ICL的形式化定義,并闡明了其與相關研究的相關性。然后,我們組織討論了ICL的先進技術,包括訓練策略、激勵策略等;最后,指出了ICL面臨的挑戰,并指出了進一步研究的方向。希望我們的工作能夠促進更多關于揭示ICL工作原理和改進ICL的研究。1. 引言隨著模型規模和語料庫規模的擴大(Devlin et al., 2019; Radford et al., 2019; Brown et al., 2020; Chowdhery et al., 2022),大型語言模型展示了從由上下文中的幾個示例組成的演示中學習的新能力(簡稱語境學習)。許多研究表明,LLMs可以使用ICL執行一系列復雜的任務,如解決數學推理問題(Wei et al., 2022c)。這些強大的能力已經被廣泛驗證為大型語言模型的新興能力(Wei等人,2022b)。

語境學習的核心思想是類比學習。圖1給出了一個示例,描述了語言模型如何使用ICL進行決策。首先,ICL需要一些示例來形成演示上下文。這些示例通常使用自然語言模板編寫。然后,ICL將一個查詢問題和一個演示上下文連接在一起形成一個提示,然后將其輸入到語言模型中進行預測。與監督學習需要一個使用后向梯度更新模型參數的訓練階段不同,ICL不需要參數更新,而是直接對預訓練語言模型進行預測。該模型被期望學習隱藏在演示中的模式,并相應地做出正確的預測。ICL作為一種新的范式,具有許多吸引人的優勢。首先,由于演示是用自然語言格式編寫的,它提供了一個可解釋的接口來與大型語言模型通信(Brown et al., 2020)。這種范式通過更改演示和模板使將人類知識納入語言模型變得容易得多(Liu等人,2022;陸等人,2022;吳等人,2022;Wei等,2022c)。第二,上下文學習類似于人類的類比決策過程。第三,與有監督學習相比,ICL是一種無訓練學習框架。這不僅可以大大降低使模型適應新任務的計算成本,還可以使語言模型即服務(Sun等人,2022)成為可能,并且可以很容易地應用于大規模的現實世界任務。盡管前景看好,但ICL中還有一些有趣的問題和有趣的性質需要進一步研究。雖然普通的GPT-3模型本身顯示出有希望的ICL能力,但一些研究觀察到,通過預訓練期間的自適應,能力可以顯著提高(Min et al., 2022b; Chen et al., 2022c)。此外,ICL的性能對特定的設置很敏感,包括提示模板、上下文示例的選擇和示例順序等(Zhao et al., 2021)。此外,盡管從直觀上看是合理的,但ICL的工作機制仍然不明確,很少有研究提供初步解釋(Dai et al., 2022; von Oswald et al., 2022)。我們提供了一份詳細的論文綜述,并將不斷更新論文列表,對ICL的相關研究進行深入討論。本文強調了面臨的挑戰和潛在的方向,希望所做的工作可以為對該領域感興趣的初學者提供有用的路線圖,并為未來的研究提供啟發。2. 概述ICL的強大性能依賴于兩個階段:(1)訓練階段,訓練LLM的ICL能力,(2)推理階段,LLM根據特定任務的演示進行預測。在訓練階段,語言模型直接在語言建模目標上進行訓練,如從左到右的生成。雖然這些模型并沒有針對上下文學習進行特別優化,但ICL仍然具有令人驚訝的能力。現有的ICL研究基本上以訓練有素的語言模型為骨干,因此本綜述不會涵蓋預訓練語言模型的細節。在推理階段,由于輸入和輸出標簽都在可解釋的自然語言模板中表示,因此有多個方向來提高ICL的性能。本文將給出詳細的描述和比較,如選擇合適的示例進行演示,針對不同的任務設計具體的評分方法等。本文按照上述分類法(如圖2所示)組織ICL目前的進展,給出了ICL的正式定義(§3),詳細討論了熱身方法(§4)、演示設計策略(§5)和主要評分功能(§6)。§7對揭開ICL背后秘密的當前探索進行了深入討論。進一步為ICL(§8)提供了有用的評估和資源,并介紹了ICL顯示其有效性的潛在應用場景(§9)。最后,總結了挑戰和潛在的方向(§10),希望這可以為該領域的研究人員鋪平道路。

ICL的主要流程如圖3所示。預訓練對于發展LLM的ICL能力具有重要意義,而可選的預熱階段可以進一步提高其能力。對于演示來說,最重要的步驟是演示設計。通過預訓練的LLM和精心設計的演示,適當的評分策略最終產生任務輸出。

付費5元查看完整內容

通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。

//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b

1. 引言

預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。

盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。

構建 KEPLMS

隱性知識整合

以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。

一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。

顯性知識整合

PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新

參考文獻

[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.

付費5元查看完整內容
北京阿比特科技有限公司