隨著大規模預訓練模型的廣泛應用,自然語言處理的各領域(如文本分類和機器翻譯)均取得了長足的發展.然 而,受限于預訓練模型的“黑盒”特性,其內部的決策模式以及編碼的知識信息被認為是不透明的.以 OpenAI 發布的 ChatGPT 和 GPT-4 為代表的先進預訓練模型為例,它們在各領域取得重大性能突破的同時,由于無法獲知其內部是否真正 編碼了人們期望的世界知識或語言屬性,以及是否潛藏一些不期望的歧視或偏見現象,因此仍然無法應用于重視安全性和 公平性的領域.近年來,一種新穎的可解釋性方案“探針任務”有望提升人們對預訓練模型各層編碼的語言屬性的理解.探針 任務通過在模型的某一區域訓練輔助語言任務,來檢驗該區域是否編碼了感興趣的語言屬性.例如,現有研究通過凍結模型 參數并在不同層訓練探針任務,已經證明預訓練模型在低層編碼了更多詞性屬性而在高層編碼了更多語義屬性,但由于預 訓練數據的毒性,很有可能在參數中編碼了大量有害內容.本篇綜述中,我們首先介紹了探針任務的基本范式,包括任務的 定義和基本流程;然后對自然語言處理中現有的探針任務方案進行了系統性的歸納與總結,包括最常用的診斷分類器以及 由此衍生出的其他探針方法,為讀者提供設計合理探針任務的思路;接著從對比和控制的角度介紹如何解釋探針任務的實 驗結果,以說明探測位置編碼感興趣屬性的程度;最后對探針任務的主要應用和未來的關鍵研究方向進行展望,討論了當 前探針任務亟待解決的問題與挑戰.
Transformer模型在各類人工智能領域取得了顯著進展,包括自然語言處理、計算機視覺和音頻處理。這一成功自然引起了學術界和工業界研究人員的廣泛關注。因此,許多Transformer變體(通常稱為X-former)被開發用于這些領域。然而,針對這些特定模態轉換的全面而系統的審查仍然缺乏。模態轉換涉及將數據從一種表示形式轉化為另一種形式,模仿人類整合和解釋感官信息的方式。本文對應用于文本、視覺和語音等主要模態的基于Transformer模型進行了全面回顧,討論了它們的架構、轉換方法和應用。通過綜合模態轉換領域的文獻,這篇綜述旨在強調Transformer在推動AI驅動的內容生成和理解中的多樣性和可擴展性。
人工智能(AI)受人類感知能力的啟發,例如視覺、聽覺和閱讀,并試圖復制這些能力。通常,模態與特定的傳感器相關聯,形成一個獨特的通信通道,如視力、語音和書面語言。人類在感官感知中具有一種基本過程,能夠通過整合來自多個感官模態的數據,在動態和不受約束的情況下高效地與世界互動。每個模態作為信息的獨立來源,具有其獨特的統計特征。例如,一張描繪“大象在水中嬉戲”的照片通過無數像素傳遞視覺信息,而類似的文字描述則使用不同的詞語來傳達這一場景。同樣,聲音可以通過頻譜圖或語音特征來傳達相同的事件。數據轉換AI系統必須接收來自特定模態的輸入,處理、理解并以不同的模態再現其內容,模仿人類的感知方式。模態轉換(MC)是一種廣泛的方法,用于構建能夠從一種表示模態中提取并轉換信息到另一種模態的人工智能模型。
基于Transformer的(TB)技術通過利用其先進的注意力機制,準確地表示和轉換各種形式的輸入,極大地改變了數據從一種模態轉換到另一種模態的過程。這些模型在將文本轉換為語音、語音轉換為文本、語音轉換為圖像、圖像轉換為文本,甚至跨模態翻譯(如從文本生成圖像)等任務中表現出色。Transformer通過捕捉各種數據模態間的復雜依賴關系和上下文交互,促進了順暢且高度精確的轉換。由于其適應性和可擴展性,它們在擴展自然語言處理、計算機視覺和多模態數據集成的應用中起到了關鍵作用,推動了AI驅動的內容生產和理解的進步。
? 相關綜述:許多綜述已經探討了基于Transformer(TB)模型在文本處理、計算機視覺和語音處理領域的應用。這些綜述通常回顧了專注于單一模態的研究論文,處理輸入數據以生成特定應用所需的輸出。同時,還有一些關于數據融合的綜述,旨在整合來自不同模態的數據。這些論文通常回顧了各種類型的融合模型和輸入類型,如文本、視覺和語音。例如,Davis等人關于使用Transformer進行多模態學習的綜述探討了多種模態協同使用的情況,展示了在需要從多種數據源中獲得全面理解的任務中所取得的顯著改進。總的來說,目前還沒有一篇綜述全面回顧不同模態(文本、視覺和語音)間的數據轉換相關的文獻。
?** 論文貢獻**:在本文中,我們對用于數據模態轉換的基于Transformer的模型進行了全面回顧。我們重點關注三個主要模態:文本、視覺和語音。對于每個Transformer模型,輸入可以是這些模態中的任何一種,而輸出可以是相同或不同的模態。例如,給定文本輸入,輸出可以是翻譯后的文本(機器翻譯)、圖像(故事可視化)或語音。同樣,對于視覺和語音輸入,輸出也可以轉換為其他任一模態。我們系統地回顧了所有使用基于Transformer模型進行模態轉換的相關文獻(見圖1)。
?** 范圍**:我們的綜述限制在2017年至2024年間發表的論文,因為Transformer技術是Vaswani等人在2017年提出的,相對較新。聚焦于這一時期使我們能夠包含與模態表示和轉換相關的最新和最相關的Transformer進展。引用分析顯示,從2017年到2024年,共有95種方法,其中在2020年至2024年間的興趣達到了高峰。本綜述旨在通過整合這些領域中最先進的Transformer模型,為研究人員和實踐者提供服務。 本綜述的其余部分結構如下:第二部分匯集了所有關于TB模型的相關綜述。第三部分介紹了Transformer的架構和關鍵組件。第四、五、六部分分別回顧了以文本、視覺和語音為輸入的TB模型,其輸出可以是這三種模態中的任何一種。第七部分討論了Transformer的其他可能引起研究人員興趣的方面,并總結了本文的內容。
大型語言模型(LLMs)在許多不同的自然語言處理(NLP)任務中表現出色。提示工程在提升LLMs已有能力的基礎上,實現顯著性能提升方面發揮了關鍵作用。提示工程需要撰寫稱為提示的自然語言指令,以結構化方式引導LLMs挖掘知識。與之前的最新技術(SoTA)模型不同,提示工程不需要根據特定NLP任務進行廣泛的參數重新訓練或微調,而是完全依賴于LLMs的內嵌知識。此外,LLM愛好者可以通過基本的自然語言對話交流或提示工程,智能地提取LLMs的知識,使更多沒有深厚數學和機器學習背景的人也能嘗試使用LLMs。隨著提示工程在過去兩年中越來越受歡迎,研究人員提出了許多圍繞提示設計的工程技術,以提高從LLMs提取信息的準確性。在本文中,我們總結了不同的提示技術,并根據它們所應用的不同NLP任務進行分類。我們進一步細化地展示了這些提示策略在不同數據集上的性能,討論了所使用的相應LLMs,提供了一個分類圖,并探討了特定數據集可能的最新技術。總的來說,我們閱讀并總結了44篇研究論文,涵蓋了39種不同的提示方法,涉及29個不同的NLP任務,其中大多數論文在過去兩年內發表。
人工智能隨著大型語言模型(LLMs)的引入顯著進步。LLMs在包含數百萬和數十億個標記的大規模文本語料庫上進行訓練。研究表明,隨著模型參數數量的增加,機器學習模型的性能會提高,這也正是LLMs的情況。Chang等人(2023)的研究表明,LLMs在廣泛的NLP任務上取得了前所未有的性能,因此引起了學術界和包括醫學、法律、金融等在內的各個行業的廣泛關注。目前對LLMs的研究階段側重于通過提示(prompts)來提升其推理能力,而不僅僅是下一個標記的預測,這開啟了圍繞提示工程的新研究領域。
提示工程是指創建自然語言指令或提示,以有組織地從LLMs中提取知識的過程。與早期的傳統模型相比,提示工程僅依賴于LLMs的內嵌知識,而不需要根據基礎的NLP任務進行廣泛的參數重新訓練或微調。理解模型參數中所嵌入的現實世界知識超出了人類的能力,因此這個新的提示工程領域引起了大家的關注,因為它允許研究人員與LLMs之間進行自然語言交流,以實現基礎NLP任務的目標。
在這項工作中,我們列舉了幾種提示策略,并根據它們所應用的不同NLP任務進行分類。我們提供了一個分類圖,列出了在各種數據集上嘗試的提示技術,討論了所使用的LLMs,并列出了每個數據集的潛在最新技術(SoTA)方法。作為本次調查的一部分,我們總共審查并分析了44篇研究論文,其中大部分發表在過去兩年,涵蓋了39種提示技術,應用于29個不同的NLP任務。此前關于提示工程的系統性綜述并不多見。Sahoo等人(2024)調查了基于其應用的29篇提示技術論文。這是一種非常廣泛的分類,因為單一應用可以包含眾多NLP任務。例如,他們討論的一個應用是推理和邏輯,它可以包含大量NLP任務,如常識推理、數學問題解決、多跳推理等。這與我們的方法不同,我們根據NLP任務對提示策略進行更細致的分類。Edemacu和Wu(2024)提供了關于隱私保護提示方法的概述,因此側重于提示工程的一個相對較小的子領域。Chen等人(2023)將提示策略的討論限制在9-10種方法,并且沒有基于NLP任務對其進行分類。
本文的其余部分安排如下。第二節討論各種提示工程技術,第三節重點介紹不同的NLP任務。第三節的各個子部分討論了在給定NLP任務上應用的不同提示策略及其相應的結果。第四節總結全文。
在本節中,我們簡要討論了不同的提示方法,以及它們在發表時如何改進現有的性能。需要注意的是,大多數以下提示策略都在兩種不同的變體或設置下進行了實驗,這兩種變體包括零樣本和少樣本。有些提示技術可能本質上只存在于零樣本或少樣本變體中,不可能存在其他變體。
在零樣本設置中(Radford等,2019),沒有涉及訓練數據,通過提示指令要求LLM執行任務,完全依賴于其在預訓練階段學習的內嵌知識。另一方面,在少樣本變體中(Brown等,2020),提供少量訓練數據點以及基于任務的提示指令,以便更好地理解任務。各種提示工程工作的結果顯示,少樣本變體有助于提高性能,但這需要仔細準備少樣本數據點,因為LLM可能對精心編制的少樣本數據點表現出無法解釋的偏見。
不同的研究論文在將數據集分類為NLP任務時使用了不同的標準,這在不同的研究中有所不同。在本節中,我們嘗試標準化這些分類方法,通過定義不同的NLP任務并將不同的數據集歸入這些任務來構建一個結構。我們還討論了用于這些任務的各種提示方法。圖1展示了這種分類的一個示意圖。需要注意的是,一個數據集可能同時屬于不同的NLP任務,但這會導致復雜的結構化分析糾纏,不利于分析提示技術在各個NLP任務中的表現。因此,在我們的工作中,我們確保每個數據集只屬于一個與之最強相關的NLP任務。
以下各小節分別定義了不同的NLP任務、相應的數據集以及應用于這些數據集的各種提示策略。它們還包含每個數據集的潛在最新技術(SoTA)提示技術。提示方法的性能因使用的LLM而異。因此,我們還列出了在給定數據集上與提示策略一起使用的LLM列表。對于SoTA,我們只提及了提示方法的名稱,因為在許多情況下,特定的LLM尚未與給定的提示方法進行實驗,因此不清楚它是否能達到SoTA性能。因此,如果列表中的任何LLM與提示策略一起用于實驗,并在給定數據集中取得了最佳性能,我們將其指定為SoTA,而不論用于該技術的確切LLM是什么。另一個需要強調的點是,在許多研究中,作者使用了同一數據集的不同版本進行實驗,使得不同提示技術的絕對比較變得困難。基于我們的理解,我們考慮了上述所有因素,并在選擇每個數據集的SoTA時運用了最佳判斷。
隨著大型語言模型(LLMs)在文本交互中表現得越來越像人類,越來越多的研究人員開始對LLMs中的人格進行研究。然而,心理學人格研究的多樣性以及LLMs的快速發展導致了這一跨學科領域的研究呈現出廣泛而零散的局面。在不同研究焦點、不同人格心理測量學和不同LLMs之間的大量研究,使得全面了解這一領域變得具有挑戰性,并進一步增加了將研究成果應用于現實世界的難度。**在本文中,我們通過根據LLMs中人格的內在特征和外在表現將當前研究分類為三個研究問題:自我評估、表現和識別,來呈現一個全面的綜述。**對于每個問題,我們提供了詳細的分析,并對其相應的解決方案進行了深入的比較。此外,我們總結了當前研究的發現和未解決的挑戰,并進一步討論了其潛在原因。我們還收集了大量公開可用的資源,以便感興趣的研究人員和開發者使用。最后,我們討論了潛在的未來研究方向和應用場景。我們的論文是關于LLMs人格的最新文獻的首個全面綜述。通過呈現明確的分類法、深入的分析、充滿希望的未來方向和豐富的資源集合,我們旨在提供更好的理解并促進這一新興領域的進一步發展。
大型語言模型(LLMs)展現出了令人印象深刻的語言理解和生成能力,使其能夠與用戶進行連貫、類人對話。這些顯著進展引發了廣泛的應用(Chen et al., 2023; Zheng et al., 2023; He et al., 2023),并激發了越來越多的研究人員對LLMs中人格的探索興趣。 人格被描述為塑造個體思想、情感和行為的持久特征(Mischel et al., 2007)。在LLMs的背景下,研究人員對LLMs是否具有內在的人格特質或LLMs在交互中處理與人格相關任務的能力感到好奇。這些研究有助于理解LLMs的心理描繪(Huang et al., 2023b),并進一步構建更加透明、安全和可信的AI系統(Safdari et al., 2023)。 鑒于此,過去兩年中在這個跨學科領域涌現了大量研究,如附錄A所示。然而,心理學人格研究的多樣性(Hodo, 2006)和LLMs的快速發展使得不僅難以全面了解這一研究領域,還難以比較不同方法、得出一般性結論并將研究成果應用于實際應用。具體而言,當前研究在以下方面表現出混亂:
研究焦點:LLMs中的人格主題涵蓋了各種方面,如LLMs的人格評估或LLMs對用戶人格的認知。盡管范圍廣泛,但大多數研究僅關注某些特定方面。
心理測量學:不同研究集中于不同的人格模型(如五大人格特質模型(Digman, 1990)和邁爾斯-布里格斯類型指標(MBTI; Myers, 1962))。即使對于相同的人格模型,研究人員在其工作中也可能采用不同的心理測量方法。
研究的LLMs:在過去兩年中,發布了大量的LLMs。盡管研究人員共同關注LLMs中的人格,但他們研究的LLMs卻各不相同。
為填補這一研究空白,我們對關于LLMs人格的最新研究進行了全面綜述。我們首先提出了一個分層分類法(在研究問題層面和方法層面)來清晰地組織現有研究,如圖1所示。具體而言,我們根據內在特征和外在表現將LLMs中的人格分為三個研究問題:(1)自我評估,衡量LLMs的內在人格,(2)表現,控制LLMs展現指定人格,以及(3)識別,從文本內容中識別人格特質。對于每個研究問題,我們進一步根據其提出的方法對現有解決方案進行細分。 在具體章節中,我們對每個問題進行了詳細分析,包括問題陳述、動機和意義。然后,我們對相應方法進行了深入調查和比較。此外,我們整合了研究發現并確定了當前研究中揭示的未解決的挑戰。為方便研究人員和開發者,我們還收集了公開可用的資源,包括人格量表、代碼庫和數據集。最后,我們討論了LLMs人格的潛在未來研究方向和實際應用場景。 總結而言,我們工作的主要貢獻如下:
首個全面綜述:據我們所知,這是首個關于LLMs人格最新研究的全面綜述。
清晰的分層分類法:我們提出了一個分層分類法,以清晰地在研究問題層面和方法層面組織文獻。
廣泛的資源收集:我們收集并總結了大量公開可用的資源,以方便研究人員和開發者,包括人格量表、代碼庫和數據集,如附錄B所示。
有前景的未來趨勢:我們總結了當前研究中的研究發現和未解決的挑戰,并進一步討論了LLMs人格的有前景的未來研究趨勢和潛在應用場景。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
大型語言模型已成為自然語言處理(NLP)和自然語言理解(NLU)任務中的最新技術水平。自從Vaswani等人在2017年發布變壓器(Transformer)架構以來,多位作者已經利用這一架構或其變體來處理翻譯、摘要、問答、情感分析或文本生成等任務。自OpenAI在2022年11月宣布并發布ChatGPT以來,該技術將大型語言模型(LLMs)的能力帶給了廣泛的用戶群體,引發了幾個主要問題,主要關注這些模型與社會價值和法律規則的一致性。這些關注點包括這些模型對勞動市場的影響、對個人隱私權的影響、對版權法的影響、對偏見和歧視的進一步推動,以及生成可能用于傷害人們的有害內容的潛力。解決這些問題的一個提議是數字遺忘。數字遺忘的目標是,給定一個具有不希望知識或行為的模型,獲得一個不再出現檢測到的問題的新模型。然而,有效的數字遺忘機制必須滿足可能沖突的要求:遺忘的有效性,即新模型遺忘不希望的知識/行為的程度(通過正式保證或通過實證評估);模型在期望任務上的保留性能;以及遺忘程序的及時性和可擴展性。 本文檔的結構如下。第2節提供了LLMs的背景,包括它們的組成部分、LLMs的類型及其通常的訓練流程。第3節描述了數字遺忘的動機、類型和期望屬性。第4節介紹了LLMs中數字遺忘的方法,其中遺忘方法學作為最新技術而脫穎而出。第5節提供了LLMs機器遺忘方法的詳細分類,并綜述和比較了當前的方法。第6節詳細介紹了用于評估遺忘、保留和運行時間的數據集、模型和指標。第7節討論了該領域的挑戰。最后,在第8節中我們提供了一些結論性的評論。
提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。
大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。
然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。
考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。
在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。
總述
**提示范式 **
提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。
提示類型
本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。
挑戰
鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。
使用高效計算的提示
隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。
使用高效設計的提示
“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。
結論
在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。
黑盒AI模型的激增促使需要解釋其內部機制并證明它們的可靠性,特別是在高風險應用領域,如醫療保健和自動駕駛。由于缺乏可解釋AI(XAI)的嚴格定義,開發了大量與可解釋性、可解讀性和透明度相關的研究,以從不同角度解釋和分析模型。因此,面對一長串的論文,要全面了解XAI研究的所有方面變得具有挑戰性。考慮到神經網絡在AI研究中的流行,我們將關注范圍縮窄到XAI研究的一個特定領域:基于梯度的解釋,這可以直接用于神經網絡模型。在這篇綜述中,我們系統地探索了迄今為止基于梯度的解釋方法,并引入了一個新的分類體系,將它們分為四個不同的類別。然后,我們按時間順序介紹技術細節的精髓,并強調算法的演變。接下來,我們引入人類和量化評估來衡量算法性能。更重要的是,我們展示了XAI的一般挑戰和基于梯度解釋的特定挑戰。我們希望這篇綜述能幫助研究人員理解最新進展及其相應的缺點,這可能會激發他們在未來工作中解決這些問題的興趣。
如今,我們目睹了在各個領域內神經網絡模型的顯著激增,例如,計算機視覺 [28, 43, 54]、自然語言處理 [10, 53, 97]、機器人學 [9, 47] 和醫療保健 [36, 75]。由于它們不透明的決策過程,AI模型可能會對少數民族表現出偏見或做出意外且可能災難性的錯誤。例如,ProPublica報告稱,COMPAS司法系統對非洲裔美國人的被告存在偏見,預測他們重新犯罪的可能性較高 [35]。Ribeiro等人 [70] 觀察到,模型在背景中存在雪的情況下區分狼和哈士奇犬。因此,迫切需要闡明內部過程,理解決策機制,并增強用戶對AI系統的信任。 可解釋AI(XAI)指的是一系列旨在推理和理解模型行為、提供洞見以糾正模型錯誤/偏見,并最終使用戶接受并信任模型預測的技術。根據Guidotti等人 [26] 的分類,如圖1所示,XAI可以被分類為以下方面:先驗解釋和事后解釋。先驗解釋努力開發用戶可以直接理解的透明模型,無需額外的解釋工具,例如,決策樹 [69] 和決策規則 [31]。事后解釋旨在通過利用輸入特征與模型預測之間的關系來解釋訓練過的黑盒模型。事后解釋可以進一步分為模型解釋 [13, 45]、結果解釋 [70, 84] 和模型檢查 [18, 23]。模型解釋涉及使用在全局級別上可解釋和透明的模型來近似黑盒模型的整體邏輯。結果解釋專注于探索特定預測的背后原因,屬于局部級別。模型檢查旨在提供視覺和文本表示,以便于理解模型的工作機制。 在結果解釋中通常采用兩種方法:特征歸因(也稱為特征重要性方法)和反事實解釋。特征歸因直接識別輸入特征對模型輸出的重要性,而反事實解釋探索輸入空間中的最小且有意義的擾動,以回答輸入值的哪些變化可能會影響模型的預測。為了更深入地探索兩種方法之間的聯系,我們引用了Kommiya Mothilal等人的研究 [42]。
1.1 本綜述的目的
由于缺乏一個普遍且嚴格的可解釋AI(XAI)定義,大量與可解釋性、可解讀性、透明度及其他相關概念的研究都屬于XAI領域。在谷歌學術上搜索“可解釋AI”關鍵詞會得到超過200,000個結果,這給在單一出版物內全面闡述XAI的所有方面帶來了巨大挑戰。盡管已有許多關于XAI的綜述文章或書籍章節 [2, 5, 11, 14, 14, 21, 26, 30, 51,58, 73, 85],但大多數僅簡要描述并展示了XAI的某個特定子領域,如基于梯度的特征歸因的早期工作。這種對特定子領域的欠充分探索激勵我們全面概述基于梯度解釋的最新進展。先前的綜述旨在幫助從業者快速掌握XAI的各個方面,而我們的綜述文章深入探討了基于梯度解釋方法的算法細節。通過這樣做,我們的目的是幫助研究人員在更多應用中采用適當的方法,并在這一狹窄領域內促進創新突破。 基于不同的方法論途徑,特征歸因包含以下研究分支:基于擾動的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81, 84]。然而,在本文中,我們專注于基于梯度的方法,出于以下考慮。
梯度的直覺。梯度量化了輸入特征中的無窮小變化如何影響模型預測。因此,我們可以利用梯度及其變體有效地分析特征修改對模型預測結果的影響。
神經網絡的無縫集成。神經網絡在各個領域獲得了極大的流行度和令人印象深刻的性能。在模型訓練后,可以通過反向傳播輕松獲得梯度。因此,基于梯度的解釋能夠直接解釋神經網絡,無需對模型本身進行任何更改。
滿足公理化屬性。由于缺乏真實基準,特征歸因方法可能會產生不同的解釋,這導致了確定哪個解釋更可信的挑戰。基于梯度的解釋是有意設計來滿足某些公理化原則的,例如敏感性和完整性,確保產生合理且期望的解釋。
1.2 我們的貢獻
我們綜述的貢獻總結如下:
我們提出了一個新穎的分類體系,系統地將基于梯度的特征歸因分為四組。隨后,我們介紹了每組算法的研究動機和技術細節的要點。
我們全面概述了一系列廣泛接受的評估指標,包括人類評估和客觀指標,使得可以定量和定性地比較各種解釋方法的性能。
我們總結了XAI中的一般研究挑戰以及基于梯度解釋特有的特定挑戰,這些挑戰可能會滋養并為未來工作中的潛在改進奠定基礎。
表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。
高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。
隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。
1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:
引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。
綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。
對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。