亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

相關內容

大型語言模型(LLMs),如ChatGPT和LLaMA,正因其強大的文本編解碼能力和新發現的突現能力(例如,推理)在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本,但在許多現實世界場景中,文本數據與圖形(例如,學術網絡和電子商務網絡)形式的豐富結構信息相關聯,或者圖形數據與豐富的文本信息(例如,帶有描述的分子)配對。此外,盡管LLMs已展示其基于純文本的推理能力,但是否可以將此能力泛化到圖形場景(即基于圖的推理)尚未得到充分探索。在本文中,我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類,即純圖,文本豐富的圖,以及與文本配對的圖。然后,我們討論了在圖上使用LLMs的詳細技術,包括將LLM作為預測器、編碼器和對齊器,并比較了不同模型類別的優缺點。此外,我們還提到了這些方法的實際應用,并總結了開源代碼和基準數據集。最后,我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742

大型語言模型(LLMs)(例如,BERT [22]、T5 [30]、LLaMA [119])經過在非常大的文本語料庫上的預訓練,已被證明在解決自然語言處理(NLP)任務方面非常強大,包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs(例如,BERT [22]、RoBERTa [23])采用僅編碼器架構,并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來,越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大,這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5],展現了對人工通用智能(AGI)的強大潛力。 雖然LLMs廣泛應用于處理純文本,但越來越多的應用場景中,文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示,在學術網絡中,論文(帶有標題和描述)和作者(帶有個人簡介文本)通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦;在科學領域,分子以圖形表示,并通常與描述其基本信息的文本(例如,毒性)配對。同時建模分子結構(圖)和相關的豐富知識(文本)對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本,上述場景提出了新的挑戰,即如何使LLMs能夠編碼圖上的結構信息。此外,由于LLMs已展示了其卓越的基于文本的推理能力,探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近,擴展LLMs用于基于圖的應用(如圖1所總結)引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系,應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡(GNNs)的交互方式,圖上LLMs的技術可以分為將LLMs作為任務預測器(LLM as Predictor)、將LLMs作為GNNs的特征編碼器(LLM as Encoder)以及將LLMs與GNNs對齊(LLM as Aligner)。 目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習,Wu et al. [17] 提供了圖神經網絡(GNNs)的全面概述,詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型,包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜(KGs)之間的聯系,特別是KGs如何增強LLMs的訓練和推理,以及LLMs如何促進KG的構建和推理。總而言之,現有的綜述要么更多地關注GNNs而非LLMs,要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述,旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。

**分類與框架 **

在本節中,我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后,我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類

純圖(無文本信息)是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力(解決圖論問題)的背景,或作為知識來源以增強大型語言模型(減輕幻覺現象)。 文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上,人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。 與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質,其中節點代表原子,邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素,但分子的文本描述可以作為補充知識來源,幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **

根據LLMs的角色以及解決圖相關問題的最終組件,我們將圖上LLM技術分類為三個主要類別: LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強,并可以根據圖信息如何注入LLM進行分類:1)圖作為序列:這種方法不對LLM架構做任何改變,但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2)增強圖的LLM:這種方法修改了LLM基礎模型(即變壓器)的架構,并使其能夠在其架構內進行聯合文本和圖編碼。3)圖感知LLM微調:這種方法不對LLMs的輸入或LLM架構做任何改變,但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖(解決節點級或邊級任務)。GNNs是最終組件,我們采用LLM作為初始文本編碼器。具體來說,首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而,這些方法存在收斂問題、稀疏數據問題和效率問題,我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件,并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說,LLMs和GNNs之間的對齊可以分為1)預測對齊,其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練,和2)潛空間對齊,其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **

在圖上應用語言模型有兩種典型的訓練和推理范式:1) 預訓練-然后微調:通常用于中等規模的大型語言模型;以及 2) 預訓練-然后提示:通常用于大規模的大型語言模型。 預訓練指的是使用無監督目標訓練語言模型,以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時,語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。 微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法,可以充分激發語言模型對下游任務的潛力,但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45],以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念,換句話說,人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。 提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列,并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示,后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。 在接下來的章節中,我們將遵循第3節的分類,并討論每個圖場景的詳細方法論。

**結論 **

在本文中,我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類,并總結了圖上大型語言模型的技術。然后,我們對每個場景內的方法進行了徹底的審查、分析和比較。此外,我們總結了可用的數據集、開源代碼庫和多種應用。最后,我們提出了圖上大型語言模型的未來發展方向。

付費5元查看完整內容

隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。

然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:

建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。

綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。

? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。

付費5元查看完整內容

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

來自天津大學《大型語言模型評估》綜述,為大型語言模型的評估方法提供廣泛的探討

大型語言模型(LLMs)在廣泛的任務范圍內展現了顯著的能力。它們引起了大量的關注,并已被部署在眾多下游應用中。然而,如同一把雙刃劍,LLMs也帶來了潛在的風險。它們可能面臨私人數據泄露的風險,或產生不適當、有害或誤導性的內容。此外,LLMs的快速進步也引發了關于在沒有充分保障的情況下可能出現的超智能系統的擔憂。為了有效地利用LLMs的能力并確保它們的安全和有益的發展,對LLMs進行嚴格和全面的評估至關重要。這項綜述旨在為LLMs的評估提供一個全景式的視角。我們將LLMs的評估分為三大類:知識和能力評估、對齊評估和安全評估。除了對這三個方面的評估方法和基準的全面調研外,我們還匯編了一個關于LLMs在專業領域性能的評估手冊,并討論了建立綜合評估平臺的構建,該平臺涵蓋了LLMs在能力、對齊、安全和適用性上的評估。我們希望這個全面的概述能夠進一步激發對LLMs評估的研究興趣,最終目標是使評估成為指導LLMs負責任發展的基石。我們設想,這將引導它們的發展朝著最大化社會利益同時最小化潛在風險的方向。與此相關的論文列表已在GitHub倉庫上公開。

當我們深入探討智能的概念時,人類智能自然成為我們的基準。幾千年來,人類一直在不斷地探索人類智能,采用多種方法進行測量和評估。對于理解智能的這一追求,包括了從智商測試和認知游戲到教育追求和職業成就的一系列方法。縱觀歷史,我們持續不斷的努力都是為了理解、評估和推動人類智能的各個方面的界限。

然而,在信息時代的背景下,一種新的智能維度正在嶄露頭角,引發了科學家和研究者的廣泛關注:機器智能。這個新興領域的代表之一是自然語言處理(NLP)中的語言模型。這些通常使用強大的深度神經網絡構建的語言模型,具有前所未有的語言理解和生成能力。如何衡量和評估這種新型智能的水平已成為一個關鍵問題。

在NLP的初級階段,研究者們通常采用一套簡單的基準測試來評估他們的語言模型。這些初步的評估主要集中在諸如語法和詞匯之類的方面,包括句法解析、詞義消歧等任務。在1990年代初,MUC評估(Grishman&Sundheim,1996)的出現在NLP社區中標志著一個重要的里程碑。MUC評估主要集中于信息提取任務,挑戰參與者從文本中提取特定信息。這個評估框架在推動信息提取領域的發展中起到了關鍵的作用。隨后,隨著2010年代深度學習的出現,NLP社區采用了更廣泛的基準測試,如SNLI(Bowman等人,2015)和SQuAD(Rajpurkar等人,2016)。這些基準不僅評估系統性能,還為訓練系統提供了大量數據。它們通常根據采用的評估指標為模型分配個別分數,以方便測量任務特定的準確性。

隨著BERT(Devlin等人,2019)等大規模預訓練語言模型的出現,評估方法已逐漸發展以適應這些新型通用模型的性能評估。為了應對這種范式轉變,NLP社區主動組織了許多共享任務和挑戰,包括但不限于SemEval(Nakov等人,2019)、CoNLL(Sang&Meulder,2003)、GLUE(Wang等人,2019b)、SuperGLUE(Wang等人,2019a)和XNLI(Conneau等人,2018)。這些努力需要為每個模型聚合分數,為其整體性能提供一個整體的衡量。反過來,它們推動了NLP評估方法的持續完善,為研究者提供了一個動態的舞臺來比較和對比不同系統的能力。

隨著語言模型規模的持續擴展,大型語言模型(LLMs)在零樣本和少樣本環境下都表現出了引人注目的性能,與經過微調的預訓練模型相媲美。這一變化引發了評估景觀的轉變,從傳統的任務中心基準轉向能力中心評估的關注。不同下游任務之間的劃界線已開始變得模糊。與此趨勢相伴隨的是,旨在評估知識、推理和其他各種能力的評估基準的評估范圍也在擴大。許多這些基準都是以放棄訓練數據為特點,并設計有提供模型在零樣本和少樣本設置下的綜合評估的總體目標(Hendrycks等人,2021b;Zhong等人,2023;Zhang等人,2023b;Li等人,2023e)。

ChatGPT(OpenAI,2022)鮮明地展示了LLMs被大眾迅速采納,僅在發布后的兩個月內,其用戶數量就超過了1億。這一前所未有的增長突顯了這些模型的變革能力,包括自然文本生成(Brown等人,2020)、代碼生成(Chen等人,2021)和工具使用(Nakano等人,2021)。然而,除了他們的承諾外,人們還對這種能力強大的模型在沒有進行徹底和綜合評估的情況下大規模部署可能帶來的風險提出了擔憂。如加劇偏見、傳播誤信息和妥協隱私等關鍵問題需要得到嚴格解決。為了回應這些擔憂,研究領域出現了一個專門的研究方向,重點在于實證評估LLMs與人類偏好和價值觀的對齊程度。與以往的研究主要關注能力不同,這一研究方向旨在指導LLMs的進步和應用,使其最大限度地發揮其益處,同時積極地減輕風險。

此外,LLMs的日益增多的使用以及它們在現實世界環境中不斷增長的整合強調了基于LLMs的先進AI系統和代理對人類社會產生的深遠影響。在部署這些先進的AI系統之前,必須優先考慮LLMs的安全性和可靠性。我們為與LLMs相關的一系列安全問題(如魯棒性和災難性風險)提供了一個全面的探討。盡管這些風險可能尚未完全實現并在目前顯現,但先進的LLMs已經通過揭示指示災難性風險的行為和在當前評估中展示執行高階任務的能力表現出了某些傾向。因此,我們認為,討論評估這些風險對于指導LLMs安全研究的未來方向至關重要。

盡管已經開發了許多基準來評估LLMs的能力和與人類價值觀的一致性,但這些基準通常只集中于單一任務或領域內的表現。為了使LLM的評估更為全面,這份調查提供了一個系統的文獻綜述,綜合了評估這些模型在各種維度上的努力。我們總結了關于一般LLM基準和評估方法的關鍵點,涵蓋知識、推理、工具學習、毒性、真實性、魯棒性和隱私等方面。

我們的工作顯著地擴展了Chang等人(2023)和Liu等人(2023i)最近對LLM評估的兩項調查。雖然是同時進行的,但我們的調查與這些現有的評論采取了一個不同的方法。Chang等人(2023)圍繞評估任務、數據集和方法結構化他們的分析。與此相反,我們的調查在這些類別之間整合見解,以提供LLM評估中關鍵進展和局限性的更全面的描述。此外,Liu等人(2023i)主要將他們的評論重點放在LLMs的對齊評估上。我們的調查擴大了范圍,綜合了LLMs的能力和對齊評估的研究結果。通過從一個整合的視角和擴展的范圍來補充這些先前的調查,我們的工作為LLM評估研究的當前狀態提供了一個全面的概述。我們的調查與這兩項相關工作之間的區別進一步突顯了我們的研究對文獻的新穎貢獻。

分類法與路線圖

本綜述的主要目標是精心分類LLMs的評估,為讀者提供一個結構良好的分類框架。通過這個框架,讀者可以深入了解LLMs在多個關鍵領域的表現及其相應的挑戰。 眾多研究認為,LLMs的能力基石在于知識和推理,這是它們在眾多任務中表現出色的基礎。盡管如此,有效地應用這些能力需要仔細檢查對齊問題,以確保模型的輸出與用戶的期望保持一致。此外,LLMs容易受到惡意利用或無意的誤用,這強調了安全考慮的緊迫性。一旦解決了對齊和安全問題,LLMs就可以在專業領域中審慎部署,催化任務自動化并促進智能決策。因此,我們的總體目標是深入研究這五個基本領域及其各自的子領域的評估,如圖1所示。

Section 3: “Knowledge and Capability Evaluation”

這一部分主要關注于全面評估LLMs所展現出的基本知識和推理能力。這部分詳細地分為四個子部分:問答、知識補全、推理和工具學習。問答和知識補全任務是衡量知識實際應用的基本評估,而各種推理任務則是探測LLMs的元推理和復雜推理能力的試金石。此外,還強調了工具學習的特殊能力,并展示了它在使模型熟練處理和生成特定領域內容方面的重要性。

Section 4: “Alignment Evaluation”

這一部分專注于LLMs在關鍵維度上的表現,包括倫理考慮、道德含義、偏見檢測、毒性評估和真實性評估。這里的主要目的是審查并減少可能出現在倫理、偏見和毒性領域的潛在風險,因為LLMs可能無意中生成歧視、偏見或冒犯的內容。此外,這一部分還提及LLMs中的幻覺現象,這可能導致誤傳假消息。因此,這個評估的一個不可或缺的方面涉及對真實性的嚴格評估,強調其作為評估和糾正的基本方面的重要性。

Section 5: “Safety Evaluation”

這部分對LLMs的魯棒性和在人工通用智能(AGI)背景下的評估進行了全面探索。LLMs經常被部署在真實世界的場景中,其中它們的魯棒性變得至關重要。魯棒性使它們能夠應對來自用戶和環境的干擾,同時還可以防范惡意攻擊和欺騙,從而確保始終保持高水平的性能。此外,隨著LLMs不可避免地向人類水平的能力發展,評估擴大了其視野,包括更深入的安全問題。這些問題包括但不限于尋求權力的行為和發展情境意識,這些因素需要進行詳細的評估,以防范未知的挑戰。

Section 6: “Specialized LLMs Evaluation”

這部分作為LLMs評估范例在多個專業領域的擴展。在這部分中,我們將關注特別為特定領域應用而定制的LLMs的評估。我們的選擇包括目前突出的專業LLMs,涵蓋生物學、教育、法律、計算機科學和金融等領域。這里的目標是系統地評估它們在面對領域特定挑戰和復雜性時的能力和局限性。

Section 7: “Evaluation Organization”

這部分作為對評估LLMs的常用基準和方法的全面介紹。鑒于LLMs的快速增長,用戶面臨著識別最合適的模型以滿足其特定要求的挑戰,同時最大限度地減少評估的范圍。在這種背景下,我們提供了一個關于公認和廣泛認可的基準評估的概述。這有助于用戶在選擇適合其特定需求的LLM時做出明智和知情的決策。

請注意,我們的分類框架并不聲稱全面涵蓋評估領域的所有內容。本質上,我們的目標是回答以下基本問題: ? LLMs有哪些能力? ? 部署LLMs時必須考慮哪些因素? ? LLMs在哪些領域可以找到實際應用? ? LLMs在這些不同的領域中的表現如何? 我們現在將開始對LLM評估分類法中的每一類進行深入探討,依次討論能力、關注點、應用和性能。

**結論 **

LLMs的發展速度令人震驚,它在許多任務中都展現出了顯著的進步。然而,盡管開啟了人工智能的新時代,我們對這種新型的智能理解仍然相對有限。界定這些LLMs的能力邊界、理解它們在各個領域的性能,并探索如何更有效地發揮它們的潛力是至關重要的。這需要一個全面的基準框架來指導LLMs的發展方向。本次調查系統地闡述了LLMs的核心能力,涵蓋了如知識和推理等關鍵方面。此外,我們深入探討了對齊評估和安全評估,包括倫理關切、偏見、毒性和真實性,以確保LLMs的安全、可信和倫理應用。同時,我們探討了LLMs在不同領域的潛在應用,包括生物學、教育、法律、計算機科學和金融。最重要的是,我們提供了一系列受歡迎的基準評估,以幫助研究人員、開發人員和從業者理解和評估LLMs的性能。 我們期望這次調查會推動LLMs評估的發展,為這些模型的受控進步提供明確的指導。這將使LLMs更好地為社區和全球服務,確保它們在各個領域的應用是安全、可靠和有益的。我們懷著熱切的期望,擁抱LLMs的發展和評估的未來挑戰。

付費5元查看完整內容

現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。

因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。

在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。

自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。

在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。

然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。

在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。

本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。

基于PLM的CTG主要方法

 從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。

基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。

結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。

付費5元查看完整內容

Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。

Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。

//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e

1. 引言

諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。

最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。

為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。

我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。

我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:

我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力

我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新

我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力

2 參數化知識引導

在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。

**2.1 導引器的知識對齊 **

針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:

指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。

2.2 用PKG增強LLMs

在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:

3 實驗

在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。

付費5元查看完整內容

大型語言模型(如GPT-3、GPT-4、TNLG、T-5等LLM)在標準基準上表現出非常高的性能,這是因為它們的參數數量高、訓練數據集非常大、計算量很大。盡管這些模型中的高參數數量導致了更強的表達能力,但它也可能導致更高的記憶能力,再加上未經驗證的大型網絡抓取數據集,可能會造成多種不同的負面社會和道德影響: 隱私、敏感信息的泄露——即LLM是“泄漏的”,生成有偏見的文本,即。LLM是“狡猾的,產生仇恨或刻板印象的文本-即LLM是“令人毛骨悚然的”。在本次演講中,我將介紹上述問題如何影響LLM的可信性,并重點介紹我們如何測量這些模型的泄漏和記憶。最后,我將討論大型LLM的隱私保護實際意味著什么,以及使大型模型可信的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司