亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)由于其能在許多知識領域中與最終用戶進行具有詳細且清晰的回答的人類級別對話的能力,引發了AI的新熱潮。響應其在許多工業應用中的快速采用,本綜述關注其安全性和可信度。首先,我們回顧了LLMs的已知漏洞,將它們分類為固有問題,預定攻擊和無意的錯誤。然后,我們考慮是否以及如何可以將已經為傳統軟件和深度學習模型(如卷積神經網絡)廣泛開發的驗證和驗證(V&V)技術整合并進一步擴展到LLMs的生命周期中,以對LLMs及其應用的安全性和可信度提供嚴謹的分析。特別是,我們考慮四種互補技術:偽造和評估,驗證,運行時監視和道德使用。考慮到LLMs的快速發展,本綜述并無意完整(盡管它包含300多個參考),尤其是在涉及到LLMs在各個領域的應用時,而是收集了有組織的文獻回顧和討論,以支持從V&V的視角快速理解安全性和可信度問題。

//arxiv.org/abs/2305.11391

1. 引言

大型語言模型(LLM)是一種具備大量可學習參數的深度學習模型(通常達到100億以上,如圖1所示)。LLMs是基于Transformer架構[116]的注意力驅動的序列模型,已經一直顯示出學習語言通用表示的能力。這種語言的通用表示可以被用于各種自然語言處理(NLP)任務。最近,這些模型在參數數量和預訓練語料庫方面的擴大,已經證實了Transformer作為編碼語言表示的普遍性。在特定規模下,這些模型開始表現出在上下文中的學習能力[184,278],以及從少數示例(零/一/少數 - 無需微調)和自然語言提示(描述模型需要實施的行為意圖的復雜指令)中學習的屬性。最近關于通過人類反饋進行強化學習(RLHF)[190]的研究進一步發展了這些模型對越來越復雜提示的對齊和響應的能力,導致了它們在如ChatGPT等系統中的普及,以及在大量應用中的使用。LLMs表現出復雜的語言和推理行為的能力,已經推動了它們在超出預期操作范圍的應用。盡管LLMs在語言流暢性上一直表現出色,但它們也容易產生錯覺[228],陳述事實上不正確的陳述[227],以及缺乏必要的安全性、透明度和控制機制[239]等問題。本文的目標是提供關于LLMs已知漏洞的回顧,并更重要的是,探討如何調整V&V技術以提高LLMs的安全性和可信度。雖然已有一些關于LLMs的調查[296,291],以及關于ChatGPT失敗的分類性檔案[47],但據我們所知,這是第一個從V&V的角度對安全性和可信度問題進行全面討論的工作。

V&V技術在支持安全關鍵系統中軟硬件的可靠和可信賴的開發方面取得了成功,并已被適應用于機器學習模型,主要關注圖像分類的卷積神經網絡(見諸如[125, 169]的調查和[124]等教科書),但也擴展到考慮如目標檢測、深度強化學習和循環神經網絡等。本文討論如何進一步擴展V&V以應對LLMs的安全性和可信度挑戰。V&V是一種獨立的程序,它們一起用于檢查系統(或產品,服務)是否滿足要求和規范,并且是否達到其預期的目的[7]。其中,驗證技術根據一組設計規格檢查系統,而驗證技術確保系統滿足用戶的操作需求。從軟件、卷積神經網絡到LLMs,系統的規模顯著增長,這使得常規的V&V技術由于其可擴展性問題而能力不足。將可學習參數作為其算法輸入的白盒V&V技術在實踐中不會很好地工作。相反,研究應專注于黑盒技術,對于卷積神經網絡,一些研究已經開始。此外,V&V技術需要考慮LLMs的非確定性特性(即,對于兩次具有相同輸入的測試,輸出不同),這與常見的神經網絡(如卷積神經網絡和目標檢測器)有顯著的不同,目前大多數V&V技術都在這些網絡上工作。

本文的結構如下。在第二部分,我們回顧了LLMs及其類別,它的生命周期,以及為提高安全性和可信度而引入的幾種技術。然后,在第三部分,我們介紹了現有漏洞的回顧。這之后,我們在第四部分提供了一個通用的驗證框架。該框架包括V&V技術,如偽造和評估(第五部分),驗證(第六部分),運行時監控(第七部分)和道德使用(第八部分)。我們在第九部分對本文進行總結。

2. 大型語言模型

這一部分總結了基于LLMs的機器學習任務的類別,然后討論了LLMs的生命周期。我們還將討論一些與安全性分析相關的基礎技術。

圖2展示了LLMs的生命周期階段。離線模型構造由三個步驟組成[291]:預訓練、適應調整和利用改進,每個步驟都包含幾個交織的子步驟。一般來說,預訓練步驟與常規的機器學習訓練類似,包括數據收集、架構選擇和訓練。在適應調整上,它可能進行指令調整[178]以從任務指令中學習,并進行對齊調整[190, 67]以確保LLMs與人類價值觀相符,例如公平、誠實和無害。除此之外,為了改善與最終用戶的交互,可能會通過例如上下文學習[49],思維鏈學習[257]來進行利用改進。一旦一個LLM被訓練,就需要進行評估以確保其性能符合預期。通常,我們從三個角度考慮評估:基本性能指標的評估,安全性分析以評估在應用中應用LLM的后果,以及通過公開可用的基準數據集進行的評估。評估將決定LLM是否可接受(對于預設定的標準),如果是的話,過程將向前移動到部署階段。否則,將至少確定一個失敗,并且過程將回退到三個訓練步驟中的任何一個。在部署階段,我們將決定如何使用LLM。例如,它可以在網頁平臺上供最終用戶直接交互,比如ChatGPT。或者,它可能被嵌入到搜索引擎中,比如新的Bing。然而,根據常規做法,會在LLMs和最終用戶之間的對話上設置保護,以確保AI規則最大程度地實施。

3 漏洞

本部分介紹已知類型漏洞的回顧。這些漏洞可以分為固有問題、有意攻擊和無意錯誤三類。固有問題是指LLMs本身無法立即解決的漏洞。然而,通過更多的數據和新的訓練方法等逐步改進是可能的。固有問題包括性能弱點,即LLMs尚未達到人類水平的智能方面,以及可持續性問題,因為LLMs的規模顯著大于常規機器學習模型。它們的訓練和日常執行可能會產生非可忽略的可持續性影響。此外,可信性和責任問題是LLMs固有的。有意攻擊是由惡意攻擊者發起的,他們試圖通過攻擊LLMs生命周期中的某些階段來實現他們的目標。已知的有意攻擊包括魯棒性漏洞、后門攻擊、毒化、虛假信息、隱私泄露和未經授權的信息披露。最后,隨著LLMs集成到更廣泛的應用中,將出現越來越多的無意錯誤,這些錯誤是開發人員在無意識中產生的,但卻會產生嚴重后果,例如偏見和歧視(通常與訓練數據的質量有關),以及最近報道的用戶信息的意外泄露。圖2展示了漏洞在LLMs的生命周期中可能被利用的方式。雖然固有問題和無意錯誤可能出現在生命周期的任何階段,但有意攻擊通常出現在生命周期的特定階段。例如,后門攻擊通常發生在預訓練和適應調整階段,其中嵌入了后門觸發器;毒化通常發生在訓練或對齊調整階段,此時LLMs從環境中獲取信息/數據。此外,許多攻擊發生在最終用戶與LLMs之間的交互中,使用特定的、經過精心設計的提示來從LLMs中檢索信息。我們注意到,盡管存在重疊,LLMs和常規深度學習模型(如卷積神經網絡或目標檢測器)具有略微不同的漏洞,并且盡管已經開始為常規深度學習模型開發規范語言[40, 127],但這些努力可能需要擴展到LLMs上。

4 通用驗證框架

圖3展示了一個通用的驗證框架示意圖,該框架可以與LLMs一起工作,并將幾個V&V技術類別定位到生命周期中。在評估階段,除了目前進行的活動(如圖2所述),我們需要從偽造和評估技術開始,并與解釋技術同時進行。偽造和評估技術提供了多樣的方法來找到故障案例,并具有統計理解潛在故障的能力,但并非窮盡。解釋技術旨在提供人類可理解的LLMs輸出解釋。雖然這兩個類別是并行的,但它們可以相互交互,例如,一個故障案例可能需要使用解釋技術來理解根本原因,而解釋需要區分不同的故障和非故障案例。驗證技術通常成本較高,可能僅在LLMs通過前兩個類別時才需要。除了離線驗證,還需要在保護層之上部署運行時監視器,以在操作時間發現故障案例。這主要是由于兩個原因:(1)當處理大量屬性和LLMs的高維度時,離線方法可能不完整;(2)LLMs可以是自適應和演化的。最后,在整個生命周期中,需要遵守倫理原則和AI規定,以確保對LLMs的道德使用。

5 偽造和評估

本部分總結了識別和評估基于LLMs的機器學習應用程序漏洞的已知方法。我們還討論了如何調整V&V,并應該如何調整。

6 驗證

本部分討論是否以及如何將更嚴格的驗證擴展到基于LLMs的機器學習任務中。到目前為止,LLMs的驗證或認證仍然是一個新興的研究領域。本節首先對各種NLP模型的驗證技術進行了全面系統的回顧。然后,我們討論了一些開創性的黑盒驗證方法,這些方法可以在大規模語言模型上發揮作用。接下來,我們討論如何將這些工作擴展到LLMs,并回顧減小LLMs規模以增加驗證技術有效性的努力。

7 運行時監視器

第2.3.2節提到的保護層為LLMs與最終用戶的交互提供了安全保障,同時保持其社會責任。本節討論了一種V&V方法,即運行時監視器,它與保護層有些相似,可以對LLMs的行為進行保護,以防止像第3節中討論的那樣的漏洞。使用運行時監視器而不是驗證的關鍵動機有兩個方面。首先,驗證方法需要大量的計算,因此在處理像LLMs這樣的大型模型時可能變得不切實際。其次,深度學習模型可能被應用于與收集訓練數據不同的場景。這表明需要一個運行時監視器來實時確定規范的可滿足性。

8 規定和道德使用

V&V提供了一系列技術手段,以支持LLMs與人類利益的一致性。然而,有人認為構建無法被濫用的LLMs可能是不可能的。這表明技術手段是必要的,但可能是不充分的。因此,需要道德手段來補充技術手段,以確保LLMs的使用與人類利益完全一致。以下,我們將討論幾個近期取得的進展跡象。

9. 結論

本文概述了LLM(大型語言模型)已知的漏洞,并討論了如何調整V&V(驗證和驗證)技術以適應它們的工作。鑒于LLM正在迅速被直接或間接與終端用戶進行交互的應用程序所采用,必須確保部署的LLM經歷足夠的審判過程,以避免任何不可取的安全和可信后果。考慮到LLM的規模和復雜性,白盒V&V技術可能變得不切實際,社區可能需要開發黑盒、非確定性敏感的V&V技術。此外,多學科的開發將確保充分考慮所有可信問題。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大型語言模型(LLMs)展示了出色的泛化能力,這促進了眾多模型的發展。這些模型提出了各種新的架構,微調了現有架構的訓練策略,增加了上下文長度,使用了高質量的訓練數據,并增加了訓練時間,以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類,訓練策略,訓練數據集,性能評估,并討論了未來的研究方向。此外,這篇論文還討論了LLMs背后的基本構建模塊和概念,然后對LLMs的重要特性和功能進行了全面概述。最后,這篇論文總結了LLMs研究的重要發現,并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展,我們打算定期更新這篇論文,通過添加新的部分并展示最新的LLMs模型。

//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652

1. 引言

語言在人類的交流和自我表達中起著基礎性的作用,同樣,通信對于機器與人類和其他系統的互動也極為重要。大型語言模型(LLMs)已經成為處理和生成文本的尖端人工智能系統,旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求,包括翻譯,摘要,信息檢索和對話交互。最近,語言模型方面取得了顯著的突破,主要歸功于深度學習技術,像transformers這樣的神經結構的進步,增加的計算能力,以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變,使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型(LLMs)成為可能[3],[4]。尤其是預訓練語言模型(PLM),在大規模文本語料庫的自監督設置下訓練,展示了對于文本理解和生成任務的巨大泛化能力[5],[6],[7]。當預訓練語言模型(PLMs)微調用于下游任務時,其性能顯著提升,超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs,他們發現,進一步擴大模型和數據集的規模可以提高泛化能力。

如今,現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務,在零樣本和少樣本的情況下,甚至不需要在下游任務上進行任何微調就能做到這一點[8],[9],[10]。以前,較小的模型無法達到這樣的泛化,這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮,導致了眾多LLMs的開發[11],[12],[13],[8],[9],[10],[14]。圖1展示的圖表顯示了隨著時間的推移,發布的LLMs數量(包括開源和閉源模型)的增加趨勢。此外,圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型(LLMs)的早期階段,許多研究工作都集中在為下游任務開發轉移學習的模型[11],[12],[15],直到像GPT-3這樣的模型的出現[8],即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質,人們對開源替代品有需求,這導致了各種模型的開發[9],[10],這些模型與GPT-3的規模相當,并在廣泛的基于網絡的數據集上進行訓練[16],[17],[18],[19]。隨后,研究人員提出了幾種架構設計和訓練策略,這些設計和策略在各種任務上顯示出優于GPT-3的性能[15],[14],[20],[21]。

LLMs的性能可以通過指令微調進一步提高,超越了在各種基準測試中預訓練的LLMs的表現[22],[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法,以指導輸出,從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令,也可以是根據任務需求的示例演示。在文獻中,已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務,進一步提高了對基線的性能[24],[23],[25],[26]。進行指令微調時,需要更新所有的模型參數。然而,參數效率微調采取了不同的方法,只更新少數參數,同時仍然保持良好的性能。這種方法保持原模型不變,而在模型的不同位置添加少量額外的參數[27],[28],[29],[30],[31]。這種方法有助于實現高效的微調,同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外,還有一篇全面的評論可供參考,涵蓋了架構,微調,新能力,以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而,這些評論論文并未深入探討個別模型的具體細節,只提供了對架構和訓練方法的表面理解。相反,我們的論文旨在通過討論細節,提供更深入的分析單個LLMs。

大型語言模型(LLMs)的架構、訓練數據集以及其他顆粒度方面的細節,特別是從歷史的角度來看,缺乏全面和詳細的討論,這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析,深入探討其開發、架構、訓練數據集和相關組件的細節。

據我們所知,這是第一篇討論LLMs細節的全面調查論文。 我們對各種LLMs架構及其分類進行了深入分析。此外,我們還討論了LLMs的基礎知識,以使對LLMs不熟悉的讀者能夠自給自足,從而使論文更具生產力。 我們的論文側重于為每一個LLM模型提供全面的細節,并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。 我們的目標是在我們的論文中總結這些關鍵細節,以幫助研究人員在他們的工作中確定更好的架構和訓練方法。

我們的論文補充了一篇關于LLMs的最新綜述論文[33],其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息,但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個,或者更多,類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35],[36],[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景,簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準,然后在結論部分給出了總結和未來方向。

付費5元查看完整內容

以ChatGPT為代表的大模型,是全新一代知識表示和調用方式,相比以往知識圖譜的方式,更加高效智能可擴展等,開啟通用人工智能之門。但符號化的知識圖譜過時了嗎?并非如此,知識圖譜和大模型可以進行很好的結合,互相促進,提升知識利用的效果。來自澳大利亞格里菲斯大學(Griffith University)等學者《統一大型語言模型和知識圖譜:路線圖》,29頁pdf詳述最全指南,值得關注!

大型語言模型(LLMs),如ChatGPT和GPT4,由于其新興能力和通用性,正在自然語言處理和人工智能領域掀起新浪潮。然而,LLMs是黑箱模型,常常難以捕獲和獲取事實知識。相比之下,知識圖譜(KGs),例如維基百科和華普,是結構化知識模型,明確存儲豐富的事實知識。知識圖譜可以通過提供外部知識以推理和解釋,從而增強LLMs。同時,知識圖譜難以構建并且具有不斷演變的特性,這對知識圖譜中生成新事實和表示未見知識的現有方法提出了挑戰。因此,將LLMs和知識圖譜統一起來并同時利用它們的優勢是互補的。在這篇文章中,我們提出了一個前瞻性的LLMs和知識圖譜統一的路線圖。我們的路線圖包括三個總體框架,即1) 知識圖譜增強的LLMs,它在LLMs的預訓練和推理階段,或為了增強對LLMs所學知識的理解,將知識圖譜納入其中;2) LLM增強的知識圖譜,利用LLMs進行不同的知識圖譜任務,如嵌入,完成,構建,圖到文本生成和問答;以及 3)協同的LLMs + 知識圖譜,在其中LLMs和知識圖譜扮演著平等的角色,并以互利的方式工作,以增強LLMs和知識圖譜對由數據和知識驅動的雙向推理。我們在路線圖中回顧和總結了這三個框架內的現有努力,并指出了它們的未來研究方向。

1. 引言

大型語言模型(LLMs)(例如,BERT [1],RoBERTA [2]和T5 [3]),在大規模語料庫上預訓練,已經在各種自然語言處理(NLP)任務中展現出了優異的表現,如問題回答[4],機器翻譯[5]和文本生成[6]。最近,模型規模的急劇增加進一步賦予了LLMs新興的能力[7],為將LLMs作為人工通用智能(AGI)的應用鋪平了道路。像ChatGPT和PaLM2這樣的高級LLMs,擁有數十億的參數,在許多復雜的實際任務中展現出了巨大的潛力,如教育[8],代碼生成[9]和推薦[10]。

盡管LLMs在許多應用中取得了成功,但它們因缺乏事實知識而受到批評。具體來說,LLMs記住了訓練語料庫中包含的事實和知識[14]。然而,進一步的研究揭示,LLMs無法回憶起事實,而且經常會產生幻覺,生成事實上不正確的聲明[15],[28]。例如,當被問到“愛因斯坦在什么時候發現了重力?”時,LLMs可能會說“愛因斯坦在1687年發現了重力”,這與艾薩克·牛頓制定了引力理論的事實相矛盾。這個問題嚴重損害了LLMs的可信度。

作為黑箱模型,LLMs也因其缺乏可解釋性而受到批評。LLMs隱含地在它們的參數中表示知識。解釋或驗證LLMs獲取的知識很困難。此外,LLMs通過概率模型執行推理,這是一個不確定的過程[16]。LLMs用于得出預測或決策的特定模式和功能對人類來說并不直接可訪問或可解釋[17]。盡管一些LLMs通過應用思維鏈[29]來解釋它們的預測,但它們的推理解釋也受到了幻覺問題的影響[30]。這嚴重影響了LLMs在高風險場景中的應用,如醫療診斷和法律判斷。例如,在一個醫療診斷場景中,LLMs可能會錯誤地診斷疾病,并提供與醫學常識相矛盾的解釋。這引發了另一個問題,即在一般語料庫上訓練的LLMs可能無法很好地泛化到特定領域或新知識,因為缺乏領域特定的知識或新的訓練數據[18]。

為解決上述問題,一個可能的解決方案是將知識圖譜(KGs)融入到LLMs中。知識圖譜(KGs),以三元組(頭實體,關系,尾實體)的方式存儲大量事實,是一種結構化且決定性的知識表示方式(例如,Wikidata [20],YAGO [31],和 NELL [32])。KGs對于各種應用至關重要,因為它們提供了準確的顯式知識[19]。此外,它們因其象征性推理能力[22]而著名,該能力可以生成可解釋的結果。KGs也可以隨著新知識的不斷加入而積極演化[24]。此外,專家可以構建特定領域的KGs,以提供精確且可靠的特定領域知識[23]。然而,KGs難以構建[33],而當前在KGs中的方法[25],[27],[34]在處理真實世界KGs的不完整和動態變化性質方面是不足夠的。這些方法未能有效地模擬未見實體和表示新事實。此外,它們經常忽視KGs中的豐富文本信息。此外,KGs中的現有方法通常針對特定的KGs或任務定制,不夠通用。因此,利用LLMs來解決KGs面臨的挑戰也是必要的。我們分別在圖1中總結了LLMs和KGs的優缺點。

最近,將LLMs與KGs統一起來的可能性越來越受到研究人員和從業人員的關注。LLMs和KGs本質上是互相關聯的,可以相互增強。在KG增強的LLMs中,KGs不僅可以被整合到LLMs的預訓練和推理階段,以提供外部知識[35]-[37],而且還可以用于分析LLMs并提供可解釋性[14],[38],[39]。在LLM增強的KGs中,LLMs已經被用于各種與KG相關的任務,例如KG嵌入[40],KG完成[26],KG構建[41],KG-to-text生成[42],和KGQA[43],以提高KGs的性能并促進KGs的應用。在協同作用的LLM + KG中,研究人員將LLMs和KGs的優點結合起來,相互提高在知識表示[44]和推理[45],[46]方面的性能。雖然有一些關于知識增強LLMs的調查[47]-[49],主要關注使用KGs作為外部知識來增強LLMs,但它們忽視了其他整合KGs的可能性,以及LLMs在KG應用中的潛在角色。

在這篇文章中,我們提出了一個展望未來的路線圖,用于統一LLMs和KGs,利用它們各自的優勢并克服各種方法的限制,以適應各種下游任務。我們提出了詳細的分類,進行了全面的回顧,并指出了這些快速發展領域的新興方向。我們的主要貢獻如下:

路線圖。我們提出了一個展望未來的路線圖,用于整合LLMs和KGs。我們的路線圖包括三個通用框架來統一LLMs和KGs,即,KG增強的LLMs,LLM增強的KGs,以及協同作用的LLM + KGs,為這兩種不同但互補的技術的統一提供了指導。

分類和回顧。對于我們路線圖的每一個整合框架,我們都提出了詳細的分類和統一LLMs和KGs研究的新穎分類法。在每個類別中,我們從不同的整合策略和任務的角度回顧了研究,這為每個框架提供了更多的洞察。

新興進步的覆蓋范圍。我們覆蓋了LLMs和KGs的先進技術。我們包括了最新的LLMs如ChatGPT和GPT-4以及新的KGs,例如多模態知識圖譜的討論。

挑戰和未來方向的總結。我們強調了現有研究中的挑戰,并提出了一些有前途的未來研究方向。

2. 背景知識

在本節中,我們將首先簡要介紹幾種代表性的大型語言模型(LLMs),并討論提示工程,該工程有效地使用LLMs進行各種應用。然后,我們將說明知識圖譜(KGs)的概念,并介紹KGs的不同類別。

大型語言模型

在大規模語料庫上預訓練的大型語言模型(LLMs)已經在各種NLP任務中展現出巨大的潛力[13]。如圖3所示,大多數LLMs都源于Transformer設計[50],該設計包含了由自注意力機制賦能的編碼器和解碼器模塊。根據架構結構,LLMs可以被分類為三個組:1)僅編碼器的LLMs,2)編碼器-解碼器的LLMs,和3)僅解碼器的LLMs。如圖2所示,我們總結了幾個具有不同模型架構,模型大小和開源可用性的代表性LLMs。

提示工程

提示工程是一個新興的領域,專注于創建和精煉提示,以最大化大型語言模型(LLMs)在各種應用和研究領域中的效用[63]。如圖4所示,提示是為LLMs指定任務(例如,情感分類)的自然語言輸入序列。一個提示可能包含幾個元素,即1)指令,2)上下文,和3)輸入文本。指令是指導模型執行特定任務的短句。上下文為輸入文本或少數示例提供背景。輸入文本是需要模型處理的文本。提示工程尋求提高大型語言模型(例如,ChatGPT)在多種復雜任務中的能力,如問題回答,情感分類和常識推理。鏈式思維(CoT)提示[64]通過中間推理步驟實現復雜推理能力。Liu等人[65]結合外部知識來設計更好的知識增強提示。自動提示工程師(APE)提出了一種自動提示生成方法,以提高LLMs的性能[66]。提示提供了一種簡單的方式,可以在無需微調的情況下利用LLMs的潛力。精通提示工程可以更好地理解LLMs的優點和缺點。

知識圖譜(KGs)知識圖譜(KGs)將結構化知識存儲為三元組集合KG = {(h, r, t) ? E × R × E},其中E和R分別表示實體和關系的集合。現有的知識圖譜(KGs)可以根據存儲的信息被分為四組:1)百科全書型KGs,2)常識KGs,3)特定領域KGs,以及4)多模態KGs。我們在圖5中展示了不同類別的KGs的例子。

** 應用**

LLMs 以及 KGs 已被廣泛應用在各種真實世界的應用中。我們在表1中總結了一些使用LLMs和KGs的代表性應用。ChatGPT/GPT-4是基于LLM的聊天機器人,可以以自然對話格式與人類進行交流。為了提高LLMs的知識意識,ERNIE 3.0 和 Bard將KGs整合進他們的聊天機器人應用中。Firefly開發了一款照片編輯應用,允許用戶使用自然語言描述來編輯照片。Copilot、New Bing 和 Shop.ai 分別采用LLMs來增強他們在編碼助手、網絡搜索和推薦等領域的應用。Wikidata 和 KO 是兩個代表性的知識圖譜應用,被用來提供外部知識。AliOpenKG是一個為推薦設計的知識圖譜。Doctor.ai 開發了一個健康護理助手,整合了LLMs和KGs以提供醫療建議。

3 路線圖和分類

在本節中,我們首先提出一個明確的框架路線圖,以統一LLMs和KGs。然后,我們呈現了關于統一LLMs和KGs的研究分類。

3.1 路線圖

我們在圖6中描繪了統一KGs和LLMs的路線圖。在路線圖中,我們確定了統一LLMs和KGs的三個框架,包括KG增強的LLMs,LLM增強的KGs,以及協同的LLMs + KGs。

3.1.1 KG增強的LLMs

LLMs因其能夠從大規模語料庫中學習知識并在各種自然語言處理(NLP)任務中取得最先進的性能而聞名。然而,LLMs經常因其幻覺問題[15]和缺乏可解釋性而受到批評。為解決這些問題,研究人員已經提出了用知識圖譜(KGs)來增強LLMs。KGs以明確和結構化的方式存儲大量知識,這可以用來增強LLMs的知識意識。一些研究人員已經提出在預訓練階段將KGs納入LLMs,這可以幫助LLMs從KGs中學習知識[91],[92]。其他研究人員提出在推理階段將KGs納入LLMs。通過從KGs中檢索知識,可以顯著提高LLMs在獲取特定領域知識方面的性能[93]。為了提高LLMs的可解釋性,研究人員還利用KGs來解釋LLMs的事實[14]和推理過程[94]。

3.1.2 由LLM增強的KG

知識圖譜(KGs)儲存著結構化的知識,這在很多實際應用中都起著至關重要的作用[19]。然而,現有的KG方法在處理不完整的KG [25]和處理文本語料庫來構建KG [95]方面存在短板。鑒于LLM的泛化能力,許多研究人員正試圖利用LLM來解決KG相關的任務。最直接的方式就是將LLM作為KG相關任務的文本編碼器。研究人員利用LLM處理KG中的文本語料庫,然后使用文本的表示來豐富KG的表示[96]。一些研究還使用LLM來處理原始語料庫,并提取關系和實體用于KG的構建[97]。最近的一些研究試圖設計一個KG提示,這可以有效地將結構化的KG轉化為LLM可以理解的格式。這樣,LLM就可以直接應用到KG相關的任務中,例如KG完成[98]和KG推理[99].

3.1.3 融合了LLM和KG的系統

這幾年,研究人員越來越關注將LLM和KG融合的潛力[40],[42]。LLM和KG是兩種固有的互補技術,應當將它們統一到一個通用框架中,以便互相增強。為了進一步探索這種統一,我們在圖7中提出了一個融合了LLM和KG的統一框架。這個統一框架包含四層:1) 數據,2) 融合模型,3) 技術,和4) 應用。在數據層,LLM和KG分別用于處理文本和結構化數據。隨著多模態LLM[100]和KG[101]的發展,這個框架可以擴展到處理多模態數據,如視頻、音頻和圖像。在融合模型層,LLM和KG可以相互協同,以提高他們的能力。在技術層,已經在LLM和KG中使用的相關技術可以被納入到這個框架中,以進一步增強性能。在應用層,LLM和KG可以整合起來,以解決各種實際應用,如搜索引擎[102]、推薦系統[10]和AI助手[103]。

3.2 分類

為了更好地理解將大型語言模型(LLMs)和知識圖譜(KGs)統一的研究,我們為路線圖中的每個框架提供了更細粒度的分類。具體來說,我們關注了將知識圖譜和大型語言模型集成的不同方式,即,知識圖譜增強的大型語言模型、知識圖譜增量的大型語言模型,以及融合了大型語言模型和知識圖譜的系統。研究的細粒度分類如圖8所示。

知識圖譜增強的大型語言模型。整合知識圖譜可以提高大型語言模型在各種下游任務中的性能和可解釋性。我們將知識圖譜增強的大型語言模型研究分為三組:1) 知識圖譜增強的大型語言模型預訓練包括在預訓練階段應用知識圖譜并提高大型語言模型的知識表達的工作。2) 知識圖譜增強的大型語言模型推理包括在大型語言模型的推理階段使用知識圖譜的研究,這使得大型語言模型能夠在不進行再訓練的情況下獲取最新的知識。3) 知識圖譜增強的大型語言模型的可解釋性包括使用知識圖譜來理解大型語言模型所學習的知識和解釋大型語言模型的推理過程的工作。

大型語言模型增量的知識圖譜。大型語言模型可以應用于增強各種與知識圖譜相關的任務。我們根據任務類型將大型語言模型增量的知識圖譜研究分為五組:1) 大型語言模型增強的知識圖譜嵌入包括使用大型語言模型來豐富知識圖譜的表示,通過編碼實體和關系的文本描述。2) 大型語言模型增強的知識圖譜完成包括使用大型語言模型編碼文本或生成事實以提高知識圖譜完成(KGC)性能的論文。3) 大型語言模型增強的知識圖譜構建包括使用大型語言模型處理實體發現,共指消解,和關系提取任務以構建知識圖譜的工作。4) 大型語言模型增強的知識圖譜到文本生成包括使用大型語言模型生成描述來自知識圖譜的事.

7 未來方向

在前面的部分中,我們已經回顧了將知識圖譜(KGs)和大型語言模型(LLMs)統一的最新進展,但是仍有許多挑戰和未解決的問題需要解決。在本節中,我們將討論這個研究領域的未來方向。

  • 使用知識圖譜(KGs)進行大型語言模型(LLMs)的錯覺檢測
  • 在LLMs中編輯知識的知識圖譜(KGs)
  • 用于黑盒LLMs知識注入的知識圖譜(KGs)
  • 針對知識圖譜(KGs)的多模態LLMs
  • 用于理解知識圖譜結構的LLMs
  • 用于雙向推理的融合LLMs和KGs。

8 結論

將大型語言模型(LLMs)和知識圖譜(KGs)統一是一個吸引了學術界和工業界越來越多關注的活躍的研究方向。在本文中,我們對該領域的最近研究提供了全面的概述。我們首先介紹了將KGs集成以增強LLMs的不同方式。然后,我們介紹了應用LLMs于KGs的現有方法,并基于各種KG任務建立了分類法。最后,我們討論了這個領域的挑戰和未來的方向。我們希望本文能夠提供對這個領域的全面理解,并推動未來的研究。

付費5元查看完整內容

如何讓模型適配專業領域?這篇文章夠了

大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。

在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:

? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,

1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。

2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。

3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。

3 LLM領域專業化的應用

在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:

? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。

4. 結論

總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

最新大模型推薦綜述

大型語言模型(LLMs)已在自然語言處理(NLP)領域嶄露頭角,并在推薦系統(RS)領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練,已在學習通用表示上取得了顯著成功,并有可能通過一些有效的遷移技術(如微調和提示調整等)來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋,以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解,本綜述提出了一種分類法,將這些模型分為兩大范式,分別是用于推薦的判別型LLM(DLLM4Rec)和用于推薦的生成型LLM(GLLM4Rec),其中后者是首次被系統地整理出來。此外,我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統,提供了它們的方法、技術和性能的洞察。此外,我們也識別出了關鍵的挑戰和一些有價值的發現,以為研究者和實踐者提供靈感。

//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5

1. 引言

推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理(NLP)領域出現的大型語言模型(LLMs),人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型(LLMs)融入推薦系統的關鍵優勢在于,它們能夠提取高質量的文本特征表示,并利用其中編碼的廣泛外部知識[Liu等人,2023b]。此綜述將LLM視為基于Transformer的模型,這種模型參數眾多,通過使用自/半監督學習技術在大規模數據集上進行訓練,例如BERT,GPT系列,PaLM系列等。與傳統的推薦系統不同,基于LLM的模型擅長捕獲上下文信息,更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人,2022]。通過理解上下文,基于LLM的推薦系統(RS)可以提高推薦的準確性和相關性,從而提高用戶滿意度。同時,面對有限的歷史交互數據稀疏問題[Da’u和Salim,2020],LLMs還通過零/少樣本推薦能力[Sileo等人,2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項,因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練,使它們即使沒有接觸過特定的項目或用戶,也能提供合理的推薦。

上述策略已在判別模型中得到了良好的應用。然而,隨著AI學習范式的演變,生成語言模型開始受到關注[Zhao等人,2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現,它們已經對人類的生活和工作模式產生了重大影響。此外,將生成模型與推薦系統相結合,有可能帶來更多創新和實用的應用。例如,可以提高推薦的可解釋性,因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人,2023],幫助用戶理解影響推薦的因素。此外,生成語言模型使得更個性化和上下文感知的推薦成為可能,例如在聊天式推薦系統中用戶可以定制提示[Li等人,2023],增強用戶對結果多樣性的參與和滿意度。 受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發,將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向,顯著地推進了推薦系統研究的最新技術。到目前為止,有一些研究回顧了這個領域的相關論文[Zeng等人,2021; Liu等人,2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究,并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法,將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分,分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而,這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移,而不是探索語言模型及其能力,即基于LLM的方式。此外,他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題,我們深入研究了基于LLM的推薦系統,將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM,我們的回顧重點放在后者上。據我們所知,我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。

我們的綜述主要貢獻如下

我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述,重點是擴大語言模型的能力。通過分析現有方法,我們對相關進展和應用提供了系統的概覽。

據我們所知,我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧

我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰,并提出了有價值的發現,可以激發在這個有潛力的領域進一步的研究。

2 建模范式和分類法

所有大型語言模型的基本框架都由幾個Transformer塊組成,例如GPT,PaLM,LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成,而在輸出模塊可以獲得期望的輸出嵌入或token。在這里,輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示,對于在推薦中適應語言模型,即建模范式,現有的工作可以大致分為以下三類:

(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器,將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似,這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好,可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同,這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。

在實際應用中,語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示,在本文中,我們將現有的工作劃分為兩個主要類別,分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分,不同方式之間的區別在圖3中有所說明。一般來說,判別性語言模型非常適合在范式(1)中嵌入,而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。

3 用于推薦的判別性LLM

確實,所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人,2019]。由于判別性語言模型在自然語言理解任務中的專業性,它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外,一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。

3.1 微調

微調預訓練的語言模型是一種在各種自然語言處理(NLP)任務中,包括推薦系統,受到了顯著關注的通用技術。微調背后的思想是,采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型,并通過在特定任務的數據上進一步訓練它,使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型,然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中,模型的參數根據特定任務的數據進行更新,使其能夠適應和專門用于推薦任務。在預訓練和微調階段,學習目標可以是不同的。由于微調策略是靈活的,大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務,邱等人(2021)提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示,該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣,在UserBERT [Wu et al., 2021b]中,加入了兩個自我監督任務,對未標記的行為數據進行用戶模型預訓練,以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配,通過捕捉內在的用戶興趣和相關性,訓練精確的用戶表示。

預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人,2022]提出了一種輕量級的復合重新排名方案,該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼,BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示,從而在臨時排名相關性和效率之間實現了合理的權衡。此外,Wu等人(2022)提出了一個端到端的多任務學習框架,用于產品排名,使用領域特定的BERT進行微調,以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移,以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究,例如團隊推薦[Zhang等人,2022],搜索/匹配[Yao等人,2022],CTR預測[Muhamed等人,2021]。特別地,"預訓練,微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用,如BERT4Rec [Sun等人,2019],RESETBERT4Rec [Zhao,2022]。然而,上述模型只是利用了訓練策略的優勢,而沒有將大型語言模型擴展到推薦領域,因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人,2022]開發了一個BERT微調框架,將項目的描述文本關聯起來,在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦,特別是新聞推薦,NRMS [Wu等人,2021a],Tiny-NewsRec [Yu等人,2022],PREC [Liu等人,2022],利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說,將BERT微調集成到推薦系統中,融合了強大的外部知識和個性化的用戶偏好,主要目標是提高推薦準確性,同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。

3.2 提示調優

與設計特定目標函數來適應不同的下游推薦任務不同,提示調優 [Lester等人,2021]試圖通過硬/軟提示和標簽詞語 verbalizer,將推薦的調優對象與預訓練的損失對齊。例如,Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明,BERT在沒有任何微調的情況下,可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統,其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近,Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標,作為一個cloze-style的 maskprediction任務。實驗發現,通過利用多提示集成,推薦系統的性能顯著提高,超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。

**4 針對推薦的生成型LLMs **

相比于判別型模型,生成型模型具有更好的自然語言生成能力。因此,不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊,大多數基于生成模型的工作將推薦任務翻譯為自然語言任務,然后應用像在上下文中學習,提示調優,和指導調優這樣的技術,來適應LLMs直接生成推薦結果。此外,隨著ChatGPT展示出的令人印象深刻的能力,這類工作近來受到了更多的關注。如圖2所示,根據是否調整參數,這些基于生成型LLM的方法可以進一步劃分為兩種范例:無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。

4.1 無調整范式

LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此,一些最近的研究假設LLMs已經具有推薦能力,并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐,以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例,這個范式中的研究主要屬于以下兩類:提示和上下文學習。

提示范例 這類工作旨在設計更適合的指示和提示,幫助LLMs更好地理解和解決推薦任務。Liu等人(2023a)系統地評估了ChatGPT在五個常見推薦任務上的表現,即評分預測,序列推薦,直接推薦,解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架,包括:(1)任務描述,將推薦任務適應為自然語言處理任務;(2)行為注入,將用戶-項目交互納入,幫助LLMs捕獲用戶的喜好和需求;(3)格式指示器,約束輸出格式,使推薦結果更容易理解和評估。同樣,Dai等人(2023)對ChatGPT在三個常見信息檢索任務(包括點對點,對對,和列表排序)上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示,并在提示的開頭引入了角色指示(例如,你現在是一個新聞推薦系統。)來增強ChatGPT的領域適應能力。除了提出一般框架外,有些工作專注于為特定推薦任務設計有效的提示。Sileo等人(2022)從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人(2023)介紹了兩種提升LLMs序列推薦能力的提示方法:以近期為重的序列提示,使LLMs能夠感知到用戶交互歷史中的序列信息,和引導法,將候選項目列表多次洗牌并取平均得分進行排名,以緩解位置偏見問題。由于LLMs允許的輸入token數量有限,很難在提示中輸入一個長的候選列表。為解決這個問題,Sun等人(2023)提出了一種滑動窗口提示策略,每次只在窗口中對候選項進行排序,然后以從后到前的順序滑動窗口,最后重復這個過程多次,以獲得總體排名結果。

除了將LLMs作為推薦系統,一些研究還利用LLMs來構建模型特征。GENRE [Liu等人,2023c]引入了三個提示,使用LLMs進行新聞推薦的三個特征增強子任務。具體來說,它使用ChatGPT根據摘要優化新聞標題,從用戶閱讀歷史中提取關鍵詞,并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征,傳統的新聞推薦模型可以得到顯著改善。類似地,NIR [Wang和Lim,2023]設計了兩個提示來生成用戶偏好關鍵詞,并從用戶交互歷史中提取代表性電影,以改進電影推薦。

在實踐中,除了排序模型外,整個推薦系統通常由多個重要組件組成,如內容數據庫、候選檢索模型等。因此,另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架,該框架通過多輪對話理解用戶需求,并調用現有推薦系統提供結果。此外,ChatGPT可以控制數據庫檢索相關內容以補充提示,并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架,并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說,這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力,提供了一種低成本且實用的解決方案。

4.2 調整范式

如上所述,LLMs具有強大的zero/few-shot能力,通過適當的提示設計,它們在推薦性能方面可以顯著超越隨機猜測。然而,僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此,許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中,我們按照[Wei等,2022]的分類,將調整方法的范式劃分為兩種不同類型,分別是提示調整和指令調整。具體而言,在提示調整范式下,LLMs的參數或軟提示針對特定任務進行微調,例如評分預測;而在指令調整范式下,LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而,目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。

5 發現

在本綜述中,我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略,特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而,需要注意的是,這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題,我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰,并呈現了進一步發展的潛在機會,包括模型偏見、提示設計和評估。

6 結論

本文回顧了大型語言模型(LLMs)在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型,并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆,我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知,我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述,進一步總結了許多相關研究中提出的共同發現和挑戰。因此,本調查為研究人員提供了寶貴的資源,幫助他們全面了解LLM推薦,并探索潛在的研究方向。

付費5元查看完整內容

轉載機器之心報道

機器之心編輯部

為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。

從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。

論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb

在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。

LLMs 概覽

**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。

LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。

關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。

下表 2 列出了常用的數據源。

**預訓練 **

預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。

收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。

架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。

由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。

LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:

  • 平衡數據分布。
  • 結合指令調優和預訓練。

對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。

使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**


作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務

 圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。

高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。

總結與未來方向

在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。

付費5元查看完整內容

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

最近OpenAI推出的ChatGPT持續成為熱點,背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型(也稱預訓練模型、基礎模型等)通常是在大規模無標注數據上進行訓練,學習出一種特征和規則,核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類,36頁pdf詳述大模型分類圖。

在過去的幾年里,我們已經看到了幾十種Transformer家族的模型的迅速出現,它們的名字都很有趣,但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型,由一些架構特征定義。2017年,谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而,在那之前,注意力只是這些模型使用的機制之一,這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣,transformer論文的關鍵見解是,注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此,我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此,我們將簡要描述最重要的方面,因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始,并描述一些組件。

從人類反饋(或偏好)中進行強化學習,即RLHF(或RLHP),最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近,它已被應用于ChatGPT和類似的對話代理,如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練,我們就可以對對話產生不同的響應,并讓人類對結果進行排名。在強化學習的背景下,我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止,您已經理解了什么是Transformer模型,以及為什么它們如此流行和有影響力。在本節中,我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成,對于最初的Transformer也是如此。然而,從那時起,已經取得了不同的進展,揭示了在某些情況下,只使用編碼器,只使用解碼器,或兩者都是有益的。 編碼器預訓練這些模型也被稱為雙向編碼或自編碼,在預訓練過程中只使用編碼器,通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段,注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用,如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型,在預訓練過程中只使用解碼器,而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型,也稱為序列到序列,使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞,而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成,但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務,如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時,我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務,例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類,所有這些任務都可以被認為是自監督的:

  1. 語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
  2. 掩碼語言建模(MLM):從輸入句子中屏蔽一些標記,然后訓練模型,用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同,但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標,并訓練模型來預測這些目標。
  3. 降噪自編碼器(DAE):采用部分損壞的輸入(例如,從輸入中隨機采樣token,并將其替換為“[MASK]”元素。從輸入中隨機刪除標記,或按隨機順序打亂句子),并旨在恢復原始未失真的輸入。
  4. 對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似,來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP,但使用兩個連續的片段作為正例,并使用相同的片段,但其順序交換為負例在這里,我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如,問答、情感分析或實體識別)。然而,如前所述,一些Transformer模型也在NLP之外找到了應用,也包括在目錄中。

付費5元查看完整內容

通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。

//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b

1. 引言

預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。

盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。

構建 KEPLMS

隱性知識整合

以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。

一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。

顯性知識整合

PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新

參考文獻

[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.

付費5元查看完整內容
北京阿比特科技有限公司