大型語言模型(LLMs)是在大量文本上訓練的深度學習算法,學習了數十億個單詞之間的數學關系(也稱為“參數”)。它們已經為我們大多數人所熟知,作為像OpenAI的ChatGPT和用于Google的Bard這樣的聊天機器人的算法基礎。如今的最大模型擁有數千億個參數,訓練成本也達到數十億美元。 盡管大規模的通用模型如ChatGPT可以幫助用戶處理從電子郵件到詩歌的各種任務,但專注于特定知識領域可以使模型更小且更易訪問。例如,經過精心訓練的高質量醫學知識的LLMs可能有助于民主化獲取循證信息,以幫助指導臨床決策。
已經有許多努力試圖利用和改進LLMs在醫學知識和推理能力方面,但迄今為止,產生的AI要么是閉源的(例如MedPaLM和GPT-4),要么在規模上受限,約為130億參數,這限制了它們的訪問或能力。 為了改善訪問和表現,洛桑聯邦理工學院計算機與通信科學學院的研究人員開發了MEDITRON 7B和70B,一對分別具有7億和70億參數的開源LLM,適應于醫學領域,并在他們的預印本MEDITRON-70B: Scaling Medical Pretraining for Large Language Models中進行了描述。
MEDITRON是在Meta發布的開源Llama-2模型的基礎上,持續融入臨床醫生和生物學家的輸入而訓練的。MEDITRON使用了精心策劃的高質量醫學數據源進行訓練,包括來自像PubMed這樣的開放獲取倉庫的同行評審醫學文獻,以及覆蓋多個國家、地區、醫院和國際組織的獨特的臨床實踐指南集。
大型語言模型(LLMs)可能有助于實現醫學知識的民主化。雖然已經做出了許多努力來利用和提高LLMs在醫學知識和推理能力方面的表現,但結果模型要么是封閉源代碼的(例如,PaLM、GPT-4),要么在規模上有限(≤ 13B參數),這限制了它們的能力。在這項工作中,我們通過發布MEDITRON來改善對大規模醫學LLMs的訪問:一套適應醫學領域的開源LLMs,擁有7B和70B參數。MEDITRON基于Llama-2構建(通過我們對Nvidia的Megatron-LM分布式訓練器的調整),并在綜合策劃的醫學語料庫上擴展預訓練,包括精選的PubMed文章、摘要和國際認可的醫學指南。使用四個主要醫學基準進行的評估顯示,在任務特定微調前后均取得了顯著的性能提升,超過了幾個最先進的基線。總體而言,MEDITRON在其參數類別中的最佳公開基線上實現了6%的絕對性能提升,以及在我們從Llama-2微調的最強基線上實現了3%的提升。與封閉源代碼LLMs相比,MEDITRON-70B超過了GPT-3.5和Med-PaLM,并且與GPT-4相差5%,與Med-PaLM-2相差10%。我們發布了策劃醫學預訓練語料庫和MEDITRON模型權重的代碼,以推動更有能力的醫學LLMs的開源開發。 //www.zhuanzhi.ai/paper/3a80007a9ee77b1b5c116259d8506624
醫學深深植根于知識中,回顧證據是指導臨床決策標準的關鍵。然而,雖然“循證醫學”(EBM)現在已成為質量護理的同義詞,但它需要的專業知識并不是普遍可得的。因此,確保公平獲得標準化醫學知識是醫學所有領域持續的優先事項。最近在大型語言模型(LLMs)(Brown et al., 2020; Touvron et al., 2023a; Almazrouei et al., 2023; Touvron et al., 2023b; OpenAI, 2023b; Chowdhery et al., 2022)方面的進展有可能徹底改變獲取醫學證據的方式。如今,最大的LLMs擁有數十億或數千億參數(Bommasani et al., 2021; Hoffmann et al., 2022; Kaplan et al., 2020),并且在龐大的預訓練語料庫上進行訓練(Raffel et al., 2019; Gao et al., 2020; Together AI, 2023; Soldaini et al., 2023)。這種前所未有的規模使LLMs具備了人類決策的核心特征:逐步思維推理、連貫溝通和情境解讀(Bubeck et al., 2023; Wei et al., 2023; Wang et al., 2023)。
直到最近,LLMs主要針對通用任務進行開發和評估,主要使用從不同互聯網來源收集的數據,這些數據在領域特定證據方面的質量各不相同(Rozière et al., 2023)。這種方法雖然通常非常強大,但會阻礙特定任務的性能,包括醫學領域。一些新的特定任務模型,經過更精心策劃的數據集訓練,已經多次超越了通用模型(Wu et al., 2023b; Yue et al., 2023; Rozière et al., 2023; Azerbayev et al., 2023),揭示了在預訓練數據方面平衡質量和數量的潛力。實現這種平衡的一個有希望的方法是使用通用LLMs,然后繼續在更精選的領域特定數據上訓練。這些系統獲得了自然語言和領域特定語言理解及生成技能的結合(Gururangan et al., 2020)。在醫學領域,這種方法僅在13B參數以下的模型中有報告(Lee et al., 2020; Gu et al., 2021; Peng et al., 2023; Wu et al., 2023a)。在更大規模(即≥70B參數)上,之前的研究僅探討了指令調整(M42-Health)或參數高效微調(Toma et al., 2023)的范圍。 在這項工作中,我們介紹了MEDITRON-7B和70B,這是一對用于醫學推理的生成LLMs,由Llama-2(Touvron et al., 2023b)改編,通過在精心策劃的高質量醫學數據源上繼續預訓練:PubMed Central(PMC)和PubMed開放獲取研究論文(通過S2ORC語料庫收集,Lo et al., 2020),S2ORC中的PubMed摘要(來自非開放獲取論文),以及從互聯網收集的多種醫學指南,涵蓋多個國家、地區、醫院和國際組織。為了支持訓練,我們擴展了Nvidia的Megatron-LM分布式訓練庫,以支持Llama-2架構。 我們使用四個醫學推理基準對MEDITRON進行評估,包括在上下文學習中(在提示期間提供示例,即在上下文窗口內)和特定任務的微調。基準包括兩個醫學考試題庫,MedQA(來自美國醫學執照考試,Jin et al., 2020)和MedMCQA(醫學領域的多主題多選題數據集,Pal et al., 2022),PubMedQA(基于PubMed摘要的生物醫學問答,Jin et al., 2019)和MMLU-Medical(來自大規模多任務語言理解的醫學主題評估集,Hendrycks et al., 2021a)。在沒有微調的情況下使用上下文學習,MEDITRON-7B超過了幾個最先進的基線,顯示出比PMC-Llama-7B(一種類似的LLM,由Llama改編,通過在PubMed Central論文上繼續預訓練,Touvron et al., 2023a)平均10%的性能提升,以及比Llama-2-7B模型平均5%的性能提升。在特定任務訓練數據上微調后,MEDITRON的性能也在同等規模的其他微調基線上有所提升,達到了5%(7B)和2%(70B)的平均性能提升。最后,將MEDITRON-70B微調以支持高級提示策略,如思維鏈和自我一致性,進一步提高了最佳基線3%和最佳公開基線12%的性能。總的來說,MEDITRON在醫學推理基準上表現強勁,在同等規模的最先進基線上匹敵或超越。
總結來說,我們提出了一種優化的工作流程,用于擴展醫學LLMs的領域特定預訓練,包括基于知識的數據策劃、通過分布式訓練管道的持續預訓練、微調、少樣本上下文學習,以及高級推理方法,如思維鏈推理和自我一致性。我們發布了策劃的訓練語料庫、分布式訓練庫2和MEDITRON模型(7B和70B)3,包括經過微調和未經微調的版本,以確保公眾能夠進行現實世界評估,促進其他領域類似工作的發展。
醫學訓練數據
MEDITRON的領域適應性預訓練語料庫GAP-REPLAY結合了來自四個數據集的48.1B個詞符;臨床指南:來自各種醫療相關來源的46K份臨床實踐指南的新數據集,論文摘要:來自16.1M閉源PubMed和PubMed Central論文的公開可用摘要,醫學論文:從500萬份公開可用的PubMed和PubMed Central論文中提取的全文文章,以及回放數據集:一般領域數據提煉而成,占整個語料庫的1%。
模型
結果
結論
我們發布了MEDITRON,一套適用于醫療領域的高級語言模型(LLM),展示出卓越的醫學推理能力和改進的領域特定基準性能。通過對精心策劃的高質量醫療資源進行持續預訓練(包括一套新的臨床指南),MEDITRON在臨床推理基準上表現出比所有最先進基準規模更大8倍商業LLM 10%性能提升。值得注意的是,MEDITRON在所有醫療基準上均優于開源多功能和醫療LLM。我們將我們的模型(以7B和70B規模)、籌備訓練語料庫所需工具以及分布式訓練庫作為開放資源提供。這不僅確保了對真實世界情境下評估結果,還促使進一步微調和指導性模型發展成為可能。通過公開提供這些資源,我們旨在幫助釋放共享模型潛藏于增強醫學研究、改善患者護理并推動各種健康相關領域創新方面變革潛力。
大型語言模型(LLMs)經歷了顯著的擴展,并越來越多地被整合到各個領域中。特別是在機器人任務規劃領域,LLMs 利用其先進的推理和語言理解能力,根據自然語言指令制定精確高效的行動計劃。然而,對于具身任務,即機器人與復雜環境互動的任務,僅基于文本的 LLMs 通常面臨挑戰,因為它們與機器人的視覺感知缺乏兼容性。本研究提供了一個關于 LLMs 和多模態 LLMs 融入各種機器人任務的全面概述。此外,我們提出了一個利用多模態 GPT-4V 的框架,通過結合自然語言指令和機器人視覺感知來增強具身任務規劃。我們的結果,基于多樣化的數據集,表明 GPT-4V 在具身任務中有效地提升了機器人的性能。這項關于 LLMs 和多模態 LLMs 在各種機器人任務中的廣泛綜述和評估,豐富了對以 LLM 為中心的具身智能的理解,并提供了向前看的洞見,以幫助彌合人-機器人-環境互動的差距。
由于預訓練模型在模型大小和數據量方面的擴展,一些大型預訓練模型在一系列復雜任務中展示了卓越的能力 [1],[2]。大型語言模型(LLMs)因其卓越的上下文生成能力,在各個領域受到了廣泛關注 [2]–[10]。這種突現能力以前所未有的方式賦能了人工智能算法,改變了人們使用人工智能算法的方式,并促使對人工通用智能(AGI)的可能性進行重新評估。
隨著LLMs的快速發展,指令調優和對齊調優已成為將其適應特定目標的主要方法。在自然語言處理(NLP)領域,LLMs在某種程度上可以作為解決語言相關任務的多功能解決方案 [3],[5],[11]–[13]。這些基于變換器(Transformer)的大型模型在多個領域取得了非凡的成就 [14]–[17],深刻地改變了人工智能的最新水平 [3],[12],[18]–[26]。研究范式也轉向了利用LLMs來解決子領域特定問題。在計算機視覺(CV)領域,研究人員也在開發類似于GPT-4和Gemini [27],[28]的大型模型,這些模型結合了視覺和語言信息,從而支持多模態輸入 [29]。這種增強LLMs的策略不僅提升了它們在下游任務中的性能,而且為確保與人類價值觀和偏好的一致性,對機器人技術的發展提供了重要指導。這種方法已在眾多領域廣泛采用 [7],[29]–[32],甚至在卷積神經網絡(CNNs)一直是主要技術的領域也是如此 [33]–[40]。
LLMs處理和內化大量文本數據的能力為提升機器的理解能力和自然語言分析能力提供了前所未有的潛力 [41],[42]。這包括理解手冊和技術指南等文件,并將這些知識應用于進行連貫、準確、符合人類對話的對話 [43]–[45]。通過對話,自然語言指令從文本提示翻譯成機器可理解的代碼,觸發相應的動作,從而使機器人在適應廣泛的用戶命令方面更加靈活和適應性強 [46]–[48]。將現實世界的傳感器模態整合到語言模型中,有助于建立單詞和感知之間的聯系,使其能夠應用于各種特定任務。然而,僅基于文本的LLMs缺乏對物理世界的經驗性接觸和觀察的實證結果,這使得在特定環境中使用它們進行決策變得具有挑戰性。因此,將多模態性納入LLMs對于有效執行機器人任務至關重要。此外,機器人技術領域呈現出更微妙的任務變化。與NLP和CV不同,這些領域可以利用來自互聯網的大量數據集,而獲取用于機器人交互的大型和多樣化數據集卻具有挑戰性 [49]。這些數據集通常要么專注于單一環境和對象,要么強調特定任務領域,導致它們之間存在顯著差異 [50]。這種復雜性在將LLMs與機器人技術整合時帶來了更大的挑戰。
如何克服機器人技術所面臨的挑戰,并利用LLMs在其他領域的成就為機器人領域帶來好處,是本綜述解決的核心問題。在這篇文章中,工作的貢獻可以概括為四個主要點。
我們對現有的用于機器人學的大型語言模型(LLM)進行了細致的調研和綜合,探索了在三個不同的任務類別中的最新進展:規劃、操作、推理。
我們總結了LLMs為機器人領域提供的主要技術方法,考察了訓練通用機器人策略的潛力,并為該領域的研究人員提供了基礎性綜述。
我們評估了多模態GPT-4V在不同環境和情景下進行機器人任務規劃的有效性。
我們總結了我們調查的主要發現,思考未來努力中需要解決的突出挑戰,并提出了一個前瞻性的視角。
大型語言模型機器人
基于大型語言模型(LLMs)的機器人研究領域已取得顯著進步。這些模型展示出卓越的自然語言理解和常識推理能力,顯著增強了機器人理解環境和執行命令的能力。當前研究聚焦于利用LLMs解析復雜的環境和指令,包括解決歧義、消除模糊性,并理解隱含信息。在這個領域的一個關鍵進展包括視覺-語言模型的開發,[51]–[53]這顯著提高了如視覺問題回答[54]–[56]和圖像描述[57]、[58]等任務的性能。這些進步極大地增強了機器人在物理世界中的推理能力,特別是在復雜命令導航等領域。[59]、[60]通過視覺語言處理系統,機器人能夠理解圖像內容并將其與相關的語言信息結合起來,例如圖像描述和命令執行。這種多模態信息處理同樣適用于音頻-視覺集成。LLMs的另一個主要進展是在人機交互方面,通過交互式學習過程更好地適應人類的需求和偏好。例如,通過將強化學習與人類反饋結合,機器人可以持續改進任務執行,解決大型模型應用中遇到的語義歧義,通過結合人類指導和大型語言模型,機器人可以更精確地細化指令,從而更好地實現自主學習和環境適應,以實現更準確和針對性的控制。機器人還可以通過交互學習和適應用戶的行為、偏好和需求,提供更個性化和定制化的交互體驗。這些進步不僅增強了機器人技術的實用性,也為未來人機互動開辟了新的可能性。
大型語言模型的多模態任務規劃
在大型語言模型(LLMs)領域內的多模態任務規劃構成了人工智能學科的一個復雜交匯點,涉及到不同數據模態(如文本、視覺和聽覺輸入)的融合,以促進更全面和細致的AI驅動分析 [61]–[65]。 這種跨學科的方法超越了LLMs的傳統界限,后者主要關注文本理解和生成,引領這些模型在解釋、關聯和與多種數據流同時互動方面變得更為熟練。在這種背景下,LLMs的角色從單純的語言處理演變為更加綜合的功能,綜合和響應復雜數據的相互作用。在大型語言模型的多模態任務規劃領域,最近的進展,如Inner Monologue和SayCan項目所示,展示了該領域不斷增長的復雜性和成熟度。Inner Monologue [65]的方法論代表了這一領域的重大飛躍,它整合了來自環境的多模態反饋源。這種整合使得能夠生成更可靠和更具上下文意識的任務規劃,協調不同的感官輸入,以創造對AI周圍環境更為連貫的理解。同樣地,SayCan的框架 [61] 為LLMs的應用引入了一個新的維度。該系統將LLMs作為模型的“手和眼睛”,生成最佳的長期指令,并有效地評估當前場景下指令的可行性概率。這種方法不僅增強了AI理解和與其直接環境互動的能力,而且利用LLMs的細膩理解來規劃和執行復雜的動作序列,持續較長時間。 在多模態任務規劃領域內將Inner Monologue和SayCan中的這些先進技術與LLMs的整合代表了向創建不僅更能認識到多種數據流、也能將這些數據流綜合為可行智能的AI系統方面的重大進步。這一進展指向了一個未來,即AI能夠以一種更加動態、具有上下文意識和自主的方式在現實世界中導航和互動 [61]、[65]–[67],推動了AI驅動創新和跨學科綜合所能達到的界限。
結論
在本文中,我們概述了大型語言模型(LLMs)與各種機器人系統和任務的集成情況。我們的分析顯示,LLMs展現出令人印象深刻的推理、語言理解和多模態處理能力,這些能力可以顯著提高機器人對指令、環境和所需行動的理解。我們在9個數據集的30多個案例上評估了最近發布的GPT-4V模型,用于實體任務規劃。結果表明,GPT-4V能夠有效地利用自然語言指令和視覺感知來生成詳細的行動計劃以完成操控任務。這表明使用多模態LLMs作為實體智能的機器人大腦是可行的。
然而,在我們朝著更實用和能力更強的基于LLM的AI系統發展的過程中,仍需解決一些挑戰,包括模型的透明度、魯棒性、安全性和現實世界的適用性。具體來說,大型神經模型的黑盒性質使得難以完全理解其內部推理過程和失敗模式。此外,彌合模擬與現實世界之間的差距仍然是一個挑戰,難以在不降低性能的情況下轉移政策。通過標準化測試、對抗性訓練、政策適應方法和更安全的模型架構等技術,仍需大量研究來解決這些問題。對依賴LLMs的自主智能系統進行問責和監督的協議也值得深思熟慮。在我們在這個領域取得進步的過程中,以一種謹慎、道德和社會負責的方式克服這些多方面的挑戰是至關重要的。
隨著語言模型繼續從多模態數據中積累廣泛的實地知識,我們預期將迅速創新地將它們與機器人和基于模擬的學習整合。這可能使得在仿真中直觀地開發和驗證智能機器人成為可能,然后再使用實景模擬技術進行部署。這樣的發展可能深刻地增強和改變我們構建、測試和部署智能機器人系統的方式。
總的來說,自然語言處理和機器人技術的協同整合是一個充滿機遇和挑戰的前沿領域,值得未來進行廣泛的跨學科研究。
大型語言模型(LLMs),如ChatGPT和LLaMA,正因其強大的文本編解碼能力和新發現的突現能力(例如,推理)在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本,但在許多現實世界場景中,文本數據與圖形(例如,學術網絡和電子商務網絡)形式的豐富結構信息相關聯,或者圖形數據與豐富的文本信息(例如,帶有描述的分子)配對。此外,盡管LLMs已展示其基于純文本的推理能力,但是否可以將此能力泛化到圖形場景(即基于圖的推理)尚未得到充分探索。在本文中,我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類,即純圖,文本豐富的圖,以及與文本配對的圖。然后,我們討論了在圖上使用LLMs的詳細技術,包括將LLM作為預測器、編碼器和對齊器,并比較了不同模型類別的優缺點。此外,我們還提到了這些方法的實際應用,并總結了開源代碼和基準數據集。最后,我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742
大型語言模型(LLMs)(例如,BERT [22]、T5 [30]、LLaMA [119])經過在非常大的文本語料庫上的預訓練,已被證明在解決自然語言處理(NLP)任務方面非常強大,包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs(例如,BERT [22]、RoBERTa [23])采用僅編碼器架構,并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來,越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大,這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5],展現了對人工通用智能(AGI)的強大潛力。 雖然LLMs廣泛應用于處理純文本,但越來越多的應用場景中,文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示,在學術網絡中,論文(帶有標題和描述)和作者(帶有個人簡介文本)通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦;在科學領域,分子以圖形表示,并通常與描述其基本信息的文本(例如,毒性)配對。同時建模分子結構(圖)和相關的豐富知識(文本)對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本,上述場景提出了新的挑戰,即如何使LLMs能夠編碼圖上的結構信息。此外,由于LLMs已展示了其卓越的基于文本的推理能力,探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近,擴展LLMs用于基于圖的應用(如圖1所總結)引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系,應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡(GNNs)的交互方式,圖上LLMs的技術可以分為將LLMs作為任務預測器(LLM as Predictor)、將LLMs作為GNNs的特征編碼器(LLM as Encoder)以及將LLMs與GNNs對齊(LLM as Aligner)。 目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習,Wu et al. [17] 提供了圖神經網絡(GNNs)的全面概述,詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型,包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜(KGs)之間的聯系,特別是KGs如何增強LLMs的訓練和推理,以及LLMs如何促進KG的構建和推理。總而言之,現有的綜述要么更多地關注GNNs而非LLMs,要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述,旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。
**分類與框架 **
在本節中,我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后,我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類
純圖(無文本信息)是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力(解決圖論問題)的背景,或作為知識來源以增強大型語言模型(減輕幻覺現象)。 文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上,人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。 與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質,其中節點代表原子,邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素,但分子的文本描述可以作為補充知識來源,幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **
根據LLMs的角色以及解決圖相關問題的最終組件,我們將圖上LLM技術分類為三個主要類別: LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強,并可以根據圖信息如何注入LLM進行分類:1)圖作為序列:這種方法不對LLM架構做任何改變,但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2)增強圖的LLM:這種方法修改了LLM基礎模型(即變壓器)的架構,并使其能夠在其架構內進行聯合文本和圖編碼。3)圖感知LLM微調:這種方法不對LLMs的輸入或LLM架構做任何改變,但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖(解決節點級或邊級任務)。GNNs是最終組件,我們采用LLM作為初始文本編碼器。具體來說,首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而,這些方法存在收斂問題、稀疏數據問題和效率問題,我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件,并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說,LLMs和GNNs之間的對齊可以分為1)預測對齊,其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練,和2)潛空間對齊,其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **
在圖上應用語言模型有兩種典型的訓練和推理范式:1) 預訓練-然后微調:通常用于中等規模的大型語言模型;以及 2) 預訓練-然后提示:通常用于大規模的大型語言模型。 預訓練指的是使用無監督目標訓練語言模型,以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時,語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。 微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法,可以充分激發語言模型對下游任務的潛力,但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45],以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念,換句話說,人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。 提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列,并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示,后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。 在接下來的章節中,我們將遵循第3節的分類,并討論每個圖場景的詳細方法論。
**結論 **
在本文中,我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類,并總結了圖上大型語言模型的技術。然后,我們對每個場景內的方法進行了徹底的審查、分析和比較。此外,我們總結了可用的數據集、開源代碼庫和多種應用。最后,我們提出了圖上大型語言模型的未來發展方向。
大型語言模型(LLMs)是一類特殊的預訓練語言模型,它們是通過擴大模型規模、預訓練語料庫和計算能力來獲得的。由于LLMs的龐大規模和在大量文本數據上的預訓練,它們展現出特殊的能力,使得在許多自然語言處理任務中,無需任何任務特定訓練即可取得顯著的性能。LLMs的時代始于OpenAI的GPT-3模型,而在像ChatGPT和GPT4這樣的模型的引入后,LLMs的受歡迎程度呈指數級增長。我們將GPT-3及其后續的OpenAI模型(包括ChatGPT和GPT4)稱為GPT-3系列大型語言模型(GLLMs)。隨著GLLMs在研究界的日益受歡迎,有強烈的需求進行一項全面的概述,總結多個維度的最近研究進展,并為研究社區提供有見地的未來研究方向。我們從基礎概念如Transformer、遷移學習、自監督學習、預訓練語言模型和大型語言模型開始這篇綜述論文。接下來,我們簡要概述了GLLMs,并討論了GLLMs在各種下游任務、特定領域和多種語言中的表現。我們還討論了GLLMs的數據標注和數據增強能力、GLLMs的魯棒性、GLLMs作為評估者的有效性,并最終總結了多個有見地的未來研究方向。總之,這篇全面的綜述論文將為學術界和工業界的人們提供一個很好的資源,以了解與GPT-3系列大型語言模型相關的最新研究。
大型語言模型(LLMs),是最近人工智能領域的熱門話題,憑借其在大多數自然語言處理(NLP)任務中的卓越性能,在學術界和工業界都引起了廣泛關注。這些模型本質上是深度學習模型,特別是基于變換器的模型,它們先在大量的文本數據上進行預訓練,然后使用元訓練根據人類的偏好進行對齊。預訓練為模型提供了通用的語言知識[1],而元訓練使模型能夠根據用戶的意圖進行操作。這里的用戶意圖既包括顯式意圖,如遵循指示,也包括隱式意圖,如保持真實性、避免偏見、毒性或任何有害的行為[2]。大型語言模型(LLMs)是通過擴大模型規模、預訓練語料庫和計算能力獲得的預訓練語言模型的特殊類別。對于下游任務使用,預訓練語言模型利用了有監督的學習范例,這涉及任務特定的微調和數百或數千個標記實例[1],[3]。LLMs利用了上下文學習(ICL),這是一個新的學習范式,不需要任務特定的微調和大量的標記實例[4]。LLMs將任何NLP任務視為條件文本生成問題,并只通過根據輸入提示生成所需的文本輸出,該提示包括任務描述、測試輸入以及可選的幾個示例。圖1顯示了從機器學習到大型語言模型的人工智能演變過程。
最初,NLP系統主要是基于規則的。這些基于規則的模型是建立在領域專家制定的規則之上的。由于手動制定規則是一個費時、昂貴的過程,且還需要頻繁的更改,基于規則的模型逐漸被機器模型所取代,這些機器模型從訓練數據中自動學習規則,完全避免手動規則制定[1]。然而,機器學習模型需要領域專家進行特征工程的人工干預。隨著像Word2Vec[5]、Glove[6]、FastText[7]這樣的密集文本向量表示模型的演變,以及像GPUs這樣的計算機硬件的進步,NLP系統使用傳統的深度學習模型構建,如CNN[8]、RNN[9]、LSTM[10]、GRU[11]、Seq2Seq[12]和基于注意力的Seq2Seq模型[13],[14]。然而,這些模型的缺點,如(i)捕獲長期依賴性的能力和(ii)由于序列處理(CNN的情況除外)無法充分利用GPUs,導致了像Transformers[15]這樣的高級深度學習模型的演變,它們完全基于注意力,沒有任何循環和卷積層。 受到基于轉移學習和大型卷積模型上的圖像預訓練模型[16]-[18]的成功啟發,研究界開始關注構建如BERT[19]和GPT-1[20]這樣的預訓練語言模型(PLMs),這些模型以變換器為骨架,并基于稱為自監督學習[1]、[21]、[22]的新學習范式進行預訓練。與傳統的深度學習模型和基礎變換器模型不同,后者需要從頭開始訓練以供下游使用,預訓練語言模型可以通過微調輕松地適應下游任務。BERT和GPT-1模型的巨大成功引發了其他預訓練語言模型的開發,如RoBERTa、XLNet[23]、ELECTRA[24]、ALBERT[25]、DeBERTa[26]、[27]、GPT-2[28]、T5[29]、BART[30]等。 盡管PLMs與傳統的深度學習和基礎變換器模型相比有許多優勢,但它們仍然存在如無法在沒有任務特定訓練的情況下泛化到未見任務的缺陷。因此,研究界專注于開發更先進的模型,如大型語言模型,這些模型可以在沒有任何任務特定訓練的情況下泛化到未見任務。LLMs的時代始于GPT-3[4],GPT-3的成功啟發了其他LLMs的開發,如PaLM[31]、Chinchilla[32]、GLaM[33]、LaMDA[34]、Gopher[35]、Megatron-Turing NLG[36][181]、BLOOM[37]、Galactica[38]、OPT[39]、LLaMA[40]、[41]等。在Open AI的模型如ChatGPT和GPT-4[42]最近發布后,LLMs的受歡迎程度呈指數級增長。例如,ChatGPT在發布后的幾周內就吸引了數百萬用戶。由于基于任務描述和幾個示例泛化到未見任務的能力,而不需要任何任務特定的訓練,就像人類一樣,LLMs可以被視為朝向人工普遍智能[43]的一個初步步驟。在這篇綜述論文中,我們主要關注Open AI的LLMs,如GPT-3模型、GPT-3.5模型(InstructGPT、ChatGPT等)和GPT-4,我們稱之為GPT-3系列大型語言模型(GLLMs)。這篇綜述論文提供了與GLLMs相關的多維度研究工作的全面回顧。 本綜述論文的主要貢獻是: ? 首個在多個維度對GPT-3系列大型語言模型(GLLMs)進行全面回顧的綜述論文,涵蓋超過350篇最近的研究論文。 ? 我們討論了各種基礎概念,如變換器、轉移學習、自監督學習、預訓練語言模型和大型語言模型。 ? 我們詳細討論了GPT-3系列大型語言模型,從GPT-3開始,到最新的ChatGPT和GPT-4。 ? 我們討論了GLLMs在各種下游任務中的表現,并對GLLMs的數據標記和數據增強能力進行了深入的討論。 ?我們討論了GLLMs的魯棒性和評估能力。 ? 我們提出了多個有深度的未來研究方向,這將指導研究界進一步提高GLLMs的性能。 與現有綜述的比較。現有的綜述論文提供了對大型語言模型[44]及其相關概念如上下文學習[45]、評估[46]、[47]、與人類價值觀的對齊[48]、[49]、安全性和可靠性[50]、推理[51]、挑戰和應用[52]、LLM壓縮[53]以及多模態LLMs[54]的回顧。例如,趙等人[44]是首先對大型語言模型提供全面回顧的。與趙等人[44]不同,其他現有的綜述論文專注于LLMs的特定概念。例如,由董等人[45]、張等人[46]、王等人[48]和黃等人[51]撰寫的綜述論文分別專注于LLMs的情境學習、LLMs的評估、與人類價值觀的LLMs對齊和LLMs的推理能力。同樣,尹等人[54]和桓等人[50]所寫的綜述論文分別回顧了多模態LLMs和LLMs的安全性和可靠性。然而,目前還沒有一篇綜述論文提供了對GPT-3系列大型語言模型的全面綜述。隨著GPT-3系列大型語言模型,如GPT-3、InstructGPT、ChatGPT、GPT-4等的日益增長的受歡迎程度,以及大量使用這些模型的研究工作,迫切需要一篇專門針對GPT-3系列大型語言模型的綜述論文。 綜述論文的組織結構如下:第2節簡要概述了各種基礎概念,如變換器、轉移學習、自監督學習、預訓練語言模型和大型語言模型。第3節詳細介紹了GPT-3系列大型語言模型,從GPT-3開始,到最新的ChatGPT和GPT-4。第4、5和6節分別討論了GLLMs在各種下游任務、特定領域和多語言場景中的表現。第7節介紹了GLLMs的數據標記和數據增強能力。第8節討論了各種研究工作,提出了檢測GLLMs生成的文本的方法。第9和10節分別討論了GLLMs的魯棒性和評估能力。第11節提出了多個有洞察力的未來研究方向。
從GPT1 [20]、BERT [19] 模型到最新的DeBERTa [26]、[27],預訓練語言模型取得了顯著的進步,并且還減少了訓練任務特定模型所需的標記數據量 [1]、[3]。預訓練語言模型遵循“先預訓練,然后微調”的范式,即模型首先進行預訓練,然后通過微調適應下游任務。由于任務特定的微調是強制性的,以適應預訓練語言模型到下游任務,預訓練語言模型不能在沒有任務特定微調的情況下泛化到未見過的下游任務。此外,任務特定的微調需要標記數據,并為每一個下游NLP任務創建一個預訓練語言模型的獨立副本,這增加了模型開發和部署的成本 [1]。預訓練語言模型被視為狹義的AI系統,因為它們通過微調進行適應,然后用于特定的下游任務。但是,研究界的主要關注點是開發不局限于特定任務,而是具有通用問題解決能力,并且像人類一樣利用現有知識處理甚至未見過的任務的人工普適智能系統 [43]、[100]。NLP研究者觀察到,預訓練語言模型的性能可以通過在三個維度上的擴展進一步提高:預訓練計算、預訓練數據和模型大小 [28]、[29]、[71]。大尺寸使模型能夠捕捉更多的細微語言模式,從而增強它們理解和生成文本的能力,而大量的預訓練數據幫助模型從更廣泛的文本中學習。擴展的有 promising 成果以及建立人工普適智能系統的追求促使NLP研究者構建更大更大的模型,最終導致GPT-3及其后續模型的演化 [4]、[31]–[33]。像遷移學習和自監督學習這樣的學習范式使得大型語言模型成為可能,但是擴展使這些模型變得強大。研究界為GPT-3及其后續大型模型創造了一個新的短語,“大型語言模型”,以區分這些模型與小的預訓練語言模型 [44]。大型語言模型 (LLMs) 是通過擴展模型大小、預訓練語料庫和計算獲得的預訓練語言模型的一個特殊類別,如圖6所示。大型語言模型 (LLMs) 本質上是深度學習模型,特別是基于transformer的模型,在大量的文本數據上進行預訓練,并使用元訓練與人類偏好進行對齊。預訓練為模型提供了通用的語言知識 [1],而元訓練則使模型根據用戶的意圖行事。在這里,用戶的意圖包括明確的意圖,如遵循指示,以及隱含的意圖,如維護真實性和避免偏見、毒性或有害行為 [2]。
由于它們的大尺寸和在大量文本數據上的預訓練,LLMs展現出稱為“新興能力”[101]、[102]的特殊能力,使它們在許多自然語言處理任務中無需任務特定訓練即可取得卓越的性能。對于下游任務使用,預訓練語言模型利用有監督的學習范式,其中涉及任務特定的微調和數百或數千的標簽實例[1]、[3]。LLMs利用上下文學習(ICL),這是一種新的學習范式,不需要任務特定的微調和許多標記實例[4]、[45]。LLMs將任何NLP任務視為條件文本生成問題,并通過條件化輸入提示生成期望的文本輸出,包括任務描述、測試輸入和可選的一些示例。
大型語言模型的演變沿著兩個維度發展:閉源LLMs和開源LLMs。LLMs的時代大約從GPT-3開始。在GPT-3取得成功后,Open AI開發了InstructGPT [2]、Codex [103]、ChatGPT和GPT-4 [42]等后續模型。Google引入了GLaM [33]、PaLM [31]、PaLM2 [68]、LaMDA [34]和Bard等模型。DeepMind開發了Gopher [35]、Chinchilla [32]、AlphaCode [104]和Sparrow [105]等模型。像Baidu、AI21 labs和Amazon這樣的公司分別開發了Ernie 3.0 Titan [106]、Jurassic-1 [107]和AlexaTM [108]等模型。盡管閉源LLMs的性能令人印象深刻,但這些模型的主要缺點是它們處于付費墻后面,即它們的權重不公開提供,其中一些模型只能通過各自公司提供的APIs訪問,并且根據處理和生成的令牌收費。
為了解決這個問題,研究界專注于開發具有公開可用權重的開源LLMs。一些受歡迎的開源LLMs是OPT [39]、OPT-IML [109]、Galactica [38]、LLaMA [40]、LLaMA2 [41]和Falcon。這些開源LLMs的性能與閉源LLMs相當。此外,在某些情況下,開源LLMs的性能超過了閉源LLMs。例如,Galactica擊敗了像GPT-3、Chinchilla和PaLM這樣的閉源LLMs。受到英語開源LLMs成功的啟發,研究界專注于開發多語言和雙語LLMs。BLOOM [37]和BLOOMZ [110]是多語言LLMs的例子,JAIS [111](英語和阿拉伯語)、GLM [112](英語和中文)和FLM-101B [113](英語和中文)是雙語LLMs的例子。
閉源和開源LLMs在通用領域的成功引發了域特定LLMs的開發,如金融領域的FinGPT [114]和BloombergGPT [115],醫療領域的MedPaLM [116]和MedPaLM2 [117],以及編碼領域的StarCoder [118]、CodeLlaMa [119]、CodeGen [120]和CodeGen2 [121]。例如,Bloomberg開發了專為金融領域設計的BloombergGPT。同樣,Google根據PaLM和PaLM2模型分別為醫療領域開發了MedPaLM和MedPaLM2 LLMs。同樣,HuggingFace開發了StarCoder,MetaAI開發了Code LlaMA,SalesForce為編碼任務專門開發了CodeGen和CodeGen2 LLMs。
Open AI, 一個于2015年成立的AI公司,專注于建立生成模型。Open AI的研究人員最初探索了RNN來開發生成語言模型 [122]。受到transformer模型巨大成功的啟發,以及其捕捉長期依賴關系的能力,Open AI研究人員利用transformer解碼器構建了GPT-1(117M參數),這是第一個基于transformer的預訓練語言模型 [20]。GPT-1引入了一個新的范式,“預訓練和微調”,有效地開發下游任務模型。原來,“預訓練和微調”范式是由Dai等人 [123] 提出的,然后被Howard和Ruder [124] 探索,用于構建文本分類的語言模型。但是,與Radford等人的工作 [20] 不同,這些研究工作是基于LSTM構建語言模型的,它缺乏并行化能力,并且在捕捉長期依賴關系上有困難。Radford等人 [20] 使用casual語言建模作為一個預訓練任務來預訓練GPT-1模型。casual語言建模預訓練任務涉及生成基于先前標記的下一個標記。GPT-1在12個NLP任務中的9個中取得了SOTA結果 [20]。受到GPT-1的成功啟發,Open AI的研究人員引入了GPT-2模型,以進一步推動這些結果 [28]。GPT-2模型預訓練在WebText語料庫上(40B文本),這比用于預訓練GPT-1模型的Books語料庫要大得多。作者開發了四個參數不同的GPT-2模型版本:117M、345M、762M和1.5B。作者觀察到,隨著模型大小的增加,困惑度減少,甚至對于最大的1.5B版本,困惑度的減少也沒有顯示出飽和。這表明GPT-2未能適應預訓練數據集,延長訓練時間可能會進一步降低困惑度。這一觀察觸發了這樣的洞見:“開發更大的語言模型將進一步降低困惑度并增強自然語言理解和生成能力”。從GPT-1和GPT-2模型中獲得的洞見為GPT-3家族大型語言模型的演化奠定了堅實的基礎,包括最新的模型,如ChatGPT和GPT-4。圖7顯示了從GPT-1到最新的GPT-4的Open AI的發展歷程,圖8顯示了從GPT-3系列到最新的GPT-4的GPT-3家族大型語言模型。
在這篇綜述論文中,我們從多個維度對GPT-3系列的大型語言模型進行了全面的回顧,涵蓋了超過350篇近期的研究論文。在這里,我們介紹了基礎概念,GPT-3系列的大型語言模型,并討論了這些模型在各種下游任務、特定領域和多種語言中的表現。我們還討論了GLLMs的數據標注、數據增強和數據生成能力,GLLMs的魯棒性,GLLMs作為評估者的有效性,并最終得出了多個有洞察力的未來研究方向。總的來說,這篇關于GPT-3系列大型語言模型的全面綜述論文將為學術界和工業界的人們提供一個很好的資源,以便了解最新的研究進展。
可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。
自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。
在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。
然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。
在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。
本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。
基于PLM的CTG主要方法
從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。
基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。
結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。
大型語言模型(LLMs,或稱為類固醇版的N-gram模型),最初是為了通過在前面一串詞的上下文中反復預測下一個詞而進行訓練的,現在已經吸引了人工智能(以及全世界)社區的關注。部分原因在于它們能夠對幾乎所有人類知識領域的提示生成有意義的完成句。這種極度的多功能性也引發了一種說法,即這些預測性文本補全系統可能具有抽象推理和規劃的能力。在這個教程中,我們將對LLMs在規劃任務中的能力進行深入探討,無論是在自主模式還是在輔助模式中。我們特別感興趣的是,在廣泛研究的AI規劃社區的問題和框架的背景下,描述這些能力(如果有的話)。
本教程將指出LLMs在生成通常需要解決子目標交互的組合搜索的計劃時的基本限制,并展示LLMs作為AI規劃社區開發的健全規劃者的補充技術的實際應用。除了介紹我們在這個領域的工作,我們還提供了許多相關工作的批判性調查,包括來自規劃社區以外的研究者的工作。
這個教程預計將涵蓋的主題包括:大型語言模型的背景,以及LLM的使用模式,包括提示技術 在規劃中區分使用變換器架構與預訓練的LLM的方法 提及Word2vec以規劃,決策變換器,我們正在進行的使用GPT2進行微調,學習驗證器的工作 LLM與規劃 - 自主模式 用自然語言或直接的PDDL進行提示;微調的效果;思維鏈提示等 LLM作為規劃的啟發式/想法生成器 與基于案例和輕量級規劃的連接 通過提示LLM進行搜索 自動化與人工驅動的提示(以及后者的聰明漢斯問題) LLM作為模型獲取技術 LLM作為支持各種類型規劃的工具 不完全指定(高度分離)的目標;HTN規劃;“廣義規劃” 在強化學習環境中使用LLM(以獲得獎勵,偏好)
多模態知識圖譜構建(MMKC)是指通過多種模態(如文本、圖像、視頻等)創建實體和關系的結構化表示的持續過程。然而,現有的MMKC模型在處理新實體和關系引入時存在限制,這是由于現實世界的動態性。此外,大多數最先進的MMKC研究只考慮從文本數據中提取實體和關系,而忽視了其他多模態來源。同時,當前的持續設置下的知識圖譜構建也只考慮從文本數據中提取實體和關系,而忽視了其他多模態來源。因此,需要探索持續多模態知識圖譜構建的挑戰,以解決災難性遺忘現象,并確保保留從不同形式數據中提取的過去知識。本研究的重點是通過開發終身多模態基準數據集來研究這一復雜課題。根據實證研究結果,發現一些最先進的MMKC模型在訓練多媒體數據時,與僅利用文本資源的模型相比,可能會意外地表現不佳。因此,我們提出了一種持續多模態知識圖譜構建的終身一致Transformer框架(LMC)。通過在持續學習的背景下結合一致的KGC策略,我們在穩定性和可塑性之間取得了更好的平衡。我們的實驗表明,在動態場景中,我們的方法相對于現有的持續學習技術或多模態方法具有優越的性能。代碼和數據集可在//github.com/zjunlp/ContinueMKGC找到。
1. 引言
由于多模態數據在社交媒體平臺上變得越來越受歡迎,多模態知識圖譜(MKG)近年來在知識圖譜和多媒體領域引起了極大關注[19, 22, 39, 43, 48, 54, 57, 62]。為了避免高質量MKG依賴人工策劃的半結構多模態數據,提出了多模態知識圖譜構建(MKGC)[27, 55, 60],將多模態數據視為輔助信息,有助于解決模糊的多義詞和從大規模多媒體信息中自動發現實體和關系的事實,包括多模態命名實體識別(MNER)[26, 49]和多模態關系提取(MRE)[5, 58]。然而,當前的MKGC模型[3, 5, 58]主要關注“靜態”知識圖譜的情景,即實體類別和關系的大小在學習過程中保持不變。模型是在單個數據集上進行訓練的,因此不適用于經常出現新實體類型和關系的環境。隨著現實世界的不斷變化,開發適應新實體類別和關系出現的模型變得至關重要,這在實際應用中常常發生,因為世界的性質不斷演變[15]。為了適應流式數據中出現新的實體類別和關系的情況,提出了持續知識圖譜構建(CKGC)的范式[8, 28, 44, 50],以在可塑性和穩定性之間找到平衡,即學習良好地識別新的實體類別和關系,同時避免遺忘已學知識。最近,許多基于回放的CKGC模型,如EMAR [16]、CML [47]、RP-CRE [8]、Xia等人 [50]和Wang等人 [44],在學習新的實體類別和關系時在克服災難性遺忘方面取得了重大進展。EMAR通過模仿人類類似的長期記憶機制,并引入情節記憶激活來應對災難性遺忘,但它嚴重依賴回放模塊的容量。另一方面,Xia等人 [50]和Wang等人 [44]提出的方法通過使用合成數據進行蒸餾,防止遺忘之前的NER任務。此外,RP-CRE [8]利用基于關系原型的方法充分利用RE任務的典型樣本。然而,當前的KGC連續設置僅考慮基于文本模態的實體和關系提取,而忽視了MKGC任務。利用多模態數據的MKGC模型可以提供比在單模態數據上訓練的模型更全面的視角。實際上,以前的MKGC方法在“靜態”KG設置中確實展示了其比單模態KGC更先進的性能。因此,預期在持續設置中,利用多模態數據進行學習的性能至少與單模態模型持平,如果不是超越。為了驗證這一預期,我們進行了初步實驗,研究了當前多模態KGC模型在持續學習場景中的性能,并將其與單模態模型進行比較。連續多模態知識圖譜構建的具體過程如圖1所示。然而,結果顯示將這些MKGC模型應用于連續學習場景并不簡單。
在圖2(a)中,引人注目的觀察結果是,與僅使用文本資源的情況(Vanilla)相比,過去任務的F1分數在多模態資源上下降更為顯著,這違反了通過整合多模態信息提高KGC性能的初衷。這個觀察結果違背了預期。此外,圖2(b)說明了在??-th任務的訓練集上訓練時,幾種方法在當前??-th任務的測試集上的表現。我們可以發現,將所有先前樣本存儲在內存中進行訓練的聯合訓練方法無法與其單模態對應模型相匹配或在識別新關系方面表現優于其單模態對應模型(Vanilla)。這個現象表明,具有重放策略的MKGC模型可能嚴重失去可塑性,這極大地阻礙了MKGC方法在持續學習場景中的應用。我們認為原因可能是不同的模態具有不同的收斂速度[45, 46],導致當前的MKGC模型在持續學習場景中失去了穩定性(保留先前知識的能力)。因此,持續的MKGC任務帶來了幾個新的挑戰,如下所述:(1) 多模態學習節奏不平衡。MKGC模型具有重放策略失去可塑性的現象表明,模態的不同收斂速度可能會加劇多模態學習節奏的不平衡,導致在持續學習新實體和關系類型時,兩種模態的表示都不夠優化。(2) 多模態交互中的不一致遺忘。不同模態具有不同的遺忘速度,在持續學習場景中,次要模態更容易被遺忘,導致模態融合后整個模型出現偏差,甚至比單模態情況下表現更差。因此,持續的MKGC模型應該在保持強大的模態融合的同時保持一致的多模態遺忘。為了克服上述挑戰,我們提出了一種用于KGC的持續多模態一致Transformer(LMC),它發揮了持續學習中一致多模態優化的優勢,實現了更好的穩定性和可塑性的平衡**。解決多模態學習節奏不平衡的問題,同時在持續學習中保持可塑性**。我們設計了一種梯度調節策略,用于實現平衡的多模態學習節奏,該策略根據每種模態對優化目標的貢獻度進行自適應調整梯度,從而賦予MKGC模型對新任務更好的穩定性。緩解多模態交互中的不一致遺忘問題,引入手牽手的多模態交互和注意力蒸餾。具體而言,我們通過計算兩種模態的自查詢與可學習的外部鍵之間的關聯性來進行多模態交互。我們進一步利用注意力蒸餾來蒸餾基于上述多模態交互模塊的注意力級別矩陣。綜上所述,本論文的主要貢獻有:
-據我們所知,這篇論文是首次在具有高要求的持續學習環境中探索多模態知識圖譜的構建。我們進行了實驗分析,并發現先前的MKGC模型在處理一系列具有新實體類別和關系的KGC任務時無法與其單模態對應模型相匹配或超越其性能。
-我們是第一個(即將)發布全面的持續MKGC基準數據集和基線模型,以鼓勵MKGC社區在具有現實世界KG增長的MKGC任務上進行更多的研究。我們還設計了一個新穎的框架,即LMC,考慮了多模態學習中的不一致性和不平衡性,并在內存重放過程中進一步利用隨機采樣的多模態實例以更有效地抵抗遺忘。
-我們在現實世界增量設置中對兩個子任務進行了大量實驗和分析。廣泛的實驗結果表明,所提出的LMC框架在一系列類別增量設置下優于傳統的MKGC模型和持續單模態KGC模型。
本文的其余部分安排如下:第2節介紹問題陳述和多模態學習收斂問題的實證分析,第3節詳細介紹了我們提出的框架。我們在第4節展示實驗結果。第5節回顧了相關工作,第6節對論文進行總結。
如圖4所示,我們的持續KGC框架采用具有特定任務范式的雙流Transformer結構,包括:(1)結構。該方法使用視覺Transformer (ViT)模型[11]進行視覺表示,使用BERT模型[25]進行文本表示。由于之前的工作[4,7]揭示了在更高層的語言模型上的操作可以更好地更有效地刺激來自下游任務的語言模型知識,本文選擇在最后三層transformer上進行注意力蒸餾的手拉手多模態交互。(2) 任務特定范式。我們連接來自ViT和BERT的[CLS]表示,以獲得MRE任務的關系集R上的概率分布:
(3) 訓練過程。算法1描述了整個訓練過程。該框架在每個步驟都包括三個模塊來學習新的實體類別和關系,并復習舊的實體關系,包括平衡的多模態學習節奏、基于注意力蒸餾的當前任務訓練和多模態排練。整個框架的詳細信息如下所示。
Lifelong Twitter2017.我們將原始設置轉換為增量類型設置,使用眾所周知的Twitter-2017 [24]多模態NER數據集,該數據集主要由2016年至2017年在Twitter上發布的多模態用戶帖子組成。一個示例可能具有多個具有不同類型的實體。假設我們在幾個類型增量任務中使用相同的實例。在當前步驟中標記為O的標記很可能包含來自先前類別的豐富實體。然而,這種方法會導致標簽混淆,使模型的學習過程矛盾。為了避免學習混亂的模式并實現更真實的設置,我們重新構建了只在一個任務中出現一次的具有一種類型的示例。 Lifelong MNRE. MNRE數據集[58]是一個最近創建的、手動標注的數據集,包括多模態神經關系抽取的20種關系。圖像和文本帖子是從Twitter收集的。我們按照基線方法的實驗設置;選擇了20種關系和相應的樣本,將它們分成10個子集對應于10個任務。然而,先前的設置有兩個與終身學習概念不符合的不真實限制:(1)他們通常選擇在一個聚類中具有更多語義相關性的關系。(2)將“N/A”類從持續學習過程中丟棄。因此,在我們的實驗中,我們在每個任務中包括了“N/A”類,并采用了完全隨機的關系級抽樣策略,使基準數據更加多樣化和真實。
作為第一個持續的MKGC模型,首先將所提出的LMC與之前的SOTA多模態基線進行了比較,以證明所提出LMC的優越性。1) UMT[51]是Transformer模型到多模態版本的擴展,其中包括添加了一個輔助實體跨度檢測模塊;2) UMGF[53]提出了一種針對MNER的統一多模態圖融合方法。3) MEGA[58]實現了一種雙圖對齊策略來捕獲實體和對象之間的關系,在MRE方面取得了最先進的結果。4) MKGformer[3]是MNER和MRE最新的SOTA模型,具有統一的雙流transformer結構。除了之前的多模態方法外,本文還將LMC與典型的持續學習方法進行了公平比較,如下所示:
Vanilla是一種僅根據新任務的訓練數據對BERT模型進行微調的方法,而不使用任何內存數據。這種方法可能會遭受嚴重的災難性遺忘,并作為下限。
聯合訓練包括將之前的所有樣本存儲在內存中,并在每個新任務的所有數據上訓練MKGformer模型,作為理論上限。
實現了EWC算法[17],以防止人工神經網絡中重要參數偏離舊值太遠。
EMR[42]是一種方法,它將以前任務中的基本樣本保存在記憶中,并在學習新任務時根據新的訓練數據和記憶數據的組合進行訓練。
EMAR-BERT[16]是一種持續學習方法,使用再鞏固和記憶激活來緩解災難性遺忘問題。 RP-CRE[8]是連續關系抽取(CRE)的SOTA方法,它利用關系原型為每個關系抽取相關信息。特定關系的原型嵌入是根據該關系的存儲樣本計算的。
ExtendNER[28]利用知識蒸餾(KD)框架進行連續NER,現有的NER模型充當新的NER模型(學生)的老師。
終身MNRE的表現
從表2所示的終身MNRE實驗可以看出: Vanilla模型僅通過對新樣本進行微調來使用單模態BERT模型,由于嚴重的過擬合和災難性遺忘,導致性能迅速下降。然而,所有的多模態模型,本應用于提高單模態性能,表現都比Vanilla模型更差,這進一步驗證了對持續多模態學習進行研究的必要性。 我們提出的LMC方法在性能上遠遠優于所有MKGC模型。盡管先前的持續學習方法,如EMR、EMAR-BERT和RP-CRE等,也采用了記憶模塊來減輕遺忘,并且其中一些方法設計了復雜的采樣策略,但它們的性能仍然弱于我們的LMC方法,在具有相同記憶大小和隨機采樣策略的MNRE實驗中,這證明了我們的方法充分利用多模態交互以獲得更好的持續學習性能的優越性。 我們還對MKGC模型應用了幾種持續學習策略進行比較。我們發現,盡管“M-[]”系列方法的性能優于純多模態方法RP-CRE和我們的LMC,但仍低于SOTA單模態持續關系抽取方法,這表明簡單的遷移持續學習策略無法達到理想的性能。雖然我們的LMC方法的性能仍落后于聯合訓練方法,但這激發了進一步探索持續多模態學習以接近上限的研究動力。
在Lifelong Twitter2017任務上的性能
我們從兩種任務順序的角度比較了我們的LMC和其他基線模型的表現,結果如表3所示。我們可以觀察到以下情況: (1)** 總體性能**:盡管各種各樣的MKGC模型在持續學習場景下的性能波動較大,多模態KGC模型在MNER基準測試中表現不如單模態BERT的現象仍然存在。我們可以看到,LMC在Lifelong Twitter-2017基準測試中也明顯優于所有其他方法,這驗證了我們提出的方法的強大適用性。 (2) 不同順序的排列:為了探索我們的方法的魯棒性,并消除對實體類型添加順序的依賴,我們還在不同的排列方式上評估了模型,其中實體類型被添加到我們的模型中。具體而言,我們將第一個順序設置為“PER → ORG → LOC → MISC”,第二個順序設置為“PER → LOC → ORG → MISC”。從結果中,我們可以觀察到LMC在所有排列方式上優于先前的基線模型,表明我們方法的泛化能力。
4. 結論
盡管持續性多模態知識圖譜構建(MKGC)領域具有重要的潛在影響,但直到現在它還沒有得到足夠的關注。由于多模態模型的復雜性,對新實體類型和關系的持續性識別構成了重大挑戰。本文通過引入創新的基準測試和獨特的算法,即終身MKGC基準測試和一種名為LMC的新方法,在該領域做出了開創性的貢獻,以在持續學習中解決災難性遺忘和可塑性問題,這是持續學習的核心問題。LMC通過實施平衡的多模態學習節奏來更好地把握新模式,并采用手牽手的多模態交互和注意力蒸餾來記憶先前的知識。我們廣泛的實驗結果和分析顯示,LMC方法在本研究中的所有持續學習場景中優于以前的方法。未來,我們計劃:1)將我們的方法擴展到更多的持續性多模態學習任務,如持續性多模態事件檢測;2)探索將提示學習和元學習方法與持續性MKGC任務相結合的方式;3)探索更有效的持續策略,無需進行存儲。
增強型語言模型:一項綜述
這次演講聚焦于最近的一些研究,這些研究中語言模型(LMs)被賦予了推理能力和使用工具的能力。前者被定義為將可能復雜的任務分解為更簡單的子任務,而后者包括調用外部模塊,如代碼解釋器。LMs可以單獨或通過啟發式方法結合這些增強效果,或者從示例中學習如何這樣做。在堅持標準的缺失令牌預測目標的同時,這種增強型LMs可以使用各種可能的非參數化的外部模塊來擴展其上下文處理能力,從而偏離純語言建模范式,并被稱為增強型語言模型(ALMs)。缺失令牌的目標允許ALMs學習推理,使用工具,甚至行動,同時仍然執行標準的自然語言任務,并在幾個基準測試上超過大多數常規的LMs。
大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。
//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e
1. 引言
諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。
最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。
為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。
我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。
我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:
我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力。
我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新。
我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力。
2 參數化知識引導
在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。
**2.1 導引器的知識對齊 **
針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:
指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。
2.2 用PKG增強LLMs
在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:
3 實驗
在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。
雖然大規模語言模型工作得非常好,但訓練它們的成本很高,很難解釋它們的預測,而且幾乎不可能隨著時間的推移保持最新。目前還不清楚我們什么時候可以相信他們的預測,而且目前的大型語言模型都不能回答關于當前主題的問題,例如COVID-19,因為用于訓練的語料庫是幾年前創建的。為了開發具有更小、更簡單和更有效的模型的下一代通用語言模型,我們相信信息檢索是一個關鍵組件。在人與人之間以及與世界進行交互時,人類會挖掘許多不同形式的知識,包括世界知識(例如常識、最新的世界事實、熱門新聞)和用戶知識(例如對話記憶、社交互動、額外的上下文(例如位置等)。為了在AI應用程序中結合這種能力,信息檢索提供了模型對可能包含此類知識的文檔集合的訪問(可能很大)。具體來說,完整的系統由一個小型的核心模型組成,可以通過檢索輕松訪問額外的、與任務相關的知識,并與當今最大的語言模型相媲美。在本次演講中,我將首先對檢索增強語言模型進行研究概述。然后,我將分享我們最近的一些工作,包括一個通過添加檢索組件來改進任何語言模型的通用框架,以及一個檢索增強的多模態模型,該模型可以生成質量更好的圖像和標題。最后,我將通過討論我們學到的一些經驗教訓和我們計劃在不久的將來解決的問題來結束這次演講。
深度監督學習算法通常需要大量的標記樣本才能達到令人滿意的性能。為避免收集和標記過多樣本帶來的昂貴成本,提出自監督學習(SSL)作為無監督學習的一個子集,在沒有任何人工標注標簽的情況下,從大量未標記樣本中學習良好的特征。SSL是近年來的研究熱點,相關算法層出不窮。然而,很少有全面的研究解釋不同SSL變體之間的聯系以及它們是如何演變的。**文中試圖從算法、理論、應用、3個主要趨勢和開放問題等方面對SSL的各種方法進行綜述。**首先,詳細介紹了大多數SSL算法的動機,并比較了它們的共性和差異;其次,研究了與SSL相關的理論問題。討論了SSL在圖像處理、計算機視覺(CV)以及自然語言處理(NLP)等領域的典型應用;最后討論了SSL的3個主要發展趨勢和有待進一步研究的問題。在//github.com/guijiejie/SSL上可以找到一些有用的材料。
1. 引言深度監督學習算法在計算機視覺(computer vision, CV)和自然語言處理(natural language processing, NLP)等領域取得了令人滿意的性能。監督學習算法通常需要大量的標記樣本才能獲得更好的性能。由于以下兩個主要原因,在ImageNet等大規模數據庫上訓練的模型被廣泛用作預訓練模型,然后進行微調以用于其他任務(表1)。首先,在不同的大規模數據庫上學習到的參數提供了一個很好的起點。因此,在其他任務上訓練的網絡可以更快地收斂。其次,在大規模數據庫上訓練的網絡已經學習到相關的層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務中的示例數量較少或訓練標簽有限時。**不幸的是,在許多真實的數據挖掘和機器學習應用中,雖然可以找到許多未標記的訓練樣本,但通常只有有限的標記樣本。**標記的示例通常是昂貴、困難或耗時的,因為它們需要有經驗的人類注釋人員的努力。例如,在web用戶特征分析中,可以很容易地收集到大量的web用戶特征,但標注這些數據中的非盈利用戶或盈利用戶需要檢查、判斷,甚至是耗時的跟蹤任務,需要有經驗的人工評估人員執行,成本非常高。另一方面,在醫療領域,無標簽樣本可以很容易地從常規體檢中獲得。然而,對如此多的病例進行逐一診斷,給醫學專家帶來了沉重的負擔。例如,為了進行乳腺癌診斷,放射科醫生必須為大量容易獲得的高分辨率乳房x光片中的每個焦點分配標簽。這個過程通常非常低效和耗時。此外,監督學習方法存在虛假關聯和泛化誤差,容易受到對抗攻擊。為了緩解監督學習的兩個局限性,許多機器學習范式被提出,如主動學習、半監督學習和自監督學習(SSL)。本文主要討論SSL。SSL算法被提出,用于從大量未標記的實例中學習良好的特征,而無需使用任何人工標注。SSL的一般流程如圖1所示。在自監督預訓練階段,設計預定義的前置任務供深度學習算法求解,并根據輸入數據的某些屬性自動生成用于前置任務的偽標簽。然后,訓練深度學習算法來學習解決前置任務;在自監督預訓練過程完成后,學習到的模型可以作為預訓練模型進一步遷移到下游任務(特別是當只有相對較少的樣本可用時),以提高性能并克服過擬合問題。
由于在自監督訓練期間不需要人工標注來生成偽標簽,SSL算法的一個主要優點是它們可以充分利用大規模未標記數據。使用這些偽標簽進行訓練的自監督算法取得了有希望的結果,自監督和監督算法在下游任務中的性能差距縮小了。Asano et al.[1]表明,即使在單一圖像上,SSL也可以令人驚訝地產生泛化良好的低級特征。SSL[2] -[19]最近受到越來越多的關注(圖2)圖靈獎獲得者,在第八屆國際學習表征會議(ICLR 2020)上做了主題演講,他的演講題目是“the future is self - supervised”。Yann LeCun和Yoshua Bengio都獲得了圖靈獎,他們說SSL是人類級別的智能[20]的關鍵。谷歌學者表示,目前已經發表了大量與SSL相關的論文。例如,2021年發表了大約18,900篇與SSL相關的論文,每天大約有52篇論文,或每小時超過兩篇論文(圖2)。為了防止研究人員迷失在如此多的SSL論文中,并整理最新的研究成果,我們試圖及時提供這一主題的調研。
本文的其余部分組織如下。第2-7節從算法、理論、應用、三個主要趨勢、開放問題和性能比較的角度介紹SSL,如表2所示。最后,第8節對調研進行了總結。