提示工程已成為擴展大型語言模型(LLMs)和視覺-語言模型(VLMs)能力的不可或缺的技術。這種方法利用特定于任務的指令,即提示,以增強模型效能,而無需修改核心模型參數。與其更新模型參數,不如使用提示允許預訓練模型無縫集成到下游任務中,僅通過給定的提示來引出所需的模型行為。提示可以是提供上下文以指導模型的自然語言指令,或激活相關知識的學習向量表示。這一新興領域在各種應用中取得了成功,從問答到常識推理等。然而,對于多樣的提示工程方法和技術,仍缺乏系統的組織和理解。本綜述論文通過提供一個結構化的概覽來填補這一空白,概述了提示工程的最新進展,按應用領域分類。對于每種提示方法,我們提供了一個總結,詳細說明了提示方法、其應用、涉及的模型和使用的數據集。我們還深入探討了每種方法的優勢和限制,并包括一個分類圖和表格,總結了數據集、模型和每種提示技術的關鍵點。這種系統分析使人們能夠更好地理解這一迅速發展的領域,并通過闡明提示工程的開放挑戰和機會,促進未來的研究。
提示工程已成為增強預訓練大型語言模型(LLMs)和視覺-語言模型(VLMs)能力的關鍵技術。它涉及策略性地設計特定于任務的指令,這些指令稱為提示,用于引導模型輸出而不改變參數。提示工程的重要性特別體現在其對LLMs和VLMs適應性的變革性影響上。通過提供一種機制,通過精心設計的指令微調模型輸出,提示工程使這些模型能夠在不同的任務和領域中表現出色。這種適應性與傳統范式不同,在傳統范式中,通常需要模型重新訓練或廣泛的微調以達到特定任務的性能。這就是提示工程的變革性承諾,推動了AI的邊界,并為充滿可能性的未來開啟了大門。在不斷發展的環境中,持續的研究不斷揭示了提示工程內的創新方法和應用。提示工程的重要性通過其引導模型響應的能力得到了凸顯,增強了LLMs在多個行業的適應性和應用性。當代提示工程的景觀涵蓋了從零樣本和少樣本提示的基礎方法,到更復雜的“代碼鏈”提示等技術的一系列技術。提示工程的概念最初在LLMs中被調查和普及[Liu et al., 2023],[Tonmoy et al., 2024],[Chen et al., 2023],后來擴展到VLMs [Wu et al., 2023],[Bahng et al., 2022]。盡管LLMs和VLMs內的提示工程文獻廣泛,但尤其是關于以應用為中心的提示工程技術的系統概述,仍有顯著的空白。隨著提示工程的最近進步,迫切需要一項綜合性的調查,提供對當代研究中應用和進步的細致理解。這項調查深入探討了不斷演變的提示工程景觀,分析了29種不同技術,按其多樣的應用進行分類。采用系統性回顧方法,我們仔細研究了多種尖端提示方法的復雜性。我們的審查包括它們的應用、使用的語言模型和進行實驗的數據集,提供了關于提示工程不斷演變景觀的詳細和細致分析。此外,我們討論了這些技術的利弊,提供了它們相對效能的見解。我們揭示了一個全面的分類圖,闡明了這些技術如何導航LLM能力的廣闊領域。從語言生成和問答到代碼創建和推理任務,提示工程賦予了LLMs執行我們從未想象過的壯舉。通過彌合文獻中的現有差距,本調查旨在為研究人員和實踐者提供一個寶貴的資源,提供對最新發展的見解,并促進對提示工程不斷演變景觀的更深入理解。論文的結構如下:第2節介紹了從基礎到高級的提示工程技術,按應用領域分類;第3節提供了結論以及對未來研究努力的考慮。
提示工程 在本節中,我們根據應用領域組織了提示工程技術,并提供了從零樣本提示到最新進展的提示技術演變的簡明概覽。
無需廣泛訓練的新任務 零樣本提示零樣本提示為利用大型LLMs提供了一種范式轉變。這項技術[Radford et al., 2019]消除了對大量訓練數據的需求,轉而依賴于精心設計的提示來引導模型處理新任務。具體來說,模型在提示中接收到任務描述,但缺乏用于特定輸入-輸出映射訓練的標簽數據。然后,模型利用其預先存在的知識,基于給定提示為新任務生成預測。 少樣本提示少樣本提示與零樣本提示不同,后者不提供示例,少樣本提示為模型提供了少量輸入-輸出示例,以誘導對給定任務的理解[Brown et al., 2020]。即使提供幾個高質量示例,也已經提高了模型在復雜任務上的性能,與不提供演示相比。然而,少樣本提示需要額外的令牌來包含示例,這可能對較長文本輸入成為禁止性的。此外,提示示例的選擇和組成可以顯著影響模型行為,偏見如偏愛頻繁詞匯可能仍然影響少樣本結果。盡管少次樣本提示增強了復雜任務的能力,尤其是在像GPT-3這樣的大型預訓練模型中,但精心的提示工程對于實現最佳性能和減少意外模型偏差至關重要。 推理和邏輯 鏈式思維(CoT)提示LLMs面對復雜推理時常常遇到困難,限制了它們的潛能。為了彌補這一差距,[Wei et al., 2022]引入了鏈式思維(CoT)提示作為一種促進連貫和逐步推理過程的提示LLMs的技術。主要貢獻在于提出和探索CoT提示,展示了其在誘導LLMs產生更有結構和深思熟慮的響應方面,相比傳統提示的有效性。通過一系列實驗,作者展示了CoT提示的獨特品質,強調了其引導LLMs進行邏輯推理鏈的能力。這導致的響應反映了對給定提示的更深層理解。例如,提示會顯示多步數學字問題的推理過程和最終答案,并模仿人類如何將問題分解為邏輯中間步驟。作者通過使用PaLM 540B的CoT提示,在數學和常識推理基準測試中實現了最先進的性能,準確率達到90.2%。 自動鏈式思維(Auto-CoT)提示手動創建高質量的CoT示例既耗時又次優。[Zhang et al., 2022]引入了Auto-CoT,自動指導LLMs使用“讓我們逐步思考”的提示來生成推理鏈。認識到單獨生成的鏈中可能存在錯誤的可能性,Auto-CoT通過多樣化采樣增強了魯棒性。它為各種問題采樣并為每個問題生成多個不同的推理鏈,形成最終的示例集。這種自動化的多樣化采樣最小化了錯誤并增強了少次學習,消除了手動創建推理鏈的勞動密集型需求。Auto-CoT展示了提升的性能,在算術和符號推理任務上分別以平均準確率改善了1.33%和1.5%,使用GPT-3。 自我一致性 [Wang et al., 2022]引入了自我一致性,這是一種解碼策略,與貪婪解碼相比,提高了CoT提示中的推理性能。對于具有多個有效路徑的復雜推理任務,自我一致性通過從語言模型的解碼器中采樣生成多樣化的推理鏈。然后,通過邊緣化這些采樣鏈來識別最一致的最終答案。這種方法利用了一個觀察,即需要深思熟慮的分析的問題往往涉及更大的推理多樣性,從而導致解決方案。自我一致性和鏈式思維提示的結合在各種基準測試中取得了顯著的準確率提高,例如在GSM8K上提高了17.9%,在SVAMP上提高了11.0%,在AQuA上提高了12.2%,在StrategyQA上提高了6.4%,以及在ARC挑戰上提高了3.9%,與基線鏈式思維提示相比。 邏輯鏈式思維(LogiCoT)提示對于LLMs來說,執行邏輯推理對于解決多步驟的復雜問題至關重要。現有方法,如CoT提示,鼓勵逐步推理,但缺乏有效的驗證機制。[Zhao et al., 2023]提出了邏輯鏈式思維(LogiCoT)提示,一種神經符號框架,利用符號邏輯的原理來以連貫和結構化的方式增強推理。具體來說,LogiCoT應用了反證法的概念,以驗證模型生成的每一步推理,并提供有針對性的反饋以修正錯誤步驟。LogiCoT通過思考-驗證-修正循環,可以減少邏輯錯誤和幻覺。在Vicuna-33b和GPT-4上進行實驗,結果強調了LogiCoT在推理能力上的顯著增強,相比CoT,在GSM8K數據集上分別展示了0.16%和1.42%的改進,在AQuA數據集上分別展示了3.15%和2.75%的改進。 符號鏈式思維(CoS)提示由于依賴自然語言,LLMs經常難以處理涉及復雜空間關系的任務,自然語言容易受到歧義和偏見的影響。為了克服這一限制,[Hu et al., 2023]引入了CoS,使用濃縮符號而非自然語言。CoS提供了明確和簡潔的提示、提高了LLMs的空間推理能力和提高了人類的可解釋性。CoS面臨的挑戰包括可擴展性、通用性、與其他技術的集成以及基于符號的LLM推理的可解釋性。值得注意的是,CoS的實施顯著提高了ChatGPT的性能,在Brick World任務上的準確率從31.8%提高到了令人印象深刻的92.6%。此外,CoS在提示令牌上實現了高達65.8%的減少,簡化了過程的同時保持了高準確率。 樹形思維(ToT)提示[Yao et al., 2023a]和[Long, 2023]提出了樹形思維(ToT)框架,以增強對需要探索和預判推理的復雜任務的提示能力。ToT通過管理一個中間推理步驟的樹結構——稱為“思維”——來擴展CoT提示。每個“思維”代表一系列朝最終解決方案前進的連貫語言序列。這一結構允許語言模型通過評估“思維”在解決問題過程中產生的進展來有意地進行推理。ToT將模型產生和評估“思維”的能力與諸如廣度優先或深度優先搜索等搜索算法結合起來。這使得在推理鏈中進行系統探索成為可能,能夠預判擴展有前景的方向,并在解決方案錯誤時進行回溯。ToT在24點游戲任務中表現出色,成功率達到74%,相比于CoT的4%。此外,在單詞級任務中,ToT的成功率為60%,而CoT為16%。 思維圖(GoT)提示人類思維過程的固有非線性特征挑戰了CoT提示的傳統順序方法。[Yao et al., 2023b]引入了“思維圖”提示,這是一個基于圖的框架,其先進于傳統的順序方法,更好地與人類思維的非線性特征相匹配。這個框架允許動態相互作用、回溯和評估想法,允許從各個分支聚合和組合思維,脫離了樹形思維的線性結構。關鍵貢獻包括將推理過程建模為有向圖,提供具有多種轉換操作的模塊化架構。該框架被呈現為一種靈活和動態的語言模型提示方法,捕捉人類思維過程的復雜性并增強模型能力。GoT推理模型在CoT基線上顯示出顯著增益,在GSM8K上分別使用T5-base和T5-large改進了3.41%和5.08%的準確率。它還在使用T5-base的ScienceQA上比最先進的Multimodal-CoT提高了6.63%,使用T5-large提高了1.09%。 系統注意力(S2A)提示基于Transformer的LLMs中的軟注意機制容易納入不相關的上下文信息,不利地影響令牌生成。為此,[Weston和Sukhbaatar, 2023]提出了系統2注意力(S2A),利用LLMs的推理能力選擇性地關注相關部分,通過重新生成輸入上下文。S2A采用兩步過程來通過使用上下文再生和帶有精煉上下文的響應生成來增強注意力和響應質量。在包括事實QA、長形生成和數學字問題在內的各種任務中評估了S2A的有效性。在事實QA中,S2A達到了80.3%的準確率,顯示出在事實性方面的顯著增強。在長形生成中,它提高了客觀性,獲得了5分中的3.82分。 思維線索(ThoT)提示[Zhou et al., 2023]提出了思維線索(ThoT),一種旨在增強LLMs在混亂上下文中推理能力的提示技術。ThoT受到人類認知的啟發,系統地將廣泛的上下文檢查為可管理的片段,以便進行逐步分析,采用兩階段方法,其中LLM首先總結并檢查每個片段,然后精煉信息以得出最終響應。ThoT的靈活性作為一種多功能的“即插即用”模塊閃耀,增強了不同模型和提示方法的推理能力。在問答和對話數據集的評估中顯示了顯著的性能改進,分別為47.20%和17.8%,特別是在混亂的上下文中。 表格鏈式提示像CoT、PoT和ToT這樣的方法通過自由形式的文本或代碼表示推理步驟,面對處理復雜表格場景時遇到挑戰。[Wang et al., 2024]引入了一種開創性的提示技術,名為表格鏈式提示。這種方法通過動態生成和執行表格上的常見SQL/-DataFrame操作來使用逐步的表格推理。這一過程的迭代性增強了中間結果,賦予LLMs通過邏輯可視化的推理鏈做出預測的能力。顯著地,表格鏈式提示在兩個基準表格數據集上一致地提高了性能,分別在TabFact上提高了8.69%,在WikiTQ上提高了6.72%。 結論在人工智能領域,提示工程已成為一種變革性力量,解鎖了LLMs的巨大潛力。本綜述論文旨在作為一項基礎資源,系統地分類了29種不同的提示工程技術,基于它們的目標功能,激發進一步的研究,并在提示工程不斷演變的景觀中賦能創新者。分析涵蓋了應用、模型和數據集,揭示了每種方法的優勢和局限性。此外,我們添加了一張圖表和一張表格來突出重要點。盡管取得了顯著的成功,但仍然存在挑戰,包括偏見、事實不準確和可解釋性差距,需要進一步調查和緩解策略。提示工程的未來擁有巨大潛力,新興趨勢如元學習和混合提示架構承諾提高能力。然而,倫理考慮至關重要,強調負責任的開發和部署,以確保積極地融入我們的生活。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。
表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。
Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。
Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。
多模態-文本提示方法
圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。
在圖像-文本匹配中的提示模型
在文本-圖像生成中的提示模型
結論
這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
隨著功能強大的預訓練視覺語言模型(如CLIP)的興起,研究如何使這些模型適應下游數據集變得非常必要。最近提出的一種名為上下文優化(CoOp)的方法將提示學習的概念引入視覺領域,以適應預訓練的視覺語言模型。具體來說,CoOp將提示中的上下文單詞轉換為一組可學習的向量,并且僅使用少量標記的圖像進行學習,可以在經過大量調整的手動提示中實現巨大的改進。在我們的研究中,我們確定了CoOp的一個關鍵問題: 學習的上下文不能泛化到同一數據集內更廣泛的不可見類,這表明在訓練期間觀察到的CoOp基類過擬合。 為了解決這個問題,我們提出了條件上下文優化(CoCoOp),它通過進一步學習一個輕量級神經網絡來為每幅圖像生成一個輸入條件標記(向量)來擴展CoCoOp。與CoOp的靜態提示相比,我們的動態提示適應每個實例,因此對類遷移不那么敏感。大量的實驗表明,對于不可見的類,CoCoOp的泛化效果要比CoOp好得多,甚至在單個數據集之外還顯示出很好的可遷移性; 具有較強的域泛化性能。代碼可在//github.com/ KaiyangZhou/CoOp
預訓練語言模型已經成為大多數自然語言處理任務的事實范式。這也有利于生物醫學領域:來自信息學、醫學和計算機科學界的研究人員提出了各種在生物醫學數據集上訓練的預訓練模型,如生物醫學文本、電子健康記錄、蛋白質和DNA序列,用于各種生物醫學任務。然而,生物醫學預訓練的跨學科特點阻礙了它們在社區中的傳播,一些現有的工作是相互孤立的,沒有全面的比較和討論。需要系統地回顧生物醫學預訓練模型的最新進展和它們的應用,而且規范術語和基準。本文總結了預訓練語言模型在生物醫學領域的最新進展以及它們在生物醫學下游任務中的應用。特別是,本文討論了動機,并提出了現有生物醫學預訓練的分類法。本文詳盡地討論了它們在生物醫學下游任務中的應用。最后,本文說明了各種局限性和未來的趨勢,希望這能為研究界的未來研究提供靈感。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。