編譯 | 曾全晨
審稿 | 王建民 今天為大家介紹的是來自Tal Golan團隊的一篇論文。語言模型似乎越來越符合人類處理語言的方式,但通過對抗性示例來識別它們的弱點十分具有挑戰性,因為語言是離散的,并且人類語言感知非常復雜。
神經網絡語言模型不僅是自然語言處理(NLP)中的關鍵工具,還因其潛在成為人類語言處理模型的可能性而引起了越來越多的科學興趣。從循環神經網絡(RNNs)到變換器(transformers)等各種語言模型,每個模型(顯式或隱式地)都定義了一個關于單詞序列的概率分布,預測哪些序列在自然語言中可能出現。從閱讀時間、功能性磁共振成像(fMRI)、頭皮腦電圖、顱內腦電圖(ECoG)等測量結果來看,存在大量證據表明,人類對由語言模型捕獲的單詞和句子的相對概率敏感。模型推導的句子概率還可以預測人類可接受性。然而,這些成功尚未解決兩個關鍵問題:(1)哪個模型與人類語言處理最為一致,以及(2)最佳對齊模型與完全捕捉人類判斷的目標有多接近?評估語言模型的主要方法之一是使用一組標準化基準,例如通用語言理解評估(GLUE)或其繼任者SuperGLUE。盡管這些基準在評估語言模型在下游NLP任務中的實用性方面起到了關鍵作用,但它們在將這些模型作為解釋人類語言處理的候選模型進行比較方面顯然不夠充分。一些基準通過比較語言模型分配給合乎語法和不合乎語法句子的概率(例如BLiMP)來評測語言模型。然而,由于這些基準受到理論語言學考慮的驅動,它們可能無法檢測到語言模型可能從人類語言中學習到的新穎的表達方式。最后,另一個實際的問題是NLP研究的快速發展導致這些類型的靜態基準迅速飽和,使得難以區分不同模型之間的性能。
針對這些問題的一個解決方案是使用動態的人機協同基準測試,其中人們積極地對模型進行一系列不斷演化的測試以進行強化測試。然而,這種方法面臨一個重大障礙,隨著測試案例的增加,人們會發現越來越難找到新穎和有趣的測試案例,以便真正挑戰語言模型的性能。。作者提議將人工策劃的基準測試與模型驅動的評估相結合。在模型的預測指導下,而不是實驗者的直覺,我們希望識別特別信息豐富的測試句子,其中不同的模型會做出不同的預測。我們可以在大量自然語言的語料庫中找到這些關鍵句子,或合成新的測試句子,以揭示不同模型在其訓練分布之外的泛化方式。
在文中,作者提出了一種系統的、以模型為驅動的方法,用于比較語言模型在與人類判斷一致性方面的性能。作者生成了有爭議的句子對,這些句子經過設計,使得兩個語言模型在哪個句子更可能出現方面存在強烈分歧。然后,作者收集人類的判斷,以確定每對句子中哪個更有可能,以解決這兩個模型之間的爭議。
實驗概述
作者從進行在線測試的100名以英語為母語的參與者那里獲得了評判。在每個實驗試驗中,參與者被要求判斷兩個句子中哪一個他們“更有可能在現實世界中遇到,無論是口語還是書面文本”,并在一個三級別的信心評級上提供他們答案的信心值。該實驗旨在比較九種不同的語言模型:基于兩個詞組和三個詞組序列的的詞頻概率模型以及一系列神經網絡模型,包括RNN、長短時記憶網絡(LSTM)和五個transformer模型(BERT、RoBERTa、XLM、ELECTRA和GPT-2)。
使用有爭議的自然數據對,進行高效的模型比較
圖1
表 1
作為基準線,作者從Reddit評論語料庫中隨機抽樣并配對了八個詞的句子。然而,如圖1a所示,這些句子未能揭示模型之間的有意義的差異。對于每一對句子,所有模型都傾向于偏好相同的句子,因此在預測人類偏好評分方面表現相似。相反,可以使用一個優化過程來搜索有爭議的句子對,其中一個語言模型僅為句子1分配高概率,而第二個語言模型僅為句子2分配高概率(示例見表1)。不同的語言模型在預測人類在特定句子對上的選擇時,顯示出在與人類的一致性方面存在許多顯著差異(如圖1b所示),其中GPT-2和RoBERTa顯示出最好的人類一致性。 使用合成句子對,實現更大程度的模型分離
圖 2
表 2
選擇有爭議的自然句子對可能比隨機抽樣自然句子對提供更大的能力,但這個搜索過程只考慮了可能的句子對空間的非常有限的部分。相反,我們可以迭代地替換自然句子中的單詞,以驅使不同的模型產生相反的預測,形成合成的有爭議句子,這些句子可能位于任何自然語言語料庫之外,如圖2所示。作者展示了合成的有爭議句子對,如表2所示。
圖 3
作者評估了每個模型在所有有爭議的合成句子對中對人類句子選擇的預測準確度(圖3a)。這種模型與人類的一致性評估方式,導致了模型的預測準確度之間的差距更大,使較弱的模型(RNN、3-gram和2-gram)遠低于50%的隨機準確度水平。在這些試驗中,GPT-2、RoBERTa和ELECTRA在預測人類的響應方面明顯比其他模型(BERT、XLM、LSTM、RNN、3-gram和2-gram)更準確。
自然句子和合成句子的組合揭示了盲點 最后,作者考慮了那些要求參與者在自然句子和合成句子之間選擇的試驗。如果語言模型與人類判斷完全一致,作者期望人類會同意模型,并至少與自然句子一樣多地選擇合成句子。然而,在現實中,人類參與者明顯更偏好自然句子而不是它們的合成對應物(圖3b),即使合成句子是針對更強大的模型(即GPT-2、RoBERTA或ELECTRA)而生成。針對每個模型對分別評估自然句子的偏好,作者發現即使將一個強模型與一個相對較弱的模型配對(以至于強模型接受合成句子而弱模型拒絕它),也可以揭示這些缺點。
評估整個數據集揭示了模型的層次結構
圖 4
與評估每個模型的預測準確性相比,針對用于比較這個模型與替代模型的特定句子對,作者通過計算每個模型對所有收集到的實驗的平均預測準確性來最大化對于模型的評測能力。此外,作者在這里測量了分級人類選擇(考慮信心)與每個候選模型分配的句子概率的對數比率之間的序數對應關系。使用這個更敏感的基準(圖4),作者發現GPT-2與人類最一致,其次是RoBERTa,然后是ELECTRA、BERT、XLM和LSTM,以及RNN、3-gram和2-gram模型。造成雙向transformer(RoBERTa、ELECTRA、BERT和XLM)性能較差的一個可能原因是,與單向transformer(GPT-2)相比,這些模型中的句子概率計算較為復雜。作者開發的概率估計器也可能不是最優的;事實上,偽對數似然(PLL)方法在隨機抽樣的自然句子對上提供了稍高的準確性。然而,當作者通過生成新的合成的有爭議的句子來直接比較當前采用的估計器與PLL時,發現作者的估計器更好地與人類判斷一致。 參考資料 Golan, T., Siegelman, M., Kriegeskorte, N. et al. Testing the limits of natural language models for predicting human language judgements. Nat Mach Intell (2023). //doi.org/10.1038/s42256-023-00718-1
? 作者|劉子康 機構|中國人民大學研究方向|多模態
本文從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法、復雜度與指令側重點三方面展開介紹。引言:近幾個月來,大型語言模型(LLM)在人工智能的各個領域帶來了革命性的進展。通過極大的參數量與預訓練數據量,LLM克服了以往語言模型存在的問題,真正成為了通用的,具備極強推理能力的語言模型,不僅在許多現有的benchmark上取得了極佳的成績,還展現出了以往模型從未出現過了涌現能力。 盡管LLM作為語言模型的能力無可挑剔,但它缺少感知其他模態信息的能力,而這對于實現AIGC至關重要。當前的多模態大模型往往通過給大模型添加一個視覺模塊,再通過多模態指令微調來進行兩個模型的對齊。這之中,多模態指令微調至關重要。本文將從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法,復雜度與指令側重點來介紹它們。
一、多模態指令微調
多模態指令微調,即將純文本的指令微調拓展到多模態形式,并期望通過這些指令以及新增的視覺模塊賦予LLM視覺感知以及結合視覺信息進行正常推理的能力。在多模態指令出現之前,應用LLM解決一些復雜的視覺推理問題往往只能將圖像轉化為對應的caption,并將問題與caption一同作為純文本的輸入送入大型語言模型進行推理。這一類方法的代表為PiCa[1],它通過caption來讓gpt3感知圖像信息,再通過in-context-learning來引導gpt3完成對應任務。
除此之外,Visual-ChatGPT[2]也采用了類似的方式來完成相關任務。通過調用一系列的子模型,Visual-ChatGPT將其他模態的信息轉換成圖像信息,再利用ChatGPT作為大腦進行推理,最終生成最終結果。
盡管這些模型在一系列任務上有非凡的表現,它的缺點也同樣明顯。一方面,由于其他模態信息到文本的轉換需要利用到一系列的小模型,最終模型的表現在很大程度上會受到小模型性能的限制。同時,文本作為連接不同模態的橋梁是不足的,一段描述的文本很難完全的覆蓋到一張圖片的所有信息,因此會導致信息的失真,最終影響到模型的推理結果。因此,我們需要訓練一個端到端的模型。已有的很多工作已經可以將圖像輸入映射到文本空間中(如CLIP[3]),我們需要一個多模態指令集,既包含了原本的兩種模態的對齊數據,也包含了基于多模態信息的復雜推理與對話數據。本文將在后面介紹這一類指令。
二、多模態指令 * MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
本文是在LLaMA出現前的一篇工作,非常具有前瞻性。作者提出了一個指令數據集-MultiInstruct,包含了當下的34個多模態任務,并將其劃分成了若干個任務組。整體指令沿用了Flan[4]指令集的風格,由人工標注者們先根據任務本身的類型描述來標注每個任務的instruction,再經過多個步驟確認每個任務指令的準確性以及保證任務之間的指令不發生沖突。基于當前構造的指令數據集,作者還加入了純文本的NATURAL INSTRUCTIONS[5]指令集,并通過一系列實驗證明了純文本指令集的加入能夠有效提高模型的敏感度-即模型對于不同或輕微改變的指令下生成相同答案的一致性。
本文提出了一個多模態大模型-LLaVA,是LLaMA出現后的多模態微調工作。本文采用對話微調后的Vicuna模型作為基座,期望能夠增強模型基于多種模態的對話能力。LLaVA采用的多模態指令主要follow了Vicuna[6]指令集的形式,沒有包含比較復雜的任務描述。為了增強模型在通用場景下的多模態對話與推理能力,LLaVA使用了ChatGPT/GPT-4來輔助多模態的指令生成。具體而言,LLaVA首先將圖像轉換為由文本表示的Context,為了盡可能的降低圖像到文本轉換的失真程度,作者采用了兩種Context,一種是captions,包含了全局的描述信息。另一種是boxes,包含了細粒度的實體-位置信息。
基于這一類信息,作者向GPT-4輸入了一系列指令,這一系列指令包含了對話類型指令,包含了對圖像細粒度推理的指令與基于圖像的復雜推理指令。由于GPT-4自身非常強大的推理能力,它能夠提供有意義的回復數據作為后續訓練的多模態指令。最終自動化構造的指令集包含158K個多模態指令,基于這些指令訓練得到的LLaVA模型在通用的多模態問答對話上表現出了強大的能力。 * GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
GPT4RoI是構建細粒度多模態指令的一個嘗試。此前的絕大多數多模態指令都著重關注全局的視覺理解與視覺推理,而忽略了局部的細粒度視覺特征。GPT4RoI希望能夠構建一個數據集,輔助多模態模型不僅能夠從全局層面來理解圖像,同樣能夠理解圖像的細粒度特征,從而可以完成一些更加復雜的圖像推理任務。本文構造了兩類用于不同階段訓練的多模態指令,第一階段指令用于訓練區域特征與實體的對齊,第二階段指令用于訓練包含區域特征的推理。大部分指令由原本的RefCOCO與Visual Genome等數據集中抽取而來,同時也利用了外部工具對原本的LLAVA-150K數據集構建了額外的細粒度標注。 通過細粒度的標注指令,GPT4RoI上訓練的模型能夠根據特別的區域輸入理解模型的細粒度特征,擁有了更加多樣化的推理能力。 * Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
與GPT4RoI類似,Shikra同樣對多模態指令在細粒度層面進行了擴展。相較于GPT4RoI更加注重于在指令輸入端細粒度的增加,Shikra同時希望模型在輸出端能夠顯式的進行細粒度的推理,輸出更多樣化的結果。Shikra的主要靈感來源于人類對話中實體指代的存在,即在對話中會提及到一系列的實體,而這些實體應當對應到圖像的某一個具體區域。
為了構造這些指令,Shikra同樣借助到了GPT4的幫助。作者從高質量的細粒度標注數據集Flickr30K出發,Flickr30K中的每一個圖像包含了5個細粒度的實體標注以及對應的caption描述。這些實體描述和對應的具體坐標將會被送入GPT4中幫助它們理解實體在圖像中的問題。最后,基于這些實體,GPT4將會設計一系列的問答對,這些問題被保證是可以完全通過已有信息來回答的。
作為一個通用指令集,基于Shikra訓練的通用模型在一系列指代任務上取得了非常好的效果,同時由于生成文本指定了圖像的實體,也有效的降低了多模態幻象的產生。 * M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
M3IT同樣是一個大型的多任務多模態指令集。它包含了8個大類的任務集合,并采取了類似MultiInstruct的方式進行指令的人工標注。M3IT的創新點在于,它考慮到了原有的多模態數據集(如VQA)中會存在大量的信息量較少的“短答案”,即對于一個問題僅提供一個極短的精確答案,但沒有提供中間過程,而多模態大模型則希望能夠提供更加詳細,有效的回復。為了解決這個問題,M3IT對于這一類問題進行了答案的復寫,通過一些額外的圖像信息(例如OCR)來使得答案變得復雜化與多樣化。同時,為了支持多語言的多模態指令,M3IT對于一些重要的數據集的指令進行了翻譯,使其同時支持中英兩種語言。最終,經過人工和ChatGPT的雙重質量檢測過程,得到了一個包含了2,429,264個實例的多模態多語言指令集。基于M3IT指令集訓練的多模態模型在生成答案的ROUGE-L分數和多語場景下表現出了良好的性能。
VIGC: Visual Instruction Generation and Correction
VIGC是一種新式的多模態指令生成技術。此前的方法往往采用ChatGPT或GPT4進行對話生成,而圖像信息通過Caption或box等其他信息以文字的形式輸入到模型之中。這種方式會導致圖像信息的失真,從而導致生成對話的失真,即生成對話不一定是與圖像緊密相關的,或者有一些細節錯誤以及幻象的出現。VIGC借助了LLM中self-instruct的思想,通過多模態模型自身來生成指令。具體做法是基于已有或自動生成的指令,通過多模態模型生成回復。對于這些回復,通過ChatGPT來進行檢查修正,從而得到高質量的多模態指令集。VIGC既可以用于多模態指令集的生成,也可以用于已有任務指令集的增廣。通過這一類方式,基于VIGC的若干個模型在數個通用benchmark以及一些任務特定的benchmark都取得了提升,證明了該方法的有效性。
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
StableLLaVA是一種基于Stable Diffusion來完全的自動化生成多模態指令集的方案。當前的多模態指令集往往采用現有的圖像,通過ChatGPT來生成后續的對話。這樣的方法盡管有效,但現有的圖像數據集會存在一定的領域偏差,同時,生成的多模態對話嚴重依賴于真實圖像,會影響到生成多模態對話的多樣性與質量。一種很自然的想法是,借助當前AIGC領域所取得的巨大成功,可以通過擴散模型自由的生成任意類型的圖像,再通過ChatGPT生成任意類型的對話,如下圖所示:
參考文獻:
[1]An empirical study of gpt-3 for few-shot knowledge-based vqa [2]Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [3]Learning Transferable Visual Models From Natural Language Supervision [4]Finetuned Language Models are Zero-Shot Learners [5]Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks [6]Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7]MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning [8]Visual Instruction Tuning [9]GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [10]Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic [11]M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning [12]VIGC: Visual Instruction Generation and Correction [13]StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Daniel Shu Wei Ting的一篇綜述論文。大型語言模型(LLMs)可以在沒有特定訓練的情況下回應各種文本查詢,這引發了人們對其在醫療環境中使用的興趣。ChatGPT是通過對LLM進行復雜的微調而生成的生成式人工智能聊天機器人,其他類似的工具也正在通過類似的開發過程中涌現出來。在這里,作者概述了像ChatGPT這樣的LLM應用的開發過程,并討論了它們在臨床環境中的應用。作者考慮了LLMs的優勢和局限性,以及它們在醫學的臨床、教育和研究工作中提高效率和效果的潛力。
大型語言模型(LLMs)是人工智能(AI)系統,它們經過數十億字的訓練,這些字來自于文章、書籍和其他基于互聯網的內容。通常情況下,LLMs使用神經網絡架構來利用深度學習,這種方法已經在醫學領域取得了令人印象深刻的成果,用于表示文本訓練數據集中單詞之間的復雜關聯關系。通過這個訓練過程,可能是多階段的,可能涉及不同程度的人工輸入,LLMs學習了單詞在語言中如何與彼此搭配使用,并可以將這些學習的模式應用于完成自然語言處理任務。自然語言處理描述了一個廣泛的計算研究領域,旨在以模仿人類能力的方式促進對語言的自動分析。生成式人工智能開發者的目標是生產出可以按需創建內容的模型,并在應用程序中與自然語言處理相交。經過多年的發展,LLMs現在正出現“少樣本”或“零樣本”屬性,這意味著它們可以在幾乎沒有特定微調的情況下,識別、解釋和生成文本。這些少樣本和零樣本屬性是在模型規模、數據集規模和計算資源足夠大的情況下出現的。隨著深度學習技術、強大的計算資源以及用于訓練的大型數據集的發展,具有潛在顛覆認知工作的能力的LLM應用已經開始在各個領域中出現,包括醫療領域。
ChatGPT(OpenAI)是一種LLM聊天機器人,現在可以對多模態輸入產生文本回應(之前只能接受文本輸入)。它的后端LLM是GPT-3.5或GPT-4。ChatGPT的影響源于它的對話互動性以及在各個領域中的認知任務中接近人類水平或與人類水平相等的表現,包括醫學。ChatGPT已經在美國醫學執照考試中取得了及格級別的表現,并且有人提出LLM應用可能已經準備好在臨床、教育或研究環境中使用。然而,自主部署的潛在應用和能力是有爭議的:書面考試不能驗證臨床表現,缺乏良好的基準使得評價性能變得相當具有挑戰性。目前的LLM技術很可能最有效地作為一種在密切監督下使用的工具。
LLM聊天機器人的發展
圖 1
盡管LLM GPT-3.5并未展現出最多的參數數量(圖1),但ChatGPT目前在醫療研究中引起了最大的關注。這得益于精細調整,特別是為了恰當地回應人類輸入查詢而進行的調整。首個版本的GPT(GPT-1)于2018年發布。GPT-1的訓練是半監督的,包括初始的無監督預訓練,用于編程單詞之間在語言中的聯想關系,然后是有監督的精細調整,以優化指定的自然語言處理任務的性能。GPT-2(2019年發布)擁有15億個參數,是其前任的10倍大。其訓練數據來自WebText,這是一個40 GB的數據集,來源于800多萬份文檔。GPT-2最初在幾項自然語言處理任務中進行了評估,包括閱讀理解、摘要、翻譯和問題回答。在2020年,GPT-3發布了,擁有1750億個參數,比GPT-2大100多倍。其更廣泛的訓練賦予了它更強的few-shot和zero-shot能力,在各種自然語言處理任務中實現了最先進的性能。訓練數據集包括五個文集,共45 TB。總的來說,GPT-3的發展專門解決了前任模型的弱點,構建了迄今為止最復雜的LLM。GPT-4現已發布,并在自然語言處理以及各種專業能力測試中獲得了比GPT-3更高的性能。此外,GPT-4可以接受多模態輸入,其體系結構、開發和訓練數據仍然保密。
從LLM到生成式聊天機器人
圖 2
為了開發有用的應用程序,LLM需要進一步的精調,正如GPT-3.5的設計工程所示,它可以對自由文本輸入提示做出適當的回應(圖2)。在這里,精調包括將GPT-3暴露于由人類研究人員扮演應用程序用戶和AI助手角色產生的提示和回應中,這有助于模型學習如何正確回答定制查詢。接下來,使用由人類評分員根據一組查詢對GPT-3.5的回應進行排名生成的數據進行“從人類反饋中的強化學習”(RLHF),以此進行強化學習。該獎勵模型使得自主RLHF的規模遠遠超過了通過人工對每個模型回應進行評分所能達到的規模。為了提高安全性和安全性,還使用模型生成的輸入查詢和輸出完成了進一步的自主對抗訓練。ChatGPT的后端現在集成了GPT-4,新的體系結構、數據集和訓練是保密的。即使在單個對話中,ChatGPT也表現出了非常出色的“學習”能力,特別是通過提供任務示例來提高性能。
除了ChatGPT之外,還有其他的LLM聊天機器人可以供臨床醫生和患者使用。必應的AI聊天機器人(Microsoft)可在沒有ChatGPT高級訪問權限的情況下訪問GPT-4。Sparrow(DeepMind)是使用LLM“Chinchilla”構建的,通過利用谷歌搜索結果、人類反饋和一個包含23條明確規則的長達591個字的初始化提示來減少不準確和不適當的使用情況。BlenderBot 3(Meta Platforms)利用互聯網訪問來提高準確性,其在發布后可能會通過使用有機生成的數據來持續改進性能,就像ChatGPT一樣(圖2中的虛線箭頭)。Google Bard最初是使用LaMDA構建的,但現在利用PaLM 2為基礎,其在部分領域能力方面與GPT-4相媲美。
以它們當前的表現,LLMs并不能取代醫生,因為在專業考試中的表現還遠非完美,存在嚴重的不準確和不確定性問題。盡管最近報告的專業基準性能令人印象深刻,但需要具體的評估和驗證來證明在任何特定背景下的有效性和實用性。從根本上講,臨床實踐與正確回答考試問題并不相同,找到適當的基準來衡量LLMs的臨床潛力是一個重大挑戰。然而,鼓舞人心的結果表明,現有的技術已經適用于影響臨床實踐,并且進一步的發展可能會加速和擴大自然語言處理人工智能在醫學領域的應用。
LLM的醫學應用
圖 3
在最近幾個月中,LLM(大型語言模型)技術,特別是ChatGPT,已經被廣泛應用于各種場景(如圖3所示)。盡管有必要進行高質量的研究來了解新技術的優勢和局限性,但目前仍然缺乏經過良好設計和實用性試驗,旨在評估將創新的LLM基礎工具引入臨床、教育或研究環境的實際效用。
ChatGPT在醫學領域引起了特別的關注,因為它在美國醫學許可考試中取得了及格分數,而GPT-4的表現明顯優于其前身GPT-3.5。最近,Google推出的Med-PaLM 2,一種在醫療數據上進行細調的PaLM 2版本,取得了最先進的成果,達到了接近專業人類臨床醫生水平。當將ChatGPT對患者問題的回答與醫生提供的回答進行比較時,根據醫生評判的定性指標,LLM的輸出在質量和共情方面更受歡迎。這導致了有人提出AI已經可以取代醫生,但事實并不如此。即使在醫學生考試中,其性能也遠非完美,沒有任何已知報告的分數接近100%。ChatGPT在醫生專科考試中失敗,并在回答有關心血管疾病預防的真實問題時提供不準確的信息。
ChatGPT在不需要專業知識或在用戶提示中提供專業知識的任務中表現出更強的性能。這為其在實施方面提供了比臨床決策輔助工具更為直接的前景。LLM能夠快速吸收、概括和重新表述信息,從而減輕臨床醫生的行政負擔。出院總結是一個有意義的例子,它涉及到對信息的解釋和壓縮,幾乎不需要問題解決或回憶。新興的多模態模型將擴展模型能力,并與更多的數據源兼容;甚至醫生的手寫字也可以自動準確地解釋。
GPT-4和Med-PaLM 2在醫學測試中的強勁表現表明,LLM可能是學生在這些測試中獲得較低分數時有用的教學工具。GPT-4的元提示功能允許用戶在對話過程中明確描述聊天機器人所扮演的期望角色;有用的示例包括“蘇格拉底導師模式”,通過逐漸降低難度的問題來鼓勵學生自己思考,直到學生能夠解決更全面的問題。對話記錄可以使人類教師監測進展并根據學生的弱點進行教學,以直接解決學生的不足之處。非盈利教育機構卡恩學院(Khan Academy)正在積極研究如何在“卡恩米格”中利用AI工具,來優化在線教學。
生成型AI LLMs的障礙
表 1
有幾個問題和限制阻礙了ChatGPT和其他類似應用在臨床規模上的實施(見表格1)。首先,訓練數據集不足以確保生成的信息準確和有用。其中一個原因是缺乏最新性:GPT-3.5和GPT-4主要使用截至2021年9月的文本進行訓練。由于研究和創新在各個領域,包括醫學,都是持續不斷的,缺乏更新的內容可能會加劇不準確性。在語言突然變化的情況下,問題尤為嚴重,例如研究人員發明新術語或更改用于描述新發現和方法的特定詞匯的用法。問題還會在范式轉變中出現,例如,一些被認為不可能實現的事情實際上被實現了。案例包括以前所未有的速度開發新冠病毒病2019(COVID-19)疫苗以及針對先前被認為“無法藥物靶向”的目標如KRAS的抗腫瘤藥物。如果類似事件超出了訓練數據集的截止日期,模型無疑會對相關查詢提供質量較差的響應。因此,與醫療專業人員的咨詢仍然至關重要。
結論
LLMs已經徹底改變了自然語言處理領域,最先進的模型,如GPT-4和PaLM 2,現在在醫學領域的人工智能創新中占據著核心地位。這項新技術在臨床、教育和研究工作中充滿了機遇,特別是在多模態和插件工具的新興應用中。然而,潛在的風險引發了專家和社會的廣泛關注。目前,自主部署LLM醫學應用是不可行的,醫療專業人員仍將負責為患者提供最佳和人性化的護理。經過驗證的應用程序可能是改善患者和醫療保健的有價值工具,但前提是解決倫理和技術問題。
參考資料 Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K. et al. Large language models in medicine. Nat Med (2023). //doi.org/10.1038/s41591-023-02448-8
? 作者|王禹淏
機構|中國人民大學研究方向|自然語言處理 引言:最近,大型語言模型(LLM)在解決知識密集型任務展現出強大的性能。然而,目前尚不清楚LLM對其知識邊界的感知能力,以及引入檢索增強后會對上述能力有何影響。對此,我們小組的最新工作,初步分析了LLM在開放域問答任務上的性能、感知其知識邊界的能力,并研究了引入檢索增強后如何影響上述能力。研究 主要回答了以下三個問題: * LLM感知其事實知識邊界的能力如何? * 檢索增強對LLM有什么影響? * 具有不同特征的輔助文檔如何影響LLM?
我們的論文可參考以下鏈接: 論文鏈接://arxiv.org/abs/2307.11019 開源項目:
一、簡介
通常而言,開放領域問答任務要求模型利用外部文本語料庫,通過信息檢索系統獲得相關文檔并生成答案。最近興起的LLM,由于其已經在參數中編碼大量的世界知識,可以直接完成一些開放領域問答任務。目前,領域內缺乏對LLM事實知識邊界的深入了解。LLM能否較好地完成開放領域問答問題?LLM是否知道自身的事實知識邊界?針對已有的回答,LLM能否準確判斷答案的正誤?在引入檢索增強后,LLM的上述性能有何變化?提供不同質量的參考文檔會對LLM生成結果帶來怎樣的影響? 我們將深入分析檢索增強對LLM生成質量的影響,尤其是LLM的問答性能和對其事實知識邊界的感知能力。為了衡量LLM感知知識邊界的能力,我們使用兩種方法:一種是先驗判斷,引導LLM判斷能否準確回答;另一種是后驗判斷,令LLM評估已有回答是否正確。同時,我們利用多種檢索模型為LLM提供輔助文檔,包括稀疏檢索、稠密檢索,以及LLM僅使用自身知識生成的文檔。通過精心設計的提示,LLM能夠參考給定的輔助文檔作出反饋。 本文依據GPT系列的LLM展開研究,主要結論為: * LLM對事實知識邊界的感知是不準確的,并對自身結果過度自信。 * LLM不能充分利用它們所擁有的知識,而檢索增強可以一定程度上彌補這一缺陷。 * 提供高質量的輔助文檔時,LLM性能更佳且更加自信;LLM傾向于依賴所提供的輔助文檔生成反饋。輔助文檔與問題的相關性越強,LLM越自信,也更加依賴輔助文檔。
開放域問答的任務是指:給定自然語言中的問題和維基百科等大型文檔集,模型需要使用所提供的語料庫生成答案。在過去的研究中,通常先通過檢索模型獲得相關的輔助文檔,再通過閱讀模型提取答案。在LLM時代,LLM可以使用輸入提示,以端到端的方式直接解決開放域問答任務:。當引入檢索增強輔助LLM生成時,一個典型的方法是設計合適的指令格式,引導LLM依據檢索模型獲得的輔助文檔來生成答案:。
基于上述任務,我們主要設計了三個任務:問答任務(QA),先驗判斷(Priori judgement),及后驗判斷(Posteriori judgement)。前者用于評估LLM的開放領域問答能力,而后兩者用于評估LLM感知自身知識邊界的能力。圖1展示了提示及對應的任務。
圖1 實驗設置及提示示意圖 問答任務。在問答任務中,我們通過設計合適的問答提示,引導LLM順從地回答問題,以評估其問答能力。其中包括LLM直接回答和LLM借助參考文檔回答兩種任務。在評估指標方面,我們使用Exact Match(EM)和 F1 來匯報模型性能。 先驗判斷。要求LLM判斷它們是否能夠提供問題的答案。我們引導LLM基于已有的自身知識或結合參考文檔,判斷其能否回答問題。并結合其問答任務上的回答結果,獲得其先驗放棄作答的可靠性。 后驗判斷。要求LLM判斷給定的答案是否正確。我們引導LLM基于自身知識或結合參考文檔,判斷其自身作答結果是否正確。通過答案本身是否正確,獲得其后驗評估的準確性。
實驗中,我們主要在提供無參考文檔、稀疏檢索結果、稠密檢索結果、稠密+稀疏檢索結果以及LLM利用其自身知識生成的文檔的情況下,完成上述三種任務。特別地,我們還基于稠密檢索模型的檢索結果,篩選出正類文檔、強相關負類文檔、弱相關負類文檔,以及從語料庫隨機獲得的隨機負類文檔,來更好地研究引入檢索對模型生成的影響。圖1展示了常規設置及檢索增強下的實驗設置。
本文以GPT系列的LLM:Davinci003(text-davinci-003)和ChatGPT(gpt-3.5-turbo)作為研究對象;分別在Natural Questions,TriviaQA和HotpotQA上展開實驗;稀疏檢索模型選擇BM25,稠密檢索模型選擇使用沒有重排序的RocketQAv2,我們選擇使用ChatGPT依據問題生成輔助文檔作為LLM生成的輔助文檔;選擇檢索結果中的前10個文檔作為參考文檔。具體實驗細節詳見論文。
實驗結果分析部分,我們繼續圍繞先前提出的三個問題展開:LLM感知其事實知識邊界的能力如何、檢索增強對LLM有什么影響、具有不同特征的輔助文檔如何影響LLM。
為了回答這個問題,我們依然從問答任務、先驗判斷、后驗判斷三個維度分析,并分別通過:問答任務準確性、先驗判斷的可靠性以及后驗判斷的準確率來衡量。 結論1:LLM對其事實知識邊界的感知不準確,并對自身結果過度自信。在表1中,我們發現,與之前的研究類似,即使在沒有輔助文檔的情況下,LLM仍然有較強的問答能力。 表1 LLM在三個數據集上的表現 先驗判斷上,LLM往往對自己的能力充滿自信,不愿意放棄回答問題。總的來說,答案的準確性通常與LLM的自信程度相關,但這種自信遠遠超過了他們的實際能力。LLM對自身能力的感知往往是不準確的,他們堅持回答的大多數問題都被錯誤地回答了(Right/G),而他們放棄回答的許多問題卻得到了正確的回答(Right/G)。 當我們引導LLM評估他們的答案以進行后驗判斷時,他們明顯傾向于認為自己的答案是正確的,這導致了Eval-Right值遠遠高出了EM值,隨之獲得了較低的Eval-Acc值,說明其判斷較為盲目且錯誤率較高。 此外,ChatGPT實現了比Davinci003更好的性能,但放棄率更高,這表明Davinci003在提供問題答案時比ChatGPT更自信。
3.2 檢索增強對LLM有什么影響?
通過引入2.2節提到的各類參考文檔,我們進行了問答實驗,評估LLM在引入檢索增強后的問答能力;與此同時,我們也引導LLM借助輔助文檔,同樣進行先驗和后驗判斷。 結論2:LLM不能充分利用它們所擁有的知識,而檢索增強可以一定程度上彌補這一缺陷。
表2 引入檢索增強后,LLM在三個數據集上的表現 在表2中,我們比較了利用不同檢索模型獲得的輔助文檔對LLM生成結果的影響。可以觀察到,在大多數情況下,提供輔助文檔時的性能優于無參考文檔時,并且將稠密和稀疏檢索的檢索結果組合為輔助文檔(dense+sparse)通常會獲得最佳性能。此外,盡管LLM在預訓練期間從包括維基百科在內的現有語料庫中學習了大量知識,向他們提供維基百科的輔助文檔仍可以提升其的問答能力。這樣表明LLM無法有效地利用他們的知識。Davinci003通過引入檢索增強的性能改進大大超過了ChatGPT。我們猜測,這種差異可能歸因于與Davinci003相比,ChatGPT理解長文本輸入的能力較弱。同時,我們觀察到,即使在整個過程中沒有訪問額外的語料庫的情況下,使用ChatGPT獲取輔助文檔仍能提升模型性能。我們將這種方法視為思維鏈方法(CoT),它首先引導LLM生成包含相關知識的文檔,再從中提取信息,獲得最終答案。 我們還觀察到,在TriviaQA上引入輔助文檔時,ChatGPT的性能有所下降。為了調查原因,我們檢查了ChatGPT引入參考文檔后將答案改錯的情況。據觀察,這些案例中有很大一部分是由于ChatGPT從輔助文檔中提取了錯誤的答案。鑒于ChatGPT在無參考文檔設置下,即可在TriviaQA上的表現出較好的性能,我們認為多個輔助文檔可能會引入顯著的噪聲,這也在一定程度上限制了檢索增強對LLM問答性能提升效果。 結論3:檢索增強提高了LLM感知其事實知識邊界的能力。 從表2中,我們發現在提供了稀疏或稠密檢索模型的輔助文檔后,LLM自我評估的準確性有所提高。具體而言,Right/G顯著增加,Right/G由于問答性能的顯著提高而減少或略有增加。結果表明,檢索增強后,LLM的先驗判斷更加準確。此外,Eval-Right顯著降低,這與實際精度更加一致,因而Eval-Acc顯著提升。結果表明,檢索增強還可以提高LLM后驗判斷的準確性。 為了進一步驗證其感知事實知識邊界的能力提升,我們利用先驗判斷確定是否引入檢索增強。具體來說,給定一個問題,若LLM放棄在無參考文檔情況下回答,則會引入相關文檔來生成答案;同樣,如果LLM在檢索增強設置下放棄回答某個問題,則應在沒有輔助文檔的情況下回答該問題。我們在ChatGPT上進行了實驗,使用了來自稠密檢索模型的輔助文檔。
圖2 不同的策略下,根據判斷結果動態引入檢索增強的結果 圖2比較了在不同的策略下,根據判斷結果動態引入檢索增強的結果。我們設置基線為無條件引入檢索結果時模型的性能(w/o judgement)。如使用沒有參考文檔輔助的先驗判斷進行決策(Zero-shot),與基線相比,回答準確性往往較低。而使用引入輔助文檔判斷時(Retrieval-augmented),準確性超過了總是引入檢索增強的基線。這一結果表明,在檢索增強的設置下,根據LLM的先驗判斷,動態引入LLM的輔助文檔來提供答案是有效的。這也進一步表明,檢索增強可以提高LLM對其知識邊界的認識。
圖3 輔助文檔數量對檢索增強LLM性能的影響 在圖3中,我們展示了輔助文檔數量變化對檢索增強LLM性能的影響。結果表明,隨著輔助文檔數量的增加,我們觀察到問答性能持續改善、LLM放棄率持續下降(變得更加自信),這種趨勢隨著輔助文檔的數量的增加而逐漸放緩。我們還觀察到,輔助文檔數量的增加所帶來的改進并不能歸因于召回率的提升。由于即使輔助都是正類文檔,提升輔助文檔數量仍然會提升回答準確率。此外,LLM似乎對輔助文檔的排序不敏感,因此即使輔助文檔被顛倒或打亂,性能也不會受到影響。 結論4:檢索增強可以改變LLM對不同問題類別的偏好。
圖4 在兩種問答設置下,LLM在不同問題類別中正確回答的比例 為了研究LLM處理不同特征問題的傾向,我們分別計算了LLM在不同問題類別中的回答準確性。如圖4所示,我們可以看到,LLM在處理“which”類別的問題時達到了最高的準確性,表明這類問題可能是LLM的強項。另一方面,LLM可能不足以滿足知識密集型場景中“why”的問題類型。引入檢索增強后,LLM的偏好發生了變化。LLM的總體回答準確率得到了提高,并且大多數類別的準確率成比例地增加。特別是,LLM在問題類型“who”上表現最好。然而,對于屬于“where”和“declare”類別的問題,ChatGPT的準確性會下降。這表明檢索增強不能有效地增強ChatGPT回答此類問題的能力。相比之下,Davinci003在所有類別的問題中都表現出了改進的準確性,展示了其利用檢索增強的卓越能力。
3.3 具有不同特征的輔助文檔如何影響LLM?
我們已經探討了檢索增強對LLM的性能和知識邊界的影響。通常,檢索結果由具有不同特征的文檔組成,這可能導致不同的檢索增強效果。為此,我們繼續研究輔助文檔的不同特征如何影響LLM。在我們的實驗中,我們通過以下因素來描述文檔特征:包括文檔和問題之間的相關性、文檔中是否存在答案以及正例文檔的數量和比例。 結論5:當提供更高質量的輔助文檔時,LLM在問答和知識邊界感知方面表現出更強的能力。 我們采用2.2節中的策略為每個問題生成五種類型的輔助文檔,表3顯示了Davinci003和ChatGPT的結果。我們可以看到,與使用檢索結果作為輔助文檔相比,使用高質量文檔作為輔助文檔會產生更好的性能。然而,如果使用低質量的文檔作為輔助文檔,包括強相關的負類文檔、弱相關的負類文檔和隨機負類文檔,則LLM的性能將劣于使用檢索結果作為輔助文檔。
表3 在NQ數據集上使用不同質量輔助文檔的生成結果 此外,LLM的放棄率隨著輔助文檔質量的提高而降低,這表明當使用高質量的輔助文檔進行增強時,LLM更加自信。有了更高質量的輔助文檔,LLM的Eval-Acc就會增加,這表明LLM在感知其知識邊界方面表現出更高的準確性。 結論6:LLM傾向于依靠給定的輔助文檔來回答。 基于上述觀察,當LLM使用低質量的輔助文檔生成反饋時,其性能不如基于其自身知識生成響應。這種現象表明LLM在生成過程中嚴重依賴于給定的支持文檔。我們還努力用更詳細的提示來指導LLM,使他們能夠在支持文檔質量較差的情況下在不增加檢索的情況下回答。然而,這種嘗試并沒有帶來任何明顯的提升。 結論7:LLM的自信程度和對輔助文檔的依賴程度取決于問題與輔助文檔之間的相關性。 根據輔助的獲得方法,不同文檔和問題之間的相關性可以高到低依次按以下順序排列:正例文檔>稠密檢索文檔>強相關負例文檔>弱相關負例文檔>隨機負例文檔。在表3中,我們觀察到LLM的相關性和置信度之間存在明顯的反比關系(即放棄回答并評估其答案正確的比率)。此外,使用與問題無關的隨機負類文檔作為輔助文檔的效果優于使用相關性更高的負類文檔(即強相關/弱相關的負類文檔)。這一觀察結果進一步表明,LLM在生成反饋時更關注相關文檔。
本文研究了LLM在開放領域問答上通過檢索增強對事實知識邊界的感知能力。我們提出了先驗和后驗判斷,除了問答外,還進行了檢索增強評估。我們得出了幾個主要結論: * LLM對自己回答問題的能力和答案的質量表現出盲目的信心,表明他們無法準確地感知自己的事實知識邊界; * LLM無法充分利用他們所擁有的知識,并且檢索增強的結合有效地增強了他們感知事實知識邊界的能力,從而提高了判斷能力。 * LLM在回答問題時往往嚴重依賴給定的檢索結果,而支持文檔的特征顯著影響了他們的依賴性。
根據這些發現,我們采用了一種簡單的方法:該方法不再一味地使用輔助文檔,而是基于先驗判斷動態地引入檢索。經驗證該方法很好地提升了性能。
原創作者:崔涵,宋巖奇 轉載須標注出處:哈工大SCIR
一個一直以來的共識是,模型的規模越大,模型在下游任務上的能力越多、越強。隨著最近的新的模型的提出,大規模的語言模型出現了很多超乎研究者意料的能力。我們針對這些在小模型上沒有出現,但是在大模型上出現的不可預測的能力——“涌現能力”做了一些歸納和總結,分別簡要介紹了涌現能力的定義、常見的激發手段和具體的分類和任務。
Kaplan J等人[1]在 2020 年提出縮放法則,給出的結論之一是:模型的性能強烈依賴于模型的規模,具體包括:參數數量、數據集大小和計算量,最后的模型的效果(圖中表現為loss值降低)會隨著三者的指數增加而線性提高(對于單個變量的研究基于另外兩個變量不存在瓶頸)。這意味著模型的能力是可以根據這三個變量估計的,提高模型參數量,擴大數據集規模都可以使得模型的性能可預測地提高。Cobbe等人[2]的工作提出縮放定律同樣適用于微調過程。
圖1:Loss值隨計算資源、數據規模大小和參數量的指數提升呈線性下降
縮放定律的一個重要作用就是預測模型的性能,但是隨著規模的擴大,模型的能力在不同的任務上并不總表現出相似的規律。在很多知識密集型任務上,隨著模型規模的不斷增長,模型在下游任務上的效果也不斷增加;但是在其他的復雜任務上(例如邏輯推理、數學推理或其他需要多步驟的復雜任務),當模型小于某一個規模時,模型的性能接近隨機;當規模超過某個臨界的閾值時,性能會顯著提高到高于隨機(如下圖所示)。這種無法通過小規模模型的實驗結果觀察到的相變,我們稱之為“涌現能力”。
在其他的學科中已經有很多與“涌現能力”相關的研究了,不同學科解釋的方式和角度也不盡相同。物理學中對“涌現能力”的定義[3]是:
當系統的量變導致行為的質變的現象(Emergence is when quantitative changes in a system result in qualitative changes in behavior)。 對于大規模語言模型的涌現能力,在 Jason Wei 等人的工作中[4]的工作中,給出的定義: 在小模型中沒有表現出來,但是在大模型中變現出來的能力"(An ability is emergent if it is not present in smaller models but is present in larger models.)。 涌現能力大概可以分為兩種:通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。
通過 prompt 激發大模型能力的方法最早在GPT3[5]的論文中提出提示范式的部分加以介紹:給定一個提示(例如一段自然語言指令),模型能夠在不更新參數的情況下給出回復。在此基礎上,Brown等在同一篇工作中提出了Few-shot prompt,在提示里加入輸入輸出實例,然后讓模型完成推理過程。這一流程與下游任務規定的輸入輸出完全相同,完成任務的過程中不存在其他的中間過程。 下圖展示了來自不同的工作的對于大模型的在few-shot下測試結果。其中,橫坐標為模型訓練的預訓練規模(FLOPs:floating point operations,浮點運算數。一個模型的訓練規模不僅和參數有關,也和數據多少、訓練輪數有關,因此用FLOPs綜合地表示一個模型的規模);縱軸為下游任務的表現。可以發現,當模型規模在一定范圍內時(大多FLOPs在10^22以內),模型的能力并沒有隨著模型規模的提升而提高;當模型超過一個臨界值時,效果會馬上提升,而且這種提升和模型的結構并沒有明顯的關系。 圖2:在普通prompt方式下,不同任務上的效果隨模型訓練的計算量的提升的變化
隨著對大規模語言模型的研究越來越深入,為大模型添加prompt的方式也越來越多,主要表現出的一個趨勢是,相比于普通的 few-shot 模式(只有輸入輸出)的 prompt 方式,新的方法會讓模型在完成任務的過程中擁有更多的中間過程,例如一些典型的方法:思維鏈(Chain of Thought)[6]、寄存器(Scratchpad)[7]等等,通過細化模型的推理過程,提高模型的下游任務的效果。 下圖展示了各種增強提示的方法對于模型的作用效果,具體的任務類型包括數學問題、指令恢復、數值運算和模型校準,橫軸為訓練規模,縱軸為下游任務的評價方式。與上圖類似,在一定的規模以上,模型的能力才隨著模型的規模突然提高;在這個閾值以下的現象則不太明顯。當然,在這一部分,不同的任務采用的激發方式不同,模型表現出的能力也不盡相同,我們會在下文分類介紹。
圖3:在增強的prompt方式下,一些復雜任務的效果隨模型訓練的計算量提升而提升
在這一部分,我們并沒有沿用Jason Wei 等人[4]的工作中以使用方法分類的脈絡,因為同一種方式激發出的能力可能能應用于多個任務,多種激發方式也可能只是不同程度地提升同種能力;我們采用Yao等人[8]的方式,從能力出發,對不同的方法激發出的能力和激發效果進行總結。
大規模的語言模型展現出了優秀的上下文學習能力(In-context learning)。這種能力并非大模型專屬,但是大模型的足夠強大的上下文學習能力是之后各種涌現能力激發的基礎。類似于無監督的預測,在上下文學習過程中,不需要對模型進行參數調整,只需要在輸入測試樣例之前輸入少量帶有標注的數據,模型就可以預測出測試樣例的答案。 有關上下文學習的能力來源仍然有很多討論。在 Min等人[9]的實驗中,分析了上下文學習能力的作用原理。實驗表明,上下文學習的過程中,prompt中的ground truth信息并不重要,重要的是prompt中實例的形式,以及輸入空間與標簽空間是否與測試數據一致。Xie 等人的工作[10]將上下文學習的過程理解為一個貝葉斯推理的過程,在in-context learning的過程中,模型先基于prompt推測concept,然后基于concept和prompt生成output。在對多個樣例進行觀測的過程中,prompt中的數據會給concept提供“信號”(與預訓練過程中的相似之處)和“噪聲”(與預訓練過程分布差別較大之處),當信號大于噪聲時,模型就可以推理成功。
在問答和常識推理任務上需要模型具有較好的知識推理能力,在這種情況下,對大型模型進行提示不一定優于精調小型模型。但是大模型擁有更高的標注效率,因為:
在許多數據集中,為了獲得所需的背景/常識知識,小模型需要一個外部語料庫/知識圖譜來檢索,或者需要通過多任務學習在增強的數據上進行訓練
對于大型語言模型,可以直接去掉檢索器,僅依賴模型的內部知識,且無需精調
圖4:之前的需要外部檢索的SOTA和GPT-3的性能對比
上表來自于 Yu等人[11]的工作。如表中所示,雖然在常識/開放域問答任務上GPT-3 并沒有明顯優于之前的精調模型,但它不需要從外部文檔中檢索,因為其本身就包含了知識。
為了理解這些結果的重要性,我們可以回顧一下NLP的發展歷史:NLP 社區從一開始就面對著如何有效編碼知識的挑戰。研究者們一直在不斷探索如何把知識保存在模型外部或者內部的方法。上世紀九十年代以來,研究者們一直試圖將語言和世界的規則記錄到一個巨大的圖書館中,將知識存儲在模型之外。但這是十分困難的,畢竟我們無法窮舉所有規則。因此,研究人員開始構建特定領域的知識庫,來存儲非結構化文本、半結構化(如維基百科)或完全結構化(如知識圖譜)等形式的知識。通常,結構化知識很難構建,但易于推理,非結構化知識易于構建,但很難用于推理。然而,語言模型提供了一種新的方法,可以輕松地從非結構化文本中提取知識,并在不需要預定義模式的情況下有效地根據知識進行推理。下表為優缺點對比:
構建推理結構化知識難構建需要設計體系結構并解析容易推理有用的結構已經定義好了非結構化知識容易構建只存儲文本即可難推理需要抽取有用的結構語言模型容易構建在非結構化文本上訓練容易推理使用提示詞即可
在 2018 年至 2022 年期間,NLP、CV 和通用機器學習領域有大量關于分布偏移/對抗魯棒性/組合生成的研究,人們發現當測試集分布與訓練分布不同時,模型的行為性能可能會顯著下降。然而,在大型語言模型的上下文學習中似乎并非如此。
圖5: GPT-3的同分布和不同分布之間的對比,以及和RoBERTa的對比 上圖來自Si等人[12]在2022年的研究,在此實驗中,同分布情況下基于prompt的 GPT-3 的效果并沒有精調后的 RoBERTa要好。但它在三個其他分布(領域切換、噪聲和對抗性擾動)中優于 RoBERTa,這意味著 GPT3 更加魯棒。
圖6:不同復雜程度的提示在不同分布中對模型效果的影響 此外,即使存在分布偏移,好的提示詞所帶來的泛化性能依舊會繼續保持。比如Fu 等人[13]2022年的研究(上圖所示),輸入提示越復雜,模型的性能就越好。這種趨勢在分布轉移的情況下也會繼續保持:無論測試分布與原分布不同、來自于噪聲分布,或者是從另一個分布轉移而來的,復雜提示始終優于簡單提示。
復雜推理能力包含若干方面,如數學推理能力、代碼生成、腳本生成等等,以下的介紹我們以數學推理能力為例。數學推理的一個典型的數據集是GSM8K,其由8.5K個人工標注的高質量的小學數學問題組成。數據集的標注內容不僅包含最終結果,還包含得到結果的2~8個推理步驟。
在最開始的GPT3的論文中,對于這個任務的學習方式仍然是微調的方式,得到的結果基本符合縮放定律。作者在論文里得出一個結論:
175B的模型仍然需要兩個額外數量級的訓練數據才能達到80%的準確率。 但是在之后的工作中,通過其他的方式大大提高了該任務上的結果。Wei等人[6]通過思維鏈的方式,將540B的PaLM模型上的準確率提高到56.6%,這一過程并沒有微調,而是將8個提示示例作為prompt,通過few-shot的方式激發模型的推理能力。在此基礎上,Wang等人[14]通過多數投票的方式,將這一準確率提高到74.4%。Yao等人[15]提出Complexity-based Prompting,通過使用更復雜、推理步驟更多的樣例作為prompt,進一步提高模型的效果。在此之外,數據集的難度也越來越高:Chung等人[16]將測試范圍擴展到高中的各個學科;Minerva[17]的工作將測試范圍擴展到大學的各個學科;Jiang等人[18]進一步將測試范圍擴展到國際數學奧林匹克問題上。
我們看到,從涌現能力的角度講,模型在在達到一定規模后,用恰當的方式激發出的性能確實遠遠超過縮放法則所預測的效果;與此同時,各種方法都是few-shot或zero-shot的方式,需要的數據也更少。現在并沒有太多工作能夠直接對比在同樣的足夠大的模型上,微調和prompting的方式的性能差距;但是在下游任務數據集的規模往往遠小于模型充足訓練所需要的數據規模的情境下,利用prompting激發模型本來的能力確實能夠顯著提高效果,這也是目前大多數任務面臨的情況。
在斯坦福大學最新的工作[19]中指出,大模型的涌現能力來自于其不連續的評價指標,這種不連續的評價指標導致了模型性能在到達一定程度后出現“大幅提升”。如果換成更為平滑的指標,我們會發現相對較小的模型的效果也并非停滯不前,規模在閾值以下的模型,隨著規模的提高,生成的內容也在逐漸靠近正確答案。 為了驗證這一觀點,斯坦福的研究人員做了兩組實驗,第一組是將NLP中不連續的非線性評價指標轉為連續的線性評價指標,結果如下圖所示,模型的涌現能力消失了(從圖2到下圖)。 圖7:不同類型指標下,不同規模的模型的性能對比。當換為更加平滑的指標后,小模型的性能也隨著規模擴大而逐步提高 第二組實驗是將CV任務中的連續指標轉換為了類似NLP中的不連續指標,結果如下圖所示,CV任務中也出現了涌現能力:
圖8:更換指標之后,cv任務中的模型規模與模型效果之間的關系。當換為不平滑指標后,cv任務中的模型也出現類似的“涌現能力”
因此LLM中的涌現能力到底是什么,又是如何出現的,依然值得研究者們研究。
本文簡要介紹了涌現能力,具體包括涌現能力之前的縮放法則,涌現能力的定義,涌現能力的分類,還簡要介紹了不同涌現能力的典型激發方法。當然,歸根結底,“涌現能力”只是對一種現象的描述,而并非模型的某種真正的性質,關于其出現原因的研究也越來越多。現有的一些工作認為,模型的涌現能力的出現是和任務的評價目標的平滑程度相關的。在之后的工作中,更好的評級方式,更高的數據質量,更出乎人意料的prompt方式,都可能會更進一步提高模型的效果,并讓觀測到的效果得到更客觀的評價。
[1] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020. [2] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems. [3] Philip W. Anderson. More is different: Broken symmetry and the nature of the hierarchical structure of science. Science, 177(4047):393–396, 1972. [4] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022. [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022. [7] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. [8] Fu, Yao; Peng, Hao and Khot, Tushar. (Dec 2022). How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources. Yao Fu’s Notion [9] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022. [10] Xie S M, Raghunathan A, Liang P, et al. An explanation of in-context learning as implicit bayesian inference[J]. arXiv preprint arXiv:2111.02080, 2021. [11] Yu W, Iter D, Wang S, et al. Generate rather than retrieve: Large language models are strong context generators[J]. arXiv preprint arXiv:2209.10063, 2022. [12] Si C, Gan Z, Yang Z, et al. Prompting gpt-3 to be reliable[J]. arXiv preprint arXiv:2210.09150, 2022. [13] Fu Y, Peng H, Sabharwal A, et al. Complexity-based prompting for multi-step reasoning[J]. arXiv preprint arXiv:2210.00720, 2022. [14] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models. [15] Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning. [16] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models. [17] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models. [18] Jiang et. Al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs. [19] Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage?[J]. arXiv preprint arXiv:2304.15004, 2023. 本期責任編輯:張 宇本期編輯:李寶航
編譯 | 程昭龍
審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。
簡介
單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。
現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。
隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。
最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。
為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。
圖1 uniPort算法概述
結果
uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。
作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。
uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。
作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。
圖2 uniPort集成了配對的PBMC數據集
除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。
圖3 uniPort集成了非配對的小鼠脾臟數據集
uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。
在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。
圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據
uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。
在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。
uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。
為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。
圖5 uniPort為MERFISH數據插補
uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。
uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。
正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。
uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。
大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。
圖6 uniPort識別空間轉錄組學數據中的標志性結構
uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。
通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。
為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。
圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型
總結
本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。
uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。
在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。
由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。
與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。
參考資料
Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8
數據
代碼
編譯 | 沈祥振 審稿 | 夏忻焱 今天為大家介紹的是來自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇關于人工智能對于基因組學的可解釋性的研究的綜述。基于深度學習的人工智能(AI)模型現在代表了基因組學研究中進行功能預測的最先進水平。然而,模型預測的基礎往往是未知的。對于基因組學研究人員來說,這種缺失的解釋性信息往往比預測本身更有價值,因為它可以使人們對遺傳過程有新的認識。作者回顧了可解釋人工智能(xAI)新興領域的進展,以啟發生命科學研究人員對復雜深度學習模型的洞察力。之后,作者分類討論了模型解釋的方法,包括直觀地理解每種方法的工作原理及其在典型高通量生物數據集中的基本假設和局限性。
在接下來的章節中,作者首先介紹了關于深度學習方法在調節基因組學中如何使用的基礎知識,然后對四種解釋方法進行了分類:基于模型的解釋、影響的數學傳播、特征之間相互作用的識別以及透明模型的先驗知識的使用(圖1)。在整個綜述中,作者使用了調控基因組學領域的例子,其所提出的概念可以廣泛推廣。
圖1:可解釋人工智能的概念方法
深度學習之于調控基因組學
神經網絡和序列-活性模型
深度神經網絡(DNN)模型已成為調控基因組學預測模型的主要類型。本綜述重點介紹基于神經網絡的序列-活性模型。這些模型以假定的調控DNA序列(通常為100–10000 bp)為輸入,旨在預測序列活性的某些動態特性(即細胞或環境特異性)。目前對于如何為給定任務設計最佳神經網絡結構沒有共識,因此研究人員通常使用多種結構進行實驗。
DNN模型為何解釋困難?
作者總結了DNN模型的三大挑戰。首先,DNN對潛在特征表示進行編碼的高容量導致了最先進的預測精度,但它也面臨著識別模型所學習的特征和特征組合的挑戰。第二個挑戰是從局部解釋(一次估計給定輸入示例上的特征重要性)到對整個數據集上的重要特征組合的全局理解。另一個關鍵困難是無法系統地評估解釋策略,首先是因為缺乏基準數據集,其中真正的重要特征集是提前知道的,其次是因為各種算法所做假設的有效性取決于輸入數據集的屬性和所涉及的生物過程。
基于模型的解釋
模型解釋的直觀方法是檢查網絡的各個組件,以了解它們代表的(隱藏的)模式及其對預測性能的貢獻。可以考慮基于模型的解釋的兩種主要方法類別:最簡單的方法是直接檢查隱藏神經元的活動,以提取一組相關特征;第二種方法是使用注意機制訓練模型,通過一組學習的注意權重直接產生每個輸入特征的相關性度量。在本節中,作者描述了如何將這些方法應用于序列-活性模型,以了解網絡第一層學習到的單個特征。
解釋第一層卷積節點
在卷積序列-活性模型中,第一層神經元(濾波器)捕獲短序列模體,編碼在卷積權重矩陣中。從數學上講,將卷積權重矩陣應用于序列所執行的操作相當于使用位置權重矩陣(PWM)掃描序列(圖2a)。在實踐中,常見的策略是搜索在選定閾值以上激活給定濾波器的子序列,并根據激活子序列集的對齊情況直接構建PWM(圖2b)。由于神經網絡在設計上過于參數化,僅僅存在PWM并不意味著它是一個預測性、有趣或有用的特征。因此,我們需要測量PWM對模型預測的貢獻。在基于節點的策略中,這是通過依次對每個濾波器進行置零,并測量這種置零對模型預測結果的影響來實現的(圖2c)。
圖2:基于模型的解釋方法
用于可視化特征重要性的注意權重機制
先前的實證研究表明,將注意力權重按順序直接解釋為活動設置方面有一定的前景。注意力可以被視為一種權重正則化形式,其為輸入序列引入了權重,以對輸入中的位置進行優先級排序,盡可能保留相關信息以進行處理。注意力機制可以提高神經網絡模型的性能和可解釋性。顧名思義,當與模型訓練相結合時,注意力權重迫使模型在學習隱藏特征的同時關注輸入的有限部分。在序列-活性模型的情況下,可以直接檢查注意力向量,以幫助識別在模型內部表示中起關鍵作用的輸入部分(圖2d)。
影響的數學傳播
該算法通過在模型中傳播擾動數據并觀察對預測的影響,直接對輸入示例進行操作。基于傳播的歸因方法可以分為兩大類:向前和向后。在本節中,作者討論了最流行的歸因方法背后的概念基礎、它們的缺點以及遺傳數據背景下的緩解策略。
影響的正向傳播
本節主要介紹了硅誘變(ISM)策略。ISM與圖像像素翻轉類似,考慮翻轉與生物序列核苷酸相對應的元素,以確定訓練模型的特征重要性(圖3a)。與單核苷酸ISM不同,輸入序列的較大延伸可以改變,以識別依賴于重要堿基對組合的重要基序(類似于實驗室掃描誘變)(圖3b)。
影響的反向傳播
由于生成準確統計數據需要大量的前向傳遞,因此前向傳播方法的計算成本很高。反向傳播方法是為了解決這個問題而開發的。這些方法通過評估給定輸入序列下模型F的導數來近似ISM,以計算序列的微小變化對模型預測的影響(圖3c)。
從局部傳播結果到全局解釋
為了從基于傳播的方法生成的逐序列屬性圖中進行概括,以揭示對重要模體的全局理解,需要聚合許多輸入示例的結果。可以使用TFMoDisco作為針對DNA輸入序列的方法。
圖3:基于傳播的解釋方法
特征之間相互作用的識別
在基因調控的背景下,人們普遍認識到,轉錄因子(TF)之間的相互作用可以解釋除單獨附著于每個TF之外的活動。本節描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。
基于模型的交互識別
檢查較深層的神經元是一個明顯策略。神經網絡的較深層往往會聚合在較低層中學習到的特征。搜索那些最大限度地激活給定隱藏神經元的輸入,效果最好。可以應用自注意機制模型來實現對神經元重要程度的量化。
通過數學傳播解釋相互作用
基于ISM的傳播方法(向前和向后)可以用于解釋模型內的交互。但該領域應用ISM的計算成本非常高。可以以受限的方式應用來降低其計算成本,這些方式包括:將兩個基序插入隨機序列,對包含特定基序對的序列進行有針對性的分析(圖4a);正向和反向傳播方法的折衷結合,即深層特征交互圖(DFIM)(圖4b)。
圖4:揭示模型特征之間相互作用的方法
透明模型中先驗知識的應用
透明神經網絡模型是這樣一種模型,其中隱藏的節點被構造成在物理上對應于粒度級別上的生物單元,這有助于解釋更深層的隱藏節點(圖5)。圖5a展示了根據已知的TF綁定基序初始化過濾器,以演示如何使用先驗知識來設計網絡架構,構建具有固有可解釋單元的模型。圖5b展示了如何檢查訓練的模型,以深入了解給定上下文中存在的此類先驗交互作用。
圖5:利用先驗知識構造透明神經網絡
結論和未來展望
在本綜述中,作者重點介紹了序列-活性模型,其所述的xAI方法可廣泛應用于基因組學的深度學習應用。模型解釋的目的和效用在很大程度上取決于目標應用,因此應該根據目標指導解釋方法的選擇。解釋模型有其實際意義,但也不可盲目相信。解釋模型可用于識別訓練數據中存在的虛假相關性,防止預測模型通過學習非生物“捷徑”實現高精度。然而,解釋模型的“不可識別性”阻礙了解釋的可靠性。因此,必須謹慎使用解釋模型,并理解某些特性以及由此產生的特征可能是偶然的結果。對于哪種xAI方法最有效還沒有達成共識,作者預計,隨著這一領域的成熟,最佳實踐將得到確立,并集成到可訪問的分析工具中。隨著生物數據集的規模和可用性的增長,使用模型研究特征之間的復雜關系變得越來越重要。從這些模型中提取洞察力需要有效的xAI方法。因此,xAI將在基因組學中發揮越來越重要的作用。 參考資料 Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). //doi.org/10.1038/s41576-022-00532-2
本文探討了大型人工神經網絡學習的語言結構知識,通過自監督訓練,該模型簡單地嘗試預測給定上下文中的一個掩蔽詞。人類的語言交流是通過詞語序列進行的,但是語言理解需要構建豐富的從未被明確觀察到的層次結構。這一機制一直是人類語言習得的一個主要奧秘,而工程工作主要是通過在樹堆上有監督的句子學習來完成的,這些句子是手寫標記的這種潛在結構。然而,我們證明,現代的深度語境化語言模型在沒有任何明確監督的情況下學習這種語言結構。我們開發了識別人工神經網絡中涌現的語言層次結構的方法,并證明了這些模型中的組件關注于語法關系和回指共指。事實上,我們表明,在這些模型中學習的嵌入的線性轉換捕獲了解析樹的距離,達到了令人驚訝的程度,允許大致重建通常由語言學家假定的句子樹結構。這些結果有助于解釋為什么這些模型在許多語言理解任務中帶來了如此大的改進。