在許多科學領域,大型語言模型(LLMs)徹底改變了處理文本和其他數據模式(例如分子和蛋白質)的方式,在各種應用中實現了卓越的性能,并增強了科學發現過程。然而,以往關于科學LLMs的綜述往往集中在一到兩個領域或單一模式上。本文旨在通過揭示科學LLMs在其架構和預訓練技術方面的跨領域和跨模式連接,提供一個更全面的研究視角。為此,我們全面調查了250多種科學LLMs,討論了它們的共性和差異,并總結了每個領域和模式的預訓練數據集和評估任務。此外,我們還探討了LLMs如何部署以促進科學發現。與本綜述相關的資源可在//github.com/yuzhimanhua/Awesome-Scientific-Language-Models獲取。
大型語言模型(LLMs)的出現(Zhao et al., 2023c)為自然語言處理(NLP)帶來了新的范式,取代了為每個任務設計的專用模型,使用統一的模型來有效地解決廣泛的問題。在科學領域,這種范式不僅重塑了人們處理與自然語言相關任務(如科學論文、醫療記錄和氣候報告)的策略,還激發了處理其他類型數據(如分子、蛋白質、表格和元數據)的類似想法。除了理解現有的科學數據外,LLMs還展示了通過生成、規劃等方式加速科學發現的潛力(Wang et al., 2023c; Zhang et al., 2023f; Wang et al., 2024b)。 鑒于LLMs在各種科學領域和多種模式中的廣泛而深遠的影響,有必要全面回顧這一方向的相關工作。然而,現有的科學LLMs綜述通常只關注一到兩個領域(如生物醫學(Wang et al., 2023a; He et al., 2024; Pei et al., 2024)和化學(Xia et al., 2023; Zhang et al., 2024c))或單一模式(如文本(Ho et al., 2024))。事實上,如果我們全面觀察研究領域,可以看到不同領域和模式中開發LLMs所使用的類似和相互關聯的技術。
圖1展示了三種主要的科學LLM預訓練策略(即第1到3列),每種策略我們給出4個例子(即A到D類型)。在第1列,繼BERT(Devlin et al., 2019)和RoBERTa(Liu et al., 2019)之后,現有研究使用掩碼語言模型(MLM)來預訓練編碼器語言模型。這里,輸入可以是自然序列(如各領域的論文、FASTA格式(Lipman and Pearson, 1985)的蛋白質/DNA/RNA序列)或人為線性化的序列(如SMILES格式(Weininger, 1988)的分子、引文圖中的場所/作者/參考節點序列)。
在第2列,受到GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023a)的啟發,先前的研究采用下一個標記預測來預訓練(編碼器-)解碼器語言模型,其中一些進一步采用指令微調和偏好優化(Ouyang et al., 2022)。除了純文本輸入(如知識庫或考試中的問答對)外,我們看到更多序列化復雜科學數據的方法,如展平表格單元格并使用粒子坐標描述晶體。即使是圖像,在數學(Gao et al., 2023)和生物醫學(Li et al., 2023a)中也有研究利用視覺編碼器將圖像投射到幾個視覺標記上,并將它們作為線性化的LLM輸入預先附加到文本標記前。
在第3列,繼DPR(Karpukhin et al., 2020)和CLIP(Radford et al., 2021)之后,兩個編碼器通過對比學習預訓練,以使相關數據對在潛在空間中更接近。
當兩種模態都是序列化的(例如文本-文本或文本-蛋白質)時,模型建立在兩個LLM編碼器之上。當我們希望保持一種模式的非序列性質時(例如分子圖(Edwards et al., 2021)、胸部X光(Zhang et al., 2022)和航拍圖像(Yan et al., 2024)),可以采用相應的圖形或圖像編碼器。總之,跨領域跨模式的綜述將更準確地描繪不同科學LLMs之間的聯系,展示它們的共性,并可能指導其未來的設計。
貢獻:在本文中,受上述討論的啟發,我們系統地調查了250多種科學LLMs,涵蓋了各個領域(如一般科學、數學、物理、化學、材料科學、生物學、醫學和地球科學)、模式(如語言、圖形、視覺、表格、分子、蛋白質、基因組和氣候時間序列)和規模(從約1億到約1000億參數)。對于每個領域/模式,我們研究了科學LLMs常用的預訓練數據集、模型架構和評估任務。基于我們的動機,當我們詳細討論模型架構時,會將它們與圖1聯系起來,構建跨領域跨模式的連接。此外,我們在表A1-表A6(附錄A)中提供了這些科學LLMs的結構化總結。此外,對于不同領域,我們介紹了LLMs如何通過增強科學發現過程的不同方面和階段(如假設生成、定理證明、實驗設計、藥物發現和天氣預報)來促進科學進步。
科學LLMs最常用的預訓練語料庫是來自書目數據庫的研究論文,例如AMiner(Tang et al., 2008)、Microsoft Academic Graph(MAG)(Sinha et al., 2015)和Semantic Scholar(Ammar et al., 2018)。其中一些來源(如S2ORC(Lo et al., 2020))包含論文的全文信息,而其他來源則僅有標題和摘要。
科學LLMs的發展與通用領域LLMs的發展具有相似性。具體來說,早期模型在預訓練期間以自監督的方式利用論文文本,旨在從大規模未標注語料庫中獲取科學知識。例如,掩碼語言模型(MLM)是基于BERT骨干的科學LLMs的默認預訓練任務(圖1中的類型1.A,如SciBERT(Beltagy et al., 2019));下一個標記預測被廣泛用于基于GPT的科學LLMs(圖1中的類型2.A,如SciGPT(Luu et al., 2021))。最近,受到LLMs可以被訓練成遵循自然語言指令這一事實的啟發(Wei et al., 2022a;Ouyang et al., 2022),研究人員更多地投入于通過指令調優LLMs以解決復雜的科學問題(類型2.A,如Galactica(Taylor et al., 2022)和SciGLM(Zhang et al., 2024a))。指令調優數據通常來自下游任務的數據集,如考試問答(Welbl et al., 2017),并由人類或現有的LLMs(如GPT-4(Achiam et al., 2023))進一步過濾/增強。
通用科學LLMs通常在常見的NLP任務上進行評估,例如命名實體識別(NER)、關系抽取(RE)(Luan et al., 2018)、問答(QA)(Wang et al., 2023g)和分類(Cohan et al., 2019)。
除了純文本外,科學論文還關聯有豐富的元數據,包括出版地點、作者和引用(Zhang et al., 2023h)。這些元數據將論文連接成一個圖,補充文本信號以表征論文語義。為了利用元數據,一些研究(類型1.B,如OAG-BERT(Liu et al., 2022b))將論文文本與出版地點/作者作為輸入進行MLM;其他研究(類型3.A,如SPECTER(Cohan et al., 2020))將引用鏈接作為監督,訓練LLMs使鏈接的論文在嵌入空間中更接近。最近的方法進一步修改了LLMs中的Transformer架構,使用適配器(Adapters)(Singh et al., 2023)、嵌入GNN的Transformers(Jin et al., 2023b)和專家混合Transformers(Mixture-of-Experts Transformers)(Zhang et al., 2023g)以更好地捕捉圖信號。
圖感知的科學LLMs通常在涉及兩個文本單元(如論文-論文或查詢-論文)關系的任務上進行評估,包括鏈接預測、檢索、推薦和作者名消歧。SciDocs(Cohan et al., 2020)和SciRepEval(Singh et al., 2023)是廣泛采用的基準數據集。
高性能的科學LLMs可以在整個科學發現過程中與研究人員協同工作。在后續章節將詳細討論領域特定的應用,這里強調LLMs在頭腦風暴和評估中的一般用途:Lahav et al.(2022)將LLMs集成到搜索引擎中,用于發現科學挑戰和方向;Wang et al.(2023f)和Baek et al.(2024)利用LLMs生成基于先前文獻的新科學思想;Zhang et al.(2023i)依靠LLMs為每篇投稿找到專家評審;Liu and Shah(2023)、Liang et al.(2023a)和D'Arcy et al.(2024)探索了GPT-4在提供研究論文反饋以促進自動評審生成方面的能力。
3.1 語言
數學LLMs的預訓練文本語料庫可以分為兩類:(1)多項選擇問答,代表數據集包括MathQA(Amini et al., 2019)、Ape210K(Zhao et al., 2020)和Math23K(Wang et al., 2017);(2)生成式問答,代表數據集包括GSM8K(Cobbe et al., 2021a)、MATH(Hendrycks et al., 2021)和MetaMathQA(Yu et al., 2023b)。
類似于通用科學LLMs,早期數學LLMs的骨干模型是BERT(類型1.A,如GenBERT(Geva et al., 2020)和MathBERT(Shen et al., 2021))。這些模型大多通過MLM進行訓練,唯一的例外是BERT-TD(Li et al., 2022c),其中采用了對比損失。對于基于GPT的數學LLMs(類型2.A,如GSM8K-GPT(Cobbe et al., 2021b)和NaturalProver(Welleck et al., 2022)),我們發現預訓練任務多樣化:監督微調、下一個標記預測和指令微調。最新的數學LLMs(類型2.A,如Rho-Math(Lin et al., 2024a)和MAmmoTH2(Yue et al., 2024))基于LLaMA并被訓練成遵循自然語言指令。然而,當可用的預訓練數據集非常龐大(如550億標記)時,下一個標記預測仍然是唯一的預訓練任務(Azerbayev et al., 2023;Lin et al., 2024a)或用于構建基礎模型的輔助任務(Shao et al., 2024;Ying et al., 2024)。
問答(QA)和數學世界問題(MWP)一直是最常見的評估任務。此外,定量推理包含更難的問題,因為模型必須提供完整且自洽的解決方案而不依賴外部工具(Shao et al., 2024;Lin et al., 2024a)。GSM8K和MATH在問答中占主導地位,而MathQA和Math23K則在數學世界問題中占主導地位。對于定量推理,MMLU-STEM(Hendrycks et al., 2020)和Big-Bench Hard(Suzgun et al., 2023)是最廣泛采用的。
幾何學是數學中最重要的分支之一,它通過文本和圖表共同表達。因此,幾何LLMs必須涉及視覺模式。幾何LLMs最常用的預訓練數據集包括Geometry3K(Lu et al., 2021)和GeoQA(Chen et al., 2021),它們都包含多項選擇的幾何問題。
將視覺模式融入LLMs的關鍵是對圖像進行編碼并獲得線性化的視覺表示。具體而言,InterGPS(Lu et al., 2021)(類型2.D)使用RetinaNet(Lin et al., 2017)將圖像轉換為一組關系,然后應用BART(Lewis et al., 2020a)生成解決方案;G-LLaVA(Gao et al., 2023)(類型2.D)通過預訓練的視覺Transformer(ViT)對視覺輸入進行編碼,將視覺嵌入與文本嵌入連接,然后將連接結果輸入LLaMA-2(Touvron et al., 2023b)。這些模型默認通過序列到序列任務進行預訓練,其中問題作為輸入,真實答案和可選的推理作為輸出。為了更好地進行視覺建模,可以選擇添加輔助損失,如掩碼圖像建模、圖像構建或文本-圖像匹配。
幾何LLMs通過解決幾何問題進行評估,模型需要在給定圖表及其說明、問題和答案選項的情況下選擇正確答案。著名的評估數據集包括Geometry3K(Lu et al., 2021)、GEOS(Seo et al., 2015)和MathVista(Lu et al., 2023b)。
大量數學知識以表格數據的形式存儲。對于“表格”模式,預訓練的著名資源包括WikiTableQuestions(Pasupat and Liang, 2015)、WikiSQL(Zhong et al., 2017)和WDC Web Table(Lehmberg et al., 2016)。
表格中的挑戰與圖表中的相似,即獲得線性化的表格表示。在大多數情況下,表格被壓縮成線性文本序列,作為上下文的一部分,并在模型輸入中加入問題文本。作為這一研究領域的首批工作之一,TAPAS(Herzig et al., 2020)(類型1.A)采用MLM對象來預測文本和表格上下文中的掩碼標記。最近的發展(Li et al., 2023c;Zhang et al., 2024d)類似于TableLlama(Zhang et al., 2023d)(類型2.B)的設計,以LLaMA-2為骨干,并以指令微調作為預訓練任務。
表格LLMs通過表格問答進行驗證,模型需要在給定表格結構、數據值和問題文本的情況下生成正確答案。大多數現有研究在WikiTableQuestions和WikiSQL數據集上進行了評估。TableInstruct(Zhang et al., 2023d)是最新開發的綜合基準,集成了跨11個任務的14個數據集。
數學LLMs具有很大的潛力來輔助人類提供潛在的解決方案。例如,AlphaGeometry(Trinh et al., 2024)將LLM與符號推理引擎結合,LLM生成有用的構造,符號引擎應用形式邏輯來尋找解決方案。AlphaGeometry解決了國際數學奧林匹克競賽的30個經典幾何問題中的25個。Sinha et al.(2024)通過添加吳氏方法(Wu's method)(Chou, 1988)擴展了AlphaGeometry,進一步解決了30個中的27個,超過了人類金牌得主。FunSearch(Romera-Paredes et al., 2024)將LLM與程序搜索結合起來。FunSearch的一個顯著成就是能夠找到組合優化中帽子集問題的新解決方案。這些生成的解決方案比人類專家設計的更快更有效。在Li et al.(2024a)中,LLMs通過利用上下文學習和鏈式推理(Wei et al., 2022b)迭代提出和評估統計模型。
現有的物理LLMs主要集中在天文學和“語言”模式上。作為BERT的衍生產品,astroBERT(Grezes et al., 2021)(類型1.A)通過MLM和下一句預測進一步使用與天文學相關的論文進行預訓練。它在命名實體識別(NER)任務上進行評估。同樣,AstroLLaMA(Nguyen et al., 2023b)(類型2.A)使用來自arXiv的超過30萬篇天文學摘要對LLaMA-2進行微調。它在論文生成和論文推薦任務上進行評估。AstroLLaMA-chat(Perkowski et al., 2024)(類型2.A)是AstroLLaMA的聊天版本。它在GPT-4生成的特定領域對話數據集上持續訓練。
化學和材料科學領域的LLMs預訓練語料庫通常來自研究論文和數據庫(例如,Materials Project(Jain et al., 2013))。此外,最近的工作采用了從PubChem(Kim et al., 2019)、MoleculeNet(Wu et al., 2018)等來源派生的領域特定指令微調數據集(例如,MolInstructions(Fang et al., 2023a)和SMolInstruct(Yu et al., 2024))。
早期的化學LLMs大多采用中等規模的僅編碼器架構,通過MLM預訓練(類型1.A,如ChemBERT(Guo et al., 2022)、MatSciBERT(Gupta et al., 2022)和BatteryBERT(Huang and Cole, 2022))。這些模型通常在下游任務上進行評估,包括反應角色標注(Guo et al., 2022)和摘要分類(Gupta et al., 2022)。最近,研究人員更多地關注通過下一個標記預測和指令微調訓練的大規模僅解碼器LLMs(類型2.A)。示例包括ChemDFM(Zhao et al., 2024)、ChemLLM(Zhang et al., 2024b)和LlaSMol(Yu et al., 2024)。鑒于這些模型的廣泛推廣能力,它們在多樣化的任務集上進行評估,如名稱轉換(Kim et al., 2019)、反應預測(Jin et al., 2017)、逆合成(Schneider et al., 2016)、基于文本的分子設計(Edwards et al., 2022)和晶體生成(Antunes et al., 2023;Flam-Shepherd和Aspuru-Guzik, 2023;Gruver et al., 2024)。
圖是表征分子的合適數據結構(Jin et al., 2023a)。包含分子圖的流行數據集包括ChEBI-20(Edwards et al., 2021, 2022)、ZINC(Sterling和Irwin, 2015)和PCDes(Zeng et al., 2022)。 在某些場景中,分子圖與文本信息同時出現,因此現有工作探索了如何有效地編碼兩者。第一類模型采用GNN作為圖編碼器,LLM作為文本編碼器。兩種模式通過對比學習連接(Liu et al., 2023d)(類型3.C)。例如,Text2Mol(Edwards et al., 2021)使用GCN(Kipf和Welling, 2016)和SciBERT分別編碼分子及其相應的自然語言描述,以進行文本到分子的檢索。第二類模型同時使用LLM編碼文本和圖(Zeng et al., 2022)。圖可以線性化為SMILES字符串(Edwards et al., 2022)(類型2.C),或通過圖編碼器投射到虛擬標記上(Zhao et al., 2023a;Liu et al., 2023f)(類型2.D)。例如,3D-MoLM(Li et al., 2024b)使用3D分子編碼器將分子表示為標記,并與指令一起輸入LLaMA-2以進行分子到文本的檢索和分子描述。
補充文本和圖模式,分子圖像構成了化學中的視覺模式。現有工作采用類似于BLIP-2(Li et al., 2023b)的理念,將每個圖像表示為標記并輸入LLM(類型2.D)。例如,GIT-Mol(Liu et al., 2024)將包括圖和圖像在內的所有模式投射到潛在文本空間,并使用T5(Raffel et al., 2020)進行編碼和解碼。
不同于5.2節,本節介紹不含相關文本信息的分子模型。也就是說,受到LLMs啟發的類似方法被用來開發分子語言模型(Flam-Shepherd et al., 2022)。具體來說,大多數研究采用SMILES或SELFIES(Krenn et al., 2020)字符串作為分子的序列表示。類似于“語言”模式的趨勢,先驅分子LLMs關注雙向Transformer編碼器的表示學習(類型1.C,如SMILES-BERT(Wang et al., 2019)和MoLFormer(Ross et al., 2022))。例如,ChemBERTa(Chithrananda et al., 2020)采用與RoBERTa(Liu et al., 2019)類似的架構和預訓練策略。這些模型在分子理解任務中表現出色,如分子性質預測(例如毒性分類(Wu et al., 2018)和原子化能量回歸(Ramakrishnan et al., 2014))以及虛擬篩選(Riniker和Landrum, 2013)。后來的工作探索了以自回歸方式表示分子(類型2.C,如BARTSmiles(Chilingaryan et al., 2022)和ChemGPT(Frey et al., 2023))。例如,T5Chem(Lu和Zhang, 2022)采用T5骨干和序列到序列預訓練目標。這些模型在生成任務中進行評估,包括分子生成(Gaulton et al., 2017)、反應預測和逆合成。除了線性化分子,還有研究修改Transformer架構以接納分子圖,如MAT(Maziarka et al., 2020)和R-MAT(Maziarka et al., 2024)。
先前的研究表明,LLMs促進了自主化學研究。例如,Bran et al.(2024)提出了一個化學LLM代理ChemCrow,可以集成專家設計的工具用于有機合成、藥物發現和材料設計;Boiko et al.(2023)開發了一個由LLM驅動的智能系統Coscientist,可以設計、規劃和執行化學研究。LLMs還幫助藥物和催化劑設計。例如,ChatDrug(Liu et al., 2023e)探索了使用LLMs進行藥物編輯,采用提示模塊、領域反饋模塊和對話模塊;DrugAssist(Ye et al., 2023a)被提議為一種基于LLM的交互模型,通過人機對話進行分子優化;Sprueill et al.(2023, 2024)使用LLMs作為代理,通過蒙特卡羅樹搜索和原子神經網絡模型的反饋尋找有效催化劑。
生物醫學LLMs的預訓練語料庫包括研究文章(例如,來自PubMed的標題/摘要(Lu, 2011)和PMC的全文(Beck和Sequeira, 2003))、電子健康記錄(例如,MIMIC-III(Johnson et al., 2016),MIMIC-IV(Johnson et al., 2023))、知識庫(例如,UMLS(Bodenreider, 2004))以及健康相關的社交媒體帖子(例如,COVID-19推文(Müller et al., 2023))。最近的研究進一步從醫學考試問題、知識圖譜和醫生-患者對話中收集監督微調和偏好優化數據集。例子包括ChiMed(Ye et al., 2023b),MedInstruct-52k(Zhang et al., 2023e),以及BiMed1.3M(Acikgoz et al., 2024),其中許多包含非英語成分(例如中文和阿拉伯語)。
生物醫學LLMs發展的分水嶺時刻是十億參數架構和指令微調的出現。在此之前,探索了各種中等規模的骨干,包括基于編碼器的(類型1.A,例如,BioBERT(Lee et al., 2020),Bio-ELECTRA(Ozyurt, 2020),BioRoBERTa(Lewis et al., 2020b),BioALBERT(Naseem et al., 2022),以及Clinical-Longformer(Li et al., 2022a))和基于編碼器-解碼器的(類型2.A,例如,SciFive(Phan et al., 2021),BioBART(Yuan et al., 2022a),以及BioGPT(Luo et al., 2022))。這些模型的評估任務從生物醫學命名實體識別、關系抽取、句子相似度估計、文檔分類和問答(即BLURB基準(Gu et al., 2021))到自然語言推理(NLI)(Romanov和Shivade, 2018)和實體鏈接(Dogan et al., 2014)。分水嶺之后的趨勢是指令微調十億參數LLMs(類型2.A,例如,Med-PaLM(Singhal et al., 2023a),MedAlpaca(Han et al., 2023),以及BioMistral(Labrak et al., 2024))。相應地,評估任務變為單輪問答(Jin et al., 2021;Pal et al., 2022)和多輪對話(Wang et al., 2023h)。與此同時,有研究提出了專門針對生物醫學檢索任務的雙編碼器架構(類型3.A,例如,Jin et al., 2023c和Xu et al., 2024),其基準包括NFCorpus(Boteva et al., 2016),TREC-COVID(Voorhees et al., 2021)等。
生物醫學本體捕捉了實體之間的豐富關系。類似地,引用鏈接表征了生物醫學論文之間的連接。直觀上,共同利用文本和圖信息為問答中的多跳推理鋪平了道路。例如,Yasunaga et al.(2022a)提出使用LLM和GNN分別編碼文本和本體信號,并深度融合它們(類型3.C);Yasunaga et al.(2022b)將來自兩個關聯論文的文本段落連接起來,并將序列輸入LLM進行預訓練,這本質上是將元數據鄰居(即引用)作為上下文附加到MLM中(類型1.B)。這兩種方法在需要復雜推理的問答任務上展示了顯著的改進。
生物醫學文本-圖像對通常來自兩種來源:(1)醫學報告,如胸部X光片(例如,MIMIC-CXR(Johnson et al., 2019))和病理報告(Huang et al., 2023b);以及(2)從生物醫學論文中提取的圖表-標題對(例如,ROCO(Pelka et al., 2018)和MedICaT(Subramanian et al., 2020))。
大多數生物醫學視覺語言模型利用CLIP架構(Radford et al., 2021),其中一個文本編碼器和一個圖像編碼器通過對比學習共同訓練,將配對的文本和圖像映射得更近(類型3.D)。文本編碼器的選擇從BERT(Zhang et al., 2022)和GPT-2(Huang et al., 2023b)演變到LLaMA(Wu et al., 2023)和LLaMA-2(Liu et al., 2023b),而圖像編碼器則從ResNet(Huang et al., 2021)演變到ViT(Zhang et al., 2023c)和Swin Transformer(Thawkar et al., 2023)。MLM、掩碼圖像建模和文本-文本/圖像-圖像對比學習(即,通過在語言/視覺模式內創建增強視圖)有時作為輔助預訓練任務。除了CLIP,其他通用領域的視覺語言架構,如LLaVA(Li et al., 2023a)、PaLM-E(Tu et al., 2024)和Gemini(Saab et al., 2024)也被探索。例如,LLaVA-Med(類型2.D)將圖像編碼為幾個視覺標記,并將它們附加到文本標記之前作為LLM輸入。這些模型的評估任務包括圖像分類、分割、目標檢測、視覺問答、文本到圖像/圖像到文本的檢索和報告生成,其基準包括CheXpert(Irvin et al., 2019)、PadChest(Bustos et al., 2020)、SLAKE(Liu et al., 2021a)等。
FASTA格式(Lipman和Pearson, 1985)自然地將蛋白質表示為氨基酸序列,將DNA/RNA表示為核苷酸序列,使得模型可以將它們視為“語言”。這些序列的代表資源包括蛋白質的UniRef(Suzek et al., 2015)和SwissProt(Bairoch和Apweiler, 2000),DNA的GRCh38(Harrow et al., 2012)和1000 Genomes Project(Consortium, 2015),以及RNA的RNAcentral(Consortium, 2019)。
僅編碼器的蛋白質、DNA和RNA LLMs(類型1.D),如ESM-2(Lin et al., 2023b),DNABERT(Ji et al., 2021),和RNABERT(Akiyama和Sakakibara, 2022),采用類似BERT的架構,并以MLM作為預訓練任務(即預測掩碼氨基酸、核苷酸、k-mers或密碼子);僅解碼器的模型,如ProGen(Madani et al., 2023)和DNAGPT(Zhang et al., 2023a),利用類似GPT的架構,并以下一個標記預測作為預訓練任務。也有研究共同考慮文本和蛋白質模式。例如,ProtST(Xu et al., 2023b)通過對比學習(類型3.B)將蛋白質序列與其文本描述(即名稱和功能)匹配;BioMedGPT(Luo et al., 2023c)首先將蛋白質投射到標記上,然后將這些標記與文本一起輸入LLaMA-2進行指令微調,類似于類型2.D。
現有的多組學LLMs主要集中在單細胞轉錄組學(例如scRNA-seq)數據上,例如單細胞內基因的表達水平(Franzén et al., 2019)。除了基于BERT的(例如,Geneformer(Theodoris et al., 2023))和基于GPT的(例如,scGPT(Cui et al., 2024))架構外,由于其在處理長scRNA-seq數據時的線性注意力復雜性,Performer(Yang et al., 2022a;Hao et al., 2024)被廣泛使用。
類似于化學,LLMs可以在生物學和醫學研究中自動化實驗。例如,CRISPR-GPT(Huang et al., 2024)增強了一個LLM代理的領域知識,以改進CRISPR基因編輯實驗的設計過程。
地球科學LLMs的預訓練語料庫包括地球科學研究論文、氣候相關新聞文章、維基百科頁面、企業可持續性報告、知識庫(例如,GAKG(Deng et al., 2021))和興趣點(POI)數據(例如,OpenStreetMap(Haklay and Weber, 2008))。
地球科學LLMs的初步研究主要集中在使用Transformer編碼器骨干的雙向LLMs的預訓練(類型1.A,例如,ClimateBERT(Webersinke et al., 2021),SpaBERT(Li et al., 2022b)和MGeo(Ding et al., 2023))。例如,SpaBERT和MGeo在地理實體鏈接和查詢-POI匹配中對地理位置序列執行MLM。最近,相關研究集中在擴展地球科學中自回歸LLMs的解碼風格(類型2.A,例如,K2(Deng et al., 2024),OceanGPT(Bi et al., 2023b)和GeoGalactica(Lin et al., 2024b))。例如,K2和OceanGPT分別通過領域特定指令的監督微調,將LLaMA適應于地球科學和海洋科學。這些模型的評估在地球科學基準(例如,GeoBench(Deng et al., 2024)和OceanBench(Bi et al., 2023b))上進行,涵蓋廣泛的任務,包括問答、分類、知識探測、推理、摘要和生成。
一些地球科學應用涉及圖信號,例如異構POI網絡和知識圖譜。為了共同處理這些信號和文本,ERNIE-GeoL(Huang et al., 2022)在基于BERT的架構中引入了一個基于Transformer的聚合層,以深度融合文本和POI信息;PK-Chat(Deng et al., 2023)結合LLM和指針生成網絡在知識圖譜上構建了一個知識驅動的對話系統。
航拍圖像與位置描述共同描繪了城市區域。為了共同處理語言和視覺模式,UrbanCLIP(Yan et al., 2024)考慮了CLIP架構(類型3.D),這也是生物醫學視覺語言模型廣泛采用的架構(參見6.3節),用于城市指標預測的文本-圖像對比學習。
LLMs的直覺和方法論也促進了氣候基礎模型的構建。基于氣候時間序列的ERA5(Hersbach et al., 2020)和CMIP6(Eyring et al., 2016)數據集,以前的研究利用ViT和Swin Transformer架構預訓練天氣預報的基礎模型。代表模型包括FourCastNet(Pathak et al., 2022)、Pangu-Weather(Bi et al., 2023a)等。
在地理學中,Wang et al.(2023b)和Zhou et al.(2024)強調了LLMs在可持續性、生活、經濟、災害和環境視角下城市規劃中的潛力。在地質學中,除了氣候和天氣預報外,基礎模型還應用于同時地震檢測和相位挑選(Mousavi et al., 2020)。在環境科學中,ChatClimate(Vaghefi et al., 2023)通過提供對氣候變化外部、科學準確知識的訪問,增強了GPT-4,以構建氣候科學對話AI。
在本綜述中,我們匯編了有關科學LLMs預訓練數據、架構和任務的文獻,以及科學LLMs如何應用于科學發現的下游應用。特別地,我們強調了在不同領域和模式中科學LLMs演變過程中觀察到的類似架構、任務和趨勢。除了回顧先前的研究外,我們提出了一些挑戰,以激發對這一主題的進一步探索。
大多數現有的科學LLMs針對的是一個粗粒度的領域(例如化學),而一些任務依賴于細粒度主題的高度專業知識(例如鈴木耦合)。當LLMs在更通用的語料庫上進行預訓練時,頻繁出現的信號可能主導模型參數空間,而領域特定的尾部知識可能被忽略。我們認為,自動策劃深入的、主題集中的知識圖譜(Hope et al., 2021)并用它們來指導生成過程將是解決這一問題的有前景的方向。
在科學領域,測試分布與訓練分布的變化是常見的(Zhang et al., 2023f):新發表的論文中不斷出現新的科學概念;測試期間可能出現具有不同骨架的未知分子和具有不同肽鏈數量的未知蛋白質。處理這種分布外數據仍然是預訓練科學LLMs的挑戰。據我們所知,不變學習(Arjovsky et al., 2019)可以作為分布外分析的理論基礎,如何將其整合到LLM預訓練中值得探索。
LLMs可能會生成聽起來合理但實際上不正確的輸出,這通常被稱為幻覺(Ji et al., 2023),在化學和生物醫學等高風險科學領域尤其危險。為了減輕這一問題,檢索增強生成(RAG)為LLMs提供了相關的、最新的和可信的信息。然而,以前在科學領域的RAG研究主要集中在檢索文本(Xiong et al., 2024)和知識(Jin et al., 2024),而科學數據是異構和多模式的。我們預計,跨模式RAG(例如,通過相關的化學物質和蛋白質指導文本生成)將提供額外的機會,進一步增強科學LLMs的可信性。
本綜述主要涵蓋了數學和自然科學領域的LLMs。我們知道LLMs也可以通過在代表性任務中取得顯著成績(Ziems et al., 2024)并作為社會模擬實驗的代理(Horton, 2023)顯著影響社會科學,但由于篇幅限制,我們將這些努力的綜述留作未來工作。此外,本文重點介紹了在科學數據上預訓練或通過領域特定知識增強以促進科學發現的LLMs。還有一些研究(Wang et al., 2023g;Guo et al., 2023)提出了新的科學問題基準數據集,但僅評估了通用LLMs的性能,我們未將這些工作包括在我們的綜述中。此外,根據本文的分類標準,一些LLMs可能屬于多個領域或模式類別。例如,BioMedGPT(Luo et al., 2023c)同時在生物學和化學數據上進行預訓練;GIT-Mol(Liu et al., 2024)同時考慮了語言、圖形和視覺模式。為了簡潔起見,我們僅在一個小節中介紹每個模型。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
大型語言模型(LLMs)已成為自然語言處理(NLP)領域的基石,它們在理解和生成類人文本方面提供了變革性的能力。然而,隨著它們日益突出的地位,這些模型的安全性和脆弱性問題也引起了重大關注。本文提供了一項關于針對LLMs的各種形式攻擊的綜合綜述,討論了這些攻擊的性質和機制、潛在影響以及當前的防御策略。我們深入探討了旨在操縱模型輸出的對抗性攻擊、影響模型訓練的數據污染,以及與訓練數據開發相關的隱私問題。文章還探討了不同攻擊方法的有效性、LLMs對這些攻擊的抵御能力,以及這對模型完整性和用戶信任的含義。 通過審查最新研究,我們提供了關于LLM脆弱性和防御機制當前景觀的見解。我們的目標是提供對LLM攻擊的細致理解,增進AI社區內的意識,并激發出為減輕這些風險而在未來發展中采用的強大解決方案。
人工智能的出現****在自然語言處理領域引發了一場顯著的變革,通過引入大型語言模型(LLMs),實現了在語言理解、生成和翻譯方面前所未有的進步(趙等,2023c;納維德等,2023;阿恰姆等,2023)。盡管它們帶來了變革性的影響,LLMs已變得容易受到各種復雜攻擊的攻擊,這對它們的完整性和可靠性構成了重大挑戰(姚等,2023;劉等,2023d)。這篇綜述論文全面檢查了針對LLMs的攻擊,闡明了它們的機制、后果和迅速發展的威脅環境。 研究LLMs上的攻擊之重要性在于它們在各個領域的廣泛整合及其隨之而來的社會影響(埃隆杜等,2023)。LLMs在從自動化客戶支持到復雜內容創建的應用中發揮著重要作用。因此,理解它們的脆弱性對于確保AI驅動系統的安全性和可信度至關重要(阿莫迪等,2016;亨德里克斯等,2023)。本文基于模型權重的訪問權限和攻擊向量,對攻擊的范圍進行了分類,每種都提出了不同的挑戰,需要特定的關注。 此外,本文還剖析了執行這些攻擊的方法論,提供了利用對抗性技術來利用LLM脆弱性的見解。在承認當前防御機制的限制的同時,本文還提出了增強LLM安全性的未來研究可能途徑。 我們總結了我們工作的主要貢獻如下:
**我們的貢獻 **
? 我們提出了一種新的LLMs攻擊分類法,這可以幫助研究人員更好地理解研究環境并找到他們的興趣領域。 ? 我們詳細介紹了現有的攻擊和緩解方法,討論了關鍵的實施細節。 ? 我們討論了重要挑戰,突出了未來研究的有希望方向。 探索LLM安全性:白盒和黑盒攻擊 本節從白盒和黑盒的角度深入探討了大型語言模型(LLMs)的安全挑戰。它強調了理解和保護LLMs免受復雜安全威脅的重要性。 白盒這些攻擊利用對LLM的架構、訓練數據和算法的完全訪問權限,使攻擊者能夠提取敏感信息、操縱輸出或插入惡意代碼。Shayegani等人(2023)討論了白盒攻擊,強調這種訪問權限允許制造對抗性輸入以改變輸出或損害性能。該研究涵蓋了各種攻擊策略,如上下文污染和提示注入,旨在操縱LLMs以獲得特定輸出或降低其質量。 另外,李等人(2023a)檢查了LLMs中的隱私問題,強調了在不斷發展的AI技術面前保護個人信息的重要性。他們討論了與訓練和推理數據相關的隱私風險,強調了分析白盒攻擊以有效緩解威脅的關鍵需求。 黑盒這些攻擊利用LLM的脆弱性,對模型內部的了解有限,專注于通過輸入輸出界面操縱或降低性能。這種在實際場景中現實的方法帶來了如敏感數據提取、偏見輸出和對AI信任的減少等風險。Chao等人(2023)展示了黑盒方法“破解”諸如GPT-3.5和GPT-4之類的LLMs,而Qi等人(2023a);Yong等人(2023)探索了針對各種表面的基于API的模型如GPT-4的攻擊。
LLM攻擊分類法
破解
本節深入探討了針對LLMs的破解攻擊,詳細介紹了利用模型脆弱性進行未授權行為的策略,強調了強大防御機制的關鍵需求。 精細化基于查詢的破解:Chao等人(2023)代表了一種策略性的破解方法,利用最少數量的查詢。這種方法不僅利用了簡單的模型脆弱性,而且涉及到對模型響應機制的微妙理解,迭代地精細化查詢以探測并最終繞過模型的防御。這種方法的成功強調了LLMs的一個關鍵脆弱性:通過迭代、智能查詢的可預測性和可操縱性。這項工作引入了Prompt Automatic Iterative Refinement (PAIR),一種旨在自動化生成LLMs語義破解的算法。PAIR通過使用一個攻擊者LLM迭代地查詢目標LLM,精細化候選破解。這種方法比以前的方法更高效,需要的查詢次數更少,通常在二十次查詢內就可以產生一個破解。PAIR在破解包括GPT-3.5/4和Vicuna在內的各種LLMs中展示了成功,其效率和可解釋性顯著,使得破解可轉移到其他LLMs。 復雜的提示工程技術:Perez和Ribeiro(2022)深入探討了LLMs的提示處理能力的復雜性。他們展示了在提示中嵌入某些觸發詞或短語可以有效劫持模型的決策過程,導致編程的倫理約束被覆蓋。(丁等,2023)專注于使用嵌套提示的微妙、難以檢測的破解方法。這些發現揭示了LLMs內容評估算法的一個關鍵缺陷,表明需要更復雜、上下文感知的自然語言處理能力,以識別和中和操縱性提示結構。 跨模態和語言攻擊表面:Qi等人(2023a)揭示了LLMs對結合文本和視覺線索的多模態輸入的易感性。這種方法利用了模型對非文本信息處理不夠強大的優勢。同樣,Yong等人(2023)揭露了LLMs在處理低資源語言時的高度脆弱性。這表明了模型語言覆蓋和理解的顯著差距,特別是對于在訓練數據中代表性有限的語言。這項工作展示了通過將不安全的英語輸入翻譯成低資源語言,可以規避GPT-4的安全保護措施。 通用和自動化攻擊策略:如(Mehrotra等,2023)討論的通用和自動化攻擊框架的發展,標志著破解技術的一個關鍵進步。這些攻擊涉及將特別選擇的字符序列附加到用戶的查詢上,這可能導致系統提供未過濾的、潛在有害的響應。Shah等人(2023b)檢查了利用LLMs的人格或風格模仿能力的攻擊,為攻擊策略引入了新的維度。
提示注入
本節概述了攻擊者使用精心設計的惡意提示來操縱LLM行為的策略,并將研究組織成七個關鍵領域。 目標操縱:Abdelnabi等人(2023)展示了一種能夠完全破壞LLMs的提示注入攻擊,其實際可行性在如Bing Chat和Github Copilot的應用上得到展示。Perez和Ribeiro(2022)引入了PromptInject框架,用于目標劫持攻擊,揭示了對提示錯位的脆弱性,并提供了如停止序列和后處理模型結果等抑制措施的見解。 提示泄露:劉等人(2023b)討論了像GPT-4這樣的大型語言模型的安全漏洞,關注于提示注入攻擊。它引入了HOUYI方法論,一種設計用于多種LLM集成服務/應用的通用和適應性強的黑盒提示注入攻擊方法。HOUYI包括三個階段:上下文推斷(與目標應用交互以掌握其固有的上下文和輸入輸出關系)、有效負載生成(根據獲得的應用上下文和提示注入指南制定提示生成計劃),以及反饋(通過審查LLM對注入提示的響應來評估攻擊的有效性,隨后進行迭代精細化以獲得最佳結果),旨在誘導LLM將惡意有效負載解釋為問題而非數據負載。在使用HOUYI對36個真實世界LLM集成服務進行的實驗中,攻擊成功率達到86.1%,揭示了諸如未授權模仿服務和利用計算能力等嚴重后果。 惡意內容生成:劉等人(2023a)針對惡意提示生成的可擴展性挑戰,提出了AutoDAN,旨在保持提示的意義性和流暢性。他們強調,發現提示注入攻擊與惡意問題相結合,可以導致LLMs繞過安全特性,生成有害或令人反感的內容。使用為結構化離散數據集量身定制的層次遺傳算法將AutoDAN與現有方法區分開來。種群的初始化至關重要,論文采用了LLM用戶識別的手工破解提示作為原型,以減少搜索空間。引入了對句子和詞的不同交叉策略,以避免陷入局部最優并持續搜索全局最優解。實現細節包括基于輪盤選擇策略的多點交叉策略和一個動量詞評分方案,以增強在細粒度空間的搜索能力。該方法實現了較低的句子困惑度,表明攻擊在語義上更有意義且更隱蔽。 操縱訓練數據:趙等人(2023b)介紹了ProAttack,它在規避防御方面擁有近乎完美的成功率,強調了隨著LLMs應用的增長,更好地處理提示注入攻擊的緊迫性。 LLM集成應用中的提示注入攻擊與防御:如(劉等,2023e)等綜合研究強調了理解和緩解提示注入攻擊所帶來風險的重要性。這些工作突出了像‘HouYi’(劉等,2023e)這樣的復雜方法論,并強調了更強大安全措施的迫切需求。 提示操縱框架:最近的文獻探討了操縱LLM行為的各種方法,如(Melamed等,2023;江等,2023)所詳細描述的。Propane(Melamed等,2023)介紹了一個自動提示優化框架,而Prompt Packer(江等,2023)介紹了組合指令攻擊,揭示了LLMs對多方面攻擊的脆弱性。 基準測試和分析LLM提示注入攻擊:Toyer等人(2023)提出了一個包含提示注入攻擊和防御的數據集,提供了關于LLM脆弱性的見解,并為更強大的系統鋪平了道路。這種基準測試和分析對于理解提示注入攻擊的復雜性和開發有效的對策至關重要。
數據污染
當代NLP系統遵循兩階段流程:預訓練和微調。預訓練涉及從大型語料庫學習以理解一般語言結構,而微調則使用較小的數據集為特定任務定制模型。最近,像OpenAI這樣的提供商已經允許最終用戶微調模型,增強了適應性。本節探討了關于數據污染技術及其在訓練期間對安全性影響的研究,包括隱私風險和對抗性攻擊的敏感性。 個人可識別信息(PII)提取:陳等人(2023)研究了在包含個人可識別信息(PII)的小數據集上微調大型語言模型(LLMs)是否會導致模型泄露其原始訓練數據中嵌入的更多PII。作者展示了一種稻草人方法,其中一個LLM在轉換為文本的小型PII數據集上進行微調,這使得模型在被提示時能夠泄露更多PII。為了改進這一點,他們提出了Janus方法,該方法定義了一個PII恢復任務并使用少量示例微調。實驗表明,僅在10個PII實例上微調GPT-3.5就使其能夠準確泄露1000個目標PII中的650個,而不微調則為0。Janus方法進一步改善了這種泄露,泄露了699個目標PII。分析顯示更大的模型和真實訓練數據具有更強的記憶和PII恢復能力,且微調對PII泄露比單獨的提示工程更有效。這表明LLMs可以通過最小的微調從不泄露轉變為泄露大量PII。 繞過安全對齊:齊等人(2023b)研究了在微調對齊的LLMs中的安全風險,發現即使是良性數據集也可能危及安全。背景攻擊被證明可以有效繞過安全措施,強調了改進訓練后保護的需求。 Bianchi等人(2023)分析了指令調優的安全風險,顯示過度指令調優的模型仍然可以產生有害內容。他們提出了一個安全調優數據集來減輕這些風險,平衡安全性和模型性能。 趙等人(2023a)研究了LLMs在微調過程中如何學習和遺忘不安全的示例,提出了一種稱為ForgetFilter的技術,用于過濾微調數據并在不犧牲性能的情況下提高安全性。 后門攻擊:沙等人(2023a)引入了Local Fine Tuning(LoFT)來發現對抗性提示,展示了對LLMs的成功攻擊。舒等人(2023)提出了Autopoison,一種自動化數據污染管道,展示了其在不降低語義質量的情況下改變模型行為的有效性。 結論
本文提供了針對大型語言模型(LLMs)攻擊的全面概述。我們首先將LLM攻擊文獻分類為一個新的分類法,以提供更好的結構并為未來的研究提供幫助。通過審查這些攻擊向量,顯而易見的是,LLMs容易受到多種威脅的攻擊,這對它們在現實世界應用中的安全性和可靠性構成了重大挑戰。此外,本文強調了實施有效的緩解策略來防御LLM攻擊的重要性。這些策略包括多種方法,包括數據過濾、防護措施、強健的訓練技術、對抗性訓練和安全上下文蒸餾。 總結來說,盡管LLMs為提高自然語言處理能力提供了重大機遇,但它們對敵手利用的脆弱性凸顯了解決安全問題的緊迫需求。通過持續探索和進步,在檢測攻擊、實施緩解措施和提高模型韌性方面,我們可以旨在充分利用LLM技術的優勢,同時加強防御以抵御潛在風險。
本綜述深入探討了大型語言模型(LLMs)領域內的知識蒸餾(KD)技術,突出了KD在將GPT-4等專有巨頭的復雜能力轉移至LLaMA和Mistral等可訪問的開源模型中的關鍵作用。在不斷演變的人工智能領域,這項工作闡明了專有和開源LLMs之間的關鍵差異,展示了KD如何作為一種重要的渠道,將前者的高級功能和細膩理解注入后者。我們的綜述圍繞三個基礎支柱:算法、技能和垂直化——提供了對KD機制、特定認知能力的增強以及它們在不同領域的實際應用的全面考察。關鍵地,綜述導航了數據增強(DA)與KD之間復雜的相互作用,闡述了DA如何在KD框架內作為一個強大的范式出現,以提升LLMs的性能。通過利用DA生成豐富上下文、特定技能的訓練數據,KD超越了傳統界限,使開源模型能夠逼近其專有對應物的上下文熟練度、倫理一致性和深層語義洞察力。這項工作旨在為研究人員和實踐者提供一個富有洞察力的指南,提供知識蒸餾當前方法論的詳細概述,并提出未來研究方向。通過彌合專有和開源LLMs之間的差距,本綜述強調了更可訪問、高效和可持續人工智能解決方案的潛力,促進了人工智能進步中更加包容和公平的景觀。相關的Github倉庫可在//github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs處獲得。
在人工智能(AI)不斷演變的景觀中,如GPT3.5(Ouyang et al., 2022)、GPT-4(OpenAI et al., 2023)、Gemini(Team et al., 2023)和Claude2等專有的大型語言模型(LLMs)已經作為開創性技術出現,重塑了我們對自然語言處理(NLP)的理解。這些模型以其龐大的規模和復雜性為特征,開啟了新的可能性領域,從生成類人文本到提供復雜的問題解決能力。這些LLMs的核心重要性在于它們的涌現能力(Wei et al., 2022a,b),這是一種模型展示出超出其明確訓練目標的能力的現象,使它們能夠以非凡的熟練度處理多樣化的任務。它們對上下文、細微差別和人類語言的復雜性的深刻理解使它們能夠在廣泛的應用中表現出色,從創意內容生成到復雜問題解決(OpenAI et al., 2023;Liang et al., 2022)。這些模型的潛力遠遠超出當前的應用,承諾將革新行業,增強人類的創造力,并重新定義我們與技術的互動。盡管像GPT-4和Gemini這樣的專有LLMs具有非凡的能力,但在考慮到開源模型提供的優勢時,它們并非沒有缺點。一個重大的缺點是它們的可訪問性有限和成本較高(OpenAI et al., 2023)。這些專有模型通常伴隨著高昂的使用費用和限制的訪問權限,使得它們對個人和較小的組織來說較難獲得。在數據隱私和安全性方面(Wu et al., 2023a),使用這些專有LLMs經常涉及將敏感數據發送到外部服務器,這引發了數據隱私和安全性的擔憂。對于處理機密信息的用戶而言,這一方面尤其關鍵。此外,雖然功能強大,但專有LLMs的通用設計可能并不總是與特定需求的小眾應用完全對齊。因此,可訪問性、成本和適應性的限制呈現出在充分利用專有LLMs的全部潛力方面的重大挑戰。
與專有的大型語言模型(LLMs)相比,像LLaMA(Touvron et al., 2023)和Mistral(Jiang et al., 2023a)這樣的開源模型帶來了幾個顯著的優勢。開源模型的主要好處之一是它們的可訪問性和可適應性。沒有許可費用或限制性使用政策的約束,這些模型更容易被從個人研究者到較小組織的更廣泛用戶群體所獲取。這種開放性促進了更協作和包容的AI研究環境,鼓勵創新和多樣化的應用。此外,開源LLMs的可定制性允許更加定制化的解決方案,解決通用的大規模模型可能無法滿足的特定需求。然而,開源LLMs也有自己的一套缺點,主要源自于與它們的專有對手相比,它們相對有限的規模和資源。最顯著的限制之一是較小的模型規模,這通常導致在具有一堆指令的實際任務上性能較低(Zheng et al., 2023a)。這些參數較少的模型可能難以捕捉GPT-4等更大模型體現的知識的深度和廣度。此外,這些開源模型的預訓練投資通常較少。這種減少的投資可能導致預訓練數據的范圍較窄,可能限制模型對多樣化或專業化主題的理解和處理(Liang et al., 2022; Sun et al., 2024a)。而且,由于資源限制,開源模型經常進行的微調步驟較少。微調對于優化模型針對特定任務或行業的性能至關重要,缺乏微調可能阻礙模型在專業化應用中的有效性。當這些模型與經過高度微調的專有LLMs相比時,這一限制尤為明顯,后者通常被定制以在廣泛的復雜場景中表現出色(OpenAI et al., 2023)。
認識到專有和開源LLMs之間的差異,NLP領域見證了采用知識蒸餾技術(Gou et al., 2021; Gupta and Agrawal, 2022)的激增,作為彌合這一性能差距的手段。在這一背景下,知識蒸餾涉及利用像GPT-4或Gemini這樣的更大、專有模型的更高級、微妙的能力作為指導框架,以增強開源LLMs的能力。這個過程類似于將一位高度熟練的老師的‘知識’轉移給學生,其中學生(例如,開源LLM)學習模仿老師(例如,專有LLM)的性能特征。與傳統的知識蒸餾算法(Gou et al., 2021)相比,數據增強(DA)(Feng et al., 2021)已成為實現LLMs知識蒸餾的普遍范式,其中一小部分知識被用來提示LLM針對特定技能或領域生成更多數據(Taori et al., 2023)。這種知識轉移的關鍵方面是技能的增強,如高級上下文跟隨(例如,上下文學習(Huang et al., 2022a)和指令跟隨(Taori et al., 2023)),與用戶意圖的更好對齊(例如,人類價值觀/原則(Cui et al., 2023a),以及像思維鏈(CoT)(Mukherjee et al., 2023)這樣的思維模式),以及更深層的語言理解(例如,機器推理(Hsieh et al., 2023),語義理解(Ding et al., 2023a),和代碼生成(Chaudhary, 2023))。這些技能對LLMs預期執行的廣泛應用至關重要,從隨意對話到專業領域的復雜問題解決。例如,在醫療保健(Wang et al., 2023a),法律(LAW, 2023)或科學(Zhang et al., 2024)等垂直領域中,準確性和上下文特定知識至關重要,知識蒸餾允許開源模型通過學習這些領域中已經廣泛訓練和微調的專有模型,顯著提高它們的性能。
在LLMs時代,知識蒸餾的好處是多方面的且具有變革性(Gu et al., 2024)。通過一套蒸餾技術,專有和開源模型之間的差距顯著縮小(Chiang et al., 2023; Xu et al., 2023a)甚至填補(Zhao et al., 2023a),使后者能夠達到之前僅限于它們的專有對手的更高性能和效率水平。這個過程不僅簡化了計算需求,而且還提高了AI操作的環境可持續性,因為開源模型在較低的計算開銷下變得更加熟練。此外,知識蒸餾促進了一個更包容和公平的AI景觀,其中較小的實體和個人研究者獲得了最先進能力的訪問權限,鼓勵了AI進步中更廣泛的參與和多樣性。這種技術的民主化導致了更強大、多功能和可訪問的AI解決方案,催化了各行各業和研究領域的創新和增長。
由于AI景觀的迅速演變(OpenAI et al., 2023; Team et al., 2023)和這些模型的增加復雜性,對LLMs知識蒸餾進行全面綜述的迫切需求不斷上升。隨著AI繼續滲透到各個領域,從專有LLMs高效、有效地蒸餾知識到開源模型的能力不僅是一個技術愿景,而且是一個實際必需。這種需求由對更可訪問、成本效益和可適應AI解決方案的日益增長的需求所驅動,這些解決方案可以滿足廣泛的應用和用戶群體。在這一領域進行綜述對于綜合當前的方法論、挑戰和知識蒸餾的突破至關重要。它可能作為研究人員和實踐者的燈塔,引導他們通過將復雜的AI能力蒸餾成更易管理和更易訪問形式的錯綜復雜的過程。此外,這樣的綜述可以照亮前進的道路,識別當前技術中的差距,并提出未來研究的方向。綜述組織。這項綜述的其余部分被組織成幾個全面的部分,每個部分旨在深入探討LLMs領域內知識蒸餾的多方面。繼本介紹之后,§2提供了知識蒸餾的基礎概述,比較了傳統技術與LLMs時代出現的技術,并強調了數據增強(DA)在此背景下的作用。§3深入探討了從教師LLMs中引出知識的方法和核心蒸餾算法,檢查了從監督微調到涉及差異和相似性、強化學習和排名優化的更復雜策略的方法。然后,§4專注于技能蒸餾,探索如何增強學生模型以改善上下文理解、與用戶意圖的對齊以及在各種NLP任務中的表現。這包括對自然語言理解(NLU)、生成(NLG)、信息檢索、推薦系統和文本生成評估的討論。在§5中,我們涉足特定領域的垂直蒸餾,展示了知識蒸餾技術如何在法律、醫療保健、金融和科學等專業領域內應用,說明了這些方法的實際含義和變革性影響。綜述在§6中提出了開放問題,識別了知識蒸餾研究中當前的挑戰和差距,為未來的工作提供了機會。最后,§7中的結論和討論綜合了獲得的洞察,反思了對更廣泛的AI和NLP研究社區的影響,并提出了未來研究的方向。
大型語言模型(LLMs)的一般蒸餾流程是一個結構化和有條理的過程,旨在將知識從一個復雜的教師模型轉移到一個較不復雜的學生模型。這個流程對于利用像GPT-4或Gemini這樣的模型的先進能力,在更可訪問且高效的開源對應模型中至關重要。這個流程的概要可以廣泛地分為四個不同階段,每個階段在知識蒸餾的成功中都扮演著至關重要的角色。一個示意圖展示在圖2中。
知識蒸餾算法
本節通過知識蒸餾的過程進行導航。根據第2.4節,它被分為兩個主要步驟:‘知識’,專注于從教師LLMs中引出知識(公式1),以及‘蒸餾’,集中于將這些知識注入學生模型中(公式2)。我們將在后續章節中詳細闡述這兩個過程。
本節聚焦于有效地將從教師LLMs中引出的知識轉移到學生模型中的方法論。我們探討了一系列蒸餾技術,從通過監督微調增強模仿的策略,到差異與相似性,再到像強化學習和排名優化這樣的高級方法,如圖1所示。
技能蒸餾
在第3節關于引出知識和蒸餾算法的基礎上,我們將關注轉向這些技術如何促進LLMs中特定技能的蒸餾。我們的探索將包括LLMs展示的多種技能,包括上下文跟隨、對齊、代理、NLP任務專業化和多模態性。上下文跟隨側重于學生模型理解和有效響應輸入信息的能力。對齊深入探討學生模型將其輸出與教師響應對齊的能力。接下來,代理強調語言模型的自主性。NLP任務專業化突出了LLM在各種自然語言處理任務中專業化的多樣性,展示了其適應性。最后,多模態性包括從教師LLMs到多模態模型的知識轉移。
結論與討論
本綜述遍歷了應用于LLMs的知識蒸餾的廣闊領域,揭示了這一充滿活力領域中眾多技術、應用和新興挑戰。我們強調了KD在民主化獲取專有LLMs的先進能力方面的關鍵作用,從而促進了更公平的AI景觀。通過細致的審查,我們突出了KD如何作為一座橋梁,使資源有限的實體能夠從LLMs的深遠進步中受益,而無需承擔訓練和部署最先進模型所關聯的禁止性成本。
我們的探索勾勒出了KD的多方面方法,包括算法創新、技能增強到特定領域的蒸餾。每個部分都揭示了在定制蒸餾模型以模仿其更加笨重對手的精密理解和功能時所固有的微妙復雜性和潛力。值得注意的是,數據增強策略在KD過程中的整合,作為提高這一LLM時代蒸餾效果的關鍵杠桿,強調了生成豐富上下文訓練數據與蒸餾努力之間的協同潛力。
展望未來,幾條研究途徑呼之欲出。AI的不斷演變,特別是在模型架構和訓練方法論的迅速進步,為知識蒸餾提出了挑戰與機遇。追求更高效、透明和倫理的AI模型,需要在知識蒸餾技術上不斷創新,特別是那些能夠在模型忠實度、計算效率和倫理考慮之間細致平衡的技術。此外,探索知識蒸餾在諸如弱到強泛化、自我對齊、多模態LLMs、實時適應和個性化AI服務等新興領域的應用,承諾將擴展蒸餾模型可以實現的視野。 因此,LLMs的知識蒸餾處于一個關鍵時刻,具有顯著影響AI發展和應用軌跡的潛力。正如本綜述所闡明的,研究社區在推動知識蒸餾邊界的共同努力,將在實現所有人都能訪問的、高效的、負責任的AI的愿景中起到關鍵作用。
大型語言模型(LLMs)已成為增強自然語言理解的轉型力量,代表了向人工通用智能邁出的重要步伐。LLMs的應用超越了傳統語言學邊界,包括了各個科學學科內發展的特殊語言系統。這一日益增長的興趣促成了科學LLMs的出現,這是一種專為促進科學發現而精心設計的新型子類。作為AI用于科學領域中的一個新興領域,科學LLMs值得全面探索。然而,目前缺乏一項系統的、最新的綜述來介紹它們。在本文中,我們努力系統地闡述“科學語言”的概念,同時提供對科學LLMs最新進展的詳盡回顧。鑒于科學學科的廣泛領域,我們的分析采用了聚焦的視角,專注于生物學和化學領域。這包括對LLMs在文本知識、小分子、大分子蛋白、基因組序列及其組合的深入考察,并從模型架構、能力、數據集和評估方面進行分析。最后,我們批判性地審視當前的挑戰,并指出與LLMs進展相關的有前途的研究方向。通過提供該領域技術發展的全面概述,這篇綜述旨在成為研究者在探索科學LLMs錯綜復雜的領域時的寶貴資源。
//www.zhuanzhi.ai/paper/1741b30343c8826898d7c39dafe9df20
人類通過感知和認知獲取對世界的知識,其中自然語言(即人類語言)是表達這種世界知識的典型媒介。從歷史上看,這種豐富的世界知識已通過自然語言表達、記錄和傳播。目前,大型語言模型(LLMs)成為處理自然語言和收集世界知識的前沿工具。通常,LLMs指的是基于Transformer架構的,具有數億(甚至數十億)可訓練參數的模型,它們在廣泛的文本語料庫上進行訓練[218]。典型的例子包括GPT-3 [32]、PaLM [47]、Galactica [233]、LLaMA [239]、ChatGLM [288]和百川2[14]。它們已展現出強大的理解自然語言和處理復雜任務(如文本生成)的能力,并在學術和工業領域引起了極大的興趣。LLMs的卓越表現讓人們希望它們可能會在我們當前的時代進化成為人工通用智能(AGI)。
除了自然語言,為了封裝更專業的科學知識,開發了一系列的科學語言,如圖1所示。這包括科研領域的文本表達、定義數學公式的數學語言、代表分子結構的化學語言(如SMILES),以及描述蛋白質或基因組的生物語言,詳細說明生物體的復雜構成。這些科學語言帶有它們獨特的詞匯,每個術語都有特定的含義,與自然語言完全不同。例如,英文中的字符“C”在蛋白質語言中代表氨基酸半胱氨酸[87],而在SMILES語言系統中,它代表一個碳原子[262]。此外,特定領域的專家制定語法規則來組織這些術語,使構建的句子具有精確的語義功能。例如,計算化學家創建語法規則以確保機器生成分子的準確性,使用的是SELFIES格式[128]。經過數十年的演變,科學語言已成為無價的工具,顯著加速了科學發現。由于科學語言與自然語言之間可能存在的語義和語法差異,現有的通用LLMs(如ChatGPT 1或GPT-4 [190])通常無法正確處理分子和蛋白質等科學數據[5]。正如著名的奧地利哲學家路德維希·維特根斯坦所指出的,“我的語言的極限意味著我的世界的極限。”[202] 通用LLMs的世界可能僅限于自然語言。
為了促進對科學語言的理解,研究人員設計了專門針對各種科學領域和學科的科學大型語言模型(Sci-LLMs)。例如,分子語言模型已被開發出來,將分子結構表示為一串原子和化學鍵[140]。這些模型有助于預測分子屬性[252]、設計新藥[298]、提出逆合成路線[215]。類似地,蛋白質語言模型基于氨基酸序列運作[30, 205]。它們用于預測3D蛋白質結構和功能[149]、改善現有蛋白質以提高適應性[187]、創造具有特定功能的新蛋白質[184]。作為AI-for-Science研究領域內的一個新興領域,許多Sci-LLMs已被提出,它們具有修改后的架構、學習方法、訓練語料庫、評估基準和標準。盡管它們取得了顯著成就,這些模型大多在各自的研究領域內被探索。目前尚缺乏一個全面的綜述,能夠統一這些語言建模的進展。
在這篇綜述中,我們旨在通過系統地回顧Sci-LLMs的技術進步來填補這一空白,同時密切參考通用LLMs。考慮到科學語言的廣泛范圍,我們將調查重點放在生物和化學語言上。具體而言,我們的審查涵蓋了分子語言、蛋白質語言和基因組語言。除了這些專門的科學語言外,我們也認識到教科書、專利和研究論文中蘊含的巨大科學知識,這些文獻都是用自然語言撰寫的。因此,我們探索了強調科學知識的文本LLMs,更重要的是,研究了包含各種類型科學語言的多模態LLMs。
在深入探討每種語言系統時,我們首先回顧了LLM的架構,并將它們分類為三類:僅編碼器、僅解碼器和編碼器-解碼器。然后,我們報告了模型的能力,并總結了Sci-LLMs可以執行的典型下游任務。在模型訓練和評估方面,我們收集了一系列常用的訓練語料庫和評估基準。最后,我們提出了科學語言建模的區分性和生成性任務的適當標準。
這項綜述受限于特定邊界。首先,我們關注科學語言,特別是化學和生物語言。我們排除了那些既沒有通用定義的詞匯表,也沒有語法結構的語言,如數學語言。其次,在討論文本LLMs時,我們的重點仍然是表達在自然語言中的化學和生物領域知識。這一選擇確保了與化學和生物學特定語言(如分子和蛋白質語言)的一致和連貫互動。第三,我們的技術探索主要局限于基于Transformer的語言模型。盡管圖神經網絡和擴散模型等替代神經架構在分子和蛋白質建模中廣泛應用,但我們沒有包括它們。圖2描述了這項綜述中Sci-LLMs的研究范圍。
這項綜述的獨特邊界使其不同于其他關于LLMs和分子、蛋白質和基因組計算建模的回顧。與主要集中在自然語言[281, 304]的那些不同,我們的重點更傾向于科學語言。與僅專注于分子[64, 269]、蛋白質[23, 105, 241, 246]或基因組數據[52]的綜述不同,我們旨在提供一個關于化學和生物研究的語言模型的全面視角。此外,我們深入探討了多模態LLMs,探索文本與分子/蛋白質/基因組語言之間的互動。據我們所知,這種微妙的探索在以前的綜述中尚未涵蓋。本綜述的貢獻可總結如下: ? 我們提供了一個關于科學領域內語言建模的全面回顧,包括文本、分子、蛋白質和基因組語言,強調領域特定知識。 ?我們提供了現有Sci-LLMs的詳細總結,涵蓋了模型架構、能力、訓練數據、評估基準和評估標準。我們還在圖3中展示了Sci-LLMs的演化樹。 ? 我們列舉了Sci-LLMs的可用資源,開源并在 ?** 據我們所知,這項綜述代表了第一個全面概述多模態Sci-LLMs的嘗試**,旨在探索各種科學語言之間的互動。 本綜述的其余部分組織如下:第2節介紹LLMs的背景并闡述相關概念。第3、4、5、6和7節分別介紹文本、分子、蛋白質、基因組和多模態LLMs。最后,在第8節中,我們分析了現有模型的局限性,指出潛在的研究方向,并總結本綜述。
**文本科學大型語言模型 **
在本節中,我們旨在探索和深入研究專門使用文本語料庫(即文本Sci-LLMs)訓練的科學大型語言模型,特別強調它們獲取化學和生物知識的能力。我們將簡要回顧現有的文本Sci-LLMs,并檢查它們的能力、所用數據集以及評估方法。本節的概覽如圖6所示。
**分子大型語言模型 **
大型語言模型在加速化學分子發現方面顯示出巨大潛力。在本節中,我們將回顧在分子語言(Mol-LLMs)中訓練的LLMs,包括它們的模型架構、能力、使用的數據集和評估標準的洞察。本節的概覽如圖8所示。
**蛋白質大型語言模型 **
在過去的幾年中,大型語言模型在蛋白質研究中變得越來越有影響力,提供了新穎的見解和能力,用于理解和操縱蛋白質。在本節中,我們提供了一個關于蛋白質的LLMs(稱為Prot-LLMs)的全面回顧,包括對它們的模型架構、使用的數據集、各種能力和相應評估標準的詳細討論。本節的概覽如圖9所示。
**基因組大型語言模型 **
在計算生物學領域,基因組數據顯示出與自然語言中觀察到的基于序列的信息的相似性,使得大型語言模型能夠用于分析基因組序列。在本節中,我們將回顧專為基因組語言(Gene-LLMs)量身定制的LLMs,包括對它們的模型架構、數據集和評估的洞察。本節的概覽如圖10所示。
多模態科學大型語言模型
多模態大型語言模型已成為一個突出的研究領域,利用強大的LLMs作為核心來處理多模態數據。這些模型具有將不同數據類型(如文本、圖像、音頻和其他形式的信息)結合起來的獨特能力,使得它們能夠在各個領域進行全面的探索和問題解決。這些多模態模型在生物和化學科學領域,特別是蛋白質、分子和基因組研究中,展現出有希望的前景。在本節中,我們探索了這些科學領域內多模態模型的最新進展(即MM-Sci-LLMs),強調它們的能力和利用的數據集。請注意,這項綜述專注于跨語言的多模態模型,涉及至少兩種來自不同領域的語言,例如文本和分子。因此,我們排除了MM-Sci-LLMs中的單語言多模態方法,如蛋白質序列和結構的聯合建模[228, 261, 302]。圖4展示了不同語言和模態的多樣形式,本節的概覽如圖11所示。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
大型語言模型(LLMs),例如ChatGPT,由于其出色的自然語言處理能力而獲得了極大的關注。然而,這些LLMs面臨許多挑戰,特別是在可信度方面。因此,確保LLMs的可信度成為一個重要話題。本文引入了TRUSTLLM,一項關于LLMs可信度的全面研究,包括不同維度的可信度原則、確立的基準、可信度評估和分析,以及對主流LLMs的討論,開放的挑戰和未來方向。具體來說,我們首先提出了一套涵蓋八個不同維度的可信LLMs原則。基于這些原則,我們進一步建立了一個跨越真實性、安全性、公平性、穩健性、隱私和機器倫理六個維度的基準。我們隨后展示了一個在TRUSTLLM中評估16個主流LLMs的研究,涉及超過30個數據集。
我們的發現首先表明,一般而言,可信度和效用(即功能效能)是正相關的。例如,像GPT-4、ERNIE和Llama2這樣在刻板印象分類中表現強勁的LLMs,更可靠地拒絕刻板印象陳述。同樣,以自然語言推理能力著稱的Llama2-70b和GPT-4,在抵御對抗性攻擊方面表現出增強的韌性。其次,我們的觀察揭示,專有LLMs通常在可信度方面優于大多數開源同行,這引發了對廣泛可獲取的開源LLMs潛在風險的擔憂。然而,少數開源LLMs非常接近專有模型。值得注意的是,Llama2在幾項任務中表現出卓越的可信度,表明開源模型可以在沒有額外機制(如審查員)的情況下達到高水平的可信度,為開發人員提供了寶貴的洞見。第三,值得注意的是,一些LLMs(例如Llama2)可能過度調整以展示可信度,以至于它們在錯誤地將良性提示視為有害并因此不做出回應的情況下,降低了它們的實用性。除了這些觀察之外,我們還發現了LLMs多方面可信度的關鍵洞見。在真實性方面,LLMs經常由于訓練數據中的噪音、錯誤信息或過時信息而難以提供真實的回答。值得注意的是,增強了外部知識來源的LLMs在性能上表現出明顯的提升。在安全性方面,大多數開源LLMs在越獄、毒性和濫用等方面顯著落后于專有LLMs,同時在不過度謹慎的同時保持安全性的挑戰仍然存在。在公平性方面,大多數LLMs在刻板印象識別方面的表現不盡人意,即使是表現最好的GPT-4也只有65%的總體準確率。在穩健性方面,LLMs表現出顯著的變化性,尤其是在開放式任務和分布外任務中。在隱私方面,雖然LLMs顯示出對隱私規范的認識,但對私人信息的理解和處理差異很大,一些模型甚至在Enron Email數據集上測試時顯示出信息泄露。最后,在機器倫理方面,LLMs展示了基本的道德理解,但在復雜的倫理場景中表現不足。這些洞見強調了LLMs中可信度的復雜性,并突出了繼續研究以提高它們的可靠性和倫理一致性的必要性。最后,我們強調不僅要確保模型本身的透明度,還要確保支持可信度的技術的透明度。了解已采用的具體可信技術對于分析它們的有效性至關重要。我們主張建立行業、學術界、開源社區以及各種實踐者之間的人工智能聯盟,以促進合作,提升LLMs的可信度至關重要。我們的數據集、代碼和工具包將在 //github.com/HowieHwong/TrustLLM 上提供,排行榜發布在
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)和生成式人工智能領域的重要里程碑,眾多基礎研究[1, 2]證實了這一點。這些模型在NLP方面的卓越能力引起了廣泛關注,導致了影響我們生活各個方面的多樣化應用。LLMs被用于多種與語言相關的任務,包括自動文章寫作[3]、博客和社交媒體帖子的創作、以及翻譯[4]。此外,它們還改進了搜索功能,如在Bing Chat等平臺上看到的[5, 6, 7],以及其他應用[8]。LLMs在人類其他領域的效用也顯而易見。例如,如Code Llama[9]等模型為軟件工程師提供了相當大的幫助[10]。在金融領域,像BloombergGPT[11]這樣的LLMs被用于情感分析、命名實體識別、新聞分類和問答等任務。此外,LLMs在科學研究[12, 13, 14, 15]中的應用日益增多,涵蓋了醫學應用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治學[26]、法律[27, 28]、化學[29, 30]、海洋學[31, 32]、教育[33]和藝術[34]等領域,凸顯了它們廣泛和多樣化的影響。
LLMs的出色能力歸因于多個因素,例如使用來自Web的大規模原始文本作為訓練數據(例如,PaLM[35, 36]是在包含超過7000億令牌的大型數據集上訓練的[37]),采用具有大量參數的變壓器架構設計(例如,GPT-4估計具有1萬億參數范圍[38]),以及加速訓練過程的先進訓練方案,例如低秩適應(LoRA)[39]、量化LoRA [40]和路徑系統[41]。此外,它們出色的指令遵循能力主要歸因于與人類偏好的對齊實現[42]。現行的對齊方法使用人類反饋的強化學習(RLHF)[43]以及各種替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。這些對齊策略塑造了LLMs的行為,使其更加符合人類偏好,從而提高了它們的實用性并確保遵守倫理考慮。
然而,LLMs的興起也引入了關于它們可信度的擔憂。與傳統語言模型不同,LLMs具有可能導致可信度問題的獨特特性。1)LLMs的輸出復雜多樣,加之它們新出現的生成能力。LLMs展示了處理廣泛的復雜和多樣化主題的無與倫比的能力。然而,這種復雜性可能導致不可預測性,從而可能產生不準確或誤導性的輸出[56, 57, 58]。同時,它們先進的生成能力為惡意行為者開辟了傳播虛假信息[59]和促進網絡攻擊[60]的途徑。例如,攻擊者可能使用LLMs編寫欺騙性和誤導性文本,誘導用戶點擊惡意鏈接或下載惡意軟件。此外,LLMs可以被用于自動化網絡攻擊,例如生成大量假賬戶和評論以擾亂網站的正常運營。從設計用于繞過LLMs安全機制的技術(稱為越獄攻擊[61])來的重大威脅,允許攻擊者非法濫用LLMs。2)大型訓練數據集中的數據偏見和私人信息。可信度的一個主要挑戰來自訓練數據集中潛在的偏見,這對LLMs生成的內容的公平性具有重大影響。例如,數據中的男性中心偏見可能產生主要反映男性觀點的輸出,從而掩蓋女性的貢獻和觀點[62]。同樣,偏向某一特定文化背景的偏見可能導致對該文化的偏見回應,從而忽視其他文化背景中存在的多樣性[63]。另一個關鍵問題是訓練數據集中包含敏感個人信息的問題。在缺乏嚴格保護的情況下,這些數據可能被濫用,潛在地導致隱私泄露[64]。這個問題在醫療保健領域尤其嚴重,在這里保持患者數據的機密性至關重要[65]。3)用戶期望值高。用戶可能對LLMs的性能抱有很高的期望,期待準確和富有洞察力的回應,強調模型與人類價值觀的一致性。許多研究人員對LLMs是否與人類價值觀一致表示擔憂。不一致可能會對它們在各個領域的廣泛應用產生重大影響。例如,LLM可能認為某些情況下的行為是適當的,但人類可能認為它不適當,導致在其應用中出現沖突和矛盾,特定案例中強調了這一點[66]。
LLMs的開發者已經做出了重大努力來解決上述問題。OpenAI[67]已采取措施確保LLMs在訓練數據階段、訓練方法和下游應用中的可信度。WebGPT[7]被引入以幫助人類評估者識別LLM回應中的不準確信息。致力于負責任的AI的Meta[68],其方法基于五大支柱:隱私、公平、穩健性、透明性和問責制。Llama2[69]的引入為LLMs設定了新的安全對齊基準,包括在預訓練、微調和紅隊測試中進行廣泛的安全調查。關于開發者采用的各種策略以確保LLMs的可信度的更多討論可以在第3.3節中找到。盡管做出了這些共同的努力,但仍有一個持續的問題:我們到底可以在多大程度上真正信任LLMs?
為了解決大型語言模型(LLMs)可信度的關鍵問題,關鍵在于確定如何基準化LLMs的可信度。關于定義LLMs可信度的關鍵要素,以及如何從各種角度評估這種可信度,此外,探索實際評估這些維度上可信度的方法也至關重要。然而,回答這些問題遠非簡單。主要挑戰包括:1) 綜合各方面的定義。主要障礙之一是缺乏一個普遍接受的標準準則,全面涵蓋可信度的所有方面。這種標準化指標的缺乏使得統一評估和比較不同LLMs的可信度變得困難。2) 可擴展性和普適性:創建適用于不同大小和類型LLMs的基準,并且能夠普遍適用于不同領域和應用是一項復雜的任務;3) 實際評估方法。需要設計有效的提示來測試明顯的可信度問題,并發現可能不會立即顯現的更微妙的偏見和錯誤。這需要深入理解技術及其產出對社會的潛在影響。 先前的研究[70, 71, 72]已經為LLMs的可信度建立了基礎見解。這些研究提出了評估LLMs的方法,并制定了衡量其可信度的分類法。然而,某些分類法[70, 73]并未完全涵蓋與LLMs可信度相關的所有方面。此外,一些分類法[71, 72]專注于細微的區別,導致重疊的子類別使建立清晰的評估基準變得復雜。因此,需要一種更全面和細致的方法來準確評估LLMs的可信度。
在這里,我們提出了TRUSTLLM,一個統一框架,支持對LLM中的可信度進行全面分析,包括現有工作的調查,組織不同維度的可信LLMs的原則,一個新穎的基準,以及對主流LLMs的全面可信度評估。具體來說,我們如下解決上述三個挑戰:
確定八個可信度方面。為了探索LLMs有多可信,我們融合了來自人工智能、機器學習、數據挖掘、人機交互(HCI)和網絡安全的領域知識。我們對過去五年發表的500篇關于LLMs可信度的論文進行了廣泛的回顧,并確定了定義LLMs可信度的八個關鍵方面,即真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性。在這項工作中,為了便于我們的調查,我們將效用(即功能效能)與這八個確定的維度分開,并定義可信LLMs為“為了被認為是可信的,LLMs必須適當地反映真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性等特性。”詳細討論可以在第4節中找到。
選擇全面且多樣化的LLMs進行調查。通過評估16個LLMs,包括專有和開源模型,我們涵蓋了模型大小、訓練策略和功能能力的廣泛范圍。這種多樣性保證了TRUSTLLM不局限于特定類型或大小的LLM。它還建立了一個全面的評估框架,用于評估未來LLMs的可信度。
在各種任務和數據集上進行基準測試和評估:我們基準測試了30個數據集,以全面評估LLMs的功能能力,從簡單的分類任務到復雜的生成任務。每個數據集提出了獨特的挑戰,并在多個可信度維度上對LLMs進行了基準測試。同時,采用了多種評估指標來理解LLMs的能力。這種方法確保了評估是全面和多方面的。
貢獻。TRUSTLLM評估的結果在圖1中總結,觀察和洞見在第2節中展示。我們在這項工作中的貢獻簡要概述如下。 首先,我們基于全面的文獻綜述提出了一套評估LLMs可信度的指南,這是一個涵蓋包括真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性在內的八個方面的分類法。
其次,由于透明度和問責性的基準測試難度,我們為這六個方面建立了基準。這是第一個全面且綜合的基準,包括超過18個子類別,涵蓋超過30個數據集和16個LLMs,包括專有和開放權重模型。除了圖1中展示的這些模型的可信度排名外,我們在后續各節中提出了評估細節。
最后但同樣重要的是,從廣泛的實驗結果中,我們得出了有洞見的發現(詳見第2節)。我們對LLMs的可信度評估考慮了整體觀察和基于每個維度的個別發現,強調了效能和可信度之間的關系,大多數LLMs中普遍缺乏的一致性,專有和開放權重LLMs之間的差異,以及當前與可信度相關技術的不透明性。我們旨在為未來的研究提供有價值的洞見,為大型語言模型中的可信度景觀提供更細膩的理解。
觀察和洞見
為了更好地理解我們的研究,我們首先基于我們在這項工作中的廣泛實證研究,提出了我們的觀察和洞見。
2.1 總體觀察
可信度與效用緊密相關。我們的發現表明,可信度和效用之間存在正相關,特別是在特定任務中顯而易見。例如,在道德行為分類(第11.1節)和刻板印象識別任務(第8.1節)中,像GPT-4這樣具有強大語言理解能力的LLMs傾向于做出更準確的道德判斷,并更可靠地拒絕刻板印象陳述。類似地,Llama2-70b和GPT-4在自然語言推理方面的熟練度,表現出對抗性攻擊的增強韌性。此外,我們觀察到LLMs的可信度排名往往與以效用為中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。這一觀察強調了可信度和效用的相互關聯性,凸顯開發者和用戶在實施和使用LLMs時,需要同時考慮這些方面。
大多數LLMs“過度對齊”。我們發現許多LLMs表現出一定程度的過度對齊(即夸大的安全性),這可能損害它們的整體可信度。這樣的LLMs可能將許多無害的提示內容識別為有害,從而影響它們的效用。例如,Llama2-7b在對實際上并非有害的提示做出回應時,拒絕率達到57%。因此,訓練LLMs在對齊過程中理解提示背后的意圖,而不僅僅是記憶示例,對降低錯誤識別有害內容的比率至關重要。
一般而言,專有LLMs在可信度上優于大多數開放權重LLMs。然而,少數開源LLMs能夠與專有模型競爭。我們發現,在可信度方面,開放權重和專有LLMs之間存在性能差距。通常,專有LLMs(例如ChatGPT、GPT-4)的表現遠優于大多數開放權重LLMs。這是一個嚴重的問題,
因為開放權重模型可以被廣泛下載。一旦集成到應用場景中,它們可能帶來嚴重的風險。然而,我們驚訝地發現,Llama2 [69] 系列這樣的開放權重LLMs,在許多任務中的可信度超過了專有LLMs。這表明,開放權重模型即使在沒有添加外部輔助模塊(如審查員 [76])的情況下,也能展示出色的可信度。這一發現為相關開放權重開發者提供了重要的參考價值。
模型本身和與可信度相關的技術應該是透明的(例如,開源)。鑒于不同LLMs在可信度方面的性能差距顯著,我們強調模型本身及旨在提高可信度的技術的透明度的重要性。如最近研究[77, 78]所強調,充分理解模型的訓練機制,包括參數和架構設計等方面,是研究LLMs的基石。我們的實驗發現,雖然一些專有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技術細節仍未公開。使這些可信技術透明化或開源可以促進這些技術的更廣泛采用和改進,顯著提升LLMs的可信度。這反過來使LLMs更可靠,并加強了AI社區對這些模型的整體信任,從而有助于AI技術的健康發展。
2.2 對可信度各個維度的新洞見真實性。
AI系統的真實性是指準確地呈現信息、事實和結果。我們的發現表明:1) 專有LLMs如GPT-4和開源LLMs如Llama2在僅依賴其內部知識時,經常難以提供真實的回應。這主要是由于其訓練數據中的噪聲,包括錯誤信息或過時信息,以及底層Transformer架構缺乏泛化能力所致。2) 此外,所有LLMs在零樣本常識推理任務中面臨挑戰,表明它們在對于人類相對直接的任務中存在困難。3) 相比之下,增強了外部知識的LLMs表現出顯著改善的性能,超越了原始數據集上報告的最新結果。4) 我們觀察到在不同的幻覺任務中存在顯著差異。大多數LLMs在多項選擇問答任務中的幻覺較少,與知識引導對話等更開放式任務相比, 可能是由于提示敏感性(第14節)。5) 此外,我們發現獻媚和對抗性現實之間存在正相關。獻媚水平較低的模型在識別和突出用戶輸入中的事實錯誤方面更為有效。
安全性。LLMs的安全性對于避免不安全或非法輸出并確保進行健康對話至關重要[72]。在我們的實驗(第7節)中,我們發現:1) 大多數開源LLMs的安全性仍然是一個問題,特別是在越獄、毒性和濫用等領域,顯著落后于專有LLMs。2) 值得注意的是,LLMs對不同的越獄攻擊并不是統一抵抗。我們的觀察發現,各種越獄攻擊,特別是leetspeak攻擊[61],對LLMs的成功率各不相同。這強調了LLM開發者需要采取全面的防御策略來應對多種攻擊類型。3) 對于大多數LLMs而言,平衡安全性是一個挑戰;那些具有嚴格安全協議的LLMs經常表現出夸張的謹慎,如Llama2系列和ERNIE所表現出的。這表明許多LLMs并未完全對齊,可能依賴于表面的對齊知識。
公平性。公平性是確保LLMs在設計、訓練和部署過程中不會導致有偏見或歧視性結果的道德原則,確保它們公平對待所有用戶和群體。在我們的實驗中(第8節),我們發現:1) 大多數LLMs在識別刻板印象方面的表現并不令人滿意,即使表現最好的GPT-4,其總體準確率也僅為65%。當面對包含刻板印象的句子時,不同LLMs的一致性百分比差異很大,最好的表現僅為0.5%的一致率,最差的接近60%。2) 只有少數LLMs,如Oasst-12b[81]和Vicuna-7b[82],在處理貶低性內容時表現出公平性;大多數LLMs在處理包含貶低傾向的問題時仍顯示出對特定屬性的偏見。3) 關于偏好,大多數LLMs在普通基線上表現非常好,保持客觀性和中立性,或拒絕直接回答。然而,當被迫選擇時,LLMs的表現顯著下降。
穩健性。穩健性定義為系統在各種情況下保持其性能水平的能力[83]。在我們的實驗中(第9節),我們發現:1) Llama2系列和大多數專有LLMs在傳統下游任務中超越了其他開源LLMs。2) 然而,LLMs在開放式任務的表現表現出顯著的變化性。表現最差的模型在擾動前后的平均語義相似度僅為88%,遠低于最佳表現者的97.64%。3) 在OOD(超出分布)穩健性方面,LLMs展現出相當大的性能差異。表現最佳的模型GPT-4在OOD檢測中拒絕回答(RtA)率超過80%,在OOD泛化中平均F1得分超過92%。相比之下,表現最差的模型RtA率僅為0.4%,F1得分約為30%。4) 此外,我們的觀察沒有發現參數大小和OOD性能之間存在一致的正相關性,這可以從Llama2模型的不同參數大小的不同表現水平中得到證明。
隱私。隱私包括旨在保護人類自主權、身份和尊嚴的規范和實踐[83]。在我們的實驗中(第10節),我們發現: 大多數LLMs表現出一定程度的隱私意識,這可以從這些模型在被告知必須遵守隱私政策時拒絕回應有關私人信息的查詢的可能性顯著增加中看出。2) 用于測量人類和LLMs在使用隱私信息方面的一致性的皮爾森相關系數差異很大。表現最佳的模型,ChatGPT,達到了0.665的相關性,而Oass-12b展現出令人驚訝的負相關性,低于零,表明與人類相比,它對隱私的理解存在差異。3) 我們觀察到幾乎所有LLMs在Enron電子郵件數據集[84]的測試中都顯示出一定程度的信息泄露。
機器倫理。機器倫理確保利用人工智能的人造機器(通常稱為AI代理)的道德行為[85, 86]。在我們的實驗中(第11節),我們發現:1) LLMs已經發展出一套特定的道德價值觀,但在完全與人類倫理一致方面仍有顯著差距。在低歧義場景中的隱性任務中,大多數LLMs的準確性不足70%,不論是哪個數據集。在高歧義場景中,不同LLMs的表現有很大差異;例如,Llama2系列達到了99.9%的拒絕回答率(RtA),而其他模型的得分不到70%。2) 在情感意識方面,LLMs顯示出更高的準確性,表現最佳的模型如GPT-4的準確率超過94%。 這些觀察和洞見提供了對LLMs可信度各個維度的深入理解,揭示了它們在處理復雜任務和維護道德準則方面的能力和局限性。這些發現對于開發更可靠、公平、安全且符合倫理的LLMs至關重要,同時也為未來的研究和應用提供了重要的參考。通過這樣的深入分析,我們能夠更好地理解和提升大型語言模型的整體可信度,使其在各種應用場景中更加有效且符合倫理標準。
大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。
隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。
**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。
**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。
文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。
本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。
在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。
//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e