摘要—檢索增強生成(RAG)已迅速成為大規模語言模型(LLM)開發中的關鍵范式。盡管當前該領域的大部分研究主要集中在性能優化,尤其是在準確性和效率方面,但RAG系統的可信度仍是一個尚待深入探索的領域。從積極的角度來看,RAG系統有望通過從廣泛的外部數據庫中提供有用的、最新的知識,增強LLM的能力,從而緩解長期存在的幻覺問題。而從消極的角度來看,如果檢索到的信息不合適或使用不當,RAG系統有可能生成不良內容。為了解決這些問題,我們提出了一個統一框架,用于從六個關鍵維度評估RAG系統的可信度:真實性、魯棒性、公平性、透明性、問責性和隱私性。在此框架下,我們全面回顧了現有文獻中對每個維度的研究。此外,我們針對這六個維度創建了評估基準,并對多種專有和開源模型進行了全面評估。最后,基于我們的調查結果,我們確定了未來研究可能面臨的挑戰。通過這項工作,我們旨在為未來的研究奠定一個結構化的基礎,并提供提升RAG系統在實際應用中可信度的實用見解。
關鍵詞—可信度;大規模語言模型;檢索增強生成
1 引言
大規模語言模型(LLM)的出現代表了人工智能,特別是在自然語言處理(NLP)和理解領域的重大進展。隨著時間的推移,這些模型從簡單的基于規則的系統演變為復雜的深度學習架構,其進步得益于諸如Transformer架構[1]、在多樣化數據集上的廣泛預訓練以及先進的微調技術[2]等創新。這些進展極大地增強了LLM的能力,影響了自動內容生成[3]和高級語言翻譯[4]等應用,從而改變了機器對人類語言的解讀與生成方式。
盡管取得了這些進展,LLM仍面臨持續的“幻覺”挑戰,即模型生成看似合理但實際上不正確或無意義的信息[5, 6]。幻覺產生的原因包括訓練數據中的偏差[7]以及語言模型的概率性質[8]。在需要高度精確和可靠性的應用場景中,如醫療和法律領域[9],這一問題尤為關鍵。為減輕這一問題,檢索增強生成(RAG)系統應運而生[10]。RAG系統通過集成外部信息檢索機制,確保生成的內容基于事實數據,從而提高LLM輸出的準確性和可信度[11]。
隨著LLM越來越多地融入金融系統[12]和醫療保健[13]等應用,LLM的可信度已成為一個關鍵問題。根據各種框架,可信度通過多個關鍵維度進行評估,包括真實性、安全性、公平性、魯棒性、隱私性、機器倫理、透明性和問責性[14]。這些維度確保LLM提供準確、無偏見且安全的輸出,同時保護用戶隱私并符合倫理標準[15]。強化學習(RLHF)[16]、數據過濾[17]和對抗性訓練[18]等技術已被用于提高可信度,其中專有模型如GPT-4在某些高風險應用中通常優于開源替代品[19]。隨著LLM繼續影響關鍵社會功能,學術界與工業界之間的持續研究與透明、協作努力對于確保其可靠和倫理的部署至關重要[20]。
然而,目前關于RAG系統的研究主要集中于優化檢索器和生成器組件以及精煉它們的交互策略[3, 21]。對于這些系統的可信度關注較少[22]。可信度對于RAG系統的實際部署至關重要,尤其是在法律咨詢或醫療保健等高風險或敏感應用中,錯誤可能會產生嚴重后果[23]。因此,必須確定定義RAG系統可信度的關鍵要素,并開發評估這些維度的可信度方法[24]。在此背景下,出現了兩個主要挑戰:(1)定義一個全面的框架,涵蓋RAG系統可信度的所有相關方面;(2)設計實際且穩健的評估方法,有效衡量各維度的可信度[25]。 為應對這些挑戰,我們提出了一個統一框架,支持對RAG系統可信度的全面分析,框架包括三個關鍵部分:
RAG系統可信度六個關鍵維度的定義:如圖1所示,我們從六個維度定義了RAG系統的可信度:(1)真實性:通過與可靠來源進行驗證,確保生成信息的準確性和真實性。(2)魯棒性:確保系統對錯誤、對抗性攻擊和其他外部威脅的可靠性。(3)公平性:在檢索和生成階段盡量減少偏見,確保公平的結果。(4)透明性:使RAG系統的過程和決策對用戶清晰易懂,促進信任和問責。(5)問責性:實施機制,確保系統的行為和輸出負有責任且可追溯。(6)隱私性:在檢索和生成過程中保護個人數據和用戶隱私。
現有工作的調查:我們對與RAG系統可信度相關的現有文獻和研究進行了全面回顧。我們分析了為增強六個關鍵維度的可信度而提出或實施的各種方法、技術和技術路線。
各種LLM的基準評測和評估:為提供對RAG系統可信度的實際評估,我們構建了一個基準并建立了全面的評估框架。該框架評估了10種不同的LLM,包括專有和開源模型,涵蓋各種模型規模和訓練策略。該基準為不同模型在實際應用中的可信度表現提供了寶貴的見解。
本次綜述的貢獻主要有三方面:(1)我們引入了一個統一框架,定義了RAG系統可信度的六個關鍵維度。(2)我們對現有RAG可信度文獻進行了詳細回顧,識別了研究空白并突出了有前途的方法。(3)我們建立了一個實用的基準評測框架,并對10個LLM進行了全面評估,為未來RAG系統可信度提升提供了可操作的見解和指南。 可信的RAG系統
一個完整的RAG系統包括三個主要階段:將外部知識注入生成器,生成器生成答案,以及對生成的答案進行評估。每個階段都面臨與可信性相關的挑戰。在外部知識注入階段,存在注入噪聲或私人信息的風險。在答案生成階段,引入的外部知識可能導致偏見推理,并破壞通過人類反饋強化學習(RLHF)所實現的一致性。最后,在答案評估階段,生成的答案可能包含事實錯誤或缺乏足夠的外部知識依據。 如圖2所示,我們確定了RAG系統可信性的六個關鍵維度:魯棒性、公平性、真實性、隱私性、透明性和問責性。對于每個維度,我們將探討以下幾個方面:適用于LLM的一般定義、RAG背景下的具體定義以及詳盡的文獻回顧。為了更清楚地對相關研究進行分類和總結,我們首先在圖3中展示了這些研究的時間線,以確定該領域的趨勢。然后,在表1中,我們根據三個標準對每項研究進行了分類:可信性維度、方法類型和對象。以下章節將深入探討每個可信性維度的細節。
摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注,但仍然缺乏整體視角。許多關鍵方面仍不清楚,例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中,我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻,包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性,并討論了未來的研究方向。據我們所知,這是首個關于基于LLM的疾病診斷的綜合評述。
引言
自動疾病診斷是臨床場景中的一項關鍵任務,它以臨床數據為輸入,分析模式,并生成潛在的診斷,幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先,它提高了診斷的準確性,支持臨床醫生的決策,并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次,自動診斷提高了醫療專業人員的效率,這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如,DXplain是一個診斷系統,它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表,并提供每種病癥應被考慮的理由。此外,在線服務進一步促進了某些疾病的早期診斷或大規模篩查,例如心理健康障礙,通過早期階段提高意識,幫助預防潛在的風險。例如,幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。
人工智能(AI)的最新進展推動了自動診斷系統的發展,經歷了兩個階段。最初,機器學習技術如支持向量機和決策樹被用于疾病分類,這通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升,深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡(DNNs),包括卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN),實現了端到端的特征提取和模型訓練。例如,一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而,這些模型通常需要大量標注數據進行監督學習,并且通常是任務特定的,限制了它們對其他任務或新需求的適應性。 近年來,人工智能的范式已經從傳統的深度學習轉向了大型語言模型(LLMs)的出現。與監督學習不同,LLMs(如生成式預訓練變換器(GPT)和LLaMA)是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數,擅長語言處理,并能適應各種任務。迄今為止,LLMs在臨床場景中展現了卓越的表現,包括問答(QA)、信息檢索和臨床報告生成等任務。最近,越來越多的研究驗證了LLMs在診斷任務中的有效性。例如,PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM,在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM,經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調,在COVID-19診斷中展示了顯著的準確性。此外,Kim等人通過提示工程使用GPT-4,發現其在識別強迫癥方面超越了心理健康專家,這突顯了LLMs在心理健康診斷中的潛力。 盡管該研究領域引起了廣泛關注,但許多關鍵問題仍未得到充分探索。例如,在基于LLMs的診斷任務中,哪些疾病和醫療數據被調查過(Q1)?LLMs技術在疾病診斷中是如何應用的,以及如何選擇合適的技術(Q2)?評估診斷性能的合適方法是什么(Q3)?盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究,這些研究通常提供了廣泛的臨床應用概述,但并未特別強調疾病診斷。例如,Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外,這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰,或回答上述關鍵問題,突顯了這一領域的重要研究空白。 本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地,我們還分析了當前研究的局限性,并深入探討了這一領域的挑戰和未來研究方向。據我們所知,這是首個專注于LLMs疾病診斷的綜述,并全面概述了這一領域。總結來說,這篇綜述為基于LLM的疾病診斷提供了一個藍圖,旨在激發和引導未來的研究工作。
結果****研究范圍概述
本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態(Q1),還介紹了應用的LLM技術(Q2)和評估方法(Q3),回答了前述問題。具體來說,我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態,包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外,我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類,例如提示(零樣本)、檢索增強生成(RAG)和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外,圖3展示了我們綜述中的元信息分析,涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結,以及數據來源、評估方法和數據隱私狀態的統計信息。
摘要——擴散模型(Diffusion Models, DMs)在圖像生成、文本生成圖像、文本引導圖像生成等多種生成任務中已取得了最先進的性能。然而,DMs越強大,它們潛在的危害也越大。最近的研究表明,DMs容易受到各種攻擊,包括對抗性攻擊、成員推理、后門注入以及各種多模態威脅。由于眾多預訓練的DMs在互聯網上廣泛發布,這些攻擊帶來的潛在威脅對社會尤其具有危害性,使得與DM相關的安全問題成為一個值得深入研究的課題。因此,在本文中,我們對DMs的安全性進行了全面的綜述,重點關注針對DMs的各種攻擊和防御方法。首先,我們介紹了DMs的關鍵知識,包括五種主要類型的DMs:去噪擴散概率模型、去噪擴散隱式模型、噪聲條件評分網絡、隨機微分方程以及多模態條件DMs。我們進一步綜述了最近一系列研究,探討了利用DMs脆弱性的不同類型的攻擊。隨后,我們全面回顧了用于減輕每種威脅的潛在對策。最后,我們討論了與DMs相關的安全性面臨的開放性挑戰,并展望了這一重要領域的研究方向。
關鍵詞——擴散模型,多模態威脅,擴散模型安全性,后門攻擊,成員推理,對抗性攻擊。
近年來,擴散模型(Diffusion Models, DMs)[1]–[11]在廣泛的生成任務中展示了卓越的能力,在深度生成模型的其他類別中如生成對抗網絡(GANs)[12]、變分自編碼器(VAEs)[13], [14]和基于能量的模型(EBMs)[15]中樹立了新的性能標桿。通常,DMs包括兩個主要過程。前向(擴散)過程逐漸向原始數據中添加噪聲,以逐步將數據分布擴散到標準高斯分布中。反向(生成)過程利用一個深度神經網絡(通常是UNet [16]),來反向擴散,從高斯噪聲中重構數據。憑借其令人印象深刻的潛力,DMs已被廣泛應用于多個領域,包括計算機視覺 [17]–[28]、自然語言處理(NLP)[29]–[34]、音頻處理 [35], [36]、3D生成 [37]–[42]、生物信息學 [43], [44]以及時間序列任務 [45]–[47]。根據擴散和生成過程的不同,DMs可以分為不同的類別。第一類受到非平衡熱力學理論[1]的啟發,包括去噪擴散概率模型(DDPMs)[1]–[4]。DDPMs可以被視為馬爾可夫層次VAE,其中擴散過程被建模為具有多個連續VAE的馬爾可夫鏈。每個擴散步驟對應于VAE的編碼過程,而每個去噪步驟可以視為相應VAE的解碼操作。另一方面,去噪擴散隱式模型(DDIMs)是DDPMs的一個變體,采用非馬爾可夫的方法,使模型能夠在去噪過程中跳過步驟,從而在一定質量的權衡下提高生成速度。另一類DMs是噪聲條件評分網絡(NCSNs)[6], [7], [10],其基于評分匹配[48]訓練神經網絡以學習真實數據分布的評分函數(即對數似然的梯度)。該評分函數指向訓練數據所在的數據空間。因此,通過跟隨評分,訓練良好的NCSNs可以根據真實數據分布生成新的樣本。這個過程也可以看作是一種去噪過程[49]。最后一個主要類別是基于評分的隨機微分方程(SDE),它將DDPMs和NCSNs納入一個廣義形式中。前向過程通過SDE將數據映射到噪聲分布,而反向過程則使用逆時間SDE[50]從噪聲中生成樣本。此外,交叉注意力技術[51]可用于通過多模態條件(如文本和圖像)約束去噪神經網絡,迫使去噪過程生成符合給定條件的結果。這引發了廣泛的多模態生成任務,如文本生成圖像和文本引導的圖像生成[9]。盡管具有顯著的潛力,DMs由于以下原因特別容易受到各種安全和隱私風險的影響:(i) 強大的DMs通常基于從多種開放資源收集的大規模數據進行訓練,這些數據可能包含有毒數據或后門數據;(ii) 預訓練的DMs在諸如HuggingFace1等開放平臺上廣泛發布,使得黑客更容易傳播其操作過的模型。例如,通過操作訓練數據和修改訓練目標,攻擊者可以將后門觸發器嵌入DMs中以實施后門攻擊[58]–[67]。因此,一旦在推理過程中向帶有后門的DM輸入觸發器,它將始終生成攻擊者指定的特定結果(例如,敏感圖像或暴力文本)。即使在攻擊者無法修改DMs參數的更安全設置下,他們仍可以構建DMs的輸入以生成敏感內容,這被稱為對抗性攻擊[68]–[84]。在隱私方面,成員推理可以檢測某個特定示例是否包含在DMs的訓練數據集中。當訓練數據高度敏感(例如,醫學圖像)時,這尤其危險。此外,DMs還用于各種安全應用中,如對抗性凈化和穩健性認證,攻擊這些應用中集成的DMs可能會使整個基于DM的安全系統失效[85], [86]。由于DMs受到廣泛關注,并且各種基于DM的應用已被公眾廣泛使用,因此不可否認,DMs的安全性是一個重要的研究方向。然而,現有的DMs綜述大多集中于其在架構改進、性能和應用方面的發展,而完全忽略了DMs的安全性。例如,文獻[53]的作者綜述了DMs的一系列算法改進,包括采樣加速、擴散過程設計、似然優化和分布橋接方面的改進。此外,他們還回顧了DMs的各種應用,如圖像/視頻生成、醫學分析、文本生成和音頻生成。同樣,綜述[52]也討論了DMs的應用和發展,特別關注高效的采樣方法和改進的似然。此外,作者還深入探討了DMs與其他深度生成模型類別如VAEs、GANs和EBMs之間的聯系。在以應用為中心的綜述中,也有多篇綜述研究了基于DM的應用,包括計算機視覺[54]、NLP[55]、醫學成像[56]和時間序列應用[57]。由于現有綜述未探討DMs的安全性方面,本文旨在填補這一空白,通過提供對該重要課題中最先進研究的系統和全面概述。通過分類不同類型的針對DMs的攻擊并提出應對這些攻擊的對策,我們希望本綜述能為研究人員提供有益的指南,以探索和開發最先進的DMs安全方法。本文的貢獻可以總結如下:
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
受大型語言模型(LLM)快速發展的啟發,LLM代理已發展到能夠執行復雜任務的階段。LLM代理現在廣泛應用于各個領域,處理大量數據以與人類互動并執行任務。LLM代理的廣泛應用展示了其顯著的商業價值;然而,這也暴露了其安全和隱私漏洞。在當前階段,非常需要對LLM代理的安全和隱私進行全面研究。本次調查旨在全面概述LLM代理面臨的新出現的隱私和安全問題。我們首先介紹LLM代理的基本知識,然后對威脅進行分類和分析。接著,我們討論這些威脅對人類、環境和其他代理的影響。隨后,我們回顧現有的防御策略,最后探討未來的發展趨勢。此外,調查結合了多樣的案例研究,以便更易于理解。通過強調這些關鍵的安全和隱私問題,本次調查旨在激發未來研究,以增強LLM代理的安全性和隱私性,從而在未來應用中提高其可靠性和可信度。
受到大型語言模型(LLM)快速發展的啟發,LLM智能體已經發展到能夠執行復雜任務的階段。LLM智能體基于GPT-4 [67]、Claude 3 [6] 和Llama 3 [5] 等大型語言模型,利用其所訓練的海量文本數據執行各種任務,從自然語言理解和生成到更復雜的決策制定、問題解決以及以人類方式與用戶互動等[95]。LLM智能體在眾多應用中都能見到,包括虛擬助手、客戶服務機器人和教育工具,因為它們能夠以高級水平理解和生成人類語言[22, 99, 115]。LLM智能體的重要性在于其能夠通過自動化需要人類理解和互動的任務,轉變各個行業。它們能夠提高生產力、改善用戶體驗并提供個性化的幫助。此外,它們從海量數據中學習的能力使得它們能夠不斷改進和適應新任務,成為在快速發展的技術環境中的多功能工具[107]。
為了直觀地展示LLM智能體如何整合到實際場景中,可以參考圖1所示的例子。此圖展示了一個像素化的虛擬城鎮來模擬LLM智能體應用。該城鎮包括現實生活中的聚集場所,如商店、辦公室、餐館、博物館和公園。每個LLM智能體充當獨立的居民,扮演各種角色并執行不同的功能,行為與社區中的真實人類非常相似。這些智能體可以手動控制以與特定角色互動并完成任務,或自主運行,按照自己的計劃行事并通過在虛擬社區中的互動獲取新知識。
LLM智能體的部署由于其在各個領域的廣泛應用,導致其用戶基礎廣泛且具有高商業價值。鑒于LLM智能體仍處于早期階段,其顯著的商業和應用價值使其成為攻擊者的有吸引力的目標。然而,由于LLM智能體建立在LLM之上,它們容易受到針對LLM的攻擊。例如,越獄攻擊可以繞過LLM的安全和審查功能,生成有爭議的回應。這種威脅被LLM智能體繼承,使得攻擊者能夠采用各種方法對智能體執行越獄攻擊。然而,與靜態LLM不同,LLM智能體具有動態能力,其即時響應可以影響未來的決策和行動,從而帶來更廣泛的風險。此外,LLM智能體的獨特功能,例如在任務執行過程中思考和利用工具的能力,使其容易受到針對智能體的特定攻擊。例如,當LLM智能體使用外部工具時,攻擊者可以操縱這些工具的功能以泄露用戶隱私或執行惡意代碼。根據智能體的應用領域,此類攻擊可能對物理安全、金融安全或整體系統完整性構成嚴重威脅。
本文將LLM智能體面臨的安全威脅分為繼承自LLM的攻擊和特定于智能體的獨特威脅。繼承自LLM的威脅可以進一步分為技術漏洞和故意的惡意攻擊。技術漏洞包括幻覺、災難性遺忘和誤解等問題[107],這些問題源于初始模型的創建并受到模型結構的影響。這些漏洞可能導致用戶在長時間使用LLM智能體時觀察到錯誤輸出,影響用戶信任和決策過程。此外,技術漏洞還可能為惡意攻擊提供機會。目前,針對LLM的惡意攻擊包括數據盜竊和響應篡改,例如數據提取攻擊和一系列調優的指令攻擊[119]。
針對LLM智能體的特定威脅,我們受到了LLM智能體工作流程的啟發,該流程包括智能體的思考、行動和感知[40]。這些威脅可以分為知識中毒、功能操縱和輸出操縱。知識中毒涉及污染LLM智能體的訓練數據和知識庫,導致創建者故意加入惡意數據。這可以輕易地通過有害信息欺騙用戶,甚至引導他們走向惡意行為。輸出操縱干擾智能體的思考和感知階段的內容,影響最終輸出。這可以導致用戶接收到經過精心設計的偏見或欺騙信息,從而誤導他們。功能操縱利用LLM智能體使用的接口和工具執行未經授權的操作,如第三方數據盜竊或執行惡意代碼。
LLM智能體的研究仍處于初期階段。當前的研究主要集中在針對LLM的攻擊上,而缺乏全面討論智能體特定的安全和隱私問題的綜述,這些問題呈現出更復雜的場景。進行本次調查的動機是提供LLM智能體相關隱私和安全問題的全面概述,幫助研究人員理解和緩解相關威脅。
本次調查旨在:
本文的結構如下:第二部分將深入探討LLM智能體的基本方面,包括其定義、結構和能力。第三部分將識別并分類LLM智能體面臨的新興威脅,討論從基礎LLM繼承的威脅和特定于智能體的獨特威脅,并為每個類別提供詳細的示例和場景。第四部分將詳細說明這些威脅的現實世界影響,探討這些威脅如何影響用戶、環境和其他智能體,突出未減輕風險的潛在后果。第五部分將回顧現有的緩解策略和解決方案,以應對上述威脅。第六部分將討論當前研究的空白并提出未來的趨勢。第七部分將總結全文。
虛假信息在在線平臺上的傳播對社會構成了嚴重挑戰,亟需采取有效措施進行信息驗證。盡管人工事實核查依然非常重要,但虛假信息的不斷增加需要自動化的方法來應對。大型語言模型(LLMs)為幫助事實核查員提供了有前景的機會,利用LLMs廣泛的知識和強大的推理能力。在這篇綜述論文中,我們探討了生成型LLMs在事實核查領域的應用,展示了已采用的各種方法和用于提示或微調LLMs的技術。通過概述現有方法,這篇綜述旨在提高對LLMs在事實核查中應用的理解,并促進LLMs在這一過程中進一步的發展。
引言 當代數字時代帶來了各種挑戰,其中包括虛假信息的傳播。社交媒體的普及使這個問題更加嚴峻,成為一個嚴重的社會關注點。有效應對虛假信息的策略之一是事實核查(Vlachos 和 Riedel,2014),這主要由事實核查員手動完成。然而,事實核查員的數量有限,而虛假信息的傳播卻在增加(A?meur 等,2023)。因此,有必要通過使用數字工具和大型語言模型(LLMs)來開發自動化的事實核查流程,以協助事實核查員(Nakov 等,2021a)。
LLMs利用大規模數據集,結合數十億參數來模擬語言的細微差別和自然語言的模式。此外,生成型LLMs代表了一種專門用于文本生成的LLMs子集。它們在手動事實核查中的應用顯示出提高效率和準確性的良好前景。本研究首次綜合總結了將生成型LLMs整合到事實核查過程中的各種方法和技術。
現有的綜述已探討了事實核查員的需求和可自動化的任務(Nakov 等,2021a),任務定義、傳統方法或類似BERT的架構(Thorne 和 Vlachos,2018;Zeng 等,2021)。此外,還有幾位作者審查了現有的事實核查數據集(Guo 等,2022)。另一項綜述旨在利用LLMs對抗虛假信息,并探索LLMs帶來的機會和挑戰(Chen 和 Shu,2023b)。然而,這項研究并未詳細探討所使用的方法,這為更深入研究生成型LLMs在事實核查中的作用提供了機會。
我們的主要貢獻是提供生成型LLMs在自動化事實核查中應用的概述。我們概述了70篇相關方法和新穎提示技術的論文,供研究人員深入研究LLMs輔助的信息驗證。我們確定了四個主要任務和各種提出的解決策略。此外,我們討論了未來的挑戰和利用LLMs進行信息驗證的可能方向。
大語言模型(LLMs)與知識表示學習(KRL)的整合,標志著人工智能領域的重要進展,增強了捕捉和利用復雜知識結構的能力。這種協同作用利用了LLMs的高級語言和語境理解能力,以提升KRL的準確性、適應性和效能,從而擴展其應用和潛力。盡管有越來越多的研究集中在將LLMs嵌入到知識表示領域,但關于這些增強模型基本組件和過程的徹底審查明顯缺乏。我們的綜述通過基于三種不同的Transformer架構對這些模型進行分類,并分析來自各種KRL下游任務的實驗數據,以評估每種方法的優勢和劣勢。最后,我們確定并探討了這一新興但尚未深入探討的領域的潛在未來研究方向,提出了持續進展的路徑。
介紹
大語言模型(LLMs)(例如,BERT [18],LLaMA [59]),代表了一個不斷增長模型大小的方向,這些模型在更大的語料庫上進行預訓練,已經展示出在解決自然語言處理(NLP)任務中的強大能力,包括問答 [99],文本生成 [100] 和文檔理解 [101]。關于模型大小,沒有明確和靜態的閾值。早期的LLMs(例如BERT,RoBERTa)采用了編碼器架構,并展示了在文本表示學習和自然語言理解方面的能力。近年來,更多的關注點轉向了更大的編碼器-解碼器 [102] 或僅解碼器 [103] 架構。隨著模型大小的增加,這些LLMs還展示了推理能力甚至更高級的新興能力 [104],展示出對人工通用智能(AGI)的強大潛力。
這個拐點,隨著LLMs的到來,標志著從顯式知識表示向重新關注顯式知識和參數化知識混合表示的范式轉變。作為顯式知識表示的一種流行方法,知識圖譜(KGs)現在被廣泛研究,用于與基于Transformer的LLMs結合,包括預訓練的掩蔽語言模型(PLMs)如BERT和RoBERTa,以及更近期的生成式LLMs如GPT系列和LLaMA。一些工作利用LLMs來增強知識圖譜表示學習。在這篇綜述中,考慮到三個方向,即基于編碼器的方法、基于編碼器-解碼器的方法和基于解碼器的方法。我們對從顯式知識表示向重新關注顯式知識和參數化知識混合表示的轉變有了更深入的理解。
Cao等人 [22] 和Biswas等人 [40] 討論了知識圖譜表示學習的最新進展,但他們對與大型模型整合相關的方面處理不足。Pan等人 [42] 和Pan等人 [43] 探討了知識圖譜與大型模型的結合,特別是LLM4KG和KG4LLM;然而,他們在表示學習方面的覆蓋有限。因此,目前還沒有專門概述知識圖譜表示學習領域最新發展的綜述文章。
貢獻 本綜述的顯著貢獻總結如下:
組織結構 本綜述的結構如下:
自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。
軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。
論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么?
(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR?
(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進?
總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合?
(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。
大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。