亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多年來,漏洞修復和代碼生成一直是軟件開發中的核心研究主題。最近,大語言模型(LLMs)的爆炸式增長徹底改變了這一領域,為兩者提供了強大的工具。本綜述審查了27篇近期論文,并將其分為兩組:一組專注于自動程序修復(APR)與LLM的集成,另一組聚焦于利用LLM進行代碼生成。 第一組涉及針對漏洞檢測與修復的新方法,包括定位語義錯誤、安全漏洞和運行時失敗錯誤。APR中的工作強調了LLM在減少手動調試工作量方面的作用,通過上下文感知的修復方法推動準確性和效率提升,為自動調試帶來了創新。 第二組研究代碼生成,概述了為編程微調的通用LLM和任務特定模型,并提出了提升代碼生成的方法,如識別符感知訓練、指令級微調和語義代碼結構的融合。本綜述對APR與代碼生成中的方法進行了對比,識別了諸如利用LLM、通過反饋循環實現迭代代碼改進以及開源模型的趨勢。 此外,還討論了實現功能正確性與安全性的挑戰,并為基于LLM的軟件開發研究指明了未來的方向。 1 引言

近年來,大語言模型(LLMs)在自動化軟件工程領域中逐漸受到關注,尤其是在漏洞修復 [18][23][19][25][12] 和代碼生成 [15][21][6] 等領域。在過去十年中,自動程序修復(APR)和代碼生成的使用顯著增加 [8][10],從而推動了這一領域的大量研究。許多工具已被開發出來,這些工具結合了APR和自然語言處理,用于代碼生成 [15][21][6],并采用多種技術,包括抽象語法樹(AST)的實現、使用不同的啟發式方法對可能的修復補丁進行排序、模式匹配和上下文匹配等。 在與代碼相關的任務中使用LLMs顯著提升了編程自動化和漏洞發現的質量與速度。這些任務包括總結代碼、根據自然語言請求生成代碼、修復現有代碼中的漏洞,以及理解相對較大和復雜的代碼庫。然而,本文將重點探討在代碼生成與漏洞修復領域的研究與實踐。為便于理解,我們將所涵蓋的工具和論文劃分為這兩個類別。由于LLMs在極大規模的數據集和數十億參數上進行訓練,它們在這些工具中得到了廣泛應用。相比從零開始訓練模型,使用大語言模型可以更輕松地完成與編程相關的特定任務,從而帶來卓越的性能和顯著的優勢 [18][19][25]。 與此同時,將LLMs用于APR和代碼生成任務極其復雜,涵蓋了多個研究領域,如基準測試、修復場景(語法錯誤、語義錯誤等)、修復技術(重新編譯、二進制重寫等)、修復測試(補丁生成、輸入測試、共演化)等。因此,理解這一領域已經完成的工作可能十分復雜且耗時。 本文旨在總結這一快速發展的領域中已經完成的研究和工作,以幫助其他研究人員更好地理解這些工具的工作原理、在實際場景中的性能、應用領域及其局限性。我們收集了27篇論文,并總結了與這些研究相關的各種因素,包括使用的LLMs、支持的編程語言,以及由此衍生的構建語言無關的APR工具的難點、漏洞修復和代碼生成的方法,以及該領域仍在研究中的挑戰。 綜上,本文的目標包括: 1. 收集關于使用LLMs進行APR和代碼生成的研究,概述已取得的成果。 1. 闡明這些工具可用于的修復場景以及支持的編程語言。 1. 解析LLMs在修復和生成代碼工作流中的集成方式及面臨的挑戰。 1. 討論LLMs在與代碼相關的任務中的局限性及仍在研究中的問題。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

在多模態模型訓練和推理過程中,由于傳感器限制、成本約束、隱私問題、數據丟失以及時間和空間因素,數據樣本可能會缺失某些模態,導致模型性能下降。本綜述概述了在缺失模態的多模態學習(MLMM)領域的最新進展,重點關注深度學習技術。這是第一個全面的綜述,涵蓋了MLMM的歷史背景以及其與標準多模態學習設置的區別,隨后詳細分析了當前的MLMM方法、應用和數據集,并討論了該領域面臨的挑戰和未來可能的發展方向。

1 引言

多模態學習已成為人工智能(AI)領域的關鍵領域,專注于整合和分析各種數據類型,包括視覺、文本、聽覺和傳感器信息(圖1a)。這種方法反映了人類通過結合多種感官來更好地理解和與環境互動的能力。現代多模態模型利用深度學習的強大泛化能力,揭示單模態系統可能無法檢測到的復雜模式和關系。這種能力推動了多個領域的工作進展,包括計算機視覺。最近在這些領域的調查顯示,多模態方法的顯著影響,證明了它們能夠提高性能并實現更復雜的AI應用【7,224】。

然而,多模態系統在實際應用中往往面臨數據缺失或不完整的問題。這種情況的發生可能是由于傳感器故障、硬件限制、隱私問題、環境干擾和數據傳輸問題等多種因素造成的。如圖1b所示,在三模態的情況下,數據樣本可以分為全模態(包含所有三種模態的信息)或缺失模態(完全缺失一種或多種模態的數據)。這些問題可能在數據收集到部署的任何階段發生,顯著影響模型性能。現實世界中此類問題在多個領域廣泛存在。在情感計算領域,研究人員【31,150】發現,由于相機遮擋或麥克風噪聲過大,樣本中僅包含可用的圖像或音頻。同樣,在太空探索中,NASA的“機智號”火星直升機【36】由于火星上的極端溫度循環導致其傾角儀失效,面臨缺失模態的挑戰。為了解決這一問題,NASA應用了一項軟件補丁,修改了導航算法的初始化【169】。在醫療AI領域,由于隱私問題,某些數據樣本中某些模態可能不可用,導致多模態數據集中固有的模態缺失【222】。現實場景的不可預測性和數據來源的多樣性進一步加劇了這一挑戰。因此,開發能夠在模態缺失情況下有效運行的多模態系統,已成為該領域的關鍵研究方向。

在本綜述中,我們將處理缺失模態的挑戰稱為“缺失模態問題”。我們將解決該問題的方法稱為“缺失模態的多模態學習”(MLMM)。這一方法與傳統的全模態多模態學習(MLFM)形成對比。具體而言,在MLFM任務中,給定一個包含HHH模態的數據集,通常要求訓練模型能夠處理和融合所有HHH種模態的信息以進行預測。在訓練和測試過程中,使用來自所有HHH種模態的完整信息樣本。而在MLMM任務中,由于數據收集限制或部署環境中的約束,在訓練或測試時使用少于HHH種模態的數據。MLMM的主要挑戰在于在訓練和測試過程中動態且穩健地處理和融合任意數量的可用模態信息,同時保持與全模態樣本相當的性能。

本綜述涵蓋了MLMM的最新進展及其在信息檢索、遙感和機器人視覺等多個領域的應用。我們提供了對MLMM方法論、應用場景和相關數據集的細致分類。我們的工作擴展了現有專注于特定領域(如醫學診斷【5,151,235】、情感分析【179】和多視圖聚類【17】)的MLMM綜述。通過提供對當前研究的全面概述并識別未來工作的有前景方向,本綜述旨在為開發更穩健且適應性強的多模態學習系統做出貢獻。這些進展對于將智能系統部署在從行星探索的惡劣條件到日常生活中的動態和不可預測環境中至關重要。

本綜述的主要貢獻有三點:

  1. 對MLMM在各個領域的應用進行了全面的綜述,并收集了大量相關數據集,突顯了MLMM在應對現實挑戰中的多功能性。
  2. 提出了一個新穎的、細致的MLMM方法論分類體系,基于恢復策略、集成階段、參數效率方法和注意力機制等多方面的分類框架。
  3. 在所提出的分類框架下,深入分析了當前的MLMM方法、其挑戰以及未來的研究方向。

2 方法論

我們根據四個主要維度的分類框架對現有的深度缺失模態多模態學習(MLMM)方法進行分類和討論:模態增強、特征空間工程、架構工程和模型選擇。

**2.1 模態增強

我們將解決缺失模態問題的模態增強方法分為兩類,針對模態層次上的原始數據。第一類是模態組成方法,該方法使用零值/隨機值、從相似實例中直接復制的數據,或通過檢索算法獲得的匹配樣本,與缺失模態樣本組合形成全模態樣本。第二類是模態生成方法,它使用生成模型(如自動編碼器(AEs)[55],生成對抗網絡(GANs)[42],或擴散模型[56])生成缺失模態的原始數據。

2.1.1 模態組成方法 當數據集中缺失模態樣本較少時,刪除這些樣本是多模態數據集預處理中的常見方法。但這種方法會減少數據集的規模,并在數據集中包含許多缺失模態樣本時導致一些稀有樣本消失。模態組成方法因其簡單有效而廣泛使用,且可以保持數據集的規模。典型方法之一是零值/隨機值組成方法,用零值/隨機值替換缺失模態數據,如圖3所示。在最近的研究中[28, 102, 114, 163],這些方法經常作為基線與提出的方法進行比較。針對缺失序列數據問題,例如視頻中的缺失幀,提出了類似的幀-零值方法[135],用零幀替換缺失幀并與可用幀組合。這些方法在典型的多模態學習訓練過程中非常常見。通過這些方法,多模態模型可以在預測時平衡和整合來自不同模態的信息,從而避免模型過度依賴一個或幾個模態,增強其魯棒性。然而,當數據集中大多數樣本都是缺失模態樣本時,這些方法難以很好地泛化。另一種組成方法基于檢索算法(圖3),通過從具有相同模態和類別的檢索樣本中復制/平均原始數據來填充缺失模態數據。一些簡便的方法會隨機選擇一個具有相同類別和所需模態的樣本,并與輸入的缺失模態組合,形成用于訓練的全模態樣本。例如,研究人員[204]提出了Modal-mixup,隨機補充缺失模態樣本來完成訓練數據集。然而,這類方法在測試階段無法解決缺失模態問題。針對視頻等流數據中的缺失幀問題,研究人員提出了使用幀重復法[135],通過使用過去的幀來補足缺失幀。一些工作[14, 41, 204]嘗試使用K近鄰(KNN)或其變體來檢索最佳匹配樣本進行組合。實驗表明,基于KNN的方法在處理測試階段的缺失模態問題時,表現優于隨機選擇等方法。但簡單的聚類方法往往存在高計算復雜度、對不平衡數據敏感及高內存開銷等問題。此外,基于檢索的模態組合方法不適用于像素級任務(如分割),僅適用于簡單任務(如分類),因為它們可能導致模型混淆。此外,上述所有方法雖然能夠完成缺失模態的數據集,但它們會降低數據集的多樣性。這對于高模態缺失率(大部分樣本都是缺失模態樣本)的數據集尤其成問題,因為這增加了過擬合到某些少量全模態樣本類別的風險。

2.1.2 模態生成方法 在缺失數據研究中,提出了各種矩陣填充方法[41],利用矩陣元素之間的潛在相關性。然而,在多模態數據集中,缺失數據通常以大塊形式出現,使得傳統方法在大規模處理和高維計算中效率低下。隨著深度學習的發展,生成缺失模態變得更加高效。當前生成缺失模態原始數據的方法分為單模態生成方法和統一模態生成方法。單模態生成方法為每個模態訓練單獨的生成模型,以應對任意缺失模態的情況,如圖5a所示。早期工作使用高斯過程[117]或玻爾茲曼機[159]從可用輸入生成缺失模態數據。隨著深度學習的發展,諸如AEs和U-Net[147]等方法被用于生成原始模態數據。Li等人[87]使用3D-CNN從磁共振成像(MRI)數據生成正電子發射斷層掃描(PET)數據。Chen等人[24]通過訓練U-Net模型,從MRI數據中生成其他兩種模態以解決MRI分割中的缺失模態問題。最近的工作[113]將AEs作為基線方法之一,通過為每個模態訓練一個AE來完成數據集。在領域自適應中,Zhang等人[220]提出了一個多模態數據生成模塊,通過領域對抗學習生成每個缺失模態,學習領域不變特征。GANs通過使用生成器創建逼真的數據,并讓鑒別器區分其與真實數據,顯著提高了圖像生成的質量。研究人員開始用GANs代替AEs和U-Nets生成缺失模態。例如,GANs通過現有模態的潛在表示生成缺失模態的原始數據,在乳腺癌預測中得到了應用[3],而WGANs則應用于情感分析[184]。在遙感領域,Bischke等人[8]使用GANs生成深度數據,改善了RGB模型的分割性能。GANs還用于機器人識別中生成RGB和深度圖像[45]。最近的研究[113]表明,GANs在生成更真實的缺失模態時表現優于AEs,并能帶來更好的下游任務模型性能。最近,擴散模型的引入進一步提高了圖像生成質量。Wang等人提出了IMDer方法[190],利用可用模態作為條件,幫助擴散模型生成缺失模態。實驗表明,擴散模型減少了恢復模態與缺失模態之間的語義模糊性,并且在泛化性能方面優于以往的方法。然而,為每個模態訓練一個單獨的生成器效率低下,且無法捕捉模態之間的潛在相關性。研究人員開發了另一種生成方法,即統一模態生成方法,訓練一個統一模型可以同時生成所有模態(圖5b)。代表性模型之一是Cascade AE[174],通過堆疊AEs來捕捉缺失模態與現有模態之間的差異,從而生成所有缺失模態。最近的研究人員,如Zhang等人[221],嘗試使用注意力機制和最大池化層來整合現有模態的特征,使得模態特定的解碼器能夠生成每個缺失模態。實驗表明,該方法比僅使用最大池化[19]來整合多個模態特征生成缺失模態更加有效。盡管上述方法在一定程度上能夠緩解性能下降的問題,但訓練能夠生成高質量、類似真實世界分布的缺失模態的生成器仍然具有挑戰性,尤其是在訓練數據集中包含較少全模態樣本的情況下。此外,模態生成模型顯著增加了存儲需求。隨著模態數量的增加,這些生成模型的復雜性也隨之增加,進一步增加了訓練過程和資源需求的復雜性。

**2.2 特征空間工程

以下介紹在特征空間層次解決缺失模態問題的方法。首先,我們介紹兩種基于約束的方法,通過施加特定約束來增強更具辨別力和魯棒性的表示學習(圖6)。一種方法是通過正則化來提高學習表示的有效性和泛化能力。另一種方法側重于最大化相關性,使用特定的度量來加強特征之間的關系。接下來,表示組成方法可以借鑒2.1.1節討論的解決方案,在模態的特征層次上操作,或使用算術運算來處理動態數量的模態。最后,我們介紹表示生成方法,該方法能夠生成缺失模態的特征表示。

**2.3 架構工程

與上述生成模態或模態表示的方法不同,一些研究人員通過調整模型架構來適應缺失模態的情況。根據其在處理缺失模態中的核心貢獻,我們將其分為四類:基于注意力的方法、基于蒸餾的方法、基于圖學習的方法和多模態大語言模型(MLLMs)。

**2.4 模型選擇

模型選擇方法旨在使用一個或多個選定的模型進行下游任務,同時增強其魯棒性和性能。這些方法可以分為集成方法、專用方法和離散調度方法。集成方法通過投票、加權平均等方式組合多個選定模型的預測結果,以提高最終決策的準確性和穩定性。專用方法則為不同的子任務(如不同的缺失模態情況)分配專門的個體模型,專注于特定的子任務或子數據集。在離散調度方法中,用戶可以使用自然語言指令讓大型語言模型(LLMs)根據模態類型和下游任務自主選擇合適的模型。

3 應用與數據集

在過去十年中,基于深度學習的多模態學習經歷了爆炸式增長,在學術界和工業界得到了廣泛應用。與這些應用相伴的是各種形式的多模態數據集的出現。然而,此類數據集的收集往往需要大量人力和成本。在某些特定的應用方向上,諸如用戶隱私問題、數據收集設備的傳感器故障等因素,可能導致數據集中存在缺失模態。在嚴重的情況下,多達90%的樣本可能存在缺失模態問題,使得傳統的全模態多模態學習(MLFM)在模型訓練時難以取得良好的性能。這催生了缺失模態多模態學習(MLMM)的任務。由于導致數據集不完整的因素通常來自不同的應用方向,下面我們根據這些應用方向介紹相應的數據集:情感分析、醫療診斷、檢索/描述、遙感、機器人視覺等。我們還根據應用和數據類型在表3中對這些數據集進行了分類。

結論

在本綜述中,我們首次對缺失模態的深度多模態學習進行了全面回顧。我們首先簡要介紹了缺失模態問題的歷史發展及其在現實世界中的重要性原因。隨后,我們從兩個角度對該領域的當前進展進行了細致的分類和總結:方法論、應用與數據集。最后,我們討論了該領域現存的挑戰和未來可能的發展方向。盡管越來越多的研究人員參與到缺失模態問題的研究中,我們也關注到一些亟待解決的緊迫問題,例如統一的測試基準(如多模態大語言模型)以及更廣泛的應用需求(如自然科學)。通過我們的全面且詳細的綜述,我們希望能夠激勵更多的研究人員探索缺失模態的深度多模態學習技術,最終為開發出魯棒且高性能的AI系統做出貢獻。

付費5元查看完整內容

當前的人工智能(AI)模型通常通過精細的參數調整和優化技術來提升性能。然而,模型背后的基本設計原則相對較少受到關注,這可能限制我們對其潛力和局限性的理解。本綜述探討了塑造現代AI模型的多樣化設計靈感,即腦啟發的人工智能(BIAI)。我們提出了一個分類框架,將BIAI方法分為物理結構啟發型和人類行為啟發型模型。我們還審視了不同BIAI模型在實際應用中的表現,突出其實際優勢和部署挑戰。通過深入探討這些領域,我們提供了新的見解,并提出了推動創新和解決當前領域內空白的未來研究方向。本綜述為研究人員和從業者提供了BIAI領域的全面概覽,幫助他們利用其潛力,加速AI開發的進步。

1 引言

人工智能(AI)的一個基本目標是創造能夠像人類一樣學習和思考的機器。為了實現這一目標,人工學習器在多個領域中取得了顯著的里程碑,包括目標和語音識別【131, 151】、圖像處理【115】、機器人技術【50】、醫學數據分析【161】、自然語言處理(NLP)【114】等。這些成功加速了AI的發展,使其在某些領域能夠與人類匹敵甚至超越。例如,AI模型現在在某些特定任務中表現優于人類,如語言翻譯【134】、圖像識別【63】甚至戰略游戲如國際象棋和圍棋【155】。最近,許多公司提出了一系列能夠理解圖像、音頻、視頻和文本的多模態模型,其能力類似于人類【3, 7, 169】。這種快速的進步彰顯了AI在各個領域中的變革潛力,推動了技術能實現的邊界。然而,旨在創造具有類似人類思維和推理能力的機器的一般AI方法在可擴展性、魯棒性、能效、可解釋性、學習效率和適應性方面仍然存在局限性【98】。 人類大腦被認為是最復雜的信息處理系統,能夠解決諸如學習、推理和感知等復雜任務。基于對人腦研究的最新進展,研究人員正在將神經科學的見解整合到AI系統中,旨在開發能夠更接近人類行為的感知、推理和行動的腦啟發人工智能(BIAI)系統【128, 163】。這一努力源于對生物智能的基本原理的理解,并希望利用這些原理來構建更智能、適應性更強和更魯棒的AI系統。什么是腦啟發人工智能(BIAI)?BIAI指的是從人類大腦和神經系統的生物結構、功能和原理中獲得靈感的AI系統和算法。它專注于復制或模仿生物體中觀察到的復雜過程和功能,以在人工系統中實現更類似于人類或大腦的行為【197】。與一般AI算法相比,BIAI通常集中于人類行為的特定方面,如從經驗中學習、適應新環境以及關注重要信息。在這篇全面綜述中,BIAI文獻大致分為物理結構(PS)啟發型模型和人類行為(HB)啟發型模型。PS啟發型模型是指模仿生物神經元、突觸和神經回路結構的模型,用于執行諸如學習、推理和決策等任務。代表性模型包括多層感知器(MLP)、人工神經網絡(ANNs)以及最近的脈沖神經網絡(SNNs)。HB啟發型模型被定義為復制人類行為中觀察到的生物機制和過程的模型。這些模型旨在捕捉生物系統的動態,同時提供對人類如何感知、學習、適應和與環境互動的見解。注意力機制、遷移學習和強化學習是常見的人類行為啟發的深度學習方法。BIAI與一般AI的區別在于它們在AI領域中的不同方法和目標【31, 77】。具體而言,一般AI并不一定受到人類大腦具體工作方式的啟發,而是旨在更廣泛的意義上達到或甚至超越人類水平的智能。相反,設計BIAI系統的目的是復制或模仿人類認知背后的生物機制和過程。這些系統通常在圖像識別和機器人控制等任務中表現出色,但它們可能不具備人類智能的全方位能力。BIAI與傳統AI的更全面比較見表1。為什么BIAI重要?BIAI的重要性主要體現在兩個方面。一方面,BIAI在適應性、泛化能力和可解釋性等許多方面有潛力超越傳統的AI方法。另一方面,BIAI模型旨在模仿大腦的結構和功能,從而增加其生物學的合理性。這種與生物學原理的契合不僅加深了我們對智能的科學理解,也為神經科學和AI研究之間的合作創造了新的機會。本質上,通過從人類大腦——最先進的信息處理系統——中汲取靈感,研究人員正在為開發可能達到甚至超越人類能力的智能系統奠定基礎【47, 103, 125】。

**1.1 動機

人類大腦是生物復雜性的頂峰。它不僅調節所有身體功能和過程,還使高級認知能力得以實現,如思維、記憶和情感【16】。將神經科學與AI系統相結合有助于解決許多現實應用中的緊迫問題和某些瓶頸【204】。一方面,人類大腦在處理大量信息時效率極高,同時消耗的能量相對較少。模仿其架構和過程可以使AI系統在操作上同樣高效和優雅。例如,傳統機器人無法在復雜環境中及時獲取環境知識,這限制了其做出準確快速決策的能力。此外,在該領域中,低學習效率、泛化能力差、難以制定目標導向的策略以及對動態環境的慢適應性等問題仍然存在。將BIAI整合到機器人系統中可以顯著提高機器人的運動和操控能力【132】。此外,BIAI還可以應用于解決許多其他現實問題,如醫學診斷、自動駕駛汽車、聊天機器人和虛擬助手、網絡威脅檢測、輔導系統、供應鏈優化、內容創作和個性化推薦。這些應用突顯了BIAI在不同方面的廣泛影響和相關性。另一方面,理解大腦的機制不僅為我們提供了有關智能如何產生的見解,還為解決AI中的復雜問題提供了線索。通過研究生物神經網絡,研究人員可以開發更好地捕捉認知和感知復雜性的算法和架構。例如,神經網絡作為AI的基礎和基本模型之一,汲取了大腦結構和計算過程的靈感。作為現代AI的基石,神經網絡推動了醫療、金融、交通和娛樂等領域的進步。它們從數據中學習并揭示有價值的見解的能力使其成為解決復雜挑戰和推動AI創新的關鍵。此外,人類大腦具有顯著的魯棒性和適應性,能夠從經驗中學習,處理噪聲和不確定數據,并將知識泛化到新情境【41】。通過模仿大腦的彈性和適應性,BIAI旨在創造更為魯棒和多功能的AI系統。這種方法還強調了透明性、可解釋性和責任感,從而優先考慮倫理AI的發展。以生物系統為模型的智能化推動了可信賴且符合人類價值觀的AI的創建。盡管BIAI在推動AI和機器人技術方面具有巨大的潛力【102】,但它也面臨著一些挑戰和局限性。人類大腦是一個極其復雜的器官,擁有數十億的神經元和數萬億的突觸,這些神經元和突觸組織成復雜的網絡,控制著認知、感知和行為。在人工神經網絡(ANNs)中復制這種復雜性帶來了巨大的計算和工程挑戰【160】。由于人腦的復雜性,盡管經過了數十年的研究,我們對大腦的理解仍然不完整。許多大腦功能方面,如學習、記憶和意識,仍然理解不充分【152】。這種理解的缺乏使得將神經科學的見解轉化為BIAI的實際算法和架構的努力變得更加復雜。此外,BIAI模型的復雜性和不透明性妨礙了我們理解其決策過程的能力。這種明顯缺乏可解釋性和透明性的情況在安全關鍵型應用(如醫療保健和自動駕駛車輛)中引發了對責任感、偏見和可信賴性方面的重大擔憂【78, 91】。這些不足促使我們對BIAI進行全面研究。在文獻中,已有幾篇綜述論文從不同的應用場景和不同的視角調查了BIAI的算法。然而,大多數研究僅關注某一特定方面,如算法、應用場景或代價函數,缺乏對當前BIAI研究進展的詳細介紹和討論的全面綜述。在這篇綜述文章中,我們基于算法的靈感來源和學習機制對當前BIAI研究進行了分類和審視。對于每個BIAI算法,在介紹其特點和適用場景后,我們討論了其優缺點。然后,我們討論了當前BIAI模型的開放問題,并列出了幾個未來的研究方向。我們希望這篇全面綜述能為相關領域的研究人員提供有用的見解。

**1.2 相關綜述與新穎性

之前的研究涵蓋了腦啟發/類腦學習或計算范圍內的類似主題【62, 74, 132, 149】,但沒有一篇集中探討神經科學為AI模型帶來的具體知識,也沒有全面詳細地介紹BIAI系統。在【132】中,作者試圖總結腦啟發算法在智能機器人中的進展,深入探討了視覺認知、情感調節決策、肌肉骨骼機器人技術和運動控制等關鍵領域。Ou等人【122】介紹了類腦計算模型和芯片、它們的演變歷史、常見應用場景和未來前景。Hassabis等人【62】探討了AI與神經科學之間的歷史聯系,并研究了受人類和其他動物神經計算研究啟發的AI的最新進展。在【106】中,作者展示了機器學習和神經網絡如何改變動物行為和神經成像研究領域。關于人工神經網絡中的腦啟發學習,可以在【149】中找到生物學基礎和算法介紹。這篇綜述主要集中在如何從人類大腦的物理結構中學習。然而,沒有一篇綜述注意到并審視了受人類行為和學習機制啟發的AI模型。此外,他們也未全面討論AI可以從人類大腦和神經系統中學習哪些部分來設計模型。在本綜述中,我們主要回答以下問題:什么是BIAI?BIAI與一般AI有什么區別?BIAI能為我們帶來哪些優勢?我們可以從人類大腦的哪些角度來設計AI模型?哪些BIAI模型已經在現實世界中使用?引入BIAI可以進一步推動哪些研究領域?當將神經科學與AI模型相結合時,研究人員面臨哪些挑戰?當前BIAI技術中存在哪些差距,未來可以在哪些方面開展工作?通過回答這些問題,我們希望研究人員能夠加深對BIAI系統的理解,并提高他們為不同應用設計更合適的BIAI算法的能力。

**1.3 貢獻

本文的覆蓋范圍如圖1所示。我們的主要貢獻總結如下:

  • 我們引入了神經科學和人類行為研究中的知識和見解,強調了AI如何從神經結構、學習機制、注意力和焦點、記憶與回憶、認知過程以及人類大腦中觀察到的創造力和想象力中學習。
  • 我們將BIAI研究分為兩大類:物理結構啟發型模型和人類行為啟發型模型,為理解該領域的不同方法提供了框架。
  • 我們探討了BIAI模型的多種應用,包括它們在機器人技術、醫療保健、情感感知和創意內容生成中的應用,展示了這些模型在各個領域中的廣泛潛力。
  • 我們討論了BIAI開發和實施過程中面臨的挑戰,例如理解大腦功能、與神經科學的整合以及構建高效、魯棒、倫理、具有意識且可解釋的模型。我們還概述了應對這些挑戰的未來研究方向。 本文的其余部分組織如下。第2節總結了可以為AI系統提供信息的神經科學和人類大腦功能知識。接下來,綜述按照圖1所示的分類結構展開。第3節討論了BIAI的主要類別,即物理結構啟發型模型和人類行為啟發型模型。第4節探討了BIAI在各個領域的實際應用。在第5節中,我們概述了當前BIAI方法面臨的一般挑戰。第6節重點介紹了未來研究的幾個有前途的方向。最后,在第7節中總結了本次綜述。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

文本生成已經變得比以往任何時候都更容易接觸,并且對這些系統,特別是使用大型語言模型的系統的興趣日益增加,這也促使了相關出版物數量的不斷增加。我們提供了一份系統文獻綜述,涵蓋了2017年至2024年間精選的244篇論文。該綜述將文本生成的研究工作分為五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰(例如,多文檔摘要的缺失數據集、故事生成中的連貫性以及問答中的復雜推理)。此外,我們評估了當前用于評估文本生成系統的方法,并確定了現有指標的問題。我們的研究表明,最近文本生成出版物中所有任務和子任務普遍存在的九個主要挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算。我們對這些挑戰、潛在解決方案以及仍需社區進一步參與的空白進行了詳細分析。該系統文獻綜述面向兩個主要受眾:希望了解該領域概況和有前景的研究方向的初級自然語言處理研究人員,以及尋求任務、評估方法、開放挑戰和最新緩解策略的詳細視圖的資深研究人員。

當模型具備了對自然語言進行建模的能力,特別是使用大型語言模型生成與人類寫作水平相當的文本時,AI領域取得了重大突破【38, 186, 197】。結合先進的深度學習架構、大規模數據和日益廉價的計算基礎設施,這揭示了大規模訓練AI助手的新范式。現在,任何人只要能夠訪問互聯網,就可以擁有自己的AI助手,以自動化諸如起草電子郵件、填寫表格或開發軟件等繁瑣且耗時的任務。雖然這種烏托邦式的情景會讓大多數人感到意外,但這不過是多年來來自AI、工程、統計、語言學和自然語言處理(NLP)等領域的研究人員和實踐者之間不斷、協作和逐步努力的結果。

從早期的分布式語義學【71】、基于規則的問答系統【130】、第一個神經概率語言模型(LM)【16】到GPT-4【3】、LLaMA【185】和Gemini【182】,NLP一直是推動AI快速進步的關鍵角色。如今,語言模型以文本到文本的方式解決問題,以可信且令人信服的自然語言進行接收和回應。這種問題解決方法的靈感來自于人類通過將答案表述為一系列具有特定意義的詞來解決各種問題的方式,這一過程被稱為文本生成。一般而言,文本生成是創建自然語言文本的過程。在文本生成的早期階段,模型會使用結構化數據、語法規則和模板來構建文本【130, 209】。如今,大多數方法使用神經網絡來估計詞序列中下一個詞的概率【16】。

文本生成解決方案高度多樣且強大,能夠執行多種任務,例如生成故事【19】或執行類似人類的推理【99】。廣泛的應用范圍和顯著的研究與開發興趣使得那些參與資金、研究和產品開發的人們對其全面理解有所減弱,這些人直接或間接地影響社會。對提出的研究模型、任務、數據集和開放挑戰的持續反思和評估是實現可持續發展和負責任地造福人類的方法的關鍵。因此,系統文獻綜述和綜述對于根據特殊興趣濃縮和組織現有相關工作,回顧性地討論這些機會和風險,并為未來研究提出建議至關重要。

在本文中,我們概述了2017年1月至2023年8月期間的最新文本生成研究,因為它滲透了NLP中與文本生產相關的大多數活動(例如翻譯【92】、摘要【108】)。我們的系統文獻綜述主要關注三個方面:任務和子任務(第3節)、評估指標(第4節)和挑戰(第5節)。具體而言,我們提出了以下關鍵問題來組織我們的研究:

1. 什么構成了文本生成任務?主要的子任務是什么?

2. 如何評估文本生成系統?其伴隨的局限性是什么?

3. 文本生成中有哪些開放挑戰?

4. 文本生成中的重要研究方向是什么?

圖1概述了文本生成中最突出的任務及相關挑戰。我們確定了五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答(第3節)。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰。接下來,我們評估了該領域中常用的評估方法(即無模型和基于模型的指標),并討論了它們的局限性(第4節)。此外,我們還識別了最近文本生成出版物中所有任務和子任務共有的九個突出挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算(第5節)。最后,我們重新審視、總結并回答了我們的研究問題(第6節)。為了重現性,我們公開分享我們方法的詳細信息(例如,關鍵詞、主觀決策、排除標準、代碼)以及在開放獲取倉庫中所考慮出版物的元數據。

付費5元查看完整內容

自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。

軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。

論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么

(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR

(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進

總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合

(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。

付費5元查看完整內容

因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出潛力,它通過捕捉變量間的因果關系來實現這一點。生成式大型語言模型(LLMs)的出現顯著影響了各種NLP領域,特別是通過它們先進的推理能力。本綜述集中于從因果視角評估和改進LLMs,在以下幾個方面:理解和提升LLMs的推理能力,解決LLMs中的公平性和安全性問題,為LLMs提供解釋,以及處理多模態問題。同時,LLMs的強大推理能力反過來也可以通過幫助發現因果關系和估計因果效應來促進因果推斷領域的發展。本文探討了因果推斷框架與LLMs之間的相互作用,從兩個角度強調它們共同的潛力,以進一步發展更高級和更公平的人工智能系統。 //www.zhuanzhi.ai/paper/a6cd1586ee23edc1bc238d9cfa310439

近年來,大型語言模型(LLMs)在一系列關鍵任務中展現出了非凡的多功能性。LLM擅長的任務包括文案創作、用其獨特的風格和聲音增強原始句子、響應知識庫查詢、生成代碼、解決數學問題以及根據用戶需求執行分類或生成任務。此外,最近還擴展到了多模態變體,如大型視覺語言模型(LVLMs)或大型多模態語言模型,這些變體擴大了它們的輸入/輸出能力,以涵蓋各種模態。這種演變顯著提高了這些模型的潛力和應用范圍。 在本綜述中,我們主要關注基于變換器(Transformers)的大型語言模型(LLMs)。LLMs的能力根本上源于它們的推理能力,這決定了它們在理解、處理和提供各種查詢的解決方案方面的熟練程度,以及它們適應對社會有影響的領域的能力。因此,大量研究工作致力于測量和增強這些能力,范圍從評估LLMs的推理能力到審查它們的決策過程,并解決概念在不同模態間對齊以及減少幻覺等挑戰。此外,由于LLMs在數十億參數的基礎上訓練了大量人類知識,它們有時面臨在不同場景下適當優先級或淡化所學的挑戰。這可能導致領域偏移,即模型在與訓練集不同的數據上的性能下降,以及長尾偏差,即不常見的示例處理不夠有效。 在許多情況下,語言任務不僅需要基于數據中的模式預測或生成文本,還需要理解驅動這些模式的潛在因果機制。因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出了巨大的潛力。隨著生成式LLMs的出現,各個NLP領域發生了重大變革,吸引了越來越多的研究興趣,應用因果推斷來解決與LLM相關的挑戰并增強其功能。這種轉變也激勵了本綜述概述因果方法及其在LLMs中的實施,強調它們在豐富我們對語言模型的理解和應用中的作用。 同時,本綜述還旨在探索LLMs如何幫助因果推斷框架。因果推斷正式定義為一個智力學科,它考慮了允許研究者基于數據得出因果結論的假設、研究設計和估計策略。因果推斷有三個主要來源:潛在結果、圖表和結構方程,每個來源都有獨特的用途。潛在結果框架側重于通過統計推斷和治療比較來估計因果效應。圖形模型則擅長繪制因果路徑和可視化關系,節點代表變量,邊表示方向性影響。在本綜述中,我們主要討論Pearl對因果圖的公式化,它用有向無環圖(DAGs)形式化了表示隨機變量間條件獨立關系的因果圖形模型。 我們總結了LLMs如何在其兩個重要組成部分中幫助因果推斷,即因果關系發現和治療效果估計。確定變量間的因果關系是因果推斷框架的一個基本步驟,因為估計變量A對變量B的因果效應需要對與A和B相關的其他變量的因果關系進行因果假設。傳統上,研究人員依靠具有主題知識的專家為這些因果關系奠定基礎。因果發現方法為從觀察數據中發現因果圖提供了一種替代方法。LLMs已經展示了根據預訓練知識或給定文本確定這種因果關系的能力。它們也可以與因果發現方法結合,進一步提高結果的可靠性。估計治療效果是因果推斷的核心,但在許多情況下由于缺乏反事實數據而受阻。利用LLMs強大的反事實推理能力,研究人員開發了各種方法來生成高質量的反事實,以實現治療效果估計。 本綜述的結構如圖1所示。我們從第2節開始介紹大型語言模型的最新進展。然后我們在第3節提供了用于改進LLMs的因果推斷方法概述。在論文的前半部分,我們討論了這些方法在LLM社區的各種問題中的應用:第4.1節概述了因果方法用于衡量和改進LLM的推理能力,第4.2節和第4.3節關注公平性和安全性問題,而第4.4節介紹了因果推斷方法如何處理LLM的可解釋性。我們還在第4.5節討論了構建和開發多模態大型模型的擴展。最后,我們在第4.6節列出了從因果視角對LLMs進行評估和基準測試的現有工作。在綜述的后半部分,我們轉向LLMs如何擴展因果推斷的邊界。第5.1節解釋了因果推斷的當前假設、限制和瓶頸。第5.3節和第5.2節陳述了改進治療效果估計和因果發現的當前工作。我們在第6節突出了幾個未來方向。 LLMs可以顯著受益于因果推斷,因為它增強了它們理解和推理數據內因果關系的能力。在本節中,我們回顧LLMs如何從以下幾個角度受益于因果視角,包括理解和提升LLMs的推理能力(第4.1節)、解決LLMs中的公平性問題(第4.2節)和安全性問題(第4.3節)、用解釋補充LLMs(第4.4節)以及處理多模態問題(第4.5節)。然后我們在第4.6節中從這些角度組織基準數據集。 大型語言模型用于因果推斷

因果推斷作為解決LLMs挑戰的有力工具,重度依賴于世界知識。如前所述,因果推斷有三個主要來源:潛在結果框架、基于圖的因果方法和結構方程社區。潛在結果框架在很大程度上依賴于幾個假設,以促進對群體/個體之間治療效果的比較。應用潛在結果框架的最具挑戰性的方面之一在于確保這些假設在現實中成立。在本節中,我們首先審查這些假設,隨后說明現有文獻是如何放寬這些假設的。基于圖的因果方法和結構方程模型也需要對潛在的因果圖有一定水平的理解。例如,有向無環圖(DAGs)作為一個基本假設,許多結構方程模型假設一定程度的線性或者輸入分布遵循特定的概率分布。在我們的回顧中,我們還探索了現有方法如何驗證輸入數據中的分布,并在LLMs的幫助下擴展當前方法以容納更復雜的分布。 結論 在其核心,一個大型語言模型(LLM)就像一個龐大的知識庫。一個持續的挑戰是如何有效地提取和使用這些知識。改進LLM的關鍵在于增強它們理解因果關系的能力——本質上,理解事物之間是如何連接的。因果推理對于讓LLM更智能至關重要。從因果推斷的角度來看,我們發現了一個寶貴的框架,有助于提高LLM的效果。同時,作為人類知識的保管者,LLM甚至可以通過提供超越現有限制的廣泛專業知識,幫助克服因果推斷中的局限性,重新塑造我們在這一重要領域的理解,并為該領域帶來新的活力。 在這篇綜述中,我們提供了一個徹底的考察,探索了大型語言模型(LLM)與因果推斷交匯處的當前景觀。我們深入探討了因果推斷如何對LLM做出貢獻,增強了推理、公平性、安全性以及LLM的可解釋性等方面。此外,我們探索了LLM反過來如何拓寬因果推斷的視野。跨越這些類別,我們的綜述提供了深入的討論、比較和對審視方法的簡潔總結,提供了一個全面的研究現狀概覽。可用的基準數據集和這些方法的開源代碼也被列出。 對因果推斷和大型語言模型當前進展的考察服務于雙重目的。首先,它增強了我們對這兩個領域如何相互受益的理解。其次,它催生了新的問題,推動我們更接近于實現人工通用智能。此外,這一探索有潛力擴展到多個領域,并在現實世界場景中找到應用,展示了因果推斷與LLM之間協同作用的深遠影響。

付費5元查看完整內容

這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。

這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。

預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。

預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。

本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。

貢獻概述如下

這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。

本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。

這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。

本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。

論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。

大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。

大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。

這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。

盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。

本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。

總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容
北京阿比特科技有限公司