此綜述關注大型語言模型(LLMs)中的事實性關鍵問題。隨著LLMs在各種領域的應用,它們輸出的可靠性和準確性變得至關重要。我們將“事實性問題”定義為LLMs生成與既定事實不一致內容的概率。我們首先深入探討這些不準確性的影響,強調LLM輸出中事實性錯誤可能帶來的潛在后果和挑戰。隨后,我們分析LLMs存儲和處理事實的機制,尋找事實錯誤的主要原因。我們的討論接著轉向評估LLM事實性的方法,強調關鍵指標、基準和研究。我們進一步探索提高LLM事實性的策略,包括為特定領域量身定制的方法。我們關注兩種主要的LLM配置—獨立LLMs和利用外部數據的檢索增強型LLMs—我們詳細說明它們的獨特挑戰和潛在增強。我們的綜述為旨在加強LLM事實可靠性的研究者提供了一個結構化指南。我們始終維護并更新相關的開源材料,地址為 //github.com/wangcunxiang/LLM-Factuality-Survey。
對知識掌握的追求一直是人工智能系統發展中的基礎愿景。從歷史上看,McCarthy等人(1955年)和Newell與Simon(1976年)的開創性工作都強調了知識表示和推理在AI系統中的重要性。例如,Cyc項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為AI系統提供對世界的全面了解(Lenat, 1995年)。同時,像Miller等人(1990年)的WordNet項目致力于創建捕獲單詞之間語義關系的詞匯數據庫,從而幫助AI系統掌握人類語言的細微差別。 在這些開創性努力之中,Large Language Models(LLMs)的出現,如ChatGPT(OpenAI, 2022b),GPT-4(OpenAI, 2023)和LLaMA(Touvron等人,2023a,b),在學術界和工業界都被視為一個重大的飛躍,尤其是向著擁有大量事實知識的AI系統(OpenAI, 2022a, 2023)。使用LLMs作為知識庫載體的優點是多種多樣的。首先,它們減少了構建和維護專用知識庫的開銷和成本(AlKhamissi等人,2022;Petroni等人,2019c;Wang等人,2023b)。此外,LLMs提供了一種更靈活的知識處理和利用方法,允許進行上下文感知的推理,并具有適應新信息或提示的能力(Huang和Chang,2023;Sun等人,2023a)。然而,盡管它們具有無與倫比的能力,人們對LLMs生成的非事實性或誤導性內容的可能性產生了擔憂(Bender等人,2021;Bubeck等人,2023;OpenAI, 2023)。鑒于這些進展和挑戰,本綜述旨在深入探討LLMs,探索它們的潛力以及圍繞其事實準確性的關注。
了解大型語言模型的事實性不僅僅是一個技術挑戰;對于我們在日常生活中負責任地使用這些工具來說,這是至關重要的。隨著LLMs越來越多地融入到搜索引擎(Microsoft,2023)、聊天機器人(Google,2023; OpenAI,2022b)和內容生成器(Cui等人,2023b)等服務中,它們提供的信息直接影響著數百萬人的決策、信仰和行動。如果一個LLM提供了不正確或誤導性的信息,它可能導致誤解、傳播錯誤的信仰,甚至造成傷害,尤其是對于那些要求高事實準確性的領域(Ling等人,2023b),如健康(Tang等人,2023;Thirunavukarasu等人,2023)、法律(Huang等人,2023a)和金融(Wu等人,2023)。例如,一個依賴LLM進行醫學指導的醫生可能無意中危及患者健康,一個利用LLM洞察力的公司可能做出錯誤的市場決策,或一個被LLM誤導的律師可能在法律程序中失誤(Curran等人,2023)。此外,隨著基于LLM的代理人的發展,LLMs的事實性變得更加強大。駕駛員或自動駕駛汽車可能依賴基于LLM的代理進行規劃或駕駛,其中LLMs犯的嚴重事實錯誤可能造成不可逆轉的損害。通過研究LLMs的事實性,我們的目標是確保這些模型既強大又值得信賴。
近年來,有大量的研究致力于評估LLMs的事實性,這包括像事實性問題回答和事實核查等多種任務。除了評估,努力提高LLMs的事實知識也很顯著。策略的范圍從從外部知識庫檢索信息到持續的預訓練和有監督的微調。然而,盡管有這些日益增長的努力,對LLMs中的事實性進行全面概述仍然是個難題。雖然該領域存在一些調查,如Chang等人(2023年)和Wang等人(2023g年)深入研究了LLMs及其事實性的評估,但它們只觸及了更廣泛的領域的表面。還有一些最近的研究專注于LLMs中的錯覺問題(Rawte等人,2023年; Ye等人,2023年; Zhang等人,2023f年)。但我們在第2.2節中區分了錯覺問題和事實性問題。此外,這些調查經常忽視了我們強調的關鍵領域,如特定領域的事實性或過時信息的挑戰。盡管Ling等人(2023a年)探討了LLMs的領域專長,但我們的調查更加廣泛地關注事實性的更廣泛問題。
據我們了解,我們的工作是對大型語言模型事實性的首次全面研究。 這份綜述旨在為LLMs中的事實性研究提供一個詳盡的概覽,深入探討四個關鍵維度:第2節)事實性問題的定義和影響(Nori等人,2023;Pranshu Verma,2023);第3節)評估事實性的技術及其定量評估(Huang等人,2023b;Min等人,2023);第4節)分析LLMs中事實性的基本機制并確定事實錯誤的根本原因(Kotha等人,2023;Liu等人,2023b);以及第5節)提高LLMs事實性的方法(Du等人,2023;He等人,2022)。值得注意的是,我們將LLMs的使用分類為兩種主要的設置:沒有外部知識的LLMs,如ChatGPT(OpenAI,2022b)和檢索增強型LLMs,如BingChat(Microsoft,2023)。這次調查的完整結構在圖1中說明。通過對現有研究的詳細檢查,我們希望闡明LLMs的這一關鍵方面,幫助研究者、開發者和用戶負責任和有效地利用這些模型的力量。 **增強 **
本節討論在不同階段增強LLMs事實性的方法,包括LLM生成、檢索增強生成、推斷階段的增強以及特定領域的事實性改進,如圖2所示。表7提供了增強方法的概要以及它們相對于基線LLM的改進情況。必須認識到,不同的研究論文可能采用不同的實驗設置,如零射擊、少數射擊或完全設置。因此,在檢查這個表格時,重要的是要注意,即使在評估同一數據集上的同一指標,不同方法的性能指標也可能不是直接可比的。
單獨LLM生成 當關注單獨的LLM生成時,增強策略可以大致分為三大類: (1) 從無監督語料庫中提高事實知識(第5.1.1節):這涉及到在預訓練期間優化訓練數據,如通過去重和強調有信息性的詞語(Lee等人,2022a)。還探討了像TOPICPREFIX(Lee等人,2022b)和句子完成損失這樣的技術來增強這種方法。 (2) 從監督數據中增強事實知識(第5.1.2節):這一類的例子包括監督微調策略(Chung等人,2022;Zhou等人,2023a),這些策略關注于從知識圖譜(KGs)中整合結構化知識或對模型參數進行精確調整(Li等人,2023d)。 (3) 最佳地從模型中提取事實知識(第5.1.3節, 5.1.4節, 5.1.5節):這一類包括像多代理協作(Du等人,2023)和創新提示(Yu等人,2023)這樣的方法。此外,還引入了像事實核心抽樣這樣的新穎解碼方法,以進一步提高事實性(Chuang等人,2023;Lee等人,2022b)。
關于檢索增強生成 檢索增強生成(RAG)已經成為一種廣泛采用的方法,用于解決獨立LLMs固有的某些局限性,如過時的信息和無法記憶的問題(Chase,2022; Liu,2022)。這些挑戰在第4.2.1節中詳細討論。然而,雖然RAG為某些問題提供了解決方案,但它也引入了自己的一系列挑戰,包括信息不足的可能性和對相關數據的誤解,如第4.2.2節中詳細說明。本小節深入探討了為緩解這些挑戰而設計的各種策略。在檢索增強生成的領域內,增強技術可以廣泛地分為幾個關鍵領域: (1) 利用檢索文本進行生成的正常設置(第5.2.1節)。 (2) 交互式檢索和生成(第5.2.2節):這里的例子包括將Chain-of-Thoughts步驟集成到查詢檢索中(He等人,2022),以及使用基于LLM的代理框架進入外部知識APIs(Yao等人,2023a)。 (3) 將LLMs適應到RAG設置(第5.2.3節):這涉及到像Peng等人提出的方法(2023),該方法結合了一個固定的LLM和一個即插即用的檢索模塊。另一個值得注意的方法是REPLUG(Shi等人,2023),一個檢索增強框架,將LLM視為一個黑盒,并使用語言建模分數對檢索模型進行微調。 (4) 從其他知識庫中檢索(第5.2.5節和第5.2.4節):這一類包括從外部參數記憶(Chen等人,2023a)或知識圖(Zhang等人,2023d)檢索的方法,以增強模型的知識庫。 **領域事實增強的LLMs **
領域知識缺陷不僅是限制LLM在特定領域應用的重要原因,而且是學術界和工業界都非常關心的一個主題。在這個小節中,我們討論了那些特定領域的LLMs是如何增強它們的領域事實性的。 表8列出了領域事實性增強的LLMs。在此,我們包括了幾個領域,包括醫療健康(H)、金融(F)、法律/法規(L)、地球科學/環境(G)、教育(E)、食品檢測(FT)和家居翻新(HR)。
結論
在這份綜述中,我們系統地探討了大型語言模型(LLMs)內部事實性問題的復雜景觀。我們首先定義了事實性的概念(第2.2節),然后討論了其更廣泛的意義(第2.3節)。我們的旅程帶領我們穿越了事實性評估的多面領域,包括基準(第3.2節)、指標(第3.1節)、特定評估研究(第3.3節)和特定領域的評估(第3.4節)。接著,我們深入探索,探討了支撐LLMs中事實性的內在機制(第4節)。我們的探索在增強技術的討論中達到高潮,既有純LLMs(第5.1節)也有檢索增強型LLMs(第5.2節),特別關注特定領域的LLM增強(第5.3節)。 盡管本綜述中詳細描述了許多進展,但仍有許多挑戰。事實性的評估仍然是一個復雜的難題,由自然語言的固有變異性和細微差別使其變得復雜。關于LLMs如何存儲、更新和產生事實的核心過程尚未完全揭示。盡管某些技術,如持續培訓和檢索,顯示出了前景,但它們也不是沒有局限性。展望未來,尋求完全基于事實的LLMs既帶來挑戰,也帶來機會。未來的研究可能會深入了解LLMs的神經結構,開發更為強大的評估指標,并在增強技術上進行創新。隨著LLMs日益融入我們的數字生態系統,確保其事實可靠性將始終是最重要的,這對AI社區及其更廣泛的領域都有影響。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
大型語言模型(LLMs)由于其能在許多知識領域中與最終用戶進行具有詳細且清晰的回答的人類級別對話的能力,引發了AI的新熱潮。響應其在許多工業應用中的快速采用,本綜述關注其安全性和可信度。首先,我們回顧了LLMs的已知漏洞,將它們分類為固有問題,預定攻擊和無意的錯誤。然后,我們考慮是否以及如何可以將已經為傳統軟件和深度學習模型(如卷積神經網絡)廣泛開發的驗證和驗證(V&V)技術整合并進一步擴展到LLMs的生命周期中,以對LLMs及其應用的安全性和可信度提供嚴謹的分析。特別是,我們考慮四種互補技術:偽造和評估,驗證,運行時監視和道德使用。考慮到LLMs的快速發展,本綜述并無意完整(盡管它包含300多個參考),尤其是在涉及到LLMs在各個領域的應用時,而是收集了有組織的文獻回顧和討論,以支持從V&V的視角快速理解安全性和可信度問題。
1. 引言
大型語言模型(LLM)是一種具備大量可學習參數的深度學習模型(通常達到100億以上,如圖1所示)。LLMs是基于Transformer架構[116]的注意力驅動的序列模型,已經一直顯示出學習語言通用表示的能力。這種語言的通用表示可以被用于各種自然語言處理(NLP)任務。最近,這些模型在參數數量和預訓練語料庫方面的擴大,已經證實了Transformer作為編碼語言表示的普遍性。在特定規模下,這些模型開始表現出在上下文中的學習能力[184,278],以及從少數示例(零/一/少數 - 無需微調)和自然語言提示(描述模型需要實施的行為意圖的復雜指令)中學習的屬性。最近關于通過人類反饋進行強化學習(RLHF)[190]的研究進一步發展了這些模型對越來越復雜提示的對齊和響應的能力,導致了它們在如ChatGPT等系統中的普及,以及在大量應用中的使用。LLMs表現出復雜的語言和推理行為的能力,已經推動了它們在超出預期操作范圍的應用。盡管LLMs在語言流暢性上一直表現出色,但它們也容易產生錯覺[228],陳述事實上不正確的陳述[227],以及缺乏必要的安全性、透明度和控制機制[239]等問題。本文的目標是提供關于LLMs已知漏洞的回顧,并更重要的是,探討如何調整V&V技術以提高LLMs的安全性和可信度。雖然已有一些關于LLMs的調查[296,291],以及關于ChatGPT失敗的分類性檔案[47],但據我們所知,這是第一個從V&V的角度對安全性和可信度問題進行全面討論的工作。
V&V技術在支持安全關鍵系統中軟硬件的可靠和可信賴的開發方面取得了成功,并已被適應用于機器學習模型,主要關注圖像分類的卷積神經網絡(見諸如[125, 169]的調查和[124]等教科書),但也擴展到考慮如目標檢測、深度強化學習和循環神經網絡等。本文討論如何進一步擴展V&V以應對LLMs的安全性和可信度挑戰。V&V是一種獨立的程序,它們一起用于檢查系統(或產品,服務)是否滿足要求和規范,并且是否達到其預期的目的[7]。其中,驗證技術根據一組設計規格檢查系統,而驗證技術確保系統滿足用戶的操作需求。從軟件、卷積神經網絡到LLMs,系統的規模顯著增長,這使得常規的V&V技術由于其可擴展性問題而能力不足。將可學習參數作為其算法輸入的白盒V&V技術在實踐中不會很好地工作。相反,研究應專注于黑盒技術,對于卷積神經網絡,一些研究已經開始。此外,V&V技術需要考慮LLMs的非確定性特性(即,對于兩次具有相同輸入的測試,輸出不同),這與常見的神經網絡(如卷積神經網絡和目標檢測器)有顯著的不同,目前大多數V&V技術都在這些網絡上工作。
本文的結構如下。在第二部分,我們回顧了LLMs及其類別,它的生命周期,以及為提高安全性和可信度而引入的幾種技術。然后,在第三部分,我們介紹了現有漏洞的回顧。這之后,我們在第四部分提供了一個通用的驗證框架。該框架包括V&V技術,如偽造和評估(第五部分),驗證(第六部分),運行時監控(第七部分)和道德使用(第八部分)。我們在第九部分對本文進行總結。
2. 大型語言模型
這一部分總結了基于LLMs的機器學習任務的類別,然后討論了LLMs的生命周期。我們還將討論一些與安全性分析相關的基礎技術。
圖2展示了LLMs的生命周期階段。離線模型構造由三個步驟組成[291]:預訓練、適應調整和利用改進,每個步驟都包含幾個交織的子步驟。一般來說,預訓練步驟與常規的機器學習訓練類似,包括數據收集、架構選擇和訓練。在適應調整上,它可能進行指令調整[178]以從任務指令中學習,并進行對齊調整[190, 67]以確保LLMs與人類價值觀相符,例如公平、誠實和無害。除此之外,為了改善與最終用戶的交互,可能會通過例如上下文學習[49],思維鏈學習[257]來進行利用改進。一旦一個LLM被訓練,就需要進行評估以確保其性能符合預期。通常,我們從三個角度考慮評估:基本性能指標的評估,安全性分析以評估在應用中應用LLM的后果,以及通過公開可用的基準數據集進行的評估。評估將決定LLM是否可接受(對于預設定的標準),如果是的話,過程將向前移動到部署階段。否則,將至少確定一個失敗,并且過程將回退到三個訓練步驟中的任何一個。在部署階段,我們將決定如何使用LLM。例如,它可以在網頁平臺上供最終用戶直接交互,比如ChatGPT。或者,它可能被嵌入到搜索引擎中,比如新的Bing。然而,根據常規做法,會在LLMs和最終用戶之間的對話上設置保護,以確保AI規則最大程度地實施。
3 漏洞
本部分介紹已知類型漏洞的回顧。這些漏洞可以分為固有問題、有意攻擊和無意錯誤三類。固有問題是指LLMs本身無法立即解決的漏洞。然而,通過更多的數據和新的訓練方法等逐步改進是可能的。固有問題包括性能弱點,即LLMs尚未達到人類水平的智能方面,以及可持續性問題,因為LLMs的規模顯著大于常規機器學習模型。它們的訓練和日常執行可能會產生非可忽略的可持續性影響。此外,可信性和責任問題是LLMs固有的。有意攻擊是由惡意攻擊者發起的,他們試圖通過攻擊LLMs生命周期中的某些階段來實現他們的目標。已知的有意攻擊包括魯棒性漏洞、后門攻擊、毒化、虛假信息、隱私泄露和未經授權的信息披露。最后,隨著LLMs集成到更廣泛的應用中,將出現越來越多的無意錯誤,這些錯誤是開發人員在無意識中產生的,但卻會產生嚴重后果,例如偏見和歧視(通常與訓練數據的質量有關),以及最近報道的用戶信息的意外泄露。圖2展示了漏洞在LLMs的生命周期中可能被利用的方式。雖然固有問題和無意錯誤可能出現在生命周期的任何階段,但有意攻擊通常出現在生命周期的特定階段。例如,后門攻擊通常發生在預訓練和適應調整階段,其中嵌入了后門觸發器;毒化通常發生在訓練或對齊調整階段,此時LLMs從環境中獲取信息/數據。此外,許多攻擊發生在最終用戶與LLMs之間的交互中,使用特定的、經過精心設計的提示來從LLMs中檢索信息。我們注意到,盡管存在重疊,LLMs和常規深度學習模型(如卷積神經網絡或目標檢測器)具有略微不同的漏洞,并且盡管已經開始為常規深度學習模型開發規范語言[40, 127],但這些努力可能需要擴展到LLMs上。
4 通用驗證框架
圖3展示了一個通用的驗證框架示意圖,該框架可以與LLMs一起工作,并將幾個V&V技術類別定位到生命周期中。在評估階段,除了目前進行的活動(如圖2所述),我們需要從偽造和評估技術開始,并與解釋技術同時進行。偽造和評估技術提供了多樣的方法來找到故障案例,并具有統計理解潛在故障的能力,但并非窮盡。解釋技術旨在提供人類可理解的LLMs輸出解釋。雖然這兩個類別是并行的,但它們可以相互交互,例如,一個故障案例可能需要使用解釋技術來理解根本原因,而解釋需要區分不同的故障和非故障案例。驗證技術通常成本較高,可能僅在LLMs通過前兩個類別時才需要。除了離線驗證,還需要在保護層之上部署運行時監視器,以在操作時間發現故障案例。這主要是由于兩個原因:(1)當處理大量屬性和LLMs的高維度時,離線方法可能不完整;(2)LLMs可以是自適應和演化的。最后,在整個生命周期中,需要遵守倫理原則和AI規定,以確保對LLMs的道德使用。
5 偽造和評估
本部分總結了識別和評估基于LLMs的機器學習應用程序漏洞的已知方法。我們還討論了如何調整V&V,并應該如何調整。
6 驗證
本部分討論是否以及如何將更嚴格的驗證擴展到基于LLMs的機器學習任務中。到目前為止,LLMs的驗證或認證仍然是一個新興的研究領域。本節首先對各種NLP模型的驗證技術進行了全面系統的回顧。然后,我們討論了一些開創性的黑盒驗證方法,這些方法可以在大規模語言模型上發揮作用。接下來,我們討論如何將這些工作擴展到LLMs,并回顧減小LLMs規模以增加驗證技術有效性的努力。
7 運行時監視器
第2.3.2節提到的保護層為LLMs與最終用戶的交互提供了安全保障,同時保持其社會責任。本節討論了一種V&V方法,即運行時監視器,它與保護層有些相似,可以對LLMs的行為進行保護,以防止像第3節中討論的那樣的漏洞。使用運行時監視器而不是驗證的關鍵動機有兩個方面。首先,驗證方法需要大量的計算,因此在處理像LLMs這樣的大型模型時可能變得不切實際。其次,深度學習模型可能被應用于與收集訓練數據不同的場景。這表明需要一個運行時監視器來實時確定規范的可滿足性。
8 規定和道德使用
V&V提供了一系列技術手段,以支持LLMs與人類利益的一致性。然而,有人認為構建無法被濫用的LLMs可能是不可能的。這表明技術手段是必要的,但可能是不充分的。因此,需要道德手段來補充技術手段,以確保LLMs的使用與人類利益完全一致。以下,我們將討論幾個近期取得的進展跡象。
9. 結論
本文概述了LLM(大型語言模型)已知的漏洞,并討論了如何調整V&V(驗證和驗證)技術以適應它們的工作。鑒于LLM正在迅速被直接或間接與終端用戶進行交互的應用程序所采用,必須確保部署的LLM經歷足夠的審判過程,以避免任何不可取的安全和可信后果。考慮到LLM的規模和復雜性,白盒V&V技術可能變得不切實際,社區可能需要開發黑盒、非確定性敏感的V&V技術。此外,多學科的開發將確保充分考慮所有可信問題。
多智能體強化學習(MARL)是一種廣泛使用的人工智能(AI)技術。然而,當前的研究和應用需要解決其可擴展性,非平穩性,以及可信度的問題。本文旨在回顧MARL的方法和應用,并指出未來十年的研究趨勢和遠景。首先,本文總結了MARL的基本方法和應用場景。其次,本文概述了相應的研究方法及其在實際應用MARL時需要解決的安全性,魯棒性,泛化性,以及倫理約束的局限性。特別地,我們認為,未來十年,可信的MARL將成為熱門的研究主題。此外,我們認為考慮人類互動對于MARL在各種社會中的實際應用至關重要。因此,本文還分析了將MARL應用于人機交互時的挑戰。
1. 引言
由于其在解決序列決策任務中的巨大潛力,強化學習(RL)得到了廣泛的探索[88, 107, 129, 131, 168, 169, 197, 216, 218]。Kaelbling等人在1996年指出[76],RL將在游戲和機器人技術中得到廣泛應用。Mnih等人[130]提出深度強化學習(DRL),將具有推理能力的強化學習和具有代表性能力的深度學習(RL)結合起來,訓練出的智能體在各種雅達利游戲中的表現超過了人類玩家。Silver等人在2007年使用RL解決圍棋游戲[180],并在2016年提出使用深度神經網絡和蒙特卡洛樹搜索的AlphaGo[179]。在機器人技術方面,DRL也取得了如四足運動[92, 233]等突出的發展。最新的ChatGPT在全世界范圍內都是眾所周知的,并且使用了與RL相關的技術。自DRL提出以來的20年間,游戲和機器人技術的研究興趣一直在不斷提高。RL的前瞻性應用總結在[76]中。
在整合人類因素時,我們需要考慮的不僅僅是智能體的協作,還要考慮智能物理信息系統與人類文明的互動。在將MARL應用于人機交互時,我們提出了四個挑戰:由于人類干預而產生的非馬爾可夫性質,人類行為的多樣性,復雜的異質性,以及多人多機的可擴展性。本文與其他相關綜述的區別列在表1中。本文的大綱顯示在圖1中。接下來的這個調查組織如下。在第2部分,我們給出了MARL的相關定義,并總結了典型的研究方法。第3部分展示了MARL的具體應用場景。第4部分總結了可信MARL的定義、相關研究和局限性。在第5部分,我們指出了人類兼容的MARL面臨的挑戰。第6部分對整篇文章進行了總結。
2. 方法
強化學習(RL)智能體旨在通過與環境的嘗試和錯誤交互,最大化總的折扣預期獎勵。馬爾可夫決策過程(MDP)有助于為序列決策定義模型。在多智能體系統(MAS)中,每個智能體都通過與環境的嘗試和錯誤接觸解決序列決策問題。然而,它比單智能體場景更復雜,因為環境返回的下一個狀態和獎勵都基于所有智能體的聯合行動,這使得對于任何智能體來說環境都是非馬爾可夫的。隨機博弈(SG)可以用來模擬多智能體序列決策問題。
**3 多智能體強化學習的應用 **
通過MARL,智能體能夠學習并與彼此溝通,從而實現更有效的任務完成和更好的決策結果。這種方法廣泛應用于工程和科學,例如,智能交通,無人駕駛飛機,智能信息系統,公共衛生和智能醫療診斷,智能制造,金融貿易,網絡安全,智能教育,以及科學研究中的強化學習。
**3.1 智能交通 **
智能交通利用物聯網(IoT)和人工智能等先進技術來提高安全性,提高交通效率,并減少其對環境的負面影響。在基于MARL的智能交通中,我們描述了兩個已知的場景:交通燈控制和自動駕駛,并展示了人類在這些智能系統中的作用。這個應用與強化學習方法之間的對應關系顯示在表2中。
**3.2 無人駕駛飛行器 **
在基于MARL的無人駕駛飛行器(UAVs)應用中,我們描述了三個已知的場景:集群控制[124, 158, 207, 210, 222-224],環境監控[75, 134, 148, 204],以及協同運輸[66, 74, 177]。這個應用與強化學習方法之間的對應關系顯示在表3中。
**3.3 智能信息系統 **
MARL在智能信息系統中具有巨大的應用潛力,包括自然語言處理(NLP)[13, 83, 98, 104, 120, 183, 195, 226],編程生成[26, 104, 178],以及推薦系統[40, 51, 72, 231, 245]。基于SARL的技術已在NLP和編程生成中得到研究,我們將總結這些研究并指出MARL在這些應用中的顯著優點。這個應用與強化學習方法之間的對應關系顯示在表4中。
**3.4 公共衛生和智能醫療診斷 **
MARL在公共衛生和智能醫療診斷中得到了廣泛的探索和應用。例如,MARL可以應用于COVID-19的預測和管理、醫療圖像處理和疾病診斷,以提高疾病預防、診斷和治療的效率和準確性。這個應用與強化學習方法之間的對應關系顯示在表5中。
**3.5 智能制造 **
智能制造是將先進技術(如物聯網、人工智能等)整合到制造過程中,以優化生產過程。對于智能制造,MARL是一種有前景的方法。在智能制造的背景下,MARL可以作為生產調度、車間工業機器人控制、質量控制和設備維護的工具,實現智能高效的生產過程[97]。這個應用與強化學習方法之間的對應關系顯示在表6中。
**3.6 金融交易 **
金融交易是一項挑戰性的活動,需要快速判斷并適應不斷變化的市場條件。過去的單智能體方法和深度學習技術已經無法滿足市場的期望。MARL通過結合各種智能體之間的合作與競爭,為應對金融交易中的困難提供了新的思路。我們從投資組合管理[60, 95, 123, 150, 175]、交易策略優化[79, 143, 156, 157]和風險管理[6, 34, 49]的角度總結了MARL在金融交易中的應用。這個應用與強化學習方法之間的對應關系顯示在表7中。
**3.7 網絡安全 **
網絡安全是當今社會面臨的重要問題,攻擊者利用各種技術和手段侵入計算機系統和網絡,威脅到個人、組織和國家的安全。MARL是一種有前景的方法,可以應用在網絡安全領域,主要應用在入侵檢測[54, 118, 118, 132, 172, 173]和網絡資源優化[103, 135, 145, 186, 190]。這個應用與強化學習方法之間的對應關系顯示在表8中。
**3.8 智能教育 **
智能教育利用物聯網和人工智能將學習過程數字化,并根據特定學生的學習風格和特點提供個性化的學習體驗和支持。傳感器可以用來捕捉學生的學習行為和數據。通信使學生與教師之間以及學生之間的協作學習實現實時互動。人工智能可以用來分析學習行為,提供個性化學習和評價教學。虛擬現實技術使得場景重建、實驗模擬和遠程教學變得更加容易。在基于MARL的智能教育中,我們總結了現有的技術[31, 48, 112, 194]。教育4.0旨在將人工智能技術融入學生自主學習的每個階段,以提高學習過程中的興趣和效果[19, 46, 170]。Tang和Hare[194]創建了一個自適應輔導游戲,讓學生在沒有教師指導的情況下個性化學習。為了優化學生學習,該系統使用Petri網圖結構監控學生在游戲中的進展,使用強化學習智能體適應性地改變系統行為以響應學生表現。然后,他們應用Petri網和層次化強化學習算法,基于上述游戲個性化學生的幫助[48]。該算法可以幫助教師根據學生的需求,為他們在游戲中提供定制的指導和反饋,使他們通過將游戲中的任務分解為幾個階段,逐漸掌握復雜的知識和技能。該算法可以幫助教育工作者為游戲中的學生提供定制的支持和反饋,通過將游戲中的任務分為多個層次,逐漸掌握復雜的知識和技能。[112]和[31]都使用傳感器收集的數據監測學生的學習進度,并使用強化學習技術為學生提供個性化的學習建議。
3.9 科學領域的強化學習
近年來,人工智能在科學領域的應用已經成為熱門話題,人工智能被高度評價為實現科學進步的關鍵工具[127]。強化學習已經在化學、物理和材料研究等領域展示出顯著的科學潛力,尤其在探索未知的物理現象等挑戰中,強化學習被證明是解決這些挑戰的關鍵工具。這個應用和強化學習方法之間的對應關系顯示在表9中。Seo等人[171]利用強化學習來控制KSTAR托卡馬克的前饋??。Degrave等人[22]介紹了一種創新的強化學習方法,使托卡馬克聚變裝置的磁控系統能夠自主學習,從而實現對各種等離子體配置的精確控制,大大減少了設計工作量,是強化學習在聚變領域的開創性應用。Bae等人[5]引入了一種科學多智能體強化學習(SciMARL),用于在湍流模擬中發現壁面模型,大大降低了計算成本,同時復制了關鍵流量,并提供了對湍流模擬的前所未有的能力。強化學習的科學研究提供了更多的可能性,我們相信未來強化學習在科學應用中的范圍將會更廣。
4 展望
盡管多智能體強化學習(MARL)在許多領域都已表現出優越的性能,但一些問題,如安全性、魯棒性和泛化能力,限制了MARL在實際環境中的應用。我們認為,要想最大化地利用未來實踐應用中MARL的優越性,首先需要解決這些問題,并需要考慮到人類社會的道德約束。本節回顧了在四個方面的研究現狀:安全性、魯棒性、泛化能力和道德約束,并討論了未來研究需要解決的差距。
4.1 多智能體強化學習的安全性
隨著多智能體強化學習(MARL)的日益普及,確保這些系統的安全性的需求日益突出。在MARL中,一個智能體的行動可能會對任務或其他參與的智能體造成傷害。因此,開發安全的MARL方法的需求迫在眉睫。為了在MARL中實現安全,一種常見的方法是在訓練過程中添加約束。通過引入安全性約束,可以鼓勵智能體避免可能導致任務失敗或對其他智能體造成傷害的不安全行動。已經有很多關于強化學習安全性的綜述,如[35],[39]和[225]所總結的。然而,目前還沒有關于MARL安全性的系統性綜述,而且關于這個話題的研究相對較少。在本節中,我們給出了在[38]中使用的安全MARL的定義。
4.2 多智能體強化學習的魯棒性
在分類任務中,深度學習的魯棒性已有一系列的研究 [36, 58, 69, 71, 142]。強化學習是一個序列決策問題,其中在一個時間步的錯誤分類并不等同于期望最小的獎勵。在多智能體強化學習(MARL)中,任何智能體的決策失敗都可能導致團隊任務失敗,這使得MARL的魯棒性研究具有挑戰性。此外,MARL在現實世界的應用中面臨各種挑戰,例如環境的不確定性,其他智能體的政策不確定性,以及傳感器噪聲。所有這些因素都可能導致訓練的模型表現不佳或者失敗。因此,提高MARL的魯棒性至關重要,這將有助于確保模型在各種情況下都能穩定可靠地運行。以下是關于魯棒MARL的相關定義。我們使用了[253]和[241]的定義。
4.3 多智能體強化學習的泛化
在MARL領域,泛化涉及到智能體將其在特定環境或場景中學到的知識和技能,無需進行大幅度的修改或重新訓練,就能轉移到新的、多樣的環境或場景中的能力。有幾個調查研究了強化學習的泛化 [87, 201, 225, 247]。在SARL的泛化中,各種技術如領域隨機化[133, 160, 165],因果推理[82, 167, 237],以及元學習[3, 27, 77]已被用來解決泛化問題。然而,與單智能體設置相比,對MARL的泛化研究相對較少。在這方面,我們從兩個角度,即多任務學習和sim2real,提供了相關工作的概述,如圖4所示。
4.4 遵循道德約束的學習
隨著AI技術的不斷發展,考慮AI系統的道德含義變得越來越重要[4]。MARL系統涉及多個智能體的互動,其行為可能對現實世界產生重大影響。因此,確保MARL系統的設計和訓練考慮到道德因素至關重要。我們將有關MARL的道德約束的研究總結為隱私保護、公平性和透明度,如圖5所示。
5. 人機協同多智能體強化學習面臨的挑戰
人機協同物理系統(HCPS)是基于物理系統(CPS)發展起來的,它融合了計算機科學、自動化技術、通信科學等領域[9, 115]。本文第3節總結的MARL應用是HCPS的典型應用。人類被視為HCPS的重要組成部分,因此,MARL算法的設計需要考慮人的因素。除了可擴展性和非平穩性的挑戰之外,HCPS中的MARL面臨著許多額外的挑戰,這是由于人類、物理系統和計算機系統之間的相互作用導致的。
6. 結論
本文綜述了MARL的基本方法,并對MARL在智能交通、無人機、智能信息系統、公共健康與智能醫療診斷、智能制造、金融貿易、網絡安全、智慧教育、科學強化學習等各個領域的相關研究進行了綜述。為了更好地服務于人類社會,有必要發展一個值得信賴的MARL。從安全性、魯棒性、泛化性和倫理約束等角度定義了可信MARL,并總結了這些領域的當前研究和局限性。最后,討論了在MARL中考慮HCPS時面臨的其他挑戰,這對其在人類社會的實際應用至關重要。希望本文能夠對各種研究方法和應用場景進行全面綜述,鼓勵和推動MARL在人類社會中的應用,更好地服務于人類。
隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。
**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。
**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。
本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。
縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)
由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)
巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)
Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/
數據增強(DA)在現代機器學習和深度神經網絡中是不可或缺的。DA的基本思想是構建新的訓練數據,通過添加現有數據的輕微擾動版本或合成新數據來提高模型的泛化能力。本文回顧了基于DA - mix的數據增強(MixDA)的一個小但重要的子集,通過混合多個樣本來生成新樣本。與傳統的基于單樣本操作或需要領域知識的DA方法不同,MixDA在創建廣泛的新數據方面更具一般性,在社區中受到越來越多的關注。提出了一種新的分類法,根據數據混合的層次視圖,將MixDA分為基于Mixup、基于cutmix和hybrid方法。然后以更細粒度的方式全面調研各種MixDA技術。由于其通用性,MixDA已經滲透到各種應用程序中,本文也對這些應用程序進行了全面的綜述。還從提高模型性能、泛化和校準等不同方面研究了MixDA為什么有效,同時根據MixDA的屬性解釋模型行為。總結了當前MixDA研究的關鍵發現和基本挑戰,并概述了未來工作的潛在方向。不同于以往的相關工作總結特定領域(如圖像或自然語言處理)的數據挖掘方法或只回顧MixDA的一部分研究,本文首次從分類、方法論、應用和可解釋性等方面對MixDA進行了系統的綜述。這項工作可以作為MixDA技術和應用調研的路線圖,同時為對這一令人興奮的領域感興趣的研究人員提供有希望的方向。這些方法的列表可以在//github.com/ChengtaiCao/Awesome-Mix上找到。
1. 引言
深度學習(DL)由于其學習表達表示的能力,對[1]的不同領域產生了變革性的影響。隨著所要解決的問題越來越具有挑戰性,網絡結構變得越來越復雜,層數越來越多**。然而,深度神經網絡(dnn)因其具有數百萬甚至數十億參數的數據需求而臭名昭著(例如Bert[2]),使它們容易過擬合。許多創新致力于通過使用改進的網絡架構使dnn更具數據效率。例如,卷積神經網絡(CNN)經歷了從AlexNet[3]到ResNet[4]越來越高級的進化過程。此外,還提出了多種正則化方法來提高DNN的泛化能力,如權重衰減[5]、dropout[6]、隨機深度[7]和批量歸一化[8]。Dropout在訓練過程中隨機歸零一些激活,以模擬更多的網絡架構子集,并防止神經元的共同適應。批量歸一化通過從每個激活中減去批量均值并除以批量標準差來規范化激活。數據增強(DA)是指在不明確收集新樣本的情況下增加訓練數據的數量和多樣性,通常是減少過擬合的補救措施。DA方法試圖擴大有限的數據并提取額外的信息,結合先進的網絡架構和現有的正則化技術,可以提高模型的整體性能。例如,在樣本中添加隨機噪聲,作為一種簡單的DA方法,可以產生大量新的訓練樣本,有利于模型的魯棒性。在處理圖像數據時,采用隨機裁剪、水平翻轉和改變RGB通道強度[3]等標簽不變的數據變換可以提高性能,增強對平移、反射和光照的魯棒性。另一個例子是,使用隨機刪除[9]或裁剪[10]訓練的模型顯示出改進的正則化。在自然語言處理(NLP)應用中,同義詞替換、隨機插入、隨機交換和隨機刪除[11]是增強語言數據的主流方法。最后,生成模型如變分自編碼器(VAE)[12]和生成對抗網絡(GANs)[13]可以生成任意數量的虛假但真實的樣本,也被廣泛用于數據增強。本文關注數據增強的一個新興領域——基于Mix的數據增強(MixDA),近年來引起了大量的研究。
與傳統的基于單一實例的數據挖掘方法不同,MixDA通過組合多個實例創建虛擬訓練數據,生成大量無領域知識的訓練數據。例如,Mixup[14]從整體角度對兩個隨機采樣的訓練樣本的輸入輸出對進行線性插值。Cutmix[15]從一個圖像(源圖像)剪切一個patch,然后從局部性的角度將其粘貼到另一個圖像(目標圖像)的相應區域。后來,繼Mixup和Cutmix之后,人們通過不同的視角提出了大量MixDA的改進版本,這些版本也是本文分類的基礎,如靈活的混合比例、顯著性指導和改進的散度。由于其通用性,MixDA已成功應用于各種任務,包括半監督學習、生成模型、圖學習和NLP。此外,還提出了一些理論研究,從不同的角度來解釋MixDA。因此,是時候對MixDA的基礎、方法、應用和可解釋性進行全面的調研。為闡明后續研究,本文介紹了對當前MixDA的發現及其挑戰,以及一些有希望的未來途徑。
**相關的綜述。
在這里,我們清楚地說明了我們的綜述與相關工作之間的差異。首先,對數據增強方法[16],[17],[18],[19]進行綜述**。然而,這些綜述側重于應用各種數據增強技術的特定領域。例如,Feng等人的[16]研究了文本數據處理中的數據挖掘方法。此外,還對其他領域的數據挖掘方法進行了綜述,包括圖像識別[17]、時間序列學習[18]和圖結構數據學習[19]。盡管這些工作和我們的工作之間有輕微的重疊,但我們專注于一種特殊的DA方法,MixDA,可以在廣泛的領域中利用(參見第4節的詳細信息)。另一項類似的工作是對模型正則化[20],[21],[22],[23]的調研,其中概述了不同目的的正則化技術,如使用噪聲標簽學習[21],提高GANs[22]的性能,以及泛化到分布外數據[23]。我們的工作與這些評論是正交的,因為我們關注研究結合多個示例和利用MixDA來提高不同任務性能的方法的工作,盡管一些MixDA方法具有正則化效果[24],[25],[26]。與我們最相似的作品是[27]和[28]。前者回顧了圖像混合和圖像刪除的方法,后者回顧了圖像混合增強和其他增強策略。他們只總結了一部分基于Mix的數據增強方法,還有其他重點:(1)[27]綜述了一些基于刪除的數據增強方法,如隨機擦除[9]和捉迷藏[29];(2)[27]回顧了一些基于割的數據增強方法,如向輸入圖像隨機選擇的區域添加高斯噪聲的Patch Gaussian[30]和用0像素值掩碼/擦除輸入圖像區域的Cutout[10]。然而,這項工作將完全注意力放在基于MixDA的數據增強上,最重要的是,還提供了之前工作中沒有涉及的MixDA應用程序的徹底審查。據我們所知,這篇綜述是第一篇全面回顧MixDA技術并總結其廣泛應用范圍的工作。回顧了70多個MixDA方法(第3節)和10多個MixDA應用(第4節)。預計本綜述可以為這一令人興奮的領域的研究人員提供MixDA技術路線圖。
組織。本調研的結構如下。第2節描述了DA和MixDA的總體情況,我們還提供了MixDA的新分類法。在第3節中,我們系統地回顧了現有的方法,并討論了它們的優缺點。第4節研究了MixDA的重要應用,然后在第5節中對MixDA的可解釋性進行了分析。第6節介紹了關鍵發現和挑戰,并概述了潛在的研究方向。最后,在第7節對本文工作進行總結。
Mixup數據增強分類
本文提出了MixDA方法的第一個分類。將現有研究分為三類:(1)從全局角度混合訓練樣本的方法,以前沿工作Mixup[14]為代表;(2)通過以Cutmix[15]為代表的局部性視角構建新數據的方法;(3)其他基于混合原理但不能簡單歸為上述兩類的技術,如與數據重構混合、集成多個MixDA解決方案。我們提出的分類法背后的原理如下。Mixup及其變體通常開發一個全局的Mix方案,并將其應用于所有特征。例如,Mixup從Beta分布中提取混合比例,創建的示例中的每個特征都是兩個采樣的訓練示例的相應特征的線性組合,以鼓勵模型從全局角度理解數據。相比之下,Cutmix及其自適應方法從一個實例中截取部分特征,然后將其粘貼到另一個示例上,以提高模型的本地化能力。此外,有許多混合工作集成了多種MixDA方法或將MixDA與其他SsDA方法相結合。例如,RandomMix[31]通過從每個小批量的MixDA方法集合中采樣的mix操作創建增強的數據。類似地,AugMix[32]通過SsDA為每個樣本構造多個版本,然后通過MixDA將它們混合。在本節中,我們回顧了各種各樣的基于mix的策略,這些策略可以分為三組:(1)Mixup[14]及其變體,從整體角度混合了多個示例,(2)Cutmix[15]及其通過局部性的角度結合多個示例的適應性,以及(3)其他MixDA方法,如mix wit本身,結合多種基于mix的方法,以及將MixDA與SsDA集成。表2總結了常用的基準測試和相應的任務。
在本節中,我們將回顧MixDA的廣泛應用,如半監督學習、生成模型、收縮學習和NLP。表4總結了具有代表性的應用和相應的基準。
Mixda的可解釋性分析
盡管許多MixDA方法已被成功用于解決一系列應用,但尚不清楚這些方法的原理和工作原理。在本節中,我們系統地概述了MixDA的可解釋性基礎,重點從3個不同方面解釋了為什么混合樣本有助于泛化:(1)鄰近風險最小化(VRM),(2)正則化,以及(3)不確定性和校準。此外,我們還提供了一些MixDA工作良好的原因的解釋。
結論
數據增強一直是機器學習和深度學習研究中的一個重要研究課題。通過對技術、基準、應用和理論基礎的深入分析,系統地回顧了基于mix的數據增強方法。首先,我們為MixDA方法引入了一種新的分類。在這種情況下,一個更細粒度的分類法根據現有MixDA方法的動機將它們分為不同的組。然后,我們徹底回顧了各種MixDA方法,并回顧了它們的優點和缺點。此外,我們全面調研了十余類MixDA應用。此外,本文分別從ERM、正則化和不確定性&校準的角度為讀者提供了對MixDA的理論檢驗,同時通過檢驗MixDA的關鍵性質來解釋MixDA的成功。最后,總結了MixDA研究的重要發現、發展趨勢和現有研究面臨的主要挑戰,并展望了該領域未來的研究機遇。通過這篇綜述,希望研究人員和從業人員能找到MixDA方法及其應用的技術手冊,以及解決基本問題和推進該領域的方向。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。
本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是,基于提示的學習是基于直接對文本概率建模的語言模型,監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務,使用模板將原始輸入x修改為文本字符串提示符x ',其中有一些未填充的槽,然后使用語言模型按概率填充未填充的信息,得到最終字符串x?,從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練,通過定義一個新的提示函數,模型能夠執行少量甚至零次學習,在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容,描述了一套統一的數學符號,可以涵蓋各種各樣的現有工作,并從幾個維度組織現有的工作,例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域,我們不僅對現有的工作進行了系統的回顧,并對基于提示的概念進行了高度結構化的類型化,而且還發布了其他資源。
地址: //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b
完全監督學習,即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型,長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al., 2007),自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的,早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011)),其中,NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征,并提供具有適當歸納偏差的模型,以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現,顯著特征的學習與模型本身的訓練結合在一起(Collobert et al., 2011;Bengio et al., 2013),因此重點轉向了架構工程,其中的歸納偏差更傾向于通過設計一個合適的網絡架構,有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。
然而,從2017-2019年開始,NLP模型的學習發生了翻天覆地的變化,這種完全監督的范式現在正在發揮越來越小的作用。具體來說,標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中,一個具有固定架構的模型被預先訓練為語言模型(LM),預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富,這些LMs可以在大型數據集中進行訓練,在此過程中學習它所建模的語言的魯棒通用特性。然后,通過引入額外的參數,并使用特定任務的目標函數對它們進行微調,將上述預先訓練的LM適應于不同的下游任務。在這個范例中,重點主要轉向了目標工程,設計在訓練前和微調階段使用的訓練目標。例如,Zhang等人(2020a)表明,引入一個預測文檔中顯著句子的損失函數,將導致更好的文本摘要預訓練模型。值得注意的是,預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調,使其更適合解決下游任務。
現在,在2021年寫這篇文章的時候,我們正處于第二次巨變之中,“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式,不是通過目標工程將預先訓練好的LMs應用到下游任務,而是將下游任務重新制定,使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如,當識別社交媒體帖子的情緒時,“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”,然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”),LM可以用法語翻譯來填空。這樣,通過選擇適當的提示,我們可以操縱模型行為,使預先訓練的LM本身可以用來預測期望的輸出,有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是,給定一套適當的提示,在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣,這里有一個陷阱——這種方法引入了快速工程的必要性,找到最合適的提示,讓LM能夠解決手頭的任務。
知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。
知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。