如何使用大模型來進行檢索優化?看這篇綜述就夠了
作為信息獲取的主要手段,如搜索引擎等信息檢索(IR)系統已經融入了我們的日常生活。這些系統還作為對話、問答和推薦系統的組件。
信息檢索的軌跡從其基于術語的方法的起源動態地發展到與先進的神經模型的整合。雖然神經模型擅長捕捉復雜的上下文信號和語義細微差別,從而重塑信息檢索的格局,但它們仍然面臨如數據稀缺、可解釋性以及生成上下文可能的但可能不準確的回應等挑戰。
這種演變需要結合傳統方法(如基于術語的稀疏檢索方法與快速響應)和現代神經結構(如具有強大語言理解能力的語言模型)。與此同時,大型語言模型(LLMs),如ChatGPT和GPT-4,由于其出色的語言理解、生成、概括和推理能力,已經革命性地改變了自然語言處理。
因此,最近的研究已經尋求利用LLMs來改進IR系統。鑒于這一研究軌跡的快速發展,有必要整合現有的方法并通過全面的概述提供細致的見解。
在這項綜述中,我們深入探討了LLMs和IR系統的融合,包括查詢重寫器、檢索器、重新排序器和讀取器等關鍵方面。此外,我們還探討了這個不斷擴展領域內的有前景的方向。
//www.zhuanzhi.ai/paper/cfc9d30dab451b42c356f809ecf111a6
大模型驅動的信息檢索
信息訪問是人類日常基本需求之一。為了滿足快速獲取所需信息的需求,開發了各種信息檢索(IR)系統[1–4]。顯著的例子包括Google、Bing和Baidu等搜索引擎,它們在互聯網上作為IR系統,擅長根據用戶查詢檢索相關的網頁,并為用戶提供便捷、高效地訪問互聯網上的信息。值得注意的是,信息檢索超出了網頁檢索的范圍。在對話系統(聊天機器人)[1, 5-8]中,如微軟的小冰[2]、蘋果Siri1和Google助手2,IR系統在檢索與用戶輸入語言相應的適當回應中起到了關鍵作用,從而產生自然流暢的人機對話。同樣,在問答系統[3, 9]中,為了有效地解答用戶的問題,IR系統被用來選擇相關的線索。在圖像搜索引擎[4]中,IR系統擅長返回與用戶輸入查詢相符的圖片。鑒于信息的指數級增長,研究和產業對開發有效的IR系統越來越感興趣。
IR系統的核心功能是檢索,其目的是確定用戶發出的查詢與待檢索的內容之間的相關性,包括文本、圖像、音樂等各種類型的信息。在本綜述的范圍內,我們僅專注于審查那些文本檢索系統,其中查詢與文檔的相關性通常由它們的匹配得分來衡量。3考慮到IR系統操作大量的知識庫,檢索算法的效率變得至關重要。為了提高用戶體驗,檢索性能從上游(查詢重構)和下游(重新排序和閱讀)的角度得到了增強。作為一個上游技術,查詢重構旨在優化用戶的查詢,使其更有效地檢索到相關的文檔[10, 11]。隨著會話式搜索的日益受歡迎,這種技術受到了越來越多的關注。在下游方面,重新排序方法被開發出來,以進一步調整文檔的排名[12-14]。與檢索階段相比,重新排序僅在檢索器已經檢索到的有限集合的相關文檔上執行。在這種情況下,重點放在實現更高的性能而不是保持更高的效率,允許在重新排序過程中應用更復雜的方法。此外,重新排序可以滿足其他特定的需求,如個性化[15-18]和多樣化[19-22]。在檢索和重新排序階段之后,加入了一個閱讀組件,用于總結檢索到的文檔并為用戶提供簡潔的文檔[23, 24]。雖然傳統的IR系統通常要求用戶自己收集和整理相關信息;但是,閱讀組件是New Bing等新IR系統的一個不可分割的部分,簡化了用戶的瀏覽體驗,節省了寶貴的時間。
信息檢索(IR)的軌跡經歷了動態的演變,從其基于術語的方法的起源轉變為與神經模型的整合。最初,IR基于基于術語的方法[25]和布爾邏輯,專注于為文檔檢索進行關鍵詞匹配。隨著向量空間模型[26]的引入,這一范式逐漸發生了變化,釋放出捕獲術語之間細微的語義關系的潛力。這種進展隨著統計語言模型[27, 28]繼續發展,通過上下文和概率考慮來改進相關性估計。在這一階段,有影響力的BM25算法[29]起到了重要作用,通過考慮術語頻率和文檔長度的變化,徹底改變了相關性排名。IR歷程中的最新篇章是由神經模型的崛起[3, 30-32]標志的。這些模型擅長捕獲復雜的上下文提示和語義細節,重塑了IR的格局。然而,這些神經模型仍然面臨如數據稀缺、可解釋性以及可能生成合理但不準確回應等挑戰。因此,IR的演變仍然是一個平衡傳統優勢(如BM25算法的高效率)與現代神經結構所帶來的顯著能力(如語義理解)的旅程。
近年來,大型語言模型(LLMs)已在各種研究領域,如自然語言處理(NLP)[33-35]、推薦系統[36-39]、金融[40],甚至分子發現[41]中嶄露頭角,成為變革的力量。這些前沿的LLMs主要基于Transformer架構,并在各種文本源上進行廣泛的預訓練,包括網頁、研究文章、書籍和代碼。隨著它們的規模繼續擴展(包括模型大小和數據量),LLMs在其能力上展現出了顯著的進步。一方面,LLMs在語言理解和生成方面展現出了前所未有的熟練程度,從而產生更像人類的響應,并更好地與人類的意圖對齊。另一方面,更大的LLMs在處理復雜任務[42]時展示了令人印象深刻的突發能力,如泛化和推理技能。值得注意的是,LLMs可以有效地應用其學到的知識和推理能力,只需幾個針對特定任務的示范或適當的指導即可解決新任務[43, 44]。此外,如基于上下文的學習這樣的先進技術,已經大大增強了LLMs的泛化性能,無需對特定的下游任務進行微調[34]。這一突破尤為寶貴,因為它減少了大量的微調需求,同時獲得了顯著的任務性能。通過使用如“思維鏈”這樣的提示策略,LLMs可以生成帶有逐步推理的輸出,導航復雜的決策過程[45]。無疑,利用LLMs的強大力量可以提高IR系統的性能。通過整合這些復雜的語言模型,IR系統可以為用戶提供更準確的回應,從根本上重塑信息訪問和檢索的格局。
已經進行了初步的嘗試,以利用LLMs在開發新型IR系統中的潛力。值得注意的是,就實際應用而言,New Bing旨在通過從不同的網頁中提取信息,并將其壓縮成簡潔的摘要作為用戶生成查詢的響應,從而改進用戶使用搜索引擎的體驗。在研究界,LLMs已在IR系統的特定模塊(如檢索器)中證明了其用途,從而增強了這些系統的整體性能。由于LLM增強型IR系統的迅速發展,全面審查它們的最新進展和挑戰至關重要。我們的綜述提供了對LLMs和IR系統交叉點的深入探索,涵蓋了關鍵視角,如查詢重寫器、檢索器、重新排名器和讀取器(如圖1所示)。這項分析加深了我們對LLMs在推進IR領域中的潛力和局限性的理解。為了這次綜述,我們創建了一個Github倉庫,收集了有關LLM4IR的相關論文和資源。我們將繼續使用新的論文更新倉庫。此綜述也將根據此領域的發展定期進行更新。我們注意到有幾篇關于PLMs、LLMs及其應用(例如AIGC或推薦系統)的綜述[46–52]。在這些中,我們強烈推薦LLMs的綜述[52],它為LLMs的許多重要方面提供了系統而全面的參考。與它們相比,我們專注于為IR系統開發和應用LLMs的技術和方法。此外,我們注意到有一篇觀點論文討論了IR在遇到LLMs時的機會[53]。這將是關于未來方向的本次綜述的極好補充。
此綜述的其余部分組織如下:第2部分介紹IR和LLMs的背景。第3、4、5、6部分分別從查詢重寫器、檢索器、重新排名器和讀取器的四個視角審查了最近的進展,這是IR系統的四個關鍵組件。然后,第7部分討論了未來研究中的一些可能方向。最后,我們在第8部分總結了主要發現,結束這次綜述。
結論
在這項綜述中,我們對LLMs在IR的多個維度上的變革影響進行了深入的探索。我們根據它們的功能將現有方法組織成不同的類別:查詢重寫、檢索、重新排序和讀取模塊。在查詢重寫領域,LLMs已經展示了其在理解模糊或多面的查詢方面的有效性,增強了意圖識別的準確性。在檢索的背景下,LLMs通過使查詢和文檔之間的匹配更加細致,同時考慮上下文,提高了檢索的準確性。在重新排序領域,LLM增強的模型在重新排序結果時考慮了更多的語言細節。在IR系統中加入讀取模塊代表了向生成綜合性回應而不僅僅是文檔列表的重要一步。LLMs的整合到IR系統帶來了用戶與信息和知識互動方式的根本變化。從查詢重寫到檢索,重新排序和讀取模塊,LLMs已經通過高級語言理解、語義表示和上下文敏感處理豐富了IR過程的每一個方面。隨著這一領域的不斷進展,LLMs在IR中的旅程預示著一個更加個性化、精確和以用戶為中心的搜索體驗的未來。這項綜述著重于審查最近的將LLMs應用于不同信息檢索組件的研究。除此之外,LLMs的出現帶來了一個更大的問題:在LLMs的時代,傳統的IR框架是否還有必要?例如,傳統的IR旨在返回與發出的查詢相關的文檔的排名列表。然而,生成語言模型的發展引入了一個新的范例:直接生成對輸入問題的答案。此外,根據最近的一篇觀點論文[53],IR可能會演變為多種系統的基本服務。例如,在一個多代理模擬系統[162]中,IR組件可以用于記憶回憶。這意味著未來的IR將會有許多新的挑戰。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
深度生成模型旨在復制給定的數據分布以產生新的樣本,在近年來取得了前所未有的進步。他們的技術突破使得在視覺內容的合成上實現了無與倫比的質量。然而,他們巨大成功的一個關鍵先決條件是有足夠數量的訓練樣本,這需要大量的計算資源。當在有限的數據上進行訓練時,生成模型往往會因過度擬合和記憶化而導致嚴重的性能下降。
**因此,研究人員近來花費了大量的精力來開發能夠從有限的訓練數據生成合理且多樣化圖像的新型模型 **。盡管在有限數據情況下提高訓練穩定性和合成質量的努力眾多,但仍缺乏一個系統的調查,該調查提供1)清晰的問題定義、關鍵挑戰和各種任務的分類;2)對現有文獻的優點、缺點和剩余限制的深入分析;以及3)對有限數據下圖像合成領域的潛在應用和未來方向的深入討論。
為了填補這個空白,并為新入門這個主題的研究人員提供一個信息豐富的介紹,這個調查提供了一個全面的審查和一個關于有限數據下圖像合成發展的新的分類。特別是,它全面而全方位地涵蓋了問題的定義、要求、主要解決方案、流行的基準和剩余的挑戰。我們希望這個調查能為研究人員和實踐者提供一個信息豐富的概覽和一個寶貴的資源,并推動這個重要主題的進一步進步和創新。除了相關的參考文獻,我們的目標是不斷維護一個最新的存儲庫,以在GitHub/awesome-few-shot-generation上追蹤這個主題的最新進展。
1. 引言
深度生成模型已經取得了巨大的發展,并已經被應用于廣泛的智能創造任務,特別是在圖像和視頻合成[1],[2],[3],[4],[5],[6],[7],[8],[9],音頻和語音合成[10],[11],[12],[13],[14],[15],多模式生成[16],[17],[18]等方面。他們的技術突破也直接方便了我們日常生活的許多方面,包括各種表示形式(例如,3D/2D表示)的內容創建[19],[20],[21],[22],定制生成和編輯[23],[24],[25],[26],[27],以及藝術合成/操作[28],[29],[30],[31]。盡管取得了這些顯著的進步,但大多數現有的生成模型需要大量的數據和計算資源進行訓練。例如,最常用的數據集,人臉FFHQ [2],[32](70K),戶外/室內場景LSUN [33](1M),和對象ImageNet [34](1M),都包含足夠的訓練樣本。這樣的先決條件對只有有限訓練樣本的實踐者和研究者(如著名藝術家的繪畫和稀有疾病的醫療圖像)構成了重大挑戰。因此,有越來越多的需求要在有限的訓練數據下學習生成模型,這在近年來引起了廣泛的關注。 在有限數據下進行圖像合成的主要挑戰是模型過擬合和記憶化的風險,這可以顯著影響生成樣本的真實度和多樣性[35],[36],[37],[38],[39]。也就是說,由于過度擬合,模型可能只是復制訓練圖像,而不是生成新的圖像,從而導致合成質量下降。例如,當在有限數據下訓練生成對抗網絡(GANs)[40]時,判別器容易記住訓練圖像,從而對生成器提供無意義的指導,導致不利的合成。為了解決這些限制,許多研究工作已經開發出來,以改善在少數情況下的合成質量[35],[36],[37],[41],[42]。這些工作提出了各種策略,從不同的角度來減輕過擬合和記憶化的風險,如數據增強、正則化和新的架構。
盡管在有限數據下的圖像合成領域已經取得了顯著的進步,但該領域缺乏統一的問題定義和分類。例如,少樣本圖像生成在[41],[43],[44],[45]中被定義為給定一個類別的少量圖像,生成這個未見過的類別的多樣化和逼真的圖像,而在[46],[47],[48],[49],[50]中,少樣本圖像生成指的是將大規模和多樣化的源域的先驗知識適應到一個小的目標域。然而,他們在問題需求、模型訓練和測試設置上有顯著的不同。這種不一致的定義可能會導致不熟悉這些工作的讀者產生歧義和誤解。因此,一個全面的問題定義和分類對于更清晰地理解這個領域是至關重要的。此外,考慮到系統性調查的缺乏和有限數據生成的興趣增加,我們認為有必要組織一個調查,以幫助社區追蹤其發展。為此,本文首先為少樣本范式中的各種任務提供了一個清晰的問題定義,并將它們分為四類:數據高效生成模型(第4節),少樣本生成適應(第5節),少樣本圖像生成(第6節),和單樣本圖像合成(第7節)。然后,本文對該領域的先前研究進行了全面的概述。特別是,現有替代方案的技術演變、優點和缺點都有所呈現。另外,我們介紹了幾個相關的應用,并突出了需要未來工作進一步研究的開放問題(第8節)。總的來說,這項調查旨在為新入門該領域的學者提供有限數據下圖像合成的全面和系統的理解。我們希望我們的工作能為那些愿意僅用數十張訓練圖像開發自己的生成模型的研究者提供一種指導。本調查的貢獻總結如下:
? 清晰的問題定義和分類。本調查為有限數據下的圖像合成中的各種合成任務提供了清晰且統一的問題定義。此外,本調查提出了一個系統的分類法,將這些任務劃分為四類:數據高效圖像生成、少樣本生成適應、少樣本圖像生成和單樣本圖像合成。 ? 全面性。本調查對少樣本范例中現有的最先進的生成模型進行了全面的概述。我們比較和分析了現有方法的主要技術動機、貢獻和局限性,這些可以啟發進一步改進的潛在解決方案。 ? 應用和開放的研究方向。除了技術調查外,本調查還討論了潛在的應用,并突出了需要進一步調查以改善有限數據下圖像合成的開放性研究問題。 ? 及時的最新資源庫。為了持續追蹤這個領域的快速發展,我們在GitHub/awesome-few-shotgeneration上提供了最新相關論文、代碼和數據集的策劃列表。
本綜述關注的是訓練深度生成模型在有限訓練數據下生成多樣化和合理的圖像的方法。這些方法的主要目標是通過充分利用有限訓練數據的內部信息并在數據分布范圍內生成新的樣本來減輕過擬合問題。然而,這些方法在模型輸入、訓練圖和評估方面有所不同。
因此,在這項調查中,我們的目標是1) 讓讀者對有限數據下圖像合成領域的各種問題設置有清晰的理解,2) 對先前藝術的模型概念、方法特性和應用提供深入的分析和深思熟慮的討論,以及3) 提出一些未來研究的方向,并激發出更多有趣的工作以進一步改進。特別是,根據問題定義和實驗設置,我們將現有的方法分為四類:數據高效生成模型、少樣本生成適應、少樣本圖像生成、單樣本圖像生成。需要注意的是,所有這些類別都旨在生成與數據分布相對應的逼真和多樣化的圖像。這與少樣本學習中的生成建模形成鮮明對比,后者顯式地估計概率分布以計算給定樣本的類標簽[51],[52]。關于少樣本學習的進展,我們建議讀者參閱[53],[54]以獲取更全面的評述。
在這次調查中,我們的目標是提供關于有限數據下圖像合成的各種任務的清晰理解。為了實現這個目標,我們提出了每個任務的定義和表述,考慮到每個問題背后的訓練范式和任務特定的需求。我們已經構建了四個獨立的問題,即數據高效生成模型、少樣本生成適應、少樣本圖像生成和單樣本圖像生成。為了更好地說明這些問題,我們考慮了深度生成模型家族中的一個代表性類別,即生成對抗網絡(GANs),來描繪這些問題的訓練流程(見圖1)。需要注意的是,所呈現的流程并不是為了代表每個任務中使用的所有方法,而是作為一個示例。此外,我們在表1中總結了每個任務的定義、模型需求和主要挑戰。詳細的方法設計和分類分別在相應的部分進行了介紹。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。
知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。
//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5
從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。
知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。
預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:
知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。
對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。
我們的貢獻總結如下:
建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。
概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。
**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。
**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。
**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。
可解釋人工智能(XAI)通過增強終端用戶對機器的信任,正在改變人工智能(AI)領域。隨著連接設備數量的不斷增長,物聯網(IoT)市場需要對終端用戶來說是值得信任的。然而,現有文獻對于XAI在物聯網中的應用尚缺乏系統而全面的綜述性工作**。為了彌補這一不足,在本文中,我們關注了XAI框架的特點和對物聯網的支持。我們介紹了物聯網應用中廣泛使用的XAI服務,如安全增強、醫療物聯網(IoMT)、工業物聯網(IIoT)和城市物聯網(IoCT)**。通過適當的例子,提出了在這些應用中XAI模型優于物聯網系統的實現選擇,并總結了未來工作的關鍵推論。此外,我們介紹了邊緣XAI結構的前沿發展,以及對物聯網應用的第六代(6G)通信服務的支持,以及關鍵推論。簡而言之,本文構成了針對未來物聯網用例需求的基于XAI的框架開發的第一個整體匯編。
//www.zhuanzhi.ai/paper/60b70e12d1bbad0142aa263371444331
概述
可解釋人工智能(XAI)由于具有高度透明、可信賴、可解釋的系統開發等諸多優點,越來越受到人們的重視。人工智能(AI)系統每天都在進化,具有更復雜的功能。人工智能也已經發展到可以直接與機器交互的水平。它已經成為每一個商業運作和人類日常生活的一部分。然而,這些往往容易產生模型偏差,缺乏代碼信心和信任問題。為了管理這些風險并保持AI模型的透明度,XAI的出現為系統提供了許多有意義的解釋,而不會對所做的決策或任何采納的解決方案產生任何混亂[1]。XAI對當前業務的影響可能會取代傳統的AI系統,這些系統能夠在生產、制造、供應鏈、金融部門和財富管理方面產生更大的影響,帶來更好的增長和可持續發展。
近年來,XAI技術引起了業界和學術界的廣泛關注。該技術的發展已經取得了巨大的成功,從模型中做出了值得信賴的決策。XAI的出現目前跨越了大量的應用程序,這些應用程序推動了對各個研究領域的投資。XAI最流行的應用程序包括醫療保健[2]、金融[3]、安全[4]、軍事[5]和法律部門[6]。一般來說,XAI技術已經證明了其潛力,目前需要可解釋的AI模型。一個使用XAI的實際例子是國防部門[7]。此外,谷歌的云服務正在探索XAI部署可解釋和包容性AI模型的潛力[8]。作為XAI對物聯網(IoT)環境最成功的影響之一,可解釋和透明ML模型[9]承諾了新的策略來解釋黑箱決策系統[10],基于新的解釋風格[11]的設計,用于評估AI系統的透明度和可解釋性。用于解釋的算法的技術方面可以被物聯網系統用于確保XAI模型中的倫理方面。物聯網中的XAI系統的一個例子是[4],它已被證明可以使用統計理論在工業物聯網(IIoT)中提供模型不可知的解釋,從而促進透明度的有效性。然而,涉及的挑戰是隨機新樣本的考慮,這需要解決高風險物聯網應用。通過使用基于LIME的XAI模型,可以學習域不變特征來保證信息處理的可信度,并且能夠提供可靠的解釋[12]。
XAI模型的一個關鍵挑戰是定制用于處理非線性數據的模型,這可以通過開發數據驅動的XAI模型[13]來規避。特別是,盡管完全可解釋的模型還處于初級階段,XAI系統仍然需要能夠解決解釋和可解釋性的理論和實踐方面的新模型。例如,物聯網設備中的隱私和數據保護可能無法由AI模型對模型如何做出決策進行足夠安全的處理。對物聯網應用的一些解釋必須明確,特別是在醫療保健和軍事應用中,XAI可以大大受益。因此,XAI技術有望成為物聯網及其相關賦能技術的可靠技術。
A. 動機
由于黑箱模型的不透明性,人工智能系統帶來的重大挑戰常常從倫理角度對信任構成威脅[14]。XAI模型固有的可解釋性是通過透明的方式做出決策來建立的,它允許在沒有任何爭論的情況下分享解釋。最近,XAI模型在交付可靠、透明和合乎道德的決策方面取得了重大進展。例如,開發了大量新穎的XAI模型,以提高具有高度倫理考慮的決策的透明度。因此,XAI模型也非常適合于大量的應用程序[7]。然而,物聯網應用的XAI支持非常有限,由于智能設備的資源限制,XAI支持受到了限制。將XAI的支持擴展到物聯網應用及其他領域,使學術和工業研究進入一個新的維度,這有可能維護在醫療保健、國防、工業和其他物聯網驅動的工業應用中所做決策的倫理關切和透明度。基于這一動機,大量的XAI模型已經部署在物聯網應用中,如醫療保健[2]、金融[3]、安全[4]、軍事[5]和法律部門[6]。此外,文獻報道了使用物聯網傳感器[15]進行故障預測的深度XAI模型和用于物聯網云系統[16]的端到端ML模型。更廣泛地說,XAI模型的新范圍還可以用來提供可信的解釋,并可以在大量的應用領域取代傳統的AI模型。B. XAI在物聯網中的作用通過對部署在環境中不同類型的物聯網設備所積累的數據進行適當的調查,從而可以感知特定場景中的活動。大多數識別技術通常基于人工智能技術,如ML和DL,可以提供精確的決策。AI在物聯網應用中的作用可以分為以下三個發展階段。
**在第一類中,從傳感器和物聯網收集數據,然后輸入AI算法或AI領域的ML算法。
**第二個進步是利用AI改善物聯網服務。這可以像對傳感器數據進行調查一樣簡單,比如這些數據是否越界,并試圖確定越界的原因,以及是否應該將數據輸入AI領域。
**AI模型的第三個作用是監督物聯網領域的AI元素,并在AI領域的算法和ML系統之間交換信息
通過為物聯網定義各種模型,我們可以觀察到AI領域推理物聯網領域細節的方法。例如,如果我們打算診斷故障,我們可以從物聯網領域的AI能力中提取數據。我們還可以開始查詢傳感器或數據源的可靠性和可信性。然而,傳統人工智能技術的使用缺乏對開發框架所做的決策向人類提供解釋。獲取做出此類決策的明顯解釋,可以滿足在開發過程中更好地解釋模型的多重目標的需求,并同時提供更直接的、精細的上下文感知服務的方法。例如,對醫療保健應用程序中的患者活動進行持續檢查對于理解健康狀態非常重要。對病人活動的更透明的監測使專家能夠完全了解病人的行為。集成了元學習策略的XAI模型主要用于信息物理系統,這些系統是工業4.0的核心組件。它們確保了豐富的模擬基礎設施,與機器的智能通信,更高水平的可視化,更好的服務質量分析和生產效率最大化。在[4]中作者提出的另一個類似的工作中,為了在工業物聯網框架中賦予更高級別的安全特性,處理了模型不可知論解釋,以解決智能行業的網絡安全威脅。在這里,通過統計理論提供透明度,甚至為隨機的新樣本集提供解釋,以確保在高風險的工業物聯網任務的安全性。在[4]中,作者提出了一個可信任的、明顯的體驗平臺,用于評估物IOT智能家居場景中的電力消費行為。此外,XAI在醫療健康部門的作用與物聯網在疾病預測和診斷方面的作用正變得越來越重要。[19]中的工作涉及XAI模型,使醫療領域使用的物聯網框架能夠應對疾病預測和診斷所涉及的挑戰。
隨著XAI的深遠影響逐漸顯現,人工智能技術決策階段(如ML和DL模型)背后的整個深刻邏輯可以被理解。此外,XAI算法允許模型在預測階段解釋每個單獨的決策。它們在物聯網框架中的重要性是解決資源受限物聯網設備中XAI實施所涉及的問題的一種具有挑戰性的手段。然而,XAI對物聯網的深遠影響使得終端用戶信任這些部署在商業和公共場景中的設備。有了XAI模型和物聯網數據的本質成分,從終端用戶的角度,突出了模型訓練的高性價比和透明化的問題。
C. 比較和我們的貢獻
受XAI和物聯網領域進展的推動,研究界提出了一些相關的綜述工作。特別是,在過去幾年中,各種研究人員對XAI框架進行了廣泛的研究。例如,一些論文對XAI系統及其特性進行了總體概述[20,21,22,23,24,25],并對不同的XAI算法[26]進行了綜述。特別地,[20]中的作者總結了XAI在監督學習中的作用,以及它與人工一般智能相關的最新發展。同樣,[22]的作者回顧了XAI中最先進的方法在理論、概念、方法和評價上采用的聚類策略的貢獻。在[24]中,作者為解決XAI黑箱問題的辯論確定了四個主題。此外,基于嚴格的審查,這些發現有助于增強對XAI模型決策的認識。Angelov等人[25]將機器學習和深度學習研究的進展與可解釋性問題聯系起來。在此,作者闡述了可解釋性的原則,并提出了該研究領域未來的研究方向。在[26]中,Das等人提出了分類法,并根據XAI技術的固有特征對其進行分類,并將其配置為自解釋學習模型。此外,作者評估了8種XAI算法,并生成了解釋圖,并總結了這些方法的局限性。[21]中的作者概述了XAI、從AI中提取的背景細節、開發的起源和技術標準化,以及XAI體系結構、用例和研究挑戰。Arrieta等人[23]對XAI的分類進行了全面的調查,引出了負責任AI的概念框架。此外,它還激勵研究人員利用具有可解釋能力的人工智能系統。
考慮到倫理問題,XAI提供了可靠的系統,并提供了關于模型的解釋。對模型的改進,對系統決策的論證,對異常行為的控制,發現新的規律和隱藏的洞見[21]都需要解釋。在[27,28,29]中,作者就研究挑戰和應用領域從深度學習(DL)、自動化決策和個性化體驗的背景下比較了各種XAI框架。其他的則專注于特定的功能,如安全[30,31]、醫療保健[32,33,34]、增強[35]、機器人[36,37]以及與ML模型[38,39,40]相關的解決方案,以探索對系統所做決策的見解。此外,[41]的作者提供了在基于強化學習的應用中使用XAI的詳細總結。表1從XAI的角度簡要介紹了一些現有的調查文章,以及它們的主要貢獻和局限性。盡管XAI在文獻中已經被各種研究人員廣泛研究過,但據我們所知,目前還沒有關于在物聯網服務和應用中使用XAI的全面和專門的調研。XAI在各個領域的潛力,如物聯網網絡、安全、醫療保健和工業部門,還沒有在開放文獻中探索過。此外,從智能家居到智慧城市的角度,整體總結XAI與IoT的融合還有待探索。這些缺點促使我們對XAI與物聯網服務的集成進行了全面的審查。具體來說,我們包括了XAI在各種物聯網應用類別中的應用的最新調查,如安全、醫療保健、工業和智慧城市。本文的主要貢獻在于對XAI的使用進行了廣泛的總結,包括網絡安全增強、IoMT、IIoT和IoCT。我們還在每個物聯網應用結束時總結了本次調研的主要觀察結果。最后,討論了基于xai的物聯網服務的重要研究挑戰,并展望了未來的研究方向。就我們的熟練程度而言,我們是第一個提供物聯網系統中XAI專門和詳細調研的機構。這項調研的主要貢獻可以強調如下。
與該領域的其他相關綜述工作相比,該調查提供了物聯網、XAI及其集成的相關背景細節的廣泛總結,使研究人員能夠挖掘物聯網系統的可信性。
我們介紹了物聯網中XAI的需求和最近文獻中提出的一些關鍵挑戰,并總結了一些最近的研究工作。
此外,我們還探索了一些物聯網應用領域,如安全、醫療保健、工業和智慧城市。我們介紹了XAI在此類應用中的需求和作用,以便更好地對物聯網服務進行值得信賴的探索,以及所吸取的教訓。
我們還從使用XAI模型的角度詳細討論了可靠物聯網服務的前沿發展。
最后,我們概述了未來研究的挑戰,以考慮物聯網的XAI方向。
本綜述的組織如下:第二部分闡述了XAI和物聯網的初步概況。第三節討論了物聯網中XAI系統的發展以及相關領域的應用類別。本節還闡述了每個應用程序的未來研究范圍和相關的開放端挑戰。第四部分總結了本文在建立基于xai的物聯網架構的最佳措施方面的主要發現和成果。第五部分指出了XAI在物聯網上的未來發展方向。第六部分是全文的總結。
圖1顯示了傳統AI和基于XAI的系統所涉及的操作的一般順序。在傳統的人工智能系統中,最終用戶無法解釋學習過程,它看起來像一個不透明的黑盒子。與傳統AI不同的是,XAI模型使用革命性的ML過程和可解釋的模型,在學習過程和根據訓練數據做出的決策中為最終用戶提供可持續的透明度。
圖3顯示了XAI模型的精度前景,這取決于用于實現的算法。在流行的XAI模型中,深度學習[54]模型以較少的可解釋特征確保了更好的精度。然而,與深度學習模型相比,基于決策樹[55]、隨機森林[56]和集成模型[57]的XAI模型提供了更好的解釋性,但性能精度顯著降低。同樣明顯的是,在模型的復雜性、解釋系統的功能和性能方面存在著權衡。
圖4顯示了一個示例IoMT框架,該框架使用XAI模型來傳遞值得信任的醫療保健服務。準確地說,連接的物聯網醫療設備能夠使用無線個人區域網絡(PAN)進行通信。XAI框架根據IoMT設備積累的數據做出的決策為患者和醫療保健專業人員提供了更好的幫助。
生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。
//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f
概述
深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。
在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。
2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。
鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。
本綜述范圍
在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。
基礎模型
生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。
計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。
三維形狀生成
目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。
三維感知圖像生成
三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。
6 應用
3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。
7 未來的工作
3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。
通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。
可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。
效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。
訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。
北京交通大學最新《深度因果模型》綜述論文,31頁pdf涵蓋216頁pdf詳述41個深度因果模型,值得關注!
因果關系概念在人類認知中起著重要作用。在過去的幾十年里,因果推理在計算機科學、醫學、經濟學和教育等許多領域都得到了很好的發展。隨著深度學習技術的發展,它越來越多地用于反事實數據的因果推理。通常,深度因果模型將協變量的特征映射到一個表示空間,然后根據不同的優化方法設計各種目標優化函數,無偏估計反事實數據。本文對深度因果模型進行了綜述,其核心貢獻如下: 1)提供了多劑量和連續劑量治療下的相關指標; 2)我們從時間發展和方法分類的角度整合了深度因果模型的全面概述; 3)我們協助對相關數據集和源代碼進行詳細和全面的分類和分析。
一般來說,因果關系指的是結果與產生結果的原因之間的聯系。這種現象的原因和影響很難定義,我們往往只能憑直覺意識到它們。因果推斷是一個根據因果關系發生的環境對因果關系作出結論的過程,在現實世界中有各種各樣的應用。例如,估計廣告中觀察數據的因果效應[3,4,5,6,7,8,9],開發與因果治療效果估計高度相關的推薦系統[10,11,12,13,14,15,16],學習醫學中患者的最佳治療規則[17,18,19],估計強化學習中的ITE[20,21,22,23,24,25,26,27,28],自然語言處理中的因果推理任務[29,30,31,32,33,34],新興的計算機視覺和語言交互任務[35,36,37,38,39],教育[40],政策決策[41,42,43,44,45]和改進的機器學習方法[46]等。
深度學習在應用于大數據時有助于人工智能的發展[47,48,49,50]。與傳統機器學習算法相比,深度學習模型計算效率更高,精度更高,在各個領域都有很好的表現。然而,許多深度學習模型是可解釋性較差的黑盒,因為它們更關心作為輸入和輸出的相關性,而不是因果關系[51,52,53]。近年來,深度學習模型被廣泛用于挖掘數據的因果關系而不是相關性[41,43]。因此,深度因果模型已成為基于無偏估計估計治療效果的核心方法[19,44,45,54]。目前,許多因果推理領域的研究都是利用深層因果模型來選擇合理的treatment 方案[55,56,57,58]。
在大數據中,所有趨勢變量都是相關的[59],因此發現因果關系是一個具有挑戰性的問題[60,61,62]。在統計學理論中,進行隨機對照試驗(randomized controlled trials, RCT)[63]是推斷因果關系最有效的方法。換句話說,樣本被隨機分配到處理組或對照組。盡管如此,現實世界的隨機對照試驗數據是稀疏的,有幾個嚴重的缺陷。涉及rct的研究需要大量特征變化不大的樣本,難以解釋,涉及倫理挑戰。事實上,選擇試驗對象來嘗試一種藥物或疫苗是不明智的[64,65]。因此,因果效應通常直接用觀察數據來衡量。獲取反事實結果的一個核心問題是如何處理觀測數據[66]。在分析觀察數據時,處理并不是隨機分配的,處理后的樣本的性能與普通樣本的性能有顯著差異[41,43]。不幸的是,我們無法在理論上觀察到其他結果,因為我們無法觀察到反事實結果[67]。主流研究的一個長期特征是使用潛在結果框架作為解決觀察數據因果推斷問題的手段[68]。潛在結果框架也被稱為Rubin因果模型[69]。因果推理與深度學習密切相關,因為它是使用Rubin因果模型概念化的。為了提高估計的準確性和無偏性,一些研究人員嘗試將深度網絡和因果模型結合起來。舉例來說,考慮分配平衡方法[41,43,44]的表示,協變量混雜學習方法[54,70,71]的效果,基于生成對抗網絡的方法[45,72,73]等[58,34,74]。由于深度學習方法促進了因果推理,因果推理也有助于深度學習方法的發展。除了提高因果效應估計的準確性,深度網絡的研究為開發深度學習算法提供了一個合理的基礎[75,76]。
近年來,人們對因果推理的各種觀點進行了討論[77,1,78,79,80,81,82,83,2]。表1列出了相關綜述的標題和要點。文獻[77]深入分析了因果推理的起源和變量發展,以及因果學習對因果推理發展的影響。此外,調查[1]對傳統和前沿的因果學習方法進行了概述,并對機器學習和因果學習進行了比較。許多學者討論了如何解釋機器學習。隨后,為了創建可解釋的人工智能算法,survey[79]結合了因果推理和機器學習。作為一種新穎的視角,因果表征學習正在蓬勃發展,綜述[80]利用它從低級觀察中發現高水平的因果變量,加強了機器學習和因果推理之間的聯系。由于近年來因果機器學習的流行,綜述[78]對圖因果推理與機器學習的相關性進行了詳細的討論。此外,在調查[81]中,作者考察了機器學習的最新進展如何應用于因果推理,并對因果機器學習如何有助于醫學科學的進步提供了全面的解釋。正如綜述[82]所認為的,基于深度學習可以改進和整理因果發現方法,可以探索可變范式來幫助思考和探索因果發現方法。推薦系統中的因果推理是調查的重點[83],它解釋了如何使用因果推理來提取因果關系,以增強推薦系統。長期以來,統計的潛在結果框架一直是連接因果推理和深度學習的橋梁,作為起點,綜述[2]檢查并比較了滿足這些假設的不同類別的傳統統計算法和機器學習算法。由于深度學習算法的快速發展,現有文獻在考察泛化時沒有考慮深度因果模型。因此,我們從深度網絡的角度,從時間和分類兩方面總結了深度因果模型。本綜述對近年來的深度因果模型進行了全面的回顧和分析。它有三個核心貢獻: 1)我們在多次treatments 和連續劑量treatments 的情況下納入了相關指標。2)我們從方法分類和時間發展的角度對深層因果模型進行了全面的概述。3)我們在相關數據集和源代碼的分析和分類方面提供詳細和全面的支持。
以下是論文其余部分的大綱。如第2節所述,本文將介紹深度因果模型以及定義和假設。在第3節中,介紹了適當的例子和度量,包括二元treatment、多重treatment和連續劑量treatment。第4節展示了一個深度因果模型,包括概述和分析。第5節討論了深度因果模型的方法,包括分布平衡方法、協變量混雜學習方法、基于生成對抗網絡的方法、基于文本輸入時間序列的方法以及基于多treatment和連續劑量treatment模型的方法。相關實驗指南的列表如下第6節。論文的摘要在第7節中給出。
深度因果模型
通過對背景和基本定義的深入理解,本節將進入深度因果模型的核心。本文概述了深度因果模型及其在過去六年間的發展,包括基于時間軸的41個深度因果模型的分析。
近年來,深入因果模型的研究越來越受歡迎。隨著深度學習的發展,各種深度因果模型在估計因果效應方面變得更加準確和有效。根據圖1,我們列出了2016年6月至2022年2月期間約40個經典的深度因果模型,包括它們的詳細名稱和提出時間。深度因果模型從2016年開始開發。Johansson等首次發表了反事實推理的學習表示[41],提出了算法框架BNN和BLR[41],將深度學習與因果效果估計問題相結合,將因果推理問題轉化為領域適應問題。從那時起,許多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在這方面,需要注意的是,Louizos等人在2017年12月提出的基于深度網絡經典結構參數自編碼器VAE的CEVAE[54]模型,主要關注混雜因素及其對因果效應估計的影響。
圖1: 深度因果模型的發展
在2018年以及2019年,人們對因果表征學習的興趣越來越濃厚。首先,我們聯合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成對抗模型[112]體系結構進行反事實估計成為因果推理領域的主流。根據前面的工作,對CFR-ISW[113]、CEGAN[72]、SITE[44]進行了優化。R-MSN[74]模型于2018年12月實現,利用循環神經網絡[114]解決多治療時間序列的連續劑量問題,開辟了深層因果模型。為了解決這一問題,2019年5月提出了PM[42]和TECE[104],用于與多個離散處理相關的因果效應估計。作為后續,CTAM[34]開始專注于估算文本數據的因果影響;Dragonnet[71]首次將正則化和傾向評分網絡引入因果模型;ACE[55]試圖從表示空間中提取細粒度的相似度信息。對于RSB的[115]2019年12月版,使用深度表示學習網絡和PCC[116]正則化來分解協變量,使用工具變量來控制選擇偏差,使用混雜和調節因素來預測。
深度因果模型在2020年蓬勃發展。首先,DKLITE[56]模型結合了深核模型和后驗方差正則化。然后,DR-CFR[117]應用三個表示網絡、兩個回歸網絡和一個預測網絡對協變量的選擇偏倚進行解耦;GAD[118]則關注持續劑量治療的因果效應;DRGAN[119]定義了一種用于擬合樣品劑量效應曲線的創新生成對抗網絡;CRN[120]通過結合反事實循環神經網絡來估計隨時間變化的治療效果。TSD[121]在估計了多原因混雜下的時間序列因果效應后,轉向估計時間序列因果效應。在潛在表征空間中,ABCEI[122]使用GAN平衡了治療組和對照組的協變量分布。在前人研究的基礎上,BWCFR[123]、LaCIM[124]對結構思想進行了優化。此外,SCIGAN[73]、DRNet[57]在2020年將連續劑量擴展到任意數量的treatment 問題,VSR[125]以重新加權的方式聚合深度神經網絡潛在變量。
從2021年到2022年,因果模型變得更加創新、開放和靈活。VCNet[58]模型實現了連續平均劑量-響應曲線的估計。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模來理解產生多種治療組合的潛在因果過程。之后,CETransformer[127]利用Transformer[128]對協變量進行表征,注意力機制集中在協變量之間的相關性上。在此基礎上,DONUT[129]和DeR-CFR[70]基于之前的工作進行優化。SCI[75]將子空間理論用于因果表征學習,拓寬了研究者的思路。FlexTENet[130]提出了一種多任務自適應學習架構。此外,SCP[131]采用兩步程序評估多因素治療效果。為了構建這種合成雙胞胎匹配表示,SyncTwin[132]利用了結果中的時間結構。最后,TransTEE[76]將表征分布平衡方法擴展到連續的、結構化的和劑量依賴的treatment,使其作為因果效應估計問題更加開放。下一節將分析同一類別的所有模型,并基于深度學習結構的使用和模型所使用的共同思想進行比較。
以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。
基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。
對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。
**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。
圖神經網絡多模態學習
深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。
以圖為中心的多模態學習
圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。
圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。
面向圖像的多模態圖學習**
圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。
圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。
面向語言的多模態圖學習**
隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。
自然科學中的多模態圖學習
除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。
多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。