良辰好景知几何电视剧免费观看,无码人妻丰满熟妇A片护士M

來自華中科技大學最新《研究用戶友好和開源的大型GPT模型：關于語言、多模態和科學GPT模型的調查》，值得關注！

生成預訓練變換器（GPT）模型已經徹底改變了自然語言處理（NLP）領域，它們在多種任務中表現出色，而且也擴展到了多模態領域。盡管取得了成功，像GPT-4這樣的大型GPT模型卻面臨著固有的限制，例如龐大的大小、高計算需求、復雜的部署過程以及封閉的開發循環。這些約束限制了它們的廣泛應用，并引起了對負責任開發和使用的擔憂。由于希望克服這些限制同時保持高性能，因此產生了對用戶友好、相對小型且開源的GPT模型的需求。在這篇綜述論文中，我們檢查了大型GPT的開源替代模型，側重于用戶友好且相對小型的模型，以便更容易部署和使用。本文的主要內容分為以下幾點：(1) 調查用戶友好且相對小型的替代GPT模型的架構、設計原則和權衡，重點關注它們克服大型GPT模型帶來的挑戰的能力。(2) 提出數據收集并分析預訓練數據源、數據質量、數量、多樣性，微調數據包括指令數據、對齊數據以及領域特定模型的領域特定數據。(3) 調查這些GPT模型的高效部署和微調技術。(4) 介紹正在進行的開源項目和倡議，以實現用戶友好的GPT模型的復制和部署。(5) 提供對這些相對小型GPT模型的基準評估的全面分析，并提供這些模型在實際使用中的人類評價，以給出一些人類喜歡的推薦。(6) 探討GPT模型在多模態環境中的擴展，側重于將NLP與計算機視覺整合的模型，也特別關注用戶友好的科學GPT模型和生物醫學領域。通過這個廣泛的調查，我們旨在為研究人員、實踐者和愛好者提供關于大型GPT的用戶友好且相對小型的開源模型的全面理解，了解它們目前的狀態、挑戰和未來的研究方向，激發開發更為高效、可訪問和多功能的GPT模型，滿足更廣泛的科學社區的需求，并推動通用人工智能領域的發展。源內容將持續在 //github.com/GPT-Alternatives/gpt_alternatives 上更新。

生成預訓練變換器（GPT）模型的出現，在自然語言處理（NLP）領域帶來了重大變革。這些基于變換器[1]架構的模型，在多種NLP任務中展現了卓越的能力[2, 3]。GPT模型的持續發展導致了越來越大且越來越復雜的版本，例如，大型GPT模型如GPT-4[3]以其無與倫比的性能獲得了極大的關注。然而，盡管它們具有卓越的能力，大型GPT模型也存在固有的局限性，限制了它們的廣泛采用、可用性和微調。

這些模型的龐大規模導致了高計算需求、巨大的內存使用和復雜的部署過程。例如，最新的模型GPT-4[3]使用了前所未有的計算和數據規模進行了訓練。這些限制不僅妨礙了資源有限的研究人員和實踐者獲取大型GPT模型，還引發了關于它們的能耗和環境影響的擔憂。除了這些與資源有關的挑戰外，大型GPT模型經常面臨與訓練數據相關的問題，包括生成偏見或不適當內容的可能性、對刻板印象的加強以及數據收集和預處理的透明度不足。解決這些局限性對于確保GPT模型在各種應用和領域中負責任的發展和部署至關重要。

由于渴望克服上述局限性同時保持大型GPT模型原有的高性能，因此產生了對替代GPT模型的需求。在這篇綜述論文中，我們進行了對大型GPT的用戶友好、相對小型和開源模型的深入檢查，專注于它們的架構、效率、部署策略和微調方法。通過探索這些替代模型，我們旨在提供對它們解決原始大型GPT模型帶來的挑戰的潛力的見解，并促進更為高效、可訪問和負責任的NLP技術的發展。

我們首先對這些開源GPT模型進行全面概述，討論它們的獨特功能、設計原則以及在開發過程中遇到的權衡。我們通過探索減小模型規模、內存使用和計算需求的技術而不犧牲性能，強調這些模型中效率的重要性。這個分析使我們能夠確定有前途的方法，這些方法可以幫助減輕大型GPT模型在資源需求和環境影響方面的局限性。

除了資源效率外，我們還研究了在這些GPT模型的發展中起關鍵作用的各個方面的數據。我們討論了作為訓練這些模型基礎的預訓練數據源，接著探討了影響模型性能[2, 4–6]的數據質量、數量和多樣性這些重要因素。此外，我們還研究了微調數據，包括指令數據和對齊數據，這些對于改善模型并確保它們能夠適應特定任務至關重要[7–10]。最后，我們探討了針對專業領域的挑戰和應用量身定制的模型的域特定數據。隨后，我們研究了部署和微調替代GPT模型的方法和途徑，解決了與部署相關的挑戰，如硬件限制[11]。我們還討論了微調策略，包括零射擊和少數射擊學習，這些可以使這些模型定制用于特定任務和領域，同時減少生成偏見或不適當內容的風險[12–16]。此外，我們還深入研究了不同的開源努力和工具開發。我們檢查了開源倡議、庫[17–19]和平臺[20, 21]，這些有助于在研究社區中開發、共享和合作GPT模型，促進更高效、可訪問和多功能模型的創新和發展。

重要的是，我們在這些開源GPT替代品的基準評估和人類評估中都賦予了重要的重點，確保了對它們性能的周到評估。具體來說，我們在多個領域的著名基準數據集上測試了這些模型[22–26]，提供了它們能力的強健比較。此外，我們通過收集一系列多樣化、有意義和具有代表性的指令來進行人類評估，這使我們能夠收集到寶貴的實際反饋。深入的結果分析提供了對這些模型的優缺點的寶貴見解。

我們還探討了多模態[27–29]和科學GPT模型[30, 31]的新興領域，突出了它們在專業領域的潛在應用和性能。最后，我們總結了整個調查，并深思了替代GPT模型對人工智能領域和整個社會的廣泛影響，對GPT模型的現有挑戰和局限性進行了討論，并強調了開發更高效、可訪問、可靠和多功能GPT模型的未來方向。

GPT模型

我們研究的替代模型有三個要求：（1）它在大量數據上進行預訓練，并且模型的大小相對較小，便于用戶友好地使用（近100億參數）。（2）它滿足基本要求，可以生成（主要是基于文本的）內容。（3）模型檢查點可訪問，因此從業者可以將其用于進一步的研究和下游應用。

2.1 大型語言基礎模型的歷史

自Transformer[32]模型出現以來，自然語言處理領域發生了重大變革。Transformer模型不僅在性能方面優越（例如，用于機器翻譯[32]），而且比RNN[33]模型如LSTM[34]和GRU[35]更易于并行化。GPT-1[36]和Bert[37]是最早嘗試利用Transformer模型進行無監督預訓練的嘗試。通過在大量無標簽數據上預訓練并在下游數據上微調，它們成為了NLP排行榜上的最先進模型。Bert和GPT-1的不同預訓練目標，即遮蔽語言建模和下一個令牌預測，促使了他們的專長。當通過微調比較類似的模型大小時，人們觀察到BERT在語言理解任務上的表現優于GPT，而GPT更適合語言生成任務。從GPT-1[36]和GPT-2[38]到GPT-3[2]的GPT模型的演變，觀察到了自回歸語言模型的兩個突出特征：（1）通過增加模型大小和預訓練數據大小，可以提高性能。（2）GPT-3通過執行上下文學習和提示，展現出了非凡的少樣本和零樣本性能。自GPT-3成功以來，已經開發出越來越多的大型語言模型。此后，大型語言模型的發展中的一個里程碑是ChatGPT1的出現，這是一個經過強化學習人類反饋（RLHF）微調的會話模型，并建立在GPT-3.5的基礎上，這是GPT-3的升級版本。通過人類偏好的對齊，ChatGPT展現出了出色的會話熟練度，并迅速在公眾中得到了認可。繼ChatGPT的卓越成就之后，社區最近見證了GPT-4[3]的發布。GPT-4展示了改進的會話熟練度、增強的上下文理解能力和更準確、連貫的回應。通過采用前沿技術并基于ChatGPT和GPT-3.5的成功，GPT-4在多個領域（例如，多模式）取得了重大進展，這標志著大型語言模型演變的另一里程碑，展示了在不久的將來實現更多突破性創新和應用的潛力。在這個過程中，整個AI社區為開發類似GPT的大型語言模型付出了巨大的努力，既有大公司（例如Bard2）旨在構建更強大的模型，也有創建開源替代品（例如LLaMA[39]）以促進基礎模型的發展。近年來，這些大型語言模型（LLMs）的概述歷史如圖2所示。

2.2 開放式語言基礎模型

在本節中，我們介紹了由整個社區開發的開源語言模型的努力。對于這些語言基礎模型，我們主要集中在以下幾個方面：1）模型結構：Transformer[32]架構已成為大型語言模型的通用架構。Transformer架構主要有三種適應，即僅編碼器，僅解碼器和編碼器-解碼器。顧名思義，僅編碼器Transformer只利用編碼器部分，例如Bert[37]，ERNIE[83]，ELECTRA[84]等。僅解碼器Transformer只利用解碼器部分，例如GPT系列[2, 36, 38]，OPT[46]，BLOOM[6]，PaLM[4]，LLaMA[85]等。編碼器-解碼器Transformer利用整個Transformer架構，例如T5[40]，Bart[86]，GLM[87]等。值得注意的是，本次調查論文主要關注基于解碼器的GPT類模型。

2）預訓練數據集：模型的性能和泛化能力受到預訓練數據的質量和大小的顯著影響。重點主要在公共數據集上。數據集的兩個常用來源是網絡爬取和書籍/文學。以LLaMA[39]為例，預訓練數據集是多個公開可用源的混合，包括English CommonCrawl、C4[40]、Github、維基百科、Gutenberg和Books3以及Stack Exchange。

3）預訓練任務：語言建模，即下一個標記預測，在大型語言模型中是主導的預訓練任務。最早從GPT-3[2]觀察到，擴大模型規模和預訓練數據可以極大地提高模型的少樣本/零樣本能力。使用此預訓練任務的其他代表性模型包括PaLM[4]，LLaMA[39]等。早期工作，例如Bert[37]，RoBERTa[88]采用了掩蔽語言建模目標。盡管這些模型擅長自然語言理解，但它們在語言生成和少樣本/零樣本能力方面卻不如人意。其他工作，如T5[40]和GLM[87]使用去噪預訓練目標。

接下來，我們將介紹幾個在上述方面開源的語言模型。這些模型的歷史總結在圖2中。

T5[40]是一個基于C4[40]用1T標記預訓練的編碼器-解碼器transformer模型。預訓練目標是去噪目標，即掩蔽連續范圍的標記并僅預測丟棄的標記。發布的模型檢查點包括60M、220M、770M、3B和11B。基于T5的Flan-T5[89]在鏈式思維數據上進行微調，其在下游任務上的性能比T5好得多。

mT5[41]是一個覆蓋101種語言的多語言編碼器-解碼器transformer模型，用1T標記預訓練。預訓練目標與T5相同。發布的預訓練模型檢查點包括300M、580M、1.2B、3.7B和13B。

GPT-J[45]是一個基于Pile[43]訓練的開源英語自回歸語言模型(GPT-like)，擁有60億參數。它是一個僅使用下一個標記預測目標訓練的解碼器模型。

GPT-Neo[42]是GPT3-like模型的實現。它是一個解碼器模型，用下一個標記預測目標進行訓練，并在Pile[43]數據集上進行訓練。發布的預訓練模型檢查點包括125M、350M、1.3B和2.7B。GPT-NeoX-20B[44]是GPT-Neo的更大擴展版本，發布的是一個200億參數模型。

OPT[46]是一套僅解碼器的預訓練transformer。訓練目標也是下一個標記預測。發布的模型檢查點包括125M、1.3B、2.7B、6.7B、13B、30B、66B和175B。

Bloom[6]是一個開放存取的多語言語言模型。它是一個僅使用下一個標記預測目標訓練的解碼器模型。發布的模型檢查點包括560M、1B1、1B7、3B、7B1和176B。BloomZ是基于Bloom的多任務提示微調模型。 GLM[50, 52]是一個預訓練的編碼器-解碼器模型，具有自回歸空白填充目標。發布的預訓練模型檢查點包括110M、335M、410M、515M、2B、10B和130B。ChatGLM-6B和ChatGLM2-6B是基于GLM進行微調的兩個開源的中英文雙語聊天模型。 LLaMA[39]是一個與GPT-3相似的開源自回歸語言模型，進行了適度的架構修改。發布的預訓練模型檢查點包括7B、13B、33B和65B。由于LLaMA是第一個被廣泛認可的性能滿意(與GPT-3相當)的開源大型語言模型，因此我們認為LLaMA是在大型語言模型領域開放源碼的里程碑。

2.3 評估模型

在本次調研中，我們的主要貢獻是探索了各種類似GPT的開放模型的潛力，通過在多個維度上進行全面評估。這些維度包括通用語言基準，這是這些語言模型的主要關注點，還包括科學領域數據集和多模態數據集，作為這些多模態基礎模型和科學GPT模型的額外評估。另一個重要的是我們付出了大量努力的人工評估。因此，評估的模型在表2中列出，用于語言模型和科學語言模型，在表3中列出，用于多模態模型。所有評估中的模型都來自Huggingface [17] 或原始的 Github 倉庫。

總之，我們對大約10B不同模型大小的32個開源模型進行了評估。更具體地說，我們對表2中的24個模型進行了語言和科學GPT模型的基準評估，對表3中的8個模型進行了多模態GPT模型的基準評估。對于人工評估，我們評估了其中的16個模型，進行了相對全面的研究，以得出更有說服力的結果。

2.4 評估提示

為了建立基線模型的性能并實現公平比較，我們采用了與[97]的工作中使用的類似的提示結構，貫穿我們的整個評估和研究。我們使用的提示模板在圖3中說明。而且，在圖3中，占位符{{System meta instructions}}將用表4中的相應文本替代，用于已正式發布系統元指令的模型。對于沒有這樣的指令的模型，我們使用一個空字符字符串來替換占位符。此外，我們遵循[97]，利用logit_bias來鼓勵模型僅產生有效的響應。

結論

在這項調查中，我們對大型生成預訓練變換器（GPT）系統的替代開源模型進行了全面審查，特別關注了用戶友好且相對較小的模型，這些模型克服了其更大的同類所帶來的限制。我們的研究強調了這些開源的GPT類似模型的潛力，它們能夠解決與尺寸、復雜性和封閉開發環路相關的挑戰，同時仍然能夠在各種任務中維持高性能，并將其功能擴展到多模態領域。

我們展望未來，可以看到更多的研究和發展集中在創建更加有效、可擴展和用戶友好的開源模型上。這些模型將克服當前大型模型的限制，提供更加靈活和多樣化的解決方案，滿足不同的應用需求。同時，這也推動了多模態學習和生成模型的研究，加深了我們對模型和數據的理解，為進一步的創新和發展奠定了基礎。未來方向可能會集中在減小模型大小和復雜性、提高模型泛化能力、開發多模態和跨模態模型、實現更有效的訓練和微調方法等方面。此外，將持續關注開發更多用戶友好和易于使用的模型，以及進一步推動開源和共享資源的發展，使更多人能夠受益。

付費5元查看完整內容

相關內容

大型語言模型

關注 94

大模型 · 軟件工程 · 大型語言模型 ·

2023 年 8 月 31 日

[付費5元查看完整內容]大模型如何革新軟件工程？華中科大等最新《面向軟件工程的大型語言模型》綜述，回顧229篇文獻綜述LLM+SE技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇《面向軟件工程的大型語言模型》綜述，值得關注！

大型語言模型（LLMs）已經對包括軟件工程（SE）在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而，對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口，我們對LLMs和SE的交叉點進行了系統的文獻回顧，特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文，以回答四個關鍵的研究問題（RQs）。 在RQ1中，我們分類并提供了不同LLMs的比較分析，這些LLMs已經被用于SE任務中，表征了它們的獨特特性和用途。 在RQ2中，我們分析了數據收集、預處理和應用中使用的方法，強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略，以及與提示優化相關的常見技術。 最后，RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務，說明了它們對該領域的實際貢獻。 從這些RQs的答案中，我們討論了當前的最新技術和趨勢，識別了現有研究中的空白，并指出了未來研究的有前景的領域。

1. 概述

在語言處理領域，傳統的語言模型（LMs）歷史上一直是基礎元素，為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問，導致了大型語言模型（LLMs）的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據，這些模型展示了令人印象深刻的模擬人類語言能力的能力，從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力，LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具，可以探索人類交流的復雜性和豐富性，從而引發了語言處理領域及其之外的變革時期。 軟件工程（SE）- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角，其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯，該任務涉及生成代碼功能的抽象自然語言描述，以及生成結構良好的代碼[316]和代碼工件，如注釋[162]。Codex，一個擁有120億參數的LLM，已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM，已經在幾個SE任務中表現出了強大的性能，包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰，而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時，研究人員已經開始了一系列關于LLM相關工作的研究活動，其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而，這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍，例如LLMs在軟件測試[277]和自然語言到代碼（NL2Code）任務[323]中的應用，要么主要集中在機器學習（ML）或深度學習（DL）模型[279, 309]上，忽視了更先進和最近出現的LLM應用，如ChatGPT[209]，這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者，他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能，而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力，需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚，并且正在進行持續的探索，但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題，我們的研究旨在彌補這個空白，為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并提出未來研究的潛在途徑，我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計，我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻：

我們是第一個提出全面系統性文獻綜述的團隊，基于2017年至2023年間發表的229篇論文，重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類，并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段，包括數據收集、分類、預處理和表示。

我們討論了用于LLMs4SE任務的優化器，包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用，包括55個具體的SE任務，分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰，并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰，并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法，該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南，我們的方法包括三個主要步驟：規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止，哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中，有50多種不同的LLM用于SE任務，根據不同LLM的底層架構或原理，我們將匯總的LLM分為3類，即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM，有30多種LLM屬于僅解碼器類別，有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中，SE相關數據集是如何收集、預處理和使用的？

(1) 我們根據數據來源將數據集分為4類：開源、收集、構建和工業數據集。開源數據集的使用最為普遍，在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組：基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中，基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明，LLM在SE任務中特別擅長處理基于文本和代碼的數據，利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟，發現了幾個常見的預處理步驟，即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器，發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示，包括硬提示和軟提示，這種新興的微調范式在數據稀缺的任務中特別有優勢，提供了與任務相關的知識，提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標，其次是分類任務，有9種指標。

RQ4: 到目前為止，使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期，將軟件工程任務分為6個活動：軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后，我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務，發現LLMs在軟件開發中應用最廣泛，有115篇論文提到了21個SE任務。軟件管理的應用最少，只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs，并總結了新發現。

結論

隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用，包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM，并探索了它們的獨特特征和應用(RQ1)。然后，我們深入研究了數據收集、預處理和使用的過程，闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來，我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后，我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務，揭示了LLM所做出的實際貢獻(RQ4)。此外，我們強調了現有的挑戰，并提供了研究路線圖，概述了有前途的未來方向。

付費5元查看完整內容

AIGC · 單模態生成 · 跨模態生成 · 深度生成模型 ·

2023 年 8 月 29 日

[付費5元查看完整內容]多模態AIGC有什么進展？SUTD等最新《各種數據模態AIGC》綜述，全面詳述AIGC進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

第一篇從模態角度全面綜述AIGC方法的綜述論文，不可錯過！

來自新加坡科技設計大學《各種模態數據AIGC》綜述論文

AI生成的內容（AIGC）方法旨在使用AI算法產生文本、圖像、視頻、3D資產和其他媒體。由于其廣泛的應用范圍和最近的工作展示的潛力，AIGC的發展最近受到了很多關注，AIGC方法已經為各種數據模態（如圖像、視頻、文本、3D形狀（體素、點云、網格和神經隱式場）、3D場景、3D人類頭像（身體和頭部）、3D運動和音頻）開發——每種都呈現不同的特征和挑戰。

此外，跨模態AIGC方法也有很多重大的發展，其中生成方法可以在一種模態中接收條件輸入，并在另一種模態中產生輸出。示例包括從各種模態到圖像、視頻、3D形狀、3D場景、3D頭像（身體和頭部）、3D運動（骨骼和頭像）和音頻模態。

在這篇文章中，我們提供了一個全面的AIGC方法評價，包括單模態和跨模態方法，強調了每種設置中的各種挑戰、代表性的工作和最近的技術方向。我們還提供了在不同模態的幾個基準數據集上的比較結果。此外，我們還討論了挑戰和潛在的未來研究方向。

在人工智能（AI）的迅速發展中，內容生成技術的發展是該領域中最吸引人、討論最廣泛的話題之一。AI生成的內容（AIGC）包括通過AI算法產生文本、圖像、視頻、3D資產和其他媒體，從而實現內容創建過程的自動化。AIGC促進的這種自動化顯著減少了對人力的需求，降低了內容創建的成本，從根本上重塑了諸如廣告[1]、[2]、[3]、教育[4]、[5]、[6]、代碼開發[7]、[8]、[9]和娛樂[10]、[11]、[12]等行業。

在AIGC的早期，發展和方法主要涉及單一模態，其中生成模型的輸入（如果有）和輸出都共享相同的模態。Goodfellow等人的開創性工作[13]首次介紹了生成對抗網絡（GANs），它原則上能夠訓練深度神經網絡生成難以區分訓練數據集中的圖像的圖像。深度神經網絡的生成能力的這種展示導致了圖像[13]、[14]、[15]的單模態生成的廣泛發展，以及其他各種模態，如視頻[16]、[17]、文本[18]、[19]、[20]、3D形狀（如體素[21]、[22]、點云[23]、[24]、網格[25]、[26]和神經隱式場[27]、[28]）、3D場景[29]、[30]、3D頭像（全身[31]、[32]和頭部[33]、[34]）、3D運動[35]、[36]、音頻[37]、[38]等。此外，這些發展多年來一直持續不斷，每年在該領域發表的工作數量一直在穩步增加，如圖1（a）所示。盡管每種模態的生成模型共享一些相似的方法和原則，但它們也遇到了獨特的挑戰。因此，每種模態的生成模型的方法和設計專門用于解決這些不同的挑戰。

最近，涉及多種模態的人工智能生成技術（AIGC）也得到了快速發展，其中輸入和輸出的模態是不同的。這種跨模態的組合使用戶在生成輸出方面擁有更大的控制權，例如，通過輸入文本描述生成所需的圖像，或者通過RGB圖像或視頻生成個性化的3D人類化身。然而，這種跨模態的方法通常更具挑戰性，因為不同模態之間的表示可能存在很大差距。此外，它們通常需要更大的數據集，其中包括來自多種模態的配對數據，以便有效捕捉它們之間的多樣關系。值得注意的是，最近的作品，例如Stable Diffusion [39]，MakeA-Video [40]和DreamFusion [41]進一步展示了AIGC在接收文本提示方面的卓越能力，并以各種模態交付出色的輸出，可與人類工藝相媲美，這在該領域激發了大量的研究工作，如圖1(b)所示。這些最近的進展展示了AIGC在各種模態中的潛力，同時也為跨模態內容生成開辟了新的令人興奮的途徑。

因此，鑒于不同模態下生成模型的多樣性以及跨模態生成在最近的進展中的重要意義，我們從這個角度審視現有的AIGC方法。具體而言，我們全面調研了在廣泛的模態范圍內的單模態方法，同時還審查了為未來工作奠定基礎的最新跨模態方法。我們討論了每種模態和設置中面臨的挑戰，以及代表性的作品和最近的技術方向。主要貢獻總結如下： ? 據我們所知，這是第一篇從模態角度全面綜述AIGC方法的綜述論文，其中包括圖像、視頻、文本、3D形狀（作為體素、點云、網格和神經隱式場）、3D場景、3D化身（完整人體和頭部）、3D運動和音頻模態。由于我們關注模態，我們進一步根據輸入條件信息對每種模態中的設置進行分類。 ? 我們全面調研了跨模態AIGC方法，包括跨模態圖像、視頻、3D形狀、3D場景、3D化身（全身和頭部）、3D運動（骨架和化身）以及音頻生成。 ? 我們重點調研了最近和先進的AIGC方法，以向讀者提供最先進的方法。

本文的組織結構如下。首先，將本文綜述與現有工作進行比較。通過分別介紹每個模態，介紹涉及單一模態的生成模型。由于關注的是模態，因此進一步對每個模態中的方法進行分類，根據它們是無條件方法(對于要生成的圖像沒有提供約束)還是根據所需的條件信息類型。這些單模態方法的分類見圖2(A)。然后，介紹了跨模態AIGC方法，這些方法的分類見圖2(b)。最后,我們將討論現有AIGC方法的挑戰和可能的未來的發展方向。

圖像模態生成

圖像模態是最早進行深度生成建模發展的模態，并經常成為許多基礎技術的測試平臺，如生成對抗網絡(GANs)、變分自編碼器(VAEs)、歸一化流(NFs)和去噪擴散模型(DMs)。這是由于幾個原因，包括圖像數據的現成可用性，與其他模態(如視頻或3D數據)相比，圖像的相對簡單性，以及使用卷積神經網絡(CNNs)對網格狀RGB數據進行建模的易用性和效率。使用深度學習進行圖像生成的最初嘗試面臨著無數的困難。例如，許多方法面臨著訓練不穩定性，這在具有模式崩潰風險的GAN中尤為明顯。此外，建模長程依賴性和有效地擴大圖像分辨率帶來了重大困難。此外，生成多樣化的圖像也具有挑戰性。然而，多年來取得的進展大多克服了這些問題，使得訓練圖像生成模型來生成多樣化和高質量的圖像變得相對容易，這些圖像通常很難用肉眼與真實圖像區分開來。下面，我們首先討論無條件方法，然后討論條件方法，其中各種約束應用于生成過程。

視頻模態

隨著基于圖像的AIGC的發展，基于視頻的AIGC也受到了許多關注，它在廣告和娛樂行業中有很多應用。然而，視頻生成仍然是一個非常具有挑戰性的任務。除了生成單個幀/圖像的困難外，生成的視頻還必須在時間上保持一致，以確保幀之間的連貫性，這對于較長的視頻來說可能非常具有挑戰性。此外，生成逼真的運動也可能很難。此外，由于輸出的尺寸要大得多，快速高效地生成視頻也具有挑戰性。下面我們討論了一些克服這些挑戰的方法，從無條件方法開始。

文本模態

另一個受到大量關注的領域是文本生成，它通過ChatGPT等知名聊天機器人獲得了更廣泛的興趣。由于幾個原因，文本生成是一個具有挑戰性的任務。最初的方法發現，采用GAN等生成方法來處理離散的文本表示具有挑戰性，這也導致了訓練穩定性的問題。在較長的文本段落中保持連貫并始終跟蹤上下文也具有挑戰性。此外，應用深度生成模型生成符合語法規則的文本，同時捕捉預期的語氣、風格和正式程度也很難。一般來說，文本生成模型大多是在條件設置中進行訓練和測試的，其中模型在受文本輸入(例如輸入問題、之前的文本或待翻譯的文本)的條件下生成文本。因此，我們不基于條件或無條件進行分類。相反，我們根據其生成技術對方法進行分類：VAE、GAN和自回歸Transformer。表3報告了一些最近的文本生成方法的性能。

3D形狀生成

另一個重要且快速發展的領域是3D形狀生成，其目的是生成新的3D形狀和對象。快速生成3D資產的能力可能非常有用，特別是在制造業和娛樂等行業，它有助于快速原型設計和設計探索。值得注意的是，在生成3D形狀時，用戶可以選擇以各種3D表示形式生成3D形狀：體素、點云、網格或神經隱式場，其中每個3D表示通常采用不同的設置和骨干，每個都有自己的特點、優點和缺點。各種3D表示的可視化如圖5所示。在實踐中，對于許多任務，特定的表示可能比其他表示更適合，其中考慮因素可以包括內存效率、處理表示的易用性和獲得監督信號的成本。下面，我們根據每個方法生成的輸出3D數據表示進一步對3D形狀生成方法進行分類。表4報告了一些具有代表性的3D形狀方法的性能。

三維場景的新視圖合成

隨著三維形狀重建的進展，人們對三維場景也越來越關注和感興趣，這些場景可以涉及一個或多個物體和背景。涉及三維場景的主流生成方法是顯式或隱式地編碼三維場景表示(即通過基于體素的表示或神經隱式表示)，這允許在需要時從新視圖合成圖像。由于需要對完整的場景進行編碼，這項任務往往比三維形狀生成更具挑戰性。另一個困難是如何隱式地編碼三維場景，因為三維場景的渲染涉及顏色、紋理和照明的生成，這些都是現在需要編碼的具有挑戰性的元素，而第6.4節中介紹的用于三維形狀表示的占用域和符號距離域并不自然地對顏色進行編碼。

結論

AIGC是一個重要的主題，在不同的模態中獲得了重要的研究關注，每個模態都呈現出不同的特點和挑戰。在本綜述中，我們全面回顧了不同數據模態的AIGC方法，包括單模態和跨模態方法。此外，我們還根據條件輸入信息對這些方法進行了組織，提供了結構化和標準化的輸入模態的概覽。我們強調了每個設置中的各種挑戰、代表性工作和最近的技術方向。此外，我們還對各種模態的代表性工作進行了性能比較。我們還討論了挑戰和潛在的未來研究方向。

付費5元查看完整內容

ChatGPT · 大模型 · 涌現能力 · 推理 ·

2023 年 4 月 14 日

[付費5元查看完整內容]ChatGPT大模型work三個要點是什么？谷歌JasonWei最新《大型語言模型的縮放、涌現和推理》報告，附Slides與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素，最開始 GPT-3 將模型參數增至 1750 億，隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小，還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在，但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵，例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力，這鼓勵模型在給出最終答案之前生成中間推理步驟。

縮放是一個簡單的想法，具有挑戰性，但可以預見地使模型更好。(“縮放法”)

由于規模的擴大，大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)

巧妙的提示引出了語言模型中的多步驟推理，解鎖了更多的新任務。(“提示工程”)

Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作，在此之前他畢業于達特茅斯學院。//www.jasonwei.net/

付費5元查看完整內容

ChatGPT · WSDM 2023 · 領域泛化 · 分布外泛化 · 魯棒性 ·

2023 年 3 月 1 日

[付費5元查看完整內容]ChatGPT魯棒性如何？微軟等WSDM2023《領域泛化》教程，闡述域泛化(DG)最新進展以及ChatGPT等大模型分布外性能

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ChatGPT現在成為持續關注的熱點。微軟等學者在最新WSDM 2023會議上做了關于《領域泛化》報告教程，詳細闡述了領域****泛化(DG)的最新進展，并著重指出ChatGPT在對抗和分布外視角下的魯棒性，值得關注

機器學習模型嚴重依賴于大量訓練數據的可用性。對于標注良好的數據難以獲取的低資源場景，從現有領域到目標領域進行跨領域知識遷移非常重要。針對這一問題，遷移學習和領域適應等研究取得了很大進展。除了這些進展之外，學習在任何未見過的新環境中都能很好地泛化的模型也非常重要。這激勵研究界開發算法，以更好地利用現有的訓練域，同時處理其分布變化。

本教程致力于介紹域泛化(DG)的最新進展。與遷移學習和域適應假設目標域數據的可用性不同，DG更進一步，不需要訪問目標域數據。DG的目的是從一個或多個具有不同概率分布的訓練域學習一個通用模型，以實現良好的分布外泛化。潛在的受眾將是機器學習研究人員和行業從業者，對遷移學習、領域適應和泛化特別感興趣。我們的教程旨在使這些技術在實際應用中更容易學習和使用。

//dgresearch.github.io/

目錄內容：

Introduction and background * Related research areas * Methodology of DG * Applications * Datasets, benchmarks, and evaluations * Theory and future challenges * ChatGPT vs. OOD robustness?

代碼地址： 論文：

域泛化(DG)，即分布外泛化，近年來引起了越來越多的關注。領域泛化處理一個具有挑戰性的設置，其中給出了一個或幾個不同但相關的領域，目標是學習一個可以泛化到看不見的測試領域的模型。

近年來，取得了很大的進展。本文首次綜述了領域泛化的最新進展。

首先，我們給出了領域泛化的形式化定義，并討論了幾個相關的領域。

接下來，我們對領域泛化的相關理論進行了全面的回顧，并對泛化背后的理論進行了仔細的分析。然后，我們將最近出現的算法分為三類，分別是數據操作、表示學習和學習策略，每一類都包含了一些流行的算法。

第三，介紹了常用的數據集及其應用。最后，對已有文獻進行了總結，并提出了未來的研究方向。

ChatGPT是OpenAI最近發布的一個聊天機器人服務，在過去的幾個月里受到越來越多的關注。雖然對ChatGPT的各個方面進行了評估，但其魯棒性，即對意外輸入的性能，仍不清楚。魯棒性在負責任的人工智能中尤其值得關注，特別是在安全關鍵應用中。本文從對抗和分布外(OOD)的角度對ChatGPT的魯棒性進行了全面的評估。采用AdvGLUE和ANLI基準來評估對抗性魯棒性，并采用Flipkart評論和DDXPlus醫療診斷數據集進行OOD評估。我們選擇了幾個流行的基礎模型作為基線。結果表明，**ChatGPT在大多數對抗性和OOD分類和翻譯任務中表現出一致的優勢。然而，其絕對性能遠非完美，這表明對抗性和OOD的魯棒性仍然是基礎模型的一個重大威脅。**ChatGPT在理解對話相關文本方面表現出驚人的性能，它傾向于為醫療任務提供非正式的建議，而不是確定的答案。最后，對未來可能的研究方向進行了深入探討。

付費5元查看完整內容

可解釋強化學習 · 綜述論文 · 深度學習 ·

2022 年 11 月 17 日

[付費5元查看完整內容]強化學習如何可解釋？浙大最新《可解釋強化學習》綜述，37頁pdf1闡述XRL概念、算法、挑戰

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

浙江大學最新《可解釋強化學習》綜述，37頁pdf1闡述XRL概念、算法、挑戰

強化學習(RL)是一種流行的機器學習范式，智能體與環境交互以實現長期目標。在深度學習復興的推動下，深度RL (DRL)在廣泛的復雜控制任務中取得了巨大成功。盡管取得了令人鼓舞的結果，但基于深度神經網絡的骨干網被廣泛認為是一個黑盒，它阻礙了從業者在高安全性和可靠性至關重要的現實場景中信任和使用經過訓練的智能體。為了緩解這個問題，通過構建內在解釋性或事后解釋性，大量的文獻致力于闡明智能智能體的內部工作方式。在本綜述中，我們對可解釋RL (XRL)的現有工作進行了全面的回顧，并引入了一種新的分類法，將先前的工作明確地分為模型解釋方法、獎勵解釋方法、狀態解釋方法和任務解釋方法。本文還回顧并強調了強化學習方法，這些方法反過來利用人類知識來提高智能體的學習效率和最終性能，而這種方法在XRL領域往往被忽略。討論了XRL中一些開放的挑戰和機遇。本綜述旨在對XRL進行高層次的總結和更好的理解，并推動未來對更有效的XRL解決方案的研究。相應的開放源代碼可以在//github.com/Plankson/awesome-explainable-reinforcement-learning上收集和分類。

概述

強化學習[193]受到人類試錯范式的啟發[143]。它基于這樣一個事實:與環境互動是人類在沒有他人指導的情況下學習的常見方式[98]。從互動中，人類獲得了關于因果關系、行動結果以及如何在環境中實現目標的信息。這類信息被隱式地用來構建我們的心智模型[155,218,225]，而更多這類信息將使這個心智模型更加精確[22,171]。RL類似于目標導向的學習，通過與環境的交互，敏銳地意識到環境如何響應我們的行為，并有目的地影響未來的事件。更準確地說，RL學會從環境狀態映射到行動，從而最大化數值獎勵信號[189]。近年來，深度學習的快速發展[15,194]促進了深度學習與強化學習的融合。因此，深度強化學習(DRL)[44, 60, 134, 135, 177]作為一種新的RL范式出現。憑借深度神經網絡強大的表示能力[7,51,230]，DRL在許多領域都取得了相當的性能[17,24,29,37,11,121,184]，特別是在AlphaZero[184]和OpenAI Five[17]等游戲任務中，基于DRL的方法成功擊敗了人類職業選手。然而，對于現實場景中更復雜的任務，如自動駕駛[25,39,79,213,214]和電力系統調度[109,115,226,227,239]，不僅要考慮高性能，還要考慮面向用戶的可解釋性，以考慮安全性和可靠性。這種可解釋性的要求是在真實世界而不是模擬環境中使用DRL的主要瓶頸。

由于深度神經網絡(DNN)的主干復雜，傳統的DRL方法的可解釋性較低[67,100,185,195]。追蹤和解釋一個神經系統中的每個參數，并將其擴展到整個網絡，這是非常棘手的。因此，我們不知道DNN考慮了哪些隱式特征，以及DNN如何處理這些特征。這個缺點導致DRL模型正在成為一個黑盒[84,232]，專家無法理解智能體如何知道環境或智能體為什么選擇特定的行動。這種不透明性限制了DRL的應用，因為大多數人不會輕易信任智能體，特別是當智能體在沒有解釋決策過程的原因的情況下與他們的期望完全相反時。例如，在自動導航任務中[32,156]，人們可能會對導航代理在沒有告訴他們原因的情況下進行的異常引導感到困惑，這可能只是為了避免交通堵塞。此外，可解釋性的缺乏也造成了在訓練過程中插入人類知識和指導的障礙[62,166]。盡管人類知識是以特定形式預先給定的[56,57,181,233,236]，但智能體無法提取有效信息并從中受益。

為了解決可解釋性低的問題，在計算機視覺(CV)中的可解釋性人臉識別[43,85,165,219]和自然語言處理(NLP)中的可解釋性文本分類[8,119,186]等機器學習領域開展了許多可解釋性研究。可解釋機器學習的目標是生成不同形式的解釋，使模型對專家甚至外行人都是可解釋和透明的。它查看黑箱代理模型內部，自動提取或生成解釋，解釋為什么代理在每個時間步中選擇這個動作或給出這個結論。解釋的形式可以多種多樣，如自然語言[38,53,66]、顯著圖[54,83]或視頻[178]。通過可解釋的模型，智能體可以發現潛在的缺陷，并向專家解釋這些缺陷以進行進一步的改進。

對于可解釋強化學習(XRL)領域，人們在構建可解釋強化學習(XRL)模型方面做了許多初步的研究，并在解釋生成方面取得了一定的成果。為了對它們有一個完整的認識并總結當前的XRL技術，對XRL進行了幾次綜述[33,49,74,158,208,217]。Heuillet等人[74]回顧了關注解釋和用戶類型的方法。他們只是根據生成解釋的方式將方法分為兩類。這是一個初步的分類，需要進一步改進。Puiutta和Veith[158]遵循了基于解釋時間和范圍的傳統可解釋AI分類法。他們只是描述了一些有代表性的方法，并不是為了呈現對XRL的全面忽視。Wells和Bednarz[217]也列舉了各種XRL方法。但他們只關注可用于XRL領域的可視化技術。voros[208]將范圍限定在最先進的XRL方法中，并為XRL提供了一個架構符號范式，而解釋內容可分為代理偏好和目標的影響。Dazeley等人[33]提出了一個稱為因果XRL框架的概念架構，該框架解釋了XRL如何通過關注因果行為來生成對行為的解釋。該理論體系結構清晰而嚴謹，不僅考慮了感知、行動和事件，還考慮了目標、期望和處置。然而，現有的XRL框架只關注事件結果的感知和行動原因，這意味著現有的XRL技術只能用一種更簡單的因果XRL框架形式來表示。Glanois等人[49]明確界定了可解釋性和可解釋性之間的界限。他們將這些方法分為三種:可解釋輸入、過渡模型和偏好模型。它啟發我們關注RL的過程和結構。這些研究都提出了基于XRL的新分類法，但大多數都沒有基于RL范式。此外，從以上的綜述中我們可以發現，XRL領域仍然缺乏標準的標準，特別是在XRL的定義和評價方法方面，雖然許多人提出了自己的XRL標準[116,131,138,208]，但沒有一個被整個DRL界所接受。目前的XRL框架大多沒有考慮人類參與的影響，只有少數論文試圖將基于人類知識的范式擴展到XRL領域，其研究結果有力地證明，這是一種既能獲得高解釋性又能獲得高性能的有效方法[237]。

為了使整個XRL體系結構得到進一步發展，系統地回顧了當前的XRL框架和綜述。明確了XRL模型可解釋性的概念，總結了模型可解釋性的評價指標。基于這些提出的XRL框架，我們提出了一種新的更適合于RL的XRL分類法。由于使整個RL范式可解釋目前是困難的，所有的工作都轉向對RL范式的組成部分可解釋。我們根據可解釋的目標部分對當前的XRL作品進行分類:模型、獎勵、狀態和任務。這四種部分解釋方法的目的是生成對主體行為的解釋。對于RL來說，這種分類法比一般的內在/事后/本地分類法要高級得多。考慮到基于人類知識的XRL工作的數量和它的重要性，我們將其分離出來，并試圖總結這些工作，并將它們組織到我們的分類法中。據我們所知，很少有研究者對這一領域進行了既包括人類知識又包括XRL的總結。我們的工作總結如下:

基于可解釋RL和可解釋機器學習的現有文獻，我們對XRL中的模型可解釋性進行了詳細的總結。當前的XRL評估指標也包含在這個總結中。
基于強化學習框架的不同部分(模型、獎勵、狀態和任務)的可解釋性，為當前的XRL作品引入了一種新的分類。可以在圖2中查看分類法。
注意到目前基于人類知識的XRL是一個不受歡迎的方向，只有少數作品和顯著的結果，我們將其作為論文的主要部分之一，對這些將XRL框架與人類知識相結合以獲得更高性能和更好解釋的方法進行了系統的綜述。

本次綜述的其余部分組織如下。在第二節中，我們回顧了強化學習的必要基礎知識。接下來，我們將討論XRL模型可解釋性的定義，并在第3節中給出解釋和XRL方法的一些可能的評估方面。在第4節中，我們描述了我們的分類，并詳細提供了每個類型和子類型的工作，我們分類法的抽象圖可以在圖2中看到。然后我們根據第5節的分類討論與人類知識相結合的XRL工作。在此之后，我們在第6節中總結了XRL當前的挑戰和未來的發展方向。最后，在第7部分對本文的工作進行了總結。本文的結構和我們的分類法工作如圖1所示。

圖1所示概述。本文概述了可解釋強化學習(XRL)。在我們的工作中，我們根據強化學習(RL)過程中不同部分的可解釋性將XRL分為四個部分:模型、獎勵、狀態和任務。這張圖用不同的顏色表示。圖中還展示了更具體的分類和作品，我們將在后面的部分中討論它們。

付費5元查看完整內容

多標簽學習 · 超限多標簽學習 · 長尾分布 · 綜述 ·

2022 年 10 月 17 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

超限多標簽學習(XML)成為一項重要的任務，并提出了許多有效的方法。為了充分理解XML，東南大學最新學者《超限多標簽學習XML》進行了調研綜述。

近幾十年來，多標簽學習受到了學術界和產業界的廣泛關注。雖然現有的多標簽學習算法在各種任務中都取得了良好的性能，但它們隱含地假設目標標簽空間的大小并不大，這對現實場景有一定的限制。此外，由于計算和內存開銷，直接將它們調整到超大的標簽空間是不可行的。因此，超限多標簽學習(XML)成為一項重要的任務，并提出了許多有效的方法。為了充分理解XML，我們在本文中進行了調研綜述。我們首先從監督學習的角度闡明XML的正式定義。然后，根據不同的模型體系結構和問題所面臨的挑戰，我們對每種方法的優缺點進行了深入的討論。為了進行實證研究，我們收集了大量關于XML的資源，包括代碼實現和有用的工具。最后，我們提出了XML可能的研究方向，例如新的評估指標、尾部標簽問題和弱監督XML。

//arxiv.org/abs/2210.03968

引言

多標簽學習[1]，[2]，[3]，[4]是最重要的機器學習范例之一，其中每個現實世界的對象用一個實例(特征向量)表示，并與多個標簽相關聯。在過去的幾十年里，許多多標簽學習算法被提出。例如，二進制相關性[5]分別學習每個標簽的二進制分類器，它忽略了標簽關系。ECC[6]以順序的方式學習每個標簽的單獨分類器，這意味著隨后學習的分類器可以利用之前的標簽信息。RAKEL[7]通過將標簽的隨機子集映射為自然數，即2 |Y|→N，將多標簽學習任務轉化為多類分類任務，從而能夠對標簽之間的高階相關性進行建模。隨著訓練數據的快速增長，深度學習被廣泛用于充分利用標簽相關性[8]，[9]，[10]。 超限多標簽學習(Extreme Multi-label Learning, XML)旨在從大量的候選標簽中標注出具有相關標簽的對象。近年來，XML在推薦系統、搜索引擎等領域得到了廣泛的應用。特別是，圖1展示了Wikipedia和Amazon的兩個真實的XML數據集，它們具有大量的標簽，其頻率通常遵循長尾分布。由于標簽空間的高維數，傳統的多標簽學習方法如ML-KNN[16]、RAKEL[7]、ECC[6]、Lead[17]、Binary Relevance[5]都變得不可用，需要新的算法。此外，在處理長尾數據時，這個問題變得更加嚴重。在不考慮長尾標簽分布的情況下，模型在尾標簽上的性能很不理想。此外，諸如內存開銷和缺少標簽等其他挑戰也阻礙了XML的應用。幸運的是，在過去的十年中，XML逐漸引起了機器學習、數據挖掘和相關團體的廣泛關注，并被廣泛應用于各種問題[10]、[15]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。具體來說，近8年(2014-2022年)，在大型機器學習和數據挖掘會議(包括ICML/ECMLPKDD/IJCAI/AAAI/KDD/ICLR/NeurIPS)上，出現了50多篇論文中以“超限多標簽”(或“大規模多標簽”)為關鍵詞的論文。因此，了解現有的工作對于研究者和實踐者都是很重要的，并分析該領域的未來方向。

1.1 實際的例子

1.1.1 推薦系統

在亞馬遜的產品搜索[38]和阿里巴巴的零售[39]中，每個產品都被視為一個標簽，用戶可能想從大量的候選集合中為用戶推薦他們可能喜歡的產品列表。在這種設置下，收集用戶信息作為輸入特征，并利用其購物歷史構建觀察標簽。很容易看出，這個問題可以表述為一個多標簽學習任務。由于平臺上的產品和用戶數量巨大，對訓練和推理速度的要求非常高。此外，推薦要個性化，學習到的模型不偏向熱門產品，很少推薦稀有產品。這對推薦系統中的XML提出了挑戰。

1.1.2 搜索引擎

在搜索引擎中，例如Bing[37]，推薦相關查詢的問題可以重新表述為一個超限的多標簽學習任務。在用戶提交查詢之后，搜索引擎需要從大量候選集合中推薦可能滿足用戶需求的最相關的查詢。由于標簽集的大小可以達到數百萬，現有的排名算法遭受不可接受的計算成本。因此，為搜索引擎設計合適的排名算法是一項極具挑戰性的任務。

1.2 動機與貢獻

**據我們所知，這是第一次與XML相關的先驅綜述。本次調研的貢獻可以概括為:**1)綜合綜述。我們將全面回顧XML，包括核心挑戰及其相應的解決方案。2)新分類法。我們提出了一種XML分類法，它從三個不同的角度對現有的XML方法進行了分類:1)模型體系結構; 2) 尾標簽學習; 3) 弱監督XML。3) 資源豐富。我們收集了大量關于XML的資源，包括XML方法的開源實現、數據集、工具和紙列表。4)未來的發展方向。我們討論并分析了現有XML方法的局限性。并提出了未來可能的研究方向。

1.3 調研組織

調研的其余部分組織如下。第2節概述XML，包括背景概念、XML與其他相關設置之間的比較以及XML的核心挑戰。第3節從三個角度介紹現有的XML算法。第4節列出了常用的數據集、評估指標和資源。第5節討論了當前的挑戰，并提出了未來幾個有前途的方向。最后，第6節結束了調研。

圖2:XML的分類和代表性示例。

算法開發一直是機器學習研究的核心問題，XML也不例外。在過去的十年中，人們提出了大量的算法來從超限多標記數據中學習。根據每種算法的特性和XML的關鍵挑戰，我們提出了一種新的XML分類法，即:1)模型體系結構;2)尾標簽學習;3)弱監督。考慮到在有限的篇幅內瀏覽所有現有的算法是不可能的，在這篇綜述中，我們選擇仔細調研每個研究方向的代表XML算法。根據解決XML問題的角度，大多數方法可以分為三個分支:二進制關聯法、基于嵌入的方法和基于樹的方法。我們在圖2中提供了一個說明。

付費5元查看完整內容

進化深度學習 · 深度學習 · 特征工程 · 模型生成 · 部署模型 ·

2022 年 9 月 1 日

[付費5元查看完整內容]什么是進化深度學習？東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系。

近年來，深度學習(deep learning, DL)在業界和學術界都有了迅速的發展。然而，尋找DL模型的最優超參數往往需要很高的計算成本和人類的專業知識。為了緩解上述問題，進化計算(EC)作為一種強大的啟發式搜索方法，在DL模型的自動化設計中顯示出了顯著的優點，即進化深度學習(EDL)。本文旨在從自動化機器學習(AutoML)的角度分析EDL。具體地說，我們首先從機器學習和EC兩個方面闡述了EDL，并將EDL視為一個優化問題。在此基礎上，我們系統地介紹了特征工程、模型生成、模型部署和新的分類(即，什么和如何進化/優化)的EDL方法，并重點討論了EC處理優化問題時的解決方案表示和搜索范式。最后，提出了該技術的關鍵應用、有待解決的問題和未來的研究方向。本調研回顧了EDL的最新發展，并為EDL的發展提供了有見地的指導方針。

//www.zhuanzhi.ai/paper/63eefaab90ccabdeb3609e320198c072

深度學習(Deep learning, DL)作為一種很有前景的技術，已被廣泛應用于各種具有挑戰性的任務，如圖像分析[102]和模式識別[104]。然而，DL的實踐者努力手動設計深度模型，并通過試錯找到合適的配置。如圖1所示，在特征工程(feature engineering, FE)[225]、模型生成[257]和模型部署[29,31]等不同階段，將領域知識輸入DL。然而，專家知識的難以獲取使得深度學習的發展面臨著巨大的挑戰。相比之下，深度神經網絡(DNNs)的自動設計在最近幾十年趨于流行[71,257]。主要原因在于自動機器學習(AutoML)在FE[225]、參數優化(PO)[242]、超參數優化(HPO)[185]、神經結構搜索(NAS)[71,230,257]和模型壓縮(MC)[78]中的靈活性和計算效率。因此，無需人工干預的AutoML技術引起了人們的極大關注，并取得了很大的進展。

進化計算(Evolutionary computation, EC)因其靈活性和自動進化機制而被廣泛應用于自動數字學習中。在電子商務中，環境選擇驅動種群個體向最優解或前沿進化[88]。目前，有許多由EC驅動的自動深度學習方法，被稱為進化深度學習(EDL)[52, 196, 246, 247]。例如，在特征工程[225]、模型生成[230,257]和模型部署[31]等方面開展了大量EC研究，如圖1所示。因此，電子商務與數字圖書館的整合已經成為學術界和產業界的研究熱點。此外，在圖2中，Web of Science中涉及EC & DL的文章數和被引用數在2012年前后逐漸增加，而在隨后的十年中急劇增加。因此，EDL領域的研究越來越多。

為了填補這一空白，我們打算對EDL進行詳細的全面回顧。這項工作的主要貢獻如下。

本文從DL和EC的角度對EDL的現有工作進行了綜述，以促進ML和EC社區讀者的理解，并從EC的角度將EDL制定為一個優化問題。
該調研從特征工程、模型生成和新分類法的模型部署方面描述和討論了EDL，其中重點討論了解決方案表示和搜索范式。據我們所知，很少有調研研究進化模型的部署。
在全面回顧EDL方法的基礎上，討論了EDL的一些應用、有待解決的問題和發展趨勢，對EDL的發展具有指導意義。

本文的其余部分組織如下。第2節介紹了EDL的概述。在第3節中，介紹了EC驅動的特征工程。EC驅動的模型生成將在第4節中討論。第5節回顧EC驅動的模型壓縮。然后，在第6節討論了EDL的相關應用、有待解決的問題和發展趨勢。最后，第七部分對本文進行了總結。

進化深度學習 Evolutionary Deep Learning

與傳統的深度學習嚴重依賴專家或領域知識來構建深度模型不同，深度學習是通過進化過程來自動設計深度模型[164,191,231,246]。

從深度學習的角度來看:傳統的深度學習需要大量的專家知識來發明和分析特定數據集或任務的學習工具。相反，EDL可以被視為一種對人類友好的學習工具，它可以在給定的數據集或任務上自動找到合適的深度模型[230]。換句話說，EDL專注于學習工具的易用性。

從EC的角度來看:將模型的配置表示為個體，將性能作為需要優化的目標。EC在進化機制驅動的優化過程中起著重要作用。也就是說，EDL可以看作是一個尋找高性能的深度模型的最優配置的進化優化過程。

從上面的分析來看，EDL的目的不僅是通過自動構建的方法(從深度學習的角度)增加深度模型對學習任務的適應性，而且試圖在設計的目標或約束下(從EC的角度)實現最優模型。

在本節中，根據“要進化/優化什么”和“如何進化/優化”，提出了EDL方法的新分類，如圖4所示。

“要進化/優化什么”: 我們可能關心“EDL可以做什么”或“EDL可以解決什么類型的問題”。在特征工程中，有三個關鍵問題需要解決，分別是特征選擇、特征構建和特征提取[230]。在模型生成中，參數優化、架構優化和聯合優化成為關鍵問題[257]，而模型部署則涉及到模型剪枝等壓縮技術問題。

“如何發展/優化”: 這個問題的答案是為EC設計合適的解決方案表示和搜索范式，以及為NAS設計加速策略。該表示方案設計用于個體編碼、實現最優配置的搜索范式、減少時間或資源消耗的加速策略。根據以上分類，我們將在第3節、第4節和第5節分別詳細介紹特征工程、模型生成和模型部署中的EDL。

結論

隨著機器學習和進化計算的發展，在EC優化框架下，提出了許多EDL方法來自動優化深度模型的參數或結構。與人工設計的方法相比，EDL方法在魯棒性和搜索能力方面具有競爭力。因此，EDL已經成為一個熱門的研究課題。

在這次調研中，我們首先從DL和EC的角度介紹EDL，以方便來自ML和EC社區的讀者理解。然后，我們將EDL定義為一個復雜的優化問題，并從特征工程、模型生成到模型部署等方面全面介紹了解決EDL優化問題的EC技術，以形成一個新的分類(即，在EDL中什么、哪里和如何進化/優化)。詳細討論了EDL流水線不同階段的解表示和搜索范式。然后討論了基于歐共體的研究方法與非歐共體研究方法的優缺點。隨后，對各種應用程序進行了總結，以展示EDL在處理現實世界問題方面的潛在能力。

盡管EDL方法在AutoML中取得了很大的進展，但仍有許多具有挑戰性的問題需要解決。例如，有效的加速策略對于減少昂貴的優化過程至關重要。另一個問題是處理大規模數據集，以及如何在不同的EDL方法或非ec方法之間進行公平的比較。需要更多的研究從理論上分析或解釋EDL的搜索能力。此外，在提高EDL在兩種基準測試(例如，大規模和小規模數據)和真實應用程序上的性能方面還需要做很多工作。最后，端到端EDL的開發具有一定的挑戰性，值得我們付出更多的努力。

付費5元查看完整內容

可解釋性 · 可解釋圖神經網絡 · 綜述論文 · 圖神經網絡 ·

2022 年 7 月 28 日

[付費5元查看完整內容]GNN如何可解釋？悉尼科大最新《可解釋圖神經網絡研究》綜述，全面闡述可解釋GNN的方法與評價指標

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

來自悉尼科技大學最新《可解釋圖神經網絡研究》綜述，重點研究可解釋圖神經網絡，并基于可解釋方法對其進行分類。

圖神經網絡(GNNs)已經證明了對圖數據的預測性能的顯著提高。與此同時，這些模型做出的預測往往難以解釋。在這方面，已經有很多人從GNNExplainer、XGNN和PGExplainer等角度來解釋這些模型的預測機制。雖然這些工作提供了解釋GNN的系統框架，但對可解釋GNN的全面綜述還沒有。在這項綜述中**，我們提出了一個可解釋GNN的全面綜述。重點研究可解釋圖神經網絡，并基于可解釋方法對其進行分類**。在此基礎上，我們進一步給出了解釋GNN的常用性能指標，并指出了未來的研究方向。圖G可以看作是一組節點Ni (i = 1,2，···，n)和邊Ej (j = 1,2，···，m)組成的某種關系的表示，它是一種理想的數據結構，可用于對各種現實世界的數據集(如分子)建模。隨著深度學習的復興，圖神經網絡(GNNs)已經成為對圖數據建模的強大工具，并在推薦、化學、醫學等許多領域和應用中取得了令人印象深刻的性能[27,7,24]。然而，將圖結構和特征信息結合在一起，產生了復雜的非線性模型，增加了理解其工作機制和預測的難度。另一方面，一個可解釋的模型是受歡迎的，甚至是必要的，特別是在實際場景中(例如，醫療診斷)，因為解釋可以在多種方面使用戶受益，例如提高模型的公平性/安全性，它還可以增強對模型建議的信任。因此，可解釋GNN(eXplainable gnn, XGNN)近年來得到了相當多的研究關注，可分為兩類:1)采用可解釋AI (eXplainable- AI, XAI)方法直接解釋GNN;2)基于圖的內在結構和特征制定策略，不涉及XAI方法。 雖然近年來對GNN可解釋性的研究越來越多，但對其進行系統的討論卻很少。我們認為，全面分析XGNN最近的這些工作，將有助于更好地理解這些方法，激發新的想法，并為開發新的可解釋的方法提供見解。因此，我們對目前研究GNN的可解釋方法進行了分析和總結。特別地，我們將它們分為兩組——第2節中的基于XAI的XGNN和第3節中的非基于XAI的XGNN。然后，我們將在第4節中介紹用于衡量XGNN可解釋性的指標。第5節討論了XGNN的常見問題，最后在第6節指出了今后的研究方向。 我們的貢獻可以概括為:

我們系統地分析了最新的XGNNs方法，并將其分為兩組: 基于XAI的XGNNs，利用現有的XAI方法來解釋GNN;基于非XAI的XGNNs，它脫離了當前的XAI方法，同時試圖通過利用圖的固有結構和特性來解釋GNN。
我們提出了XGNNs的評估指標，可以用來衡量XGNNs方法的性能，因為評估指標的知識對于教育XGNNs的最終用戶/從業者是必要的。
討論了XGNNs研究中經常出現的問題和可能的解決方案，最后指出了進一步提高XGNNs可解釋性的幾個潛在研究方向。

基于XAI的可解釋圖神經網絡

通過分析XGNNs的文獻，我們對可解釋GNN的方法進行了二元分類，分為基于XAI的方法和基于非XAI的方法兩類。XGNN的分類如圖1所示。我們首先簡要介紹XAI，然后介紹XGNN，因為它將有助于理解XGNN基于XAI的可解釋技術。

可解釋人工智能

在過去的幾年里，XAI已經成為一個熱門的研究課題，在這一領域的研究越來越多。多項研究綜述了它的歷史、分類、評價、挑戰和機遇，主要集中在深度神經網絡(DNNs)[1][4][6][20][8]的解釋。XAI技術可以按照[6]中討論的三種分類: (i)可解釋范圍的差異，(ii) 方法的差異，和 (iii) ML模型使用的差異(見圖2)。

根據ML模型使用的不同，我們還可以將XAI分為模型特定的XAI和模型無關的XAI。特定于模型的XAI是指專注于單個或一組特定AI模型的可解釋性的任何方法;而模型無關的XAI并不強調底層的AI模型。

模型無關的XAI可以用于評估大多數AI模型，通常在訓練后應用，因此它們通常被視為事后方法。模型無關的XAI依賴于分析輸入和輸出特征對，并且無法訪問AI模型的具體內部工作方式(例如，權重或結構信息)，否則將不可能將其與黑箱模型[21]解耦。通過分析模型特定型XAI和模型無關XAI的特點可以看出，模型特定型XAI方法對特定參數的依賴程度較高，而模型架構的任何變化都可能導致解釋方法本身或對應的可解釋算法發生顯著變化。因此，特定于模型的XAI方法無法擴展以解釋GNN。然而，一些模型無關的XAI方法可以被擴展來解釋GNN。

用XAI方法解釋圖神經網絡

卷積神經網絡(CNNs)通過將卷積運算擴展到圖和一般的非歐幾里得空間，可用于圖結構數據。將神經網絡擴展到非歐幾里得空間視為圖卷積神經網絡(GCNNs)。因此，我們可以將最初為CNN設計的常見解釋方法，擴展到GCNN。我們發現XAI的多種方法都可以很容易地推廣到GNN，如LRP [2]， LIME [16]， Grad-CAM[18]。表1總結了這些擴展。

分層關聯傳播(LRP)假設分類器可以分解為多個計算層，并將頂層的DNNs輸出傳播到輸入層。在每一層，應用一個傳播規則[2]。對目標輸出節點的貢獻反向傳播到輸入特征，形成對該節點貢獻的特征映射。因此，LRP在可視化輸入特征對模型預測的貢獻方面非常有用，特別是對于基于核的分類器和多層神經網絡。受此激勵，研究人員[22]在GNN中使用LRP來獲得GNN模型黑箱的洞見。Schnake等人[17]提出了基于GNN-LRP的高階泰勒展開法。GNN- LRP生成包含GNN模型和輸入圖之間復雜嵌套交互的詳細解釋。此外，Cho等人[5]使用LRP對個體預測進行了事后解釋。LRP通過網絡反向傳播計算每個神經元的相關性，從預測的輸出水平到輸入水平，相關性表示給定神經元對預測的定量貢獻。此外，Baldassarre等[3]也將LRP應用于圖模型。LRP方法通過將輸出預測分解為輸入的組合來計算顯著性映射。

局部可解釋模型無關解釋(LIME)是XAI中另一種流行的方法。LIME從黑盒模型中提取單個預測實例，并生成一個更簡單、可解釋的模型，如線性模型，以近似其決策特征。然后可以解釋這個簡單的模型，并使用它來解釋原始的黑盒預測[16]。許多其他的論文已經改進和擴展了LIME。Zhao等人[35]引入了BayLIME，將LIME與貝葉斯相結合。Zafar等人[33]使用了多個生成解釋之間的Jaccard相似性，并提出了一個確定性版本的LIME。此外，LIME也被廣泛應用于GNN中來解釋GNN模型。Huang等[9]提出了GraphLIME，一種使用Hilbert-Schmidt獨立準則(HSIC) Lasso的圖的局部可解釋模型解釋，這是一種非線性特征選擇方法來實現局部可解釋。它們的框架是通用的GNN模型解釋框架，該框架在被解釋節點的子圖中局部學習非線性可解釋模型。

梯度加權類激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)通過放松倒數第二層必須是卷積[18]的架構限制來改進CAM。通過將目標概念的梯度流到最終的卷積層，生成粗略的定位圖，以突出輸入圖像中的重要區域。CAM已廣泛應用于各種卷積神經網絡模型族[18]。Pasa[14]直接將其作為卷積神經網絡解釋的可視化工具。Vinogradova等人[25]進一步擴展了Grad-CAM，并將其應用于局部生成熱圖，顯示語義分割中單個像素的相關性。Grad-CAM也可以擴展到GNN。Pope等人[15]描述了將CNN可解釋方法擴展到GCNNs。他們為GCNNs的決策引入了解釋法(Grad-CAM)。Grad-CAM能夠生成關于網絡不同層的熱圖。

基于非XAI的可解釋圖神經網絡

大多數基于XAI的XGNN方法不需要知道GNN模型的內部參數，用于解釋的XAI方法也不是專門為CNN模型設計的。因此，當人們需要進一步探索GNN模型的結構時，尤其是對于大型和復雜的模型來說，這些方法可能無法給出令人滿意的解釋，這并不奇怪。為了緩解這一問題，近年來，研究人員開始考慮圖結構的特點，開發適合GNN模型的可解釋方法。有三種不同的方法來實現這個目標:(1)通過找到重要的子圖來解釋GNN模型;(2)通過生成新的圖來解釋GNN模型，而生成的圖應該保持最多的信息特征(如節點、節點特征和邊);(3)通過添加中間層次解釋GNN模型。

通過子圖可解釋的GNN

通過子圖可解釋的GNN是一組使用子圖添加GNN模型可解釋性的方法，它通常專注于局部特性，然后只產生最重要的子圖

通過圖生成可解釋的GNN

與關注子圖不同，通過圖生成解釋GNN需要考慮整個圖結構(或全局結構)。它考慮了圖的整體結構。然后生成一個新的圖，其中只包含GNN進行決策所需的結構。

可通過中間層解釋GNN

通過中間層注入解釋GNN可以直接將知識/信息作為因子圖編碼到模型體系結構中。如Ma等人[12]建立的因子圖神經網絡(Factor Graph Neural Network, FGNN)模型，將基因本體等生物知識直接編碼到模型架構中。因子圖神經網絡模型中的每個節點對應一些生物實體，如基因或基因本體術語，使模型具有透明性和可解釋性。

可解釋技術的評估指標

由于解釋者被用來解釋為什么做出了某個決定，而不是描述整個黑盒，所以解釋者本身的保真度存在不確定性。因此，使用正確的度量來評估可解釋性技術的正確性和完整性是至關重要的。此外，XAI[36]的一些評估指標也可以應用到XGNNs 中。本節簡要介紹xgnn解釋的常用評估指標。我們特別關注保真度、稀疏性、準確性、魯棒性和對比度。

討論

本綜述的重點是為可解釋GNN提供一個清晰的分類。通過對可解釋GNN相關文獻的分析，我們總結出以下問題。

如何解釋圖神經網絡? 主要有兩種觀點。

GNN可以被視為一個黑箱，并找到一種獨立的方式來解釋輸入和輸出之間的聯系，如GraphLIME或RelEx。

另一種方法試圖解釋GNN的細節，利用節點和邊本身的信息。

如何將XAI方法擴展到神經網絡圖?有一些研究使用XAI方法來解釋gnn(見第2.2節)。XAI方法包括Saliency Maps、LRP、LIME、Guided BP、Grad-CAM等，具有較好的性能，可以推廣用于解釋GNN。然而，這些方法并不是專門為gnn設計的，需要了解模型的內部參數。

如何找到影響圖神經網絡預測的最重要的子圖結構?正如我們在第3.2節中提到的，有幾種方法可以通過聚焦子圖結構來解釋GNN。例如，GNNExplainer識別出一個緊湊的子圖結構和一個小子集的節點特征，這可能在GNN的預測中發揮關鍵作用。此外，PGMExplainer和GISST通過生成與任何基于圖的任務相關的重要子圖和節點特征子集來生成解釋。然而，這些方法只關注局部信息的子圖結構，而沒有考慮任何全局特征。

如何從全局角度解釋圖神經網絡?相對于通過局部圖結構獲得的分段信息，全局結構往往可以提供更有趣、更完整的信息。例如，PGExplainer專注于解釋完整的圖結構，并提供了GNN所做預測的全局理解。它可以在一組實例上集體解釋GNN的預測，并很容易將學習到的解釋器模型推廣到其他實例。

付費5元查看完整內容

自動強化學習 · 強化學習 · 綜述論文 ·

2022 年 6 月 3 日

[付費5元查看完整內容]強化學習如何自動調參？牛津Google等JAIR最新《自動強化學習AutoRL》綜述論文，52頁pdf闡述自動RL方法體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

牛津Google等JAIR最新《自動強化學習AutoRL》綜述論文，值得關注！

強化學習(RL)和深度學習的結合帶來了一系列令人印象深刻的成就，許多人相信(深度)RL提供了一條通向一般有能力智能體的道路。然而，RL智能體的成功通常對訓練過程中的設計選擇高度敏感，這可能需要繁瑣且容易出錯的手動調優。這使得使用RL解決新問題具有挑戰性，也限制了它的全部潛力。在機器學習的許多其他領域，AutoML已經表明，自動化這樣的設計選擇是可能的，當AutoML應用于RL時，也產生了有希望的初步結果。然而，自動強化學習(AutoRL)不僅涉及AutoML的標準應用，還包括RL特有的額外挑戰，這自然產生了一套不同的方法。因此，AutoRL已經成為RL研究的一個重要領域，為從RNA設計到圍棋等游戲的各種應用提供了希望。考慮到RL中考慮的方法和環境的多樣性，許多研究在不同的子領域進行，從元學習到進化。在這項綜述中，我們尋求統一AutoML領域，提供一個共同的分類，詳細討論每個領域，并提出開放問題的興趣。

//www.zhuanzhi.ai/paper/de9aef36d3d02e3e3ee193ad87077d58

引言

在過去的十年中，我們看到了一系列利用強化學習(RL， (Sutton & Barto, 2018))在各種領域(如游戲)訓練智能體的突破(Mnih et al., 2015; Berner et al., 2019; Silver et al., 2016; Vinyals et al., 2019)和機器人(OpenAI et al., 2018)，在現實世界的應用中取得了成功(Bellemare et al., 2020; Nguyen et al., 2021; Degrave et al., 2022)。因此，研究界的興趣激增。然而，雖然RL取得了一些令人印象深刻的成就，但許多標題結果依賴于大量調優的實現，這些實現未能推廣到預期領域之外。事實上，RL算法已經被證明對深度神經網絡的超參數和架構非常敏感(Henderson et al., 2018; Andrychowicz et al., 2021; Engstrom et al., 2020)，而有越來越多的額外設計選擇，如代理的目標(Hessel等人，2019年)和更新規則(Oh等人，2020年)。人工同時優化如此多的設計選擇是一件繁瑣、昂貴、甚至容易出錯的事情。自動化機器學習(AutoML, Hutter et al. (2019))在機器學習(ML)的其他領域也取得了顯著的成功。然而，這些方法在RL中還沒有產生顯著的影響，部分原因是RL應用具有典型的挑戰性，由于環境和算法的多樣性，以及RL問題的非平穩性。

這項綜述的目的是展示自動強化學習(AutoRL)領域，作為一套方法，在不同程度上自動化RL流程。AutoRL服務于解決各種各樣的挑戰: 一方面，RL算法的脆弱性阻礙了在新領域的應用，特別是在從業者缺乏大量資源來搜索最優配置的領域。在許多設置中，為一個完全看不見的問題手動查找甚至是中等強度的超參數集都可能是非常昂貴的。AutoRL已經被證明可以在這種情況下幫助解決重要問題，例如設計RNA (Runge et al.，2019年)。另一方面，對于那些受益于更多計算的人來說，增加算法的靈活性顯然可以提高性能(Xu et al.，2020; Zahavy et al.，2020; Jaderberg et al.，2017)。這已經在著名的AlphaGo智能體中得到了展示，它通過使用貝葉斯優化(BO)得到了顯著的改進(Chen et al.， 2018)。早在20世紀80年代(Barto & Sutton, 1981)，可被認為是AutoRL算法的方法就被證明是有效的。然而，近年來AutoML的流行導致了更先進技術的初步應用(Runge et al.，2019; Chiang et al.， 2019)。與此同時，進化群體幾十年來一直在進化神經網絡及其權重(Stanley & Miikkulainen, 2002)，其中的方法鼓舞了那些被證明對現代RL有效的方法(Jaderberg et al.，2017)。此外，最近元學習的流行導致了一系列尋求自動化RL過程的工作(Houthooft et al., 2018; Xu et al., 2018; Kirsch et al., 2020)。

在本文中，我們試圖提供這些方法的分類。在這樣做的過程中，我們希望通過思想的交叉碰撞，開辟出一系列未來的工作，同時也向RL研究人員介紹一套技術，以提高他們的算法的性能。我們相信AutoRL在幫助強化學習的潛在影響方面發揮了重要作用，無論是在開放式研究還是實際的現實應用中，這項綜述可以為那些希望利用其潛力的人形成一個起點。

此外，我們希望將對AutoML感興趣的研究人員更廣泛地吸引到AutoRL社區，因為AutoRL帶來了獨特的挑戰。特別是，RL存在非平穩性問題，因為agent所訓練的數據是當前策略函數。此外，AutoRL還包含針對RL問題的環境和算法設計。我們相信這些挑戰將需要重要的未來工作，因此概述了整個論文的開放問題。

我們的論文結構如下。在第2節中，我們描述了形式化AutoRL問題所需的背景和符號，然后形式化這個問題，并討論了評估它的各種方法。然后，我們簡要地總結了各種類型的RL算法，然后描述了AutoRL問題特有的非平穩性。在第3節中，我們討論了需要自動化的AutoRL問題的各種組件，包括環境、算法、它們的超參數和架構。在第4節中，我們提供了一個分類，并在該分類之后的子節中調研了當前的AutoRL方法。在第5節中，我們將討論各種公開可用的基準測試及其應用領域。最后，在第6節中，我們討論了AutoRL的未來方向。