国产高清一区二区在线影院,伊人亚洲综合青草青草久热

過去的十年，我們見證了大量的工作利用可視化（VIS）的力量來解釋機器學習（ML）模型。相應的研究主題，VIS4ML，正在快速地發展。為了更好地組織這些龐大的工作，并闡明VIS4ML的發展趨勢，我們通過這次調查為這些研究提供了一個系統的回顧。由于數據質量極大地影響了ML模型的性能，我們的調查特別從數據的角度總結VIS4ML的工作。首先，我們將機器學習模型處理的常見數據分為五種類型，解釋每種類型的獨特特點，并強調那些擅長從它們中學習的ML模型。其次，從大量的VIS4ML工作中，我們提煉出六項在ML流程的不同階段操作這些數據類型的任務（即，數據為中心的任務），以理解、診斷和優化ML模型。最后，通過研究143篇調查論文在五種數據類型、六個數據為中心的任務及其交叉點的分布，我們分析了潛在的研究方向，并設想了未來的研究趨勢。

//www.zhuanzhi.ai/paper/468f07cc2f87eea04d54489bc7482dcf

近期，機器學習（ML）[1]，尤其是深度學習（DL）[2], [3]，的成功引起了研究者的極大關注。ML呈現出了一個普遍趨勢，即模型變得越來越強大，但這往往以解釋性逐漸降低為代價。隨著對ML模型安全性和可靠性的擔憂增加，它們的較差的解釋性開始阻止它們在許多關鍵安全的應用中被采用，例如醫學診斷[4]、[5]和自動駕駛[6]、[7]。為了減輕這個問題，近期已經投入了大量的可視化（VIS）努力來解釋可解釋的人工智能（XAI [8]），例如，擾動數據實例以探測ML模型的決策邊界[9]、[10]，訓練可解釋的代理來模擬ML模型的行為[11]、[12]，從ML模型中提取中間數據以打開黑箱[13]、[14]等。這些工作構成了一個新的研究領域，即VIS4ML，而且這個蓬勃發展的領域中每年發布的論文數量正在增加。本調查的目標是系統地回顧它們并闡明它們的發展趨勢。與此同時，從以模型為中心到以數據為中心發展ML模型的趨勢正在上升[15]。盡管我們生活在大數據的時代，但數據中仍然存在許多質量問題，如噪聲標簽[16]、缺失項[17]和不平衡的數據分布[18]。隨著建模技術變得越來越成熟，對ML開發者來說，顯然可以從改進數據而不是模型中獲得更多的性能提升。因此，隨著ML模型的快速穩定演進，近期對改進ML模型的數據質量的研究越來越受到關注[15]。這也與著名的諺語“垃圾進，垃圾出”相呼應，即，如果沒有高質量的輸入數據，我們永遠無法得到令人滿意的ML模型。從ML領域轉向數據中心建模的轉變也激發了許多開創性的VIS工作，這些工作通過數據策劃、校正和凈化來檢查和提高數據質量[16]、[19]、[20]。

為了促進這一新興且有前景的方向，我們重新審視并從數據的角度系統地回顧現有的VIS4ML工作，以揭示已經進行的努力和仍然存在的機會。這樣的回顧將有助于激發更多的VIS4ML想法并推動更多以數據為導向的創新。我們的數據中心調查旨在通過揭示它們關注的數據類型以及如何操作數據來解釋、診斷和完善ML模型，系統地回顧最新的VIS4ML工作。該調查從以下三個方面進行。首先，我們確定ML模型處理的最常見的數據類型，它們的獨特特點，以及如何定制ML模型以更好地從中學習（第4節）。其次，針對應用于確定的數據類型的操作，我們提出了六個以模型理解、診斷和完善為總體目標的數據中心VIS4ML任務[21]、[22]（第5節）。第三，通過研究不同數據類型、VIS4ML任務及其交集上調查論文的分布，我們總結了正在進行的研究趨勢，并揭示了有前景的VIS4ML研究方向（第6節）。本調查的貢獻主要有兩方面。首先，我們為VIS4ML提供了一個以數據為中心的分類，并按照這一分類全面回顧了最新的工作。分類和回顧幫助研究者更好地理解數量日益增長的VIS4ML工作，從一個新的角度重新審視它們，并鼓勵研究者提出更多以數據為中心的VIS4ML工作。其次，從不同分類子類別的調查論文的覆蓋范圍來看，我們揭示了哪些數據類型、VIS4ML任務或數據任務組合尚未得到充分探索，從而指出了有前景的研究方向，并為這個蓬勃發展的領域提供了新的想法。我們還使用SurVis[23]開發了一個關于此調查的交互式網頁，

網址為：

我們的數據中心綜述是從兩個方面進行的：(1) VIS4ML工作關注的數據類型；(2) 如何操作這些數據來解釋、診斷或完善ML模型。這兩方面的分類經歷了多次迭代。我們在這里簡要總結一些關鍵的迭代，以解釋我們的調查原理。對于“什么”部分，我們首先按照ML執行流程（圖3(a, b)）確定了ML模型的操作數據為輸入、中間和輸出數據[40]。然后，我們嘗試基于他們對三種數據類型的解釋焦點來標記VIS4ML論文。但是，在進行了一些初始的標注后，我們發現幾乎所有的VIS4ML論文都涵蓋了輸入和輸出數據，其中一些使用了中間數據，而其他一些則沒有。這種分類很快退化為兩個基本上反映工作是特定于模型的（使用中間數據）還是與模型無關的（不使用中間數據）的類別。由于這個分類在早期的調查中已經被引入，我們沒有繼續這個嘗試。后來，我們試圖從數據庫領域借用數據分類，并將數據分類為結構化和非結構化。但經過一些標記實踐，我們注意到，VIS4ML工作中的大多數數據都是非結構化的（例如，圖像、文本和圖表）。使用這種分類無法揭示每種數據類型的獨特特性（例如，空間或順序）并導致了非常不平衡的數據類型分布。經過更多的探索，并受到ML模型定制處理的底層數據特性的啟發（例如，CNNs/RNNs擅長處理空間/順序數據），我們最終提出了我們當前的數據分類（詳見第4節）。

對于“如何”部分，我們最初的分類是根據他們采用的VIS技術對論文進行分組（例如，節點鏈接圖和散點圖）。這似乎是最直接的選擇。但是，我們很快意識到，確定的VIS技術對任何數據分析主題都是通用的，不能反映VIS4ML的獨特性，也與我們的數據中心視角不一致。受Munzner的嵌套模型[41]的啟發，我們接著將注意力轉向VIS4ML論文的需求分析部分。在這里，我們發現要求大多是面向任務的。因此，我們轉向檢查現有的VIS任務分類，如第2節所總結。然而，大多數這些任務分類不是特定于VIS4ML的，而是適用于任何數據分析應用。經過幾次更多的分類迭代，我們意識到，描述個別VIS4ML論文中的需求的句子揭示了VIS應該如何為ML服務。從這些句子中，我們提取了動詞，即應用于ML數據的操作，并合并相似的操作來確定最具代表性的操作。最后，我們得出了六個特定于VIS4ML的任務（詳見第5節）。此外，這些任務也是數據中心的，因為需求分析句子的對象始終與ML操作數據的三種類型有關。為了明確建立所識別的數據和任務之間的聯系，我們在圖3(b)和圖3(d)之間用綠色、橙色和藍色的箭頭連接它們。

我們的數據中心分類法根據相應的ML模型關注的數據類型以及如何操作這些數據（即VIS4ML任務）來審查VIS4ML論文，以理解、診斷和完善ML模型，具體包括：

數據類型 (第4節)：我們確定了輸入到ML模型中的常見數據類型，描述了它們的獨特特性，并解釋了ML模型是如何被定制的，以便更好地從這些數據中學習。這些數據類型包括：表格、順序、多維數組、圖形和多模態數據（如圖3(c)所示）。

數據中心任務 (第5節)：關注于對這五種數據類型進行的操作，我們提取了六種數據中心的VIS4ML任務：展示、探索、評估、比較、生成和改進數據。前五項通常用于模型理解/診斷。生成任務與改進任務一起也用于模型精煉（參見圖3(d)）。

第4節和第5節詳細描述了我們的數據/任務分類法，每個子類別都由一個或多個代表性的VIS作品示例化。由于不可能為所有143篇論文提供示例，我們在表1和2中對它們進行了總結。第6節展示了論文在數據類型、數據中心任務及其交集方面的分布，揭示了當前的研究趨勢和潛在的未來方向。最后，我們在第7節討論了我們調查的一些固有局限性，然后在第8節對其進行了總結。

付費5元查看完整內容

相關內容

機器學習可視化

關注 0

大模型 · 軟件工程 · 大型語言模型 ·

2023 年 8 月 31 日

[付費5元查看完整內容]大模型如何革新軟件工程？華中科大等最新《面向軟件工程的大型語言模型》綜述，回顧229篇文獻綜述LLM+SE技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇《面向軟件工程的大型語言模型》綜述，值得關注！

大型語言模型（LLMs）已經對包括軟件工程（SE）在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而，對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口，我們對LLMs和SE的交叉點進行了系統的文獻回顧，特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文，以回答四個關鍵的研究問題（RQs）。 在RQ1中，我們分類并提供了不同LLMs的比較分析，這些LLMs已經被用于SE任務中，表征了它們的獨特特性和用途。 在RQ2中，我們分析了數據收集、預處理和應用中使用的方法，強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略，以及與提示優化相關的常見技術。 最后，RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務，說明了它們對該領域的實際貢獻。 從這些RQs的答案中，我們討論了當前的最新技術和趨勢，識別了現有研究中的空白，并指出了未來研究的有前景的領域。

1. 概述

在語言處理領域，傳統的語言模型（LMs）歷史上一直是基礎元素，為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問，導致了大型語言模型（LLMs）的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據，這些模型展示了令人印象深刻的模擬人類語言能力的能力，從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力，LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具，可以探索人類交流的復雜性和豐富性，從而引發了語言處理領域及其之外的變革時期。 軟件工程（SE）- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角，其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯，該任務涉及生成代碼功能的抽象自然語言描述，以及生成結構良好的代碼[316]和代碼工件，如注釋[162]。Codex，一個擁有120億參數的LLM，已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM，已經在幾個SE任務中表現出了強大的性能，包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰，而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時，研究人員已經開始了一系列關于LLM相關工作的研究活動，其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而，這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍，例如LLMs在軟件測試[277]和自然語言到代碼（NL2Code）任務[323]中的應用，要么主要集中在機器學習（ML）或深度學習（DL）模型[279, 309]上，忽視了更先進和最近出現的LLM應用，如ChatGPT[209]，這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者，他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能，而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力，需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚，并且正在進行持續的探索，但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題，我們的研究旨在彌補這個空白，為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并提出未來研究的潛在途徑，我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計，我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻：

我們是第一個提出全面系統性文獻綜述的團隊，基于2017年至2023年間發表的229篇論文，重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類，并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段，包括數據收集、分類、預處理和表示。

我們討論了用于LLMs4SE任務的優化器，包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用，包括55個具體的SE任務，分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰，并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰，并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法，該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南，我們的方法包括三個主要步驟：規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止，哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中，有50多種不同的LLM用于SE任務，根據不同LLM的底層架構或原理，我們將匯總的LLM分為3類，即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM，有30多種LLM屬于僅解碼器類別，有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中，SE相關數據集是如何收集、預處理和使用的？

(1) 我們根據數據來源將數據集分為4類：開源、收集、構建和工業數據集。開源數據集的使用最為普遍，在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組：基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中，基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明，LLM在SE任務中特別擅長處理基于文本和代碼的數據，利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟，發現了幾個常見的預處理步驟，即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器，發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示，包括硬提示和軟提示，這種新興的微調范式在數據稀缺的任務中特別有優勢，提供了與任務相關的知識，提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標，其次是分類任務，有9種指標。

RQ4: 到目前為止，使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期，將軟件工程任務分為6個活動：軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后，我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務，發現LLMs在軟件開發中應用最廣泛，有115篇論文提到了21個SE任務。軟件管理的應用最少，只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs，并總結了新發現。

結論

隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用，包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM，并探索了它們的獨特特征和應用(RQ1)。然后，我們深入研究了數據收集、預處理和使用的過程，闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來，我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后，我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務，揭示了LLM所做出的實際貢獻(RQ4)。此外，我們強調了現有的挑戰，并提供了研究路線圖，概述了有前途的未來方向。

付費5元查看完整內容

時序挖掘 · 預訓練模型 · 時序預訓練模型 ·

2023 年 5 月 22 日

[付費5元查看完整內容]時序挖掘如何預訓練？華南理工最新《時間序列預訓練模型》綜述，29頁pdf詳述時序預訓練方法體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇時序預訓練綜述！

時序挖掘（Time-Series Mining，TSM）是一個重要的研究領域，因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而，由于數據標注成本的原因，構建一個大規模、標注良好的數據集變得困難。近期，預訓練模型（Pre-Trained Models）在時序領域逐漸受到關注，這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中，我們對時序預訓練模型（Time-Series Pre-Trained Models，TS-PTMs）進行了全面的調研，旨在指導理解、應用和研究TS-PTMs。具體來說，我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后，我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外，我們進行了大量實驗，以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后，我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向，時序挖掘（Time-Series Mining，TSM）在真實世界的應用中得到了廣泛的利用，例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后，可以基于給定的表征執行各種挖掘任務。傳統的時序表征（例如，shapelets[9]）由于過度依賴領域或專家知識，因此耗時較長。因此，自動學習適當的時序表征仍然具有挑戰性。近年來，深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同，深度學習模型不需要耗時的特征工程。相反，它們通過數據驅動的方式自動學習時序表征。然而，深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下，由于數據獲取和注釋成本，構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴，基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量，并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而，與圖像數據增強不同，時序數據增強還需要考慮時間序列中的屬性，如時間依賴性和多尺度依賴性。此外，時序數據增強技術的設計通常依賴于專家知識。另一方面，半監督方法使用大量未標記數據來提高模型性能。然而，在許多情況下，甚至未標記的時序樣本也很難收集（例如，醫療保健中的心電圖時序數據[19]、[20]）。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22]，它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段：預訓練和微調。在預訓練階段，模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段，預訓練模型（PTM）在目標領域的通常有限的數據上進行微調。

最近，特別是基于Transformer的PTMs，在各種計算機視覺（CV）[23]、[24]和自然語言處理（NLP）[25]應用中取得了顯著的性能。在這些研究的啟發下，近期的研究開始考慮為時序數據設計時序預訓練模型（TS-PTMs）。首先，通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型，以獲得適當的表示。然后，在目標領域上對TS-PTM進行微調，以改善下游的時序挖掘任務（例如時序分類和異常檢測）的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而，由于很難獲得大規模標注的時序數據集用于預訓練，這常常限制了有監督TS-PTMs的性能。此外，無監督TS-PTMs利用未標記數據進行預訓練，進一步解決了標注數據不足的限制。例如，基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近，基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此，一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此，TS-PTMs的研究仍然是一個挑戰。

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述。

? 我們進行了大量實驗，分析了TS-PTMs的優缺點。對于時序分類，我們發現基于轉移學習的TS-PTMs在UCR時序數據集（包含許多小數據集）上表現不佳，但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測，我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性，并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后，在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中，我們提出了一個新的TS-PTMs分類法，根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示，請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集（如ImageNet [62]）上進行訓練的。然后，相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地，一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明，遷移學習可能會提高或降低下游任務的性能，這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練，然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練，在時序領域可能很難獲得。當源數據集和目標數據集相似（不相似）時，通常會出現正向（負向）轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外，基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據（例如語音數據）被用來預訓練基礎網絡，然后通過模型重編程應用于通用時序數據。然而，如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測（TSF）的預訓練模型（PTMs）可以利用時間序列中的復雜動態性，引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性，因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同，避免在基于TSF任務的預訓練中出現子序列（例如，異常值）之間的抽樣偏差仍然具有挑戰性[68]。同時，基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外，基于回歸的單步預測模型（例如，RNNs）可能會因累積錯誤[10]，[49]導致性能下降。相反，一些研究[14]，[60]采用基于Transformer的模型一次性生成所有預測。因此，設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型（TS-PTMs），這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比，無監督的TS-PTMs應用更為廣泛，因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型（TS-PTMs），這些策略在自監督學習中常常被使用。與無監督學習（例如，重構）相比，自監督學習在訓練過程中使用自提供的監督信息（例如，偽標簽）。

3. 實驗結果與分析

在本節[68]、[142]中，我們在三個TSM任務上評估TS-PTMs，包括分類、預測和異常檢測。與[68]一樣，我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后，選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次，使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后，利用Yahoo[151]和KPI[152]數據集，分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息，請參閱附錄A。

6. 結論

在這份綜述中，我們對時間序列預訓練模型（TS-PTMs）的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中，相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來，基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能，并已被用于時間序列預訓練。因此，我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明，基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力，而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時，基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

ChatGPT · 大模型 · 涌現能力 · 推理 ·

2023 年 4 月 14 日

[付費5元查看完整內容]ChatGPT大模型work三個要點是什么？谷歌JasonWei最新《大型語言模型的縮放、涌現和推理》報告，附Slides與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素，最開始 GPT-3 將模型參數增至 1750 億，隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小，還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在，但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵，例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力，這鼓勵模型在給出最終答案之前生成中間推理步驟。

縮放是一個簡單的想法，具有挑戰性，但可以預見地使模型更好。(“縮放法”)

由于規模的擴大，大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)

巧妙的提示引出了語言模型中的多步驟推理，解鎖了更多的新任務。(“提示工程”)

Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作，在此之前他畢業于達特茅斯學院。//www.jasonwei.net/

付費5元查看完整內容

大模型 · 深度學習模型 · 訓練 · ChatGPT ·

2023 年 4 月 11 日

[付費5元查看完整內容]ChatGPT背后大模型如何高效訓練？京東探索研究院等最新《大規模深度學習模型高效訓練研究》綜述，60頁pdf詳述五大訓練方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習領域取得了重大進展，特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而，它的訓練過程極不穩定，對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高，大量研究在一定程度上探索了高效訓練領域，但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式，并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術，可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心"，包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術，側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”，包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術，注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”，包括在資源受限情況下的一些獨特加速方法，例如對總迭代次數的限制; (5)“以系統為中心”，包括一些高效的分布式框架和開源庫，它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法，本文綜述了一個全面的回顧，以了解每個組件內的一般機制及其聯合交互。同時，對通用加速技術發展的未來工作進行了詳細的分析和討論，這些工作可以啟發我們重新思考和設計新的高效范式。總之，我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展，深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律，并表明更大的模型本質上需要大量的數據，在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如，Dehghani等人[44]提出了ViT-22B，該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后，GPT-3[18]在45TB數據樣本上訓練了175B參數，并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型，只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229]，這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚，但為了保持實際效率，人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言，訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說，訓練GPT-3消耗大約355 GPU年，成本為460萬美元。在如此龐大的參數和數據樣本下，傳統的從零開始訓練顯然無法承受巨大的費用，特別是在擴展到下游任務[30,138,187,188,211,243]時，這將引入額外的架構和過多的參數。因此，預訓練-微調模式在深度學習領域日益受到關注。

預訓練的主題是繼承遷移學習的范式，在一個通用的數據集上訓練一個通用的基礎模型，以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態)，幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像，有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練，為下游任務產生了有希望的遷移性能。同樣，來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48]，通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區，Radford等人[196]提出了生成式預訓練(GPT)，通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率，GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習，在預訓練中可以顯著增強對知識的理解，在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明，使用預訓練可以提高模型的魯棒性和不確定性，對于在大型數據集上進行訓練表現出極大的優勢，泛化能力較好。最近的進展表明，從具有巨大容量的預訓練模型中獲得了實質性的收獲，特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向，即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴，極大地啟發了大數據的應用。同時，它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本，包括時間和金錢，嚴重阻礙了它的發展。在此背景下，本文介紹和總結了在大規模模型上加速訓練的通用和實用技術，這些技術促進了更快的訓練，也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術，主要包括引入了高效的預訓練模型，設計了新的加速組件，先進的優化方法，在NLP或CV社區上的高效訓練，以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作，并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型，主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧，討論了它們在每個不同社區的成果的最新研究進展，這些成果可能會給本地研究帶來新的思考。同時，系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型，并回顧了Transformer模型的幾種變體，這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展，介紹了Transformer模型的詳細演變，并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發，提出了一些提高Transformer模型訓練效率的策略，并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述，包括計算效率、存儲效率和硬件/算法協同設計。與它們不同，我們更關注基本的加速技術，不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐，以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展，包括新的優化器和策略，以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗，總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法，并討論了它們的效率和缺點。

近年來，高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展，但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下，本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧，這些技術獨立于任務或模型架構。從實踐效率的角度來看，我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度，高效的訓練需要更少的訓練時間。

在相似的訓練成本下，高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構，本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外，由于我們的調研是無任務和無模型的，因此提供了訓練加速技術的廣泛泛化，可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理，研究人員可以開發更快、更有效的模型，而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述，為機器學習領域做出了重大貢獻。本文對解決一般的基本最小化問題很感興趣，可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同，本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件，這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中，省略了額外的近端項。在不損失通用性的情況下，使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中，我們總結了這些符號及其對應的研究領域。基于式(3)，通過提煉和拆分組件的不同角色，將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析，以對當前用于訓練大規模模型的通用加速技術進行分類，并結合實際實現的可行性。具體來說，它們是:

以數據為中心的有效訓練。在深度學習中，全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高，盡管在早期階段表現有效。為了解決這個問題并提高泛化性能，以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性，從而在實際應用中具有更好的泛化性能。同時，為了實現有效加速并進一步提高模型的通用性，以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外，它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明，課程學習是一個循序漸進的過程，可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本，逐步恢復到高質量的樣本。總之，以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡，例如基于卷積的神經網絡(CNN)，多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化，更多地關注DNNs的計算復雜性，以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說，架構近似側重于采用簡化的算子組合，以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率，也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態，可以有效地加快收斂速度，防止訓練過程在早期崩潰。總之，以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法，它具有很強的實用性，可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率，總結了三個主要因素，即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而，要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此，以學習率為中心的方法旨在開發高效和靈活的策略，以高效和穩定地訓練模型。第二個因素，批量大小，在優化中也起著關鍵作用。借助GPU設備的并行計算能力，特別是在計算資源充足的情況下，通過增加單個minibatch中的樣本數量可以提高訓練效率。因此，以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看，我們總是努力實現一個具有高穩定性的目標，這是以目標為中心的方法的主要關注點。這些方法專注于優化目標，提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述，以優化為中心的方法研究了訓練過程中的高效迭代計算，為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率，在這些場景中，計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練，同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練，研究人員和從業人員可以充分利用可用資源，避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發，這些模型更實用，更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現，能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯，以解決跨設備通信中的瓶頸，并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練，訓練過程被分布為更小的計算任務，在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架，如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練，并顯著減少了大規模深度學習模型的訓練時間。

總而言之，本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分，我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分，我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術，總結了它們的技術路線和每個組件的實現，有助于為無任務和無模型的高效訓練提供堅實的指導。

比較了訓練加速中每個組件的優缺點，展示了它們的見解和互動，可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析，這可以為它們未來的發展提供指導。

本調查的主要結構組織如下。在第2節中，介紹了一些初步工作，包括不同骨干中的基本模塊，以及對大規模深度學習模型、數據集的預訓練，以及本綜述中采用的詳細符號。在第3 ~ 6節中，基于迭代公式(3)，從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中，我們討論和總結了本綜述中的技術，并提出了一些有前途的研究方向。

付費5元查看完整內容

以數據為中心的人工智能 · 人工智能 · 機器學習 ·

2023 年 3 月 21 日

[付費5元查看完整內容]什么是Data-Centric AI？Rice大學最新《以數據為中心的人工智能》研究綜述，38頁pdf全面闡述DCAI技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能(AI)正在幾乎每個領域產生深遠影響。其巨大成功的一個重要促成因素是可用于構建機器學習模型的豐富和高質量數據。最近，數據在人工智能中的作用被顯著放大，催生了以數據為中心的人工智能概念。研究人員和從業人員的關注焦點已逐漸從推進模型設計轉向提高數據的質量和數量。**本文討論了以數據為中心的人工智能的必要性，對三個一般的以數據為中心的目標(訓練數據開發、推理數據開發和數據維護)和代表性方法進行了整體看法。**從自動化和協作的角度組織了現有的文獻，討論了挑戰，并列出了各種任務的基準。我們相信這是第一個全面的綜述，提供了跨數據生命周期各個階段的任務譜的全局視圖。希望它能幫助讀者有效地掌握這一領域的概覽，并為他們提供系統地設計數據以構建人工智能系統的技術和進一步的研究思路。以數據為中心的人工智能資源的配套列表將在//github.com/daochenzha/data-centric-AI上定期更新。

過去的十年見證了人工智能(AI)的巨大進步，幾乎在每個領域都產生了深遠的影響，如自然語言處理[47]、計算機視覺[235]、推薦系統[284]、醫療保健[161]、生物學[248]、金融[175]等。這些巨大成功的一個關鍵促成因素是豐富和高質量的數據的可用性。許多重大的人工智能突破只有在我們獲得正確的訓練數據之后才會發生。例如，AlexNet[127]是第一批成功的卷積神經網絡之一，它是基于ImageNet數據集[59]設計的。AlphaFold[117]是人工智能在科學發現方面的一個突破，如果沒有注釋的蛋白質序列[163]，將不可能實現。大型語言模型的最新進展依賴于大型文本數據進行訓練34,121,187,188。除了訓練數據外，精心設計的推理數據有助于對人工智能中眾多關鍵問題的初步識別，并解鎖新的模型能力。一個著名的例子是對抗樣本[129]，它通過對輸入數據的專門修改來混淆神經網絡，這引起了人們對研究人工智能安全的興趣激增。另一個例子是prompt engineering[146]，它僅通過調整輸入數據來從模型中探測知識，同時保持模型固定(圖1右側)來完成各種任務。與此同時，數據的價值在工業界得到了廣泛的認可。許多大型科技公司已經建立了基礎設施來組織、理解和調試構建AI系統的數據[7,15,230,233]。在構建訓練數據、推理數據和維護數據的基礎設施方面的所有努力，為今天人工智能的成就鋪平了道路。

最近，數據在人工智能中的作用被顯著放大，引發了新興的以數據為中心的人工智能概念 [108,109,183,250,268]。在傳統的以模型為中心的AI生命周期中，研究人員和開發人員主要關注于識別更有效的模型來提高AI性能，同時保持數據基本不變。然而，這種以模型為中心的范式忽略了潛在的質量問題和數據的不良缺陷，如缺失值、不正確的標簽和異常。作為對現有模型推進工作的補充，以數據為中心的人工智能強調數據的系統工程，以構建人工智能系統，將重點從模型轉移到數據。需要注意的是，"以數據為中心"與"數據驅動"有本質區別，后者只強調使用數據來指導人工智能開發，而后者通常仍以開發模型為中心，而不是工程數據。

已經有幾個倡議致力于以數據為中心的人工智能運動。一個值得注意的是Ng等人[170]發起的競賽，它要求參與者迭代數據集，只為了提高性能。Snorkel[190]構建了一個系統，可以使用啟發式功能實現自動數據注釋，而無需手動標記。由于許多好處，一些新興的AI公司將數據置于中心地位，例如提高準確性，更快的部署和標準化的工作流[169,189,240]。這些跨學術界和工業界的集體行動，證明了使用以數據為中心的方法構建人工智能系統的必要性。

**隨著以數據為中心的人工智能需求的不斷增長，各種方法被提出。一些相關的研究課題并不新鮮。**例如，數據增強[74]已被廣泛研究以提高數據多樣性。為了準備更簡潔的數據，特征選擇[138]早在幾十年前就被研究了。與此同時，最近出現了一些新的研究方向，如用于快速標記數據的數據編程[191]，用于理解模型決策的算法求助[120]，以及修改大型語言模型輸入以獲得理想預測的提示工程[146]。從另一個維度來看，一些工作致力于使數據處理更加自動化，如自動數據增強[56]和自動管道發現[68,132]。其他一些方法強調在創建數據時人機協作，以便模型可以與人類的意圖保持一致。例如，**ChatGPT和GPT-4的顯著成功[172]在很大程度上歸功于從人類反饋程序[48]中進行的強化學習，它要求人類對提示提供適當的響應，并將輸出進行排序作為獎勵[174]。**盡管上述方法是為了不同的目的而獨立開發的，但它們的共同目標是確保數據的質量、數量和可靠性，以便模型按照預期的方式運行。

在對數據為中心的人工智能的需求和所提出的眾多方法的驅動下，本文從整體上介紹了數據為中心的人工智能的技術進展，并總結了現有的研究方向。具體而言，本綜述圍繞以下研究問題展開: * RQ1: 讓AI以數據為中心的必要任務是什么? * RQ2: 為什么自動化對數據的開發和維護很重要? * RQ3: 在哪些情況下以及為什么人類參與在以數據為中心的AI中至關重要? * RQ4: 以數據為中心的人工智能目前的進展如何? 通過回答這些問題，我們做出了三個貢獻。首先，提供了一個全面的概述，幫助讀者從不同的角度有效地掌握以數據為中心的人工智能的概貌，包括定義、任務、算法、挑戰和基準。以目標驅動的分類法組織現有文獻。進一步確定每個方法中是否需要人工參與，并將方法標記為自動化水平或人工參與程度。最后，對現有研究進行了分析，并討論了未來可能的發展機遇。

本調研的結構如下。第2節概述了與數據為中心的人工智能相關的概念和任務。詳細闡述了三個以數據為中心的通用人工智能目標的需求、代表性方法和挑戰，包括訓練數據開發(第3節)、推理數據開發(第4節)和數據維護(第5節)。第6節總結了各種任務的基準。第7節從全局的角度討論了以數據為中心的人工智能，并強調了潛在的未來方向。最后，我們在第8節總結了這個調研。

2. 以數據為中心的人工智能

本節將介紹以數據為中心的AI的背景。2.1節定義了相關概念。2.2節討論了為什么需要以數據為中心的人工智能。2.3節描繪了相關任務的大圖景，并提出了一個目標驅動的分類法來組織現有的文獻。第2.4節側重于以數據為中心的人工智能的自動化和人類參與。

人工智能(AI): AI是一個廣泛的跨學科領域，它試圖使計算機具有人類的智能來解決復雜的任務[252]。人工智能的一個主要技術是機器學習，它利用數據來訓練預測模型來完成一些任務。 * 數據: 數據是一個非常通用的概念，用于描述傳遞信息的值的集合。在人工智能的背景下，數據用于訓練機器學習模型或作為模型輸入進行預測。數據可以以各種格式出現，如表格數據、圖像、文本、音頻和視頻。 * 訓練數據: 訓練數據是用于機器學習模型訓練階段的數據。該模型利用訓練數據調整參數并進行預測。 * 推理數據: 推理數據是用于機器學習模型推理階段的數據。一方面，它可以在模型訓練后對模型的性能進行評估;另一方面，對推理數據進行調優可以幫助獲得所需的輸出，例如對語言模型的提示進行調優[146]。 * 數據維護: 數據維護是指維護數據質量和可靠性的過程，通常涉及高效的算法、工具和基礎設施，以理解和調試數據。數據維護在人工智能中起著至關重要的作用，因為它確保訓練和推理數據的準確性和一致性[107]。 * 以數據為中心的人工智能: 數據為中心的人工智能是指為人工智能系統開發、迭代和維護數據的框架[268]。以數據為中心的人工智能涉及構建有效的訓練數據、設計適當的推理數據和維護數據的任務和方法。 對以數據為中心的AI的需求

**過去，人工智能通常被視為一個以模型為中心的領域，其重點是在給定固定數據集的情況下推進模型設計。**然而，對固定數據集的過度依賴并不一定會導致現實世界應用中更好的模型行為，因為它忽視了數據的廣度、難度和對潛在問題的保真度[155]。此外，這些模型通常很難從一個問題轉移到另一個問題，因為它們是高度專業化的，并為特定的問題量身定制。此外，低估數據質量可能會觸發數據級聯[200]，導致準確性下降和持續偏差[36]等負面影響。這可能會嚴重阻礙人工智能系統的適用性，特別是在高風險領域。 **因此，研究人員和從業人員的注意力逐漸轉向以數據為中心的人工智能，以追求數據卓越[9]。**以數據為中心的人工智能更強調提高數據的質量和數量，模型相對更固定。雖然這一過渡仍在進行中，但我們已經看到了一些表明其好處的成就。例如，大型語言模型的進步很大程度上依賴于大型數據集的使用[34,121,187,188]。與GPT-2[188]相比，GPT-3[34]只對神經架構進行了微小的修改，同時花費精力收集更大的高質量數據集進行訓練。ChatGPT[174]是GPT-3的一個非常成功的應用，它采用了與GPT-3類似的神經架構，并使用來自人工反饋過程[48]的強化學習來生成用于微調的高質量標記數據。一種被稱為prompt engineering[146]的新方法，通過只專注于調優數據輸入，已經取得了重大成功。以數據為中心的方法的好處也可以被從業人員驗證[169,189,240]。例如，計算機視覺公司Landing AI發現，通過采用以數據為中心的方法，精度得到了提高，開發時間縮短，以及方法更加一致和可擴展[169]。所有這些成就都展示了以數據為中心的人工智能的前景。

**值得注意的是，以數據為中心的人工智能并沒有削弱以模型為中心的人工智能的價值。**相反，這兩種范式在構建AI系統時相互交織。一方面，以模型為中心的方法可用于實現以數據為中心的AI目標。例如，我們可以利用生成模型，如GAN[86, 282]和擴散模型[101,124,194]，來執行數據增強并生成更多高質量的數據。另一方面，以數據為中心的人工智能可以促進以模型為中心的人工智能目標的改進。例如，增強數據的可用性的增加可以激發模型設計的進一步進步。因此，在生產場景中，數據和模型往往在不斷變化的環境中交替演化[183]。

以數據為中心的人工智能任務

如果沒有在具體和具體的任務上取得進展，就無法實現以數據為中心的人工智能的雄心勃勃的運動。不幸的是，大多數現有文獻都集中在討論以數據為中心的人工智能的基礎和觀點，而沒有明確指定相關的任務[108,109,183,209]。為了解決這種模糊性，最近提出的DataPerf基準[155]定義了六個以數據為中心的AI任務: 訓練集創建、測試集創建、選擇算法、調試算法、切片算法和估值算法。然而，這種扁平的分類法只能部分覆蓋現有的以數據為中心的AI文獻。例如，一些關鍵任務，如數據標記[283]，沒有包括在內。選擇算法只處理實例選擇，而不處理特征選擇[138]。創建測試集僅限于從一個補充集中選擇項，而不是生成一個新集[203]。因此，為了完全包含以數據為中心的人工智能文獻，有必要進行更細致的分類。為更全面地理解以數據為中心的人工智能，繪制了相關任務的藍圖，并提出了一個目標驅動的分類法來組織圖2中的現有文獻。本文將以數據為中心的人工智能分為三個目標: 訓練數據開發、推理數據開發和數據維護，其中每個目標都與幾個子目標相關聯，每個任務屬于子目標。我們在下面對這些目標進行高層次的概述。

訓練數據開發: 訓練數據開發的目標是收集和產生豐富且高質量的訓練數據，以支持機器學習模型的訓練。它由5個子目標組成，包括1)用于收集原始訓練數據的數據收集，2)用于添加信息標簽的數據標記，3)用于清洗和轉換數據的數據準備，4)用于減少數據大小并可能提高性能的數據縮減，以及5)用于增強數據多樣性而不收集更多數據的數據增強。

推理數據開發: 目標是創建新的評估集，可以為模型提供更細粒度的見解，或通過工程數據輸入觸發模型的特定能力。這方面的工作有三個子目標:1)分布內評估和2)分布外評估的目的是分別生成遵循或不同于訓練數據分布的樣本，而3)提示工程調整語言模型中的提示以獲得所需的預測。推理數據開發中的任務是相對開放的，因為它們通常被設計為評估或解鎖模型的各種功能。

數據維護: 在實際應用中，數據不是一次性創建的，而是需要持續維護的。數據維護的目的是保證動態環境中數據的質量和可靠性。它涉及3個基本的子目標:1)數據理解，旨在提供復雜數據的可視化和評估，使人類獲得有價值的見解;2)數據質量保證，制定定量測量和質量改進策略，以監測和修復數據;3)數據加速，旨在設計高效的算法，通過合理分配資源和高效處理查詢來提供所需的數據。數據維護在以數據為中心的AI框架中起著基礎性和支持性的作用，確保訓練和推理中的數據準確和可靠。

以數據為中心的人工智能的自動化和人類參與

以數據為中心的AI由一系列與不同數據生命周期階段相關的任務組成。為了跟上可用數據規模不斷增長的步伐，在一些以數據為中心的人工智能任務中，開發自動化算法以簡化過程是必不可少的。例如，人們對自動化數據增強[56,272]和特征轉換[122]的興趣越來越大。這些任務的自動化不僅可以提高效率，還可以提高精度[155]。此外，自動化可以促進結果的一致性，減少人為錯誤的機會。而對于其他一些任務，人工參與是至關重要的，以確保數據與我們的意圖一致。例如，人類通常在標記數據中發揮不可或缺的作用[283]，這有助于機器學習算法學習做出所需的預測。是否需要人類的參與取決于我們的目標是否是使數據與人類的期望保持一致。本文將每篇論文分為自動化和協作，前者側重于過程自動化，后者涉及人工參與。面向自動化的方法通常具有不同的自動化目標。我們可以從現有的方法中識別出幾個自動化級別:

程序自動化: 使用程序自動處理數據。程序通常是基于一些啟發式和統計信息設計的。

基于學習的自動化: 帶優化的自動化策略學習，例如最小化目標函數。這一層次的方法通常更靈活、適應性更強，但需要額外的學習成本。

流程自動化: 跨多個任務集成和調優一系列策略，這可以幫助確定全局最優策略。但是，調優可能會導致更多的成本。

請注意，這種分類并不打算區分好方法和壞方法。例如，流程自動化方法可能并不一定比編程自動化解決方案更好，因為它在許多場景中可能過于復雜。本文旨在展示自動化是如何應用于不同的以數據為中心的目標的，并從全局的角度來理解文獻。從另一個角度來看，面向協作的方法通常需要人類以不同的形式參與。我們可以確定人類參與的幾個程度:

全面參與: 人類完全控制過程。這種方法幫助人類做決定。需要充分參與的方法通常可以很好地符合人類的意圖，但成本可能很高。 * 部分參與: 方法控制過程。然而，人類需要密集或持續地提供信息，例如通過提供大量反饋或頻繁交互。 * 最低參與度: 該方法完全控制整個過程，只在需要時咨詢人類。人類只有在被提示或要求這樣做時才會參與。當遇到大量數據和有限的人力預算時，屬于這種程度的方法通常是更可取的。

3. 結論

聚焦于人工智能中一個新興而重要的研究領域——以數據為中心的人工智能。通過展示如何仔細設計和維護數據，可以使人工智能解決方案在學術界和工業界更受歡迎，激發了對以數據為中心的人工智能的需求。接下來，提供了以數據為中心的人工智能的背景，包括其定義和目標驅動的分類法。然后，以提出的研究問題為指導，從自動化和協作的角度回顧了各種以數據為中心的人工智能技術，用于不同的目的。此外，收集了來自不同領域的數據基準，并在元級別上進行了分析。最后，從全局的角度討論了以數據為中心的人工智能，并分享了我們對數據和模型之間模糊邊界的看法。同時提出了該領域潛在的未來發展方向。總而言之，我們相信數據將在構建人工智能系統中發揮越來越重要的作用。與此同時，仍有許多挑戰需要解決。我們希望我們的調研可以激發我們社區的合作倡議，推動這一領域的發展。

付費5元查看完整內容

大模型 · 知識獲取 · 知識表示 · 知識探測 · 知識編輯 ·

2023 年 3 月 17 日

[付費5元查看完整內容]知識在大模型中如何用？中科院軟件所最新《大型語言模型知識生命周期》綜述，27頁pdf闡述知識獲取、表示、探測、編輯與應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

知識在人工智能中起著至關重要的作用。最近，預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大，但對于知識在語言模型中如何在整個學習、調優和應用過程中循環，仍然缺乏統一的觀點，這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期，并調研知識在構建、維護和使用時是如何循環的，來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究，總結了目前面臨的主要挑戰和局限性，并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說，人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來，預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練，PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力，因此在自然語言處理方面取得了顯著的成功(Devlin等人，2019;Liu等人，2019c;Raffel等人，2020;Radford等人，2019b;Brown等人，2020;Lewis et al.， 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路，人們探索了許多新的研究方向。例如，知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人，2019;Zhang等人，2019;Sachan等人，2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究，但目前的研究主要集中在PLMs中知識過程的一個特定階段，因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏，使得我們難以更好地理解不同基于知識的任務之間的聯系，難以發現PLMs中知識生命周期中不同時期之間的相關性，難以利用缺失的環節和任務來研究PLMs中的知識，也難以探索現有研究的不足和局限性。例如，雖然許多研究試圖評估語言模型中的知識，這些語言模型已經進行了預訓練，但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習，以及PLMs如何表示或存儲這些知識。與此同時，許多研究者試圖將各種結構性知識明確地注入到PLMs中，但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此，相關研究可能會過度關注于幾個方向，而不能全面理解、維護和控制PLMs中的知識，從而限制了改進和進一步應用。本文從知識工程的角度，系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al.， 1998;Schreiber等人，2000)，我們將預訓練語言模型視為基于知識的系統，并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人，1998;Schreiber et al.， 2000)。具體地，我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期，如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測，旨在評估當前PLM包含不同類型知識的情況。 知識編輯，試圖編輯或刪除語言模型中包含的知識。 知識應用，試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期，我們將梳理現有的研究，總結主要的挑戰和局限性，并討論未來的發展方向。基于統一的視角，我們能夠理解和利用不同時期之間的緊密聯系，而不是將它們視為獨立的任務。例如，理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法，可以幫助我們找到適合PLM的應用，并深入了解其局限性，從而促進改進。通過綜述，全面總結當前研究的進展、挑戰和局限性，幫助研究人員從一個新的視角更好地理解整個領域，并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視，并將PLM中的知識生命周期劃分為五個關鍵時期。對于每個時期，回顧了現有的研究，總結了每個方向的主要挑戰和缺點。基于這篇綜述，討論了當前研究的局限性，并揭示了潛在的未來方向。

概述在本節中，我們將介紹本綜述的總體結構，詳細描述圖2所示的分類法，并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前，知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識，語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人，2019;Liu等人，2019c;Brown等人，2020;Raffel等人，2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人，2020;Pérez-Mayos等，2021;劉等，2021c)。為了從結構化數據中獲取知識，目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人，2019;熊等，2020;Peters等人，2019)，事實知識(Zhang等人，2019;王志強，楊志強，楊志強;Liu等人，2020)，常識知識(Bosselut等人，2019;Ye等人，2019;Guan等人，2020;Ma等人，2021)和語言知識(Ke等人，2020;Lauscher等人，2020;Zhou等人，2019;Bai等人，2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識，也可能啟發研究者更好地理解人類大腦中的知識表示。目前，PLMs中知識表示分析的策略包括基于梯度的(Geva等人，2021;Dai等人，2022a)、因果啟發(孟等人，2022)、基于注意力的(Clark等人，2019;Htut等人，2019;Lin等人，2019)和分層(Lin等人，2019;Liu等人，2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前，對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測，通常構建知識指示的提示，然后使用這些自然語言表達式查詢PLMs (Petroni et al.， 2019;Jiang等，2020a;Sung等人，2021;《福布斯》等人，2019;Zhou等，2020a)。例如，用“The capital of France is .”查詢PLMs，以評估PLMs是否存儲了相應的知識。同時，為了提高plm的性能，一系列研究致力于優化兩個離散的提示(Jiang等人，2020b;Davison等人，2019;Haviv等人，2021;Shin等人，2020)和持續空間(Zhong等人，2021;李和梁，2021a;Liu等，2021b)。盡管基于提示的探索得到了廣泛應用，但許多研究也指出，仍然存在一些懸而未決的問題，如不一致(Elazar等人，2021;Kassner和Schütze, 2020;Jang等人，2022;Cao等人，2022)，不準確(perner等人，2020;鐘等，2021;Cao et al.， 2021)和不可靠(Cao et al.， 2021;Li et al.， 2022a)，并對基于提示探測的數量結果提出質疑。2)基于特征的探測，通常凍結原始plm的參數，并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人，2019;Tenney等人，2019;Clark等人，2019;Liu等人，2019a)和無分類器探測(Wu等人，2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據，基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新，可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人，2020)，基于記憶的(Mitchell等人，2022;Madaan等人，2022;Dong等人，2022)，元學習啟發(De Cao等人，2021;Hase等人，2021年;Mitchell等人，2021)和基于位置的方法(Dai等人，2022a;孟等，2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識，以使進一步的應用受益。**目前，PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs)，將語言模型視為密集的知識庫，可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人，2019;Heinzerling和Inui, 2021年;蔣等人，2020b;王等人，2020;Cao等，2021;Razniewski等人，2021年;AlKhamissi等人，2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al.， 2021)進行了全面比較;2)下游任務的語言模型，通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人，2020;Wei等，2021b;Yang等人，2021;Yin等人，2022)，快速學習(Radford等人，2019a;Brown等人，2020;Liu等人，2021a)和上下文學習(Brown等人，2020;Zhao等人，2021;陸等人，2022)。我們將在第7節討論它們。

付費5元查看完整內容

進化深度學習 · 深度學習 · 特征工程 · 模型生成 · 部署模型 ·

2022 年 9 月 1 日

[付費5元查看完整內容]什么是進化深度學習？東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系。

近年來，深度學習(deep learning, DL)在業界和學術界都有了迅速的發展。然而，尋找DL模型的最優超參數往往需要很高的計算成本和人類的專業知識。為了緩解上述問題，進化計算(EC)作為一種強大的啟發式搜索方法，在DL模型的自動化設計中顯示出了顯著的優點，即進化深度學習(EDL)。本文旨在從自動化機器學習(AutoML)的角度分析EDL。具體地說，我們首先從機器學習和EC兩個方面闡述了EDL，并將EDL視為一個優化問題。在此基礎上，我們系統地介紹了特征工程、模型生成、模型部署和新的分類(即，什么和如何進化/優化)的EDL方法，并重點討論了EC處理優化問題時的解決方案表示和搜索范式。最后，提出了該技術的關鍵應用、有待解決的問題和未來的研究方向。本調研回顧了EDL的最新發展，并為EDL的發展提供了有見地的指導方針。

//www.zhuanzhi.ai/paper/63eefaab90ccabdeb3609e320198c072

深度學習(Deep learning, DL)作為一種很有前景的技術，已被廣泛應用于各種具有挑戰性的任務，如圖像分析[102]和模式識別[104]。然而，DL的實踐者努力手動設計深度模型，并通過試錯找到合適的配置。如圖1所示，在特征工程(feature engineering, FE)[225]、模型生成[257]和模型部署[29,31]等不同階段，將領域知識輸入DL。然而，專家知識的難以獲取使得深度學習的發展面臨著巨大的挑戰。相比之下，深度神經網絡(DNNs)的自動設計在最近幾十年趨于流行[71,257]。主要原因在于自動機器學習(AutoML)在FE[225]、參數優化(PO)[242]、超參數優化(HPO)[185]、神經結構搜索(NAS)[71,230,257]和模型壓縮(MC)[78]中的靈活性和計算效率。因此，無需人工干預的AutoML技術引起了人們的極大關注，并取得了很大的進展。

進化計算(Evolutionary computation, EC)因其靈活性和自動進化機制而被廣泛應用于自動數字學習中。在電子商務中，環境選擇驅動種群個體向最優解或前沿進化[88]。目前，有許多由EC驅動的自動深度學習方法，被稱為進化深度學習(EDL)[52, 196, 246, 247]。例如，在特征工程[225]、模型生成[230,257]和模型部署[31]等方面開展了大量EC研究，如圖1所示。因此，電子商務與數字圖書館的整合已經成為學術界和產業界的研究熱點。此外，在圖2中，Web of Science中涉及EC & DL的文章數和被引用數在2012年前后逐漸增加，而在隨后的十年中急劇增加。因此，EDL領域的研究越來越多。

為了填補這一空白，我們打算對EDL進行詳細的全面回顧。這項工作的主要貢獻如下。

本文從DL和EC的角度對EDL的現有工作進行了綜述，以促進ML和EC社區讀者的理解，并從EC的角度將EDL制定為一個優化問題。
該調研從特征工程、模型生成和新分類法的模型部署方面描述和討論了EDL，其中重點討論了解決方案表示和搜索范式。據我們所知，很少有調研研究進化模型的部署。
在全面回顧EDL方法的基礎上，討論了EDL的一些應用、有待解決的問題和發展趨勢，對EDL的發展具有指導意義。

本文的其余部分組織如下。第2節介紹了EDL的概述。在第3節中，介紹了EC驅動的特征工程。EC驅動的模型生成將在第4節中討論。第5節回顧EC驅動的模型壓縮。然后，在第6節討論了EDL的相關應用、有待解決的問題和發展趨勢。最后，第七部分對本文進行了總結。

進化深度學習 Evolutionary Deep Learning

與傳統的深度學習嚴重依賴專家或領域知識來構建深度模型不同，深度學習是通過進化過程來自動設計深度模型[164,191,231,246]。

從深度學習的角度來看:傳統的深度學習需要大量的專家知識來發明和分析特定數據集或任務的學習工具。相反，EDL可以被視為一種對人類友好的學習工具，它可以在給定的數據集或任務上自動找到合適的深度模型[230]。換句話說，EDL專注于學習工具的易用性。

從EC的角度來看:將模型的配置表示為個體，將性能作為需要優化的目標。EC在進化機制驅動的優化過程中起著重要作用。也就是說，EDL可以看作是一個尋找高性能的深度模型的最優配置的進化優化過程。

從上面的分析來看，EDL的目的不僅是通過自動構建的方法(從深度學習的角度)增加深度模型對學習任務的適應性，而且試圖在設計的目標或約束下(從EC的角度)實現最優模型。

在本節中，根據“要進化/優化什么”和“如何進化/優化”，提出了EDL方法的新分類，如圖4所示。

“要進化/優化什么”: 我們可能關心“EDL可以做什么”或“EDL可以解決什么類型的問題”。在特征工程中，有三個關鍵問題需要解決，分別是特征選擇、特征構建和特征提取[230]。在模型生成中，參數優化、架構優化和聯合優化成為關鍵問題[257]，而模型部署則涉及到模型剪枝等壓縮技術問題。

“如何發展/優化”: 這個問題的答案是為EC設計合適的解決方案表示和搜索范式，以及為NAS設計加速策略。該表示方案設計用于個體編碼、實現最優配置的搜索范式、減少時間或資源消耗的加速策略。根據以上分類，我們將在第3節、第4節和第5節分別詳細介紹特征工程、模型生成和模型部署中的EDL。

結論

隨著機器學習和進化計算的發展，在EC優化框架下，提出了許多EDL方法來自動優化深度模型的參數或結構。與人工設計的方法相比，EDL方法在魯棒性和搜索能力方面具有競爭力。因此，EDL已經成為一個熱門的研究課題。

在這次調研中，我們首先從DL和EC的角度介紹EDL，以方便來自ML和EC社區的讀者理解。然后，我們將EDL定義為一個復雜的優化問題，并從特征工程、模型生成到模型部署等方面全面介紹了解決EDL優化問題的EC技術，以形成一個新的分類(即，在EDL中什么、哪里和如何進化/優化)。詳細討論了EDL流水線不同階段的解表示和搜索范式。然后討論了基于歐共體的研究方法與非歐共體研究方法的優缺點。隨后，對各種應用程序進行了總結，以展示EDL在處理現實世界問題方面的潛在能力。

盡管EDL方法在AutoML中取得了很大的進展，但仍有許多具有挑戰性的問題需要解決。例如，有效的加速策略對于減少昂貴的優化過程至關重要。另一個問題是處理大規模數據集，以及如何在不同的EDL方法或非ec方法之間進行公平的比較。需要更多的研究從理論上分析或解釋EDL的搜索能力。此外，在提高EDL在兩種基準測試(例如，大規模和小規模數據)和真實應用程序上的性能方面還需要做很多工作。最后，端到端EDL的開發具有一定的挑戰性，值得我們付出更多的努力。

付費5元查看完整內容