亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

首篇《面向軟件工程的大型語言模型》綜述,值得關注!

大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域

1. 概述

在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:

我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示

我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?

(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。

RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。

結論

隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

此綜述關注大型語言模型(LLMs)中的事實性關鍵問題。隨著LLMs在各種領域的應用,它們輸出的可靠性和準確性變得至關重要。我們將“事實性問題”定義為LLMs生成與既定事實不一致內容的概率。我們首先深入探討這些不準確性的影響,強調LLM輸出中事實性錯誤可能帶來的潛在后果和挑戰。隨后,我們分析LLMs存儲和處理事實的機制,尋找事實錯誤的主要原因。我們的討論接著轉向評估LLM事實性的方法,強調關鍵指標、基準和研究。我們進一步探索提高LLM事實性的策略,包括為特定領域量身定制的方法。我們關注兩種主要的LLM配置—獨立LLMs和利用外部數據的檢索增強型LLMs—我們詳細說明它們的獨特挑戰和潛在增強。我們的綜述為旨在加強LLM事實可靠性的研究者提供了一個結構化指南。我們始終維護并更新相關的開源材料,地址為 //github.com/wangcunxiang/LLM-Factuality-Survey。

對知識掌握的追求一直是人工智能系統發展中的基礎愿景。從歷史上看,McCarthy等人(1955年)和Newell與Simon(1976年)的開創性工作都強調了知識表示和推理在AI系統中的重要性。例如,Cyc項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為AI系統提供對世界的全面了解(Lenat, 1995年)。同時,像Miller等人(1990年)的WordNet項目致力于創建捕獲單詞之間語義關系的詞匯數據庫,從而幫助AI系統掌握人類語言的細微差別。 在這些開創性努力之中,Large Language Models(LLMs)的出現,如ChatGPT(OpenAI, 2022b),GPT-4(OpenAI, 2023)和LLaMA(Touvron等人,2023a,b),在學術界和工業界都被視為一個重大的飛躍,尤其是向著擁有大量事實知識的AI系統(OpenAI, 2022a, 2023)。使用LLMs作為知識庫載體的優點是多種多樣的。首先,它們減少了構建和維護專用知識庫的開銷和成本(AlKhamissi等人,2022;Petroni等人,2019c;Wang等人,2023b)。此外,LLMs提供了一種更靈活的知識處理和利用方法,允許進行上下文感知的推理,并具有適應新信息或提示的能力(Huang和Chang,2023;Sun等人,2023a)。然而,盡管它們具有無與倫比的能力,人們對LLMs生成的非事實性或誤導性內容的可能性產生了擔憂(Bender等人,2021;Bubeck等人,2023;OpenAI, 2023)。鑒于這些進展和挑戰,本綜述旨在深入探討LLMs,探索它們的潛力以及圍繞其事實準確性的關注。

了解大型語言模型的事實性不僅僅是一個技術挑戰;對于我們在日常生活中負責任地使用這些工具來說,這是至關重要的。隨著LLMs越來越多地融入到搜索引擎(Microsoft,2023)、聊天機器人(Google,2023; OpenAI,2022b)和內容生成器(Cui等人,2023b)等服務中,它們提供的信息直接影響著數百萬人的決策、信仰和行動。如果一個LLM提供了不正確或誤導性的信息,它可能導致誤解、傳播錯誤的信仰,甚至造成傷害,尤其是對于那些要求高事實準確性的領域(Ling等人,2023b),如健康(Tang等人,2023;Thirunavukarasu等人,2023)、法律(Huang等人,2023a)和金融(Wu等人,2023)。例如,一個依賴LLM進行醫學指導的醫生可能無意中危及患者健康,一個利用LLM洞察力的公司可能做出錯誤的市場決策,或一個被LLM誤導的律師可能在法律程序中失誤(Curran等人,2023)。此外,隨著基于LLM的代理人的發展,LLMs的事實性變得更加強大。駕駛員或自動駕駛汽車可能依賴基于LLM的代理進行規劃或駕駛,其中LLMs犯的嚴重事實錯誤可能造成不可逆轉的損害。通過研究LLMs的事實性,我們的目標是確保這些模型既強大又值得信賴。

近年來,有大量的研究致力于評估LLMs的事實性,這包括像事實性問題回答和事實核查等多種任務。除了評估,努力提高LLMs的事實知識也很顯著。策略的范圍從從外部知識庫檢索信息到持續的預訓練和有監督的微調。然而,盡管有這些日益增長的努力,對LLMs中的事實性進行全面概述仍然是個難題。雖然該領域存在一些調查,如Chang等人(2023年)和Wang等人(2023g年)深入研究了LLMs及其事實性的評估,但它們只觸及了更廣泛的領域的表面。還有一些最近的研究專注于LLMs中的錯覺問題(Rawte等人,2023年; Ye等人,2023年; Zhang等人,2023f年)。但我們在第2.2節中區分了錯覺問題和事實性問題。此外,這些調查經常忽視了我們強調的關鍵領域,如特定領域的事實性或過時信息的挑戰。盡管Ling等人(2023a年)探討了LLMs的領域專長,但我們的調查更加廣泛地關注事實性的更廣泛問題。

據我們了解,我們的工作是對大型語言模型事實性的首次全面研究。 這份綜述旨在為LLMs中的事實性研究提供一個詳盡的概覽,深入探討四個關鍵維度:第2節)事實性問題的定義和影響(Nori等人,2023;Pranshu Verma,2023);第3節)評估事實性的技術及其定量評估(Huang等人,2023b;Min等人,2023);第4節)分析LLMs中事實性的基本機制并確定事實錯誤的根本原因(Kotha等人,2023;Liu等人,2023b);以及第5節)提高LLMs事實性的方法(Du等人,2023;He等人,2022)。值得注意的是,我們將LLMs的使用分類為兩種主要的設置:沒有外部知識的LLMs,如ChatGPT(OpenAI,2022b)和檢索增強型LLMs,如BingChat(Microsoft,2023)。這次調查的完整結構在圖1中說明。通過對現有研究的詳細檢查,我們希望闡明LLMs的這一關鍵方面,幫助研究者、開發者和用戶負責任和有效地利用這些模型的力量。 **增強 **

本節討論在不同階段增強LLMs事實性的方法,包括LLM生成、檢索增強生成、推斷階段的增強以及特定領域的事實性改進,如圖2所示。表7提供了增強方法的概要以及它們相對于基線LLM的改進情況。必須認識到,不同的研究論文可能采用不同的實驗設置,如零射擊、少數射擊或完全設置。因此,在檢查這個表格時,重要的是要注意,即使在評估同一數據集上的同一指標,不同方法的性能指標也可能不是直接可比的。

單獨LLM生成 當關注單獨的LLM生成時,增強策略可以大致分為三大類: (1) 從無監督語料庫中提高事實知識(第5.1.1節):這涉及到在預訓練期間優化訓練數據,如通過去重和強調有信息性的詞語(Lee等人,2022a)。還探討了像TOPICPREFIX(Lee等人,2022b)和句子完成損失這樣的技術來增強這種方法。 (2) 從監督數據中增強事實知識(第5.1.2節):這一類的例子包括監督微調策略(Chung等人,2022;Zhou等人,2023a),這些策略關注于從知識圖譜(KGs)中整合結構化知識或對模型參數進行精確調整(Li等人,2023d)。 (3) 最佳地從模型中提取事實知識(第5.1.3節, 5.1.4節, 5.1.5節):這一類包括像多代理協作(Du等人,2023)和創新提示(Yu等人,2023)這樣的方法。此外,還引入了像事實核心抽樣這樣的新穎解碼方法,以進一步提高事實性(Chuang等人,2023;Lee等人,2022b)。

關于檢索增強生成 檢索增強生成(RAG)已經成為一種廣泛采用的方法,用于解決獨立LLMs固有的某些局限性,如過時的信息和無法記憶的問題(Chase,2022; Liu,2022)。這些挑戰在第4.2.1節中詳細討論。然而,雖然RAG為某些問題提供了解決方案,但它也引入了自己的一系列挑戰,包括信息不足的可能性和對相關數據的誤解,如第4.2.2節中詳細說明。本小節深入探討了為緩解這些挑戰而設計的各種策略。在檢索增強生成的領域內,增強技術可以廣泛地分為幾個關鍵領域: (1) 利用檢索文本進行生成的正常設置(第5.2.1節)。 (2) 交互式檢索和生成(第5.2.2節):這里的例子包括將Chain-of-Thoughts步驟集成到查詢檢索中(He等人,2022),以及使用基于LLM的代理框架進入外部知識APIs(Yao等人,2023a)。 (3) 將LLMs適應到RAG設置(第5.2.3節):這涉及到像Peng等人提出的方法(2023),該方法結合了一個固定的LLM和一個即插即用的檢索模塊。另一個值得注意的方法是REPLUG(Shi等人,2023),一個檢索增強框架,將LLM視為一個黑盒,并使用語言建模分數對檢索模型進行微調。 (4) 從其他知識庫中檢索(第5.2.5節和第5.2.4節):這一類包括從外部參數記憶(Chen等人,2023a)或知識圖(Zhang等人,2023d)檢索的方法,以增強模型的知識庫。 **領域事實增強的LLMs **

領域知識缺陷不僅是限制LLM在特定領域應用的重要原因,而且是學術界和工業界都非常關心的一個主題。在這個小節中,我們討論了那些特定領域的LLMs是如何增強它們的領域事實性的。 表8列出了領域事實性增強的LLMs。在此,我們包括了幾個領域,包括醫療健康(H)、金融(F)、法律/法規(L)、地球科學/環境(G)、教育(E)、食品檢測(FT)和家居翻新(HR)。

結論

在這份綜述中,我們系統地探討了大型語言模型(LLMs)內部事實性問題的復雜景觀。我們首先定義了事實性的概念(第2.2節),然后討論了其更廣泛的意義(第2.3節)。我們的旅程帶領我們穿越了事實性評估的多面領域,包括基準(第3.2節)、指標(第3.1節)、特定評估研究(第3.3節)和特定領域的評估(第3.4節)。接著,我們深入探索,探討了支撐LLMs中事實性的內在機制(第4節)。我們的探索在增強技術的討論中達到高潮,既有純LLMs(第5.1節)也有檢索增強型LLMs(第5.2節),特別關注特定領域的LLM增強(第5.3節)。 盡管本綜述中詳細描述了許多進展,但仍有許多挑戰。事實性的評估仍然是一個復雜的難題,由自然語言的固有變異性和細微差別使其變得復雜。關于LLMs如何存儲、更新和產生事實的核心過程尚未完全揭示。盡管某些技術,如持續培訓和檢索,顯示出了前景,但它們也不是沒有局限性。展望未來,尋求完全基于事實的LLMs既帶來挑戰,也帶來機會。未來的研究可能會深入了解LLMs的神經結構,開發更為強大的評估指標,并在增強技術上進行創新。隨著LLMs日益融入我們的數字生態系統,確保其事實可靠性將始終是最重要的,這對AI社區及其更廣泛的領域都有影響。

付費5元查看完整內容

來自華中科技大學最新《研究用戶友好和開源的大型GPT模型:關于語言、多模態和科學GPT模型的調查》,值得關注!

生成預訓練變換器(GPT)模型已經徹底改變了自然語言處理(NLP)領域,它們在多種任務中表現出色,而且也擴展到了多模態領域。盡管取得了成功,像GPT-4這樣的大型GPT模型卻面臨著固有的限制,例如龐大的大小、高計算需求、復雜的部署過程以及封閉的開發循環。這些約束限制了它們的廣泛應用,并引起了對負責任開發和使用的擔憂。由于希望克服這些限制同時保持高性能,因此產生了對用戶友好、相對小型且開源的GPT模型的需求。在這篇綜述論文中,我們檢查了大型GPT的開源替代模型,側重于用戶友好且相對小型的模型,以便更容易部署和使用本文的主要內容分為以下幾點:(1) 調查用戶友好且相對小型的替代GPT模型的架構、設計原則和權衡,重點關注它們克服大型GPT模型帶來的挑戰的能力。(2) 提出數據收集并分析預訓練數據源、數據質量、數量、多樣性,微調數據包括指令數據、對齊數據以及領域特定模型的領域特定數據。(3) 調查這些GPT模型的高效部署和微調技術。(4) 介紹正在進行的開源項目和倡議,以實現用戶友好的GPT模型的復制和部署。(5) 提供對這些相對小型GPT模型的基準評估的全面分析,并提供這些模型在實際使用中的人類評價,以給出一些人類喜歡的推薦。(6) 探討GPT模型在多模態環境中的擴展,側重于將NLP與計算機視覺整合的模型,也特別關注用戶友好的科學GPT模型和生物醫學領域。通過這個廣泛的調查,我們旨在為研究人員、實踐者和愛好者提供關于大型GPT的用戶友好且相對小型的開源模型的全面理解,了解它們目前的狀態、挑戰和未來的研究方向,激發開發更為高效、可訪問和多功能的GPT模型,滿足更廣泛的科學社區的需求,并推動通用人工智能領域的發展。源內容將持續在 //github.com/GPT-Alternatives/gpt_alternatives 上更新。

生成預訓練變換器(GPT)模型的出現,在自然語言處理(NLP)領域帶來了重大變革。這些基于變換器[1]架構的模型,在多種NLP任務中展現了卓越的能力[2, 3]。GPT模型的持續發展導致了越來越大且越來越復雜的版本,例如,大型GPT模型如GPT-4[3]以其無與倫比的性能獲得了極大的關注。然而,盡管它們具有卓越的能力,大型GPT模型也存在固有的局限性,限制了它們的廣泛采用、可用性和微調。

這些模型的龐大規模導致了高計算需求、巨大的內存使用和復雜的部署過程。例如,最新的模型GPT-4[3]使用了前所未有的計算和數據規模進行了訓練。這些限制不僅妨礙了資源有限的研究人員和實踐者獲取大型GPT模型,還引發了關于它們的能耗和環境影響的擔憂。除了這些與資源有關的挑戰外,大型GPT模型經常面臨與訓練數據相關的問題,包括生成偏見或不適當內容的可能性、對刻板印象的加強以及數據收集和預處理的透明度不足。解決這些局限性對于確保GPT模型在各種應用和領域中負責任的發展和部署至關重要。

由于渴望克服上述局限性同時保持大型GPT模型原有的高性能,因此產生了對替代GPT模型的需求。在這篇綜述論文中,我們進行了對大型GPT的用戶友好、相對小型和開源模型的深入檢查,專注于它們的架構、效率、部署策略和微調方法。通過探索這些替代模型,我們旨在提供對它們解決原始大型GPT模型帶來的挑戰的潛力的見解,并促進更為高效、可訪問和負責任的NLP技術的發展。

我們首先對這些開源GPT模型進行全面概述,討論它們的獨特功能、設計原則以及在開發過程中遇到的權衡。我們通過探索減小模型規模、內存使用和計算需求的技術而不犧牲性能,強調這些模型中效率的重要性。這個分析使我們能夠確定有前途的方法,這些方法可以幫助減輕大型GPT模型在資源需求和環境影響方面的局限性。

除了資源效率外,我們還研究了在這些GPT模型的發展中起關鍵作用的各個方面的數據。我們討論了作為訓練這些模型基礎的預訓練數據源,接著探討了影響模型性能[2, 4–6]的數據質量、數量和多樣性這些重要因素。此外,我們還研究了微調數據,包括指令數據和對齊數據,這些對于改善模型并確保它們能夠適應特定任務至關重要[7–10]。最后,我們探討了針對專業領域的挑戰和應用量身定制的模型的域特定數據。 隨后,我們研究了部署和微調替代GPT模型的方法和途徑,解決了與部署相關的挑戰,如硬件限制[11]。我們還討論了微調策略,包括零射擊和少數射擊學習,這些可以使這些模型定制用于特定任務和領域,同時減少生成偏見或不適當內容的風險[12–16]。此外,我們還深入研究了不同的開源努力和工具開發。我們檢查了開源倡議、庫[17–19]和平臺[20, 21],這些有助于在研究社區中開發、共享和合作GPT模型,促進更高效、可訪問和多功能模型的創新和發展。

重要的是,我們在這些開源GPT替代品的基準評估和人類評估中都賦予了重要的重點,確保了對它們性能的周到評估。具體來說,我們在多個領域的著名基準數據集上測試了這些模型[22–26],提供了它們能力的強健比較。此外,我們通過收集一系列多樣化、有意義和具有代表性的指令來進行人類評估,這使我們能夠收集到寶貴的實際反饋。深入的結果分析提供了對這些模型的優缺點的寶貴見解。

我們還探討了多模態[27–29]和科學GPT模型[30, 31]的新興領域,突出了它們在專業領域的潛在應用和性能。最后,我們總結了整個調查,并深思了替代GPT模型對人工智能領域和整個社會的廣泛影響,對GPT模型的現有挑戰和局限性進行了討論,并強調了開發更高效、可訪問、可靠和多功能GPT模型的未來方向。

GPT模型

我們研究的替代模型有三個要求:(1)它在大量數據上進行預訓練,并且模型的大小相對較小,便于用戶友好地使用(近100億參數)。(2)它滿足基本要求,可以生成(主要是基于文本的)內容。(3)模型檢查點可訪問,因此從業者可以將其用于進一步的研究和下游應用

2.1 大型語言基礎模型的歷史

自Transformer[32]模型出現以來,自然語言處理領域發生了重大變革。Transformer模型不僅在性能方面優越(例如,用于機器翻譯[32]),而且比RNN[33]模型如LSTM[34]和GRU[35]更易于并行化。GPT-1[36]和Bert[37]是最早嘗試利用Transformer模型進行無監督預訓練的嘗試。通過在大量無標簽數據上預訓練并在下游數據上微調,它們成為了NLP排行榜上的最先進模型。Bert和GPT-1的不同預訓練目標,即遮蔽語言建模和下一個令牌預測,促使了他們的專長。當通過微調比較類似的模型大小時,人們觀察到BERT在語言理解任務上的表現優于GPT,而GPT更適合語言生成任務。從GPT-1[36]和GPT-2[38]到GPT-3[2]的GPT模型的演變,觀察到了自回歸語言模型的兩個突出特征:(1)通過增加模型大小和預訓練數據大小,可以提高性能。(2)GPT-3通過執行上下文學習和提示,展現出了非凡的少樣本和零樣本性能。自GPT-3成功以來,已經開發出越來越多的大型語言模型。此后,大型語言模型的發展中的一個里程碑是ChatGPT1的出現,這是一個經過強化學習人類反饋(RLHF)微調的會話模型,并建立在GPT-3.5的基礎上,這是GPT-3的升級版本。通過人類偏好的對齊,ChatGPT展現出了出色的會話熟練度,并迅速在公眾中得到了認可。繼ChatGPT的卓越成就之后,社區最近見證了GPT-4[3]的發布。GPT-4展示了改進的會話熟練度、增強的上下文理解能力和更準確、連貫的回應。通過采用前沿技術并基于ChatGPT和GPT-3.5的成功,GPT-4在多個領域(例如,多模式)取得了重大進展,這標志著大型語言模型演變的另一里程碑,展示了在不久的將來實現更多突破性創新和應用的潛力。在這個過程中,整個AI社區為開發類似GPT的大型語言模型付出了巨大的努力,既有大公司(例如Bard2)旨在構建更強大的模型,也有創建開源替代品(例如LLaMA[39])以促進基礎模型的發展。近年來,這些大型語言模型(LLMs)的概述歷史如圖2所示。

2.2 開放式語言基礎模型

在本節中,我們介紹了由整個社區開發的開源語言模型的努力。對于這些語言基礎模型,我們主要集中在以下幾個方面:1)模型結構:Transformer[32]架構已成為大型語言模型的通用架構。Transformer架構主要有三種適應,即僅編碼器,僅解碼器和編碼器-解碼器。顧名思義,僅編碼器Transformer只利用編碼器部分,例如Bert[37],ERNIE[83],ELECTRA[84]等。僅解碼器Transformer只利用解碼器部分,例如GPT系列[2, 36, 38],OPT[46],BLOOM[6],PaLM[4],LLaMA[85]等。編碼器-解碼器Transformer利用整個Transformer架構,例如T5[40],Bart[86],GLM[87]等。值得注意的是,本次調查論文主要關注基于解碼器的GPT類模型。

2)預訓練數據集:模型的性能和泛化能力受到預訓練數據的質量和大小的顯著影響。重點主要在公共數據集上。數據集的兩個常用來源是網絡爬取和書籍/文學。以LLaMA[39]為例,預訓練數據集是多個公開可用源的混合,包括English CommonCrawl、C4[40]、Github、維基百科、Gutenberg和Books3以及Stack Exchange。

3)預訓練任務:語言建模,即下一個標記預測,在大型語言模型中是主導的預訓練任務。最早從GPT-3[2]觀察到,擴大模型規模和預訓練數據可以極大地提高模型的少樣本/零樣本能力。使用此預訓練任務的其他代表性模型包括PaLM[4],LLaMA[39]等。早期工作,例如Bert[37],RoBERTa[88]采用了掩蔽語言建模目標。盡管這些模型擅長自然語言理解,但它們在語言生成和少樣本/零樣本能力方面卻不如人意。其他工作,如T5[40]和GLM[87]使用去噪預訓練目標。

接下來,我們將介紹幾個在上述方面開源的語言模型。這些模型的歷史總結在圖2中。

T5[40]是一個基于C4[40]用1T標記預訓練的編碼器-解碼器transformer模型。預訓練目標是去噪目標,即掩蔽連續范圍的標記并僅預測丟棄的標記。發布的模型檢查點包括60M、220M、770M、3B和11B。基于T5的Flan-T5[89]在鏈式思維數據上進行微調,其在下游任務上的性能比T5好得多。

mT5[41]是一個覆蓋101種語言的多語言編碼器-解碼器transformer模型,用1T標記預訓練。預訓練目標與T5相同。發布的預訓練模型檢查點包括300M、580M、1.2B、3.7B和13B。

GPT-J[45]是一個基于Pile[43]訓練的開源英語自回歸語言模型(GPT-like),擁有60億參數。它是一個僅使用下一個標記預測目標訓練的解碼器模型。

GPT-Neo[42]是GPT3-like模型的實現。它是一個解碼器模型,用下一個標記預測目標進行訓練,并在Pile[43]數據集上進行訓練。發布的預訓練模型檢查點包括125M、350M、1.3B和2.7B。GPT-NeoX-20B[44]是GPT-Neo的更大擴展版本,發布的是一個200億參數模型。

OPT[46]是一套僅解碼器的預訓練transformer。訓練目標也是下一個標記預測。發布的模型檢查點包括125M、1.3B、2.7B、6.7B、13B、30B、66B和175B。

Bloom[6]是一個開放存取的多語言語言模型。它是一個僅使用下一個標記預測目標訓練的解碼器模型。發布的模型檢查點包括560M、1B1、1B7、3B、7B1和176B。BloomZ是基于Bloom的多任務提示微調模型。 GLM[50, 52]是一個預訓練的編碼器-解碼器模型,具有自回歸空白填充目標。發布的預訓練模型檢查點包括110M、335M、410M、515M、2B、10B和130B。ChatGLM-6B和ChatGLM2-6B是基于GLM進行微調的兩個開源的中英文雙語聊天模型。 LLaMA[39]是一個與GPT-3相似的開源自回歸語言模型,進行了適度的架構修改。發布的預訓練模型檢查點包括7B、13B、33B和65B。由于LLaMA是第一個被廣泛認可的性能滿意(與GPT-3相當)的開源大型語言模型,因此我們認為LLaMA是在大型語言模型領域開放源碼的里程碑。

2.3 評估模型

在本次調研中,我們的主要貢獻是探索了各種類似GPT的開放模型的潛力,通過在多個維度上進行全面評估。這些維度包括通用語言基準,這是這些語言模型的主要關注點,還包括科學領域數據集和多模態數據集,作為這些多模態基礎模型和科學GPT模型的額外評估。另一個重要的是我們付出了大量努力的人工評估。因此,評估的模型在表2中列出,用于語言模型和科學語言模型,在表3中列出,用于多模態模型。所有評估中的模型都來自Huggingface [17] 或原始的 Github 倉庫。

總之,我們對大約10B不同模型大小的32個開源模型進行了評估。更具體地說,我們對表2中的24個模型進行了語言和科學GPT模型的基準評估,對表3中的8個模型進行了多模態GPT模型的基準評估。對于人工評估,我們評估了其中的16個模型,進行了相對全面的研究,以得出更有說服力的結果。

2.4 評估提示

為了建立基線模型的性能并實現公平比較,我們采用了與[97]的工作中使用的類似的提示結構,貫穿我們的整個評估和研究。我們使用的提示模板在圖3中說明。而且,在圖3中,占位符{{System meta instructions}}將用表4中的相應文本替代,用于已正式發布系統元指令的模型。對于沒有這樣的指令的模型,我們使用一個空字符字符串來替換占位符。此外,我們遵循[97],利用logit_bias來鼓勵模型僅產生有效的響應。

結論

在這項調查中,我們對大型生成預訓練變換器(GPT)系統的替代開源模型進行了全面審查,特別關注了用戶友好且相對較小的模型,這些模型克服了其更大的同類所帶來的限制。我們的研究強調了這些開源的GPT類似模型的潛力,它們能夠解決與尺寸、復雜性和封閉開發環路相關的挑戰,同時仍然能夠在各種任務中維持高性能,并將其功能擴展到多模態領域。

我們展望未來,可以看到更多的研究和發展集中在創建更加有效、可擴展和用戶友好的開源模型上。這些模型將克服當前大型模型的限制,提供更加靈活和多樣化的解決方案,滿足不同的應用需求。同時,這也推動了多模態學習和生成模型的研究,加深了我們對模型和數據的理解,為進一步的創新和發展奠定了基礎。 未來方向可能會集中在減小模型大小和復雜性、提高模型泛化能力、開發多模態和跨模態模型、實現更有效的訓練和微調方法等方面。此外,將持續關注開發更多用戶友好和易于使用的模型,以及進一步推動開源和共享資源的發展,使更多人能夠受益。

付費5元查看完整內容

大模型的興起在改變各個領域?如何把大模型用到推薦系統,是近期該領域關注的一個話題。來自香港理工大學等學者最新的《大型語言模型(LLMs)時代的推薦系統》,全面介紹了LLMs增強推薦系統的最新進展和挑戰。

隨著電子商務和網絡應用的繁榮,推薦系統(RecSys)已成為我們日常生活中的重要組成部分,為用戶提供個性化建議,滿足其偏好。雖然深度神經網絡(DNNs)在通過建模用戶-物品交互并融合文本信息方面在增強推薦系統方面取得了重大進展,但這些基于DNN的方法仍然存在一些局限性,如難以有效理解用戶的興趣和捕捉文本信息、在各種已見/未見推薦場景中無法泛化以及缺乏對其預測的推理能力等。 同時,諸如ChatGPT和GPT4之類的大型語言模型(LLMs)的出現,由于它們在語言理解和生成等基本任務上的顯著能力以及令人印象深刻的泛化和推理能力,已經徹底改變了自然語言處理(NLP)和人工智能(AI)領域。因此,近期的研究嘗試利用LLMs的能力來增強推薦系統。

鑒于推薦系統中這一研究方向的快速發展,迫切需要一個系統性的概述,總結現有的LLM增強推薦系統,以便為相關領域的研究人員和實踐者提供深入的理解。因此,在本綜述中,我們從預訓練、微調和提示等多個方面全面調研了LLM增強推薦系統,具體包括首先介紹代表性方法,以利用LLMs(作為特征編碼器)來學習用戶和物品的表示。然后,我們從預訓練、微調和提示三個范式的角度調研了LLMs的最新高級技術,以增強推薦系統。最后,我們全面討論了這一新興領域的有前途的未來方向。

//www.zhuanzhi.ai/paper/57be25ae9ed013cd3d7ff9d65eee6c6a

概述

推薦系統(RecSys)在緩解信息過載,豐富用戶在線體驗方面發揮著重要作用(即用戶需要過濾海量信息以找到感興趣的信息)[1],[2]。它們針對不同應用領域,如娛樂[3]、電子商務[4]和職位匹配[2],為候選項提供個性化建議,以滿足用戶的偏好。例如,在電影推薦(如IMDB和Netflix)中,根據電影內容和用戶過去的互動歷史,向用戶推薦最新的電影,幫助用戶發現符合其興趣的新電影。 推薦系統的基本思想是利用用戶與物品之間的交互以及它們相關的附加信息,特別是文本信息(如物品標題或描述、用戶資料以及物品的用戶評價),來預測用戶與物品之間的匹配分數(即用戶可能喜歡物品的概率)[5]。更具體地說,用戶和物品之間的協同行為已被用來設計各種推薦模型,進而可以用于學習用戶和物品的表示[6],[7]。此外,關于用戶和物品的文本附加信息包含豐富的知識,可以幫助計算匹配分數,為推進推薦系統提供了深入了解用戶偏好的重要機會[8]。

由于在各個領域中具有顯著的表示學習能力,深度神經網絡(DNNs)已被廣泛采用來推進推薦系統[9],[10]。DNNs在建模用戶-物品交互方面展現出獨特的能力,具備不同的架構。例如,作為處理序列數據的特別有效工具,循環神經網絡(RNNs)已被用于捕捉用戶互動序列中的高階依賴關系[11],[12]。將用戶的在線行為(如點擊、購買、社交)視為圖結構數據時,圖神經網絡(GNNs)已成為先進的表示學習技術,用于學習用戶和物品的表示[1],[6],[13]。同時,DNNs在編碼附加信息方面也表現出優勢。例如,提出了基于BERT的方法來提取和利用用戶的文本評論[14]。

盡管前述的成功,大多數現有的先進推薦系統仍然面臨一些固有的局限性。首先,由于模型規模和數據大小的限制,之前針對推薦系統的基于DNN的模型(如CNN和LSTM)以及預訓練語言模型(如BERT)無法充分捕捉有關用戶和物品的文本知識,展現出較差的自然語言理解能力,從而在各種推薦場景中導致次優的預測性能。其次,大多數現有的RecSys方法都是針對特定任務進行設計的,對于未見過的推薦任務缺乏充分的泛化能力。例如,一個推薦算法在用戶-物品評分矩陣上進行良好訓練,用于預測電影評分,但是對于該算法在一些解釋性要求下進行電影的前k推薦是具有挑戰性的。這是因為這些推薦架構的設計高度依賴于特定任務的數據和領域知識,適用于特定的推薦場景,如前k推薦、評分預測和可解釋的推薦。第三,大多數現有的基于DNN的推薦方法可以在需要簡單決策的推薦任務上取得有希望的性能(如評分預測和前k推薦)。然而,在支持涉及多個推理步驟的復雜多步決策方面,它們面臨困難。例如,多步推理對于旅行規劃推薦至關重要,推薦系統首先應考慮基于目的地的熱門旅游景點,然后安排與旅游景點相對應的合適行程,并最終根據特定用戶偏好(如旅行費用和時間)推薦一份行程計劃。

近期,作為先進的自然語言處理技術,擁有數十億參數的大型語言模型(LLMs)已經在自然語言處理(NLP)[15]、計算機視覺[16]和分子發現[17]等各個研究領域產生了巨大影響。從技術上講,大多數現有的LLMs都是基于Transformer架構的模型,它們在大量來自不同來源(如文章、書籍、網站和其他公開可用的書面材料)的文本數據上進行預訓練。隨著LLMs的參數規模隨著更大的訓練語料庫而不斷擴大,近期的研究表明LLMs可以具備卓越的能力[18],[19]。更具體地說,LLMs已經展示了其在語言理解和生成方面前所未有的強大能力。這些改進使得LLMs能夠更好地理解人類意圖,并生成更加接近人類自然語言的語言響應。此外,近期的研究表明,LLMs表現出令人印象深刻的泛化和推理能力,使得LLMs能夠更好地泛化到各種未見任務和領域。具體來說,LLMs不需要在每個特定任務上進行廣泛的微調,而是可以通過提供適當的指令或少量任務示例來應用其所學的知識和推理能力,從而適應新的任務。高級技術,如上下文學習,還可以在不對特定下游任務進行微調的情況下進一步增強LLMs的這種泛化性能[19]。此外,通過諸如思維鏈等提示策略的加持,LLMs可以在復雜的決策過程中生成具有逐步推理的輸出。因此,鑒于它們強大的能力,LLMs展示了改革推薦系統的巨大潛力。

最近,已經開始嘗試將LLMs作為下一代推薦系統的有前途的技術進行探索。例如,Chat-Rec [3] 提出了通過利用ChatGPT與用戶進行對話并優化傳統RecSys生成的電影推薦候選集來增強推薦準確性和可解釋性的方法。張等人 [20] 利用T5作為基于LLMs的RecSys,使用戶能夠以自然語言形式傳遞其明確的偏好和意圖作為RecSys輸入,展示出比僅基于用戶-物品交互更好的推薦性能。圖1展示了將LLMs應用于各種電影推薦任務的一些示例,包括前k推薦、評分預測、對話式推薦和解釋生成。鑒于其快速發展,有必要全面調研LLMs增強推薦系統的最新進展和挑戰。因此,在本綜述中,我們從預訓練、微調和提示的范例出發,為推薦系統中的LLMs提供了全面的概述。

**本綜述的剩余部分組織如下。**首先,在第2節中,我們回顧了有關RecSys和LLMs以及它們在其中的結合方面的相關工作。然后,在第3節中,我們闡述了兩種利用LLMs來學習用戶和物品表示的LLM增強型RecSys,分別是基于ID的RecSys和增強文本附加信息的RecSys。隨后,在第4節和第5節分別總結了在預訓練和微調范式以及提示范式中采用LLMs來推進RecSys的技術。最后,在第6節中,我們討論了LLM增強推薦系統面臨的一些挑戰和潛在未來方向。與我們的調查同時進行,劉等人 [21] 回顧了適用于推薦系統的語言建模范式的訓練策略和學習目標。吳等人 [22] 從辨別和生成的角度總結了LLMs在推薦系統中的應用。林等人 [23] 介紹了兩個正交的觀點:在推薦系統中如何以及如何適應LLMs。 深度表示學習用于基于LLMs的推薦系統

用戶和物品是推薦系統的原子單位。為了表示推薦系統中的物品和用戶,一種直接的方法是為每個物品或用戶分配一個唯一的索引(即離散的ID)。為了捕捉用戶對物品的偏好,基于ID的推薦系統被提出,以從用戶-物品交互中學習用戶和物品的表示。此外,由于關于用戶和物品的文本附加信息提供了豐富的知識以理解用戶的興趣,因此發展了增強文本附加信息的推薦方法,以在端到端的訓練方式中增強推薦系統中的用戶和物品表示學習。在本節中,我們將介紹這兩個利用語言模型在推薦系統中的類別。這兩種類型的推薦系統如圖2所示。

為推薦系統預訓練和微調LLMs

一般來說,在開發和部署LLMs進行推薦任務時,有三種關鍵方法,即預訓練、微調和提示。在本節中,我們首先介紹預訓練和微調的范式,分別如圖3和圖4所示。具體來說,我們將重點關注LLMs用于推薦系統中的具體預訓練任務以及用于下游推薦任務更好性能的微調策略。請注意,下面提到的工作已在表1和表2中進行了總結。

為推薦系統啟用LLMs的提示策略

除了預訓練和微調的范式之外,提示被視為將LLMs適應特定下游任務的最新范式,借助任務特定的提示。提示是指可以應用于LLMs輸入的文本模板。例如,可以設計一個提示“關系和之間的關系是。”來部署LLMs用于關系抽取任務。提示使LLMs能夠將不同的下游任務統一為語言生成任務,在預訓練期間與其目標保持一致[86]。為了促進LLMs在推薦系統中的性能,越來越多地研究了類似于In-context Learning(ICL)和Chain-of-Thought(CoT)的提示技術,以手動設計適用于各種推薦任務的提示。此外,提示調整作為提示的一種補充技術,通過向LLMs添加提示令牌,然后基于任務特定的推薦數據集進行更新。最近,探索了將預訓練和微調范式與提示相結合的指導調整技術[87],通過基于指令的提示對LLMs進行多個推薦任務的微調,從而增強了LLMs在未見推薦任務上的零-shot性能。圖5比較了與LLMs的前述三種提示技術對應的代表性方法,從LLMs的輸入形式和參數更新(即可調整或凍結)方面進行了比較。在本節中,我們將詳細討論提示、提示調整和指令調整技術,以提高LLMs在推薦任務上的性能。總之,表3根據前述三種技術對現有工作進行了分類,包括這些工作中考慮的具體推薦任務和LLMs的骨干。

結論

作為最先進的人工智能技術之一,LLMs在各種應用中取得了巨大成功,例如分子發現和金融領域,這要歸功于它們在語言理解和生成方面的顯著能力、強大的泛化和推理能力,以及對新任務和多樣領域的快速適應能力。類似地,越來越多的努力已經投入到用LLMs改革推薦系統,以提供高質量和個性化的建議服務。鑒于推薦系統中這個研究課題的快速發展,迫切需要一個系統性的概述,全面總結現有的LLM增強推薦系統。為了填補這一空白,在本調查中,我們從預訓練&微調和提示范式出發,為相關領域的研究人員和從業者提供深入的理解,提供了LLM增強推薦系統的全面概述。然而,目前關于LLMs在推薦系統中的研究仍處于早期階段,需要更多系統和全面的LLMs在這個領域的研究。因此,我們還討論了這個領域的一些潛在未來方向。

付費5元查看完整內容

如何讓模型適配專業領域?這篇文章夠了

大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。

在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:

? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,

1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。

2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。

3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。

3 LLM領域專業化的應用

在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:

? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。

4. 結論

總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

首篇時序預訓練綜述!

時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。

最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述

? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。

3. 實驗結果與分析

在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。

6. 結論

在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。

縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)

由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)

巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)

Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/

付費5元查看完整內容

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容

浙江大學最新《可解釋強化學習》綜述,37頁pdf1闡述XRL概念、算法、挑戰

強化學習(RL)是一種流行的機器學習范式,智能體與環境交互以實現長期目標。在深度學習復興的推動下,深度RL (DRL)在廣泛的復雜控制任務中取得了巨大成功。盡管取得了令人鼓舞的結果,但基于深度神經網絡的骨干網被廣泛認為是一個黑盒,它阻礙了從業者在高安全性和可靠性至關重要的現實場景中信任和使用經過訓練的智能體。為了緩解這個問題,通過構建內在解釋性或事后解釋性,大量的文獻致力于闡明智能智能體的內部工作方式。在本綜述中,我們對可解釋RL (XRL)的現有工作進行了全面的回顧,并引入了一種新的分類法,將先前的工作明確地分為模型解釋方法、獎勵解釋方法、狀態解釋方法和任務解釋方法。本文還回顧并強調了強化學習方法,這些方法反過來利用人類知識來提高智能體的學習效率和最終性能,而這種方法在XRL領域往往被忽略。討論了XRL中一些開放的挑戰和機遇。本綜述旨在對XRL進行高層次的總結和更好的理解,并推動未來對更有效的XRL解決方案的研究。相應的開放源代碼可以在//github.com/Plankson/awesome-explainable-reinforcement-learning上收集和分類。

概述

強化學習[193]受到人類試錯范式的啟發[143]。它基于這樣一個事實:與環境互動是人類在沒有他人指導的情況下學習的常見方式[98]。從互動中,人類獲得了關于因果關系、行動結果以及如何在環境中實現目標的信息。這類信息被隱式地用來構建我們的心智模型[155,218,225],而更多這類信息將使這個心智模型更加精確[22,171]。RL類似于目標導向的學習,通過與環境的交互,敏銳地意識到環境如何響應我們的行為,并有目的地影響未來的事件。更準確地說,RL學會從環境狀態映射到行動,從而最大化數值獎勵信號[189]。近年來,深度學習的快速發展[15,194]促進了深度學習與強化學習的融合。因此,深度強化學習(DRL)[44, 60, 134, 135, 177]作為一種新的RL范式出現。憑借深度神經網絡強大的表示能力[7,51,230],DRL在許多領域都取得了相當的性能[17,24,29,37,11,121,184],特別是在AlphaZero[184]和OpenAI Five[17]等游戲任務中,基于DRL的方法成功擊敗了人類職業選手。然而,對于現實場景中更復雜的任務,如自動駕駛[25,39,79,213,214]和電力系統調度[109,115,226,227,239],不僅要考慮高性能,還要考慮面向用戶的可解釋性,以考慮安全性和可靠性。這種可解釋性的要求是在真實世界而不是模擬環境中使用DRL的主要瓶頸。

由于深度神經網絡(DNN)的主干復雜,傳統的DRL方法的可解釋性較低[67,100,185,195]。追蹤和解釋一個神經系統中的每個參數,并將其擴展到整個網絡,這是非常棘手的。因此,我們不知道DNN考慮了哪些隱式特征,以及DNN如何處理這些特征。這個缺點導致DRL模型正在成為一個黑盒[84,232],專家無法理解智能體如何知道環境或智能體為什么選擇特定的行動。這種不透明性限制了DRL的應用,因為大多數人不會輕易信任智能體,特別是當智能體在沒有解釋決策過程的原因的情況下與他們的期望完全相反時。例如,在自動導航任務中[32,156],人們可能會對導航代理在沒有告訴他們原因的情況下進行的異常引導感到困惑,這可能只是為了避免交通堵塞。此外,可解釋性的缺乏也造成了在訓練過程中插入人類知識和指導的障礙[62,166]。盡管人類知識是以特定形式預先給定的[56,57,181,233,236],但智能體無法提取有效信息并從中受益。

為了解決可解釋性低的問題,在計算機視覺(CV)中的可解釋性人臉識別[43,85,165,219]和自然語言處理(NLP)中的可解釋性文本分類[8,119,186]等機器學習領域開展了許多可解釋性研究。可解釋機器學習的目標是生成不同形式的解釋,使模型對專家甚至外行人都是可解釋和透明的。它查看黑箱代理模型內部,自動提取或生成解釋,解釋為什么代理在每個時間步中選擇這個動作或給出這個結論。解釋的形式可以多種多樣,如自然語言[38,53,66]、顯著圖[54,83]或視頻[178]。通過可解釋的模型,智能體可以發現潛在的缺陷,并向專家解釋這些缺陷以進行進一步的改進。

對于可解釋強化學習(XRL)領域,人們在構建可解釋強化學習(XRL)模型方面做了許多初步的研究,并在解釋生成方面取得了一定的成果。為了對它們有一個完整的認識并總結當前的XRL技術,對XRL進行了幾次綜述[33,49,74,158,208,217]。Heuillet等人[74]回顧了關注解釋和用戶類型的方法。他們只是根據生成解釋的方式將方法分為兩類。這是一個初步的分類,需要進一步改進。Puiutta和Veith[158]遵循了基于解釋時間和范圍的傳統可解釋AI分類法。他們只是描述了一些有代表性的方法,并不是為了呈現對XRL的全面忽視。Wells和Bednarz[217]也列舉了各種XRL方法。但他們只關注可用于XRL領域的可視化技術。voros[208]將范圍限定在最先進的XRL方法中,并為XRL提供了一個架構符號范式,而解釋內容可分為代理偏好和目標的影響。Dazeley等人[33]提出了一個稱為因果XRL框架的概念架構,該框架解釋了XRL如何通過關注因果行為來生成對行為的解釋。該理論體系結構清晰而嚴謹,不僅考慮了感知、行動和事件,還考慮了目標、期望和處置。然而,現有的XRL框架只關注事件結果的感知和行動原因,這意味著現有的XRL技術只能用一種更簡單的因果XRL框架形式來表示。Glanois等人[49]明確界定了可解釋性和可解釋性之間的界限。他們將這些方法分為三種:可解釋輸入、過渡模型和偏好模型。它啟發我們關注RL的過程和結構。這些研究都提出了基于XRL的新分類法,但大多數都沒有基于RL范式。此外,從以上的綜述中我們可以發現,XRL領域仍然缺乏標準的標準,特別是在XRL的定義和評價方法方面,雖然許多人提出了自己的XRL標準[116,131,138,208],但沒有一個被整個DRL界所接受。目前的XRL框架大多沒有考慮人類參與的影響,只有少數論文試圖將基于人類知識的范式擴展到XRL領域,其研究結果有力地證明,這是一種既能獲得高解釋性又能獲得高性能的有效方法[237]。

為了使整個XRL體系結構得到進一步發展,系統地回顧了當前的XRL框架和綜述。明確了XRL模型可解釋性的概念,總結了模型可解釋性的評價指標。基于這些提出的XRL框架,我們提出了一種新的更適合于RL的XRL分類法。由于使整個RL范式可解釋目前是困難的,所有的工作都轉向對RL范式的組成部分可解釋。我們根據可解釋的目標部分對當前的XRL作品進行分類:模型、獎勵、狀態和任務。這四種部分解釋方法的目的是生成對主體行為的解釋。對于RL來說,這種分類法比一般的內在/事后/本地分類法要高級得多。考慮到基于人類知識的XRL工作的數量和它的重要性,我們將其分離出來,并試圖總結這些工作,并將它們組織到我們的分類法中。據我們所知,很少有研究者對這一領域進行了既包括人類知識又包括XRL的總結。我們的工作總結如下:

  • 基于可解釋RL和可解釋機器學習的現有文獻,我們對XRL中的模型可解釋性進行了詳細的總結。當前的XRL評估指標也包含在這個總結中。

  • 基于強化學習框架的不同部分(模型、獎勵、狀態和任務)的可解釋性,為當前的XRL作品引入了一種新的分類。可以在圖2中查看分類法。

  • 注意到目前基于人類知識的XRL是一個不受歡迎的方向,只有少數作品和顯著的結果,我們將其作為論文的主要部分之一,對這些將XRL框架與人類知識相結合以獲得更高性能和更好解釋的方法進行了系統的綜述。

本次綜述的其余部分組織如下。在第二節中,我們回顧了強化學習的必要基礎知識。接下來,我們將討論XRL模型可解釋性的定義,并在第3節中給出解釋和XRL方法的一些可能的評估方面。在第4節中,我們描述了我們的分類,并詳細提供了每個類型和子類型的工作,我們分類法的抽象圖可以在圖2中看到。然后我們根據第5節的分類討論與人類知識相結合的XRL工作。在此之后,我們在第6節中總結了XRL當前的挑戰和未來的發展方向。最后,在第7部分對本文的工作進行了總結。本文的結構和我們的分類法工作如圖1所示。

圖1所示概述。本文概述了可解釋強化學習(XRL)。在我們的工作中,我們根據強化學習(RL)過程中不同部分的可解釋性將XRL分為四個部分:模型、獎勵、狀態和任務。這張圖用不同的顏色表示。圖中還展示了更具體的分類和作品,我們將在后面的部分中討論它們。

付費5元查看完整內容

北京交通大學最新《深度因果模型》綜述論文,31頁pdf涵蓋216頁pdf詳述41個深度因果模型,值得關注!

因果關系概念在人類認知中起著重要作用。在過去的幾十年里,因果推理在計算機科學、醫學、經濟學和教育等許多領域都得到了很好的發展。隨著深度學習技術的發展,它越來越多地用于反事實數據的因果推理。通常,深度因果模型將協變量的特征映射到一個表示空間,然后根據不同的優化方法設計各種目標優化函數,無偏估計反事實數據。本文對深度因果模型進行了綜述,其核心貢獻如下: 1)提供了多劑量和連續劑量治療下的相關指標; 2)我們從時間發展和方法分類的角度整合了深度因果模型的全面概述; 3)我們協助對相關數據集和源代碼進行詳細和全面的分類和分析。

一般來說,因果關系指的是結果與產生結果的原因之間的聯系。這種現象的原因和影響很難定義,我們往往只能憑直覺意識到它們。因果推斷是一個根據因果關系發生的環境對因果關系作出結論的過程,在現實世界中有各種各樣的應用。例如,估計廣告中觀察數據的因果效應[3,4,5,6,7,8,9],開發與因果治療效果估計高度相關的推薦系統[10,11,12,13,14,15,16],學習醫學中患者的最佳治療規則[17,18,19],估計強化學習中的ITE[20,21,22,23,24,25,26,27,28],自然語言處理中的因果推理任務[29,30,31,32,33,34],新興的計算機視覺和語言交互任務[35,36,37,38,39],教育[40],政策決策[41,42,43,44,45]和改進的機器學習方法[46]等。

深度學習在應用于大數據時有助于人工智能的發展[47,48,49,50]。與傳統機器學習算法相比,深度學習模型計算效率更高,精度更高,在各個領域都有很好的表現。然而,許多深度學習模型是可解釋性較差的黑盒,因為它們更關心作為輸入和輸出的相關性,而不是因果關系[51,52,53]。近年來,深度學習模型被廣泛用于挖掘數據的因果關系而不是相關性[41,43]。因此,深度因果模型已成為基于無偏估計估計治療效果的核心方法[19,44,45,54]。目前,許多因果推理領域的研究都是利用深層因果模型來選擇合理的treatment 方案[55,56,57,58]。

在大數據中,所有趨勢變量都是相關的[59],因此發現因果關系是一個具有挑戰性的問題[60,61,62]。在統計學理論中,進行隨機對照試驗(randomized controlled trials, RCT)[63]是推斷因果關系最有效的方法。換句話說,樣本被隨機分配到處理組或對照組。盡管如此,現實世界的隨機對照試驗數據是稀疏的,有幾個嚴重的缺陷。涉及rct的研究需要大量特征變化不大的樣本,難以解釋,涉及倫理挑戰。事實上,選擇試驗對象來嘗試一種藥物或疫苗是不明智的[64,65]。因此,因果效應通常直接用觀察數據來衡量。獲取反事實結果的一個核心問題是如何處理觀測數據[66]。在分析觀察數據時,處理并不是隨機分配的,處理后的樣本的性能與普通樣本的性能有顯著差異[41,43]。不幸的是,我們無法在理論上觀察到其他結果,因為我們無法觀察到反事實結果[67]。主流研究的一個長期特征是使用潛在結果框架作為解決觀察數據因果推斷問題的手段[68]。潛在結果框架也被稱為Rubin因果模型[69]。因果推理與深度學習密切相關,因為它是使用Rubin因果模型概念化的。為了提高估計的準確性和無偏性,一些研究人員嘗試將深度網絡和因果模型結合起來。舉例來說,考慮分配平衡方法[41,43,44]的表示,協變量混雜學習方法[54,70,71]的效果,基于生成對抗網絡的方法[45,72,73]等[58,34,74]。由于深度學習方法促進了因果推理,因果推理也有助于深度學習方法的發展。除了提高因果效應估計的準確性,深度網絡的研究為開發深度學習算法提供了一個合理的基礎[75,76]。

近年來,人們對因果推理的各種觀點進行了討論[77,1,78,79,80,81,82,83,2]。表1列出了相關綜述的標題和要點。文獻[77]深入分析了因果推理的起源和變量發展,以及因果學習對因果推理發展的影響。此外,調查[1]對傳統和前沿的因果學習方法進行了概述,并對機器學習和因果學習進行了比較。許多學者討論了如何解釋機器學習。隨后,為了創建可解釋的人工智能算法,survey[79]結合了因果推理和機器學習。作為一種新穎的視角,因果表征學習正在蓬勃發展,綜述[80]利用它從低級觀察中發現高水平的因果變量,加強了機器學習和因果推理之間的聯系。由于近年來因果機器學習的流行,綜述[78]對圖因果推理與機器學習的相關性進行了詳細的討論。此外,在調查[81]中,作者考察了機器學習的最新進展如何應用于因果推理,并對因果機器學習如何有助于醫學科學的進步提供了全面的解釋。正如綜述[82]所認為的,基于深度學習可以改進和整理因果發現方法,可以探索可變范式來幫助思考和探索因果發現方法。推薦系統中的因果推理是調查的重點[83],它解釋了如何使用因果推理來提取因果關系,以增強推薦系統。長期以來,統計的潛在結果框架一直是連接因果推理和深度學習的橋梁,作為起點,綜述[2]檢查并比較了滿足這些假設的不同類別的傳統統計算法和機器學習算法。由于深度學習算法的快速發展,現有文獻在考察泛化時沒有考慮深度因果模型。因此,我們從深度網絡的角度,從時間和分類兩方面總結了深度因果模型。本綜述對近年來的深度因果模型進行了全面的回顧和分析。它有三個核心貢獻: 1)我們在多次treatments 和連續劑量treatments 的情況下納入了相關指標。2)我們從方法分類和時間發展的角度對深層因果模型進行了全面的概述。3)我們在相關數據集和源代碼的分析和分類方面提供詳細和全面的支持

以下是論文其余部分的大綱。如第2節所述,本文將介紹深度因果模型以及定義和假設。在第3節中,介紹了適當的例子和度量,包括二元treatment、多重treatment和連續劑量treatment。第4節展示了一個深度因果模型,包括概述和分析。第5節討論了深度因果模型的方法,包括分布平衡方法、協變量混雜學習方法、基于生成對抗網絡的方法、基于文本輸入時間序列的方法以及基于多treatment和連續劑量treatment模型的方法。相關實驗指南的列表如下第6節。論文的摘要在第7節中給出。

深度因果模型

通過對背景和基本定義的深入理解,本節將進入深度因果模型的核心。本文概述了深度因果模型及其在過去六年間的發展,包括基于時間軸的41個深度因果模型的分析。

近年來,深入因果模型的研究越來越受歡迎。隨著深度學習的發展,各種深度因果模型在估計因果效應方面變得更加準確和有效。根據圖1,我們列出了2016年6月至2022年2月期間約40個經典的深度因果模型,包括它們的詳細名稱和提出時間。深度因果模型從2016年開始開發。Johansson等首次發表了反事實推理的學習表示[41],提出了算法框架BNN和BLR[41],將深度學習與因果效果估計問題相結合,將因果推理問題轉化為領域適應問題。從那時起,許多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在這方面,需要注意的是,Louizos等人在2017年12月提出的基于深度網絡經典結構參數自編碼器VAE的CEVAE[54]模型,主要關注混雜因素及其對因果效應估計的影響。

圖1: 深度因果模型的發展

在2018年以及2019年,人們對因果表征學習的興趣越來越濃厚。首先,我們聯合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成對抗模型[112]體系結構進行反事實估計成為因果推理領域的主流。根據前面的工作,對CFR-ISW[113]、CEGAN[72]、SITE[44]進行了優化。R-MSN[74]模型于2018年12月實現,利用循環神經網絡[114]解決多治療時間序列的連續劑量問題,開辟了深層因果模型。為了解決這一問題,2019年5月提出了PM[42]和TECE[104],用于與多個離散處理相關的因果效應估計。作為后續,CTAM[34]開始專注于估算文本數據的因果影響;Dragonnet[71]首次將正則化和傾向評分網絡引入因果模型;ACE[55]試圖從表示空間中提取細粒度的相似度信息。對于RSB的[115]2019年12月版,使用深度表示學習網絡和PCC[116]正則化來分解協變量,使用工具變量來控制選擇偏差,使用混雜和調節因素來預測。

深度因果模型在2020年蓬勃發展。首先,DKLITE[56]模型結合了深核模型和后驗方差正則化。然后,DR-CFR[117]應用三個表示網絡、兩個回歸網絡和一個預測網絡對協變量的選擇偏倚進行解耦;GAD[118]則關注持續劑量治療的因果效應;DRGAN[119]定義了一種用于擬合樣品劑量效應曲線的創新生成對抗網絡;CRN[120]通過結合反事實循環神經網絡來估計隨時間變化的治療效果。TSD[121]在估計了多原因混雜下的時間序列因果效應后,轉向估計時間序列因果效應。在潛在表征空間中,ABCEI[122]使用GAN平衡了治療組和對照組的協變量分布。在前人研究的基礎上,BWCFR[123]、LaCIM[124]對結構思想進行了優化。此外,SCIGAN[73]、DRNet[57]在2020年將連續劑量擴展到任意數量的treatment 問題,VSR[125]以重新加權的方式聚合深度神經網絡潛在變量。

從2021年到2022年,因果模型變得更加創新、開放和靈活。VCNet[58]模型實現了連續平均劑量-響應曲線的估計。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模來理解產生多種治療組合的潛在因果過程。之后,CETransformer[127]利用Transformer[128]對協變量進行表征,注意力機制集中在協變量之間的相關性上。在此基礎上,DONUT[129]和DeR-CFR[70]基于之前的工作進行優化。SCI[75]將子空間理論用于因果表征學習,拓寬了研究者的思路。FlexTENet[130]提出了一種多任務自適應學習架構。此外,SCP[131]采用兩步程序評估多因素治療效果。為了構建這種合成雙胞胎匹配表示,SyncTwin[132]利用了結果中的時間結構。最后,TransTEE[76]將表征分布平衡方法擴展到連續的、結構化的和劑量依賴的treatment,使其作為因果效應估計問題更加開放。下一節將分析同一類別的所有模型,并基于深度學習結構的使用和模型所使用的共同思想進行比較。

付費5元查看完整內容

東北大學等最新《進化深度學習:原理、算法、應用》綜述,34頁pdf闡述EDL概念以及技術體系。

近年來,深度學習(deep learning, DL)在業界和學術界都有了迅速的發展。然而,尋找DL模型的最優超參數往往需要很高的計算成本和人類的專業知識。為了緩解上述問題,進化計算(EC)作為一種強大的啟發式搜索方法,在DL模型的自動化設計中顯示出了顯著的優點,即進化深度學習(EDL)。本文旨在從自動化機器學習(AutoML)的角度分析EDL。具體地說,我們首先從機器學習和EC兩個方面闡述了EDL,并將EDL視為一個優化問題。在此基礎上,我們系統地介紹了特征工程、模型生成、模型部署和新的分類(即,什么和如何進化/優化)的EDL方法,并重點討論了EC處理優化問題時的解決方案表示和搜索范式。最后,提出了該技術的關鍵應用、有待解決的問題和未來的研究方向。本調研回顧了EDL的最新發展,并為EDL的發展提供了有見地的指導方針。

//www.zhuanzhi.ai/paper/63eefaab90ccabdeb3609e320198c072

深度學習(Deep learning, DL)作為一種很有前景的技術,已被廣泛應用于各種具有挑戰性的任務,如圖像分析[102]和模式識別[104]。然而,DL的實踐者努力手動設計深度模型,并通過試錯找到合適的配置。如圖1所示,在特征工程(feature engineering, FE)[225]、模型生成[257]和模型部署[29,31]等不同階段,將領域知識輸入DL。然而,專家知識的難以獲取使得深度學習的發展面臨著巨大的挑戰。相比之下,深度神經網絡(DNNs)的自動設計在最近幾十年趨于流行[71,257]。主要原因在于自動機器學習(AutoML)在FE[225]、參數優化(PO)[242]、超參數優化(HPO)[185]、神經結構搜索(NAS)[71,230,257]和模型壓縮(MC)[78]中的靈活性和計算效率。因此,無需人工干預的AutoML技術引起了人們的極大關注,并取得了很大的進展。

進化計算(Evolutionary computation, EC)因其靈活性和自動進化機制而被廣泛應用于自動數字學習中。在電子商務中,環境選擇驅動種群個體向最優解或前沿進化[88]。目前,有許多由EC驅動的自動深度學習方法,被稱為進化深度學習(EDL)[52, 196, 246, 247]。例如,在特征工程[225]、模型生成[230,257]和模型部署[31]等方面開展了大量EC研究,如圖1所示。因此,電子商務與數字圖書館的整合已經成為學術界和產業界的研究熱點。此外,在圖2中,Web of Science中涉及EC & DL的文章數和被引用數在2012年前后逐漸增加,而在隨后的十年中急劇增加。因此,EDL領域的研究越來越多。

為了填補這一空白,我們打算對EDL進行詳細的全面回顧。這項工作的主要貢獻如下。

  • 本文從DL和EC的角度對EDL的現有工作進行了綜述,以促進ML和EC社區讀者的理解,并從EC的角度將EDL制定為一個優化問題。

  • 該調研從特征工程、模型生成和新分類法的模型部署方面描述和討論了EDL,其中重點討論了解決方案表示和搜索范式。據我們所知,很少有調研研究進化模型的部署。

  • 在全面回顧EDL方法的基礎上,討論了EDL的一些應用、有待解決的問題和發展趨勢,對EDL的發展具有指導意義。

本文的其余部分組織如下。第2節介紹了EDL的概述。在第3節中,介紹了EC驅動的特征工程。EC驅動的模型生成將在第4節中討論。第5節回顧EC驅動的模型壓縮。然后,在第6節討論了EDL的相關應用、有待解決的問題和發展趨勢。最后,第七部分對本文進行了總結。

進化深度學習 Evolutionary Deep Learning

與傳統的深度學習嚴重依賴專家或領域知識來構建深度模型不同,深度學習是通過進化過程來自動設計深度模型[164,191,231,246]。

從深度學習的角度來看:傳統的深度學習需要大量的專家知識來發明和分析特定數據集或任務的學習工具。相反,EDL可以被視為一種對人類友好的學習工具,它可以在給定的數據集或任務上自動找到合適的深度模型[230]。換句話說,EDL專注于學習工具的易用性。

從EC的角度來看:將模型的配置表示為個體,將性能作為需要優化的目標。EC在進化機制驅動的優化過程中起著重要作用。也就是說,EDL可以看作是一個尋找高性能的深度模型的最優配置的進化優化過程。

從上面的分析來看,EDL的目的不僅是通過自動構建的方法(從深度學習的角度)增加深度模型對學習任務的適應性,而且試圖在設計的目標或約束下(從EC的角度)實現最優模型。

在本節中,根據“要進化/優化什么”和“如何進化/優化”,提出了EDL方法的新分類,如圖4所示。

“要進化/優化什么”: 我們可能關心“EDL可以做什么”或“EDL可以解決什么類型的問題”。在特征工程中,有三個關鍵問題需要解決,分別是特征選擇、特征構建和特征提取[230]。在模型生成中,參數優化、架構優化和聯合優化成為關鍵問題[257],而模型部署則涉及到模型剪枝等壓縮技術問題。

“如何發展/優化”: 這個問題的答案是為EC設計合適的解決方案表示和搜索范式,以及為NAS設計加速策略。該表示方案設計用于個體編碼、實現最優配置的搜索范式、減少時間或資源消耗的加速策略。根據以上分類,我們將在第3節、第4節和第5節分別詳細介紹特征工程、模型生成和模型部署中的EDL。

結論

隨著機器學習和進化計算的發展,在EC優化框架下,提出了許多EDL方法來自動優化深度模型的參數或結構。與人工設計的方法相比,EDL方法在魯棒性和搜索能力方面具有競爭力。因此,EDL已經成為一個熱門的研究課題。

在這次調研中,我們首先從DL和EC的角度介紹EDL,以方便來自ML和EC社區的讀者理解。然后,我們將EDL定義為一個復雜的優化問題,并從特征工程、模型生成到模型部署等方面全面介紹了解決EDL優化問題的EC技術,以形成一個新的分類(即,在EDL中什么、哪里和如何進化/優化)。詳細討論了EDL流水線不同階段的解表示和搜索范式。然后討論了基于歐共體的研究方法與非歐共體研究方法的優缺點。隨后,對各種應用程序進行了總結,以展示EDL在處理現實世界問題方面的潛在能力。

盡管EDL方法在AutoML中取得了很大的進展,但仍有許多具有挑戰性的問題需要解決。例如,有效的加速策略對于減少昂貴的優化過程至關重要。另一個問題是處理大規模數據集,以及如何在不同的EDL方法或非ec方法之間進行公平的比較。需要更多的研究從理論上分析或解釋EDL的搜索能力。此外,在提高EDL在兩種基準測試(例如,大規模和小規模數據)和真實應用程序上的性能方面還需要做很多工作。最后,端到端EDL的開發具有一定的挑戰性,值得我們付出更多的努力。

付費5元查看完整內容
北京阿比特科技有限公司