首篇大模型語言評估論文
大型語言模型(LLM)在學術界和工業界的熱度日益升高,這要歸功于它們在各種應用中的無與倫比的表現。隨著LLM在研究和日常使用中繼續發揮重要作用,對它們的評估變得越來越重要,不僅在任務級別,而且在社會級別以更好地理解它們的潛在風險。過去的幾年里,人們從各個角度對LLM進行了大量的研究。本文對這些LLM的評估方法進行了全面的回顧,重點關注三個主要維度:評估什么,在哪里評估,以及如何評估。首先,我們從評估任務的角度提供一個概覽,包括一般的自然語言處理任務,推理,醫療應用,倫理,教育,自然和社會科學,代理應用,以及其他領域。其次,我們通過深入研究評估方法和基準來回答“在哪里”和“如何”評估的問題,這些都是評估LLM性能的關鍵組成部分。然后,我們總結了LLM在不同任務中的成功和失敗案例。最后,我們討論了LLM評估面臨的一些未來挑戰。我們的目標是為LLM評估領域的研究人員提供有價值的見解,從而幫助開發出更高效的LLM。我們的主要觀點是,應將評估視為一個重要的學科,以更好地助力LLM的發展。我們會持續更新相關的開源資料,地址為://github.com/MLGroupJLU/LLM-eval-survey。
理解智能的本質并確定機器是否體現了這種智能,對科學家們來說是一個引人入勝的問題。人們普遍認為,真正的智能賦予我們推理能力,使我們能夠測試假設,并為未來的可能性做準備(Khalfa,1994)。特別是,人工智能(AI)研究人員關注的是機器智能的開發,而非生物性智力(McCarthy,2007)。適當的測量有助于理解智能。例如,衡量人類個體普通智能的方式通常包括智商測試(Brody,1999)。在AI的范圍內,圖靈測試(Turing,2009)作為一個廣為認可的通過辨別響應是否源自人類或機器來評估智能的測試,一直是AI發展中的一個長期目標。研究人員普遍認為,一個成功通過圖靈測試的計算機可以被視為具有智能。因此,從更廣泛的角度看,AI的歷史可以被描繪為創造和評估智能模型和算法的時間線。每當出現一個新的AI模型或算法,研究人員都會通過使用特定且具有挑戰性的任務在現實世界場景中評估其能力。例如,被譽為1950年代人工通用智能(AGI)方法的感知器算法(Gallant等人,1990),后來由于無法解決XOR問題而被揭示為不足。支持向量機(SVM)(Cortes和Vapnik,1995)和深度學習(LeCun等人,2015)的隨后崛起和應用,標志著AI領域的進步和挫折。以前嘗試的一個重要啟示是AI評估的至關重要性,它作為一個關鍵工具,用來識別當前系統的限制并指導更強大模型的設計。
由于若干原因,評估對于LLM的成功至關重要。首先,評估LLM可以幫助我們更好地理解LLM的優點和缺點。例如,PromptBench(Zhu等人,2023)基準測試表明,當前的LLM對對抗性提示敏感,因此需要仔細的提示工程設計以獲得更好的性能。其次,更好的評估可以為人與LLM的交互提供更好的指導,這可能激發未來的交互設計和實現。第三,LLM的廣泛適用性強調了確保其安全性和可靠性的至關重要性,特別是在如金融機構和醫療設施等對安全敏感的領域。最后,隨著LLM變得越來越大,具有更多的新出現的能力,現有的評估協議可能無法足夠評估它們的能力和潛在風險。因此,我們的目標是通過回顧當前的評估協議,尤其是對設計新的LLM評估協議的未來研究進行深入研究,以提醒社區注意到LLM評估的重要性。隨著ChatGPT(OpenAI,2023a)和GPT-4(OpenAI,2023b)的推出,有許多研究工作試圖從不同的角度評估ChatGPT和其他LLM(圖2),包括自然語言任務、推理、魯棒性、可信度、醫療應用和倫理考慮等一系列因素。盡管做出了這些努力,但仍然缺乏對整個評估范圍的全面概述。此外,LLM的持續演化也為評估提出了新的方面,從而挑戰了現有的評估協議,并強化了需要徹底的、多方面的評估技術的需求。盡管像(Bubeck等人,2023)這樣的現有研究聲稱GPT-4可以被視為AGI的火花,但由于其評估方法的人造性質,其他人對此進行了質疑。
本文是關于大型語言模型評估的首份全面調研。如圖1所示,我們從三個維度探討了現有的工作:1)評估什么,2)在哪里評估,3)如何評估。具體來說,“評估什么”涵蓋了LLM的現有評估任務,“在哪里評估”涉及到為評估選擇適當的數據集和基準,而“如何評估”則關注在給定適當的任務和數據集的情況下的評估過程。這三個維度對于LLM的評估是不可或缺的。我們隨后討論了LLM評估領域的潛在未來挑戰。本文的貢獻如下:1)我們從三個方面對LLM評估進行了全面的概述:評估什么,在哪里評估,如何評估。我們的分類是通用的,涵蓋了LLM評估的整個生命周期。2)對于評估什么,我們總結了各個領域的現有任務,并得出了關于LLM成功和失敗案例的深刻結論(第6節),為未來的研究提供了經驗。3)對于在哪里評估,我們總結了評估指標、數據集和基準,以深入理解當前的LLM評估。關于如何評估,我們探討了當前的協議,并總結了新的評估方法。4)我們進一步討論了評估LLM的未來挑戰。我們在 MLGroupJLU/LLM-eval-survey開源并維護了LLM評估的相關材料,以促進更好評估的協作社區。
2. 大型語言模型
語言模型(LMs)(Devlin等人,2018;Gao和Lin,2004;Kombrink等人,2011)是一種具有理解和生成人類語言能力的計算模型。LMs具有預測詞序列的可能性或者根據給定輸入生成新文本的變革性能力。N-gram模型(Brown等人,1992)是最常見的LM類型,它根據前文的上下文估計詞概率。然而,LMs也面臨挑戰,比如稀有或未見過的詞的問題、過擬合的問題,以及捕獲復雜語言現象的困難。研究人員正在不斷地改進LM的架構和訓練方法,以解決這些挑戰。大型語言模型(LLMs)(Chen等人,2021;Kasneci等人,2023;Zhao等人,2023a)是具有大量參數和出色學習能力的先進語言模型。許多LLMs,如GPT-3(Floridi和Chiriatti,2020),InstructGPT(Ouyang等人,2022)和GPT-4(OpenAI,2023b)的核心模塊是Transformer(Vaswani等人,2017)中的自注意力模塊,這是進行語言建模任務的基本構建塊。Transformers革新了NLP領域,它們能有效地處理順序數據,實現并行化,并捕獲文本中的長距離依賴關系。LLMs的一個關鍵特性是基于上下文的學習(Brown等人,2020),在這里,模型被訓練基于給定的上下文或提示生成文本。這使得LLMs能生成更連貫和與上下文相關的回應,使得它們適合于交互和對話應用。來自人類反饋的強化學習(RLHF)(Christiano等人,2017;Ziegler等人,2019)是LLMs的另一個關鍵方面。這種技術涉及使用人類生成的反饋作為獎勵進行模型的微調,從而使模型能夠從其錯誤中學習并隨著時間的推移提高其性能。
在自回歸語言模型中,如GPT-3(Floridi和Chiriatti,2020)和PaLM(Chowdhery等人,2022),給定上下文序列X,LM任務旨在預測下一個標記y。模型通過最大化在給定上下文的條件下的標記序列的概率進行訓練,即,P(y|X) = P(y|x1, x2, ..., xt?1),其中x1, x2, ..., xt?1是上下文序列中的標記,t是當前位置。通過使用鏈式規則,條件概率可以分解為給定其前序上下文的每個標記的條件概率的乘積,即,
其中T是序列長度。這樣,模型以自回歸的方式預測每個位置的每個標記,生成一個完整的文本序列。與LLMs交互的一種常見方法是提示工程(Clavie等人,2023;White等人,2023;周等人,2022),用戶設計并提供特定的提示文本以指導LLMs生成期望的響應或完成特定任務。這在現有的評估工作中被廣泛采用。人們也可以進行問答交互(Jansson等人,2021),向模型提問并得到回答,或參與對話交互,與LLMs進行自然語言對話。總的來說,LLMs憑借其Transformer架構、基于上下文的學習和RLHF能力,已經革新了NLP,并在各種應用中充滿了希望。表1提供了傳統機器學習、深度學習和LLMs的簡要比較。
3 評估什么
**我們應該評估LLMs在哪些任務上的表現?在哪些任務上,我們可以說明LLMs的優點和缺點?**在本節中,我們將現有的任務劃分為以下幾類:自然語言處理任務、倫理和偏見、醫療應用、社會科學、自然科學和工程任務、代理應用(使用LLMs作為代理)以及其他任務。
**3.1 自然語言處理任務 **
開發語言模型,特別是大型語言模型的最初目標是提高自然語言處理任務的性能,包括理解和生成。因此,大多數評估研究主要集中在自然語言任務上。表2總結了現有研究的評估方面,我們主要在以下內容中強調他們的結論。
3.2 魯棒性、倫理、偏見和可信度
評估LLMs包括魯棒性、倫理、偏見和可信度等關鍵方面。這些因素在全面評估LLMs的性能方面越來越重要。
3.3 社會科學
社會科學涉及對人類社會和個體行為的研究,包括經濟學、社會學、政治學、法學等學科。評估LLMs在社會科學中的表現對于學術研究、政策制定和社會問題解決非常重要。這樣的評估可以幫助提高模型在社會科學中的適用性和質量,增加對人類社會的理解,并促進社會進步。
**3.4 自然科學和工程 **
在自然科學和工程領域評估LLMs的表現可以幫助指導科學研究、技術開發和工程研究的應用和發展。
3.5 醫療應用
最近,LLMs在醫療領域的應用引起了重要的關注。在這一部分,我們回顧了將LLMs應用于醫療應用的現有工作。具體來說,我們將它們分為表5所示的四個方面:醫療問答、醫學檢查、醫療評估和醫療教育。
3.6 代理應用
LLMs并非只專注于通用語言任務,它們可以在各種領域中被利用作為強大的工具。為LLMs配備外部工具可以大大擴展模型的能力。黃等人(2023a)介紹了KOSMOS-1,它能夠理解一般模式,按照指示進行學習,并基于上下文進行學習。Karpas等人(2022)強調,知道何時以及如何使用這些外部符號工具至關重要,這種知識是由LLMs的能力決定的,特別是當這些工具可以可靠地運作時。此外,還有兩項其他研究,Toolformer(Schick等人,2023)和TALM(Parisi等人,2022),探索了使用工具來增強語言模型的可能性。Toolformer采用一種訓練方法來確定特定API的最佳使用方式,并將獲得的結果集成到后續的token預測中。另一方面,TALM將無法區分的工具與基于文本的方法相結合,以增強語言模型,并采用一種被稱為"自我游戲"的迭代技術,由最少的工具演示來指導。申等人(2023)提出了HuggingGPT框架,該框架利用LLMs連接機器學習社區內的各種人工智能模型(如Hugging Face),旨在解決人工智能任務
3.7 其他應用 除了上述分類,LLMs還在其他各種領域進行了評估,包括教育、搜索和推薦、性格測試和特定應用等。
4 在哪里評估:數據集和基準
測試 LLMs 的評估數據集用于測試和比較不同語言模型在各種任務上的性能,如第 3 節所示。這些數據集,如GLUE(Wang等人,2018年)和SuperGLUE(Wang等人,2019年),旨在模擬現實世界的語言處理場景,并涵蓋多樣化的任務,如文本分類、機器翻譯、閱讀理解和對話生成。本節不會討論針對語言模型的任何單一數據集,而是針對LLMs的基準。由于LLMs的基準正在發展,我們在表7.5中列出了19個流行的基準。每個基準都關注不同的方面和評估標準,為各自的領域提供了寶貴的貢獻。為了更好的總結,我們將這些基準劃分為兩個類別:通用語言任務的基準和特定下游任務的基準。
5 如何評估
在本節中,我們將介紹兩種常見的評估方法:自動評估和人工評估。實際上,“如何評估”的分類也并不確定。我們的分類基于評估標準是否可以自動計算。如果它可以自動計算,我們將其歸類為自動評估;否則,它就屬于人工評估。
**5.1 自動評估 **自動評估大型語言模型是一種常見且可能是最受歡迎的評估方法,通常使用標準度量或指標和評估工具來評估模型的性能,如準確率、BLEU (Papineni等人,2002年)、ROUGE (Lin,2004年)、BERTScore (Zhang等人,2019年)等。例如,我們可以使用BLEU分數來量化模型生成的文本與參考文本在機器翻譯任務中的相似性和質量。實際上,大多數現有的評估努力都采用這種評估協議,因為它的主觀性、自動計算和簡單性。因此,大多數確定性任務,如自然語言理解和數學問題,通常采用這種評估協議。與人工評估相比,自動評估不需要人工參與,這節省了評估成本并且耗時較少。例如,(Qin等人,2023年)和Bang等人(2023年)都使用自動評估方法評估大量任務。最近,隨著LLMs的發展,一些先進的自動評估技術也被設計出來幫助評估。Lin和Chen(2023年)提出了LLM-EVAL,這是一個用于與LLMs進行開放領域對話的統一的多維自動評估方法。PandaLM(Wang等人,2023g)可以通過訓練一個作為“裁判”的LLM來實現可復制的自動語言模型評估,該LLM用于評估不同的模型。由于自動評估論文的大量存在,我們不會詳細介紹它們。自動評估的原理實際上與其他AI模型評估過程相同:我們只是使用一些標準度量來計算這些度量下的某些值,這些值作為模型性能的指標。
5.2 人工評估 LLMs的能力已經超越了在一般自然語言任務上的標準評估度量。因此,在一些非標準情況下,自動評估不適用時,人工評估成為一個自然的選擇。例如,在開放生成任務中,嵌入的相似度度量(如BERTScore)是不夠的,人工評估更可靠(Novikova等人,2017年)。雖然一些生成任務可以采用某些自動評估協議,但在這些任務中,人工評估更受歡迎,因為生成總是可以比標準答案更好。LLMs的人工評估是通過人的參與來評估模型生成結果的質量和準確性的一種方式。與自動評估相比,手動評估更接近實際應用場景,可以提供更全面和準確的反饋。在LLMs的手動評估中,通常邀請評估員(如專家、研究者或普通用戶)來評估模型生成的結果。例如,Ziems等人(2023年)使用了專家的注釋進行生成。通過人工評估,(Liang等人,2022年)對6種模型的總結和虛假信息場景進行了人工評估,Bang等人(2023年)評估了類比推理任務。由Bubeck等人(2023年)完成的開創性的評估工作使用GPT-4進行了一系列的人工測試,他們發現GPT-4在多個任務上的表現接近或甚至超過了人的表現。這項評估要求人類評估員實際測試和比較模型的性能,而不僅僅是通過自動評估度量評估模型。需要注意的是,即使是人工評估也可能有高的方差和不穩定性,這可能是由于文化和個體差異造成的(Peng等人,1997年)。在實際應用中,這兩種評估方法都會根據實際情況進行考慮和權衡。
6 結論
**評估具有深遠的意義,在AI模型,尤其是大型語言模型的進步中變得至關重要。**本文提出了第一份從三個方面對LLMs的評估進行全面概述的調查:評估什么、如何評估和在哪里評估。我們的目標是通過封裝評估任務、協議和基準,增強對LLMs當前狀態的理解,闡明它們的優點和局限性,并為未來LLMs的進步提供洞見。我們的調查顯示,當前的LLMs在許多任務中都存在一定的限制,特別是推理和魯棒性任務。同時,現代評估系統需要適應和發展的需求仍然明顯,以確保準確評估LLMs的固有能力和局限性。我們確定了未來研究應該解決的幾個重大挑戰,希望LLMs可以逐步增強它們對人類的服務。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。
最新大模型推薦綜述
大型語言模型(LLMs)已在自然語言處理(NLP)領域嶄露頭角,并在推薦系統(RS)領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練,已在學習通用表示上取得了顯著成功,并有可能通過一些有效的遷移技術(如微調和提示調整等)來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋,以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解,本綜述提出了一種分類法,將這些模型分為兩大范式,分別是用于推薦的判別型LLM(DLLM4Rec)和用于推薦的生成型LLM(GLLM4Rec),其中后者是首次被系統地整理出來。此外,我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統,提供了它們的方法、技術和性能的洞察。此外,我們也識別出了關鍵的挑戰和一些有價值的發現,以為研究者和實踐者提供靈感。
//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5
1. 引言
推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理(NLP)領域出現的大型語言模型(LLMs),人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型(LLMs)融入推薦系統的關鍵優勢在于,它們能夠提取高質量的文本特征表示,并利用其中編碼的廣泛外部知識[Liu等人,2023b]。此綜述將LLM視為基于Transformer的模型,這種模型參數眾多,通過使用自/半監督學習技術在大規模數據集上進行訓練,例如BERT,GPT系列,PaLM系列等。與傳統的推薦系統不同,基于LLM的模型擅長捕獲上下文信息,更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人,2022]。通過理解上下文,基于LLM的推薦系統(RS)可以提高推薦的準確性和相關性,從而提高用戶滿意度。同時,面對有限的歷史交互數據稀疏問題[Da’u和Salim,2020],LLMs還通過零/少樣本推薦能力[Sileo等人,2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項,因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練,使它們即使沒有接觸過特定的項目或用戶,也能提供合理的推薦。
上述策略已在判別模型中得到了良好的應用。然而,隨著AI學習范式的演變,生成語言模型開始受到關注[Zhao等人,2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現,它們已經對人類的生活和工作模式產生了重大影響。此外,將生成模型與推薦系統相結合,有可能帶來更多創新和實用的應用。例如,可以提高推薦的可解釋性,因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人,2023],幫助用戶理解影響推薦的因素。此外,生成語言模型使得更個性化和上下文感知的推薦成為可能,例如在聊天式推薦系統中用戶可以定制提示[Li等人,2023],增強用戶對結果多樣性的參與和滿意度。 受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發,將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向,顯著地推進了推薦系統研究的最新技術。到目前為止,有一些研究回顧了這個領域的相關論文[Zeng等人,2021; Liu等人,2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究,并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法,將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分,分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而,這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移,而不是探索語言模型及其能力,即基于LLM的方式。此外,他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題,我們深入研究了基于LLM的推薦系統,將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM,我們的回顧重點放在后者上。據我們所知,我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。
我們的綜述主要貢獻如下:
我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述,重點是擴大語言模型的能力。通過分析現有方法,我們對相關進展和應用提供了系統的概覽。
據我們所知,我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧。
我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰,并提出了有價值的發現,可以激發在這個有潛力的領域進一步的研究。
2 建模范式和分類法
所有大型語言模型的基本框架都由幾個Transformer塊組成,例如GPT,PaLM,LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成,而在輸出模塊可以獲得期望的輸出嵌入或token。在這里,輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示,對于在推薦中適應語言模型,即建模范式,現有的工作可以大致分為以下三類:
(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器,將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似,這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好,可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同,這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。
在實際應用中,語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示,在本文中,我們將現有的工作劃分為兩個主要類別,分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分,不同方式之間的區別在圖3中有所說明。一般來說,判別性語言模型非常適合在范式(1)中嵌入,而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。
3 用于推薦的判別性LLM
確實,所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人,2019]。由于判別性語言模型在自然語言理解任務中的專業性,它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外,一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。
3.1 微調
微調預訓練的語言模型是一種在各種自然語言處理(NLP)任務中,包括推薦系統,受到了顯著關注的通用技術。微調背后的思想是,采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型,并通過在特定任務的數據上進一步訓練它,使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型,然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中,模型的參數根據特定任務的數據進行更新,使其能夠適應和專門用于推薦任務。在預訓練和微調階段,學習目標可以是不同的。由于微調策略是靈活的,大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務,邱等人(2021)提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示,該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣,在UserBERT [Wu et al., 2021b]中,加入了兩個自我監督任務,對未標記的行為數據進行用戶模型預訓練,以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配,通過捕捉內在的用戶興趣和相關性,訓練精確的用戶表示。
預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人,2022]提出了一種輕量級的復合重新排名方案,該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼,BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示,從而在臨時排名相關性和效率之間實現了合理的權衡。此外,Wu等人(2022)提出了一個端到端的多任務學習框架,用于產品排名,使用領域特定的BERT進行微調,以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移,以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究,例如團隊推薦[Zhang等人,2022],搜索/匹配[Yao等人,2022],CTR預測[Muhamed等人,2021]。特別地,"預訓練,微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用,如BERT4Rec [Sun等人,2019],RESETBERT4Rec [Zhao,2022]。然而,上述模型只是利用了訓練策略的優勢,而沒有將大型語言模型擴展到推薦領域,因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人,2022]開發了一個BERT微調框架,將項目的描述文本關聯起來,在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦,特別是新聞推薦,NRMS [Wu等人,2021a],Tiny-NewsRec [Yu等人,2022],PREC [Liu等人,2022],利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說,將BERT微調集成到推薦系統中,融合了強大的外部知識和個性化的用戶偏好,主要目標是提高推薦準確性,同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。
3.2 提示調優
與設計特定目標函數來適應不同的下游推薦任務不同,提示調優 [Lester等人,2021]試圖通過硬/軟提示和標簽詞語 verbalizer,將推薦的調優對象與預訓練的損失對齊。例如,Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明,BERT在沒有任何微調的情況下,可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統,其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近,Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標,作為一個cloze-style的 maskprediction任務。實驗發現,通過利用多提示集成,推薦系統的性能顯著提高,超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。
**4 針對推薦的生成型LLMs **
相比于判別型模型,生成型模型具有更好的自然語言生成能力。因此,不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊,大多數基于生成模型的工作將推薦任務翻譯為自然語言任務,然后應用像在上下文中學習,提示調優,和指導調優這樣的技術,來適應LLMs直接生成推薦結果。此外,隨著ChatGPT展示出的令人印象深刻的能力,這類工作近來受到了更多的關注。如圖2所示,根據是否調整參數,這些基于生成型LLM的方法可以進一步劃分為兩種范例:無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。
4.1 無調整范式
LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此,一些最近的研究假設LLMs已經具有推薦能力,并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐,以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例,這個范式中的研究主要屬于以下兩類:提示和上下文學習。
提示范例 這類工作旨在設計更適合的指示和提示,幫助LLMs更好地理解和解決推薦任務。Liu等人(2023a)系統地評估了ChatGPT在五個常見推薦任務上的表現,即評分預測,序列推薦,直接推薦,解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架,包括:(1)任務描述,將推薦任務適應為自然語言處理任務;(2)行為注入,將用戶-項目交互納入,幫助LLMs捕獲用戶的喜好和需求;(3)格式指示器,約束輸出格式,使推薦結果更容易理解和評估。同樣,Dai等人(2023)對ChatGPT在三個常見信息檢索任務(包括點對點,對對,和列表排序)上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示,并在提示的開頭引入了角色指示(例如,你現在是一個新聞推薦系統。)來增強ChatGPT的領域適應能力。除了提出一般框架外,有些工作專注于為特定推薦任務設計有效的提示。Sileo等人(2022)從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人(2023)介紹了兩種提升LLMs序列推薦能力的提示方法:以近期為重的序列提示,使LLMs能夠感知到用戶交互歷史中的序列信息,和引導法,將候選項目列表多次洗牌并取平均得分進行排名,以緩解位置偏見問題。由于LLMs允許的輸入token數量有限,很難在提示中輸入一個長的候選列表。為解決這個問題,Sun等人(2023)提出了一種滑動窗口提示策略,每次只在窗口中對候選項進行排序,然后以從后到前的順序滑動窗口,最后重復這個過程多次,以獲得總體排名結果。
除了將LLMs作為推薦系統,一些研究還利用LLMs來構建模型特征。GENRE [Liu等人,2023c]引入了三個提示,使用LLMs進行新聞推薦的三個特征增強子任務。具體來說,它使用ChatGPT根據摘要優化新聞標題,從用戶閱讀歷史中提取關鍵詞,并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征,傳統的新聞推薦模型可以得到顯著改善。類似地,NIR [Wang和Lim,2023]設計了兩個提示來生成用戶偏好關鍵詞,并從用戶交互歷史中提取代表性電影,以改進電影推薦。
在實踐中,除了排序模型外,整個推薦系統通常由多個重要組件組成,如內容數據庫、候選檢索模型等。因此,另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架,該框架通過多輪對話理解用戶需求,并調用現有推薦系統提供結果。此外,ChatGPT可以控制數據庫檢索相關內容以補充提示,并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架,并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說,這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力,提供了一種低成本且實用的解決方案。
4.2 調整范式
如上所述,LLMs具有強大的zero/few-shot能力,通過適當的提示設計,它們在推薦性能方面可以顯著超越隨機猜測。然而,僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此,許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中,我們按照[Wei等,2022]的分類,將調整方法的范式劃分為兩種不同類型,分別是提示調整和指令調整。具體而言,在提示調整范式下,LLMs的參數或軟提示針對特定任務進行微調,例如評分預測;而在指令調整范式下,LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而,目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。
5 發現
在本綜述中,我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略,特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而,需要注意的是,這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題,我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰,并呈現了進一步發展的潛在機會,包括模型偏見、提示設計和評估。
6 結論
本文回顧了大型語言模型(LLMs)在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型,并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆,我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知,我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述,進一步總結了許多相關研究中提出的共同發現和挑戰。因此,本調查為研究人員提供了寶貴的資源,幫助他們全面了解LLM推薦,并探索潛在的研究方向。
首篇時序預訓練綜述!
時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。
1. 引言
作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。
為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。
最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰。
我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述。
? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。
2. TS-PTMs的概述
在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。
2.1 有監督的PTMs
早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。
通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。
基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。
2.2 無監督預訓練模型
本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。
2.3 自監督預訓練模型
本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。
3. 實驗結果與分析
在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。
6. 結論
在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。
作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。
1. 引言
推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。
本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。
為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。
在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。
3. 方法體系
在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。
3.1 策略增強推理
這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。
3.1.1提示工程
一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。
3.1.2 流程優化
自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。
3.1.3 外部引擎
在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。
3.2 知識增強推理
正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。
**3.2.1 隱式知識 **
研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。
3.2.2顯性知識
盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。
4 比較與討論
表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)。對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。
5. 未來的發展方向
我們列出了一些潛在的方向如下:
推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。
6. 結論
本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。
知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。
//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5
從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。
知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。
預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:
知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。
對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。
我們的貢獻總結如下:
建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。
概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。
**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。
**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。
**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。
圖上如何做異常分析?澳大利亞聯邦大學最新《圖學習異常分析:算法、應用與挑戰》綜述,闡述GCN/GAT/GAE等方法
異常分析是一項廣泛而重要的研究任務,已經被研究了幾十年。與此同時,深度學習在解決許多基于圖的任務方面表現出了其能力,如節點分類、鏈接預測和圖分類。近年來,許多研究通過擴展圖學習模型來解決異常分析問題,使得基于圖的異常分析技術取得了一些有益的進展。**本文對用于異常分析任務的圖學習方法進行了全面的概述。根據模型架構將它們分為四類,即圖卷積網絡(GCN)、圖注意力網絡(GAT)、圖自編碼器(GAE)和其他圖學習模型。**系統地比較了這些方法之間的差異。概述了現實世界中跨不同領域的幾個基于圖的異常分析應用。最后,討論了這一快速發展領域未來可能的5個研究方向。1. 引言
異常也被稱為離群點,普遍存在于各種真實世界的網絡[12]中,如觀點網絡中的虛假評論[121]、社交網絡中的假新聞[119]、協作網絡中的離群成員[94,118]、交通網絡中的突發人群[50]、移動網絡中的社會自私節點[110]以及計算機網絡中的網絡入侵[24]。異常檢測的研究可以追溯到20世紀60年代,幾十年來一直是一個熱門的研究領域。隨著日益增長的需求和在不同領域的廣泛應用,異常分析在數據挖掘、機器學習等領域發揮著越來越重要的作用。 隨著深度學習的發展,圖學習被提出,它是為應用于圖結構數據的基于深度學習的模型而創造的[112,128]。由于其令人信服的性能和可解釋性,近年來在各個學科中,越來越多的研究專注于利用深度圖模型[99,137]進行異常檢測和預測任務,而不僅僅局限于隨機游走等淺層網絡嵌入[40,111]。圖作為一種獨特的非歐氏數據結構,能夠表示不同場景中的實體及其關系。然而,在將深度學習和人工智能應用于真實世界網絡時,該研究方向對所有檢測方法都面臨著一些不可避免的問題復雜性[57,105]。
圖結構不規則。與文本、序列和圖像等其他規則結構化數據不同,圖中的節點是無序的,并且可能具有不同的鄰域,這使得圖的結構不規則。因此,一些傳統的深度學習架構無法直接應用,例如卷積神經網絡(convolutional neural networks, CNN)中的卷積和池化操作[72]。
異構異常類。圖中節點和鏈接的類型通常不統一,導致異質信息網絡(heterogeneous information networks, HINs)的出現。HINs通常包含實體和關系之間更復雜的信息,特別是那些包含不同模態的信息[85],這對于識別特定圖中不同類型的異常非常重要。
可擴展到真實世界的網絡。如今,現實世界的網絡(如社交網絡)由數百萬甚至數十億的節點、邊和屬性信息組成[113]。這種大規模網絡無疑增加了計算復雜度。因此,設計相對于圖大小具有線性時間復雜度的可擴展模型是勢在必行的。
標簽稀缺性。與人工生成的圖數據相比,真實世界網絡的稀疏性主要有兩個原因。第一個是無標度網絡結構的性質,在大多數現實世界網絡中,節點的度服從長尾分布[123]。另一種是在抓取數據過程中受到采集技術和隱私保護的限制。此外,由于缺乏標記數據集,設計無監督的異常檢測模型變得越來越重要。
不同類型的異常。研究人員探索了幾種類型的異常,如節點、邊、子圖和路徑(如圖2所示)。節點異常是指在整個圖中與其他節點相比表現出異常行為的實體,例如在社交網絡中傳播假新聞的用戶。其他類型的異常也有類似的概念和它們自己的實際應用。在這種情況下,子圖異常難以檢測,因為從異常子圖中抽取出的子圖節點可能表現出正常的行為。
**已有一系列深度異常檢測研究證明,在解決上述挑戰方面,其性能明顯優于傳統模型。**盡管采用的技術從圖卷積網絡(GCNs)到圖自編碼器(GAEs)不同,但由于現有異常的復雜性,大多數方法專注于在特定情況下檢測或預測異常。目前很少有人對這些方法進行全面的總結,并清晰地分析它們如何應用于解決實際應用場景。
本綜述的其余部分結構如下。第2節介紹圖學習模型的表示法和初步知識,這些知識將在后續章節中使用。第3 ~ 6節將介紹異常分析方法。在第7節中,我們概述了可以用深度圖模型解決的異常分析的幾個實際應用,并在第8節中討論了一些未來的研究方向和挑戰。最后,我們在第9節簡要總結了這個綜述。
表1. 檢測和預測異常的圖學習模型綜述
2. 基于GCN的檢測方法
作為深度圖模型中最流行的結構,圖卷積網絡(graph Convolutional Networks, GCNs)可以通過卷積操作學習和生成節點嵌入,即從節點的局部鄰域聚合信息的過程。在本節中,我們介紹基于GCN的異常檢測和預測方法,這也是所有異常分析模型中最流行的模型類型。根據方法是否針對特定異常檢測任務設計,將其分為兩類,即通用模型和任務驅動模型。圖3展示了如何使用空間卷積操作檢測社交網絡中的異常用戶的玩具模型。表3總結了這些方法的主要特點。
3. 基于GAT的檢測方法
在深度圖模型中,節點鄰居的權重被定義為相等或默認設置。然而,鄰居的重要性往往因屬性和結構特征的不同而不同。受注意力機制的啟發,Velivckovic等人[92]將注意力機制應用于GCN的空間卷積操作,提出了一種圖注意力網絡(GAT)。圖4展示了注意力機制如何應用于網絡欺凌檢測的一個簡單示例。在本節中,我們總結并介紹了使用圖注意力網絡的異常分析算法。該方法按照異常類型分為2個子檢測,即節點異常檢測和(子)圖異常檢測。表4總結了這些方法的主要特征。
4**. 基于GAT的檢測方法**
圖自動編碼器(GAE)是一種用于生成低維表示的無監督結構,目的是最小化編碼器的輸入和解碼器的輸出之間的損失[91]。在本節中,我們將介紹應用于異常分析的基于GAE的算法。根據訓練和學習模式的不同,將這些方法分為3類,即通用自編碼器、對抗訓練和超球學習。表5總結了這些方法的主要特點。在圖5中,我們提出了一個基于GAE的異質網絡異常引用行為檢測模型
近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。
在目標屬性下設計和生成新數據已經吸引了各種關鍵應用,如分子設計、圖像編輯和語音合成。傳統的手工制作方法嚴重依賴專業經驗和密集的人力努力,但仍然受到科學知識的不足和低吞吐量的影響,以支持有效和高效的數據生成。近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。首先,提出了潛在的挑戰,并提供了初步建議。然后正式定義了可控深度數據生成技術,提出了可控深度數據生成技術的分類方法,總結了可控深度數據生成技術的評價指標。在此基礎上,介紹了可控深度數據生成技術的重要應用,并對已有的研究成果進行了實驗分析和比較。最后,指出了可控深度數據生成的未來發展方向,并指出了5個潛在挑戰。
//www.zhuanzhi.ai/paper/9ce23982a0872977f5df286c1f4f388f
數據生成是一個重要的領域,旨在捕捉數據的固有分布,以生成類似的新數據。由于其在分子設計[1-3]、圖像編輯[4-6]、文本生成[7,8]和語音合成[9-11]等關鍵領域的廣泛應用,它是一個持久、快速發展的重要領域。數據生成需要探索和操作復雜的數據結構,這在歷史上導致了高成本,密集的人力,豐富的領域知識在大(通常是離散的)搜索空間。部分由于這個原因,傳統的數據生成方法都是針對特定領域定制的,領域啟發式規則與工程更容易得到應用[12-15]。例如,藥物設計的過程,即產生新的分子結構,通常需要化學家手工制作候選結構,然后測試它們是否能帶來期望的性質,如溶解度和毒性。還可以利用泛型算法等計算方法,根據領域知識[16]設計分子突變和交叉規則,對分子結構進行組合搜索。然而,分子結構空間是巨大的: 例如,現實的類藥物分子的數量估計在10^33[17]左右,這給搜索和識別感興趣的結構帶來了相當大的困難。此外,在許多領域,如神經科學,電路設計,蛋白質結構,我們的領域知識仍然非常有限和不完整。對數據生成過程的缺乏理解限制了我們重新生成甚至創建具有所需屬性的新數據的能力。另一個例子是邏輯電路設計,其目的是輸出所需的集成電路原理圖。傳統的電路設計是一個相當復雜的過程,需要根據電荷的特性對電路元件的行為進行大量的數學建模[13,18],并根據不同電路器件的性質選擇合適的材料[13,19]。值得注意的是,對傳統數據生成技術的詳細綜述可以在特定的領域單獨找到[13,15,20,21]。
近年來,深度學習的發展為我們解決上述數據生成方面的挑戰提供了新的機遇。深度學習技術在學習圖像、文本、序列和圖等各種數據類型的表示方面取得了巨大的成功[22-26]。這進一步使我們能夠適應從數據結構到其相應(潛在)特征的映射,其中前者通常可以是離散的和非結構化的,而后者是連續的向量或矩陣。因此,我們不需要使用昂貴的組合算法來直接探索復雜數據結構的高維空間,而是可以使用高效的算法(如基于梯度的算法)來探索數據在連續向量空間中的潛在特征。例如,蛋白質結構是由氨基酸序列形成的,因此序列數據的分布可以被序列深度學習模型(如遞歸神經網絡(RNNs)和變壓器[27])捕獲和編碼。然后從學習到的蛋白質結構潛在空間[28]中自回歸生成新的氨基酸序列。研究表明,與Rosetta[29]等傳統框架相比,基于深度學習的蛋白質設計方法獲得了更大的序列多樣性。此外,由于深度學習以端到端方式提取潛在特征,可以大大減少對領域知識的依賴。例如,在圖像合成領域,基于深度學習的技術可以學習特定藝術家畫作的潛在語義表示,并很容易地擬合其在潛在空間中的分布,因此合成同一藝術家的新畫作簡單地就是一個采樣+解碼過程[30]。另外,由于領域知識的獨立性更強,基于深度學習的數據生成技術在不同數據類型或應用程序中更容易一般化或交叉使用方面具有更好的潛力。
盡管黑盒深度學習技術有望解決數據生成中的傳統障礙,但如何填補學習到的潛在特征和感興趣的真實屬性之間的空白對于確保生成的數據結構和期望屬性之間的對齊至關重要。在典型的現實世界應用中,生成具有所需特性的數據是事實上的先決條件,從醫學設計[31,32],到電路混淆[33],到藝術設計[34,35],再到音頻合成[36,37]。例如,化學家不僅可以生成新型季銨鹽化合物(QACs),還希望生成的QACs在水中具有強溶解性,最低抑菌濃度(MIC)小于4mg/L,以確保抗菌性[38]。圖像描述社區可能期望從長度小于10個單詞的圖像中以幽默的風格生成更多類似人類的文本[39,40]。因此,為了解決深度學習技術產生的數據屬性控制這一核心問題,近年來可控深度數據生成的需求和研究主體快速增長[1,6,41 - 43]。
迄今為止,已有相當多的研究致力于可控深度數據生成,以應對上述挑戰。為了推進最先進的技術和預見潛在的研究機會,全面了解現有工作的優勢和弱點是很重要的。此外,在控制不同領域的數據生成方面也有廣泛的興趣。雖然大多數提出的方法都是針對單個應用領域設計的,但將它們的技術推廣到其他應用領域是有益的,也是可能的。因此,交叉引用這些服務于不同應用領域的方法是困難的,需要加以解決。此外,可控的深度數據生成結果的質量要求在各個應用領域專門設計評價策略。因此,我們需要對不同領域的不同評價策略進行系統的標準化和總結。此外,人工智能(AI)科學家正在尋找新的可用數據集來測試他們的可控深度數據生成模型,而特定領域的社區正在尋找更強大的控制技術來生成具有期望屬性的復雜結構化數據,鑒于這兩方面的需求不斷增長,對現有可控深度數據生成技術的系統綜述限制了雙方數據生成的進展。為了填補這一空白,本研究旨在通過對可控深度數據生成技術的系統綜述,幫助跨學科研究人員了解可控深度數據生成的基本原理,選擇合適的技術解決相關領域的問題,并以標準化的評估場景推進研究前沿。這項綜述的主要貢獻總結如下:
對現有技術進行系統的總結、分類和比較。根據可控深度數據生成過程的觸發方式,對現有可控深度數據生成技術進行了全面的分類,形成了新的分類框架。討論并比較了該分類法不同子類別的技術細節、技術優缺點。這種分類法的提出是為了使來自不同應用領域的研究人員能夠定位最適合他們需要的技術。
標準化的評估指標和流程。從歷史上看,數據生成方法和它們的評估通常是針對單個領域定制的,盡管它們有共同的抽象問題和目標,但并沒有很好地統一。針對這一問題,本文總結了可控深度數據生成的常用評價指標和流程,并從生成數據質量和屬性可控性兩個角度對其進行標準化。
對主要應用進行全面的分類和總結。對分子合成與優化、蛋白質設計、圖像編輯、情感語音生成等主要應用進行了全面的介紹和總結。本文比較并充分討論了應用于這些應用領域的各種技術。對這些主要應用的全面分類和總結,將有助于人工智能研究人員探索廣泛的應用領域,并指導這些領域的研究人員使用適當的技術生成數據。
對現有基準數據集進行系統綜述,并對現有技術進行實證比較。根據不同的數據模式,系統地總結了各應用領域借鑒的基準數據集。此外。實驗結果由我們和同行評議的文章進行,以比較在這些基準數據集上生成可控深度數據的代表性模型。對現有基準數據集的系統綜述和代表性技術的實證比較將使模型開發人員能夠使用額外的數據集來評估他們的模型,并將他們提出的模型的性能與基準結果進行比較。
對當前的研究現狀和潛在的未來方向進行了深刻的討論。本文通過對可控深度數據生成技術、標準化評價指標、廣泛的應用范圍、基準數據集的系統回顧和現有技術的實證比較,對該領域存在的幾個問題提出了深刻的見解,并展望了該領域未來的發展方向。
在第一部分中,我們首先介紹了可控深度數據生成的背景、挑戰、我們的貢獻、我們的綜述與現有綜述的關系。然后在第2節中,我們將介紹用于深度數據生成的通用框架作為初步介紹。接下來,我們正式闡述了可控深度數據生成問題(章節3.1),并在章節3中根據各種屬性控制技術(章節3.2)提出了分類方法,然后在同一章節中總結了評價指標。在第4節中,我們介紹了可控深度數據生成的技術,并根據我們的分類,詳細解釋了從無開始可控生成(第4.1節)和從源數據可控轉化(第4.2節)的概念和代表工作。在第5節中,我們將展示在4.1節和4.2節中回顧的模型在各種領域特定任務中的應用,然后介紹這些領域中使用的流行數據集。此外,在第6節中,我們對常用的分子、圖像、文本和音頻數據集進行了實驗比較和分析,用于可控的深度數據生成。在后面的第7節中,我們將介紹該領域的潛在挑戰、機會和現有方法的局限性。我們將在第8部分結束我們的綜述。
【導讀】關于《深度學習系統優化》綜述論文
深度學習(Deep Learning, DL)模型在視覺、語言、醫療、商業廣告、娛樂等許多應用領域都取得了優異的表現。隨著DL應用和底層服務硬件的快速發展,都顯示出了強大的擴展趨勢,即模型擴展和計算擴展,例如,最近的預訓練模型具有數千億參數,內存消耗約TB級,以及提供數百個TFLOPS的最新GPU加速器。隨著規模化趨勢的出現,DL推理服務系統出現了新的問題和挑戰,逐步向大規模深度學習服務系統發展。本綜述旨在總結和分類大規模深度學習服務系統出現的挑戰和優化機會。通過提供一種新穎的分類方法,總結計算范式,闡述最新的技術進展,我們希望本綜述能夠揭示新的優化視角,激發大規模深度學習系統優化的新工作。
//www.zhuanzhi.ai/paper/9ee7ca2cf6457080794f9b6608f09e7a
深度學習(DEEP Learning, DL)模型,如CNN[15,36,44],Transformers[2,7,10,29]和推薦模型[31,41]在許多認知任務,如視覺、語音和語言應用中取得了優異的表現,這在許多領域產生重要的應用,如醫學圖像分析[38],照片造型[34],機器翻譯[40],產品推薦[31]、定制廣告[13]、游戲[21]等。這種廣泛的DL應用帶來了巨大的市場價值,也帶來了大量的DL服務流量。例如,FB有18.2億的日活躍用戶[11]。廣告推薦查詢的數量可以達到每秒10M查詢。消費者生成數據的巨大增長和DL服務的使用也推動了對以人工智能為中心的數據中心(如亞馬遜AWS[27]和微軟Azure[6])的需求,以及對GPU等強大的DL加速器的日益采用。根據[35]的報告,2018年,GPU在全球數據中心加速器市場上以298300萬美元的份額占據了85%的主要份額。到2025年,該產品將達到298.19億美元。
隨著市場需求的不斷增長,DL應用和底層服務硬件在計算可擴展(例如,增加計算并行性、內存和存儲以服務于更大的模型)和模型擴展(例如,更高的結構復雜性、計算工作量、參數大小以獲得更好的精度),這大大復雜化了服務系統的管理和優化。一方面,如圖1 (a)所示,在計算擴展趨勢下,具有大規模計算并行性的GPU已成為近年來數據中心DL計算加速器的主要類型之一,并保持著持續的指數級性能縮放。最近的GPU如NVIDIA Tesla V100提供每秒130拉浮點運算(TFLOPS),和900 GB / s內存帶寬, 和這些數字進一步增加到312 TFLOPS和1.6 TB / s內存帶寬,可以提供數萬DL模型如ResNet50[15]同時提供更高的效率(性能/瓦特)。另一方面,如圖1 (b)所示,模型規模已經被證明是獲得更好的精度的最重要的因素之一,其有效性在實踐中一致顯示在所有領域的工業超大模型,如視覺模型BiT [22], NLP模型BERT [7],GPT3[2]和深度學習推薦模型DLRM[31]。例如,最近的超大型模型MT-NLG[29]已經實現了5300億參數。工業級商用DLRM[31]已達到~ TB模型大小,大大超過了單機存儲能力,需要多個設備才能進行協同計算。
在這樣的背景下,我們觀察到目前的DL系統社區對大規模深度學習系統(LDS)仍然缺乏足夠的認識和關注,忽視了出現的挑戰和機遇: 傳統的DL系統優化通常集中在單模型單機推理設置(即一對一映射)。然而,LDS具有更大的DL模型和更強大的硬件,能夠實現更靈活的推理計算,將多實例到單設備、一實例到多設備、甚至多實例到多設備映射變為現實。例如,計算縮放(如GPU、TPU)促使許多研究工作在單個設備上進行多模型推理,例如將一個GPU劃分為多個容器化vGPU或多實例GPU (MIG),以獲得更好的硬件利用率、更高的服務吞吐量和成本效率。考慮到實際的成本管理(例如,總擁有成本,TCO),服務大量推理查詢的數據中心也傾向于遷移到多租戶推理服務,例如,將多個推理查詢放置在同一設備上,從而產生新的優化目標(例如,每秒服務的總查詢,以及來自傳統單租戶推斷的約束(例如,服務水平協議、SLA)。類似地,模型擴展也提出了新的一對多推理場景的要求。目前的超大型模型(如DLRM)在推理過程中需要耗費大量的內存(~TB不量化),這需要新的協同計算范式,如異構計算或分布式推理。這種協作服務涉及遠程進程調用(RPC)和低帶寬通信,這帶來了與傳統的單設備推理截然不同的瓶頸。由于涉及到以上所有場景,現代數據中心面臨更復雜的多對多場景,需要專門的推理查詢調度,如服務路由器和計算設備管理,以獲得更好的服務性能,如延遲、吞吐量和成本等。
在本文中,我們提出了一種新的計算范式分類法,總結了新的優化目標,闡述了新的技術設計視角,并為未來的LDS優化提供了見解。
多對多計算范式以DNN實例(I)和計算設備(D)之間的關系為特征,新興的LDS計算范式除了單實例單設備(SISD)外,還可以分為三個新的類別,即多實例單設備(MISD),單實例多設備(SIMD)和多實例多設備(MIMD),如圖2所示。與專注于單模型性能的SISD不同,LDS工作有不同的優化目標,包括推理延遲、服務吞吐量、成本、可擴展性、服務質量等。例如,多租戶推理(multi-tenant inference, MISD)的目標是提高服務吞吐量和電力效率,而超大規模模型推理服務的目標是以低成本提高硬件可伸縮性。
大規模設計和技術由于推理服務的規模,LDS工作也在算法創新、運行時調度和資源管理方面面臨許多優化挑戰和機遇。例如,多租戶推理優化尋求細粒度的硬件資源分區和作業調度,例如空間/時間共享,以提供QoS保證。由于延遲通信瓶頸,分布式推理需要專門的模型-硬件協同優化,例如高效的模型分片和平衡協作等。
通過對現有工作的總結,我們旨在對出現的挑戰、機遇和創新提供一個全面的調研,從而推動LDS運營和優化的新創新。調研的其余部分組織如下:第2節介紹了研究的初步內容,包括我們對LDS的分類,并說明了本次調研的范圍。第3節總結了在多實例單設備(MISD)優化方面面臨的挑戰和最近的工作;第4節總結了單實例多設備(SIMD)優化方面的研究工作;第5節總結了這項工作。