預測性和健康管理(PHM)技術在工業生產和設備維護中發揮著關鍵作用,通過識別和預測可能的設備故障和損壞,從而允許采取必要的維護措施以增強設備的使用壽命和可靠性,同時降低生產成本和停機時間。近年來,基于人工智能(AI)的PHM技術在工業物聯網和大數據背景下取得了顯著的成就,并且在各種行業中得到了廣泛應用,例如鐵路、能源和航空,用于條件監控、故障預測和健康管理。如ChatGPT和DALLE-E等大規模基礎模型(LSF-Models)的出現標志著AI從AI-1.0進入了新的AI-2.0時代,其中深度模型從單模態、單任務、有限數據的研究范式迅速演變為多模態、多任務、大數據和超大型模型范式。ChatGPT代表了這種研究范式的里程碑式成就,由于其高度智能的自然語言理解能力,為通用人工智能帶來了希望。然而,PHM領域缺乏如何應對AI領域這一重大變化的共識,并需要進行系統的回顧和規劃以明確未來的發展方向。為了填補這一空白,本文系統地闡述了LSF-Models的關鍵組成部分和最新發展。然后,我們系統地回答了如何構建適用于PHM任務的LSF-Model,并概述了這一研究范式的挑戰和未來發展路線圖.
//www.zhuanzhi.ai/paper/953013e449244efd0ba5f615c2ffa34c
1. 引言
預測性和健康管理(PHM)是確保工業設備安全可靠運行的關鍵技術 [1, 2]。通過全面監控和管理設備,PHM減少設備故障的可能性,最大限度地減少生產停機時間,從而提高設備的可靠性和生產效率,為企業創造顯著的經濟效益 [3, 4]。在工業生產實踐中,PHM有三個核心任務:故障檢測(異常檢測)[5-7],故障診斷 [8-11],和剩余使用壽命(RUL)估計 [12-14]。異常檢測的目標是及時識別設備的異常活動和狀態,而故障診斷的目標是確定設備故障的原因和位置。另一方面,剩余使用壽命估計預測設備未來可能出現故障的時間。這三項任務從不同的角度共同工作,以確保設備的安全運行。隨著工業設備變得越來越復雜,運行監控數據量增大,工業數據分析、設備狀態監控和健康管理的自動化成為必要 [15]。這種自動化可以大幅度降低工業資產的維護成本,提高設備狀態識別和故障預測的效率和準確性,增強設備運行的可靠性和安全性.
近年來,隨著機器學習和深度學習[16-18]技術的進步,PHM領域取得了顯著的進步,實現了工業設備狀態自動化監控和故障預測,大大提高了工業資產維護的智能水平。自20世紀初以來,機器學習技術在實現PHM的智能識別和決策中發揮了關鍵作用[19-21]。基于機器學習的PHM模型主要包含兩個核心組件:特征工程和機器學習模型。特征工程利用統計分析和信號分析技術[22-26]從工業監控數據中提取健康相關的特征信息。機器學習模型使用各種預測和識別模型,如支持向量機(SVM)[27-29]和K最近鄰(KNN)[30-32],實現智能決策。這種研究范式使PHM實現了初步的自動化,減少了工業設備維護中對人工的需求。然而,盡管取得了進步,但仍需要手動特征工程,限制了PHM處理大規模數據的能力。機器學習模型的有限學習能力使這種范式難以適應大數據時代帶來的挑戰。
自2012年以來,深度學習技術[33-35]憑借其強大的數據分析、特征提取和智能決策能力,徹底改變了各種研究領域的范式。深度學習通過建立多級神經網絡結構實現復雜數據的自動特征提取和模式識別,可以自動處理高維、非線性和大量的數據,并具有適應性和泛化能力。因此,深度學習已經成為PHM領域的主流工具[17, 18, 36],不斷提高工業資產維護的自動化和智能化水平。針對不同的PHM應用和任務,已經提出了各種深度網絡模型,如自編碼器[37-39],卷積神經網絡(CNNs)[40-49],和遞歸神經網絡(RNNs)[50-52]。自編碼器通過數據壓縮或重建實現無監督的表示學習,在數據噪聲減少、降維和異常檢測等任務中表現優秀[53]。CNNs基于卷積理論,通過權值共享和層次學習實現高效的時空特征提取,使其適用于工業設備的健康監控、故障預測和診斷,以及剩余使用壽命預測[54]。RNNs擅長編碼長距離的時間特征,使其非常適合分析和處理各種時間信號[55]。因此,RNNs在各種工業PHM應用中得到了廣泛的使用。深度學習技術通過構建端到端的智能決策模型,顯著減少了工業PHM應用中對人工的需求[8]。然而,現有的深度學習模型在多任務、泛化和認知能力方面仍存在限制。因此,突破這些限制,實現具有高泛化和認知能力的全面多任務智能模型,是亟待解決的問題。
在過去的兩年里,大規模基礎模型(LSF-Models)[56, 57],如GPT-3 [58, 59]和ChatGPT [60, 61],展示了其流暢的文本對話中高度智能的自然語言理解能力。大規模多模態文本和圖像理解模型,如GPT-4 [62],DALL-E-2 [63],和分割任何模型(SAM)[64],進一步展示了這一研究范式在多模態對話、圖像生成和分割方面的非凡成就。基于AI的深度模型已從單模態、單任務、有限數據的研究范式(AI-1.0)快速發展到多模態、多任務、海量數據和超大型模型的研究范式(AI-2.0)。圖1清楚地顯示了這兩種研究范式的區別。AI-2.0的核心是具有跨領域知識的LSF-Model,它可以理解數據的通用概念,并在未見過的數據上實現零次學習的泛化,無需額外的訓練[64]。這種模型的實現主要基于以下三個關鍵組件,強大的特征提取模型[65-68],無監督表示學習算法[69-71],和多模態融合算法[72, 73]。此外,廣泛的未標記或標記的多模態數據是這種發展的先決條件。然而,在PHM領域如何構建具有跨領域知識的LSF-Model仍然未知,如何開發適用于PHM領域的特征提取、表示學習和多模態融合算法還缺乏足夠的研究和分析。此外,PHM領域如何應對AI領域的這一巨大變化仍然沒有定論,缺乏系統的文獻回顧,以及未來研究方向的路線圖。為了填補這個空白,本文首先系統地介紹了LSF-Models的關鍵組件和最新進展。然后,我們系統地回答了如何構建適用于PHM領域的有效LSF-Model。我們也詳細闡述了這個研究范式將面臨的挑戰以及未來的發展路線圖。
具體來說,本綜述的主要工作總結如下:1)本文提供了對LSF-Models的三個關鍵組成部分及其各自研究進展的全面回顧。2)根據PHM領域的實際情況,本文系統地分析并回答了如何構建適用于工業PHM應用的有效LSF-Model。3)本文討論了PHM領域LSF-Model研究的路線圖,并詳細分析了這個研究范式面臨的挑戰和解決方案。本文的其余部分組織如下。第2部分關注LSF-Models的關鍵組成部分,包括Transformer,自監督學習,和多模態融合。第3部分回顧了LSF-Models在自然語言處理和計算機視覺中的研究進展。第4部分系統地回答了如何為PHM實施LSF-Models,包括研究狀態,存在的問題和解決方案。第5部分全面討論了PHM領域LSF-Model研究的挑戰及其未來的路線圖。第6部分提出了結論。
2. 大模型進展
在前面的部分中,我們討論了構建LSF-Models的一些關鍵組件。本節分別在NLP和CV的領域中,提供了LSF-Models進展的廣泛概述和討論,以展示這些領域最新的發展趨勢和方向。
3. 大規模基礎模型用于預測性健康管理(PHM)
盡管深度學習模型在PHM中取得了顯著的性能,但由于它們通常針對特定的領域和任務進行訓練和優化,因此它們的效果有限。因此,在復雜和開放的工業場景中,深度學習模型可能會展現出一些限制,例如有限的泛化、多任務處理和認知能力。現有的模型可能在已知的場景中表現良好,但在未知的場景中很難有效地泛化[192-194]。這種缺乏零樣本泛化能力使得它難以應對實際工業場景的復雜性。此外,現有的深度模型通常專注于單一任務。然而,工業設備有數百個核心組件,所有這些組件都需要健康監測和故障預測。為每個核心組件開發相應的深度模型是不現實的。最后,現有的深度模型具有有限的認知能力,很難理解工業數據的性質和一般概念,所以它們經常輸出難以理解和錯誤的結果。LSF-Models的研究為我們展示了一個有效的解決方案,可以成功解決上述問題。如第3節所述,現有的LSF-Models,如ChatGPT [62] 和 SAM [64],已經展示出了出色的數據理解、零樣本泛化和強大的多任務處理能力。此外,它還具有一定的高級認知能力,可以解決一些推理任務。因此,LSF-Models的成功標志著AI領域的研究范式從單模式、單任務、有限數據的研究范式(AI 1.0)轉變為多模式、多任務、大數據和超大模型的研究范式(AI 2.0)。然而,如何在PHM領域開發LSF-Model仍然沒有定論。為了推動LSF-Model在PHM領域的研究和應用,本節從四個方面解釋和分析了如何為PHM應用構建LSF-Models。
4. 挑戰與未來路線圖
在前一部分中,我們討論了在PHM領域構建LSF-模型的技術細節和可行解決方案。本節試圖從更廣泛、更全球的角度討論這些模型的挑戰、路線圖和前景。通過這樣做,我們可以更好地理解整個大局,并確定PHM領域的改進和未來研究的方向。
圖9展示了PHM領域中LSF-模型的未來路線圖。根據LSF-模型面臨的挑戰,本節探討如何解決這些挑戰,并詳細闡述了未來的路線圖。下面將進行詳細描述。
5. 結論
目前,深度學習的研究正在經歷一場新的革命,即從單模式、單任務、有限數據的研究范式(AI 1.0)迅速發展到多模態、多任務、海量數據和超大模型的研究范式(AI 2.0)。AI 2.0關注的是開發具有跨領域知識的大型基礎模型(LSF-Models),這些模型在海量數據集上訓練后可以展現出強大的泛化能力和多任務能力。為此,本文全面回顧了LSF-Models的三大技術要點,并分析了LSF-Models在自然語言處理(NLP)和計算機視覺(CV)中的研究現狀。文獻回顧顯示,PHM領域對LSF-Models的研究嚴重缺乏,且對如何構建適用于PHM應用的LSF-Models尚無可行解決方案。因此,本文從數據集、深度模型、學習算法和數據融合四個方面全面回答了如何構建適用于PHM領域的LSF-Models。最后,本文試圖從更廣闊、更全球化的角度討論LSF-Models的挑戰和路線圖。總的來說,本文系統地介紹了LSF-Models及其在PHM領域的研究現狀、挑戰、解決方案、路線圖和前景,預計能為此領域未來的研究提供寶貴的指導。
頭部AI大模型將電力領域作為重點垂直領域。1)華為:盤古CV大模型將電力作為重點領域之一,在無人機智能電力巡檢方面取得了較好成績,模型開發維護成本降低90%;與中科院自動化所合作即將發布的智能決策大模型,在出力預測、電網智能調度方面也有突破。2)阿里:通義千問大模型也將電力作為首批應用場景之一。4月26日阿里云宣布啟動“通義千問伙伴計劃”,優先為千問伙伴提供大模型領域的技術、服務與產品支持,首批將推動“通義千問”大模型在電力等7個不同行業的落地應用,共同打造產業生態。3)百度:百度和國網研發了國網-百度·文心大模型,基于通用文心大模型,在海量數據中挖掘了電力行業數據,引入電力業務積累的樣本數據和特有知識,并且在訓練中結合雙方在預訓練算法和電力領域業務與算法的經驗,設計電預訓練任務,讓文心大模型深入學習電力專業知識。
AI對新型電力系統的發展具有重要意義。AI對于新型電力系統的發展具有重要意義。根據《新型電力系統發展藍皮書》,建設新型電力系統的重點任務之一是加強電力系統智慧化運行體系建設。電力與AI的結合可以分為以下幾個方面:1)電網調控領域:AI能夠提高電網運行特性認知水平、提高調度控制效率、提高計劃交易自動化水平、提高運行管理智能化、提高人工智能應用基礎支撐能力。2)電力設備管理領域:AI能夠設備缺陷識別、設備運行狀態預測、設備運行狀態預測、設備健康知識管理等。3)新型電力系統新能源功率預測領域:在線自適應學習、小樣本機器學習等技術對預測產生重要作用。4)新型電力系統大數據領域:電網大數據整合、電網大數據智能搜索、數據標注等發揮重要作用。5)電網智能營銷領域:AI賦能用電數據分析、智能客服等細分領域。6)電網智能供應鏈領域:AI可以助力物資采購、智能倉儲、智能物流等環節。
以ChatGPT為代表的大模型,是全新一代知識表示和調用方式,相比以往知識圖譜的方式,更加高效智能可擴展等,開啟通用人工智能之門。但符號化的知識圖譜過時了嗎?并非如此,知識圖譜和大模型可以進行很好的結合,互相促進,提升知識利用的效果。來自澳大利亞格里菲斯大學(Griffith University)等學者《統一大型語言模型和知識圖譜:路線圖》,29頁pdf詳述最全指南,值得關注!
大型語言模型(LLMs),如ChatGPT和GPT4,由于其新興能力和通用性,正在自然語言處理和人工智能領域掀起新浪潮。然而,LLMs是黑箱模型,常常難以捕獲和獲取事實知識。相比之下,知識圖譜(KGs),例如維基百科和華普,是結構化知識模型,明確存儲豐富的事實知識。知識圖譜可以通過提供外部知識以推理和解釋,從而增強LLMs。同時,知識圖譜難以構建并且具有不斷演變的特性,這對知識圖譜中生成新事實和表示未見知識的現有方法提出了挑戰。因此,將LLMs和知識圖譜統一起來并同時利用它們的優勢是互補的。在這篇文章中,我們提出了一個前瞻性的LLMs和知識圖譜統一的路線圖。我們的路線圖包括三個總體框架,即1) 知識圖譜增強的LLMs,它在LLMs的預訓練和推理階段,或為了增強對LLMs所學知識的理解,將知識圖譜納入其中;2) LLM增強的知識圖譜,利用LLMs進行不同的知識圖譜任務,如嵌入,完成,構建,圖到文本生成和問答;以及 3)協同的LLMs + 知識圖譜,在其中LLMs和知識圖譜扮演著平等的角色,并以互利的方式工作,以增強LLMs和知識圖譜對由數據和知識驅動的雙向推理。我們在路線圖中回顧和總結了這三個框架內的現有努力,并指出了它們的未來研究方向。
1. 引言
大型語言模型(LLMs)(例如,BERT [1],RoBERTA [2]和T5 [3]),在大規模語料庫上預訓練,已經在各種自然語言處理(NLP)任務中展現出了優異的表現,如問題回答[4],機器翻譯[5]和文本生成[6]。最近,模型規模的急劇增加進一步賦予了LLMs新興的能力[7],為將LLMs作為人工通用智能(AGI)的應用鋪平了道路。像ChatGPT和PaLM2這樣的高級LLMs,擁有數十億的參數,在許多復雜的實際任務中展現出了巨大的潛力,如教育[8],代碼生成[9]和推薦[10]。
盡管LLMs在許多應用中取得了成功,但它們因缺乏事實知識而受到批評。具體來說,LLMs記住了訓練語料庫中包含的事實和知識[14]。然而,進一步的研究揭示,LLMs無法回憶起事實,而且經常會產生幻覺,生成事實上不正確的聲明[15],[28]。例如,當被問到“愛因斯坦在什么時候發現了重力?”時,LLMs可能會說“愛因斯坦在1687年發現了重力”,這與艾薩克·牛頓制定了引力理論的事實相矛盾。這個問題嚴重損害了LLMs的可信度。
作為黑箱模型,LLMs也因其缺乏可解釋性而受到批評。LLMs隱含地在它們的參數中表示知識。解釋或驗證LLMs獲取的知識很困難。此外,LLMs通過概率模型執行推理,這是一個不確定的過程[16]。LLMs用于得出預測或決策的特定模式和功能對人類來說并不直接可訪問或可解釋[17]。盡管一些LLMs通過應用思維鏈[29]來解釋它們的預測,但它們的推理解釋也受到了幻覺問題的影響[30]。這嚴重影響了LLMs在高風險場景中的應用,如醫療診斷和法律判斷。例如,在一個醫療診斷場景中,LLMs可能會錯誤地診斷疾病,并提供與醫學常識相矛盾的解釋。這引發了另一個問題,即在一般語料庫上訓練的LLMs可能無法很好地泛化到特定領域或新知識,因為缺乏領域特定的知識或新的訓練數據[18]。
為解決上述問題,一個可能的解決方案是將知識圖譜(KGs)融入到LLMs中。知識圖譜(KGs),以三元組(頭實體,關系,尾實體)的方式存儲大量事實,是一種結構化且決定性的知識表示方式(例如,Wikidata [20],YAGO [31],和 NELL [32])。KGs對于各種應用至關重要,因為它們提供了準確的顯式知識[19]。此外,它們因其象征性推理能力[22]而著名,該能力可以生成可解釋的結果。KGs也可以隨著新知識的不斷加入而積極演化[24]。此外,專家可以構建特定領域的KGs,以提供精確且可靠的特定領域知識[23]。然而,KGs難以構建[33],而當前在KGs中的方法[25],[27],[34]在處理真實世界KGs的不完整和動態變化性質方面是不足夠的。這些方法未能有效地模擬未見實體和表示新事實。此外,它們經常忽視KGs中的豐富文本信息。此外,KGs中的現有方法通常針對特定的KGs或任務定制,不夠通用。因此,利用LLMs來解決KGs面臨的挑戰也是必要的。我們分別在圖1中總結了LLMs和KGs的優缺點。
最近,將LLMs與KGs統一起來的可能性越來越受到研究人員和從業人員的關注。LLMs和KGs本質上是互相關聯的,可以相互增強。在KG增強的LLMs中,KGs不僅可以被整合到LLMs的預訓練和推理階段,以提供外部知識[35]-[37],而且還可以用于分析LLMs并提供可解釋性[14],[38],[39]。在LLM增強的KGs中,LLMs已經被用于各種與KG相關的任務,例如KG嵌入[40],KG完成[26],KG構建[41],KG-to-text生成[42],和KGQA[43],以提高KGs的性能并促進KGs的應用。在協同作用的LLM + KG中,研究人員將LLMs和KGs的優點結合起來,相互提高在知識表示[44]和推理[45],[46]方面的性能。雖然有一些關于知識增強LLMs的調查[47]-[49],主要關注使用KGs作為外部知識來增強LLMs,但它們忽視了其他整合KGs的可能性,以及LLMs在KG應用中的潛在角色。
在這篇文章中,我們提出了一個展望未來的路線圖,用于統一LLMs和KGs,利用它們各自的優勢并克服各種方法的限制,以適應各種下游任務。我們提出了詳細的分類,進行了全面的回顧,并指出了這些快速發展領域的新興方向。我們的主要貢獻如下:
路線圖。我們提出了一個展望未來的路線圖,用于整合LLMs和KGs。我們的路線圖包括三個通用框架來統一LLMs和KGs,即,KG增強的LLMs,LLM增強的KGs,以及協同作用的LLM + KGs,為這兩種不同但互補的技術的統一提供了指導。
分類和回顧。對于我們路線圖的每一個整合框架,我們都提出了詳細的分類和統一LLMs和KGs研究的新穎分類法。在每個類別中,我們從不同的整合策略和任務的角度回顧了研究,這為每個框架提供了更多的洞察。
新興進步的覆蓋范圍。我們覆蓋了LLMs和KGs的先進技術。我們包括了最新的LLMs如ChatGPT和GPT-4以及新的KGs,例如多模態知識圖譜的討論。
挑戰和未來方向的總結。我們強調了現有研究中的挑戰,并提出了一些有前途的未來研究方向。
2. 背景知識
在本節中,我們將首先簡要介紹幾種代表性的大型語言模型(LLMs),并討論提示工程,該工程有效地使用LLMs進行各種應用。然后,我們將說明知識圖譜(KGs)的概念,并介紹KGs的不同類別。
大型語言模型
在大規模語料庫上預訓練的大型語言模型(LLMs)已經在各種NLP任務中展現出巨大的潛力[13]。如圖3所示,大多數LLMs都源于Transformer設計[50],該設計包含了由自注意力機制賦能的編碼器和解碼器模塊。根據架構結構,LLMs可以被分類為三個組:1)僅編碼器的LLMs,2)編碼器-解碼器的LLMs,和3)僅解碼器的LLMs。如圖2所示,我們總結了幾個具有不同模型架構,模型大小和開源可用性的代表性LLMs。
提示工程
提示工程是一個新興的領域,專注于創建和精煉提示,以最大化大型語言模型(LLMs)在各種應用和研究領域中的效用[63]。如圖4所示,提示是為LLMs指定任務(例如,情感分類)的自然語言輸入序列。一個提示可能包含幾個元素,即1)指令,2)上下文,和3)輸入文本。指令是指導模型執行特定任務的短句。上下文為輸入文本或少數示例提供背景。輸入文本是需要模型處理的文本。提示工程尋求提高大型語言模型(例如,ChatGPT)在多種復雜任務中的能力,如問題回答,情感分類和常識推理。鏈式思維(CoT)提示[64]通過中間推理步驟實現復雜推理能力。Liu等人[65]結合外部知識來設計更好的知識增強提示。自動提示工程師(APE)提出了一種自動提示生成方法,以提高LLMs的性能[66]。提示提供了一種簡單的方式,可以在無需微調的情況下利用LLMs的潛力。精通提示工程可以更好地理解LLMs的優點和缺點。
知識圖譜(KGs)知識圖譜(KGs)將結構化知識存儲為三元組集合KG = {(h, r, t) ? E × R × E},其中E和R分別表示實體和關系的集合。現有的知識圖譜(KGs)可以根據存儲的信息被分為四組:1)百科全書型KGs,2)常識KGs,3)特定領域KGs,以及4)多模態KGs。我們在圖5中展示了不同類別的KGs的例子。
** 應用**
LLMs 以及 KGs 已被廣泛應用在各種真實世界的應用中。我們在表1中總結了一些使用LLMs和KGs的代表性應用。ChatGPT/GPT-4是基于LLM的聊天機器人,可以以自然對話格式與人類進行交流。為了提高LLMs的知識意識,ERNIE 3.0 和 Bard將KGs整合進他們的聊天機器人應用中。Firefly開發了一款照片編輯應用,允許用戶使用自然語言描述來編輯照片。Copilot、New Bing 和 Shop.ai 分別采用LLMs來增強他們在編碼助手、網絡搜索和推薦等領域的應用。Wikidata 和 KO 是兩個代表性的知識圖譜應用,被用來提供外部知識。AliOpenKG是一個為推薦設計的知識圖譜。Doctor.ai 開發了一個健康護理助手,整合了LLMs和KGs以提供醫療建議。
3 路線圖和分類
在本節中,我們首先提出一個明確的框架路線圖,以統一LLMs和KGs。然后,我們呈現了關于統一LLMs和KGs的研究分類。
3.1 路線圖
我們在圖6中描繪了統一KGs和LLMs的路線圖。在路線圖中,我們確定了統一LLMs和KGs的三個框架,包括KG增強的LLMs,LLM增強的KGs,以及協同的LLMs + KGs。
3.1.1 KG增強的LLMs
LLMs因其能夠從大規模語料庫中學習知識并在各種自然語言處理(NLP)任務中取得最先進的性能而聞名。然而,LLMs經常因其幻覺問題[15]和缺乏可解釋性而受到批評。為解決這些問題,研究人員已經提出了用知識圖譜(KGs)來增強LLMs。KGs以明確和結構化的方式存儲大量知識,這可以用來增強LLMs的知識意識。一些研究人員已經提出在預訓練階段將KGs納入LLMs,這可以幫助LLMs從KGs中學習知識[91],[92]。其他研究人員提出在推理階段將KGs納入LLMs。通過從KGs中檢索知識,可以顯著提高LLMs在獲取特定領域知識方面的性能[93]。為了提高LLMs的可解釋性,研究人員還利用KGs來解釋LLMs的事實[14]和推理過程[94]。
3.1.2 由LLM增強的KG
知識圖譜(KGs)儲存著結構化的知識,這在很多實際應用中都起著至關重要的作用[19]。然而,現有的KG方法在處理不完整的KG [25]和處理文本語料庫來構建KG [95]方面存在短板。鑒于LLM的泛化能力,許多研究人員正試圖利用LLM來解決KG相關的任務。最直接的方式就是將LLM作為KG相關任務的文本編碼器。研究人員利用LLM處理KG中的文本語料庫,然后使用文本的表示來豐富KG的表示[96]。一些研究還使用LLM來處理原始語料庫,并提取關系和實體用于KG的構建[97]。最近的一些研究試圖設計一個KG提示,這可以有效地將結構化的KG轉化為LLM可以理解的格式。這樣,LLM就可以直接應用到KG相關的任務中,例如KG完成[98]和KG推理[99].
3.1.3 融合了LLM和KG的系統
這幾年,研究人員越來越關注將LLM和KG融合的潛力[40],[42]。LLM和KG是兩種固有的互補技術,應當將它們統一到一個通用框架中,以便互相增強。為了進一步探索這種統一,我們在圖7中提出了一個融合了LLM和KG的統一框架。這個統一框架包含四層:1) 數據,2) 融合模型,3) 技術,和4) 應用。在數據層,LLM和KG分別用于處理文本和結構化數據。隨著多模態LLM[100]和KG[101]的發展,這個框架可以擴展到處理多模態數據,如視頻、音頻和圖像。在融合模型層,LLM和KG可以相互協同,以提高他們的能力。在技術層,已經在LLM和KG中使用的相關技術可以被納入到這個框架中,以進一步增強性能。在應用層,LLM和KG可以整合起來,以解決各種實際應用,如搜索引擎[102]、推薦系統[10]和AI助手[103]。
3.2 分類
為了更好地理解將大型語言模型(LLMs)和知識圖譜(KGs)統一的研究,我們為路線圖中的每個框架提供了更細粒度的分類。具體來說,我們關注了將知識圖譜和大型語言模型集成的不同方式,即,知識圖譜增強的大型語言模型、知識圖譜增量的大型語言模型,以及融合了大型語言模型和知識圖譜的系統。研究的細粒度分類如圖8所示。
知識圖譜增強的大型語言模型。整合知識圖譜可以提高大型語言模型在各種下游任務中的性能和可解釋性。我們將知識圖譜增強的大型語言模型研究分為三組:1) 知識圖譜增強的大型語言模型預訓練包括在預訓練階段應用知識圖譜并提高大型語言模型的知識表達的工作。2) 知識圖譜增強的大型語言模型推理包括在大型語言模型的推理階段使用知識圖譜的研究,這使得大型語言模型能夠在不進行再訓練的情況下獲取最新的知識。3) 知識圖譜增強的大型語言模型的可解釋性包括使用知識圖譜來理解大型語言模型所學習的知識和解釋大型語言模型的推理過程的工作。
大型語言模型增量的知識圖譜。大型語言模型可以應用于增強各種與知識圖譜相關的任務。我們根據任務類型將大型語言模型增量的知識圖譜研究分為五組:1) 大型語言模型增強的知識圖譜嵌入包括使用大型語言模型來豐富知識圖譜的表示,通過編碼實體和關系的文本描述。2) 大型語言模型增強的知識圖譜完成包括使用大型語言模型編碼文本或生成事實以提高知識圖譜完成(KGC)性能的論文。3) 大型語言模型增強的知識圖譜構建包括使用大型語言模型處理實體發現,共指消解,和關系提取任務以構建知識圖譜的工作。4) 大型語言模型增強的知識圖譜到文本生成包括使用大型語言模型生成描述來自知識圖譜的事.
7 未來方向
在前面的部分中,我們已經回顧了將知識圖譜(KGs)和大型語言模型(LLMs)統一的最新進展,但是仍有許多挑戰和未解決的問題需要解決。在本節中,我們將討論這個研究領域的未來方向。
8 結論
將大型語言模型(LLMs)和知識圖譜(KGs)統一是一個吸引了學術界和工業界越來越多關注的活躍的研究方向。在本文中,我們對該領域的最近研究提供了全面的概述。我們首先介紹了將KGs集成以增強LLMs的不同方式。然后,我們介紹了應用LLMs于KGs的現有方法,并基于各種KG任務建立了分類法。最后,我們討論了這個領域的挑戰和未來的方向。我們希望本文能夠提供對這個領域的全面理解,并推動未來的研究。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。
近年來,深度學習領域取得了重大進展,特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而,它的訓練過程極不穩定,對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高,大量研究在一定程度上探索了高效訓練領域,但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式,并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心",包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”,包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術,注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”,包括在資源受限情況下的一些獨特加速方法,例如對總迭代次數的限制; (5)“以系統為中心”,包括一些高效的分布式框架和開源庫,它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法,本文綜述了一個全面的回顧,以了解每個組件內的一般機制及其聯合交互。同時,對通用加速技術發展的未來工作進行了詳細的分析和討論,這些工作可以啟發我們重新思考和設計新的高效范式。總之,我們希望這項綜述將成為普遍有效訓練的寶貴指南。
//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f
隨著人工智能技術的快速發展,深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律,并表明更大的模型本質上需要大量的數據,在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如,Dehghani等人[44]提出了ViT-22B,該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后,GPT-3[18]在45TB數據樣本上訓練了175B參數,并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型,只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229],這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚,但為了保持實際效率,人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言,訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說,訓練GPT-3消耗大約355 GPU年,成本為460萬美元。在如此龐大的參數和數據樣本下,傳統的從零開始訓練顯然無法承受巨大的費用,特別是在擴展到下游任務[30,138,187,188,211,243]時,這將引入額外的架構和過多的參數。因此,預訓練-微調模式在深度學習領域日益受到關注。
預訓練的主題是繼承遷移學習的范式,在一個通用的數據集上訓練一個通用的基礎模型,以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態),幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像,有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練,為下游任務產生了有希望的遷移性能。同樣,來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48],通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區,Radford等人[196]提出了生成式預訓練(GPT),通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率,GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習,在預訓練中可以顯著增強對知識的理解,在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明,使用預訓練可以提高模型的魯棒性和不確定性,對于在大型數據集上進行訓練表現出極大的優勢,泛化能力較好。最近的進展表明,從具有巨大容量的預訓練模型中獲得了實質性的收獲,特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向,即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴,極大地啟發了大數據的應用。同時,它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本,包括時間和金錢,嚴重阻礙了它的發展。在此背景下,本文介紹和總結了在大規模模型上加速訓練的通用和實用技術,這些技術促進了更快的訓練,也可能有助于預訓練中龐大的基礎模型。
最近的許多工作回顧和總結了高效的訓練技術,主要包括引入了高效的預訓練模型,設計了新的加速組件,先進的優化方法,在NLP或CV社區上的高效訓練,以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作,并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型,主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧,討論了它們在每個不同社區的成果的最新研究進展,這些成果可能會給本地研究帶來新的思考。同時,系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型,并回顧了Transformer模型的幾種變體,這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展,介紹了Transformer模型的詳細演變,并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發,提出了一些提高Transformer模型訓練效率的策略,并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述,包括計算效率、存儲效率和硬件/算法協同設計。與它們不同,我們更關注基本的加速技術,不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐,以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展,包括新的優化器和策略,以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗,總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法,并討論了它們的效率和缺點。
近年來,高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展,但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下,本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧,這些技術獨立于任務或模型架構。從實踐效率的角度來看,我們認為高效的訓練主要圍繞兩個明確的目標:
為了達到相當的測試精度,高效的訓練需要更少的訓練時間。
在相似的訓練成本下,高效的訓練可以實現更高的性能。
該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構,本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外,由于我們的調研是無任務和無模型的,因此提供了訓練加速技術的廣泛泛化,可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理,研究人員可以開發更快、更有效的模型,而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述,為機器學習領域做出了重大貢獻。 本文對解決一般的基本最小化問題很感興趣,可以很容易地擴展到訓練基礎模型或預訓練任務:
與之前的工作不同,本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件,這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中,省略了額外的近端項。在不損失通用性的情況下,使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:
在表1中,我們總結了這些符號及其對應的研究領域。基于式(3),通過提煉和拆分組件的不同角色,將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析,以對當前用于訓練大規模模型的通用加速技術進行分類,并結合實際實現的可行性。具體來說,它們是:
以數據為中心的有效訓練。在深度學習中,全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高,盡管在早期階段表現有效。為了解決這個問題并提高泛化性能,以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性,從而在實際應用中具有更好的泛化性能。同時,為了實現有效加速并進一步提高模型的通用性,以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外,它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明,課程學習是一個循序漸進的過程,可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本,逐步恢復到高質量的樣本。總之,以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。
以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡,例如基于卷積的神經網絡(CNN),多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化,更多地關注DNNs的計算復雜性,以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說,架構近似側重于采用簡化的算子組合,以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率,也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態,可以有效地加快收斂速度,防止訓練過程在早期崩潰。總之,以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法,它具有很強的實用性,可以很容易地在任何深度學習框架中實現。
以優化為中心的高效訓練。為提高優化效率,總結了三個主要因素,即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而,要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此,以學習率為中心的方法旨在開發高效和靈活的策略,以高效和穩定地訓練模型。第二個因素,批量大小,在優化中也起著關鍵作用。借助GPU設備的并行計算能力,特別是在計算資源充足的情況下,通過增加單個minibatch中的樣本數量可以提高訓練效率。因此,以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看,我們總是努力實現一個具有高穩定性的目標,這是以目標為中心的方法的主要關注點。這些方法專注于優化目標,提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述,以優化為中心的方法研究了訓練過程中的高效迭代計算,為高效訓練提供了堅實的保證。
有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率,在這些場景中,計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練,同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練,研究人員和從業人員可以充分利用可用資源,避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發,這些模型更實用,更適合于資源通常有限的現實世界應用程序。
以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現,能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯,以解決跨設備通信中的瓶頸,并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練,訓練過程被分布為更小的計算任務,在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架,如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練,并顯著減少了大規模深度學習模型的訓練時間。
總而言之,本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分,我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分,我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:
從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術,總結了它們的技術路線和每個組件的實現,有助于為無任務和無模型的高效訓練提供堅實的指導。
比較了訓練加速中每個組件的優缺點,展示了它們的見解和互動,可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。
對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析,這可以為它們未來的發展提供指導。
本調查的主要結構組織如下。在第2節中,介紹了一些初步工作,包括不同骨干中的基本模塊,以及對大規模深度學習模型、數據集的預訓練,以及本綜述中采用的詳細符號。在第3 ~ 6節中,基于迭代公式(3),從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中,我們討論和總結了本綜述中的技術,并提出了一些有前途的研究方向。
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
主要觀點: ChatGPT帶來大模型時代變革,數據要素重要性提升 ChatGPT是由OpenAI研發的一種語言AI模型,其特點在于使用海量語料庫來生成與人類相似的反應。初代GPT模型參數1.17億,GPT2模型、GPT3模型參數分別達到15億、1750億。不斷提升的參數量級,使得ChatGPT3當前已經能夠應用在商業、研究和開發活動中。 當前此類參數體量龐大的模型,成為各大科技廠商研發重點。大模型的基礎為高質量大數據。ChatGPT的前身GPT-3就使用了3,000億單詞、超過40T的數據。此類大數據基礎的前提為三部分1)有效場景下的采集數據;2)大數據的存儲、清洗和標注;3)數據質量檢驗。 大模型發展之下,算力與網絡設施建設成為剛需 算力:ChatGPT類人工智能需要更充足的算力支持其處理數據,帶來更多高性能的算力芯片需求。英偉達表示,GPT-3需要512顆V100顯卡訓練7個月,或者1024顆A100芯片訓練一個月。2012年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越摩爾定律(晶體管數量每18月翻一倍)。 網絡設施:以微軟Azure為例,其AI基礎設施由互聯的英偉達AmpereA100TensorCoreGPU組成,并由QuantuminfiniBand交換機提供橫向擴展能力。服務器節點多、跨服務器通信需求巨大,網絡帶寬性能成為GPU集群系統的瓶頸,解決方式包括增加單節點通信帶寬與降低網絡收斂比,帶來光模塊、交換機等需求。 下游應用場景豐富,多行業落地可期 1)“生成式AI(generativeAI)”在互聯網及元宇宙領域市場化空間較為廣闊。基于現行的NLP算法發展程度及數據集規模。在不久的將來,生成式AI有較大可能在“智能客服”和“搜索引擎”進行增值,并有希望以“插件”的形式賦能現有的“生產力工具鏈(工程軟件/音視頻制作工具等)”。 2)AI在制造業的應用可分為三方面:a)智能裝備:指具有感知、分析、推理、決策、控制功能的制造裝備,典型代表有工業機器人、協作機器人、數控機床等;b)智能工廠:重點在于實現工廠的辦公、管理及生產自動化,典型的代表場景有協作機器人、智能倉儲物流系統等;c)智能服務:指個性化定制、遠程運維及預測性維護等。 3)人工智能在智能汽車領域的應用包括:a)智能駕駛依托AI,將從駕駛輔助發展至自動駕駛;b)智能座艙在AI支持下,從出行工具演變為出行管家。
【導讀】如何有效管控新冠,疫情預測是個關鍵的問題。美國佐治亞理工**“以數據為中心”的解決方案,這些解決方案顯示出了利用非傳統數據源以及人工智能和機器學習方面的最新創新來提高我們的預測能力的潛力。這項綜述深入研究了各種數據驅動的方法和實際進展,并介紹了一個概念框架來闡述。**
2019冠狀病毒病(COVID-19,即2019冠狀病毒病)疫情大流行使得從公共衛生到整個經濟的多個領域的決策者都必須進行疫情預測。雖然預測疫情發展在概念上常常與天氣預報類似,但它有一些關鍵的區別,仍然是一項艱巨的任務。疾病的傳播受到多種混雜因素的影響,包括人類行為、病原體動態、天氣和環境條件。越來越多的豐富的數據來源捕捉了以前無法觀察到的方面,也得益于政府公共衛生和資助機構的舉措,如預測挑戰和大規模團隊科學舉措,研究興趣得到了激發。特別是,這導致了一系列“以數據為中心”的解決方案,這些解決方案顯示出了利用非傳統數據源以及人工智能和機器學習方面的最新創新來提高我們的預測能力的潛力。這項綜述深入研究了各種數據驅動的方法和實際進展,并介紹了一個概念框架來闡述。首先,我們列舉了大量與流行病預測相關的流行病學數據集和新穎的數據流,捕捉了各種因素,如癥狀在線調查、零售和商業、流動性、基因組數據等。接下來,我們討論了方法和建模范式,重點關注最近的數據驅動的統計方法和基于深度學習的方法,以及將機械模型的領域知識與統計方法的有效性和靈活性相結合的新型混合模型。我們還討論了這些預測系統在實際應用中出現的經驗和挑戰,包括根據預測做出決策。最后,我們強調了在預測過程中發現的一些挑戰和開放性問題。
圖1: 以數據為中心的流行病預測流程概述。(A)在建模之前,我們需要準備數據,包括收集和探索性分析,以處理數據質量問題。在這個階段,我們還確定了流行病的目標和任務。(B)模型的制定考慮到流行病傳播的多個方面(例如,多尺度動力學)和預測的利用(例如,不確定性量化)。驗證和模型選擇需要使用定量指標來評估預測的可操作性和可靠性。(C)實時預測有多種用途,包括儀表板、集成組成和其他公共衛生舉措。這些活動為資源分配、個人風險評估和公眾溝通提供決策平臺。
2019冠狀病毒病大流行對人類生活、經濟發展和整個社會造成的毀滅性影響,突顯了我們在重大傳染病和流行病面前的脆弱性。雖然流行病預測科學在許多方面仍處于初級階段,但當前的流行病以及之前的流行病(如H1N1和埃博拉)已經顯示出其至關重要的意義。預防和應對此類流行病需要可操作的流行病預測,例如設計有效的醫療文件策略和最優的供應鏈決策。然而,產生這樣的預測有多個跨學科的挑戰。這些研究包括了解控制病原體進化的生物過程、免疫反應和耐藥性,以及異質性群體及其在群落內和跨群落之間的相互作用的種群水平模型。
在過去幾年政府公共衛生和資助機構的幾項舉措的基礎上,人們對以數據為中心的流行病預測解決方案越來越感興趣[197]。例如,2013年,美國疾病控制和預防中心(CDC)引入了“FluSight”挑戰[40],這不僅幫助提高了流感預測能力和公共衛生決策,還幫助發展了這一主題的研究人員社區。隨后,由歐洲疾病預防控制中心(CDC)[49,152]、IARPA[2]和拉丁美洲PAHO[210]等全球機構領導的針對埃博拉[338]、登革熱[158]和COVID-19[77]的類似行動也開始了。這些預測活動為研究人員提供了一個前所未有的機會,來觀察當前預測科學的成功和差距。同樣,國家科學基金會(NSF)、國家衛生研究院(NIH)和美國陸軍研究等機構最近舉行了一系列與大流行預測相關的座談會[117]和籌資呼吁,這為這一主題提供了急需的動力。美國疾病控制與預防中心于2021年建立了第一個預測和爆發分析中心,這也使這種興趣達到了頂峰[104]。我們的調研深入研究了這種數據驅動的計算方法,這些方法在利用數據科學和人工智能的進步以及從生物到行為的新信息源的結合方面顯示出了巨大的潛力。事實上,可靠來源的數據越來越多(其中一些是公開可獲取的),而COVID-19大流行只會加速這一趨勢。這包括更豐富的流行病學數據集和新的數字數據流,如流動性[10,349]、在線調研[75,270]和廢水樣本[247]。在這些因素的推動下,在過去兩年中,我們還看到了一些使用機器學習和深度學習技術的技術創新,這些技術為流行病預測科學打開了新的視野。
這項調研是在一個適當的時間包含最近的方法和實踐進展,以幫助和使更廣泛的計算和數據/ML/AI社區參與這一領域。我們可以將以數據為中心的計算流行病預測管道概念化,如圖1所示。我們對這些組件進行了概述,并將它們大致分為三種:數據處理、模型訓練和驗證,以及利用和決策。廣義上說,流行病預測的目的是提供關于以多種指標(例如每周到醫院就診的病人人數)衡量的流行病傳播軌跡的信息。我們的渠道從來自不同來源和模式的數據開始,這些數據捕捉了流行病傳播的多個方面。在準備數據并在空間和時間尺度上確定具體目標和解決辦法之后,考慮到疾病傳播的特征(例如,多尺度動力學)、數據考慮(例如,噪聲數據)以及公共衛生官員和公眾的要求(例如,不確定性量化),進行建模訓練和部署。我們的調研收集了所有這些因素,并研究了每一個方面的最近發展和當前的重要趨勢。在表1中,我們總結并分類了我們綜述的方法論工作。我們強調每種建模范式使用的數據類型、它們所用于的任務以及獨特的建模特性。
通常,早期的相關調查集中在傳統的流行病學方法上,很少強調以數據為中心的觀點,通常將調查范圍限定在一種疾病上[73,229]。相比之下,雖然沒有調研是完全詳盡的,但我們提供了一個跨越多種建模方法的更廣泛、更全面的視角。最近有一些調研討論了AI/ML技術在流行病引起的各種醫療挑戰中的使用/應用[65,310],這些調研主要集中在醫學成像等臨床問題上。相反,我們專注于流行病學預測,并提供了一個更廣泛的框架來理解從傳統機械方法到基于統計機器學習模型的建模范式。事實上,在這里,我們比以前的工作更深入,專注于范式,旨在通過利用兩種方法(所謂的混合方法)的優勢,彌合流行病學和ML社區之間的差距。我們還提供了一個全面的討論與這些預測系統的實時部署相關的挑戰和解決方案。我們在管道的多個階段對它們進行研究,包括數據收集、建模、評估和決策。最后,對疫情預測領域的開放問題和研究方向進行了全面討論。
圖2: 綜述組織。第2節全面介紹了用于更好地為流行病預測提供信息的數據來源。在第3節中,我們描述了建模之前需要的其他元素,如預測目標和任務,以及通用的評估指標(第3.4節)。然后,我們將在第5、6和7節中討論預測方法。在第8.2節中,我們回顧了近期在銜接預測和決策方面的工作。在第8節中,我們調研了利用這些模型的計劃和經驗,并討論了實時部署的挑戰。最后,在第9節中,我們討論了主要的挑戰和重要的開放研究問題的所有主題調查。
**該綜述分為7個部分,**如圖2所示。在第2節中,我們討論用于流行病預測的傳統和較新的數據來源。在第3節中,我們描述了預測設置,包括定義預測目標和具體任務。然后我們討論常用的定量評估指標。然后,我們轉向預測建模技術(第4節),我們將其分為機械的、統計的和混合的,并進一步根據它們的關鍵建模思想對它們進行分類。對于每一種建模技術,我們都將對一些突出的方法進行深入的回顧,從研究良好的機械模型(第5節)開始,然后轉向統計模型(第6節),統計模型更靈活地利用大量多樣的數據來源,從過去的數據中學習復雜的模式,通常提供更準確的預測。在這里,我們密切關注深度學習創新,這是一個非常活躍的研究領域,有多個最新的例子。在第7節中,我們將描述最近引起人們興趣的混合模型,并將可解釋的、基于理論的機械模型的長期建模能力與更靈活、準確和數據驅動的統計模型結合起來。在第8節中,我們調查了最近的“戰壕”行動和利用這些模型進行流行病和大流行預測的經驗,討論了現實部署的挑戰,包括根據預測做出決策。最后,在第9節中,我們討論了與流行病預測管道的各個方面相關的主要挑戰和重要的開放研究問題。
自動駕駛存在單車智能自動駕駛(Autonomous Driving,AD)和車路協同自動駕駛(Vehicle-Infrastructure Cooperated Autonomous Driving,VICDA)兩種技術路線。車路協同是單車智能的高級發展形式,能讓自動駕駛行車更安全、行駛范圍更廣泛、落地更經濟。
基于車路協同的預期功能(SOTIF)能提升自動駕駛安全。以往在極端天氣、不利照明、物體遮擋等情況下,單車智能的感知、預測能力面臨嚴峻挑戰。而車路協同可彌補車端感知不足,有效擴大單車智能的安全范圍。
車路協同能夠擴展自動駕駛 ODD(車輛運行設計域)。一般而言,受天氣、行駛區域、時段、速度等因素限制,單車智能能夠感知和應對的駕駛場景有限。而路側的協同感知能夠擴展車輛的感知范圍、能力和場景,從而擴展單車的運行設計域(ODD),進一步提升自動駕駛的點到點能力。
在系統配置上,單車智能除了要投入高昂傳感器、算力設備之外,還需要一套等效的冗余子系統。而車路協同提供的路側設備感知冗余,不僅復用率高避免重復建設,還能實現成本分攤。因此,在同等自動駕駛安全前提下,車路協同可以大范圍實施部署,促進自動駕駛規模商業化的早日實現。
清華大學智能產業研究院與百度 Apollo 在白皮書中對國內道路現狀進行了智能化分級,將道路智能化水平分為 C0-C5級6個等級。道路智能化等級越高,對車輛智能化要求也越低,覆蓋的智能汽車等級范圍也越廣。
其中,C4級別道路值得我們一起特別關注。與更高級智能道路相比,C4級智能道路投入產出比更高,其覆蓋的智能汽車等級范圍從 L2+到 L5。也就是說,C4級智能道路不僅能為高級自動駕駛車輛提供協同服務,還能讓 L2+、L3級輔助駕駛車輛具備高級自動駕駛能力,促進自動駕駛規模商業化落地。
導讀:工業智能以工業數據為基礎,人工智能算法為核心,其他先進信息技術為輔助,通過對工業產業鏈中的各個環節、對象進行深度滲透與改造,面向工業場景提供綜合智能技術解決方案,從而達到重塑工業形態、提升工業能效的目的,也即以增量帶動存量,以創新引領革新。工業智能促使工業產業形態躍遷,智能化、網絡化、信息化將成為工業產業下一階段的新標簽,通過重塑工業形態、提高生產效率、優化資源配置、創新生產模式,工業智能將通過綜合智能技術釋放工業產業的巨大潛力。
《工業智能前沿報告》分析了工業智能在全球范圍的發展態勢,并對我國工業智能發展現狀進行解讀,從政策、產業、技術等多視角分析工業智能核心要素。報告針對工業智能所涉及的人工智能數據、算法、模型及其與5G、多模態計算等先進信息技術融合等方面進行具體分析,闡述工業智能發展中相應的技術趨勢以及現存的工程難題,通過研究現有問題,指出工業智能的發展瓶頸和突破方向。最后,給出工業智能發展的相關政策建議,展望工業智能的重要方向。