隨著 ChatGPT 等基于大模型的產品展現出強大的通用性能,學術界和工業界正積極探索如何 將這些模型適配到特定行業和應用場景中,即進行垂直領域大模型的定制化。然而,現有的通用大模 型可能無法完全適配特定領域數據的格式,或不足以捕捉該領域的獨特需求。因此,本文旨在探討垂 直領域大模型定制化的方法論,包括大模型的定義和類別、通用架構的描述、大模型有效性背后的理論 基礎,以及幾種可行的垂直領域大模型構建方法,期望通過這些內容為相關領域的研究者和從業者在 垂直領域大模型定制化方面提供指導和參考。
ChatGPT 以其卓越的通用性能重塑了人們對人工智能的理解。作為 ChatGPT 的核心,大語言模 型(Large language model)已經成為眾多領域研究人員和專業人士改進工作流程的重要工具。通用大 模型通常在廣泛的公開數據集上進行訓練,這使得它們能夠學習并解決各種常見問題,但這些數據集 無法完全覆蓋某些特定領域的所有專業知識和技術細節,這導致盡管通用大模型具備廣泛的通用知 識,卻缺乏足夠的知識深度來滿足某些特定領域的復雜需求。因此,針對特定行業的需求來構建垂直 領域大模型變得尤為重要。垂直領域大模型,或稱垂類大模型、行業大模型,是針對特定領域的數據和 應用而開發的大模型[1] 。與通用大模型相比,它們在訓練過程中會使用大量特定領域的數據,從而能夠 更準確地理解和生成與該領域相關的專業內容。 隨著類 ChatGPT 的產品和神經網絡模型的接連推出,“大模型”概念的范圍也在逐步擴張[2?4] 。鑒 于相關概念繁雜,為了確定本文的研究共識,需要對“大模型”概念進行定義并闡述其特點,從而奠定后 文對垂直領域大模型定制化的敘述基礎。本文所提及的大模型(Foundation model),是在多模態大模型 (Multimodal large model)五模塊框架(下文將詳細介紹該框架)中,包含了能夠實現其中一個或多個模 塊功能的神經網絡模型,且該模型符合以下特點: (1)大數據。使用覆蓋了多種場景的大量數據進行模型的訓練,為模型提供充足的知識。 (2)大參數。模型的參數量達到一定規模,足以將大量數據中隱含的知識固化到模型參數中。 (3)通用性。模型的輸入數據格式和數據處理流程能夠適配多種任務場景下的輸入格式和需求。 (4)泛化性。模型擁有一定的泛化性,使其在未知數據域中依然具有良好性能。 根據大模型可處理的模態數量,可將大模型分為單模態大模型和多模態大模型: (1)單模態大模型。VGG[5] ,ResNet[6] ,GPT?1 [7] ,GPT?2 [8] ,GPT?3 [9] ,GPT?3.5 turbo[10] ,BERT[11] , GLM[12?13] ,LLaMA[14] ,LLaMA?2 [15] ,iGPT[16] ,LVM[17] ,BART[18] 和 T5 [19] 。 (2)多 模 態 大 模 型 。 CoDi[20],CoDi ? 2 [21],Claude ? 3 [22],GPT ? 4 [23],LLaVA[24],BriVL[25],Image? Bind[26] 和 NExT?GPT[27] 。 在構建垂直領域大模型的過程中將面臨一系列挑戰,尤其是在數據獲取和預處理階段。比如,其 需要處理的垂直領域數據并不開源或難以獲取,具有私密性;或是數據模態與通用大模型使用的中心 模態不同,導致無法遷移現成的大模型處理該數據;又或是垂直領域數據與預訓練模型的數據域有所 不同,需要向預訓練模型輸入專業領域知識。垂直領域大模型應用方式靈活,涉及的應用領域繁雜,構 建難度大、開銷大,涉及的技術安全問題至關重要,期望產生的經濟效益高[28?30] ,因此有必要對其構建方 法論進行深入探索和全面梳理,并總結出相應的方法論。 以往的綜述文獻都更多地關注大模型本身的發展[2?4,31?36] ,但對于垂直領域大模型的定制化方法論 方面缺乏詳細的討論。本文通過介紹垂直領域大模型定制的理論基礎、垂直領域大模型的定制方法、 垂直領域大模型的應用實例,以及垂直領域大模型定制化的未來發展方向,為有意構建垂直領域大模 型應用的研究者及工作者提供模型定制方法論層面的參考。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
大型語言模型(LLMs)在各個領域展示了卓越的能力,吸引了學術界和工業界的廣泛關注。盡管它們表現出色,但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰,特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中,知識蒸餾已成為一種有效的技術,可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查,探討了專門為LLMs量身定制的知識蒸餾技術。具體來說,我們將方法分為白盒KD和黑盒KD,以更好地說明它們的差異。此外,我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果,并提出了未來研究的方向。通過深入理解最新進展和實際應用,這項調查為研究人員提供了寶貴的資源,為該領域的持續進步鋪平了道路。
** 簡介**
大型語言模型(LLMs)[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量,成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比,這些模型對未見數據的泛化能力更強。此外,它們還展示了小型模型所不具備的能力,如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加(例如,具有1750億參數的GPT-3[12])。然而,參數規模的擴展帶來了顯著的缺點,尤其是在高推理成本和大量內存需求方面,使得實際部署變得具有挑戰性。例如,GPT-3需要大約350GB的模型存儲(float16),并且推理至少需要5個每個80GB內存的A100 GPU,這對碳排放的影響顯著。為了解決這些挑戰,模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行,或在最小延遲和模型性能之間取得平衡。因此,在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們,減少參數數量,同時保持最大性能。
隨著減少計算資源需求的必要性日益重要,知識蒸餾(Knowledge Distillation, KD)[43] 作為一種有前景的技術出現。KD是一種機器學習方法,專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中,從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講,知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中,較小的模型不僅要匹配原始數據標簽,還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型,生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展,許多研究綜合了各種蒸餾技術的最新進展。具體來說,Gou等[37] 對知識蒸餾進行了廣泛的綜述,涉及六個關鍵方面:知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣,Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準,稱為蒸餾度量標準,他們用它來評估不同的知識壓縮方法。此外,Hu等[48] 探討了跨多個蒸餾目標的各種師生架構,提出了不同的知識表示及其相應的優化目標,并系統地概述了師生架構,結合了代表性的學習算法和有效的蒸餾方案。
現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而,LLMs的出現給KD帶來了若干新挑戰:1)大型語言模型設計并非僅用于單一任務如文本生成,而是廣泛應用于各種任務和未見數據,包括新興能力。因此,評估壓縮LLMs的泛化能力需要仔細和全面的評估。2)現有綜述僅是對現有工作的總結,未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。
為應對這些挑戰,已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示,從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法,我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型:基于Logits的方法[43],在Logits層面傳遞知識,以及基于Hint的方法[109],通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法,其中僅能訪問教師模型的輸出。此類別通常包括三種方法:上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外,我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后,我們討論了不同蒸餾方法之間的關系和應用場景,并提出了未來研究方向。
本文其余部分安排如下:第2節簡要回顧了知識蒸餾方法的定義。接下來,第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景,第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后,第6節對本文進行了總結。
時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。
1 引言
時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。
盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。
為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。
本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。
論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。
多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。
//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996
給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。
多模態3D場景理解可進一步分為:(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。
盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:
? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。
? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。
?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。
本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。
3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。
3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。
**結論與展望 **
本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。
數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。
3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。
納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。
以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢?
近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。
標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf
作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。
簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。
就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。
基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。
圖1:深度圖學習和圖基礎模型的對比
受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。
表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。
圖3:基于GNN的模型示意圖
圖5:基于LLM的模型示意圖
圖7:基于GNN+LLM的模型示意圖
據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。
在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。
**基于GNN的模型 **
得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。
基于LLM的模型
研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。
**基于GNN+LLM的模型 **
GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。
**結論 **
基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
數據作為深度學習的驅動力,對于模型的訓練至關重要。充足的訓練數據不僅可以緩解模型在訓練時的過擬合問題,而且可以進一步擴大參數搜索空間,幫助模型進一步朝著全局最優解優化。然而,在許多領域或任務中,獲取到充足訓練樣本的難度和代價非常高。因此,數據增廣成為一種常用的增加訓練樣本的手段。本文對目前深度學習中的圖像數據增廣方法進行研究綜述,梳理了目前深度學習領域為緩解模型過擬合問題而提出的各類數據增廣方法,按照方法本質原理的不同,將其分為單數據變形、多數據混合、學習數據分布和學習增廣策略等4類方法,并以圖像數據為主要研究對象,對各類算法進一步按照核心思想進行細分,并對方法的原理、適用場景和優缺點進行比較和分析,幫助研究者根據數據的特點選用合適的數據增廣方法,為后續國內外研究者應用和發展研究數據增廣方法提供基礎。針對圖像的數據增廣方法,單數據變形方法主要可以分為幾何變換、色域變換、清晰度變換、噪聲注入和局部擦除等5種;多數據混合可按照圖像維度的混合和特征空間下的混合進行劃分;學習數據分布的方法主要基于生成對抗網絡和圖像風格遷移的應用進行劃分;學習增廣策略的典型方法則可以按照基于元學習和基于強化學習進行分類。目前,數據增廣已然成為推進深度學習在各領域應用的一項重要技術,可以很有效地緩解訓練數據不足帶來的深度學習模型過擬合的問題,進一步提高模型的精度。在實際應用中可根據數據和任務的特點選擇和組合最合適的方法,形成一套有效的數據增廣方案,進而為深度學習方法的應用提供更強的動力。在未來,根據數據和任務基于強化學習探索最優的組合策略,基于元學習自適應地學習最優數據變形和混合方式,基于生成對抗網絡進一步擬合真實數據分布以采樣高質量的未知數據,基于風格遷移探索多模態數據互相轉換的應用,這些研究方向十分值得探索并且具有廣闊的發展前景。