亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。

因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。

在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

相關內容

數據在大型語言模型(LLM)訓練中扮演了基礎性的角色。有效的數據管理,尤其是在構建適合的訓練數據集方面,對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻,目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論,以及持續改進策略方面存在不足。因此,數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽,涵蓋了數據管理策略設計的各個值得注意的方面:數據量、數據質量、領域/任務組成等。展望未來,我們推斷現有挑戰,并勾勒出這一領域發展的有希望的方向。因此,本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。

大型語言模型(LLM)以其強大的性能和新興能力震驚了自然語言處理(NLP)社區(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。根據之前的研究(Kaplan et al., 2020; Hoffmann et al., 2022),LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究(Zhou et al., 2023a; Ouyang et al., 2022)進一步通過對精心策劃的指令數據集進行監督式微調,增強了LLM的指令遵循能力和下游任務的性能。

我們定義的數據管理——構建適合的訓練數據集,在LLM的預訓練和監督式微調(SFT)階段都至關重要且充滿挑戰。在預訓練階段,構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的(Jain et al., 2020; Gupta et al., 2021)。為了賦予LLM一般性能力,也需要具有多種領域混合的異質數據集組成(Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023)。然而,許多著名的LLM并沒有透露(Anil et al., 2023; OpenAI, 2023)或僅記錄了預訓練數據構建中選擇的過程(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a),使其背后的理由缺失。在SFT階段,LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起(Sanh et al., 2022; Ouyang et al., 2022)。盡管已有一些帶有人類注釋的指令數據集/基準被提出(Wang et al., 2022; K?pf et al., 2023),自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的收集(Si et al., 2023; Anand et al., 2023),從業者仍對指令數據集對微調LLM的性能的影響感到困惑,導致在LLM微調實踐中選擇合適的數據管理策略困難重重。

為了應對這些挑戰,需要對數據管理進行系統性分析,包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估,以及改進策略的追求。因此,本綜述旨在提供當前數據管理研究的全面概覽,如圖1所示。在第2部分,我們關注預訓練數據管理,包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分,我們討論LLM監督式微調(SFT)階段的數據量、數據質量、任務組成和數據高效學習。在第4部分,展望未來,我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述,我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。

大模型預訓練

數據管理在許多著名大型語言模型(LLM)的預訓練中被發現非常重要(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。雖然大多數LLM沒有報告它們的數據管理程序,或者只報告了它們采用的策略,但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分,我們首先回顧研究訓練數據集規模定律的研究,包括有/無數據重復的情況。然后,探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后,討論領域組成和領域重新加權方法。最后,介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。

2.1 數據量

LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加,文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律 在LLM普及之前,研究者就已經關注訓練數據集大小與具有變壓器架構(Vaswani et al., 2017)的語言模型性能之間的關系。Kaplan et al.(2020)研究了變壓器語言模型在交叉熵損失上的經驗性規模定律,發現模型性能與訓練數據集大小之間存在冪律關系,當不受模型大小和訓練計算預算的限制時。他們還得出結論,只要模型大小和訓練數據集大小同時擴展,模型性能就會可預測地提高,但如果其中一個固定而另一個增加,則會遇到過擬合。他們提出的性能懲罰預測比例顯示,模型大小應該比訓練數據集大小增長得更快。 繼Kaplan et al.(2020)提出的冪律關系后,Hoffmann et al.(2022)對更大的語言模型進行了實驗,得出不同的結論,即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。

2.1.2 數據重復

盡管Kaplan et al.(2020)和Hoffmann et al.(2022)關注的是唯一數據訓練一個時期的規模定律,Hernandez et al.(2022)解決了訓練數據集中文本重疊的問題,并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象(Nakkiran et al., 2021),其中重復數據導致訓練過程中途測試損失增加,并發現可預測的重復頻率范圍會導致嚴重的性能下降。 隨著模型大小的增長,根據規模定律,需要更多的訓練數據,引起了關于耗盡高質量訓練數據的擔憂(Villalobos et al., 2022; Hoffmann et al., 2022)。克服這一問題的一種直接方法是對數據進行重復訓練。然而,如上所述,數據重復眾所周知會導致性能下降。受到這一矛盾的啟發,幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.(2023)發現,在受限的數據和固定的計算預算下,對相同的數據重復訓練多達4個時期與訓練唯一數據相比,對損失的變化微不足道。他們還提出了一個規模定律,考慮到了重復和過多參數的回報遞減。Xue et al.(2023)也觀察到模型性能的多時期退化,并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現,常用的正則化技術在緩解多時期退化方面沒有幫助,除了dropout。質疑以前的發現,Tirumala et al.(2023)展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練,而對隨機選擇的重復數據進行訓練則不行,這表明了重復使用智能選擇數據的可行方法。

2.2 數據質量

根據以往研究(Jain et al., 2020; Gupta et al., 2021),高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中,也采用了質量保證技術,通常形成數據管理流程(Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023),包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。

2.2.1 去重

去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020)。Lee et al.(2021)使用N-gram相似性與MinHash(Broder, 1997)來檢測訓練數據集中的重復,并發現去重有助于減輕記憶效應、避免訓練-測試重疊,并保持模型困惑度的同時提高訓練效率。Kandpal et al.(2022)還表明,去重可以顯著降低針對模型記憶的隱私攻擊的成功率。 在去重實踐中,N-gram-and-hashing是最常用的技術(Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021)。Silcock et al.(2022)將其與神經方法進行比較,即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法,得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.(2023)提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復,并應用聚類來減少搜索計算。同樣,Kaddour(2023)通過過濾掉低質量嵌入集群,構建了Pile(Gao et al., 2020)的子集MiniPile。

2.2.2 質量過濾

質量過濾是構建適合預訓練數據集的另一個關鍵步驟,因為像Common Crawl 1和多語言數據集(Kreutzer et al., 2022)這樣的公共數據集通常包含低質量數據,這會妨礙LLM的訓練。現有工作通常使用分類器(Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a)、手工制定的啟發式規則(Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022)或使用困惑度等標準進行閾值過濾(Wenzek et al., 2020; Muennighoff et al., 2023)來進行質量過濾。 質量過濾通常被證明有利于提升模型性能(Longpre et al., 2023b),盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5,擁有13億參數,分別在精心選取的高質量數據和合成數據上訓練,展現了在編碼任務和常識推理上的出色表現。Penedo等人(2023年)構建了RefinedWeb數據集,包括適當過濾和去重的高質量網絡數據,其性能超過了在Pile(Gao et al., 2020)上訓練的模型。與常見結論相反,Gao(2021年)發現,由于過濾目標不夠穩健,對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題,Marion等人(2023年)研究了三種數據質量估計器:困惑度、錯誤L2范數(EL2N)和記憶因子,并通過數據修剪進行測試。令人驚訝的是,他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術,如記憶。

2.2.3 有害內容過濾

有害內容指的是粗魯、不尊重或不合理的語言,可能會導致某人離開討論(Gehman et al., 2020; Welbl et al., 2021)。由于原始文本語料庫通常包含有害文本(Luccioni和Viviano,2021;Longpre et al., 2023b),有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本,進一步防止LLM生成有害話語。與質量過濾類似,啟發式和基于規則的過濾(Lees et al., 2022; Gargee et al., 2022; Friedl, 2023)和N-gram分類器(Raffel et al., 2020)被用作有害內容過濾器。盡管有效地進行模型解毒,Longpre等人(2023b)發現,有害內容過濾減少了生成有害內容的風險,但同時降低了模型的泛化和識別有害內容的能力。此外,Xu等人(2021年)和Welbl等人(2021年)均發現,訓練數據集的解毒處理會導致邊緣化少數群體,如方言和少數族裔身份提及。

2.2.4 社會偏見

除了數據解毒導致的少數群體邊緣化之外,一些工作(Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023)發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人(2021年)評估了C4(Raffel et al., 2020)數據集,建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害,以及被排除的聲音和身份。Gururangan等人(2022年)使用美國高中報紙文章的新數據集,也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙,從而導致一種語言意識形態。Feng等人(2023年)進行了一項全面的案例研究,重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響,以及它如何傳播到語言模型,甚至進一步影響到下游任務。

2.2.5 多樣性和時效性

在LLM預訓練階段的數據管理中,也有研究關注數據的其他方面,例如多樣性和時效性。 例如,Lee等人(2023a)展示了,當用最近提出的Task2Vec多樣性系數(Miranda et al., 2022)來衡量時,公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的,并建議在構建更多樣的數據集時使用它。Maharana等人(2023年)提出了一種新的修剪方法D2修剪,通過將數據集表示為一個帶有難度分數的無向圖,并采用正向和反向信息傳遞策略,來選擇一個包含數據集空間中多樣化和困難區域的核心子集,以平衡數據多樣性和難度選擇。

Longpre等人(2023b)探討了評估數據集的時效性,并得出結論,評估數據與預訓練數據之間的時間偏移會導致性能估計不準確,而且時間不一致無法通過微調來克服,尤其是對于更大的模型。

2.3 領域組成

公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體,例如Pile(Gao et al., 2020)包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的,例如LaMDA(Thoppilan et al., 2022)是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。

研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人(2023b)將Pile(Gao et al., 2020)數據分為九個領域,并進行了逐個刪減實驗,展示了不同領域的影響。他們得出結論,高質量(如書籍)和高多樣性(如網頁)的領域普遍有幫助,即使它們與下游任務相關性較低,包含盡可能多的數據源也是有益的。SlimPajama-DC(Shen et al., 2023)也得出相同的結論,即合并所有領域通常比有意選擇的組合效果更好,前提是進行了全局去重,以消除不同領域數據集之間的重疊。Longpre等人(2023b)和Shen等人(2023)都認為,特定的混合體可能在針對特定任務的評估基準上表現出色,但與包含多樣化的網絡領域相比,優先級并不總是存在。CodeGen2(Nijkamp et al., 2023)研究了編程語言和自然語言混合體對模型性能的影響,并發現,在相同的計算預算下,使用混合體訓練的模型的性能并不比與領域匹配的模型好,但接近。

還有幾種方法被提出來找到適當的領域組成權重。DSIR(Xie et al., 2023b)將問題形式化為在給定一些未標記目標樣本的情況下,選擇原始未標記數據集的子集以匹配目標分布。具體來說,它利用經典的重要性重采樣方法(Rubin, 1988)并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識,DoReMi(Xie et al., 2023a)使用小型代理模型通過Group Domain Robust Optimization(Group DRO)(Oren et al., 2019; Sagawa* et al., 2020)生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重,提高了所有領域的模型性能。在DoReMi(Xie et al., 2023a)的基礎上改進,Fan等人(2023)提出了DoGE,它對訓練領域進行加權,以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問,該函數測量每個領域對其他領域的貢獻。然后,對其他領域的學習貢獻更大的領域將獲得更大的權重。

2.4 數據管理系統

針對預訓練數據管理的困難,集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人(2023a)提供了一個數據處理系統Data-Juicer,它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能,針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人(2023c)還提出了一個預訓練數據策劃和評估系統Oasis,其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。

監督式微調大型語言模型

基于在預訓練階段學到的通用知識和能力,提出了監督式微調(SFT)來進一步提高LLM的指令遵循能力和與人類期望的一致性(Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022)。許多工作已經投入到使用人類注釋(Wang et al., 2022; K?pf et al., 2023)、自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的集合(Si et al., 2023; Anand et al., 2023)來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能,但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致,在本節中,我們總結了LLM SFT的研究探索,涵蓋了數據量、數據質量(包括指令質量)、多樣性、復雜性和提示設計,以及任務組成。此外,還包括了數據高效SFT,討論了從數據角度出發的高效SFT的當前努力。

3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如,LIMA(Zhou et al., 2023a)精心策劃了1,000個高質量樣本,并通過實驗驗證了他們的假設,即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人(2023b)觀察到,對于單一任務特定的LLM微調,可能只需要一條指令,而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理(NLI)任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要(Wei et al., 2021; Sanh et al., 2022)。

為了解決這一沖突,幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人(2023)對12個主要的現實世界在線用戶案例進行了實證研究,并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進,而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人(2023)的觀點不同,Dong等人(2023)發現一般能力可以通過大約1,000個樣本得到增強,并在此后緩慢提升,而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地,Yuan等人(2023)觀察到指令數據量與模型數學推理性能之間存在對數線性關系,但預訓練更強的模型對于更大的微調數據集改進較少。Song等人(2023)進行了涵蓋十種不同能力的實驗,并展示了大多數能力與數據擴展一致。然而,每種能力在指令調整期間的發展速度不同,一些能力甚至顯示出完全不同的模式。

3.2 數據質量

在LLM的監督式微調中,數據質量始終是一個焦點,包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析,而不是在之前的綜述中已經討論過的指令生成方法(Zhang et al., 2023b; Wang et al., 2023e)。

3.3 任務組成

由于LLM在處理各種NLP任務方面表現出驚人的新興能力,多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明,這些模型的參數范圍從3B(Wang et al., 2022),11B(Sanh et al., 2022),137B(Wei et al., 2021)到540B(Chung et al., 2022)。

除了任務數量的擴展外,不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要(Iyer et al., 2022; Longpre et al., 2023a)。Dong等人(2023)專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合,并發現在低資源混合數據下模型能力有所提升,但在高資源混合數據下相比于單一來源數據有所下降,即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突,他們改變了一般和專業數據的比例,并得出結論,當SFT任務之間在任務格式和數據分布上存在顯著差異時,數據比例的影響可以忽略,相反,當存在一定程度的相似性時,數據比例會導致性能的明顯變化。

與將多個任務合并在一起不同,一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM(Jang et al., 2023; Chen et al., 2023b)。Jang等人(2023)指出,訓練專家LLM的優先事項可能在于避免負面任務轉移,通過持續學習新任務而不重新訓練來防止災難性遺忘,以及在將各個專家合并在一起時出現的組合能力。Wang等人(2023b)對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析,并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下,沒有單一的數據集組合可以在所有評估中提供最佳性能。

3.4 數據高效學習

基于對數據量、數據質量和任務組成對模型性能影響的探索,許多工作提出了通過子集選擇或學習策略來更高效地微調LLM,這些策略針對指令數據的不同方面。

結論

本文首次嘗試概述大型語言模型(LLM)訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段,并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后,我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導,并激發在有效和高效數據管理方面的進一步研究,以促進LLM的發展。

付費5元查看完整內容

大型語言模型(LLMs)的快速發展已成為轉型各個領域、重塑人工通用智能領域風貌的驅動力。然而,這些模型不斷增長的計算和存儲需求提出了重大挑戰,阻礙了學術研究和實際應用的進展。為了解決這些問題,已經開發了包括算法和硬件解決方案在內的多種方法,以提高LLMs的效率。本綜述提供了一份全面回顧,專注于旨在提升LLM效率的算法進步。與通常僅關注特定領域,如訓練或模型壓縮的其他綜述不同,本文審視了對LLMs端到端算法發展至關重要的多方面效率維度。具體而言,它涵蓋了與效率相關的各種主題,包括規模定律、數據利用、架構創新、訓練和微調策略,以及推理技術。本文旨在為研究人員和實踐者提供一個寶貴的資源,為這一關鍵研究領域的未來創新奠定基礎。

//github.com/tding1/Efficient-LLM-Survey

大型語言模型(LLMs)[28, 111, 236, 302, 329],以其數十甚至數百億參數的龐大規模[13, 24, 54]為特征,在人工智能領域已成為一個核心焦點。這些模型,如ChatGPT [1]和Claude [2]的應用所示,已在各種通用任務中展現出令人印象深刻的能力,例如文本摘要[303]、翻譯[100]、問答[219],甚至基礎編程[34],這在很大程度上歸功于它們在自然語言理解方面的專長。雖然驅動它們卓越性能的確切機制仍是一個謎[341],但普遍認為它們的大規模賦予了它們新出現的能力[280],這在小型模型中未被觀察到,并被視為實現人工通用智能(AGI)[5, 25]的關鍵步驟。盡管LLMs的大規模對于它們的能力至關重要(見圖1),但它們也存在顯著的缺點:由于高計算成本和內存要求[267, 295, 339, 342],它們的部署受到嚴重限制。訓練這些模型所需的資源是巨大的,這在資源分配和模型設計方面造成了挑戰。例如,探索不同架構或策略的成本變得過高[329]。此外,它們的大規模使它們不適合資源受限的環境,如邊緣設備,從而縮小了應用范圍[7]。這種計算負擔也將LLMs的發展限制在資源豐富的大公司[24, 196, 210]。許多關鍵細節,如數據收集管道和訓練方法,仍然是專有的,這阻礙了學術研究并為小公司帶來挑戰。此外,訓練這些模型的環境影響不容忽視,引發了關于碳排放和倫理考慮的擔憂[268, 270, 285]。因此,提高LLMs的效率正受到越來越多的重視。出于對更高效LLMs的迫切需求,本綜述旨在提供對該主題的全面和最新理解。

在本文中,“效率”定義為在不影響模型性能的情況下優化計算和內存資源。采用整體方法,我們探索了對LLMs端到端發展至關重要的多個效率維度。這些維度涵蓋了數據利用、架構設計、訓練和微調策略以及推理技術,基本上涵蓋了從算法和軟件角度的模型開發整個流程。盡管已有一些綜述專注于LLMs效率的特定方面,如數據[316]、訓練[241, 333, 342]、微調[323]或推理[295, 339],但它們通常無法提供全面視圖。其他作品,如[267],已為自然語言處理(NLP)的各種效率方面提供了寶貴的見解,但LLM領域的快速發展要求進行更新和全面的回顧。與此相反,我們的論文旨在提供關鍵方法論和技術的更全面和當前的概述,這些方法論和技術有助于高效LLMs的發展。為了提供對LLM效率多方面的全面理解,本綜述的其余部分從算法角度組織如下:

? 第2節背景介紹了LLMs的核心概念,并概述了評估其效率相關的評價指標。 ? 第3節預算效率考察了像規模定律這樣的預測方法在優化給定資源約束下LLMs性能的作用。 ? 第4節數據效率關注于優化數據利用的技術,從而在不影響性能的情況下減少資源消耗。 ? 第5節 架構效率回顧了創新的架構設計,提供了對架構如何影響效率的詳細考察。 ? 第6節 訓練和微調效率討論了從頭開始高效訓練LLMs和針對特定下游任務微調預訓練模型的策略。 ? 第7節 推理效率探索了旨在加速推理速度和減少內存占用的模型壓縮技術領域。 ? 第8節 結論總結了本綜述的主要發現,并討論了它們對高效LLM發展的更廣泛影響。LLM效率的這些不同維度的概念性概述在圖2中呈現。

預算效率:縮放定律

大型語言模型(LLM)的性能受到各種因素的顯著影響,包括訓練數據、模型大小、體系結構、計算資源和訓練方法本身。訓練LLM需要大量的資源,使得用于優化這些因素的傳統試錯方法既不切實際又耗費資源。因此,在訓練之前預測LLM的表現不僅是有益的,而且通常是必要的。這種預測方法可以更有效地規劃和分配資源。例如,考慮一個計算資源有限的場景:我們如何最優地平衡模型大小和訓練數據,以實現最小的目標函數值? 事先回答這些問題可以顯著提高LLM訓練過程的效率和效果。最近對大型語言模型(LLM)性能預測的研究主要集中在理解尺度規律。這條規律描述了LLM性能如何受到模型架構、神經模型大小、訓練計算能力和可用數據等因素的影響。標度律的概念根植于預測模型泛化的統計力學方法中,有著悠久的歷史,可以追溯到20世紀90年代初[11,18,95,235]。最近,在現代深度學習模型的背景下,其相關性被重新激發[10,26,101 - 103,106,124,188,221,248,260,262]。本節將深入研究應用于LLM的縮放律的最新進展和見解,強調這些模型在不同條件下的演變和表現。

數據效率

大規模模型對數據無止境的需求極大地推動了數據收集和準備行業的發展。然而,這種對大量數據集的依賴,往往是多年積累的,為模型訓練帶來了巨大的挑戰。這不僅包括訓練時間延長,而且由于大量耗電和需要更大的數據存儲容量而導致成本上升。因此,找到在訓練和驗證階段更有效地使用數據的方法是至關重要的。在本節中,我們將深入探討提高數據效率的策略和考慮因素,解決如何最大限度地利用數據,同時降低相關成本和資源需求。 架構效率

最近,Transformer家族[269]已經成為語言建模的主要架構,因為它比RNN等遞歸方法具有很強的并行性[185]。然而,其巨大的計算成本使得整體架構在處理和處理長輸入時效率低下。特別是,Transformer架構中的一個關鍵操作是注意力機制。它通常需要關于序列長度的二次復雜度來進行計算,因此在處理長文本輸入時非常慢[99]。減少注意力操作所需的計算[261]成為提高架構效率的直接解決方案,對訓練和推理階段都有好處。為此,研究人員正在探索更有效的注意力[51,59,61]以及不同類型的位置編碼[48,49,127,159,201,207,224,250]的解決方案,或利用模型內固有的稀疏性來避免在稀疏建模的前向計算期間激活所有參數[72,243]。此外,最近的一些工作直接用替代架構取代了注意力機制,將無注意力方法[62,199,205,254]引入到fold中。在本節中,我們將介紹這四個主要方向及其最新進展。 訓練微調效率

LLM訓練和調優技術的發展必須解決數據和模型規模不斷增加所帶來的挑戰。本節深入探討了對LLM的可擴展訓練和調優都至關重要的效率方面,強調了重點關注的關鍵領域。記憶效率。大型transformer模型的參數數量快速增長,每兩年增加約410倍,對內存提出了重大挑戰。這種增長超過了GPU內存的擴展,在同一時期內,GPU內存僅增長了5倍(從16GB到80GB)。訓練過程中的實際內存消耗遠遠超過原始參數數量,包括模型狀態(參數、梯度、優化器狀態)以及剩余狀態(中間激活、臨時緩沖區、內存碎片)。考慮到這些約束,單個GPU設置不足以處理整個模型,需要分布式訓練方法,如張量并行(TP)和流水線并行(PP),以有效地進行內存管理。 計算效率。雖然分布式訓練提供了加快大型模型訓練的潛在好處,但它也引入了影響可擴展性的復雜性。一個值得注意的觀察是,在多GPU訓練中,每個GPU的FLOPs數量減少,與單GPU設置相比。這種減少源于在有效利用日益增多的計算資源方面所面臨的挑戰。因此,在訓練過程中,可擴展性成為提高計算效率的關鍵元素,尤其是在多GPU環境中。通信效率。這方面涉及到在訓練過程中不同設備或層之間的參數和梯度交換。技術如全規約(all-reduce)被用于在數據并行訓練的反向傳播結束時跨所有設備同步梯度。目標是在如廣播、規約、全規約和全集合等集體操作期間盡量減少通信數據的體積。簡而言之,訓練和調優LLM是一個復雜的挑戰,需要全面的方法。考慮所有這些效率方面的綜合策略對于有效和可擴展的LLM訓練和調優至關重要。后續部分將提供這些方面的詳細探討。 推斷效率

大型語言模型(LLM)中龐大的參數數量為在云服務和資源有限的設備上部署帶來了重大挑戰,導致推理支持的維護成本很高。因此,加速推理已成為工業界和學術界共同關注的迫切問題。一種常見的方法是構建緊湊的模型,使整個模型達到具有競爭力的性能,這些方法大致可以分為四類:剪枝、知識蒸餾、量化和低秩分解。剪枝技術專注于識別和消除深度神經網絡(DNN)操作符中的冗余,從而創建更精簡的版本。知識蒸餾涉及將見解從更大、更復雜的"教師"模型轉移到更小、更有效的"學生"模型,幫助在簡化模型中保持高性能。量化通過使用更少的比特在llm中表示浮點數來減少計算負荷和存儲需求。低秩分解通過低秩矩陣逼近LLMs中的權重矩陣,進一步節約計算資源。值得注意的是,其中一些方法需要專門的計算庫和硬件來實現實際的資源節省和加速。 結論

總而言之,大型語言模型(LLM)的發展標志著人工通用智能領域的一個重要里程碑,在各個領域帶來了變革性的變化。然而,這些模型的快速擴展在計算需求和內存需求方面帶來了重大挑戰,為學術研究和實際部署創造了障礙。本綜述對旨在提高llm效率的算法創新進行了全面的概述,捕捉了主要截至2023年9月的研究進展。現有的綜述往往側重于孤立的方面,如訓練或模型壓縮,本文超越了這些調查的范圍,深入研究了效率的多個維度,這些對LLM的整體算法開發至關重要。它已經跨越了一系列與效率相關的主題,包括縮放規律、數據利用、架構設計,以及訓練、調優和推理策略。這里提出的見解和分析旨在為該領域的研究人員和從業人員提供有價值的總結。通過奠定現有知識和方法的堅實基礎,為LLM效率這一關鍵研究領域未來的突破和持續創新奠定了基礎。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢

近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。

標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf

作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。

簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。

就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。

基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。

圖1:深度圖學習和圖基礎模型的對比

受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。

表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。

圖3:基于GNN的模型示意圖

圖5:基于LLM的模型示意圖

圖7:基于GNN+LLM的模型示意圖

據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。

在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。

**基于GNN的模型 **

得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。

基于LLM的模型

研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。

**結論 **

基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

深度生成模型旨在復制給定的數據分布以產生新的樣本,在近年來取得了前所未有的進步。他們的技術突破使得在視覺內容的合成上實現了無與倫比的質量。然而,他們巨大成功的一個關鍵先決條件是有足夠數量的訓練樣本,這需要大量的計算資源。當在有限的數據上進行訓練時,生成模型往往會因過度擬合和記憶化而導致嚴重的性能下降。

**因此,研究人員近來花費了大量的精力來開發能夠從有限的訓練數據生成合理且多樣化圖像的新型模型 **。盡管在有限數據情況下提高訓練穩定性和合成質量的努力眾多,但仍缺乏一個系統的調查,該調查提供1)清晰的問題定義、關鍵挑戰和各種任務的分類;2)對現有文獻的優點、缺點和剩余限制的深入分析;以及3)對有限數據下圖像合成領域的潛在應用和未來方向的深入討論。

為了填補這個空白,并為新入門這個主題的研究人員提供一個信息豐富的介紹,這個調查提供了一個全面的審查和一個關于有限數據下圖像合成發展的新的分類。特別是,它全面而全方位地涵蓋了問題的定義、要求、主要解決方案、流行的基準和剩余的挑戰。我們希望這個調查能為研究人員和實踐者提供一個信息豐富的概覽和一個寶貴的資源,并推動這個重要主題的進一步進步和創新。除了相關的參考文獻,我們的目標是不斷維護一個最新的存儲庫,以在GitHub/awesome-few-shot-generation上追蹤這個主題的最新進展。

1. 引言

深度生成模型已經取得了巨大的發展,并已經被應用于廣泛的智能創造任務,特別是在圖像和視頻合成[1],[2],[3],[4],[5],[6],[7],[8],[9],音頻和語音合成[10],[11],[12],[13],[14],[15],多模式生成[16],[17],[18]等方面。他們的技術突破也直接方便了我們日常生活的許多方面,包括各種表示形式(例如,3D/2D表示)的內容創建[19],[20],[21],[22],定制生成和編輯[23],[24],[25],[26],[27],以及藝術合成/操作[28],[29],[30],[31]。盡管取得了這些顯著的進步,但大多數現有的生成模型需要大量的數據和計算資源進行訓練。例如,最常用的數據集,人臉FFHQ [2],[32](70K),戶外/室內場景LSUN [33](1M),和對象ImageNet [34](1M),都包含足夠的訓練樣本。這樣的先決條件對只有有限訓練樣本的實踐者和研究者(如著名藝術家的繪畫和稀有疾病的醫療圖像)構成了重大挑戰。因此,有越來越多的需求要在有限的訓練數據下學習生成模型,這在近年來引起了廣泛的關注。 在有限數據下進行圖像合成的主要挑戰是模型過擬合和記憶化的風險,這可以顯著影響生成樣本的真實度和多樣性[35],[36],[37],[38],[39]。也就是說,由于過度擬合,模型可能只是復制訓練圖像,而不是生成新的圖像,從而導致合成質量下降。例如,當在有限數據下訓練生成對抗網絡(GANs)[40]時,判別器容易記住訓練圖像,從而對生成器提供無意義的指導,導致不利的合成。為了解決這些限制,許多研究工作已經開發出來,以改善在少數情況下的合成質量[35],[36],[37],[41],[42]。這些工作提出了各種策略,從不同的角度來減輕過擬合和記憶化的風險,如數據增強、正則化和新的架構。

盡管在有限數據下的圖像合成領域已經取得了顯著的進步,但該領域缺乏統一的問題定義和分類。例如,少樣本圖像生成在[41],[43],[44],[45]中被定義為給定一個類別的少量圖像,生成這個未見過的類別的多樣化和逼真的圖像,而在[46],[47],[48],[49],[50]中,少樣本圖像生成指的是將大規模和多樣化的源域的先驗知識適應到一個小的目標域。然而,他們在問題需求、模型訓練和測試設置上有顯著的不同。這種不一致的定義可能會導致不熟悉這些工作的讀者產生歧義和誤解。因此,一個全面的問題定義和分類對于更清晰地理解這個領域是至關重要的。此外,考慮到系統性調查的缺乏和有限數據生成的興趣增加,我們認為有必要組織一個調查,以幫助社區追蹤其發展。為此,本文首先為少樣本范式中的各種任務提供了一個清晰的問題定義,并將它們分為四類:數據高效生成模型(第4節),少樣本生成適應(第5節),少樣本圖像生成(第6節),和單樣本圖像合成(第7節)。然后,本文對該領域的先前研究進行了全面的概述。特別是,現有替代方案的技術演變、優點和缺點都有所呈現。另外,我們介紹了幾個相關的應用,并突出了需要未來工作進一步研究的開放問題(第8節)。總的來說,這項調查旨在為新入門該領域的學者提供有限數據下圖像合成的全面和系統的理解。我們希望我們的工作能為那些愿意僅用數十張訓練圖像開發自己的生成模型的研究者提供一種指導。本調查的貢獻總結如下:

? 清晰的問題定義和分類。本調查為有限數據下的圖像合成中的各種合成任務提供了清晰且統一的問題定義。此外,本調查提出了一個系統的分類法,將這些任務劃分為四類:數據高效圖像生成、少樣本生成適應、少樣本圖像生成和單樣本圖像合成。 ? 全面性。本調查對少樣本范例中現有的最先進的生成模型進行了全面的概述。我們比較和分析了現有方法的主要技術動機、貢獻和局限性,這些可以啟發進一步改進的潛在解決方案。 ? 應用和開放的研究方向。除了技術調查外,本調查還討論了潛在的應用,并突出了需要進一步調查以改善有限數據下圖像合成的開放性研究問題。 ? 及時的最新資源庫。為了持續追蹤這個領域的快速發展,我們在GitHub/awesome-few-shotgeneration上提供了最新相關論文、代碼和數據集的策劃列表。

本綜述關注的是訓練深度生成模型在有限訓練數據下生成多樣化和合理的圖像的方法。這些方法的主要目標是通過充分利用有限訓練數據的內部信息并在數據分布范圍內生成新的樣本來減輕過擬合問題。然而,這些方法在模型輸入、訓練圖和評估方面有所不同。

因此,在這項調查中,我們的目標是1) 讓讀者對有限數據下圖像合成領域的各種問題設置有清晰的理解,2) 對先前藝術的模型概念、方法特性和應用提供深入的分析和深思熟慮的討論,以及3) 提出一些未來研究的方向,并激發出更多有趣的工作以進一步改進。特別是,根據問題定義和實驗設置,我們將現有的方法分為四類:數據高效生成模型、少樣本生成適應、少樣本圖像生成、單樣本圖像生成。需要注意的是,所有這些類別都旨在生成與數據分布相對應的逼真和多樣化的圖像。這與少樣本學習中的生成建模形成鮮明對比,后者顯式地估計概率分布以計算給定樣本的類標簽[51],[52]。關于少樣本學習的進展,我們建議讀者參閱[53],[54]以獲取更全面的評述。

在這次調查中,我們的目標是提供關于有限數據下圖像合成的各種任務的清晰理解。為了實現這個目標,我們提出了每個任務的定義和表述,考慮到每個問題背后的訓練范式和任務特定的需求。我們已經構建了四個獨立的問題,即數據高效生成模型、少樣本生成適應、少樣本圖像生成和單樣本圖像生成。為了更好地說明這些問題,我們考慮了深度生成模型家族中的一個代表性類別,即生成對抗網絡(GANs),來描繪這些問題的訓練流程(見圖1)。需要注意的是,所呈現的流程并不是為了代表每個任務中使用的所有方法,而是作為一個示例。此外,我們在表1中總結了每個任務的定義、模型需求和主要挑戰。詳細的方法設計和分類分別在相應的部分進行了介紹。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容

以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。

基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。

對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。

**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。

圖神經網絡多模態學習

深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。

以圖為中心的多模態學習

圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。

圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。

面向圖像的多模態圖學習**

圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。

圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。

面向語言的多模態圖學習**

隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。

自然科學中的多模態圖學習

除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。

多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。

付費5元查看完整內容
北京阿比特科技有限公司