亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖在表示社交網絡、知識圖譜和分子發現等各種領域的復雜關系中發揮著重要作用。隨著深度學習的出現,圖神經網絡(GNNs)已成為圖機器學習(Graph ML)的基石,促進了圖結構的表示和處理。最近,大語言模型(LLMs)在語言任務中展示了前所未有的能力,并廣泛應用于計算機視覺和推薦系統等多種應用中。這一顯著的成功也吸引了人們將LLMs應用于圖領域的興趣。人們越來越多地努力探索LLMs在推進圖機器學習的泛化、可遷移性和小樣本學習能力方面的潛力。同時,圖,特別是知識圖譜,富含可靠的事實知識,可以用來增強LLMs的推理能力,潛在地緩解它們的局限性,如幻覺現象和缺乏可解釋性。鑒于這一研究方向的迅速進展,對LLMs時代圖機器學習的最新進展進行系統的綜述是必要的,以便為研究人員和實踐者提供深入的理解。因此,在這篇綜述中,我們首先回顧了圖機器學習的最近發展。然后,我們探討如何利用LLMs來提高圖特征的質量,減輕對標記數據的依賴,并應對圖異質性和分布外(OOD)泛化等挑戰。之后,我們深入探討了圖如何增強LLMs,突出了它們提升LLM預訓練和推理的能力。此外,我們還研究了各種應用,并討論了這一有前途的領域的潛在未來發展方向。

圖數據在許多實際應用中都有廣泛的應用,包括社交圖、知識圖譜和推薦系統。通常,圖由節點和邊組成,例如,在社交圖中,節點代表用戶,邊代表關系。除了拓撲結構外,圖還傾向于擁有各種節點特征,如文本描述,這些特征提供了有關節點的寶貴上下文和語義信息。為了有效地建模圖,圖機器學習(Graph ML)已引起了重大關注。隨著深度學習(DL)的出現,圖神經網絡(GNNs)因其消息傳遞機制而成為圖機器學習的關鍵技術。該機制允許每個節點通過遞歸接收和聚合來自鄰近節點的消息來獲取其表示,從而捕捉圖結構中的高階關系和依賴性。為了減少對監督數據的依賴,許多研究集中于開發自監督圖機器學習方法,以提升GNNs捕捉可遷移圖模式的能力,增強它們跨各種任務的泛化能力。鑒于圖數據應用的指數級增長,研究人員正在積極開發更強大的圖機器學習方法。

最近,大語言模型(LLMs)開啟了人工智能的新趨勢,并在自然語言處理(NLP)中展示了顯著的能力。隨著這些模型的發展,LLMs不僅被應用于語言任務,還在計算機視覺(CV)、推薦系統等各種應用中展示了巨大的潛力。LLMs在復雜任務中的有效性歸因于它們在架構和數據集大小上的廣泛規模。例如,擁有1750億參數的GPT-3展示了生成類人文本、回答復雜問題和編程的激動人心的能力。此外,由于其龐大的訓練數據集,LLMs能夠掌握廣泛的通用知識和復雜的推理能力。因此,它們在語言語義和知識推理方面的能力使它們能夠學習語義信息。此外,LLMs展示了在有限或無特定訓練的新任務和領域中的突出能力,這一屬性預計將在不同的下游數據集和任務中提供高泛化能力,即使在少樣本或零樣本情況下也是如此。因此,利用LLMs在圖機器學習(Graph ML)中的能力引起了越來越多的關注,并有望增強Graph ML,推動圖基礎模型(GFMs)的發展。

GFMs通常在廣泛的數據上訓練,并可以適應廣泛的下游任務。通過利用LLMs的能力,有望增強Graph ML在各種任務中的泛化能力,從而促進GFMs的發展。目前,研究人員已經進行了一些初步努力,探索LLMs在推進Graph ML向GFMs發展中的潛力。圖1展示了將LLMs和GNNs集成用于各種圖任務的一個例子。首先,一些方法利用LLMs減輕原始Graph ML對標記數據的依賴,它們根據隱含和顯式圖結構信息進行推斷。例如,InstructGLM通過將圖數據序列化為令牌并編碼圖的結構信息來解決圖任務,對諸如LlaMA和T5的模型進行微調。其次,為了克服特征質量的挑戰,一些方法進一步利用LLMs提高圖特征的質量。例如,SimTeG在文本圖數據集上對LLMs進行微調,獲取文本屬性嵌入,然后利用這些嵌入增強GNN以執行各種下游任務。此外,一些研究探索使用LLMs來解決圖的異質性和OOD問題。

另一方面,盡管LLM在各個領域取得了巨大成功,但它仍面臨幾個挑戰,包括幻覺、實際意識缺乏和解釋性不足。圖,尤其是知識圖譜,以結構化格式捕獲大量高質量可靠的事實知識。因此,將圖結構整合到LLMs中可以提高LLMs的推理能力并緩解這些限制。為此,已進行了一些努力,探索圖在增強LLMs解釋性和緩解幻覺方面的潛力。鑒于這一領域的迅速發展和巨大潛力,對LLMs時代圖應用和圖機器學習的最新進展進行全面回顧是必要的。

因此,在這篇綜述中,我們旨在提供關于LLMs時代圖機器學習的全面回顧。綜述的大綱如圖2所示:第二部分回顧與圖機器學習和基礎模型相關的工作。第三部分介紹了圖上的深度學習方法,重點是各種GNN模型和自監督方法。隨后,綜述深入探討了如何在第四部分使用LLMs來增強Graph ML,以及在第五部分如何采用圖來增強LLMs。最后,第六部分和第七部分分別討論了Graph ML在LLMs時代的一些應用和潛在的未來方向。我們的主要貢獻可以總結如下:

我們詳細描述了從早期圖學習方法到LLMs時代最新的GFMs的演變; 我們提供了當前LLMs增強的Graph ML方法的全面分析,突出了它們的優勢和局限,并提供了系統的分類; 我們徹底調查了圖結構應對LLMs限制的潛力;

我們探索了Graph ML在LLMs時代的應用和未來方向,并討論了各個領域的研究和實際應用。 與我們的綜述同時進行的,Wei等人回顧了圖學習的發展。Zhang等人提供了大型圖模型的前瞻性回顧。Jin等人和Li等人分別回顧了在圖上預訓練語言模型(特別是LLMs)及其應用到不同類型的圖的不同技術。Liu等人根據流程回顧了圖基礎模型。Mao等人關注基本原則,并討論了GFMs的潛力。

與這些同時進行的綜述不同,我們的綜述提供了更全面的回顧,具有以下不同之處:(1)我們提供了關于Graph Machine Learning發展的更系統的回顧,并進一步探索了LLMs對Graph ML向GFMs的發展;(2)我們提出了LLMs時代Graph ML最新進展的更全面和細致的分類;(3)我們深入探討了最近Graph ML的局限性,并提供了從LLMs的角度克服這些局限性的洞見;(4)我們進一步探討了如何使用圖來增強LLMs;(5)我們徹底總結了廣泛的應用范圍,并提出了對挑戰和未來方向的更前瞻性討論。

盡管具有巨大潛力,基于GNN的圖機器學習(Graph ML)仍存在固有局限。首先,常規的GNN模型通常需要標記數據進行監督,獲取這些注釋可能在時間和成本上非常耗資源。其次,現實世界中的圖往往包含豐富的文本信息,這對下游任務至關重要。然而,GNN通常依賴于淺層文本嵌入來提取語義,從而限制了它們捕捉復雜語義和文本特征的能力。此外,圖的多樣性為GNN模型在不同領域和任務中的泛化提出了挑戰。最近,大語言模型(LLMs)在處理自然語言方面取得了顯著成功,具有如下激動人心的特點:(1)進行零/少樣本預測;(2)提供統一的特征空間。這些能力為解決圖機器學習和圖基礎模型(GFMs)所面臨的上述挑戰提供了潛在的解決方案。因此,本節旨在研究當前LLMs能為提升圖機器學習向GFMs的進展做出什么貢獻,同時也審視它們當前的局限性,如圖4所示。

大語言模型(LLMs)在各個領域展示了令人印象深刻的語言生成和理解能力。然而,它們仍面臨幾個迫切的挑戰,包括事實性認知、幻覺、推理過程中的有限可解釋性等問題。為了緩解這些問題,一種潛在的方法是利用知識圖譜(KGs),知識圖譜以結構化格式存儲高質量、人工策劃的事實知識。最近的綜述[152]–[154]總結了使用KGs來增強語言模型(LMs)的研究。Hu等人[152]提供了關于知識增強的預訓練語言模型用于自然語言理解和自然語言生成的綜述。Agrawal等人[153]系統地回顧了通過利用KGs來減輕LLMs中的幻覺的研究,這些研究涵蓋三個維度:推理過程、學習算法和答案驗證。Pan等人[154]從三個不同的視角全面總結了KGs和LLMs的整合:KG增強的LLMs、LLM增強的KGs和雙方相互加強的LLMs與KGs的協同作用。在本節中,我們將深入探討相關研究,這些研究探索了使用KGs實現知識增強的語言模型預訓練、減輕幻覺和提高推理可解釋性的用途。

結論

在這項綜述中,我們全面回顧了大語言模型(LLMs)時代圖應用和圖機器學習(Graph ML)的最新進展,這是圖學習中的一個新興領域。我們首先回顧了圖機器學習的發展,然后深入探討了各種LLMs增強圖機器學習的方法。由于在各個領域的顯著能力,LLMs有巨大的潛力推動圖機器學習向圖基礎模型(GFMs)發展。我們進一步探索了用圖增強LLMs,突出了它們在增強LLM預訓練和推理方面的能力。此外,我們展示了它們在多樣化應用中的潛力,如分子發現、知識圖譜和推薦系統。盡管取得了成功,這個領域仍在發展中,呈現了許多進一步發展的機會。因此,我們進一步討論了幾個挑戰和潛在的未來方向。總的來說,我們的綜述旨在為研究人員和實踐者提供一個系統和全面的回顧,激發對這一有前途領域的未來探索。

付費5元查看完整內容

相關內容

數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

圖學習在各種應用場景中發揮著關鍵作用,并且由于其在建模由圖結構數據表示的復雜數據關系方面的有效性,已經獲得了顯著的關注,這些應用場景包括社交網絡分析到推薦系統。實際上,現實世界中的圖數據通常隨著時間展現出動態性,節點屬性和邊結構的變化導致了嚴重的圖數據分布偏移問題。這個問題由分布偏移的多樣性和復雜性加劇,這些偏移可以顯著影響圖學習方法在降低的泛化和適應能力方面的性能,提出了一個對其有效性構成實質挑戰的重大問題。在這篇綜述中,我們提供了一個全面的回顧和總結,涵蓋了解決圖學習背景下分布偏移問題的最新方法、策略和見解。具體而言,根據在推斷階段分布的可觀測性和在訓練階段充分監督信息的可用性,我們將現有的圖學習方法分類為幾個基本場景,包括圖域適應學習、圖離群分布學習和圖持續學習。對于每個場景,都提出了詳細的分類法,包括對存在的分布偏移圖學習進展的具體描述和討論。此外,我們還討論了在分布偏移下圖學習的潛在應用和未來方向,通過系統分析這一領域的當前狀態。這篇綜述旨在為處理圖分布偏移的有效圖學習算法的開發提供一般指導,并激發在這一領域的未來研究和進展。

圖結構數據在各種真實世界應用領域無處不在,包括社交網絡[1]、[2]、[3]、[4]、[5]、生物網絡[6]、[7]、[8]、[9]、道路網絡[10]、[11]、[12]以及計算機網絡[13]、[14]、[15]。在這些多樣化的領域中,通過邊緣復雜交織的節點之間的復雜關系蘊含著實體、圖結構和整體圖數據模式中的寶貴信息。在這種情況下,圖學習[16]技術應運而生,以更好地分析和理解各種圖類型,為廣泛的圖相關任務提供了有希望的推理能力,涵蓋了藥物發現[8]、[17]、知識圖探索[18]、[19]、社交網絡分析[20]、[21]、推薦系統[22]、[23]和物理運動預測[24]等。

盡管流行的圖學習方法取得了成功,但圖數據中分布偏移的存在對當前方法的能力構成了實質性的限制[25]。這是由于真實世界圖數據的動態和演化性質。例如,社交網絡隨著新用戶的加入和關系的變化而演化,導致節點特征和邊連接的顯著變化,從而使得圖學習模型在推薦系統或趨勢分析上的性能下降[26]。在金融網絡中,實體(如股票、商品或機構)之間的關系會因市場趨勢、經濟政策或全球事件而變化[27]、[28]。一個在歷史市場數據上訓練的圖學習模型可能在實體之間的關系發生變化時表現不佳。在生物學中,代表蛋白質、基因或生態系統中物種相互作用的網絡可能因突變、環境壓力或疾病爆發而改變[29]。預測疾病傳播或基因相互作用的模型必須適應這些變化。此外,交通系統(如道路網絡、航空交通或公共交通系統)由于城市發展、旅行模式的變化或基礎設施修改等因素而經歷變化。這些變化影響了用于優化路線、預測擁堵或規劃新基礎設施的模型[30]。在節點、邊緣和不同圖中觀察到的圖數據的統計分布的這些變化,大大復雜化了圖學習過程,為有效模型部署和在真實世界場景中的應用帶來挑戰。

為此,在這項工作中,我們的重點是在分布偏移的情況下進行圖學習,具體指的是圖數據概率分布的差異可能涵蓋圖組件的所有方面,包括節點特征、圖結構和標簽分布。因此,圖學習模型在測試階段遇到了在以前未見過的圖數據分布上實現精確泛化的困難。

近年來,越來越多的興趣集中于探索分布偏移下圖學習的范式[31]、[3]、[4]、[32]、[25]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40],以使模型能夠在靜態和動態場景中理解圖數據的復雜場景、對象和概念。具體而言,圖數據分布偏移場景可以基于測試階段的分布是否可觀測以及可用的監督信息是否充分來分類。因此,它們可以分為三個主要類別,如圖1所示:

觀察到的偏移:已知測試階段數據,可變監督,其中可能展示出與訓練階段不同的潛在未知分布偏移的觀察到的測試階段圖數據,可用的監督可能充分或不充分

未觀察到的偏移:未知測試階段數據,限制性監督,其中未觀察到的測試階段圖數據分布具有多種多樣的偏移類型,可用的監督通常傾向于不充分

順序時間偏移:時間依賴的,未觀察到的數據,其中未觀察到的測試階段圖數據分布隨時間動態地順序到達。

基于這三種類型的圖數據分布偏移場景,在這項工作中,我們進行了全面的回顧,并提供了現有圖學習方法的系統分類,這些方法應對圖數據中的分布偏移學習挑戰。具體來說,當前的圖學習方法也可以分為三個類別,每個類別對應于特定的分布偏移場景:

圖域適應學習,旨在將圖學習模型從訓練(源)域傳遞到測試(目標)域,并要求它們在具有不同圖數據分布的目標域上表現出熟練的性能[31]、[41]、[42]、[3]、[43]、[4]。→ 觀察到的偏移。

圖離群分布學習,旨在使圖學習模型能夠有效地學習與訓練數據分布不同的測試圖數據和訓練中未見的潛在新類別[44]、[25],使模型具有良好的泛化能力。→ 未觀察到的偏移。

圖持續學習,旨在使圖學習模型能夠在圖數據分布發生變化時吸收新信息,同時精煉現有知識并應對新出現的和以前未見過的任務[45]、[46]。→ 順序時間偏移。

因此,在這篇綜述中,我們的目標是提供對圖數據分布偏移的深入理解,并探討解決分布偏移挑戰的各種圖學習模型和方法。我們將檢查與分布偏移下圖學習相關的關鍵概念、關鍵挑戰、以前的限制和評估協議。此外,我們將討論潛在的現實世界應用并突出這一研究領域內有希望的未來方向。據我們所知,這是第一篇關于圖學習與一般分布偏移場景的全面綜述。盡管如此,我們的工作與幾項專注于圖分布偏移特定方面的先前研究建立聯系也是值得的:Li等[25]回顧了圖離群分布泛化方法,而Yang等[44]回顧了圖離群分布檢測方法,分別是在未觀察到的圖數據偏移場景下的兩種離群分布任務。Yuan等[45]和Febrinanto等[46]在順序時間圖數據偏移場景下回顧了圖持續學習方法和基準測試。相比之下,我們的重點明顯放在更廣泛的分布偏移下圖學習的視角上。這包括更廣泛和更新鮮的方法回顧,以提供更全面的研究路線圖。

我們預見這篇綜述將成為對分布偏移下圖學習感興趣的研究人員和實踐者的重要資源,提供對最新發展和未來研究努力的見解,并促進在模型選擇、架構設計和評估策略領域的知情決策,以持續發展圖學習模型,為學術和工業應用帶來潛在好處。 總結來說,這項綜述工作的核心貢獻可以如下呈現

廣泛的圖分布偏移場景。據我們所知,這是圖學習領域第一篇涵蓋廣泛圖分布偏移場景的綜述工作,有助于深入理解和分析處理多樣化和復雜的圖數據分布偏移案例。

全面的回顧和分類法。我們提供了一個系統的分類法,涵蓋了存在各種分布偏移的現有圖學習進展。這個分類法包括三個關鍵類別:用于可觀察偏移的圖域適應學習,具有已知測試階段圖的;用于未觀察到的偏移的圖離群分布學習,具有未知測試階段圖的;以及用于順序時間偏移的圖持續學習,具有隨時間演化的圖的。

突出實際應用和未來方向。我們強調了圖學習在解決分布偏移方面的實際用途,涵蓋了從科學發現到個性化日常生活推薦的應用。此外,我們確定了幾個有希望的未來研究方向,意圖激勵和推動這一研究領域的進步。

分類與框架

圖3總結了分布偏移下圖學習的一般分類法及本文回顧的相關方法。分類法圍繞著偏移場景和分布偏移下圖學習算法的設計細節展開。首先,根據解釋的偏移場景,分布偏移下的圖學習方法可以被分類為三個類別:圖域適應、離群分布圖學習和持續圖學習。我們進一步考慮不同方法的設計細節,并以層次化的方式對它們進行分類,以便于理解和比較分析。

圖域適應學習的分類法

域適應解決了由于不同域之間數據分布的差異導致模型性能下降的問題,旨在提高模型在目標域上的泛化能力。域適應方法可以進一步分為三種類型:半監督、無監督和測試時圖轉換。 半監督域適應。這些方法側重于使用源域的標記數據以及源域和目標域的未標記數據訓練模型,旨在確保在目標域上的強大性能。 無監督域適應。這些方法專注于在沒有目標域標記數據的情況下進行模型轉移。核心思想是通過特征對齊減少源域和目標域之間的特征分布差異,從而提高模型對目標域的泛化能力。 測試時圖轉換(適應)。這些方法圍繞著在測試期間調整目標域的圖數據以匹配目標域的特性,增強模型對目標域的適應性。

圖離群分布學習的分類法

離群分布(OOD)圖學習解決了從與訓練期間看到的特征不同的圖中學習的挑戰。OOD圖學習可以進一步分為三種類型:圖離群分布泛化、圖離群分布檢測和開放世界圖學習。 圖離群分布泛化。這種類型的OOD圖學習側重于開發能夠很好泛化到具有與訓練中看到的不同特征的圖的模型。目標是確保當面對來自以前未見過的分布的圖時,模型的性能仍然令人滿意。 圖離群分布檢測。在這個場景中,重點是識別或檢測屬于離群分布類別的圖。目標是設計能夠標記或區分與訓練數據分布顯著偏離的圖的模型,可能表明新的或不熟悉的圖模式。 開放世界圖學習。開放世界圖學習處理的是在可能的圖類別集合事先未知的情況下進行學習的挑戰。這意味著模型不僅需要適應新的圖類別,還需要做出將數據分類到已知類別或識別數據屬于新類別的決策。

圖持續學習的分類法

持續圖學習解決了從隨時間到達并持續演化的圖數據流中獲取知識的挑戰。持續圖學習的方法可以進一步分為四個類別:架構方法、正則化方法、復習方法和混合方法。 架構方法。這些方法側重于修改網絡的特定架構、激活函數或算法層,以解決新任務并防止忘記之前的任務。 正則化方法。這些方法通過向損失函數添加正則化項來鞏固學到的知識,限制神經權重的更新方向,以免損害先前任務的性能。 復習方法。這些方法維護一個記憶緩沖區,保存先前任務的信息,并在學習新任務時重播它以減輕災難性遺忘。 混合方法。這些方法結合了多種持續學習方法,以利用多種方法的優勢并提高模型的性能。

在這項工作中,我們對分布變化下圖學習的前沿方法和方法進行了深入的回顧和綜合。基于分布的可觀察性和監督信息的可用性,我們將圖學習方法分為圖域自適應學習、圖分布外學習和圖持續學習,其中每種方法都有詳細的分類和對當前進展的討論。全面的分析,以及對潛在應用和未來研究方向的重點討論,不僅為最先進的方法提供了清晰的路線圖,而且還有助于闡明具有多樣化和復雜分布變化的圖學習技術的有效發展。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。

因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。

在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

最近,語義技術和人工智能(AI)的結合為構建能夠識別更精確結果的智能系統提供了新的技術。語義人工智能在知識圖譜中處于這一創新發展的前沿,通過圖形映射或基于語料庫的本體學習,揭示了機器學習在擴展知識圖譜中的作用。通過符號AI和統計AI的結合,如基于機器學習的實體提取、文本挖掘方法、語義知識圖譜和相關推理能力,確保高效的結果。本書是首次探索語義人工智能和知識圖譜的著作。內容涵蓋了從神經符號AI、可解釋AI和深度學習到知識發現與挖掘,以及知識表示與推理等多個主題。作為對人工智能和數據挖掘領域的研究人員和初學者學者的重要貢獻,本書是對語義人工智能在知識圖譜中的開創性探索。

付費5元查看完整內容

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。

//arxiv.org/abs/2301.05860

1. 引言

對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。

**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。

**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。

圖2:四種主流技術下的圖級學習時間線。

**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:

在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。

B.圖級深度神經網絡(GL-DNNs):

傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。

C.圖級圖神經網絡(GL-GNNs):

GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。

D .圖池化:

圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。

付費5元查看完整內容

圖學習旨在學習現實世界中常見的復雜節點關系和圖的拓撲結構,如社交網絡、學術網絡和電子商務網絡等。這些關系使得圖數據與傳統的表格數據不同,其中節點依賴于非歐氏空間,包含了豐富的信息。圖學習從圖論發展到圖數據挖掘,現在被賦予表示學習的能力,使其在各種場景中取得了出色的性能,甚至包括文本、圖像、化學和生物。由于在現實世界中的廣泛應用前景,圖學習已經成為機器學習中一個熱門且有前景的領域**。**

近年來,已有成千上萬的研究成果被提出用于解決圖學習中的各種問題,引起了學術界越來越多的關注,因此對已有的有價值的研究成果進行綜述變得至關重要。盡管一些研究人員已經注意到這種現象,并完成了關于圖學習的令人印象深刻的調研。然而,由于圖學習的快速擴展,它們未能以更合乎邏輯的方式將相關目標、方法和應用聯系起來,并涵蓋當前豐富的場景和具有挑戰性的問題。

1. 引言

圖學習旨在對圖進行建模,圖是一種廣泛存在于真實場景中的非歐氏數據,與以往機器學習中的數據結構有很大不同,如社交網絡[1]、[2]、[3],學術網絡[4]、[5]、[6],電子商務網絡[7]、[8]、[9],企業知識圖譜[10]、[11]、[12]等。挖掘圖中節點間復雜連接關系和拓撲結構中蘊含的豐富信息,對于圖上的許多任務和應用具有重要意義。此外,傳統應用也可以轉換為圖數據(如計算機視覺[13]、[14]、[15]、語言模型[16]、[17]、[18]、物理[19]、[20]和化學[21]、[22])。重點假設不同實體之間存在許多未直接觀察到的潛在聯系。這使得圖學習不僅是一種處理自然圖結構的方法,而且是一種思考各種問題的方式。

由于圖學習具有廣闊的應用前景,因此在國內外引起了廣泛的關注。盡管之前關于圖的理論工作幫助人們理解圖上的各種字符,并提供了基本的分析框架。這些工作通常集中在較小的模擬圖上,這限制了它們在真實場景中的應用,特別是當圖上存在復雜的關系和結構時。

盡管在這一領域已經有了一些顯著而詳細的調查。目前還缺乏一個綜合的、將相關的目標、方法和應用聯系起來,形成一個有機的、邏輯的綜述。此外,每年在頂級會議上都有數百篇關于圖學習的研究,并且數量還在高速增長。由于其發展迅速,缺乏涵蓋最新趨勢和挑戰的全面調研。 圖2按時間順序展示了有影響力的圖學習方法。這些方法主要分為3類(圖挖掘方法、圖表示方法和深度圖學習方法)。在圖學習早期,大多數方法集中于圖的字符[1]或利用圖的結構信息在小圖[25]、[26]上完成一些下游任務。圖表示學習目前占據主流地位,可歸納為圖嵌入方法和圖神經網絡方法兩大類。這兩類方法都旨在學習節點、邊或圖的語義表示。前者直接優化嵌入,可以減少圖結構信息的損失;后者利用深度神經網絡,在圖上建模信息傳遞過程。

如圖3所示,在本綜述中,我們從圖學習目標的角度提供了一個直觀的分類法。根據圖的元素(即節點、邊和圖結構)對以前對圖的工作進行排序。基于這種邏輯,綜述了圖上的相關方法和任務。展示了圖學習在現實世界中的各種應用上的出色性能。最后,提出了圖學習的發展趨勢和挑戰,以期進一步推動該領域的研究。

本綜述的主要貢獻總結如下。

  • 提供了一個新的分類法,以調查以前關于數據、模型和任務的研究。
  • 總結了當前圖學習在現實世界中的應用。
  • 提出了圖學習的當前趨勢和挑戰。

本文的其余部分組織如下。第2節從數據、模型和任務3個角度,基于節點、邊和圖結構對已有工作進行了直觀的分類。第3節展示了用于圖學習的主要方法和當前的研究趨勢。第四部分總結了該方法在實際中的應用。第5節提出了當今圖學習面臨的挑戰。

2 方法

在本節中,我們將當前的模型分為兩大類(即傳統模型和圖神經網絡)。傳統模型可以進一步分為3類(即矩陣分解模型、基于隨機游走的模型和基于自編碼器的模型)。首先回顧了傳統模型,其中一些仍然活躍或與GNN相結合,并給出了當前模型的許多啟示。在大多數場景下,與傳統模型相比,GNN表現出更高的表達能力和出色的性能。本文將GNN歸納為兩個方面。

3 應用

介紹當前圖學習在現實世界中的主要應用,包括傳統的機器學習場景,如推薦系統、自然語言處理、計算機視覺和金融科技,以及科學場景中的新興應用,如化學、生物、物理和數學。最后,總結了圖學習中流行的數據集。

付費5元查看完整內容

以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。

基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。

對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。

**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。

圖神經網絡多模態學習

深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。

以圖為中心的多模態學習

圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。

圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。

面向圖像的多模態圖學習**

圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。

圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。

面向語言的多模態圖學習**

隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。

自然科學中的多模態圖學習

除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。

多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。

付費5元查看完整內容
北京阿比特科技有限公司