亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

推薦系統通過隱式交互(如購買和點擊)對用戶偏好和物品屬性進行建模,幫助用戶發現其感興趣的物品,已經成為一種流行而有效的工具。人類通過處理模態信號(如音頻、文本和圖像)來感知世界,這啟發了研究人員建立一個可以理解和解釋不同模態數據的推薦系統。這些模型可以捕獲不同模態之間的隱藏關系,并可能恢復單模態方法和隱式交互無法捕獲的互補信息。**本綜述的目的是對最近關于多模態推薦的研究工作進行全面的回顧。具體來說,它展示了每個步驟中常用技術的清晰流程,并按使用的方法對模型進行了分類。**此外,還設計了一個代碼框架,以幫助該領域的新研究人員理解原理和技術,并輕松運行SOTA模型。我們的框架位于://github.com/enoche/MMRec。

1. 引言

**隨著社會的發展,大量的物品和信息被展示在網絡上,用戶很難判斷哪些是有用的,并從中挑選出自己喜歡的。**解決了[34]推薦系統出現時的信息過載問題。它根據歷史交互數據和公開的物品信息(如點擊量和銷量),預測用戶對所有物品的評分或偏好,并推薦用戶可能選擇的最可能和最相關的物品。推薦算法可分為協同過濾、基于內容的過濾和混合推薦系統[43]。協同過濾基于分析和收集用戶的歷史行為數據,其中包括歷史交互(如點擊、瀏覽、購買)和用戶偏好(如評分)。基于內容的過濾根據用戶的用戶信息和項目信息推薦產品。物品用關鍵字描述,用戶的個人資料將表達該用戶喜歡的物品的類型。這種方法的主要思想是,用戶可能會選擇他們之前喜歡的相似物品。混合方法結合了協同過濾和基于內容的過濾技術,以獲得更好的結果。 **傳統的推薦方法[16,68,76,78]存在不足,它們需要用戶和物品之間大量的交互才能做出更準確的推薦。**交互較少甚至沒有交互的用戶和物品會影響推薦的準確性。為了緩解數據稀疏問題[75,77]和冷啟動問題,多模態信息被引入到推薦系統中。多模態推薦利用輔助的多模態信息來補充歷史的用戶-物品交互,從而提高推薦性能。多模態模型能夠表示和發現不同模態之間的隱藏關系,并可能恢復單模態方法和隱式交互無法捕獲的互補信息。這些技能對于自然語言處理[45]來說也是必要的,以便在各種人工智能工作中實現人類水平的理解。多媒體數據不僅反映了用戶和物品之間的關系,而且反映了用戶在不同模態下的偏好。對于相同的模態,數據可以反映不同項目的相似度和語義。為了將多模態信息融合到推薦系統中,目前的方法是從不同模態中提取特征,然后將模態融合結果作為輔助信息或物品表示。VBPR[15]是第一個考慮將視覺特征引入推薦系統的模型,它將視覺嵌入與id嵌入連接起來作為項目的表示。[53, 58, 59]利用基于GCN的方法來產生每個模態的表示,然后將它們融合在一起作為最終表示。除了融合模態表示外,還將基于知識圖譜的模態邊信息引入多模態推薦[46]中。多模態推薦引入了不同的技術,試圖為用戶和物品找到更好的表示,以實現更準確的推薦結果。

**如今,在線分享平臺是常用的,如時尚、新聞、短視頻和音樂推薦平臺。這些流行的在線平臺包含大量的多模態信息,驅動用戶的選擇。**由于人們普遍使用這些蘊含大量多模態信息的平臺,因此有必要采用多模態推薦來學習更準確的用戶偏好。與傳統推薦不同,這些應用利用了物品的視頻幀、音軌和物品描述等多模態內容信息。MMGCN[59]、MGAT[49]、DualGNN[53]和SLMRec[48]是利用視頻內部的描述、字幕、音頻和幀對用戶對微視頻的多模態偏好進行建模的微視頻推薦模型。由于時尚推薦涉及的特征復雜且具有主觀性,構建高效的推薦系統面臨困難。[7, 19]旨在利用多模態信息來克服這個問題。以往的新聞推薦側重于標題和文本的單模態信息,而忽略了圖像等視覺信息。[61, 63]嘗試使用多模態來提高推薦性能。

**由于上文討論的優點和必要性,多模態推薦系統被廣泛使用。也沒有調研討論用于多模態推薦的技術。**為了給研究人員提供參考,本文介紹了多模態推薦系統的概況,并根據所使用的方法對綜述論文進行了分類。本調研的目的是通過展示一個清晰的流程以及每個步驟中使用的技術,來介紹多模態推薦系統的工作原理。本文旨在指導新的研究人員了解多模態推薦系統中常用的原則和技術。此外,還提供了一個已開發的代碼框架,該框架包含已實現的具有預提取多模態特征的SOTA模型,使得研究人員可以基于該框架高效地運行SOTA模型或開發自己的模型。

本綜述的主要內容是多模態推薦的研究綜述。本文工作的目的是總結該領域使用的主要方法,并強調多模態內容的重要性。此外,我們將提供一個通用框架,其中包含常用模型的代碼實現,這可以幫助初學者快速運行他們的數據或在此框架中實現模型。我們將按照以下方式組織綜述: * 介紹 * 多模態推薦流程 * 特征提取; * 模型分類; * 模態融合 * 度量和優化; * 數據集和實驗結果 * 挑戰和未來研究方向 * 結論

在介紹了這次綜述的組織情況后,我們總結了我們的主要貢獻如下。

  • 我們提出了多模態推薦系統(MMRec)的理論綜述,概述了學習和利用模態信息的各種策略,并提供了模型使用的技術以及每個MMRec模型如何工作的全面解釋。
  • 我們介紹了推薦系統如何利用多模態信息的主要步驟,并展示了MMRec的流程。討論了如何選擇合適的數據集、特征提取和優化方法,為讀者開發MMRec系統提供了明確的指導。
  • 我們通過在四個公共數據集上進行大量實驗,驗證了SOTA多模態推薦模型的有效性和效率。同時,討論影響模型性能的關鍵因素(例如,不同的模態信息,不同的數據分割方法)。

此外,我們創建了一個開源框架MMRec[74] 1,可用于實現本綜述中提到的MMRec模型的基線。讀者也可以使用這個代碼框架來開發自己的模型。我們希望這個框架能幫助初學者更容易地理解多模式推薦模型的工作原理,并方便地開發自己的模型,只考慮如何設計模型,其他步驟由框架完成。此外,我們還創建了一個開源存儲庫,其中包括所有被調研的論文和單模態模型。

2. 多模態推薦流程

多模態推薦系統通常遵循圖1中的步驟。下面描述了每個步驟的細節。多模態推薦系統旨在通過利用多模態特征來學習用戶和物品的信息表示。第一步是從原始數據中提取模態特征。在獲得模態特征后,您可以選擇在將它們輸入到多模態模型之前進行融合,在模型的中間層進行融合,或融合多模態模型的輸出。采用不同的技術來學習用戶-物品之間的關系,并利用多模態信息,通過匹配目標函數來提高推薦精度。

付費5元查看完整內容

為了應對現實世界的動態變化,智能體需要在其生命周期中增量地獲取、更新、積累和利用知識。這種能力被稱為持續學習,為人工智能系統自適應發展提供了基礎

在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的性能急劇下降。除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和復雜性。本文對持續學習進行了全面的調研,試圖在基本設置、理論基礎、代表性方法和實際應用之間建立聯系。基于現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。通過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯系的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的后續探索。

1. 引言

學習是智能系統適應環境的基礎。為了應對外界的變化,進化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設置是逐一學習一系列內容,并表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新示例、不同的環境、不同的背景等,并包含特定的現實挑戰[322],[413]。由于內容是在一生中逐步提供的,因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。

與傳統的基于靜態數據分布的機器學習模型不同,持續學習的特點是從動態數據分布中學習。**一個主要的挑戰被稱為災難性遺忘[291],[292],對新分布的適應通常會導致捕獲舊分布的能力大大降低。**這種困境是學習可塑性和記憶穩定性權衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的“比例”外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。

**許多努力致力于解決上述挑戰,可以在概念上分為五組(圖1,c):**參考舊模型添加正則化項(基于正則化的方法);逼近和恢復舊數據分布(基于回放的方法);顯式操作優化程序(基于優化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基于體系結構的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,并對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯系的,例如正則化和重放最終糾正優化中的梯度方向,并且具有高度的協同性,例如,重放的效果可以通過從舊模型中提取知識來提高。 現實應用對持續學習提出了特殊的挑戰,可以分為場景復雜性和任務特異性。對于前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由于數據標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機遇和挑戰。

**考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的調研可以為后續的工作提供一個整體的視角。**盡管有一些關于持續學習的早期調研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調研通常只整理持續學習的局部方面,關于其生物學基礎[148],[156],[186],[227],視覺分類的專門設置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的調研。基于這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯系,深入討論了持續學習。

主要貢獻包括:

(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;

(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,并對具有代表性的策略進行了詳細的分類; (3) 將現實應用的特殊挑戰分為場景復雜性和任務特殊性,并廣泛分析了持續學習策略如何適應這些挑戰; (4)深入探討了當前研究趨勢和發展方向,以期為相關領域后續工作提供參考本文的組織如下: 在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景復雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科聯系。

在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現和經驗屬性。

Regularization-based 方法

該方向的特點是添加顯式正則項來平衡新舊任務,這通常需要存儲舊模型的凍結副本以供參考(見圖4)。根據正則化的目標,這類方法可以分為兩類。

Replay-based 方法

將近似和恢復舊數據分布的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。

Optimization-based 方法

持續學習不僅可以通過向損失函數添加額外的項(例如正則化和重放)來實現,還可以通過顯式地設計和操作優化程序來實現。

Representation-based 方法

將創建和利用持續學習表示優勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、[456]的優勢,以改進初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練數據通常數量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。

Architecture-based 方法

上述策略主要集中在學習所有具有共享參數集的增量任務(即單個模型和一個參數空間),這是導致任務間干擾的主要原因。相反,構造特定于任務的參數可以顯式地解決這個問題。以往的工作通常根據網絡體系結構是否固定,將該方向分為參數隔離和動態體系結構。本文專注于實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模塊化網絡(圖8)。

付費5元查看完整內容

社會化推薦系統(SocialRS)同時利用用戶到項目的交互和用戶到用戶的社會關系來為用戶生成項目推薦。此外,由于同質性和社會影響的作用,利用社會關系顯然可以有效地理解用戶的品味。因此,SocialRS越來越受到關注。特別是,隨著圖神經網絡(GNN)的發展,最近發展了許多基于GNN的社交方法。對基于GNN的SocialRS文獻進行了全面和系統的回顧。在遵循PRISMA框架(系統評審和元分析的首選報告項目)注釋了2151篇論文后,確定了80篇關于基于GNN的社交網絡的論文。然后,從輸入和體系結構兩個方面對它們進行了全面的綜述,提出了一個新的分類方法:(1)輸入分類方法包括5組輸入類型符號和7組輸入表示符號;(2)架構分類包括8組GNN編碼器符號,2組解碼器符號和12組損失函數符號。本文根據分類法將基于GNN的SocialRS方法分為幾個類別,并描述了它們的細節。總結了廣泛用于評估基于GNN的SocialRS方法的基準數據集和指標。最后,展望了未來的研究方向。 //www.zhuanzhi.ai/paper/19ce4b0c70cda5c6a61eeb8b8d8d6d1f

引言

隨著在線社交網絡平臺(如Facebook、Twitter、Instagram等)的出現,社交推薦系統(social recommender systems, SocialRS)得到了大量的研究,它同時利用用戶-用戶的社交關系和用戶-物品的交互關系向用戶推薦相關物品。利用社交關系進行推薦可以取得很好的效果,這是因為社交同質性[61]和社交影響力[60]的作用:(1)社交同質性表示用戶傾向于將自己與具有相似屬性和偏好的其他用戶聯系起來;(2)社交影響力表示具有直接或間接關系的用戶傾向于相互影響,使自己變得更加相似。因此,SocialRS通過利用社交鄰居來捕捉交互稀疏用戶的偏好,可以有效緩解數據稀疏問題

通過利用社交鄰居來捕獲交互稀疏的用戶的偏好問題。文獻表明,SocialRS可以成功地應用于各種推薦領域(例如,產品[101,103],音樂[116-118],位置[39,72,100]和圖像[86,99,102]),從而提高用戶滿意度。此外,社會學家探索的技術和見解也可以用于現實世界的應用,而不是推薦。例如,GarcíaSánchez等人[20]利用SocialRS設計了一個營銷決策系統(如廣告),而Gasparetti等人[21]從社區發現的角度分析了SocialRS。

在這種廣泛適用性的推動下,人們對開發精確社交模型的研究越來越感興趣。早期,研究集中在矩陣分解(MF)技術[28,54 - 57,84,112]。然而,基于MF的方法無法有效建模用戶-用戶社會關系和用戶-物品交互中固有的復雜(即非線性)關系[76]。受此啟發,最近的大多數工作都專注于將深度學習技術應用于社交網絡,例如自編碼器[11,115],生成對抗網絡(GAN)[35]和圖神經網絡(GNN)[16,102]

特別是,由于用戶-物品交互和用戶-用戶社會關系可以自然地表示為圖形數據,基于GNN的SocialRS在文獻中越來越受到關注。圖1顯示,自2019年以來,與基于GNN的SocialRS相關的論文數量持續增加。鑒于人們對這一領域的興趣日益增長和及時,我們在本次綜述中調查了基于GNN的SocialRS方法。

1.1 將GNN應用于SocialRS并非易事,面臨以下挑戰。

**輸入表示。**輸入數據應該適當地建模為異構圖結構。許多SocialRS方法構建兩個獨立的圖:其中一個圖的節點表示用戶和物品,邊表示用戶與物品的交互;另一種是節點代表用戶,邊代表用戶與用戶的社會關系。因此,用于SocialRS的GNN方法需要同時從兩個網絡中提取知識,以進行準確的推斷。這與大多數只考慮單個網絡的常規GNN形成對比。此外,我們注意到這兩個網絡中存在有價值的輸入特征,例如用戶/物品屬性,物品知識/關系,

此外,我們注意到兩個網絡中存在有價值的輸入特征,如用戶/項目屬性、項目知識/關系和組信息。因此,在基于GNN的社交網絡中,方法將特征和網絡信息融合在一起。本文討論了基于GNN的SocialRS方法中使用的輸入類型,以及它們表示為圖的不同方式。

**GNN編碼器的設計。**基于GNN的SocialRS方法的性能在很大程度上依賴于它們的GNN編碼器,這些編碼器旨在將用戶和項目表示為低維嵌入。因此,現有的SocialRS方法探索了關于GNN編碼器的各種設計選擇,并根據其目標采用了不同的架構。例如,許多SocialRS方法采用圖注意力神經網絡(GANN)[88]來區分每個用戶對項目的偏好或每個用戶對其社交朋友的影響。另一方面,一些方法[22,65,66,82,111]使用圖遞歸神經網絡(GRNN)[68, 120]對用戶的順序行為進行建模。需要注意的是,面向社交網絡的GNN編碼器需要同時考慮用戶-物品交互和用戶-用戶社會關系的特征。這與僅對用戶-項目交互建模的非社交者的GNN編碼器形成了對比。本文討論了SocialRS方法使用的不同類型的GNN編碼器。

**訓練。**基于GNN的社交網絡訓練應設計為在對應用戶和項目的嵌入中反映用戶的品味和項目的特征。為此,SocialRS方法采用眾所周知的損失函數,如均方誤差(MSE)、貝葉斯個性化排名(BPR)[70]和交叉熵(CE),來重構用戶行為。此外,為了緩解數據稀疏性問題,一些工作還采用了輔助損失函數,如自監督損失[49]和基于分組的損失[36,42]。值得一提的是,基于GNN的社交網絡使用的損失函數被設計為可以利用豐富的結構信息,如motifs和用戶屬性。非社會推薦系統的損失函數不考慮這些。本綜述討論了基于GNN的SocialRS方法的訓練補救措施,以學習用戶和項目嵌入。

圖2所示。基于GNN的SocialRS方法時間表。根據其GNN編碼器對方法進行分類:圖卷積網絡(GCN)、輕量級GCN (LightGCN)、圖注意力神經網絡(GANN)、異構GNN (HetGNN)、圖循環神經網絡(GRNN)、超圖神經網絡(HyperGNN)、圖自編碼器(GAE)和雙曲GNN。值得注意的是,一些方法在其架構中使用了兩個或更多的GNN編碼器。

本文的主要貢獻總結如下:

基于GNN的社交網絡的第一個綜述:據我們所知,我們是第一個系統地致力于回顧基于GNN的社交網絡方法的人。大多數現有綜述要么關注傳統方法7,14,67,75,85,109,114,要么關注特征信息77,要么關注特定應用21。其他相關的綜述[12,19,94,104]關注基于圖的推薦系統,但它們部分覆蓋了社交網絡。

綜合調研: 通過遵循系統評審和元分析(PRISMA框架)首選報告項目的指導方針,系統地確定了基于GNN的社會RS的相關論文[63]。然后,從它們的輸入和架構方面全面回顧了它們。圖2提供了基于GNN的SocialRS方法的簡要時間表。此外,圖3顯示了在相關期刊(如IEEE TKDE和ACM TOIS)和會議(如WWW、ACM SIGIR和ACM CIKM)上發表的相關論文數量。

輸入和架構的新分類:在基于GNN的SocialRS方法中提供了一種新的輸入和架構分類,使研究人員能夠輕松捕捉該領域的研究趨勢。輸入分類法包括5組輸入類型表示法和7組輸入表示表示法。另一方面,架構分類包括8組GNN編碼器符號、2組解碼器符號和12組損失函數符號(4組為主要損失,8組為輔助損失)。

基準數據集:回顧了17個基準數據集,用于評估基于GNN的SocialRS方法的性能。將數據集分為8個領域(即產品、位置、電影、圖像、音樂、書簽、微博和雜項)。此外,我們提供了每個數據集的一些統計數據和使用該數據集的論文列表。

未來方向: 討論了現有的基于GNN的社會RS方法的局限性,并提供了幾個未來的研究方向。

在本節中,我們將介紹基于GNN的SocialRS的架構分類。模型架構由三個關鍵組件組成,如圖6所示: (C1)編碼器;(C2)解碼器;(C3)損失函數。在(C1)中,編碼器將用戶和物品表示為低維向量(即嵌入)通過使用不同的GNN編碼器。在這里,一些作品利用了用戶和/或項目的附加信息(例如,他們的屬性和組;請參考第4節)以構建更準確的用戶和項目嵌入。在(C2)中,解碼器通過對(C1)中獲得的用戶和物品嵌入的不同操作來預測每個用戶對每個物品的偏好。最后,在(C3)中,不同的損失函數被優化,以端到端的方式學習嵌入。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容
北京阿比特科技有限公司