近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。
因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。
在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。
本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。
傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。
IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。
IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。
因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。
這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。
離線策略學習旨在使用現有的軌跡數據集來學習決策策略,而無需收集額外的數據。使用強化學習(RL)而不是監督學習技術(如行為克隆)的主要動機是找到一個策略,該策略的平均回報高于構成數據集的軌跡。然而,我們經驗性地發現,當一個數據集被次優軌跡所支配時,最先進的離線RL算法并沒有在數據集中的軌跡平均回報上獲得實質性的改進。我們認為這是因為當前的離線RL算法假設要接近數據集中的軌跡。如果數據集主要由次優軌跡組成,這個假設會迫使策略模仿次優動作。我們通過提出一個采樣策略來克服這個問題,該策略使策略只受到"好數據"的約束,而不是數據集中的所有動作(即均勻采樣)。我們呈現了采樣策略的實現和一個算法,該算法可以用作標準離線RL算法中的即插即用模塊。我們的評估在72個不平衡數據集、D4RL數據集和三種不同的離線RL算法中顯示出顯著的性能提升。代碼可在//github.com/Improbable-AI/dw-offline-rl 獲取。
多模態學習旨在理解和分析來自多種模態的信息,近年來在監督機制方面取得了實質性進展。然而,對數據的嚴重依賴加上昂貴的人工標注阻礙了模型的擴展。與此同時,考慮到現實世界中大規模的未標注數據的可用性,自監督學習已經成為緩解標注瓶頸的一種有吸引力的策略。基于這兩個方向,自監督多模態學習(SSML)提供了從原始多模態數據中利用監督的方法。在本綜述中,我們對SSML的最先進技術進行了全面的回顧,我們沿著三個正交的軸進行分類: 目標函數、數據對齊和模型架構。這些坐標軸對應于自監督學習方法和多模態數據的固有特征。具體來說,我們將訓練目標分為實例判別、聚類和掩碼預測類別。我們還討論了訓練期間的多模態輸入數據配對和對齊策略。最后,回顧了模型架構,包括編碼器、融合模塊和解碼器的設計,這些是SSML方法的重要組成部分。回顧了下游的多模態應用任務,報告了最先進的圖像-文本模型和多模態視頻模型的具體性能,還回顧了SSML算法在不同領域的實際應用,如醫療保健、遙感和機器翻譯。最后,討論了SSML面臨的挑戰和未來的方向。相關資源的集合可以在: //github.com/ys-zong/awesome-self-supervised-multimodal-learning。
1. 引言
人類通過各種感官感知世界,包括視覺、聽覺、觸覺和嗅覺。我們通過利用每個模態的互補信息來全面了解我們的周圍環境。AI研究一直致力于開發模仿人類行為并以類似方式理解世界的智能體。為此,多模態機器學習領域[1]、[2]旨在開發能夠處理和整合來自多個不同模態的數據的模型。近年來,多模態學習取得了重大進展,導致了視覺和語言學習[3]、視頻理解[4]、[5]、生物醫學[6]、自動駕駛[7]等領域的一系列應用。更根本的是,多模態學習正在推進人工智能中長期存在的接地問題[8],使我們更接近更一般的人工智能。 然而,多模態算法往往仍然需要昂貴的人工標注才能進行有效的訓練,這阻礙了它們的擴展。最近,自監督學習(SSL)[9],[10]已經開始通過從現成的未注釋數據中生成監督來緩解這一問題。單模態學習中自監督的定義相當完善,僅取決于訓練目標,以及是否利用人工標注進行監督。然而,在多模態學習的背景下,它的定義則更為微妙。在多模態學習中,一種模態經常充當另一種模態的監督信號。就消除人工標注瓶頸進行向上擴展的目標而言,定義自我監督范圍的關鍵問題是跨模態配對是否自由獲取。
通過利用免費可用的多模態數據和自監督目標,自監督多模態學習(SSML)顯著增強了多模態模型的能力。在本綜述中,我們回顧了SSML算法及其應用。我們沿著三個正交的軸分解各種方法:目標函數、數據對齊和模型架構。這些坐標軸對應于自監督學習算法的特點和多模態數據所需的具體考慮。圖1提供了擬議分類法的概述。基于前置任務,我們將訓練目標分為實例判別、聚類和掩碼預測類別。還討論了將這些方法中的兩種或兩種以上結合起來的混合方法。
多模態自監督所特有的是多模態數據配對的問題。模態之間的配對,或者更一般的對齊,可以被SSML算法利用作為輸入(例如,當使用一種模態為另一種模態提供監督時),但也可以作為輸出(例如,從未配對的數據中學習并將配對作為副產品誘導)。我們討論了對齊在粗粒度上的不同作用,這種粗粒度通常被假定在多模態自監督中免費可用(例如,網絡爬取的圖像和標題[11]);vs有時由SSML算法顯式或隱式誘導的細粒度對齊(例如,標題詞和圖像塊[12]之間的對應關系)。此外,我們探索了目標函數和數據對齊假設的交集。 還分析了當代SSML模型架構的設計。具體來說,我們考慮編碼器和融合模塊的設計空間,將特定模式的編碼器(沒有融合或具有后期融合)和具有早期融合的統一編碼器進行對比。我們也檢查具有特定解碼器設計的架構,并討論這些設計選擇的影響。
最后,討論了這些算法在多個真實世界領域的應用,包括醫療保健、遙感、機器翻譯等,并對SSML的技術挑戰和社會影響進行了深入討論,指出了潛在的未來研究方向。我們總結了在方法、數據集和實現方面的最新進展,為該領域的研究人員和從業人員提供一個起點。
現有的綜述論文要么只關注有監督的多模態學習[1],[2],[13],[14],或單模態自監督學習[9],[10],[15],或SSML的某個子區域,例如視覺-語言預訓練[16]。最相關的綜述是[17],但它更側重于時間數據,忽略了對齊和架構的多模態自監督的關鍵考慮因素。相比之下,我們提供了一個全面和最新的SSML算法綜述,并提供了一個涵蓋算法、數據和架構的新分類法。
2. 背景知識
多模態學習中的自監督
我們首先描述了本次調研中所考慮的SSML的范圍,因為這個術語在之前的文獻中使用不一致。通過調用不同借口任務的無標簽性質,在單模態環境中定義自監督更為直接,例如,著名的實例辨別[20]或掩蓋預測目標[21]實現了自監督。相比之下,多模態學習中的情況更加復雜,因為模態和標簽的作用變得模糊。例如,在監督圖像字幕[22]中,文本通常被視為標簽,但在自監督多模態視覺和語言表示學習[11]中,文本則被視為輸入模態。
在多模態環境中,術語自監督已被用于指至少四種情況:(1)從自動成對的多模態數據中進行無標簽學習——例如帶有視頻和音頻軌道的電影[23],或來自RGBD攝像機[24]的圖像和深度數據。(2)從多模態數據中學習,其中一個模態已經被手動注釋,或者兩個模態已經被手動配對,但這個注釋已經為不同的目的創建,因此可以被認為是免費的,用于SSML預訓練。例如,從網絡爬取的匹配圖像-標題對,如開創性的CLIP[11]所使用的,實際上是監督度量學習[25],[26]的一個例子,其中配對是監督。然而,由于模式和配對都是大規模免費提供的,因此它通常被描述為自監督的。這種未經策劃的偶然創建的數據通常比專門策劃的數據集(如COCO[22]和Visual Genome[27])質量更低,噪音更大。(3)從高質量的目的注釋的多模態數據(例如,COCO[22]中的手動字幕圖像)中學習,但具有自監督的風格目標,例如Pixel-BERT[28]。(4)最后,還有一些“自監督”方法,它們混合使用免費和手動注釋的多模態數據[29],[30]。為了本次調查的目的,我們遵循自監督的思想,旨在通過打破手動注釋的瓶頸來擴大規模。因此,就能夠在免費可用的數據上進行訓練而言,我們包括了前面兩類和第四類方法。我們排除了僅顯示用于手動管理數據集的方法,因為它們在管理數據集上應用典型的“自監督”目標(例如,屏蔽預測)。
(a)監督式多模態學習和(b)自監督式多模態學習的學習范式:Top,無手動注釋的自監督預訓練;底部,對下游任務進行監督微調或線性讀出。
3. 目標函數
在本節中,我們將介紹用于訓練三類自監督多模態算法的目標函數:實例判別、聚類和掩蓋預測。最后我們還討論了混合目標。
3.1 實例判別
在單模學習中,實例判別(instance discrimination, ID)將原始數據中的每個實例視為一個單獨的類,并對模型進行訓練,以區分不同的實例。在多模態學習的背景下,實例判別通常旨在確定來自兩個輸入模態的樣本是否來自同一個實例,即配對。通過這樣做,它試圖對齊成對模式的表示空間,同時將不同實例對的表示空間推得更遠。有兩種類型的實例識別目標:對比預測和匹配預測,這取決于輸入是如何采樣的。
3.2 聚類
聚類方法假設應用經過訓練的端到端聚類將導致根據語義顯著特征對數據進行分組。在實踐中,這些方法迭代地預測編碼表示的聚類分配,并使用這些預測(也稱為偽標簽)作為監督信號來更新特征表示。多模態聚類提供了學習多模態表示的機會,還通過使用每個模態的偽標簽監督其他模態來改進傳統聚類。
3.3 掩碼預測
掩碼預測任務可以采用自動編碼(類似于BERT[101])或自動回歸方法(類似于GPT[102])來執行。
通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。
//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b
1. 引言
預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。
盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。
構建 KEPLMS
隱性知識整合
以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。
一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。
顯性知識整合
PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新
參考文獻
[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.
近年來,深度學習方法已經徹底改變了人工智能和機器學習的許多領域。深度學習方法的廣泛采用在很大程度上是由易于使用的深度學習系統的廣泛可用性所驅動的,如PyTorch和TensorFlow。但是,盡管這些庫被廣泛使用和使用,但學生們很少有機會接觸到這些庫的內部結構,從根本上理解它們是如何工作的。但是深入理解這些庫將幫助您更好地使用它們的功能,并使您能夠在需要時開發或擴展這些庫,以適應深度學習中您自己的定制用例。
本課程的目標是為學生提供深度學習系統“全棧”的理解和概述,從現代深度學習系統的高級建模設計,到自動區分工具的基本實現,再到高效算法的底層設備級實現。在整個課程中,學生將從頭開始設計和構建一個完整的深度學習庫,能夠高效地基于GPU的操作,自動區分所有實現的函數,以及支持參數化層、損失函數、數據加載器和優化器的必要模塊。使用這些工具,學生將建立幾種最先進的建模方法,包括用于圖像分類和分割的卷積網絡,用于順序任務(如語言建模)的循環網絡和自我注意模型,以及用于圖像生成的生成模型。
課程網址:
這門課的課程主要包括編程作業作為家庭作業,有四個主要的家庭作業(外加一個介紹性的家庭作業),外加一個期末項目。通過這四個作業,學生將構建一個基本的深度學習庫,可與PyTorch或TensorFlow的非常小的版本相媲美,可擴展到一個合理大小的系統(例如,使用GPU快速實現操作)。編程作業必須單獨完成:盡管學生可以與其他人討論作業,但他們必須提交單獨的代碼。
最終項目將由2-3名學生組成小組完成,將包括在開發的庫中實現一個實質性的新功能,加上使用此功能的模型的實現(在開發的庫下運行,例如在PyTorch/Tensorflow中完成)。我們將為這些特性和建模項目提供幾種候選方法,包括進一步硬件加速的方法、對抗訓練、高級自差分算子(例如,線性代數算子,如系統解/ SVD)、概率建模等。除了代碼,你還需要提交一份報告作為你作業的一部分。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。
基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。
對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。
**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。
圖神經網絡多模態學習
深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。
以圖為中心的多模態學習
圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。
圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。
面向圖像的多模態圖學習**
圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。
圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。
面向語言的多模態圖學習**
隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。
自然科學中的多模態圖學習
除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。
多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。
推薦系統在我們的日常生活中發揮著越來越重要的作用,尤其是在許多面向用戶的在線服務中,它在緩解信息過載方面發揮著重要的作用。推薦系統旨在識別一組最能匹配用戶顯性或隱性偏好的對象(即物品),通過利用用戶和物品的交互來提高匹配精度。隨著深度神經網絡(DNNs)在過去幾十年的快速發展,推薦技術取得了良好的性能。然而,我們在設計深度推薦系統(DRS)時面臨三個內在挑戰: 1) 現有的大多數DRS是基于手工組件開發的,這需要大量的機器學習和推薦系統的專家知識; 2) 人為誤差和偏見會導致次優,降低推薦有效性; 3) 在不同的推薦場景中,通常需要非平凡的時間和工程努力來設計特定于任務的組件。
在本教程中,我們將全面介紹高級自動機器學習(AutoML)技術在深度推薦系統中解決上述問題的最新進展。希望相關領域的學術研究者和行業從業者能夠對空間有深刻的理解和準確的洞察,激發更多的想法和討論,并在推薦中推動技術的發展
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
知識表示和推理是人工智能挑戰的核心: 要充分理解智能和認知的本質,使計算機能夠表現出類似人類的能力。早在1958年,約翰·麥卡錫(John McCarthy)就考慮過可以運用常識的人工智能系統。從這些早期工作中,研究人員確信(人工)智能可以被形式化為具有明確知識表征的符號推理,而研究的核心挑戰是弄清楚如何在計算機中表示知識,并使用它的算法來解決問題。
多年以后,這本書調研了構成知識表示和推理領域的大量科學和工程見解。在三個方面取得了進展。首先,研究人員探索了知識表示和推理的一般方法,解決了跨越應用領域的基本問題。其次,研究人員開發了專門的知識表示和推理方法來處理核心領域,如時間、空間、因果關系和行動。第三,研究人員處理了知識表示和推理的重要應用,包括查詢回答、規劃和語義網。因此,本書分為三個部分來涵蓋這些主題。
//www.elsevier.com/books/handbook-of-knowledge-representation/van-harmelen/978-0-444-52211-5
第一部分主要介紹人工智能系統中表示知識的一般方法。它從經典邏輯和定理證明的背景開始,然后轉向擴展經典邏輯的新方法——例如,處理定性的或不確定的信息——并改進其計算可處理性。
第二部分探討了用知識的一些核心領域(包括時間、空間、因果關系和行動)來表示和推理的特殊挑戰。這些挑戰在應用程序領域中普遍存在,因此解決方案必須是通用的和可組合的。
第三部分介紹了知識表示和推理的重要應用。應用領域涵蓋了人工智能的廣度,包括問題回答、語義網、計劃、機器人和多智能體系統。每一項應用都廣泛借鑒了第一部分和第二部分中所述的研究結果。
此外,這25章,組織在三個部分“一般方法”,“專門的表示和“應用”,提供了一個獨特的調研,最好的知識表示已經取得,由幫助塑造領域的研究人員寫。我們希望學生,研究人員和從業者在所有領域的人工智能和認知科學將發現這本書是一個有用的資源。