卷積神經網絡和循環神經網絡的進步導致了對圖像和文本等規則網格數據域的學習的顯著改進。然而,許多現實世界的數據集,例如社會網絡、引文網絡、分子、點云和3D網格,并不位于這樣一個簡單的網格中。此類數據結構不規則或非歐氏,關系信息復雜。圖機器學習特別是圖神經網絡(Graph Neural Networks, GNNs)為處理此類不規則數據和建模實體之間的關系提供了潛力,正引領機器學習領域進入一個新時代。然而,由于梯度消失、過擬合和過平滑等挑戰性問題,之前最先進的(SOTA) GNN限于淺層架構。大多數SOTA GNN深度不超過3或4層,限制了GNN的表達性,使其在大規模圖上的學習效果不佳。為了解決這一挑戰,本文討論了構建大規模高效圖機器學習模型的方法,以學習結構化表示,并將其應用于工程和科學。本文將介紹如何通過引入架構設計使GNN深入,以及如何通過新的神經架構搜索算法自動搜索GNN架構。
卷積神經網絡(CNN)[102]已經非常成功地解決了各種計算機視覺任務,如目標分類和檢測、語義分割、活動理解等。它們出色性能的一個關鍵促成因素是訓練非常深的網絡的能力。盡管在許多任務中取得了巨大的成功,但CNN不能直接應用于非網格數據和關系數據,而這在許多現實世界的應用中普遍存在。圖神經網絡(GNNs)[169]提供了一種替代方案,允許將非網格數據或關系數據作為神經網絡的輸入。最近的工作表明,由于GNN在圖上學習表示的能力,它可以在跨領域的各種任務上取得優異的結果。具體來說,GNNs可以在引文網絡中的學術論文分類[95]、量子化學中的分子性質預測[60]、生物圖中的蛋白質相互作用預測[68]和計算機視覺中的點云學習[201]等任務中取得令人印象深刻的結果。雖然GNN已經取得了令人鼓舞的結果,但它們僅限于層數相對較少的架構,主要是由于訓練[109]期間梯度消失[77]、小數據集上的過擬合[189]和堆疊過多層時的過平滑[114]。然而,這一限制使得GNN難以在大規模圖上學習有代表性的特征,從而限制了深度GNN的代表性能力。為了構建大規模、高效的圖神經網絡,本文研究了以下幾個重要方面: (1) 如何使訓練非常深的圖神經網絡成為可能; (2) 在設計GNN模型時如何減少架構工程。
本論文旨在解決圖神經網絡(GNN)架構中的核心問題之一。具體來說,論文研究了訓練和設計非常深層次的GNN模型的技術,并將這些深層GNN模型應用于跨領域的各種大規模應用。我們首先提出了用于訓練深層GNN的跳躍連接和擴張卷積。然后,我們討論了消息聚合函數在訓練深層GNN時的影響,并提出了可微分的消息聚合函數。為了使訓練更深層次的GNN成為可能,我們研究了可逆連接、組卷積、權重綁定和平衡模型等技術,這些技術使得可以訓練具有1000多層的GNN。最后,我們開發了一種新穎的神經架構搜索算法,以實現自動設計有效和高效的GNN架構。
在第2章中,我們研究了如何將跳躍連接和擴張卷積等概念從卷積神經網絡(CNNs)應用到GNNs,以成功訓練非常深層的GNNs。我們通過實驗在各種數據集和任務上展示了使用深層GNNs(最多112層)的好處。具體而言,我們在點云的部分分割和語義分割以及生物蛋白質-蛋白質相互作用圖中的蛋白質功能節點分類方面取得了非常有希望的性能。通過徹底的消融研究和分析,我們證明了跳躍連接和擴張卷積對于減輕訓練深層GNN的困難是有效的。本章內容基于我們的研究成果[109, 107]。
在第3章中,我們研究了適當選擇聚合函數對深層模型的影響。我們發現,當應用于不同數據集時,GNN對于聚合函數的選擇(例如均值、最大值和總和)非常敏感。我們系統地研究并提出通過引入一種名為廣義聚合函數的新類聚合函數來緩解這個問題。所提出的函數超出了常用的聚合函數,可以適用于各種新的排列不變函數。廣義聚合函數是完全可微分的,其參數可以端到端地學習,以產生適合每個任務的合適聚合函數。我們展示,配備了所提出的聚合函數的深層殘差GNN在Open Graph Benchmark(OGB)[84]上的多個任務和領域的基準測試中優于現有技術。本章內容基于我們的研究成果[111]。
在第4章中,我們研究了可逆連接、組卷積、權重綁定和平衡模型,以提高GNN的內存和參數效率。我們發現,可逆連接與深度網絡架構相結合,使得能夠訓練過度參數化的GNN,這些GNN在多個數據集上顯著優于現有方法。我們的模型RevGNN-Deep(每層1001層,每個通道80個)和RevGNN-Wide(每層448層,每個通道224個)都是在一臺普通GPU上訓練的,它們在ogbn-proteins數據集上實現了ROC-AUC為87.74±0.13和88.24±0.15的性能。據我們所知,RevGNN-Deep是文獻中最深的GNN,層次數相差一個數量級。本章內容基于我們的研究成果[108]。
在第5章中,我們旨在實現GNN架構的自動設計。最近在自動神經架構搜索(NAS)方面的進展顯示出很大的潛力。然而,我們發現在最終評估中,發現的架構經常無法泛化。為了緩解這個常見問題,我們引入了順序貪婪架構搜索(SGAS),一種新穎的神經架構搜索算法。通過將搜索過程分為子問題,SGAS以貪婪方式選擇和修剪候選操作。我們首先在CNN搜索空間上研究SGAS,然后應用到GNN搜索空間。廣泛的實驗證明,SGAS能夠以最小的計算成本找到用于圖像分類、點云分類和生物蛋白質-蛋白質相互作用圖中節點分類等任務的最先進架構。本章內容基于我們的研究成果[110]。
在第6章中,我們引入了LC-NAS,以進一步自動化SGAS的延遲優化,并將其應用于GNN搜索空間,以搜索在點云任務上的架構,并限制目標延遲。我們提出了一種用于在架構搜索中準確性和延遲之間權衡的新型延遲約束形式。我們的流水線使我們能夠找到延遲接近特定目標值的最佳架構,這在最終任務需要部署在有限硬件設置中時非常關鍵。廣泛的實驗表明,LC-NAS能夠以最小的計算成本找到點云分類和部分分割的最先進架構。本章內容基于我們的研究成果[112]。
在第7章中,我們總結了本論文的重要發現,并討論了深度圖神經網絡的未來方向。
深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。
我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。
在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。
最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。
然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:
(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。
(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。
聚類是數據分析中的主要而又具有挑戰性的任務,旨在將相似的樣本劃分到同一組,而將不相似的樣本劃分到不同的組。近期,由于在無監督深度圖聚類方面的突破,傳統的卷積神經網絡(例如,自編碼器(AE))和圖卷積網絡(GCN)的結合已經達到了最先進的性能。其中,自編碼器提取節點屬性特征,而圖卷積網絡捕獲拓撲圖特征。然而,現有方法沒有充分利用來自特征嵌入和聚類分配的現有信息,從而限制了它們的性能。鑒于這一限制,本論文專注于無監督深度圖聚類中的自適應表示學習。主要工作涉及自適應嵌入\分配\圖表示學習,總結如下:
首先,我們提出了一種名為注意力驅動圖聚類網絡(AGCN)的新穎無監督深度圖聚類方法,以解決以下問題:現有工作(??)缺乏一種靈活的組合機制來自適應地融合來自自編碼器和圖卷積網絡的兩種特征,從而增強表示學習能力;以及(????)忽視了嵌入在不同層的多尺度信息,導致后續的聚類分配效果不佳。具體而言,AGCN主要包括兩個注意力驅動的特征融合模塊,即AGCN異質性融合模塊(AGCN-H)和AGCN尺度融合模塊(AGCN-S)。這兩個模塊都利用基于注意力的機制動態地測量相應特征的重要性。AGCN-H自適應地合并自編碼器特征和圖卷積網絡特征,而AGCN-S動態地連接不同層的多尺度特征。為了以無監督的方式進行訓練,我們設計了一個能夠直接產生聚類分配結果的統一學習框架。與現有的無監督深度圖聚類方法相比,我們的方法更為靈活和有效,因為它考慮了網絡中嵌入的豐富和有區分性的信息來自適應地學習嵌入表示。在常用的基準數據集上的大量定量和定性結果驗證了我們的AGCN始終超越最先進的方法。此外,我們還進行了一系列消融研究來驗證我們方法的效率和有效性。
然而,上述提出的模型在面對從自編碼器和圖卷積網絡學到的兩種概率分布時存在決策困境,即應選擇哪一種作為最終的聚類分配結果。據我們所知,這是先前的無監督深度圖聚類方法中普遍存在的一個未解決的問題。為了應對這一挑戰,我們提出了一種名為深度注意力引導的雙重自監督圖聚類(DAGC)的新方法。具體而言,我們設計了一個分布融合模塊,該模塊利用這兩種聚類分配來自適應地學習分配表示,從而獲得最終的聚類結果。為了更好地探索來自聚類分配的現有信息,我們開發了一個雙重自監督解決方案,包括一個帶有Kullback-Leibler散度損失的軟自監督策略和一個帶有偽監督損失的硬自監督策略來指導整個網絡訓練。在九個基準數據集上的定量和定性實驗和分析表明,我們的方法始終超越最先進的方法。此外,我們還提供了消融研究和可視化,以驗證DAGC網絡的有效性和優勢。
現有的基于GCN的圖聚類網絡在很大程度上依賴于預定義的圖。如果初始圖無法真實且精確地反映其在嵌入空間上的拓撲結構,這些網絡可能會失敗。為了解決上述問題,我們提出了一種新穎的嵌入引導的圖優化聚類網絡(EGRCNet),該網絡能夠自適應地使用學習到的嵌入來改進初始圖,從而實現更好的聚類性能。具體來說,我們首先利用普通自編碼器和圖卷積網絡模塊來自適應地整合節點屬性和拓撲結構信息,以學習潛在特征表示。接著,我們探索嵌入空間上的幾何結構信息來構造一個鄰接圖,然后開發一個圖融合架構,動態地將該圖與初始圖融合。最后,我們最小化多個派生分布之間的Jeffreys散度損失函數,以無監督的方式進行網絡訓練。在七個常用的基準數據集上的廣泛實驗表明,所提出的方法始終超越了幾種最先進的方法。
以下聲明突出了這些工作的重要性:在無監督的深圖聚類中進行自適應表示學習對于人工普適性智能至關重要,因為它使機器能夠在沒有人類注釋的情況下從數據中學習復雜的模式和關系。通過利用無監督的自適應表示學習技術,人工普適性智能系統可以發展其數據的內部表示能力,并適應新的環境、任務和情境。這種能力對于理解復雜和非結構化數據至關重要。最后但并非最不重要的是,無監督的自適應表示學習是向開發能夠像人類一樣進行研究和推斷的機器邁出的關鍵一步,為AI在從醫療保健到金融到娛樂的廣泛領域開辟了新的可能性。在未來,我們將繼續為人工普適性智能社區做出貢獻,繼續研究大規模數據集、先進的表示學習和高效的信息傳播。
人類不斷地適應我們周圍的世界,讓我們無縫地獲取新技能和探索多樣的環境。但是,當前的AI方法不能達到這種多功能性。相反,它們通常使用大量的數據集進行訓練,并同時學習所有任務。然而,經過訓練的模型在適應變化的上下文時有限的能力,并受到可用數據的限制。在機器人技術中,這一挑戰尤為突出,因為真實世界的交互數據非常稀少。
相反,我們設想一個機器人能夠從環境和人類互動中持續學習,快速獲取新信息而不覆蓋過去的知識,并能夠適應用戶的特定需求。
在這篇論文中,我們將持續學習應用于機器人技術,目標是啟用關鍵能力,包括:將先前的信息應用于新設置,維護舊信息,保持學習新技能的能力,以及理解上下文。我們在兩種學習模式下探索這些:持續的強化學習(CRL),代理從經驗中學習;以及持續的模仿學習(CIL),它從演示中學習。
然而,許多障礙阻礙了進步,包括有限的開源資源、資源密集型基準和機器人技術的不實用指標。為了應對這些挑戰,我們提出CORA(持續強化學習代理),一個帶有基準、基線和指標的開源工具包,以增強CRL的可用性。CORA超越了災難性遺忘,評估模型進行前向轉移和泛化的能力。
在此基礎上,我們引入SANE(自激活神經集合)來創建一個動態的可適應技能庫。SANE的獨立模塊集合根據需要學習和應用技能,減少遺忘。我們在幾個Procgen強化學習任務集上展示了這種方法。
然后,我們將SANE適應到一個物理機器人——Stretch,使用CIL并命名為SANER(SANE用于機器人技術)。借助我們創新的基于注意力的交互策略(ABIP),SANER在少次學習中表現出色,展示了其在各種任務中的泛化效果。 SANERv2進一步增強了這一能力,整合了自然語言,并在一個模擬環境RLBench中,在15個不同的操縱任務上實現了強大的性能。值得注意的是,SANERv2還能展示獨立模塊的潛力,證明一個節點可以在代理之間移動而不損失性能,這預示著未來可能有組合的集成。
隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。
稀疏深度神經網絡 (DNNs) 在許多數據和計算密集型應用中是一個重要的計算核心(例如,圖像分類、語音識別和語言處理)。這些核心中的稀疏性激發了許多稀疏DNN加速器的發展。然而,盡管已經有大量的提議,但還沒有一個系統的方法來理解、建模和開發各種稀疏DNN加速器。為了解決這些限制,這篇論文首先提出了一個稀疏性相關加速特性的分類法,以系統地理解稀疏DNN加速器的設計空間。基于這個分類法,它提出了Sparseloop,這是第一個用于稀疏DNN加速器的快速、準確和靈活評估的分析建模工具,使得在早期階段可以探索龐大和多樣的稀疏DNN加速器設計空間。在代表性的加速器設計和工作負載中,Sparseloop比周期級模擬實現了超過2000倍的建模速度,保持了相對的性能趨勢,并達到了≤ 8%的平均建模誤差。利用Sparseloop,這篇論文研究了設計空間,并提出了HighLight,一個高效且靈活的稀疏DNN加速器。具體來說,HighLight通過一個新的稀疏模式,稱為分層結構稀疏性,來加速DNNs,關鍵的洞見是我們可以通過分層地組合簡單的稀疏模式來高效地加速各種程度的稀疏性(包括密集型)。與現有的工作相比,HighLight在具有不同稀疏度的工作負載中實現了高達6.4倍的能量延遲乘積 (EDP) 改進,并且始終位于代表性DNNs的EDP-準確性帕累托前沿。
基于圖的學習側重于圖形結構數據的建模。其重要應用包括基于分子結構分析化學化合物、基于輻射傳感器網絡數據預測太陽能農場的產出、根據城市間的地理關系和社交網絡互動預測流行病爆發等。基于圖的學習算法已經迅速發展,解決了以下基本挑戰:
? 編碼圖中每個單獨節點和節點組合的豐富信息,也被稱為圖表示學習挑戰; ? 在圖只部分可觀察時恢復缺失的邊,也被稱為圖完成挑戰; ? 在標記節點非常稀疏的圖形設置中利用主動學習,也被稱為標簽稀疏挑戰; ? 提高在非常大的圖上進行訓練和推斷的可行性,也被稱為擴展挑戰。
本論文旨在通過以下主要貢獻從上述各個方面增強基于圖的機器學習:
用于二分圖邊緣預測的圖卷積矩陣分解:對于一類特定的圖,即二分圖,傳統的矩陣分解方法不能有效地利用節點兩組內的相似度測量等邊信息。因此,我們建議使用圖卷積來增強學習到的分解表示與結構化的邊信息,以獲得更好的預測精度。
使用圖神經網絡(GNNs)進行通用邊緣預測:雖然GNNs在節點分類中取得了很大成功,但在邊緣預測方面并沒有達到相匹配的性能水平。這種現象的一個可能解釋是GNNs中的潛在嵌入嚴重依賴于輸入節點特征,如果這些輸入特征質量不高,或者對于手頭的預測任務而言噪聲較大,那么就無法避免次優性能。我們建議通過結合使用傳統的GNN和Transformer模型來解決這個問題,這可以通過Transformer模型中的靈活位置嵌入來改進節點的嵌入。
用于節點分類的圖增強主動學習(Graph-AL):主動學習已被深入研究,以解決標簽稀疏問題,并已成功應用于文本/視頻/音頻數據,但沒有應用于圖。流行的主動學習策略可能不適用于圖。例如,基于密度的文檔選擇將所有候選文檔視為不相關的實例,忽略了輸入圖中節點之間的依賴結構。我們提出了第一個專為圖神經網絡量身定制的基于圖的主動學習方法,它同時考慮節點內部特征和節點間連接,以便在主動學習中進行節點選擇。
大規模基于圖的學習的各種實際應用:我們已將基于圖的學習應用于各種實際問題,包括基于多圖的協同過濾,跨語言的基于圖的遷移學習,基于圖的深度學習用于流行病學預測,圖增強節點分類,邊緣檢測和知識庫完成;在這些領域我們分別獲得了最先進的結果(Chang等,2017; Liu等,2017a; Wu等,2018b, c; Xu等,2018b)。
機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。
首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。
然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。
最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
深度學習方法是最近計算機視覺快速發展的基礎。然而,這些方法往往需要昂貴的標記數據。特定于任務的模型,如分類器,并不是為了最大限度地學習一般的內部表示。此外,這些模型不能模擬數據生成過程來合成新樣本,也不能修改輸入樣本。無監督深度生成模型有可能避免這些問題。
然而,兩個主要的生成模型家族,生成對抗網絡(GAN)和變分自編碼器(VAE),都有各自的特點問題。基于GAN的模型在架構上相對復雜,有一個識別器網絡,但通常沒有編碼器來接受輸入。此外,GAN訓練通常是不穩定的,并且容易忽略訓練分配的部分(“模式崩潰”或“模式下降”)。另一方面,VAEs往往高估分布的某些區域的方差,導致生成的圖像模糊。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
最后,使用高斯過程框架,圖像編碼器-解碼器設置從單個圖像擴展到圖像序列,包括視頻和攝像機運行。為此,輔助圖像元數據在生成模型的潛在空間中以非參數先驗的形式被利用。這允許平滑和自由插值圖像序列。在此過程中,高斯過程和計算機視覺方法之間提供了一個優雅的連接,這意味著將兩者結合起來具有深遠的意義。