在多樣化的上下文中生成的數據可以被建模為圖。例如有眾多,從引文和社交網絡到萬維網。許多實際網絡都是多方面的,其中多種類型的實體通過各種關系相互交互。同樣,它們中的許多都是動態的,模擬隨時間演變的實體及其特性之間的關系。這些具有豐富邊信息(例如,節點和邊類型,以及邊時間戳)的實際網絡自然被建模為張量(即,多維數組)。
考慮到圖和張量,我們如何理解它們,并利用它們進行下游任務?具體來說,我們如何分析和建模大型實際網絡,并更好地了解它們是如何形成和演化的?還有,我們如何設計算法利用圖和張量來進行如推薦和排名等重要的應用?本論文專注于通過開發用于挖掘和學習圖和張量的有效和高效的方法來解決這些基本問題。 在論文的第一部分,我們專注于解決靜態圖和張量的重要挖掘和學習任務。我們首先提出了新穎的圖正則化半監督算法,用于估計知識圖中的節點重要性,比最佳基線實現了高達25%的更高精度。然后,我們開發了大規模張量分解的分布式框架,這可以分解和總結大張量,速度比現有方法快180倍,幾乎呈線性可伸縮性。我們還設計了一種基于元學習的方法,用于自動圖學習模型選擇,這比持續使用流行方法更精確15倍。另外,我們開發了一種解釋產品推薦的方法,通過在產品圖上進行個性化推斷,比最佳基線更準確21%。
在論文的第二部分,我們專注于與動態圖和張量的建模和推理,它們代表了各種類型的時變網絡和動態實際現象。我們提出了一個學習差分方程(DEs)的框架,該框架模型觀察到的現象(例如天氣和水質),生成可解釋的和物理上可信的DEs,比相關基線實現了高達34%的更高預測精度。然后,我們通過設計對比圖聚類框架來解決在網絡中尋找社區并跟蹤它們的演化的任務,該框架顯示出比現有方法更高27%的聚類精度。此外,我們開發了一種用于推理時態知識圖(TKGs)的方法,該方法從給定的TKG中推斷出新知識,比最佳基線更準確116%,同時在模型培訓中更快30倍。
在整個論文中,我們強調開發有效、準確和可伸縮的工具。為此,我們使用數學技術(例如,近似),利用實際網絡的特性,整合先前的知識和經驗,并使用強大的理論和實踐框架,包括圖神經網絡、潛變量建模、時態點過程和分布式計算。我們成功地將這些工具應用于大量實際數據集和應用,建立了新的最先進的結果。
卷積神經網絡和循環神經網絡的進步導致了對圖像和文本等規則網格數據域的學習的顯著改進。然而,許多現實世界的數據集,例如社會網絡、引文網絡、分子、點云和3D網格,并不位于這樣一個簡單的網格中。此類數據結構不規則或非歐氏,關系信息復雜。圖機器學習特別是圖神經網絡(Graph Neural Networks, GNNs)為處理此類不規則數據和建模實體之間的關系提供了潛力,正引領機器學習領域進入一個新時代。然而,由于梯度消失、過擬合和過平滑等挑戰性問題,之前最先進的(SOTA) GNN限于淺層架構。大多數SOTA GNN深度不超過3或4層,限制了GNN的表達性,使其在大規模圖上的學習效果不佳。為了解決這一挑戰,本文討論了構建大規模高效圖機器學習模型的方法,以學習結構化表示,并將其應用于工程和科學。本文將介紹如何通過引入架構設計使GNN深入,以及如何通過新的神經架構搜索算法自動搜索GNN架構。
卷積神經網絡(CNN)[102]已經非常成功地解決了各種計算機視覺任務,如目標分類和檢測、語義分割、活動理解等。它們出色性能的一個關鍵促成因素是訓練非常深的網絡的能力。盡管在許多任務中取得了巨大的成功,但CNN不能直接應用于非網格數據和關系數據,而這在許多現實世界的應用中普遍存在。圖神經網絡(GNNs)[169]提供了一種替代方案,允許將非網格數據或關系數據作為神經網絡的輸入。最近的工作表明,由于GNN在圖上學習表示的能力,它可以在跨領域的各種任務上取得優異的結果。具體來說,GNNs可以在引文網絡中的學術論文分類[95]、量子化學中的分子性質預測[60]、生物圖中的蛋白質相互作用預測[68]和計算機視覺中的點云學習[201]等任務中取得令人印象深刻的結果。雖然GNN已經取得了令人鼓舞的結果,但它們僅限于層數相對較少的架構,主要是由于訓練[109]期間梯度消失[77]、小數據集上的過擬合[189]和堆疊過多層時的過平滑[114]。然而,這一限制使得GNN難以在大規模圖上學習有代表性的特征,從而限制了深度GNN的代表性能力。為了構建大規模、高效的圖神經網絡,本文研究了以下幾個重要方面: (1) 如何使訓練非常深的圖神經網絡成為可能; (2) 在設計GNN模型時如何減少架構工程。
本論文旨在解決圖神經網絡(GNN)架構中的核心問題之一。具體來說,論文研究了訓練和設計非常深層次的GNN模型的技術,并將這些深層GNN模型應用于跨領域的各種大規模應用。我們首先提出了用于訓練深層GNN的跳躍連接和擴張卷積。然后,我們討論了消息聚合函數在訓練深層GNN時的影響,并提出了可微分的消息聚合函數。為了使訓練更深層次的GNN成為可能,我們研究了可逆連接、組卷積、權重綁定和平衡模型等技術,這些技術使得可以訓練具有1000多層的GNN。最后,我們開發了一種新穎的神經架構搜索算法,以實現自動設計有效和高效的GNN架構。
在第2章中,我們研究了如何將跳躍連接和擴張卷積等概念從卷積神經網絡(CNNs)應用到GNNs,以成功訓練非常深層的GNNs。我們通過實驗在各種數據集和任務上展示了使用深層GNNs(最多112層)的好處。具體而言,我們在點云的部分分割和語義分割以及生物蛋白質-蛋白質相互作用圖中的蛋白質功能節點分類方面取得了非常有希望的性能。通過徹底的消融研究和分析,我們證明了跳躍連接和擴張卷積對于減輕訓練深層GNN的困難是有效的。本章內容基于我們的研究成果[109, 107]。
在第3章中,我們研究了適當選擇聚合函數對深層模型的影響。我們發現,當應用于不同數據集時,GNN對于聚合函數的選擇(例如均值、最大值和總和)非常敏感。我們系統地研究并提出通過引入一種名為廣義聚合函數的新類聚合函數來緩解這個問題。所提出的函數超出了常用的聚合函數,可以適用于各種新的排列不變函數。廣義聚合函數是完全可微分的,其參數可以端到端地學習,以產生適合每個任務的合適聚合函數。我們展示,配備了所提出的聚合函數的深層殘差GNN在Open Graph Benchmark(OGB)[84]上的多個任務和領域的基準測試中優于現有技術。本章內容基于我們的研究成果[111]。
在第4章中,我們研究了可逆連接、組卷積、權重綁定和平衡模型,以提高GNN的內存和參數效率。我們發現,可逆連接與深度網絡架構相結合,使得能夠訓練過度參數化的GNN,這些GNN在多個數據集上顯著優于現有方法。我們的模型RevGNN-Deep(每層1001層,每個通道80個)和RevGNN-Wide(每層448層,每個通道224個)都是在一臺普通GPU上訓練的,它們在ogbn-proteins數據集上實現了ROC-AUC為87.74±0.13和88.24±0.15的性能。據我們所知,RevGNN-Deep是文獻中最深的GNN,層次數相差一個數量級。本章內容基于我們的研究成果[108]。
在第5章中,我們旨在實現GNN架構的自動設計。最近在自動神經架構搜索(NAS)方面的進展顯示出很大的潛力。然而,我們發現在最終評估中,發現的架構經常無法泛化。為了緩解這個常見問題,我們引入了順序貪婪架構搜索(SGAS),一種新穎的神經架構搜索算法。通過將搜索過程分為子問題,SGAS以貪婪方式選擇和修剪候選操作。我們首先在CNN搜索空間上研究SGAS,然后應用到GNN搜索空間。廣泛的實驗證明,SGAS能夠以最小的計算成本找到用于圖像分類、點云分類和生物蛋白質-蛋白質相互作用圖中節點分類等任務的最先進架構。本章內容基于我們的研究成果[110]。
在第6章中,我們引入了LC-NAS,以進一步自動化SGAS的延遲優化,并將其應用于GNN搜索空間,以搜索在點云任務上的架構,并限制目標延遲。我們提出了一種用于在架構搜索中準確性和延遲之間權衡的新型延遲約束形式。我們的流水線使我們能夠找到延遲接近特定目標值的最佳架構,這在最終任務需要部署在有限硬件設置中時非常關鍵。廣泛的實驗表明,LC-NAS能夠以最小的計算成本找到點云分類和部分分割的最先進架構。本章內容基于我們的研究成果[112]。
在第7章中,我們總結了本論文的重要發現,并討論了深度圖神經網絡的未來方向。
人類不斷地適應我們周圍的世界,讓我們無縫地獲取新技能和探索多樣的環境。但是,當前的AI方法不能達到這種多功能性。相反,它們通常使用大量的數據集進行訓練,并同時學習所有任務。然而,經過訓練的模型在適應變化的上下文時有限的能力,并受到可用數據的限制。在機器人技術中,這一挑戰尤為突出,因為真實世界的交互數據非常稀少。
相反,我們設想一個機器人能夠從環境和人類互動中持續學習,快速獲取新信息而不覆蓋過去的知識,并能夠適應用戶的特定需求。
在這篇論文中,我們將持續學習應用于機器人技術,目標是啟用關鍵能力,包括:將先前的信息應用于新設置,維護舊信息,保持學習新技能的能力,以及理解上下文。我們在兩種學習模式下探索這些:持續的強化學習(CRL),代理從經驗中學習;以及持續的模仿學習(CIL),它從演示中學習。
然而,許多障礙阻礙了進步,包括有限的開源資源、資源密集型基準和機器人技術的不實用指標。為了應對這些挑戰,我們提出CORA(持續強化學習代理),一個帶有基準、基線和指標的開源工具包,以增強CRL的可用性。CORA超越了災難性遺忘,評估模型進行前向轉移和泛化的能力。
在此基礎上,我們引入SANE(自激活神經集合)來創建一個動態的可適應技能庫。SANE的獨立模塊集合根據需要學習和應用技能,減少遺忘。我們在幾個Procgen強化學習任務集上展示了這種方法。
然后,我們將SANE適應到一個物理機器人——Stretch,使用CIL并命名為SANER(SANE用于機器人技術)。借助我們創新的基于注意力的交互策略(ABIP),SANER在少次學習中表現出色,展示了其在各種任務中的泛化效果。 SANERv2進一步增強了這一能力,整合了自然語言,并在一個模擬環境RLBench中,在15個不同的操縱任務上實現了強大的性能。值得注意的是,SANERv2還能展示獨立模塊的潛力,證明一個節點可以在代理之間移動而不損失性能,這預示著未來可能有組合的集成。
在工業、研究和公共部門,信息通常存儲為已呈現的文檔(例如PDF文件、掃描件)。因此,為了實現下游任務,需要系統將這些呈現的文檔映射到具有層次結構的文本文檔上。用于此任務的現代光學字符識別(OCR)系統通常基于解析層次文檔結構和文本識別的兩個單獨階段。由于一系列的挑戰,之前缺少對文檔完整層次結構的整體、原則性的推斷方法。一個主要的挑戰是由結構解析任務的復雜性給出的,該任務包括檢測所有語義文檔實體(例如,表格、文本和圖形)以及描述它們的層次嵌套和閱讀順序的實體之間的關系。此外,系統組件中不連續的設置和使用啟發式方法妨礙了在實際場景中的訓練、應用和適應。另外,為基于學習的系統注解訓練樣本非常耗時且昂貴。在這篇論文中,我們通過構建可擴展的系統來解決這些問題,這些系統允許統一的端到端文檔解析和光學字符識別。具體來說,這篇論文提供了以下貢獻:
DocParser:一個端到端的系統,用于解析文檔中的(i)實體(例如,圖形、文本塊、頁眉)和(ii)捕獲實體之間的序列和嵌套結構的關系。此外,我們提供了一個免費可訪問的數據集,用于評估層次文檔結構解析。最后,我們為域特定數據稀缺的設置提供了一個可擴展的學習框架。我們使用一種新的弱監督方法來解決這個問題,該方法顯著提高了文檔結構解析的性能。
文檔結構生成器(DSG):一個全新的文檔解析系統,可以完全從端到端訓練。之前的文檔結構解析系統受到啟發式方法的限制,不能從端到端訓練。DSG的端到端訓練使其對實際應用非常有效和靈活。此外,我們的DSG使用hOCR標記語言生成結構化的文檔輸出文件,允許無縫集成到現有的文檔存儲和處理工作流程中。我們還貢獻了一個新的、大規模的、公開可用的數據集,名為E-Periodica,其中包含具有復雜文檔結構的實際雜志,用于評估。我們的結果表明,我們的DSG在層次文檔解析任務上達到了最先進的性能。據我們所知,我們的DSG系統是第一個用于層次文檔解析的端到端可訓練系統。
LayTr:一個基于transformer的系統,用于聯合結構解析和文本識別。現代最先進的OCR系統仍然在很大程度上依賴于解析文檔結構和識別文本的單獨處理階段。這在當前的端到端OCR系統中導致了幾個限制。必須單獨訓練和適應各個組件,端到端系統評估具有挑戰性,且在兩個階段都不能共同使用結構和語言信息進行有效的文本識別和錯誤緩解。LayTr可以完全從端到端訓練,直接從具有復雜布局的文檔圖像預測標記的文本。我們采用專門為端到端OCR任務量身定做的評估,并顯示我們的系統在基準數據集上超越了最先進的商業和開源系統的性能。
基于搜索的規劃算法使得機器人能夠為實現特定任務目標制定基于合理推理的長期規劃。它們將問題表述為在域狀態空間中嵌入的圖上的最短路徑問題。許多研究致力于實現更快的規劃速度,以使機器人能夠快速響應環境變化。此外,隨著任務復雜性的增加,在規劃過程中納入更復雜的模型,如模擬器變得尤為重要。然而,這些復雜模型的計算代價高昂,嚴重降低了規劃速度。由于CPU時鐘速度的停滯,單線程規劃算法的性能已達到了瓶頸。另一方面,CPU核心數量顯著增長,這一趨勢可能將繼續。這就需要能夠利用并行化的規劃算法。然而,與基于采樣的規劃算法不同,由于其順序性質,要保持最優性或有界次優性,對基于搜索的規劃算法進行并行化并非易事。機器人領域的一個關鍵特征是,在規劃過程中,大部分計算工作都花在計算動作的結果和產生的邊的代價上,而非搜索圖。在本論文中,我們利用這一見解,開發了幾種能夠利用現代處理器的多線程功能并行計算邊的并行搜索規劃算法。我們證明了這些新穎算法在多個領域大大提高了規劃速度。我們的第一個貢獻是一個并行化的懶惰搜索算法,大規模并行懶惰規劃(MPLP)。現有的懶惰搜索算法旨在作為單個進程運行,并通過在搜索圖和評估邊之間智能平衡計算工作以實現更快的規劃。MPLP利用的關鍵思想是,搜索圖和評估邊可以異步并行執行。在理論上,我們證明了MPLP具有完整性和有界次優性的嚴格保證。
與所有懶惰搜索算法一樣,MPLP假設后繼狀態可以在不評估邊的情況下生成,從而使算法能夠推遲邊的評估并懶惰地進行搜索。然而,這個假設并不總是成立,例如,在使用計算量很大的模擬器生成后繼狀態的仿真規劃中。為此,我們的第二個貢獻是針對慢速評估的基于邊的并行A*(ePA*SE),它在保證最優性的同時,將規劃與邊的并行評估交織進行。我們還提出了其有界次優變體,用規劃速度換取最優性。
對于實時機器人領域的適用性,ePASE必須在時間預算下計算規劃,因此具有隨時性能。盡管期望降低解決方案的成本,但在這樣的環境下,它并不是首要考慮的因素。我們的第三個貢獻是隨時適用的針對慢速評估的基于邊的并行A(A-ePASE),它為ePASE帶來了隨時性能。
ePASE針對邊計算時間昂貴但相似的領域。然而,在許多機器人領域,動作空間在評估動作結果及其成本所需的計算工作方面具有異質性。因此,我們的第四個貢獻是通用的針對慢速評估的基于邊的并行A(GePASE),它將ePASE推廣到邊計算差異顯著的領域。我們展示了GePASE在異質動作領域優于ePASE和其他基線,因為它采用了一種并行化策略,明確考慮了評估所需的計算工作。
最后,我們在一個將圖搜索技術與軌跡優化相結合的算法(INSAT)中展示了并行化的實用性。由于軌跡優化的計算成本高昂,在單線程上運行INSAT限制了其實際應用。所提出的并行版本——并行搜索與軌跡優化交織(PINSAT)實現了規劃速度的數倍提升,并顯著提高了成功率。
對圖像的細粒度理解有兩個方面:視覺理解和語義理解。前者致力于理解圖像中對象的內在屬性,而后者旨在將不同的對象與一定的語義聯系起來。這些都是深入理解圖像的基礎。今天的深度卷積網絡默認架構已經在捕捉圖像的2D視覺外觀,并隨后將視覺內容映射到語義類方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。在本文中,我們通過提出“如何更好地利用幾何來更好地理解圖像?”
引言
多倫多大學于2012年取得了徹底改變現代計算機視覺的突破[83]。他們的深度學習架構AlexNet在模擬大規模ImageNet計算機視覺挑戰[134]中取得了巨大的成功,在該挑戰中,一個算法被要求將數百萬張圖像分類為1000個類別。這個圖像分類模型,被稱為深度卷積神經網絡(DCNN),是受到我們大腦中數十億相互連接的神經元的啟發。通常,深度卷積神經網絡建立在一堆卷積層之上,每一層包含數十萬個功能連接,即人工神經元。視覺表征被一層一層地處理和轉換,類似于大腦視覺皮層中神經元的功能。與傳統的手工特征相比,例如[144,14,104,22,39],DCNN可以通過梯度反向傳播以端到端的方式從頭開始訓練。這使我們在設計手工特征描述符時擺脫了對專業知識的依賴。如今,更深[143]、更廣[176]和擁有更多連接[66]是新出現的深度神經網絡架構的關鍵特征[70,33,147,41]。隨著深度神經網絡容量的不斷增加,計算機在圖像分類[58]上的準確率正達到人類水平,甚至超越人類。在目標檢測[47,132,59,130,101],動作識別[142,150,32,159,15,161,174],創建藝術或照片逼真的[181,73]圖像以及許多其他應用中也取得了類似的成功。
盡管最近在使用深度學習解決計算機視覺問題方面取得了進展,但對圖像進行細粒度的理解仍然具有挑戰性。通常,對圖像的理解是雙重的:視覺理解和語義理解。前者努力理解圖像中物體的內在屬性,例如2D視覺外觀、3D形狀、3D位置和3D姿態等,而后者旨在將不同的物體與特定的語義聯系起來,例如物體的類別名稱[47,132,59,130,101]、動作[142,150,32,159,15,161,174]或屬性[135,99,158,135]。所有這些構成了深入理解我們希望機器擁有的圖像的基礎。當今的深度卷積網絡默認架構已經在捕捉二維域圖像的視覺外觀,并將視覺內容映射到特定的語義類(如圖像分類、動作識別)方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。本文通過研究如何利用幾何來更好地理解圖像,在這兩方面做出了貢獻。激發我們的角度來看待圖像的視覺理解和語義理解問題。
圖神經網絡(GNNs)利用各種方法將卷積的概念推廣到圖中,已被廣泛應用于許多學習任務,包括物理系統建模,尋找分子表示來估計量子化學計算等。大多數現有的GNNs通過將網絡設想為一個消息傳遞方案來解決置換不變性,其中每個節點求和來自其鄰居的特征向量。我們認為該方案對GNN的表示能力施加了限制,使得每個節點在被求和聚合后失去了它們的身份。因此,我們提出了一種新的通用架構,稱為協變成分網絡(CCNs),其中節點特征由高階張量表示,并根據其接受野對稱群的特定表示進行協變/等價變換。實驗表明,CCNs在標準圖學習基準和估計密度泛函理論(DFT)計算的分子性質方面優于競爭方法。這種新穎的機器學習方法允許科學家有效地提取化學知識,并探索日益增長的化學數據。
從多尺度角度理解圖對于捕獲分子、蛋白質、基因組等的大規模結構至關重要。為此,我們引入了多分辨率等變圖變分自編碼器(MGVAE),這是第一個以多分辨率和等變方式學習和生成圖的分層生成模型。MGVAE建立在多分辨率圖網絡(MGN)之上,該體系結構顯式地學習頂點的多級硬聚類,從而形成真正的多分辨率層次結構。然后,MGVAE采用層次變分自編碼器模型,在給定潛在分布層次的情況下,隨機生成多個分辨率層次的圖。我們提出的框架實現了幾個生成任務,包括通用圖生成、分子生成、無監督分子表示學習、引用圖鏈接預測和基于圖的圖像生成。MGVAE的未來應用范圍從先導優化增強最有前途的化合物在藥物發現到尋找穩定的晶體結構在材料科學。
//people.cs.uchicago.edu/~hytruongson/PhD-Thesis.pdf 一般來說,我們希望學習由每個原子的一組電荷-位置對指定的分子數據。這個問題對旋轉和平移是不變的。我們使用協變激活來“烘焙”這些對稱性,同時保留局部幾何信息。我們提出協變分子神經網絡(Cormorant),一種旋轉協變神經網絡結構,用于學習復雜多體物理系統的行為和特性。我們將這些網絡應用到分子系統中,有兩個目標:學習用于分子動力學模擬的原子勢能面,以及學習通過密度泛函理論計算的分子基態性質。我們的網絡的一些關鍵特征是:(a)每個神經元明確地對應于原子的一個子集;(b)每個神經元的激活與旋轉協變,確保整個網絡完全旋轉不變。此外,我們的網絡中的非線性是基于張量乘積和Clebsch-Gordan分解,允許網絡完全在傅里葉空間中運行。Cormorant在從MD-17數據集的構象幾何圖形中學習分子勢能面方面明顯優于其他算法,在學習GDB-9數據集上分子的幾何、能量、電子和熱力學性質方面與其他方法具有競爭力。
多分辨率矩陣分解(MMF)在快速矩陣分解算法中是不尋常的,因為它不做低秩的假設。這使得MMF特別適合于建模具有復雜的多尺度或層次結構的某些類型的圖。雖然MMF有望產生一個有用的小波基,但找到因式分解本身是困難的,現有的貪婪方法往往是脆弱的。因此,我們提出了MMF的“可學習”版本,該版本結合強化學習和通過反向傳播誤差的Stiefel流形優化,仔細優化了因式分解。基于MMF在分解歸一化圖拉普拉斯時產生的小波基,利用稀疏小波變換定義的圖卷積,構造譜域小波網絡學習圖。我們已經證明,由我們的可學習MMF產生的小波基遠遠優于先前的MMF算法,相應的小波網絡在引用圖的標準節點分類和分子圖分類上產生了最先進的結果。這對于理解和可視化復雜的層級結構(如社會網絡和生物數據)是一個很有前途的方向。
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
當在非結構化和半結構化環境(如倉庫、住宅和零售中心)中操作時,機器人經常需要從雜亂的箱子、貨架或桌子中交互式地搜索和檢索特定的對象,這些對象可能部分或完全隱藏在其他對象后面。我們將此任務定義為機械搜索,其目標是在盡可能少的操作中檢索到目標對象。在這些場景中,由于傳感器噪聲、遮擋和未知物體特性的存在,魯棒地感知和操作目標具有挑戰性。由于這些感知和操作挑戰,從數據中學習端到端的機械搜索策略變得非常困難。相反,我們將機械搜索策略分成三個模塊,一個感知模塊從輸入觀察中創建一個中間表示,一組低級操作原語,以及一個高級操作選擇策略,該策略根據感知模塊的輸出迭代選擇要執行的低級原語。我們探索了在操作原語方面取得的進展,如推和抓取,帶有未知對象的場景分割和占用分布預測,以推斷目標對象的可能位置。此外,我們證明了使用模擬的深度圖像或點云可以為感知網絡快速生成大規模的訓練數據集,同時允許它們泛化到真實世界的對象和場景。結果表明,在模擬和物理實驗中,與基準策略相比,集成這些組件可以產生一個高效的機械搜索策略,提高15%的成功率,并減少提取目標對象所需的操作次數。
文本生成旨在為下游任務生成類人的自然語言輸出。它涵蓋了廣泛的應用,如機器翻譯,文檔摘要,對話生成等。近年來,基于深度神經網絡的端到端體系結構被廣泛采用。端到端方法將所有子模塊(過去由復雜的手工規則設計)合并成一個整體的編碼-解碼體系結構。如果有足夠的訓練數據,它就能夠實現最先進的性能,同時避免了對語言/領域相關知識的需求。然而,眾所周知,深度學習模型極度需要數據,由它們生成的文本通常缺乏多樣性、可解釋性和可控性。因此,在實際應用中,很難相信他們的輸出。深度潛變量模型,通過指定中間潛過程的概率分布,提供了一種解決這些問題的潛在方法,同時保持深度神經網絡的表達能力。這篇論文介紹了深度潛在變量模型是如何在文本生成的標準編碼器-解碼器模型之上改進的。
從社交網絡到Web和大腦結構,圖是各種系統的一種自然表示。即使當數據沒有顯式地相互連接時,將其轉換成圖表以便進一步分析通常也是很方便的。許多涉及圖的任務,如鏈接預測、社區檢測和分類,依賴于圖中節點或圖整體之間的各種相似度定義。然而,這種相似性大多是隱式的,這意味著物體在某些空間中不被特征向量表示。相比之下,現代機器學習方法要求明確表示歐幾里得空間中的對象。為了在圖數據上利用機器學習的能力,我們必須具有適當的圖的顯式表示。
本論文研究針對圖結構數據表示的有效的算法。我們關注的是算法的可擴展性,因為它們必須有能力處理Web大小的圖,以能夠應對實踐。局部圖算法具有這種能力; 我們引入可擴展的局部算法來表示節點,邊,和整個圖作為向量在歐氏空間。通過潛在相似性來研究表征,使我們能夠闡明以前的工作,并將非常理想的特性引入我們提出的模型。值得注意的是,我們介紹了第一個隨時表示圖節點的算法。對于整個圖的情況,我們提出了表示,它使圖的多尺度比較和其局部逼近的方法。我們通過實驗驗證了我們的方法并沒有為了算法的可擴展性而犧牲表示的表達性。我們介紹了圖分析的新應用,并在具有數十億節點的大規模圖上使用我們的方法。