近年來,神經3D場景表示已經成為一種新的方式來存儲關于3D環境、它們的屬性和行為的信息,其中包括學習到的特征。與傳統計算機圖形表示的主要區別在于,表示的參數可以通過優化獲得,目的是與觀察結果保持一致。因此,它們已經成為了將計算機圖形技術和機器學習技術結合起來表示3D場景的變革性工具。 這些表示在從機器人技術和遙感到電影攝影和視頻編輯的應用中都有所應用。但是,這些表示受到一個事實的限制,即它們只能利用在特定單一場景中捕獲的信息。具體來說,只有對單一場景的觀察可以用來創建和提高這個場景的神經表示的質量。這導致了一些不受歡迎的屬性,例如從觀察中慢慢地創建神經場景表示,或者無法生成完全新的真實的神經場景表示。在這篇論文中,學習神經場景表示的先驗知識,我提出了一種利用超出單一場景的數據中學到的信息來創建神經3D場景表示的新方法。我探討了使用3D、圖像和預訓練模型作為從中學習神經3D場景表示先驗的信息來源。此外,我展示了如何在我們的神經場景表示架構中構建標準計算機圖形方法,以簡化從未捕獲完整3D幾何形狀的數據中學習先驗的過程。
具體來說,在這篇論文中: ? 我們展示了如何使用元學習從3D掃描和物體圖像數據集中學習先驗知識,以加速創建新物體的神經場景表示所需的優化。我們證明了使用元學習可以將從圖像中的優化和神經場景表示的圖像渲染時間從數小時縮短到幾分鐘。 ? 我們提出了一個新的框架,使用生成對抗網絡從僅有的2D圖像集合中學習生成全新的人體和面部的3D表示。為了能夠生成如人體這樣的復雜物體類別,我們的方法提出了一個新穎的生成對抗網絡架構,允許對生成的3D人體的身份和姿勢進行獨立控制。這允許對生成的3D人體進行可解釋的控制。 ?** 我們開發了一種方法,使用存儲在2D擴散模型中的信息,僅根據文本提示創建可操作的人頭的3D表示**。我們展示了使用我們的方法生成的3D資產與一個可變形的頭部模型對齊,因此可以動畫化面部表情和形狀,與其他僅使用文本的3D資產生成方法不同。
近年來,圖神經網絡的先進技術已經擴展了它們的能力和表現力。此外,實際應用也開始在多個領域出現,包括推薦系統、假新聞檢測、交通預測、化學的分子結構、抗菌發現物理模擬等。因此,圖論和深度學習交匯處的研究繁榮起來,革命性地改變了許多研究領域。然而,盡管圖神經網絡受到了廣泛關注,但在將它們應用到其他領域時仍然面臨許多挑戰,從方法論的概念性理解到實際系統中的可擴展性和可解釋性。 《圖神經網絡的概念與技術》提供了逐步的討論、詳盡的文獻回顧、詳細的分析和討論、嚴格的實驗結果,以及針對圖神經網絡應用的實用導向方法。本書還發展了對圖神經網絡的概念和技術的理解,并建立了對各種領域中圖神經網絡的不同實際應用的熟悉度。覆蓋了圖數據、社交網絡、深度學習和圖聚類等關鍵主題,這本首屈一指的參考來源非常適合行業專家、研究員、學者、學者、實踐者、講師和學生。
涵蓋范圍: 本出版物涵蓋的許多學術領域包括但不限于: * 對抗性攻擊 * 計算機網絡 * 計算機視覺 * 深度學習 * 圖聚類 * 圖數據 * 圖神經網絡 * 知識圖譜 * 自然語言處理 * 社交網絡
機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。
在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。
受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。
在過去的十年中,自然語言處理(NLP)系統幾乎完全建立在大型神經模型的基礎上。由于這些模型的能力,可行的任務范圍擴大了,應用的空間也擴大了,包括具有現實世界影響的子領域,如事實核查、假新聞檢測和醫療決策支持。這些模型的規模和非線性的增加導致了不透明,阻礙了機器學習從業者和外行用戶理解其內部原理并從其預測中獲得意義或信任的努力。可解釋人工智能(XAI)和更具體的可解釋NLP (ExNLP)領域通過提供對人類用戶有意義的文本解釋,已成為糾正這種不透明度并確保模型在高風險場景中的可靠性和可信性的活躍領域。可以檢查為其個人預測提供理由的模型,以調試、量化偏差和公平性、理解模型行為以及確定魯棒性和隱私(Molnar 2019)。無論任務模式如何,文本解釋是機器學習數據集中的主要解釋形式。因此,本文涵蓋了自然語言任務解釋和自然語言任務解釋兩個方面。本文提出了兩種語義定義下的模型解釋質量評估測試集:忠實度(faithfulness)和人類可接受性(human acceptability)。我使用這些評估方法來研究兩種解釋形式和三種模型架構的效用。最后,我提出了兩種方法來提高解釋質量——一種增加了忠實突出解釋的可能性,另一種提高了人類對自由文本解釋的可接受性。本文努力增加在實踐中部署人工智能系統時積極使用和產生結果的可能性。
以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。
場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。
在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。
總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。
關系數據在現代計算中無處不在,并驅動跨多個領域的幾個關鍵應用程序,如信息檢索、問題回答、推薦系統和藥物發現。因此,人工智能(AI)的一個主要研究問題是建立以有效和可靠的方式利用關系數據的模型,同時注入相關的歸納偏差和對輸入噪聲的魯棒性。近年來,圖神經網絡(GNNs)和淺節點嵌入模型等神經模型在關系結構的學習表示方面取得了重大突破。然而,這些系統的能力和局限性還沒有被完全理解,在賦予這些模型可靠性保證、豐富它們的關系歸納偏差以及將它們應用于更具挑戰性的問題設置方面仍存在一些挑戰。在這篇論文中,我們研究了關系數據的學習和推理。更具體地說,我們從理論上和實證上分析了現有模型的性質和局限性,并提出了改進關系歸納偏差和表征能力的新方法。
//ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53
1. 引言以神經網絡為動力的深度學習系統已經在各種具有挑戰性的任務上取得了突破性的成果,如計算機視覺[96]和機器翻譯[160]。深度學習模型在最少人為干預的情況下從數據中學習模式,并在其訓練集之外進行經驗歸納。因此,在多個領域應用深度學習系統的興趣越來越大。沿著這些思路,近年來一個突出的研究前沿是將深度學習應用到關系數據中。從根本上說,關系數據將信息表示為一組通過語義意義關系連接的實體。例如,可以將在線市場上的產品、賣家和用戶表示為實體,并將交易描述為跨上述三種實體類型的三元關系,例如,Alice從Charlie那里購買了一個球。關系數據的一個流行的特例是圖結構,其中關系最多是二進制的。在這種情況下,關系可以被視為定義(標記)圖實體之間的邊,這些實體本身構成了圖節點。關系表示非常通用,并且出現在各種應用程序領域中。例如,社交網絡中的用戶根據他們的互動(友誼、關注、點贊)成對連接,可以被視為一個圖結構。這同樣適用于引文網絡中的論文[153,154]及其引文連接,以及分子,其中原子可以被視為實體,它們的鍵可以表示為二進制關系。事實上,關系數據封裝了幾個傳統數據域。例如,圖像是網格形狀的圖形的一種特殊情況,其中相鄰的像素由一條邊連接,序列是一系列實體,這些實體的邊連接著連續的實體。鑒于關系數據的普遍存在和圖結構的普遍存在,構建強大的關系機器學習模型是一個重要的研究問題,其分支涉及多個任務,如信息檢索[182]、問題回答[20]、推薦系統[173]和藥物發現[60]。廣義上講,機器學習任務可以分為三大類:
1. 節點級的任務。給定一個帶有未標記或部分標記節點的輸入圖,節點級任務旨在預測節點屬性,例如,對于沒有預標記屬性的節點,預測一個類或一個值。例如,在引用網絡中,論文(輸入圖中的實體)具有內容特征,并且通過二元引用關系與其他論文相連,預測論文的主題就是一個節點分類任務。
2. Graph-level任務。給定一個輸入圖,圖級任務尋求基于節點特征、邊和整體輸入圖結構預測全局圖屬性,如類或值。這些任務在分子圖中非常突出,包括幾個圖性質預測問題,如毒性分類和零點振動能(ZPVE)回歸[140]。
3.Edge-level任務。給定一個輸入圖,邊級任務旨在預測現有邊的未知邊屬性,或者更常見的是,基于現有邊和節點特征預測圖中缺失的邊。對于后一種情況,當輸入圖是單關系圖時,該問題稱為鏈接預測,如引用網絡,當輸入圖是多關系圖時,該問題稱為知識圖譜補全(KGC)。在本文中,我們研究了關系數據(圖結構和更一般的關系數據)的學習和推理,并提出了幾個模型和框架,以理論分析和結果支持,以提高該領域模型的關系歸納偏差和表示能力。更具體地說,我們系統地研究現有模型,證明它們的理論屬性和結果,并提出擴展和新模型,以(i)可證明地捕獲和/或強加豐富的關系歸納偏差,(ii)更好地理解現有模型的表現力和表征局限性,以及(iii)將現有模型和方法擴展到與推理和推理相關的新穎的、具有挑戰性的應用領域。
深度學習的出現為許多基本的計算機視覺任務帶來了巨大的進展,如分類、檢測和分割,這些任務描述了圖像和視頻中物體的類別和位置。在監督學習方面也做了很多工作--教機器使用人類注釋的標簽來解決這些任務。然而,機器只知道某些物體的名稱和位置是不夠的;許多任務需要對復雜的物理世界有更深入的了解--例如,物體與周圍環境的互動(通常通過創造陰影、反射、表面變形和其他視覺效果)。此外,在嚴重依賴人類監督的情況下,訓練模型來解決這些任務,成本很高,而且不切實際,難以推廣。因此,本論文探索了兩個方向:首先,我們的目標是超越分割,解決一個全新的任務:將物體與其相關的視覺效果(如陰影、反射或附著的物體)分組;其次,我們以自我監督的方式解決視頻物體分割的基本任務,而不依賴任何人類注釋。
//ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64
為了將物體與其相關的視覺效果自動分組,我們采用了一種分層的方法:我們的目標是將視頻分解成特定的物體層,其中包含所有與物體一起移動的元素。這些層的一個應用是,它們可以以新的方式重新組合,以產生一個高度真實的、經過改變的原始視頻版本(例如,刪除或復制物體,或改變其運動的時間)。這里的關鍵是利用卷積神經網絡的自然屬性來獲得輸入視頻的分層分解。我們設計了一個神經網絡,通過對視頻的過度擬合,為視頻輸出層。我們首先介紹了一種針對人類的方法,然后展示了如何將其適應于任意的物體類別,如動物或汽車。我們的第二個任務是視頻物體分割:為視頻中的物體產生像素級的標簽(段)。我們以前的工作是在單個視頻上進行優化,而在這里,我們采取了一種數據驅動的方法,以自我監督的方式對大量的視頻語料庫進行訓練。我們考慮了兩種不同的任務設置:(1)半監督物體分割,即為單一幀提供初始物體掩碼,該方法必須將該掩碼傳播到其余幀;(2)移動物體發現,即不提供掩碼,該方法必須分割突出的移動物體。我們探討了兩種不同的輸入流。RGB和光流,并討論它們與人類視覺系統的聯系。
圖任務無處不在,其應用范圍從推薦系統到語言理解,再到具有環境感知識和分子合成的自動化。將機器學習應用于這些任務的一個基本挑戰是,以一種ML模型可以輕松利用圖中的關系信息(包括節點和邊緣特征)的方式編碼(表示)圖結構。直到最近,這種編碼都是通過因子模型(又名矩陣因子化嵌入)來實現的,它可以說起源于1904年的Spearman因子。然而,最近,圖神經網絡引入了一種新的強大的方法來為機器學習模型編碼圖。在我的演講中,我將描述這兩種方法,然后介紹一個統一的數學框架,使用群體理論和因果關系將它們聯系起來。使用這個新框架,我將介紹生成和使用節點嵌入和圖表示的新的實用指南,它修復了目前使用的標準操作過程的重大缺陷。
//www.anl.gov/event/unearthing-relationships-between-graph-neural-networks-and-matrix-factorization
表示學習(representation learning), 又稱表征學習,是指將輸入數據轉化成 適用于機器學習形式的過程。通常地,機器學習的性能依賴于對數據表示的選 擇,一個好的表示可以使得模型對輸入數據進行更好的理解。近年來,神經網絡 的興起,使得我們可以自動地對輸入數據進行特征抽取。這極大推動了表示學習 的發展,并給我們帶來了進一步探究的可能性。
一般地,表示學習的研究可以按照不同角度進行劃分:從學習方式上,可以 分為有監督學習和無監督學習;從輸入數據模態上,可以分為文本表示、圖像表 示以及語音表示;從共享獨立性上,可以分為共享表示和私有表示。在自然語言 處理中,使用深度學習技術(即深度神經網絡)對文本進行表示學習已經成為一 個很有價值的研究方向。本文工作圍繞著以下問題展開:1)對于不同粒度的文 本(詞語、句子、句對),如何設計合理的結構,使得模型可以學習到適合最終任 務的表示?深度學習的到來使得自然語言處理中的研究工作由原來的特征工程 (feature engineering) 過渡到了現在的結構工程 (architecture engineering) ,而對于 文本的表示學習,首先要解決的最基本問題就是尋找合適的歸納偏置 (inductive bias),使得模型可以更好地對輸入文本進行編碼。而本文分別針對不同粒度的文 本信號,進行相應的網絡結構探索,希望找到更適合下游任務的結構偏置。2)如 何進行針對性的遷移學習?有針對性地進行遷移是指我們要對遷移的知識“按 需分配”,這就要求我們學習的知識應該具備可遷移性,此外,我們還要對已有 的知識進行可理解分析,從而可以分離我們真正需要的知識,最終實現知識的定 向遷移。對于以上兩個亟待解決的問題,本文通過兩個方面,九個章節進行遞進 式探討,其貢獻總結如下:
一方面,對于不同粒度文本的表示學習,本文分別探索了最適合下游任務的 歸納偏置,并且利用這些歸納偏置設計新的模型,這些模型在主流的數據集上都 取得了當時最好的效果。
關鍵詞:深度學習;語義表示學習;自然語言處理;歸納偏置;知識遷移