表示學習對于開發健壯的視覺系統至關重要。這一學習過程的有效性在很大程度上取決于數據的質量和數量。合成數據在靈活性、可擴展性和可控性方面具有獨特的優勢。最近生成式模型的進展使得合成逼真的圖像和高質量文本成為可能,大大提高了合成數據的可行性。盡管有這些進展,合成數據在表示學習和視覺識別任務中的應用仍然落后,使用合成數據訓練的模型與使用真實數據訓練的模型之間存在明顯的性能差距。在本論文中,我們展示了我們最近為縮小這一差距并利用合成數據訓練最先進的表示模型所做的努力。我們首先利用來自大型語言模型的合成文本來增強視覺-語言模型的訓練。接著,我們探索了由文本到圖像模型生成的合成圖像,研究了這些圖像在用于監督模型訓練時適用的縮放規律。我們還引入了一種專為合成圖像設計的多正樣本對比損失,展示了它們在表示學習中相對于真實圖像的優勢。最后,我們提出了一個全新框架,使用純合成文本和圖像訓練視覺模型,實現了卓越的性能,在包括細粒度分類和語義分割等任務中超越了使用真實圖像訓練的最先進模型。這些工作為在表示學習中推進生成式模型并解決關鍵計算機視覺任務奠定了堅實的基礎,標志著在利用合成數據提升數據中心人工智能生態系統中表示學習的進步。
數據的質量和數量在訓練視覺模型中起著至關重要的作用。歷史上,研究的重點一直放在創建大型、精心策劃的圖像數據集上,這些數據集在圖像層面帶有分類標簽,用于訓練監督模型 [105, 40, 180, 152]。著名的例子包括 CIFAR [105] 和 ImageNet [40]。盡管創建這些數據集在較小規模上是有效的,但將其擴展到數億個樣本時會面臨顯著的挑戰。這些挑戰包括大規模策劃所需的密集勞動,以及隨著數據集規模的擴大,噪聲和質量問題增加的潛在風險。
最近,使用語言監督訓練視覺表示模型的興趣逐漸增加 [93, 144]。以 CLIP [144] 等模型為代表,這一轉變超越了像 ImageNet 這樣的數據集中固定的、預定義的類別。訓練這些模型需要大量的圖像-文本對數據集。發展趨勢包括從創建包含數百萬圖像-文本對的 Conceptual Captions 數據集 [169],到包含數十億對的 LAION 數據集 [165]。然而,這種方法并非沒有挑戰。大規模的數據來源,通常通過網絡抓取,帶來了顯著的噪聲。可擴展性問題仍然存在。此外,這些數據集的巨大規模在存儲和數據傳輸方面也帶來了實際困難。例如,LAION-2B 需要數十TB的磁盤空間,下載可能需要數天甚至數周。
幸運的是,生成模型的最新突破為合成數據生成引入了新的可能性。生成模型產生的合成數據在表示學習中越來越有用,原因有以下幾點:首先,隨著大規模語言模型和文本到圖像模型的發展,合成數據的質量得到了改善。這些模型現在能夠生成逼真且富有創造性的文本以及高質量的圖像。其次,它們具有帶寬效率優勢,因為只需傳輸模型,而不需要傳輸整個數據集。例如,Stable Diffusion [154] 這樣的模型僅占用約 5 GB 的磁盤空間,這相比龐大的 LAION-2B 數據集要高效得多。然而,這種效率的代價是需要額外的計算資源來按需生成合成數據。第三,它們通過顯著減少數據集策劃所需的人力勞動,促進了更輕松的可擴展性。由于數據是由模型生成的,因此擴展數量比收集和標注現實世界的數據更容易。最后,也是最令人興奮的,它們允許通過輸入文本來控制生成的內容。這種能力有可能生成新的組合,并且無需額外成本即可提供類別標簽或成對的文本監督。
考慮到合成數據的眾多優勢,本論文旨在探討一個簡單但雄心勃勃的問題:是否有可能使用合成數據訓練最先進的表示模型?在整個工作中,我們將探索這一核心問題,并展示如何通過合成數據訓練模型可以在廣泛研究的計算機視覺任務上取得卓越表現。
通過系統地解決與合成數據相關的挑戰和機遇,本論文旨在為機器學習研究的發展做出貢獻,并提供關于合成數據作為訓練有效表示模型的新來源的寶貴見解。
無監督多重圖學習 (UMGL) 旨在通過各種邊類型學習節點表示,而無需手動標注。然而,現有研究忽略了一個關鍵因素:圖結構的可靠性。現實世界的數據通常表現出復雜的特性,并且包含大量與任務無關的噪聲,嚴重影響了 UMGL 的性能。此外,現有方法主要依賴于對比學習來最大化不同圖之間的互信息,這使得它們僅限于處理多重圖的冗余場景,未能捕捉到視圖特有的任務相關信息。在本文中,我們專注于一個更具現實性和挑戰性的任務:無監督地從多個圖中學習一個融合圖,該圖能夠保留足夠的任務相關信息,同時去除任務無關的噪聲。具體而言,我們提出的信息感知無監督多重圖融合框架 (InfoMGF) 使用圖結構優化來消除無關噪聲,同時最大化視圖共享和視圖特有的任務相關信息,從而應對非冗余多重圖的前沿問題。理論分析進一步保證了 InfoMGF 的有效性。在不同下游任務上與多種基線方法的綜合實驗表明了其優越的性能和魯棒性。令人驚訝的是,我們的無監督方法甚至超過了復雜的監督方法。源碼和數據集可在 //github.com/zxlearningdeep/InfoMGF 獲取。
自從神經網絡在人工智能領域成為主導技術以來,一個研究子領域已經出現,試圖理解它們的內部工作機制。在這個子領域中的一種標準方法是主要理解神經網絡如何表征人類可理解的特征。另一種較少探索的可能性是將它們理解為多步驟的計算機程序。這似乎需要一種模塊化的前提:網絡的不同部分需要足夠獨立地運作,以便能夠單獨理解,并實現不同的可解釋子程序。
為了在神經網絡內部找到模塊化結構,我們最初使用圖形聚類工具。如果一個網絡可以被劃分為具有強內部連接但外部連接弱的神經元群組,那么這個網絡在這個意義上是可聚類的。我們發現,訓練過的神經網絡通常比隨機初始化的網絡更具聚類性,而且常常相對于具有與訓練網絡相同權重分布的隨機網絡具有聚類性。我們研究促進聚類性的因素,并且還開發了針對這一目的的新方法。
為了使模塊化對理解神經網絡有價值,它需要具有某種功能相關性。我們關注的功能相關性類型是功能的局部專業化。一個神經網絡在其計算圖的部分可以被抽象地表示為執行某些與整體任務相關的可理解子任務的程度上局部專業化。我們提出了兩個局部專業化的代理:重要性,反映了神經元集合對網絡性能的價值;以及一致性,反映了它們的神經元與輸入特征的關聯一致性。然后,我們使用通常用來解釋單個神經元的技術來操作這些代理,將它們應用于由圖聚類算法產生的神經元組。我們的結果顯示,聚類成功地找到了重要且一致的神經元組,盡管并非所有發現的神經元組都是這樣。我們最后通過一個案例研究來總結,使用更標準的可解釋性工具,這些工具旨在理解激活空間中方向所代表的特征,將它們應用于對CoinRun游戲的獎勵函數訓練的神經網絡的分析。
盡管我們的網絡實現了低測試損失,但應用可解釋性工具顯示,網絡沒有充分代表相關特征,并且在分布外嚴重誤預測獎勵。即便如此,這些工具并沒有清晰地揭示網絡實際上正在執行的計算。這不僅說明了需要更好的可解釋性工具來理解泛化行為的必要性,而且也激發了這種需求:如果我們將這些網絡視為通過強化學習訓練的政策的“動機系統”的模型,那么結論是這樣的網絡可能在更豐富的環境中追求錯誤的目標,表明需要可解釋性技術來闡明泛化行為。
構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。
多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。
在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。
我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。
總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知。
隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。
一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。
場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。
本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
盡管深度學習取得了理論成就和令人鼓舞的實踐結果,但在推理、因果推理、可解釋性和可解釋性等許多領域仍然存在局限性。從應用程序的角度來看,最有效的限制之一與這些系統的魯棒性有關。事實上,目前的深度學習解決方案都沒有告知它們是否能夠在推理過程中對一個例子進行可靠的分類。現代神經網絡通常過于自信,即使它們是錯誤的。因此,構建魯棒的深度學習應用是當前計算機視覺、自然語言處理和許多其他領域的前沿研究課題。構建更可靠的深度學習解決方案最有效的方法之一是提高它們在所謂分布外檢測任務中的性能,所謂分布外檢測任務本質上是由“知道你不知道”或“知道未知”組成的。換句話說,當提交神經網絡未訓練的類實例時,具有分布外檢測能力的系統可能會拒絕執行無意義的分類。本文通過提出新的損失函數和檢測分數來解決目標性分布不均檢測任務。不確定性估計也是構建更魯棒的深度學習系統的關鍵輔助任務。因此,我們也處理這個與魯棒性相關的任務,它評估由深度神經網絡呈現的概率有多真實。為了證明我們的方法的有效性,除了大量的實驗,其中包括最新的結果,我們使用基于最大熵原理的論點來建立所提出的方法的理論基礎。與大多數當前的方法不同,我們的損失和得分是無縫的和有原則的解決方案,除了快速和有效的推斷,還能產生準確的預測。此外,我們的方法可以并入到當前和未來的項目中,只需替換用于訓練深度神經網絡的損失,并計算一個快速的檢測評分。
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。