我們不僅是現實的觀察者,還是其參與者,或者說是其一部分。我們明顯的干預并改變我們周圍空間和時間中某些事件進程的能力是我們構建世界模型的一個基本組成部分。 在這篇博士論文中,我們提出了一種新方法來衡量一項干預措施發現因果關系的效率如何。我們引入了對我們正在建模的現實子集中每種可能干預的一般性事前評估,以便僅選擇最具成本效益的干預措施,并避免在真實世界中進行不必要的系統性實驗。基于這一事前評估,我們提出了一種主動學習算法,該算法使用最少成本的干預序列來識別任何給定因果模型中的因果關系。我們的算法引入了幾個新穎的方面。在大多數情況下,它能夠使用相對廉價的干預措施來排除許多因果模型候選,這些干預措施只測試了干預變量的一個值。此外,該算法執行的干預次數可以由因果模型候選的數量來限定。因此,較少的初始候選(或等效地,更多的先驗知識)會導致較少的因果發現干預。
因果性與時間緊密相關,因為原因似乎在效果之前出現。周期性因果過程是與時間相關的因果性的一個非常有趣的案例。在這篇博士論文中,我們通過定義一種因果類比,對時間周期性因果設定進行了正式分析,這種因果類比純粹是基于觀測的動態貝葉斯網絡,并為循環設定中因果效應的識別提供了一個聲音和完整的算法。我們在這個框架中引入了兩種類型的隱藏混淆變量,它們以截然不同的方式影響識別程序,這是動態貝葉斯網絡或標準因果圖中都沒有的區分。
盡管形式各異的視覺數據(如圖片和視頻)的呈指數級增長,為我們解釋周圍環境提供了前所未有的機會,自然語言依然是我們傳遞知識和信息的主要方式。因此,目前迫切需要構建一個框架來實現不同模態信息之間的交互。在這篇論文中,我研究了實現多模態信息有效交互的三個方向。第一個方向關注于構建具有相似語義意義信息的一致性表示。更具體地說,在高維語義空間中,相似信息的表示應該在適當的范圍內彼此接近,不論它們的模態如何。第二個方向是實現圖像視覺屬性與相應語義詞之間的有效關聯,這首先要求網絡能夠識別圖像和文本中的不同語義信息,然后允許它們進行交互。第三個方向是構建一個輕量級架構的模型,用于處理來自多個域的輸入。這是因為當網絡涉及多模態信息時,可能需要大量增加可訓練參數的數量,其目的是允許網絡全面學習捕捉具有域間差異的信息之間的相關性。需要大量計算資源的要求可能會極大地阻礙框架的部署,這對于現實世界應用中的實現來說是不切實際的。這些方向的貢獻如下。
首先,為了有一個一致的表示,生成網絡采用了對比學習和聚類學習,其中對比學習可以最大化由給定數據集提供的成對實例之間的互信息,而聚類學習可以將具有相似語義意義的實例分組到同一個簇中,并將不同的實例推得彼此遠離。通過這樣做,可以構建一個結構化的聯合語義空間,在這個空間內,具有相似語義意義的實例可以在適當的范圍內緊密地聚集在一起,以確保不論其模態如何,都能有一個一致的表示。
其次,為了實現多模態信息之間的有效關聯,提出了三種不同的方法,有效地將圖像視覺屬性與相應的語義文本描述相關聯,使網絡學習理解文本和圖像信息的語義意義,然后實現有效的交互。更特別的是,為了探索相關性,我首先研究了基于單詞級別注意力的連接,并輔以補充的單詞級別鑒別器,其中注意力允許網絡學習識別與相應語義詞對齊的特定圖像視覺屬性,而補充的單詞級別鑒別器提供細粒度的訓練反饋,以允許網絡正確捕捉這種關聯。然后,介紹了文本-圖像仿射組合,采用仿射變換將文本和圖像特征結合在生成過程中,使網絡具有區域選擇效應,有選擇地將文本所需的圖像屬性融合到生成流程中,并保留與文本無關的內容。此外,提出了一種半參數的記憶驅動方法,它結合了參數技術和非參數技術的優點。非參數組成部分是一個存儲庫,由訓練數據集構建而成的預處理信息庫,而參數組成部分是一個神經網絡。通過這樣做,參數方法可以實現高度表達模型的端到端訓練的好處,非參數技術允許網絡在推理時充分利用大型數據集。
第三,提出了兩種解決方案來減輕由于不同模態輸入而需要的網絡計算資源成本,允許網絡在各個領域中輕松實施。更具體地說,我們改進了條件GAN中生成器和鑒別器的能力,以避免盲目增加網絡的可訓練參數數量,并構建了一個單向鑒別器,將兩個訓練目標(即獲得更好的圖像質量和文本-圖像語義對齊)結合到一個方向(即提高融合特征的質量)中,以減少條件GAN中的冗余。這項工作為構建一個輕量級框架鋪平了道路,該框架旨在實現多模態信息之間的有效交互,并且也可以輕松部署在各種真實世界的應用中。
引言
視覺感知是人類解釋周圍環境的最重要能力之一。每天,人類消耗的視覺信息量令人難以置信,他們觀看視頻、拍照、欣賞繪畫以及在社交媒體上分享。例如,YouTube每天幾乎有50億視頻被觀看;僅Instagram每天就有超過9500萬照片被上傳。如此大量的視覺數據的可用性為研究人員提供了前所未有的機會來構建各種視覺解釋和合成方法,如(1)物體/場景分類(He等,2016年;Simonyan和Zisserman,2014年;Szegedy等,2015年,2016年;Zhou等,2014年b),(2)物體檢測(Girshick等,2014年;Long等,2015年;Ren等,2015年;Ronneberger等,2015年;Howard等,2017年;Redmon等,2016年),(3)圖像描述(Donahue等,2015年;Xu等,2015年),(4)視覺問題回答(Andreas等,2016年;Johnson等,2017年;Lu等,2016年;Nam等,2017年;Antol等,2015年;Anderson等,2018年;Yang等,2016年),(5)文本到圖像生成(Reed等,2016年b;Xu等,2018年;Zhang等,2017年a,2018年a),(6)圖像到圖像翻譯(Isola等,2017年;Park等,2019年;Wang等,2018年;Zhu等,2017年),(7)文本引導的圖像操作(Dong等,2017年;Li等,2020年a,c;Nam等,2018年),(8)故事可視化(Li等,2019年c;Song等,2020年;Maharana等,2021年;Maharana和Bansal,2021年)等等。這些方法旨在實現多模態表征之間的跨域轉換,例如,將非視覺數據(如自然語言描述或場景圖)轉換成視覺信息(如視頻或圖像),反之亦然,并旨在實現它們之間的有效交互。 在這篇論文中,我專注于探索實現多模態信息(例如,語言和視覺信息)之間有效交互的原則,包括(1)如何在一個聯合語義空間中為這些信息構建一致的表示,(2)如何有效地連接并融合來自不同模態的特征,以及(3)如何減輕計算需求以實現有效的交互。我的研究可以在許多領域啟用無數潛在的應用,包括設計、視頻游戲、藝術、建筑和醫學診斷等等。
為了實現多模態信息之間的有效交互,首先,重要的是對具有相似語義含義的信息有一個一致的表征。這是因為來自不同領域的信息可能有它們自己的表征形式,因此,在一個高維語義空間中,這些特征的位置可能會彼此相距甚遠,即使它們表達的是相似的語義含義。即使是來自同一領域的信息也會發生這種情況(Mikolov等人,2013年),例如,對于意思相同但使用同義詞的兩個句子,比如“貓”和“小貓”,它們在語義空間中的表征可能不會完全相同。當特征的維度增加時,這種情況可能會變得更糟,這是由維度的詛咒(Bellman,1966年)引起的:隨著特征或維度的數量增長,我們需要準確概括的數據量呈指數增長。所以,一個問題出現了:如何為具有相似語義含義的同一領域或不同領域的信息構建一致的表征?這一點很重要,因為具有一致的表征意味著具有相似語義含義的信息可以在高維語義空間中有固定且接近的位置,因此即使來自不同模態的信息也可以在空間中的適當范圍內容易地從一個轉換到另一個,這與本論文實現多模態信息之間有效交互的目標是一致的。
為了考慮實例之間的相似性,我們首先從對比學習中尋求幫助,對比學習是自監督表征學習的一個強大方案(Oord等人,2018年;He等人,2020年;Chen等人,2020年;Zhang等人,2021年),它可以通過對比正樣本對和負樣本對來強化不同增強下的表征一致性。然而,對比學習并沒有考慮樣本的語義信息和語義相似性,它簡單地將兩個樣本視為正樣本對,只要它們位于將通過網絡傳播的訓練樣例的相同位置(即在同一個批次中),并且當它們在不同的批次中時視為負樣本對,而不考慮它們的語義信息。通過這種做法,學到的表征可能會受到相當大的影響。例如,簡單采用對比學習可能會將具有相似語義含義但在不同批次中的實例推得相距甚遠,從而可能破壞它們之間的語義一致性。
為了考慮樣本之間的相似性,聚類算法(Alwassel等人,2020年;Asano等人,2020年;Caron等人,2020年;Li等人,2020年d)可以補救上述問題,聚類算法將相似的實例(即具有相似語義含義的實例)分組到同一個簇中,并將不同的實例推到不同的簇中。因此,對比學習和聚類學習互為補充,采用對比學習可以讓我們更好地探索跨模態的互信息,并且使用聚類學習將具有相似語義含義的信息分組到同一個簇中,從而實現一致的表征。更多細節將在第三章中呈現。
在為具有相似語義含義的同一或不同模態信息建立了一致的表征之后,另一個問題出現了:如何實現這些信息之間的有效交互?更具體地說,如何有效地構建圖像中的視覺特征與句子中相應的語義詞之間的連接?這是因為機器需要理解給定文本描述的語義含義,并且識別特定的圖像區域,然后它才能生成具有文本要求的對象和屬性的圖像,或者修改特定的圖像區域以匹配給定的文本描述。
為了實現不同模態信息之間的有效交互,提出了三種方法:(1)基于詞級注意的連接,輔以補充的詞級鑒別器提供細粒度的訓練反饋,(2)文本-圖像仿射組合模塊,以及(3)基于記憶的方法。這些方法使網絡能夠有效地將圖像區域的視覺屬性與相應的語義詞聯系起來。更多細節將在第四章中呈現。
在有了一個框架以實現多模態信息之間的有效交互之后,又出現了一個問題:這個框架能否在大多數設備中輕松部署?更具體地說,有可能開發一個不依賴昂貴計算資源的框架嗎?這主要是因為,當一個網絡涉及到不同模態的信息時,可能需要大量增加可訓練參數的數量,這旨在讓網絡能夠全面學習捕捉多模態信息之間的相關性,并彌合領域差距。需要大量計算資源的要求可能會大大阻礙這個框架的部署,這對于實際應用中的實現來說是不切實際的。為了解決這些問題,我們提出提高基于GAN網絡的生成器和鑒別器的能力,并重新思考條件GAN中鑒別器的架構,而不是盲目地通過增加大量的可訓練參數來增加網絡的特征維度。更多細節將在第五章中呈現。
我們研究了野外拍攝的視頻中多人三維重建的問題。人類的動作是動態的,準確地在各種環境中重建它們對于開發沉浸式社交遠程呈現、輔助性人形機器人和增強現實系統至關重要。然而,創建這樣的系統需要解決關于數據和模型架構的以前工作的基本問題。在這篇論文中,我們開發了幾個大規模的3D基準測試,旨在評估在苛刻條件下的多人重建,以及對遮擋和擁擠環境有韌性的自上而下的算法。 數據 - 為深度學習模型獲得大規模的3D監督是實現真實世界泛化的關鍵。然而,與大規模2D數據集不同,3D數據集的多樣性顯著受限 - 主要是因為在3D空間中手工注釋是不切實際的。因此,大多數3D基準測試都限制于室內環境,或者最多是兩個室外的人類主題,攝像機的移動緩慢或固定,并且遮擋最小。為了解決這個差距,我們探索使用3D合成數據,并構建兩個真實的多人3D數據集,這些數據集包括動態的人類活動、快速的攝像機移動和人與人之間的接觸,這些在之前的基準測試中都被忽視了;以突出現有方法的關鍵局限性。 方法論 - 一個通用的多人3D重建方法應該對尺度變化和遮擋具有韌性,并結合絕對深度理解。我們在2D和3D設置中引入了這些特性的算法,這些算法使我們能夠推理在動態環境和擁擠場景中的多個人。我們的自上而下的方法利用空間-上下文信息來推理3D場景中嚴重遮擋的人類。 基于這兩個組件,我們開發了從野外視頻中重建動態場景中的多個人的通用3D方法。
計算機視覺領域的一個主要目標是人體的三維重建[78]。這種能力對于視頻游戲、電影和遠程呈現的應用至關重要。然而,目前大多數關于3D人體重建的方法和數據集都是針對單一人體場景的[95, 109, 263]。考慮到人類本質上是社交生物,經常與其他人互動,多人場景的存在顯得十分重要。現有的方法往往做出了限制性的假設,不容易擴展到這些多人情境。此外,現有的單一人體數據集提供的監督在泛化到多人上下文時,特別是在不可預測的、野外的條件下,都顯得不足。 本論文描述了在野外捕獲的大規模3D多人數據集的新技術。此外,它還提出了一些不僅定制于多人場景,而且對于擁擠和遮擋等挑戰表現出強大韌性的方法。從圖像和視頻中推導人體的3D結構的主要挑戰是這個任務的數學病態性。正如Adelson和Pentland[1]在工作坊的比喻中所強調的,以及Sinha和Adelson[229]的多面體線條圖所展示的,許多3D配置都可以匹配一個給定的2D圖像。然而,我們的世界是有結構的,這些配置并不都同樣可能。盡管如此,我們的世界具有固有的結構,使得某些配置比其他配置更有可能。人們根據環境中的熟悉模式和規律來辨識可能的3D結構。同樣地,我們讓計算機掌握3D的努力也主要依賴于將這種先驗知識嵌入到推斷過程中。 在當前的計算機視覺領域,像圖像分類[46]、物體檢測[144]和語義分割[40]這樣的領域,3D人體重建主要依賴于帶有3D注釋的3D數據集來編碼這些固有的先驗。獲得這些3D人體注釋的主要方法是通過多視圖捕獲設置,因為手工3D注釋既低效又具有挑戰性。然而,值得注意的是,許多這些3D人體重建數據集主要集中在單一人體場景上,忽視了多人互動。是什么驅動了這種趨勢?人們可能會辯稱,收集單一人體數據更簡單、更直接。此外,在多視圖設置中,框架中只有一個主題可以避免多個個體之間的跨視圖對應關系的復雜性。然而,這種對數據集組成的狹隘關注無意中推動了該領域朝向在多人環境中失誤的方法,參見圖1.1。總之,深入研究構建一個全面的多人3D重建系統不僅需要開發能夠適當地建模人與人之間的深度關系和互動的方法,如人與人之間的接觸,而且更關鍵的是,解決現有3D人體數據集中的局限性。
在本論文中,我們解決了這兩個主要的挑戰:創建大規模的多人數據集以及改進3D人體重建技術。我們的討論分為三部分。在第一部分中,我們探討了使用合成3D監督以及它糾正當前數據集偏見的潛力。這引出了關鍵問題:純粹在合成數據上進行訓練的模型可以被信任在真實數據上工作得很好嗎?我們如何在它們之間建立域間的橋梁?在第二部分,我們評估了當前方法在多人上下文中的局限性,從簡單的任務如2D姿態估計開始,然后轉向更復雜的任務,如從單一圖像恢復3D網格。在第三部分,我們回到數據主題,考慮在確保其真實性和多樣性的同時,在大規模收集實際的多人數據的需要和挑戰。 第一部分:合成3D監督。利用最先進的模擬器為3D人體重建的大規模監督生成合成數據的想法是一個令人信服的想法。在這一部分,我們檢查一個中心問題:當純粹在合成數據上進行訓練時,3D方法可以可靠地擴展到真實世界的數據嗎?在第2章,我們提供了證據,表明使用域隨機化的數據允許方法泛化,即使沒有真實世界的注釋,特別是對于3D對象姿態估計任務。然而,我們觀察到,對域隨機化的普通方法并不是最有效率的,通常需要許多合成樣本才能達到可靠的實數據泛化。第3章解決了這一挑戰,引入了一個更有效的域隨機化方法,使合成數據的生成與深度模型在訓練期間的持續進展保持一致。這一章還概述了關于需要多少數據才能實現可靠的實際世界泛化的理論保證。
第二部分:多人姿態和形狀估計。在這部分,我們解決了3D多人重建方法的關鍵限制。第4章主要關注2D姿態估計,尤其是在由遮擋和擁擠標記的復雜多人情境中。我們介紹了一套專為這些場景設計的新穎的自上而下的方法,有效地擺脫了限制性的單人假設。基于這一基礎,第5章擴大了這些方法,以從圖像中解決3D人體網格恢復的問題。我們的主要哲學是將人的點基表示與它們的邊界框表示相結合。我們展示了,令人驚訝的是,這種簡單的集成能夠維持自己,即使在具有挑戰性的多人遮擋的情境中也能夠取得令人印象深刻的結果。 第三部分:真實的3D多人數據集。雖然在第一部分中,我們調查了用于3D的合成數據的使用,但第三部分將焦點轉向真實的多人數據。在第6章中,我們設計了一個適合野外設置的無標記捕獲系統,以記錄多人活動,重點是動態活動,如體育和舞蹈。同時,我們引入了一個半自動的注釋流程,以減少人為監督地生成大規模的3D注釋,如人體姿態和網格。此外,為了捕獲帶有移動相機的3D場景,我們利用了主題的自中心視圖,并為這一具有挑戰性的視圖提供了注釋。然后第7章深入探討,重點是多人互動,代表了人與人之間的擴展接觸,包括摔跤、擁抱和舞蹈等活動。利用我們之前的方法,我們引入了一個增強的注釋協議,旨在充分處理這些活動中固有的遮擋。總之,第6章和第7章中詳細描述的努力共同為建立兩個全面的多人3D數據集作出了貢獻。 然而,為了開發更大的數據集和高效且普遍的3D多人方法,還有更多的工作要做。第8章通過討論這一領域未來工作的具體方向來結束,包括短期和長期的方向。
隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
在這篇論文中,我們建立并分析了推動神經網絡成功的兩個核心原則:超參數化和特征學習。我們利用這些原則設計了在各種計算機視覺和生物醫學應用上具有更好性能和解釋性的模型。我們首先討論超參數化的好處,即使用越來越大的網絡完美地擬合訓練數據。盡管之前的工作已經描述了超參數化網絡在監督學習任務中的好處,但我們展示了超參數化對于非監督學習問題(如自動編碼)也是有益的。越來越大的網絡的普遍優勢意味著無限大的網絡應該提供最佳的性能。值得注意的是,在某些條件下,訓練無限寬的網絡簡化為使用神經切線核(NTK)訓練經典模型,也稱為核機器。我們通過推導并使用NTK來展示其在矩陣補全問題(如圖像修復和虛擬藥物篩選)中的實際價值。此外,我們利用NTK連接為深度神經網絡提供理論保證。具體地說,我們構建了插值的無限寬和深的網絡,對于分類來說,它們是貝葉斯最優的或一致的。
盡管NTK已經成為理解深度網絡屬性的有用工具,但它缺少對神經網絡成功至關重要的關鍵組件:特征學習。在這篇論文的第二部分,我們識別并數學地描述了深度神經網絡如何自動選擇數據中的特征或模式的機制。我們展示了神經特征學習是通過基于它們如何在擾動下改變預測來重新加權特征來發生的,這一過程在數學上由平均梯度外積來描述。我們的結果解釋了如虛假特征、彩票票據和grokking等深度學習現象。此外,我們工作中確定的機制為任何機器學習模型提供了一個無需反向傳播的特征學習方法。為了展示這種通用特征學習機制的有效性,我們使用它來實現核機器中的特征學習。我們展示了由此產生的模型,稱為遞歸特征機,達到了表格數據上的最新性能。總體而言,這篇論文推進了機器學習的基礎,并為構建新的機器學習模型提供了工具,這些模型在計算上簡單、可解釋且有效。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
機器學習模型在面對分布變化時很脆弱,這使得它們在現實世界的部署中很難依賴。這促使開發方法,使我們能夠檢測和減輕這種模型的脆弱性,以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具,幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集,使我們能夠更細粒度地了解模型對背景的依賴。另一方面,它涉及3DB,一個利用逼真模擬的框架,以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外,還討論了可以使模型對分布變化更魯棒的干預措施,包括使用更多的訓練數據。正如所證明的,不加區分地使用更多的輔助數據并不總是有益的,因此提出了數據集投影,一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。
本文主要研究不確定性和數據限制下的現代因果推理,并將其應用于新輔助臨床試驗、分布式數據網絡和魯棒的個性化決策。在第一個項目中,我們在主要分層框架下提出了一種方法,以治療后中間反應的反事實狀態為條件,來識別和估計治療對二元結果的平均影響。在溫和的假設下,可以確定感興趣的治療效果。將該方法擴展到審查結果數據。將所提方法應用于新輔助臨床試驗,并通過仿真研究對其性能進行評估。在第二個項目中,我們提出了一種基于樹的模型平均方法,通過利用來自其他潛在異構站點的模型,在不共享主題級數據的情況下,提高目標站點條件平均處理效果的估計精度。據我們所知,目前還沒有建立分布式數據的模型平均方法,專注于改善治療效果的估計。通過對氧療對醫院生存率的因果影響的研究,證明了這種方法的性能,并得到了綜合模擬的支持。
在第三個項目中,提出了一個具有敏感變量的魯棒個性化決策學習框架,以改善決策時不可用的敏感變量造成的個人最壞結果。與大多數使用均值最優目標的現有工作不同,本文通過找到一個新定義的分位數或最小最優決策規則,提出了一個魯棒的學習框架。從因果角度出發,將(平均)公平的經典概念泛化到個體主體的條件公平。通過合成實驗和3個真實數據應用驗證了所提方法的可靠性能。
本論文涉及以下幾個方面的因果推斷:1)確定主要階層的治療效應;2)通過異構數據集成增強對治療效果的估計;3)考慮最壞情況下的個性化決策規則。它有可能從根本上改善目前在藥物開發和精準醫療方面的實踐。
在這篇論文中,我們考慮了多模態在機器學習決策和協調問題中的作用。我們提出使用一系列多模態概率方法,使用(有限)混合模型的擴展來解決時間序列預測的挑戰,神經網絡中的高效不確定性量化,對抗模型和多智能體協調。在論文的第一部分中,我們關注多模態不確定性估計在時間序列預測中的應用,表明這種方法提供了易于操作的、有益的替代點估計方法,點估計仍然是預測的普遍選擇方法。我們討論了多模態不確定性的意義,并展示了更熟練的方法估計后驗目標分布的必要性。我們提出了一系列計算高效,但有能力的方法來估計豐富的多模態后驗分布。我們將我們的模型與用點測量或單峰分布估計不確定性的技術進行了比較,并在生成對抗網絡的啟發下,對所開發的方法進行了擴展,以此結束本部分。我們表明,該方法對加性噪聲提供了最先進的魯棒性,使其特別適用于包含大量未知隨機的數據集。
在本工作的第二部分,我們研究了協作多智能體系統(CMASs)的多模態模型的重要性,并將我們的工作擴展到采用概率方法。到目前為止,這一領域的大多數研究都局限于考慮自玩范式,即使這些方法解決了各種具有挑戰性的問題。雖然這些進步是重要的,但在自玩中使用任意約定會導致當智能體在此設置之外玩時的協調問題。我們考慮了特殊的CMAS設置,遠離了自玩框架。這是機器學習中一個特別具有挑戰性的領域,也是近年來備受關注的一個領域,為AI智能體在現實世界中能夠與人類(和其他智能體)有效交互提供了希望。我們通過在其他主體的策略上建立后驗信念來解決特別協調問題。這是通過吉布斯抽樣的擴展來實現的,以獲得接近最優的即席性能。我們在具有挑戰性的游戲Hanabi上測試了我們的算法,Hanabi是合作多智能體強化學習中最著名的測試平臺之一,近年來已成為一個具有發展勢頭的基準。我們表明,我們的方法可以實現強大的交叉游戲,即使與看不到的合作伙伴,實現成功的臨時協調,無需預先了解合作伙伴的戰略。
本文介紹了在一系列背景下進行因果參數推理的程序,包括觀察性研究、完全隨機化設計、配對實驗和協變量自適應設計。首先,我們討論了凸優化在匹配觀測研究中進行方向推斷和靈敏度分析的應用。我們設計了一種算法,使信噪比最大化,同時考慮了未觀察到的混雜。我們分析算法輸出的漸近分布行為,以發展因果效應的漸近有效假設檢驗。由此產生的程序在廣泛的程序類上達到最大的設計靈敏度。其次,我們研究了特征信息在完全隨機實驗中對效應進行高精度推斷的作用。本文構建了一種基于線性回歸的校正技術,該技術構造了估計量的漸近方差的上界。該校準程序適用于任何可能是半參數有效的填補估計器,并自動證明所產生的非線性回歸調整估計器至少與均值之差一樣漸近精確;在模型錯誤規范下,非線性回歸調整估計器先前沒有保證的一個特性。第三,我們引入了高斯預軸:一種構建檢驗統計量的算法技術,即使在零中違反隨機化假設的對稱性時,隨機化推理仍保持漸近有效。我們證明了基于預軸統計量的隨機化檢驗在銳利的零值下是有限樣本精確的,而在弱零值下它們漸近地控制了錯誤拒絕的概率。這允許形成具有同聲傳譯的處理效應的置信區域,作為齊次相加處理效應的精確置信區域和異質相加處理效應的漸近置信區域;從而統一費雪和內曼推理的許多實驗設計,包括重隨機實驗。第四,我們構建了重采樣算法的嵌套層次結構,該算法利用了超總體、固定協變量和有限總體模型中的概率結構,以促進完全隨機設計中各種統計數據的非參數推斷。重采樣算法通過利用回歸調整和最優傳輸的現代結果擴展了經典的自舉范例,在固定協變量和有限人口模型下實現了顯著的增益。