亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度統計模型的進展重新定義了現代數據驅動應用,在各個領域展現了顯著的經驗成功。然而,雖然一些領域受益于大量干凈且完全觀測的數據,使得實踐者能夠充分發揮深度模型的優勢,但其他領域通常面臨著不完整數據的問題,這阻礙了這些強大模型的有效應用。在本論文中,我們旨在研究并解決由缺失數據引起的重要挑戰,這些挑戰妨礙了深度模型的使用,重點關注兩個關鍵統計任務:從不完整訓練數據集中進行參數估計和缺失數據填補。首先,我們探討了使用預訓練模型進行缺失數據填補的問題,重點關注變分自編碼器(VAE)類的深度統計模型。我們的探索揭示了現有的 VAE 條件采樣方法的局限性,識別了與常見的 VAE 學習特性相關的陷阱,這些陷阱在某些場景中妨礙了方法的性能。為了解決這些問題,我們提出了基于馬爾科夫鏈蒙特卡洛和重要性采樣的兩種新方法。我們的評估表明,所提出的方法在不同數據集上改進了使用預訓練 VAE 進行的缺失數據填補。隨后,我們將注意力轉向了從不完整訓練數據集中估計 VAE 的問題。盡管這一領域在文獻中得到了相當大的關注,但我們報告了由缺失數據引起的一個之前未知的現象,該現象妨礙了 VAE 的有效擬合。為了克服這些不利影響并改進從不完整數據中估計 VAE,我們引入了基于變分混合分布的兩種策略,這些策略在計算效率、模型精度和學習到的潛在結構之間進行權衡。我們展示了與不使用變分混合的現有方法相比,所提出的方法在不完整數據下改善了 VAE 的估計效果。擴展到估計一般統計模型的更廣泛挑戰時,我們觀察到不同類別的深度模型在進展上存在不平衡。為了推動所有深度統計模型的采用,我們引入了變分吉布斯推斷(VGI),這是一種通用方法,用于最大似然估計具有可處理似然函數的一般統計模型。我們表明,該方法能夠從不完整數據中進行精確的模型估計,包括 VAE 和歸一化流。值得注意的是,VGI 是當前文獻中少數幾種具有概率原理的方法之一,能夠從不完整數據中進行歸一化流的估計,且達到了最先進的性能。通過提供一個統一的框架來處理模型估計中的缺失數據,VGI 為在面臨缺失數據的各個領域中充分發揮深度統計模型的潛力鋪平了道路。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

對比學習最近已成為一種強大的無監督表示學習方法,在多個領域取得了令人印象深刻的實證成功。盡管這些方法在實踐中表現有效,但要全面理解它們的理論基礎仍然是一個重大挑戰。本論文旨在通過提供一個基于接近現實場景假設的原則性調查,彌合對比學習的實證成功與理論理解之間的鴻溝。我們引入了一個受譜圖理論啟發的新分析框架,證明了對比學習在隱式地對由數據分布定義的概念圖上執行譜聚類。我們表明,對比學習所學習的表示與圖的鄰接矩陣的特征函數一致,從而為下游線性分類任務的性能提供了可證明的保證。我們擴展了這一框架,正式刻畫了一個現象,即在對比學習表示上訓練的線性分類器可以成功地跨領域遷移。此外,我們還正式刻畫了模型架構的歸納偏置如何導致表示在不同下游任務中的性能差異。

高質量的數據表示可以作為各種實際機器學習應用的基礎,涵蓋從搜索到面向新任務和新領域的數據高效適應等多個方面。許多成功的表示學習算法在很大程度上依賴于監督學習,而監督學習需要對數據進行昂貴且耗時的標注 [Salakhutdinov 和 Hinton,2007]。

與昂貴且有限的標注數據相比,互聯網上存在大量豐富且廉價的未標注數據。無監督表示學習旨在從沒有預先存在標簽的數據中發現模式,并生成能夠捕捉原始數據本質特征的表示。這種方法為訓練可遷移的數據表示提供了有希望的路徑,這些表示可以有效地適應各種下游任務。

特別是,對比學習最近作為一種強大的從未標注數據中學習表示的方法出現。對比學習的核心思想是“正對”(positive pairs)的概念,即語義上相近的成對數據點,可以直接從未標注數據中構造,而無需人工標注。相應地,還有“負對”(negative pairs)的概念,即通常語義上無關的成對數據點。在計算機視覺領域,正對通常由兩個通過數據增強從同一原始圖像生成的圖像組成,而負對則由兩個獨立隨機采樣的圖像組成。給定正對和負對,對比學習通過鼓勵正對的表示更加接近,同時使負對的表示遠離來學習數據點的表示。 許多對比學習方法使用孿生網絡(Siamese Networks)[Bromley 等,1993] 來學習特征,其中兩個具有共享權重的神經網絡應用于正對中的兩個數據點,表示是神經網絡對原始輸入的輸出。SimCLR 的開創性工作 [Chen 等,2020b] 表明,利用孿生網絡結構的對比學習表示可以在下游分類任務中取得與監督學習競爭的線性探測準確率。一些后續工作 [Chen 和 He,2020,Grill 等,2020,Bardes 等,2021] 探索了不同的損失目標和正則化技術,旨在減少算法中一些看似隨意且不自然的方面,例如停止梯度操作(即在訓練過程中通過孿生網絡的一條分支停止梯度反向傳播)或大批量大小的必要性。然而,它們大多仍圍繞孿生網絡結構這一核心思想展開。

這些方法取得了令人印象深刻的實證成功,通常超過了完全監督模型的性能,而無需標注數據。此外,學習到的表示通常具有良好的結構,例如線性可分性,在這些表示上訓練的線性分類器能夠在下游分類問題上表現良好。這些方法的驚人簡單性和對比學習表示中編碼的結構似乎表明該方法利用了數據分布通過正對構造定義的一些內在屬性。然而,開發對這些自監督表示為何如此有效的全面理論理解仍然是一個重大挑戰。需要超越經典統計學習理論的新數學框架來全面解釋它們的表現,而對比學習中廣泛使用的深度神經網絡進一步增加了分析的復雜性。

先前的工作嘗試通過信息理論的視角解釋對比學習的成功 [Tsai 等,2020,Tosh 等,2021]。這一理論框架關注于通過學習的表示捕獲的信息。從直觀上講,在初始化時,神經網絡的輸出捕獲了數據點的隨機子集信息。在訓練過程中,表示將捕獲正對之間更多共享的信息,并丟棄那些特定于正對中某一數據點的信息。如果共享信息包含了大部分與下游任務相關的信息,那么最終學習到的表示也將捕獲這些信息,從而具備解決下游任務所需的足夠信息。然而,由于多個表示可以包含相同的信息,但具有非常不同的幾何結構,因此該框架缺乏保證,無法確保使用簡單(例如線性)模型高效地解決下游任務。

如果對數據做出更多假設,便能解決這一限制。一個相對較強的假設是條件獨立性設置,其中給定類別標簽,正對是條件獨立的。例如,Arora 等 [2019] 表明,在給定類別標簽的條件獨立性下,對比學習算法可以在下游線性分類任務中實現較小的誤差。一些后續工作(例如,Lee 等 [2020])將這一思想擴展到正對在某些潛在變量上條件獨立的設置,這些潛在變量可能具有比類別標簽更細粒度的含義。然而,在計算機視覺應用中的實際算法中,正對通常由同一圖像的兩個增強組成,因此它們是高度相關的。它們可能只有在條件化于非常復雜的隱藏變量(如原始自然圖像)時才獨立,這可能使得之前的結果無法有意義地應用。

本論文旨在在反映現實世界的較少限制假設下,對對比學習進行原則性的理論研究。本論文的一個關鍵貢獻是提出了一種新的對比損失——我們稱之為譜對比損失——它作為更廣泛使用的 InfoNCE 損失的代理,后者在理論上較難分析。我們的實驗證明,譜對比損失捕獲了標準對比損失的大部分性能,同時使我們能夠建立一個受譜圖理論啟發的分析框架。 第三章介紹了我們基于譜圖理論理解對比學習成功的一般理論框架。為了建立我們的理論框架,我們引入了一個群體層級的“正對圖”,該圖捕捉了對比學習管道中的正對結構。在這個圖中,節點對應于所有出現在正對中的數據點,邊表示哪些節點對實際上形成正對。通過將數據置于這個圖的上下文中,我們能夠利用一些圖論(特別是譜圖理論)中的思想和工具來分析對比學習。 我們的關鍵洞察是,認為對比學習可以被視為隱式地在正對圖上執行譜聚類。譜聚類 [Ng 等,2001] 是一種流行的聚類算法,具有悠久的歷史。其核心思想是,給定任何圖,可以對圖的拉普拉斯矩陣進行譜分解,并使用特征向量在圖中找到近似最優的聚類。運行譜聚類需要對整個拉普拉斯矩陣進行操作,當圖非常大時,這可能計算上非常昂貴。 在正對圖的背景下,圖中的節點數基本上是數據分布中所有數據點的數量,因此可能非常龐大。然而,幸運的是,我們的結果表明,存在一個損失函數,使得最小化該損失函數等同于隱式執行圖拉普拉斯矩陣的譜分解。這個損失函數在精神上與許多對比損失相似,并且可以通過正對和負對進行有效采樣,因此我們稱其為譜對比損失。 我們證明,通過最小化譜對比損失學習到的表示與圖的鄰接矩陣的特征向量對齊,從而繼承其聚類結構。在對正對圖中的聚類與下游任務類別對齊的溫和假設下,來自不同下游類別的數據的對比表示將是線性可分的。值得注意的是,我們的框架不需要依賴先前對比學習理論工作中所依賴的嚴格條件獨立性假設 [Arora 等,2019,Tosh 等,2021]。 我們分析了使用譜對比損失學習到的表示進行線性分類的性能。在對正對圖進行溫和擴展假設的情況下,我們證明,當表示維度超過圖中聚類的數量時,在線性分類器上訓練的表示可以以高精度恢復真實標簽。我們進一步表明,譜對比損失可以通過經驗數據成功最小化,只需多項式數量的未標注樣本。我們的有限樣本分析利用標準泛化界限,證明所需的未標注樣本數量與所選函數類的 Rademacher 復雜度成比例。 第四章基于這一框架,研究了對比學習在分布變化下的表現。特別是,我們研究了對比學習如何幫助解決無監督領域自適應問題,在該問題中,給定有標簽的源領域和未標注的目標領域(具有相同類別標簽),我們希望在目標領域實現高分類準確率。我們正式分析了“線性遷移性”這一經驗現象,即在源領域對比表示上訓練的線性分類器在目標領域上表現良好,其中該表示通過在源領域和目標領域的聯合數據集上進行對比學習訓練。事實上,這種簡單的方法已經被證明能夠實現與多個最先進的領域自適應算法 [Shen 等,2022b] 競爭的性能。 我們證明,線性遷移性是在跨領域關系的弱假設下產生的:即,同類別的跨領域點之間比不同類別的跨領域點之間更相關。直觀地說,這意味著,盡管源領域和目標領域可能存在顯著的分布差異,但類別之間的相對相似性在跨領域中得到了保留。在這個假設下,我們證明了在源領域表示上學到的線性分類器(使用一種新的預處理平均方法)可以在目標領域的分類任務中成功地表現。

我們的結果表明,對比表示不僅捕捉了類內結構,還捕捉了不同類別之間的相對幾何結構。這與先前關于無監督領域自適應的理論工作有所不同,后者通常要求更強的假設,例如有界密度比或顯式的源目標重疊 [Sugiyama 等,2007,Ben-David 等,2010,Zhang 等,2019,Zhao 等,2019a]。

為了支持我們的理論發現,我們提出了一種改進的線性評估方法,用于無監督領域自適應與對比表示。我們的方法通過直接對類內表示進行平均并應用預處理矩陣來學習線性分類器。我們在多個標準領域自適應基準數據集上驗證了該方法的有效性,證明其優于先前的最先進方法。

第五章研究了神經網絡模型架構在對比學習中的作用。我們不再將神經網絡視為黑箱函數逼近器,而是明確描述了架構的歸納偏置如何塑造學習到的表示。

我們引入了“最小可實現聚類”的概念,以捕捉架構所施加的約束。盡管正對圖可能展示了大量的自然聚類,但架構可能只能實現其中的一部分聚類。我們證明,對比學習只恢復那些與架構兼容的聚類。因此,低維的對比表示即使在整個正對圖中的聚類數量很大時,仍然可以在下游任務中取得成功。 我們在多個合成數據分布上實例化了我們的理論,證明了架構的歸納偏置可以顯著減少所需的表示維度。例如,在具有少量不變特征和大量虛假特征的超立方體數據分布上,我們證明,當下游標簽依賴于單一的不變維度時,線性對比表示就足夠了,而 ReLU 網絡則能夠處理更復雜的標簽函數。我們為其他架構提供了更多示例,包括 Lipschitz 連續函數和卷積網絡。在每種情況下,我們展示了對比學習的樣本復雜度與可實現聚類的數量成比例,而不是與自然聚類的總數成比例。

為了支持我們的理論,我們提出了一種實證方法來估計可實現聚類的數量,并將其應用于具有 ResNet-18 架構的 CIFAR-10 數據集。我們的實驗驗證了架構施加的約束導致可實現聚類的數量相對較小,這與我們的理論預測一致。

本論文的其余部分組織如下:第三章展示了我們的對比學習譜框架,包括群體層級損失的分析、有限樣本泛化界限和實驗證明。第四章將該框架擴展到領域自適應設置,正式刻畫了對比表示的線性遷移性,引入了改進的線性評估方法,并展示了其實證有效性。第五章分析了歸納偏置在對比學習中的作用,引入了最小可實現聚類的概念,并在合成數據分布上實例化了理論,為架構約束提供了實證支持。最后,第六章總結了論文內容并討論了未來的研究方向。

付費5元查看完整內容

本論文探討了如何通過幫助機器學習系統克服綁定問題,使其具備更接近人類的智能。具體來說,我們希望神經網絡能夠靈活、動態地表示并關聯不同的實體。論文分為兩部分。第一部分,我們研究了基于圖的表示中的歸納偏置;第二部分,我們開發并研究了一種新的表示格式,以解決綁定問題。我們的主要貢獻如下:

  • 我們提出了攤銷因果發現(Amortized Causal Discovery, ACD) [105, 第三章],這是一個全新的因果發現框架,可以在具有不同底層因果圖但共享動態的樣本之間推斷因果關系。我們證明了該方法在完全觀察環境下以及在存在噪聲和隱藏混雜因素的情況下都能提升性能,并使模型能夠推廣到之前未見的測試樣本。
  • 我們提出了復雜自編碼器(Complex AutoEncoder, CAE) [107, 第四章],這是一種對象發現模型,采用了一種新的對象表示格式。通過在卷積自編碼器中引入復數激活,CAE可以通過激活值的幅度來表示對象屬性,并通過相位值來表示對象關聯。這種無監督方法在簡單的多對象數據集上展示了強大的對象發現能力,并且訓練速度顯著提升。
  • 我們提出了旋轉特征(Rotating Features) [106, 第五章],它是復雜自編碼器的擴展,將這一方法從簡單的玩具數據擴展到真實數據。為實現這一點,我們提出了三項改進:我們將CAE的復數激活推廣到更高維度,介紹了一種新的評估流程,并將預訓練特征引入我們的方法中。
  • 我們提出了一種新穎的余弦綁定機制用于旋轉特征 [108, 第六章]。該機制使我們能夠更好地理解旋轉特征在學習通過對象的方向值來分離對象時所需的動態機制。

付費5元查看完整內容

近年來,深度學習取得了顯著進展。然而,其理論基礎,尤其在大模型領域,仍然相對滯后。本文的研究重點在于將堅實的理論基礎與大模型高效擴展的實際應用相結合。 在論文的第一部分中,我們聚焦于神經網絡的訓練動態,討論了過參數化神經網絡的理論。我們將簡要介紹神經切線核(Neural Tangent Kernel,NTK)的理論,并深入探討超參數遷移,這是一種重要的張量程序框架應用。我們將回顧一些奠定 NTK 作為研究領域的早期論文,并討論 NTK 的局限性。超參數遷移是一種新穎且高效的超參數調整范式,它提供了擴展模型的最優策略。我們將介紹深度神經網絡訓練動態的特征化,并提出一種高效的超參數選擇方案,其中通過在淺層網絡上調優選定的最優超參數同樣適用于深層網絡。 論文的第二部分集中于大模型擴展中的數據方面。我們首先介紹 Skill-Mix,這是一種新穎且獨特的評估方法,避免了傳統大型語言模型(LLM)評估中的數據污染和為排行榜“臨時抱佛腳”的問題。Skill-Mix 隨機選擇 k 種語言技能,然后提示 LLM 生成展示所選技能的簡潔文本。技能組合數量的指數級增長有效防止了數據污染,并進一步揭示了強大的 LLM 成功作答的創新性。接著,我們介紹了 ConceptMix,這是 Skill-Mix 的擴展,用于評估文本生成圖像模型結合 k 個隨機選定視覺概念的能力。最后,我們探討了 LLM 在給出優質 Skill-Mix 回答的情況下,學習和泛化技能組合的能力。結果表明,幾千條這樣的數據足以顯著提高模型在未見過的技能組合上的表現,甚至超越了尺寸更大的模型。這表明,將富含技能的合成文本融入訓練數據,是一種高效擴展數據規模的途徑。

引言

在過去的十年里,深度學習在多個領域取得了顯著進展,尤其是在計算機視覺和自然語言處理方面。這些成就通常歸因于模型規模和數據的擴展。ImageNet [Deng et al., 2009] 通過提供一個大規模且標注豐富的數據集,極大推動了計算機視覺的發展,促成了更優模型的產生。ResNet [He et al., 2016a] 通過引入殘差連接,革新了深度學習,使得超深網絡的有效訓練成為可能,從而利用增加的模型規模提升性能。最近,隨著大規模語言模型(LLM)規模的不斷擴展,并在更大規模的語料庫上進行訓練,LLM 展現出了新的能力,例如少樣本上下文學習、推理和解決數學問題 [Brown et al., 2020, OpenAI, 2023]。

總的來說,擴展過程——即模型規模和數據集的擴大——對于開發能夠執行具有人類或超人準確性與適應性的強大 AI 模型至關重要。然而,這個過程的代價高昂,訓練大型 AI 模型,如 LLaMA-2 [Touvron et al., 2023] 和 GPT-4 [OpenAI, 2023],需要耗費數千萬甚至數億美元的計算資源。 本論文旨在深入理解擴展背后的原理,并使擴展過程更為高效,以較少的計算資源實現更高的性能。我們的工作分為兩個部分,分別探討擴展的兩個關鍵方面:模型規模和數據。

  1. 首先,我們研究了高效擴展模型規模的優化策略,重點是選擇隨著模型規模增長的理論最優超參數。 實際上,計算資源的限制使得對巨大模型進行廣泛的超參數搜索變得困難。為了解決這個問題,通常會對不同規模的小模型進行最優超參數的搜索,并外推得出大模型的近似最優超參數。然而,隨著模型規模的增長,超參數的最佳變化方式——即超參數的擴展策略——往往無法通過少量數據點準確測量。因此,我們旨在建立擴展策略的理論理解,從而能夠通過一個小模型的最優超參數來預測大模型的最優超參數。正式地說,我們回答以下問題:**在數據集和模型架構固定的情況下,隨著模型規模的增長,超參數的最優擴展策略是什么?**為了解決這一問題,我們研究了模型在優化過程中規模趨于無窮大時的漸近行為。我們發現這些行為受超參數擴展策略(即超參數如何隨模型規模變化)的控制。我們根據其導致的漸近行為對這些擴展策略進行了分類,并確定了最優擴展策略。通過這種最優擴展策略,可以廣泛搜索一個小模型的最優超參數,并將其直接轉換為大模型的近似最優超參數。這樣的超參數調整方案被稱為“超參數遷移”,它大大降低了大型模型開發的計算成本。
  2. 接下來,我們探討了當訓練數據擴展時,大型 AI 模型的技能組合能力。 對于模型如何從更多數據中學習到新的能力,有兩種不同的解釋:一種是“隨機鸚鵡”觀點 [Bender et al., 2021],另一種是技能組合觀點 [Arora 和 Goyal, 2023]。前者認為模型學習的是訓練數據中已有的能力,因此更多的數據意味著更多的能力。后者則使用隨機圖論構建了一個統計框架,證明技能組合能力可以通過擴展模型規模而涌現。隨著組合更多技能的能力,模型能夠解決訓練中未曾見過的新任務。在論文的第二部分中,我們首先構建了評估方法,來測量 AI 模型組合 k 個隨機選擇的技能的能力。評估結果驗證了技能組合觀點,并表明像 GPT-4 這樣的頂級模型已經超越了“隨機鸚鵡”的行為。此外,我們的評估具有靈活性、可控的難度等級,并且通過選擇足夠大的 k 避免了數據污染問題。我們觀察到,較小的模型在組合 3 個技能時遇到了困難。一個自然的問題是,這些較小的模型是否可以通過從技能豐富的數據中學習來獲得技能組合能力。我們基于評估生成技能豐富的訓練數據,并觀察到其在提升模型技能組合能力方面的有效性。這為通過生成高質量訓練數據來高效擴展數據規模,提供了一個有前景的方向。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。

付費5元查看完整內容

在這篇論文中,我們研究了多模態學習問題和算法。為此,我們將研究集中在三種模態上:(i) 音頻,(ii) 圖像,(iii) 文本。我們在兩個方向上提供了新穎的方法和見解:多模態序列建模和多模態表示學習。在論文的第一部分中,我們介紹了兩種用于多模態序列建模的新方法:一種用于上下文自動語音識別,另一種用于場景文本識別。在論文的第二部分中,我們重點關注兩種模態的多模態表示學習:圖像和文本。主要關注的是對比圖像-文本表示學習,我們在理解和改進對比圖像-文本方法方面提供了新的見解。 //hdl.handle.net/11245.1/c978c2cb-08af-4cec-9f35-cf175b219f73

在人工智能(AI)研究的早期階段,領域內的各個子任務主要是孤立研究的。例如,針對依賴不同數據模態的不同任務開發了不同的方法和理論,如自動語音識別(例如,Graves et al., 2006; Graves, 2012; Hannun et al., 2014),計算機視覺(例如,Krizhevsky et al., 2012; Simonyan and Zisserman, 2015; He et al., 2016),信息檢索(例如,Manning et al., 2008; Guo et al., 2016),知識表示(例如,van Harmelen et al., 2008)和自然語言處理(例如,Mikolov et al., 2013; Sutskever et al., 2014; Bahdanau et al., 2015)。僅依靠單一模態,機器不太可能完全理解一個學習問題。例如,人類認知在處理各種任務和問題上表現良好(Noyes et al., 2004),顯然不能被視為單模態(Barsalou, 2001)。因此,在本論文中,我們偏離傳統的單模態AI方法,轉而關注多模態學習問題和算法。多模態AI定義為包含多種數據模態的AI研究問題,如音頻(語音)、圖像/視頻(視覺)和文本(語言)(Baltrusaitis et al., 2019)。 與單模態AI方法相比,利用多模態有幾個好處。例如:(i)多模態提供了更豐富的訓練信號,因為它從不同的角度描繪了一個數據點,從而增加了互補信息(Guo et al., 2019b)。(ii)多模態AI方法能夠處理多種模態的數據,從而實現對內容和學習問題的更全面理解(Gautam, 2023)。 本論文的每一章都聚焦于一個多模態學習問題。貫穿整個論文,我們處理三種模態:(i)音頻,(ii)圖像,(iii)文本。這三種模態通過三個多模態任務來研究:(i)自動語音識別,(ii)場景文本識別,(iii)圖像-標題檢索(或更廣泛的圖像-文本表示學習)。前兩個任務的特點是其序列性(即序列建模任務),而后者被定義為多模態表示學習任務。 由于本論文研究的任務特性明顯不同,我們將論文分為兩部分。在第一部分中,我們關注多模態序列建模。序列建模任務的特點是輸入數據的序列性質(如文本或音頻)或模型對序列輸出進行預測或生成的能力。我們介紹了兩種用于多模態序列建模的新方法:一種用于上下文自動語音識別(第2章),一種用于場景文本識別(第3章)。在第二部分中,我們關注圖像和文本兩種模態的多模態表示學習。表示學習旨在學習輸入數據的表示,以便在構建分類器或其他預測器時更容易提取有用信息(Bengio et al., 2013)。圖像-文本表示學習的目標是學習圖像和文本的通用表示,使視覺概念和文本信息能夠相互關聯。主要關注的是對比圖像-文本表示學習,我們在理解和改進對比圖像-文本方法方面提供了新的見解(第4章,第5章和第6章)。

付費5元查看完整內容

基于圖的機器學習是一種新興的數據分析方法,適用于可以通過實體之間的成對關系很好地建模的數據。這包括社交網絡、道路網絡、蛋白質-蛋白質相互作用網絡和分子等示例。盡管大量研究致力于設計新型機器學習模型,但對我們現有工具的理論屬性的關注較少。在這篇論文中,我們專注于基于圖的機器學習模型的魯棒性屬性,特別是譜圖濾波器和圖神經網絡。魯棒性是處理噪聲數據、保護系統免受安全漏洞的侵害以及在某些情況下,對可遷移性等方面至關重要的屬性。我們特別關注與基礎圖的拓撲結構相關的魯棒性這一具有挑戰性和組合性的問題。論文的第一部分提出了穩定性界限,以幫助理解基于圖的模型對哪些拓撲變化具有魯棒性。除了理論成果,我們還進行實驗來驗證這一理論提供的直覺。在第二部分中,我們提出了一種靈活且查詢高效的方法,用于對圖分類器進行黑盒對抗性攻擊。對抗性攻擊可以被視為對模型不穩定性的搜索,并為輸入與決策邊界之間提供了一個上限。在論文的第三部分和最后部分,我們提出了一種新的圖分類器魯棒性證書。使用一種可以在不同干擾級別對圖的各個部分進行驗證的技術,我們提供了對給定模型具有魯棒性的干擾的精細理解。我們相信這篇論文中的發現提供了新的見解,并激勵了進一步研究基于圖的機器學習模型的穩定性和不穩定性。

圖是一種通用的數據結構,它使用邊來模擬實體之間的二元互動,這些實體在圖中被建模為節點(也稱為頂點)。現實世界中的許多類型的數據存在于圖域上,或可以被建模為存在于圖域上,例如在傳感器、生物和社會網絡中收集的數據。在過去的十年中,信號處理和機器學習社區開發了大量工具來分析和學習存在于圖結構域上的數據。圖信號處理(GSP)社區將圖視為信號生存的不規則域,并通過概括和適應信號處理思想來分析這些數據,以開發工具如譜圖濾波器和譜圖神經網絡[36, 111, 101, 50, 121, 43, 100]。另一方面,深度學習社區通過設計基于消息傳遞的神經網絡來處理圖上的學習,這些神經網絡適用于圖域,特別是考慮到所需的不變性和等變性屬性[18, 57, 7, 62, 19]。

盡管不斷增加的建模方法和旨在處理圖結構數據的架構,但對它們的屬性和特性的關注較少。很少有論文致力于這些模型的理論分析。即使從實證角度來看,大多數模型也僅僅是基于它們的預測準確性進行評估。 在這篇論文中,我們專注于基于圖的機器學習模型的魯棒性屬性,包括來自圖信號處理社區的主要工具——譜圖濾波器,以及圖機器學習社區中最常用的工具——圖神經網絡。

魯棒性可以有多種含義,因此我們首先提供本論文中采用的高層定義。具體來說,我們旨在理解輸入圖在推理時的小干擾效應。如果這些干擾不會在模型的輸出中造成大的變化,我們稱模型對這些干擾具有魯棒性。我們將考慮并討論采用不同魯棒性定義的其他工作,并在上下文中概述它們的含義。更廣泛地說,魯棒性覆蓋我們的定義和其他上下文意味著機器學習流程中的小變化會在機器學習流程的其他部分引起小變化。 關于基礎圖的魯棒性研究有許多動機。我們提供了一個非詳盡的列表,為每個實例提供一個實際的現實世界例子:

從噪聲數據推斷的圖。大腦活動可以通過功能性腦網絡來建模,其中節點代表感興趣的腦區,邊緣是根據功能性磁共振成像(fMRI)生成的時間序列數據推斷出來的。在這種情況下,我們期望時間序列數據包含隨機不確定性,這反過來會導致推斷出的圖噪聲大且可能不可靠。因為這種拓撲噪聲是由原始數據中不希望的噪聲引起的,因此希望圖的噪聲具有魯棒性是可取的。

對抗魯棒性。基于圖的模型可能部署在存在不良行為者的環境中。例如,可以將在線社交網絡建模為一個圖,而不良行為者在這個領域的存在是公認的。不良行為者可能試圖通過故意制造干擾來操縱模型,例如通過向其他賬戶發送連接請求來添加邊,或通過創建假冒檔案來添加節點。在這里,我們希望我們的模型即使在最壞的情況下(即不良行為者濫用模型時)也能表現良好。

可遷移性。考慮使用3D掃描儀數字化的物理對象,形成點云。這個點云可以使用三角化算法轉換成圖,生成網格圖。在這種情況下,圖方便地表示幾何對象。然而,由于環境中的輕微變化,如照明或相機或對象的精確位置,對同一對象的兩次掃描可以給出不同的網格圖。在這些情況下,底層實體的圖表示不是唯一的。然而,希望模型能為代表同一底層實體的圖產生相同或相似的表示。這個屬性更廣泛地被稱為可遷移性。魯棒性對于可遷移性是必需的,因為模型未能適應輸入中的即使是小變化,我們也不能期望它適應大變化。

進化圖。時態圖是拓撲結構隨時間逐漸變化的圖。例如,可以通過底層資產價格的相關性來建模金融網絡。因為資產的相關性可能在很長一段時間內變得更加相關或不相關,圖的拓撲結構會隨時間演變。在這種情況下,通常希望模型給出的表示也能隨時間逐漸變化。

部分可觀測性。有時我們擁有的圖數據只部分代表圖中節點之間的底層關系。例如,一個在線社交網絡為我們提供了現實世界友誼的近似。這是一個近似,因為現實生活中不是朋友的人可能會在社交網絡上連接,而現實生活中的朋友可能還沒有在在線平臺上連接。在許多情況下,我們希望學到的表示能捕捉到人們的現實世界友誼,盡管只有通過在線友誼圖的部分知識。 盡管有許多動機研究基礎拓撲變化的魯棒性,但很少有研究致力于理解基于圖的機器學習和圖信號處理模型的這些魯棒性屬性。在這篇論文中,我們提出了五個技術章節,解決了這種理解的局限性。我們將考慮通過各種視角對許多常用模型的拓撲擾動的魯棒性。我們將解決尚未探索但重要的挑戰,即將拓撲屬性與穩定性聯系起來,即圖的特定特征的變化如何影響魯棒性。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

深度學習在經驗上非常有影響力,但在理論理解上滯后。神經網絡在結構和訓練算法上都比傳統的機器學習模型復雜得多,所以傳統的理論直覺可能不適用。本文旨在從理論上更好地理解深度學習中的泛化問題。在論文的第一部分,我們研究了所有數據都有標簽的監督設置下的泛化。我們的主要工具是泛化界:通過推導和研究泛化界,我們可以深入了解深度學習中影響泛化的各種因素。

首先,我們比較了正則化神經網絡和神經正切核(NTK)的統計特性。通過建立神經網絡常見的正則化訓練損失與基于輸出邊際的泛化界之間的聯系,我們證明了正則化神經網絡比NTK解具有更好的泛化效果。其次,我們基于邊緣的新概念——全層邊緣,推導出神經網絡的新泛化邊界。與傳統的基于規范的泛化測度相比,這些邊界更依賴于數據,更具有深度,并突出了數據依賴的Lipschitzness在泛化中的重要作用。我們以經驗證明,這些邊界對于激勵新的訓練目標和理解和解密現有的正則化策略是有用的。

在論文的第二部分,我們把我們的焦點轉向涉及未標記數據的設置。在這些情況下,很難證明為什么許多算法可以工作,盡管它們有廣泛的經驗成功。

首先,我們研究了視覺設置,并提出了一個理論框架來理解最近的半監督學習和領域適應的自訓練算法。通過利用自然圖像的現實結構屬性,我們表明,在未標記數據上的自訓練導致可證明的準確性增益。此外,我們的理論框架和相關假設可以用來表明,自監督對比學習在線性探針評價下獲得了可證明的良好特征。最后,我們研究了為什么預訓練語言模型可以幫助處理NLP設置中的下游任務。我們通過潛在的潛在變量生成模型來考慮預訓練和下游任務相關的設置。我們表明,當這個生成模型是HMM或記憶增強HMM時,預訓練允許解決下游任務的可證明保證。

//searchworks.stanford.edu/view/14230987

付費5元查看完整內容
北京阿比特科技有限公司