在本文中,我們開發并分析了三種不同機器學習環境下的魯棒性算法。在論文的第一部分,我們介紹了隱藏分層的問題——當一個分類模型在數據的某些未標記子類上表現不佳時——并提出了一種檢測和緩解這個問題的方法。以前的工作研究了如何在已知子類標簽的情況下處理這個問題。基于經驗觀察,未標記的子類通常在深度神經網絡的特征空間中是可分離的,我們轉而使用聚類技術估計數據的子類標簽。然后,我們使用估計的子類標簽作為分布魯棒優化目標中的一種噪聲監督形式,以便訓練一個對子類間變化更魯棒的模型。我們在幾個魯棒的圖像分類基準上證明了我們的方法的有效性。我們簡要討論了以下幾種替代方法:1)使用有限數量的子類標簽來進一步提高性能,2) 使用對比學習來學習不太容易受隱藏分層影響的表示。在論文的第二部分,我們研究了結構化分布漂移下的分類模型評價問題。給定來自“源”分布的標記樣本和來自“目標”分布的未標記樣本,重要性加權是執行這種評估的標準方法;然而,重要性加權在高維設置中會遇到困難,當源分布中不包含目標分布的支持時,重要性加權就會失敗。我們表明,人們可以通過對分布轉移性質的一些預見來回避這些問題;具體來說,我們提出了一種使用用戶定義的“切片函數”(旨在捕獲可能的分布偏移軸的二進制函數)來估計目標分布上的性能的算法。我們從理論上描述了我們的方法對切片函數中的噪聲和不完全性的魯棒性,并在各種分類任務上驗證了它的有效性。在論文的第三部分,我們提出了一種加速梯度法來有效地最小化一類光滑結構非凸函數,我們稱之為“類凸”函數。該算法是經典凸函數加速梯度下降法的推廣,對迭代間可能存在的非凸性具有較強的魯棒性。我們提供了一階求值次數的上界和下界,我們的算法需要找到一個近似最優,這表明我們的算法具有最優復雜度到對數因子
//searchworks.stanford.edu/view/14172616
當在非結構化和半結構化環境(如倉庫、住宅和零售中心)中操作時,機器人經常需要從雜亂的箱子、貨架或桌子中交互式地搜索和檢索特定的對象,這些對象可能部分或完全隱藏在其他對象后面。我們將此任務定義為機械搜索,其目標是在盡可能少的操作中檢索到目標對象。在這些場景中,由于傳感器噪聲、遮擋和未知物體特性的存在,魯棒地感知和操作目標具有挑戰性。由于這些感知和操作挑戰,從數據中學習端到端的機械搜索策略變得非常困難。相反,我們將機械搜索策略分成三個模塊,一個感知模塊從輸入觀察中創建一個中間表示,一組低級操作原語,以及一個高級操作選擇策略,該策略根據感知模塊的輸出迭代選擇要執行的低級原語。我們探索了在操作原語方面取得的進展,如推和抓取,帶有未知對象的場景分割和占用分布預測,以推斷目標對象的可能位置。此外,我們證明了使用模擬的深度圖像或點云可以為感知網絡快速生成大規模的訓練數據集,同時允許它們泛化到真實世界的對象和場景。結果表明,在模擬和物理實驗中,與基準策略相比,集成這些組件可以產生一個高效的機械搜索策略,提高15%的成功率,并減少提取目標對象所需的操作次數。
我們研究生成對抗網絡(GAN)如何很好地學習有限樣本的概率分布,通過分析這些模型的收斂速度。我們的分析基于一個新的oracle不等式,該不等式將GAN的估計誤差分解為鑒別器和發生器的逼近誤差、泛化誤差和優化誤差。為了估計鑒別器逼近誤差,我們建立了用ReLU神經網絡逼近H?lder函數的誤差界,并給出了網絡的Lipschitz常數的顯式上界或權值的范數約束。對于發生器逼近誤差,我們證明了神經網絡可以將低維源分布近似轉化為高維目標分布,并通過神經網絡的寬度和深度約束這種逼近誤差。結合統計學習理論中神經網絡的泛化邊界和近似結果,我們建立了GANs在各種設置下的收斂速度,當誤差由H?lder類定義的積分概率度量集合測量時,包括Wasserstein距離作為一種特殊情況。特別地,對于集中在低維集合周圍的分布,我們證明了GANs的收斂速度不依賴于高的環境維數,而是依賴于較低的本征維數。
在構建機器學習管道時,一些常見的假設是:(1)訓練數據足夠 "干凈",表現良好,因此很少或沒有離群值,或者數據的分布沒有長尾,(2)測試數據遵循與訓練數據相同的分布,以及(3)數據產生于或接近于一個已知的模型類,如線性模型或神經網絡。
然而,隨著計算機、互聯網和各種基于傳感器的技術更容易獲得,科學和工程的各個分支中出現的現代數據集不再是精心策劃的,往往是以分散的、分布式的方式收集。因此,它們受到異質性、對抗性操作和異常值等復雜因素的困擾。隨著我們進入這個臟的數據時代,上述的機器學習管道的假設越來越站不住腳。
對于機器學習的廣泛采用,我們認為任何模型都必須具備以下三個基本要素:
穩健性。該模型即使在有噪音和損壞的數據下也能被訓練。
可信賴。在訓練結束后,當在現實世界中部署時,該模型在分布的良性變化下不應該崩潰。
有彈性。建模程序應該在模型錯誤指定的情況下工作,也就是說,即使建模假設崩潰,模型也應該找到可能的最佳解決方案。
在這篇論文中,我們的目標是修改最先進的ML技術并設計新的算法,使其即使在沒有上述假設的情況下也能工作,并且是穩健、可信和有彈性的。我們的貢獻如下。
在第二章中,我們提供了一類新的統計最優估計器,這些估計器對各種環境是穩健的,如任意污染和重尾數據等。
在第三章中,我們用一類新的計算效率高的穩健風險最小化估計器來補充我們的統計最優估計器。這些結果為一般的統計模型,如線性回歸、邏輯回歸等,提供了一些最早的可計算的、可證明的穩健估計器。
在第四章中,我們研究了在基礎分布中的一些樣本可能被任意破壞的情況下學習Ising模型的問題。
最后,在第五章,我們討論了我們的結果對現代機器學習的影響。
傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。
//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
題目:Graph Structure Estimation Neural Networks
作者:Ruijia Wang, Shuai Mou, Xiao Wang, Wanpeng Xiao, Qi Ju, Chuan Shi and Xing Xie
簡介:盡管現有的GNN已成功應用于各種場景,但存在一個基本的假設:所觀察到的圖結構是正確的且符合GNN的性質。實際上,由于圖通常抽取自復雜的交互系統,該假設總是被違反。原因之一是這些交互系統通常包含不確定性或錯誤。例如,在蛋白質相互作用圖中,傳統的實驗誤差是錯誤的主要來源。另一個原因是數據缺失是不可避免的。例如,Internet構建的圖通過檢查路由表或跟蹤路由路徑集合確定,而這兩個表僅給出了邊的子集。已經有研究表明不可靠的圖結構可能會嚴重限制GNN的表示能力,其中一個典型的例子是GNN的性能會在同配性(即同一社區內的節點傾向于相互連接)差的圖上大大降低。簡而言之,在實際的圖中普遍存在缺失、無意義甚至錯誤的邊,這導致其與GNN的性質不匹配,并對結果的準確性或正確性產生影響。因此,迫切需要探索適宜于GNN的圖結構。
然而,有效學習適合于GNN的圖結構在技術上具有挑戰性。我們認為,需要解決兩個障礙。(1)應考慮圖生成機制。網絡科學的很多文獻中已經證明圖的生成可能受某些基本原則的約束,如隨機塊模型模型。考慮這些原則,可以從根本上驅使學得的圖保持規則的全局結構,并對實際觀測中的噪聲更魯棒。不幸的是,大多數當前方法對每條邊進行參數化,沒有考慮全局結構和圖的基礎生成機制,因此學得的圖對噪聲和稀疏性的容忍度較低。(2)應該利用多方面信息以減少偏差。從一個信息源學習圖結構不可避免地會導致偏差和不確定性。合理的假設是如果一條邊在多次測量中存在,則邊存在的置信度會更大。因此,一個可靠的圖結構應該考慮全面的信息,盡管要獲得多視圖的信息并描述它們與GNN的關系是很復雜的。現有的方法主要利用特征相似性,從而使學得的圖易受單一視圖偏差的影響。
為了解決上述問題,在本文中我們提出了圖結構估計神經網絡(GEN),通過估計適宜于GNN的圖結構來提高節點分類性能。我們首先分析GNN的性質以匹配適當的圖生成機制。GNN作為低通濾波器,平滑鄰域以使相鄰節點表示相似,適用于具有社區結構的圖。因此,我們提出結構模型約束圖生成過程,假設圖是從隨機塊模型(SBM)中產生的。此外,除觀察到的圖結構和節點特征外,我們還創造性地利用多階鄰域信息來規避偏差,并提出觀測模型將上述多視圖信息作為最佳圖結構的觀測共同建模。為了估計最佳圖結構,我們在GNN訓練期間構造觀測集合,并基于結構和觀測模型應用貝葉斯推斷來計算圖結構的后驗分布。最后,估計的圖結構和GNN的參數通過精心設計的迭代優化實現彼此增強。
我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。
希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。
這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。
在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。
在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。
在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。
在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。
機器學習中部分非凸和隨機優化算法研究
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算 法復雜度理論等多門學科。算法理論與應用是機器學習中最為重要的核心之一。其中一階優化算法因其簡單有效性,而被廣泛研究與應用。另一方面由于近年來 數據規模的不斷增大,數據集的規模使得二階或更高階的算法應用受阻。這使得 一階算法進一步成為機器學習的研究重點。隨著機器學習中問題模型的不斷擴張, 例如深度學習,非凸問題和模型也激發了學者們廣泛的研究興趣。這使得研究非 凸算法顯得更加急迫。而且由于數據集的龐大性,確定算法難以逃出鞍點,因此 隨機算法受到了史無前例的關注。本文主要結果可以歸納如下:
一、研究了三種 ADMM 算法。第一個 ADMM 的工作是關于一般的 ADMM 收 斂性分析統一框架。在此框架下,很多現有的 ADMM 收斂性分析可以歸納進該 框架。除了現有的 ADMM 算法,根據統一框架還能夠設計出新的 ADMM 算法。第二個和第三個 ADMM 都是針對結構非凸優化問題提出的:一個是針對泛 ?q 正 則化約束優化問題,而另一個是針對 ?1?2 正則化約束優化。給出了后面兩種非凸 ADMM 算法的收斂性分析,所得到的結果可以指導用戶選擇合適的超參數。
二、研究了兩種一階優化領域常用的非精確算法。第一種是非精確的加速算 法。相較于之前的研究,該算法的假設更為真實。而且還囊括了一大類隨機噪聲 的情況,使得算法更為實用。而機器學習中的一階催化劑算法由于是該加速算法 帶上了隨機噪聲,因此可以看做本算法的特例。在第二部分給出了非精確非凸算 法的收斂性框架理論。可以被廣泛應用到各種一階非凸算法。
三、證明了在有界和無界延遲以及隨機和確定性塊選擇下異步并行梯度下降法 的收斂結果。這些結果不需要迄今為止絕大多數其他工作中出現的獨立性假設。這是由于本文使用了 Lyapunov 函數技術,可直接處理延遲,而不是像之前的工作 一樣僅僅將它們建模為噪聲。
四、分析了馬爾可夫鏈隨機梯度下降法,其中樣本采用了某個馬爾可夫鏈的軌跡。主要貢獻之一是給出了馬爾可夫鏈隨機梯度下降法的在凸情況下的非遍歷收 斂分析。結果然后擴展到不精確的格式。這種分析使得能夠建立不可逆有限狀態 馬爾可夫鏈和非凸最小化問題的收斂性。這樣的結果適用于不知道具體的概率分 布,但可以通過馬爾可夫鏈進行采樣的情形。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/