亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

現代神經網絡的成功歸因于兩個基本屬性:表達能力和泛化能力。前者指模型適應多種數據集的能力,后者使網絡能夠從訓練樣本中外推模式,并將其應用于以前未見過的數據。本論文解決了與這兩個關鍵屬性相關的一些挑戰。過度參數化的網絡能夠適應任何數據集,并不總是表明它們實際的表達能力。這是本論文第一部分的研究對象,我們將探討輸入信息在通過深層架構時如何丟失,我們提出了一個易于實施的可能解決方案,即引入適當的縮放因子和殘差連接。論文的第二部分關注泛化。盡管現代神經網絡過度參數化,但為何能夠很好地泛化到新數據而不過擬合,這是一個目前在研究界受到廣泛關注的開放問題。我們從信息論和PAC-貝葉斯的視角探索這一主題,提出了新的學習算法和泛化界限。

自從可編程計算機的首次構想以來,人們就對機器獲得智能的可能性感到好奇(Lovelace,1842年)。目前,已經明確計算機可以高效地執行計算和任務,這些對于任何人來說幾乎是無法解決的。然而,實現執行我們日常生活中的簡單動作的算法,如識別物體或理解口語句子,呈現出更大的挑戰,因為它需要以正式的方式表達我們的直覺和主觀理解。事實上,早期嘗試構建計算機,其世界知識直接由人類開發者以正式語言硬編碼,到目前為止還未能取得重大成功:為了學習,機器必須“通過從原始數據中提取模式來獲取[...]知識”(Goodfellow等人,2016年),這一能力被稱為機器學習。神經網絡已經顯示出能夠自主地從外部環境編碼知識的能力。這背后的成功是反向傳播算法的發展,該算法能夠有效地訓練能夠學習自己表征的多層架構,而不依賴于人為設計的特征。事實上,現代神經網絡被結構化為簡單參數化函數的順序組合,使不同層能夠學習輸入和輸出之間日益復雜的關系。這種層次化架構使網絡能夠從輸入中提取和組合不同類型的信息,從而導致更抽象和有用的特征的出現(LeCun等人,2015年)。對于絕大多數當前最先進的神經網絡,模型參數遠遠超過了調整它們的訓練樣本數量。從數學角度來看,這轉化為一個高度復雜的設置,為此找到嚴格的統計性能保證仍然是一個重大的開放問題(Zhang等人,2017年)。盡管如此,巨大的經驗成功使得多層過參數化神經架構成為多個領域包括醫學、電子郵件過濾、語音識別、計算機視覺和市場營銷等在內的幾個學習任務的標準首選(LeCun等人,2015年)。具有數百萬參數的神經網絡可以準確地逼近廣泛的功能,這一屬性被稱為表達性(或表現力)。這通常是一個理想的品質,因為它允許網絡學習復雜的模式并展示出極大的靈活性。然而,傳統智慧認為,如果一個模型可以輕易地逼近任何函數,它很可能過擬合訓練樣本,并在面對新數據時表現不佳。從訓練數據集中外推知識并有效應用于以前未見過的實例的能力被稱為泛化。盡管過參數化,神經網絡在幾個任務中展示了令人印象深刻的泛化能力。當前缺乏對這一現象的理論理解,以及隨后在提供先驗統計性能保證方面的困難,導致了神經網絡的泛化屬性研究成為一個活躍的研究領域(Zhang等人,2017年,2021年)。這篇論文的主要焦點是分析過參數化神經網絡的表達性和泛化屬性。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

 深度神經網絡越來越多地被用于計算機視覺任務,這得益于它們的強大性能。然而,它們的訓練需要大規模的標記數據集,這些數據集的準備工作非常耗時。半監督學習(SSL)通過從標記和未標記數據的混合中學習提供了一個解決方案。雖然大多數最先進的SSL方法遵循確定性方法,但對其概率對應物的探索仍然有限。這一研究領域非常重要,因為概率模型可以提供對現實世界應用至關重要的不確定性估計。例如,由于未標記數據中潛在的偽標簽錯誤,接受SSL訓練的模型可能不及接受監督學習訓練的模型,這些模型在實踐中更可能做出錯誤的預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及可能發生錯誤預測的時機,這些洞察通常由不確定性估計提供。此外,當使用未標記樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。依靠廣泛使用的貝葉斯近似工具——蒙特卡洛(MC)dropout,我提出了一個新的概率框架,即生成式貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以前方法中發現的潛在過擬合問題,而且在四個評估指標中都取得了更優的結果。與其經驗設計的前身不同,GBDL由完整的貝葉斯公式支撐,提供了理論上的概率基礎。承認MC dropout的局限性,我引入了NP-Match,一種新的大規模半監督圖像分類的概率方法。通過在不同的挑戰性設置中進行廣泛的實驗,包括標準的、不平衡的和多標簽的半監督圖像分類,我們評估了NP-Match的泛化能力。根據實驗結果,NP-Match不僅與以前的最先進方法相比有優勢,而且比基于MC-dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種新的半監督語義分割的概率模型。這種靈活的模型可以與各種現有的分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都超過了MC dropout。

付費5元查看完整內容

這篇論文探討了對稱神經網絡的理論,這是一種在設計、實現和分析保持對稱性質的神經網絡時使用的概念和數學框架。在這里,對稱性可能涉及到神經網絡架構或其組件在某些變換下保持不變的性質。例如,這可能包括旋轉或平移不變性。 對稱函數,它們以一個無序的、固定大小的集合作為輸入,在基于不可區分點或粒子的多種物理場景中找到了實際應用,并且也被用作構建具有其他不變性網絡的中間構建塊。已知通過強制執行排列不變性的神經網絡可以普遍表示對稱函數。然而,表征典型網絡的近似、優化和泛化的理論工具未能充分表征強制執行不變性的架構。 這篇論文探討了何時可以將這些工具適應于對稱架構,以及何時不變性質本身導致了全新的理論發現。我們研究并證明了對稱神經網絡擴展到無限大小輸入時的近似限制、對稱和反對稱網絡相對于集合元素之間的互動的近似能力,以及通過梯度方法學習簡單對稱函數的可學習性。 深度學習理論始于通用逼近定理,樂觀地說,人們可能希望這就是理論的全部。在無限數據的極限情況下,似乎沒有必要超越兩層的標準神經網絡。但無論數據集變得多大,實踐者仍然尋求應用某種先驗知識來改善優化和泛化。 通常,這種先驗知識是根據數據的性質來適配的。例如,自注意力機制似乎是處理序列數據的適當先驗[Vaswani et al. 2017]。但往往,這種先驗知識采取的是底層對稱性的形式。 經典地,圖像數據從強制執行平移等變性的架構中獲得巨大益處[LeCun et al. 1998]。同樣,對于圖數據,我們執行對節點重新標記的不變性[Scarselli et al. 2008];對于分子,我們執行旋轉不變性[Cohen et al. 2018];對于費米子波函數,我們執行反對稱性[Moreno et al. 2021]等等。 對于集合,適當的幾何先驗是排列不變性[Zaheer et al. 2017; Qi et al. 2017; Santoro et al. 2017]。集合數據在粒子物理或人口統計的設置中自然出現。但排列不變性也是其他架構內部應用的基本原語,特別是對于圖[Kipf and Welling 2016]和反對稱波函數[Pfau et al. 2020]。因此,我們將排列不變性架構視為自成一體的首要公民,值得顯式研究。 這段討論強調了在深度學習架構中應用先驗知識的重要性,特別是當這些先驗與數據的內在對稱性相關時。通過理解和應用這些對稱性原則,可以設計出更有效的深度學習模型,這些模型不僅能夠更好地理解數據的幾何和結構特性,而且能夠更有效地進行優化和泛化,即使在數據量巨大的情況下也是如此。

付費5元查看完整內容

 這篇論文探討了對神經網絡表示的結構性約束,作為在神經網絡中編碼先驗知識的一種方式。神經網絡已經證明具有處理感知數據的卓越能力,通過映射感知實體并預測缺失或未來信息。盡管它們在建模方面表現出色,但神經網絡不編碼或表示一般知識或概念,并且通常不提供對被建模對象的理解或洞察。一種可能的使用神經網絡作為允許科學分析和理解的工具的方式是,探討將先驗概念知識與從數據中提取的感知信息相結合的方法。這篇論文檢驗了圖分割、子集、離散變量和微分方程作為特定的結構性約束,對神經網絡表示進行約束,以表示先驗知識,目的是使神經網絡更加可解釋和可分析。

//hdl.handle.net/11245.1/53614a81-69a1-4671-a906-fa0672b29a92

盡管當前的神經網絡模型在許多感知任務上表現出色,但這是以大量數據和計算為代價的。此外,當神經網絡面對與訓練數據不同或相差甚遠的數據時,往往會表現出脆弱性。一種更實際的代表性結構的動機是,通過賦予神經網絡本質上代表任務或手頭數據類型的結構,可能避免或減輕對大型數據集和計算的需求以及神經網絡的缺乏魯棒性。非平凡的任務和數據通常具有內部結構,這種結構在輸入表示中并沒有顯式表示。在圖像中,相鄰像素通常是相關的;視頻通常在相鄰幀中有小的變化;場景由可以移動的對象組成;時間序列可能具有因果或動態關系等。這種結構構成了任務的本質特征,并且不依賴于訓練分布。在沒有對網絡的結構性約束或指導原則的情況下,這樣的網絡可能無法區分對任務本質重要的特征和僅由數據偶然給出的特征。這樣的網絡可能只能檢測數據給出的偶然特征中的模式,并且在尊重某個給定任務的本質特征的分布外數據上表現不佳。另一方面,在神經網絡的內部表示中表示給定任務的本質特征,可能提高模型的魯棒性和效率。學習模型設計的任務是找到可以在模型中整合的適當結構,同時保持結構整合和學習、表示的形式和內容之間正確的平衡,而不退化為手工特征工程。

**研究問題1 可微分圖分割能否在以對象為中心的表示中提高泛化能力? **在第2章中,我們聚焦于圖像和視頻中的以對象為中心的學習問題,并考慮特征之間的圖結構關系。在本章中,我們提出了一種拓撲感知的特征分區方法,將給定場景特征劃分為k個不相交的分區,作為以對象為中心的表示學習方法。對于分區方法,我們建議使用最小s-t圖割,該方法表示為一個線性程序。這種方法是拓撲感知的,因為它明確編碼了圖像圖中的鄰域關系。為了解決圖割問題,我們的解決方案依賴于一個高效、可擴展且可微分的二次規劃近似。針對割問題的特定優化使我們能夠顯著更高效地解決二次規劃問題并計算其梯度,與一般的二次規劃方法相比。以前的以對象為中心的學習方法在紋理場景和物體以及新穎物體形狀存在的情況下通常有困難。在我們的結果中,我們展示了我們的方法在具有紋理場景和物體的對象發現任務上改進了以前的方法,并且在具有新穎和未見過的紋理和形狀的分布外數據上提高了泛化性能。對于我們的第二個研究問題,我們考慮代表一個神經網絡表示自身動態演化的問題,通過一個可解釋且適合分析的生成動態機制來管理。

**研究問題2 神經網絡如何生成明確的、可解釋的、可分析的動態機制來管理網絡自身的內部動態演化? **在第3章中,我們提出了一類新的動態模型,稱為機械神經網絡,它們生成作為一組線性常微分方程(ODEs)的明確內部機制,進而管理內部神經網絡表示的演化。網絡表示的演化是通過解生成的ODEs來計算的。我們展示了可微分優化也可以用來在神經網絡內部有效地解線性ODEs,同時允許相對于ODE參數計算梯度。該模型可以應用于動態數據以及圖像等其他類型的數據,并且在其他神經網絡動態系統模型上有所改進。盡管機制是內部神經網絡表示的一部分,它們也是明確的,這意味著它們可以被理論和實驗分析所研究。接下來,我們探討具有子集操作的神經網絡作為離散結構的下一個示例。作為應用,我們考慮解釋性和子采樣大圖像的任務。在這兩種情況下,問題是是否可以選擇輸入數據示例的一個子集,以某種方式代表原始輸入。在解釋性任務中,選擇的子集是逐實例解釋預測的。在子采樣任務中,選擇的子集是逐數據集的,并且可以看作是原始數據集的替代。以前的方法通常限于小的子集和領域大小。我們的下一個研究問題探索這個任務是否可以快速有效地完成,對于大領域和子集大小。

**研究問題3 條件泊松子集抽樣是否提供了一種相比序列抽樣在神經網絡中更高效且可擴展的替代方案? **在第4章中,我們提出了一種既高效又可擴展到大子集大小的序列抽樣的替代方法。當前神經網絡方法用于抽樣子集通常屬于序列抽樣方法(Tillé, 2006)。使用序列抽樣時,如Gumbel分布這樣的排名分布被用來獨立地對給定全集中的每個元素進行排名,這產生了可能子集上的概率分布。要獲得大小為k的子集樣本,選擇最大(或最小)的k個元素。選擇最大k個元素(Top-k)的操作自然不是連續可微的,并且已經為Top-k操作開發了近似可微分程序。然而,這些方法對于抽樣大子集在時間和內存方面都是昂貴的。此外,使用這些方法時子集大小參數不是可微分的,且使用逐實例子集大小是麻煩的。在這項工作中,我們提出使用泊松和條件泊松抽樣之間的一個可微分替代方案作為序列抽樣的替代方案。這種方法效率高且可擴展,內存和計算成本低,且允許可微分的子集大小。接下來,我們考慮具有離散變量的神經網絡,并考慮正則化高斯函數以近似離散變量。

**研究問題4 高斯函數穩定性是否為訓練具有離散變量的神經網絡提供了一種可行的方法? **在第5章中,我們檢查了使用高斯函數穩定性概念作為訓練具有離散變量的神經網絡的正則化方法。用于學習具有離散變量的網絡的放松方法依賴于手動溫度調整,因為網絡沒有指導性激勵去獲得離散表示。這項工作提出了一種正則化方法,其中放松的程度作為穩定性項包含在損失函數中。粗略地說,高斯函數的噪聲穩定性是衡量其對噪聲的抵抗力的度量。Borell的等周定理(Borell, 1985)指出,對于某個固定體積的有界函數,其范圍為[0, 1],噪聲穩定性由半空間的指示函數最大化。鑒于半空間指示符在高斯空間中最大化噪聲穩定性,我們通過優化穩定性作為將高斯輸入轉換為二進制向量的簡單有效方法來開發我們的方法。在最后一章中,我們從高斯函數的諧波分析的角度考慮了一個層次模型,層次變分自編碼器。

**研究問題5 高斯分析對層次VAE的改進和后驗坍塌的緩解有何建議? **在第6章中,我們從高斯函數分析的角度檢查具有高斯變量的層次變分自編碼器。具有深層隨機層次的變分自編碼器已知存在后驗坍塌的問題,其中頂層回落到先驗并變得獨立于輸入。在本章中,我們提出通過引入一個由高斯分析激發的平滑參數來概括VAE神經網絡,以減少更高頻率分量并因此參數化函數的方差。我們證明,平滑操作在層次VAE目標的KL散度項中引入了偏差-方差權衡。我們進一步展示,在這種平滑下,VAE損失表現出一個相變,其中頂層KL散度在平滑參數的一個臨界值處急劇降至零,對于同一模型跨數據集是相似的。

付費5元查看完整內容

神經過程是一種模型家族,它使用神經網絡直接參數化從數據集到預測的映射。直接參數化這種映射使得在傳統上神經網絡會過擬合的小數據問題中使用表達性強的神經網絡成為可能。神經過程能夠產生校準良好的不確定性,有效處理缺失數據,并且易于訓練。這些屬性使得這個模型家族在如醫療保健或環境科學等廣泛的應用領域中顯得非常吸引人。

本論文在三個方面推進了神經過程。

首先,我們提出了卷積神經過程(ConvNPs)。ConvNPs通過構建一種稱為平移等變性的對稱性來提高神經過程的數據效率。ConvNPs依賴于卷積神經網絡而不是多層感知器。 其次,我們提出了高斯神經過程(GNPs)。GNPs直接參數化神經過程預測中的依賴性。當前對預測依賴性建模的方法依賴于一個潛在變量,因此需要近似推理,這削弱了方法的簡便性。 第三,我們提出了自回歸條件神經過程(AR CNPs)。AR CNPs在不對模型或訓練程序進行任何修改的情況下訓練神經過程,并在測試時以自回歸的方式展開模型。AR CNPs為神經過程框架配備了一個新的旋鈕,可以在訓練時將建模復雜性和計算開銷與測試時的計算開銷進行交換。 除了方法論上的進步,本論文還提出了一種軟件抽象,使得實現神經過程的方式可以組合。這種方法允許用戶通過以不同方式組合基本構建塊來快速探索神經過程模型的空間。

付費5元查看完整內容

神經網絡自動化了在計算機上表示對象及其關系的過程,包括從家庭用品到分子的一切。通過將不同實例轉換為共享的表示空間來獲得新的表示,其中數據的變化可以使用簡單的幾何量度量,如歐幾里得距離。本論文研究了這一空間的幾何結構及其對學習過程關鍵屬性的影響,包括獲得新技能所需的數據量、預測何時會失敗,以及學習的計算成本。我們檢驗了神經網絡表示的幾何結構的兩個基礎方面。 第一部分設計并研究了考慮到數據在表示空間中的位置的學習算法。專注于對比自監督學習,我們設計了a) 困難實例采樣策略和b) 控制模型學習哪些特征的方法。每種方法都在關鍵特性上產生了改進,如訓練速度、泛化和模型可靠性。

第二部分研究了如何使用非歐幾里得幾何來構建尊重物理數據中出現的對稱性和結構的網絡架構,為學習提供了強大的歸納偏差。具體來說,我們使用諸如實射影平面和光譜體這樣的幾何空間來構建a) 能夠尊重特征向量對稱性的可證明強大的神經網絡,這對于在圖結構數據上構建變壓器是重要的,以及b) 解決圖上的組合優化問題的神經網絡,如尋找大團或小割,這些問題在分子工程和網絡科學中出現。

計算機上對世界觀察的描述影響了計算問題解決過程的所有部分。因此,發現更適合簡單計算過程的描述或表示,幾十年來一直是計算科學進步的一個關鍵且持續的驅動力。與所有其他計算過程一樣,人工智能系統提取和使用的數據表示方式對其行為產生了關鍵影響,例如獲得新技能所需的數據量、預測何時會失敗,以及其學習的速度。

然而,現代基于深度學習的人工智能系統最重要的優勢之一是它們能夠處理基本的感知輸入,如圖像的單個像素,并在內部決定保留哪些來自像素級特征的信息,以及丟棄哪些。

除了自動化表示獲取之外,深度學習系統的另一個關鍵優勢是能夠在單一、連貫的空間中表示不同的數據點。例如,生活在極大的、高維空間中的圖像(例如,免疫組織化學圖像通常大小為1024×1024×3或更大)被轉換為相對較小、緊湊的幾千維空間。這種表示空間允許數據之間的比較,而這個空間的幾何屬性,如距離、方向和角度,不僅捕捉單個對象,還捕捉對象之間的關系。

然而,這種幾何性質通常是浮現的。也就是說,它不是直接學習的,而是作為使用低粒度監督(如類標簽)的端到端系統中的一個中間步驟學習的。這篇論文的目標是探索更明確編程這種幾何性質的思路、方法和新方向。通過明確處理,希望能夠更大程度地控制表示空間的屬性,使得使用這個空間來推理世界變得更加容易。 這篇論文有兩個主要部分。第一部分研究對比表示學習,這是一種學習歐幾里得結構表示的通用框架。本部分從第二章開始,概述了貫穿整篇論文的對比學習的一般介紹。然后,第三章提出以下問題:對比學習的負樣本應該如何生成?負樣本是對比學習中兩個關鍵設計選擇之一,但大多數以前的負樣本采樣方法都是簡單的,例如,隨機均勻采樣。我們引入了根據它們在表示空間中的位置采樣負樣本的技術。通過以位置依賴的方式采樣負樣本,我們能夠生成更有信息量的樣本,加速學習并提高最終表示空間的質量,以用于下游任務。在第四章中,我們更仔細地檢查對比學習模型實際編碼了哪些輸入數據特征——在許多可能性中。不出所料,我們展示了正負樣本的生成方式影響特征學習,并概述了理解這種關系的直觀方法。更令人驚訝的是,我們還發現調整采樣的明顯方法——例如,調整負樣本的難度——并沒有帶來明確的勝者。不同的采樣方法在某些下游任務上表現更好,在其他任務上表現更差。作為回應,我們探索了使用表示空間幾何性質修改樣本的新原則。我們的隱式特征修改方法擾亂嵌入,以去除用于解決對比任務的任何特征,然后要求模型使用新特征重新解決對比任務。這迫使模型尋找新的和不同的特征來使用,從而鼓勵模型不忽略它之前可能忽略的輸入數據的某些方面。 第五章退一步重新考慮表示空間應該具有的結構。除了編碼數據之間的相似性,第五章還論證了將數據的復雜變換編碼為嵌入空間中的可預測、簡單變換也是有價值的。具體來說,我們引入了一種訓練方法,該方法強制數據的增強——裁剪、旋轉等——對應于球形嵌入空間的正交變換。我們發現我們的方法導致了改進的下游性能,以及對其他對比方法不敏感的數據特征的增加敏感性。

本節的最后一章,第六章,探討了大規模的對比學習。隨著模型參數和數據集大小擴展到數億甚至數十億,考慮模型性能的擴展不僅僅是重要的,還有訓練它們的成本。性能可靠地擴展,但成本增長過快的訓練方法最終會輸給性能增長更慢,但成本增長更慢的方法。由于對比學習在大規模時相對昂貴,因為它使用了每個批次樣本的兩個完整副本。另一個重新出現的訓練方法——掩碼自編碼器(MAE)——非常高效,因為它只使用每個批次樣本的25%的一個副本,但性能相對較差,特別是對于少樣本的下游任務。我們的貢獻是引入了CAN,一種對比學習和MAE的混合體,享有更好的效率-性能權衡。與對比學習相比,它的成本降低了70%,同時性能優于對比學習和MAE。對CAN的一個重要解釋是幾何的:MAE學習了強大的嵌入,但由于它具有非線性的視覺變壓器解碼器,這可能輕易地撤銷非線性變換,因此未能以線性可分的方式安排其幾何結構。通過向MAE的嵌入空間添加對比成分(即,在解碼器之前),CAN迫使嵌入之間的歐幾里得距離具有意義,從而大大提高了少樣本性能。

這篇論文的第二部分探索了表示空間幾何性質與問題結構之間的關系。第七章考慮對稱性,特別是特征向量的對稱性(例如,符號對稱性:如果??是特征向量,那么???也是)。特征向量在機器學習中廣泛使用。特別是對于圖上的學習,譜理論多年來為許多問題提供了堅實的數學基礎。這在當今仍然延續,圖的拉普拉斯特征向量被廣泛用作構建圖上變壓器的節點位置編碼。然而,符號對稱性(以及當特征值的重數大于1時出現的更一般的基礎對稱性)是一個問題,因為神經網絡對符號變化不變,因此在輸入數據的不相關變化下不可靠地改變預測。

為了解決這個問題,我們引入了一個符號不變的架構SignNet和一個基礎不變的BasisNet——這些模型內置了特征向量的對稱性。我們的模型在使用拉普拉斯位置編碼時顯著提高了性能,并且在數學上非常強大:SignNet可以近似所有符號不變函數。SignNet的表達能力基于其嵌入空間的幾何結構。我們展示了特征向量的理想空間是空間R??/{?1, +1},通過將??和???粘合在一起成為一個點,消除了符號歧義。關鍵的是,這個商空間是一個被廣泛研究的流形,稱為實射影平面。使用實射影平面的幾何屬性——特別是,它可以在一個2??維歐幾里得空間中被渲染——我們能夠設計SignNet的各個部分,以便它們始終在歐幾里得空間中處理向量,但這些歐幾里得空間以某種方式連接起來,以反映實射影平面,由此我們得出了普適表達性的結果。對BasisNet的分析也以同樣的方式進行,但使用相應的商空間,即Grassmanian。

付費5元查看完整內容

近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。

在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。

在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。

//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092

記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"

"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"

"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。

利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"

導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容

對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性。

  • 對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。
  • 將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。
  • 提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性

付費5元查看完整內容
北京阿比特科技有限公司