雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。
在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。
由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。
許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。
在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。
在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。
機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。
首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。
然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。
最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930
機器學習是一種從數據中提取預測模型,從而能夠將預測泛化到未觀察數據的技術。根據已知數據集選擇良好模型的過程需要進行優化。具體地說,優化過程在約束集中生成一個變量來最小化目標。這個過程包含了包括神經網絡訓練在內的許多機器學習管道,這將是我們在本文中進行理論分析的主要試驗場。在各種優化算法中,梯度方法因其高維可擴展性和反向傳播的自然局限性而成為深度學習中的主導算法。然而,盡管基于梯度的算法很受歡迎,但我們從理論的角度對機器學習環境中的這種算法的理解似乎還遠遠不夠。一方面,在現有的理論框架內,大多數上下界是封閉的,理論問題似乎得到了解決。另一方面,理論分析很難產生比實踐者發現的經驗更快的算法。本文回顧了梯度法的理論分析,指出了理論與實踐的差異。然后,我們解釋了為什么會發生不匹配,并通過發展由經驗觀察驅動的理論分析,提出了一些初始解決方案。
//dspace.mit.edu/handle/1721.1/143318
機器學習 (ML) 是人工智能 (AI) 的一個分支,它從數據中學習以識別模式、做出預測或做出決策,而人工干預最少。所有的機器學習技術都以數據為輸入,針對不同的任務,即分類、回歸、聚類、降維和排序等。
受益于海量數據和高計算資源,機器學習應用在我們的日常生活中變得無處不在。這些應用程序將人們從重復和復雜的工作中解放出來,并允許他們輕松獲取有用的信息。例如,人臉識別系統可以幫助人類進行識別和授權。搜索引擎通過索引、搜索和匹配來收集和組織與給定查詢相關的信息。導航應用程序為自動駕駛汽車推薦到達目的地的最佳路徑。
計算機視覺 (CV) 研究計算機如何獲取、處理、分析和理解數字圖像。 ML 的進步促進了 CV 的發展,尤其是圖像分類任務。深度學習(DL)是一種強大的機器學習技術。它允許設計可以自動識別圖像視覺內容的深度神經網絡(DNN)。從數千張動物、地點、人、植物等圖像中學習,DNN 能夠以高可信度檢測未知圖像包含的內容。
在過去的幾十年中,DNN 在圖像分類領域迅速發展。卷積神經網絡 (CNN) [LBBH98] 獲得有用的語義視覺特征。典型的深度 CNN 具有許多層和復雜的架構,例如 AlexNet [KSH12]、Inception [SVI+16]、ResNet [HZRS16a]、DenseNet [HLVDMW17] 等。這些是少數著名的 DL 或 DNN 示例。這些網絡從圖像的高維表示空間計算梯度,以找到如何分離類別。最近的 DNN 模型以高置信度實現了分類、檢測和分割任務。 DNN 模型在 ImageNet [RDS+15](一個具有挑戰性和現實性的數據集)上的性能接近于人類。
DNN 的性能通常與其深度有關:網絡越深,性能越好。然而,由于大量層的深度堆疊以獲得語義視覺特征,DNN 的高復雜性導致訓練困難。這可能是由于反向傳播期間梯度消失,稱為梯度消失問題。存在許多 DNN 原始架構的變體,試圖規避此類問題。這包括來自 ResNet [HZRS16a] 和Transformer [VSP+17] 的剩余單元。在訓練過程中跳過層的剩余單元有效地簡化了網絡,加快了訓練過程并提供了探索更大的特征空間。然而,它也使 ResNet 更容易受到擾動。 Transformer [VSP+17] 使用自我注意的概念,幫助網絡專注于重要特征。總體而言,DNN 的所有這些進步都增強了分類等任務的性能。 DL 不僅成功地處理了大量圖像數據,而且還設法處理包含噪聲、遮擋或其他視覺偽影的圖像。
2013 年,研究人員發現,對圖像進行輕微修改會導致分類器做出錯誤的預測 [SZS+13]。令人驚訝的是,這些修改幅度很小,人眼幾乎察覺不到。這一發現揭示了 DNN 的脆弱性
對抗性現象廣泛影響 ML。這會影響不同的媒體,例如圖像[SZS+13、GSS14、TPG+17]、音頻[CW18、YS18、YLCS18]和文本[RDHC19、ZSAL20、ASE+18]。此外,攻擊者不僅會生成保存為數字數據的對抗性樣本,例如圖像,在計算機中,但也可以在物理世界中創建對抗性樣本,例如對抗性補丁 [TVRG19]。這些是打印的圖片和 3D 對象 [KGB16, SBBR16],由相機等視覺傳感器捕獲,并影響使用它們的 ML 應用程序。
對抗性擾動是一種無形的擾動,它會誤導 DNN 將擾動的輸入分類為不正確的類別。例如,通過對抗性擾動,可以使分類器將貓分類為狗,如圖 1.1 所示。此外,對抗性現象在分類器之間轉移。利用 DNN 的某個漏洞的攻擊可能會欺騙其他 DNN,無論他們使用什么架構或訓練集。
圖 1.1 – 此圖片來自 Nicholas Carlini 的攻擊機器學習演講:關于神經網絡的安全性和隱私。它通過對抗性擾動顯示貓的圖像被歸類為狗。
將一個視覺內容修改為另一個是一個大問題 [EEF+18, TVRG19, TRC19a, YLDT18, GSS14]。攻擊者的目標是欺騙分類器做出不適當決策,可以方便地進行對抗性擾動。這是令人不安和危險的,尤其是當網絡決策危及生命時。例如,將特定形狀和顏色的小紙片放在一些路標上會阻止它們被識別 [BMR+17]。穿著具有特定紋理的徽章裝飾的布會使人對旨在檢測行人存在的算法不可見 [XZL+20]。考慮到所有這些潛在風險,了解對抗樣本的基本問題以確保算法公平、正確地處理內容至關重要。對抗性機器學習的典型研究任務包括攻擊和防御。研究人員研究這兩項任務是為了 i) 做出實際貢獻和 ii) 理解這一現象。
攻擊旨在對目標 DNN 產生對抗性擾動。他們將不可見性和錯誤分類形式化為優化問題。攻擊的難度取決于攻擊者是否知道網絡的架構。基本情況是攻擊者可以訪問網絡的架構和參數,即白盒環境。他們受益于這些信息來制造對抗性擾動。
在不知道架構和參數的情況下攻擊網絡,即黑盒設置,是一個更復雜的情況。可遷移性意味著對抗樣本在不同的網絡和不同的機器學習模型[GSS14,TPG+17]中泛化得非常好。這表明為欺騙局部分類器而生成的對抗樣本也有一定的概率欺騙未知分類器。它提供了一種在黑盒環境中攻擊 DNN 的工具。
即使約束很嚴格,現有的攻擊也會成功地產生對抗性擾動。這些非同尋常的對抗性擾動表現出對抗性現象的不同特性和 DNN 的脆弱性。令人驚訝的是,例如,單像素攻擊 [SVS19] 通過僅修改輸入圖像的一個像素來改變網絡的預測。通用擾動 [MFFF17, HD18] 表明,一個特定的擾動足以導致給定數據集中的每張圖像都被錯誤分類。
防御旨在提高 DNN 針對對抗性攻擊的魯棒性。他們要么添加一個額外的組件來幫助網絡抵御對抗性攻擊,要么提高網絡的內在魯棒性。
引入額外組件的防御保持網絡不變。對圖像應用預處理是該類別中的一種特殊防御方法。他們將對抗性擾動視為一種特殊類型的噪聲,并嘗試通過轉換 [MC17, GRCvdM17, STL+19] 將其去除。將對抗樣本視為惡意數據的人使用檢測器來識別對抗樣本并拒絕或糾正它們 [XEQ17, LLS+18]。這些防御很簡單的,很容易適應給定的網絡,但是,在白盒環境下通常很容易受到攻擊 [ACW18]。
提高內在魯棒性的防御嘗試改進訓練方法 [GSS14, MMS+17]、增強架構 [PMW+16] 或高級損失函數 [HXSS15, MMS+17, TKP+17]。對抗性訓練 [GSS14, MMS+17] 作為該類別的典型防御,通過將對抗性樣本作為訓練數據的一部分來改進訓練方法。這種防御背后的假設是,DNN 的脆弱性是由于訓練數據的不足造成的。這些防御措施在魯棒性和準確性方面都表現不錯,但是通常很復雜,因為它們需要從頭開始訓練網絡。
在本論文中,我們試圖理解對抗性現象。我們探討了如何生成對抗樣本以及如何保護它們。通過對對抗性 ML 的多個方面的分析,我們發現要研究的關鍵要素包括:
速度。速度對于對抗性攻擊和防御都很重要。盡管耗時的過程(例如優化創建對抗性擾動和訓練 DNN 模型)會產生高質量的結果,但如果需要很長時間來生成對抗性樣本、驗證輸入或構建魯棒的模型是不可行的。
不可見性。失真的大小被廣泛用于估計擾動的不可見性,但它并不等同于不可見性。不可見性表明從神經學和心理學的角度來看,人類無法察覺這種擾動。在計算機科學中衡量不可見性仍然是一個懸而未決的問題。
失真。作為衡量不可見性質量的替代計劃,許多攻擊估計了失真的程度。當幅度很小時,人類幾乎不會感知到擾動。失真的大小對防御也很重要。通常,對具有較大失真的對抗性擾動的防御對對抗性影響更為穩健。它是對抗性攻擊和防御的重要指標。
可轉移性。可轉移性描述了為欺騙目標網絡而生成的對抗性樣本成功欺騙其他網絡的可能性。可轉移性對于黑盒環境下的攻擊至關重要,即攻擊者只能獲取網絡的輸入輸出。
我們的工作受到速度、失真和不可見性的概念的啟發。我們測試了對抗性擾動的可轉移性。為了提高對抗性擾動的質量,我們在兩個方向上工作,即產生不可見的對抗性擾動和有效地創建低幅度的對抗性擾動。為了防御攻擊,我們提出了一種輕量級算法,該算法在魯棒性和準確性方面都取得了不錯的表現。我們強調速度和性能。
為了讓讀者更好地理解,我們首先在第 2 章中概述了 DL 中的對抗性上下文。這包括 1)理解我們的工作所需的 ML 和 DNN 的最低知識,2)對抗性問題的基本定義和3) 對現有相關工作的高級審查,包括產生對抗性擾動和增強對抗攻擊的魯棒性。
成功攻擊率和失真幅度是衡量對抗性擾動質量的兩個標準。在第 3 章中,我們介紹了對抗性擾動的標準評估,包括數據集、網絡和評估指標。此外,在第 3.3 節中,我們提出了我們的評估指標,允許在有針對性的失真攻擊和有針對性的成功攻擊之間進行公平比較。
我們研究了兩種執行攻擊的算法,以便了解不可見性(見第 4 章)和創造速度(見第 5 章)。
平滑的對抗性擾動。在第 4 章中,我們研究了不可見性的定義,并將其表述為一個約束函數,以便可以直接將其添加到現有攻擊中。我們推測,當擾動像素與其相鄰像素之間的相似性類似于其原始圖像的相似性圖時,對抗性擾動是不可見的。我們成功地產生了平滑的對抗性擾動,并且令人驚訝地產生了少量的失真。這些平滑的對抗性擾動是肉眼看不到的,即使對抗性樣本被人為放大。
快速、低失真的對抗樣本。為了在不降低對抗樣本質量的情況下加速攻擊,我們利用對抗擾動的具體知識改進了優化算法。在第 5 章中,我們提出了邊界投影(BP)攻擊,它根據當前的解決方案改變搜索方向。當當前解決方案不是對抗性的時,BP 攻擊會沿著梯度方向長搜索,以引導當前解決方案跨越網絡邊界。當當前解決方案是對抗性的時,BP 攻擊沿著邊界搜索以引導當前解決方案以減少失真的幅度。與最先進的攻擊相比,BP 攻擊避免了對僅跟隨梯度引起的振蕩計算的浪費。這為 BP 攻擊贏得了速度。實驗表明,BP攻擊成功地產生了幅度很小但攻擊成功率很高的對抗性擾動。
為了更全面地了解對抗性 ML 問題,我們研究了防御策略。第 6 章介紹了補丁替換防御。
補丁更換。與對抗性擾動相比,DNN 對隨機噪聲的魯棒性更強。為了理解它,我們研究了通過 DNN 的失真幅度(隨機噪聲/對抗性擾動)的轉變。受 DNN 內部隨機噪聲和對抗性擾動的不同行為啟發,我們在第 6 章提出了一種名為補丁更換的反應性防御。補丁替換試圖通過用合法訓練數據中最相似的鄰居替換可疑輸入(圖像/特征)的補丁,來消除推理中的對抗性影響。即使攻擊者知道補丁替換防御,訓練數據的使用也會增加攻擊的復雜性。由于我們不僅考慮圖像,還考慮網絡的中間特征,因此補丁替換比其他基于輸入轉換的防御更為穩健。一個缺點是在訓練時毒化數據集會給補丁替換策略帶來麻煩。這連接到對抗性后門。
最后,我們給出了結論,并在第 7 章提出了一些觀點。簡而言之,我們在理解對抗性 ML 問題方面的貢獻是 i)在另一個視圖中定義不可見性,并提出一種在我們的定義下產生平滑對抗性擾動的方法; ii) 提出一種算法,以高成功率和低失真快速生成對抗樣本; iii),我們成功地提出了一種不復雜的反應式防御,并在不嚴重降低網絡準確性的情況下提高了對攻擊的魯棒性。
圖 5.8 – ImageNet 上針對 InceptionV3 的原始(左)、對抗(頂行)和縮放擾動(下)圖像。這五幅圖像是需要最強失真的 BP 最差的 5 幅圖像,但這些圖像小于所有其他方法所需的失真(紅色表示偽造的圖像不是對抗性的)。擾動被反轉(低為白色;高為彩色,每個通道)并以相同的方式縮放以進行公平比較。
生物醫學數據收集的最新進展允許收集大量數據集,測量數千到數百萬個單細胞中的數千個特征。這些數據有可能以以前不可能的分辨率推進我們對生物機制的理解。然而,了解這種規模和類型數據的方法很少。盡管神經網絡在監督學習問題上取得了巨大進步,但要使它們對更難表示監督的數據中的發現成為有用,還有很多工作要做。神經網絡的靈活性和表現力有時會成為這些監督較少的領域障礙,從生物醫學數據中提取知識就是這種情況。在生物數據中更常見的一種先驗知識以幾何約束的形式出現。
在本論文中,我們旨在利用這些幾何知識來創建可擴展和可解釋的模型來理解這些數據。將幾何先驗編碼到神經網絡和圖模型中,使我們能夠描述模型的解決方案,因為它們與圖信號處理和最優傳輸領域相關。這些鏈接使我們能夠理解和解釋這種數據類型。我們將這項工作分為三個部分。第一個借用圖信號處理的概念,通過約束和結構化架構來構建更具可解釋性和性能的神經網絡。第二個借鑒了最優傳輸理論,有效地進行異常檢測和軌跡推斷,并有理論保證。第三個研究如何比較基礎流形上的分布,這可用于了解不同的擾動或條件之間的關系。為此,我們設計了一種基于聯合細胞圖上擴散的最佳傳輸的有效近似。總之,這些工作利用我們對數據幾何的先前理解來創建更有用的數據模型。我們將這些方法應用于分子圖、圖像、單細胞測序和健康記錄數據。
數據分析領域在不斷變化。有人問是否會有一天我們不再需要新算法,數據分析領域就像從現成的工具中挑選合適的工具并將其應用于一些新數據一樣簡單。答案當然是否定的,只要數據、計算機或問題不斷變化,我們將始終需要新的算法和方法。
數據生成、處理和存儲方面的進步為我們提供了前所未有的從這些數據中學習的能力。在某些領域,幾何數據分析領域試圖利用點之間的局部關系來理解數據。
隨著廉價測序技術的出現,單細胞數據分析領域直到最近才成為可能,使我們能夠同時測量單個細胞的許多特征。這導致來自底層連續流形的非常高維和嘈雜的數據集。這種對數據生成過程的假設是整個工作中的一個共同主題,我們將看到其他先驗知識開始發揮作用,這些先驗最好使用一種或另一種文獻進行描述。
本論文從第 2 章中對圖信號處理、深度學習和最優傳輸的概述開始。雖然這些領域是從不同的文獻中發展而來的,但每個領域都試圖理解從一些基礎度量空間中采樣的點或點的分布如何相互關聯。在本論文中,我們融合了來自這些領域的想法,以深入了解生物醫學數據,重點關注單細胞轉錄組數據以及其他圖形和圖像數據集。這些數據類型的共同點是它們要么在圖數據集中具有點之間的一些內在關系,要么假設是從一些可以在本地表示的底層低維流形中采樣的。
本論文分為三個部分,第一部分側重于融合深度學習和圖信號處理,通過借鑒圖信號處理的思想來制作更具可解釋性的深度學習組件,并借鑒深度學習的思想來制作從圖信號開發性能更高的固有可解釋模型加工。第二部分融合了深度學習和最優傳輸,以創建具有可解釋屬性的深度學習模型。最后,在第三部分中,我們將其完整循環,將最優傳輸和圖形信號處理相結合,以一種基于嵌入的快速方法來優化從底層流形采樣的點的傳輸。這種基于嵌入的方法使我們能夠快速逼近許多分布之間的 Wasserstein 距離,而無需解決成對優化問題。
在第 3 章中,我們首先使用來自圖信號處理的思想提出了一種更具可解釋性的深度學習架構。一層中的神經元在排列下是無序的和等效的,因此從Run-to-Run可能很難找到負責特定功能的神經元。我們通過在給定神經網絡層中的神經元之間施加圖結構來向層添加結構。這導致更多可重復和可解釋的層,其中神經元將通過打破標準架構中權重對稱性而不降低表達性,基于圖結構從Run-to-Run執行相同的功能。
在第 4 章中,我們將深度學習的思想引入幾何散射。先前的工作表明,幾何散射在性能方面與從深度學習文獻中開發的當前圖神經網絡架構具有競爭力 [73],但對新數據不那么靈活,依賴于許多固定參數。在本章中,我們研究了更靈活的幾何散射網絡的好處,我們稱之為可學習幾何散射(LEGS),它允許我們學習固定的散射參數。我們表明這在生物醫學圖中特別有用,其中有各種各樣的圖,從小型密集連接圖到大型稀疏連接圖。事實證明,LEGS 的額外靈活性有助于適應這些不同的數據類型。
在第 5 章中,我們將來自最優傳輸的想法應用于無監督異常檢測問題。這里的目標是給定一個正常點的訓練樣本,建立一個可以檢測異常點的模型。例如,在給定一組狗圖像的圖像中,檢測測試集中的貓。一般來說,這個問題是使用基于重建的方法來解決的,訓練一個容量有限的模型來重建訓練集,然后根據這個模型重建它們的好壞對測試圖像進??行評分,這個想法是模型將無法重建遠離訓練集的點.我們指出了這種方法的三個問題,并提出了一種基于容量受限編碼器的不同方法,該編碼器直接對輸入點進行評分。我們將其與解決 Wasserstein 距離的對偶相關聯,并將其應用于理論以提供模型輸出的保證。
在第 6 章中,我們將稱為連續歸一化流 (CNF) [38] 的特定深度學習模型與動態最優傳輸聯系起來。然后,我們使用它來模擬單個細胞隨時間的軌跡。當前單細胞轉錄組測量的一個問題是它們具有破壞性——測量細胞的狀態會破壞細胞。這使得隨著時間的推移測量單個細胞變得困難。在這里,我們在多個時間點收集人口水平數據,并使用正則化 CNF 推斷單個細胞軌跡。我們表明,我們可以根據單細胞時間序列數據更準確地模擬細胞狀態隨時間的變化。
在第 7 章中,我們將流形上的最優傳輸與該圖上的一系列多尺度擴散聯系起來。通過比較圖上分布的擴散行為,我們可以快速估計推土機的距離,特別是當我們在 Wasserstein 度量中尋找具有多種測地線地面距離的最近鄰分布時。我們展示了如何將現有的多尺度方法推廣到推土機的距離計算中,并在將其擴展到圖形域的同時提高速度和準確性。
在第 8 章中,我們將第 7 章的工作擴展到不平衡最優傳輸,它融合了推土機距離(Earth-Mover distance)和無度量的總變化距離。直觀地說,這允許創建和銷毀(成本)而不是傳輸質量。我們將這種新的不平衡傳輸應用于醫學概念知識圖譜,以理解從患者筆記中提取的概念。
本論文的以下章節基于以下出版物和預印本。完整出版物的鏈接://alextong.net/publications
圖 8.6:使用 TV 距離(頂部)和 UDEMD 距離(底部)在 Snomed-CT 圖上建模為信號的患者嵌入,由患者診斷著色。 UDEMD 更好地組織空間,如 (b-c) 中的選定項、(d) 中的混淆矩陣的差異以及 (e) 中診斷的 k-最近鄰分類精度所指出的那樣。在 (b) 中,請注意 TV 嵌入(頂部)在顯示無法通過診斷區分的顱內出血的患者子集之間產生虛假分離(由于信號中的噪聲)。另一方面,UDEMD 嵌入(底部)顯示了具有此診斷的患者的連續體。對于以綠色顯示的腦腫塊或腫瘤患者也是如此。 (c) UDEMD 嵌入將患有急性冠狀動脈綜合征的患者組織成一個連續的軌跡,出院的患者(較輕的病例)朝向底部,更嚴重的病例朝向頂部。TV嵌入再次分裂了這個軌跡。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
深度學習是一組令人興奮的神經網絡新技術。通過結合先進的訓練技術和神經網絡架構組件,現在可以創建神經網絡,該神經網絡可以處理表格數據、圖像、文本和音頻作為輸入和輸出。深度學習允許神經網絡以類似人腦功能的方式學習信息的層次結構。本課程將向學生介紹經典的神經網絡結構,卷積神經網絡(CNN),長短期記憶(LSTM),門通遞歸神經網絡(GRU),一般對抗網絡(GAN)和強化學習。本課程將涵蓋這些在計算機視覺、時間序列、安全、自然語言處理(NLP)和數據生成方面的應用。高性能計算(HPC)方面將演示如何在圖形處理單元(GPU)和網格上利用深度學習。重點主要放在深度學習對問題的應用上,并介紹一些數學基礎。學生將使用Python編程語言,使用谷歌TensorFlow和Keras實現深度學習。在學習這門課程之前,不需要了解Python;但是,假設您熟悉至少一種編程語言。本課程將以混合形式提供,包括課堂教學和在線教學。
概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。
深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。
本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。
我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。
在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。
凸優化作為一個數學問題已經被研究了一個多世紀,并在許多應用領域的實踐中應用了大約半個世紀,包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題,以及機器學習的具體應用。
簡介: 深度學習無處不在。例如,當在線使用許多應用程序甚至在購物時,都會看到它。我們被深度學習所包圍,甚至根本沒有意識到這一點,這使學習深度學習變得至關重要,因為可以利用它做很多事情,這遠遠超出了您的想象。當您學習本書時,您可以在Mac,Linux或Windows系統上運行的許多示例代碼。您也可以使用Google Colab之類的工具在線運行代碼。 本書的第一部分為您提供了一些入門信息,除了安裝一些必備軟件,還會了解一些基本數學知識。
目錄:
說明
Chapter 1:深度學習介紹
Chapter 2:機器學習介紹
Chapter 3:使用python
chapter 4:利用深度學習看框架
chapter 5:回顧數學與優化
chapter 6:線性回歸基礎
chapter 7:神經網絡
Chapter 8:構建基礎神經網絡
Chapter 9:深度學習
Chapter 10:解釋卷積神經網絡
Chapter 11:循環神經網絡
Chapter 12:圖片分類
Chapter 13:循環神經網絡
Chapter 14:語言處理
Chapter 15:生成音樂和虛擬藝術
Chapter 16:生成對抗網絡
Chapter 17:深度強化學習
Chapter 18:深度學習的應用
Chapter 19:十個必備的深度學習工具
Chapter 20:十個使用深度學習的場景