作為一種數據生成和表示學習的方法,生成模型在現代機器學習和統計學中獲得了相當大的興趣。生成對抗網絡(Generative Adversarial Networks, GANs)和變分自編碼器(Variational Autoencoders, vae)是兩類重要的隱式生成建模方法,它們對隱變量和數據變量之間的轉換進行建模,以模擬采樣過程,而無需顯式地指定概率分布。由于深度學習的最新發展,生成模型在廣泛的應用中取得了顯著的經驗性能。
盡管生成模型在經驗上取得了成功,但它們的理論屬性不太合理,尤其是GANs的理論屬性。這激發了本文的第一個主題,即f-散度GAN的統計分析。該理論產生了一類具有更高統計效率的GAN新算法,并揭示了統計問題,包括現代算法(GAN)和經典方法(最大似然估計)之間的關系,以及各種f-散度的行為。在雙向生成模型的原則框架下,提供了GAN和VAE的統一視圖。將所提出的方法廣泛應用于計算機視覺和自然語言處理的實際任務,并取得了最先進的性能。本文提出一種新的模型架構和學習公式,基于高效的GAN方法,用于連貫和多樣化的文本生成。
在人類對現實世界的認知和理解中,結構是普遍存在的、固有的。本文的第二部分將重點轉移到生成模型的結構屬性上。這方面的一個新興領域是解耦表示學習,它以現實世界的數據是由一些解釋因素生成的為前提,旨在恢復生成因素及其基本結構。數據的解耦表示在深度學習模型的可解釋性、下游學習任務和可控生成方面有許多好處。解纏的難度取決于可用的監督數量以及基礎結構的復雜性。眾所周知,解纏在完全無監督的環境中是不可能的。現有的解纏文獻大多考慮簡單的結構,如在給定一些觀察輔助變量的情況下的獨立性或條件獨立性,而更普遍(且具有挑戰性)的結構是因果結構,其中潛在因素由因果圖連接。本文形式化了之前方法在因果情況下的失敗,提出了一種基于具有因果先驗的雙向生成模型的因果因素解纏方法。對所提算法的可辨識性和漸近收斂性進行了理論證明。開發了一種非參數方法,從觀察數據中學習因果結構。
//lbezone.hkust.edu.hk/bib/9903412#
**深度神經網絡(dnn)在人工智能(AI)的廣泛應用中蓬勃發展。深度神經網絡的普遍采用可以歸因于其對不同任務的高度可定制性。**事實上,研究人員已經為不同的應用設計了DNNs的變種,例如,用于視覺識別的卷積神經網絡(CNNs)、用于圖像合成的生成對抗網絡(GANs)、用于時間序列處理的循環神經網絡(RNNs)等。所有這些變體都具有高度不同的網絡拓撲和訓練目標。
//dataspace.princeton.edu/handle/88435/dsp01zk51vm00t
盡管DNNs取得了成功,但人們越來越關注DNNs的效率。當前的DNN資源匱乏,為它們在資源有限的邊緣設備上部署設置了困難的障礙。然而,深度神經網絡應用的廣泛性增加了發現高效的不同變體深度神經網絡的難度。由于這種關鍵的多樣性,很難產生一種通用方法來獲得高效的DNN,并在不同的應用程序中具有令人滿意的性能。
本文通過一個簡單而直觀而有效的概念,解決了不同領域的深度神經網絡高效設計的挑戰:深度神經網絡本身是為不同的學習目標定制的,提高其效率的方法也應該是定制的。有了這個概念,本文提出設計高效CNN、GANs和RNN的方法。本文首先提出了一種CNN壓縮算法——類判別壓縮(CDC),與CNN的類判別訓練目標無縫契合,并在不損失精度的情況下為ImageNet上的ResNet50提供了1.8倍的加速。對CNN壓縮的通道剪枝進行了深入研究。在分類精度目標的驅動下,本文提出一種進化框架,以自動發現優于手動設計的可遷移剪枝函數。本文進一步研究了GAN圖像合成的另一種應用。GAN被訓練成合成真實的內容,從而提出了一種內容感知的GAN壓縮方法,將最先進的模型加速了11倍,而圖像質量損失可以忽略不計。最后,我們將研究擴展到系統設計領域,我們的目標是通過構建高效的RNN數據預取器來緩解內存墻。本文提出一種多架構協同設計策略,將最先進的神經預取器速度提高15倍,性能甚至更好。
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
圖聚類是無監督學習中的一個基本問題,在計算機科學和分析現實世界數據中有著廣泛的應用。在許多實際應用中,我們發現聚類具有重要的高層結構。這在圖聚類算法的設計和分析中經常被忽視,因為這些算法對圖的結構做了強烈的簡化假設。本文討論了聚類結構是否可以有效學習的自然問題,并描述了四個用于學習圖和超圖中聚類結構的新算法結果。論文的第一部分對經典的譜聚類算法進行了研究,并對其性能進行了更嚴格的分析。這一結果解釋了為什么它在更弱、更自然的條件下工作,并有助于縮小譜聚類算法的理論保證與其優秀的經驗性能之間的差距。
論文的第二部分在前一部分的理論保證的基礎上,表明當底層圖的簇具有一定的結構時,少于k個特征向量的譜聚類能夠比使用k個特征向量的經典譜聚類產生更好的輸出,其中k是聚類的個數。本文首次討論和分析了少于k個特征向量的譜聚類的性能,并表明一般的聚類結構可以用譜方法學習。第三部分考慮使用局部算法高效地學習簇結構,其運行時間僅依賴于目標簇的大小,且與底層輸入圖無關。經典的局部聚類算法的目標是找到一個與圖其他部分稀疏連接的簇,本文的這一部分提出了一種局部聚類算法,它可以找到一對彼此緊密連接的簇。這一結果表明,即使在現實世界中普遍存在的大圖中,某些聚類結構也可以在局部環境中有效地學習。
論文的最后研究了超圖中密集連接聚類的學習問題。該算法基于一種新的熱擴散過程,擴展了最近在超圖譜理論方面的一系列工作。它允許在建模對象的高階關系的數據集中學習簇的結構,可以應用于有效分析在實踐中發生的許多復雜數據集。在不同領域的合成數據集和真實數據集上進行了廣泛的評估,包括圖像分類和分割、遷移網絡、合著網絡和自然語言處理。實驗結果表明,新提出的算法是實用、有效的,可以立即應用于實際數據的聚類結構學習。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。
本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。
第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。
遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。
在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。
這篇論文在機器學習領域做出了一些貢獻,特別是在圖推理任務。每篇文章都研究并改進了幾種圖推理應用中的泛化: 經典圖分類任務、組合視覺推理和神經網絡圖參數預測的新任務。
在第一篇文章中,我們研究了圖神經網絡中的注意力機制。雖然注意力在GNN中得到了廣泛的研究,但它對泛化到更大的噪聲圖的影響還沒有被深入分析。我們證明,在合成圖任務中,可以通過仔細初始化GNN的注意力模塊來提高泛化能力。我們還開發了一種方法,降低了注意力模塊對初始化的敏感性,提高了實際圖任務的泛化能力。
在第二篇文章中,我們討論了將問題泛化到視覺場景中罕見或不可見的物體組合和關系。以往的工作多以頻繁的視覺構圖為主,構圖泛化能力較差。為了緩解這一問題,我們發現將損失函數與場景圖的結構進行歸一化是很重要的,這樣可以更有效地利用訓練標簽。用我們的損失訓練的模型顯著提高了合成泛化。
在第三篇文章中,我們將進一步討論視覺合成泛化。我們考慮一種數據增強方法,即在訓練數據中添加罕見的和不可見的成分。我們開發了一個基于生成對抗網絡的模型,該模型根據我們通過擾動真實場景圖獲得的罕見或不可見的場景圖生成合成視覺特征。我們的方法不斷改進合成的泛化。
在第四篇文章中,我們研究了在不可見的深度神經結構中預測參數的新任務中的圖推理。我們的任務的動機是由于用于訓練神經網絡的迭代優化算法的局限性。為了解決我們的任務,我們開發了一個基于Graph HyperNetworks的模型,并在我們的神經架構圖數據集上訓練它。我們的模型可以在一次向前傳遞中預測不可見的深度網絡(如ResNet-50)的性能參數。該模型可用于神經結構搜索和遷移學習。
//atrium.lib.uoguelph.ca/xmlui/handle/10214/26824
我們的世界是一個復雜的組合系統,簡單的組件用來創建更復雜的組件,所有組件以一種非平凡的方式交互。其中一個組成部分就是人類,人類天生就有能力積累多樣化的多領域知識,并學習周圍世界的豐富組成結構。這種知識使人類能夠輕松地解決大量復雜的任務。例如,給定一個復雜動態3D場景的靜態2D圖像,人類能夠識別物體,它們的部分,它們之間的關系,并預測場景中的未來事件。人類甚至可以預測場景的地理和人口背景,并推斷場景的情感等抽象屬性(圖1.1,a)。工程旨在開發能夠替代人類執行此類任務的系統和算法,特別是重復性、費力或危險的任務。在一些實際場景中,如理解2D圖像,這些系統需要從傳感器記錄的輸入中恢復原始成分結構(圖1.1,a-c)。例如,機器人或自動駕駛汽車需要從原始像素或點云中檢測物體及其關系。在其他場景中,組合結構已經提供(例如,由另一個系統或人類提供),算法需要對組合輸入進行推理,以做出復雜的高級決策(圖1.1,d-f)。例如:預測分子的性質,預測未來人與人之間的聯系,或預測生物或人工神經網絡的性質。
為了開發能夠從原始感官數據推斷組成結構的算法或預測結構屬性的算法,我們首先需要定義適合于這類任務的數據抽象。在數學和計算機科學中,有一種方便的抽象專門介紹了模型的組成和關系結構。這種抽象被稱為圖,其中節點對應結構的組件,而邊對應組件之間的交互。例如,分子通常表示為圖形,節點對應原子或更復雜的元素,邊對應化學鍵(圖1.1,d)。類似地,社會網絡是圖形,節點是人,邊是它們之間的不同類型的關系(圖1.1,e)。同樣地,生物或人工神經網絡是一個圖,其中節點可以是神經元,邊可以是它們之間的連接(圖1.1,f)。需要開發處理相關任務的算法。
本文探討了圖分類、場景圖合成視覺推理和神經網絡推理等圖推理任務中的泛化問題。使用從數據而不是工程特征中學習的模型來處理這些任務是事實上的標準。然而,這種模型的一個基本挑戰,尤其是神經網絡,是糟糕的泛化。出現這一問題的原因可能是模型依賴于偽相關(“捷徑”),而這些偽相關在訓練數據中常常大量存在(Shen et al., 2021; Zhou et al., 2021; Sch?lkopf et al., 2021)。當在測試數據上評估NN時,這個問題尤其值得注意,這些測試數據來自于與訓練數據略有不同的分布。雖然人類經常對各種分布轉移表現出很強的泛化能力,但機器學習模型在這方面要弱得多。這篇論文對理解和提高泛化做出了一些貢獻。
概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。
深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。
本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。
我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。
在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。