允許生成模擬但不提供分布密度訪問的統計模型被稱為模擬器模型。它們通常由科學家開發,用于表示自然現象,并依賴于具有物理意義的參數。類似地,生成網絡通過將噪聲(或潛在)分布的抽樣通過神經網絡進行轉換,從而從概率分布中產生樣本;對于模擬器模型,密度是不可獲取的。這兩個框架是由不同社區獨立開發的,可以歸為生成模型類;與明確指定密度的統計模型相比,它們更強大且更靈活。
對于生成網絡,通常通過通過自動微分啟用的梯度下降最小化目標函數來獲得參數(或權重)的單點估計。相比之下,對于模擬器模型,通常通過某種統計算法獲得參數的概率分布的樣本。然而,在這兩種情況下,推斷方法都依賴于利用模擬的共同原則。在這篇論文中,我遵循通過評分規則評估概率模型如何與觀察結果相匹配的原則。這概括了基于密度函數的常見統計實踐,并且通過特定的評分規則,允許處理生成模型。
在第1章中進行了詳細的介紹和文獻綜述之后,這篇論文的第一部分(第2章和第3章)涉及推斷模擬器模型參數的概率分布的方法。具體來說,第2章通過一種學習概要統計的新方法為傳統的貝葉斯無似然推斷文獻做出貢獻,這些概要統計被定義為模擬器模型的最佳指數族近似的充分統計。相反,第3章通過定義一個基于廣義貝葉斯推斷框架的新的后驗分布,而不是作為標準后驗的近似來偏離傳統。后驗分布是通過對模擬器模型可計算的評分規則來定義的,并且對異常值具有魯棒性。
在論文的第二部分(第4章和第5章),我研究評分規則最小化以確定生成網絡的權重;對于評分規則的特定選擇,這種方法比流行的替代方法更好地捕捉數據的可變性。我將以這種方式訓練的生成網絡應用于對不確定性敏感的任務:在第4章中,我使用它們為模擬器模型的參數提供概率分布,從而回到第2章和第3章的主題;相反,在第5章中,我考慮概率預測,同時也確立了訓練目標與依賴訓練數據的一致性。 最后,我在第6章中總結了一些最終的想法和未來工作的方向。
在自然語言處理(NLP)中,許多任務都涉及到結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對下游任務和人類與機器的分析都是有益的。為了獲得自動模型,主要范式是采用數據驅動的監督學習方式。在這種范式中,主要的瓶頸是手工標注數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新的場景,例如在不同的領域或語言中。如果訓練實例不足以覆蓋目標場景,模型的性能可能會大幅下降,而在所有這些新情境中標注大量的數據實例又是昂貴且低效的。
為了緩解這個問題并減少結構化預測模型對大量標注的依賴,我們需要考慮模型和數據的兩個方面,這些是數據驅動機器學習的主要動力。關于這兩個核心方面,我們研究了三個方向。首先,我們研究了模型設計中的結構化建模,這涉及到如何對復雜的結構化輸出進行建模和預測。這對于通常具有大輸出空間的結構化預測任務尤為重要。此外,在模型和數據的交互上,我們研究了遷移學習,其中相關數據被用來幫助低資源目標任務。 在這種情況下,如何設計對源數據和目標數據資源之間的差異更不敏感的模型對于轉移的成功也是至關重要的。最后,我們探索了有關數據本身的主動學習。當資源有限時,很難獲得大量的標注實例,但標注一小部分是可行的。通過選擇一個有信息量的實例集,可能需要更少的手工標注就能達到令人滿意的性能。這篇論文包括三部分,對應這三個方向。在第一部分,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級完全匹配上帶來了好處,并有更高效的模型。我們進一步擴展了對低資源場景的分析,并研究了結構約束和訓練數據大小的交互。在第二部分,我們研究了一系列相關的結構化任務,發現從相關數據(例如來自同一任務但在不同語言中的數據(跨語言學習)和來自相關任務的數據(多任務學習))得到的監督可以是有益的,特別是如果使用那些對源和目標差異關心較少的模型。最后,在第三部分,我們對NLP中的結構化預測的主動學習進行了系統性的調查。特別地,我們分析了使用部分結構進行標注和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與自學習結合,使用來自主動學習數據池的未標注實例可以帶來進一步的改進。
在海量數據的時代,高效的機器學習算法變得至關重要。然而,許多常見的機器學習算法依賴于在大數據集上計算成本過高的子程序。通常,現有的技術會對數據進行子采樣或使用其他方法來提高計算效率,但這會以引入一些近似誤差為代價。這篇論文表明,往往只需用一種特殊的隨機化方法替代計算密集型的子程序,就能在幾乎不降低質量的情況下獲得足夠的效果。這篇論文的結果是基于自適應采樣文獻中的技術。第1章以一個特定的自適應采樣問題為引子:多臂老虎機中的最佳臂識別。我們首先提供了環境設定和最佳臂識別問題的正式描述。然后,我們介紹了一種名為“連續淘汰”的通用算法,用于解決最佳臂識別問題。在第2章,第3章和第4章,我們將把在第1章中開發的技術應用于不同的問題。在第2章,我們討論了如何將k-medoids聚類問題簡化為一系列的最佳臂識別問題。我們利用這一發現提出了一種基于連續淘汰的新算法,該算法在聚類質量上與先前的最新技術相當,但達到相同解的速度要快得多。在數據生成分布的一般假設下,我們的算法在樣本復雜性上實現了 O( n logn ) 的降低,其中 n 是數據集的大小。
在第3章中,我們分析了訓練基于樹的模型的問題。這類模型的大部分訓練時間都用在分割樹的每個節點上,即確定在哪個特征和相應的閾值處分割每個節點。我們展示了節點分割子程序可以簡化為一個最佳臂識別問題,并介紹了一種訓練樹的最新算法。我們的算法僅依賴于每個可能分割的相對質量,而不是顯式地依賴于訓練數據集的大小,并將數據集大小n的顯式依賴從常用的先前算法的O(n)降低到O(1)。我們的算法通常適用于許多基于樹的模型,如隨機森林和XGBoost。在第4章中,我們研究最大內積搜索問題。我們注意到,與k-medoids和節點分割問題一樣,最大內積搜索問題可以簡化為一個最佳臂識別問題。有了這個觀察,我們為高維數據集中的最大內積搜索問題提出了一個新穎的算法。在對數據的合理假設下,我們的算法將與數據集維數d的顯式比例從O(√d)降低到O(1)。我們的算法具有幾個優點:它不需要對數據進行預處理,能自然處理新增或刪除的數據點,并包含一個超參數來權衡準確性和效率。第5章以總結本論文的貢獻和未來工作的可能方向作為結論。
//searchworks.stanford.edu/view/14783548
在隨機控制問題中,代理選擇最優策略以最大化或最小化性能準則。性能準則可以是標準控制問題的獎勵函數的期望,也可以是魯棒控制問題的非線性期望。在參數化的隨機控制問題中,代理需要知道隨機系統中模型參數的值,以正確指定最優策略。然而,代理知道模型參數值的情況幾乎是不存在的。
在本論文中,我們的目標是研究一個魯棒的隨機控制問題,其中代理不知道基礎過程的參數值。因此,我們構建了一個隨機控制問題,假設代理不知道模型參數的值。然而,代理使用可觀察的過程來估計模型參數的值,同時在一個魯棒的框架內解決隨機控制問題。
這個新的隨機控制問題有兩個關鍵組成部分。第一個組件是參數估計部分,代理使用基礎過程的實現來估計隨機系統中的未知參數。我們特別關注在線參數估計。在線估計器是我們的隨機控制問題的一個重要成分,因為這種類型的估計器允許代理以反饋形式獲得最優策略。第二個組件是隨機控制部分,問題是如何設計一個時間一致的隨機控制問題,使代理也能同時估計參數并優化其策略。在本論文中,我們在連續時間設置中解決上述問題的每個組件,然后仔細研究在此框架下的效用最大化問題。
在本論文中,我們研究了隨機控制問題,其中代理沒有對模型中參數值的充分了解,并且隨著時間的推移,使用新的觀察來估計參數,并同時更新最優策略。這個問題從理論和實踐的角度都很有趣。標準的隨機控制問題通常假設代理知道模型參數的值,這是一個很強的假設,在實踐中并不成立。通過放寬對參數知識的假設,我們可以將新的隨機控制框架應用于許多經典的隨機控制問題,比如效用最大化,其中代理沒有對隨機系統中模型參數值的充分了解。這些隨機控制問題中有兩個關鍵組件。首先,隨著時間的推移和更多信息的可用性,估計參數的值。在本論文中,我們關注在線參數估計。在線估計器是我們研究的隨機控制問題的一個重要成分,因為在線估計器允許代理獲得反饋形式的策略(馬爾可夫)。其次,設計一個時間一致的隨機控制問題,允許代理在線估計參數,同時推導出最優策略。在本論文中,我們在連續時間設置中解決上述問題的每個組件。
表示學習已經成為一種多功能工具,能夠利用使用數字技術獲得的大量數據集。該方法的廣泛適用性源于其作為子系統使用的靈活性和在模型架構中納入先驗的可擴展性。數據內部的直觀依賴關系,如像素主要對其鄰近的上下文做出貢獻,可以被形式化和嵌入,以提高泛化,并允許具有很大能力的模型避免過擬合。元學習也被應用于將這些系統擴展到低數據設置,通過將特定任務視為更普遍問題的實現而不損失性能。本文考慮如何利用這些方法的基本兼容性。本工作的主要論點是,歸納偏差提供的計算的清晰度可以用于改進元學習架構,并直接構建元學習器過去經驗和解決問題能力到新任務的遷移。通過融合這些方法開發的方法可以在廣泛的設置和領域中提高與基線模型相比的性能。融合有三種實現方式。第一個將復合分類確定為一種自然設置,并展示了如何使用注意力下數據點的自組織來增強元學習分類器。第二種使用顯式關系推理來調節和重組神經模塊,以在測試時快速準確地適應。自適應神經過程來捕獲關系和時間依賴,以提高預測和不確定性估計的準確性和一致性。在驗證本文的激勵假設時,這些貢獻在其他領域中發現了最先進的應用,包括小樣本圖像分類、粒子控制系統的相互作用的無監督恢復、蛋白質-蛋白質相互作用位點預測以及動力系統的識別和演化。通過這樣做,這項工作有助于使機器智能應用于更廣泛、更精細的問題范圍——作為所考慮問題的解決方案,作為進一步應用的架構模板,以及作為未來研究的方向。
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。
然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。
graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。
信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。
我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。
關系數據在現代計算中無處不在,并驅動跨多個領域的幾個關鍵應用程序,如信息檢索、問題回答、推薦系統和藥物發現。因此,人工智能(AI)的一個主要研究問題是建立以有效和可靠的方式利用關系數據的模型,同時注入相關的歸納偏差和對輸入噪聲的魯棒性。近年來,圖神經網絡(GNNs)和淺節點嵌入模型等神經模型在關系結構的學習表示方面取得了重大突破。然而,這些系統的能力和局限性還沒有被完全理解,在賦予這些模型可靠性保證、豐富它們的關系歸納偏差以及將它們應用于更具挑戰性的問題設置方面仍存在一些挑戰。在這篇論文中,我們研究了關系數據的學習和推理。更具體地說,我們從理論上和實證上分析了現有模型的性質和局限性,并提出了改進關系歸納偏差和表征能力的新方法。
//ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53
1. 引言以神經網絡為動力的深度學習系統已經在各種具有挑戰性的任務上取得了突破性的成果,如計算機視覺[96]和機器翻譯[160]。深度學習模型在最少人為干預的情況下從數據中學習模式,并在其訓練集之外進行經驗歸納。因此,在多個領域應用深度學習系統的興趣越來越大。沿著這些思路,近年來一個突出的研究前沿是將深度學習應用到關系數據中。從根本上說,關系數據將信息表示為一組通過語義意義關系連接的實體。例如,可以將在線市場上的產品、賣家和用戶表示為實體,并將交易描述為跨上述三種實體類型的三元關系,例如,Alice從Charlie那里購買了一個球。關系數據的一個流行的特例是圖結構,其中關系最多是二進制的。在這種情況下,關系可以被視為定義(標記)圖實體之間的邊,這些實體本身構成了圖節點。關系表示非常通用,并且出現在各種應用程序領域中。例如,社交網絡中的用戶根據他們的互動(友誼、關注、點贊)成對連接,可以被視為一個圖結構。這同樣適用于引文網絡中的論文[153,154]及其引文連接,以及分子,其中原子可以被視為實體,它們的鍵可以表示為二進制關系。事實上,關系數據封裝了幾個傳統數據域。例如,圖像是網格形狀的圖形的一種特殊情況,其中相鄰的像素由一條邊連接,序列是一系列實體,這些實體的邊連接著連續的實體。鑒于關系數據的普遍存在和圖結構的普遍存在,構建強大的關系機器學習模型是一個重要的研究問題,其分支涉及多個任務,如信息檢索[182]、問題回答[20]、推薦系統[173]和藥物發現[60]。廣義上講,機器學習任務可以分為三大類:
1. 節點級的任務。給定一個帶有未標記或部分標記節點的輸入圖,節點級任務旨在預測節點屬性,例如,對于沒有預標記屬性的節點,預測一個類或一個值。例如,在引用網絡中,論文(輸入圖中的實體)具有內容特征,并且通過二元引用關系與其他論文相連,預測論文的主題就是一個節點分類任務。
2. Graph-level任務。給定一個輸入圖,圖級任務尋求基于節點特征、邊和整體輸入圖結構預測全局圖屬性,如類或值。這些任務在分子圖中非常突出,包括幾個圖性質預測問題,如毒性分類和零點振動能(ZPVE)回歸[140]。
3.Edge-level任務。給定一個輸入圖,邊級任務旨在預測現有邊的未知邊屬性,或者更常見的是,基于現有邊和節點特征預測圖中缺失的邊。對于后一種情況,當輸入圖是單關系圖時,該問題稱為鏈接預測,如引用網絡,當輸入圖是多關系圖時,該問題稱為知識圖譜補全(KGC)。在本文中,我們研究了關系數據(圖結構和更一般的關系數據)的學習和推理,并提出了幾個模型和框架,以理論分析和結果支持,以提高該領域模型的關系歸納偏差和表示能力。更具體地說,我們系統地研究現有模型,證明它們的理論屬性和結果,并提出擴展和新模型,以(i)可證明地捕獲和/或強加豐富的關系歸納偏差,(ii)更好地理解現有模型的表現力和表征局限性,以及(iii)將現有模型和方法擴展到與推理和推理相關的新穎的、具有挑戰性的應用領域。
從社交網絡到Web和大腦結構,圖是各種系統的一種自然表示。即使當數據沒有顯式地相互連接時,將其轉換成圖表以便進一步分析通常也是很方便的。許多涉及圖的任務,如鏈接預測、社區檢測和分類,依賴于圖中節點或圖整體之間的各種相似度定義。然而,這種相似性大多是隱式的,這意味著物體在某些空間中不被特征向量表示。相比之下,現代機器學習方法要求明確表示歐幾里得空間中的對象。為了在圖數據上利用機器學習的能力,我們必須具有適當的圖的顯式表示。
本論文研究針對圖結構數據表示的有效的算法。我們關注的是算法的可擴展性,因為它們必須有能力處理Web大小的圖,以能夠應對實踐。局部圖算法具有這種能力; 我們引入可擴展的局部算法來表示節點,邊,和整個圖作為向量在歐氏空間。通過潛在相似性來研究表征,使我們能夠闡明以前的工作,并將非常理想的特性引入我們提出的模型。值得注意的是,我們介紹了第一個隨時表示圖節點的算法。對于整個圖的情況,我們提出了表示,它使圖的多尺度比較和其局部逼近的方法。我們通過實驗驗證了我們的方法并沒有為了算法的可擴展性而犧牲表示的表達性。我們介紹了圖分析的新應用,并在具有數十億節點的大規模圖上使用我們的方法。
在生態學、流行病學和天文學等許多應用領域中,仿真模型被用來研究發生在自然界中的復雜現象。通常,這些模型的似然函數的分析形式要么是不可用的,要么是太昂貴而無法評估,從而使統計推斷復雜化。無概率推理(LFI)方法,如近似貝葉斯計算(ABC),基于用模型的正演模擬代替難以處理的似然評估,已成為對仿真模型進行推理的一種流行方法。然而,當前的LFI方法在計算和統計方面存在一些挑戰。特別是,標準的ABC算法需要大量的仿真,這使得它們在前向仿真代價昂貴的情況下不可行。
本文討論了計算代價高的模型的無概率推理。主要貢獻是基于高斯過程代理模型的LFI一致性框架。GP模型允許對仿真模型輸出的平滑假設進行編碼,以減少所需的仿真量。此外,由于模擬預算有限,所產生的基于模型的后驗逼近的不確定性可以被量化。我們提出貝葉斯實驗設計策略來選擇評估地點,以使計算成本最小化。順序設計(每次選擇一個模擬)和批處理策略(允許利用并行計算)都是推導出來的。除了LFI場景外,本文提出的方法也適用于可能性可以評估但代價昂貴的情況。
本質上,所提出的框架可以被視為概率數值方法的LFI對等物,如貝葉斯優化,用于優化昂貴的目標函數,貝葉斯求積,用于計算昂貴函數的積分。我們通過大量的經驗模擬證明了所提出的LFI方法的優點。文中還對所提算法進行了理論分析,并討論了它們與其他GP代理方法的關系。