主題: Learning Representations that Support Extrapolation
摘要: 外推-進行超出個人經驗范圍的推理的能力-是人類智慧的標志。 相比之下,當代神經網絡算法所表現出的一般性在很大程度上僅限于訓練語料庫中數據點之間的插值。在本文中,我們考慮了學習支持外推表示的挑戰。 我們引入了一種新穎的視覺類比基準,該基準允許外推的分級評估作為與訓練數據所定義的凸域的距離的函數。 我們還介紹了一種簡單的技術,即上下文規范化,它鼓勵強調對象之間關系的表示形式。 我們發現,該技術可以大大提高推斷能力,大大優于許多競爭性技術。
主題: Representations for Stable Off-Policy Reinforcement Learning
摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。
題目: Laplacian Regularized Few-Shot Learning
簡介:
我們為小樣本學習提出了一個拉普拉斯正則化推斷。給定從基類中學習到的任何特征嵌入,我們將包含兩個項的二次二進制賦值函數最小化:(1)將查詢樣本分配給最近的類原型的一元項,以及(2)鼓勵附近查詢樣本成對使用的成對拉普拉斯項具有一致的標簽。我們的推論不會重新訓練基本模型,并且可以將其視為查詢集的圖形聚類,但要受到支持集的監督約束。我們導出了函數松弛的計算有效邊界優化器,該函數在保證收斂的同時為每個查詢樣本計算獨立(并行)更新。在基礎類上進行簡單的交叉熵訓練,并且沒有復雜的元學習策略后,我們對五個基準進行了全面的實驗。我們的LaplacianShot在不同模型,設置和數據集上具有顯著優勢,始終優于最新方法。此外,我們的歸納推理非常快,其計算時間接近于歸納推理,可用于大規模的一次性任務。
題目: Online Deep Clustering for Unsupervised Representation Learning
摘要:
聯合聚類和特征學習方法在無監督表示學習中表現出了顯著的效果。但是,特征聚類和網絡參數更新訓練計劃的交替導致視覺表征學習的不穩定。為了克服這個挑戰,我們提出在線深度集群(ODC),它可以同時執行集群和網絡更新,而不是交替進行。關鍵見解是,聚類中心應該穩步發展,以保持分類器的穩定更新。具體來說,設計和維護了兩個動態內存模塊,即樣本記憶用于存儲樣本標簽和特征,中心記憶用于中心進化。我們將全局聚類分解為穩定的內存更新和成批的標簽重新分配。該過程被集成到網絡更新迭代中。通過這種方式,標簽和網絡齊頭并進,而不是交替發展。大量的實驗表明,ODC能夠穩定訓練過程,有效地提高訓練性能。
題目: Supervised Contrastive Learning
簡介: 交叉熵是在圖像分類模型的有監督訓練中使用最廣泛的損失函數。在本文中,我們提出了一種新穎的訓練方法,該方法在跨不同體系結構和數據擴充的監督學習任務上始終優于交叉熵。我們修改了批處理的對比損失,最近已證明該方法對于在自我監督的情況下學習強大的表示非常有效。因此,我們能夠比交叉熵更有效地利用標簽信息。屬于同一類別的點的群集在嵌入空間中聚在一起,同時將不同類別的樣本群集推開。除此之外,我們還利用了關鍵成分,例如大批處理量和標準化的嵌入,這些成分已顯示出對自我監督學習的好處。在ResNet-50和ResNet-200上,我們的交叉熵均超過1%,在使用AutoAugment數據增強的方法中,新的技術水平達到了78.8%。損失還顯示出明顯的好處,即可以在標準基準和準確性方面提高對自然基準的自然破壞的魯棒性。與交叉熵相比,我們監督的對比損失對于諸如優化器或數據增強之類的超參數設置更穩定。
題目: Causal Relational Learning
摘要:
因果推理是自然科學和社會科學實證研究的核心,對科學發現和知情決策至關重要。因果推理的黃金標準是進行隨機對照試驗;不幸的是,由于倫理、法律或成本的限制,這些方法并不總是可行的。作為一種替代方法,從觀察數據中進行因果推斷的方法已經在統計研究和社會科學中得到發展。然而,現有的方法嚴重依賴于限制性的假設,例如由同質元素組成的研究總體,這些同質元素可以在一個單平表中表示,其中每一行都被稱為一個單元。相反,在許多實際環境中,研究領域自然地由具有復雜關系結構的異構元素組成,其中數據自然地表示為多個相關表。在本文中,從關系數據中提出了一個正式的因果推理框架。我們提出了一種稱為CaRL的聲明性語言,用于捕獲因果背景知識和假設,并使用簡單的Datalog類規則指定因果查詢。CaRL為在關系領域中推斷復雜干預的影響的因果關系和推理提供了基礎。我們對真實的關系數據進行了廣泛的實驗評估,以說明CaRL理論在社會科學和醫療保健領域的適用性。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
題目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning
摘要:
我們提出了CURL:用于強化學習的對比無監督表示法。CURL使用對比學習從原始像素中提取高級特征,并在提取的特征之上執行off-policy控制。在DeepMind控制套件和Atari游戲中,在100K交互步驟基準測試中,CURL在復雜任務上的表現優于先前基于模型和非模型的基于像素的方法,分別提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一個基于圖像的算法,它的效率和性能幾乎與使用基于狀態的特性的方法不相上下。
我們提出了一種學習視覺特征的方法,即使這些特征具有不同的維數,并且是通過不同的神經網絡結構和損失函數來學習的,也能與之前的計算結果相兼容。兼容意味著,如果這些特性用于比較圖像,那么“新”特性可以直接與“舊”特性進行比較,因此它們可以互換使用。這使得視覺搜索系統在更新嵌入模型時,可以繞過計算所有以前看到的圖像的新特性,這個過程稱為回填。向后兼容性對于快速部署新的嵌入模型至關重要,這些模型利用了不斷增長的大規模訓練數據集和深度學習體系結構和訓練方法的改進。我們提出一個框架來訓練嵌入模型,稱為向后兼容訓練(BCT),作為向后兼容表示學習的第一步。在人臉識別的嵌入學習實驗中,使用BCT訓練的模型在不犧牲精度的前提下,成功實現了向后兼容,實現了可視化嵌入的無填充模型更新。
簡介: 主導圖神經網絡(GNN)完全依賴圖連接,已經存在幾個嚴重的性能問題,例如,過度平滑問題。此外,由于內存限制了節點之間的批處理,因此固定連接的特性會阻止圖形內的并行化,這對于大型數據輸入至關重要。在本文中,引入一種新的圖神經網絡,即GRAPH-BERT(基于圖的BERT),該網絡僅基于注意力機制而無需任何圖卷積或聚合算法。本文在局部上下文中使用采樣的無連接子圖訓練GRAPH-BERT。此外,如果有任何監督的標簽信息或某些面向應用的目標,則可以使用其他最新的輸出層對預訓練的GRAPH-BERT模型進行微調。我們已經在多個基準圖數據集上測試了GRAPH-BERT的有效性。在預訓練的GRAPH-BERT具有節點屬性重構和結構恢復任務的基礎上,我們進一步針對節點分類和圖聚類任務進一步調整GRAPH-BERT。
NeurIPS 2019(Neural Information Processing Systems)將在12月8日-14日在加拿大溫哥華舉行。NeurIPS 是全球最受矚目的AI、機器學習頂級學術會議之一,每年全球的人工智能愛好者和科學家都會在這里聚集,發布最新研究。今天小編整理了表示學習相關論文。
作者: Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan
摘要:在自然語言處理中,具有self-attention的序列模型已經取得了很好的效果。self-attention具有模型靈活性、計算復雜性和可解釋性等優點,正逐漸成為事件序列模型的重要組成部分。然而,像大多數其他的序列模型一樣,自我注意并不能解釋事件之間的時間跨度,因此它捕捉的是序列信號而不是時間模式。在不依賴遞歸網絡結構的情況下,self-attention通過位置編碼來識別事件的順序。為了彌補時間無關和時間相關事件序列建模之間的差距,我們引入了一個嵌入時間跨度到高維空間的功能特征映射。通過構造相關的平移不變時間核函數,揭示了經典函數函數分析結果下特征圖的函數形式,即Bochner定理和Mercer定理。我們提出了幾個模型來學習函數性時間表示以及與事件表示的交互。這些方法是在各種連續時間事件序列預測任務下對真實數據集進行評估的。實驗結果表明,所提出的方法與基線模型相比,具有更好的性能,同時也能捕獲有用的時間-事件交互。
論文鏈接:
//papers.nips.cc/paper/9720-self-attention-with-functional-time-representation-learning
作者:Jeff Donahue, Karen Simonyan
摘要:對抗訓練生成模型(GANs)最近取得了引人注目的圖像合成結果。GANs在無監督的表現學習中盡管在早期取得了的成功,但是它們已經被基于自監督的方法所取代。在這項工作中,我們證明了圖像生成質量的進步轉化為極大地改進了表示學習性能。我們的方法BigBiGAN建立在最先進的BigGAN模型之上,通過添加編碼器和修改鑒別器將其擴展到表示學習。我們廣泛地評估了這些BigBiGAN模型的表示學習和生成能力,證明了這些基于生成的模型在ImageNet的無監督表示學習方面達到了最新的水平,并在無條件生成圖像方面取得了令人信服的結果。
論文鏈接:
作者:Yu Tian, Long Zhao, Xi Peng, Dimitris Metaxas
摘要:圖核是度量圖相似性的核心方法,是圖分類的標準工具。然而,作為與圖表示學習相關的一個問題,使用核方法進行節點分類仍然是不適定的,目前最先進的方法大多基于啟發式。在這里,我們提出了一個新的基于核的節點分類理論框架,它可以彌補這兩個圖上表示學習問題之間的差距。我們的方法是由圖核方法驅動的,但是擴展到學習捕獲圖中結構信息的節點表示。我們從理論上證明了我們的公式與任何半正定核一樣強大。為了有效地學習內核,我們提出了一種新的節點特征聚合機制和在訓練階段使用的數據驅動的相似度度量。更重要的是,我們的框架是靈活的,并補充了其他基于圖形的深度學習模型,如圖卷積網絡(GCNs)。我們在一些標準節點分類基準上對我們的方法進行了經驗評估,并證明我們的模型設置了最新的技術狀態。
論文鏈接:
作者:Dushyant Rao, Francesco Visin, Andrei Rusu, Razvan Pascanu, Yee Whye Teh, Raia Hadsell
摘要:持續學習旨在提高現代學習系統處理非平穩分布的能力,通常是通過嘗試按順序學習一系列任務。該領域的現有技術主要考慮監督或強化學習任務,并經常假設對任務標簽和邊界有充分的認識。在這項工作中,我們提出了一種方法(CURL)來處理一個更普遍的問題,我們稱之為無監督連續學習。重點是在不了解任務身份的情況下學習表示,我們將探索任務之間的突然變化、從一個任務到另一個任務的平穩過渡,甚至是數據重組時的場景。提出的方法直接在模型中執行任務推斷,能夠在其生命周期內動態擴展以捕獲新概念,并結合其他基于排練的技術來處理災難性遺忘。我們用MNIST和Omniglot演示了CURL在無監督學習環境中的有效性,在這種環境中,沒有標簽可以確保沒有關于任務的信息泄露。此外,與現有技術相比,我們在i.i.中表現出了較強的性能。在i.i.d的設置下,或將該技術應用于監督任務(如漸進式課堂學習)時。 論文鏈接:
作者: Jean-Yves Franceschi, Aymeric Dieuleveut, Martin Jaggi
摘要:由于時間序列在實際應用中具有高度可變的長度和稀疏標記,因此對機器學習算法而言,時間序列是一種具有挑戰性的數據類型。在本文中,我們提出了一種學習時間序列通用嵌入的無監督方法來解決這一問題。與以前的工作不同,它的長度是可伸縮的,我們通過深入實驗和比較來展示學習表示的質量、可移植性和實用性。為此,我們將基于因果擴張卷積的編碼器與基于時間負采樣的新三重態損耗相結合,獲得了可變長度和多元時間序列的通用表示。
論文鏈接:
作者:Shen-Huan Lyu, Liang Yang, Zhi-Hua Zhou
摘要:在本文中,我們將森林表示學習方法casForest作為一個加法模型,并證明當與邊際標準差相對于邊際均值的邊際比率足夠小時,泛化誤差可以以O(ln m/m)為界。這激勵我們優化比例。為此,我們設計了一種邊際分布的權重調整方法,使深林模型的邊際比較小。實驗驗證了邊緣分布與泛化性能之間的關系。我們注意到,本研究從邊緣理論的角度對casForest提供了一個新的理解,并進一步指導了逐層的森林表示學習。
論文鏈接:
作者:Shuangfei Zhai, Walter Talbott, Carlos Guestrin, Joshua Susskind
摘要:我們通過基于深度能量的模型(EBMs)來研究生成對抗網絡(GANs),目的是利用從這個公式推導出的密度模型。與傳統的鑒別器在達到收斂時學習一個常數函數的觀點不同,這里我們證明了它可以為后續的任務提供有用的信息,例如分類的特征提取。具體來說,在EBM公式中,鑒別器學習一個非歸一化密度函數(即,負能量項),它描述了數據流形。我們建議通過從EBM中獲得相應的Fisher分數和Fisher信息來評估生成器和鑒別器。我們證明了通過假設生成的示例形成了對學習密度的估計,費雪信息和歸一化費雪向量都很容易計算。我們還證明了我們能夠推導出例子之間和例子集之間的距離度量。我們進行的實驗表明,在分類和感知相似性任務中,甘氏神經網絡誘導的費雪向量作為無監督特征提取器表現出了競爭力。代碼地址:
論文鏈接:
作者:Fan-Yun Sun, Meng Qu, Jordan Hoffmann, Chin-Wei Huang, Jian Tang
摘要:本文重點研究了圖數據分析的兩個基本任務:社區檢測和節點表示學習,它們分別捕獲圖數據的全局結構和局部結構。在現有的文獻中,這兩個任務通常是獨立研究的,但實際上是高度相關的。提出了一種協作學習社區成員和節點表示的概率生成模型vGraph。具體地說,我們假設每個節點都可以表示為群落的混合,并且每個群落都定義為節點上的多項分布。混合系數和群落分布均由節點和群落的低維表示參數化。我們設計了一種有效的變分推理算法,通過反向傳播進行優化,使相鄰節點的社區成員關系在潛在空間中相似。在多個真實圖上的實驗結果表明,vGraph在社區檢測和節點表示學習兩方面都非常有效,在兩方面都優于許多有競爭力的基線。結果表明,該vGraph框架具有良好的靈活性,可以方便地擴展到層次社區的檢測。
論文鏈接: