無監督多對象表示學習依賴于歸納偏差來指導發現以對象為中心的表示。然而,我們觀察到,學習這些表征的方法要么是不切實際的,因為長時間的訓練和大量的記憶消耗,要么是放棄了關鍵的歸納偏見。在這項工作中,我們引入了EfficientMORL,一個有效的無監督學習框架的對象中心表示。我們證明了同時要求對稱性和解纏性所帶來的優化挑戰實際上可以通過高成本的迭代攤銷推理來解決,通過設計框架來最小化對它的依賴。我們采用兩階段的方法進行推理:首先,分層變分自編碼器通過自底向上的推理提取對稱的解纏表示,其次,輕量級網絡使用自頂向下的反饋來改進表示。在訓練過程中所采取的細化步驟的數量根據課程減少,因此在測試時零步驟的模型達到了99.1%的細化分解性能。我們在標準多目標基準上演示了強大的對象分解和解纏,同時實現了比以前最先進的模型快一個數量級的訓練和測試時間推斷。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
使用智能手機收集的呼吸音,經過深度學習模型訓練,用于檢測和分類COVID-19,最近變得流行起來。它消除了對現場檢測程序的需要,特別是對相關醫療用品、有經驗的工人和設備有限的農村地區。然而,現有的基于聲音的診斷方法是在完全監督的方式下進行訓練的,這需要大量標記良好的數據。重要的是發現新的方法來利用無標記的呼吸數據,這可以更容易地獲得。在本文中,我們提出了一種新的自監督學習框架,用于COVID-19咳嗽分類。引入對比預訓練階段,以訓練無標記數據的基于Transformer的特征編碼器。具體來說,我們設計了一個隨機掩蔽機制來學習呼吸音的魯棒表示。然后在下游階段對預訓練的特征編碼器進行微調,以執行咳嗽分類。此外,在下游階段還研究了不同隨機掩蔽率下的集成。通過廣泛的評估,我們證明了所提出的對比訓練前、隨機掩蔽機制和集成架構有助于提高咳嗽分類性能。
少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
為了擴大知識圖譜中少樣本關系的覆蓋范圍,近年來少樣本知識圖譜補全(FKGC)得到了越來越多的研究興趣。現有的模型利用了一種多跳關系的鄰居信息來增強其語義表示。但是,當鄰域過于稀疏,沒有鄰域來表示少射關系時,噪聲鄰域信息可能會被放大。此外,以往的知識圖譜補全方法對多對多(1-N)、多對一(N-1)、多對多(N-N)等復雜關系進行建模和推斷需要較高的模型復雜度和大量的訓練實例。因此,由于訓練實例有限,FKGC模型很難在少樣本場景下推斷復雜關系。本文提出了一種全局-局部框架下的少樣本關系學習方法來解決上述問題。在全局階段,構建了一種新穎的門控和專注鄰居聚合器,用于精確集成幾個樣本關系的鄰域的語義,這有助于過濾噪聲鄰域,即使一個KG包含非常稀疏的鄰域。對于局部階段,我們設計了一種基于元學習的TransH (MTransH)方法來建模復雜關系,并以少量學習的方式訓練模型。大量實驗表明,我們的模型在常用的基準數據集NELL-One和Wiki-One上的性能優于先進的FKGC方法。與強基線模型MetaR相比,我們的模型通過度量Hits@10在NELL-One上實現了8.0%的5次FKGC性能改進,在Wiki-One上實現了2.8%
//www.zhuanzhi.ai/paper/768286ecd0f0213c3949bbe1ddab112c
多跳知識庫問題回答(KBQA)的目的是找到與問題中的實體在知識庫中有多個躍點的答案實體。一個主要挑戰是中間步驟缺乏監督信號。因此,多跳KBQA算法只能接收最終答案的反饋,這使得學習不穩定或無效。
為了解決這一挑戰,我們提出了一種新的教師-學生多跳KBQA任務方法。在我們的方法中,學生網絡的目標是找到問題的正確答案,而教師網絡試圖學習中間監督信號,以提高學生網絡的推理能力。主要的新穎之處在于教師網絡的設計,我們利用了正向和逆向推理來增強中間實體分布的學習。通過考慮雙向推理,教師網絡可以產生更可靠的中間監督信號,從而緩解虛假推理的問題。在三個基準數據集上的大量實驗證明了我們的方法在KBQA 任務上的有效性。
為了從最能區分類的高維數據中學習內在的低維結構,我們提出了最大編碼率降低原理(MCR2),這是一種信息理論度量,可以最大限度地提高整個數據集和每個類的編碼率差。明確了它與交叉熵、信息瓶頸、信息增益、壓縮學習和對比學習等現有框架的關系,為學習多樣性和有判別性表示提供了理論保障。該編碼率可以從簡并類子空間分布的有限樣本中精確地計算出來,并且可以統一地學習有監督、自監督和無監督三種情況下的本征表示。特別地,單獨使用該原理學習的表示比使用交叉熵學習的表示在分類中標記錯誤時具有更強的魯棒性,并且可以在自學習不變特征聚類混合數據方面產生最先進的結果。
//www.zhuanzhi.ai/paper/f89bf5e9ab6b630c51edddff406566f4
推薦系統在web應用中扮演著過濾大量信息和匹配用戶興趣的基礎角色。雖然許多人致力于開發各種場景下更有效的模型,但對于推薦系統可解釋性的探索卻處于滯后狀態。解釋可以幫助改善用戶體驗和發現系統缺陷。本文在正式引入與模型可解釋性相關的要素后,通過提高表示學習過程的透明度,提出了一種新的可解釋推薦模型。具體地說,為了克服傳統模型中的表示糾纏問題,我們修改了傳統的圖卷積來區分不同層次的信息。此外,每個表示向量被分解為若干段,其中每個段與數據中的一個語義方面相關。與之前的工作不同,在我們的模型中,因子發現和表示學習同時進行,我們能夠處理額外的屬性信息和知識。通過這種方式,該模型可以學習對用戶和項的可解釋和有意義的表示。與傳統方法需要在可解釋性和有效性之間進行權衡不同,我們所提出的可解釋模型在考慮了可解釋性后,其性能沒有受到負面影響。最后,通過綜合實驗驗證了模型的性能和解釋的可信度。
逆合成設計是有機化學的關鍵問題之一。由于在反應的每一步理論上都有成千上萬種可能的轉化導致設計的搜索空間是巨大的,即使是有經驗的化學家處理這個問題也是十分棘手的。
單步逆合成預測對給定產物可能的直接反應物列表的預測,盡管單步合成法不斷得到改進,但現實世界中的大多數分子都無法在一步之內合成。合成步驟的數量可以達到60個甚至更多。單步逆合成法面臨著巨大的搜索空間和性能測量及基準測試模糊性的挑戰,為實現多步逆合成設計奠定基礎。
在本文中,作者提出了一種新的基于學習的逆合成設計算法Retro*來學習以前的設計經驗,該算法框架可以歸納出保證最優解的搜索算法。另外,作者提出了一種構建合成路線數據集的方法,用于對多步合成設計方法進行定量分析。其設計算法是通用的,它也可以應用于其他機器學習問題,如定理證明和分層任務設計,實驗結果表明該算法的性能大大優于現有方法。
//www.zhuanzhi.ai/paper/84dcdb8686f27852f81a0a23d48ce2dd
由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。
這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度。
//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
概述:
在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。
最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。
在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。
雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。