深度學習已經成功地實現了機器學習流程中特征設計的自動化。然而,優化神經網絡參數的算法在很大程度上仍然是手工設計的,計算效率低。我們研究是否可以利用深度學習直接預測這些參數,利用以往訓練其他網絡的知識。我們介紹了一個大型的神經結構計算圖數據集——DeepNets-1M——并利用它來探索CIFAR-10和ImageNet的參數預測。通過利用圖神經網絡的進步,我們提出了一種超網絡,它可以在單次向前傳遞中預測性能參數,即使在CPU上也只需要幾分之一秒。提出的模型在不同的網絡中取得了令人驚訝的良好性能。例如,它能夠預測ResNet-50的所有2400萬個參數,在CIFAR-10上的準確率為60%。在ImageNet上,我們的一些網絡前五名的準確率接近50%。我們的任務以及模型和結果可能會導致一種新的、計算效率更高的訓練網絡范式。我們的模型還學習了神經結構的優異表示,使其分析成為可能。
深度是深度神經網絡的關鍵,但更多的深度意味著更多的序列計算和更多的延遲。這就引出了一個問題——是否有可能構建高性能的「非深度」神經網絡?
近日,普林斯頓大學和英特爾實驗室的一項研究證明了這一觀點的可行性。該研究使用并行子網絡而不是一層又一層地堆疊,這有助于在保持高性能的同時有效地減少深度。
論文地址://arxiv.org/abs/2110.07641
通過利用并行子結構,該研究首次表明深度僅為 12 的網絡可在 ImageNet 上實現超過 80%、在 CIFAR10 上實現超過 96%、在 CIFAR100 上實現 81% 的 top-1 準確率。該研究還表明,具有低深度主干網絡的模型可以在 MS-COCO 上達到 48% 的 AP 指標。研究者分析了該設計的擴展規則,并展示了如何在不改變網絡深度的情況下提高性能。最后,研究者提供了關于如何使用非深度網絡來構建低延遲識別系統的概念證明。
主動推理是一種關于感知和行動的統一理論,其基礎是大腦通過最小化自由能來維持世界的內部模型。從行為角度來看,主動推理代理可以被視為自我證明的存在,通過行動來實現他們的樂觀預測,即首選結果或目標。相反,強化學習需要人為設計的獎勵來實現任何期望的結果。盡管主動推理可以為控制提供一個更自然的自監督目標,但它的適用性受到限制,因為該方法在復雜環境下可擴展性不足。在這項工作中,我們提出了一個主動推理的對比目標,這大大減少了學習agent生成模型和規劃未來行動的計算負擔。在基于圖像的任務中,我們的方法比基于可能性的主動推理表現得明顯更好,同時計算成本更低,更容易訓練。我們將其與強化學習代理進行了比較,這些代理可以獲得人類設計的獎勵功能,表明我們的方法與它們的表現非常匹配。最后,我們還表明對比方法在環境干擾的情況下有顯著的更好的表現。
現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而,對于從看不見的但相關的分布中提取的數據,它們的系統泛化能力較差,這需要組合推理和知識重用。在這項工作中,我們提出了神經解釋器,這是一種將自注意網絡中的推理分解為一個模塊系統的架構,我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算,易于訓練后的能力擴展。為了證明神經解釋器的通用性,我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中,我們證明了神經解釋器在使用更少參數的情況下,與視覺transformer 的表現相當,同時可以以樣本有效的方式轉移到新任務中。在后者中,我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。
人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。與之形成鮮明對比的是,機器感知模型通常是特定于模態的,并針對單模態基準進行了優化,因此,從每個模態最終表示或預測的后期融合(“后期融合”)仍然是多模態視頻分類的主導范式。相反,我們引入了一種新的基于transformer的架構,它使用“融合瓶頸”在多個層進行模態融合。與傳統的成對自注意力相比,我們的模型迫使不同模態之間的信息通過少量的瓶頸潛伏,要求模型整理和濃縮每個模態中最相關的信息,只分享必要的信息。我們發現這種策略在提高融合性能的同時,降低了計算成本。我們進行了徹底的消融研究,并在多個視聽分類基準上取得了最先進的結果,包括Audioset、Epic-Kitchens和VGGSound。所有代碼和模型將被發布。
人類通過視覺概念學習獲得圖像分類的能力,概念形成的過程涉及到共同屬性的搜索和概念描述的交織。然而,在大多數使用深度卷積神經網絡(ConvNet)的圖像分類算法中,表示空間是在概念描述固定為單熱點代碼的前提下構造的,這限制了屬性的挖掘和對未見樣本的識別能力。受此啟發,我們提出了一種基于ConvNet的視覺概念形成(visual concept formation, LSOVCF)學習策略,該策略將概念形成的兩個相互交織的部分,即特征提取和概念描述一起學習。首先,LSOVCF在ConvNet的最后一層取樣本響應,引入假設為高斯分布的概念描述,這是訓練過程的一部分。其次,對探索和經驗損失進行優化設計,采用經驗緩存池加速收斂。實驗表明,LSOVCF提高了cifar10、STL10、flower17和ImageNet上從經典VGG到SOTA Ghostnet的幾種骨架樣本識別未見樣本的能力。
代碼可在\url{//github.com/elvintanhust/LSOVCF}。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。
持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:
(1) 對持續學習技術的分類和廣泛的概述;
(2) 一個持續學習器穩定性-可塑性權衡的新框架;
(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。
考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。
//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f
引言
近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。
持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。
為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。
其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
確定輸入是否在分布外(OOD)是在開放世界中安全部署機器學習模型的一個重要基石。然而,以往依賴softmax置信評分的方法對OOD數據存在過自信的后驗分布。我們提出了一個使用能量分數的OOD檢測的統一框架。我們表明,能量分數比使用softmax分數的傳統方法更好地區分分布內和分布外的樣本。與softmax信心分數不同,能量分數理論上與輸入的概率密度一致,不太容易受到過度自信問題的影響。在這個框架內,能量可以被靈活地用作任何預訓練的神經分類器的評分函數,也可以作為可訓練的代價函數來明確地塑造能量表面,用于OOD檢測。在CIFAR-10預訓練的WideResNet中,使用能量分數比softmax信心分數降低平均FPR (TPR 95%) 18.03%。在以能量為基礎的訓練中,我們的方法在一般的基準上比最先進的方法表現得更好。
小樣本分類的目的是在只有少量樣本的情況下識別不可見的類。我們考慮了多域小樣本圖像分類的問題,其中不可見的類和樣例來自不同的數據源。人們對這個問題越來越感興趣,并激發了元數據集等基準的開發。在這種多領域設置的一個關鍵挑戰是有效地整合來自不同訓練領域集的特征表示。在這里,我們提出了一個通用表示轉換器(URT)層,該元學會通過動態地重新加權和組合最合適的特定于領域的表示來利用通用特性進行小樣本分類。在實驗中,我們表明,URT在元數據集上設置了一個新的最先進的結果。具體來說,它在三個數據源上的性能超過了之前最好的模型,或者在其他數據源上也有相同的性能。我們分析了城市軌道交通的各種變體,并給出了一個可視化的注意力分數熱圖,以闡明該模型是如何執行跨領域泛化的。我們的代碼可以在//github.com/liulu112601/URT獲得