時空時間序列預測在許多現實世界應用中起著關鍵作用。盡管在這一領域已經取得了顯著進展,但完全捕捉和利用時空異質性仍然是一個基本挑戰。因此,我們提出了一種新穎的異質性知情的元參數學習方案。具體而言,我們的方法通過學習空間和時間嵌入隱式地捕捉時空異質性,這可以看作是一個聚類過程。然后,提出了一種新的時空元參數學習范式,從元參數池中學習時空特定的參數,這些參數是由捕捉到的異質性信息提供的。 基于這些想法,我們開發了一種用于時空時間序列預測的異質性知情時空元網絡(HimNet)。在五個廣泛使用的基準數據集上進行了廣泛的實驗,結果表明我們的方法達到了最先進的性能,同時表現出優越的可解釋性。我們的代碼可在 //github.com/XDZhelheim/HimNet 獲取。
時空時間序列預測在廣泛的現實應用中發揮著關鍵作用。盡管在這一領域已經取得了顯著進展,但充分捕捉和利用時空異質性仍然是一個根本性挑戰。因此,我們提出了一種新穎的異質性信息元參數學習方案。具體來說,我們的方法通過學習空間和時間嵌入來隱式捕捉時空異質性,這可以看作是一個聚類過程。然后,提出了一種新穎的時空元參數學習范式,從元參數池中學習時空特定參數,并以捕捉到的異質性為指導。基于這些思想,我們開發了用于時空時間序列預測的異質性信息時空元網絡(HimNet)。在五個廣泛使用的基準上進行的大量實驗表明,我們的方法在表現出卓越解釋性的同時,達到了最先進的性能。我們的代碼可在//github.com/XDZhelheim/HimNet獲取。
我們提出了一個概念上簡單且輕量級的框架,通過結合知識蒸餾和數據增強來提高視覺模型的魯棒性。我們解決了更大模型并不意味著更好的教師這一猜想,通過展示從預訓練基礎模型進行蒸餾時對于分布外魯棒性的顯著增益。基于這一發現,我們提出了離散對抗蒸餾 (DAD),它利用一個魯棒的教師生成對抗樣本,并使用VQGAN對它們進行離散化,從而創造出比標準數據增強技術更有信息量的樣本。我們為在知識蒸餾與數據增強環境下使用魯棒教師提供了一個理論框架,并展示了在不同學生架構上對于分布外魯棒性和干凈準確性的顯著增益。值得注意的是,與類似技術相比,我們的方法只增加了微小的計算開銷,并且可以輕松地與其他數據增強結合以進一步提高效果。
人們普遍認為,一個詞的標題的不確定性越高,就需要更多相互關聯的上下文信息來確定它。然而,目前的圖像描述生成方法通常考慮順序、平等地生成句子中的所有單詞。在本文中,我們提出了一個不確定性感知的圖像描述成框架,該框架并行迭代地在已有詞之間從易到難插入不連續候選詞,直到收斂。我們假設句子中的高不確定性詞需要更多的先驗信息才能做出正確的決定,應該在后面的階段產生。由此產生的非自回歸層次結構使得標題生成可解釋且直觀。具體來說,我們利用圖像條件下的單詞袋模型來測量單詞的不確定度,并應用動態規劃算法來構造訓練對。在推理過程中,我們設計了一種不確定性自適應并行波束搜索技術,它產生了一個經驗對數時間復雜度。在MS COCO基準上的大量實驗表明,我們的方法在描述質量和解碼速度上都優于強基準和相關方法。
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
我們提出了一種新的參數化方案來解決在大型神經網絡上運用差分私有SGD所面臨的挑戰,這些挑戰包括1) 存儲單個梯度的巨大存儲成本,2) 附加的噪聲嚴重依賴于維數。具體地說,我們用兩個小維的梯度載波矩陣和一個殘差權矩陣來重新參數化每個權矩陣。我們認為,這樣的重新參數化保持向前/向后過程不變,同時使我們能夠在不計算梯度本身的情況下計算投影梯度。為了學習差分隱私,我們設計了重參數梯度擾動(RGP),它擾亂梯度載體矩陣上的梯度,并從有噪聲的梯度中重建原始權重的更新。重要的是,我們使用歷史更新來尋找梯度載波矩陣,其最優性在線性回歸下得到嚴格證明,并通過深度學習任務得到經驗驗證。RGP顯著降低了內存成本并改進了實用程序。例如,我們首次能夠在BERT模型上應用差分隱私,并在e = 8的四個下游任務上實現了83.9%的平均精度,與非私有基準相比,損失在5%以內,但隱私泄漏風險要低得多。
論文研究跨實體立場檢測方法。這一問題的最大挑戰在于我們需要從有限的已知實體樣本中挖掘語義信息來對未知的實體進行立場檢測。分析發現,由于待預測樣本的實體是未知的,所以很難通過知識遷移或特征共享的方法將已知實體的訓練特征遷移至未知實體的立場學習當中。并且,不同的實體往往存在其特有的立場信息表達。
基于這一發現,論文探索了一種新的從實體出發來構建適應于該實體的語義依賴關系圖,該方法可以從已有語料中自動地為不同實體構建立場信息表達關系圖,稱為實體自適應語義依賴圖(target-adaptive semantic dependency graph, TSDG)。與以往基于特征共享和知識遷移的方法不同,TSDG同時考慮了實體內特有的立場表達信息(in-target graph)和不同實體之間的立場表達聯系(cross-target graph)。通過對in-target graph的建模和學習,可以突出該實體特有的立場表達信息,并可以將這些特有信息用于協助有關聯的未知實體立場特征學習;通過對cross-target graph的建模和學習,可以有效挖掘出不同實體之間的通用立場表達。最終通過一個交互式圖卷積網絡同時將in-target和cross-target信息用于未知實體的立場檢測。
對Timeseries數據中未來事件的準確和可解釋的預測通常需要捕獲支撐所觀察數據的代表性模式(或稱為狀態)。為此,現有的研究大多側重于狀態的表征和識別,而忽略了狀態之間變化的過渡關系。在本文中,我們提出了演化狀態圖,這是一種動態圖結構,旨在系統地表示狀態(節點)之間沿時間的演化關系(邊)。我們對由時間序列數據構成的動態圖進行分析,發現圖結構的變化(如連接某些狀態節點的邊)可以通知事件的發生(如時間序列波動)。受此啟發,我們提出了一種新的圖神經網絡模型——進化狀態圖網絡(EvoNet),用于編碼進化狀態圖以實現精確和可解釋的時間序列事件預測。具體來說,演化狀態圖網絡對節點級(狀態到狀態)和圖級(段到段)傳播進行建模,并捕獲節點圖(狀態到段)隨時間的交互。基于五個真實數據集的實驗結果表明,與11個基線相比,我們的方法不僅取得了明顯的改進,而且為解釋事件預測的結果提供了更多的見解。
為了從最能區分類的高維數據中學習內在的低維結構,我們提出了最大編碼率降低原理(MCR2),這是一種信息理論度量,可以最大限度地提高整個數據集和每個類的編碼率差。明確了它與交叉熵、信息瓶頸、信息增益、壓縮學習和對比學習等現有框架的關系,為學習多樣性和有判別性表示提供了理論保障。該編碼率可以從簡并類子空間分布的有限樣本中精確地計算出來,并且可以統一地學習有監督、自監督和無監督三種情況下的本征表示。特別地,單獨使用該原理學習的表示比使用交叉熵學習的表示在分類中標記錯誤時具有更強的魯棒性,并且可以在自學習不變特征聚類混合數據方面產生最先進的結果。
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。