考慮到用戶數據刪除請求、刪除噪聲的示例或刪除損壞的訓練數據,這只是希望從機器學習(ML)模型中刪除實例的幾個原因。然而,從ML模型中有效地刪除這些數據通常是困難的。在本文中,我們引入了數據移除(DaRE)森林,這是隨機森林的一種變體,可以在最少的再訓練的情況下刪除訓練數據。森林中每棵DaRE樹的模型更新都是精確的,這意味著從DaRE模型中刪除實例產生的模型與對更新后的數據進行從頭再訓練完全相同。
DaRE樹利用隨機性和緩存來高效刪除數據。DaRE樹的上層使用隨機節點,它均勻隨機地選擇分割屬性和閾值。這些節點很少需要更新,因為它們對數據的依賴性很小。在較低的層次上,選擇分割是為了貪婪地優化分割標準,如基尼指數或互信息。DaRE樹在每個節點上緩存統計信息,在每個葉子上緩存訓練數據,這樣當數據被刪除時,只更新必要的子樹。對于數值屬性,貪婪節點在閾值的隨機子集上進行優化,以便在逼近最優閾值的同時保持統計量。通過調整貪婪節點的閾值數量和隨機節點的數量,DaRE樹可以在更準確的預測和更有效的更新之間進行權衡。
在13個真實數據集和一個合成數據集上的實驗中,我們發現DaRE森林刪除數據的速度比從頭開始訓練的速度快幾個數量級,同時幾乎不犧牲預測能力。
我們提出了一種新的在線元學習算法,在有限的監督下順序揭示任務實例,并期望學習器在每一輪中對它們進行元學習,從而允許學習器在很少的任務級監督下快速定制特定任務模型。在線元學習中出現的一個基本問題是,隨著時間的推移,學習任務越來越多,記憶的可擴展性也越來越強。到目前為止,之前的工作都允許完美的回憶,導致記憶隨時間線性增加。與之前的工作不同,在我們的方法中,先前的任務實例是允許被刪除的。我們建議通過固定大小的狀態向量來利用之前的任務實例,狀態向量是按順序更新的。我們的理論分析表明,我們提出的記憶高效在線學習(MOML)方法具有凸損失函數的次線性遺憾和非凸損失的次線性局部遺憾。在基準數據集上,我們證明了我們的方法可以超越之前的方法,即使它們允許完美的回憶。
半監督學習(SSL)由于成功地使用了未標記數據,在許多機器學習任務中受到了極大的關注,而現有的SSL算法在訓練過程中要么使用所有未標記的示例,要么使用具有固定高置信度預測的未標記示例。然而,可能會有太多正確/錯誤的偽標簽示例被刪除/選擇。在本工作中,我們提出一個簡單但強大的訓練示例子集,以便只使用與已標記數據相關的偽標簽的未標記示例來訓練模型。在每次更新迭代中,只保留損失小于給定閾值(通過迭代動態調整)的示例,從而執行選擇。我們提出的Dash方法在無標記數據選擇方面具有自適應性,并具有理論保障。具體地,我們從非凸優化的角度從理論上建立了Dash的收斂速度。最后,我們通過與最先進的基準比較,證明了該方法的有效性。
我們提出了一個嚴格的方法,使用一組任意相關的弱監督源,以解決多類分類任務時,只有一個非常小的標記數據集可用。我們的學習算法可證明收斂于一個模型,該模型對于一組未標記數據的可行標記的對抗性選擇具有最小的經驗風險,其中標記的可行性是通過對弱監督源的嚴格估計統計量定義的約束來計算的。我們為這種依賴于弱監督來源提供的信息的方法提供了理論保障。值得注意的是,該方法不要求弱監督源具有與多類分類任務相同的標注空間。我們通過實驗證明了我們的方法在各種圖像分類任務中的有效性。
平移的不變性為卷積神經網絡注入了強大的泛化特性。然而,我們通常無法預先知道數據中存在哪些不變性,或者模型在多大程度上應該對給定的對稱組保持不變。我們展示了如何通過參數化增強分布和同時優化網絡參數和增強參數的訓練損失來學習不變性和等方差。通過這個簡單的過程,我們可以在一個很大的擴充空間中,僅在訓練數據上,恢復圖像分類、回歸、分割和分子性質預測上的正確不變量集和范圍。
Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。