與傳統的監督學習不同,在許多情況下,只有部分反饋是可用的。我們可能只觀察所選擇的行動的結果,而不是與其他選擇相關的反事實的結果。這些設置包括各種各樣的應用,包括定價、在線營銷和精準醫療。一個關鍵的挑戰是,觀測數據受到系統中部署的歷史策略的影響,從而產生偏倚的數據分布。我們將這一任務視為一個領域適應性問題,并提出了一種自訓練算法,該算法通過偽標記將觀察數據中有限的看不見的行動的分類值的結果來模擬隨機試驗,我們稱之為反事實自訓練(CST)。CST迭代地輸入偽標簽并重新訓練模型。此外,我們還發現輸入一致性損失可以進一步提高CST性能,這在最近的偽標記理論分析中得到了證明。我們證明了所提出的算法在合成和真實數據集的有效性。
圖神經網絡(GNN)已經在廣泛的應用領域取得了良好的效果。大多數對GNN的實證研究都直接將觀察到的圖作為輸入,假設觀察到的結構完美地描述了節點之間準確完整的關系。然而,現實世界中的圖不可避免地是嘈雜的或不完整的,這甚至會惡化圖表示的質量。本文從信息論的角度提出了一種新的變分信息瓶頸引導的圖結構學習框架VIB-GSL。VIB-GSL提出了圖結構學習的信息瓶頸(Information Bottleneck, IB)原則,為挖掘底層任務相關關系提供了一個更優雅和通用的框架。VIB-GSL學習了一種信息豐富的壓縮圖結構,為特定的下游任務提取可操作的信息。VIB-GSL對不規則圖數據進行變分逼近,形成易處理的IB目標函數,有利于訓練的穩定性。大量的實驗結果表明,VIB-GSL具有良好的有效性和魯棒性。
遷移對抗性攻擊是一種非常難的黑箱對抗性攻擊,其目標是對代理模型制造對抗性擾動,然后將這種擾動應用于受害者模型。然而,現有方法的擾動的可遷移性仍然有限,因為對抗性擾動很容易與單一代理模型和特定的數據模式過擬合。在本文中,我們提出了一種學會學習可遷移攻擊(LLTA)方法,通過從數據和模型增強中學習,使對抗攝動更加一般化。對于數據增強,我們采用簡單的隨機大小和填充。在模型增強方面,我們隨機改變正向傳播而不是反向傳播,以消除對模型預測的影響。通過將特定數據和修正模型的攻擊作為一項任務來處理,我們期望對抗攝動采用足夠的任務來泛化。為此,在擾動生成迭代過程中進一步引入元學習算法。在廣泛應用的數據集上進行的實驗結果表明,該攻擊方法的傳輸攻擊成功率比現有方法提高了12.85%。我們還在現實世界的在線系統,即谷歌云視覺API上對我們的方法進行了評估,以進一步展示我們的方法的實用潛力。
自訓練算法訓練模型以適應另一個先前學習的模型預測的偽標簽,對于使用神經網絡對未標記的數據進行學習非常成功。但是,當前對自訓練的理論理解僅適用于線性模型。這項工作為半監督學習,無監督領域適應和無監督學習提供了深度網絡自訓練的統一理論分析。我們分析的核心是一個簡單但現實的“擴展”假設,該假設指出,數據的低概率子集必須擴展到相對于子集而言具有較大概率的鄰域。我們還假設不同類別中的示例鄰域具有最小的重疊。我們證明在這些假設下,基于自訓練和輸入一致性正則化的人口目標最小化方法將在地面真相標簽方面實現高精度。通過使用現成的泛化邊界,我們立即將此結果轉換為在邊際和Lipschitzness中為多項式的神經網絡的樣本復雜度保證。我們的結果有助于解釋最近提出的使用輸入一致性正則化的自訓練算法的經驗成功。
//www.zhuanzhi.ai/paper/dd480967a4fbca4c6cc92
現有的反事實學習排名(LTR)工作集中于優化基于特征的模型,該模型基于文檔特征預測最優排名。基于bandit算法的LTR方法通常優化表格模型,這些表格模型記住每個查詢的最佳排名。這些類型的模型都有各自的優點和缺點。基于特征的模型在許多查詢(包括那些以前未見過的查詢)中提供了非常健壯的性能,但是,可用的特征往往限制了模型可以預測的排名。相反,表格模型通過記憶可以收斂于任何可能的排名。然而,記憶非常容易產生噪音,這使得表格模型只有在大量用戶交互可用時才可靠。我們能否開發一種穩健的反事實LTR方法,在安全的情況下追求基于記憶的優化? 我們介紹了泛化和專門化(GENSPEC)算法,這是一種魯棒的基于特征的反事實LTR方法,在安全的情況下,它會對每個查詢進行記憶。GENSPEC優化了單個基于特性的模型以實現泛化:跨所有查詢的健壯性能,以及用于專門化的許多表模型:每個表模型都針對單個查詢優化了高性能。GENSPEC使用新穎的相對高可信度邊界來選擇每個查詢部署哪個模型。通過這樣做,GENSPEC成功地實現了專門化表格模型的高性能和基于特征的廣義模型的魯棒性。我們的結果表明,GENSPEC可以在具有足夠點擊數據的查詢上獲得最佳性能,而在數據很少或有噪聲的查詢上具有健壯的行為。
//www.zhuanzhi.ai/paper/b0324110474b3753db34a6296cd76504
當前的大規模語言模型可能由于其訓練數據而產生政治偏見,當將它們部署在現實環境中時可能會導致嚴重的問題。
在本文中,我們提出了用于衡量GPT-2生成中的政治偏見的指標,并提出了一種強化學習(RL)框架,用于緩解生成的文本中的政治偏見。通過使用來自詞嵌入或分類器的獎勵,我們的RL框架無需訪問訓練數據或要求對模型進行重新訓練即可指導去偏見生成。
在對政治偏見敏感的三個屬性(性別、位置和主題)的實證實驗中,我們的方法根據我們的指標和人工評估很好地減少了偏見,同時保持了可讀性和語義一致性。
盡管健壯的深度學習中的現有工作都集中在基于像素級別的小型規范擾動,但這可能無法解決在多個實際設置中遇到的擾動。在許多此類情況下,盡管可能無法獲得測試數據,但可能知道有關擾動類型(例如未知的旋轉度)的廣泛規范。我們考慮一種在看不見的測試域中預期具有魯棒性的設置。但偏離了訓練領域。雖然可能無法確切知道此偏差,但根據屬性先驗地指定了其廣泛的特征。我們提出了一種對抗訓練方法,該方法學習如何生成新樣本,從而最大程度地將分類器暴露于屬性空間,而無需訪問來自測試域的數據。我們的對抗訓練解決了最小-最大優化問題,通過優化內部最大化產生的對抗性擾動的損失,使內部最大化產生對抗性擾動,而外部最小化找到模型參數。我們證明了我們的方法在三種類型的自然擾動上的適用性-與對象相關的移動,幾何變換和常見的圖像破壞。我們的方法使深度神經網絡能夠抵抗各種自然擾動。我們通過展示在MNIST,CIFAR-10和CLEVR數據集的新變體上進行對抗訓練而獲得的深度神經網絡的魯棒性收益,從而證明了所提出方法的有效性。
基于用戶交互來優化排名系統是一個被廣泛研究的問題。基于用戶交互的優化排名系統的最先進方法分為在線方法(通過直接與用戶交互進行學習)和反事實方法(通過歷史交互進行學習)。現有的在線方法在沒有在線干預的情況下會受到阻礙,因此不應該被用到反事實方法中。相反,反事實的方法不能直接從在線干預中獲益。我們提出了一種新的干預感知估計器,用于反事實和在線學習排序(LTR)。隨著干預感知估計器的引入,我們的目標是連接在線/反事實LTR部門,因為它在在線和反事實場景中都被證明是非常有效的。通過使用基于日志策略行為和在線干預(在收集點擊數據期間對日志策略所做的更改)的校正,估計器可以校正位置偏差、信任偏差和項目選擇偏差的影響。我們的實驗結果,在一個半合成的實驗設置中進行,結果表明,不像現有的反事實LTR方法,干預感知估計器可以從在線干預大大獲益。
序列分類是在給定一個觀察序列的情況下預測一個類標簽的任務。在醫療保健監視或入侵檢測等許多應用程序中,早期分類對于及時干預至關重要。在這項工作中,我們學習序列分類器,有利于早期分類從一個演進的觀察痕跡。雖然許多先進的序列分類器是神經網絡,特別是LSTMs,我們的分類器采取有限狀態自動機的形式,并通過離散優化學習。在一組目標識別和行為分類數據集上的實驗表明,我們學習的基于自動機的分類器具有與基于LSTM的分類器相當的測試性能,而且具有可解釋性的額外優勢。
//www.zhuanzhi.ai/paper/dcc701a6f9e51a118b583586f16c0eea
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。
Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。