零樣本學習(ZSL)通過進行視覺-語義交互來識別未見類別,將語義知識從已見類別傳遞到未見類別,這一過程得到了語義信息(例如,屬性)的支持。然而,現有的ZSL方法僅使用預訓練的網絡主干(即CNN或ViT)提取視覺特征,由于缺乏語義信息的指導,這些方法未能學習匹配的視覺-語義對應關系來表示與語義相關的視覺特征,導致視覺-語義交互不理想。為解決這一問題,我們提出了一個漸進式語義引導視覺變換器用于零樣本學習(簡稱ZSLViT)。ZSLViT主要考慮了整個網絡中的兩個屬性:一是顯式地發現與語義相關的視覺表征,二是丟棄與語義無關的視覺信息。具體來說,我們首先引入了語義嵌入的token學習,通過語義增強和語義引導的token注意力來改善視覺-語義對應關系,并顯式地發現與語義相關的視覺token。然后,我們融合低視覺-語義對應關系的視覺token以丟棄與語義無關的視覺信息,用于視覺增強。這兩種操作被整合到各種編碼器中,以便在ZSL中逐步學習與語義相關的視覺表征,以實現精確的視覺-語義交互。廣泛的實驗表明,我們的ZSLViT在三個流行的基準數據集上,即CUB、SUN和AWA2,取得了顯著的性能提升。
時間序列分類在金融、醫療和傳感器數據分析等多個領域都是一個關鍵任務。無監督的對比學習在從標簽有限的時間序列數據中學習有效表示方面引起了廣泛關注。現有的對比學習方法中普遍的方法包括兩個獨立的階段:在無標簽數據集上預訓練編碼器,然后在小規模有標簽數據集上對經過良好訓練的模型進行微調。然而,這種兩階段方法存在幾個缺點,例如:無監督預訓練對比損失不能直接影響下游的微調分類器,以及缺乏利用由有價值的真實標簽指導的分類損失。在本文中,我們提出了一個名為SLOTS(半監督時間分類學習)的端到端模型。SLOTS接收半標簽數據集,其中包含大量的無標簽樣本和少量的有標簽樣本,并通過編碼器將它們映射到一個嵌入空間。我們不僅計算無監督的對比損失,而且在具有真實標簽的樣本上測量有監督的對比損失。學到的嵌入被送入一個分類器,并使用可用的真實標簽計算分類損失。無監督、有監督對比損失和分類損失被聯合用來優化編碼器和分類器。我們通過與五個數據集上的十種最先進方法進行比較來評估SLOTS。結果表明,與兩階段框架相比,我們的端到端SLOTS使用相同的輸入數據,消耗類似的計算成本,但提供了明顯優化的性能。我們在 //anonymous.4open.science/r/SLOTS-242E 發布了代碼和數據集。
在大規模多模態數據集上的自監督學習,允許在聯合多模態表示空間中學習有語義的嵌入,而不依賴人工標注。這些聯合嵌入實現了零樣本的跨模態任務,如檢索和分類。然而,這些方法往往難以在域外數據上很好地泛化,因為它們忽略了特定模態嵌入中存在的語義結構。在這種背景下,我們提出一個新穎的Semantic-Structure-Preserving一致性的方法來提高普遍性modality-specific關系保存在聯合嵌入空間。為捕捉樣本之間的特定模態語義關系,本文建議學習多個錨點,并表示樣本與這些錨點之間的多方面關系。為了給每個樣本分配多個錨點,提出了一種新的多指派Sinkhorn-Knopp算法。我們的實驗表明,我們提出的方法學習語義上有意義的錨self-supervised的方式。在MSR-VTT和YouCook2數據集上的評估表明,所提出的基于多錨點分配的解決方案實現了最先進的性能,并可泛化到域內和域外數據集。代碼://github。com/Swetha5/Multi_Sinkhorn_Knopp
類增量學習(class incremental learning, CIL)旨在在類別數量逐步增加的情況下訓練分類模型。CIL模型面臨的一個內在挑戰是穩定性與可塑性的權衡,即CIL模型既要保持穩定性以保留舊知識,又要保持可塑性以吸收新知識。然而,現有的CIL模型都不能在不同的數據接收設置中實現最佳權衡——通常,從一半開始訓練(TFH)設置需要更大的穩定性,但從頭開始訓練(TFS)需要更大的可塑性**。設計了一種在線學習方法,可以在不知道先驗設置的情況下自適應地優化權衡。**首先引入了影響權衡的關鍵超參數,例如知識蒸餾(KD)損失權重、學習率和分類器類型。然后,將超參數優化過程建模為一個在線馬爾可夫決策過程(MDP)問題,并提出了一種具體的算法來求解該問題。本文采用局部估計獎勵和經典bandit算法Exp3[4]來解決將在線MDP方法應用于CIL協議時存在的問題。所提出方法在TFH和TFS設置中不斷改進表現最好的CIL方法,例如,與最先進的[23]相比,在ImageNet-Full上將TFH和TFS的平均精度提高了2.2個百分點。
理解強化學習(RL)智能體的新出現行為可能是困難的,因為此類智能體通常在復雜環境中使用高度復雜的決策程序進行訓練。這導致了強化學習中各種可解釋性方法的產生,這些方法旨在協調智能體的行為和觀察者預期的行為之間可能出現的差異。最近的大多數方法都依賴于領域知識(這可能并不總是可用的),依賴于對智能體策略的分析,或者依賴于對底層環境的特定元素的分析(通常建模為馬爾可夫決策過程(Markov Decision Process, MDP))。我們的關鍵主張是,即使底層的MDP不是完全已知的(例如,轉移概率沒有被準確地學習)或不是由智能體維護的(即,轉移概率不是由智能體維護的)。,當使用無模型方法時),它仍然可以被利用來自動生成解釋。出于這個目的,我們建議使用正式的MDP抽象和轉換(以前在文獻中用于加速搜索最優策略)來自動生成解釋。由于這種轉換通常基于環境的符號表示,它們可以表示預期和實際智能體行為之間差距的有意義的解釋。我們正式地定義了這個問題,提出了一類可以用來解釋突發行為的變換,并提出了能夠有效地尋找解釋的方法。我們將在一組標準基準上演示該方法。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
零樣本學習(zero-shot learning, ZSL)的關鍵挑戰是如何推斷已見類的視覺特征和屬性特征之間的潛在語義知識,從而實現對未見類的知識遷移。以往的研究要么簡單地將圖像的整體特征與其關聯的類語義向量對齊,要么利用單向注意學習有限的潛在語義表示,無法有效地發現視覺特征與屬性特征之間的內在語義知識(如屬性語義)。**為了解決上述困境,我們提出了一種相互語義蒸餾網絡(MSDN),該網絡逐步提取ZSL的視覺特征和屬性特征之間的內在語義表示。**MSDN包含學習基于屬性的視覺特征的屬性→視覺注意子網和學習基于可視化的屬性特征的屬性→屬性注意子網。通過進一步引入語義蒸餾損失,兩個相互關注的子網絡能夠在整個訓練過程中進行協作學習和相互教學。提議的MSDN在強大的基線上產生了顯著的改進,導致在三個流行的具有挑戰性的基準(即CUB、SUN和AWA2)上產生了新的最先進的性能。我們的代碼已在:\url{//github.com/shiming-chen/MSDN}。
零樣本學習(Zero-shot learning, ZSL)解決了未見類別識別問題,將語義知識從顯性類別轉移到未見類別。通常,為了保證理想的知識轉移,在ZSL中使用一個公共(潛在)空間來關聯視覺域和語義域。然而,現有的空間學習方法僅僅通過一步適應來緩解分布的分歧,從而使語義和視覺領域保持一致。這種策略通常是無效的,因為這兩個領域的特征表示具有異質性的本質,本質上包含了分布和結構的變化。為了解決這一問題,我們提出了一種新的層次語義-視覺自適應(HSVA)框架。具體來說,HSVA通過兩步層次適應,即結構適應和分布適應,對語義域和視覺域進行對齊。在結構調整步驟中,我們采用兩個特定于任務的編碼器將源數據(視覺域)和目標數據(語義域)編碼到一個與結構對齊的公共空間中。為此,提出了一個監督對抗差異(supervised adversarial不符,SAD)模塊,以對抗最小化兩個任務特定分類器預測之間的差異,從而使視覺和語義特征流形更緊密地對齊。在分布自適應步驟中,我們直接最小化潛在的多元高斯分布之間的Wasserstein距離,使用公共編碼器對齊視覺分布和語義分布。最后,在一個統一的框架下推導了在兩個部分對齊的變分自編碼器下的結構和分布自適應。在四個基準數據集上的大量實驗表明,HSVA在傳統ZSL和廣義ZSL上都取得了優異的性能。代碼可在//github.com/shiming-chen/HSVA上獲得。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
圖結構數據的自監督學習最近引起了從無標記圖學習可泛化、可遷移移和魯棒表示的興趣。其中,圖對比學習(GraphCL)以良好的表征學習性能出現。不幸的是,與圖像數據不同的是,GraphCL的有效性依賴于特定的數據擴展,由于圖數據的多樣性,必須根據經驗或反復試驗的規則手動選擇每個數據集。這極大地限制了GraphCL更普遍的適用性。為了填補這一關鍵空白,本文提出了一個統一的雙層優化框架,在對特定圖形數據執行GraphCL時自動、自適應、動態地選擇數據增強。聯合增強優化(JOint Augmentation Optimization, JOAO)的通用框架被實例化為最小最大化優化。JOAO所做的增強的選擇通常與從手工調優中觀察到的以前的“最佳實踐”一致:但現在已經自動化,更加靈活和通用。此外,我們提出了一種新的增強感知投影頭機制,在每個訓練步驟中,通過選擇不同的投影頭對應不同的增強來路由輸出特征。大量實驗表明,JOAO在不同規模和類型的多個圖數據集上的性能與最先進的競爭對手(包括GraphCL)相當,有時甚至更好,而無需對增強選擇進行任何費力的數據集特定調優。我們在//github.com/ Shen-Lab/GraphCL_Automated發布了代碼。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39