受到自然語言處理(NLP)中通用模型成功的啟發,近期研究嘗試將不同的視覺任務統一到相同的序列格式中,并使用自回歸的Transformers進行序列預測。它們應用單向注意力來捕捉序列依賴性,并遞歸生成任務序列。然而,這樣的自回歸Transformers可能不適合視覺任務,因為視覺任務序列通常缺乏在自然語言中通常觀察到的序列依賴性。在這項工作中,我們設計了Masked AutoDecoder (MAD),一個有效的多任務視覺通用模型。MAD包含兩個核心設計。首先,我們開發了一個并行解碼框架,引入雙向注意力以全面捕捉上下文依賴性,并并行解碼視覺任務序列。其次,我們設計了一種遮蔽序列建模方法,通過遮蔽和重構任務序列來學習豐富的任務上下文。通過這種方式,MAD通過單一網絡分支和簡單的交叉熵損失處理所有任務,最小化任務特定設計。廣泛的實驗展示了MAD作為統一各種視覺任務新范式的巨大潛力。與自回歸對手相比,MAD實現了更優的性能和推理效率,同時與任務特定模型保持競爭力的準確率。代碼將在//github.com/hanqiu-hq/MAD 發布。
零樣本學習(ZSL)通過進行視覺-語義交互來識別未見類別,將語義知識從已見類別傳遞到未見類別,這一過程得到了語義信息(例如,屬性)的支持。然而,現有的ZSL方法僅使用預訓練的網絡主干(即CNN或ViT)提取視覺特征,由于缺乏語義信息的指導,這些方法未能學習匹配的視覺-語義對應關系來表示與語義相關的視覺特征,導致視覺-語義交互不理想。為解決這一問題,我們提出了一個漸進式語義引導視覺變換器用于零樣本學習(簡稱ZSLViT)。ZSLViT主要考慮了整個網絡中的兩個屬性:一是顯式地發現與語義相關的視覺表征,二是丟棄與語義無關的視覺信息。具體來說,我們首先引入了語義嵌入的token學習,通過語義增強和語義引導的token注意力來改善視覺-語義對應關系,并顯式地發現與語義相關的視覺token。然后,我們融合低視覺-語義對應關系的視覺token以丟棄與語義無關的視覺信息,用于視覺增強。這兩種操作被整合到各種編碼器中,以便在ZSL中逐步學習與語義相關的視覺表征,以實現精確的視覺-語義交互。廣泛的實驗表明,我們的ZSLViT在三個流行的基準數據集上,即CUB、SUN和AWA2,取得了顯著的性能提升。
序列到序列的視覺-語言模型展現出了前景,但由于其自回歸方式生成預測的方式,其應用受到了推理延遲的限制。我們提出了一種并行解碼的序列到序列視覺-語言模型,該模型采用Query-CTC損失進行訓練,可以在解碼器中對多個推理路徑進行邊際化處理。這允許我們模擬令牌的聯合分布,而不是像自回歸模型那樣限制于條件分布。結果模型,NARVL,在性能上與其最先進的自回歸對應模型相當,但在推理時間上更快,將與順序生成token相關的線性復雜度減少到常數時間的聯合推理范式。
自回歸的序列到序列Transformer模型是一種深度神經網絡架構,將一系列代表文本片段的令牌(每個令牌表示為一個向量)映射到另一個序列上,通常代表相同序列向前移動一個位置的情況。這樣的模型可以處理各種任務,其中輸入(查詢)文本可能是自然語言中的一個句子,輸出(目標)可能是不同語言中的相同句子(翻譯),或輸入表達的問題的答案(問答QA),實體或類的名稱等。Transformer架構的多功能和統一設計導致了全能(AIO)模型的發展,使得多種任務可以作為序列到序列翻譯問題來處理。
視覺-語言AIO模型,包括序列到序列的模型,已經成功地將多模態輸入(通常是圖像和文本字符串)映射到文本輸出,這些文本輸出編碼了可以表達為一串文本的任務,如視覺問答(VQA)、視覺定位(VG)、視覺蘊含(VE)和圖像字幕(IC)。這些自回歸序列到序列模型面臨推理成本問題,因為它們往往笨重且需要執行T次以生成長度為T的輸出序列。
在一些最新的視覺-語言AIO模型中提出了非自回歸方法,這些方法將序列到序列映射定義為一個二分匹配問題。這種方法在視覺信息是關鍵的任務中表現出色,如對象定位和檢測。然而,它在處理以語言為中心的任務,如視覺問答和圖像字幕,方面的效果較差。這種差異可能源于任務的性質:在對象檢測/定位中,令牌是無序的,每個令牌對應不同的對象或框,與句子中有序的令牌相比,對象間的相關性較弱,而句子中單詞間的相關性更強。因此,與語言導向的任務相比,集合到集合、順序獨立的翻譯方法更適合視覺任務。
主要假設:我們假設基于Transformer的架構可以利用輸入和輸出空間的同質性,同時使輸出空間更加靈活。特別是,我們對一次性聯合解碼序列,而不是逐步解碼的可能性感興趣。我們測試這樣的架構是否能夠在顯著降低推理成本的同時,達到與自回歸基線相當的性能。
為了測試這一假設,我們開發了一個新的視覺語言全能模型,將基于Transformer的自回歸一步預測模型轉變為目標令牌的聯合預測器,如第3節所述。在第4節中,我們展示了這樣一個模型,我們命名為NARVL,可以用于多個視覺-語言任務(視覺問答VQA、字幕、蘊含、定位)。如圖1所示,NARVL在性能上與最先進的自回歸模型相當,但在速度上有顯著優勢,范圍從1.4到12.7倍不等。
NARVL的實現通過重新利用自回歸Transformer模型的解碼器,并且模型有一層可學習的查詢令牌(LQT),這些令牌在推理時固定,在微調期間學習。NARVL通過Query-CTC(Q-CTC)損失啟用,這是CTC損失的一個變體,CTC損失用于音頻和語言,但從未應用于視覺領域,在這個領域,普通的經驗交叉熵損失(CE)相對于預測中的生成變異性被邊際化。而在語言領域,多個解碼假設源自編碼器的輸出,在視覺中這是限制的,因為輸入和輸出空間是異構的。因此,我們修改了CTC損失,使其不是相對于解碼路徑進行邊際化,而是相對于從順序可學習查詢令牌的順序索引到預測令牌的路徑進行邊際化。
因此,我們的關鍵貢獻可以總結如下:(i)我們提出了一個新的序列到序列非自回歸的全能視覺語言模型,該模型并行生成序列。(ii)我們引入Query-CTC損失來訓練這一架構,靈感來自于音頻識別和語言中使用的CTC損失,利用順序可學習查詢令牌生成多個生成路徑,并在普通交叉熵損失中對結果種群進行邊際化。我們展示了(iii)所得到的架構與多個視覺-語言任務中的最先進自回歸架構具有競爭力,且由于模型在推理時僅執行一次,而不是按照輸出層中的令牌數量順序執行多個步驟,因此大大減少了推理時間。
開創性的工作已經驗證了擴散模型在探索推薦系統中信息不確定性方面的有效性。考慮到推薦任務與圖像合成任務之間的差異,現有方法對擴散和逆過程進行了針對性的改進。然而,這些方法通常使用語料庫中得分最高的項目來預測用戶興趣,導致忽視了用戶在其他項目中包含的泛化偏好,從而仍受限于數據稀疏問題。為了解決這個問題,本文提出了一種新穎的推薦用插件擴散模型(PDRec)框架,該框架將擴散模型作為一個靈活的插件,共同充分利用在所有項目上擴散生成用戶偏好的優勢。具體而言,PDRec首先通過時間間隔擴散模型推斷用戶在所有項目上的動態偏好,并提出了歷史行為重新加權(HBR)機制,以識別高質量行為并抑制噪聲行為。除了觀察到的項目,PDRec提出了基于擴散的正向增強(DPA)策略,利用排名靠前的未觀察項目作為潛在正樣本,引入信息豐富且多樣化的軟信號來緩解數據稀疏。為了緩解假陰性采樣問題,PDRec采用無噪聲負采樣(NNS)來選擇穩定的負樣本,以確保有效的模型優化。在四個數據集上的廣泛實驗和分析驗證了所提出的PDRec相較于最先進的基準模型的優越性,并展示了PDRec作為常用順序編碼器的靈活插件在不同推薦場景下的普遍性。代碼可在//github.com/hulkima/PDRec獲得。
在大規模多模態數據集上的自監督學習,允許在聯合多模態表示空間中學習有語義的嵌入,而不依賴人工標注。這些聯合嵌入實現了零樣本的跨模態任務,如檢索和分類。然而,這些方法往往難以在域外數據上很好地泛化,因為它們忽略了特定模態嵌入中存在的語義結構。在這種背景下,我們提出一個新穎的Semantic-Structure-Preserving一致性的方法來提高普遍性modality-specific關系保存在聯合嵌入空間。為捕捉樣本之間的特定模態語義關系,本文建議學習多個錨點,并表示樣本與這些錨點之間的多方面關系。為了給每個樣本分配多個錨點,提出了一種新的多指派Sinkhorn-Knopp算法。我們的實驗表明,我們提出的方法學習語義上有意義的錨self-supervised的方式。在MSR-VTT和YouCook2數據集上的評估表明,所提出的基于多錨點分配的解決方案實現了最先進的性能,并可泛化到域內和域外數據集。代碼://github。com/Swetha5/Multi_Sinkhorn_Knopp
近期,自動化機器學習(AutoML)技術被引入,用以根據數據特定方式設計協同過濾(CF)模型。然而,現有的工作或是搜索架構,或是搜索超參數,而忽略了它們之間的內在關系,應該一同考慮。這激發了我們考慮一種結合超參數和架構搜索的方法來設計CF模型。但由于搜索空間巨大和評估成本高昂,這并不容易。為解決這些挑戰,我們通過對單個超參數的全面了解,篩選出有用的超參數選擇來減少搜索空間。接下來,我們提出了一個兩階段搜索算法,從減少的空間中找到合適的配置。在第一階段,我們利用從子樣本數據集中獲取的知識來減少評估成本;在第二階段,我們高效地在整個數據集上對頂級候選模型進行微調。在真實世界數據集上的大量實驗表明,與手工設計的和以前搜索的模型相比,我們的模型可以達到更好的性能。此外,消融和案例研究都證明了我們搜索框架的有效性。
針對圖數據的Transformer正在被越來越廣泛地研究,并在許多學習任務中取得成功。圖歸納偏差對于Graph Transformers至關重要,之前的工作通過使用信息傳遞模塊和/或位置編碼來加入這些偏差。然而,使用信息傳遞的Graph Transformers繼承了信息傳遞的已知問題,并且與在其他領域中使用的Transformers顯著不同,這使得研究進展的遷移變得更加困難。另一方面,沒有使用信息傳遞的Graph Transformers在較小的數據集上的表現通常較差,在這種情況下,歸納偏差更為重要。為了彌合這個鴻溝,我們提出了Graph Inductive bias Transformer(GRIT)—一種新的Graph Transformer,它在不使用信息傳遞的情況下融合了圖歸納偏差。GRIT基于幾個從理論和實證上都得到證明的架構變化,包括:使用隨機游走概率初始化的學習相對位置編碼,一種可以更新節點和節點對表示的靈活的注意力機制,以及在每一層注入度信息。我們證明GRIT是有表現力的——它可以表示最短路徑距離和各種圖傳播矩陣。GRIT在各種圖數據集中實現了最新的實證性能,這顯示了不使用信息傳遞的Graph Transformers所能夠帶來的強大能力。
自監督視頻哈希(SSVH)模型學習為視頻生成短二進制表示,無需地真監督,提高了大規模視頻檢索的效率,引起了越來越多的研究關注。SSVH的成功之處在于對視頻內容的理解以及捕獲未標記視頻之間語義關系的能力。通常,最先進的SSVH方法在兩階段訓練管道中考慮這兩點,首先通過實例掩碼訓練輔助網絡并預測任務,其次訓練哈希模型以保留從輔助網絡轉移的偽鄰域結構。這種連續的訓練策略是不靈活的,也是不必要的。本文提出了一種簡單有效的單階段SSVH方法——ConMH,該方法將視頻語義信息和視頻相似關系的理解融合在一個單階段中。為了獲取視頻語義信息,我們采用編碼器-解碼器結構從時間掩碼幀重構視頻。特別是,我們發現較高的掩蔽比有助于視頻理解。此外,我們充分利用了視頻之間的相似關系,最大化了視頻的兩個增強視圖之間的一致性,從而獲得了更具鑒別性和魯棒性的哈希碼。在三個大型視頻數據集(FCVID, ActivityNet和YFCC)上的大量實驗表明,ConMH達到了最先進的結果。 網址://github.com/ huangmozhi9527/ConMH。
圖結構數據的自監督學習最近引起了從無標記圖學習可泛化、可遷移移和魯棒表示的興趣。其中,圖對比學習(GraphCL)以良好的表征學習性能出現。不幸的是,與圖像數據不同的是,GraphCL的有效性依賴于特定的數據擴展,由于圖數據的多樣性,必須根據經驗或反復試驗的規則手動選擇每個數據集。這極大地限制了GraphCL更普遍的適用性。為了填補這一關鍵空白,本文提出了一個統一的雙層優化框架,在對特定圖形數據執行GraphCL時自動、自適應、動態地選擇數據增強。聯合增強優化(JOint Augmentation Optimization, JOAO)的通用框架被實例化為最小最大化優化。JOAO所做的增強的選擇通常與從手工調優中觀察到的以前的“最佳實踐”一致:但現在已經自動化,更加靈活和通用。此外,我們提出了一種新的增強感知投影頭機制,在每個訓練步驟中,通過選擇不同的投影頭對應不同的增強來路由輸出特征。大量實驗表明,JOAO在不同規模和類型的多個圖數據集上的性能與最先進的競爭對手(包括GraphCL)相當,有時甚至更好,而無需對增強選擇進行任何費力的數據集特定調優。我們在//github.com/ Shen-Lab/GraphCL_Automated發布了代碼。
最近,異質圖神經網絡(HGNNs)在處理異質信息網絡(HIN)方面展現了優越的能力。大部分的HGNNs都遵循半監督學習的設定,然而實際應用中標簽信息往往很難獲得。而自監督學習由于能夠自發地從數據本身挖掘監督信號,已經成為無監督設定下很好的選擇。作為一種典型的自監督機制,對比學習(contrastive learning)通過從數據中抽取出正負樣本,同時最大化正例間的相似度以及最小化負例間相似度,能夠學到判別性的表示。盡管對比學習在CV和NLP領域得到了廣泛應用,如何將它和HIN結合卻尚未解決。
通過認真考慮HIN以及對比學習的特性,我們總結了三個需要解決的本質問題:
1)如何設計異質對比機制 HIN中包含復雜結構,例如元路徑(meta-path),需要利用跨視圖的對比學習機制來綜合刻畫。
2)如何在HIN中選擇合適的視圖 對于視圖的基本要求是,能夠刻畫網絡的局部結構和高階結構。網絡模式(network schema)反應了節點間的直接連接情況,捕捉局部結構;元路徑通常被用來抽取多跳關系。
3)如何設置困難的對比任務 簡單的正負關系很容易被捕獲,模型學到的信息有限。增加對比任務的難度,可通過增加兩個視圖間的差異,或者生成更高質量的負樣本來實現。
在本篇文章中,我們提出了一個新的基于協同對比學習的異質圖神經網絡框架,簡稱HeCo。HeCo采用跨視圖的對比機制,選擇網絡模式和元路徑作為兩個視圖,結合視圖掩蓋機制,分別學得兩個視圖下的節點表示。之后,利用跨視圖對比學習,使得兩個視圖協同監督。此外,我們還提出兩個HeCo擴展,通過生成更高質量的負例,提升最終效果。
Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。