在對大規模視頻-語言模型(VLMs)進行預訓練的過程中,盡管在各種下游視頻-語言任務中展示了巨大的潛力,現有的VLMs仍可能存在一些常見的局限性,例如粗粒度的跨模態對齊、時間動態的欠建模以及視頻-語言視圖的脫節。在本研究中,我們針對這些問題提出了一種細粒度的結構時空對齊學習方法(即Finsta),以增強VLMs的表現。
首先,我們使用細粒度的場景圖(SG)結構來表示輸入文本和視頻,并將這兩種模態統一到一個整體場景圖(HSG)中,以橋接兩種模態之間的差異。然后,我們構建了一個基于SG的框架,其中文本場景圖(TSG)通過圖Transformer進行編碼,而視頻動態場景圖(DSG)和整體場景圖(HSG)則通過一種新穎的循環圖Transformer進行空間和時間特征傳播。此外,我們還設計了一種時空高斯差分圖Transformer,以增強對物體在空間和時間維度上變化的感知。
接下來,基于TSG和DSG的細粒度結構特征,我們分別進行以物體為中心的空間對齊和以謂詞為中心的時間對齊,從而在空間性和時間性上增強視頻-語言的基礎。我們將該方法設計為一個即插即用的系統,可以集成到現有的經過良好訓練的VLMs中以進一步增強表示能力,而無需從頭開始訓練或在下游應用中依賴場景圖注釋。
在6個代表性的視頻-語言建模任務和12個數據集的標準和長視頻場景中,Finsta在細調和零樣本設置中持續改進了現有的13個高性能VLMs,并顯著刷新了當前的最先進的終端任務性能。
最近的研究表明,百科全書中的文檔作為輔助信息對零樣本學習非常有幫助。現有方法通過將整個文檔的語義與相應的圖像對齊來傳遞知識。然而,這些方法忽略了語義信息在兩者之間并不等價,導致次優的對齊效果。在本研究中,我們提出了一種新穎的網絡,從文檔和圖像中提取多視角的語義概念,并對匹配的部分概念進行對齊,而不是整個概念。具體來說,我們提出了一個語義分解模塊,從視覺和文本方面生成多視角的語義嵌入,為部分對齊提供基本概念。為了緩解嵌入中的信息冗余問題,我們提出了局部到語義方差損失,以捕捉不同的局部細節,并提出多語義多樣性損失,以在嵌入之間強制正交性。隨后,引入了兩種損失,根據它們在視圖和詞到片段級別的語義相關性,部分對齊視覺-語義嵌入對。因此,我們在三種標準基準測試的兩個文檔來源下,一直優于最新的方法。在定性方面,我們表明我們的模型學習到了可解釋的部分關聯。代碼可在此獲取。
3D資產生成正在受到大量關注,這一趨勢受到了最近文本引導的2D內容創造成功的啟發。現有的文本到3D方法使用預訓練的文本到圖片擴散模型在一個優化問題中使用或對其在合成數據上進行微調,這通常會導致非真實感的3D對象而沒有背景。在這篇論文中,我們提出了一種方法,利用預訓練的文本到圖片模型作為先驗,并學習在單一去噪過程中從真實世界數據生成多視圖圖像。具體來說,我們提議將3D體積渲染和跨幀注意力層集成到現有文本到圖片模型的U-Net網絡的每個塊中。此外,我們設計了一個自回歸生成過程,能在任何視點渲染更具3D一致性的圖像。我們在現實世界對象的數據集上訓練我們的模型,并展示了它生成具有各種高質量形狀和紋理在真實環境中實例的能力。與現有方法相比,我們方法生成的結果是一致的,并且具有較好的視覺質量(FID降低30%,KID降低37%)。
大型語言模型(LLMs)對于機器學習應用變得越來越重要。然而,使LLMs與我們的意圖保持一致可能是具有挑戰性的,特別是當我們想要生成優先于其他內容的內容,或者當我們希望LLM以某種難以描述的風格或語調響應時。為了應對這一挑戰,我們提出了一種使用對比例子來更好描述我們意圖的方法。這涉及提供展示真實意圖的正面例子,以及展示我們希望LLMs避免的特征的負面例子。負面例子可以從標記數據中檢索,由人類編寫,或由LLM本身生成。在生成答案之前,我們要求模型分析這些例子,以教會自己需要避免什么。這一推理步驟為模型提供了用戶需求的適當闡述,并引導它生成更好的答案。我們在合成和真實世界數據集上測試了我們的方法,包括StackExchange和Reddit,發現與標準的少次數提示相比,它顯著提高了性能。
對比視覺-語言預訓練,即CLIP,展現了在感知開放世界視覺概念方面的顯著潛力,實現了有效的零樣本圖像識別。然而,基于CLIP的小樣本學習方法通常需要在少量樣本上進行離線微調參數,這導致了更長的推理時間和在某些領域過擬合的風險。為了應對這些挑戰,我們提出了Meta-Adapter,一種輕量級的殘差風格適配器,用以指導少樣本在線細化CLIP特征。通過少量的訓練樣本,我們的方法可以實現有效的小樣本學習能力,并且在沒有額外微調的情況下泛化到未見過的數據或任務,達到了具有競爭力的性能和高效率。我們的方法不需要復雜的附加功能,就在八個圖像分類數據集上平均超過了最新的在線小樣本學習方法3.6%的性能,并且具有更高的推理速度。此外,我們的模型簡單靈活,可作為直接適用于下游任務的即插即用模塊。在無需進一步微調的情況下,Meta-Adapter在開放詞匯的對象檢測和分割任務中取得了顯著的性能提升。
圖級異常檢測 (GLAD) 旨在識別與集合中的大多數相比呈現顯著差異的圖。然而,當前的研究主要集中在評估圖級的異常性,而未能為預測提供有意義的解釋,這在很大程度上限制了它們的可靠性和應用范圍。在本文中,我們研究了一個新的具有挑戰性的問題,即可解釋的GLAD,其學習目標是預測每個圖樣本的異常性及相應的解釋,即導致預測的關鍵子圖。為了解決這一具有挑戰性的問題,我們提出了一個自解釋的圖異常檢測模型(簡稱SIGNET),它可以同時檢測異常圖并生成有益的解釋。具體地說,我們首先介紹多視圖子圖信息瓶頸 (MSIB) 框架,作為我們自解釋GLAD方法的設計基礎。這樣,SIGNET不僅能夠基于交叉視圖互信息測量每個圖的異常性,而且還能夠通過從輸入圖和其雙重超圖中提取瓶頸子圖以自我監督的方式提供有益的圖理由。在16個數據集上的廣泛實驗展示了SIGNET的異常檢測能力和自解釋性。
近期,使用掩碼自編碼器的自監督學習因其能有效產生圖像或文本表示而日益受到歡迎,這些表示可以應用于多種下游任務,無需重新訓練。然而,我們觀察到當前的掩碼自編碼器模型在圖數據上缺乏良好的泛化能力。為了解決這一問題,我們提出了一個名為GiGaMAE的新型圖掩碼自編碼器框架。與現有的掩碼自編碼器不同,這些編碼器通過顯式重構原始圖組件(例如,特征或邊)來學習節點表示,在本文中,我們提議協同重構有信息性和整合性的潛在嵌入。通過考慮 encompassing 圖的拓撲結構和屬性信息的嵌入作為重建目標,我們的模型可以捕獲更為泛化和全面的知識。此外,我們引入了一個基于互信息的重建損失,該損失可以有效地重建多個目標。這個學習目標使我們能夠區分從單一目標中學到的獨有知識和多個目標共享的常見知識。我們在三個下游任務上評估了我們的方法,使用了七個數據集作為基準。大量實驗顯示,GiGaMAE相對于最先進的基線表現出色。我們希望我們的結果將為圖結構數據上的基礎模型設計提供啟示。我們的代碼可在以下網址找到: //github.com/sycny/GiGaMAE。
少樣本圖像生成(FSIG)通過使用少量(例如,10個)參考樣本來學習生成目標領域中多樣且高保真的圖像。現有的FSIG方法選擇、保留并將源生成器(在相關領域上預訓練)的先驗知識轉移到目標生成器中進行學習。在本文中,我們研究了FSIG中一個鮮為人知的問題,稱為不兼容知識遷移,它會大大降低合成樣本的真實感。實證觀察表明,這個問題源于源生成器中最不重要的過濾器。為此,我們提出了知識截斷來緩解FSIG中的這個問題,它是一種與知識保護互補的操作,并通過一種輕量級的剪枝方法實現。大量實驗表明,知識截斷簡單且有效,始終實現最先進的性能,包括源和目標領域距離較遠的具有挑戰性的設置。項目頁面:yunqing-me.github.io/RICK。
對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。
協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。
場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。