最近在大型語言模型(LLMs)方面的進展使得視頻語言模型(Video-LLMs)的發展成為可能,通過將視頻數據與語言任務結合,推動了多模態學習的進步。然而,當前的視頻理解模型在處理長視頻序列、支持多輪對話以及適應現實世界的動態場景方面存在困難。為了解決這些問題,我們提出了STREAMCHAT,一個無需訓練的框架,用于流媒體視頻推理和對話互動。STREAMCHAT利用一種新穎的分層記憶系統,能夠高效地處理和壓縮長序列中的視頻特征,從而實現實時的多輪對話。我們的框架結合了并行系統調度策略,提高了處理速度并降低了延遲,確保在現實應用中的強大性能。此外,我們還推出了STREAMBENCH,一個多功能的基準測試,能夠評估流媒體視頻理解在多種媒體類型和互動場景下的表現,包括多輪互動和復雜推理任務。在STREAMBENCH和其他公開基準上的廣泛評估表明,STREAMCHAT在準確性和響應時間方面顯著超越了現有的最先進模型,驗證了其在流媒體視頻理解中的有效性。代碼可在StreamChat獲取。
如何減輕大規模語言模型(LLMs)中的幻覺問題,一直是LLMs研究社區追求的根本目標。通過回顧大量與幻覺相關的研究,減少幻覺的主流方法之一是通過優化LLMs的知識表示來改變其輸出。考慮到這些工作的核心關注點是模型所獲取的知識,而知識一直是人類社會進步的核心主題,我們認為模型在精煉知識的過程中,可以從人類的學習方式中大大受益。
在本研究中,我們通過模仿人類的學習過程,設計了一種自適應對比學習策略。我們的方法根據LLMs實際掌握的知識靈活地構建不同的正負樣本進行對比學習。這一策略幫助LLMs鞏固它們已掌握的正確知識,深化它們對已接觸但未完全理解的正確知識的理解,忘記之前學習過的錯誤知識,并誠實地承認它們缺乏的知識。大量實驗和廣泛使用的數據集上的詳細分析驗證了我們方法的有效性。
盡管文本到視頻(T2V)生成技術已經取得了進展,制作具有真實運動的視頻仍然具有挑戰性。當前模型通常產生靜態或動態變化極少的輸出,未能捕捉文本中描述的復雜運動。這個問題源于文本編碼中的內部偏差,這些偏差忽視了運動,并且T2V生成模型的條件機制不足。為了解決這個問題,我們提出了一種新穎的框架,稱為分解運動(DEMO),該框架通過將文本編碼和條件控制分解為內容和運動組件來增強T2V生成中的運動合成。我們的方法包括一個用于靜態元素的內容編碼器和一個用于時間動態的運動編碼器,以及單獨的內容和運動條件控制機制。關鍵是,我們引入了文本-運動和視頻-運動的監督,以提高模型對運動的理解和生成能力。在MSR-VTT、UCF-101、WebVid-10M、EvalCrafter和VBench等基準測試中的評估表明,DEMO在生成具有增強運動動態的視頻方面表現優越,同時保持高視覺質量。我們的方法通過直接從文本描述中整合全面的運動理解,顯著推動了T2V生成的進展。項目頁面://PR-Ryan.github.io/DEMO-project/
預訓練的對比視覺-語言模型在廣泛的任務中展示了卓越的性能。然而,它們經常在未在預訓練期間充分表示的類別上的微調數據集上遇到困難,這使得適應變得必要。近期的研究通過使用來自網絡規模數據庫的樣本進行檢索增強適應,顯示了在低數據環境下的有希望的結果。盡管經驗上取得了成功,理解檢索如何影響視覺-語言模型的適應仍是一個開放的研究問題。在這項工作中,我們通過呈現一個系統研究來采用反思性視角,理解檢索增強適應中關鍵組件的角色。我們揭示了關于單模態和跨模態檢索的新見解,并強調了對有效適應至關重要的邏輯集合的作用。我們進一步提出了直接支持我們經驗觀察的理論基礎。
在多任務強化學習領域,模塊化原則已被廣泛采納,該原則涉及將功能專業化到不同的模塊中,并適當地組合它們,作為預防由于任務間沖突導致的性能降低的有希望的方法。但是,現有的多任務RL方法大多只在任務層面組合共享模塊,忽略了任務內部可能存在的沖突。此外,這些方法沒有考慮到,如果沒有約束,某些模塊可能會學到相似的功能,從而限制了模塊化方法的表達能力和泛化能力。在這篇論文中,我們提出了具有時間注意力的對比模塊(CMTA)方法來解決這些限制。CMTA通過對比學習使模塊之間保持差異,并使用時間注意力在比任務層面更細的粒度上組合共享模塊,從而減輕了任務內的負面轉移,并提高了多任務RL的泛化能力和性能。我們在Meta-World上進行了實驗,這是一個包含各種機器人操縱任務的多任務RL基準。實驗結果顯示,CMTA首次超越了單獨學習每個任務,并在基線上取得了大幅的性能提升。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。