在深度學習之后的時代,Transformer架構在預訓練的大型模型和各種下游任務中展示了其強大的性能。然而,這一架構巨大的計算需求已經讓許多研究者望而卻步。為了進一步降低注意力模型的復雜性,許多努力已經被投入到設計更高效的方法中。其中,狀態空間模型(SSM)作為一種可能替代基于自監督學習的Transformer模型的方案,近年來越來越受到關注。在這篇論文中,我們首次提供了這些工作的綜述,并提供實驗比較和分析,以更好地展示SSM的特征和優勢。具體來說,我們首先詳細描述了原理,以幫助讀者快速把握SSM的關鍵思想。之后,我們深入綜述了現有的SSM及其在自然語言處理、計算機視覺、圖形、多模態和多媒體、點云/事件流、時間序列數據等領域的各種應用。此外,我們提供了這些模型的統計比較和分析,希望能幫助讀者理解不同結構在各種任務上的有效性。然后,我們提出了可能的研究方向,以更好地促進SSM理論模型和應用的發展。更多相關工作將在以下GitHub上持續更新://github.com/Event-AHU/Mamba State Space Model Paper List。
人工智能在2010年開始的第三波快速發展中,其中基于聯結主義的深度學習技術扮演了極其重要的角色。深度學習的奇點可以追溯到AlexNet[1]的提出,該模型在ImageNet[2]比賽中取得了最佳性能(遠超第二名)。此后,各種卷積神經網絡(CNN)相繼被提出,例如VGG[3]、ResNet[4]、GoogleNet[5]等。塊、殘差連接和Inception的思想啟發了許多后續深度神經網絡的設計[6]、[7]。另一方面,循環神經網絡(RNN)家族,如長短時記憶網絡(LSTM)[8]和門控循環單元(GRU)[9],主導了基于序列的學習領域,包括自然語言處理和音頻處理。為了進一步擴展深度神經網絡在圖數據上的應用,提出了圖神經網絡(GNNs)[10]、[11]。然而,這些主流模型在數據集和計算力支持達到最大時仍面臨瓶頸。 為了解決CNN/RNN/GNN模型僅能捕捉局部關系的問題,2017年提出的Transformer[13]能夠很好地學習長距離特征表示。核心操作是自監督學習機制,它將輸入的令牌轉換為查詢、鍵和值特征,并通過查詢和鍵特征之間的乘積得到的相似性矩陣與值特征相乘,輸出長距離特征。Transformer架構首先在自然語言處理社區借助預訓練和微調范式[14]得到廣泛應用,例如BERT[15]、ERNIE[16]、BART[17]、GPT[18]。然后,其他領域也通過這些網絡得到推動,例如在計算機視覺中發布的ViT[19]和Swin-Transformer[20]。許多研究者還通過結合Transformer和其他網絡,或適應Transformer于多模態研究問題[21]、[22],探索混合網絡架構。在當前階段,大型基礎模型正在出現,參數高效微調(PEFT)策略[23]也得到了極大的發展。然而,當前基于Transformer的模型仍需要配備大內存的高端顯卡進行訓練和測試/部署,這極大地限制了它們的廣泛應用。
為了進一步降低計算成本,同時捕捉長距離依賴并保持高性能,許多新的基于稀疏注意力的模型或新的神經網絡范式被提出[24]–[28]。其中,狀態空間模型(例如,Mamba [12],S4 [29],S4nd [30]),如圖1所示,成為關注的中心。如圖2左部分所示,與SSM相關的論文發布量顯示出爆炸性增長的趨勢。狀態空間模型(SSM)最初是為了使用狀態變量來模擬控制理論、計算神經科學等領域的動態系統而提出的框架。當將這一概念適用于深度學習時,我們通常指的是線性不變(或穩定)系統。原始的SSM是一個連續動態系統,可以離散化以適應計算機處理的遞歸和卷積視角。SSM可以用于各種數據處理和特征學習,包括圖像/視頻數據、文本數據、結構化圖數據、事件流/點云數據、多模態/多媒體數據、音頻和語音、時間序列數據、表格數據等。它還可以用來構建高效的生成模型,如基于SSM的擴散生成模型[31]–[33]。為了幫助讀者更好地理解SSM并跟蹤最新的研究進展和各種應用,本文對該領域進行了系統的綜述,并通過實驗驗證了SSM模型在下游任務中的性能。希望這篇綜述能更好地引導和促進SSM領域的發展。
本綜述的組織。在本文中,我們首先在第2節提供狀態空間模型工作原理的初步預覽。然后,在第3節,我們專注于從多個方面綜述SSM的相關工作,包括SSM的起源和變體、自然語言處理、計算機視覺、圖形、多模態和多媒體、點云/事件流、時間序列數據和其他領域。在本綜述中審查的結構和關鍵狀態空間模型相關論文的概覽在圖3中說明。更重要的是,我們在第4節對多個下游任務進行了廣泛的實驗,以驗證SSM在這些任務中的有效性。下游任務涉及單/多標簽分類、視覺對象跟蹤、像素級分割、圖像到文本生成和人員/車輛重識別。我們還在第5節提出了幾個可能的研究方向,以促進SSM的理論和應用。最后,在第6節中我們對本文進行了總結。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。
在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。
在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。
盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。
機器學習模型雖然日益先進,但在很大程度上依賴于獨立同分布(IID)假設,這一假設在實際中往往得不到滿足,因為不可避免的分布偏移。這使得它們在風險敏感的應用部署中顯得脆弱且不可信。這一重大問題因此催生了各種旨在開發能夠進行分布外(Out-of-Distribution, OOD)泛化的算法的研究分支。盡管有這些努力,但對分布外泛化的評估卻鮮有關注,這同樣是一個復雜且基礎的問題。其目標不僅是評估一個模型的分布外泛化能力是否強大,而且還要評估一個模型在哪些地方泛化得好或泛化得差。這需要描述模型可以有效解決的分布偏移類型,并確定給定模型的安全和風險輸入區域。本文是進行分布外評估綜述的第一次嘗試。我們根據測試數據的可用性,將現有研究歸類為三種范式:分布外性能測試、分布外性能預測和分布外內在屬性表征。此外,我們還簡要討論了在預訓練模型上進行分布外評估的背景。最后,我們提出了分布外評估未來研究的幾個有希望的方向。
在過去的十年中,機器學習領域發生了重大進展。在數據和計算資源的指數級增長的推動下,神經網絡在包括但不限于計算機視覺[1]、自然語言處理[2]和推薦系統[3]等廣泛的應用領域取得了驚人的性能。盡管取得了顯著進展,但我們必須承認,現有的機器學習算法和模型仍然面臨著幾個持續存在的挑戰,這些挑戰極大地削弱了它們的可靠性和信任度。這些挑戰包括隱私泄露[4]、黑盒模型的弱可解釋性[5]、在對抗性攻擊下的脆弱性[6],以及面對分布偏移時泛化性能的顯著下降[7]。上述挑戰對當前機器學習算法的廣泛應用構成了實質性的障礙,特別是在高風險敏感性領域。典型例子包括法律[8](公平和公正至關重要)、醫療保健[9](患者福祉至上)和自動駕駛[10](人類生命取決于這些算法的性能)。
在這些挑戰中,分布偏移下的泛化問題,通常稱為分布外(Out-of-Distribution, OOD)泛化,構成了一個重大的障礙。這是因為當前算法在很大程度上依賴于IID假設,即測試數據和訓練數據應該是獨立同分布的,但幾乎到處都存在分布偏移。在真實應用中,我們幾乎無法保證部署模型遇到的測試數據將符合與訓練數據相同的分布。例如,推薦系統的模型在美國收集的用戶數據上進行訓練,但任務是擴展到其他國家的用戶,這些用戶的偏好分布可能有很大差異。同樣,主要由真實照片組成的數據集上訓練的視覺識別模型面臨著識別各種風格圖像的艱巨任務,如藝術繪畫,這代表了與其訓練數據的顯著分布偏移[11]。此外,訓練數據中通常存在人口群體的不平衡,特別是在性別或種族方面。在這種情況下,當訓練數據中的少數群體在測試數據中占主導地位時,模型的泛化性能可能會輕易下降[12]。所有這些分布偏移的實例都導致了機器學習算法的性能下降。盡管自更早以來已經開發了領域適應技術[13]、[14]、[15]來解決類似問題,但在野外環境中,分布偏移無處不在且未知,我們不太可能事先有權訪問測試數據。
一種直接的方法涉及開發算法,以增強模型在完全未知的測試數據下的OOD泛化能力,正如沈等人[7]所強調的。近年來,幾個研究分支致力于這一目標。領域泛化(DG)[16]、[17]、[18]利用多個訓練領域使模型能夠泛化到以前未見過的測試領域,主要在計算機視覺領域。分布魯棒優化(DRO)及其變體[19]、[20]、[21]試圖解決最壞情況下的分布。不變學習[22]、[23]、[24]尋求捕獲訓練數據中存在的潛在異質性和不變性。穩定學習[25]、[26]、[27]方法借鑒了因果推斷的思想,通過樣本重新加權來去相關變量。這些不同的分支共同貢獻于提高OOD泛化的總體目標,每個分支都提供了不可忽視的獨特見解和進步。
另一種使機器學習模型適用于高風險領域的途徑是評估,即評估它們在可能的OOD場景下的泛化能力。與OOD泛化算法的迅速增長相比,評估方面受到的關注要少得多。評估在機器學習的各個領域都是必不可少的。適當的評估協議和方法有潛力推動一個領域的進步,就像ImageNet[28]在計算機視覺領域所做的那樣。在OOD泛化的背景下,評估扮演著更為基礎的角色。一方面,與ID(In-Distribution)評估相比,OOD評估通常更加復雜。例如,給定一個單一任務的數據集,如圖像識別,一種自然的方法是將其隨機分割成訓練集和測試集,以測試準確率作為ID泛化的評估指標。但是,面對同一個數據集,我們如何分割數據集以生成所需的分布偏移并描述這種偏移?這種分布偏移是否可解[29]?在OOD的背景下,這變成了一個更復雜的過程。另一方面,值得注意的是,目前的OOD泛化算法沒有一個能在各種OOD設置中取得普遍且巨大的改進,并像ResNet[1]對計算機視覺社區所做的,或Transformer[30]對自然語言處理社區所做的那樣,引爆OOD社區。事實上,鑒于存在多種類型的分布偏移需要解決[31],而且很難一勞永逸地解決它們,因此開發一個在OOD泛化方面一致超過其他模型大幅度的模型是相當困難的。在這種情況下,評估模型在哪些方面表現出色或失敗更加實用和有用。具體而言,我們的目標轉向識別存在哪些類型的分布偏移[32],評估模型處理它們的能力,并尋找模型表現出色或糟糕的安全和風險輸入區域[33]。通過這種方式,我們可以充分利用現有的訓練模型,這些模型不能任意泛化,但適用于某些場景。
此外,與直接開發針對OOD泛化的模型相比,OOD評估還提供了額外的好處。如今,從頭開始訓練一個深度模型,甚至僅僅是對現有模型進行微調,都可能是耗時且昂貴的[34]。在像罕見疾病[35]這樣的數據稀缺場景中,可能根本沒有足夠的數據進行訓練。在這種情況下,盡管無法進一步改進它,我們仍可以借助適當的OOD評估方法決定是否以及在哪里使用這個模型,或從模型池中選擇合適的模型。此外,OOD評估也更具靈活性。設計的評估指標不必是可優化的,它可以無縫地融入模型選擇過程中,這是OOD泛化的一個關鍵但鮮有研究的方面[18]、[36]。它還可以與非算法操作結合使用,如添加額外數據或特征[33]。
因此,我們認為OOD評估是OOD泛化的一個基本方向。目標不僅是確定一個模型是否具有良好的OOD泛化能力,而且還要識別它在哪里可以表現良好,包括分布偏移的類型和程度,以及模型保持其能力的相應輸入區域。在本文中,我們提供了當前OOD評估協議、指標和方法的系統性綜述,涵蓋了OOD評估的多方面目標。據我們所知,我們是第一個全面審視這一領域的人。之前的綜述主要集中在OOD泛化本身[7],或是機器學習模型的一般評估[34]。另一項綜述也回顧了OOD模型的評估,但其范圍僅限于NLP領域[37]。
本文的其余部分安排如下。在第2節中,我們介紹了問題設定和OOD評估范式的分類。在第3節、第4節、第5節中,我們主要根據對OOD測試數據的依賴性描述了OOD評估范式的每個類別。在第6節中,我們討論了預訓練模型范圍內的OOD評估,包括大型語言模型(LLMs)。最后,在第7節中,我們總結了這篇論文,并提出了一些在未來研究努力中值得進一步探索的方向。
分布外性能測試
設計關于標記數據集的分布外性能測試程序絕非一個瑣碎的問題。對于ID泛化任務,給定一個標記數據集,直接隨機將其分割成訓練集和測試集已經足夠合理。但對于分布外泛化,許多問題需要仔細考慮。如果沒有給定的數據集,我們應該如何從頭開始生成一個標記的合成數據集來模擬特定類型的分布偏移?如果有給定的數據集,我們應該如何人為地生成分布偏移,或根據現有的分布偏移將數據集劃分為多個環境?在獲得數據集和環境劃分后,我們如何減少由于預訓練[36]和神諭模型選擇[18]導致的測試數據信息泄露的潛在可能性?此外,一旦我們測試了模型在標記數據集上的性能,我們應該如何有效地分析這一性能?在分布外性能測試方面需要解決許多問題。在本節中,我們將介紹當前的分布外數據集或基準以及它們的基本設計原則,以及分析性能和分布偏移的現有方法。
分布外性能預測
與分布外性能測試不同,后者的測試數據是完全可訪問的,這一領域代表了另一個研究維度,旨在預測在提供的未標記分布外測試數據上的性能。我們可以用醫學圖像智能系統的例子來說明這一點。這些系統作為輔助工具幫助醫生進行診斷。假設部署在這些系統上的模型是在北京和上海的患者數據上訓練的。現在我們想探索在廣州醫院部署這些模型和系統的可能性。因此,我們需要預測這些模型面對新場景下從患者收集的未標記圖像數據時的分布外性能。當前的工作嘗試從兩個角度應對這一挑戰。一些研究直接關注模型輸出在應用到測試數據時的屬性,而不使用訓練數據。相反,其他工作利用訓練數據的分布差異或模型一致性。前者通常更加方便和靈活,然而后者通常能夠提供更優的預測,因為它們利用了更多的信息。
結論與未來方向
科學合理的分布外評估范式,即對分布外泛化的評估,不僅對于推動新的分布外泛化算法的發展具有重要意義,而且對于現有模型的更實用和靈活的應用也極為關鍵。在本文中,我們對問題設定、三個主要類別的分布外評估方法進行了系統性的綜述,并簡要討論了在預訓練模型的背景下的應用。盡管我們已經討論了每個特定分布外評估類別的缺點和未來方向,但基于我們目前對分布外評估的認識和反思,我們在這里列舉了幾個更具普遍性但在當前文獻中相對缺乏的有價值的潛在未來方向。
分布外評估超越性能:大多數現有的分布外評估范式主要圍繞模型的性能。它們旨在評估模型的分布外性能是否足夠好,或者在模型之間進行比較。然而,如第一節所述,分布外評估的目標不僅僅是“是否”,還包括“在哪里”。考慮到各種類型的分布偏移,尋找分布外泛化的最終解決方案是困難的,因此,在部署機器學習模型時,識別特定模型的安全或風險區域,以及驗證算法能夠有效應對的分布偏移類型更為實用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝著這一目標的初步努力。值得注意的是,它們都是相對較新的工作,這表明可能存在一個朝向超越性能評估的趨勢。
分布外訓練數據評估:雖然全訓練模型是模型結構、算法和訓練數據的綜合結果,但當前的分布外評估范式大多評估不同模型結構或不同算法之間的模型,很少跨不同種類的訓練數據進行評估,也很少分析有利于分布外泛化的訓練數據屬性。在人們關注開發新模型結構和新算法的時代,訓練數據容易被忽視,盡管它對模型性能有著關鍵影響[142]、[143]、[144]。只有少數研究從訓練數據異質性的角度探討這個問題[122]、[145]。 區分分布外泛化與ID泛化的性能:現有的分布外評估方法依賴于絕對性能的直接比較。然而,我們對這些比較是否準確衡量模型的真實分布外泛化能力提出了疑問。存在一種可能性,性能提升歸因于ID泛化能力的改進,而非分布外泛化能力。例如,對同一數據集進行足夠的訓練,更大的網絡往往在ID和分布外測試數據上都能達到更高的性能。ID與分布外之間的性能差距,雖然不一定是適當的評估指標,可能保持不變甚至變大。當然,增加訓練數據的大小和模型容量通常有助于提高ID性能,從而提高分布外性能,但這并不意味著這是解決分布外泛化問題的答案,考慮到大型模型也會遭遇分布偏移時的嚴重性能下降[81]、[82],以及相關的偏見和公平性問題[34]、[140]。因此,對于分布外泛化的最終解決方案,我們建議在評估模型的分布外泛化能力時,應該區分分布外性能和ID性能。簡單使用性能差距可能不適合,因為強正則化技巧,如使用大的權重衰減,可能會降低ID性能以減少性能差距。已有一些工作討論了分布外和ID性能之間的關系[82]、[111]、[146]、[147]、[148],期待對這方面進行更深入的研究。
轉載機器之心專欄****機器之心編輯部
在自然語言處理(Natural Language Processing,NLP)領域,Transformer 模型因其在序列建模中的卓越性能而受到廣泛關注。然而,Transformer 及在其基礎之上的大語言模型(Large Language Models,LLMs)都不具備有效長度外推(Length Extrapolation)的能力。這意味著,受限于其訓練時預設的上下文長度限制,大模型無法有效處理超過該長度限制的序列。
文本續寫和語言延展是人類語言的核心能力之一,與之相對的,長度外推是語言模型智能進化的重要方向,也是在大模型時代最為高效的將模型的能力遷移到長序列數據的重要方法,對該問題的研究兼具理論價值和應用價值。因此,大量的相關工作持續涌現,在不斷擴展語言模型能力邊界的同時,也呼喚一篇系統性的綜述來對這一領域進行概覽。
基于此,哈爾濱工業大學的研究者們從位置編碼(Position Encoding, PE)的角度出發,全面地總結了 Transformer 模型在長度外推方面的研究進展,系統地回顧了各種旨在增強 Transformer 長度外推能力的方法,主要包括可外推的位置編碼和基于這些位置編碼的拓展方法。
論文鏈接://arxiv.org/abs/2312.17044
可外推的位置編碼
**
**
由于 Transformer 自身具有置換不變性(Permutation Invariance),無法直接捕獲每個詞在序列中的位置信息,因此使用位置編碼將序列中元素順序信息融入Transformer成為一種常見做法。根據位置編碼表示的是序列中元素的絕對位置信息還是相對位置信息,業界將位置編碼分為絕對位置編碼(Absolute Position Encoding,APE)和相對位置編碼(Relative Position Encoding,RPE),其主要區別如下圖所示(左圖表示 APE,右圖表示 RPE)。
考慮到現有研究表明這一分類對模型的外推能力有重要影響,我們根據這一分類來對本節內容進行劃分。
絕對位置編碼
在原始的 Transformer 論文中,位置編碼是通過正弦和余弦函數生成的,這些函數將位置映射到模型的表示空間中。Transformer 的作者猜想這種正弦位置編碼可以有效外推,但是后來的研究成果否定了這一猜想。盡管如此,作為 Transformer 的第一個 PE,正弦 APE 對之后的 PE 產生了重大影響。
為了增強 Transformer 模型的外推能力,研究人員要么通過隨機位移將位移不變性融入正弦 APE 中,要么生成隨位置平滑變化的位置嵌入并期望模型能夠學會推斷這一變化函數。基于這些思想的方法展現出比正弦 APE 更強的外推能力,但仍無法達到 RPE 的水平。原因之一是,APE 將不同的位置映射到不同的位置嵌入,外推意味著模型必須推斷出不曾見過的位置嵌入。然而,這對于模型來說是一項艱巨的任務。因為在廣泛的預訓練過程中重復出現的位置嵌入數量有限,特別是在 LLM 的情況下,模型極易對這些位置編碼過擬合。
相對位置編碼
由于 APE 在長度外推上的表現難以令人滿意,而 RPE 天然地由于其位移不變性具備更好的外推能力,并且人們普遍認為上下文中單詞的相對順序更重要。近年來,RPE 已成為編碼位置信息的主要方法。
早期的 RPE 來自于對正弦位置編碼的簡單修改,并常常結合裁剪或分箱策略來避免出現分布外的位置嵌入,這些策略被認為有利于外推。此外,由于 RPE 解耦了位置和位置表示之間的一對一對應關系,因此將偏差項直接添加到注意力公式中成為將位置信息集成到 Transformer 中的一種可行甚至更好的方法。這種方法要簡單得多,并且自然地解開了值(value)向量和位置信息的糾纏。然而,盡管這些偏置方法具有很強的外推性,但它們無法表示 RoPE(Rotary Position Embedding,旋轉位置編碼)中那樣復雜的距離函數。因此,盡管 RoPE 的外推性較差,但由于其優異的綜合性能,成為近來 LLMs 最主流的的位置編碼。論文中介紹的全部可外推 PE 如表 1 所示。
大模型時代的外推方法
為了增強 LLMs 的長度外推能力,研究者們基于現有的位置編碼提出了多種方法,主要分為位置插值(Position Interpolation)和隨機化位置編碼(Randomized Position Encoding)兩大類別。
位置插值方法
位置插值方法通過在推理時對位置編碼進行縮放,使得原本超出模型訓練長度的位置編碼在插值后落入已訓練位置區間。由于其卓越的外推性能和極低的開銷,位置插值方法引起了研究界的廣泛興趣。此外,與其他外推方法不同,位置插值方法已經廣泛出現在開源模型中,例如 Code Llama、Qwen-7B 和 Llama2。然而,目前的插值方法僅僅關注 RoPE,如何通過插值使采用其他 PE 的 LLM 具備更好的外推能力仍需探索。
隨機化位置編碼
簡單來說,隨機化 PE 只是通過在訓練期間引入隨機位置來將預訓練的上下文窗口與較長的推理長度解耦,從而提高了較長上下文窗口中所有位置的曝光度。值得注意的是,隨機化 PE 的思想與位置插值方法有很大不同,前者旨在使模型在訓練過程中觀察到所有可能的位置,而后者試圖在推理過程中對位置進行插值,使它們落入既定的位置范圍內。出于同樣的原因,位置插值方法大多是即插即用的,而隨機化 PE 通常需要進一步微調,這使得位置插值更具吸引力。然而,這兩類方法并不互斥,因此可以結合它們來進一步增強模型的外推能力。
挑戰與未來方向
**評測與基準數據集:**在早期研究中,對 Transformer 外推能力的評估來自各下游任務的性能評價指標,如機器翻譯的 BLEU;隨著 T5、GPT2 等語言模型逐漸統一自然語言處理任務,語言建模所使用的困惑度成為外推的評價指標。然而,最新的研究已經表明困惑度無法揭示下游任務的性能表現,因而亟需專用的基準數據集與評測指標來推動長度外推領域的進一步發展。
**理論解釋:**目前的長度外推相關工作大都是實證性的,盡管有一些解釋模型成功外推的初步嘗試,但堅實的理論基礎仍未建立,究竟有哪些因素影響且如何影響長度外推性能仍然是一個懸而未決的問題。
**其他方法:**正如本文所述,現有的長度外推工作大多集中在位置編碼視角下,但不難理解,長度外推需要系統性設計。位置編碼是其中一個關鍵的組成部分,但絕非唯一的組成部分,更廣闊的視野將進一步為這一問題帶來激勵。
Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統。
1.引言
具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。
這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。
在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。
2. 基于深度RL的序列決策
作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。
3. 序列決策視為序列建模問題
幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。
作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。
**4 結論 **
在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。
度量和緩解合成(源)數據與真實場景(目標)數據之間的差異是領域自適應語義分割的核心問題。近年來,已有工作通過在源域引入深度信息來增強幾何和語義知識遷移,但僅基于二維估計深度無法提取物體的位置和形狀等內在三維信息。本文提出一種新的幾何感知域適應網絡(GANDA),利用更緊湊的3D幾何點云表示來縮小域差距。首先,利用源域的輔助深度監督獲取目標域的深度預測,實現結構-紋理解纏;除了深度估計,顯式利用RGB-D圖像生成的點云上的3D拓撲結構,以進一步在目標域中進行坐標顏色解纏和偽標簽細化。此外,為了改進目標域上的二維分類器,我們進行了源域到目標域的域不變幾何自適應,統一了兩個域上的二維語義和三維幾何分割結果。請注意,我們的GANDA在任何現有UDA框架中都是即插即用的。定性和定量的實驗結果表明,該模型在GTA5→Cityscapes和SYNTHIA→Cityscapes數據集上的性能均優于目前的先進水平。
//www.zhuanzhi.ai/paper/e213cce10ef9b5c4515fa8924aa8fd44
理解強化學習(RL)智能體的新出現行為可能是困難的,因為此類智能體通常在復雜環境中使用高度復雜的決策程序進行訓練。這導致了強化學習中各種可解釋性方法的產生,這些方法旨在協調智能體的行為和觀察者預期的行為之間可能出現的差異。最近的大多數方法都依賴于領域知識(這可能并不總是可用的),依賴于對智能體策略的分析,或者依賴于對底層環境的特定元素的分析(通常建模為馬爾可夫決策過程(Markov Decision Process, MDP))。我們的關鍵主張是,即使底層的MDP不是完全已知的(例如,轉移概率沒有被準確地學習)或不是由智能體維護的(即,轉移概率不是由智能體維護的)。,當使用無模型方法時),它仍然可以被利用來自動生成解釋。出于這個目的,我們建議使用正式的MDP抽象和轉換(以前在文獻中用于加速搜索最優策略)來自動生成解釋。由于這種轉換通常基于環境的符號表示,它們可以表示預期和實際智能體行為之間差距的有意義的解釋。我們正式地定義了這個問題,提出了一類可以用來解釋突發行為的變換,并提出了能夠有效地尋找解釋的方法。我們將在一組標準基準上演示該方法。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
持續學習是一種學習模式,在這種模式下,學習系統按照一系列任務進行訓練。這里的目標是在當前任務上執行得很好,而不會受到前面任務的性能下降的影響。在神經網絡持續學習的最新進展中,有兩個值得注意的方向: (1) 基于變分貝葉斯的正則化,通過學習先前任務的先驗信息,以及(2)學習深度網絡的結構以適應新的任務。到目前為止,這兩種方法在很大程度上是相互正交的。我們提出了一個新的貝葉斯框架,基于不斷學習深度神經網絡的結構,以統一這些不同但互補的方法。該框架通過學習任務所使用的權值來學習任務的深層結構,并通過不同任務學習的權值的不同稀疏子集的重疊來支持任務間的遷移。我們提出的持續學習框架的一個吸引人的方面是,它既適用于甄別(有監督的)設置,也適用于生成(無監督的)設置。在有監督和無監督基準上的實驗結果表明,我們的方法在持續學習方面的表現與最近的進展相當或更好。
圖池化是眾多圖神經網絡(GNN)架構的核心組件。由于繼承了傳統的CNNs,大多數方法將圖池化為一個聚類分配問題,將規則網格中的局部patch的思想擴展到圖中。盡管廣泛遵循了這種設計選擇,但沒有任何工作嚴格評估過它對GNNs成功的影響。我們以代表性的GNN為基礎,并引入了一些變體,這些變體挑戰了在補充圖上使用隨機化或聚類的局部保持表示的需要。引人注目的是,我們的實驗表明,使用這些變體不會導致任何性能下降。為了理解這一現象,我們研究了卷積層和隨后的池層之間的相互作用。我們證明了卷積在學習的表示法中起著主導作用。與通常的看法相反,局部池化不是GNNs在相關和廣泛使用的基準測試中成功的原因。