大型文本到圖像生成模型在生成性AI中已經取得了突破性的發展,擴散模型展現了根據輸入文本提示合成令人信服的圖像的驚人能力。圖像編輯研究的目標是通過修改文本提示來賦予用戶對生成圖像的控制。目前的圖像編輯技術容易在目標區域之外的區域,例如背景或與目標對象具有某種語義或視覺關系的干擾物體上,發生無意的修改。根據我們的實驗發現,不準確的交叉注意圖是這個問題的根源。基于這一觀察,我們提出了動態提示學習(Dynamic Prompt Learning, DPL)以強制交叉注意圖集中于文本提示中的正確名詞詞匯。通過使用所提出的漏洞修復損失更新文本輸入中的名詞的動態代幣,我們實現了對特定對象的細粒度圖像編輯,同時防止了對其他圖像區域的不希望的變化。我們的方法DPL基于公開可用的穩定擴散(Stable Diffusion)進行了廣泛的評估,在大量圖像上一致獲得了優越的結果,無論是量化(CLIP得分,Structure-Dist)還是定性(用戶評估)都是如此。我們展示了對于詞匯交換(Word-Swap)、提示細化(Prompt Refinement)和注意力重新加權(Attention Re-weighting),尤其是在復雜的多對象場景中,改進了的提示編輯結果。
在許多實際情況中(例如,學術網絡、社交平臺),不同類型的實體不僅與文本關聯,而且還通過各種關系相互連接,這可以被抽象為文本屬性異構圖(TAHGs)。當前的語言模型(LMs)預訓練任務主要集中在分開學習每個實體的文本信息,并忽視了捕捉TAHGs中實體之間的拓撲關系的重要方面。在這篇論文中,我們提出了一個新的針對LMs的預訓練框架,明確地考慮TAHGs中的拓撲和異構信息。首先,我們定義了一個上下文圖為特定順序內的目標節點的鄰域,并提議一個拓撲意識的預訓練任務,通過聯合優化LM和一個輔助的異構圖神經網絡來預測參與上下文圖的節點。其次,基于觀察到一些節點文本豐富,而其他節點文本很少的現象,我們設計了一種文本增強策略,通過其鄰居的文本來豐富沒有文本的節點,以處理不平衡問題。我們在三個來自不同領域的數據集上進行鏈接預測和節點分類任務。實驗結果證明了我們的方法相對于現有方法的優越性和每種設計的合理性。我們的代碼可在以下鏈接找到://github.com/Hope-Rita/THLM。
近期,文本編輯模型已成為單語文本生成任務的重要替代,如語法錯誤修正、文本簡化和風格轉換。這些任務有一個共同的特點 - 它們在源文本和目標文本之間顯示出大量的文本重疊。
文本編輯模型利用這一觀察結果,學習通過預測對源序列應用的編輯操作來生成輸出。相比之下,seq2seq模型從頭開始逐詞生成輸出,這使得它們在推理時很慢。文本編輯模型相對于seq2seq模型提供了若干優勢,包括更快的推理速度、更高的樣本效率,以及更好的輸出控制和解釋性。
本教程提供了基于文本編輯的模型和當前最先進方法的全面概述,并分析了它們的優缺點。我們討論了與部署相關的挑戰,以及這些模型如何有助于減輕幻覺和偏見,這兩個都是文本生成領域的迫切挑戰。 目錄內容:
講者:
大規模文本語料庫上的模型預訓練已經被證明在NLP領域的各種下游應用中非常有效。在圖挖掘領域,也可以類比預訓練圖模型在大規模圖上,以期望從中獲益于下游圖應用,這也被一些最近的研究所探索。然而,現有的研究從未研究過在具有豐富文本信息的大型異構圖(也就是大型圖譜語料庫)上預訓練文本加圖模型,然后在具有不同圖模式的不同相關下游應用上對模型進行微調。為了解決這個問題,我們提出了一個在大型圖譜語料庫上進行圖感知語言模型預訓練(GaLM)的框架,該框架結合了大型語言模型和圖神經網絡,并在下游應用上提供了各種微調方法。我們在亞馬遜的真實內部數據集和大型公共數據集上進行了廣泛的實驗。全面的實證結果和深入的分析證明了我們提出的方法的有效性,以及我們從中學到的經驗。
視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。
//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db
深度卷積神經網絡(CNN)的卓越性能通常歸因于其更深和更廣泛的架構,這可能伴隨著巨大的計算成本。因此,修剪神經網絡引起了人們的興趣,因為它有效地降低了存儲和計算成本。與導致非結構化模型的權重剪枝相比,結構化剪枝通過產生對硬件實現友好的模型來提供現實加速的好處。結構化剪枝的特殊要求導致了許多新挑戰的發現和創新解決方案的發展。**本文綜述了深度CNN結構化剪枝的最新進展。總結并比較了最先進的結構化剪枝技術,包括過濾器排序方法、正則化方法、動態執行、神經架構搜索、ticket 假設以及剪枝的應用。**在討論結構化剪枝算法時,簡要介紹非結構化剪枝算法,以強調它們的區別。對結構化剪枝領域的潛在研究機會提供了見解。有關神經網絡剪枝的論文列表可以在//github.com/he-y/Awesome-Pruning上找到。
1. 引言
深度卷積神經網絡(CNN)在廣泛的應用中表現出了卓越的性能,包括圖像分類[1]、目標檢測[2]和圖像分割[3]等。許多CNN結構被提出,包括AlexNet [4], VGGNet [5], inception [6], ResNet[7]和DenseNet[8]。這些架構包含數百萬個參數,需要巨大的計算能力,使得在資源有限的硬件上部署具有挑戰性。模型壓縮是該問題的一種解決方案,旨在減少參數數量、計算成本和內存消耗。因此,它的研究變得越來越重要。 **為了生成更高效的模型,模型壓縮技術被提出,包括剪枝[9]、量化[10]、分解[11]和知識蒸餾[12]。**術語“剪枝”指的是刪除網絡的組件,以產生用于加速和壓縮的稀疏模型。剪枝的目的是在不顯著影響模型性能的情況下最小化參數的數量。大多數關于剪枝的研究都是在用于圖像分類任務的CNN上進行的,這是其他計算機視覺任務的基礎。 剪枝可分為非結構化[9]和結構化剪枝[13]。非結構化剪枝刪除神經網絡的連接(權重),導致非結構化稀疏性。非結構化剪枝通常會導致高壓縮率,但需要特定的硬件或庫支持以實現實際的加速。結構化剪枝刪除了神經網絡的整個濾波器,并可以利用基本線性代數子程序(BLAS)庫等高效庫的優勢,用標準硬件實現實際的加速和壓縮。在transformer[14]時代,從結構化剪枝的角度重新審視cnn的屬性是有意義的。最近,將CNN的架構設計納入Transformer模型[15],[16],[17],[18],[19]的趨勢越來越大。盡管transformer中的自注意力[20]在計算序列表示方面是有效的,但由于transformer缺乏歸納偏差[17],[21],[22],仍然需要大量的訓練數據。相比之下,cnn的結構在權重上實施兩個關鍵的歸納偏差:局部性和權重共享,以提高學習算法的泛化性,并且獨立于數據[17]。本綜述提供了對CNN的更好理解,并為未來有效設計架構提供了提示。
**本文關注結構化剪枝。現有壓縮研究綜述如表1所示。**一些綜述涵蓋了正交領域,包括量化[23]、知識蒸餾[24]和神經架構搜索[25]。一些調研[26]提供了更廣泛的概述。雖然一些研究側重于剪枝,但它們更多地關注非結構化剪枝,并且覆蓋了少量結構化剪枝的研究。[27]、[28]、[29]、[30]、[31]、[32]、[33]的結構化剪枝論文引用數分別為1、11、15、55、38、10、20篇。本文提供了一個更全面的調研,其中有200多篇結構化剪枝論文。
**調研安排如下:在分類法中(圖1),將結構化剪枝方法分為不同的類別。**第2節的每一小節對應于一類結構化剪枝方法。大多數方法首先以非結構化的方式開發,然后擴展以滿足結構約束。盡管一些研究涵蓋了多個類別,但我們將它們放在為本調查服務的最合適的類別中。第三部分介紹了一些潛在的和有希望的未來發展方向。由于篇幅限制,僅對最具代表性的研究進行詳細討論。
2. 方法
Weight-Dependent
權重依賴準則根據濾波器的權重來評估濾波器的重要性。與基于激活的方法相比,權重依賴的方法不涉及輸入數據。因此,權重依賴方法被認為是直接的,需要較低的計算成本權重依賴準則有兩個子類:濾波器范數和濾波器相關性。計算一個濾波器的范數獨立于其他濾波器的范數,而計算濾波器相關性涉及多個濾波器。 Activation-Based
激活圖是輸入數據和濾波器的卷積結果(等式1)。除了使用濾波器的權重外,激活圖可以用于濾波器修剪。激活通道剪枝是過濾器剪枝的另一個名稱,因為刪除激活圖的通道等同于刪除過濾器。除了當前層的效果外,過濾器修剪還通過特征圖影響下一層的過濾器。為了評估第l層中的濾波器,我們可以利用以下激活圖上的信息:1)當前層-通道重要性可以通過使用重建誤差[58]、激活圖[59]的分解、通道獨立性的利用[61]和后激活[62],[63]來評估;2)相鄰層-冗余通道可以通過利用當前層和下一層之間的依賴關系來有效識別[66],[67]。此外,還可以利用前一層的激活圖來指導剪枝決策[123],[124];3)所有層-通過最小化最終響應層的構造誤差[69]并考慮所有層的區分能力[70],可以評估去除濾波器的整體效果。 正則化
正則化可以通過添加不同的稀疏度正則化器Rs(·)來學習結構化稀疏網絡。如果網絡包含批量歸一化層,則稀疏正則化器可應用于BN參數。為了實現結構化稀疏,使用BN參數來指示通道或濾波器等結構的剪枝決策。引入了作為可學習門工作的額外參數來指導修剪。有了這些額外的參數,網絡不再需要批量規范化層。稀疏正則化器也可以直接應用于濾波器。Group Lasso正則化通常用于以結構化的方式稀疏化濾波器。
Optimization Tools
動態修剪
動態剪枝可以在訓練和推理過程中進行。訓練過程中的動態旨在通過在訓練過程中保持動態修剪掩碼來保持模型的代表能力。它也被稱為軟剪枝,以確保不當的剪枝決策在以后可以恢復。另一方面,硬修剪永久地消除了固定掩碼的權重。推理過程中的動態表示網絡根據不同的輸入樣本動態修剪。例如,與復雜圖像相比,包含明確目標的簡單圖像需要更少的模型容量[108]。因此,動態推理提供了更好的資源準確性權衡。
神經架構搜索
由于人工確定逐層剪枝率等剪枝相關超參數非常繁瑣,因此提出了神經架構搜索(NAS)[25]來自動尋找剪枝結構。在綜述NAS[25]方法的基礎上,將NAS剪枝分為3種方法。NAS可以建模為:1)強化學習(RL)問題,RL代理通過搜索動作空間(如剪枝率)來找到稀疏的子網絡。2)基于梯度的方法,通過修改梯度更新規則,使稀疏約束的優化問題對權重可微。3)演化方法,采用演化算法對稀疏子網絡進行探索和搜索。
Extensions
為了對圖結構數據建模,圖學習,特別是利用圖神經網絡的深度圖學習,最近引起了學術界和工業界的廣泛關注。目前流行的圖學習方法通常依賴于從“大”數據中學習,需要大量標注數據進行模型訓練。然而,通常圖與“小”標記數據關聯,作為數據注釋,在圖上標記總是耗時和消耗資源。因此,在有限甚至沒有標記數據的低資源環境下,研究人力監督下的圖學習是非常必要的。在本教程中,我們將專注于圖最小監督學習的最先進的技術,特別是一系列弱監督學習、少樣本學習和自監督學習方法的圖結構數據及其現實應用。本教程的目標是: (1) 對圖最小監督學習中的問題進行正式的分類,并討論不同學習場景下的挑戰; (2) 全面回顧了圖最小監督學習的現有和最新進展; (3) 闡明有待解決的問題和未來的研究方向。本教程介紹了最小監督學習中的主要主題,并為圖學習的新前沿提供了指南。我們相信本教程對研究人員和實踐者是有益的,允許他們在圖學習上合作。
//sites.google.com/asu.edu/kdd2022-tutorial-gmsl
本教程主要關注圖結構數據的最小監督學習(即弱監督學習、少樣本學習和自監督學習)的問題和技術。我們希望觀眾有機器學習、圖挖掘和圖神經網絡的一般背景知識。目標受眾是對該主題不熟悉或感興趣的學生、研究人員和從業人員。本教程將以研究生水平的講座形式進行。具備深度學習、圖挖掘和機器學習的基礎知識優先考慮,但不是必需的。我們將通過網站和社交媒體發布我們的教程信息。
近年來,我們從網絡世界的眾多平臺和物理世界的各種傳感器中生成和收集數據的能力迅速增長。圖作為一種公共語言,用于建模大量的結構化和關系系統,如社會網絡、知識圖譜和學術圖,其中實體被表示為節點,而它們的關系被表示為邊。最近,圖學習算法,尤其是基于圖神經網絡(GNNs)的算法[27,30]由于其在解決現實問題方面的重大影響而受到了廣泛的研究關注。為了利用數據之間的固有結構,圖學習在方法論上取得了重大進展,在不同領域的應用中產生了有前途的結果,從網絡安全[38]到自然語言處理[9]。
一般來說,現有的圖學習算法都專注于在訓練過程中能夠訪問到大量的人類注釋示例的設置。這種假設往往是不可行的,因為收集這些輔助知識是費力的,需要密集的領域知識,特別是考慮到圖結構數據的異構性[10,31]。因此,在有限或沒有標記訓練數據的不同低資源設置下研究圖學習是具有挑戰性的,但也是勢在必行的。其中,圖最小監督學習領域的三個基本問題引起了越來越多的研究關注: (1)圖弱監督學習(graph weaksupervised learning),即利用不完整、間接或不準確的監督信號來學習針對特定下游任務的有效GNN;(2)圖少樣本學習(Graph few -shot Learning),它的目標是在只有少數標簽實例可用的情況下處理不可見的任務(從新的標簽空間);(3)圖自監督學習(Graph Self-supervised Learning),旨在訓練任務無關的GNN或增強GNN在特定的下游任務上的能力,而不需要任何語義注釋。為了解決上述每個基本問題,最近研究人員將不同的機器學習技術應用于圖域,如數據增強[37]、元學習學習[29]和對比學習[21]。因此,我們組織本教程來回顧和討論圖最小監督學習的最新進展,并討論如何利用它們來解決現實世界的問題。
在本教程中,我們的目標是提供一個全面的審查這個新興的和重要的研究主題: 圖最小監督學習。我們將首先介紹圖學習的理論基礎,特別關注圖神經網絡。然后我們討論了圖最小監督學習的三個基本問題以及近年來的關鍵文獻。結合不同粒度級別上的主要圖挖掘任務(例如,節點分類、鏈接預測和圖分類),我們在每個類別中介紹了用于節點級、邊緣級和圖級任務的技術。最后,我們將介紹圖最小監督學習在不同領域的應用,并討論該研究領域的未來發展方向。在圖學習社區中,我們認為圖最小監督學習是一個具有重要社會影響的前沿研究課題,將吸引學術界和業界的研究人員和從業者。
**目錄 **
介紹和概述。首先,我們將簡要介紹深度圖學習及其在低資源環境下面臨的挑戰,然后我們將涉及圖神經網絡[30]、元學習[13]、對比學習[2]等相關主題的一些基礎知識,并介紹圖最小監督學習的概述。
圖弱監督學習。我們將介紹帶有弱監督的圖學習方法和應用。重點抓好監督不到位、間接監督和不準確監督三種薄弱監督。本部分將回顧圖自訓練[8,18]、圖主動學習[5,6,14]和圖遷移學習[7,11,31]等一系列學習技術。
我們將介紹圖少樣本學習的方法和應用。具體來說,我們將介紹兩類方法:基于元梯度的方法[22,28,35,36]和基于度量學習的方法[10-12,16,31,34],以展示如何處理從未見過的節點、邊和圖。此外,我們還將討論圖零樣本學習[19,20,24]。
圖自監督學習。我們將介紹圖自監督學習的方法和應用。具體來說,我們將涵蓋三種主要的范式,包括圖生成建模[3,4,17,23]、圖屬性預測[15,26]和圖對比學習[1,25,32,33]。
結論和討論。我們將總結所涵蓋的主題并討論它們之間的聯系。并討論了本課題未來的研究方向。
講者:
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
機器學習系統通常是在這樣的假設下設計的,即它們將作為一個靜態模型部署在世界上一個單一的靜態區域。然而,世界是不斷變化的,因此未來看起來不再完全像過去,甚至在相對靜態的環境中,系統可能部署在其世界的新的、看不見的部分。盡管數據分布的這種連續變化會給機器學習中獲得的模型帶來重大挑戰,但模型也不必是靜態的:它可以而且應該自適應。在這次演講中,我將討論我們如何允許深度網絡通過適應來魯棒地應對這種分布轉移。首先介紹元學習的概念,然后簡要概述從機器人到藥物設計的幾個成功的元學習應用,最后討論元學習研究前沿的幾項最新工作。
視頻: //www.youtube.com/watch?v=7qOOmtXHilY&feature=youtu.be
近年來,許多手工設計和搜索的網絡被應用于語義分割。然而,以前的工作打算在預定義的靜態架構中處理各種規模的輸入,如FCN、U-Net和DeepLab系列。本文研究了一種概念上的新方法來緩解語義表示中的尺度差異,即動態路由。該框架根據圖像的尺度分布,生成與數據相關的路徑。為此,提出了一種可微選通函數——軟條件門,用于動態選擇尺度變換路徑。此外,通過對門控函數進行預算約束,可以通過端到端方式進一步降低計算成本。我們進一步放寬了網絡級路由空間,以支持每個轉發中的多路徑傳播和跳轉連接,帶來了可觀的網絡容量。為了證明動態特性的優越性,我們比較了幾種靜態架構,它們可以作為路由空間中的特殊情況進行建模。為了證明動態框架的有效性,我們在Cityscapes和PASCAL VOC 2012上進行了大量的實驗。代碼在此//github.com/yanwei-li/DynamicRouting