該工作旨在解決多標簽圖像分類任務,文章另辟蹊徑,首次將多標簽圖像分類問題視為字典學習任務,基于此設計了一個新型的端到端深度語義字典學習模型(Deep Semantic Dictionary Learning,圖1),該模型能夠更好地從標簽與語義空間中挖掘益于樣本多標簽分類的判別信息。此外,受傳統字典學習的迭代式優化的啟發,文章中提出了一種適用于深度字典學習模型的交替式優化策略(Alternately Parameters Update Strategy,圖2)。實驗結果驗證了該文章中提出的算法在多標簽圖像分類任務上取得了振奮人心的結果。
流行的張量列(TT)和張量環(TR)分解在科學和工程上取得了很有前途的結果。然而,TT和TR分解只是建立相鄰兩個因子之間的聯系,并且對張量模的排列高度敏感,導致了不充分和不靈活的表示。本文提出了一種廣義張量分解,它將一個N階張量分解為一組n階因子,并建立了任意兩個因子之間的多線性運算/聯系。由于它可以圖形化地解釋為所有因素的全連接網絡,我們將其命名為全連接張量網絡(FCTN)分解。FCTN分解的優點在于充分刻畫任意兩個張量模間的內在相關性和換位的本質不變性。此外,我們將FCTN分解應用于一個有代表性的任務,即張量補全,并提出一個有效的基于近端交替最小化的算法。在理論上,我們證明了該算法的收斂性,即得到的算法序列全局收斂于一個臨界點。實驗結果表明,該方法與現有的基于張量分解的方法相比具有良好的性能。
//qibinzhao.github.io/publications/AAAI2021_Yu_Bang_Zheng/AAAI2021_FCTN_Decomposition_ybz.pdf
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution
近年來,視覺信息提取技術因其在文檔理解、自動標注、智能教育等方面的先進應用而備受關注。現有的研究大多將這一問題解耦為文本點識別(text detection and recognition)和信息提取幾個獨立的子任務,在優化過程中完全忽略了它們之間的高相關性。在本文中,我們提出了一個面向真實場景的魯棒視覺信息提取系統(VIES),它是一個統一的端到端可訓練的框架,以單個文檔圖像作為輸入和輸出結構化信息,同時進行文本檢測、識別和信息提取。信息提取分支從文本點識別中收集豐富的視覺和語義表征,進行多模態特征融合,提供更高層次的語義線索,有助于文本點識別的優化。此外,針對公共基準的不足,我們構建了一個全注釋數據集EPHOIE (//github.com/HCIILAB/EPHOIE),該數據集是第一個同時用于文本識別和視覺信息提取的中文基準。EPHOIE包含1,494張復雜布局和背景的試卷頭圖像,包括15,771個中文手寫或打印文本實例。與最先進的方法相比,我們的VIES在EPHOIE數據集中顯示了顯著的優越性能,并且在端到端場景下,在廣泛使用的SROIE數據集上獲得9.01%的F-score增益。
什么是自動化攻擊?
惡意用戶不再需要分析代碼、編寫腳本或進行復雜的逆向編譯,只要找到合適的自動化工具就能輕松達到目的。
自動化攻擊包括自動化掃描漏洞和入侵、撞庫盜用賬號、業務自動化攻擊和自動化高級DDOS攻擊等。
本文提出了一種自動化對抗攻擊搜索方案,名為Composite Adversarial Attacks (CAA)。我們實現了32個基礎對抗攻擊算法作為候選池,并設計了一個搜索空間,將攻擊策略表示為一個攻擊序列,即前一個攻擊算法的輸出作為后繼攻擊的初始化輸入。通過使用NSGA-II遺傳算法對攻擊序列和攻擊超參的搜索,我們可以發現更優的攻擊策略并實現自動化對抗攻擊。和當下10個主流攻擊算法的對比實驗結果表明CAA可以在更小計算復雜度的情況下獲得目前最好的攻擊效果。)
//www.zhuanzhi.ai/paper/4594af42d79efb3a1090149653d332e6
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
有的有監督解耦方法,比如把中間表征解耦成種類相關的表征和種類無關的表征,大多基于交換生成的經驗性框架,缺乏理論指導,無法保證種類相關表征中不包含種類無關的信息。本工作嘗試建立信息瓶頸(Information Bottleneck, IB)和有監督解耦之間的聯系,為有監督解耦提供理論指導。信息瓶頸是一種從源數據中提取出與任務目標有關信息的方法,一般通過優化權衡壓縮項和預測項的IB Lagrangian來實現。現有文獻已經指出IB Lagrangian存在的一些問題,比如期望的壓縮水平與控制權衡的Lagrangian乘子之間沒有因果關聯,因此對于IB Lagrangian來說需要多次嘗試優化來實現期望目標;其次,我們具體分析了IB Lagrangian中存在的權衡問題,表明了隨著壓縮程度增大,預測性能是嚴格減小的。為了克服這些問題,我們一方面期望在不損傷預測性能前提下能夠實現最大化壓縮,簡稱為“最大化壓縮”;另一方面期望無需多次嘗試優化,即模型能夠一致地實現最大化壓縮。為此,我們首先考察了最大化壓縮實現時對應的量化條件,之后對優化目標給出了最大化壓縮一致性的性質定義,即只要優化目標滿足該性質就能夠一致地實現最大化壓縮。在此基礎上,我們給出我們的方案設計。與現有的IB Lagrangian不同,我們從有監督解耦的角度來實現信息壓縮,這是因為我們認為信息壓縮與有監督解耦本質上是同一回事:在有監督解耦任務中,需要將源數據中與給定標簽有關的信息和其它信息分開,如給定圖像的類別標簽,將圖像信息解耦為類別有關的和類別無關的信息;而類似地,在信息壓縮任務中,要將源數據中與給定標簽無關的信息丟棄從而實現壓縮,同樣需要區分出與給定標簽有關的信息和與給定標簽無關的信息。基于此,我們將有監督解耦與信息壓縮相聯系,提出了基于解耦的信息瓶頸算法。我們給出了一些結論,同時在多個數據集上驗證了這些結論,并驗證了所提方法在包括信息壓縮等多個評估指標上的性能。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
利用弱監督或有噪聲的監督來構建有效的機器學習模型一直是一個重要的研究問題。由于訓練深度學習模型對大規模數據集的需求越來越大,其重要性最近進一步增加。弱或嘈雜的監督可能來自多種來源,包括非專業的注釋者或基于啟發式或用戶交互信號的自動標記。有大量的前期工作集中在利用嘈雜的標簽。最值得注意的是,最近的研究顯示,使用元學習實例重加權方法取得了令人印象深刻的成果,在這種方法中,元學習框架用于為嘈雜標簽分配實例權重。在本文中,我們將此方法擴展為元學習框架內的標簽校正問題。我們將標簽校正過程視為一個元過程,并提出了一個新的基于元學習的框架,稱為MLC(元標簽校正),用于有噪聲標簽的學習。具體來說,采用標簽校正網絡作為元模型,對有噪聲的標簽進行校正,同時對主模型進行訓練,以充分利用校正后的標簽。兩個模型通過求解一個雙層優化問題來聯合訓練。在圖像識別和文本分類任務中,我們使用不同的標簽噪聲水平和類型進行了廣泛的實驗。我們比較重加權和修正的方法表明,修正框架解決了一些限制重加權。我們還表明,提出的MLC方法在圖像和語言任務上都優于以前的方法。
//www.microsoft.com/en-us/research/uploads/prod/2020/12/aaai2021_mlc_zheng.pdf
論文專欄: KDD 2020 元學習相關論文分享
論文解讀者: 北郵 GAMMA Lab 碩士生 王春辰
題目: TAdaNet: Task-Adaptive Network for Graph-Enriched Meta-Learning
會議: KDD 2020
論文地址: //dl.acm.org/doi/pdf/10.1145/3394486.3403230
推薦理由: 標準的元學習過程是共享全局的經驗進行參數調整。具有全局共享知識的標準元學習不能很好地處理任務的異構性問題,即任務位于不同的分布。本文提出了一種可以融合領域知識的框架,并提供對于特定任務的參數定制。相比于標準元學習過程,該方法可以更好的使的參數適應于一種特定的任務。
1 引言 現實應用程序中帶注釋的數據樣本通常是有限的。元學習利用從相關任務中學習到的先驗知識,并將其推廣到有監督經驗有限的新任務中,是一種有效的少發式學習方法。然而,具有全局共享知識的標準元學習不能很好地處理任務的異構性問題,即任務位于不同的分布。而KDD2020上的這篇文章利用領域知識圖來豐富數據表示,并提供特定于任務的定制。
2 動機與貢獻 本文著眼于將領域圖中的信息引入到元學習當中來,提出了一個任務自適應的元學習框架TAdaNet,該框架允許跨領域知識圖的節點傳遞消息,并促進針對不同任務的元知識定制。該模型通過在記憶網絡中組織歷史任務中的任務知識來學習任務嵌入,并根據任務嵌入的條件產生任務感知參數調整來定制學習器參數。每項任務的學習者為分類任務的每個類生成一個原型。具體地說,該框架利用給定圖上的類關系,通過注意力機制組合鄰域信息來學習原型。數據表示可以通過聚合來自其鄰居的信息來豐富,并且任務關系由圖上鏈接類的路徑來捕獲。