膠囊網絡(Capsule Networks),作為卷積神經網絡的替代品,已被提出用于從圖像中識別物體。目前的文獻證明了CapsNets相對于CNN的許多優勢。然而,如何為CapsNets的各個分類建立解釋還沒有被探索清晰。目前,廣泛使用的顯著性方法主要是為了解釋基于CNN的分類而提出的,它們通過結合激活值和相應梯度來創建顯著性圖解釋,例如Grad-CAM。這些顯著性方法需要底層分類器的特定架構,由于CapsNets的迭代路由機制,它們無法平凡地應用于其中。為了克服可解釋性的不足,作者認為可以為CapsNets提出新的事后解釋方法,或修改模型,使其具有內置的解釋。在這項工作中,作者主要研究后者。具體來說,作者提出了可解釋的Graph Capsule Networks(GraCapsNets),用基于多頭關注的Graph Pooling方法替換了路由部分。該模型能夠有效且高效地創建單個分類的解釋。同時,盡管取代了CapsNets的基本部分,該模型還展示了一些意想不到的好處。與CapsNets相比,GraCapsNets以更少的參數實現了更好的分類性能,并且具有更好的對抗性魯棒性。此外,GraCapsNets還保留了CapsNets的其他優點,即分離式表征示(disentangled representations)和仿射變換魯棒性(affine transformation robustness)。
流行的張量列(TT)和張量環(TR)分解在科學和工程上取得了很有前途的結果。然而,TT和TR分解只是建立相鄰兩個因子之間的聯系,并且對張量模的排列高度敏感,導致了不充分和不靈活的表示。本文提出了一種廣義張量分解,它將一個N階張量分解為一組n階因子,并建立了任意兩個因子之間的多線性運算/聯系。由于它可以圖形化地解釋為所有因素的全連接網絡,我們將其命名為全連接張量網絡(FCTN)分解。FCTN分解的優點在于充分刻畫任意兩個張量模間的內在相關性和換位的本質不變性。此外,我們將FCTN分解應用于一個有代表性的任務,即張量補全,并提出一個有效的基于近端交替最小化的算法。在理論上,我們證明了該算法的收斂性,即得到的算法序列全局收斂于一個臨界點。實驗結果表明,該方法與現有的基于張量分解的方法相比具有良好的性能。
//qibinzhao.github.io/publications/AAAI2021_Yu_Bang_Zheng/AAAI2021_FCTN_Decomposition_ybz.pdf
//www.zhuanzhi.ai/paper/3696ec78742419bdaa9c23dce139b3d4
消息傳遞圖神經網絡(GNNs)為關系數據提供了強大的建模框架。曾經,現有GNN的表達能力上界取決于1- Weisfeiller -Lehman (1-WL)圖同構測試,這意味著gnn無法預測節點聚類系數和最短路徑距離,無法區分不同的d-正則圖。在這里,我們提出了一類傳遞消息的GNN,稱為身份感知圖神經網絡(ID- GNNs),具有比1-WL測試更強的表達能力。ID-GNN為現有GNN的局限性提供了一個最小但強大的解決方案。ID-GNN通過在消息傳遞過程中歸納地考慮節點的身份來擴展現有的GNN體系結構。為了嵌入一個給定的節點,IDGNN首先提取以該節點為中心的自我網絡,然后進行輪次異構消息傳遞,中心節點與自我網絡中其他周圍節點應用不同的參數集。我們進一步提出了一個簡化但更快的ID-GNN版本,它將節點標識信息作為增強節點特征注入。總之,ID-GNN的兩個版本代表了消息傳遞GNN的一般擴展,其中實驗表明,在具有挑戰性的節點、邊緣和圖屬性預測任務中,將現有的GNN轉換為ID-GNN平均可以提高40%的準確率;結點和圖分類在基準測試上提高3%精度;在實際鏈路預測任務提高15%的ROC AUC。此外,與其他特定于任務的圖網絡相比,ID- GNN表現出了更好的或相當的性能。
有的有監督解耦方法,比如把中間表征解耦成種類相關的表征和種類無關的表征,大多基于交換生成的經驗性框架,缺乏理論指導,無法保證種類相關表征中不包含種類無關的信息。本工作嘗試建立信息瓶頸(Information Bottleneck, IB)和有監督解耦之間的聯系,為有監督解耦提供理論指導。信息瓶頸是一種從源數據中提取出與任務目標有關信息的方法,一般通過優化權衡壓縮項和預測項的IB Lagrangian來實現。現有文獻已經指出IB Lagrangian存在的一些問題,比如期望的壓縮水平與控制權衡的Lagrangian乘子之間沒有因果關聯,因此對于IB Lagrangian來說需要多次嘗試優化來實現期望目標;其次,我們具體分析了IB Lagrangian中存在的權衡問題,表明了隨著壓縮程度增大,預測性能是嚴格減小的。為了克服這些問題,我們一方面期望在不損傷預測性能前提下能夠實現最大化壓縮,簡稱為“最大化壓縮”;另一方面期望無需多次嘗試優化,即模型能夠一致地實現最大化壓縮。為此,我們首先考察了最大化壓縮實現時對應的量化條件,之后對優化目標給出了最大化壓縮一致性的性質定義,即只要優化目標滿足該性質就能夠一致地實現最大化壓縮。在此基礎上,我們給出我們的方案設計。與現有的IB Lagrangian不同,我們從有監督解耦的角度來實現信息壓縮,這是因為我們認為信息壓縮與有監督解耦本質上是同一回事:在有監督解耦任務中,需要將源數據中與給定標簽有關的信息和其它信息分開,如給定圖像的類別標簽,將圖像信息解耦為類別有關的和類別無關的信息;而類似地,在信息壓縮任務中,要將源數據中與給定標簽無關的信息丟棄從而實現壓縮,同樣需要區分出與給定標簽有關的信息和與給定標簽無關的信息。基于此,我們將有監督解耦與信息壓縮相聯系,提出了基于解耦的信息瓶頸算法。我們給出了一些結論,同時在多個數據集上驗證了這些結論,并驗證了所提方法在包括信息壓縮等多個評估指標上的性能。
該工作旨在解決多標簽圖像分類任務,文章另辟蹊徑,首次將多標簽圖像分類問題視為字典學習任務,基于此設計了一個新型的端到端深度語義字典學習模型(Deep Semantic Dictionary Learning,圖1),該模型能夠更好地從標簽與語義空間中挖掘益于樣本多標簽分類的判別信息。此外,受傳統字典學習的迭代式優化的啟發,文章中提出了一種適用于深度字典學習模型的交替式優化策略(Alternately Parameters Update Strategy,圖2)。實驗結果驗證了該文章中提出的算法在多標簽圖像分類任務上取得了振奮人心的結果。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
物體檢測領域,檢測器一般會通過滑窗的方式來預測圖像網格上的物體,并且還會使用網格中特征點的特征圖來生成邊界框的預測結果。其中的問題在于,雖然這些點的特征使用起來十分方便,但它們往往可能缺乏有用的邊界信息,從而不利于進行精準地定位。因此,本文提出一個簡單、高效的操作“BorderAlign”來提取物體邊界極限點的特征。
基于BorderAlign,曠視研究院還設計了一個全新的檢測框架“BorderDet”。它可以很好地利用邊界信息,實現更強大的分類與更精準的定位效果。在ResNet-50 backbone下,模型只增加很少的時間開銷,就可以在單階段檢測器FCOS上實現 2.8 AP的性能提升(38.6 v.s. 41.4);在ResNeXt-101-DCN backbone下,本文提出的BorderDet獲得50.3 AP,顯著超越現有最佳方法。