人們普遍認為,一個詞的標題的不確定性越高,就需要更多相互關聯的上下文信息來確定它。然而,目前的圖像描述生成方法通常考慮順序、平等地生成句子中的所有單詞。在本文中,我們提出了一個不確定性感知的圖像描述成框架,該框架并行迭代地在已有詞之間從易到難插入不連續候選詞,直到收斂。我們假設句子中的高不確定性詞需要更多的先驗信息才能做出正確的決定,應該在后面的階段產生。由此產生的非自回歸層次結構使得標題生成可解釋且直觀。具體來說,我們利用圖像條件下的單詞袋模型來測量單詞的不確定度,并應用動態規劃算法來構造訓練對。在推理過程中,我們設計了一種不確定性自適應并行波束搜索技術,它產生了一個經驗對數時間復雜度。在MS COCO基準上的大量實驗表明,我們的方法在描述質量和解碼速度上都優于強基準和相關方法。
圖神經網絡(GNNs)已經成功地用于許多涉及圖結構數據的問題,實現了最先進的性能。GNN通常采用消息傳遞方案,其中每個節點使用置換不變聚合函數從其鄰居聚合信息。經過嚴格檢查的標準選擇(如平均值或和聚合函數)功能有限,因為它們無法捕獲相鄰函數之間的交互。在這項工作中,我們使用一個信息理論框架來形式化這些交互作用,特別是包括協同信息。在此定義的驅動下,我們引入了圖排序注意力層(GOAT),這是一種新穎的GNN組件,用于捕獲鄰域節點之間的交互。這是通過一種注意力機制來學習局部節點順序,并使用循環神經網絡聚合器處理有序表示來實現的。這種設計允許我們使用一個排列敏感的聚合器,同時保持擬議的GOAT層的排列等效。GOAT模型展示了它在捕獲復雜信息的圖指標(如中間性中心性和節點的有效大小)建模方面提高的性能。在實際用例中,通過在幾個真實的節點分類基準測試中取得的成功,它的卓越建模能力得到了證實。
預測視頻的未來幀是一項具有挑戰性的任務,部分原因在于潛在的隨機現實現象。解決這個任務的先驗方法通常估計一個潛在的先驗特征,但是不能解釋(深度學習)模型的預測不確定性。這種方法往往從生成的幀與真實值之間的均方誤差(MSE)獲得訓練信號,這可能導致次優訓練,尤其是在預測不確定性高的情況下。為此,我們引入神經不確定性量詞(NUQ)——對模型的預測不確定性進行隨機量化,并用它來衡量MSE損失。我們提出了一個分層的、變分的框架,以一種有原則的方式,使用一個深度的貝葉斯圖模型來派生NUQ。我們在四個基準隨機視頻預測數據集上的實驗表明,我們提出的框架比最先進的模型訓練更有效(特別是當訓練集很小的時候),同時顯示出更好的視頻生成質量和多樣性。
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。
本文提出了一個雙層級特征協作的Transformer結構,以實現區域特征和網格特征兩者的優勢互補,并在其中提出了特征幾何對齊圖來指導特征間的信息交互,從而解決多路特征直接融合帶來的語義噪聲問題,最終在該任務的線上線下常用公開數據集上均證明了此模型的優勢。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
Active Learning on Attributed Graphs via Graph Cognizant Logistic Regression and Preemptive Query Generation. 基于圖感知邏輯回歸和搶占式查詢候選集生成的屬性圖上主動學習策略
左圖: 常規主動學習算法 vs. 搶占式主動學習.
右圖: GEEM vs PreGEEM 對于下一個打標簽節點risk預估值對比.
對于(含節點屬性)圖網絡中的節點分類問題是分類問題中的一項重要任務,但通常獲取節點標簽較為困難或昂貴,在有限可標注數據的預算下通常通過主動學習可以提高分類性能。在圖網絡結構數據中最好的現有方法是基于圖神經網絡,但是它們通常表現不佳除非有大量可用的標記節點作為驗證集以選擇一組合適的超參數。在這個工作中特別針對屬性圖中的節點分類任務,我們提出了一種基于圖的主動學習算法Graph Expected Error Minimization (GEEM)。我們的算法在預測階段使用了一種不需要依靠驗證集調整超參的線性化圖卷積神經網絡(linear-GCN),并在主動學習查詢標簽階段利用最小化預期誤差的目標函數作為選擇下一目標label節點的標準。算法主要包括兩個階段1)在模型預測階段,我們提出使用線性化的GCN模型獲取經驗標簽(預測標簽) 2)在獲取下一label節點過程中,我們提出通過對未標記集合上節點的平均錯誤概率來計算預期誤差并作為風險預估標準,從而選擇增加此節點后經驗風險最小的節點進行label。
為了減少在為候選節點打標簽過程帶來的延遲(在醫療等需要細節domain knowledge的場景,打每標簽過程潛在會超過10分鐘),我們推導出了GEEM的搶占式查詢候選集生成主動學習算法并稱為PreGEEM,它在查詢/打標簽過程中計算下一個候選打標簽的對象。同時,我們在論文中提供了關于PreGEEM風險誤差的理論邊界。最后,為了解決從幾乎從沒有標簽數據開始學習的情況,我們提供了一種基于標簽傳播和線性化GCN推理的混合算法,進行自適應模型平均。我們在四個公開數據集上進行了實驗驗證,展示出了在各種實驗設定下與SOTA算法相比的明顯提升,特別是當初始標簽集非常有限時我們的模型明顯優于其他方法。此外該技術在通信網絡中具有潛在的實用價值,例如在初始標簽集稀缺時的通信網絡中故障鏈路識別場景中。