序列到序列的視覺-語言模型展現出了前景,但由于其自回歸方式生成預測的方式,其應用受到了推理延遲的限制。我們提出了一種并行解碼的序列到序列視覺-語言模型,該模型采用Query-CTC損失進行訓練,可以在解碼器中對多個推理路徑進行邊際化處理。這允許我們模擬令牌的聯合分布,而不是像自回歸模型那樣限制于條件分布。結果模型,NARVL,在性能上與其最先進的自回歸對應模型相當,但在推理時間上更快,將與順序生成token相關的線性復雜度減少到常數時間的聯合推理范式。
自回歸的序列到序列Transformer模型是一種深度神經網絡架構,將一系列代表文本片段的令牌(每個令牌表示為一個向量)映射到另一個序列上,通常代表相同序列向前移動一個位置的情況。這樣的模型可以處理各種任務,其中輸入(查詢)文本可能是自然語言中的一個句子,輸出(目標)可能是不同語言中的相同句子(翻譯),或輸入表達的問題的答案(問答QA),實體或類的名稱等。Transformer架構的多功能和統一設計導致了全能(AIO)模型的發展,使得多種任務可以作為序列到序列翻譯問題來處理。
視覺-語言AIO模型,包括序列到序列的模型,已經成功地將多模態輸入(通常是圖像和文本字符串)映射到文本輸出,這些文本輸出編碼了可以表達為一串文本的任務,如視覺問答(VQA)、視覺定位(VG)、視覺蘊含(VE)和圖像字幕(IC)。這些自回歸序列到序列模型面臨推理成本問題,因為它們往往笨重且需要執行T次以生成長度為T的輸出序列。
在一些最新的視覺-語言AIO模型中提出了非自回歸方法,這些方法將序列到序列映射定義為一個二分匹配問題。這種方法在視覺信息是關鍵的任務中表現出色,如對象定位和檢測。然而,它在處理以語言為中心的任務,如視覺問答和圖像字幕,方面的效果較差。這種差異可能源于任務的性質:在對象檢測/定位中,令牌是無序的,每個令牌對應不同的對象或框,與句子中有序的令牌相比,對象間的相關性較弱,而句子中單詞間的相關性更強。因此,與語言導向的任務相比,集合到集合、順序獨立的翻譯方法更適合視覺任務。
主要假設:我們假設基于Transformer的架構可以利用輸入和輸出空間的同質性,同時使輸出空間更加靈活。特別是,我們對一次性聯合解碼序列,而不是逐步解碼的可能性感興趣。我們測試這樣的架構是否能夠在顯著降低推理成本的同時,達到與自回歸基線相當的性能。
為了測試這一假設,我們開發了一個新的視覺語言全能模型,將基于Transformer的自回歸一步預測模型轉變為目標令牌的聯合預測器,如第3節所述。在第4節中,我們展示了這樣一個模型,我們命名為NARVL,可以用于多個視覺-語言任務(視覺問答VQA、字幕、蘊含、定位)。如圖1所示,NARVL在性能上與最先進的自回歸模型相當,但在速度上有顯著優勢,范圍從1.4到12.7倍不等。
NARVL的實現通過重新利用自回歸Transformer模型的解碼器,并且模型有一層可學習的查詢令牌(LQT),這些令牌在推理時固定,在微調期間學習。NARVL通過Query-CTC(Q-CTC)損失啟用,這是CTC損失的一個變體,CTC損失用于音頻和語言,但從未應用于視覺領域,在這個領域,普通的經驗交叉熵損失(CE)相對于預測中的生成變異性被邊際化。而在語言領域,多個解碼假設源自編碼器的輸出,在視覺中這是限制的,因為輸入和輸出空間是異構的。因此,我們修改了CTC損失,使其不是相對于解碼路徑進行邊際化,而是相對于從順序可學習查詢令牌的順序索引到預測令牌的路徑進行邊際化。
因此,我們的關鍵貢獻可以總結如下:(i)我們提出了一個新的序列到序列非自回歸的全能視覺語言模型,該模型并行生成序列。(ii)我們引入Query-CTC損失來訓練這一架構,靈感來自于音頻識別和語言中使用的CTC損失,利用順序可學習查詢令牌生成多個生成路徑,并在普通交叉熵損失中對結果種群進行邊際化。我們展示了(iii)所得到的架構與多個視覺-語言任務中的最先進自回歸架構具有競爭力,且由于模型在推理時僅執行一次,而不是按照輸出層中的令牌數量順序執行多個步驟,因此大大減少了推理時間。
受到自然語言處理(NLP)中通用模型成功的啟發,近期研究嘗試將不同的視覺任務統一到相同的序列格式中,并使用自回歸的Transformers進行序列預測。它們應用單向注意力來捕捉序列依賴性,并遞歸生成任務序列。然而,這樣的自回歸Transformers可能不適合視覺任務,因為視覺任務序列通常缺乏在自然語言中通常觀察到的序列依賴性。在這項工作中,我們設計了Masked AutoDecoder (MAD),一個有效的多任務視覺通用模型。MAD包含兩個核心設計。首先,我們開發了一個并行解碼框架,引入雙向注意力以全面捕捉上下文依賴性,并并行解碼視覺任務序列。其次,我們設計了一種遮蔽序列建模方法,通過遮蔽和重構任務序列來學習豐富的任務上下文。通過這種方式,MAD通過單一網絡分支和簡單的交叉熵損失處理所有任務,最小化任務特定設計。廣泛的實驗展示了MAD作為統一各種視覺任務新范式的巨大潛力。與自回歸對手相比,MAD實現了更優的性能和推理效率,同時與任務特定模型保持競爭力的準確率。代碼將在//github.com/hanqiu-hq/MAD 發布。
大型語言模型(LLMs)對于機器學習應用變得越來越重要。然而,使LLMs與我們的意圖保持一致可能是具有挑戰性的,特別是當我們想要生成優先于其他內容的內容,或者當我們希望LLM以某種難以描述的風格或語調響應時。為了應對這一挑戰,我們提出了一種使用對比例子來更好描述我們意圖的方法。這涉及提供展示真實意圖的正面例子,以及展示我們希望LLMs避免的特征的負面例子。負面例子可以從標記數據中檢索,由人類編寫,或由LLM本身生成。在生成答案之前,我們要求模型分析這些例子,以教會自己需要避免什么。這一推理步驟為模型提供了用戶需求的適當闡述,并引導它生成更好的答案。我們在合成和真實世界數據集上測試了我們的方法,包括StackExchange和Reddit,發現與標準的少次數提示相比,它顯著提高了性能。
在知識圖譜上回答復雜一階邏輯(FOL)查詢是多跳推理的基礎任務。傳統的符號方法遍歷完整的知識圖譜來提取答案,為每一步提供了良好的解釋。最近的神經方法學習復雜查詢的幾何嵌入。這些方法可以推廣到不完整的知識圖譜,但其推理過程難以解釋。在本文中,我們提出了圖神經網絡查詢執行器(GNNQE),這是一種神經符號模型,它兼有這兩種方法的優點。GNN-QE將一個復雜的FOL查詢分解為模糊集上的關系投影和邏輯運算,為中間變量提供了可解釋性。為了對缺失環節進行推理,GNN-QE采用知識圖譜補全的圖神經網絡來執行關系投影,并用產品模糊邏輯對邏輯操作進行建模。在3個數據集上的廣泛實驗表明,GNN-QE在回答FOL查詢方面比以前的最先進的模型有顯著的改進。同時,GNN-QE可以在沒有明確監督的情況下預測答案的數量,并對中間變量提供可視化。
最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。
本文提出了GNN-LM,將圖神經網絡與語言模型相結合,通過允許在整個訓練語料庫中引用相似的上下文,擴展了傳統的語言模型。使用k近鄰檢索與輸入的表示最相似的鄰居,我們為每個輸入構建了一個有向異構圖,其中節點是來自輸入上下文或檢索到的鄰居上下文的token,邊表示token之間的連接。然后利用圖神經網絡從檢索到的上下文中聚合信息,以解碼下一個token。實驗結果表明,GNN-LM在標準數據集中優于強基線,并且通過與kNN-LM結合,能夠在WikiText-103上取得最優效果。
論文標題: GNN-LM: Language Modeling based on Global Contexts via GNN
作者:
Yuxian Meng, Shi Zong, Xiaoya Li, Xiaofei Sun, Tianwei Zhang, Fei Wu, Jiwei Li
論文鏈接: //www.zhuanzhi.ai/paper/096327d547ab2c5aee0df3e603ac64e6
接收會議:
ICLR 2022
代碼鏈接:
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
現有的GNN解釋方法側重于解釋圖的節點或邊的重要性,但忽略了圖子結構。事實上子結構更直觀且容易被人理解。論文提出了一種通過識別重要的子圖來解釋GNNs 的方法,即 Subgraph X。給定一個經過訓練的GNN模型和一個輸入圖,Subgraph X 通過蒙特卡洛樹搜索有效地探索不同的子圖來解釋其預測。為了使樹搜索更加有效,論文提出使用 Shapley 值作為子圖重要性的衡量標準,這也可以捕捉到不同子圖之間的相互作用。為了加快計算速度,論文提出了高效的近似方案來計算圖數據的 Shapley 值。該論文是通過識別子圖來解釋 GNN 的第一次嘗試,實驗結果表明,Subgraph X 明顯改善了解釋結果,同時將計算量也相對合理。
先說說為啥要關注圖神經網絡的可解釋性?
現有的 GNN 模型大多被視為黑盒子,其預測結果缺乏可解釋性。如果不理解和推理預測背后的關系,這些模型就不能被人們理解信任,阻礙了它們在關鍵領域的應用,因此研究深度圖模型的可解釋性十分必要。
本文的提出的解釋方法的獨特性在于?
很多文獻在研究圖像和文本上的深度模型的解釋技術方面做了工作,這些方法可以通過不同的策略解釋網絡行為和特定輸入的預測結果。然而,GNN 的可解釋性仍未得到充分的探索。與圖像和文本不同,圖數據不是網格狀的數據,它包含重要的結構信息。因此,圖像和文本領域的方法不能直接應用。目前存在的GNN 解釋方法,如 GNNExplainer、PGExplainer 和 PGM-Explainer,但它都是關注節點、邊或節點特征層面的可解釋性,沒有進行子圖層面的可解釋性研究。本文認為子圖層面的解釋更加直觀和有用,因為子圖是復雜圖的簡單構件,與圖的功能高度相關。
我們為構建帶有深度學習組件的結構性因果模型(SCMs)制定了一個總體框架。所提出的方法采用了流歸一化和變分推理,以實現對外生噪聲變量的可處理推理——這是反事實推理的關鍵一步,而這正是現有的深度因果學習方法所缺少的。我們的框架在構建在MNIST上的合成數據集以及真實世界的腦核磁共振掃描醫學數據集上得到驗證。我們的實驗結果表明,我們可以成功地訓練深度SCMs,使其具備Pearl因果關系階梯的所有三個層次:關聯、干預和反事實,從而為在成像應用和其他方面回答因果問題提供了一種強大的新方法。
//github.com/biomedia-mira/deepscm.