深度強化學習(RL)方法的擴展提出了一個顯著的挑戰。隨著生成模型的發展,基于模型的RL成為一個有力的競爭者。最近在序列建模方面的進展帶來了有效的基于Transformer的世界模型,盡管這些模型由于需要長序列的標記來準確模擬環境而導致計算量巨大。在這項工作中,我們提出了?-IRIS,這是一種具有世界模型架構的新型智能體,該架構由一個離散自動編碼器組成,該編碼器對時間步之間的隨機變化進行編碼,以及一個自回歸Transformer,該Transformer通過用連續標記總結當前世界狀態來預測未來的變化。在Crafter基準測試中,?-IRIS在多個幀預算中設立了新的狀態標準,同時其訓練速度比之前的基于注意力的方法快一個數量級。我們在//github.com/vmicheli/delta-iris上發布了我們的代碼和模型。
連續時間動態圖(CTDG)能夠精確地模擬現實世界中不斷演變的關系,因此在學術界和工業界引起了對動態圖學習的高度興趣。然而,現有的CTDG模型面臨由噪聲和有限的歷史數據引起的挑戰。圖數據增強(GDA)作為一種關鍵解決方案浮現出來,但目前的方法主要關注靜態圖,難以有效應對CTDG固有的動態性。此外,這些方法通常需要大量的領域專業知識進行參數調整,并且缺乏增強效果的理論保證。為了解決這些問題,我們提出了Conda,一種針對CTDG量身定制的新型潛在擴散基GDA方法。Conda采用類似三明治的架構,結合了變分自編碼器(VAE)和條件擴散模型,旨在為目標節點生成增強的歷史鄰居嵌入。與通過預訓練在整個圖上訓練的傳統擴散模型不同,Conda需要目標節點的歷史鄰居序列嵌入進行訓練,從而實現更有針對性的增強。我們將Conda整合到CTDG模型中,并采用交替訓練策略來優化性能。在六個廣泛使用的實際數據集上的廣泛實驗表明,我們的方法在有限歷史數據的情況下特別能夠顯著提高性能表現。
圖神經網絡(GNNs)已成為復雜網絡中節點分類任務的強大工具。然而,它們的決策過程對用戶來說仍是一個黑盒,這使得理解它們預測背后的推理變得具有挑戰性。反事實解釋(CFE)在增強機器學習模型的可解釋性方面顯示出了前景。以前計算GNNs的CFE的方法通常是基于學習的方法,需要訓練額外的圖。在這篇論文中,我們提出了一種基于半值的非學習方法來生成節點分類任務的CFE,消除了任何額外訓練的需求。我們的結果揭示了計算班扎夫值(Banzhaf values)在識別反事實解釋方面需要的樣本復雜度比計算沙普利值(Shapley values)等其他流行方法低。我們的實證證據表明,與沙普利值相比,計算班扎夫值可以實現高達四倍的速度提升。我們還設計了一種計算班扎夫值的閾值方法,并展示了其在嘈雜環境中的魯棒性的理論和實證結果,使其優于沙普利值。此外,閾值化的班扎夫值被證明在不犧牲解釋的質量(即,忠實度)的情況下,提高了三個流行圖數據集的效率。
圖神經網絡(GNNs)已被證明是有前途的解決方案的協同過濾(CF)與用戶項交互圖建模。現有的基于GNN的推薦系統的關鍵思路是遞歸地執行沿用戶-項目交互邊緣傳遞的消息,以細化編碼的嵌入。盡管他們的有效性,但是,目前大多數的推薦模型依賴于足夠的和高質量的訓練數據,這樣學習的表示可以很好地捕捉準確的用戶偏好。在許多實際的推薦場景中,用戶行為數據往往是有噪聲的,并且呈現出偏態分布,這可能導致基于GNN的模型的表現性能欠佳。在本文中,我們提出了一種新的自監督超圖transformer 框架(SHT),它通過明確地探索全局協作關系來增強用戶表示。具體來說,我們首先賦予圖神經CF范式以超圖transformer 網絡來維持用戶和物品之間的全局協同效果。在提取全局上下文的基礎上,提出了一種跨視圖生成式自監督學習組件,用于用戶-物品交互圖上的數據增強,以增強推薦系統的魯棒性。大量實驗表明,SHT可以顯著提高各種最先進的基線性能。進一步的消融研究表明,我們的SHT推薦框架在緩解數據稀疏性和噪聲問題方面具有卓越的表達能力。源代碼和評估數據集可以在//github.com/akaxlh/SHT上找到。
最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。
在多源知識圖譜(KGs)中尋找等價實體是KGs集成的關鍵步驟,也稱為實體對齊(EA)。然而,現有的EA方法大多效率低下,伸縮性差。最近的總結指出,其中一些甚至需要幾天的時間來處理包含20萬個節點(DWY100K)的數據集。我們認為過于復雜的圖編碼器和低效的負采樣策略是造成這種現象的兩個主要原因。本文提出了一種新的KG編碼器-雙注意匹配網絡(Dual- AMN),該網絡不僅能對圖內和圖間信息進行智能建模,而且大大降低了計算復雜度。此外,我們提出了歸一化的硬樣本挖掘損失來平滑選擇硬負樣本,減少了損失偏移。在廣泛應用的公共數據集上的實驗結果表明,該方法具有較高的精度和效率。在DWY100K上,我們的方法的整個運行過程可以在1100秒內完成,比之前的工作至少快10倍。我們的方法在所有數據集上的性能也優于之前的工作,其中????????@1和??????從6%提高到13%。
//www.zhuanzhi.ai/paper/3d0a0bf7905b28afbdffaa48e0d640c3
小樣本識別的目標是在每類只有少量有標簽樣本可供使用的限制下識別新的類別。受到人類學習過程的啟發,現有的一些方法引入了額外語義模態來增強從訓練樣本(稱為支持樣本)學習更好的表征。然而,這些方法忽視了為測試樣本(稱為查詢樣本)設計特殊的處理機制。在失去了潛在的效果提升的同時,這些方法可能導致模態混合表征和同類別的純視覺表征之間存在偏移,最終導致識別的錯誤率上升。
在本文中,我們提出一種屬性指導的注意力模塊(AGAM),來使用人工屬性標注學習更有區分性的特征。這種即插即用的模塊能夠利用視覺內容和對應的屬性標注一起關注支持樣本中重要的通道和區域。同時,對于屬性標注不可得的查詢樣本,這種特征選擇過程同樣能夠只利用視覺內容便可執行。因此,兩種樣本的表征經過了相似的細粒度優化。另外,我們提出一種注意力對齊機制,來從屬性的指導蒸餾知識到純視覺的特征選擇過程,使其能夠在不利用屬性標注的限制下學會關注更具語義的特征。大量的實驗和分析表明,我們提出的模塊可以顯著改進現有的基于度量的方法來達到最先進的性能。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。