由人類或語言模型創建的文本內容經常被對手竊取或濫用。追溯文本來源可以幫助聲明文本內容的所有權,或識別發布機器生成的假新聞等誤導性內容的惡意用戶。為了實現這一目標,人們進行了一些嘗試,主要是基于水印技術。具體來說,傳統的文本水印方法通過稍微改變文本格式(如行間距和字體)來嵌入水印,然而,這對于像OCR這樣的跨媒體傳輸來說是脆弱的。考慮到這一點,自然語言水印方法通過使用手工制作的詞匯資源(例如WordNet)中的同義詞替換原始句子中的單詞來表示水印,但它們沒有考慮替換對整個句子意義的影響。最近,提出了一種基于Transformer的網絡,通過修改影響句子邏輯和語義連貫的非突兀詞(如虛詞)來嵌入水印。此外,一個訓練有素的網絡在其他不同類型的文本內容上也會失敗。針對上述局限性,我們提出了一種基于上下文感知詞匯替換(LS)的自然語言水印方案。具體來說,我們采用BERT方法,通過推斷候選詞與原句之間的語義相關度來提出LS候選詞。在此基礎上,進一步設計了一種同步性和可替換性的選擇策略,以測試一個詞是否完全適合攜帶水印信號。大量實驗表明,無論在客觀指標還是主觀指標下,我們的水印方案都能很好地保持原句子的語義完整性,并且比現有的水印方法具有更好的可遷移性。此外,所提出的LS方法在斯坦福字詞替換基準上的表現優于最先進的方法。。
假新聞的流行和危害性一直是互聯網上的一個關鍵問題,這反過來刺激了自動假新聞檢測的發展。在本文中,我們關注的是循證假新聞檢測,其中幾個證據被用來調研新聞的真實性(即一個聲明)。以往的方法首先采用順序模型嵌入語義信息,然后根據不同的注意力機制捕獲索賠-證據交互。盡管這些措施行之有效,但它們仍存在兩個主要弱點。首先,由于序列模型固有的缺陷,不能將分散在證據中的相關信息整合起來進行準確性檢驗。其次,他們忽視了證據中包含的許多多余的信息,這些信息可能是無用的,甚至是有害的。為了解決這些問題,我們提出了一個統一的基于圖的語義結構挖掘框架,簡稱GET。具體來說,不同于現有的將索賠和證據視為序列的工作,我們將其建模為圖結構數據,并通過鄰域傳播捕獲分散的相關片段之間的長距離語義依賴關系。在獲取上下文語義信息后,我們的模型通過圖結構學習來減少信息冗余。最后,細粒度的語義表示被輸入到下游的索賠-證據交互模塊中進行預測。綜合實驗已經證明了GET技術相對于SOTA技術的優越性。
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
論文題目:Contrastive Learning of User Behavior Sequence for Context-Aware Document Ranking
作者:朱余韜,聶建云,竇志成,馬正一,張鑫宇,杜潘,左笑晨,蔣昊
通訊作者:竇志成
論文概述:搜索會話中的上下文信息已被證明有益于捕捉用戶搜索意圖。現有研究以不同方式探索會話中的用戶行為序列,以增強查詢建議或文檔排序。然而,用戶行為序列往往被視為反映用戶行為的明確而準確的信號。實際上,用戶對同一意圖的查詢可能會有所不同,并且可能會點擊不同的文檔。為了學習更穩健的用戶行為序列表示,我們提出了一種基于對比學習的方法,該方法考慮了用戶行為序列的可能變化。具體來說,我們提出了三種數據增強策略來生成用戶行為序列的相似變體,并將它們與其他序列進行對比。這樣做時,模型被迫在可能的變化方面更加穩健。優化的序列表示被合并到文檔排序中。在兩個真實查詢日志數據集上的實驗表明,我們提出的模型顯著優于最先進的方法,這證明了我們的方法在上下文感知文檔排名方面的有效性。
現代自然語言處理(NLP)模型對文本對抗性例子非常脆弱,探索有效的對抗性文本攻擊算法有助于理解和提高模型的表現。本工作提出BESA,一種基于BERT的模擬退火算法以生成自然的對抗文本。首先,BESA利用BERT Masked Language Model (MLM)生成上下文感知的替換詞,以生成流暢的對抗性文本。其次,采用模擬退火(SA)算法自適應地確定詞替換順序,實現較高的攻擊成功率和較低詞的單詞替換率。
深度神經網絡(DNNs)在自然語言處理(NLP)領域的文本分類任務中面對對抗性樣本表現出了極度的脆弱性。對抗性樣本是指帶有一些惡意修改的原始輸入。這些修改對人類來說通常是難以察覺的,但可以很容易地破壞DNNs的正確預測。因此,探索潛在的文本對抗攻擊對于理解DNNs行為和確保其魯棒性是至關重要的。
現有的文本攻擊算法主要集中在基于單詞的攻擊,即用另一個精心選擇的單詞替換原來的單詞。這種策略通常分為兩步:(1)確定替換詞,(2)確定哪些詞需要被替換。在第一步中,替換詞應在語義上接近原詞,以便使人類無法察覺到修改。典型的策略是從Glove、WordNet 和 HowNet 中搜索候選詞。然而,這些算法為每個單詞單獨創建候選詞集,并忽略它們的上下文環境,很容易產生脫離上下文的修改。在第二步中,大多數先前的工作都是通過單詞重要度(WIS)降序進行單詞替換。但是,通過固定的(或靜態的)WIS順序改變單詞通常會導致局部最優和單詞過度替換。
為了解決上述問題,研究員們提出了BERT based Simulated Annealing (BESA) 來生成流暢的對抗性文本樣本。在第一步中,BESA利用BERT Masked Language Model (BERT-MLM) 產生符合上下文環境的替換詞。在第二步中,研究員們提出利用Simulated Annealing (SA) 算法確定單詞替換優先級。SA打破了固定的(靜態的)替換順序,并提供了更多的單詞替換選項,這對于尋找高質量的對抗性樣本至關重要。
本文的創新點在于: -(1)研究員們提出通過預先訓練的BERT-MLM生成自然替代詞。這些替換詞可以很好地適應文本上下文。生成的對抗性文本更加自然流暢。 -(2)研究員們設計了一種有效的模擬退火(SA)方法來確定單詞替換優先級。SA目標函數設計為實現高攻擊成功率(ASR)和低單詞替換率(WSR)。 -(3)研究員們在五個公共數據集上評估了BESA的有效性。實驗結果表明,BESA不僅提高了ASR和減少了WSR (如表2.1所示),而且能夠很好的保持語法正確性和語義相似性(如圖2.1所示)。
從上下文中識別和理解高質量短語是文本挖掘的一項基本任務。可以說,這項任務中最具挑戰性的部分在于不常見的、新興的和特定領域的短語。這些短語的不頻繁性嚴重影響了依賴于輸入語料庫中大量短語出現的短語挖掘方法的性能。上下文感知的標簽模型,雖然不受頻率的限制,但嚴重依賴領域專家的大量句子級真實標簽或手工地名詞典。在這項工作中,我們提出了UCPhrase,一個新的無監督上下文感知質量短語標記器。具體來說,我們從每個文檔中一致同時出現的單詞序列中歸納出高質量的短語跨度作為silver標簽。與典型的基于現有知識庫(KBs)的上下文無關的遠監督相比,我們的silver標簽深深扎根于輸入域和上下文,因此在保持上下文完整性和捕獲新興的、非知識庫短語方面具有獨特的優勢。訓練一個基于silver標簽的傳統神經標記器通常會面臨過擬合短語表面名稱的風險。另外,我們觀察到,上下文注意力圖從基于Transformer的神經語言模型中生成,有效地揭示了詞匯之間的聯系,而不涉及表面。因此,我們將這種注意力圖與silver標簽配對,以訓練一個輕量級跨度預測模型,該模型可以應用于新的輸入,以識別(看不見的)質量短語,而不考慮它們的表面名稱或頻率。對各種任務和數據集進行的全面實驗,包括語料庫級短語排序、文檔級關鍵短語提取和句子級短語標注,證明了我們的設計優于最先進的預處理、無監督和遠程監督方法。
我們提出了一個簡單的詞匯適應方案來擴展多語言機器翻譯模型的語言能力,為多語言機器翻譯的高效持續學習鋪平了道路。該方法適用于大規模的數據集,適用于具有不可見腳本的遠程語言,僅對原語言對的翻譯性能有較小的降低,即使在僅對新語言擁有單語數據的情況下,也能提供具有很好的性能。
場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa