擁有良好醫學知識的人類醫生,只需與病人進行幾次有關癥狀的對話,就能診斷出疾病。相比之下,現有的以知識為基礎的對話系統往往需要大量對話實例來學習,因為它們無法捕捉不同疾病之間的相關性,忽視了它們之間共享的診斷經驗。為解決這一問題,我們提出了一種更自然、更實用的范式,即低資源的醫療對話生成,它可以將源疾病的診斷經驗轉移到有少量數據可供適應的目標疾病。它利用常識知識圖譜來表征先前的疾病癥狀關系。此外,我們還開發了一個圖演化元學習(GEML)框架,該框架通過學習進化常識圖譜來推理一種新疾病的疾病癥狀相關性,有效地緩解了大量對話的需求。更重要的是,通過動態演變的疾病癥狀圖,GEML還很好地解決了現實世界的挑戰,即每種疾病的疾病癥狀相關性可能隨著更多診斷病例而變化或演變。在CMDD數據集和我們新收集的Chunyu數據集上的大量實驗結果證明了我們的方法優于最先進的方法。此外,GEML還可以在線生成豐富的對話敏感的知識圖譜,對其他基于知識圖譜的任務有借鑒意義。
//www.zhuanzhi.ai/paper/e378691f4b084a18b1a0238815c63fb6
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
在多輪對話中,人們不總是會使用完整精確的句子表達方式,因而使得對話的上下文理解變得尤為困難。可是,我們需要讓計算機充分理解上下文,才能產生一個合理的系統回答。在本文中,我們提出了一種訓練計算機系統通過完成閱讀理解的任務,提升其對會話上下文出現信息缺失情況下的理解推理能力:即使出現了信息缺失,系統也有能力進行理解及補全。受多任務學習范式的啟發,我們提出了一種聯合訓練的模型框架,將對話與閱讀理解兩個不同的任務進行捏合與適度的共享,從而使得這種在信息缺失情況下的推理能力可以很好的幫助對話系統完成會話過程。
//www.zhuanzhi.ai/paper/4796c9faac3b36e1c30a21eed28ebe9e
場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
通過在終身學習中存儲舊知識來尋求提醒模型,是緩解災難性遺忘最有效的方法之一,即在轉向新任務時對先前知識的偏差遺忘。然而,在訓練新任務時,以往大多數基于預演的舊任務存在不可預測的域偏移問題。這是因為這些方法總是忽略兩個重要的因素。首先,新任務和舊任務之間的數據不平衡,使得舊任務的域容易移位。其次,所有任務之間的任務隔離會使領域向不可預測的方向移動;針對不可預測的領域遷移問題,本文提出多領域多任務排練,對新老任務進行并行、平等的訓練,打破任務之間的隔離狀態。具體地說,提出了一個兩級的角裕度損失模型,以促進類內/任務的緊湊性和類間/任務的差異,使模型避免領域混亂。此外,為了進一步解決舊任務的領域轉移問題,我們在記憶上提出了一個可選的情景蒸餾損失來錨定每個舊任務的知識。在基準數據集上的實驗驗證了該方法能夠有效地抑制不可預測的領域漂移。
生成式對抗網絡(GANs)近年來取得了顯著的進展,但模型規模的不斷擴大使其難以在實際應用中廣泛應用。特別是對于實時任務,由于不同的計算能力,不同的設備需要不同大小的模型。在本文中,我們引入了“可瘦身”的GANs (slimmable GANs),它可以在運行時靈活地切換生成器的寬度(層的通道)以適應各種質量和效率的權衡。具體地說,我們利用多個部分參數共享判別器來訓練“可瘦身”的生成器。為了促進不同寬度的生成器之間的一致性,我們提出了一種逐步替代蒸餾技術,鼓勵窄的生成器向寬的生成器學習。至于類條件生成,我們提出了一種可分割的條件批處理規范化,它將標簽信息合并到不同的寬度中。我們的方法通過大量的實驗和詳細的消融研究得到了定量和定性的驗證。
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。
遷移學習技術在難以獲得大量高質量注釋數據的NLP任務中特別有用。目前的方法在對下游任務進行微調之前,直接對域內文本采用預先訓練好的語言模型(LM)。我們展示了使用特定于領域的術語擴展LM的詞匯表會帶來進一步的收獲。在更大的效果上,我們利用未標記數據中的結構創建輔助合成任務,這有助于LM向下游任務轉移。在事先訓練好的Roberta-large LM系統上逐步應用這些方法,并在IT領域的三個任務上顯示出可觀的性能提升:閱讀理解、文檔排序和重復問題檢測。
盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。
在最大化源與目標之間的互信息方面的最新進展已經證明了它在文本生成方面的有效性。然而,以往的工作對MI(即MI)的后向網絡建模關注較少。這對于變分信息最大化下界的緊密性至關重要。在本文中,我們提出了一個對抗互信息(AMI):一個文本生成框架,它是一個新的鞍點(min-max)優化,旨在識別源與目標之間的聯合交互。在這個框架中,通過比較真實和合成的數據分布,前向網絡和后向網絡能夠迭代地提升或降級彼此生成的實例。我們還開發了一個潛在噪聲采樣策略,利用高級語義空間的隨機變化來增強生成過程中的長期依賴性。基于不同文本生成任務的大量實驗表明,所提出的AMI框架能夠顯著優于多個強基線,我們還表明,AMI有可能為變分信息最大化問題帶來更緊密的互信息上限。
//www.zhuanzhi.ai/paper/ccd8403755c153d155bec032656f8c49