亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

因果關系知識對于構建健壯的人工智能系統至關重要。在需要因果推理的任務中,深度學習模型通常表現不佳。因果推理通常是通過某種形式的常識性知識推導出來的,這些常識性知識不是直接輸入的,而是由人類隱式推斷出來的。先前的工作已經揭示了在因果關系缺失的情況下,模型會陷入虛假的觀測偏差。雖然語言表征模型在習得的嵌入中保留了語境知識,但它們在訓練中不考慮因果關系。通過將因果關系與輸入特征融合到現有模型中執行視覺認知任務(如場景理解、視頻字幕、視頻問答等),可以獲得更好的性能,因為因果關系帶來的洞察力。最近,已經提出了幾個模型來處理從視覺或文本模態中挖掘因果數據的任務。然而,目前還沒有廣泛流行的研究通過視覺和語言模式的并列來挖掘因果關系。圖像為我們提供了豐富且易于處理的資源來挖掘因果關系知識,而視頻則更加密集,由自然的時間順序事件組成。此外,文本信息提供了視頻中可能隱含的細節。因此,我們提出了iReason,這是一個利用視頻和自然語言字幕推斷視覺語義常識的框架。此外,iReason的架構集成了一個因果合理化模塊,以輔助解釋、錯誤分析和偏差檢測的過程。我們通過與語言表征學習模型(BERT, GPT-2)以及當前最先進的多模態因果模型的雙管比較分析,證明了iReason的有效性。最后,我們通過將“因果信號”整合到一系列下游認知任務(如密集視頻字幕、視頻問答和場景理解)中的案例研究,證明了iReason的普遍適用性。

//www.zhuanzhi.ai/paper/7e370c38d06cbb2ea08ab41e2167a9a9

付費5元查看完整內容

相關內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

論文鏈接:

//arxiv.org/abs/2012.15409

GitHub鏈接:

近年來,預訓練技術在計算機視覺和自然語言處理領域均受到廣泛關注。在視覺領域,基于圖像數據的單模預訓練有效提升了視覺特征的提取能力。在自然語言處理領域,基于自監督的預訓練語言模型則利用大規模的單模文本數據,顯著提升了模型的語言表示能力。為了處理多模場景的任務,多模預訓練模型基于多模圖文對數據進行預訓練,從而有效支持下游的多模任務。然而,受限于圖文對數據量,多模預訓練模型通用性欠佳。

基于深度學習的AI系統能否像人一樣同時學習各類異構模態數據,包括文本、圖像等單模數據,以及圖文對等多模數據呢?如果能夠實現,無疑將進一步拓展深度學習對大規模數據利用的邊界,從而進一步提升AI系統的感知與認知能力以及AI算法的通用性。針對這一問題,本文提出統一模態學習UNIMO,同時利用大規模單模文本、單模圖像以及多模圖文對數據進行聯合學習,通過跨模態對比學習方法,有效地對語言知識與視覺知識進行統一表示和相互增強,從而具備同時處理多種單模態和多模態下游任務的能力。

UNIMO在語言理解與生成、多模理解與生成等四類場景共十多個任務上超越主流的文本預訓練模型和多模預訓練模型,首次驗證了通過非平行的文本與圖像單模數據,能夠讓語言知識與視覺知識相互增強。UNIMO也同時登頂了視覺問答VQA和文本推理aNLI權威榜單。

付費5元查看完整內容

將知識引入到依靠數據驅動的人工智能模型中是實現人機混合智能的一種重要途徑。當前以BERT為代表的預訓練模型在自然語言處理領域取得了顯著的成功,但是由于預訓練模型大多是在大規模非結構化的語料數據上訓練出來的,因此可以通過引入外部知識在一定程度上彌補其在確定性和可解釋性上的缺陷。該文針對預訓練詞嵌入和預訓練上下文編碼器兩個預訓練模型的發展階段,分析了它們的特點和缺陷,闡述了知識增強的相關概念,提出了預訓練詞嵌入知識增強的分類方法,將其分為四類:詞嵌入改造、層次化編解碼過程、優化注意力和引入知識記憶。將預訓練上下文編碼器的知識增強方法分為任務特定和任務通用兩大類,并根據引入知識的顯隱性對其中任務通用的知識增強方法進行了進一步的細分。該文通過分析預訓練模型知識增強方法的類型和特點,為實現人機混合的人工智能提供了模式和算法上的參考依據。

付費5元查看完整內容

深度神經網絡一直在推動自然語言處理領域的發展,被認為是解決機器翻譯、摘要和問答等復雜自然語言處理任務的事實建模方法。盡管深度神經網絡的有效性得到了證實,但它們的不透明性是引起關注的主要原因。

在本教程中,我們將從兩個角度介紹解釋神經網絡模型的細粒度組件的研究工作,一是內在分析,二是因果性分析。前者是一種方法來分析神經元關于一個理想的語言概念或任務。后者研究神經元和輸入特征在解釋模型決策中的作用。我們還將討論解釋方法和因果分析如何能夠更好地解釋模型預測。最后,我們將帶您瀏覽各種工具包,這些工具包有助于細粒度解釋和神經模型的原因分析。

//2021.naacl.org/program/tutorials/#t2

付費5元查看完整內容

使用正式的查詢語言指定用戶的興趣通常是一項具有挑戰性的任務,這在多模型數據管理上下文中變得更加困難,因為我們必須處理數據多樣性。它通常缺乏統一的模式來幫助用戶發出查詢,或者由于數據來自不同的來源,所以模式不完整。多模型數據庫(mmdb)已經成為處理此任務的一種有前途的方法,因為它們能夠在單個系統中容納和查詢多模型數據。本教程旨在全面介紹多種mmdb查詢語言,并從多個角度比較它們的屬性。我們將討論跨模型查詢處理的本質,并對研究挑戰和未來工作的方向提供見解。本教程還將向參與者提供應用mmdb來發出多模型數據查詢的實際經驗。

//www.helsinki.fi/en/node/93817

付費5元查看完整內容

盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。

//arxiv.org/abs/2009.11692

付費5元查看完整內容

摘要

基于神經網絡的生成式模型的最新進展重新燃起了計算機系統能夠與人類無縫對話并能夠理解自然語言的希望。神經結構被用于生成文本摘錄,在滿足不同用戶需求的多種上下文和任務中取得了不同程度的成功。值得注意的是,在大規模數據集上訓練的高容量深度學習模型顯示出無與倫比的能力,即使在缺乏明確的監督信號的情況下,也能在數據中學習模式,這為生成現實和連貫的文本提供了大量新的可能性。雖然自然語言生成領域正在迅速發展,但仍有許多開放的挑戰需要解決。在這篇綜述中,我們正式地定義和分類自然語言生成的問題。我們回顧了這些通用公式的實例化的特定應用程序任務,在這些任務中生成自然語言是非常重要的。接下來,我們涵蓋了用于生成不同文本的方法和神經存檔的全面的總結。然而,這些生成式模型產生的文本質量并沒有一個標準的評價方法,這是該領域發展的一個嚴重瓶頸。為此,我們還回顧了當前評估自然語言生成系統的方法。我們希望這篇綜述將提供一個公式,方法,和神經自然語言生成的評估信息概述。

介紹

最近在深層生成式模型和表征學習方面的成功導致了自然語言生成(NLG)方面的重大進展,其動機是越來越需要理解和派生語言的意義。文本生成的研究領域是自然語言處理的基礎,其目標是生成真實可信的文本內容,與人類書寫的文本沒有區別 (Turing, 1950)。從廣義上講,在給定語境下,預測連續詞在句法和語義上的正確順序需要兩個步驟:首先從給定語料庫中估計句子的分布情況,然后從已學習得到的語料中抽取新穎和真實的句子。理想情況下,生成的句子保留了真實世界句子的語義和句法屬性,并且不同于用于估計模型的訓練示例(Zhang et al., 2017b)。語言生成是一項內在復雜的任務,需要大量的語法、語義、形態、音韻、語用等多層次的語言學和領域知識。此外,文本生成是為了實現一個交流目標(Reiter, 2019),例如在決策過程中提供支持、總結內容、在語言之間進行翻譯、與人交談、使特定文本更容易理解,以及娛樂用戶或鼓勵他們改變行為。因此,生成的文本應該根據內容和使用的術語的適當性,以及出于公平和透明度的原因(Mayfield et al., 2019),針對特定受眾量身定制(Paris, 2015)。長期以來,自然語言生成模型都是基于規則的,或者依賴于在稀疏的高維特征上訓練淺層模型。隨著最近神經網絡的復蘇,基于密集向量表示訓練的文本生成神經網絡模型已經建立了無與倫比的先前表現,重新點燃了機器能夠理解語言并與人類無縫對話的希望。事實上,生成有意義和連貫的文本是許多自然語言處理任務的關鍵。然而,由于文本數據的離散性,設計能夠生成連貫文本并建立長期依賴關系模型的神經網絡一直是自然語言生成的挑戰。除此之外,神經網絡模型理解語言和基礎文本概念的能力,除了從數據中提取淺層的模式,仍然是有限的。最后,自然語言生成模型的評價是一個同樣活躍和具有挑戰性的研究領域,對推動該領域的發展具有重要意義。

付費5元查看完整內容

Facebook的研究員從一個新奇的角度對神經網絡的表示與設計進行探索,提出了一種新穎的相關圖表示方式。它有助于對現有網絡架構進行更深層次的分析與性能評價。這種相關圖的表示方式、實驗發現等確實挺有意思,也與現有網絡結構設計有一定相通之處,故推薦各位同學。

神經網絡通用被表示成圖的形式(即神經元之間通過邊進行鏈接),盡管這種表示方式得到了廣泛應用,但關于神經網絡結構與性能之間的關系卻鮮少有所了解。

作者系統的研究了神經網絡的圖結構是如何影響其性能的,為達成該目的,作者開發了一種新穎的稱之為relational graph(相關圖)的圖表示方式,神經網絡的層沿圖像結構進行多次信息交互。基于這種圖表示方式,作者發現了這樣幾點有意思發現:

  • 相關圖的靶點(sweet spot)可以促使神經網絡的性能極大提升;
  • 神經網絡的性能與聚類系數、平均路徑長度成平滑函數關系;
  • 該發現具有跨數據集、跨任務一致性;
  • 優秀的神經網絡結構與真實生物神經網絡具有驚人的相似性。
  • 該文為神經網絡架構設計與理解提供了一種新方向。
付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容
北京阿比特科技有限公司