亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

主題: Visual Grounding in Video for Unsupervised Word Translation

摘要:

地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基礎來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它魯棒性更強,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。

付費5元查看完整內容

相關內容

機器視覺通常用于分析圖像,并生成一個對被生成圖像物體或場景的描述,這些描述最終用于輔助或決定機器人控制決策。 一門基于計算機圖像識別和分析的技術。主要用于自動檢測,流程控制或機器人引導等。

主題: Neural Topological SLAM for Visual Navigation

摘要: 本文研究了圖像目標導航的問題,該問題涉及在以前看不見的新型環境中導航到目標圖像指示的位置。 為了解決這個問題,我們設計了空間的拓撲表示,以有效利用語義并提供近似的幾何推理。 表示的核心是具有關聯語義特征的節點,這些節點使用粗略的幾何信息相互連接。我們描述了基于監督學習的算法,該算法可以在噪聲激勵下構建,維護和使用此類表示。 在視覺和物理逼真的模擬中的實驗研究表明,我們的方法建立了有效的表示形式,可以捕獲結構規律性并有效解決長視距導航問題。 與研究該任務的現有方法相比,我們觀察到相對改進了50%以上。

付費5元查看完整內容

自監督式VO方法在視頻中聯合估計攝像機姿態和深度方面取得了很大的成功。然而,與大多數數據驅動的方法一樣,現有的VO網絡在面對與訓練數據不同的場景時,性能顯著下降,不適合實際應用。在本文中,我們提出了一種在線元學習算法,使VO網絡能夠以一種自監督的方式不斷適應新的環境。該方法利用卷積長短時記憶(convLSTM)來聚合過去的豐富時空信息。網絡能夠記憶和學習過去的經驗,以便更好地估計和快速適應當前幀。在開放環境中運行VO時,為了應對環境的變化,我們提出了一種在線的特征對齊方法,即在不同的時刻對特征分布進行對齊。我們的VO網絡能夠無縫地適應不同的環境。在看不見的戶外場景、虛擬到真實世界和戶外到室內環境的大量實驗表明,我們的方法始終比最先進的自監督的VO基線性能更好。

付費5元查看完整內容

題目 Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

摘要:

本文提出了一種新的基于流形的幾何學習方法來學習源語言和目標語言之間的無監督詞嵌入對齊。該方法將對列學習問題歸結為雙隨機矩陣流形上的域適應問題。這一觀點的提出是為了對齊兩個語言空間的二階信息。利用雙隨機流形的豐富幾何性質,提出了一種高效的黎曼流形的共軛梯度算法。從經驗上看,該方法在跨語言對的雙語詞匯歸納任務中表現優于基于最優遷移的方法。遠程語言對性能的提高更為顯著。

付費5元查看完整內容

僅憑對話就能猜測人類行為嗎?在這項工作中,我們調查了電影中的言語和動作之間的聯系。我們注意到,電影劇本描述動作,也包含角色的語言,因此可以用來學習這種相關性,而不需要額外的監督。我們在一千多部電影劇本中訓練一個基于BERT的語音動作分類器,從轉錄的語音片段中預測動作標簽。然后,我們將該模型應用于一個大型未標記電影語料庫的語音片段(來自288K電影的1.88億個語音片段)。利用該模型的預測,我們得到了800K以上視頻片段的弱動作標簽。通過對這些視頻剪輯的訓練,我們在標準動作識別基準上展示了優越的動作識別性能,而無需使用一個手動標記的動作示例。

付費5元查看完整內容

地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基準來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它更健壯,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。

付費5元查看完整內容

主題: Learning Video Object Segmentation from Unlabeled Videos

摘要:

我們提出了一種新的視頻對象分割方法(VOS),解決了從未標記的視頻中學習對象模式的問題,而現有的方法大多依賴于大量的帶注釋的數據。我們引入了一個統一的無監督/弱監督學習框架,稱為MuG,它全面地捕捉了VOS在多個粒度上的內在特性。我們的方法可以幫助提高對VOS中可視模式的理解,并顯著減少注釋負擔。經過精心設計的體系結構和強大的表示學習能力,我們的學習模型可以應用于各種VOS設置,包括對象級零鏡頭VOS、實例級零鏡頭VOS和單鏡頭VOS。實驗表明,在這些設置下,有良好的性能,以及利用無標記數據進一步提高分割精度的潛力。

付費5元查看完整內容

主題: Multi-View Learning for Vision-and-Language Navigation

摘要:

學習遵循自然語言指令在視覺環境中導航是一項具有挑戰性的任務,因為自然語言指令具有高度的可變性、模糊性和欠指定性。在本文中,我們提出了一種新的訓練模式,從每個人身上學習(LEO),它利用多條指令(作為不同的視圖)來解決同一軌跡下的語言歧義,提高泛化能力。通過在指令之間共享參數,我們的方法可以更有效地從有限的訓練數據中學習,并在不可見的環境中更好地推廣。在最近的Room-to-Room(R2R)基準數據集上,LEO在路徑長度加權的成功率(SPL)方面比貪婪的代理(25.3%-41.4%)提高了16%(絕對)。此外,LEO是對大多數現有視覺和語言導航模型的補充,允許與現有技術輕松集成,從而導致LEO+,這創造了新的技術水平,將R2R基準推高到62%(9%的絕對改善)。

付費5元查看完整內容

There are thousands of actively spoken languages on Earth, but a single visual world. Grounding in this visual world has the potential to bridge the gap between all these languages. Our goal is to use visual grounding to improve unsupervised word mapping between languages. The key idea is to establish a common visual representation between two languages by learning embeddings from unpaired instructional videos narrated in the native language. Given this shared embedding we demonstrate that (i) we can map words between the languages, particularly the 'visual' words; (ii) that the shared embedding provides a good initialization for existing unsupervised text-based word translation techniques, forming the basis for our proposed hybrid visual-text mapping algorithm, MUVE; and (iii) our approach achieves superior performance by addressing the shortcomings of text-based methods -- it is more robust, handles datasets with less commonality, and is applicable to low-resource languages. We apply these methods to translate words from English to French, Korean, and Japanese -- all without any parallel corpora and simply by watching many videos of people speaking while doing things.

我們提出了一個多語言神經機器翻譯的概率框架,它包括監督和非監督設置,重點是無監督翻譯。除了研究只有單語數據可用的基本情況外,我們還提出了一種新的設置,即(源、目標)對中的一種語言不與任何并行數據相關聯,但可能存在包含另一種語言的輔助并行數據。通過一個新的交叉翻譯損失項,這些輔助數據可以很自然地用在我們的概率框架中。經驗表明,我們的方法在大多數方向的WMT'14英-法、WMT'16英-德、WMT'16英-羅數據集上,比最先進的無監督模型獲得更高的BLEU分數。特別是,我們獲得了+1.65 BLEU的優勢,在羅馬尼亞-英國方向的最佳表現的無監督模式。

付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容
北京阿比特科技有限公司