亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來

付費5元查看完整內容

相關內容

論文題目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

作者:盧浩宇,費楠益,霍宇琦,高一釗,盧志武,文繼榮

通訊作者:盧志武

論文概述:大規模的單塔預訓練模型,在跨模態檢索中取得驚人的檢索效果。遺憾的是,由于它們大多采用耗時的實參跨模態交互方式,檢索效率非常低。最近,像CLIP和ALIGN這樣具有高推理效率的雙塔模型也表現出了良好的效果,然而,它們只考慮了模態之間的實例級對齊(因此仍有改進的余地)。為了克服這些限制,我們提出了一個新穎的協同式雙塔視覺語言預訓練模型,簡稱為COTS。總的來說,我們提出的COTS是通過加強模態間的交互來提高圖像-文本檢索效果的。

除了通過動量對比學習進行實例級的對齊之外,我們還提出了兩種額外的跨模態交互。(1)Token級的交互—在不使用實參交互模型的情況下,我們設計了一個遮蔽視覺語言建模(MVLM)的學習目標,其中變分自編碼器用于視覺編碼,可為每個圖像生成視覺token級別的標記。(2)任務級的交互—在文本到圖像和圖像到文本的檢索任務之間設計了一個KL-對齊學習目標,其中每個任務的概率分布是用動量對比學習中的負樣本隊列計算的。在公平比較下,我們提出的COTS在所有雙塔方法中取得了最好的結果,與最新的單塔方法相比,COTS表現出相當的能力(但推理速度快10,800倍)。同時,我們提出的COTS也適用于從文本到視頻的檢索,在廣泛使用的MSR-VTT數據集上取得了目前最好的結果。

付費5元查看完整內容

近年來,由于基于Transformer的視覺-語言模型的發展,聯合文本-圖像嵌入得到了顯著的改善。盡管有這些進步,我們仍然需要更好地理解這些模型產生的表示。在本文中,我們在視覺、語言和多模態水平上比較了預訓練和微調的表征。為此,我們使用了一組探測任務來評估最先進的視覺語言模型的性能,并引入了專門用于多模態探測的新數據集。這些數據集經過精心設計,以處理一系列多模態功能,同時最大限度地減少模型依賴偏差的可能性。雖然結果證實了視覺語言模型在多模態水平上理解顏色的能力,但模型似乎更傾向于依賴文本數據中物體的位置和大小的偏差。在語義對抗的例子中,我們發現這些模型能夠精確地指出細粒度的多模態差異。最后,我們還注意到,在多模態任務上對視覺-語言模型進行微調并不一定能提高其多模態能力。我們提供所有的數據集和代碼來復制實驗。

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

語言交互中的視覺推理研究

視覺語言是計算機視覺與自然語言處理的交叉領域,對機器的感知和認知 能力均有較高的要求。隨著深度學習的發展和計算能力的提高,機器的感知能 力得到了顯著提升,研究者們開始探索機器的認知能力,尤其是推理能力。本 文從知識建模和知識推斷兩個方面入手,對視覺語言交互任務中的視覺推理問 題進行研究。其中,知識建模指通過模型的構建,從視覺媒介和自然語言中提 取視覺和語言知識,并進行特征表示;知識推斷指機器對視覺和語言兩個模態 的知識進行綜合考慮,并進行無偏的推斷與估計。

對于知識建模而言,本文通過單輪交互和多輪交互兩個場景,分別選取指 稱語理解和視覺對話兩個代表性任務進行闡述。對于單輪交互情形下的指稱語 理解任務而言,機器需要從圖像中對自然語言描述的目標物體進行定位。本文 提出了變分背景框架,借助背景建模的思想,對自然語言指代的目標和其背景 信息的共生關系進行建模,通過候選目標對語義背景進行估計,并基于估計出 的語義背景對指代目標進行定位。對于多輪交互情形下的視覺對話而言,機器 需要結合圖像及多輪對話歷史,對當前問題進行回答。本文提出了遞歸視覺注 意力機制,借助于視覺指代消解的思想,希望機器模擬人的思維方式,以遞歸 的形式對對話歷史進行回顧,并以視覺注意力機制的方式聚焦在與話題相關的 視覺物體上。

對于知識推斷而言,視覺問答是視覺語言領域中存在知識偏差的典型問題。視覺問答需要結合圖像內容,對問題進行回答。視覺問答模型可能會過多地關 注問題和答案之間的聯系,從而缺少了對圖像內容的關注。不同于傳統的基于 統計相關性的模型,本文提出了反事實視覺問答框架,從因果效應的視角出發, 借助因果推斷中的反事實思維,通過單一語言分支顯式地對語言相關性進行建 模。通過從問題和圖像的總體因果效應中去除問題對答案的直接因果效應,有 效地克服了視覺問答模型對語言偏差的依賴。

付費5元查看完整內容

隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。

本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據

付費5元查看完整內容

摘要

一個能夠理解自然語言指令并在視覺世界中執行相應動作的agent是人工智能(AI)面臨的長期挑戰之一。由于來自人類的指令繁雜,這就要求代理能夠在非結構化的、前所未見的環境中,將自然語言與視覺和行動聯系起來。如果人類給出的指令是一個導航任務,那么這個挑戰就稱為視覺語言導航(Visual-and-Language navigation, VLN)。它是一個蓬勃發展的多學科領域,越來越重要,具有非凡的實用性。本文不關注具體方法的細節,而是對VLN任務進行全面的綜述,并根據這些任務中語言指令的不同特點進行細致的分類。根據下達指令的時間,任務可分為單回合和多回合。對于單回合任務,我們根據指令是否包含路徑,進一步將其分為目標導向和路徑導向。對于多回合任務,我們根據agent是否響應指令將其分為命令式任務和交互式任務。這種分類方法可以幫助研究者更好地把握具體任務的關鍵點,明確未來的研究方向。

引言

想象你要去一個你從未去過的地方參加一個會議。在GPS和數字地圖的幫助下,可以很容易地規劃一條路線,覆蓋最終目標99%的距離。然而,我們可能會迷路,甚至只剩下一公里。這時,我們可以打電話給主人或轉向路人,她/他會指導你一些語言上的說明。說明書可能包含一些方向性指南和一些視覺地標。在幫助下,你可以到達會面地點。

視覺和語言導航(VLN)[1]是在非結構化、不可見的環境中連接自然語言和視覺和導航的任務。它引起了計算機視覺(CV)和自然語言處理(NLP)領域研究人員越來越多的興趣。由于深度學習的成功,在CV和NLP領域的一些任務都有了重要的進展。這種激增首先出現在CV的一些任務中,如分類[2]、檢測[3]、分割[4]等,使用的是自監督[5]或大型注釋數據集。接下來,NLP在以預訓練的語言模型為骨干的多任務解決方面取得了顯著的進步[6,7],該模型在大型無標記語料庫上進行了訓練。

與此同時,Lee等人[8]證明,使用神經網絡策略,四足機器可以獲得超越以往方法的運動技能。這些巨大的進步增強了研究人員解決更復雜任務的信心,將視覺與語言和行動結合起來。VLN是這一趨勢的一個里程碑。執行VLN的能力進一步支持各種更高級別的人工智能任務,如ALFRED任務[9],其中agent需要學習從自然語言指令和自我中心視覺到家庭任務動作序列的映射。同時,從前面的例子中我們可以看出,VLN任務不僅對室內環境[10]有價值,對室外環境也有價值。

在這次綜述中,我們將全面回顧現有的視覺和語言任務,并發現大多數方法基本上都是為了解決一個任務而設計的。在這種情況下,我們試圖找出VLN任務之間的內部差異。可見視覺部分的差異相對較小。無論是2D還是3D,室內還是室外,虛擬還是真實感,它們都只是環境感知的導航軌跡。例如,任務REVERIE[19]和Room-to-Room[1]基于相同的環境模擬器。然而,語言部分導致這些任務完全不同。基于這一見解,我們引入了一種新的分類法來對VLN任務進行分類。根據語言指令的給出方式,VLN任務可分為單圈和多圈兩種類型。對于單回合任務,在代理開始滾動之前會給出一系列指令。無論是否指定路由,指令可以分為: 目標導向指令和路由導向指令。

  • 目標導向。說明書中包含了幾個目標,但沒有關于如何實現這些目標的線索。當智能體處于起始點時,目標可能是可見的。一個智能體可以先找到目標,然后規劃整個軌跡,然后完成它。所有的物體都可以看到,研究人員試圖解決低水平控制的挑戰。然而,目標在某些任務中是不可見的。智能體必須搜索環境中的對象。

  • 路由導向。智能體如果不嚴格按照指令中所包含的路線運行,可能會迷路。該指令可能格式良好。它們可以被一些規則分解成幾個有意義的部分,每個部分表示一個動作。在這種情況下,智能體可以計劃一個動作序列,然后執行它。所有的前沿研究,如[39,40],都是在這個框架下進行的。即使是最近,[41,42,43,44,45]中任務的路由指令解析起來也相對簡單。實際上,自然語言指令是非結構化的,難以解析。然而,隨著深度學習的迅猛發展,利用深度神經網絡處理非結構化指令的興趣越來越多。最令人印象深刻的任務無疑是房間到房間[1]。關于非結構化面向路由指令的任務的更多細節將在下面的章節中說明。

對于多回合任務,導航員將在幾個回合中向導航員給出指令。根據導航器是否能夠響應指南,任務被分為: 命令式和交互式。由于指令可以多次給出,所以一個回合的指令主要是可見的目標導向,便于執行。

  • 命令式:導航器不能響應指南,只能執行指令。

  • 交互式:指南器和導航員都可以提問和分享信息,這在日常生活中更為常見。

為此,我們簡要分析了VLN任務的指令。然而,訓練VLN代理需要一個“軟件堆棧”[46]: (1)提供帶有語義注釋的2D/3D資產的數據集,(2) 渲染這些資產并在其中模擬agent的模擬器,以及(3)定義可評估問題的任務,使我們能夠對科學進展進行基準測試。如表1所示,我們總結了典型的任務和相關的模擬器,數據集將在下一節中說明。除了導航之外,一些任務還可能與其他操作交織在一起,比如操作一個對象、回答一個問題、定位一個目標對象。我們的分類法只考慮導航部分的貢獻。首先,我們對現有的視覺語言任務進行了全面的回顧。與最近的工作相比,這項調查涵蓋了更多的最近的論文,更多的任務和數據集。其次,精心設計了VLN任務的分類,如圖1所示。第三,對第四節至第六節的每一項任務進行總結和分析。在第7節中還描述了當前方法的常見限制和可能的解決方案。這可能會為這一領域的研究人員提供鼓舞人心的想法。

付費5元查看完整內容

近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容

許多視覺和語言的研究集中在一組小而多樣的獨立任務和支持的數據集上,這些數據集通常是單獨研究的;然而,成功完成這些任務所需的視覺語言理解技能有很大的重疊。在這項工作中,我們通過開發一個大規模的、多任務的訓練機制來研究視覺和語言任務之間的關系。我們的方法最終在12個數據集上建立了一個模型,這些數據集來自4大類任務,包括可視化問題回答、基于標題的圖像檢索、基礎引用表達式和多模態驗證。與獨立訓練的單任務模型相比,這意味著從大約30億個參數減少到2.7億個參數,同時在各個任務中平均提高性能2.05個百分點。我們使用我們的多任務框架來深入分析聯合訓練不同任務的效果。此外,我們還展示了從單一的多任務模型中細化特定任務模型可以帶來進一步的改進,達到或超過最先進的性能。

付費5元查看完整內容
北京阿比特科技有限公司