語言交互中的視覺推理研究
視覺語言是計算機視覺與自然語言處理的交叉領域,對機器的感知和認知 能力均有較高的要求。隨著深度學習的發展和計算能力的提高,機器的感知能 力得到了顯著提升,研究者們開始探索機器的認知能力,尤其是推理能力。本 文從知識建模和知識推斷兩個方面入手,對視覺語言交互任務中的視覺推理問 題進行研究。其中,知識建模指通過模型的構建,從視覺媒介和自然語言中提 取視覺和語言知識,并進行特征表示;知識推斷指機器對視覺和語言兩個模態 的知識進行綜合考慮,并進行無偏的推斷與估計。
對于知識建模而言,本文通過單輪交互和多輪交互兩個場景,分別選取指 稱語理解和視覺對話兩個代表性任務進行闡述。對于單輪交互情形下的指稱語 理解任務而言,機器需要從圖像中對自然語言描述的目標物體進行定位。本文 提出了變分背景框架,借助背景建模的思想,對自然語言指代的目標和其背景 信息的共生關系進行建模,通過候選目標對語義背景進行估計,并基于估計出 的語義背景對指代目標進行定位。對于多輪交互情形下的視覺對話而言,機器 需要結合圖像及多輪對話歷史,對當前問題進行回答。本文提出了遞歸視覺注 意力機制,借助于視覺指代消解的思想,希望機器模擬人的思維方式,以遞歸 的形式對對話歷史進行回顧,并以視覺注意力機制的方式聚焦在與話題相關的 視覺物體上。
對于知識推斷而言,視覺問答是視覺語言領域中存在知識偏差的典型問題。視覺問答需要結合圖像內容,對問題進行回答。視覺問答模型可能會過多地關 注問題和答案之間的聯系,從而缺少了對圖像內容的關注。不同于傳統的基于 統計相關性的模型,本文提出了反事實視覺問答框架,從因果效應的視角出發, 借助因果推斷中的反事實思維,通過單一語言分支顯式地對語言相關性進行建 模。通過從問題和圖像的總體因果效應中去除問題對答案的直接因果效應,有 效地克服了視覺問答模型對語言偏差的依賴。
為了解決通用視覺問答(VQA)方法無法處理圖像中文字信息的缺陷,文本視覺問答(TextVQA)任務被提出。TextVQA為了回答與圖像中文字相關的問題,需要同時考慮視覺場景和文字等多個模態的信息及其關系,具有很大挑戰。目前主流的方法通過引入一個外部的光學字符識別(OCR)模塊作為前處理,再將其與VQA框架結合預測答案,這會使得TextVQA性能很大程度上受到OCR精度的影響,具體表現為以下兩種誤差累積傳播現象:1)OCR錯誤使得對文字的直接語義編碼錯誤,導致多模態信息的交互推理過程出現偏差,從而無法定位出準確的答案。2)即使是在推理和定位答案正確的情況下,OCR錯誤仍然會導致最終從OCR結果中“復制”的答案錯誤。另外,視覺物體模態與圖像文字、問題模態交互時存在語義間隔,使得多模態信息無法有效融合。
本文簡要介紹來自中國傳媒大學和中國科學院信息工程研究所合作的ACM MM 2021的論文“Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA”。文章提出了一個對文字識別結果魯棒的文本視覺問答方法BOV:通過將光學字符識別(OCR)融入文本視覺問答(TextVQA)的前向處理流程,即借助來自文字檢測和文字識別兩個階段的多模態線索,實現在沒有準確識別文字的情況下也能獲取對文字的合理的語義表示,并利用TextVQA任務豐富的上下文信息對解碼的答案進行自適應修正。
隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。
本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
摘要: 基于視覺和語言的跨媒體問答與推理是人工智能領域的研究熱點之一,其目的是基于給定的視覺內容和相關問題,模型能夠返回正確的答案。隨著深度學習的飛速發展及其在計算機視覺和自然語言處理領域的廣泛應用,基于視覺和語言的跨媒體問答與推理也取得了較快的發展。文中首先系統地梳理了當前基于視覺和語言的跨媒體問答與推理的相關工作,具體介紹了基于圖像的視覺問答與推理、基于視頻的視覺問答與推理以及基于視覺常識推理模型與算法的研究進展,并將基于圖像的視覺問答與推理細分為基于多模態融合、基于注意力機制和基于推理3類,將基于視覺常識推理細分為基于推理和基于預訓練2類;然后總結了目前常用的問答與推理數據集,以及代表性的問答與推理模型在這些數據集上的實驗結果;最后展望了基于視覺和語言的跨媒體問答與推理的未來發展方向。
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28
面向目標的視覺對話包括兩個代理者,提問者和Oracle之間的多回合交互。在此期間,Oracle給出的答案是非常重要的,因為它為提問者所關心的問題提供了黃金回答。在回答的基礎上,提問者更新了對目標視覺內容的信念,進而提出了另一個問題。值得注意的是,不同的答案會導致不同的視覺信念和未來問題。但是,現有的方法往往是在問題長得多的情況下對答案進行不加區分的編碼,導致對答案的利用率較低。在本文中,我們提出了一個答案驅動的視覺狀態估計器(ADVSE),以施加不同的答案對視覺狀態的影響。首先,我們提出了一種基于回答驅動的聚焦注意力(ADFA),通過在每個回合強化與問題相關的注意力并通過基于回答的邏輯操作來調整注意力,來捕捉對視覺注意力的回答驅動效應。然后在聚焦注意力的基礎上,通過條件視覺信息融合(CVIF)對問題-應答狀態進行融合,得到整體信息和差異信息的視覺狀態估計。
盡管近年來計算機視覺技術已經取得了長足的進步,但是對于復雜視覺場景 的感知和理解,目前的計算機模型表現還遠遠沒有達到大規模普及和落地應用的 水平。為了充分地利用日常生活中海量的視覺媒體數據,復雜視覺場景的感知和理 解已經逐漸成為計算機視覺領域的一個研究熱點。
本文將針對四個不同層次的視覺場景理解(物體級別識別、場景級別識別、場 景級別理解和場景級別推理),逐步地對復雜視覺場景中視覺內容的識別、檢測和 推理進行研究。本文的關鍵技術線路主要聚焦于零樣本物體分類、圖像場景圖生 成、圖像描述生成、視頻片段檢索和視覺問答等具體視覺場景理解任務。在此研究 技術路線下,本文主要的研究內容和貢獻如下:
1)針對零樣本物體分類模型中普遍存在的語義丟失問題,本文提出一種全新 的零樣本學習網絡。該網絡首次引入兩個相互獨立的映射網絡分支,將圖像分類和 圖像重建兩個原本相互沖突的任務分離出來。同時借助對抗學習,實現重建網絡分 支和分類網絡分支之間的屬性遷移。
2)針對圖像場景圖生成模型中優化目標通常忽略不同物體的重要性差異的問 題,本文提出一種全新的訓練框架,首次將圖像場景圖生成任務轉化成一個多智能 體協同決策問題,從而可以直接將整個圖像場景圖質量作為模型的優化目標。同 時,本文還提出了一個反事實基準模型,可以有效地計算出每個物體類別預測對整 體場景圖生成質量的局部貢獻。
3)參考現有的空間注意力機制,本文首次提出通道注意力機制。同時,通過 充分挖掘卷積神經網絡的特征圖的三個不同維度(空間、通道和層級)之間的聯系, 提出一種全新的空間和通道注意力網絡。在圖像描述生成任務中,該網絡不僅極大 地提升了描述語句的生成質量,同時幫助人們理解在語句生成過程中特征圖的變 化過程。
4)針對目前視頻片段檢索任務中兩種主流框架(自頂向下和稀疏型自底向上) 的設計缺陷,本文提出了一種全新的密集型自底向上的框架。通過將動作邊界定位問題分解成相關性預測和邊界回歸兩個子問題,顯著地降低了動作邊界定位的難 度。同時,本文提出一個基于圖卷積的特征金字塔層,來進一步增強骨干網絡編碼 能力。
5)針對目前視覺問答模型忽略的兩個重要特性(視覺可解釋性和問題敏感性), 本文提出了一種通用的反事實樣本生成機制。通過遮蓋圖像中的重要區域或問題 中的重要單詞,同時更改標準答案,來合成全新的反事實訓練樣本。通過使用原始 訓練樣本和反事實訓練樣本一起對模型進行訓練,迫使視覺問答模型關注被遮蓋 的重要內容,提升模型的視覺可解釋性和問題敏感性。
地址: