**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。
人工智能研究的一個基本目標是設計最終將在現實世界中與人類合作的智能體。為此,具身學習正在成為機器學習社區為實現這一目標所做出的最重要的努力之一。最近發展的子領域涉及此類系統的各個方面——視覺推理、語言表示、因果機制、分布外輸入的魯棒性,僅舉幾個例子。特別是,多模態學習和語言基礎對于實現對現實世界的深刻理解至關重要。人類通過與環境的交互,學習視覺、聽覺和語言概念之間的復雜關聯,來構建內部表示。由于世界充滿了結構,基于圖的編碼也可能被納入推理和決策模塊。此外,這些關系表示在本質上是相當象征性的——提供了比其他格式(如原始像素)更好的優勢——可以編碼各種類型的鏈接(時間的、因果的、空間的),這對于理解和在現實世界中采取行動是必不可少的。
**本文提出了三項研究工作,研究和開發了未來智能代理的可能方面。**第一個貢獻集中在視覺和語言學習上,引入了一個具有挑戰性的具身任務,將現有任務的重點轉移到視覺推理問題上。通過擴展流行的視覺問答(VQA)范式,我還設計了幾個模型,在新的數據集上進行了評估。通過更具挑戰性的VQA下游任務,這為環境理解提供了初步的性能估計。第二項工作提出了兩種獲取圖結構數據分層表示的方法。這些方法要么擴展到比當時性能最好的方法處理的更大的圖,要么通過使用拓撲數據分析算法合并理論屬性。這兩種方法都與當代最先進的圖分類方法競爭,即使在第二種情況中,歸納偏差是pagerank驅動的,甚至在社會領域之外。第三個貢獻進一步探討了關系學習,提出了在復雜環境下對圖表示的概率處理,如少樣本、多任務學習和稀缺標記數據體制。通過在神經過程中添加關系歸納偏差,由此產生的框架可以對生成有結構的數據集的整個函數分布進行建模。這產生了顯著的性能提升,特別是在上述復雜場景中,語義準確的不確定性估計大大提高了神經過程基線。這種類型的框架最終可能有助于開發終身學習系統,因為它能夠適應新的任務和分布。我在博士學習期間設計的基準、方法和框架為具身和圖表示學習研究提供了重要的未來方向。這些領域已經越來越多地證明了它們與設計智能和協作代理的相關性,在不久的將來,我們可能會與這些代理進行交互。通過解決這個問題空間中的幾個挑戰,我的貢獻為構建在現實環境中部署的機器學習系統提供了一些步驟。
兒童和機器的語言習得是了不起的。然而,雖然兒童通過聽相對少量的語言以及與人和周圍環境的互動來學習,但神經語言模型需要更多的數據和監督,難以泛化到新領域,絕大多數情況下只能從文本中學習。本文探討了關于兒童語言習得的知識——特別是兒童接受語言信息的規模和類型,他們如何使用反饋,以及他們如何以超出他們接觸到的語言輸入的系統方式進行概括——如何應用于多模態語言模型。本文的重點是:(1)基于視覺,用較少的數據訓練弱監督語言模型;(2)探索模型在多模態域的泛化能力。第一種方法使用字幕視頻訓練語義解析器,將自然語言映射到邏輯形式,在沒有解析樹或任何其他注釋的情況下進行學習。第二種方法從簡單的觀察視頻轉向使用機器人模擬器和世界狀態來驗證生成的邏輯形式的更動態的設置。這些方法專注于評估弱監督,訓練和推理數據相對相似;探索了評估,其中推理數據與訓練數據有很大不同,需要系統的泛化。一種方法測試了預訓練和一種新的解碼策略在網格世界中導航的作用;推理命令和動作序列在系統方面與訓練不同。最后一種方法測試了當輸入圖像或文本中的人口統計特征與其學習到的社會偏見不同時,預訓練的多模態transformer模型的泛化程度。
基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。
自人工智能早期以來,構建可以與人類自然對話的對話智能體的目標一直是研究人員的一個長期夢想。著名的圖靈測試(Turing Test)提出根據人工智能智能體與人類對話的不可區分性來判斷其最終有效性。毫無疑問,構建人類級別的對話系統非常具有挑戰性。但是,雖然基于規則的系統的早期努力取得了有限的成功,但深度學習的出現使這一主題取得了巨大的進展。
本文專注于解決許多問題的方法,這些問題一直在人工對話智能體和人類級別的對話者之間造成差距。這些方法是在通用的最先進的人工智能方法的啟發下提出和實驗的。但他們也針對對話系統所具有的特征。首先,擴展了對話系統可以依賴的信息的多樣性。在其最簡單和最常見的形式中,對話由回應和它們的前面的文本上下文組成。然而,與現實世界的人類對話相比,這種表示并不理想,后者往往依賴于其他模態和特定的知識庫。為了將對話條件化為更多模態,本文探索了由輸入的音頻表示增強的對話生成。設計了一個輔助的響應分類任務,為對話生成目標學習合適的音頻表示。我們使用詞級模態融合將音頻特征集成到序列到序列學習框架中。該模型可以產生與音頻中表達的情感和重點相對應的適當響應。常識知識必須有效地集成到對話系統中,以便以一種有趣和參與的方式回應人類的話語。作為首次嘗試將大型常識知識庫整合到端到端的會話模型中,本文提出了一種聯合考慮上下文及其相關常識知識的模型來選擇合適的響應。本文證明了知識增強模型優于無知識模型。
雖然上述兩個方向都致力于將對話建立在各種新信息的基礎上,但它們并不是對話系統面臨的唯一挑戰。傳統上,構建智能對話系統的目標在很大程度上是在兩種范式下分別追求的:任務導向型對話系統(執行特定任務的功能)和開放域對話系統(專注于非目標導向型對話)。這兩種對話模式可以在同一對話中無縫地交織在一起,就像友好的人類助手很容易做到的那樣。本文還對多輪對話中兩種對話模式的融合問題進行了研究。構建了一個新的數據集FusedChat,其中包含包含來自兩種對話模式的對話會話,具有模式間上下文依賴。本文提出了兩個基線模型,并分析了它們的準確性。
最后但并非最不重要的是,我們展示了我們在解決大規模基于檢索的對話系統面臨的計算效率問題上的努力。基于大型自然候選集的強檢索對話系統可以產生多樣化和可控的響應。然而,一個大的候選集可能是計算成本很高的。我們提出了支持快速和準確的響應檢索系統的方法。為了提高準確性,我們采用了一種知識蒸餾方法,其中使用了一個非常強大但計算成本很高的聯合編碼模型來促進編碼器的訓練。然后,我們采用基于學習的候選篩選方法來提高檢索速度,進一步減少推理時間。我們證明了我們的模型在檢索精度和速度權衡方面表現強勁。綜上所述,本文系統地展示了我們在創新對話系統方面所做的努力。我們相信,我們所關注的研究問題是最終將自動對話代理提高到人類水平的重要方面。隨著我們在過去4年里不斷創新對話系統的努力,以及最先進的NLP模型逐年快速發展,我們注意到我們早期工作中使用的一些模型(例如LSTMs)無法與今天可用的最先進的模型(例如GPT3)競爭。在這種情況下,我們簡要而系統地解釋以下工作(當前最先進的技術),這些工作源于我們工作中展示的方法。
本文探討了計算機如何使用自監督學習在沒有強監督的情況下學習視覺對象的結構。我們演示了我們可以使用一個以重構為關鍵學習信號的自動編碼框架來學習對象的結構表示。我們通過工程瓶頸將對象結構從其他變化因素中分離出來來做到這一點。此外,設計了以2D和3D物體地標或3D網格形式表示物體結構的瓶頸。具體來說,我們開發了一種自動發現2D對象地標的方法,無需任何注釋,該方法使用帶有2D關鍵點瓶頸的條件自動編碼器,將表示為2D關鍵點的姿勢和外觀分離開來。**盡管自監督學習方法能夠學習穩定的物體地標,但自動發現的地標與人類標注者標注的地標不一致。為解決這個問題,本文提出一種方法,通過引入一種新的地標自編碼,將未配對的經驗先驗注入到條件自編碼器中,可以利用對抗性學習中使用的強大圖像鑒別器。**這些條件自動編碼方法的一個副產品是,可以通過操縱瓶頸中的關鍵點來交互控制生成。我們利用這一特點在一個新的方法進行交互式3D形狀變形。該方法以自監督的方式訓練,使用自動發現的3D地標來對齊對3D形狀。在測試時間內,該方法允許用戶通過發現的三維物體標志進行物體形狀的交互變形。最后,我們提出了一種利用光幾何自編碼器恢復物體類別三維形狀的方法,而不需要任何三維注釋。它使用視頻進行訓練,并學會將輸入的圖像分解為剛性的姿勢、紋理和可變形的形狀模型。
近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來
語言交互中的視覺推理研究
視覺語言是計算機視覺與自然語言處理的交叉領域,對機器的感知和認知 能力均有較高的要求。隨著深度學習的發展和計算能力的提高,機器的感知能 力得到了顯著提升,研究者們開始探索機器的認知能力,尤其是推理能力。本 文從知識建模和知識推斷兩個方面入手,對視覺語言交互任務中的視覺推理問 題進行研究。其中,知識建模指通過模型的構建,從視覺媒介和自然語言中提 取視覺和語言知識,并進行特征表示;知識推斷指機器對視覺和語言兩個模態 的知識進行綜合考慮,并進行無偏的推斷與估計。
對于知識建模而言,本文通過單輪交互和多輪交互兩個場景,分別選取指 稱語理解和視覺對話兩個代表性任務進行闡述。對于單輪交互情形下的指稱語 理解任務而言,機器需要從圖像中對自然語言描述的目標物體進行定位。本文 提出了變分背景框架,借助背景建模的思想,對自然語言指代的目標和其背景 信息的共生關系進行建模,通過候選目標對語義背景進行估計,并基于估計出 的語義背景對指代目標進行定位。對于多輪交互情形下的視覺對話而言,機器 需要結合圖像及多輪對話歷史,對當前問題進行回答。本文提出了遞歸視覺注 意力機制,借助于視覺指代消解的思想,希望機器模擬人的思維方式,以遞歸 的形式對對話歷史進行回顧,并以視覺注意力機制的方式聚焦在與話題相關的 視覺物體上。
對于知識推斷而言,視覺問答是視覺語言領域中存在知識偏差的典型問題。視覺問答需要結合圖像內容,對問題進行回答。視覺問答模型可能會過多地關 注問題和答案之間的聯系,從而缺少了對圖像內容的關注。不同于傳統的基于 統計相關性的模型,本文提出了反事實視覺問答框架,從因果效應的視角出發, 借助因果推斷中的反事實思維,通過單一語言分支顯式地對語言相關性進行建 模。通過從問題和圖像的總體因果效應中去除問題對答案的直接因果效應,有 效地克服了視覺問答模型對語言偏差的依賴。
隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。
本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。