精品夜色国产国偷自产乱码,亚洲色精品一区二区色欲AV,亚洲高清无码免费视频,国产日韩秒拍久久久久久精品,中文日本欧美一级视频在线观看

視覺感知和語言理解是人類智能的基本組成部分，使他們能夠理解和推理物體及其相互作用。對于機器來說，使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而，在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點，推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制，并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。在第一項工作中，本文提出一種新的雙過程神經架構，類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型，在給定問題的文本線索的情況下，編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征，然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估，顯示了有競爭力的結果，在多步驟推理的情況下有很大的優勢。

付費5元查看完整內容

相關內容

深度神經網絡

關注 34

深度神經網絡（DNN）是深度學習的一種框架，它是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似，深度神經網絡也能夠為復雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。

牛津大學 (University of Oxford) · 博士論文 · 多模態數據 · 表示學習 ·

2022 年 10 月 30 日

[付費5元查看完整內容]【牛津大學博士論文】學習和解釋來自多模態數據的深度表示，267頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在多個領域都取得了突破性進展，從圖像、語言和視頻理解等核心機器學習任務，到醫療、自動駕駛和農業等現實行業。它的成功是通過為神經網絡提供人工監督，從大型標記數據集(如ImageNet)自動學習分層數據表示。然而，獲取大規模的標簽數據通常是一個非常耗時和昂貴的過程。為應對這一挑戰，本文挑戰多模態視頻數據的自監督極限。視頻數據通常包含多種形式，如圖像、音頻、轉錄語音和可免費獲得的文本標題。這些模態通常共享冗余語義信息，因此可以作為偽標簽來監督彼此進行表示學習，而不需要使用人工標簽。在不依賴標簽數據的情況下，我們能夠在從互聯網收集的數百萬個視頻剪輯的非常大規模的視頻數據上訓練這些深度表示。通過在各種領域建立新的最先進的性能，展示了多模態自監督的可擴展性好處:視頻動作識別、文本到視頻檢索、文本到圖像檢索和音頻分類。我們還引入了數據轉換、模型架構和損失函數方面的其他技術創新，以使用多模態自監督進一步改進對這些深度視頻表示的學習。本文的第二個貢獻是改進深度表示的可解釋性的新工具，因為要破譯這些深度表示中編碼的關鍵特征是非常困難的。對于圖像，我們展示了如何使用攝動分析來分析網絡的中間表示。對于視頻，我們提出了一種新的聚類方法，使用Sinkhorn-Knopp算法將深度視頻表示映射到人類可解釋的語義偽標簽。本論文的研究成果為進一步提高深度視頻表示學習的可擴展性和可解釋性做出了貢獻。

//ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

付費5元查看完整內容

多模態表示學習 · 自然語言處理 · 計算機視覺 · 機器人 · 博士論文 ·

2022 年 3 月 6 日

[付費5元查看完整內容]【斯坦福Kevin Chen博士論文】視覺、語言和具身AI的多模態表示， Multimodal representations for vision, language, and embodied AI

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如，圖像識別被廣泛認為是計算機視覺的圣杯，而語言建模和翻譯則是自然語言處理的基本任務。然而，許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題，而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體，還需要能夠解釋自然語言描述或命令，并理解它們如何與其感知到的視覺觀察相關聯。此外，機器人需要利用這些信息來做決策，并決定采取哪些物理行動來完成任務。在本文的第一部分中，我提出了一種學習如何將自然語言和3D形狀聯系起來的方法，這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來，我們依賴一個跨模態嵌入空間來進行多模態推理，并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來，我們可以執行文本到形狀的檢索和形狀操作等任務，也可以執行新的任務，如文本到形狀的生成。在本論文的第二部分中，我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同，代理現在位于一個物理環境中，并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來，我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來，并將一系列的視覺觀察與物理運動和動作聯系起來

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 多模態表示學習 · 視覺語言研究 ·

2021 年 7 月 29 日

[付費5元查看完整內容]【斯坦福博士論文】視覺語言的多模態表示，102頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如，圖像識別被廣泛認為是計算機視覺的圣杯，而語言建模和翻譯一直是自然語言處理的基本任務。然而，許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題，而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體，而且還需要解釋自然語言的描述或命令，并理解它們如何與它所感知的視覺觀察相關聯。此外，機器人需要利用這些信息進行決策，并決定為了完成任務而采取哪些物理行動。在本文的第一部分，我提出了一種學習如何將自然語言與三維形狀聯系起來的方法，使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來，我們依賴一個跨模態嵌入空間來進行多模態推理，并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來，我們可以執行諸如文本到形狀的檢索和形狀操作等任務，還可以實現新的任務，如文本到形狀的生成。在本論文的第二部分，我們允許主體被具體化，并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集，代理程序現在位于一個物理環境中，并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系，我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來，并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容

深度學習 · 注意力機制 · 記憶機制 ·

2021 年 7 月 7 日

[付費5元查看完整內容]如何洞曉深度學習中記憶與注意力機制？這份Deakin大學212頁博士論文給您做解答

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

智能需要記憶。沒有記憶，人類就無法完成各種重要的任務，比如讀小說、玩游戲或解決數學問題。機器學習的最終目標是開發出像人類一樣自動學習和行動的智能系統，因此機器的記憶構建是必然的。人工神經網絡通過權值將計算單元連接起來，對大腦中的神經元和突觸進行建模，這是一種典型的類似于記憶結構的機器學習算法。他們的后代擁有更復雜的建模技術(即深度學習)，已經成功地應用于許多實際問題，并證明了記憶在機器系統學習過程中的重要性。近年來，深度學習中記憶建模的研究主要圍繞外部記憶結構展開，受到計算圖靈模型和生物神經元系統的啟發。注意力機制的產生是為了支持外部記憶的獲取和保留操作。盡管缺乏理論基礎，這些方法已經顯示出幫助機器系統達到更高智能水平的希望。本文的目的是提高對深度學習中記憶和注意力的認識。它的貢獻包括: (i) 呈現記憶分類的集合，(ii)構建支持多個控制和記憶單元的新的記憶增強神經網絡(MANN)， (iii)通過序列生成模型中的記憶引入可變性，(iv)在基于槽的記憶網絡中尋找最佳的寫操作以最大限度地提高記憶能力;(v)通過神經網絡的一種新型外部存儲器——神經存儲程序存儲器來模擬通用圖靈機。

目錄內容： 1 Introduction 2 Taxonomy for Memory in RNNs 3 Memory-augmented Neural Networks 4 Memory Models for Multiple Processes 5 Variational Memory in Generative Models 6 Optimal Writing Memory 7 Neural Stored-Program Memory 8 Conclusions

在這篇論文中，我們介紹了神經網絡的幾種記憶類型，特別是遞歸神經網絡(RNNs)。我們強調記憶作為RNN的外部存儲的概念，其中rnn可以學習讀寫外部記憶，以支持其工作記憶(第2章)。我們回顧了解決訓練RNN困難的進展，如門控和注意機制，特別是基于槽的MANN，這是本文第三章提出的新模型的主要內容。我們的主要貢獻有四方面。首先, 我們MANN作為一個多進程多視點模型來處理復雜的問題,如sequence-to-sequence映射和多視角序列學習(第四章)。我們進一步擴展MANNs作為離散序列的模型生成會話數據可變性和一致性要求(第5章)。我們也解釋到內存中最后，我們介紹了一類新的MANN，它遵循存儲程序存儲原理，可以通過切換控制器的程序來執行不同的功能。

付費5元查看完整內容

視覺問答 · 李飛飛 · 計算機視覺 · Justin Johnson · 斯坦福大學 (Stanford University) ·

2019 年 10 月 27 日

[付費5元查看完整內容]斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智能,195頁PDF

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文題目：

Compositional visual intelligence

作者：

Johnson Justin

貢獻者：

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

網址：

//searchworks.stanford.edu/view/12746402

論文摘要：

計算機視覺領域在過去幾年取得了巨大的進步，這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功，但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標，我們必須探索新的計算機視覺任務，創建新的數據集，開發利用組成性的新模型。在這篇論文中，我將討論我的工作在三個不同的計算機視覺任務涉及語言，其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子，但是通過將圖像分解為區域和描述分解為短語，我們可以生成兩種更豐富的描述:密集的標題和段落。其次，我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題，我們引入了一個新的benchark數據集。在此基礎上，提出了一種可視化問題交互的顯式組成模型，該模型將問題轉換為功能程序，并通過組合神經模塊來執行這些程序。第三，我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像，但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言，可以檢索和生成包含多個對象的復雜圖像。

付費5元查看完整內容