亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人類學習本質上是多模態的。我們通過觀察、傾聽、閱讀和交流來學習和理解我們周圍的環境。機器學習領域已經取得了一些與人類活動相關的進展,如語音識別或計算機視覺,這使得對這種類人固有的多模態學習進行計算建模成為可能。多模態視頻理解作為一種機器學習任務,與這種學習形式很接近。本文提出將這個復雜的視頻理解任務分解為一系列相對簡單的任務,并增加復雜性。本文從語音識別的單調任務出發,介紹了一個端到端視聽語音識別模型。語音翻譯是一個更為復雜的任務,除了語音識別外,還需要處理重新排序的輸出序列,這也是本文的第二個任務。對于語音翻譯,我們引入了一個多模態融合模型,該模型學習以半監督的方式利用多視圖多模態數據。此外,我們還將繼續進行多模態視頻摘要和問題回答的任務,以解決抽象層次的理解任務,進一步涉及信息壓縮和重構。最后,我們將這項工作擴展到多模態自我理性化,不僅執行抽象層次的學習,而且還提供了對所獲得的視頻理解的解釋。針對這四個主要任務,我們根據任務的性質和復雜性,提出了一系列多模態融合模型,并在常用的視頻和語言理解數據集上對模型進行了比較和對比。

//lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

不可錯過!多模態機器學習課程!

多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模式(包括語言、視覺和聲學)來解決人工智能的一些最初目標。這一研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間的偶然性經常被發現。本課程是一門研究生水平的課程,涵蓋了多模態機器學習的最新研究論文,包括表示、對齊、推理、生成、協同學習和量化方面的技術挑戰。本課程的主要目標是提高批判性思維能力,了解最新的技術成就,并了解未來的研究方向。

本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限于,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。

//cmu-multicomp-lab.github.io/adv-mmml-course/spring2022/schedule/

付費5元查看完整內容

隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。

本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據

付費5元查看完整內容

我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。

//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容

在過去的十年里,機器學習的突破導致了“數字智能”,即機器學習模型能夠從大量標記數據中學習,以執行一些數字任務,如語音識別、人臉識別、機器翻譯等。這篇論文的目標是在設計能夠“物理智能”的算法方面取得進展,即構建智能自主導航代理,能夠學習在物理世界中執行復雜的導航任務,包括視覺感知、自然語言理解、推理、規劃、還有順序決策。盡管在過去的幾十年里,經典的導航方法有了一些進步,但是當前的導航代理在長期的語義導航任務上仍然很掙扎。在論文的第一部分,我們討論了我們使用端到端強化學習來解決諸如回避障礙、語義感知、語言基礎和推理等挑戰的短期導航工作。在第二部分,我們提出了一種新的導航方法,基于模塊化學習和結構化顯式地圖表示,它利用了經典和端到端學習方法的優勢,以解決長期的導航任務。我們證明了這些方法能夠有效地解決諸如定位、映射、長期規劃、探索和學習語義先驗等挑戰。這些模塊化學習方法能夠長期理解空間和語義,并在各種導航任務中獲得最先進的結果。

鏈接: //www.zhuanzhi.ai/paper/833a5e3cfe6401566bdde2b30d574d09

視頻:

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。

深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。

本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。

我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。

在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。

付費5元查看完整內容

論文題目:

Compositional visual intelligence

作者:

Johnson Justin

貢獻者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

網址:

//searchworks.stanford.edu/view/12746402

論文摘要:

計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標,我們必須探索新的計算機視覺任務,創建新的數據集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子,但是通過將圖像分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題,我們引入了一個新的benchark數據集。在此基礎上,提出了一種可視化問題交互的顯式組成模型,該模型將問題轉換為功能程序,并通過組合神經模塊來執行這些程序。第三,我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像,但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個對象的復雜圖像。

付費5元查看完整內容
北京阿比特科技有限公司