亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

盡管近年來計算機視覺技術已經取得了長足的進步,但是對于復雜視覺場景 的感知和理解,目前的計算機模型表現還遠遠沒有達到大規模普及和落地應用的 水平。為了充分地利用日常生活中海量的視覺媒體數據,復雜視覺場景的感知和理 解已經逐漸成為計算機視覺領域的一個研究熱點。

本文將針對四個不同層次的視覺場景理解(物體級別識別、場景級別識別、場 景級別理解和場景級別推理),逐步地對復雜視覺場景中視覺內容的識別、檢測和 推理進行研究。本文的關鍵技術線路主要聚焦于零樣本物體分類、圖像場景圖生 成、圖像描述生成、視頻片段檢索和視覺問答等具體視覺場景理解任務。在此研究 技術路線下,本文主要的研究內容和貢獻如下:

1)針對零樣本物體分類模型中普遍存在的語義丟失問題,本文提出一種全新 的零樣本學習網絡。該網絡首次引入兩個相互獨立的映射網絡分支,將圖像分類和 圖像重建兩個原本相互沖突的任務分離出來。同時借助對抗學習,實現重建網絡分 支和分類網絡分支之間的屬性遷移。

2)針對圖像場景圖生成模型中優化目標通常忽略不同物體的重要性差異的問 題,本文提出一種全新的訓練框架,首次將圖像場景圖生成任務轉化成一個多智能 體協同決策問題,從而可以直接將整個圖像場景圖質量作為模型的優化目標。同 時,本文還提出了一個反事實基準模型,可以有效地計算出每個物體類別預測對整 體場景圖生成質量的局部貢獻。

3)參考現有的空間注意力機制,本文首次提出通道注意力機制。同時,通過 充分挖掘卷積神經網絡的特征圖的三個不同維度(空間、通道和層級)之間的聯系, 提出一種全新的空間和通道注意力網絡。在圖像描述生成任務中,該網絡不僅極大 地提升了描述語句的生成質量,同時幫助人們理解在語句生成過程中特征圖的變 化過程。

4)針對目前視頻片段檢索任務中兩種主流框架(自頂向下和稀疏型自底向上) 的設計缺陷,本文提出了一種全新的密集型自底向上的框架。通過將動作邊界定位問題分解成相關性預測和邊界回歸兩個子問題,顯著地降低了動作邊界定位的難 度。同時,本文提出一個基于圖卷積的特征金字塔層,來進一步增強骨干網絡編碼 能力。

5)針對目前視覺問答模型忽略的兩個重要特性(視覺可解釋性和問題敏感性), 本文提出了一種通用的反事實樣本生成機制。通過遮蓋圖像中的重要區域或問題 中的重要單詞,同時更改標準答案,來合成全新的反事實訓練樣本。通過使用原始 訓練樣本和反事實訓練樣本一起對模型進行訓練,迫使視覺問答模型關注被遮蓋 的重要內容,提升模型的視覺可解釋性和問題敏感性。

地址:

//zjuchenlong.github.io/

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。

付費5元查看完整內容

論文題目:

Compositional visual intelligence

作者:

Johnson Justin

貢獻者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

網址:

//searchworks.stanford.edu/view/12746402

論文摘要:

計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標,我們必須探索新的計算機視覺任務,創建新的數據集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子,但是通過將圖像分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題,我們引入了一個新的benchark數據集。在此基礎上,提出了一種可視化問題交互的顯式組成模型,該模型將問題轉換為功能程序,并通過組合神經模塊來執行這些程序。第三,我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像,但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個對象的復雜圖像。

付費5元查看完整內容
北京阿比特科技有限公司