亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著我們開始與人工智能系統進行交互,這些系統需要能夠以四維(4D)的方式理解視覺世界——也就是說,感知世界中的幾何結構和運動。然而,圖像空間中像素的差異可能由幾何變化(如相機運動)或場景中的運動引起。要從單個視頻中分離這兩種來源是一項極具挑戰性的欠約束問題。在本文中,我構建了多個系統,用于從有限的圖像觀測中恢復場景表示。具體而言,我研究了一系列問題,逐步解決4D單目恢復問題中的不同方面,每個問題都針對該問題的欠約束特性提出解決方案。首先,我研究了在沒有場景運動的情況下,從欠約束輸入中恢復形狀的問題。具體來說,我提出了pixelNeRF,這是一種從單視圖或少量視圖合成靜態場景新視角的方法。通過在多個場景中訓練基于圖像特征的三維神經表示,我們學習了一個場景先驗。這種學習到的場景先驗使得可以從單個或少量圖像的欠約束輸入中完成三維場景重建。接著,我研究了在沒有三維形狀的情況下恢復運動的問題。特別是,我提出了Deformable Sprites,一種從輸入視頻中提取動態場景持久元素的方法。我們將每個元素表示為在視頻中變形的二維圖像層。最后,我提出了兩項關于從單個視頻中聯合恢復四維世界中形狀和運動的研究。首先,我研究了動態人類的特殊情況,并提出了SLAHMR,通過該方法,我們可以從單個視頻中恢復所有人的全局姿態以及世界坐標系中的相機位置。然后,我轉向從單個視頻中恢復任意動態對象的通用情況,在Shape of Motion中,我們將整個場景表示為四維高斯分布。這種表示可以用于動態新視角合成和三維跟蹤。

當我們拍攝視覺世界的視頻時,所得到的視頻是一系列時間切片中該世界的快照。當人們觀看此類視頻時,他們會感知到被捕捉的世界的四維(4D)特性。也就是說,觀眾能夠理解場景中的元素如何在三維空間和時間上相互關聯。 例如,考慮圖1.1中的視頻,展示了兩個人見面并擁抱的場景。觀眾可以看到穿白衣女子表面上各點在三維空間中的相互關系——這些關系形成了她表面幾何形狀的整體。觀眾還可以觀察到白衣女子和背橙色背包女子在擁抱時身體各部分的空間關系,這些關系定義了場景中實體的布局。此外,觀眾還可以看到所有這些關系——無論是她們各自身體表面點之間的關系,還是彼此之間的關系——在時間上的變化,隨著兩人在山間一座房子前見面并擁抱。 觀眾能夠從單個視頻中感知這些四維關系。然而,對于機器來說,視頻只是像素的流動。那么,我們是否可以讓機器也理解這些關系呢?

1.1 單目4D恢復問題

我們將恢復捕捉場景的時空關系的問題稱為4D重建問題。我們將一個四維場景概念化為由三個主要元素組成:靜態環境(例如建筑物、街道、田野)、運動的主體(例如人、動物、汽車)以及相機(可能也在移動)。這些元素各自具有其獨特的三維幾何和外觀。此外,由于場景中的元素在移動,每個時間點它們相對于場景中的其他元素都會處于不同的位置。 對于一個靜態場景來說,多個投影視角之間的二維像素變化可以用來通過三角測量方法恢復底層的三維形狀 [56]。對于一個動態變化的場景,可以在每個時間點應用同樣的關系,通過多個投影視角恢復三維形狀。這種方法中,同時視角之間的像素變化仍然僅與三維形狀相關。 然而,單個視頻僅在每個時間點捕捉到這個演變中的四維世界的二維投影視圖。這帶來了一個根本性挑戰:視角間的像素變化可能來自三維形狀(由于視角變化),也可能來自場景運動。那么,我們如何將形狀與運動分離? 盡管如此,視頻觀眾卻能夠在每個時間點僅通過單個觀測推斷出場景元素的形狀和運動。這種顯而易見的模糊性下,觀眾卻能輕松地理解這些四維關系。那么,我們如何設計系統,使其能夠做到同樣的事情?

1.2 研究貢獻

在本文中,我構建了多個系統,從有限的圖像觀測中恢復場景表示。具體來說,我研究了一系列逐步解決單目4D恢復問題的恢復問題,每個問題針對該問題的欠約束特性提出了不同的解決方案。 在第二章中,我研究了靜態場景的三維重建問題,即在沒有運動的情況下恢復形狀。具體而言,我們通過使用多視角數據訓練一個基于圖像條件的三維表示,學習如何合成靜態場景的新視角。在第三章中,我研究了動態場景中運動的恢復問題,即在沒有三維形狀的前提下,恢復單個視頻中的二維運動元素。我們將這些元素建模為隨時間變形的持久二維圖像層。 接下來,我重點研究從單個視頻中同時恢復形狀和運動的問題。在這一背景下,核心挑戰在于從視頻中觀察到的像素變化中分離幾何和運動的影響。在第四章中,我研究了動態人類這一特殊情況,以解決人類拍攝視頻中最常見的復雜運動來源。我們直接使用參數化的人體形狀和運動先驗來指導三維形狀和運動的恢復。在第五章中,我研究了從任意視頻中恢復任意動態對象的問題。在這里,我們用單幀的單目深度估計和二維對應關系代替參數化先驗,以指導形狀和運動的分離。在這兩個研究中,我們都通過全局優化恢復了場景的四維表示。

付費5元查看完整內容

相關內容

 (University of California, Berkeley),是美國最負盛名且是最頂尖的一所公立研究型大學,位于舊金山東灣伯克利市的山丘上。創建于1868年,是加州大學十個分校中歷史最悠久的一所。加州大學伯克利分校在世界范圍內擁有崇高的學術聲譽,擁有豐富的教學資源,研究水平非常堅厚,與斯坦福大學、麻省理工學院等一同被譽為美國工程科技界的學術領袖。

人類具有從原始感官輸入(如視頻和音頻)中學習強大感知能力的非凡能力,并且幾乎不需要監督。盡管在建模高層次認知功能(如語言理解與生成)方面取得了巨大的近期進展,但我們目前最先進的計算機視覺模型在學習感知和表征物理世界的效率和性能方面,遠遠落后于人類水平。它們通常需要大量的訓練數據,并且這些數據需要昂貴的手工標注,任務特定的架構,以及即便在模型參數和訓練數據規模增大的情況下,性能提升也非常有限。在本論文中,我們研究了如何從原始未標注的視頻數據構建可擴展的通用感知系統的問題。核心思想是訓練一個大規模的世界模型,基于視覺數據。預訓練的世界模型根據當前狀態和額外干預預測可能的未來世界狀態。我們進一步展示了,可以利用預測器生成的預測結果,以零-shot(零樣本)方式提取廣泛的視覺結構——如關鍵點、光流、分割和深度信息。 本論文分為三部分,我們在其中探索了無需手工標注的新范式,用于訓練可擴展的通用感知系統。第一部分,我們提出了通過利用視頻中的運動作為自監督信號來學習結構化場景表示的新方法。第二部分,概述了一個用于在視頻數據上預訓練大規模世界模型的通用框架,這反過來使得通過統一架構和任務接口能夠零-shot地提取不同的視覺結構。第三部分,進一步通過解決不確定性管理的關鍵挑戰,提升了世界模型的性能。

付費5元查看完整內容

隨著我們開始與人工智能系統進行互動,我們需要它們能夠以 4D 視角解讀視覺世界——即感知世界中的幾何結構和運動。然而,圖像空間中的像素差異可能來自幾何結構(通過相機運動)或世界中的場景運動。要從單一視頻中解開這兩種來源是極度欠約束的。

在本論文中,我構建了多個系統,用于從有限的圖像觀測中恢復場景表示。具體來說,我研究了一系列問題,這些問題構建了通向 4D 單目恢復問題的路徑,每個問題都解決了該問題欠約束的不同方面。首先,我研究了在沒有場景運動的情況下從欠約束輸入中恢復形狀的問題。具體而言,我提出了 pixelNeRF,這是一種從單個或少數視圖合成靜態場景新視角的方法。我們通過在多個場景的圖像特征上訓練一個 3D 神經表示來學習場景先驗。這種學習到的場景先驗使得能夠從單一或少量圖像的欠約束輸入中完成 3D 場景。

接下來,我研究了在沒有 3D 形狀的情況下恢復運動的問題。特別地,我提出了 Deformable Sprites,一種從輸入視頻中提取動態場景中持久元素的方法。我們將每個元素表示為在視頻中變形的 2D 圖像層。 最后,我介紹了兩個關于從單一視頻中聯合恢復 4D 世界的形狀和運動的研究。我首先研究了動態人類的特例,并提出了 SLAHMR,其中我們從單個視頻中恢復了在世界坐標系中的所有人和相機的全局姿態。然后,我擴展到恢復單個視頻中的任何動態對象的一般情況,即 Shape of Motion,在其中我們將整個場景表示為 4D 高斯分布,這可以用于動態新視角合成和 3D 跟蹤。

付費5元查看完整內容

在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。

本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。

總結來說,本論文的主要貢獻如下:

  • 我們提出了一種干預性視頻關系檢測方法,稱為IVRD,旨在解決VidVRD中關系的長尾不平衡問題。盡管尾部關系具有信息性,但由于其在數據集中稀少,難以預測。我們特別提出了一套分層的關系原型,這迫使關系推理模塊關注實體之間動態交互的視覺內容,而非依賴于對象與關系標簽之間的偽相關性。通過引入因果推理,IVRD為改善長尾不平衡情況下的視頻理解提供了一個有前景的方向,使模型能夠更好地泛化到現實世界場景中,特別是在稀有或不常見的關系在場景理解中扮演關鍵角色時。
  • 我們引入了一種視頻問答中的不變性定位方法,稱為IGV,這是一種與模型無關的學習框架,旨在解決由答案-環境之間的偽相關性帶來的負面影響。IGV通過定位問題關鍵的(因果)場景,發現因果推理模式。具體而言,IGV利用了因果場景與答案之間的關系在環境變化時仍保持不變這一事實,并且去除因果場景應導致問題回答失敗。通過定位這些關鍵場景,IGV使VideoQA模型能夠專注于準確推理所需的視覺內容,同時避免環境負面的影響,從而顯著提升了模型的推理能力。
  • 我們提出了視頻問答中的等變性定位方法EIGV,進一步增強了魯棒性和視覺可解釋性。基于IGV,EIGV還引入了等變性,促使回答過程對因果場景和問題中的語義變化更為敏感。相較之下,不變性定位要求回答過程對環境場景的變化不敏感。這兩種正則化機制協同工作,區分因果場景與環境場景,并通過呈現視覺-語言對齊提供更多的透明性。通過結合不變性和等變性定位的優勢,EIGV創建了一個更加魯棒且可解釋的VideoQA框架。
  • 我們發現了視頻問答中的時空推理,解決了長視頻和多對象樣本(即復雜視頻問答)上的低準確性問題。現有的VideoQA實踐(包括預訓練模型如SeVila [162])大多是在短視頻片段(約15秒)和少數實體(約2個)上進行訓練的,因此在復雜視頻(超過80秒且包含5個以上對象)上表現較差。原因在于長視頻不可避免地引入大量冗余和偽相關性,因為許多與問題無關的環境對象存在。為應對這一挑戰,我們首先強調建模問題關鍵的時間片段和空間對象的重要性,接著提出了時空推理(Spatio-Temporal Rationalization, STR)方法,通過可微選擇模塊自適應地收集問題關鍵的時間片段和對象,并通過跨模態交互進行推理。結合更合理的候選答案解碼策略,STR有效識別出與問題無關的幀和對象作為因果模式,尤其在復雜場景下顯著改善了預測性能。

本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。

總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。

付費5元查看完整內容

動物和人類在構建世界的內部表征并利用它們來模擬、評估和選擇不同可能的行動方面表現出非凡的能力。這種能力主要通過觀察且沒有任何監督地學習。賦予自主代理類似的能力是機器學習中的一個基本挑戰。在本論文中,我將探索新的算法,這些算法能夠通過預測從視頻中進行可擴展的表征學習、視覺數據的生成模型及其在機器人領域的應用。

首先,我將討論使用預測學習目標來學習視覺表征所面臨的挑戰。我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,以零樣本的方式解決各種視覺對應任務。隨后,我將提出一種基于變壓器的通過擴散建模進行照片級視頻生成的方法。我們的方法在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。最后,我將說明生成模型在機器人學習中的實際應用。我們非自回歸的、動作條件的視頻生成模型可以作為世界模型,使具身代理能夠使用視覺模型預測控制進行規劃。此外,我將展示一個通過下一個標記預測訓練的通用代理,該代理可以從各種機器人和任務中學習多樣的機器人經驗。

在過去五年里,機器學習領域取得了顯著進展。特別是,基于自監督任務的下一個標記預測訓練的大規模生成模型在自然語言處理方面展示了非凡的能力。這些大型語言模型(LLMs)已經改變了我們與數字世界的互動。從撰寫電子郵件等簡單任務到編寫代碼等復雜任務,LLMs 正日益融入我們的日常生活。

盡管大型語言模型取得了顯著進步并被廣泛應用,但這些系統仍存在顯著的局限性。具體而言,盡管它們在大量數據上進行了訓練,但缺乏快速獲取新技能和知識的能力。此外,當前的語言模型對物理世界僅有表面的理解,缺乏推理、常識和長期規劃的能力。這些能力對于開發自主視覺代理,如增強現實助手、自動駕駛汽車和通用機器人,都是至關重要的。

我們如何構建對物理世界有直觀理解的自主代理?我們可以從人類和動物的學習方式中汲取靈感。盡管缺乏語言,動物表現出高度的智能。它們能夠熟練處理高維視覺輸入,具備常識,并能在多個時間跨度上進行規劃和行動。動物通過無監督的方式發展這種對物理世界的直觀理解,主要通過觀察和相對較少的環境交互進行學習。1943 年 Kenneth Craik 提出的一種解釋已經激勵了長期以來的 AI 研究人員:“如果有機體在其頭腦中攜帶一個‘小規模模型’的外部現實及其自身可能的行動,它就能夠嘗試各種選擇,得出哪個是最好的,在未來情況發生之前做出反應,利用過去事件的知識處理現在和未來,并在每一種情況下以更充分、更安全和更能干的方式應對面臨的緊急情況。”

為實現這一目標,在本論文中,我將展示一些學習算法和神經網絡架構,使自主機器能夠以無監督的方式學習物理世界的小規模模型,并使用該模型在現實世界中進行規劃和行動。首先,我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,并以零樣本的方式解決各種視覺對應任務。接下來,我將提出一個可擴展的基于注意力的架構,用于學習圖像和視頻的生成模型。最后,我將描述一些用于構建機器人學習生成模型的算法。我將展示一種新穎的非自回歸、動作條件的視頻生成模型,該模型可以作為世界模型,使機器人能夠使用視覺模型預測控制進行規劃。此外,我還將介紹一個通過下一個標記預測訓練的通用代理,該代理能夠從各種機器人和任務中學習多樣的機器人經驗。

付費5元查看完整內容

視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。

//www.zhuanzhi.ai/paper/7973da2bc3cb888154e7d2c0ed548c64

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。

為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。

本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。

這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。

付費5元查看完整內容

深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html

本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。

在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。

為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

計算機視覺(Computer Vision)是一門多學科科學,致力于讓機器具備“看”的能力。 這個問題是很具有挑戰性的,因為我們從現實的視覺世界中觀察到了巨大的復雜性和外觀的變化。迄今為止,機器學習技術提供了最有有效的方法來設計具有人類圖像理解能力的系統。今天為大家再來了劍橋大學Alex Kendall的博士論文-計算機視覺深度學習中的幾何結構與不確定性。

針對一些核心計算機視覺問題,包括語義分割,實例分割,深度預測,定位,立體視覺和視頻場景理解等等問題,論文中的介紹了一些端到端深度學習架構。這些的框架優于傳統方法,并在許多具有挑戰性的計算機視覺問題上具有很不錯的效果。

論文目錄:

  1. 介紹(Introduction)
  2. 場景理解(Scene Understanding )
  3. 本地化(Localisation)
  4. 立體視覺(Stereo Vision)
  5. 運動場景(Motion)
  6. 結論(Conclusions)
付費5元查看完整內容
北京阿比特科技有限公司