亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

計算機視覺模型已經證明自己在識別和檢測多種真實世界的物體方面具有極高的能力:汽車、人、寵物等。然而,表現最佳的類別在當前的大規模數據集中有大量的示例,而對于模糊或小物體的識別仍然具有挑戰性。簡而言之,計算機視覺感知的能力仍然遠遠不及其黃金標準——人類的視覺感知。人類能夠快速學習新的類別,無論數據量多少,并且能夠對遠處、模糊或小物體進行分類。本論文的目標是通過兩個主要部分,縮小人類視覺和計算機視覺之間的差距。

在本論文的第一部分,我們專注于通過提高計算機視覺模型在具有真實世界數據分布的數據集上的性能,以縮小人類和計算機視覺之間的差距。由于真實世界的物體分布通常是不平衡的,其中一些類別經常出現,而另一些類別很少出現,模型在表現不足的類別上往往難以表現良好。相比之下,人類在學習新物體方面表現出色,即使這些物體很少出現。因此,我們的目標是改進標準視覺任務在長尾分布數據集上的表現,這些數據集類似于真實世界的分布。我們的第一種方法從視覺分類任務開始,我們的目標是提高在稀有類別上的性能。在這項工作中,我們通過利用為常見類別學習的表示和分類器,為稀有類別創建新的更強的分類器。我們的簡單方法可以應用在任何現有的分類器集合之上,因此展示了學習更好的分類器并不需要復雜或大規模的方法。我們的第二種方法涉及視覺檢測和分割,其中額外的定位任務使得訓練更好的稀有檢測器變得困難。我們對在長尾數據集中廣泛用于檢測的基本重采樣方法進行了深入研究。值得注意的是,我們展示了檢測中的基本重采樣策略不僅可以通過重采樣整個圖像來改進,還可以僅通過重采樣物體來改進。

成功的真實世界模型在很大程度上依賴于訓練和測試數據的質量。在本論文的第二部分,我們通過開發一個大規模的神經成像數據集,并識別和探索視覺數據集整理面臨的重大挑戰,以縮小人類和計算機視覺之間的差距。首先,我們構建了第一個大規模的視覺功能磁共振成像(fMRI)數據集,BOLD5000。為了縮小計算機視覺和人類視覺之間的差距,我們設計了一個數據集,其中包含從計算機視覺基準數據集中獲取的5000張圖像。通過這項工作,我們識別出數據集整理中一個關鍵且耗時的組成部分:為注釋員和參與者創建標簽說明。一個典型的視覺數據集的標簽說明將包括詳細的定義和提供給注釋員的視覺類別示例。這些標簽說明通過文本描述和視覺示例提供全面且高質量的類別定義。不幸的是,當前的數據集通常不發布他們的標簽說明(LIs)。我們引入了一個新的任務,標簽說明生成,以從現有數據集中反向工程LIs。我們的方法利用現有的大型視覺和語言模型(VLMs)來生成提供視覺有意義的示例的LIs,并在圖像檢索方面顯著超越所有基線。

付費5元查看完整內容

相關內容

近年來,從一般物體抓取到手部操作,深度學習實現了許多令人興奮的機器人操作能力。盡管如此,能夠進入以前從未見過的家庭環境,并像人類一樣完成各種任務的典型家用機器人還遠遠不現實。雖然在實現這一目標方面有許多問題要解決,但中心瓶頸之一在于從機器人傳感器輸入中學習控制策略,這些策略可以泛化到新的任務、對象和環境。例如,一個在家做飯的機器人無法負擔從頭開始學習每一道菜,也無法為機器人可能遇到的每個新廚房硬編碼狀態特征。實現這種泛化的一個潛在途徑是在包含許多任務、對象和環境的廣泛數據分布上訓練機器人。事實上,這種將大型、多樣化的數據集與可擴展的離線學習算法(例如,自監督或廉價監督學習)相結合的方法,是自然語言處理(NLP)和視覺最近取得成功的關鍵。然而,直接將此方法擴展到機器人領域并非易事,因為我們既沒有足夠大和多樣化的機器人交互數據集,也不清楚哪種類型的學習算法或監督來源可以使我們從這些數據集中可擴展地學習技能。

本文的目標在于解決這些挑戰,并在機器人操縱的背景下重現大規模數據和學習的方法。

本文的第一部分將討論如何可擴展地收集在物理世界中交互的機器人的大型和多樣化數據集,以及如何在這種離線機器人數據集上有效地預訓練自監督世界模型。然后,我們將探討如何使用這些預訓練的世界模型,通過將它們與規劃相結合來解決任務,首先用于解決長視距操縱任務,其次用于完成自然語言指定的任務。最后,我們將討論如何超越機器人數據,并解鎖存在于網絡上的廣泛數據源,如人類的視頻,以使機器人更有效地學習,特別是通過獎勵學習和視覺預訓練。本文將通過討論公開的挑戰來結束,特別是如何統一模擬、真實世界的數據收集和人類視頻的范式,以實現通用家用機器人的愿景。

付費5元查看完整內容

**本文探索了用于視覺分類的神經網絡的可解釋的魯棒性。本文研究了使神經網絡可在現實世界應用中部署的一個基本問題:“如何使神經網絡具有可解釋的魯棒性?”我們首先讓神經網絡變得可解釋。**它從使黑盒神經網絡通過利用屬性(即物體的視覺區分屬性)和擾動來證明其推理,以提供反事實解釋開始。接下來的兩章側重于增強神經網絡對自然和對抗性擾動的魯棒性。通過在網絡架構中整合擾動來做到這一點,并為修改網絡提供了背后的理論依據,通過用類似變換的圖像訓練標準網絡來增強其魯棒性。最后一章利用屬性來提高對擾動的魯棒性,并作為副產品提供解釋。在巴基斯坦,這是右手駕駛,而在荷蘭,這是左手駕駛。更重要的是,交通狀況和天氣狀況有很大的不同。在巴基斯坦,司機遇到擁擠的交通,包括行人、汽車、公共汽車、摩托車、人力車、馬車和卡車。另一方面,盡管司機必須小心自行車和汽車在同一條路上行駛,但荷蘭的交通是有組織的,規則是嚴格遵守的,如圖1所示。此外,巴基斯坦中部是中等到溫暖的天氣,而在荷蘭,人們需要在冬天的雨、風和雪中開車。盡管這些視覺環境不同,在荷蘭學習駕駛的人可以很快適應在巴基斯坦駕駛。當涉及到對未見過的視覺環境的泛化能力時,人類具有非凡的能力。他們很容易將他們從以前的經驗中學到的東西應用到新的情況中。盡管神經網絡在理想情況下顯示出人類水平的感知能力[3,14,35,81,89,140],但在它們在學習階段沒有遇到的情況下,它們沒有顯示出這種能力。目前,它們需要大量的數據來學習所有這些不同的場景,否則就會失敗。在2018年的一個這樣的例子中,一輛自動駕駛汽車在訓練網絡時將人誤認為物體[10],從而導致了事故,而從未考慮過橫穿馬路。因此,在將神經網絡部署到實際應用中之前,增強其魯棒性是很重要的。

圖2中的另一個例子顯示了Alsmeerderdijk:原始圖像及其在不同繪畫風格下的人工變換版本。在原始圖像和變換后的圖像中,人們可以很容易地識別出道路、運河、停放的汽車、船只、樹木、云和房屋。在存在干擾的情況下,人類很容易識別物體。然而,對于神經網絡來說,要識別擾動圖像中的物體是具有挑戰性的,除非網絡經過專門的此類變換訓練。類似地,專門在晴天收集的數據上訓練的自動駕駛汽車網絡將在雪天或晚上失敗,參見圖3。因此,為了使網絡智能化,最重要的是對未見過的擾動進行魯棒性控制。本文不只關注可見的擾動、特定的魯棒性,而是旨在增強總體的魯棒性,以及對網絡訓練過程中未見過的擾動的魯棒性。

人工智能中的魯棒性被定義為系統在不同于其設計的精確模型的情況下保持其性能的能力[95]。在本文中,我們不考慮任務的全局魯棒性,在此任務中,整個系統的性能,例如一輛具有來自不同傳感器輸入的汽車,會應對擾動。重點是局部視覺魯棒性,即視覺感知的魯棒性。本文將擾動分為兩類:自然擾動(模糊、雪等),見圖3和文獻[63],人工設計的對抗性擾動,見圖4和文獻[50,122]。用于改變輸入以欺騙深度神經網絡的微小的、難以察覺的、精心設計的擾動被稱為對抗性樣例,見圖4。這些對抗性樣本將分類器推到錯誤的類[122]。定向擾動方法包括迭代快速梯度符號法[82]、基于雅可比矩陣的顯著圖攻擊[98]、單像素攻擊[121]、Carlini和Wagner攻擊[19]和universal攻擊[97]。圖4顯示了一個對抗性擾動的例子,作者表明,對于一個干凈的圖像,網絡可以正確地檢測交通標志。相比之下,對于反向擾動的圖像,它無法檢測它們,當將其納入自動駕駛時,可能會導致嚴重的事故。使神經網絡對自然和對抗性擾動具有魯棒性。

付費5元查看完整內容

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

深度學習的出現為許多基本的計算機視覺任務帶來了巨大的進展,如分類、檢測和分割,這些任務描述了圖像和視頻中物體的類別和位置。在監督學習方面也做了很多工作--教機器使用人類注釋的標簽來解決這些任務。然而,機器只知道某些物體的名稱和位置是不夠的;許多任務需要對復雜的物理世界有更深入的了解--例如,物體與周圍環境的互動(通常通過創造陰影、反射、表面變形和其他視覺效果)。此外,在嚴重依賴人類監督的情況下,訓練模型來解決這些任務,成本很高,而且不切實際,難以推廣。因此,本論文探索了兩個方向:首先,我們的目標是超越分割,解決一個全新的任務:將物體與其相關的視覺效果(如陰影、反射或附著的物體)分組;其次,我們以自我監督的方式解決視頻物體分割的基本任務,而不依賴任何人類注釋。

//ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64

為了將物體與其相關的視覺效果自動分組,我們采用了一種分層的方法:我們的目標是將視頻分解成特定的物體層,其中包含所有與物體一起移動的元素。這些層的一個應用是,它們可以以新的方式重新組合,以產生一個高度真實的、經過改變的原始視頻版本(例如,刪除或復制物體,或改變其運動的時間)。這里的關鍵是利用卷積神經網絡的自然屬性來獲得輸入視頻的分層分解。我們設計了一個神經網絡,通過對視頻的過度擬合,為視頻輸出層。我們首先介紹了一種針對人類的方法,然后展示了如何將其適應于任意的物體類別,如動物或汽車。我們的第二個任務是視頻物體分割:為視頻中的物體產生像素級的標簽(段)。我們以前的工作是在單個視頻上進行優化,而在這里,我們采取了一種數據驅動的方法,以自我監督的方式對大量的視頻語料庫進行訓練。我們考慮了兩種不同的任務設置:(1)半監督物體分割,即為單一幀提供初始物體掩碼,該方法必須將該掩碼傳播到其余幀;(2)移動物體發現,即不提供掩碼,該方法必須分割突出的移動物體。我們探討了兩種不同的輸入流。RGB和光流,并討論它們與人類視覺系統的聯系。

付費5元查看完整內容

近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容

今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。

//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/

付費5元查看完整內容

賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容
北京阿比特科技有限公司