亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這篇論文在機器學習領域做出了重大貢獻,特別是在開放世界場景的背景下,系統面對以前未見過的數據和情境。傳統的機器學習模型通常在一個固定且已知的類別集內進行訓練和測試,這種情況被稱為封閉世界設定。雖然這種假設在受控環境中有效,但在現實世界應用中卻不足夠,因為新的類別或數據分類可能會動態且意外地出現。為了解決這個問題,我們的研究了開放世界機器學習的兩個相互關聯的步驟:超出分布(OOD)檢測和開放世界表示學習(ORL)。OOD檢測專注于識別那些落在模型訓練分布之外的未知類別的實例。這個過程減少了對不熟悉輸入做出過度自信、錯誤預測的風險。超越OOD檢測,ORL擴展了模型的能力,不僅能檢測未知實例,還能從中學習并納入這些新類別的知識。 在OOD檢測領域,我們的工作首先引入了先進的方法論,即ReACT和DICE,它們可以有效地區分已知和未知類別的樣本。ReACT在測試時截斷異常高的單元激活,以減少模型對輸出的過度自信,而DICE通過稀疏化利用模型最有貢獻的權重來進行OOD檢測。此外,我們提出了一種基于距離的OOD檢測方法,通過引入一種非參數方法,使用K-最近鄰(KNN)距離,從而改變了對底層特征空間的剛性分布假設。 超越OOD檢測,ORL涉及更深入地探索未知的學習,回答關于已知和未知類別之間的相互作用,以及標簽信息在塑造表示中的作用的關鍵研究問題。通過嚴格的調查,我們旨在闡明關于已知類別的知識如何有助于揭示以前未見過的類別,以及標簽信息如何影響已知和新穎類別的學習和表示。這種探索激發了一種綜合的算法框架(OpenCon)的開發,用于ORL,由期望-最大化(EM)視角的理論解釋所支撐。 通過深入研究這些開放世界學習的研究問題,本論文為構建不僅表現良好,而且在面對真實世界不斷演變的復雜性時可靠的機器學習模型鋪平了道路。

付費5元查看完整內容

相關內容

機器人操控系統涉及一個包括在環境中感知對象和在3D空間中規劃行動的流程。深度學習方法被用于將場景分割成對象的組成部分,然后學習以對象為中心的特征以預測下游任務的行動。盡管在幾項操控任務中取得了有希望的表現,監督方法缺乏與對象的一般屬性相關的歸納偏差。最近的進展顯示,通過以對象為中心的方式編碼和重構場景,模型可以在沒有人類監督的情況下從原始數據中發現類對象實體。此外,通過重構發現的對象,模型可以學習一個變分潛空間,捕獲對象的各種形狀和紋理,通過選擇的先驗分布進行規范化。在本論文中,我們探究了這一學習到的以對象為中心的潛空間的屬性,并開發了可以應用于現實世界機器人場景的新穎以對象為中心的生成模型(OCGMs)。 在本論文的第一部分,我們研究了一個利用學習到的潛空間來優化應用于到達任務的一系列工具的工具合成任務。給定一個展示場景中障礙物和到達目標的圖像,訓練一個可供性預測器來預測給定任務的工具的可行性。為了模仿人類使用工具的經驗,可行性標簽是通過模擬到達任務的試錯過程獲得的。我們發現,通過采用激活最大化步驟,模型可以為給定任務合成適當的工具,準確率高。此外,工具合成過程表明,在學習到的潛空間中存在一個與任務相關的軌跡,可以通過訓練有素的可供性預測器找到。 本論文的第二部分聚焦于開發新穎的OCGMs及其在機器人任務中的應用。我們首先介紹一個部署到機器人操控數據集中的2D OCGM,在模擬和現實世界場景中均有應用。盡管機器人臂和對象之間存在密集的交互,我們發現模型在沒有任何人類監督的情況下從原始觀測中發現有意義的對象實體。接下來,我們將2D OCGM升級到3D,通過利用NeRFs作為解碼器來顯式建模對象和背景的3D幾何形狀。為了從其外觀信息中分離對象的空間信息,我們提出了一種用于對象的無監督6D姿態估計的最小體積原則。考慮到場景中的遮擋,我們通過引入一個形狀補全模塊來想象姿態估計步驟之前未觀察到的對象部分,進一步改進姿態估計。最終,我們成功地將模型應用于現實世界的機器人場景,并在包括3D重建、以對象為中心的潛在表示學習、對象重排的6D姿態估計等幾項任務上,與幾個基線進行了性能比較。我們發現,盡管是一種無監督方法,我們的模型在一系列不同的現實世界任務中都取得了改進的性能。

付費5元查看完整內容

聚類是數據分析中的主要而又具有挑戰性的任務,旨在將相似的樣本劃分到同一組,而將不相似的樣本劃分到不同的組。近期,由于在無監督深度圖聚類方面的突破,傳統的卷積神經網絡(例如,自編碼器(AE))和圖卷積網絡(GCN)的結合已經達到了最先進的性能。其中,自編碼器提取節點屬性特征,而圖卷積網絡捕獲拓撲圖特征。然而,現有方法沒有充分利用來自特征嵌入和聚類分配的現有信息,從而限制了它們的性能。鑒于這一限制,本論文專注于無監督深度圖聚類中的自適應表示學習。主要工作涉及自適應嵌入\分配\圖表示學習,總結如下:

首先,我們提出了一種名為注意力驅動圖聚類網絡(AGCN)的新穎無監督深度圖聚類方法,以解決以下問題:現有工作(??)缺乏一種靈活的組合機制來自適應地融合來自自編碼器和圖卷積網絡的兩種特征,從而增強表示學習能力;以及(????)忽視了嵌入在不同層的多尺度信息,導致后續的聚類分配效果不佳。具體而言,AGCN主要包括兩個注意力驅動的特征融合模塊,即AGCN異質性融合模塊(AGCN-H)和AGCN尺度融合模塊(AGCN-S)。這兩個模塊都利用基于注意力的機制動態地測量相應特征的重要性。AGCN-H自適應地合并自編碼器特征和圖卷積網絡特征,而AGCN-S動態地連接不同層的多尺度特征。為了以無監督的方式進行訓練,我們設計了一個能夠直接產生聚類分配結果的統一學習框架。與現有的無監督深度圖聚類方法相比,我們的方法更為靈活和有效,因為它考慮了網絡中嵌入的豐富和有區分性的信息來自適應地學習嵌入表示。在常用的基準數據集上的大量定量和定性結果驗證了我們的AGCN始終超越最先進的方法。此外,我們還進行了一系列消融研究來驗證我們方法的效率和有效性。

然而,上述提出的模型在面對從自編碼器和圖卷積網絡學到的兩種概率分布時存在決策困境,即應選擇哪一種作為最終的聚類分配結果。據我們所知,這是先前的無監督深度圖聚類方法中普遍存在的一個未解決的問題。為了應對這一挑戰,我們提出了一種名為深度注意力引導的雙重自監督圖聚類(DAGC)的新方法。具體而言,我們設計了一個分布融合模塊,該模塊利用這兩種聚類分配來自適應地學習分配表示,從而獲得最終的聚類結果。為了更好地探索來自聚類分配的現有信息,我們開發了一個雙重自監督解決方案,包括一個帶有Kullback-Leibler散度損失的軟自監督策略和一個帶有偽監督損失的硬自監督策略來指導整個網絡訓練。在九個基準數據集上的定量和定性實驗和分析表明,我們的方法始終超越最先進的方法。此外,我們還提供了消融研究和可視化,以驗證DAGC網絡的有效性和優勢。

現有的基于GCN的圖聚類網絡在很大程度上依賴于預定義的圖。如果初始圖無法真實且精確地反映其在嵌入空間上的拓撲結構,這些網絡可能會失敗。為了解決上述問題,我們提出了一種新穎的嵌入引導的圖優化聚類網絡(EGRCNet),該網絡能夠自適應地使用學習到的嵌入來改進初始圖,從而實現更好的聚類性能。具體來說,我們首先利用普通自編碼器和圖卷積網絡模塊來自適應地整合節點屬性和拓撲結構信息,以學習潛在特征表示。接著,我們探索嵌入空間上的幾何結構信息來構造一個鄰接圖,然后開發一個圖融合架構,動態地將該圖與初始圖融合。最后,我們最小化多個派生分布之間的Jeffreys散度損失函數,以無監督的方式進行網絡訓練。在七個常用的基準數據集上的廣泛實驗表明,所提出的方法始終超越了幾種最先進的方法。

以下聲明突出了這些工作的重要性:在無監督的深圖聚類中進行自適應表示學習對于人工普適性智能至關重要,因為它使機器能夠在沒有人類注釋的情況下從數據中學習復雜的模式和關系。通過利用無監督的自適應表示學習技術,人工普適性智能系統可以發展其數據的內部表示能力,并適應新的環境、任務和情境。這種能力對于理解復雜和非結構化數據至關重要。最后但并非最不重要的是,無監督的自適應表示學習是向開發能夠像人類一樣進行研究和推斷的機器邁出的關鍵一步,為AI在從醫療保健到金融到娛樂的廣泛領域開辟了新的可能性。在未來,我們將繼續為人工普適性智能社區做出貢獻,繼續研究大規模數據集、先進的表示學習和高效的信息傳播。

付費5元查看完整內容

機器學習和離散優化是計算機科學的兩大支柱,也是廣泛用于商業、科學和技術領域的分析、預測和決策的工具。然而,機器學習和離散優化方法發展的前提在根本上有所不同。學習依賴于數據,并且通常很少或根本不需要人工設計。其優點在于普適性和幾乎全面的適用性,但許多模型無法有效地整合領域知識或特定約束,缺乏可解釋性,且其預測存在不確定性,這在實踐中阻礙了其應用。相反,離散優化的算法通常針對特定應用進行定制,如組合問題。他們精確的形式化提供了洞察和分析,而且他們的輸出通常帶有性能保證。然而,與機器學習不同,離散優化的方法在實例之間不能泛化,這在實際應用中是一個不足。

//www.research-collection.ethz.ch/handle/20.500.11850/629004 鑒于機器學習和離散優化的互補優缺點,很自然地會問到這兩個領域的方法在多大程度上可以有益地結合起來。這是我們在這篇論文中提出的問題,并通過展示用于和用于離散優化的學習方法來肯定地回答這個問題。

在用于離散優化的學習中,我們關注的是涉及離散變量的非監督學習模型的梯度估計。這些模型廣泛存在,并在正則化、可解釋性、模型設計和算法集成方面提供了好處。我們依賴離散優化的高效方法來通過松弛設計這些模型的新梯度估計器,并通過實驗證明它們使學習更加高效、有用和高效。

在用于學習的離散優化中,我們專注于使用機器學習提高整數規劃的分支和界求解器的性能。我們用針對特定應用的學習模型替換這些求解器中用于切割平面選擇和潛水的現有子程序。我們的方法借鑒了模仿學習和生成建模的思想,具有可擴展性和有效性。在一系列實驗中,我們的模型超過了現有的啟發式方法以及競爭的機器學習方法,以促進求解器性能的整體改進。

付費5元查看完整內容

盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。

首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。

概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。

然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。

在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

利用有限的數據進行學習是深度學習的最大問題之一。目前,解決這個問題的流行方法是在大量數據上訓練模型,無論是否標記,然后在同一模態的感興趣的較小數據集上重新訓練模型。直觀地說,這種技術允許模型首先學習某種數據(如圖像)的一般表示。然后,學習這種特定模態的特定任務應該需要更少的數據。雖然這種被稱為“遷移學習”的方法在計算機視覺或自然語言處理等領域非常有效,但它不能解決深度學習的常見問題,如模型可解釋性或對數據的總體需求。本文探索了在數據約束設置中學習表達模型問題的不同答案。我們不再依賴大數據集來學習神經網絡的參數,而是用反映數據結構的已知函數來代替其中的一些參數。這些函數通常都是從內核方法的豐富文獻中提取出來的。實際上,許多核函數都可以解釋,并且/或允許使用少量數據進行學習。所提出方法屬于"歸納偏差"的范疇,可以定義為對手頭數據的假設,限制了學習過程中模型探索的空間。在本文的前兩章中,我們在序列(如自然語言中的句子或蛋白質序列)和圖(如分子)的上下文中證明了該方法的有效性。本文還強調了工作與深度學習最新進展之間的關系。本文的最后一章重點研究凸機器學習模型。這里,我們不是提出新的模型,而是想知道學習一個“好的”模型真正需要數據集中的哪些樣本比例。更準確地說,研究了安全樣本篩選的問題,即在擬合機器學習模型之前,執行簡單測試以丟棄數據集中沒有信息的樣本,而不影響最優模型。此類技術可用于壓縮數據集或挖掘稀有樣本。

付費5元查看完整內容

稀疏性在機器學習中扮演著關鍵的角色,原因有幾個,包括可解釋性。可解釋性是由從業者或科學家尋求的。事實上,一方面,可解釋性在醫療健康等實踐中可能是關鍵,在這些實踐中,黑盒模型不能用于為患者開具治療處方。另一方面,可解釋性對于理解使用機器學習建模的現象(如等離子體電磁發射)至關重要。除了可解釋性,稀疏性還有其他一些重要的應用,如提高模型的預測能力,降低運營和投資成本。 整數優化在處理稀疏性的方法概念中是一個非常有效的工具。它為構建稀疏模型提供了一個嚴格的框架,并已被證明比其他方法(包括使用稀疏誘導正則化規范的方法)提供了更精確和稀疏的模型。本文主要研究整數優化在稀疏性問題中的應用。

我們提供了稀疏建模的兩個應用。第一個是關于混合整數優化稀疏回歸在激光誘導擊破光譜分析技術中的應用。我們在化學計量學中建立了一種稀疏和魯棒模型的方法,并在各種類型的礦物礦石上進行了測試。MIO方法優于專家的預測,同時提供了與??????????相比顯著稀疏的模型。由于??2在某些情況下達到的值高于0.99,據我們所知,這個應用程序是第一個帶來經驗證據的應用程序,證明在自然界中存在真正的支持,因為優化社區一直在質疑在現實生活中的應用程序中存在這樣的概念。第二個應用與COVID檢測和稀疏分類有關。我們提出了一種基于光譜的快速、簡單的檢測方法。這種新方法建立在機器學習能力的基礎上,可以在一分鐘內完成診斷,不使用任何試劑,達到接近PCR的精確度。稀疏方法能夠檢測SARS-CoV-2 RNA和蛋白質的3D結構中的特定特征。

鑒于主成分分析在我們的研究和機器學習中的重要性,我們也提供了一種解決稀疏主成分分析問題的新方法。該方法是第一個一步生成多個稀疏主成分的方法,而現有的技術依賴于壓縮迭代生成主成分。提出的方法(GeoSPCA)生成高質量的解決方案,將壓縮技術解釋的方差提高了一個數量級以上。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。

在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。

其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。

在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。

付費5元查看完整內容

深度學習方法是最近計算機視覺快速發展的基礎。然而,這些方法往往需要昂貴的標記數據。特定于任務的模型,如分類器,并不是為了最大限度地學習一般的內部表示。此外,這些模型不能模擬數據生成過程來合成新樣本,也不能修改輸入樣本。無監督深度生成模型有可能避免這些問題。

然而,兩個主要的生成模型家族,生成對抗網絡(GAN)和變分自編碼器(VAE),都有各自的特點問題。基于GAN的模型在架構上相對復雜,有一個識別器網絡,但通常沒有編碼器來接受輸入。此外,GAN訓練通常是不穩定的,并且容易忽略訓練分配的部分(“模式崩潰”或“模式下降”)。另一方面,VAEs往往高估分布的某些區域的方差,導致生成的圖像模糊。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

最后,使用高斯過程框架,圖像編碼器-解碼器設置從單個圖像擴展到圖像序列,包括視頻和攝像機運行。為此,輔助圖像元數據在生成模型的潛在空間中以非參數先驗的形式被利用。這允許平滑和自由插值圖像序列。在此過程中,高斯過程和計算機視覺方法之間提供了一個優雅的連接,這意味著將兩者結合起來具有深遠的意義。

//aaltodoc.aalto.fi/handle/123456789/101686

付費5元查看完整內容
北京阿比特科技有限公司