圖像和視頻生成的目的是從隨機噪聲或基于特定條件合成高保真度的視覺數據。尤其是生成對抗網絡(GANs)的最新進展,在各種圖像和視頻生成任務中取得了顯著的成功,展現了深度神經網絡捕捉視覺數據的高維分布的強大能力。這方面的進展顯著推動了生成人工智能(AI)的發展,受到了廣泛的公眾關注。盡管在圖像和視頻合成方面取得了巨大的成功,但仍存在一些問題需要仔細探索。本論文旨在找出這一領域的剩余挑戰,并通過先進的深度學習技術提出解決方案。這構成了四個主要研究內容。
數據是深度學習的本質。對于圖像和視頻生成及其下游應用而言,高質量的數據集是非常可取的。此外,研究人員通常非常關注提高生成質量,卻忽略了對由生成數據引起的問題(如“Deepfakes”)的防范。與其他研究不同,本論文的第一項嘗試是構建一個有用的面部視頻數據集,以促進后續研究,并通過設計更好的視頻操縱方法來防止生成數據的負面影響。介紹了DeeperForensics-1.0,這是一個用于現實世界面部偽造檢測的大規模視頻數據集。正在進行的努力是應對“Deepfakes”,它引發了合法的擔憂,尤其是在可能被濫用和誤用方面。它代表了同類中最廣泛的數據集之一,由總共1760萬幀構成的60,000個視頻組成。應用了廣泛的現實世界擾動,以獲得更具挑戰性、規模更大、多樣性更高的基準。DeeperForensics-1.0中的所有源視頻都是精心收集的,假視頻是由新提出的端到端面部交換框架生成的。生成視頻的質量超過了現有數據集中的視頻,經用戶研究驗證。基準特點是一個隱藏的測試集,其中包含高欺騙性分數的操縱視頻。進行了全面研究,評估了五個代表性的檢測基線,并對不同設置進行了徹底的分析。這項工作驗證了設計更好的視頻操縱方法可以協助面部取證。
在確保了潛在的對策之后,興趣轉移到提出一個對各種生成任務幾乎沒有質量犧牲的統一框架,這對現實世界應用具有很高的實用價值。鑒于不同任務的不同性質,實現這一目標并非易事。因此,之前的研究通常針對特定形式的應用開發定制模塊。本論文設計了一個簡潔但容易適應各種任務的雙流圖像到圖像轉換(TSIT)框架。論文揭示了規范化層的重要性,并精心設計了一個帶有新提出的特征變換的雙流生成模型,以粗到細的方式。這允許網絡有效捕獲和融合多尺度語義結構信息和風格表達,使TSIT能夠適應無監督和監督設置下的各種任務。不需要額外的約束(例如,循環一致性),從而貢獻了一種非常干凈簡單的方法。使得具有任意風格控制的多模態圖像合成成為可能。系統研究將TSIT與最先進的任務特定基線進行了比較,驗證了其在感知質量和量化評估中的有效性。
除了圖像和視頻生成的實踐角度上的進展外,本論文進一步希望通過更基礎和理論的研究解決剩余問題。本論文的第三項工作是焦頻損失(FFL),這是一種新穎的頻率級損失函數,直接在頻率域優化生成模型。該損失與不同類別、網絡結構和任務的多樣化基線的現有空間損失相輔相成。盡管得益于生成模型的發展,圖像重建和合成取得了顯著的成功,但在真實和生成圖像之間,尤其是在頻率域,仍可能存在差距。論文表明,縮小頻率域中的差距可以進一步提高圖像重建和合成質量。所提出的FFL允許模型適應性地關注難以合成的頻率分量,降低容易合成的分量的權重。這一目標函數為抵抗神經網絡固有偏見導致的重要頻率信息丟失提供了很大的阻力。論文證明了FFL在提高VAE、pix2pix和SPADE等流行模型的感知質量和量化性能方面的多功能性和有效性。其在StyleGAN2上的潛力進一步展示。
通過實踐和理論方面的努力,已經嘗試提高合成數據的保真度和多樣性。然而,當前的生成模型,如GANs,通常需要大量的訓練數據才能充分發揮其能力,而有時收集足夠的數據樣本是不可行的。在保留合成質量的同時,使用較少的數據訓練生成模型仍然未被充分探索。論文進一步介紹了適應性偽增強(APA),這是一種用于有限數據下GAN訓練的簡單而有效的策略。最近的研究表明,由于鑒別器過擬合,這是阻礙生成器收斂的根本原因,因此在有限數據下訓練GANs仍然是一項艱巨的任務。所引入的APA通過使用生成器本身來增強真實數據分布,用生成的圖像適應性地欺騙鑒別器,鼓勵生成器和鑒別器之間的健康競爭。作為一種替代依賴于標準數據增強或模型規范化的現有方法,APA通過減輕過擬合來提高訓練效果。廣泛的實驗展示了APA在低數據環境下的有效性。提供了理論分析,以檢驗這種新訓練策略的收斂性和合理性。APA簡單有效。它可以無縫添加到強大的當代GANs,如StyleGAN2,且計算成本可忽略不計。
這篇論文最后還討論了其他相關話題,并展望了圖像和視頻生成領域的潛在未來工作,例如視頻生成的更高級話題、現有和未來對新型強大擴散模型(DM)的努力,為這一研究領域提供了更多見解。
深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。
我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。
在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。
最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。
然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:
(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。
(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。
能夠識別三維(3D)世界深刻影響了我們對物理環境的理解、可視化、交互和再創造。因其精確表示3D幾何結構的特點,點云數據在學術界和工業界獲得了顯著關注。同時,深度神經網絡(DNNs)已經在包括計算機視覺和自然語言處理在內的多個領域引發了革命。將點云與DNNs結合,催生了強大的深度點云模型,使得對3D世界的識別和理解得到了增強。然而,目前的DNNs點云識別模型嚴重依賴于大量密集標注的訓練數據,這種數據的獲取既費時又昂貴。這一限制阻礙了現有點云數據集的可擴展性,并妨礙了在不同任務和應用中的高效探索。本論文探討了點云識別的標簽高效學習,旨在在深度網絡訓練期間最小化標注工作,同時在點云識別中實現有效結果。研究聚焦于三個關鍵的標簽高效學習類別:數據增強、從合成數據到真實數據的領域遷移學習,以及從正常到惡劣天氣條件的領域遷移學習。通過這些代表性方法,我們旨在提高點云識別方法的效率和有效性。在標簽高效學習范式中,數據增強在擴展有限標注訓練數據的多樣性方面扮演著至關重要的角色,需要更少的標注點云來訓練準確的識別模型。在本論文中,我們引入了一種新穎的激光雷達點云增強技術,該技術在極坐標系中生成新幀,促進了在各種3D感知任務和場景中的模型訓練。從合成數據到真實數據的領域遷移學習利用了來自具有自動生成標簽的合成點云的知識,以提高深度模型在識別真實世界點云的性能。通過使用無限的合成標注點云,可以減少或消除真實點云中的人工標注,從而大大減輕了標注工作。在本論文中,我們首先創建了一個大規模的合成激光雷達點云數據集,具有精確的點對點注釋。基于這個數據集,我們提出了兩種新穎的方法,包括風格轉換和無監著域適應,以解決合成和真實激光雷達點云之間的領域差異,并促進合成到真實領域遷移學習。從正常到惡劣天氣數據的領域遷移學習旨在使用在正常天氣條件下捕獲的點云訓練出的強大識別模型,在多種惡劣天氣條件下表現良好。這一目標源于在注釋惡劣天氣點云時面臨的額外挑戰,因為它們與正常天氣數據相比,具有不同的幾何數據特性。我們探索了從正常到惡劣天氣點云的知識遷移,以減少惡劣天氣點云的大量手工注釋需求。為此,我們首先構建了一個大規模的惡劣天氣點云數據集,并進行了點對點的標注。隨后,我們提出了一種域泛化和聚合方法,這使得僅使用正常數據訓練的模型能夠有效應對各種惡劣天氣條件。通過在多種點云識別基準上進行的廣泛實驗表明,我們提出的標簽高效學習方法取得了卓越的性能。
點云是三維(3D)點的集合,準確地描述了物體或環境的形狀和幾何形狀。這種性質使它們高度適用于各種3D識別任務,包括3D形狀分析、3D目標檢測和3D語義分割。近年來,點云數據的三維采集技術得到了快速發展,各種三維傳感器在工業和日常生活中的應用越來越廣泛。例子包括自動駕駛汽車中的激光雷達傳感器,Kinect和蘋果產品等設備中的RGB-D相機,以及在各種重建任務中使用的3D掃描儀。同時,深度學習的顯著進步為點云識別領域做出了重要貢獻,涌現了大量深度點云結構和網絡。這兩者的同時,見證了利用點云來捕捉物體和場景的3D形狀表示的需求日益增加,從自主導航和機器人到遙感應用等。本節首先概述點云識別的進展,強調對相關任務進行標簽高效學習的必要性。回顧了標記高效點云學習的最新進展,重點關注三種關鍵類型的標記高效學習方法,這些方法大大減少了對大量人工標注工作的需要。這些方法包括數據增強、從合成點云到真實點云的域遷移學習,以及從正常天氣點云到不利天氣點云的域遷移學習。每一種方法都是根據其特定的數據前提條件以及在訓練魯棒點云識別網絡時減輕人工標注負擔的能力進行探索的。由于點云的非結構化和無序性,與二維視覺中的圖像識別相比,三維點云識別的深度學習具有獨特的挑戰,標準的卷積神經網絡無法直接應用于點云處理。PointNet[8]的出現,利用多層感知器(MLPs),徹底改變了廣泛任務中的點云識別,如目標分類、部分分割和場景語義解析。此后,各種深度神經網絡架構,如圖神經網絡[9]和稀疏卷積網絡[10],在3D形狀分類、3D目標檢測、3D語義分割等各類點云識別任務中取得了顯著進展。盡管深度學習在點云識別方面取得了顯著進展,但大多數現有研究嚴重依賴大規模、精確標注的3D數據進行網絡訓練。盡管大量訓練點云的收集已經變得更容易被接受,但由于數據的高度復雜性、點稀疏性的顯著變化、注釋過程中存在豐富的噪聲、遮擋和頻繁的3D視圖變化,注釋過程仍然是眾所周知的費力和耗時。點云標注的勞動密集型特性使得構建大規模點云數據集極其昂貴和耗時。這直接導致現有公共點云數據集的規模和多樣性有限,給開發跨各種應用的通用點云學習算法帶來了巨大挑戰。為了解決與點云注釋相關的負擔,一個有希望的解決方案是標簽高效學習——一種機器學習范式,以最少的注釋優先進行模型訓練,同時仍然實現所需的精度。標記高效的點云學習由于其重要性和較高的實用價值,近年來成為一個蓬勃發展的研究領域。各種標簽高效學習方法被研究,每種方法都有自己的數據需求和應用場景。本文研究了三種代表性的標記高效學習形式,即數據增強、從合成點云到真實點云的域遷移學習,以及從正常天氣到不利天氣點云的域遷移學習。1)數據增強涉及從現有樣本生成新的訓練數據,以增強訓練分布并促進網絡訓練。事實證明,當可用的標記訓練數據有限時,這種技術特別有利。2)從合成點云到真實點云的域遷移學習涉及利用合成點云來訓練識別模型。通過利用自動生成的標簽,該方法利用豐富的合成數據作為標注真實點云的替代方案。3)正常到惡劣天氣點云域遷移學習旨在通過對正常天氣條件下收集的標記數據進行訓練,建立魯棒的點云識別模型。這是至關重要的,因為在惡劣天氣中捕獲的點云存在很大的幾何失真和模糊性,這給標注帶來了重大挑戰。這三種標簽高效學習技術的廣泛探索,源于它們在各種3D視覺任務中的巨大潛力,包括形狀分類、實例檢測、語義分割等。
人類智能的一個重要方面是能夠從簡單的想法中組合出越來越復雜的概念,從而實現快速學習和知識的適應。盡管目前的AI系統表現出色,但在這一領域卻有所欠缺,通常無法解決超出其訓練分布范圍的任務。本論文的工作旨在通過將組合性納入深度神經網絡來彌補這一差距,從而增強它們解決新穎和復雜任務的能力,例如根據復雜的規范生成2D圖像和3D資產,或使仿人代理執行多種家庭活動。這篇論文的影響深遠,因為組合性在生物學、機器人技術和藝術制作等領域有眾多應用。通過顯著提高AI系統的組合性能力,這項研究將為不同研究領域中更高效的數據和更強大的模型鋪平道路。
"組合性是現代AI系統所缺少的人類智能的一個關鍵方面。構建概念的能力:結合模式、思想和子目標來構建對世界的結構化表示,然后通過操縱個別組成部分來推理世界,體現在關鍵的認知能力中。人類可以將個別觀察結果融入復雜的知識和信念結構中,對復雜計劃進行小范圍的針對性調整,想象基本情景的替代方案,并創造出受現有作品啟發的新技術或藝術。此類組合能力在AI系統中基本上尚未實現,但實現這一點可能是解鎖主要AI能力(如持續學習、可控和穩健行為、高級規劃、反事實推理和更強大的泛化)的關鍵之一。 本論文專注于開發表現出組合能力的神經網絡,以解決廣泛的任務,如圖像生成、問題回答、數學推理、機器人操控和體現決策。目標是使網絡能夠解決在訓練過程中未曝露的概念、目標或技能組合的任務。 我們對組合AI的研究涵蓋以下兩個軸心:先驗知識和組合結構。先驗知識描述了模型在培訓過程中學習的基本概念和能力集合。在大量數據上訓練的大型深度學習模型[131, 125, 13]包含豐富的先驗知識,但它們缺乏實現組合性的另一個關鍵組成部分——組合結構。為了構建組合結構,我們提出了組合算子來組合基本概念。將組合算子應用于預訓練模型,使我們能夠顯著提高AI系統的組合生成能力。
本論文的前兩部分介紹了如何構建組合結構。第一部分:構思概念和目標:我們開發了可以組合概念或目標以產生高度可控和復雜、細致行為的神經網絡。第二部分:模型組合:我們組合來自不同領域的預訓練模型,以在沒有任何訓練或微調的情況下產生強大的跨模態能力。在第三部分:轉移組合性中,我們介紹了如何通過從預訓練模型轉移知識來以數據高效的方式實現先驗知識。"
近年來,深度神經網絡架構在自然語言處理(NLP)領域取得了顯著成就。通過放大模型大小并在互聯網上可用的大量文本數據上進行自監督預訓練,即使在提供少量具體示例時,也解鎖了泛化和復雜推理能力。然而,NLP的大部分進展都是基于靜態學習范例進行的,其中模型在固定數據集上進行一次訓練以學習特定技能,并在此后保持固定。在本論文中,我們將注意力轉向NLP的交互式智能體,即與動態環境或用戶互動的基于語言的模型。在三個不同的應用領域,(i)基于文本的游戲,(ii)查詢重構,以及(iii)對話,我們調查并開發與不同形式的自適應環境互動的智能體。論文分為三部分,反映了三個應用領域。在第一部分,我們為基于文本的游戲開發了一個深度強化學習(RL)智能體,該智能體能夠在結構相似但帶有新對象和指令的游戲家族中進行泛化。第二部分重點關注查詢重構,我們從兩個角度進行研究。首先,我們考慮學習搜索問題,其中智能體被訓練為使用自然語言與信息檢索(IR)系統互動。觀察IR組件的結果,它調整初始用戶查詢并收集一個改進的證據文檔集。在此設置中,我們開發了兩個學習成功的交互式搜索策略的智能體:一個通過純強化學習訓練的模型,另一個通過(自我)監督學習。在隨后的章節中,我們將注意力轉向神經檢索模型,并為交互式查詢建議開發智能體。為此,我們訓練了一個查詢解碼器模型,該模型在共享段落-查詢嵌入空間中的給定點生成相應的文本形式的查詢。我們使用此解碼器生成方向性查詢細化的合成數據集,我們使用它來訓練一個強大的重構模型。在論文的最后部分,我們提出了不同的方法來開發對話智能體。我們建議模塊化對話模型的架構,以輸出隨后的模塊所基于的中間文本序列。首先,我們表明,在對話響應之前生成知識輸出作為中間步驟可以增加在開放域對話中的知識利用和事實正確性。接下來,我們開發了一個依次生成(i)搜索引擎查詢,(ii)知識輸出,以及(iii)最終響應的單一模型。我們表明,它在知識為基礎的對話上超越了先前的最先進的對話模型,并在主題提示完成上超越了具有大量參數的模型。最后,我們探討在部署后如何改進對話模型,并提出了一個目標,該目標允許在其生成的二進制標記示例上迭代訓練語言模型。
在過去的10年里,深度神經網絡在許多監督學習任務上的性能有了巨大的提升。在此期間,這些模型多次在許多經典的機器視覺和自然語言處理基準上重新定義了最高水平。深度神經網絡也被應用到許多實際應用中,包括聊天機器人、藝術生成、語音激活的虛擬助手、監控和醫療診斷系統。這些模型性能的大部分提升可以歸因于規模的增加,這反過來又提高了計算和能源成本。在這篇論文中,我們詳細介紹了如何降低在各種環境下部署深度神經網絡的成本的方法。我們首先關注訓練效率,為此,我們提出了兩種優化技術,這兩種技術可以在沒有大量調整的情況下產生高精度的模型。這些優化器只有一個固定的最大步長超參數需要交叉驗證,并且我們證明他們在廣泛的設置中都優于其他可比較的方法。這些方法不需要繁重的找到好的學習率調度的過程,這通常需要訓練同一網絡的許多版本,因此它們減少了所需的計算。第一個優化器是一種為插值設置設計的新穎的束方法。第二個展示了Polyak式步長與在線估計最優損失值在非插值設置中的有效性。
接下來,我們將注意力轉向訓練具有二進制參數和激活的高效二進制網絡。在正確的實施下,全二進制網絡在推理時間上具有高效率,因為它們可以用更便宜的位運算替換大部分操作。這使得它們非常適合輕量級或嵌入式應用。由于這些模型的離散性質,傳統的訓練方法不可行。我們提出了一種簡單而有效的替代方案,用于優化這些模型的現有技術。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
隨著時間的推移,更復雜、更強大的深度神經網絡的設計不斷推動各種任務的最新水平。在追求增加性能的過程中,計算復雜性常常受到嚴重阻礙,這體現在參數數量的顯著增加、需要的浮點運算以及延遲。盡管深度神經網絡的巨大進步增加了人們在下游應用(如機器人技術和增強現實)中使用它們的興趣,但這些應用需要計算效率高的替代方案。這篇論文關注的是設計高效的深度神經網絡,具體來說,是在給定的計算約束下提高性能,或者在性能下降不大的情況下降低復雜性。首先,我們介紹了一種新穎的卷積操作重參數化及其在多任務學習中的應用。通過重參數化卷積操作,我們可以以總參數數量的一部分實現與單任務模型相當的性能。其次,我們進行了廣泛的研究,評估自我監督任務作為多任務學習框架中的輔助任務的效果。我們發現,與自我監督任務一起訓練目標任務可以提高性能和魯棒性,常常優于有標簽的輔助任務,而且不需要修改部署時使用的架構。
第三,我們提出了一種新穎的用于高效單物體視覺跟蹤的變換器層。我們證明了實時單物體追蹤器的性能可以在不影響延遲的情況下顯著提高,同時始終優于其他變換器層。最后,我們研究了適應利用點檢測和描述神經網絡用于計算能力有限的平臺的有效性。我們發現,網絡組件的混合精度量化,結合二元描述符歸一化層,可以在性能稍有下降的同時,至少提高一個數量級的稀疏3D地圖的大小、匹配速度和推理速度。總結來說,這篇論文關注的是在計算限制下設計深度神經網絡。隨著對高效深度網絡的興趣和需求的增加,我們預見所提出的工作將為更高效的方法鋪平道路,彌合與性能更好的替代方案之間的差距。
1. 引言
通過計算機自動視覺感知和理解物理世界是計算機視覺研究的一個基本目標。受人類視覺系統的啟發,計算機視覺研究旨在構建能利用視覺輸入(如圖像)的算法,使機器能對視覺輸入內容有高級理解。在這個范圍內,研究關注的是自動提取、分析和理解重要且有用的信息。早期的計算機視覺嘗試可以追溯到Lawrence Roberts的工作[Rob63],但直到David Marr的開創性工作,該領域才有了顯著的改進[Mar76; Mar82]。Marr的框架遵循自下而上的場景理解方法,利用低級線索,如角和邊緣,作為獲得高級信息目標的基礎模塊。這個框架最早和最突出的例子之一是將Canny邊緣檢測器[Can86]與Hough變換[Bal81]結合,以獲取形狀信息,如線和圓。在各種任務上,如立體匹配[Mor81]、運動跟蹤[HS+88; Har93]、圖像匹配[Zha+95]和圖像檢索[SM97],利用低級線索的持續成功激發了對更強大、更描述性的低級特征的興趣。一些最知名的手工特征提取器包括SIFT[Low04]、HOG[DT05]和SURF[BTG06]。將這些特征與機器學習方法(如SVM[CV95])結合,使得更具挑戰性的高級任務,如圖像分類成為可能[Csu+04; SWP05]。然而,這種特性的手動設計性質使得它們在設計假設不成立時變得次優。
受到手工特征提取器限制的啟發,深度神經網絡(DNNs)旨在通過直接優化期望的行為來聯合學習自下而上的特征提取器和預測頭,如分類器[LBH15]。DNNs基于線性函數、非線性激活函數和池化操作的組合。這些模型使用捕獲期望的輸出行為的成本函數進行優化,例如分類的交叉熵,和大規模數據集。自從Krizhevsky等人[KSH12]贏得了ImageNet分類挑戰[Rus+15],大幅超過了使用傳統手工特征提取器的方法,計算機視覺社區就大量采用了DNNs,尤其是卷積神經網絡(CNNs)[LeC+89]。自那時以來,CNNs不僅被用來改進圖像分類[SZ15; Sze+15; Sze+16; He+16; ZK16],還被用來執行廣泛的任務。這些任務包括但不限于語義分割[YK16a; Che+17; Zha+17; Yu+18; Che+18a]、人體姿態估計[NYD16; Cao+17; Sun+19; Cao+19]、單目深度估計[Zho+17; Fu+18; God+19]、物體檢測[Gir+14; Gir15; Ren+15; Red+16]和視覺物體跟蹤[Ber+16; Bha+19]。
為了提高CNNs的表示能力,網絡變得更深[SZ15; He+16]、更寬[ZK16; Sun+19],甚至用更具描述性的替代品替換卷積操作[Dos+21; Tol+21]。我們在圖1.1a中描繪了隨著時間推移在ImageNet分類基準[Rus+15]上的進展。如圖所示,雖然隨著時間的推移,我們看到了持續的性能提高,但這些進步往往以增加的計算復雜性為代價,例如參數的數量(圖1.2a)和FLOPs的數量(圖1.2b)。在一定程度上,這些進步主要需要高端的圖形處理單元(GPUs)和張量處理單元(TPUs),這些通常可以在云服務器上找到。
DNNs的巨大進步進一步激發了人們對其在機器人、增強現實(AR)、虛擬現實(VR)、自動駕駛汽車、物聯網(IoT)和移動電話[Sar+22]中的應用的興趣。然而,云計算的限制阻止了其在這些應用中進行推理的使用。首先,不穩定或丟失的網絡連接使得使用云處理成為不可能。其次,根據數據保護規定,如通用數據保護規定(GDPR)[Cus+19],禁止處理和存儲敏感數據。最后,隨著任何設備或服務的用戶數量的增加,云服務器需要處理增加的數據傳輸以及增加的處理需求,使得云計算不可行且成本效益低。為了緩解這些問題,上述應用依賴于在板上處理,也稱為邊緣計算。DNNs的在板處理解決了云計算的所有限制,并有可能提供確定的和實時的體驗[DD17]。然而,與云服務器、大型機和工作站不同,嵌入式平臺有限的存儲、內存、計算能力、電池壽命,且通常需要更快和更小的軟件更新。這些限制可以,部分地,通過結合以下方法來解決,具體取決于設備特定的約束:
拓撲優化:拓撲優化旨在通過改變網絡的架構來提高每操作的精度或每參數的精度。值得注意的例子包括MobileNets [How+17; San+18; How+19],ShuffleNets [Zha+18a; Ma+18],EfficientNets [TL19; TL21],等等 [Gho+18; Hua+18; Zop+18; Liu+18a; LSY18; Rad+20]。
硬件感知優化:嵌入式平臺通常對全精度(FP)運算提供有限的甚至沒有支持。此外,它們通常被優化為執行SIMD(單指令,多數據)整數(Int)運算 [Ign+18]。盡管標準的深度學習庫使用32位FP表示法 [Pas+19; Mar+15],但對Int表示法的需求呼喚量化神經網絡(QNNs)。通過用Int操作數替換FP,QNNs減少了相對于等效DNNs的存儲和內存需求,同時復雜的FP運算可以被更簡單的Int運算所替代。由于這些性質,QNNs可以以更高的吞吐量(每周期的操作數)和算術強度(每內存事務的算術操作數)執行 [CBD15; KS15; Ras+16; LZP17; Zhu+17; Liu+18b; Jac18; Nag+19; LS20]。
知識蒸餾:從一個大模型(稱為“教師”)開始,目標是將知識轉移到一個更適合部署的小模型(稱為“學生”) [HVD15]。具體來說,這可能包括同一架構家族的模型之間的知識轉移,從ResNet-101 [He+16] 到 ResNet-50 [He+16],也可能是不同的架構,例如從ResNet-101 [He+16] 到 MobileNet [How+17]。知識蒸餾可以被看作是兩個網絡之間的函數匹配,并在實踐中展示了優異的結果 [HVD15; Rom+15; TV17; MM18; CH19; SS20; Xie+20; Bey+22]。
模型剪枝和分解:由于DNNs的過度參數化,剪枝方法旨在識別并消除網絡中的冗余操作。這可能包括剪枝獨立的神經元 [Han+15; HMD16],但通常整個過濾器都用新的具有規則形狀的內核 [Li+17; Gor+18; Yan+18]。與剪枝類似,分解方法用低秩近似替換現有的過濾器。這可能是在二維過濾器上 [Den+14; JV 多任務學習:到目前為止討論的方法主要關注于每個任務學習一個網絡。不同的是,多任務學習(MTL)專注于用單個網絡學習多個任務。MTL最初是為了通過利用額外相關任務的訓練信號作為歸納偏差來提高目標任務的性能而提出的 [Car97]。然而,神經網絡的自下而上的方法使得不同任務之間可以共享參數和計算,使它們成為不僅可以提高任務性能 [Mis+16; Xu+18; Ran+19; Hoy+21; Bru+21] ,也可以減少總參數數量和FLOPs [Kok17; RBV17; BV17; RPC17; RBV18; MRK19; Bru+20; Sta+20]的優秀框架。
深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。
以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。
人類學習本質上是多模態的。我們通過觀察、傾聽、閱讀和交流來學習和理解我們周圍的環境。機器學習領域已經取得了一些與人類活動相關的進展,如語音識別或計算機視覺,這使得對這種類人固有的多模態學習進行計算建模成為可能。多模態視頻理解作為一種機器學習任務,與這種學習形式很接近。本文提出將這個復雜的視頻理解任務分解為一系列相對簡單的任務,并增加復雜性。本文從語音識別的單調任務出發,介紹了一個端到端視聽語音識別模型。語音翻譯是一個更為復雜的任務,除了語音識別外,還需要處理重新排序的輸出序列,這也是本文的第二個任務。對于語音翻譯,我們引入了一個多模態融合模型,該模型學習以半監督的方式利用多視圖多模態數據。此外,我們還將繼續進行多模態視頻摘要和問題回答的任務,以解決抽象層次的理解任務,進一步涉及信息壓縮和重構。最后,我們將這項工作擴展到多模態自我理性化,不僅執行抽象層次的學習,而且還提供了對所獲得的視頻理解的解釋。針對這四個主要任務,我們根據任務的性質和復雜性,提出了一系列多模態融合模型,并在常用的視頻和語言理解數據集上對模型進行了比較和對比。
//lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf