隨著深度神經網絡(DNN)的日益復雜化,其計算需求常常超出了邊緣設備的承載能力,而邊緣設備通常資源有限。本論文探討了在資源受限的邊緣環境中高效且穩健地部署大型DNN的策略,其中“邊緣”指的是位于數據源與云端之間的設備。在邊緣部署DNN具有增強隱私性、效率和可靠性的優勢,但也因邊緣設備的資源受限而面臨挑戰。論文分為兩部分。第一部分解決了在多個資源受限的邊緣設備上優化分區和部署DNN的挑戰。AutoDiCE框架自動化了模型分區、代碼生成和設備間的通信優化,同時通過設計空間探索(DSE)技術確定了最佳分布策略,以最小化能耗和內存使用,并最大化系統推理吞吐量。第二部分著重于增強系統對設備故障或連接問題的魯棒性。RobustDiCE通過優先處理關鍵神經元并在設備間部分復制它們,確保分布式推理的準確性,即使在故障情況下也能保持功能。此外,EASTER是一種針對大語言模型的類似分區方法,平衡了資源利用和魯棒性。總體而言,本論文提出了在邊緣高效且容錯的DNN部署創新解決方案,優化了資源利用并確保了可靠運行。所提出的方法推動了分布式邊緣AI在資源受限環境中的應用。
本論文研究了訓練深度神經網絡中的基本挑戰,重點探討了信號在網絡深度中的傳播。論文考察了各種架構選擇,如全連接層、權重初始化、歸一化層和非線性激活函數,如何影響深度架構中的前向傳播和反向傳播。研究解決了諸如秩崩塌、梯度穩定性等關鍵問題,并探討了它們對訓練動態和網絡性能的影響。
利用平均場理論、隨機矩陣理論和馬爾可夫鏈理論的工具,我們開發了一個用于分析深度網絡中信號傳播的數學框架。我們描述了導致秩崩塌和梯度不穩定的條件,并提供了歸一化技術和初始化方案有效性的理論見解,提出了改善非常深層網絡中信號傳播和訓練動態的途徑。從根本上說,本論文的發現是朝著理解現代神經網絡架構成功背后的數學原理邁出的重要一步。
深度神經網絡已經徹底改變了人工智能領域,在廣泛的任務中取得了前所未有的表現,從圖像識別 [KSH12] 到自然語言處理 [Dev+18]。盡管這些模型取得了顯著的成功,它們通常仍然是神秘的,作為“黑箱”通過一系列復雜的非線性操作將輸入轉換為輸出 [AB16]。這種缺乏理論理解給研究人員和實踐者帶來了重大挑戰,因為它妨礙了我們更好地理解和優化這些系統。
深度學習范式的核心是信號傳播——信息在神經網絡的層次中流動的過程,涵蓋前向和反向傳播 [GB10a]。理解這一過程至關重要,原因有幾個。它提供了神經網絡如何處理和轉化信息的見解,可能揭示其過程背后的基本原理。對信號傳播的更深入理解可以指導更好的網絡初始化設計 [GB10a]、更有效的網絡架構設計 [He+16a] 以及更高效的優化算法 [KB14]。總的來說,理論理解有助于在更有原則的方式下設計神經網絡架構。
當考慮到訓練深度神經網絡的挑戰時,信號傳播的重要性變得尤為突出。隨著網絡深度的增加,它們具備了更強的表達能力和學習更復雜表示的潛力 [BSF94]。然而,這種增加的深度也帶來了穩定訓練的重大障礙,許多障礙直接與信號在網絡中的傳播方式有關 [GB10a;He+15]。本論文旨在彌補我們理解中的一些空白。
本論文的主要目標是通過對各種神經網絡組件對信號傳播深度的影響進行深入研究,揭示神經網絡的某些行為。具體來說,我們旨在解決以下核心研究問題:
信號如何在深度神經網絡的層次中傳播,前向和反向傳播是如何演變的?
為了全面探討這個問題,我們重點關注神經網絡設計的幾個關鍵方面:全連接層、權重初始化、歸一化技術和非線性激活函數。全連接層作為神經網絡的基本構建塊,為我們的分析提供了起點 [SMG13a]。初始權重的選擇可以顯著影響網絡的訓練動態,我們研究了各種初始化策略及其對信號傳播的影響 [SMG13a;GB10a;He+15]。其次,Batch Normalization (BN) [IS15] 和 Layer Normalization (LN) [BKH16] 等歸一化層在使得非常深的網絡能夠訓練方面發揮了關鍵作用,我們分析了這些技術如何影響信號流動和穩定性。第三,非線性激活函數的選擇顯著影響網絡的表示能力和訓練動態,因此我們考察了ReLU [NH10] 和雙曲正切等流行選擇,探索它們對信號傳播的影響 [GBB11;MHN13;CUH15;He+15;RZL17]。
從數學角度來看,我們的分析重點關注神經網絡中的兩個關鍵操作:矩陣乘積和逐元素激活。矩陣乘積發生在線性層中,轉換層之間的表示,并影響信號如何在網絡中傳播 [SMG13a]。非線性激活函數將關鍵的非線性引入網絡,我們研究了不同激活函數如何塑造激活和梯度的分布 [Kla+17;PSG17;PSG18]。雖然像BN和LN這樣的歸一化層是非線性操作,但它們并不按元素操作。有些出乎意料的是,我們發現我們可以將它們作為一種特殊的矩陣乘積進行研究,其中一個矩陣是對角矩陣,與特征或批處理空間中激活的標準差成比例 [Dan+20;DJB21]。
我們的分析主要集中在網絡初始化狀態,因為這個初始狀態在確定隨后的優化軌跡和網絡最終表現中起著至關重要的作用 [SMG13a;Xia+18;FC18;PSG17]。這使我們能夠利用隨機矩陣理論和馬爾可夫鏈理論的工具,分析層表示如何以隨機方式演變。
隨著神經網絡變得越來越深,在各種任務中取得了最先進的表現 [He+16a;Dev+18],訓練這些架構時出現了兩個主要挑戰 [PMB13]。在反向傳播中,梯度消失和梯度爆炸問題變得尤為重要 [BSF94;PMB13;Han18]。在前向傳播中,表現崩潰的問題出現了,即隨著深度的增加,不同輸入樣本映射到越來越相似的表示 [Dan+20;Noc+22b]。表現崩潰和梯度不穩定都顯著影響了訓練動態和網絡性能 [Han18]。
梯度爆炸與梯度消失問題長期以來是訓練深度神經網絡的挑戰 [Hoc91;BSF94]。這些問題在反向傳播算法的過程中出現,可能會嚴重妨礙學習過程。
梯度爆炸發生在梯度在通過網絡層反向傳播時增長過快,可能導致數值不穩定,使得訓練過程發散 [PMB13]。相反,梯度消失發生在梯度變得指數級變小,實際上阻止網絡學習長距離依賴 [Hoc98]。
梯度消失問題尤其對網絡的第一層或最后一層影響嚴重。第一層的梯度消失會導致網絡無法從輸入數據中捕捉到重要的特征,從而喪失網絡開始階段的關鍵信息 [GB10a]。當最后一層出現梯度消失時,網絡會難以將誤差信號反向傳播到早期層,導致整個網絡的微調效果不佳 [He+15]。此外,梯度消失還可能導致深度網絡表現得像一個較淺的網絡,從而消除深度架構在學習層次化表示方面的潛在優勢 [SGS15]。
梯度消失與爆炸問題與深度、權重初始化和激活函數密切相關 [GB10a;He+15]。從數學角度來看,梯度可以表示為一個擴展的矩陣乘積鏈,這是微積分鏈式法則的結果。主要挑戰在于,隨著乘積鏈的增長,如何保持穩定的梯度流 [SMG13a;PMB13]。
秩崩塌指的是隨著深度的增加,深度神經網絡的輸出變得越來越相關,導致表達能力的喪失 [Dan+20]。這個問題在具有標準初始化方案的網絡中尤其突出,可能會嚴重阻礙網絡學習復雜表示的能力 [Dan+20]。
最近的研究表明,秩崩塌不僅限于全連接網絡,還影響其他架構,如卷積神經網絡 [Xia+18] 和變換器 [DCL21;Noc+22b]。解決秩崩塌問題對于使得非常深的網絡能夠訓練并充分發揮其表示能力至關重要。
秩崩塌與梯度消失密切相關,都是由于信號傳播問題引起的 [Dan+20;Han18]。從非正式角度看,這兩個問題都可以看作是網絡在傳播過程中“喪失”信息。
秩崩塌和梯度不穩定現象對訓練動態和深度神經網絡的整體表現有重大影響。這些挑戰通過多種相互關聯的方式表現出來,顯著影響了學習過程的效率和效果。
網絡在遭遇秩崩塌或梯度問題時,通常需要更多的訓練迭代才能達到類似的性能 [IS15;San+18;Dan+20;DJB21]。這個增加的訓練時間可能成為大型模型和數據集的瓶頸。
本論文探討了訓練深度神經網絡中的挑戰,并提出了應對這些問題的新方法。各章節按寫作和發布的時間順序排列,具體章節如下:
第2章:批量歸一化正交化表示。
第3章:彌合平均場與有限寬度差距。
第4章與第5章:討論歸一化與激活函數如何導致深度神經網絡中表示的等距性。
第6章:沒有梯度爆炸的批量歸一化。
第7章:總結與未來方向。
每章都有助于加深我們對深度神經網絡訓練動態的理解,并為解決這些模型的深度挑戰提供了新的技術。
**
**
稀疏計算(如圖問題和稀疏矩陣算法中的計算)對于解決生物學、編譯器設計和機器學習等領域的復雜問題至關重要。然而,在現代異構計算環境中,高效處理大規模、不規則的稀疏數據結構提出了重大挑戰,必須在可擴展性和效率之間仔細權衡。現有的并行算法和計算模型通常未能充分利用稀疏數據中的固有結構,導致效率低下和可擴展性有限。這對于NP難問題尤其成問題,因為最壞情況下的解決方案速度較慢,而對于稀疏矩陣內核來說,它們是稀疏神經網絡和科學計算中的瓶頸。 本論文介紹了利用稀疏數據結構特性的新算法、框架和模型。我們的貢獻包括: 1. 固定參數可解算法:用于子圖同構和k-團列舉,利用平面性和缺乏密集子圖的特性減少計算深度或工作量,從而提高并行環境中的可擴展性和效率。 1. 參數化模板圖框架:高效處理執行圖中的重復結構,優化并行程序分析中的數據移動。 1. 空間計算機模型與競爭模型:針對空間數據流架構的挑戰,通過考慮空間局部性和競爭成本來優化稀疏通信模式。 1. 局部性優化的圖布局:最小化通信成本,使現代加速器和分布式系統上的稀疏矩陣操作具有可擴展性。 1. 模型引導的實驗評估:在最先進的數據流架構上對基本通信集體操作進行評估,強調了我們建模的影響。
這些貢獻共同推動了稀疏計算的最新技術發展,為高性能計算的未來進步奠定了基礎,可能對數據分析、科學計算和機器學習產生深遠影響。
人類通過整合多種感官信息(包括視覺、語言和聽覺線索)來理解和與周圍環境互動。視覺-語言表示學習領域致力于使機器學習視覺和文本數據之間的多模態關聯與互動。本論文解決了三個關鍵問題:預訓練數據的可擴展性、預訓練目標的效率以及細粒度的視覺-語言對齊。 在數據可擴展性方面,我們關注利用未配對的圖像和文本進行可擴展的視覺-語言表示學習。為了增強模態之間的隱式對齊并增加數據的多樣性,我們引入了跨模態CutMix技術,該技術通過將視覺補丁與句子混合,創建多模態句子,即句子的多模態視圖。通過將多樣化的多模態句子融入對比學習,文本與多模態樣本之間的實例級對齊得到了有效利用。我們的方法繞過了配對數據集的限制,促進了基于更廣泛和更多樣的未配對數據的可擴展多模態表示學習。 在學習效率方面,我們研究了加速視覺-語言預訓練的方法。我們實證發現,訓練效率的一個重要障礙在于掩碼語言建模中的預測率(重建的令牌百分比)和破壞率(破壞的令牌百分比)交織在一起。具體來說,適當的破壞率是以大量輸出令牌被排除在預測損失之外為代價的。為了克服這一限制,我們提出了自由語言建模(FLM),這是一種新的預訓練目標,能夠將預測率與破壞率在掩碼語言建模中解耦。我們的方法通過允許為每個令牌自定義破壞范圍,從而實現了更快的收斂,同時在下游視覺-語言任務中保持了競爭力的表現。 關于跨模態對齊粒度,我們深入研究了未修剪視頻與自然語言之間的細粒度對齊。我們提出了一個針對未修剪視頻的基礎視覺-語言學習(GVL)框架,重點在于檢測有信息量的事件并將多句描述與相應的事件段對齊。我們引入了并行解碼范式(PDVC)用于密集視頻字幕生成,以有效地對視頻進行分段,從而提高生成的密集字幕的連貫性和可讀性。此外,我們提出了兩個雙重預文本任務以促進細粒度的段級對齊:文本到事件對比和事件到文本生成。該框架具有廣泛的適用性,可應用于視覺基礎的語言理解與生成任務。 我們進行了大量實驗以驗證我們提出的方法。這些工作不僅推動了多模態學習的前沿,也為機器智能系統中視覺與語言的更高效、更有效的整合鋪平了道路。
深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。
邊緣云已成為一種重要的架構,通過使計算能力更接近網絡邊緣的數據源和終端用戶,徹底改變了數據處理和分析。盡管計算資源有限,但異常檢測對于維護邊緣系統和應用的可靠性和安全性至關重要。它在識別意外模式方面發揮著至關重要的作用,這些模式可能表明邊緣云環境的分散性和實時性中存在安全威脅或性能問題。例如,在自動駕駛汽車、增強現實和智能醫療等關鍵邊緣應用中,異常檢測可確保這些系統的穩定安全運行,及時發現可能危及安全、性能或用戶體驗的異常情況。然而,在邊緣云環境中采用異常檢測存在諸多挑戰。本論文旨在通過解決邊緣云環境中的異常檢測問題做出貢獻。通過全面探索異常檢測方法,利用機器學習技術和創新方法,本研究旨在提高邊緣云環境中異常檢測的效率和準確性。所提出的方法旨在克服資源限制、缺乏邊緣云特有的標記數據以及需要準確檢測異常情況所帶來的挑戰。通過專注于遷移學習、知識提煉、強化學習、深度序列模型和深度集合學習等機器學習方法,本論文致力于為邊緣云環境建立高效、準確的異常檢測系統。研究結果表明,采用機器學習方法對邊緣云的異常檢測進行改進。在真實世界的邊緣環境中進行的廣泛測試和評估表明,機器學習驅動的異常檢測系統如何改進邊緣云中異常的識別。結果凸顯了這些方法在準確性和計算效率之間實現合理權衡的能力。這些發現說明了基于機器學習的異常檢測方法如何有助于構建彈性和安全的邊緣系統。
本論文的后續章節包括第 2 章,概述了邊緣云環境、一般架構和相關挑戰。第 3 章涵蓋異常檢測的基本背景和基本概念。本章探討了專門用于邊緣云異常檢測的各種機器學習方法、邊緣云異常解決策略,并深入討論了此類環境中異常檢測的注意事項。第4章詳細介紹了用于驗證邊緣云中異常檢測方法的實驗設置,包括對評估指標、數據集和測試平臺配置的全面討論。這包括對容器編排平臺和微服務基準應用程序套件的深入了解,從而全面了解我們為驗證目的而使用的實驗框架。第5章對每篇論文的詳細貢獻進行了深入介紹和分析,第6章概述了潛在的未來研究方向,為進一步研究邊緣云環境中的異常檢測領域提出了具有洞察力的途徑。
基于車載3D LiDAR的幾何與語義場景理解深度學習研究
3D LiDAR點云數據在計算機視覺、機器人學和自動駕駛中的場景感知中起著至關重要的作用。涉及3D點云的幾何與語義場景理解是推動自動駕駛技術發展的關鍵。然而,仍然存在許多挑戰,特別是在提高這些系統的整體準確性(如分割精度、深度估計精度等)和效率方面。
為了解決與LiDAR任務相關的準確性問題,我們提出了DurLAR,這是首個高保真128通道3D LiDAR數據集,具有全景環境(近紅外)和反射率圖像。利用DurLAR,超越了先前基準的數據集分辨率,我們著手解決單目深度估計任務。利用這種高分辨率但稀疏的真實場景深度信息,我們提出了一種新型的聯合監督/自監督損失函數,大大提高了深度估計的精度。
為了在確保精度的同時提高3D分割的效率,我們提出了一種新穎的管道,采用更小的架構,所需的真實標簽注釋更少,同時在分割精度上超越了現有方法。這一創新通過一種新型的稀疏深度可分卷積(SDSC)模塊得以實現,該模塊顯著減少了網絡的參數量,同時保持了任務的整體性能。此外,我們還引入了一種新的時空冗余幀下采樣(ST-RFD)方法,該方法利用傳感器運動知識提取多樣化的訓練數據幀樣本,從而提高計算效率。
此外,近年來在3D LiDAR分割方面的進展重點關注點云的空間定位和分布,以提高分割精度。然而,坐標和點強度的依賴性導致了性能的亞優表現和較差的等距不變性。為了提高分割精度,我們引入了基于距離感知的點距離分布特征(RAPiD)及其相關的RAPiD-Seg架構。這些特征展示了剛性變換不變性,并能適應點密度變化,專注于鄰近結構的局部幾何。利用LiDAR的各向同性輻射和語義分類,它們增強了局部表示和計算效率。 通過廣泛的實驗和定性分析,我們驗證了方法的有效性。我們的方法在語義分割的mIoU和深度估計的RMSE上超越了現有的最先進技術(SoTA)。所有貢獻已被同行評審的會議接受,進一步證明了我們在自動駕駛中3D LiDAR應用的準確性和效率方面的進展。
自然現象的不可約復雜性促使圖神經網絡成為執行圖結構數據上表示學習任務的標準模型。盡管它們捕捉局部與全局模式的能力十分出色,但與長距離和高階依賴相關的問題為這些模型帶來了相當大的挑戰。本工作通過首先識別負面影響圖神經網絡在學習強依賴于長距離交互事件的表示時性能的各個方面,來應對這些挑戰。特別是,當圖神經網絡需要在遠距離節點之間聚合消息時,消息傳遞機制會將指數級增長的信息量過度壓縮到靜態向量中。 值得注意的是,對于某些類別的圖(即路徑、樹、網格、環形和梯形),底層的連通性允許消息沿著邊緣傳遞,而不會遇到來自其他路徑的顯著干擾,從而將信息的增長量控制在線性級別上。 當底層圖不屬于上述類別時,會出現過度壓縮現象,因為信息的傳播發生在通過邊緣相連的節點之間,這導致了計算圖反映節點的連通性。這一現象導致節點對來自圖遠端的信息變得不敏感。為了提供一種緩解此類瓶頸的新架構設計視角,一個統一的理論框架揭示了網絡的寬度、深度和圖拓撲對消息傳遞神經網絡中過度壓縮現象的影響。 然后,論文轉向通過拓撲神經網絡利用高階交互。憑借多關系歸納偏見,拓撲神經網絡通過更高維度的結構傳遞消息,有效地提供信息流的快捷方式或額外路線。通過這種構建,底層的計算圖不再與輸入圖結構耦合,從而緩解了上述瓶頸,同時也考慮了高階交互。受到圖注意力網絡中開發的掩蔽自監督學習機制以及由單純形和胞腔復合體提供的豐富連通性的啟發,提出了兩種不同的注意力架構:單純形注意力網絡和胞腔注意力網絡。 這些架構背后的理念是利用特定排列的節點組內單純形或胞腔復合體提供的擴展鄰域概念。特別是,這些拓撲注意力網絡利用底層復合體的上下鄰接性來設計能夠衡量來自不同區域信息重要性的各向異性聚合。通過這樣做,它們捕捉到傳統圖神經網絡可能錯過的依賴關系。 最后,通過增強的細胞同構網絡引入了一個高階結構之間的通信方案,它通過讓一個胞腔復合體的所有細胞從它們的下層鄰域接收消息來增強拓撲消息傳遞方案。這種升級使得在胞腔復合體內的節點組之間,特別是以環狀結構排列的,能夠直接互動。這種增強的方案為高階和長距離交互提供了更全面的表示,展示了在大規模和長距離基準測試上的非常高性能。 在深度學習的不斷演進的景觀中,數據中存在的關系模式已變得至關重要,用以解決圖結構數據的表示學習任務。本論文從這一視角出發,探索了拓撲神經網絡的領域,強調了代數拓撲學領域的概念與在離散拓撲空間上執行表示學習任務之間的協同作用。本工作的目標結構旨在確保在理解高階交互及其在推進神經架構方面的角色上具有深度和廣度。
具體而言,本論文的目標是:
本論文旨在研究復雜場景下高精度的有向目標檢測算法。有向目標檢測是 通用水平目標檢測的一個擴展研究方向,其主要特點是可以更精準地定位目標, 并擅長完成包含大量密集排列、大長寬比、方向任意目標的復雜場景的檢測任 務。大量文獻表明,有向目標檢測不僅在計算機視覺領域中有著重要的學術研 究價值,在國防建設、科學技術、醫學治療、食品健康、工業發展、環境保護、 農業養殖、公共安全、文化傳播等領域也具有廣闊的應用價值。 受益于通用水平目標檢測在深度學習時代的蓬勃發展,有向目標檢測器可 以很輕松地基于先進的水平檢測算法進行實現。但是,有向目標檢測的研究常常 需要面對一些獨特的問題挑戰,如不同定義法下由邊界不連續造成的損失陡增、 類正方目標導致的表示歧義等。如何更加高效地實現高精度有向目標檢測已成 為當下的研究熱點。本論文以有向目標檢測為研究重點,在魯棒有向目標檢測 器搭建、高效位姿參數估計、弱監督算法探索以及有向目標檢測工具設計這四個 方面來擴展和完善現有的算法。論文的主要貢獻包含以下幾方面:
? 介紹了如何基于一個水平目標檢測器搭建出一個有向目標檢測器,主要內 容包括不同旋轉框的定義、不同錨框的形式、旋轉框重疊率的計算、回歸 參數的估計以及回歸損失等基礎知識。
? 提出了一種從粗到細的漸進式回歸的有向目標檢測器 R 3Det。本文針對單 階段級聯檢測器中存在的特征不對齊問題設計了特征精修模塊,最終在精 度和速度之間取得了較佳的平衡。
? 在特定旋轉框定義法下,本文通過將角度估計方式從回歸轉換成精細的分 類(CSL 和 DCL)以解決有向目標檢測中的邊界不連續問題,并進一步采 用四邊分類的策略在構造的新數據集 OHD-SJTU 上實現了目標頭部檢測。
? 為同時解決邊界不連續、類正方形檢測以及評估與損失不一致性等問題, 本文提出了高斯分布建模和距離度量技術(GWD 和 KLD)。通過尺度不變 性證明和梯度分析,本文發現使用 KLD 作為最終的回歸損失可以顯著地 提升高精度指標。
? 在保留高斯分布建模的優勢下,本文提出了使用分布之間的相似性度量 (KFIoU) 取代距離度量,更好地解決了評估與損失不一致的問題并在不引 入任何超參數的情況下取得了性能的提升。
? 本文首次在目標檢測領域中提出了一個新的研究課題:基于水平框標注 訓練的弱監督有向目標檢。同時,本文設計了一種新的自監督的網絡架構 (H2RBox),其通過衡量輸入圖片在不同視圖下的一致性來實現精準的旋轉。框估計。與基于弱監督實例分割的方法相比,H2RBox 具有性能高、速度 快和存儲需求低的優勢,且各方面都接近強監督有向目標檢測算法。
? 從學術研究、工業部署和國產化三個角度出發,本文分別基于 TensorFlow、 PyTorch 和 Jittor 搭建了三種各具特色的有向目標檢測工具:MMRotate、 AlphaRotate 和 JDet,為有向目標檢測的發展和應用提供了便利。
深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。 對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。
機器學習中的標記增強理論與應用研究
標記端多義性是當今機器學習的熱點問題。多標記學習中,每個樣本都被賦予一組 標記子集來表示其多種語義信息。然而,標記強度差異現象在多義性機器學習任務中廣 泛存在,而既有多標記學習研究中普遍采用的相關/無關兩個子集的邏輯劃分法幾乎完 全忽視了這種現象,造成學習過程中不可避免的信息損失。針對這一突出問題,有必要 用一種稱為標記分布的標注結構來代替邏輯標記對示例的類別信息進行描述。標記分布 通過連續的描述度來顯式表達每個標記與數據對象的關聯強度,很自然地解決了標記強 度差異的問題,而在以標記分布標注的數據集上學習的過程就稱為標記分布學習。由于 描述度的標注成本更高且常常沒有客觀的量化標準,現實任務中大量的多義性數據仍然 是以簡單邏輯標記標注的,為此本文提出了標記增強這一概念。標記增強在不增加額外 數據標注負擔的前提下,挖掘訓練樣本中蘊含的標記重要性差異信息,將邏輯標記轉化 為標記分布。
本文對標記增強進行研究,主要工作包括:構建標記增強基礎理論框架。該理論框架回答了以下三個問題:第一,標記增強所 需的類別信息從何而來?即標記分布的內在生成機制;第二,標記增強的結果如何評價?即標記增強所得標記分布的質量評價機制;第三,標記增強為何有效?即標記增強對后 續分類器的泛化性能提升機制。理論分析和實驗結果驗證了標記增強的有效性。
提出一種面向標記分布學習的標記增強專用算法。以面向標記分布學習的標記增強 為目標專門設計的算法十分重要,其關鍵是如何設計能夠充分挖掘數據中隱藏的標記信 息的優化目標函數。因此,本文提出一種面向標記分布學習的標記增強方法 GLLE。該 方法利用訓練樣本特征空間的拓撲結構以及標記間相關性,挖掘了標記強度信息,從而 生成了標記分布。實驗結果驗證了 GLLE 對邏輯標記數據集進行標記增強處理后使用標 記分布學習的有效性。
標記增強在其他學習范式上的應用。本文提出了基于標記增強的多標記學習方法 LEMLL,該方法將標記增強與多標記預測模型統一到同一學習目標中,使得預測模型可 以在更為豐富的監督信息下進行訓練,有效地提升了學習效果。本文提出了基于標記增 強的偏標記學習方法 PLLE,該方法利用標記增強恢復候選標記的描述度,使得后續的 學習問題轉化為多輸出回歸問題。在多標記數據集和偏標記數據集上的實驗結果顯示, 相較于對比算法,基于標記增強方法取得了顯著更優的表現。