亚州AV无码专区在线电影,亚洲精品久久无码WW16,国外一区二区三区精彩视频,麻豆文化传媒APP网站,国产日韩精品无码区免费专区国产

基于車載3D LiDAR的幾何與語義場景理解深度學習研究

3D LiDAR點云數據在計算機視覺、機器人學和自動駕駛中的場景感知中起著至關重要的作用。涉及3D點云的幾何與語義場景理解是推動自動駕駛技術發展的關鍵。然而，仍然存在許多挑戰，特別是在提高這些系統的整體準確性（如分割精度、深度估計精度等）和效率方面。

為了解決與LiDAR任務相關的準確性問題，我們提出了DurLAR，這是首個高保真128通道3D LiDAR數據集，具有全景環境（近紅外）和反射率圖像。利用DurLAR，超越了先前基準的數據集分辨率，我們著手解決單目深度估計任務。利用這種高分辨率但稀疏的真實場景深度信息，我們提出了一種新型的聯合監督/自監督損失函數，大大提高了深度估計的精度。

為了在確保精度的同時提高3D分割的效率，我們提出了一種新穎的管道，采用更小的架構，所需的真實標簽注釋更少，同時在分割精度上超越了現有方法。這一創新通過一種新型的稀疏深度可分卷積（SDSC）模塊得以實現，該模塊顯著減少了網絡的參數量，同時保持了任務的整體性能。此外，我們還引入了一種新的時空冗余幀下采樣（ST-RFD）方法，該方法利用傳感器運動知識提取多樣化的訓練數據幀樣本，從而提高計算效率。

此外，近年來在3D LiDAR分割方面的進展重點關注點云的空間定位和分布，以提高分割精度。然而，坐標和點強度的依賴性導致了性能的亞優表現和較差的等距不變性。為了提高分割精度，我們引入了基于距離感知的點距離分布特征（RAPiD）及其相關的RAPiD-Seg架構。這些特征展示了剛性變換不變性，并能適應點密度變化，專注于鄰近結構的局部幾何。利用LiDAR的各向同性輻射和語義分類，它們增強了局部表示和計算效率。通過廣泛的實驗和定性分析，我們驗證了方法的有效性。我們的方法在語義分割的mIoU和深度估計的RMSE上超越了現有的最先進技術（SoTA）。所有貢獻已被同行評審的會議接受，進一步證明了我們在自動駕駛中3D LiDAR應用的準確性和效率方面的進展。

付費5元查看完整內容

相關內容

博士論文

關注 0

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

機器學習 · 神經網絡 · 突觸可塑性 · 脈沖神經元模型 ·

2024 年 11 月 20 日

[付費5元查看完整內容]【博士論文】機器學習中新型神經元模型的研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

神經網絡模型是機器學習中的熱點研究方向之一，其模型包括網絡架構和神經元模型兩部分。在過去半個多世紀的研究中，出現了各種基于不同網絡架構的學習模型與方法，但對基本的神經元模型研究相對較少。人工神經元模型的建模通常參考生物神經細胞，當前最流行的模型仍是 1943 年提出的 MP 模型[145] (第一代神經元模型)。七八十年來，學界對非 MP 的新型神經元模型僅有一些探索，比如 60 年代提出的脈沖神經元模型 (第二代神經元模型)。脈沖神經元模型在微觀尺度上建模了生物神經系統的短程突觸可塑性 (short-term synaptic plasticity)，具有良好的神經學性質，但尚未在現實應用中展現出計算優勢。本文首先對第二代脈沖神經元模型進行研究，指出該模型的重大缺陷—— 分岔 (bifurcation) 問題。這可能是制約脈沖神經元模型發展的關鍵因素之一，對該問題進行修正將顯著提升脈沖神經元的計算潛力。然后，本文對第三代神經元模型進行探索，通過建模生物神經系統中的長程突觸可塑性 (long-term synaptic plasticity)，首次實現了中觀尺度 (mesoscopic scale) 的神經元建模。該探索將極大地完善現有神經元模型體系。本文對第二代和第三代人工神經元模型展開了系統研究，主要取得了如下五方面的創新結果:

脈沖神經元模型分岔問題的發現。通過對一大類脈沖神經元模型的數理性質進行研究，從理論上揭示了脈沖神經元建模中的 ‘‘分岔” 問題，即脈沖神經元內的超參數發生小的改變時，模型的功能拓撲會發生急劇變化，從而導致解空間發生坍縮。分岔問題在脈沖神經元模型中普遍存在，會對脈沖神經元的數理功能產生嚴重制約，這可能是脈沖神經網絡在現實應用中難以達到優秀性能的關鍵阻礙之一。實驗驗證了上述理論發現。
脈沖神經元模型分岔問題的修正。對分岔問題進行修正，提出了 BS (Bifurcation Spiking) 神經元模型。該模型通過一組學習參數解耦分岔超參數與系統特征值之間的關系，以降低超參數值變化對神經元功能拓撲的影響，從而修正了脈沖神經元模型中的分岔問題。理論表明 BS 神經元模型能夠近似連續時間動力系統，具有強大的表示能力和學習能力。實驗驗證了 BS 神經元模型在一些監督學習任務上具有優越的表現。
FT 神經元模型的初始設計實現。對第三代神經元模型的設計和實現進行探索，提出了 FT (Flexible Transmitter) 新型神經元模型。不同于宏觀建模的第一代 MP 神經元模型和在微觀尺度上建模短程突觸可塑性的第二代脈沖神經元模型，FT 模型在中觀尺度上建模了受神經遞質調節的長程突觸可塑性，第一代 MP 神經元模型可看作 FT 模型的特例。FT 神經元可在復數域內通過新的反向傳播實現計算，兼容于任何網絡構架。本文采用最簡單的前饋架構實現了 FT 神經網絡模型，并通過實驗驗證了其有效性。
FT 神經元模型的數理性質研究。數理性質的研究主要關心神經元模型數學表達式的函數功能，以及實現算法的性能等問題。本文工作從近似理論和優化理論兩方面分析 FT 神經元模型的數理性質，理論展示了 FT 模型相較于第一代 MP 神經元模型的優勢: (1) 逼近徑向函數時，FT 神經元模型所需要的參數數量更少，比 MP 神經元模型少一個量級; (2) 由 FT 神經元搭建的網絡模型更容易收斂到最優解。上述結論不僅從理論上保障了 FT 神經元模型的合理性，而且展示了開發具有復數運算的神經網絡模塊的可行性。
FT 神經元模型的計算性質研究。計算性質的研究主要關心神經元模型的可計算性、可學習性以及時間建模能力等問題。本文工作從預測可學習性理論和記憶性理論兩方面分析 FT 模型的計算性質，理論展示了 FT 模型在時空數據上的泛化能力和記憶能力: (1) 提出了關于神經網絡模型的預測可學習性理論，并給出了數據依賴情形下的泛化誤差界; (2) 提出了基于分數階估計的長記憶性判別準則，以評估 FT 神經元模型處理非平穩和變周期時序數據的能力。上述結果從理論上驗證了 FT 神經元模型在時空建模方面的能力。

關鍵詞：機器學習；神經網絡；突觸可塑性；MP 神經元模型；脈沖神經元模型； FT 神經元模型；機器學習理論；時間序列分析

付費5元查看完整內容

博士論文 · 邊緣智能 · 微型機器學習系統 ·

2024 年 2 月 25 日

[付費5元查看完整內容]【博士論文】面向邊緣智能的高效微型機器學習系統，212頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代機器學習（ML）應用經常部署在云環境中，以利用集群的計算能力。然而，傳統的云計算方案無法滿足新興邊緣智能場景的需求，包括提供個性化模型、保護用戶隱私、適應實時任務和節省資源成本。為了克服傳統云計算的局限，一種新趨勢是利用設備上的學習范式，使端到端的ML過程更靠近邊緣設備。因此，設備上學習的有望優勢促進了微型機器學習（TinyML）系統的興起，一個專注于在資源受限的邊緣設備上，如微控制器、物聯網（IoT）傳感器和嵌入式設備，開發ML算法和模型的領域。“微型”這一術語強調了這些設備上有限的處理能力、內存容量和能源資源。正如§1.1中討論的研究背景，TinyML已成為一個重要的研究主題，由于邊緣智能應用的增長，包括智能家居、可穿戴設備、機器人和醫療服務。通過在無處不在的邊緣設備上應用TinyML系統，開發者和研究者可以有效地減少推理延遲、節省資源成本、提高使用體驗和保護用戶隱私。

然而，在實踐中實現一個高性能的TinyML系統并不容易。我們需要深入探討基礎架構設計和框架實現，從全棧的系統實現角度出發，包括減少數據規模、模型復雜度、計算開銷和通信流量。為了構建一個高效的TinyML系統，我們總結了系統設計和實現中的三個核心挑戰，在§1.2中。這些挑戰激發了我們方法論的設計原則，對應于本論文在§1.3中的主要貢獻。更準確地說，通過在第2章中對TinyML系統進行全面的背景回顧，我們打算從三個方面優化系統設計：（1）利用INT8量化感知訓練在第3章中突破邊緣設備上的計算資源限制，（2）在第4章中利用層次化的通道-空間編碼來緩解邊緣-云協作期間的通信瓶頸，（3）在第5章中探索補丁自動跳過方案以提高設備上模型執行效率。

首先，如第3章將討論的，我們專注于打破有限資源的約束，減輕計算開銷，并討論如何提高設備上學習的計算速度。我們展示了在深度模型的前向和后向傳遞中使用8位固定點（INT8）量化是一種在實踐中啟用微型設備上學習的有望方式。一個高效的量化感知訓練方法的關鍵是在保留每層訓練質量的同時利用硬件級別啟用的加速。我們在Octo中實現了我們的方法，一個輕量級的跨平臺系統，用于微型設備上的學習。實驗表明，Octo在訓練效率上超過了最先進的量化訓練方法，同時在處理速度和內存減少方面實現了充分精度訓練的適當加速。

其次，如第4章將討論的，我們還涵蓋了連續數據分析和視頻流應用。在這種情況下，通過減少流量大小來提高通信效率是現實部署中最關鍵的問題之一。現有系統主要在像素級別壓縮特征，忽略了可以進一步利用以實現更有效壓縮的特征結構特性。在這項工作中，我們通過對特征進行分層壓縮，采取了名為Stripewise Group Quantization（SGQ）的新洞察來實現可擴展的CL系統。與以前的非結構化量化方法不同，SGQ同時捕獲通道和像素中的空間相似性，并在這兩個層面上編碼特征，以獲得更高的壓縮比。實驗表明，SGQ可以在流量大大減少的同時，仍然保持學習精度與原始全精度版本一致。這驗證了SGQ可以應用于廣泛的邊緣智能應用。

第三，如第5章將討論的，在資源有限的邊緣設備上，實時視頻感知任務通常因精度下降和硬件開銷問題而具有挑戰性，其中節省計算是性能改進的關鍵。現有方法主要依賴于特定領域的神經芯片或先前搜索的模型，這需要根據不同任務屬性進行專門優化。這些限制激發了我們設計一種通用和任務獨立的方法論，稱為Patch Automatic Skip Scheme（PASS），通過解耦加速和任務來支持多種視頻感知設置。要點是捕獲幀間相關性，并在補丁級別跳過冗余計算，其中補丁是視覺中的非重疊正方形塊。實驗表明，應用PASS可以提升設備上的視頻感知性能，包括處理加速、內存減少、計算節省、模型質量、預測穩定性和環境適應性。PASS可以推廣到商品邊緣設備上的實時視頻流，例如NVIDIA Jetson Nano，在現實部署中以高效的性能。總之，TinyML是一種新興技術，為啟用邊緣智能鋪平了最后一里路，它消除了傳統云計算的局限，其中需要大量的計算能力和內存。構建一個高效的TinyML系統需要打破有限資源的約束并減輕計算開銷。因此，本論文提出了TinyML系統實現的軟硬件協同。在商業邊緣設備上的廣泛評估顯示了我們提出的系統相比現有解決方案的顯著性能改進。

付費5元查看完整內容

博士論文 · 大數據 · 并發圖計算 · 分布式圖計算 · 高性能計算 ·

2023 年 12 月 13 日

[付費5元查看完整內容]【博士論文】高性能并發圖計算優化技術研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖能夠方便地表達事物之間的關聯關系，因而廣泛應用于現實生活中的諸多應用場景，例如社交網絡圖、電路圖和電商交易圖，為圖計算賦能數據挖掘和分析提供基礎。由于圖計算的重要性和普遍性，同一圖計算平臺上通常并行運行著大量圖算法（以下簡稱并發圖計算任務），為不同的應用或者用戶提供高性能的圖計算能力支撐。除了與傳統圖計算任務相同的計算特征外，并發圖計算任務還存在著嚴重的資源競爭、數據競爭等新型挑戰，任務并發度和總體性能較低。為此，如何設計面向并發圖計算任務的高性能執行環境，快速挖掘出海量圖數據中潛在的各種商業或科學價值，已成為目前亟需解決的問題。為了高效支持圖計算任務的執行，目前國內外學者已經從面向圖計算的體系結構和系統軟件等方面開展了廣泛的研究。然而，現有圖計算硬件加速器和軟件系統無法充分感知不同圖計算任務之間的運行時特征，例如潛在的數據局部性和通信行為相似性等。現有方案在支持并發圖計算任務時面臨著數據訪問行為不規則、冗余訪存開銷大以及通信效率低等問題，導致嚴重的數據訪問瓶頸和底層硬件資源的低效利用。為了解決并發圖計算任務面臨的挑戰，分別從體系結構層面和系統軟件層面開展研究來實現高性能并發圖計算技術，有效支持并發圖計算任務的執行。針對并發圖計算任務數據訪問行為不規則問題，提出了以數據局部性為中心的并發圖計算硬件加速技術，以提高并發圖計算任務的訪存效率。分析發現，由于不同圖計算任務往往沿著同一圖拓撲來遍歷相同圖數據，這些任務之間存在極強的數據局部性。基于此發現，該硬件加速技術首先動態探索并發圖計算任務活躍圖頂點之間的依賴關系，使并發圖計算任務沿著圖拓撲遍歷和處理相同圖數據，以此來規則化并發圖計算任務的圖遍歷行為。其次，該硬件加速技術對并發圖計算任務的圖頂點訪問進行高效合并，從而提高頂點訪問的局部性。實驗結果表明，與現有圖計算硬件加速技術 HATS、Minnow 和 PHI 相比，本設計能夠獲得最高 11.3 倍的加速比。針對并發圖計算任務冗余訪存開銷大問題，提出基于細粒度同步的核外并發圖計算技術。該技術首先提出了一種面向并發圖計算任務的細粒度同步執行機制，使得只需在緩存和內存中加載和存儲相同圖結構數據的一個副本就能服務多個并發圖計算任務，從而降低圖數據的冗余訪存成本，提高底層硬件資源的利用率。其次，提出了圖結構感知的數據重劃分和緩存機制，通過自適應地加載并發圖計算任務所需的圖數據，并將頻繁使用的圖數據緩存在主存中，提高加載圖數據利用率和最小化 I/O 開銷。實驗結果表明，所提出的核外并發圖計算技術，能夠將現有圖計算系統 GridGraph、GraphChi 和 X-Stream 的并發圖計算任務吞吐率最高提升 13 倍。針對并發圖計算任務在分布式環境下擴展性差的問題，提出了相似性感知的分布式并發圖計算技術。分析發現，并發圖計算任務之間的通信行為存在極強的相似性。基于此發現，首先提出了相似性感知的分布式并發圖計算執行機制，其沿著圖劃分塊之間的拓撲關系來加載圖數據，并以此高效驅動分布式平臺中每個計算節點上的任務執行，從而使得加載的圖數據能夠被更多任務共享；通過高效的通信機制來使得不同任務的通信行為以規則的方式批量進行，從而降低并發圖計算任務的通信成本，提高通信效率。其次，提出了面向并發圖計算任務的增量負載均衡機制和面向動態圖處理的數據存儲優化機制，以此來提高分布式計算資源利用率和保證在支持動態圖處理時的執行效率。實驗結果表明，與分布式圖計算系統 Gemini 和 Seraph 相比，本設計在支持并發圖計算任務時能夠獲得最高 6 倍的加速比。總的來說，本文分別研究了并發圖計算任務不規則訪存行為與底層體系結構不匹配問題、并發圖計算任務之間冗余數據訪存開銷高問題以及分布式并發圖計算擴展性差問題，圍繞體系結構、單機和分布式系統軟件層面實現高性能并發圖計算技術，顯著提升并發圖計算任務的執行性能。

付費5元查看完整內容

目標檢測 · 博士論文 ·

2023 年 12 月 1 日

[付費5元查看完整內容]【博士論文】復雜場景下高精度有向目標檢測的研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本論文旨在研究復雜場景下高精度的有向目標檢測算法。有向目標檢測是通用水平目標檢測的一個擴展研究方向，其主要特點是可以更精準地定位目標，并擅長完成包含大量密集排列、大長寬比、方向任意目標的復雜場景的檢測任務。大量文獻表明，有向目標檢測不僅在計算機視覺領域中有著重要的學術研究價值，在國防建設、科學技術、醫學治療、食品健康、工業發展、環境保護、農業養殖、公共安全、文化傳播等領域也具有廣闊的應用價值。受益于通用水平目標檢測在深度學習時代的蓬勃發展，有向目標檢測器可以很輕松地基于先進的水平檢測算法進行實現。但是，有向目標檢測的研究常常需要面對一些獨特的問題挑戰，如不同定義法下由邊界不連續造成的損失陡增、類正方目標導致的表示歧義等。如何更加高效地實現高精度有向目標檢測已成為當下的研究熱點。本論文以有向目標檢測為研究重點，在魯棒有向目標檢測器搭建、高效位姿參數估計、弱監督算法探索以及有向目標檢測工具設計這四個方面來擴展和完善現有的算法。論文的主要貢獻包含以下幾方面：

? 介紹了如何基于一個水平目標檢測器搭建出一個有向目標檢測器，主要內容包括不同旋轉框的定義、不同錨框的形式、旋轉框重疊率的計算、回歸參數的估計以及回歸損失等基礎知識。

? 提出了一種從粗到細的漸進式回歸的有向目標檢測器 R 3Det。本文針對單階段級聯檢測器中存在的特征不對齊問題設計了特征精修模塊，最終在精度和速度之間取得了較佳的平衡。

? 在特定旋轉框定義法下，本文通過將角度估計方式從回歸轉換成精細的分類（CSL 和 DCL）以解決有向目標檢測中的邊界不連續問題，并進一步采用四邊分類的策略在構造的新數據集 OHD-SJTU 上實現了目標頭部檢測。

? 為同時解決邊界不連續、類正方形檢測以及評估與損失不一致性等問題，本文提出了高斯分布建模和距離度量技術（GWD 和 KLD）。通過尺度不變性證明和梯度分析，本文發現使用 KLD 作為最終的回歸損失可以顯著地提升高精度指標。

? 在保留高斯分布建模的優勢下，本文提出了使用分布之間的相似性度量 (KFIoU) 取代距離度量，更好地解決了評估與損失不一致的問題并在不引入任何超參數的情況下取得了性能的提升。

? 本文首次在目標檢測領域中提出了一個新的研究課題：基于水平框標注訓練的弱監督有向目標檢。同時，本文設計了一種新的自監督的網絡架構 (H2RBox)，其通過衡量輸入圖片在不同視圖下的一致性來實現精準的旋轉。框估計。與基于弱監督實例分割的方法相比，H2RBox 具有性能高、速度快和存儲需求低的優勢，且各方面都接近強監督有向目標檢測算法。

? 從學術研究、工業部署和國產化三個角度出發，本文分別基于 TensorFlow、 PyTorch 和 Jittor 搭建了三種各具特色的有向目標檢測工具：MMRotate、 AlphaRotate 和 JDet，為有向目標檢測的發展和應用提供了便利。

付費5元查看完整內容

新加坡國立大學 · 博士論文 · 深度學習 · 對抗魯棒性 ·

2022 年 11 月 25 日

[付費5元查看完整內容]【NUS博士論文】深度視覺算法的對抗魯棒性研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習方法在解決計算機視覺任務方面取得了巨大的成功，在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而，深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此，深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。對于圖像去噪，我們系統地研究了深度圖像去噪器的魯棒性。具體而言，我們提出了一種新的攻擊方法，基于觀測的零均值攻擊(ObsAtk)，考慮了自然噪聲的零均值假設，對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk，我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外，我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現，只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類，我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先，研究了神經常微分方程的魯棒性。我們通過經驗證明，與基于CNN的分類器相比，基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性，我們將時不變屬性引入到節點中，并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型，稱為時不變穩定神經ODE (TisODE)，比vanilla 節點更魯棒。 其次，從通道激活的角度研究了vanilla CNN的魯棒性，并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是，我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到，對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道，誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活，觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此，我們假設，根據通道與真實類別的相關性，放大通道的激活可以提高魯棒性。為了驗證這一假設，我們開發了一種新的通道操作技術，即基于通道重要性的特征選擇(CIFS)，該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述，本文系統研究了深度視覺算法的魯棒性，包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。

付費5元查看完整內容

深度估計 · 法向量預測 · 語義分割 · 場景理解 · 深度神經網絡 ·

2021 年 12 月 8 日

[付費5元查看完整內容]【博士論文】基于深度學習的單目場景深度估計方法研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于深度學習的單目場景深度估計方法研究

單目圖像的深度估計是計算機視覺研究的基礎性課題，由于其可以指導多種高階視覺任務的學習，且具有良好的實際應用前景，近年來也成為計算機視覺領域的熱門課題。單目深度估計旨在基于單張圖片或單目視頻信息，預測并恢復出場景像素級別的深度信息。由于現實場景較為復雜，且單目圖像或視頻信息又缺乏魯棒的幾何約束，現有的深度估計方法往往會丟失細節或無法預測正確的尺度信息，使得其實際應用受到制約。本文通過設計有效的深度卷積網絡及其學習框架，提出了幾種新的深度估計方法。主要研究成果概述如下：

（1）本文提出了一種新的多尺度端到端深度估計框架。先前的主流方法往往只能預測超像素級別的深度信息，或基于多步非端到端的學習方法。這導致了算法預測的深度圖像丟失細節，且不利于實際應用。為了端到端的預測精細的深度圖像，本文從兩個方面整合了多尺度信息：（a）提出了一種新的多尺度網絡以學習多級深度表征，并利用多尺度表征逐步地引導網絡的上采樣和預測過程；（b）提出了一種細粒度正則化方法，使優化器引導網絡學習正確的深度結構信息。在不同數據集上的大量實驗表明，本文的方法可以預測更完善的細節信息，且可以取得同期最佳的預測效果。

（2）現有的基于深度神經網絡的方法缺少有效機制以恢復并保留深度圖像中的邊緣細節信息，這使其預測效果受到影響。因此，本文提出了一種新的漸進困難挖掘網絡以處理該問題。特別地，本文構建了困難挖掘目標函數，尺度內和尺度間子網絡來精確地定位和修正預測困難的區域。尺度內修正模塊可以遞歸地從不同語義特征中恢復深度細節，尺度間修正模塊可以利用不同尺度的深度信息進行互補交互。困難挖掘目標函數可以引導網絡的學習過程，使得網絡自適應地關注容易產生累計預測誤差的區域。這三種模塊可以有效地協作，逐步地減少學習過程中的誤差傳播，進一步地增強深度預測效果。大量的實驗分析表明，本文的方法可以有效恢復深度圖像中的邊緣和細節信息，并取得同期最好的預測效果。

（3）本文提出了一種新的任務遞歸學習框架（Task-recursive Learning, TRL）以同時處理語義分割，平面法向量預測和深度估計三個任務。TRL 通過一系列任務層面的交互以遞歸地修正預測結果，其中位于每一個時間階段的網絡模塊可以封裝每一個跨任務交互過程。在每一個時間階段內，TRL將多任務學習過程序列化，并遞歸地進行交互。為了自適應地增強任務間的相似模式，本文將交互過程封裝在任務注意力模塊（TAM）中，進而使任務的學習過程可以相互促進。在時間階段之間，通過使用特征選擇單元（FS-unit），網絡將先前獲得的經驗有選擇性地傳播至接下來的時間節點，進而使任務間的互補信息更充分地被利用。同時，任務交互序列也在由粗到細的尺度空間中得到延伸，使得細節信息可以被逐步地修正。最終，該多任務序列化問題被統一地整合進遞歸網絡框架中。在公開數據集上的大量實驗表明，本文的方法可以遞歸地修正三個任務的預測結果，并獲得同期最佳的數值效果。

（4）本文提出了一種新的模式相似性傳播框架以同時預測場景深度，法向量和語義分割。其動機來自于相應的統計觀察，即模式相似像素對在同一任務內部和不同任務之間均頻繁地出現。因此，可以進行兩種形式的傳播過程，即跨任務傳播和任務特異傳播以自適應地擴散這些相似的模式。跨任務傳播通過計算非局部的關聯性信息以整合跨任務的相似模式，使這些相似模式更好的適應每一個任務。任務特異性傳播則是在特征空間進行迭代擴散過程，使跨任務的相似模式能夠被廣泛地應用于任務內部。由此一來，這些任務層面的關聯性信息可以調整和促進每一個任務的學習。在公開數據集上的大量實驗證明了本文方法的有效性，同時也在多個數據集和三個任務上獲得了同期最佳的效果。

（5）在線的景深學習問題要求連續地調整深度估計模型使其適應于不斷變化的場景。由于神經網絡往往容易過擬合至當前場景而遺忘之前學得的經驗，這類開放世界問題十分具有挑戰性。為此，本文提出了一種新的抵抗遺忘的學習方法（LPF）以處理無監督的在線單目景深學習。與以往更新模型中所有參數的方法不同的是， LPF學習適應器模塊以高效地調整特征表示和分布，從而避免在線場景下的知識丟失問題。具體地，本文提出了一個新的元學習方法，通過將在線適應過程與目標函數相結合，使學習到的適應器模塊可以適應于視頻中時間連續的景深模式。為了進一步地避免過擬合，本文提出了一種新的時間連續正則化方法來調整每個在線學習步驟的梯度下降過程。在現實場景數據庫上的大量實驗表明，本文的方法在僅增加少量參數的情況下，明顯地提升了在線景深估計的質量。

付費5元查看完整內容

機器學習 · 多標記學習 · 標記分布學習 · 標記增強 · 博士論文 ·

2021 年 12 月 3 日

[付費5元查看完整內容]【博士論文】機器學習中的標記增強理論與應用研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習中的標記增強理論與應用研究

標記端多義性是當今機器學習的熱點問題。多標記學習中，每個樣本都被賦予一組標記子集來表示其多種語義信息。然而，標記強度差異現象在多義性機器學習任務中廣泛存在，而既有多標記學習研究中普遍采用的相關/無關兩個子集的邏輯劃分法幾乎完全忽視了這種現象，造成學習過程中不可避免的信息損失。針對這一突出問題，有必要用一種稱為標記分布的標注結構來代替邏輯標記對示例的類別信息進行描述。標記分布通過連續的描述度來顯式表達每個標記與數據對象的關聯強度，很自然地解決了標記強度差異的問題，而在以標記分布標注的數據集上學習的過程就稱為標記分布學習。由于描述度的標注成本更高且常常沒有客觀的量化標準，現實任務中大量的多義性數據仍然是以簡單邏輯標記標注的，為此本文提出了標記增強這一概念。標記增強在不增加額外數據標注負擔的前提下，挖掘訓練樣本中蘊含的標記重要性差異信息，將邏輯標記轉化為標記分布。

本文對標記增強進行研究，主要工作包括：構建標記增強基礎理論框架。該理論框架回答了以下三個問題：第一，標記增強所需的類別信息從何而來？即標記分布的內在生成機制；第二，標記增強的結果如何評價？即標記增強所得標記分布的質量評價機制；第三，標記增強為何有效？即標記增強對后續分類器的泛化性能提升機制。理論分析和實驗結果驗證了標記增強的有效性。

提出一種面向標記分布學習的標記增強專用算法。以面向標記分布學習的標記增強為目標專門設計的算法十分重要，其關鍵是如何設計能夠充分挖掘數據中隱藏的標記信息的優化目標函數。因此，本文提出一種面向標記分布學習的標記增強方法 GLLE。該方法利用訓練樣本特征空間的拓撲結構以及標記間相關性，挖掘了標記強度信息，從而生成了標記分布。實驗結果驗證了 GLLE 對邏輯標記數據集進行標記增強處理后使用標記分布學習的有效性。

標記增強在其他學習范式上的應用。本文提出了基于標記增強的多標記學習方法 LEMLL，該方法將標記增強與多標記預測模型統一到同一學習目標中，使得預測模型可以在更為豐富的監督信息下進行訓練，有效地提升了學習效果。本文提出了基于標記增強的偏標記學習方法 PLLE，該方法利用標記增強恢復候選標記的描述度，使得后續的學習問題轉化為多輸出回歸問題。在多標記數據集和偏標記數據集上的實驗結果顯示，相較于對比算法，基于標記增強方法取得了顯著更優的表現。

付費5元查看完整內容

深度序列建模 · 自然語言處理 · 博士論文 ·

2020 年 12 月 20 日

[付費5元查看完整內容]【博士論文】面向文本生成的深度序列模型研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

面向文本生成的深度序列模型研究

人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力，實現文本的自動生成。文本生成范圍很廣，按照不同的輸入劃分，可包括圖像到文本的生成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中，文本到文本的生成旨在分析理解輸入文本，撰寫得到新的自然語言文本。文本到文本生成技術廣泛應用在智能編輯、智能助理、人機對話等領域，悄然融入到人們的日常生活中，也成為學術界研究的熱點。

文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實信息需求的文本。本文根據信息變換方式的不同，將文本到文本的生成劃分成三類任務：壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本集合壓縮成簡明扼要的內容；對等式生成中輸入文本和輸出文本在語義上具有一一對應性；多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來，隨著深度學習的崛起，利用深度序列模型，實現序列到序列的學習已然成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主要包含三個環節：輸入文本的語義理解，輸入信息到輸出信息的映射，以及輸出文本的建模。基于此，本文研究了面向文本生成的深度序列建模過程中三個關鍵性的挑戰問題：1）輸入文本的語義繁雜性；2）輸入文本和輸出文本間的映射多樣性；3）輸出文本的結構復雜性。

首先，針對語義繁雜性問題，本文提出了兩種利用深度學習技術進行語義精簡表征的算法。首先，從無監督方式利用詞向量表達文檔語義的角度，本文提出了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間的語義關聯性，并且缺乏合理的概率統計基礎。針對這兩個問題，本文設計了一個詞向量聚合框架，利用球上連續概率分布建模詞向量間的余弦相似度，以及一個基于詞向量的概率生成模型，同時建模文本和單詞的生成。其次，從有監督方式直接利用神經網絡端到端建模文本生成的角度，針對壓縮式生成中輸入文本較長帶來的復雜語義理解問題，本文設計了層次化的表征模型，捕捉文檔中的層次組成結構。句子是關于長文檔核心主題的更主要的載體。但是，現有的工作平等地對待每個句子，并未考慮不同句子所起作用的不同。針對此問題，本文提出了自我注意力機制，自動學習不同句子的權重，以組合得到最終的文檔表達。實驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。

然后，針對映射多樣性問題，本文提出了基于顯式的控制變量來幫助學習映射關系的模型。現有工作僅用單模型來學習映射關系，因此只適用于對等式生成，在多樣化生成中失敗。針對此問題，本文直接面向對話任務，解決 “話語-回復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出了一種新的可控回復生成機制，將具體化控制變量引入到深度序列模型中，并通過高斯核層與單詞的使用表達相互作用，以指導模型生成不同具體化程度下的回復。當變量設為固定值時，模型刻畫的就是一對一關系，適用于對等式生成。實驗結果證明，本文所提模型可以有效地控制目標文本的生成。

最后，針對結構復雜性問題，本文分別從非結構化文本和結構化文本兩個角度對輸出文本進行了研究。首先，針對非結構化文本中疑問句存在的疑問模式，本文在基于自我注意力機制的深度序列模型中，引入疑問詞詞表，并在非疑問詞和疑問詞詞表上使用詞表選擇機制，以更好地學習疑問句模式。其次，相比于非結構化文本，結構化文本能夠更有條理地組織信息，然而鮮有人關注結構化文本的生成，比如提綱、信息表和報表等。因此，本文提出了提綱生成任務，識別多段落文檔中潛在的章節并生成相應的章節標題，并將其形式化為層次化的結構預測問題，提出了層次化的結構生成模型，捕捉三個級別的一致性。實驗證實，本文所提模型不僅可以捕捉文本的內在復雜結構，并且可以顯著提升生成效果。

綜上所述，本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到文本的生成任務，在深度序列建模的三個環節，理解、映射以及建模上的問題，并相應的提出了多個新穎的深度模型，在公開的評測數據集上對各個模型的性能進行了驗證。

付費5元查看完整內容

機器學習 · 博士論文 · 收斂 · 非凸算法 · 隨機算法 ·

2020 年 12 月 7 日

[付費5元查看完整內容]【博士論文】機器學習中部分非凸和隨機優化算法研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習中部分非凸和隨機優化算法研究

機器學習是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。算法理論與應用是機器學習中最為重要的核心之一。其中一階優化算法因其簡單有效性，而被廣泛研究與應用。另一方面由于近年來數據規模的不斷增大，數據集的規模使得二階或更高階的算法應用受阻。這使得一階算法進一步成為機器學習的研究重點。隨著機器學習中問題模型的不斷擴張，例如深度學習，非凸問題和模型也激發了學者們廣泛的研究興趣。這使得研究非凸算法顯得更加急迫。而且由于數據集的龐大性，確定算法難以逃出鞍點，因此隨機算法受到了史無前例的關注。本文主要結果可以歸納如下：

一、研究了三種 ADMM 算法。第一個 ADMM 的工作是關于一般的 ADMM 收斂性分析統一框架。在此框架下，很多現有的 ADMM 收斂性分析可以歸納進該框架。除了現有的 ADMM 算法，根據統一框架還能夠設計出新的 ADMM 算法。第二個和第三個 ADMM 都是針對結構非凸優化問題提出的：一個是針對泛 ?q 正則化約束優化問題，而另一個是針對 ?1?2 正則化約束優化。給出了后面兩種非凸 ADMM 算法的收斂性分析，所得到的結果可以指導用戶選擇合適的超參數。

二、研究了兩種一階優化領域常用的非精確算法。第一種是非精確的加速算法。相較于之前的研究，該算法的假設更為真實。而且還囊括了一大類隨機噪聲的情況，使得算法更為實用。而機器學習中的一階催化劑算法由于是該加速算法帶上了隨機噪聲，因此可以看做本算法的特例。在第二部分給出了非精確非凸算法的收斂性框架理論。可以被廣泛應用到各種一階非凸算法。

三、證明了在有界和無界延遲以及隨機和確定性塊選擇下異步并行梯度下降法的收斂結果。這些結果不需要迄今為止絕大多數其他工作中出現的獨立性假設。這是由于本文使用了 Lyapunov 函數技術，可直接處理延遲，而不是像之前的工作一樣僅僅將它們建模為噪聲。

四、分析了馬爾可夫鏈隨機梯度下降法，其中樣本采用了某個馬爾可夫鏈的軌跡。主要貢獻之一是給出了馬爾可夫鏈隨機梯度下降法的在凸情況下的非遍歷收斂分析。結果然后擴展到不精確的格式。這種分析使得能夠建立不可逆有限狀態馬爾可夫鏈和非凸最小化問題的收斂性。這樣的結果適用于不知道具體的概率分布，但可以通過馬爾可夫鏈進行采樣的情形。

付費5元查看完整內容