生成模型近年來在二維和視頻合成領域取得了顯著進展。然而,二維和視頻生成中仍然存在明顯的不一致性,例如光照和幾何相關的問題。引入三維建模有望增強二維和視頻生成的連貫性與真實感,從而推動三維生成技術的進一步發展。鑒于直接用于生成建模的大量三維數據收集存在挑戰,從單視圖圖像學習三維分布成為一種可行的三維生成方法。這種方法得益于大量可用的非結構化、高質量且多樣化的單視圖圖像數據。一種常見的從單視圖圖像生成三維內容的策略是采用生成對抗網絡(GAN),并用三維渲染器替代生成器。本論文從四個角度探討了三維生成領域。首先,我們研究生成的幾何形狀,并提出通過將三維感知注入到生成器和判別器中來增強學習到的幾何結構。其次,我們分析了三維生成模型訓練中對姿態的要求,并解除生成器對姿態先驗的限制,從而實現更靈活的三維生成模型。第三,在復雜場景合成的背景下,我們分析了現有方法的不足,并提出利用三維先驗來促進從單視圖場景圖像進行三維建模。第四,我們還將討論高效三維生成表示的引入,特別是高斯散點表示(Gaussian Splatting)。最后,我們展望了三維生成領域的未來發展方向。深度學習的快速發展[21]顯著推動了計算機視覺領域中的許多任務,例如視覺對象識別[22, 23]、目標檢測[24, 25, 26]、圖像渲染[27, 28, 1]等,并在諸多方面便利了我們的日常生活,如自動駕駛[29, 30]、生物研究[31]和智能創作[32, 33]。在所有技術類型中,生成建模[34, 35, 36]在數據分析和機器學習中發揮了重要作用。與直接對輸入進行預測的判別模型不同,生成模型旨在再現數據分布,以便能夠從中采樣新的實例。為此目的,它們需要全面地表征數據。例如,檢測模型可以忽略與任務無關的信息(如顏色)而不影響性能,但生成模型需要管理圖像的每個細節(如物體排列以及每個物體的紋理)以實現令人滿意的生成。從這一角度來看,學習生成模型通常更具挑戰性,但同時也促進了一系列應用[37, 38, 39, 33]。近年來,深度生成模型[35, 34, 36]在二維圖像合成[33, 40, 41]方面取得了令人難以置信的成功。然而,在二維空間中學習生成模型已逐漸難以滿足某些現實世界應用的需求,因為我們的物理世界實際上是三維的。以電影行業為例,我們期望設計三維數字資產,而不僅僅是生成二維圖像,以帶來身臨其境的體驗。現有的內容創作流程通常需要大量專業知識和人力投入,這既耗時又昂貴。許多開創性的嘗試[42, 43, 44, 45, 2, 46]旨在研究如何自動生成三維數據,但這類研究仍處于早期階段。二維生成和三維生成之間的關鍵區別之一在于數據格式。具體而言,二維圖像可以自然地表示為像素值的數組,便于神經網絡[22, 23]處理。而常見的三維表示形式(如點云[47, 48]、網格[49, 50]和體素網格[51, 52])則難以直接被卷積神經網絡處理。最近,隱式表示形式Neural Radiance Field(NeRF)[1]被提出用于通過學習從坐標到三維屬性的映射來建模三維對象,成為與神經網絡兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通過將NeRF與生成對抗網絡(GAN)[34]結合,使三維生成成為可能,從而發展出一種三維感知的GAN。具體而言,它們用三維渲染器替代GAN中的生成器。這種替換使得在生成圖像時可以顯式地控制視點,從而得益于生成器的三維感知能力。三維生成的難點還來源于訓練數據的獲取。在理想情況下,高質量三維資產的全面集合對于準確的生成建模至關重要。然而,使用設備大規模獲取此類數據極其困難。一種引人注目的方法是探索從二維生成數據集中轉移知識的潛力。一種可行的方法是利用二維單視圖圖像數據集學習三維表示。每個三維對象通常對應多個從不同視點拍攝的相似圖像,具有類似的結構。例如,在數據集中可能僅有不超過兩張同一人臉的圖像。鑒于人臉的共同結構特性,從不同角度拍攝的多樣化圖像中提取通用人臉特征是可行的。這使得模型能夠想象每個人臉的未見視圖。通過這種方式,可以探索如何從二維單視圖圖像集合中學習三維生成。構建高效三維生成器需考慮以下幾個關鍵因素:
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法:
在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能。
視覺生成模型,尤其是擴散模型,在高質量視覺生成方面展示了令人驚嘆的性能,越來越受到學術界和工業界的關注。代表性模型或工具,如DALLE-3 [1] 和 MidJourney,已經廣泛應用于日常生活,幫助創作藝術作品或圖片。然而,這些強大的工具也帶來了潛在風險,因為它們可能被惡意使用來生成并傳播不安全的內容,如色情和暴力圖片,可能導致嚴重后果。在本文中,我們討論了如何從不同方面使視覺生成模型更加可靠和可控。特別地,我們重點關注擴散模型,因為它們是目前最廣泛使用的視覺生成模型。 首先,我們揭示了擴散模型中存在的潛在風險,表明在訓練過程中,它們可能容易被插入(惡意的)隱形后門,這可能導致不可靠和有害的行為。為此,我們提出了一種新的雙層優化框架來表述訓練過程,可以通過提出的不同算法實例化,分別用于無條件和條件擴散模型。大量實驗表明,后門可以在不影響模型正常性能的情況下有效插入,從而使后門更加隱蔽和穩健。同時,我們實證發現,目前各種防御方法無法緩解提出的隱形后門,增強了該方法在實際應用中的可用性。此外,所提出的隱形后門還可以直接應用于模型水印,用于在黑盒環境中進行模型所有權驗證,進一步增強了該框架的意義。 接下來,我們重點討論文本到圖像的擴散模型的可控生成。我們介紹了MuLan,一種多模態大語言模型(Multimodal-LLM)代理,它可以根據文本提示逐步生成對象。MuLan首先將提示分解為幾個子提示,每個子提示專注于一個對象。每個對象的生成都依賴于先前生成的對象。通過一個視覺語言模型(VLM)檢查器,MuLan可以及時監控生成過程,并在每個生成階段后自適應地修正可能的錯誤。MuLan大大提升了在文本提示中對象屬性和空間關系的生成性能。通過GPT-4V [2] 和人類的評估,大量實驗表明MuLan的卓越性能。此外,我們展示了MuLan可以在生成過程中啟用人機交互,進一步增強生成過程的靈活性和效果。 //lbezone.hkust.edu.hk/bib/9903412#
視頻理解在計算機視覺中是一個重大挑戰,因為每天有數十億視頻被消費,同時還有數百萬新視頻不斷產生。為了幫助人類在推薦系統、機器人助手和自動駕駛等多個任務中,開發出一種可靠的視頻理解模型至關重要。 過去十年中,計算機硬件、深度學習技術的進步以及大量數據,推動了計算機視覺研究的顯著進展。然而,由于視頻中增加的時間維度,視頻研究依然是不成熟且充滿挑戰的。視頻理解需要同時對空間和時間信息進行建模,這使得任務更加復雜。此外,視頻處理和分析需要大量的計算資源和時間,且由于其高維性,標注視頻數據耗時且困難。
本文提出了旨在解決視頻理解任務中效率和可擴展性挑戰的創新方法。本研究的第一個貢獻是引入了一種新穎的視頻分類遷移學習方法,稱為時空適配器(ST-Adapter)。通過利用ST-Adapter,可以用最少的參數變化和更新,將圖像基礎模型適應于動作識別任務。這種方法顯著提高了圖像到視頻遷移學習的效率。第二個貢獻是引入人物場景關系的視頻動作檢測網絡,稱為ACAR-Net。ACAR-Net旨在學習和編碼關系特征,從而顯著提高動作檢測性能。值得注意的是,這是在不需要顯式關系和物體標注的情況下實現的。我們做出的第三個貢獻是針對零樣本視頻問答(VideoQA)的檢索回答(R2A)框架。R2A框架旨在通過結合訪問外部知識源來增強現有的多模態模型。這種設計選擇使模型的知識源和組件能夠以可擴展和可持續的方式進行最小成本的更新。最后,我們通過生成方法探索視頻場景理解。我們的貢獻在于一個兩步式生成框架,將這一復雜任務分解為兩個更簡單的子問題。在第一階段,我們僅生成高質量的第一幀。在第二階段,我們根據場景的語義含義對場景進行動畫化,以獲得時間上連貫的視頻,從而取得了高質量的視頻生成結果。通過所提出的框架,靜態和動態內容可以以循序漸進的方式實現,從而大幅度提高了生成質量。
//repository.lib.cuhk.edu.hk/en/item/cuhk-3368889
近年來,在計算攝影、虛擬現實、游戲和電影產業等領域,對視覺內容(如2D圖像和多幀視頻)的需求不斷增長。為了滿足這些需求,研究者們提出了多種生成模型,包括VQVAE、GAN和擴散模型(Diffusion Models),以促進從噪聲或文本生成視覺內容。然而,如何將這些模型應用于更實際的圖像到圖像生成任務(也稱為圖像處理與編輯)仍然是一個開放的挑戰。本論文探討了基于生成模型的圖像編輯范式,重點關注來自大規模預訓練的基礎模型。 我們首先探索了實時圖像縮放技術。現代相機拍攝的圖像可以達到6K分辨率,但這些圖像占用的存儲空間過大。為此,我們提出了一種量化自編碼器,通過優化熵損失將大型6K圖像壓縮為JPEG縮略圖,從而減小文件大小。隨后,一個高效的解碼器可以實時將低分辨率縮略圖還原為高分辨率圖像。 接著,我們轉向文本驅動的圖像修復技術。相機運動、數字電路噪聲以及惡劣天氣(如雨和霧)可能會降低攝影師拍攝的圖像質量。我們提出了一種基于擴散模型的圖像修復方法,該方法通過語義和修復指令進行引導。為了以較低的訓練成本實現這種多模態應用,我們使用合成退化圖像對預訓練的潛在擴散模型進行適配器微調。 最后,我們討論了文本驅動的視頻編輯方法。除了圖像層面的計算攝影外,創意特效也廣泛應用于游戲、電影和短視頻應用中。這些特效通常需要時間運動一致性和語義層面的編輯,例如身份和風格。由于目前沒有魯棒且開源的視頻生成模型可用,我們專注于以零樣本方式利用文本到圖像的潛在擴散模型。具體來說,我們將圖像生成模型轉換為視頻模型,并在DDIM反演過程中提取擴散Unet中的時空注意力圖,作為運動和幾何表示。然后,在DDIM去噪過程中,根據目標提示重新使用這些注意力圖。我們簡潔的框架能夠在保持顯著時間一致性的同時,實現形狀、屬性和全局風格的編輯。
隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。
衛星影像的廣泛可用性,例如在Google Earth等平臺上的應用,極大地增強了人們繪制和可視化地球表面的能力。盡管衛星影像具有廣覆蓋性和易獲取性,但其分辨率通常有限,缺乏探索感興趣環境(尤其是城市區域)所需的細節。街景圖像則在場景理解方面提供了重要的洞察力和實用性,從城市規劃到戶外導航,再到增強現實的多種應用都受益于街景圖像。然而,獲取街景圖像成本高昂,并且需要頻繁更新以保持準確性。相比之下,衛星影像更易獲取且無處不在,因此成為生成街景圖像的有前景替代方案。這一過程被稱為衛星到地面跨視圖合成(satellite-to-ground cross-view synthesis),因其廣泛的實際應用前景而受到廣泛關注。 從衛星圖像直接生成地面視圖需要克服顯著的技術挑戰,這主要是由于兩類圖像在視角和尺度上的巨大差異。本研究探討了創新方法,旨在生成幾何上一致且符合對應衛星圖像的3D城市場景和街景圖像,同時在不同視角之間保持強魯棒的多視圖一致性,并提升跨視圖合成和大規模3D城市場景的質量和真實感。 為實現這一目標,我們首先在生成管線中引入了一種地理變換層(geo-transformation layer)。該層通過估算的地面高度值構建密集體素網格,并將信息從俯視圖轉換為街景視圖,從而保留了物理的衛星到地面的關系,解決了幾何一致性問題。接著,通過在幾何中計算3D場景點云與幀像素之間的密集映射,我們提出了一種考慮點間空間關系的3D稀疏生成器,解決了在生成圖像序列時的多視圖一致性問題。此外,在隱式輻射場(implicit radiance field)爆炸性應用的背景下,我們進一步探索了神經場景表示在有限部分觀測下完成3D場景的潛在生成能力。我們提出了一種基于稀疏網格表示的可擴展新視圖合成管線,可以為大量不完整的場景數據填充合理的信息。
最后,我們不再僅局限于圖像或視頻生成,而是進一步提升到整個大規模場景的生成。我們的方法將擴散模型引入3D稀疏表示中,用于直接生成3D場景,并結合基于點的神經渲染技術,從任意視角生成一致且合理的圖像或視頻。
通過利用生成模型和神經渲染技術的最新進展,我們旨在提升場景級生成能力,彌合通過衛星圖像生成一致地面視圖的鴻溝,并釋放其在虛擬建模、地圖服務、3D城市設計、游戲、仿真以及跨視圖匹配等多樣化應用中的巨大潛力。本研究希望挖掘衛星影像的全部潛能,為理解我們所處的世界及其環境提供更深刻的洞察力。
機器人仿真、規劃、估計和控制都建立在數值優化的基礎上。與此同時,現代凸優化已經發展成為一種強大的技術,能夠在多項式時間內提供全局最優解。隨著可微優化和定制求解器的進展,這些求解器能夠生成平滑的導數,凸建模變得更加快速、可靠,并且完全可微。本論文展示了凸建模在多個領域中的有效性,如火星大氣進入引導、納米衛星空間望遠鏡指向、碰撞檢測、點云的接觸動力學、在線模型學習,以及最終一種無需導數的軌跡優化方法,該方法利用并行化仿真。在所有這些領域中,可微凸優化的可靠性和速度使得實時算法變得嚴格、高效,并且易于理解和修改。
本論文介紹了基于可微凸建模的機器人仿真、規劃和控制的新方法。通過在優化優先的框架中制定這些領域的算法,我們通常能夠簡化算法的復雜性,并將計算復雜度卸載到高度專業化和高效的求解器上。本論文重點擴展了許多現代凸建模的進展,其中求解器能夠在保持完全可微的同時,為凸優化問題提供全局最優解。由于這些求解器既快速又穩健,并且是可微的,它們可以像傳統的數值線性代數程序(如用來求解線性系統的程序)一樣使用。利用凸建模作為新算法開發的構建塊,可以實現簡單、高效且靈活的算法。
在1939年至1948年期間,Leonid Kantorovic、George Dantzig和John Von Neumann提出了線性規劃和對偶性相關的約束優化基本概念[39]。大約在同一時期,Karush-Kuhn-Tucker(KKT)條件被確立,明確了解決約束優化問題時“最優解”的含義[24]。當時,實踐者集中于在新引入的計算機上實現數值優化算法,而理論家則將注意力轉向約束優化領域的有用分類法。1983年,蘇聯科學家Nemirovski和Yudin首次正式提出,解決凸優化問題與解決一般非線性優化問題之間存在實質性的復雜度差異[22]。1980年代,穩健的內點方法開始出現,能夠在多項式時間內解決一般的凸優化問題[116]。隨著數值線性代數、算法發展和更快計算機的進步,到2000年代,凸優化已經成熟并準備好在日常應用中使用。諸如CVX [63]、CVXPY [40]和Convex.jl [179]等建模工具使得凸優化變得易于使用,它們通過將用自然數學語法描述的問題轉化為商業和開源求解器可以解決的形式,使凸優化變得更加易于應用。 在2010年代后期,[7]和[5]的研究使得能夠對針對通用問題參數的凸優化問題進行求導。如今,凸優化求解器被視為經過充分理解和可靠的可微函數,可廣泛應用于各類任務中。 第四章對一個經典的大氣進入引導框架(可追溯到阿波羅計劃)進行了更新,結合了凸優化,達到了最先進的性能。在4.2中,以一種在文獻中不常見但更適合數值優化的形式,討論了進入飛行器在任意大氣中的動力學。在此基礎上,詳細描述了基于凸優化的創新型“凸預測-修正進入引導”(CPEG)算法,該算法在4.4節中用于大氣引導。CPEG的性能在一組現實的初始條件下進行了驗證,并在4.5節中驗證了收斂性。 第五章在第四章的基礎上進行擴展,介紹了CPEG的更新變種,能夠在進入過程中直接考慮大氣不確定性。CPEG中的引導框架通過引入一個能夠進行大氣估計的估算器來增強,并對控制器-估算器堆棧進行了調整,以實現對飛行器的魯棒實時控制。該算法在現實的火星大氣條件下進行測試,消融研究驗證了大氣適應的重要性。
第六章利用基于凸優化的運動規劃器,通過加權支桿的驅動實現納米衛星空間望遠鏡的精確控制。傳統上,航天器指向控制是通過反作用輪來完成的,這些轉子通過旋轉來轉移角動量。由于這些輪子存在缺陷,振動會傳遞到望遠鏡,導致圖像質量下降。本章介紹了一種基于慢速旋轉長支桿的新型驅動策略,這一策略顯著不同于常見的快速旋轉反作用輪。在已知納米衛星軌道和地球磁場的情況下,凸優化運動規劃器能夠直接推理未來的擾動,從而僅通過支桿實現精確的姿態控制。該技術在一個精確的空間望遠鏡上得到演示,在日全食期間需要進行長時間曝光,而支桿不會超過其驅動極限。 第七章提出了一種新的碰撞檢測方法,能夠提供統一框架和光滑的可微性。傳統上,兩個凸形狀之間的碰撞檢測是通過求解兩形狀之間的最近點來完成的。這個問題對于許多常見的凸體是定義明確且容易解決的,但對于接觸的形狀,這個方法是不可微的,因此需要采用不同的算法。我們的方法利用了一個不同的框架:通過凸優化求解兩形狀之間的最小均勻縮放,從而導致它們的交集。這個問題很小,確保定義良好且沒有退化情況。結果凸優化問題的解是平滑且可微的,無論物體的配置如何,且該方法可用于指定代表性運動規劃中的碰撞避免約束。 第八章通過利用第七章相同的框架擴展了連續碰撞檢測。離散碰撞檢測檢查兩個靜態凸形狀是否發生碰撞,而連續碰撞檢測必須考慮形狀在運動時的問題。傳統上,離散碰撞檢測向連續碰撞檢測的過渡需要對算法進行大幅修改,并增加一些限制條件。相反,第七章的框架通過引入時間參數進行了擴展,利用另一個定義良好的凸優化問題來解決連續碰撞信息問題。該方法同樣是完全可微的,并且在碰撞-free運動規劃示例中得到了驗證,證明了離散碰撞檢測不足以避免接觸。 第九章詳細介紹了一種在線學習廣義線性模型的簡單而高效的框架,涉及到連接器插入問題。在這個應用中,插入公連接器到母插座中由于材料的變形、配合的緊密性以及未知的摩擦性質而成為一個難以模擬的挑戰。為了避免學習一個完整的動態仿真器,本研究僅學習控制信號、估計狀態和腕部安裝的力矩傳感器之間的關系。這個關系通過廣義線性模型表示,從而使得模型學習問題變得凸且定義明確。為了解決這個問題,提出了線性模型學習(LML)算法,通過僅使用矩陣-向量操作來遞歸地在線學習全局最優的估計模型。在沒有任何矩陣求逆的情況下,該算法在GPU上非常有效,能夠快速高效地學習大規模線性模型。 第十章探討了剛性點云上準動態仿真的性能,并擴展了常見的公式,以包括真實接觸的必要扭矩摩擦。當與剛性點云發生接觸時,單點接觸無法提供真實的扭矩摩擦,這種摩擦源自于現實中存在的接觸面補丁。為了解決這一問題,對基于優化的仿真框架進行了修改,自然地引入了與法向力成比例的扭矩摩擦項。結果的仿真步驟通過凸優化計算,因此完全可微。所得到的仿真器用于抓取具有真實接觸動力學的高保真點云。 第十一章介紹了一種軌跡束方法,用于使用黑箱仿真器、成本和約束條件進行高精度軌跡優化。現有的基于模型的軌跡優化方法能夠訪問問題中所有成本、動力學和約束函數的導數。在許多情況下,這是一個合理的假設,但對于許多具有挑戰性的機器人任務(如涉及非光滑接觸交互的任務),這些導數可能無法獲得、計算昂貴或不可靠。為了解決這個問題,軌跡束方法通過對當前迭代點進行插值來近似這些函數。這種插值的近似方法無需導數,并且其線性化不同于標準的一階泰勒級數。使用這種近似方法,提出了一個凸優化問題,最小化這些插值函數以計算步進方向,直到收斂。 通過將可微凸優化作為一種穩健的技術,本論文為機器人多個領域提供了簡單且高效的算法,并保證了可預測和安全的性能。通過將這些問題重構為優化優先的方式,得到的算法通常比傳統方法更簡單、更高效,同時具有模塊化和可配置性。
許多日常任務要求我們與他人互動。互動或合作使我們能夠結合各自的優勢,從而實現個人無法單獨完成的更多目標。
同樣,當我們嘗試自動化這些任務時,僅依靠一個機器人可能是不可能的或代價過高的。然而,協調多個機器人是困難的:從多機器人系統的大規模狀態空間的計算挑戰,到如何將一個操作員的輸入映射到多個機器人上,互動的多個層面可能在人與人之間的互動中較為微妙,但在與機器人協作時,必須明確加以解決。 本論文的目標是解決這些問題中的一些最重要的挑戰。 我們首先探討與單一機器人系統和多機器人系統的直接遙操作相關的一些挑戰。通過操作性優化和零空間投影方案,我們提高了多臂系統避免奇異性并更快速跟隨操作員輸入的能力。我們提出了一種快速的局部優化方案,以及利用牛頓法的二階優化,并比較了兩者的性能,展示了該方法在真實的ABB YuMi雙臂機器人上的表現。接下來,我們將系統擴展到移動機器人。雖然移動機器人在許多方面優于固定基礎系統,但它們也引入了額外的復雜性。我們研究了非完整約束滑模轉向機器人(非全向輪驅動機器人)的驅動動力學,以及操作臂姿態和載荷如何影響轉向能力。此外,我們引入了避免機器人間碰撞、翻車避免和能夠在高度受限的環境中移動的術語。我們將綜合方法部署到多個配備UR5e操作臂的Clearpath Husky平臺,并展示它如何改善開環性能,超越傳統的控制方案。 最后,我們更詳細地探討了用戶如何與多機器人系統互動。 我們比較了基于平板的增強現實(AR)解決方案與HoloLens混合現實(MR)頭戴設備。通過向研究參與者呈現不同的觸摸互動以及支持手部追蹤的手勢,我們比較了他們在多個任務中的表現,目標是引導一組小型差速驅動機器人。我們比較了不同任務中的客觀和主觀表現,發現特別是空間互動在三維用戶界面中受益明顯。
總之,我們探索并研究了人類與機器人之間的相互作用,旨在實現多機器人系統中有效且直觀的互動。 我們提高了機器人跟隨用戶輸入的能力,提出了一種方法論用于復雜的非完整約束多機器人系統的軌跡優化,并研究了基于手勢的與移動機器人直觀交互的方式。我們將這些方法部署到實際的機器人中,期望將其應用于未來的建筑工地或倉庫,以改善未來工作場所的效率。
//www.research-collection.ethz.ch/handle/20.500.11850/707468
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。