視覺生成模型,尤其是擴散模型,在高質量視覺生成方面展示了令人驚嘆的性能,越來越受到學術界和工業界的關注。代表性模型或工具,如DALLE-3 [1] 和 MidJourney,已經廣泛應用于日常生活,幫助創作藝術作品或圖片。然而,這些強大的工具也帶來了潛在風險,因為它們可能被惡意使用來生成并傳播不安全的內容,如色情和暴力圖片,可能導致嚴重后果。在本文中,我們討論了如何從不同方面使視覺生成模型更加可靠和可控。特別地,我們重點關注擴散模型,因為它們是目前最廣泛使用的視覺生成模型。 首先,我們揭示了擴散模型中存在的潛在風險,表明在訓練過程中,它們可能容易被插入(惡意的)隱形后門,這可能導致不可靠和有害的行為。為此,我們提出了一種新的雙層優化框架來表述訓練過程,可以通過提出的不同算法實例化,分別用于無條件和條件擴散模型。大量實驗表明,后門可以在不影響模型正常性能的情況下有效插入,從而使后門更加隱蔽和穩健。同時,我們實證發現,目前各種防御方法無法緩解提出的隱形后門,增強了該方法在實際應用中的可用性。此外,所提出的隱形后門還可以直接應用于模型水印,用于在黑盒環境中進行模型所有權驗證,進一步增強了該框架的意義。 接下來,我們重點討論文本到圖像的擴散模型的可控生成。我們介紹了MuLan,一種多模態大語言模型(Multimodal-LLM)代理,它可以根據文本提示逐步生成對象。MuLan首先將提示分解為幾個子提示,每個子提示專注于一個對象。每個對象的生成都依賴于先前生成的對象。通過一個視覺語言模型(VLM)檢查器,MuLan可以及時監控生成過程,并在每個生成階段后自適應地修正可能的錯誤。MuLan大大提升了在文本提示中對象屬性和空間關系的生成性能。通過GPT-4V [2] 和人類的評估,大量實驗表明MuLan的卓越性能。此外,我們展示了MuLan可以在生成過程中啟用人機交互,進一步增強生成過程的靈活性和效果。 //lbezone.hkust.edu.hk/bib/9903412#
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
領域專用硬件加速器目前正在革新整個計算系統領域,從大型數據中心平臺到小型物聯網(IoT)設備。這些加速器顯著提高了硬件系統的能效,這一點在今天尤為重要,尤其是隨著技術擴展效益逐漸減小以及神經網絡(NN)應用所帶來的計算需求不斷增加。
然而,這些專用單元本質上比通用核心靈活性差。因此,它們通常出現在異構系統芯片(SoC)中,其中一個通用的主處理器與領域專用引擎相結合。這種方法將兩者的優點結合起來:通用核心的靈活性和可編程性與硬件加速器的高能效。 與此同時,硬件加速器的完全定制性為設計師提供了許多自由度。根據設計的不同,加速器可以是可編程的,也可以是非可編程的,具有更多或更少的專用性。它可以作為獨立的硬件模塊,或者設計為集成到更通用的系統中,甚至直接集成到處理器流水線中。它可以提供更寬或更窄的帶寬來與系統的其他組件進行通信。它既可以是一個小型單元,也可以是一個巨大的系統,通過擴展或擴展特定模塊來構建。 本論文探索了硬件加速器的各種架構、微架構以及一般的專用化解決方案。首先,我們聚焦于低成本、面積受限的設備,并比較了支持浮點(FP)操作的不同方法:完全基于軟件的解決方案、小型多周期浮點單元(FPU)以及高性能流水線FPU。其次,我們分析了兩個領域專用的硬件加速器。我們重點關注快速傅里葉變換(FFT)引擎,并比較了獨立的緩沖模塊與共享內存的無緩沖實現。第三,我們考慮了專用化的另一種途徑,通過支持低精度浮點格式和混合精度浮點操作,擴展專用核心集群。第四,我們詳細闡述了這一硬件平臺,識別了低精度格式引入的一些限制,并進一步增強系統的魯棒性,使其能夠更好地應對破壞性事件。
大型語言模型(LLMs),如ChatGPT,由于其非凡的對話技巧和智能,在過去幾年中迅速滲透到人們的工作和日常生活中。ChatGPT已成為人類歷史上用戶數量增長最快的軟件,并成為下一代人工智能應用的重要基礎模型。然而,LLMs的生成并非完全可靠,它們經常產生包含事實錯誤、偏見和毒性的內容。鑒于其龐大的用戶數量和廣泛的應用場景,這些不可靠的響應可能會導致許多嚴重的負面影響。本文介紹了我博士研究期間在語言模型可靠性領域的探索性工作,從自動化軟件測試和自然語言處理的角度研究LLMs的正確性、無毒性和公平性。 首先,為了衡量LLMs的正確性,我們提出兩個新的測試框架:FactChecker和LogicAsker,分別用于評估事實知識和邏輯推理的準確性。FactChecker通過從大規模知識庫中檢索事實三元組來構建知識圖譜,然后根據知識圖譜生成各種類型的問題以及預期答案,用來作為測試用例。LogicAsker是一個最小功能測試框架,它首先通過收集邏輯學中的所有基本原理和定律來構建原子技能集合,然后通過將標準邏輯表達式轉換為自然語言來生成推理問題作為測試用例。我們的測試框架可以自動且全面地生成測試用例,并有效地揭示最先進的LLMs(如ChatGPT和LLaMa)的失敗之處。此外,我們還證明了生成的測試用例可以提高LLM的事實正確性和邏輯推理能力。 其次,針對LLMs的無毒性,我們介紹了兩項針對LLMs的紅隊測試工作。首先,我們發現LLMs的保護措施——文本內容審核軟件,在面對用戶有意的擾動時不夠穩健,無法通過審核。我們引入了MTTM,一個用于文本內容審核軟件的蛻變測試框架,其蛻變關系是有毒句子在經過語義保留的擾動后仍應被識別為有毒。實驗結果表明,MTTM可以發現商業內容審核軟件中的錯誤,并提高其可靠性。其次,我們發現所有先前的安全基準以及對齊都僅限于一種語言,例如英語。我們建立了第一個用于LLMs的多語言安全基準XSafety,涵蓋了十種語言中14個常見的安全問題,這些語言跨越了幾個語系,并發現所有LLMs對非英語查詢產生的不安全響應明顯多于英語查詢。此外,我們提出了一種簡單有效的提示方法,通過增強安全對齊的跨語言泛化來提高LLM的多語言安全性。 第三,為了評估LLMs的公平性,我們提出了兩個評估框架BiasAsker和XCulturalBench,分別用于衡量LLMs的社會偏見和文化偏見。我們首先介紹BiasAsker,一個用于識別和衡量對話式AI系統中社會偏見的自動化框架。BiasAsker可以生成不同類型的問題來從5,021個有偏見的屬性角度衡量對841個群體的偏見態度。在10個商業系統和模型上的實驗表明了BiasAsker的有效性。然后,我們確定了LLMs中存在的文化偏見問題,這是由于模型訓練和對齊中主要使用英語數據所致,并引入了XCulturalBench,一個多語言文化相關基準,包含具體(例如節日和歌曲)和抽象(例如價值觀和觀點)的文化對象。實證結果表明,具有代表性的GPT模型存在嚴重的文化偏見問題。我們還表明,在模型開發和部署中采用兩種直接的方法可以顯著緩解LLMs中的文化偏見問題。
近年來,在計算攝影、虛擬現實、游戲和電影產業等領域,對視覺內容(如2D圖像和多幀視頻)的需求不斷增長。為了滿足這些需求,研究者們提出了多種生成模型,包括VQVAE、GAN和擴散模型(Diffusion Models),以促進從噪聲或文本生成視覺內容。然而,如何將這些模型應用于更實際的圖像到圖像生成任務(也稱為圖像處理與編輯)仍然是一個開放的挑戰。本論文探討了基于生成模型的圖像編輯范式,重點關注來自大規模預訓練的基礎模型。 我們首先探索了實時圖像縮放技術。現代相機拍攝的圖像可以達到6K分辨率,但這些圖像占用的存儲空間過大。為此,我們提出了一種量化自編碼器,通過優化熵損失將大型6K圖像壓縮為JPEG縮略圖,從而減小文件大小。隨后,一個高效的解碼器可以實時將低分辨率縮略圖還原為高分辨率圖像。 接著,我們轉向文本驅動的圖像修復技術。相機運動、數字電路噪聲以及惡劣天氣(如雨和霧)可能會降低攝影師拍攝的圖像質量。我們提出了一種基于擴散模型的圖像修復方法,該方法通過語義和修復指令進行引導。為了以較低的訓練成本實現這種多模態應用,我們使用合成退化圖像對預訓練的潛在擴散模型進行適配器微調。 最后,我們討論了文本驅動的視頻編輯方法。除了圖像層面的計算攝影外,創意特效也廣泛應用于游戲、電影和短視頻應用中。這些特效通常需要時間運動一致性和語義層面的編輯,例如身份和風格。由于目前沒有魯棒且開源的視頻生成模型可用,我們專注于以零樣本方式利用文本到圖像的潛在擴散模型。具體來說,我們將圖像生成模型轉換為視頻模型,并在DDIM反演過程中提取擴散Unet中的時空注意力圖,作為運動和幾何表示。然后,在DDIM去噪過程中,根據目標提示重新使用這些注意力圖。我們簡潔的框架能夠在保持顯著時間一致性的同時,實現形狀、屬性和全局風格的編輯。
生成模型近年來在二維和視頻合成領域取得了顯著進展。然而,二維和視頻生成中仍然存在明顯的不一致性,例如光照和幾何相關的問題。引入三維建模有望增強二維和視頻生成的連貫性與真實感,從而推動三維生成技術的進一步發展。鑒于直接用于生成建模的大量三維數據收集存在挑戰,從單視圖圖像學習三維分布成為一種可行的三維生成方法。這種方法得益于大量可用的非結構化、高質量且多樣化的單視圖圖像數據。一種常見的從單視圖圖像生成三維內容的策略是采用生成對抗網絡(GAN),并用三維渲染器替代生成器。本論文從四個角度探討了三維生成領域。首先,我們研究生成的幾何形狀,并提出通過將三維感知注入到生成器和判別器中來增強學習到的幾何結構。其次,我們分析了三維生成模型訓練中對姿態的要求,并解除生成器對姿態先驗的限制,從而實現更靈活的三維生成模型。第三,在復雜場景合成的背景下,我們分析了現有方法的不足,并提出利用三維先驗來促進從單視圖場景圖像進行三維建模。第四,我們還將討論高效三維生成表示的引入,特別是高斯散點表示(Gaussian Splatting)。最后,我們展望了三維生成領域的未來發展方向。深度學習的快速發展[21]顯著推動了計算機視覺領域中的許多任務,例如視覺對象識別[22, 23]、目標檢測[24, 25, 26]、圖像渲染[27, 28, 1]等,并在諸多方面便利了我們的日常生活,如自動駕駛[29, 30]、生物研究[31]和智能創作[32, 33]。在所有技術類型中,生成建模[34, 35, 36]在數據分析和機器學習中發揮了重要作用。與直接對輸入進行預測的判別模型不同,生成模型旨在再現數據分布,以便能夠從中采樣新的實例。為此目的,它們需要全面地表征數據。例如,檢測模型可以忽略與任務無關的信息(如顏色)而不影響性能,但生成模型需要管理圖像的每個細節(如物體排列以及每個物體的紋理)以實現令人滿意的生成。從這一角度來看,學習生成模型通常更具挑戰性,但同時也促進了一系列應用[37, 38, 39, 33]。近年來,深度生成模型[35, 34, 36]在二維圖像合成[33, 40, 41]方面取得了令人難以置信的成功。然而,在二維空間中學習生成模型已逐漸難以滿足某些現實世界應用的需求,因為我們的物理世界實際上是三維的。以電影行業為例,我們期望設計三維數字資產,而不僅僅是生成二維圖像,以帶來身臨其境的體驗。現有的內容創作流程通常需要大量專業知識和人力投入,這既耗時又昂貴。許多開創性的嘗試[42, 43, 44, 45, 2, 46]旨在研究如何自動生成三維數據,但這類研究仍處于早期階段。二維生成和三維生成之間的關鍵區別之一在于數據格式。具體而言,二維圖像可以自然地表示為像素值的數組,便于神經網絡[22, 23]處理。而常見的三維表示形式(如點云[47, 48]、網格[49, 50]和體素網格[51, 52])則難以直接被卷積神經網絡處理。最近,隱式表示形式Neural Radiance Field(NeRF)[1]被提出用于通過學習從坐標到三維屬性的映射來建模三維對象,成為與神經網絡兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通過將NeRF與生成對抗網絡(GAN)[34]結合,使三維生成成為可能,從而發展出一種三維感知的GAN。具體而言,它們用三維渲染器替代GAN中的生成器。這種替換使得在生成圖像時可以顯式地控制視點,從而得益于生成器的三維感知能力。三維生成的難點還來源于訓練數據的獲取。在理想情況下,高質量三維資產的全面集合對于準確的生成建模至關重要。然而,使用設備大規模獲取此類數據極其困難。一種引人注目的方法是探索從二維生成數據集中轉移知識的潛力。一種可行的方法是利用二維單視圖圖像數據集學習三維表示。每個三維對象通常對應多個從不同視點拍攝的相似圖像,具有類似的結構。例如,在數據集中可能僅有不超過兩張同一人臉的圖像。鑒于人臉的共同結構特性,從不同角度拍攝的多樣化圖像中提取通用人臉特征是可行的。這使得模型能夠想象每個人臉的未見視圖。通過這種方式,可以探索如何從二維單視圖圖像集合中學習三維生成。構建高效三維生成器需考慮以下幾個關鍵因素:
機器學習,特別是神經網絡,現如今廣泛應用于許多領域,如貸款評估、搜索結果和招聘推薦。這些系統通常提供自動化決策,影響著大多數人的生活。近年來,自然語言處理(NLP)應用特別受到關注,尤其是非常高效的通用模型的出現,特別是聊天系統,這些系統現在被廣泛使用,甚至普通公眾也能直接使用它們。
不幸的是,這些系統并非沒有缺陷。僅在招聘系統中,就有性別歧視的案例,比如簡歷中“國際象棋俱樂部成員”受到青睞,而“女性國際象棋俱樂部成員”則被忽視,或者某些系統認為計算機科學學位是醫院打字員的必要資格。雖然前者可能通過分析模型的性別偏差并加以修正來緩解,但后者過于具體,可能只能通過解釋模型的預測來揭示。 可解釋性 是一個研究領域,致力于用人類可以理解的術語解釋模型和數據集。其目標通常是防止不良行為,正如上述例子所示。不幸的是,這個領域經常面臨提供錯誤解釋的問題,即解釋并未反映模型的真實情況。例如,解釋表明哪些輸入詞語很重要,可能并不比隨便指出隨機詞語更有價值。當解釋真實反映模型時,這種解釋被稱為“忠實解釋”。 不幸的是,衡量一個解釋是否忠實(忠實度指標)非常具有挑戰性,因為我們無法得到真實的標準答案。一個重要的原因是,模型通常太復雜,人類難以理解,因此無法判斷解釋是否忠實于模型。更糟糕的是,設計不當的忠實度指標可能會給出錯誤的信心,而錯誤的解釋則可能會給出對模型行為的虛假信心。因此,本論文的核心研究問題是:“如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋?” 在可解釋性領域,目前有兩種主要的范式來回答這個問題:內在范式和后驗范式。 內在范式認為“只有在架構上設計為可以解釋的模型才能被解釋”,而后驗范式認為“可以且應該在模型訓練完成后生成解釋,以避免任何性能影響”。 通過分析現有文獻并提出新的忠實度指標,本論文認為這兩種范式都未能取得有效的進展。后驗解釋的忠實度經常受到批評,而內在模型要么實際上并非內在的,要么由于過于受限,無法成為高性能的通用模型。 因此,本論文假設該領域應通過結合兩種現有范式的優點,發展出新的范式來回答核心研究問題。具體來說,本論文設計了無需架構約束的可解釋模型,這樣這些模型仍然是通用且高性能的。特別地,本文提出了兩種潛在的范式,即“忠實度可度量模型”(FMMs)和“自解釋”。FMMs直接回答核心研究問題,而自解釋目前尚未完全解答該問題,但可能在未來解決。 忠實度可度量模型(FMMs) 是本論文提出的新范式,它將內在范式的“設計可解釋的模型”重新表述為“設計能夠便捷且可靠地測量忠實度的模型”。如本論文所示,這比內在范式提出的目標要容易得多,因為它不要求架構約束。該范式的具體展示應用于重要性度量——即指出每個輸入特征在做出預測時的重要性。對于這類解釋,FMMs只需對訓練過程進行小幅修改,即在訓練時隨機屏蔽輸入標記。 這種訓練過程使得我們可以使用忠實度擦除指標:“如果一個特征確實重要,那么如果去掉該特征,模型的預測應該會發生顯著變化。” 這個指標不能應用于任何模型,因為去除特征(例如詞語或標記)會導致分布外問題。然而,這種FMM支持去除特征,因此使得該指標得以應用。由于現在忠實度測量變得既便宜又可靠,因此可以優化解釋,以達到最大的忠實度。因此,FMMs變得間接地內在可解釋,但無需架構約束,并且還回答了如何衡量忠實度,從而回答了核心研究問題。 自解釋 是另一種新興范式,這些解釋直接作為模型的輸出生成。這類解釋因聊天系統的興起而變得流行,這些系統通常會以自然語言的形式闡明它們發出的解釋。然而,由于自解釋的自由形式,評估其忠實度極為困難。此外,由于這些模型也存在幻覺問題,因此有充分的理由對此保持懷疑。盡管如此,這些解釋仍然非常普遍,并且常常被當作真理接受,包括研究人員在內。為了評估這一新范式的可行性,本文還提出并評估了自解釋的忠實度指標。研究結果表明,類似于后驗解釋,它們是模型和任務相關的。 本文還研究了后驗和內在解釋的忠實度,發現結論與模型和任務的依賴性相同。然而,當使用忠實度可度量模型時,即便使用相同的后驗解釋方法,且在相同的數據集和基礎模型上,也得出了不同的結論。 這得出一個總體結論:忠實度默認是依賴于模型和任務的。然而,即便是對模型進行簡單修改,如隨機屏蔽訓練數據集(如在忠實度可度量模型中所做的),也能極大地改變局面,從而得到一致忠實的解釋。我們提供了一些建議,說明如何也可以通過自解釋來實現這一點。此外,利用忠實度可度量模型,本文證明了有可能確定新的可解釋性范式,克服過去的局限,并回答如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋這一核心研究問題。
許多日常任務要求我們與他人互動。互動或合作使我們能夠結合各自的優勢,從而實現個人無法單獨完成的更多目標。
同樣,當我們嘗試自動化這些任務時,僅依靠一個機器人可能是不可能的或代價過高的。然而,協調多個機器人是困難的:從多機器人系統的大規模狀態空間的計算挑戰,到如何將一個操作員的輸入映射到多個機器人上,互動的多個層面可能在人與人之間的互動中較為微妙,但在與機器人協作時,必須明確加以解決。 本論文的目標是解決這些問題中的一些最重要的挑戰。 我們首先探討與單一機器人系統和多機器人系統的直接遙操作相關的一些挑戰。通過操作性優化和零空間投影方案,我們提高了多臂系統避免奇異性并更快速跟隨操作員輸入的能力。我們提出了一種快速的局部優化方案,以及利用牛頓法的二階優化,并比較了兩者的性能,展示了該方法在真實的ABB YuMi雙臂機器人上的表現。接下來,我們將系統擴展到移動機器人。雖然移動機器人在許多方面優于固定基礎系統,但它們也引入了額外的復雜性。我們研究了非完整約束滑模轉向機器人(非全向輪驅動機器人)的驅動動力學,以及操作臂姿態和載荷如何影響轉向能力。此外,我們引入了避免機器人間碰撞、翻車避免和能夠在高度受限的環境中移動的術語。我們將綜合方法部署到多個配備UR5e操作臂的Clearpath Husky平臺,并展示它如何改善開環性能,超越傳統的控制方案。 最后,我們更詳細地探討了用戶如何與多機器人系統互動。 我們比較了基于平板的增強現實(AR)解決方案與HoloLens混合現實(MR)頭戴設備。通過向研究參與者呈現不同的觸摸互動以及支持手部追蹤的手勢,我們比較了他們在多個任務中的表現,目標是引導一組小型差速驅動機器人。我們比較了不同任務中的客觀和主觀表現,發現特別是空間互動在三維用戶界面中受益明顯。
總之,我們探索并研究了人類與機器人之間的相互作用,旨在實現多機器人系統中有效且直觀的互動。 我們提高了機器人跟隨用戶輸入的能力,提出了一種方法論用于復雜的非完整約束多機器人系統的軌跡優化,并研究了基于手勢的與移動機器人直觀交互的方式。我們將這些方法部署到實際的機器人中,期望將其應用于未來的建筑工地或倉庫,以改善未來工作場所的效率。
//www.research-collection.ethz.ch/handle/20.500.11850/707468
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
隨著機器人在自主檢查、家庭輔助和搜救等更廣泛挑戰中的應用超越工業環境,人們對其在越來越大、無結構和未知環境中自主導航和執行有意義任務的需求也在增長。盡管硬件、傳感和計算技術的改進使機器人具有更強的靈活性和感知能力,但其軟件,特別是自主映射和導航能力,仍然是一個顯著的瓶頸。體積地圖提供了一個通用、安全且與任務無關的環境表示,但其過高的計算和內存需求限制了其在小型和經濟實惠機器人上的實際使用。、 本博士論文研究了使用自適應表示作為解決這些挑戰的方法,重點是增強體積地圖的可擴展性、效率和準確性。認識到體積地圖的價值取決于它們對下游任務的益處,我們研究了局部和全局規劃作為兩個代表性應用。利用層次化、多分辨率的方法,本研究旨在根據任務的需求動態平衡細節和計算成本之間的權衡。 本論文的主要貢獻是開發了一種名為wavemap的數學上嚴格的多分辨率映射框架,該框架根據環境幾何調整地圖分辨率而不依賴于啟發式方法。MRA理論保證了使用小波分解,新觀測可以安全且高效地以由粗到細的方式整合到地圖中。通過計算效率的提高以及積分器的早期停止標準,我們可以使用更復雜的測量模型,從而更好地捕捉細小物體,提高機器人操作的安全性和可靠性。該框架在合成和真實數據上進行了廣泛評估,證明了其在高效重建大規模環境的同時精確捕捉細節的能力。除了在可擴展性和地圖質量方面的顯著改進外,該框架的靈活性也使其能夠應用于各種傳感器和應用場景。 我們的第二和第三個貢獻是開發了高效的反應性避障方法和確定性全局路徑規劃方法,利用層次化表示和算法以及wavemap框架,實現了在復雜環境中快速、可靠的導航。在不同真實環境的地圖上進行的實驗評估以及在微型空中車輛上的部署,證明了這些方法在效率、準確性和靈活性方面優于現有方法,強調了其在顯著推進機器人映射和導航領域中的潛力。 總之,本博士論文為機器人領域中體積映射和規劃的挑戰提出了一個全面的解決方案,為更多自主、高效和多功能的機器人系統在多樣化和變化環境中的操作鋪平了道路。
人工智能(AI)的進步正在快速改變我們的世界,系統現在在從游戲玩耍到科學發現等領域匹敵甚至超越了人類的能力。這一進展的大部分可以追溯到機器學習(ML),特別是深度學習以及其在數據中發現有意義的模式和表示的能力。然而,AI中的真正智能需要不僅僅是原始的預測能力;它需要一種有原則的方法來在不確定性下做決策。這凸顯了概率機器學習的必要性,它通過概率論和貝葉斯推理提供了一種系統的框架來推理未知。
高斯過程(GPs)是一種典型的概率模型,具有靈活性、數據效率和良好校準的不確定性估計。它們對許多順序決策算法至關重要,特別是貝葉斯優化(BO),它已經成為優化昂貴和復雜的黑盒目標函數的不可或缺的工具。盡管已經投入了大量的努力來提高GPs的可擴展性,但在實踐中,與神經網絡(NNs)相比,性能差距仍然存在,主要是因為GPs缺乏表示學習能力。這是GPs的其他自然不足之一,它阻礙了BO解決關鍵的現實世界優化挑戰的能力。
這篇論文旨在在概率方法中釋放深度學習的潛力,并相互借鑒深度學習的概率觀點。其中的貢獻包括改進近似方法,以彌合GPs和NNs之間的差距,提供了一種新的BO公式,可以無縫地容納深度學習方法,以解決復雜的優化問題,以及對圖像風格轉移的一類強大的深度生成模型進行概率解釋。通過豐富深度學習和概率ML之間的相互作用,這篇論文推動了AI的基礎,并促進了更有能力和可靠的自動決策系統的發展。