稀疏計算(如圖問題和稀疏矩陣算法中的計算)對于解決生物學、編譯器設計和機器學習等領域的復雜問題至關重要。然而,在現代異構計算環境中,高效處理大規模、不規則的稀疏數據結構提出了重大挑戰,必須在可擴展性和效率之間仔細權衡。現有的并行算法和計算模型通常未能充分利用稀疏數據中的固有結構,導致效率低下和可擴展性有限。這對于NP難問題尤其成問題,因為最壞情況下的解決方案速度較慢,而對于稀疏矩陣內核來說,它們是稀疏神經網絡和科學計算中的瓶頸。 本論文介紹了利用稀疏數據結構特性的新算法、框架和模型。我們的貢獻包括: 1. 固定參數可解算法:用于子圖同構和k-團列舉,利用平面性和缺乏密集子圖的特性減少計算深度或工作量,從而提高并行環境中的可擴展性和效率。 1. 參數化模板圖框架:高效處理執行圖中的重復結構,優化并行程序分析中的數據移動。 1. 空間計算機模型與競爭模型:針對空間數據流架構的挑戰,通過考慮空間局部性和競爭成本來優化稀疏通信模式。 1. 局部性優化的圖布局:最小化通信成本,使現代加速器和分布式系統上的稀疏矩陣操作具有可擴展性。 1. 模型引導的實驗評估:在最先進的數據流架構上對基本通信集體操作進行評估,強調了我們建模的影響。
這些貢獻共同推動了稀疏計算的最新技術發展,為高性能計算的未來進步奠定了基礎,可能對數據分析、科學計算和機器學習產生深遠影響。
深度神經網絡在學習豐富且結構化的潛在表征方面展現出強大能力,這推動了計算機視覺及更廣泛領域的顯著進展。它們在圖像分類、語義分割、自然語言處理和生成建模等任務中均取得了卓越的成果。其表達能力的關鍵因素在于對海量數據的訓練,使模型能夠捕捉復雜模式并實現跨任務的泛化。然而,當數據稀缺或難以獲取時,這種對大規模數據集的依賴便成為顯著的限制。由此,一個自然的問題隨之產生:如何在缺乏大規模配對數據的場景下,利用并適配那些在數據豐富領域中學到的表征?對此,通常有兩類通用方法:其一是分析并變換潛在特征空間,使其與新的目標對齊;其二是直接適配和操作輸入空間,以更好地契合模型已學習的先驗。 本論文在表征學習與生成建模的語境下探討了這兩類策略。對于第一類方法,我們將神經網絡中的編碼信息視為結構化的特征分布,并通過數學上有根基的技術實現這些分布的對齊。在神經風格遷移的場景中,我們首先基于該思路提出了一種理論基礎上的特征對齊方法。與現有方法相比,該方法能夠實現更一致的風格遷移,并且具備理論保證。此外,我們還通過建立一個嚴謹的框架來識別和評估學習到的表征,加深了對潛在空間的理解,特別是在深度學習模型的紋理偏差問題上,對現有解決方案的有效性提出了部分質疑。 第二類方法則聚焦于適配數據表征本身,既包括對輸入域的變換,也包括對模型架構的修改。這在傳統架構難以處理的領域尤為重要,例如缺乏規則或高效網格結構的場景。在本論文中,我們重點研究了針對三維和非歐幾里得數據的生成建模。為此,我們提出了一種基于擴散的生成模型,利用四面體表征實現高質量的三維形狀合成,同時保持幾何一致性。與現有方法相比,該方法能夠在前所未有的分辨率下生成三維網格,并兼顧計算效率。最后,我們提出了一種方法,將現有擴散模型擴展至全景圖像生成的任務,同時保留其互聯網規模的圖像先驗。該模型不僅提升了圖像質量,還實現了比已有工作更強的生成可控性。 總而言之,這些研究成果表明,通過理解并適配現有模型及表征,可以將深度學習拓展至新的輸入與輸出域。這些原則具有普適性,并能應用于廣泛的計算機視覺任務。
創建規模日益龐大的數據集在深度學習的實際成功中起到了重要作用。然而,在許多現實場景中,高質量數據可能非常稀缺,導致深度學習的直接應用難以達到預期效果。大量先前研究試圖解決這一問題,以提高深度學習的數據效率。這類方法通常依賴于以下一種或多種高級策略:通過調整模型架構或訓練方式更有效地利用現有數據;主動控制數據生成過程,以優先獲取更有價值的數據;或利用其他間接相關任務的數據。在理想情況下,這些方法可以顯著提升深度學習在小數據環境下的表現。但即便如此,深度學習中的數據效率問題仍遠未解決,許多挑戰依然存在。 本論文提出并研究了四種不同的數據高效深度學習方法,通過質疑當前主流方法中的一些默認假設,推動了該領域的最新進展。 首先,我們提出了一種名為**非參數 Transformer(Non-Parametric Transformers, NPTs)的數據高效深度學習架構,它將整個數據集作為模型輸入。這一做法突破了傳統深度學習“單樣本輸入”的常規,使得 NPT 能夠通過直接推理樣本之間的交互關系來進行預測。NPT 在小規模結構化數據集(tabular datasets)上表現出色,而這是深度學習方法此前常常表現不佳的領域。 其次,我們將數據效率的關注點拓展至模型評估領域。盡管主動學習(active learning)方法可以減少訓練過程中所需的標簽數量,但評估階段的標注成本卻常被忽視,缺乏合理解釋。為此,我們提出了兩種不同的方法,通過僅主動標注具有信息量的樣本子集,構建出對模型性能的特化估計,從而實現標簽高效的模型評估。 第三,我們研究了上下文學習(In-Context Learning, ICL)**在大語言模型中學習標簽關系的能力。盡管已有大量文獻圍繞 ICL 是否真正利用標簽信息展開討論,我們的系統研究為這一問題提供了新的視角,揭示了 ICL 在標簽學習方面的潛力與局限性。
隨著深度神經網絡(DNN)的日益復雜化,其計算需求常常超出了邊緣設備的承載能力,而邊緣設備通常資源有限。本論文探討了在資源受限的邊緣環境中高效且穩健地部署大型DNN的策略,其中“邊緣”指的是位于數據源與云端之間的設備。在邊緣部署DNN具有增強隱私性、效率和可靠性的優勢,但也因邊緣設備的資源受限而面臨挑戰。論文分為兩部分。第一部分解決了在多個資源受限的邊緣設備上優化分區和部署DNN的挑戰。AutoDiCE框架自動化了模型分區、代碼生成和設備間的通信優化,同時通過設計空間探索(DSE)技術確定了最佳分布策略,以最小化能耗和內存使用,并最大化系統推理吞吐量。第二部分著重于增強系統對設備故障或連接問題的魯棒性。RobustDiCE通過優先處理關鍵神經元并在設備間部分復制它們,確保分布式推理的準確性,即使在故障情況下也能保持功能。此外,EASTER是一種針對大語言模型的類似分區方法,平衡了資源利用和魯棒性。總體而言,本論文提出了在邊緣高效且容錯的DNN部署創新解決方案,優化了資源利用并確保了可靠運行。所提出的方法推動了分布式邊緣AI在資源受限環境中的應用。
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
人類通過整合多種感官信息(包括視覺、語言和聽覺線索)來理解和與周圍環境互動。視覺-語言表示學習領域致力于使機器學習視覺和文本數據之間的多模態關聯與互動。本論文解決了三個關鍵問題:預訓練數據的可擴展性、預訓練目標的效率以及細粒度的視覺-語言對齊。 在數據可擴展性方面,我們關注利用未配對的圖像和文本進行可擴展的視覺-語言表示學習。為了增強模態之間的隱式對齊并增加數據的多樣性,我們引入了跨模態CutMix技術,該技術通過將視覺補丁與句子混合,創建多模態句子,即句子的多模態視圖。通過將多樣化的多模態句子融入對比學習,文本與多模態樣本之間的實例級對齊得到了有效利用。我們的方法繞過了配對數據集的限制,促進了基于更廣泛和更多樣的未配對數據的可擴展多模態表示學習。 在學習效率方面,我們研究了加速視覺-語言預訓練的方法。我們實證發現,訓練效率的一個重要障礙在于掩碼語言建模中的預測率(重建的令牌百分比)和破壞率(破壞的令牌百分比)交織在一起。具體來說,適當的破壞率是以大量輸出令牌被排除在預測損失之外為代價的。為了克服這一限制,我們提出了自由語言建模(FLM),這是一種新的預訓練目標,能夠將預測率與破壞率在掩碼語言建模中解耦。我們的方法通過允許為每個令牌自定義破壞范圍,從而實現了更快的收斂,同時在下游視覺-語言任務中保持了競爭力的表現。 關于跨模態對齊粒度,我們深入研究了未修剪視頻與自然語言之間的細粒度對齊。我們提出了一個針對未修剪視頻的基礎視覺-語言學習(GVL)框架,重點在于檢測有信息量的事件并將多句描述與相應的事件段對齊。我們引入了并行解碼范式(PDVC)用于密集視頻字幕生成,以有效地對視頻進行分段,從而提高生成的密集字幕的連貫性和可讀性。此外,我們提出了兩個雙重預文本任務以促進細粒度的段級對齊:文本到事件對比和事件到文本生成。該框架具有廣泛的適用性,可應用于視覺基礎的語言理解與生成任務。 我們進行了大量實驗以驗證我們提出的方法。這些工作不僅推動了多模態學習的前沿,也為機器智能系統中視覺與語言的更高效、更有效的整合鋪平了道路。
從數據中純粹發現因果模型的結構面臨可識別性問題。
通常情況下,如果沒有關于數據生成的假設,多個等效模型可能會同樣解釋觀察結果,盡管它們可能會得出截然不同的因果結論。因此,選擇它們中的任意一個元素可能會導致不安全的決策,特別是在這些模型與世界真實運作方式不一致時。因此,在數據有限的情況下,必須保持一種關于我們可能候選模型的認知不確定性,以減輕這些不匹配模型所帶來的風險。 從貝葉斯的角度來看,這種不確定性可以通過給定數據的模型后驗分布來捕捉。
然而,正如貝葉斯推斷中的許多問題一樣,由于可能的結構數量龐大(這些結構通常表示為有向無環圖,DAG),后驗分布通常是不可解的。因此,需要進行近似。盡管過去十年中,生成建模領域取得了顯著進展,尤其是由變分推斷和深度學習強力結合推動的進展,但大多數這些模型都集中于連續空間,使得它們不適用于涉及離散對象(如有向圖)的問題,因為這些對象存在高度復雜的無環性約束。 在本論文的第一部分,我們介紹了生成流網絡(GFlowNet),一種專門為離散和組合對象(如圖)上的分布而設計的新型概率模型。
GFlowNet將生成過程視為一個順序決策問題,通過逐步構建樣本來生成數據。這些模型通過在網絡中強制執行某些流量的守恒,來描述通過一個歸一化常數定義的分布。我們將重點介紹它們如何根植于機器學習和統計學的各個領域,包括變分推斷和強化學習,并討論它們在一般空間中的擴展。 在本論文的第二部分,我們展示了如何利用GFlowNet來近似給定數據的貝葉斯網絡的DAG結構的后驗分布。
不僅僅是結構,我們還展示了條件分布的參數也可以被集成到由GFlowNet近似的后驗中,從而允許對貝葉斯網絡進行靈活的表示。 關鍵詞:生成流網絡,貝葉斯推斷,結構學習,貝葉斯網絡,強化學習,變分推斷
當前的深度學習模型被訓練以適應訓練集的分布。盡管得益于前沿架構設計的顯著進展,這些模型仍無法對分布外(OOD)樣本進行推理——即那些與訓練集范圍不一致的實例。與人類不同,人類能夠自然地識別未知的事物,而當前的深度學習模型卻缺乏這一能力。由于很難將開放世界中的所有物體包含在訓練集中,設計一種開放集識別算法來檢測和拒絕OOD樣本變得至關重要。本論文聚焦于研究開放集識別及其在計算機視覺中的應用。首先,我們介紹了一個用于自動駕駛應用的開放集3D語義分割系統。我們的目標是檢測那些不常見的、未包含在訓練集中的異常物體,因為這些離群點對自動駕駛系統的安全至關重要。隨后,我們從信息瓶頸的角度分析開放集問題,并提出了一種原型相似度學習算法,以學習更多類別特定和實例特定的信息,從而提高開放集識別性能。最后,我們深入分析了一個新設定——統一開放集識別,在這一設定中,既要檢測OOD樣本,也要檢測那些被錯誤分類的訓練集內樣本,因為模型對這些樣本的預測是錯誤的。總的來說,我們的工作為開放集識別社區提供了新的理論分析視角、新的訓練與評估設定,以及新的應用方向。
基于車載3D LiDAR的幾何與語義場景理解深度學習研究
3D LiDAR點云數據在計算機視覺、機器人學和自動駕駛中的場景感知中起著至關重要的作用。涉及3D點云的幾何與語義場景理解是推動自動駕駛技術發展的關鍵。然而,仍然存在許多挑戰,特別是在提高這些系統的整體準確性(如分割精度、深度估計精度等)和效率方面。
為了解決與LiDAR任務相關的準確性問題,我們提出了DurLAR,這是首個高保真128通道3D LiDAR數據集,具有全景環境(近紅外)和反射率圖像。利用DurLAR,超越了先前基準的數據集分辨率,我們著手解決單目深度估計任務。利用這種高分辨率但稀疏的真實場景深度信息,我們提出了一種新型的聯合監督/自監督損失函數,大大提高了深度估計的精度。
為了在確保精度的同時提高3D分割的效率,我們提出了一種新穎的管道,采用更小的架構,所需的真實標簽注釋更少,同時在分割精度上超越了現有方法。這一創新通過一種新型的稀疏深度可分卷積(SDSC)模塊得以實現,該模塊顯著減少了網絡的參數量,同時保持了任務的整體性能。此外,我們還引入了一種新的時空冗余幀下采樣(ST-RFD)方法,該方法利用傳感器運動知識提取多樣化的訓練數據幀樣本,從而提高計算效率。
此外,近年來在3D LiDAR分割方面的進展重點關注點云的空間定位和分布,以提高分割精度。然而,坐標和點強度的依賴性導致了性能的亞優表現和較差的等距不變性。為了提高分割精度,我們引入了基于距離感知的點距離分布特征(RAPiD)及其相關的RAPiD-Seg架構。這些特征展示了剛性變換不變性,并能適應點密度變化,專注于鄰近結構的局部幾何。利用LiDAR的各向同性輻射和語義分類,它們增強了局部表示和計算效率。 通過廣泛的實驗和定性分析,我們驗證了方法的有效性。我們的方法在語義分割的mIoU和深度估計的RMSE上超越了現有的最先進技術(SoTA)。所有貢獻已被同行評審的會議接受,進一步證明了我們在自動駕駛中3D LiDAR應用的準確性和效率方面的進展。
圖能夠方便地表達事物之間的關聯關系,因而廣泛應用于現實生活中的諸多應 用場景,例如社交網絡圖、電路圖和電商交易圖,為圖計算賦能數據挖掘和分析提 供基礎。由于圖計算的重要性和普遍性,同一圖計算平臺上通常并行運行著大量圖 算法(以下簡稱并發圖計算任務),為不同的應用或者用戶提供高性能的圖計算能力 支撐。除了與傳統圖計算任務相同的計算特征外,并發圖計算任務還存在著嚴重的 資源競爭、數據競爭等新型挑戰,任務并發度和總體性能較低。為此,如何設計面 向并發圖計算任務的高性能執行環境,快速挖掘出海量圖數據中潛在的各種商業或 科學價值,已成為目前亟需解決的問題。為了高效支持圖計算任務的執行,目前國內外學者已經從面向圖計算的體系結 構和系統軟件等方面開展了廣泛的研究。然而,現有圖計算硬件加速器和軟件系統 無法充分感知不同圖計算任務之間的運行時特征,例如潛在的數據局部性和通信行 為相似性等。現有方案在支持并發圖計算任務時面臨著數據訪問行為不規則、冗余 訪存開銷大以及通信效率低等問題,導致嚴重的數據訪問瓶頸和底層硬件資源的低 效利用。為了解決并發圖計算任務面臨的挑戰,分別從體系結構層面和系統軟件層 面開展研究來實現高性能并發圖計算技術,有效支持并發圖計算任務的執行。針對并發圖計算任務數據訪問行為不規則問題,提出了以數據局部性為中心的 并發圖計算硬件加速技術,以提高并發圖計算任務的訪存效率。分析發現,由于不 同圖計算任務往往沿著同一圖拓撲來遍歷相同圖數據,這些任務之間存在極強的數 據局部性。基于此發現,該硬件加速技術首先動態探索并發圖計算任務活躍圖頂點 之間的依賴關系,使并發圖計算任務沿著圖拓撲遍歷和處理相同圖數據,以此來規 則化并發圖計算任務的圖遍歷行為。其次,該硬件加速技術對并發圖計算任務的圖 頂點訪問進行高效合并,從而提高頂點訪問的局部性。實驗結果表明,與現有圖計 算硬件加速技術 HATS、Minnow 和 PHI 相比,本設計能夠獲得最高 11.3 倍的加速比。針對并發圖計算任務冗余訪存開銷大問題,提出基于細粒度同步的核外并發圖 計算技術。該技術首先提出了一種面向并發圖計算任務的細粒度同步執行機制,使得只需在緩存和內存中加載和存儲相同圖結構數據的一個副本就能服務多個并發圖 計算任務,從而降低圖數據的冗余訪存成本,提高底層硬件資源的利用率。其次, 提出了圖結構感知的數據重劃分和緩存機制,通過自適應地加載并發圖計算任務所 需的圖數據,并將頻繁使用的圖數據緩存在主存中,提高加載圖數據利用率和最小 化 I/O 開銷。實驗結果表明,所提出的核外并發圖計算技術,能夠將現有圖計算系統 GridGraph、GraphChi 和 X-Stream 的并發圖計算任務吞吐率最高提升 13 倍。針對并發圖計算任務在分布式環境下擴展性差的問題,提出了相似性感知的分 布式并發圖計算技術。分析發現,并發圖計算任務之間的通信行為存在極強的相似 性。基于此發現,首先提出了相似性感知的分布式并發圖計算執行機制,其沿著圖 劃分塊之間的拓撲關系來加載圖數據,并以此高效驅動分布式平臺中每個計算節點 上的任務執行,從而使得加載的圖數據能夠被更多任務共享;通過高效的通信機制 來使得不同任務的通信行為以規則的方式批量進行,從而降低并發圖計算任務的通 信成本,提高通信效率。其次,提出了面向并發圖計算任務的增量負載均衡機制和 面向動態圖處理的數據存儲優化機制,以此來提高分布式計算資源利用率和保證在 支持動態圖處理時的執行效率。實驗結果表明,與分布式圖計算系統 Gemini 和 Seraph 相比,本設計在支持并發圖計算任務時能夠獲得最高 6 倍的加速比。總的來說,本文分別研究了并發圖計算任務不規則訪存行為與底層體系結構不 匹配問題、并發圖計算任務之間冗余數據訪存開銷高問題以及分布式并發圖計算擴 展性差問題,圍繞體系結構、單機和分布式系統軟件層面實現高性能并發圖計算技 術,顯著提升并發圖計算任務的執行性能。
分形計算系統
在許多領域,編程成本已經成為阻礙計算機技術應用發展的主要瓶頸問 題:超級計算機性能走向百億億次級別,然而現代超級計算機發展趨勢是采用 異構運算部件,導致編程困難的問題越來越嚴峻;在物端邊緣計算領域,設備 數量和種類呈現爆炸式增長,而應用程序開發者不可能針對上百億種異構設 備進行編程,產生了“昆蟲綱悖論”;在機器學習領域,編程框架 TensorFlow 的代碼規模已經突破 400 萬行,為機器學習或深度學習開發領域特定加速器產 品的主要成本已經來源于配套軟件生態的研發。
編程難題包括并行編程難、異構編程難、大規模系統編程難、跨系統編程 難等諸多表現形式。學位論文擬提出分形計算概念,通過分形計算系統的研究 以回應編程難題;具體來說,分形計算系統針對來源于“編程-規模相關性”的 編程難題提供了解決方案。具體貢獻包括:
? 提出分形計算模型(FPM),一種采用了層次同性原理的通用并行計算 模型。分形計算模型具有編程-規模無關性,是一種串行編程、并行執 行的模型。使用者只需編寫串行的程序,該計算模型可以自動展開至任 意規模的系統上并行執行,因此可以在通用領域解決來源于編程-規模 相關性的編程難題。
? 提出分形馮·諾伊曼體系結構(FvNA),一種采用了層次同性原理的專 用并行體系結構。相同任務負載在不同規模的分形馮·諾依曼體系結構 計算機上可以分別自動展開、執行,因此可以做到對一系列不同規模的 計算機僅需進行一次編程。以機器學習領域專用體系結構為例,本文實 現了一系列分形機器學習計算機 Cambricon-F,以解決機器學習計算機 編程困難的問題。實驗結果表明,Cambricon-F 在改善了編程生產率的 同時,還能獲得不劣于 GPU 系統的性能和能效。
? 提出可重配分形指令集結構(FRISA),一種按照分形計算模型設計的 分形計算機指令集結構。分形可重配指令集結構能夠在分形馮·諾依曼 體系結構計算機上定義任意的分形運算,因此可以支持實現分形計算模型,形成通用分形馮·諾依曼體系結構計算機。以機器學習領域專用體 系結構為例,本文在 Cambricon-F 的基礎上實現了一系列可重配的分形 機器學習計算機 Cambricon-FR,以解決 Cambricon-F 在新興機器學習應 用上遇到的失效現象。實驗結果表明,Cambricon-FR 在解決了失效現 象、提高系統運行效率的同時,還能通過定義分形擴展指令縮短描述應 用所需的分形指令串的長度。