經過十年的蓬勃發展,視頻理解領域的發展已到達一個關鍵節點,單純依賴海量數據和復雜架構已不再是應對所有場景的萬能解決方案。普遍存在的數據不平衡問題阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化(如長尾不平衡和擾動不平衡)時性能顯著下降。這一現實促使研究人員尋求替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則應運而生,旨在揭示觀察到的相關性背后的真實因果模式。本論文聚焦于語義視頻理解領域,探索因果建模在推動兩項基礎任務——視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)中的潛力。主要貢獻提出干預式視頻關系檢測方法(IVRD)針對VidVRD中關系長尾不平衡的問題,我們提出了一種名為IVRD的干預式視頻關系檢測方法。盡管尾部關系信息豐富,但由于其在數據集中稀缺,難以預測。具體而言,我們以分層方式構建了一組關系原型,迫使關系推理模塊專注于實體間動態交互的視覺內容,而非依賴對象與關系標簽之間的虛假相關性。通過引入因果推理,IVRD為在長尾不平衡情況下提升視頻理解提供了有前景的方向,使模型能夠更好地泛化到現實場景中,其中罕見或不頻繁的關系可能對場景的整體理解至關重要。提出視頻問答的不變基礎模型(IGV)我們提出了視頻問答的不變基礎模型(Invariant Grounding for VideoQA, IGV),這是一個模型無關的學習框架,旨在解決答案環境中虛假相關性帶來的負面影響。IGV通過定位問題關鍵(因果)場景來發現因果推理模式。具體而言,它利用因果場景與答案之間的關系在環境變化時保持不變的特性,并強調移除因果場景會導致回答問題失敗。通過定位這些關鍵場景,IGV迫使VideoQA模型專注于準確推理所需的視覺內容,同時屏蔽環境的負面影響,從而顯著提升骨干模型的推理能力。提出視頻問答的等變基礎模型(EIGV)為了進一步提升魯棒性和視覺可解釋性,我們在IGV的基礎上提出了等變基礎模型(Equivariant Grounding for VideoQA, EIGV)。EIGV額外引入了等變性,鼓勵回答過程對因果場景和問題的語義變化敏感。相比之下,不變基礎模型要求回答對環境場景的變化不敏感。這兩種正則化方法協同工作,區分因果場景與環境,同時通過呈現視覺-語言對齊提供更高的透明度。通過結合不變和等變基礎模型的優勢,EIGV為VideoQA創建了一個更魯棒且可解釋的框架。提出視頻問答的時空合理化方法(STR)我們發現了視頻問答的時空合理化方法(Spatio-Temporal Rationalization, STR),以解決長視頻和多對象樣本(即復雜VideoQA)的低準確率問題。由于當前的VideoQA實踐(包括預訓練模型,如SeVila [158])大多使用短視頻片段(約15秒)和少量實體(約2個)進行訓練,它們在復雜視頻(超過80秒和5個對象)上的遷移能力較差。其原因是長視頻不可避免地引入了大量冗余和虛假相關性,因為存在大量與問題無關的環境對象。針對這一挑戰,我們首先強調了建模問題關鍵時間點和空間對象的重要性,然后引入了時空合理化(STR)方法,利用可微分選擇模塊通過跨模態交互自適應地收集問題關鍵的時間點和對象。結合更合理的候選答案解碼策略,STR有效識別了與問題無關的幀和對象作為因果模式,從而提升了預測性能,尤其是在復雜場景中。局限性本論文的一個局限性在于對識別出的因果場景的評估。在整個研究中,我們依賴問答(QA)的整體性能作為發現因果場景質量的間接指標,其依據是更準確的因果場景定位可能提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,必須承認,基于因果場景的直接定量測量將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中尚未實現此類測量。因此,未來的研究將致力于建立一個專門針對因果場景的評估基準,涉及對支撐回答過程的視覺元素進行人工標注。這一舉措將有助于對因果場景發現進行更全面和嚴格的評估。總結我們的貢獻拓展了因果建模在語義視頻理解中的前沿,賦能AI系統掌握因果模式,并在具有挑戰性的視頻理解任務中提升性能。
在過去十年中,深度學習領域取得了令人矚目的成功。如今,神經網絡模型幾乎主導了所有主流基準測試排行榜,不僅被廣泛部署于現實世界場景中,甚至在某些任務上已達到超越人類的水平。然而,這些模型在多個方面仍然脆弱,常常會出現意料之外的失敗,其可靠性與可信度問題仍遠未得到徹底解決。 在本論文中,我們提出:若要推動神經模型的進一步發展,僅僅關注其準確率已不再足夠,更需要系統地理解模型的錯誤模式,以深入探究剩余錯誤存在的原因以及如何有效緩解這些問題。
論文的第一部分提出了一個自動化的錯誤分類框架,能夠對 IMAGENET 模型的所有預測錯誤進行分類,標注其錯誤類型與嚴重程度。借助該框架,我們對超過 900 個模型的錯誤分布進行了全面評估,發現 top-1 準確率與多標簽準確率是各類錯誤比例的強預測指標。特別地,我們觀察到,隨著模型準確率的提升,嚴重錯誤的比例顯著下降,這表明傳統準確率指標可能低估了模型實際性能與進步的程度。
接著,我們進一步展示該分析框架的實用性,具體應用于研究 IMAGENET 模型在不同擾動條件下的錯誤分布。我們發現,在常見自然擾動(如隨機噪聲、模糊、天氣變化與數字擾動)下,錯誤分布趨勢與原始干凈圖像非常相似,并呈現出一致的擴展特性。相對而言,標準的非定向 PGD(Projected Gradient Descent)攻擊所引發的嚴重錯誤比例反而更低,這一發現令人驚訝,也揭示了自然擾動與對抗擾動在錯誤分布上的根本差異。
基于上述發現,我們設計了若干種 PGD 攻擊變體,這些變體能夠誘發更嚴重的錯誤并顯著降低模型的對抗魯棒性。在將其中一種攻擊方法融入對抗訓練后,我們得到了更加準確且在某些設置下嚴重錯誤比例更低的模型。
最后,在論文的第三部分,我們從錯誤分類與分析轉向錯誤緩解,尤其聚焦于公平性問題——目標是構建在不同個體與群體之間不產生歧視的模型。為此,我們提出了一種基于生成建模、對抗訓練與隨機平滑技術的表示學習方法,以實現并驗證圖像數據在高維空間下的個體公平性(individual fairness)。 我們希望本論文的研究成果能夠激勵更多研究者將錯誤分析工具納入機器學習模型的開發周期,從而推動模型向著更安全、更可靠的方向發展。
近年來,深度學習(Deep Learning, DL)模型及其技術的迅猛發展,推動了其在多種任務與模態中的性能取得顯著進步。盡管模型整體能力持續增強,但我們對其內部推理過程的理解仍然有限,尤其是在面對系統性的不一致或錯誤——即邏輯或推理模式上的缺陷時。這類不一致性可能表現為輸出之間的自相矛盾、無法在相似任務間進行泛化,或在特定語境中得出錯誤結論。由于其可能源于模型內部過程的高度不透明、訓練數據中的偏差與不平衡,或任務本身的復雜性,檢測與衡量這類推理偏差本身就是一項挑戰。 在缺乏有效方法來檢測、量化與緩解這類錯誤的前提下,深度學習模型存在被部署時出現偏差、易被攻擊,或缺乏邏輯可靠性的重大風險。 本論文旨在針對上述問題,提出一系列適用于知識圖譜、自然語言與圖像任務中的推理型深度學習模型的創新方法。首先,本文提出了兩種技術,用于檢測和量化自然語言與圖像處理模型中因內部過程不透明所導致的預測不一致性。我們在設計的對抗性實驗設置中對多類模型進行系統評估,這些設置明確暴露模型的內部推理過程,從而使我們得以量化模型中的顯著推理偏差。 為緩解訓練數據中的偏見導致的不一致性,本文還提出了一種數據高效的采樣方法,以提升模型的公平性與性能;同時,提出一種合成數據集生成方法,用于在低資源場景下更嚴格地評估與提升模型的推理能力。 最后,論文還提出了兩種新穎技術,用于優化模型在自然語言與知識圖譜等復雜推理任務中的表現。這些方法不僅直接增強了模型的性能,還提升了推理過程的可解釋性與行為的忠實性。 總的來說,本論文通過系統地量化并緩解推理不一致性,構建了一個通用框架,以提升深度學習模型在各類任務與模態下的魯棒性、公平性與可解釋性。
深度神經網絡在過去十年中雖已在各類機器學習任務中展現出卓越性能,但其在資源受限且動態變化的現實環境中的部署仍面臨挑戰。大規模模型雖精度優異,但其計算需求往往難以滿足邊緣設備與實時應用的要求;輕量級模型雖效率占優,卻在動態域偏移場景下普遍存在魯棒性與泛化能力不足的問題。這一矛盾在移動醫療等隱私敏感、效率優先且可靠性要求嚴苛的應用中尤為突出。本論文提出TempT(時序一致性測試時自適應)方法——一種無需標注數據的測試時自適應(TTA)新范式,通過利用時序連貫性作為自監督信號,對連續輸入的模型預測施加平滑性約束。該方法通過抑制高頻波動,不僅提升了預測穩定性,更顯著增強了模型在未知環境中的性能與魯棒性。該技術在以表情識別、視頻目標檢測為代表的視頻學習任務中效果尤為顯著,因其能有效保持幀間一致性。進一步地,我們創新性地將拓撲數據分析(TDA)中的持續同調理論引入模型行為量化領域,通過分析網絡中間激活的拓撲特征,開發出選擇性自適應策略,使模型能自主判斷何時調整有利、何時維持不變。此外,基于時序一致性的新型正則化技術被提出,可同步提升模型泛化能力與域偏移魯棒性。在AffWild2、SHIFT和CIFAR100P等真實數據集上的實驗表明:TempT不僅性能超越現有TTA方法,更使輕量模型達到媲美大型架構的精度水平(如SHIFT數據集上mAP提升4.7%)。本研究彌合了域適應與自監督學習間的鴻溝,為受限環境下的深度學習提供了兼顧魯棒性、隱私保護與可擴展性的解決方案。
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法:
在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能。
人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。
雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。
I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,
這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,
通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,
這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。
人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。
然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。
模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。
在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。
為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。
增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。
LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
理解圖像內容是許多應用的重要組成部分,例如自動駕駛、增強現實、機器人、醫學影像和遙感。隨著深度神經網絡的突破,語義圖像理解在過去幾年中取得了顯著進展。然而,神經網絡需要大量標注數據才能進行適當訓練。由于大規模真實世界數據集的標注成本高昂,網絡可以在具有現成或較低成本標注的數據集(如自動標注的合成數據)上進行訓練。然而,神經網絡通常對領域偏移(domain shifts)敏感,因此在與訓練數據不同的領域中表現較差。因此,無監督領域適應(UDA)和領域泛化(DG)方法的目標是使在源域(例如合成數據)上訓練的模型在未標注或甚至未見過的目標域(例如真實世界數據)上表現良好。
大多數UDA/DG研究專注于設計適應和泛化技術以克服領域偏移的問題。然而,學習框架中其他方面對領域魯棒性的影響大多被忽視。因此,我們從更全面的角度研究領域魯棒性,探討不同學習框架方面對UDA和DG的影響,包括網絡架構、通用訓練方案、圖像分辨率、裁剪大小和上下文信息。特別是,我們解決了現有DG和UDA方法中的以下問題:(1) 我們研究了最新架構對領域魯棒語義/全景分割的影響,并設計了一種專為領域泛化和領域適應分割量身定制的網絡架構,而不是依賴過時的分割架構來評估DG/UDA策略。(2) 為了避免對源域的過擬合,我們提出了保持先驗知識的通用訓練策略。(3) 為了在DG/UDA增加的GPU內存消耗下實現精細的分割細節,我們提出了一個領域魯棒且內存高效的多分辨率訓練框架。(4) 為了解決目標域的局部外觀歧義,我們提出了一種增強空間上下文關系學習的方法。以下段落詳細介紹了這些貢獻。
由于之前的UDA和DG語義分割方法大多基于過時的DeepLabV2網絡和ResNet骨干網絡,我們對較新的架構進行了基準測試,揭示了Transformer的潛力,并設計了DAFormer網絡架構,專為UDA和DG量身定制。它由分層Transformer編碼器和多級上下文感知特征融合解碼器組成。DAFormer網絡通過三種簡單但至關重要的訓練策略來穩定訓練并避免對源域的過擬合:在源域上進行稀有類采樣,通過緩解自訓練對常見類別的確認偏差,改善偽標簽的質量;Thing-Class ImageNet特征距離和學習率預熱有助于從ImageNet預訓練中轉移特征。通過這些技術,DAFormer在UDA和DG中實現了顯著的性能提升,甚至能夠學習像火車、公交車和卡車等難以分類的類別。
此外,我們研究了全景分割的主要架構設計及其UDA能力。我們表明,之前的全景UDA方法在設計上做出了次優選擇。基于這些發現,我們提出了EDAPS,一種特別為領域適應全景分割設計的網絡架構。它使用一個共享的領域魯棒Transformer編碼器,以促進語義和實例特征的聯合適應,同時針對領域適應語義分割和實例分割的具體需求設計了任務特定解碼器。
雖然DAFormer和EDAPS能夠更好地區分不同的類別,但我們觀察到它們缺乏精細的分割細節。我們將其歸因于使用了下采樣的圖像,導致了低分辨率的預測。然而,直接使用全分辨率圖像在UDA/DG中由于其較高的GPU內存消耗而不可行。使用高分辨率圖像的隨機裁剪進行訓練雖然緩解了這一問題,但在捕捉長程、領域魯棒的上下文信息方面表現不足。因此,我們提出了HRDA,一種用于UDA和DG的多分辨率訓練方法,結合了小型高分辨率裁剪以保留精細分割細節和大型低分辨率裁剪以捕捉長程上下文依賴關系,同時保持可管理的GPU內存占用。HRDA能夠適應小物體并保留精細分割細節,顯著提高了之前UDA和DG方法的性能。
即使有了DAFormer和HRDA改進的區分能力和高分辨率性能,UDA方法在目標域中具有類似視覺外觀的類別上仍然表現掙扎,因為沒有可用的真實標簽來學習細微的外觀差異。為了解決這個問題,我們提出了一個掩碼圖像一致性(MIC)模塊,通過學習目標域的空間上下文關系作為穩健視覺識別的額外線索,來增強UDA。MIC通過對隨機遮蔽的目標圖像的預測與基于完整圖像生成的偽標簽之間的一致性進行約束。為了最小化一致性損失,網絡必須學會從上下文中推斷被遮蔽區域的預測。由于其簡單且通用的概念,MIC可以集成到各種UDA方法中,涵蓋不同的視覺識別任務,如圖像分類、語義分割和目標檢測。MIC顯著提高了不同識別任務和領域差距的最新性能。
總體而言,本論文揭示了在領域魯棒的視覺場景理解中,從網絡架構和通用訓練策略等學習框架的不同方面進行全面考量的重要性。所提出的方法大幅提升了從合成到真實、白天到夜晚、晴朗到惡劣天氣等多個感知任務的領域適應性能。例如,在GTA→Cityscapes的語義分割中,它們實現了+18.4 mIoU的總體提升。超越領域適應,DAFormer和HRDA甚至在更具挑戰性的領域泛化設置中也表現出色,在從GTA泛化到5個未見的真實世界數據集時,性能提升了+12.0 mIoU。實現已開源并可在//github.com/lhoyer上獲取。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。