理解圖像內容是許多應用的重要組成部分,例如自動駕駛、增強現實、機器人、醫學影像和遙感。隨著深度神經網絡的突破,語義圖像理解在過去幾年中取得了顯著進展。然而,神經網絡需要大量標注數據才能進行適當訓練。由于大規模真實世界數據集的標注成本高昂,網絡可以在具有現成或較低成本標注的數據集(如自動標注的合成數據)上進行訓練。然而,神經網絡通常對領域偏移(domain shifts)敏感,因此在與訓練數據不同的領域中表現較差。因此,無監督領域適應(UDA)和領域泛化(DG)方法的目標是使在源域(例如合成數據)上訓練的模型在未標注或甚至未見過的目標域(例如真實世界數據)上表現良好。
大多數UDA/DG研究專注于設計適應和泛化技術以克服領域偏移的問題。然而,學習框架中其他方面對領域魯棒性的影響大多被忽視。因此,我們從更全面的角度研究領域魯棒性,探討不同學習框架方面對UDA和DG的影響,包括網絡架構、通用訓練方案、圖像分辨率、裁剪大小和上下文信息。特別是,我們解決了現有DG和UDA方法中的以下問題:(1) 我們研究了最新架構對領域魯棒語義/全景分割的影響,并設計了一種專為領域泛化和領域適應分割量身定制的網絡架構,而不是依賴過時的分割架構來評估DG/UDA策略。(2) 為了避免對源域的過擬合,我們提出了保持先驗知識的通用訓練策略。(3) 為了在DG/UDA增加的GPU內存消耗下實現精細的分割細節,我們提出了一個領域魯棒且內存高效的多分辨率訓練框架。(4) 為了解決目標域的局部外觀歧義,我們提出了一種增強空間上下文關系學習的方法。以下段落詳細介紹了這些貢獻。
由于之前的UDA和DG語義分割方法大多基于過時的DeepLabV2網絡和ResNet骨干網絡,我們對較新的架構進行了基準測試,揭示了Transformer的潛力,并設計了DAFormer網絡架構,專為UDA和DG量身定制。它由分層Transformer編碼器和多級上下文感知特征融合解碼器組成。DAFormer網絡通過三種簡單但至關重要的訓練策略來穩定訓練并避免對源域的過擬合:在源域上進行稀有類采樣,通過緩解自訓練對常見類別的確認偏差,改善偽標簽的質量;Thing-Class ImageNet特征距離和學習率預熱有助于從ImageNet預訓練中轉移特征。通過這些技術,DAFormer在UDA和DG中實現了顯著的性能提升,甚至能夠學習像火車、公交車和卡車等難以分類的類別。
此外,我們研究了全景分割的主要架構設計及其UDA能力。我們表明,之前的全景UDA方法在設計上做出了次優選擇。基于這些發現,我們提出了EDAPS,一種特別為領域適應全景分割設計的網絡架構。它使用一個共享的領域魯棒Transformer編碼器,以促進語義和實例特征的聯合適應,同時針對領域適應語義分割和實例分割的具體需求設計了任務特定解碼器。
雖然DAFormer和EDAPS能夠更好地區分不同的類別,但我們觀察到它們缺乏精細的分割細節。我們將其歸因于使用了下采樣的圖像,導致了低分辨率的預測。然而,直接使用全分辨率圖像在UDA/DG中由于其較高的GPU內存消耗而不可行。使用高分辨率圖像的隨機裁剪進行訓練雖然緩解了這一問題,但在捕捉長程、領域魯棒的上下文信息方面表現不足。因此,我們提出了HRDA,一種用于UDA和DG的多分辨率訓練方法,結合了小型高分辨率裁剪以保留精細分割細節和大型低分辨率裁剪以捕捉長程上下文依賴關系,同時保持可管理的GPU內存占用。HRDA能夠適應小物體并保留精細分割細節,顯著提高了之前UDA和DG方法的性能。
即使有了DAFormer和HRDA改進的區分能力和高分辨率性能,UDA方法在目標域中具有類似視覺外觀的類別上仍然表現掙扎,因為沒有可用的真實標簽來學習細微的外觀差異。為了解決這個問題,我們提出了一個掩碼圖像一致性(MIC)模塊,通過學習目標域的空間上下文關系作為穩健視覺識別的額外線索,來增強UDA。MIC通過對隨機遮蔽的目標圖像的預測與基于完整圖像生成的偽標簽之間的一致性進行約束。為了最小化一致性損失,網絡必須學會從上下文中推斷被遮蔽區域的預測。由于其簡單且通用的概念,MIC可以集成到各種UDA方法中,涵蓋不同的視覺識別任務,如圖像分類、語義分割和目標檢測。MIC顯著提高了不同識別任務和領域差距的最新性能。
總體而言,本論文揭示了在領域魯棒的視覺場景理解中,從網絡架構和通用訓練策略等學習框架的不同方面進行全面考量的重要性。所提出的方法大幅提升了從合成到真實、白天到夜晚、晴朗到惡劣天氣等多個感知任務的領域適應性能。例如,在GTA→Cityscapes的語義分割中,它們實現了+18.4 mIoU的總體提升。超越領域適應,DAFormer和HRDA甚至在更具挑戰性的領域泛化設置中也表現出色,在從GTA泛化到5個未見的真實世界數據集時,性能提升了+12.0 mIoU。實現已開源并可在//github.com/lhoyer上獲取。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。
然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。
本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。
在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。
在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。
我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。
直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。
最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。
新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。
本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。
在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。
我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。
我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。
在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。
我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。
我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。
近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。
圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。
為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。
在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。
繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。
近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。
盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:
圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。
我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。
我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。
我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。
我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。
深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。 對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。
神經網絡在處理大量數據方面表現優異,從家庭助手到自動駕駛汽車,在很多方面都極大地造福了我們的生活。然而,人們發現神經網絡是脆弱的。通過以一種人類察覺不到的方式輕微擾亂輸入,神經網絡幾乎不能做出任何正確的預測。這嚴重限制了它們在安全關鍵領域的應用,如醫療健康和金融。在本文中,我們研究了魯棒神經網絡,希望促進神經網絡的更廣泛和更可靠的應用。具體來說,我們專注于評估和訓練魯棒的神經網絡。我們首先考慮魯棒性評估。評估神經網絡魯棒性的一種常用方法是通過形式化驗證,這通常是計算開銷很大的。我們為加快這一進程做出了一些貢獻。簡單地說,我們采用了在統一的分支和定界框架下可以重新制定大多數驗證方法的思想。通過直接處理統一框架,對分支和邊界組件提出了高層次的改進,包括啟發式和學習框架。此外,我們引入了新的數據集,使我們的方法能夠與其他現有的方法進行綜合比較分析。在構造魯棒神經網絡方面,我們提出了一種新的魯棒訓練算法。許多流行的魯棒訓練方法依賴于強對手,當模型復雜度和輸入維數較高時,計算成本較高。我們設計了一個新的框架,可以更有效地利用對手。因此,為了達到類似的性能,可以使用廉價而弱小的對手。在此基礎上,介紹了算法ATLAS。我們通過展示ATLAS在幾個標準數據集上的出色表現來證明它的有效性和效率。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。
在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。
在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。
//dspace.mit.edu/handle/1721.1/140022
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。