半監督學習的顯著進展推動了研究人員在計算機視覺領域探索其在目標檢測任務中的潛力。半監督目標檢測(SSOD)利用小規模標注數據集和大規模未標注數據集的組合,有效減少了對大規模標注數據集的依賴,這些數據集通常昂貴且耗時。最初,SSOD模型在有效利用未標注數據和管理生成的未標注數據偽標簽中的噪聲方面遇到了挑戰。然而,許多最近的進展已經解決了這些問題,導致SSOD性能顯著提升。本文全面回顧了27項最前沿的SSOD方法發展,從卷積神經網絡(CNNs)到Transformers。我們深入探討了半監督學習的核心組件及其在目標檢測框架中的整合,涵蓋數據增強技術、偽標簽策略、一致性正則化和對抗訓練方法。此外,我們對各種SSOD模型進行了比較分析,評估它們的性能和架構差異。我們旨在激發更多關于克服現有挑戰和探索半監督學習在目標檢測中新方向的研究興趣。
深度學習 [42], [43], [44], [45] 已成為一個活躍的研究領域,并在模式識別 [46], [47]、數據挖掘 [48], [49]、統計學習 [50], [51]、計算機視覺 [52], [53] 和自然語言處理 [54], [54], [55] 等多個領域中有著廣泛的應用。特別是在有監督學習環境中,深度學習通過有效利用大量高質量的標注數據,取得了顯著的成就。然而,這些有監督學習方法 [56], [57], [58] 依賴于昂貴且耗時的標注數據進行訓練。半監督目標檢測 (SSOD) [59] 通過結合標注數據和未標注數據 [60] 來彌補這一缺口,在計算機視覺領域 [52], [53] 尤其是在獲取大規模標注數據 [59] 具有挑戰性或成本高昂的行業中顯示出顯著進步。SSOD 應用于包括自動駕駛汽車 [61], [62] 和醫學影像 [63], [64] 在內的各個行業。在農業 [65] [66] 和制造業 [67] 等數據豐富但標注耗時的行業中,SSOD 有助于提高效率。
半監督方法 [68], [69] 通過利用未標注和標注數據 [70], [71] 提升模型性能并減少標注需求。此外,以前的目標檢測方法 [72], [73] 主要涉及手動特征工程 [74], [75] 和簡單模型的使用。這些方法在準確識別不同形狀和尺寸的物體時遇到困難。后來,卷積神經網絡 (CNNs) [77], [78] 的引入,通過直接從原始數據中提取分層特征 [79],實現了端到端學習 [80],大大提高了準確性和有效性。近年來,半監督目標檢測在深度學習架構 [81], [82]、優化技術 [83] 和數據集增強策略 [84], [85], [86], [87] 的推動下取得了顯著進步。研究人員開發了各種針對目標檢測的半監督學習 (SSL) 方法,每種方法都有其獨特的優缺點 [88], [89], [90]。這些方法主要分為偽標簽 [91], [92], [93] 和一致性正則化 [94],兩者在訓練過程中都有效利用了標注和未標注數據。此外,將SSL方法與最先進的目標檢測架構(如FCOS [95],Faster R-CNN [96] 和 YOLO [97])相結合,顯著提升了半監督目標檢測系統的性能和可擴展性。這種結合不僅提高了檢測準確性,還幫助模型在處理新的和未見過的數據集時表現良好。
隨著DEtection TRansformer(DETR) [98], [99], [100] 的出現,目標檢測取得了顯著進展。Transformers最初為自然語言處理 [54], [54], [55] 開發,在捕捉長距離依賴關系 [101] 和上下文信息 [102], [103] 方面表現出色,使其在復雜空間排列的目標檢測中理想 [104], [105]。與依賴于局部卷積并需要非極大值抑制 (NMS) [106] 來過濾冗余檢測的CNNs [78], [79], [80] 不同,DETR使用自注意力機制 [107], [108],不需要NMS。它將目標檢測任務視為直接的集合預測問題,消除了傳統的NMS [106] 和錨生成 [109] 過程。盡管有優勢,DETR仍存在如訓練期間收斂速度慢和小物體檢測困難等局限性。為了應對這些問題,DETR通過改進的注意力機制和優化技術 [110] 提高了性能和效率。在DETR取得成功后,研究人員現在在半監督目標檢測方法中采用基于DETR的網絡 [1], [2], [3],結合DETR的優勢與半監督學習,利用未標注數據 [88], [94],減少對大規模標注數據的需求。
由于基于transformer的半監督目標檢測(SSOD) [60], [111] 方法的快速進步,跟上最新進展變得越來越具有挑戰性。因此,從基于CNN到基于Transformer的SSOD方法的最新發展進行回顧對于該領域的研究人員具有重要意義。本文對從基于CNN到基于Transformer的半監督目標檢測(SSOD)方法的轉變進行了全面概述。如圖1所示,綜述將SSOD方法分為基于CNN(單階段和兩階段) [4], [6], [7], [8], [10], [24], [27], [45] 和基于Transformer的方法 [1], [2], [3],重點介紹了偽標簽和基于一致性的標注等技術。它還詳細介紹了包括強、弱和混合技術在內的數據增強策略 [85], [86], [87], [112], [113], [114], [115]。
圖2展示了一種為半監督目標檢測量身定制的教師-學生架構。一個預訓練的教師模型用于為未標注數據生成偽標簽。這些偽標簽與標注數據一起用于共同訓練學生模型。通過結合偽標注數據,學生模型從更廣泛和多樣化的數據集中學習,增強其準確檢測物體的能力。此外,數據增強方法也應用于標注和偽標注數據集。這種協同學習方法有效利用了標注和未標注數據,提高了目標檢測系統的整體性能。本文其余部分組織如下:第2節回顧了以前的SSOD綜述。第3節討論了該領域的相關工作。第8節探討了SSOD在各種視覺任務中的作用。第4節是本文的核心,提供了SSOD方法的全面概述。第5節研究了SSOD中使用的不同損失函數。第6節對SSOD方法進行了比較分析。第7節解決了開放的挑戰和未來的方向。最后,第9節對本文進行了總結。
近年來,圖對比學習(Graph Contrastive Learning, GCL)在推薦系統中受到越來越多的關注,因為它在減小數據稀疏性導致的偏差方面表現出了高效性。然而,大多數現有的GCL模型依賴于啟發式方法,并且在構建對比視圖時通常假設實體獨立性。我們認為,這些方法在動態訓練過程中難以在語義不變性和視圖難度之間取得平衡,而這兩者都是圖對比學習中的關鍵因素。為了解決上述問題,我們提出了一種新的基于GCL的推薦框架RGCL,該框架能夠有效地保持對比對的語義不變性,并隨著模型能力的演變在訓練過程中動態適應。具體而言,RGCL首先引入了決策邊界感知的對抗擾動,以約束對比增強視圖的探索空間,避免任務特定信息的減少。此外,為了在生成困難對比視圖時引入全局的用戶-用戶和物品-物品協作關系,我們提出了一種對抗對比學習目標,以構建一個關系感知的視圖生成器。此外,考慮到無監督GCL可能會縮小數據點與決策邊界之間的邊距,從而降低模型的魯棒性,我們引入了基于最大擾動的對抗樣本,以實現邊距最大化。我們還提供了對我們設計有效性的理論分析。通過在五個公開數據集上的大量實驗,我們證明了RGCL相比于十二個基線模型的優越性。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
神經網絡已被證明是解決許多生活領域中復雜問題的一種高效工具。最近,隨著深度學習的出現,它們的重要性和實用性得到了進一步的加強。神經網絡成功的一個重要條件是選擇合適的激活函數,為模型引入非線性。過去的文獻中提出了許多類型的這些函數,但沒有一個全面的來源包含了它們的詳盡概述。即使根據我們的經驗,這個概述的缺失導致了冗余和無意中重新發現已經存在的激活函數。為了彌補這一缺口,我們的論文提出了一個涉及400種激活函數的廣泛綜述,其規模是之前綜述的幾倍。我們的綜合編纂還引用了這些綜述;然而,其主要目標是提供最全面的激活函數已發表概述和系統化,并鏈接到它們的原始來源。次要目標是更新對這一函數家族的當前理解。
神經網絡 — 尤其是深度學習 — 在解決各個領域中的多樣化挑戰上表現出了顯著的成功。它們被視為最先進的方法,展示了它們解決復雜和錯綜復雜問題的能力。在這些網絡的核心,激活函數(AFs)通過為神經網絡層引入非線性而發揮著重要作用。在沒有非線性AFs的情況下,典型的神經網絡將只能模擬輸入的加權和,限制了它們捕獲數據內部復雜關系的能力。
激活函數的選擇深刻影響網絡的學習和泛化能力,直接影響其在一系列任務中的性能。有效的激活函數具有幾個關鍵特性,如Dubey, Singh, 和 Chaudhuri在[1]中概述的:a) 引入非線性曲率以增強訓練收斂性;b) 在訓練期間保持無阻礙的梯度流;c) 確保對模型計算復雜性的最小增加;d) 保持數據分布以優化網絡訓練。
在過去三十年的文獻中提出了許多激活函數 — 有些在計算復雜性或性能方面比其他函數更高。然而,激活函數的進一步研究受到了缺乏整合列表的阻礙。這一缺口導致了無意中重新發明現有激活函數和獨立提出相同或非常相似的函數,從而導致研究資源的浪費。即使是像Dubey, Singh, 和 Chaudhuri [1] 和 Apicella等人[2]這樣的綜合性調查和回顧,經常遺漏文獻中存在的許多激活函數;此外,這些回顧也有些過時,自那以后出現了許多新的激活函數。這種疏忽可能導致一個AF被冗余地提出為新穎,盡管它之前已經在文獻中被介紹 — 例如,修正冪單元(RePU)(第3.6.39節),雙參數ReLU(DPReLU)(第4.2.20節),截斷修正線性單元(TRec)(第3.6.21節),ReLU-Swish(第3.6.46節)和有界ReLU(BReLU)(第3.6.16節)。通過提供更廣泛的激活函數列表,我們旨在避免這種冗余,并促進神經網絡中激活函數研究的更快進展。 為了解決這個問題,我們努力提供一個廣泛且整合的AFs列表。這項調查旨在防止冗余,消除重新發明已建立AFs的現象,以促進創新,并加速神經網絡領域研究的進步。通過提供一個綜合資源,我們旨在促進該領域內探索AFs的效率和創新。
重要的是,我們的貢獻主要集中在提供一個全面的AFs列表,而不是進行廣泛的基準測試或深入分析。編譯的廣度包括了廣泛的AFs,使得詳細的基準測試或更深入的分析超出了本項工作的范圍。我們的目標是為研究人員提供一個基礎資源,以便在選擇神經網絡的AFs時做出明智的決策,認識到更徹底的探索或詳細分析將需要超出這個全面列表范圍的專門和集中的努力。所呈現的概述僅限于實值激活函數;復值神經網絡(例如,[3–16],簡要概述可見于[17, 18]),雙復值神經網絡(例如,[19]),四元數值神經網絡(例如,[20–24]),光子神經網絡(例如,[25]),模糊神經網絡(例如,[26–31]),概率布爾邏輯的AFs(例如,[32]),量子AFs(例如,[33])等超出了本工作的范圍。1 我們選擇將AFs分為兩大類:固定AFs(第3節)和自適應激活函數(AAFs)(第4節),后者具有一個在網絡中與其他權重一起訓練的參數。雖然存在AFs在實質上是相同的情況,只是在是否存在特定的自適應參數方面有所不同(例如,swish(見第4.4.1節)和SiLU(見第3.3節)),這種分類證明是有價值的。AAFs憑借其參數化,提供了在訓練過程中捕獲數據內復雜關系的額外靈活性層。
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
深度學習加速器旨在高效地執行深度學習,通常針對推理階段,并且通常通過利用傳統電子設備之外的物理基板。迄今為止的方法一直無法應用反向傳播算法來原位訓練非常規的新型硬件。反向傳播的優勢使其成為事實上的大規模神經網絡訓練方法,因此這一缺陷構成了主要障礙。康奈爾大學的研究人員介紹了一種混合原位-計算機算法,稱為物理感知訓練,它應用反向傳播來訓練可控的物理系統。該研究以「Deep physical neural networks trained with backpropagation」為題,于 2022 年 1 月 26 日發布在《Nature》。
深度學習模型已經成為科學和工程領域的普遍工具。然而,他們的能量需求現在越來越限制他們的可擴展性(Patterson et al., 2020)。深度學習加速器旨在高效地進行深度學習,通常以推理階段為目標,并經常通過利用傳統電子學以外的物理基質。迄今為止的方法都無法應用反向傳播算法來就地訓練非常規的新型硬件。逆傳播的優勢使其成為大規模神經網絡事實上的訓練方法,所以這一缺陷構成了一個主要障礙。在這里,作者介紹了一種混合的原位硅學算法,稱為物理感知訓練,它應用反向傳播來訓練可控的物理系統。正如深度學習實現了由數學函數層組成的深度神經網絡的計算一樣,該方法允許我們訓練由可控物理系統層組成的深度物理神經網絡,即使物理層與傳統的人工神經網絡層缺乏任何數學同構性。
為了證明該方法的普遍性,作者訓練了基于光學、機械學和電子學的各種物理神經網絡,以實驗方式執行音頻和圖像分類任務。物理感知訓練結合了反向傳播的可擴展性和原地算法可實現的缺陷和噪聲的自動緩解。物理神經網絡有可能比傳統的電子處理器更快、更節能地進行機器學習,更廣泛地說,可以賦予物理系統自動設計的物理功能,例如,機器人,材料和智能傳感器。
//www.nature.com/articles/s41586-021-04223-6
與人工智能的許多歷史發展一樣,深度神經網絡(DNNs)的廣泛采用部分是由協同硬件促成的。2012年,在早期工作的基礎上,Krizhevsky等人表明,反向傳播算法可以通過圖形處理單元有效執行,以訓練大型DNN進行圖像分類。自2012年以來,DNN模型的計算要求迅速增長,超過了摩爾定律。現在,DNNs越來越受到硬件能效的限制。新出現的DNN能源問題激發了特殊用途的硬件。DNN "加速器 ",其中大多數是基于硬件物理和DNN數學運算之間的直接數學同構(圖1a,b)。有幾個加速器提案使用了傳統電子學以外的物理系統,如光學和模擬電子橫梁陣列。大多數設備針對的是深度學習的推理階段,在商業部署中,推理階段占深度學習能源成本的90%以上(Patterson et al., 2020),盡管越來越多的設備也在解決訓練階段的問題(e.g., Kohda et al., 2020)。
圖示:PNN 簡介。(來源:論文)
然而,通過為嚴格的、逐個操作的數學同構設計硬件,來實現訓練有素的數學變換,并不是執行高效機器學習的唯一方法。相反,研究人員可以直接訓練硬件的物理轉換來執行所需的計算。在這里,研究人員將這種方法稱為物理神經網絡(PNN),以強調訓練的是物理過程,而不是數學運算。 這種區別不僅僅是語義上的:通過打破傳統的軟件-硬件劃分,PNN 提供了從幾乎任何可控的物理系統構建神經網絡硬件的可能性。正如任何模擬復雜物理系統演變的人所了解的那樣,物理轉換通常比數字仿真更快,且消耗更少的能量。
這表明如果最直接地利用這些物理轉換的 PNN,可能會比傳統范式更有效地執行某些計算,從而為可擴展、更節能和更快的機器學習提供途徑。
圖示:使用寬帶光學 SHG 實驗實現的示例 PNN。(來源:論文)
PNN 尤其適用于類似 DNN 的計算,遠遠超過數字邏輯甚至其他形式的模擬計算。正如它們對自然數據的穩健處理所預期的那樣,DNN 和物理過程具有許多結構相似性,例如層次結構、近似對稱性、噪聲、冗余和非線性。
隨著物理系統的發展,它們執行的轉換有效地等效于 DNN 中常用的數學運算的近似、變體或組合,例如卷積、非線性和矩陣向量乘法。因此,使用受控物理變換序列,研究人員可以實現可訓練的分層物理計算,即深度 PNN。
雖然通過直接訓練物理轉換來構建計算機的范式起源于進化的計算材料,但它今天正在各個領域出現,包括光學、自旋電子納米振蕩器、納米電子器件和小型量子計算機。
一個密切相關的趨勢是物理儲層計算(PRC),其中未經訓練的物理「儲層」的轉換由可訓練的輸出層線性組合。盡管 PRC 利用通用物理過程進行計算,但它無法實現類似 DNN 的分層計算。
相比之下,訓練物理轉換本身的方法原則上可以克服這一限制。為了通過實驗訓練物理變換,研究人員經常依賴無梯度學習算法。基于梯度的學習算法,例如反向傳播算法,被認為對于大規模 DNN 的高效訓練和良好泛化至關重要。
因此,出現了在物理硬件中實現基于梯度的訓練的建議。然而,這些鼓舞人心的提議卻做出了排除許多物理系統的假設,例如線性、無耗散演化或梯度動力學很好地描述了系統。最普遍的建議通過在計算機上進行訓練來克服這些限制,即完全在數值模擬中學習。盡管計算機訓練的普遍性賦予了力量,但非線性物理系統的模擬很少足夠準確,無法使計算機訓練的模型準確地轉移到真實設備。
圖示:物理意識培訓。(來源:論文) 在這里,康奈爾大學的團隊演示了一個使用反向傳播直接訓練任意物理系統來執行 DNN 的通用框架,即 PNN。他們的方法是通過一種混合原位 - 計算機算法實現的,稱為物理感知訓練(PAT)。PAT 允許研究人員在任何物理輸入-輸出轉換序列上高效準確地執行反向傳播算法。
他們通過使用三個不同的系統實驗性地執行圖像分類,來證明這種方法的普遍性:驅動金屬板的多模機械振蕩、非線性電子振蕩器的模擬動力學和超快光學二次諧波產生 (SHG)。
研究人員獲得了準確的分層分類器,該分類器利用了每個系統獨特的物理變換,并從本質上減輕了每個系統的獨特噪聲過程和缺陷。
盡管 PNN 與傳統硬件大相徑庭,但很容易將它們集成到現代機器學習中。實驗表明,PNN 可以通過物理-數字混合架構與傳統硬件和神經網絡方法無縫結合,其中傳統硬件學習使用 PAT 與非傳統物理資源進行機會合作。
最終,PNN 提供了將機器學習的能源效率和速度提高多個數量級的途徑,以及自動設計復雜功能設備(例如功能性納米顆粒、機器人和智能傳感器)的途徑。
參考鏈接:
圖神經網絡(GNN)已被用于解決少樣本學習(FSL)問題,并顯示出在換能器設置下的巨大潛力。但在歸納設置下,現有的基于GNN的方法競爭力較弱。這是因為他們使用一個實例GNN作為標簽傳播/分類模塊,該模塊與一個特征嵌入網絡共同進行元學習。這種設計是有問題的,因為分類器需要快速適應新的任務,而嵌入不需要。為了解決這一問題,本文提出了一種新的混合GNN (HGNN)模型,該模型由兩個GNN、一個實例GNN和一個原型GNN組成。它們代替標簽傳播,作為嵌入特征的適應模塊,使元學習的特征嵌入快速適應新任務。重要的是,它們的設計是為了處理FSL中一個基本但經常被忽視的挑戰,即每個類中只有少量的樣本,任何少量樣本分類器都將對糟糕的采樣樣本敏感,這些樣本要么是異常值,要么會導致類間分布重疊。我們的兩個GNN分別針對這兩種差采樣的少樣本進行設計,并在混合GNN模型中利用它們的互補性。大量實驗表明,我們的HGNN在三個FSL基準測試中取得了新的先進水平。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
最近,異質圖神經網絡(HGNNs)在處理異質信息網絡(HIN)方面展現了優越的能力。大部分的HGNNs都遵循半監督學習的設定,然而實際應用中標簽信息往往很難獲得。而自監督學習由于能夠自發地從數據本身挖掘監督信號,已經成為無監督設定下很好的選擇。作為一種典型的自監督機制,對比學習(contrastive learning)通過從數據中抽取出正負樣本,同時最大化正例間的相似度以及最小化負例間相似度,能夠學到判別性的表示。盡管對比學習在CV和NLP領域得到了廣泛應用,如何將它和HIN結合卻尚未解決。
通過認真考慮HIN以及對比學習的特性,我們總結了三個需要解決的本質問題:
1)如何設計異質對比機制 HIN中包含復雜結構,例如元路徑(meta-path),需要利用跨視圖的對比學習機制來綜合刻畫。
2)如何在HIN中選擇合適的視圖 對于視圖的基本要求是,能夠刻畫網絡的局部結構和高階結構。網絡模式(network schema)反應了節點間的直接連接情況,捕捉局部結構;元路徑通常被用來抽取多跳關系。
3)如何設置困難的對比任務 簡單的正負關系很容易被捕獲,模型學到的信息有限。增加對比任務的難度,可通過增加兩個視圖間的差異,或者生成更高質量的負樣本來實現。
在本篇文章中,我們提出了一個新的基于協同對比學習的異質圖神經網絡框架,簡稱HeCo。HeCo采用跨視圖的對比機制,選擇網絡模式和元路徑作為兩個視圖,結合視圖掩蓋機制,分別學得兩個視圖下的節點表示。之后,利用跨視圖對比學習,使得兩個視圖協同監督。此外,我們還提出兩個HeCo擴展,通過生成更高質量的負例,提升最終效果。
在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。
在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。
在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。
//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18
引言
深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。
然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。
在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。
最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。
根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。
在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。
為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:
我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。
我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。
我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。
我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。
我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。
盡管生成式對抗網絡(GAN)的歷史并不長,但它已被廣泛地研究和用于各種任務,包括其最初的目的,即合成樣品的生成。然而,將GAN用于具有不同神經網絡結構的不同數據類型,由于其在訓練方面的局限性,使得模型很容易出現混亂。這種臭名昭著的GAN訓練是眾所周知的,并已在許多研究中提出。因此,為了使GAN的訓練更加穩定,近年來提出了許多正則化方法。本文綜述了近年來引入的正則化方法,其中大部分是近三年來發表的。具體地說,我們關注的是那些可以被普遍使用的方法,而不管神經網絡體系結構如何。根據其運算原理將其分為若干組,并分析了各方法之間的差異。此外,為了提供使用這些方法的實際知識,我們調研了在最先進的GANs中經常使用的流行方法。此外,我們還討論了現有方法的局限性,并提出了未來的研究方向。