亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—密集的三維環境表示一直是機器人領域的長期目標。盡管之前的神經輻射場(NeRF)表示因其基于坐標的隱式模型而廣泛應用,但最近出現的三維高斯濺射(3DGS)在顯式輻射場表示方面展示了顯著潛力。通過利用三維高斯基元進行顯式場景表示并實現可微渲染,3DGS在實時渲染和逼真性能上比其他輻射場有顯著優勢,這對于機器人應用極具益處。在本綜述中,我們對3DGS在機器人領域的應用進行了全面分析。我們將相關工作的討論分為兩個主要類別:3DGS的應用及其技術進展。在應用部分,我們從場景理解和交互的角度探討了3DGS在各種機器人任務中的應用。而在技術進展部分,我們聚焦于3DGS在適應性和效率方面的改進,以期提升其在機器人領域的性能表現。隨后,我們總結了機器人領域中最常用的數據集和評估指標。最后,我們識別了當前3DGS方法的挑戰與局限,并探討了3DGS在機器人領域的未來發展方向。索引詞—三維高斯濺射,機器人,場景理解與交互,挑戰與未來方向

神經輻射場(NeRF)的出現推動了機器人領域的發展,特別是在感知、場景重建和環境交互方面提升了機器人的能力。然而,這種隱式表示在優化過程中,由于逐像素光線投射渲染的低效性而受到限制。三維高斯濺射(3DGS)的出現通過其顯式表示解決了這一效率問題,并通過濺射實現了高質量和實時渲染。具體來說,3DGS使用一組具有可學習參數的高斯基元來建模環境,為場景提供顯式表示。在渲染過程中,3DGS通過濺射將三維高斯映射到給定攝像機位置的二維圖像空間,并使用基于切片的光柵化器進行加速,從而實現了實時性能。因此,3DGS在提升機器人系統性能和擴展其能力方面具有更大的潛力。自2023年3DGS問世以來,已有多篇綜述論文[4]、[5]、[6]、[7]、[8]、[9]展示了該領域的發展。Chen等人[4]首次綜述了3DGS的發展歷程和關鍵貢獻。Fei等人[5]提出了一個統一框架,用于對現有3DGS工作進行分類。Wu等人[7]則提供了一份包含傳統濺射方法與新興的基于神經網絡的3DGS方法的綜述,展示了3DGS濺射技術的發展。Bao等人[9]基于3DGS技術提供了更詳細的分類。此外,Dalal等人[6]聚焦于3DGS中的三維重建任務,而Bagdasarian等人[8]則總結了基于3DGS的壓縮方法,展示了3DGS在特定領域的優勢與不足。然而,現有的3DGS綜述要么對3DGS工作進行廣泛的分類,要么聚焦于3DGS的實時視圖合成,缺乏對機器人領域的詳細總結。因此,在本文中,我們對機器人領域中的3DGS進行了全面總結和詳細分類。我們介紹了3DGS在機器人中的應用,并詳細分類了與機器人應用相關的3DGS研究。此外,我們總結了增強3DGS表示以適用于機器人系統的潛在解決方案。最后,我們展示了基于3DGS的工作的性能評估,并討論了3DGS在機器人領域的未來發展。本綜述的整體框架如圖1所示。第二部分簡要介紹了3DGS的核心概念和數學原理。第三部分將3DGS在機器人中的各種應用方向進行分類,并詳細介紹了相關工作的分類。第四部分討論了改進3DGS表示以增強其在機器人任務中的能力的各種進展。此外,在第五部分中,我們總結了用于3DGS機器人應用的數據集和評估指標,并比較了現有方法在不同機器人方向上的表現。第六部分探討了3DGS在機器人領域的挑戰和未來方向。最后,第七部分總結了本次綜述的結論。

付費5元查看完整內容

相關內容

摘要—神經場(Neural Fields)已成為計算機視覺和機器人領域中用于3D場景表示的變革性方法,能夠從帶姿態的2D數據中精準推理幾何、3D語義和動態信息。通過可微分渲染(differentiable rendering),神經場包括連續隱式和顯式神經表示,實現高保真3D重建、多模態傳感器數據的整合,以及新視角的生成。本綜述探討了神經場在機器人領域的應用,強調其在提升感知、規劃和控制方面的潛力。神經場的緊湊性、內存效率和可微性,加之與基礎模型和生成模型的無縫集成,使其非常適合實時應用,有助于提升機器人的適應性和決策能力。本文對機器人中的神經場進行了全面回顧,涵蓋200多篇論文中的應用,并對其優缺點進行評估。首先,我們介紹了四種關鍵的神經場框架:占用網絡(Occupancy Networks)、符號距離場(Signed Distance Fields)、神經輻射場(Neural Radiance Fields)和高斯分布(Gaussian Splatting)。其次,我們詳細描述了神經場在機器人五大主要領域中的應用:姿態估計、操控、導航、物理仿真和自動駕駛,重點介紹了關鍵工作并討論了主要發現與開放挑戰。最后,我們總結了神經場在機器人應用中的當前局限性,并提出了未來研究的有前景方向。項目頁面:robonerf.github.io 關鍵詞—神經輻射場(Neural Radiance Field, NeRF)、神經場(Neural Fields)、符號距離場(Signed Distance Fields)、3D高斯分布(3D Gaussian Splatting)、占用網絡(Occupancy Networks)、計算機視覺新視角合成(Novel View Synthesis)、神經渲染(Neural Rendering)、體渲染(Volume Rendering)、姿態估計機器人操控導航自動駕駛

I. 引言

機器人依賴對環境的精確且緊湊的表示來執行廣泛的任務,從穿越繁忙的倉庫到整理雜亂的家庭環境,甚至參與高風險的搜救任務。在典型的機器人系統中,感知與行動之間的協同作用是其核心。感知系統通過RGB相機、LiDAR和深度傳感器等設備采集感官數據,并將其轉化為一致的環境模型——例如,使機器人能夠在動態且障礙密集的空間中導航的3D地圖。這種表示的質量直接影響機器人的決策或策略,從而將所感知的環境轉化為行動,使其能夠避開移動的叉車、拾取散落的物體或在緊急情況下規劃安全路徑。 傳統上,機器人使用點云 [13–15]、體素網格 [16]、網格 [17–19]和截斷符號距離函數(TSDF)[20]等數據結構來建模環境。盡管這些表示提升了機器人能力,但它們在捕捉復雜或動態環境中的精細幾何細節方面仍存在局限,導致在適應性場景中的性能不佳。

為了克服這些限制,神經場(Neural Fields, NFs)[21]作為一種有前途的替代方案出現,它提供了從空間坐標到物理量(如顏色或符號距離)的連續、可微映射。與傳統的數據結構不同,神經場可以將3D環境建模為由神經網絡或高斯分布參數化的連續函數,從而更加高效地表示復雜的幾何結構和精細細節 [22, 23]。神經場可以使用基于梯度的方法與各種真實世界的傳感器數據(包括圖像和深度圖)進行優化,從而生成高質量的3D重建。

在機器人領域,神經場相比傳統方法具有幾大優勢:

  • 高質量3D重建:神經場生成詳細的3D環境表示,對于導航、操控和場景理解等任務至關重要 [24–28]。
  • 多傳感器融合:神經場可以無縫整合來自多種傳感器的數據,如LiDAR和RGB相機,從而提供更穩健且適應性強的環境感知 [29, 30]。
  • 連續且緊湊的表示:與體素網格或點云的離散性不同,神經場提供連續的表示,能夠以更少的參數捕捉空間細節,提升計算效率 [22, 31]。
  • 泛化與適應性:訓練完成后,神經場可以生成場景的新視角,即使是先前未見過的視角,這對探索或操控任務特別有價值。這一能力得益于通用的NeRF方法 [32–34]。
  • 與基礎模型的集成:神經場可以與基礎模型(如CLIP [35]或DINO [36])結合,使機器人能夠理解并響應自然語言查詢或其他語義輸入 [37, 38]。

生成式AI的最新進展 [39]通過將合成數據作為監督信號進一步擴展了神經場的能力,從而減少了對真實世界觀測數據的依賴。這一范式轉變使得神經場可以在現實數據采集不可行或成本高昂的情況下進行優化。重要的是,它將神經場定位為生成式AI與機器人之間的關鍵橋梁。盡管2D數據生成先驗具有強大的功能,但通常缺乏進行有效機器人決策所需的空間一致性。神經場將這些先驗與稀疏的真實世界數據 [33]結合,能夠在物理環境約束(如有限的傳感器配置和遮擋)下建模傳感與運動空間。 鑒于這些優勢,神經場在機器人領域的應用正迅速發展。圖1和圖2概述了神經場在機器人的應用,并展示了與神經場相關的機器人研究出版物的增長趨勢。本文旨在梳理和分析其對該領域的影響。

本文的結構如下:第II節介紹了神經場的基本公式,而第III節則從以下主題中概述其在不同領域中的優勢:

  • 姿態估計:重點探討神經場在相機姿態估計、物體姿態估計以及同時定位與地圖構建(SLAM)中的應用(第III-A節)。
  • 操控:討論神經場的精確3D重建如何協助機器人操控物體(第III-B節)。
  • 導航:探討神經場如何通過提供對真實環境的精確和高效感知來增強機器人導航(第III-C節)。
  • 物理:研究神經場如何幫助機器人推理物理交互,以改進其對現實動態的理解(第III-D節)。
  • 自動駕駛:重點介紹神經場在構建真實世界的寫實模擬器中的作用(第III-E節)。

我們在第IV節通過探討若干研究方向和挑戰進行總結。據我們所知,本綜述是首批對機器人領域的神經場進行全面考察的研究之一。我們在最接近的并行綜述 [40] 的基礎上補充了對NeRF、3DGS、占用網絡、符號距離場等多個領域的全面涵蓋。通過結合多個維度的見解,本綜述旨在提供對神經場在機器人應用中當前狀態的整體理解,突顯近期成就、未來挑戰及未探索的研究領域。

付費5元查看完整內容

摘要—檢索增強生成(RAG)已迅速成為大規模語言模型(LLM)開發中的關鍵范式。盡管當前該領域的大部分研究主要集中在性能優化,尤其是在準確性和效率方面,但RAG系統的可信度仍是一個尚待深入探索的領域。從積極的角度來看,RAG系統有望通過從廣泛的外部數據庫中提供有用的、最新的知識,增強LLM的能力,從而緩解長期存在的幻覺問題。而從消極的角度來看,如果檢索到的信息不合適或使用不當,RAG系統有可能生成不良內容。為了解決這些問題,我們提出了一個統一框架,用于從六個關鍵維度評估RAG系統的可信度:真實性、魯棒性、公平性、透明性、問責性和隱私性。在此框架下,我們全面回顧了現有文獻中對每個維度的研究。此外,我們針對這六個維度創建了評估基準,并對多種專有和開源模型進行了全面評估。最后,基于我們的調查結果,我們確定了未來研究可能面臨的挑戰。通過這項工作,我們旨在為未來的研究奠定一個結構化的基礎,并提供提升RAG系統在實際應用中可信度的實用見解。

關鍵詞—可信度;大規模語言模型;檢索增強生成

1 引言

大規模語言模型(LLM)的出現代表了人工智能,特別是在自然語言處理(NLP)和理解領域的重大進展。隨著時間的推移,這些模型從簡單的基于規則的系統演變為復雜的深度學習架構,其進步得益于諸如Transformer架構[1]、在多樣化數據集上的廣泛預訓練以及先進的微調技術[2]等創新。這些進展極大地增強了LLM的能力,影響了自動內容生成[3]和高級語言翻譯[4]等應用,從而改變了機器對人類語言的解讀與生成方式。

盡管取得了這些進展,LLM仍面臨持續的“幻覺”挑戰,即模型生成看似合理但實際上不正確或無意義的信息[5, 6]。幻覺產生的原因包括訓練數據中的偏差[7]以及語言模型的概率性質[8]。在需要高度精確和可靠性的應用場景中,如醫療和法律領域[9],這一問題尤為關鍵。為減輕這一問題,檢索增強生成(RAG)系統應運而生[10]。RAG系統通過集成外部信息檢索機制,確保生成的內容基于事實數據,從而提高LLM輸出的準確性和可信度[11]。

隨著LLM越來越多地融入金融系統[12]和醫療保健[13]等應用,LLM的可信度已成為一個關鍵問題。根據各種框架,可信度通過多個關鍵維度進行評估,包括真實性、安全性、公平性、魯棒性、隱私性、機器倫理、透明性和問責性[14]。這些維度確保LLM提供準確、無偏見且安全的輸出,同時保護用戶隱私并符合倫理標準[15]。強化學習(RLHF)[16]、數據過濾[17]和對抗性訓練[18]等技術已被用于提高可信度,其中專有模型如GPT-4在某些高風險應用中通常優于開源替代品[19]。隨著LLM繼續影響關鍵社會功能,學術界與工業界之間的持續研究與透明、協作努力對于確保其可靠和倫理的部署至關重要[20]。

然而,目前關于RAG系統的研究主要集中于優化檢索器和生成器組件以及精煉它們的交互策略[3, 21]。對于這些系統的可信度關注較少[22]。可信度對于RAG系統的實際部署至關重要,尤其是在法律咨詢或醫療保健等高風險或敏感應用中,錯誤可能會產生嚴重后果[23]。因此,必須確定定義RAG系統可信度的關鍵要素,并開發評估這些維度的可信度方法[24]。在此背景下,出現了兩個主要挑戰:(1)定義一個全面的框架,涵蓋RAG系統可信度的所有相關方面;(2)設計實際且穩健的評估方法,有效衡量各維度的可信度[25]。 為應對這些挑戰,我們提出了一個統一框架,支持對RAG系統可信度的全面分析,框架包括三個關鍵部分:

RAG系統可信度六個關鍵維度的定義:如圖1所示,我們從六個維度定義了RAG系統的可信度:(1)真實性:通過與可靠來源進行驗證,確保生成信息的準確性和真實性。(2)魯棒性:確保系統對錯誤、對抗性攻擊和其他外部威脅的可靠性。(3)公平性:在檢索和生成階段盡量減少偏見,確保公平的結果。(4)透明性:使RAG系統的過程和決策對用戶清晰易懂,促進信任和問責。(5)問責性:實施機制,確保系統的行為和輸出負有責任且可追溯。(6)隱私性:在檢索和生成過程中保護個人數據和用戶隱私。

現有工作的調查:我們對與RAG系統可信度相關的現有文獻和研究進行了全面回顧。我們分析了為增強六個關鍵維度的可信度而提出或實施的各種方法、技術和技術路線。

各種LLM的基準評測和評估:為提供對RAG系統可信度的實際評估,我們構建了一個基準并建立了全面的評估框架。該框架評估了10種不同的LLM,包括專有和開源模型,涵蓋各種模型規模和訓練策略。該基準為不同模型在實際應用中的可信度表現提供了寶貴的見解。

本次綜述的貢獻主要有三方面:(1)我們引入了一個統一框架,定義了RAG系統可信度的六個關鍵維度。(2)我們對現有RAG可信度文獻進行了詳細回顧,識別了研究空白并突出了有前途的方法。(3)我們建立了一個實用的基準評測框架,并對10個LLM進行了全面評估,為未來RAG系統可信度提升提供了可操作的見解和指南。 可信的RAG系統

一個完整的RAG系統包括三個主要階段:將外部知識注入生成器,生成器生成答案,以及對生成的答案進行評估。每個階段都面臨與可信性相關的挑戰。在外部知識注入階段,存在注入噪聲或私人信息的風險。在答案生成階段,引入的外部知識可能導致偏見推理,并破壞通過人類反饋強化學習(RLHF)所實現的一致性。最后,在答案評估階段,生成的答案可能包含事實錯誤或缺乏足夠的外部知識依據。 如圖2所示,我們確定了RAG系統可信性的六個關鍵維度:魯棒性公平性真實性隱私性透明性問責性。對于每個維度,我們將探討以下幾個方面:適用于LLM的一般定義、RAG背景下的具體定義以及詳盡的文獻回顧。為了更清楚地對相關研究進行分類和總結,我們首先在圖3中展示了這些研究的時間線,以確定該領域的趨勢。然后,在表1中,我們根據三個標準對每項研究進行了分類:可信性維度、方法類型和對象。以下章節將深入探討每個可信性維度的細節。

付費5元查看完整內容

機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。

關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言

視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題

  1. 在工業機器視覺應用中使用了哪些GenAI模型架構?
  2. GenAI方法需要滿足哪些要求和特性才能適用于工業機器視覺領域?
  3. GenAI已成功應用于哪些工業機器視覺任務?

本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。

2 生成式人工智能

生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法

如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。

付費5元查看完整內容

摘要——擴散模型(Diffusion Models, DMs)在圖像生成、文本生成圖像、文本引導圖像生成等多種生成任務中已取得了最先進的性能。然而,DMs越強大,它們潛在的危害也越大。最近的研究表明,DMs容易受到各種攻擊,包括對抗性攻擊、成員推理、后門注入以及各種多模態威脅。由于眾多預訓練的DMs在互聯網上廣泛發布,這些攻擊帶來的潛在威脅對社會尤其具有危害性,使得與DM相關的安全問題成為一個值得深入研究的課題。因此,在本文中,我們對DMs的安全性進行了全面的綜述,重點關注針對DMs的各種攻擊和防御方法。首先,我們介紹了DMs的關鍵知識,包括五種主要類型的DMs:去噪擴散概率模型、去噪擴散隱式模型、噪聲條件評分網絡、隨機微分方程以及多模態條件DMs。我們進一步綜述了最近一系列研究,探討了利用DMs脆弱性的不同類型的攻擊。隨后,我們全面回顧了用于減輕每種威脅的潛在對策。最后,我們討論了與DMs相關的安全性面臨的開放性挑戰,并展望了這一重要領域的研究方向。

關鍵詞——擴散模型,多模態威脅,擴散模型安全性,后門攻擊,成員推理,對抗性攻擊。

近年來,擴散模型(Diffusion Models, DMs)[1]–[11]在廣泛的生成任務中展示了卓越的能力,在深度生成模型的其他類別中如生成對抗網絡(GANs)[12]、變分自編碼器(VAEs)[13], [14]和基于能量的模型(EBMs)[15]中樹立了新的性能標桿。通常,DMs包括兩個主要過程。前向(擴散)過程逐漸向原始數據中添加噪聲,以逐步將數據分布擴散到標準高斯分布中。反向(生成)過程利用一個深度神經網絡(通常是UNet [16]),來反向擴散,從高斯噪聲中重構數據。憑借其令人印象深刻的潛力,DMs已被廣泛應用于多個領域,包括計算機視覺 [17]–[28]、自然語言處理(NLP)[29]–[34]、音頻處理 [35], [36]、3D生成 [37]–[42]、生物信息學 [43], [44]以及時間序列任務 [45]–[47]。根據擴散和生成過程的不同,DMs可以分為不同的類別。第一類受到非平衡熱力學理論[1]的啟發,包括去噪擴散概率模型(DDPMs)[1]–[4]。DDPMs可以被視為馬爾可夫層次VAE,其中擴散過程被建模為具有多個連續VAE的馬爾可夫鏈。每個擴散步驟對應于VAE的編碼過程,而每個去噪步驟可以視為相應VAE的解碼操作。另一方面,去噪擴散隱式模型(DDIMs)是DDPMs的一個變體,采用非馬爾可夫的方法,使模型能夠在去噪過程中跳過步驟,從而在一定質量的權衡下提高生成速度。另一類DMs是噪聲條件評分網絡(NCSNs)[6], [7], [10],其基于評分匹配[48]訓練神經網絡以學習真實數據分布的評分函數(即對數似然的梯度)。該評分函數指向訓練數據所在的數據空間。因此,通過跟隨評分,訓練良好的NCSNs可以根據真實數據分布生成新的樣本。這個過程也可以看作是一種去噪過程[49]。最后一個主要類別是基于評分的隨機微分方程(SDE),它將DDPMs和NCSNs納入一個廣義形式中。前向過程通過SDE將數據映射到噪聲分布,而反向過程則使用逆時間SDE[50]從噪聲中生成樣本。此外,交叉注意力技術[51]可用于通過多模態條件(如文本和圖像)約束去噪神經網絡,迫使去噪過程生成符合給定條件的結果。這引發了廣泛的多模態生成任務,如文本生成圖像和文本引導的圖像生成[9]。盡管具有顯著的潛力,DMs由于以下原因特別容易受到各種安全和隱私風險的影響:(i) 強大的DMs通常基于從多種開放資源收集的大規模數據進行訓練,這些數據可能包含有毒數據或后門數據;(ii) 預訓練的DMs在諸如HuggingFace1等開放平臺上廣泛發布,使得黑客更容易傳播其操作過的模型。例如,通過操作訓練數據和修改訓練目標,攻擊者可以將后門觸發器嵌入DMs中以實施后門攻擊[58]–[67]。因此,一旦在推理過程中向帶有后門的DM輸入觸發器,它將始終生成攻擊者指定的特定結果(例如,敏感圖像或暴力文本)。即使在攻擊者無法修改DMs參數的更安全設置下,他們仍可以構建DMs的輸入以生成敏感內容,這被稱為對抗性攻擊[68]–[84]。在隱私方面,成員推理可以檢測某個特定示例是否包含在DMs的訓練數據集中。當訓練數據高度敏感(例如,醫學圖像)時,這尤其危險。此外,DMs還用于各種安全應用中,如對抗性凈化和穩健性認證,攻擊這些應用中集成的DMs可能會使整個基于DM的安全系統失效[85], [86]。由于DMs受到廣泛關注,并且各種基于DM的應用已被公眾廣泛使用,因此不可否認,DMs的安全性是一個重要的研究方向。然而,現有的DMs綜述大多集中于其在架構改進、性能和應用方面的發展,而完全忽略了DMs的安全性。例如,文獻[53]的作者綜述了DMs的一系列算法改進,包括采樣加速、擴散過程設計、似然優化和分布橋接方面的改進。此外,他們還回顧了DMs的各種應用,如圖像/視頻生成、醫學分析、文本生成和音頻生成。同樣,綜述[52]也討論了DMs的應用和發展,特別關注高效的采樣方法和改進的似然。此外,作者還深入探討了DMs與其他深度生成模型類別如VAEs、GANs和EBMs之間的聯系。在以應用為中心的綜述中,也有多篇綜述研究了基于DM的應用,包括計算機視覺[54]、NLP[55]、醫學成像[56]和時間序列應用[57]。由于現有綜述未探討DMs的安全性方面,本文旨在填補這一空白,通過提供對該重要課題中最先進研究的系統和全面概述。通過分類不同類型的針對DMs的攻擊并提出應對這些攻擊的對策,我們希望本綜述能為研究人員提供有益的指南,以探索和開發最先進的DMs安全方法。本文的貢獻可以總結如下:

  • 我們為讀者提供了不同類型DMs的必要背景知識,包括DDPM、DDIM、NCSN、SDE和多模態條件DMs。我們展示了不同類別的DMs在一致的擴散原理下如何相互關聯。
  • 我們調查了針對DMs的廣泛攻擊,分為三個主要類別,包括后門攻擊、成員推理攻擊(MIAs)和對抗性攻擊。每種攻擊進一步根據相應的方法/應用分為子類別。
  • 我們綜述了基于該領域最先進研究的各種針對DMs攻擊的對策。
  • 我們討論了該領域的多個開放性挑戰,并展望了改進DMs及基于DM的應用安全性的一些有趣研究方向。 表I對我們工作與現有DMs相關綜述進行了比較,強調了我們的貢獻。本文余下部分的結構如下。第二節提供了不同類型DMs的初步知識以及DMs安全性的背景知識。第三節綜述了針對DMs及基于DM的系統的最先進攻擊方法。隨后,第四節討論了針對這些攻擊的不同對策。第五節討論了該領域的各種開放性挑戰和未來研究方向,第六節對我們的綜述進行了總結。

付費5元查看完整內容

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容

近年來,神經輻射場(NeRF)已成為計算機圖形學和計算機視覺領域中一個重要的研究方向,因其高逼真的視覺合成效果,在真實感渲染、虛擬現實、人體建模、城市地圖等領域得到了廣泛的應用。NeRF利用神經網絡從輸入圖片集中學習三維場景的隱式表征,并合成高逼真的新視角圖像。然而原始NeRF模型的訓練和推理速度都很慢,難以在真實環境下部署與應用。針對NeRF的加速問題,研究者們從場景建模方法、光線采樣策略等方面展開對NeRF進行提速的研究。該類工作大致可分為以下研究方向:烘焙模型、與離散表示方法結合、提高采樣效率、利用哈希編碼降低MLP網絡復雜度、引入場景泛化性、引入深度監督信息和分解方法。通過介紹NeRF模型提出的背景,對上述思路的代表方法的優勢與特點進行了討論和分析,最后總結了NeRF相關工作在加速方面所取得的進展和對于未來的展望。

付費5元查看完整內容

基于變換器架構的大型模型在人工智能中扮演著越來越重要的角色,特別是在自然語言處理(NLP)和計算機視覺(CV)領域內。模型壓縮方法減少了它們的內存和計算成本,這是在實際設備上實現變換器模型的必要步驟。鑒于變換器的獨特架構,特別是交替注意力機制和前饋神經網絡(FFN)模塊,需要特定的壓縮技術。這些壓縮方法的效率也非常重要,因為通常不現實在整個訓練數據集上重新訓練大型模型。本綜述提供了近期壓縮方法的全面回顧,特別關注它們在變換器模型上的應用。壓縮方法主要分為剪枝、量化、知識蒸餾和高效架構設計四個類別。在每個類別中,我們討論了CV和NLP任務的壓縮方法,強調共同的基本原則。最后,我們深入探討了各種壓縮方法之間的關系,并討論了該領域的進一步方向。

深度神經網絡已成為眾多人工智能應用中不可或缺的部分,其架構涵蓋了多種形式,如多層感知機(MLP)、卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、變換器(Transformers)等。近來,基于變換器的模型已成為各個領域的主流選擇,包括自然語言處理(NLP)和計算機視覺(CV)領域。考慮到它們強大的擴展能力,大多數擁有超過數十億參數的大型模型都是基于變換器架構的,這些模型被視為通用人工智能(AGI)的基礎元素。盡管大型模型展示了顯著的能力,但它們極大的規模對實際開發提出了挑戰。例如,GPT-3模型有1750億參數,大約需要350GB的內存模型存儲空間(float16)。巨大的參數量及其相關的計算開銷要求設備具有極高的內存和計算能力。直接部署這樣的模型將會產生巨大的資源成本,并顯著增加二氧化碳排放。此外,在像手機這樣的邊緣設備上,由于存儲和計算資源有限,這些模型的開發變得不切實際。

模型壓縮是一種有效的策略,用于減輕與變換器模型相關的開發成本。這種方法基于減少冗余的原則,包括多種類別,如剪枝、量化、知識蒸餾、高效架構設計等。網絡剪枝直接移除冗余組件,如塊、注意力頭、FFN層或個別參數。通過采用不同的剪枝粒度和剪枝標準,可以派生出多種子模型。量化通過使用較低位表示模型權重和中間特征來減少開發成本。例如,將全精度模型(float32)量化為8位整數時,內存成本可以減少四分之一。根據計算過程,它可以分為訓練后量化(PTQ)或量化感知訓練(QAT),其中前者只需要有限的訓練成本,對大型模型更有效。知識蒸餾作為一種訓練策略,將知識從大模型(教師)轉移到小模型(學生)。學生通過模擬模型的輸出和中間特征來模仿教師的行為。值得注意的是,對于像GPT-4這樣的高級模型,僅通過APIs訪問,它們生成的指示和解釋也可以指導學生模型的學習。除了從預定義的大型模型獲得模型外,一些方法通過直接減少注意力模塊或FFN模塊的計算復雜性來產生高效的架構。結合不同的方法可以實現極端壓縮。例如,Han等人結合了網絡剪枝、量化和哈夫曼編碼,在傳統的VGGNet上實現了令人印象深刻的49倍壓縮率。關于變換器模型,它們的壓縮策略展示出獨特的特點。與CNN或RNN等其他架構不同,變換器具有獨特的設計,包括替代的注意力和FFN模塊。前者通過計算不同令牌上的注意力圖來捕獲全局信息,而后者分別從每個令牌提取信息。這種特定的架構可以激發針對最優壓縮率的定制壓縮策略。此外,對于這樣的大型模型,壓縮方法的效率尤為重要。由于大型模型的高計算成本,通常無法負擔在原始訓練集上重新訓練整個模型。一些訓練效率高的方法,如訓練后壓縮更受青睞。

在這項綜述中,我們旨在全面調查如何壓縮這些變換器模型(圖1),并且根據量化、知識蒸餾、剪枝、高效架構設計等將方法進行分類。在每個類別中,我們分別調查了NLP和CV領域的壓縮方法。表1總結了主要的壓縮類別,并列出了適合大型變換器模型的代表性方法。盡管NLP和CV通常被視為非常不同的領域,我們觀察到它們的模型壓縮方法實際上共享相似的原則。最后,我們討論了不同壓縮方法之間的關系,并提出了一些未來的研究方向。本文的其余部分組織如下。第2節介紹變換器的基本概念。繼此之后,第3節對保持架構的壓縮方法進行了深入討論,包括量化和知識蒸餾——這些技術保持了模型的架構。第4節進一步探討了保持架構的壓縮,包括剪枝和高效架構設計。第5節探索了額外的變換器壓縮方法。最后,第6節總結了壓縮方法并討論了未來的研究方向。架構保留型壓縮量化是在各種設備上部署變換器的關鍵步驟,尤其是對于設計了專用于低精度算術運算的GPU和NPU。1)訓練后量化(PTQ)[21],[41],[22],[42],[43],[44],[45],主要集中在使用少量未標記的校準數據優化權重和激活的量化參數,一些最新方法還探索了權重量化的自適應舍入。(2) 量化感知訓練(QAT)[46],[47],[48],[49],[50],[51],[23],[52],[53],[54],[55],[56],將量化節點插入網絡并使用完整的訓練數據進行訓練,其中所有的權重和量化參數都一起優化。在本節中,我們系統地介紹了基于變換器的視覺模型和大型語言模型的模型量化研究,如圖2所示。

知識蒸餾(KD)旨在通過壓縮[83],[84],[85]或轉移[87],[88],[86]來自教師網絡的知識來訓練學生網絡。在本文中,我們主要關注旨在實現一個緊湊的學生模型的蒸餾方法,同時保持與笨重的教師模型相比滿意的性能。學生模型通常具有更窄、更淺的架構,使它們更適合在資源有限的系統上部署。

神經網絡剪枝長期以來被認為是一種有效的方法,用于縮小模型大小和加速模型推理。剪枝方法的分類可能相當復雜,包括剪枝和模型訓練的順序、結構規范,以及確定被剪枝參數的方式[133]。然而,在本綜述的范圍內,將源模型限定為針對自然語言處理[134],[4]或視覺識別[12],[26],[135],[136]的預訓練大型變換器,提出了幾種特定的技術類別需要被討論(見圖5)。

結論

在這項綜述中,我們系統地調查了變換器模型的壓縮方法。與傳統模型的壓縮方法相比,壓縮變換器模型時有獨特的考慮因素。與如CNN或RNN等其他架構不同,變換器擁有獨特的架構設計,包括替代的注意力和FFN模塊,這要求專門定制的壓縮方法以獲得最佳壓縮率。此外,這些大型模型的壓縮方法效率尤其關鍵。某些模型壓縮技術需要大量的計算資源,對于如此龐大的模型可能是難以承受的。這項綜述旨在涵蓋與變換器相關的大多數近期工作,并為它們的壓縮制定一個全面的路線圖。隨后,我們深入探討了各種方法之間的相互聯系,解決后續挑戰,并概述了未來研究的方向。

不同壓縮方法之間的關系。不同的壓縮方法可以一起使用,以獲得極其高效的架構。一個傳統的序列是首先定義一個具有高效操作的新架構。然后移除冗余組件(例如,注意力頭,層)以獲得更小的模型。對于實際硬件實現,將權重或激活量化到較低位是必不可少的。所需位數的選擇不僅取決于錯誤的容忍度,還取決于硬件設計。作為一個例子,Int8計算在Nvidia A00上高效優化,但在較老的Tesla P100上缺乏支持。蒸餾通常作為一種訓練策略,在剪枝和量化的微調階段都適用。為了追求極高的壓縮率,探索如何結合不同的壓縮策略是有前景的。盡管在CNN這樣的傳統模型上已經被廣泛探索,但變換器模型具有更復雜的架構和更高的計算成本。通過聯合搜索找到合適的組合策略是具有挑戰性的。

訓練高效的壓縮策略。與壓縮傳統模型相比,更加強調壓縮方法的計算成本。大型變換器目前在使用大量計算資源的大型數據集上進行訓練。例如,Llama2在幾個月內使用數千個GPU在2萬億令牌上進行訓練。在預訓練期間,尤其當原始數據通常無法訪問時,使用可比的計算資源進行微調是不切實際的。因此,在訓練后應用高效的壓縮方法變得更加可行。最初為傳統小模型開發的一系列工作已廣泛研究了訓練后量化,這些方法已無縫過渡到變換器。僅用幾個GPU小時,一些最新的工作GPTQ、SmoothQuant已將FP16模型量化到Int8,而不會造成顯著性能損失。然而,對于較低位(例如,4位),量化模型仍然遭受顯著的性能下降。值得注意的是,極低位模型,如二進制變換器,在傳統小模型中已被廣泛探索,但在大模型的背景下仍然相對未被探索。

對于剪枝,訓練后的挑戰與剪枝粒度密切相關。雖然非結構化稀疏性可以實現高壓縮率并且最小化微調需求,但類似策略難以轉移到結構性剪枝。直接移除整個注意力頭或層將導致模型架構的顯著改變和準確率的顯著降低。如何識別有效權重以及如何有效恢復性能都是洞見方向。識別有效權重和恢復表示能力的高效策略是解決這些挑戰的關鍵研究方向。

超越變換器的高效架構。在現實世界應用中,變換器架構的輸入上下文可以擴展到極長長度,包括NLP中的序列文本(例如,數十萬詞的書)或CV中的高分辨率圖像。原生注意力機制對輸入序列長度的復雜度呈二次方增長,對于長序列輸入構成了顯著的計算挑戰。許多研究通過減輕注意力的計算成本來解決這個問題,采用了稀疏注意力、局部注意力等技術。然而,這些注意力壓縮策略通常會妥協表示能力,導致性能降低。如RWKV和RetNet等新興架構采用類似RNN的遞歸輸出生成,有效地將計算復雜度降低到O(N)。這一發展為進一步探索更高效模型提供了希望。對于計算機視覺任務,即使是不帶注意力模塊的純MLP架構也能達到SOTA性能。超越廣泛使用的變換器架構,通過仔細研究它們的效率、泛化能力和擴展能力,探索新的高效架構是有前景的。

付費5元查看完整內容

擴散模型(DMs)代表了圖像超分辨率(SR)領域的重大進步,使技術圖像質量更加符合人類偏好,并擴展了SR應用。DMs解決了先前方法的關鍵局限性,提高了SR圖像的整體真實感和細節。然而,DMs存在顏色偏移問題,且高計算成本要求高效采樣替代方案,這凸顯了平衡計算效率和圖像質量的挑戰。這篇綜述概述了將DMs應用于圖像SR的情況,并提供了一項詳細分析,強調了該領域內獨特的特征和方法論,與該領域更廣泛的現有綜述截然不同。它呈現了DM基礎知識的統一視角,并探索了研究方向,包括替代輸入域、條件策略、引導、腐敗空間和零樣本方法。這篇綜述提供了關于DMs在圖像SR領域演化的見解,涵蓋了當前趨勢、挑戰和這個快速發展領域的未來方向。

在不斷發展的計算機視覺領域中,超分辨率(SR)——將低分辨率(LR)圖像增強為高分辨率(HR)圖像——一直是一個長期而仍然令人困惑的挑戰,這歸因于其本質上不適定的特性:由于亮度和顏色等多種因素,任何給定的LR圖像都可以對應多個有效的HR圖像【1】。SR的應用范圍從自然【2】【3】到先進的衛星【4】和醫學成像【5】,其進展得益于深度學習的快速發展。最近,擴散模型(DMs)作為一種主要的生成模型家族嶄露頭角,挑戰著生成對抗網絡(GANs)長期以來的主導地位【6】【7】【8】【9】。雖然早期的生成模型展示了令人印象深刻的圖像生成能力,但它們存在內在的局限性。例如,自回歸模型在生成HR圖像時可能成本過高【10】【11】【12】。另一方面,NFs和VAEs通常生成的樣本質量不理想。此外,GANs需要精心設計的正則化和優化策略來管理優化不穩定性并防止模式崩潰【13】。盡管如此,這些模型對SR領域的貢獻仍然顯著。 DMs的出現標志著生成模型的新時代,并深刻影響了生成式AI領域,再次為圖像SR領域注入活力。然而,隨著關于DMs的研究量持續增長,對于那些新入此領域的人來說,跟上最新發展變得越來越具有挑戰性。這一研究領域的廣度可能會掩蓋主要趨勢,并可能阻礙進一步研究的進展。我們通過提供對圖像SR中DMs當前研究的全面概述來解決這些問題。 這篇綜述是在我們之前的作品《超分辨率領域的搭車旅行指南》【14】的基礎上建立的,該作品對圖像SR領域進行了廣泛的概述。我們旨在為那些新入DMs在圖像SR領域的人提供一個有價值的切入點,同時為那些已有經驗的人提供更廣闊的視角。

本文的結構如下所述: 第2節 - 超分辨率基礎:這一節提供了基本定義,并介紹了評估圖像質量時常用的標準數據集、方法和度量,這些都是圖像SR出版物中常用的。 第3節 - 擴散模型基礎:介紹了擴散模型(DMs)的原理和各種形式,包括去噪擴散概率模型(DDPMs)、基于評分的生成模型(SGMs)和隨機微分方程(SDEs)。這一節還探討了DMs與其他生成模型的關系。 第4節 - 擴散模型的改進:常見的增強DMs的實踐,重點是高效采樣技術和改進的似然估計。 第5節 - 圖像SR中的擴散模型:介紹了DMs在SR中的具體實現,探討了替代領域(潛在空間和小波域),討論了架構設計和多任務Null-Space模型,并研究了替代腐敗空間。 第6節 - 領域特定應用:基于DM的SR應用,特別是醫學成像、盲目面部恢復、面部SR中的大氣湍流以及遙感。 第7節 - 討論和未來工作:圖像SR中DMs的常見問題和值得注意的DMs在圖像SR中的研究途徑。 第8節 - 結論:總結了這項調查。

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

深度神經網絡(DNNs)在許多計算機視覺任務中是成功的。然而,最精確的DNN需要數以百萬計的參數和操作,這使得它們需要大量的能量、計算和內存。這就阻礙了大型DNN在計算資源有限的低功耗設備中的部署。最近的研究改進了DNN模型,在不顯著降低精度的前提下,降低了內存需求、能耗和操作次數。本文綜述了低功耗深度學習和計算機視覺在推理方面的研究進展,討論了壓縮和加速DNN模型的方法。這些技術可以分為四大類:(1)參數量化和剪枝;(2)壓縮卷積濾波器和矩陣分解;(3)網絡結構搜索;(4)知識提取。我們分析了每一類技術的準確性、優點、缺點和潛在的問題解決方案。我們還討論了新的評價指標,作為今后研究的指導。

付費5元查看完整內容
北京阿比特科技有限公司