亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去的十年中,深度學習在人工智能的各個領域,包括自然語言處理、計算機視覺和生物醫學信號處理中,顯示出了顯著的主導地位。盡管模型準確性有了顯著提高,但在移動電話和微控制器等輕量級設備上部署這些模型受到了有限資源的制約。在這篇綜述中,我們為這些設備提供了全面的設計指導,詳細介紹了輕量級模型的精細設計、壓縮方法和硬件加速策略。這項工作的主要目標是探索在不影響模型準確性的前提下,如何繞過硬件限制的方法和概念。此外,我們還探討了未來輕量級深度學習的兩條值得注意的路徑:TinyML 和大型語言模型的部署技術。盡管這些路徑無疑具有潛力,但它們也帶來了重大挑戰,鼓勵對未探索領域的研究。

近年來,神經網絡(NN)的重要性急劇上升,其應用已滲透到日常生活的各個方面,并擴展到支持復雜任務【18, 84, 222】。然而,自2012年AlexNet【110】發布以來,一直流行著創建更深、更復雜的網絡以提高準確性的趨勢。例如,Model Soups【215】在ImageNet數據集上取得了顯著的準確性,但代價是超過18.43億個參數。同樣,GPT-4【10】在自然語言處理(NLP)基準測試中表現出色,盡管其擁有驚人的1.76萬億參數。值得注意的是,Amodei等人【4】指出,從2012年到2018年,深度學習(DL)的計算需求急劇增加,大約增長了300,000倍。這種尺寸的急劇增加為本文探討的挑戰和發展奠定了舞臺。

同時,近幾年來Green AI【169, 188】已成為突出的關注點,因其對顯著的GPU和訓練時間需求標記出不適合使用的重量級DL模型,這可能導致環境退化。Strubell等人【178】對在多GPU上訓練的語言模型的碳足跡進行了廣泛分析。與此同時,輕量級設備因其多功能應用和便攜性而受到增加的關注。根據Sinha【174】的說法,2022年連接的IoT設備數量增長了18%,達到了144億,并預計到2027年將增長到290億。自2016年以來生產的超過2億部iPhone證明了這種需求的增長。另一方面,邊緣設備提供了比移動設備更優越的自動化和能效,特別是在如起搏器和額溫計等設備中部署的超低成本微控制器(MCU)【46】。

為了應對上述實際需求,近年來出現了大量研究,重點是輕量級建模、模型壓縮和加速技術。連續在CVPR 2021-2023年期間舉行的年度移動AI(MAI)研討會【139–141】,主要強調在ARM Mali GPU和Raspberry Pi 4等資源受限的設備上部署DL模型用于圖像處理。此外,在ICCV 2019、ICCV 2021和ECCV 2022【3】舉辦的圖像操作進步(AIM)研討會組織了圍繞在移動設備上進行圖像/視頻操作、恢復和增強的挑戰。

通過我們的研究,我們發現從設計階段到部署,分析高效輕量級模型發展的最有效方法涉及到將三個關鍵元素整合到流程中:NN架構設計、壓縮方法和輕量級DL模型的硬件加速。以前的綜述【11, 62, 69, 121, 165】通常只關注這一流程的特定方面,例如僅討論量化方法,提供那些部分的詳細見解。然而,這些綜述可能無法提供整個過程的全面視圖,可能忽視了重要的替代方法和技術。相比之下,我們的綜述涵蓋了輕量級架構、壓縮方法和硬件加速算法。

1.1 神經網絡設計

在本文的第一部分,第2節中,我們考察了經典的輕量級架構,將它們歸類為系列族以提高清晰度。其中一些架構通過引入創新的卷積塊取得了重大進展。例如,深度可分離卷積[35]優先考慮高精度和降低計算需求。Sandler等人[168]引入了反向殘差瓶頸來增強梯度傳播。其他架構,如ShuffleNet[248],能夠開發優化的卷積操作,該操作應用了群卷積[110]以實現并行設計,并通過洗牌操作進一步提高數據組間的轉移能力。ShiftNet[217]實現了與傳統卷積相等的效果,但不需要參數或浮點運算(FLOPs)。AdderNet[21]用加法操作取代乘法操作,大大降低了計算需求。

還需注意的是,參數和FLOPs與推理時間并不總是一致相關。早期的輕量級架構,如SqueezeNet[98]和MobileNet[89],旨在減少參數和FLOPs。然而,這種減少常常會增加內存訪問成本(MAC)[138],導致推理速度變慢。因此,我們旨在通過提供更全面和深入的綜述來促進輕量級模型的應用。

1.2 神經網絡壓縮

除了輕量級架構設計外,第3節還提到了可以應用于壓縮給定架構的各種高效算法。例如,量化方法[97, 132, 230]旨在減少數據存儲需求,常通過用8位或16位數字甚至使用二進制值代替32位浮點數來實現。最簡單的剪枝算法[54, 67, 114]從模型中移除參數,以消除網絡內不必要的冗余。更復雜的算法可能會從網絡中移除整個通道或濾波器[81, 135]。知識蒸餾(KD)技術[62, 85]探討了從一個模型(稱為“教師”)向另一個模型(稱為“學生”)轉移知識的概念。教師代表一個具有所需知識的大型預訓練模型,而學生則是一個未訓練的小型模型,負責從教師中提取知識。隨著方法的演進,一些算法[5, 239]通過使用相同的網絡兩次,消除了額外教師模型的需要。隨著這些各種壓縮方法的進展,常見的是采用兩種或更多技術的融合,例如在同一模型中結合剪枝和量化方法。

1.3 神經網絡部署

在第4節中,我們瀏覽了專用于DL應用的常見硬件加速器的概況,包括圖形處理單元(GPUs)、現場可編程門陣列(FPGAs)和張量處理單元(TPUs)。此外,我們描述了各種數據流類型[23, 65, 103, 128]并深入探討了數據局部性優化方法[146, 177, 241],探索支撐DL工作流中高效處理的復雜技術。本篇綜述還討論了加速DL過程的流行DL庫[1, 24, 153],這些庫和框架在優化硬件加速器的利用中發揮了關鍵作用。此外,我們還研究了共同設計的解決方案[32, 152, 212],在加速DL中實現優化和整體的成果需要仔細考慮硬件架構和壓縮方法。

1.4 挑戰與未來工作

最后,在第5節中,我們開始探索旨在在極低功耗設備上執行DL模型的新興TinyML技術,這些設備通常的功率消耗不到1毫瓦。此外,我們的論文還深入探討了大型語言模型(LLMs),這些模型在資源有限的設備上部署時面臨挑戰,因為它們的模型尺寸巨大。在計算機視覺領域,將這些方法部署在邊緣設備上對于廣泛應用至關重要。

1.5 貢獻

本文旨在簡單但準確地描述如何利用輕量級架構、壓縮方法和硬件技術在資源受限的設備上實現準確模型。我們的主要貢獻總結如下: (1) 以前的綜述僅簡要參考了少數關于輕量級架構的作品。我們將輕量級架構組織成系列,例如將MobileNetV1-V3和MobileNeXt歸類為MobileNet系列,并提供了從其開始到現在的輕量級架構的歷史。 (2) 為了全面覆蓋輕量級DL應用,我們還涵蓋了壓縮和硬件加速方法。與許多其他綜述不同,我們的綜述明確建立了這些技術之間的聯系,提供了每個領域的徹底概覽,以便全面了解它們的相互關系。 (3) 作為輕量級DL領域前沿進展的一部分,我們回顧了當前的挑戰并探索了未來的工作。首先,我們探討了TinyML,這是一種為在資源極其有限的設備上部署DL模型而設計的新興方法。隨后,我們調查了各種當代倡議,這些倡議在輕量級DL領域的邊緣設備上利用LLMs,這是一個有前景的方向。

付費5元查看完整內容

相關內容

本綜述提供了在強化學習(RL)和機器人技術背景下,從視頻中學習(LfV)方法的概覽。我們關注那些能夠擴展到大規模互聯網視頻數據集的方法,并在此過程中提取關于世界動態和物理人類行為的基礎知識。這些方法對于開發通用機器人具有巨大的潛力。

我們從相關的基礎概念概述開始,這些概念與機器人學習的LfV設置相關。包括討論LfV方法可以提供的激動人心的好處(例如,超出可用機器人數據的泛化改進)和對LfV關鍵挑戰的評論(例如,視頻中缺失信息和LfV分布偏移的挑戰)。我們的文獻綜述從分析可以從大型、異質視頻數據集中提取知識的視頻基礎模型技術開始。接下來,我們回顧了專門利用視頻數據進行機器人學習的方法。在這里,我們根據哪種RL知識模式受益于視頻數據的使用來分類工作。我們還強調了緩解LfV挑戰的技術,包括回顧解決視頻中缺失動作標簽問題的動作表示法。

最后,我們審查LfV數據集和基準,然后通過討論LfV中的挑戰和機會來結束這篇綜述。在這里,我們倡導可擴展的方法,這些方法可以利用可用數據的全部范圍,并針對LfV的關鍵好處。總的來說,我們希望這篇綜述能夠成為LfV新興領域的全面參考資料,催化該領域的進一步研究,并最終有助于通用機器人的進展。

這項調查關注的目標是獲得通用型機器人。這些機器人能夠在非結構化的真實世界環境中執行多種物理任務。這樣的機器人將非常有用,并具有廣泛的商業應用(例如,家庭機器人、工廠機器人或自動駕駛)。然而,通用機器人設置面臨幾個挑戰。首先,通用機器人必須具備高水平的能力,這包括從高級能力(例如,推理和計劃)到基礎技能(例如,靈巧和技能)的維持。其次,為了在非結構化環境中操作,通用機器人必須依賴不完整的部分觀察(例如,視覺和觸覺感知)來感知世界。

我們如何獲得這樣的機器人?傳統的機器人技術不足以應對,因為它們通常依賴于手工制作的物理模型理想化,并且通常無法處理非結構化和未見過的場景[Krotkov et al., 2018]。相比之下,機器學習(ML)技術更具前景,并且在機器人學中的使用日益增多,從而引入了機器人學習這一術語[Argall et al., 2009; Peters et al., 2016; Kroemer et al., 2021; Ibarz et al., 2021]。現在,普遍認為機器學習的進步是由數據、算法和計算能力的提升驅動的。幸運的是,計算成本正在持續降低[Moore, 1998; Mack, 2011],且最近開發出了高效的算法——包括表現力強的深度學習架構,如變壓器[Vaswani et al., 2017]和擴散模型[Ho et al., 2020]——其性能隨著計算和數據的增加而持續和可預見地提高[Kaplan et al., 2020]。將這些算法與從互聯網抓取的大規模、多樣化數據集結合,已經在語言理解和生成[OpenAI, 2023]、圖像生成[Betker et al., 2023],以及最近的視頻生成[Brooks et al., 2024]方面取得了顯著的進步。

有希望的是,這些深度學習方法可以轉移到機器人學[Brohan et al., 2022; Team et al., 2023b]。然而,與其他領域不同的是,機器人學缺失了成功所需的關鍵成分:適當的大型多樣化數據集。實際上,機器人學面臨一個先有雞還是先有蛋的問題。首先,由于我們的機器人能力有限,我們無法輕易收集現實世界的機器人數據。這些有限的能力意味著部署機器人來收集數據可能是低效和危險的。隨后,由于缺乏數據,我們無法輕易改進我們的機器人。因此,可以說,數據目前是機器人學進步的關鍵瓶頸。 我們如何克服這個數據瓶頸?為了提供潛在解決方案的見解,我們現在簡要討論機器人學的主要數據來源。1)真實機器人數據:這是我們想要的確切數據。通過高質量的真實機器人數據,可以使用監督學習或離線強化學習(RL)來訓練我們的機器人控制策略。然而,無論是通過人類遠程操作還是自動策略,收集現實世界的機器人數據都是昂貴且困難的。2)模擬機器人數據:與現實世界數據收集相比,模擬收集的速度明顯更快、成本更低[Kaufmann et al., 2023a]。然而,模擬帶來了一些問題。模擬物理可能不準確。此外,創建適合訓練通用政策的多樣化模擬環境和任務并非易事。此外,我們仍然通常缺乏能夠收集模擬數據的自動策略。3)互聯網數據:互聯網是一個龐大而多樣化的數據來源。它為近期深度學習的進展奠定了基礎[OpenAI, 2023; Betker et al., 2023]。互聯網文本、圖像和視頻數據包含了大量與通用型機器人相關的信息。然而,互聯網數據并非直接或輕易適用于機器人學。這是由于互聯網數據與機器人領域之間的分布偏移,以及互聯網數據中關鍵信息的缺失(例如,文本不包含視覺信息,而視頻不包含動作標簽)。 鑒于其豐富的數量和相關內容,互聯網視頻數據有助于緩解機器人技術中的數據瓶頸問題,并推動創建通用型機器人的進程。更具體地說,我們希望從互聯網視頻中獲得以下好處:(1)提高超出可用機器人數據的泛化能力;(2)提高機器人數據的數據效率和分布內性能;(3)推測性地獲得僅憑機器人數據無法實現的新興能力。事實上,從視頻中學習(LfV)這一新興領域的最近進展令人鼓舞,證明了這些好處。這包括利用大規模視頻預測模型作為機器人動態模型的工作[Yang等人,2023c; Bruce等人,2024],或利用機器人數據和互聯網視頻訓練基礎機器人政策的工作[Sohn等人,2024]。 然而,將互聯網視頻用于機器人技術帶來了一些基本和實際挑戰。首先,一般來說,視頻是一個具有挑戰性的數據模式。視頻數據是高維的、噪音大的、隨機的,并且標記不佳。這些問題使得視頻基礎模型的進展落后于語言和圖像模型。其次,特別是為機器人技術使用視頻數據引入了自己的一套問題。視頻缺乏對機器人至關重要的信息,包括明確的動作信息和低級信息,如力和本體感知。此外,互聯網視頻與下游機器人設置之間可能存在各種分布偏移,包括環境、實體和視角的差異。鑒于這些挑戰,我們提出了兩個關鍵的LfV研究問題:

如何從互聯網視頻中提取相關知識?

如何將視頻提取的知識應用于機器人技術?在本綜述中(見圖1),我們回顧了試圖回答這些問題的現有文獻。對于第一個問題,我們調查了從大規模互聯網視頻中提取知識的視頻基礎建模技術,這些技術有望成為未來LfV進展的關鍵驅動力。對于第二個問題,我們進行了徹底的文獻分析,這些文獻利用視頻數據幫助機器人學習。我們根據強化學習知識模式(KM)(即哪些表示、政策、動態模型、獎勵函數或價值函數)直接受益于視頻數據的使用來分類這些文獻。此外,我們還回顧了用于緩解LfV挑戰的常見技術,如使用動作表示來解決視頻中缺失動作標簽的問題。

我們通過討論未來LfV研究的問題和機會來結束。這包括倡導可擴展的方法,這些方法可以最好地提供LfV的承諾好處。在此,我們建議針對政策和動態模型KM。此外,我們還討論了利用視頻基礎模型技術進行LfV的方向,然后觸及克服關鍵LfV挑戰的方向。

這些有前景的機會,加上近期在LfV方面的鼓舞人心的進展[Yang等人,2023c; Bruce等人,2024],強烈表明LfV的承諾好處是完全可以實現的。我們希望這份全面的綜述能鼓勵和通知未來的LfV研究,最終有助于加速我們創建通用型機器人的進程。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

去噪擴散模型已經成為各種圖像生成和編輯任務的強大工具,促進了以無條件或輸入條件方式合成視覺內容。它們背后的核心思想是學習逆轉逐漸向圖像添加噪聲的過程,使它們能夠從復雜分布中生成高質量樣本。在這篇綜述中,我們提供了一個關于使用擴散模型進行圖像編輯的現有方法的詳盡概述,涵蓋了該領域的理論和實踐方面。我們深入分析并從多個角度對這些工作進行了分類,包括學習策略、用戶輸入條件和可以完成的特定編輯任務的范圍。此外,我們特別關注圖像修復和擴展,并探索了早期的傳統上下文驅動方法和當前的多模態條件方法,提供了它們方法論的全面分析。為了進一步評估文本引導的圖像編輯算法的性能,我們提出了一個系統的基準,EditEval,特色是一個創新的指標,LMM分數。最后,我們討論了當前的局限性,并設想了未來研究的一些潛在方向。伴隨的倉庫發布在 //github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

在人工智能生成內容(AIGC)的領域中,利用人工智能來創建和修改數字內容,圖像編輯被認為是創新和實際應用的重要領域。與從最小輸入創建新圖像的圖像生成不同,圖像編輯涉及更改圖像的外觀、結構或內容,包括從微妙的調整到重大變革的一系列更改。這項研究在數字媒體、廣告和科學研究等各個領域都至關重要,其中改變視覺內容是必需的。圖像編輯的演變反映了數字技術的進步,從手工、勞動密集型過程發展到由基于學習的算法驅動的高級數字技術。在這一演進中的一個關鍵進步是生成對抗網絡(GANs)[1]-[6]的引入,顯著增強了創造性圖像操作的可能性。

最近,擴散模型在AIGC[1],[7]-[15]中嶄露頭角,帶來了視覺生成任務的顯著突破。擴散模型,受到非平衡熱力學[15]原理的啟發,通過逐漸向數據添加噪聲,然后學習逆轉這一過程,從隨機噪聲生成直到產生與源數據分布匹配的所需數據。它們大致可以分為去噪擴散基礎[15]-[18]和分數匹配基礎[19]-[23]。它們的適應性和有效性導致了在各種任務中的廣泛應用,如圖像生成[24]-[38]、視頻生成[39]-[56]、圖像恢復[57]-[71]和圖像編輯。

在圖像編輯中應用擴散模型的興趣激增,近年來在這一領域的研究出版物數量顯著增加為證。這種日益增長的關注突顯了擴散模型在改善圖像編輯性能方面相比于以往工作的潛力和多功能性。鑒于這一顯著進步,系統地回顧和總結這些貢獻是必要的。然而,現有關于擴散模型的綜述文獻集中在其他特定視覺任務上[72]-[75],如視頻應用[73]或圖像恢復與增強[74],[75]。一些提到圖像編輯的綜述往往只提供了一個粗略的概述[76]-[83],缺少對方法的詳細和專注探索。

為了填補這一空缺,我們進行了一項綜述,提供了一項專注于圖像編輯的深入和全面分析。我們深入研究了這一領域擴散模型所實現的方法論、輸入條件和廣泛的編輯任務。該綜述批判性地回顧了超過100篇研究論文,根據學習策略將它們組織成三個主要類別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。每個類別根據其核心技術進一步劃分,分別在第4、5和6節中進行了詳細討論。我們還探索了這些方法中使用的10種不同類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿態、草圖、分割(Seg.)圖、音頻和拖動點,以展示擴散模型在多樣化圖像編輯場景中的適應性。此外,我們的綜述提出了一種新的圖像編輯任務分類,將其劃分為三大類:語義編輯、風格編輯和結構編輯,涵蓋了12種特定類型。圖1直觀地表示了研究在學習策略、輸入條件和編輯任務類別之間的統計分布。另外,我們特別關注了修復和外擴,這兩者共同構成了一種獨特的編輯類型。我們探索了早期的傳統和當前的多模態條件方法,第7節提供了它們方法論的全面分析。我們還介紹了EditEval,這是一個旨在評估文本引導的圖像編輯算法的基準,詳細內容在第8節。特別地,我們通過利用大型多模態模型(LMMs)的先進視覺-語言理解能力,提出了一個有效的評估指標,LMM分數。最后,我們在第9節中展示了一些當前的挑戰和潛在的未來趨勢作為展望。 總之,這項綜述旨在系統地分類和批判性地評估基于擴散模型的圖像編輯研究的廣泛文獻。我們的目標是提供一個全面的資源,不僅綜合了當前的發現,而且還指導了這一快速進步領域的未來研究方向。

除了擴散模型在圖像生成、恢復和增強方面取得的重大進展之外,它們在圖像編輯方面也取得了顯著的突破,與之前占主導地位的GANs相比,提供了更強的可控性。與從零開始創建新圖像的圖像生成不同,以及旨在修復和提高降級圖像質量的圖像恢復和增強,圖像編輯涉及修改現有圖像的外觀、結構或內容,包括添加對象、替換背景和改變紋理等任務。

在這項綜述中,我們根據它們的學習策略將圖像編輯論文組織成三個主要群體:基于訓練的方法、測試時微調方法和無需訓練和微調的方法,分別在第4、5和6節中詳細闡述。此外,我們探索了這些方法用來控制編輯過程的10種類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿勢、草圖、分割(Seg.)圖、音頻和拖動點。此外,我們研究了這些方法可以完成的12種最常見的編輯類型,這些類型被組織成以下三大類。

  • 語義編輯:這一類別包括對圖像內容和敘述的修改,影響所描繪場景的故事、背景或主題元素。該類別內的任務包括對象添加(Obj. Add.)、對象移除(Obj. Remo.)、對象替換(Obj. Repl.)、背景更改(Bg. Chg.)和情感表達修改(Emo. Expr. Mod.)。

  • 風格編輯:這一類別專注于增強或轉換圖像的視覺風格和美學元素,而不改變其敘述內容。該類別內的任務包括顏色更改(Color Chg.)、紋理更改(Text. Chg.)和整體風格更改(Style Chg.),涵蓋藝術和現實風格。

  • 結構編輯:這一類別涉及圖像內元素的空間布局、位置、視點和特性的更改,強調場景內對象的組織和呈現。該類別內的任務包括對象移動(Obj. Move.)、對象大小和形狀更改(Obj. Size. Chg.)、對象動作和姿勢更改(Obj. Act. Chg.)和透視/視點更改(Persp./View. Chg.)。

表1全面總結了對調研論文的多角度分類,提供了快速搜索。

在基于擴散模型的圖像編輯領域中,基于訓練的方法已經獲得了顯著的突出地位。這些方法不僅因其穩定訓練擴散模型和有效建模數據分布而著稱,也因其在多種編輯任務中的可靠性能而備受關注。為了徹底檢查這些方法,我們根據它們的應用范圍、訓練所需的條件以及監督類型,將它們分類為四個主要組,如圖2所示。進一步地,在每個主要組內,我們根據它們的核心編輯方法將這些方法分類為不同的類型。這一分類展示了這些方法的范圍,從針對特定領域的應用到更廣泛的開放世界用途。

在圖像生成和編輯中,測試時微調代表了向精確度和控制性邁進的重要一步。本節探討了各種微調策略(見圖5),這些策略增強了圖像編輯的能力。如圖6所示,這些方法范圍從微調整個去噪模型到專注于特定層或嵌入。我們研究了微調整個模型、針對特定參數和優化基于文本的嵌入的方法。此外,我們討論了超網絡的集成和直接圖像表示優化。這些方法共同展示了微調技術在圖像編輯中的不斷復雜化和有效性,滿足了廣泛的編輯需求和用戶意圖。

在圖像編輯領域中,無需訓練和微調的方法起始于它們快速且低成本的前提——因為在整個編輯過程中,它們不需要任何形式的訓練(針對數據集)或微調(針對源圖像)。本節根據它們所修改的內容,將這些方法分為五個類別,如圖7和8所示。它們巧妙地利用擴散模型內在的原則來實現它們的編輯目標。

結論

我們已經全面概述了基于擴散模型的圖像編輯方法,從多個角度檢查了這一領域。我們的分析首先根據它們的學習策略,將超過100種方法分類為三個主要群體:基于訓練的、測試時微調的,以及無需訓練和微調的方法。然后,我們將圖像編輯任務分類為三個不同的類別:語義編輯、風格編輯和結構編輯,總共包含12種特定類型。我們探索了這些方法及其對提高編輯性能的貢獻。我們的圖像編輯基準EditEval中對7個任務及最近的最先進方法進行了評估。此外,引入了一種新的度量LMM分數,用于這些方法的比較分析。總結我們的綜述,我們強調了圖像編輯領域內的廣泛潛力,并建議了未來研究的方向。

付費5元查看完整內容

近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。

然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。

貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:

  • 一個新的分類法:我們提供了一個新的分類法來總結克服CGL中災難性遺忘的方法。具體來說,從如何實現持續性能改進的角度引入了四個組別(見圖1)。
  • 一個全面的綜述:對于每一類方法,我們討論了克服災難性遺忘的動機和主要挑戰。此外,我們進一步討論了當前方法如何實現持續性能改進。據我們所知,這是第一次對持續性能改進進行探討。
  • 未來方向:專注于持續性能改進,我們進一步提出了一些與持續圖學習相關的開放問題,并討論了它們如何影響持續性能改進以及相應的未來方向。

圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。

持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。

基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。

基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。

基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。

由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。

結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式

在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。

**提示范式的解釋 **

在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。

基礎模型解釋

隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。

結論

在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。

付費5元查看完整內容

在過去的幾年中,在自然語言處理(NLP)和計算機視覺(CV)中使用的方法取得了一些突破。除了這些對單模態模型的改進之外,大規模的多模態方法已經成為一個非常活躍的研究領域。

這本書是一個研討會的結果,在會上,我們回顧了多模態方法,并試圖創建一個該領域的堅實概述,從深度學習的兩個子領域的當前最先進的方法開始。此外,還討論了一種模態轉換為另一種模態的建模框架,以及利用一種模態來增強另一種模態的表示學習的模型。為總結第二部分,介紹了專注于同時處理兩種模態的架構。最后,還介紹了其他模態以及通用多模態模型,這些模型能夠在一個統一的架構內處理不同模態上的不同任務。

1. 引言

人類有五種基本的感官:聽覺、觸覺、嗅覺、味覺和視覺。擁有這五種模態,我們就能夠感知和理解周圍的世界。因此,“多模態”意味著同時結合不同的信息通道來理解我們的環境。例如,當幼兒學習單詞“cat”時,他們使用不同的模態,大聲說出這個單詞,指著貓,發出“喵”的聲音。利用人類的學習過程作為角色模型,人工智能(AI)研究人員還嘗試結合不同的模態來訓練深度學習模型。從表面上看,深度學習算法是基于一個神經網絡,該神經網絡被訓練來優化一些通過所謂的損失函數在數學上定義的目標。優化,即最小化損失,是通過稱為梯度下降的數值過程來完成的。因此,深度學習模型只能處理數值輸入,并且只能產生數值輸出。然而,在多模態任務中,我們經常面臨圖片或文本等非結構化數據。因此,第一個主要問題是如何用數字表示輸入。關于多模態任務的第二個問題是如何準確地結合不同的模態。例如,一個典型的任務可能是訓練一個深度學習模型來生成一張貓的圖片。首先,計算機需要理解輸入的文本“貓”,然后以某種方式將這些信息轉換為特定的圖像。因此,需要識別文本輸入中單詞之間的上下文關系和圖像輸出中像素之間的空間關系。對學齡前兒童來說可能很容易的事情,對電腦來說卻是一個巨大的挑戰。雙方都必須了解“貓”這個詞,它包含了動物的含義和外觀。現代深度學習中的一種常見方法是生成嵌入,將貓以數字形式表示為某些潛空間中的向量。然而,為了實現這一點,近年來開發了不同的方法和算法架構。本書概述了最先進的(SOTA)多模態深度學習中使用的不同方法,以克服來自非結構化數據和組合不同模態輸入的挑戰。

**由于多模態模型通常使用文本和圖像作為輸入或輸出,因此第2章將介紹自然語言處理(NLP)和計算機視覺(CV)方法作為基礎。**NLP領域的方法試圖處理文本數據,而CV處理的是圖像處理。關于NLP(第2.1節),一個重要的概念是所謂的詞嵌入,這是當今(幾乎)所有多模態深度學習架構的一個重要部分。這一概念也為基于transformer的模型奠定了基礎,如BERT (Devlin等人,2018a),它在幾個NLP任務中取得了巨大的改進。特別是transformer的(自)注意力機制(Vaswani et al., 2017a)徹底改變了NLP模型,這就是為什么大多數模型都依賴transformer作為骨干。在計算機視覺(第2.2小節)中,將介紹不同的網絡架構,即ResNet (He等人,2015)、EfficientNet (Tan和Le, 2019a)、SimCLR (Chen等人,2020a)和BYOL (Grill等人,2020b)。在這兩個領域,比較不同的方法及其在具有挑戰性的基準上的性能是非常有趣的。因此,第2章的最后2.3小節對CV和NLP的不同數據集、預訓練任務和基準進行了總體概述。 第二章(見3)側重于不同的多模態架構,涵蓋了文本和圖像如何結合的各種各樣。所提出的模型結合并改進了NLP和CV的不同方法。首先,查看Img2Text任務(第3.1小節),介紹用于物體識別的數據集Microsoft COCO (Lin等人,2014a)和用于圖像描述的網格記憶transformer (M2 transformer) (Cornia等人,2019)。相反,研究人員開發了基于短文本提示(第3.2節)的圖像生成方法。完成這項任務的第一個模型是生成對抗網絡(GANs) (Goodfellow等人,2014b)和變分自編碼器(vae) (Kingma和Welling, 2019)。這些方法是近年來改進的,今天的SOTA transformer架構和文本引導擴散模型,如DALL-E (Ramesh et al., 2021a)和GLIDE (Nichol et al., 2021a)取得了顯著的結果。另一個有趣的問題是如何利用圖像來支持語言模型(第3.3節)。這可以通過順序嵌入、更高級的接地嵌入或transformer內部來實現。另一方面,也可以查看支持CV模型的文本,如CLIP (Radford et al., 2021b)、ALIGN (Jia et al., 2021a)和Florence (Yuan et al., 2021)(第3.4小節)。他們使用基礎模型,這意味著重用模型(例如DALL-E 2中的CLIP)以及用于連接文本和圖像的對比損失。此外,零樣本使對新的和未見過的數據進行分類成為可能,而無需昂貴的微調。特別是用于圖像分類和生成的開源架構CLIP (Radford et al., 2021b)去年吸引了很多關注。在第二章的最后,我們會介紹一些可以同時處理文本和圖像的架構(第3.5節)。例如,Data2Vec對語音、視覺和語言使用相同的學習方法,以這種方式旨在找到一種通用方法來處理一個架構中的不同模態。此外,VilBert (Lu等人,2019a)擴展了流行的BERT架構,通過實現共同注意力(co-attention)來處理圖像和文本作為輸入。該方法也用于谷歌的Deepmind Flamingo (Alayrac等人,2022)。此外,Flamingo旨在通過少樣本學習和凍結預訓練的視覺和語言模型,用單個視覺語言模型解決多個任務。

在最后一章(見4)中,介紹了能夠處理文本和圖像以外的模態的方法,如視頻、語音或表格數據。這里的總體目標是基于挑戰而不是模態找到一個通用的多模態架構。因此,人們需要處理多模態融合和對齊的問題,并決定是使用連接表示還是協調表示(第4.1節)。此外,我們將更詳細地討論如何準確地組合結構化和非結構化數據(第4.2節)。因此,將提出近年來發展起來的不同融合策略。本書通過生存分析和經濟學中的兩個用例說明了這一點。除此之外,另一個有趣的研究問題是如何在一個所謂的多用途模型(第4.3小節)中解決不同的任務,就像谷歌研究人員(Barham et al., 2022)在他們的“路徑”模型中所打算創建的那樣。展示了多模態深度學習在藝術場景中的一個示例應用,其中DALL-E (Ramesh et al., 2021a)等圖像生成模型被用于生成藝術領域的藝術作品(第4.4節)。

付費5元查看完整內容

機器學習已經被應用于越來越多影響我們日常生活的社交相關場景,從社交媒體和電子商務到自動駕駛汽車和刑事司法。因此,開發可信、可靠的機器學習方法至關重要,以避免對個人和社會產生負面影響。本文致力于理解和提升圖機器學習的可信性,由于圖數據的復雜關系結構,這提出了獨特的挑戰

特別地,我們認為機器學習模型的可信性在異常情況下是可靠的。例如,機器學習模型在對抗攻擊下或在子種群上的性能不應嚴重退化,分別對應對抗魯棒性或公平性問題。值得信任的圖機器學習的獨特挑戰是,在圖數據的上下文中有許多更復雜的,有時是隱式的異常條件。本文識別了未充分挖掘的異常情況,理解了識別出的異常情況下的預期模型行為,并改進了現有模型在此類異常情況下的行為。

重點關注圖神經網絡(GNN),這是一類流行的圖機器學習模型,利用了深度學習的最新進展。**本文確定了圖神經網絡的三種異常情況。**首先,受社交網絡應用場景啟發,通過一個新的實際威脅模型研究了GNN的對抗魯棒性,并研究了GNN何時以及為什么會遭受對抗攻擊。發現現有的GNN對許多現實世界的圖數據可能會被錯誤指定,并開發了一個新的框架來改進現有的模型。發現了一種與節點結構位置相關的測試節點子種群之間的GNN預測的不公平性。本文還提出了一種主動學習框架來緩解不公平問題。

人工智能(AI),特別是機器學習(ML),已經作為一種通用技術融入人類社會1,有望在許多方面重塑我們的日常生活,從社交媒體和電子商務,到自動駕駛汽車和刑事司法。然而,盡管AI和ML帶來了巨大的經驗成功和商業價值,但要更廣泛地部署這些技術,需要更好地理解ML模型對社會的影響。因此,可信的ML成為了一個越來越受歡迎的研究方向。Trustworthy ML是一個概括性的概念,包括關于ML可靠性和透明度的各種主題,如公平性、魯棒性、可解釋性等。

例如,機器學習模型可能在特定子種群上的系統表現較差,這導致了公平性問題。因此,對機器學習公平性的研究興趣迅速增加。也有現實世界的ML應用程序證明了偏見和不公平:亞馬遜的人工智能招聘工具被發現具有性別偏見[37];一種曾經廣泛使用的犯罪預測工具,矯正罪犯管理分析替代制裁(COMPAS),被發現具有種族偏見[4]。另一個例子是,ML模型已被證明對添加到數據中的小的對抗性擾動很敏感,因此容易受到對抗性攻擊[136]。例如,最先進的計算機視覺模型可能通過停車標志[45]上看似隨機的涂鴉,將停車標志識別為限速標志。

由于相關主題的多樣性和我們對可信機器學習的科學理解的文獻歷史,社區自然發展出了一套相對被廣泛接受的可信性問題的概念類別,包括但不限于公平性、魯棒性、安全性、隱私、可問責性、可解釋性和因果性。雖然這種概念分類,像任何分類系統一樣,有助于簡化對該領域的理解,但有時也會產生誤導。

首先,這種分類可以使可信機器學習的不同問題被視為孤立的主題。然而,這些不同的可信性問題可能相互沖突或相關。例如,在某些隱私和公平概念之間存在固有的沖突[32,24]。另一方面,公平性也可以與域外泛化相關[99]。此外,可解釋的ML[41]和因果推理[113]可以成為一些公平性或魯棒性問題的候選解決方案。一個扁平的概念類別分類方法無法捕捉不同主題之間豐富的相互關系。

其次,這種分類傾向于為每個主題尋找過度通用的解決方案,這可能不是解決可信機器學習問題的最佳方法。由于主題的概念性質,通常有各種直觀合理的方法來將可信性概念(例如,公平性或魯棒性)形式化為定量概念,而同時實現所有概念的可信性是不現實的。例如,Kleinberg等人[78]證明,通常不可能有一種算法同時滿足三個常見的公平標準。因此,沒有一個通用的解決方案是所有應用的萬能藥。此外,不同的可信性問題的重要性和恰當表述是高度特定于應用程序的。就可信性不同方面的重要性而言,例如,自動駕駛汽車可能會遭受對抗性攻擊,因為它在野生[45]中接受數據輸入;相比之下,對電子健康記錄(EHR)數據進行對抗性攻擊實際上要困難得多,因為這些數據由授權的醫療專家生成,并且在封閉的系統中循環。另一方面,EHR數據的隱私標準遠高于駕駛數據。在可信性的正確制定方面,研究表明,制定的選擇應該利用利益相關者在具體應用[28]中的感知。總的來說,應該將可信性作為位于特定類型的應用程序場景中的ML技術的屬性來研究,而不是作為通用ML技術的屬性。

許多現有的可信性概念可以按照這個程序重新制定。例如,機器學習模型的不公平性問題往往是由于它們在特定少數子種群上的性能下降,而與它們在多數子種群上的性能相比。機器學習的對抗漏洞是指與在干凈數據上的性能相比,它們在對抗攻擊下的性能下降。另一方面,其他一些可信性概念,如可解釋性或因果關系,不能通過上述過程直接表述。在某種程度上,不公平或不魯棒的模型將產生直接后果,而可解釋性或因果關系可以被視為緩解問題的候選解決方案(例如,不公平或不魯棒)。上述過程關注的是作為問題而不是解決方案的可信性概念。這個過程還強調應用場景的可信性問題。

為約束特定應用場景下的可信范圍,本文對圖機器學習(GML)的可信性進行了研究。現實世界的數據中存在大量的關系結構,通常以圖的形式表示。例如,社交媒體上的用戶或物聯網系統中的傳感器通過圖結構進行連接。如果在預測任務中使用得當,這種關系圖結構可以提供顯著的預測能力。GML是一個流行的機器學習技術家族,它將圖結構用于預測模型。近年來,GML在許多影響人們日常生活的應用中表現出了優異的性能。舉個常見的例子,GML在Uber Eats[65]、亞馬遜[162]和Pinterest[157]的工業推薦系統中發揮著重要作用;GML還被廣泛用于在谷歌Map[38]中的ETA預測或房地產價格估計等任務中對地理數據進行建模[114]。此外,由于關系結構的普遍性,GML方法已經應用于或準備應用于高利害攸關的決策問題,如社會正義。例如犯罪預測和數據驅動的起訴[68,156],警察不當行為預測[22],假釋決定的風險評估[132],公共安全監視[95],以及許多其他社會公正和安全問題[111]。

鑒于GML的眾多社會相關應用場景,這類ML系統的可信性問題變得至關重要。此外,與傳統的ML相比,由于GML復雜的關系結構,在理解和改進GML的可信性問題方面存在獨特的挑戰。特別是,在GML的上下文中,有許多更復雜,有時甚至是隱式的異常條件。以對抗性攻擊為例,在傳統的機器學習設置中,攻擊者大多通過向輸入特征添加對抗性擾動來進行攻擊。對于GML,在實際應用中存在著更復雜的威脅:攻擊者不僅可以擾動GML節點屬性,還可以擾動圖結構;攻擊者還可以通過擾動鄰居節點來間接影響節點的預測結果。在子種群之間的機器學習公平性方面,大多數傳統文獻研究的是有關某些敏感屬性的子種群,如性別或種族。在圖數據中,人們可以根據圖結構來調查子群體,例如節點中心性[12,13]或社區結構[51,47]。社會科學理論認為,社會網絡中人們的結構特征往往與其社會經濟地位相關[53,16]。圖數據中獨特的對抗性威脅和基于結構的子群呈現出在傳統ML文獻中沒有充分探索的例外情況,使可信的GML更具挑戰性。

本文旨在解決這些對理解和提高GML可信性的獨特挑戰。具體而言,本文旨在回答以下3類研究問題,并在3種應用場景下展示研究方法。

  1. GML模型在實際應用場景中可能遇到的潛在異常情況是什么?2. 在確定的異常條件下,GML模型的預期行為是什么?3.在識別出的異常情況下,如何緩解GML模型的性能差異? 在GML方法中,我們關注圖神經網絡(GNN)[52,124,77],這是一個大的趨勢GML模型家族,將深度學習[83]的最新進展利用到GML中,并在許多真實世界的應用程序中顯示出卓越的性能。
付費5元查看完整內容

最近深度神經網絡已經在監督識別任務上取得了令人振奮的突破,但是深度神經網絡要求每個類都有足夠 多的且完全標注的訓練數據。如何從少數訓練樣本中學習并識別新的類別,對于深度神經網絡來說是一個具有挑戰性的問題。針對如何解決少樣本學習的問題,全面總結了現有的基于深度神經網絡的少樣本學習方法,涵蓋了方法 所用模型、數據集及評估結果等各個方面。具體地,針對基于深度神經網絡的少樣本學習方法,提出將其分為四種 類別,即數據增強方法、遷移學習方法、度量學習方法和元學習的方法;對于每個類別,進一步將其分為幾個子類 別,并且在每個類別與方法之間進行一系列比較,以顯示各種方法的優劣和各自的特點。最后,強調了現有方法的局限性,并指出了少樣本學習研究領域的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司