亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習模型雖然日益先進,但在很大程度上依賴于獨立同分布(IID)假設,這一假設在實際中往往得不到滿足,因為不可避免的分布偏移。這使得它們在風險敏感的應用部署中顯得脆弱且不可信。這一重大問題因此催生了各種旨在開發能夠進行分布外(Out-of-Distribution, OOD)泛化的算法的研究分支。盡管有這些努力,但對分布外泛化的評估卻鮮有關注,這同樣是一個復雜且基礎的問題。其目標不僅是評估一個模型的分布外泛化能力是否強大,而且還要評估一個模型在哪些地方泛化得好或泛化得差。這需要描述模型可以有效解決的分布偏移類型,并確定給定模型的安全和風險輸入區域。本文是進行分布外評估綜述的第一次嘗試。我們根據測試數據的可用性,將現有研究歸類為三種范式:分布外性能測試、分布外性能預測和分布外內在屬性表征。此外,我們還簡要討論了在預訓練模型上進行分布外評估的背景。最后,我們提出了分布外評估未來研究的幾個有希望的方向。

在過去的十年中,機器學習領域發生了重大進展。在數據和計算資源的指數級增長的推動下,神經網絡在包括但不限于計算機視覺[1]、自然語言處理[2]和推薦系統[3]等廣泛的應用領域取得了驚人的性能。盡管取得了顯著進展,但我們必須承認,現有的機器學習算法和模型仍然面臨著幾個持續存在的挑戰,這些挑戰極大地削弱了它們的可靠性和信任度。這些挑戰包括隱私泄露[4]、黑盒模型的弱可解釋性[5]、在對抗性攻擊下的脆弱性[6],以及面對分布偏移時泛化性能的顯著下降[7]。上述挑戰對當前機器學習算法的廣泛應用構成了實質性的障礙,特別是在高風險敏感性領域。典型例子包括法律[8](公平和公正至關重要)、醫療保健[9](患者福祉至上)和自動駕駛[10](人類生命取決于這些算法的性能)。

在這些挑戰中,分布偏移下的泛化問題,通常稱為分布外(Out-of-Distribution, OOD)泛化,構成了一個重大的障礙。這是因為當前算法在很大程度上依賴于IID假設,即測試數據和訓練數據應該是獨立同分布的,但幾乎到處都存在分布偏移。在真實應用中,我們幾乎無法保證部署模型遇到的測試數據將符合與訓練數據相同的分布。例如,推薦系統的模型在美國收集的用戶數據上進行訓練,但任務是擴展到其他國家的用戶,這些用戶的偏好分布可能有很大差異。同樣,主要由真實照片組成的數據集上訓練的視覺識別模型面臨著識別各種風格圖像的艱巨任務,如藝術繪畫,這代表了與其訓練數據的顯著分布偏移[11]。此外,訓練數據中通常存在人口群體的不平衡,特別是在性別或種族方面。在這種情況下,當訓練數據中的少數群體在測試數據中占主導地位時,模型的泛化性能可能會輕易下降[12]。所有這些分布偏移的實例都導致了機器學習算法的性能下降。盡管自更早以來已經開發了領域適應技術[13]、[14]、[15]來解決類似問題,但在野外環境中,分布偏移無處不在且未知,我們不太可能事先有權訪問測試數據。

一種直接的方法涉及開發算法,以增強模型在完全未知的測試數據下的OOD泛化能力,正如沈等人[7]所強調的。近年來,幾個研究分支致力于這一目標。領域泛化(DG)[16]、[17]、[18]利用多個訓練領域使模型能夠泛化到以前未見過的測試領域,主要在計算機視覺領域。分布魯棒優化(DRO)及其變體[19]、[20]、[21]試圖解決最壞情況下的分布。不變學習[22]、[23]、[24]尋求捕獲訓練數據中存在的潛在異質性和不變性。穩定學習[25]、[26]、[27]方法借鑒了因果推斷的思想,通過樣本重新加權來去相關變量。這些不同的分支共同貢獻于提高OOD泛化的總體目標,每個分支都提供了不可忽視的獨特見解和進步。

另一種使機器學習模型適用于高風險領域的途徑是評估,即評估它們在可能的OOD場景下的泛化能力。與OOD泛化算法的迅速增長相比,評估方面受到的關注要少得多。評估在機器學習的各個領域都是必不可少的。適當的評估協議和方法有潛力推動一個領域的進步,就像ImageNet[28]在計算機視覺領域所做的那樣。在OOD泛化的背景下,評估扮演著更為基礎的角色。一方面,與ID(In-Distribution)評估相比,OOD評估通常更加復雜。例如,給定一個單一任務的數據集,如圖像識別,一種自然的方法是將其隨機分割成訓練集和測試集,以測試準確率作為ID泛化的評估指標。但是,面對同一個數據集,我們如何分割數據集以生成所需的分布偏移并描述這種偏移?這種分布偏移是否可解[29]?在OOD的背景下,這變成了一個更復雜的過程。另一方面,值得注意的是,目前的OOD泛化算法沒有一個能在各種OOD設置中取得普遍且巨大的改進,并像ResNet[1]對計算機視覺社區所做的,或Transformer[30]對自然語言處理社區所做的那樣,引爆OOD社區。事實上,鑒于存在多種類型的分布偏移需要解決[31],而且很難一勞永逸地解決它們,因此開發一個在OOD泛化方面一致超過其他模型大幅度的模型是相當困難的。在這種情況下,評估模型在哪些方面表現出色或失敗更加實用和有用。具體而言,我們的目標轉向識別存在哪些類型的分布偏移[32],評估模型處理它們的能力,并尋找模型表現出色或糟糕的安全和風險輸入區域[33]。通過這種方式,我們可以充分利用現有的訓練模型,這些模型不能任意泛化,但適用于某些場景。

此外,與直接開發針對OOD泛化的模型相比,OOD評估還提供了額外的好處。如今,從頭開始訓練一個深度模型,甚至僅僅是對現有模型進行微調,都可能是耗時且昂貴的[34]。在像罕見疾病[35]這樣的數據稀缺場景中,可能根本沒有足夠的數據進行訓練。在這種情況下,盡管無法進一步改進它,我們仍可以借助適當的OOD評估方法決定是否以及在哪里使用這個模型,或從模型池中選擇合適的模型。此外,OOD評估也更具靈活性。設計的評估指標不必是可優化的,它可以無縫地融入模型選擇過程中,這是OOD泛化的一個關鍵但鮮有研究的方面[18]、[36]。它還可以與非算法操作結合使用,如添加額外數據或特征[33]。

因此,我們認為OOD評估是OOD泛化的一個基本方向。目標不僅是確定一個模型是否具有良好的OOD泛化能力,而且還要識別它在哪里可以表現良好,包括分布偏移的類型和程度,以及模型保持其能力的相應輸入區域。在本文中,我們提供了當前OOD評估協議、指標和方法的系統性綜述,涵蓋了OOD評估的多方面目標。據我們所知,我們是第一個全面審視這一領域的人。之前的綜述主要集中在OOD泛化本身[7],或是機器學習模型的一般評估[34]。另一項綜述也回顧了OOD模型的評估,但其范圍僅限于NLP領域[37]。

本文的其余部分安排如下。在第2節中,我們介紹了問題設定和OOD評估范式的分類。在第3節、第4節、第5節中,我們主要根據對OOD測試數據的依賴性描述了OOD評估范式的每個類別。在第6節中,我們討論了預訓練模型范圍內的OOD評估,包括大型語言模型(LLMs)。最后,在第7節中,我們總結了這篇論文,并提出了一些在未來研究努力中值得進一步探索的方向。

分布外性能測試

設計關于標記數據集的分布外性能測試程序絕非一個瑣碎的問題。對于ID泛化任務,給定一個標記數據集,直接隨機將其分割成訓練集和測試集已經足夠合理。但對于分布外泛化,許多問題需要仔細考慮。如果沒有給定的數據集,我們應該如何從頭開始生成一個標記的合成數據集來模擬特定類型的分布偏移?如果有給定的數據集,我們應該如何人為地生成分布偏移,或根據現有的分布偏移將數據集劃分為多個環境?在獲得數據集和環境劃分后,我們如何減少由于預訓練[36]和神諭模型選擇[18]導致的測試數據信息泄露的潛在可能性?此外,一旦我們測試了模型在標記數據集上的性能,我們應該如何有效地分析這一性能?在分布外性能測試方面需要解決許多問題。在本節中,我們將介紹當前的分布外數據集或基準以及它們的基本設計原則,以及分析性能和分布偏移的現有方法。

分布外性能預測

與分布外性能測試不同,后者的測試數據是完全可訪問的,這一領域代表了另一個研究維度,旨在預測在提供的未標記分布外測試數據上的性能。我們可以用醫學圖像智能系統的例子來說明這一點。這些系統作為輔助工具幫助醫生進行診斷。假設部署在這些系統上的模型是在北京和上海的患者數據上訓練的。現在我們想探索在廣州醫院部署這些模型和系統的可能性。因此,我們需要預測這些模型面對新場景下從患者收集的未標記圖像數據時的分布外性能。當前的工作嘗試從兩個角度應對這一挑戰。一些研究直接關注模型輸出在應用到測試數據時的屬性,而不使用訓練數據。相反,其他工作利用訓練數據的分布差異或模型一致性。前者通常更加方便和靈活,然而后者通常能夠提供更優的預測,因為它們利用了更多的信息。

結論與未來方向

科學合理的分布外評估范式,即對分布外泛化的評估,不僅對于推動新的分布外泛化算法的發展具有重要意義,而且對于現有模型的更實用和靈活的應用也極為關鍵。在本文中,我們對問題設定、三個主要類別的分布外評估方法進行了系統性的綜述,并簡要討論了在預訓練模型的背景下的應用。盡管我們已經討論了每個特定分布外評估類別的缺點和未來方向,但基于我們目前對分布外評估的認識和反思,我們在這里列舉了幾個更具普遍性但在當前文獻中相對缺乏的有價值的潛在未來方向。

分布外評估超越性能:大多數現有的分布外評估范式主要圍繞模型的性能。它們旨在評估模型的分布外性能是否足夠好,或者在模型之間進行比較。然而,如第一節所述,分布外評估的目標不僅僅是“是否”,還包括“在哪里”。考慮到各種類型的分布偏移,尋找分布外泛化的最終解決方案是困難的,因此,在部署機器學習模型時,識別特定模型的安全或風險區域,以及驗證算法能夠有效應對的分布偏移類型更為實用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝著這一目標的初步努力。值得注意的是,它們都是相對較新的工作,這表明可能存在一個朝向超越性能評估的趨勢。

分布外訓練數據評估:雖然全訓練模型是模型結構、算法和訓練數據的綜合結果,但當前的分布外評估范式大多評估不同模型結構或不同算法之間的模型,很少跨不同種類的訓練數據進行評估,也很少分析有利于分布外泛化的訓練數據屬性。在人們關注開發新模型結構和新算法的時代,訓練數據容易被忽視,盡管它對模型性能有著關鍵影響[142]、[143]、[144]。只有少數研究從訓練數據異質性的角度探討這個問題[122]、[145]。 區分分布外泛化與ID泛化的性能:現有的分布外評估方法依賴于絕對性能的直接比較。然而,我們對這些比較是否準確衡量模型的真實分布外泛化能力提出了疑問。存在一種可能性,性能提升歸因于ID泛化能力的改進,而非分布外泛化能力。例如,對同一數據集進行足夠的訓練,更大的網絡往往在ID和分布外測試數據上都能達到更高的性能。ID與分布外之間的性能差距,雖然不一定是適當的評估指標,可能保持不變甚至變大。當然,增加訓練數據的大小和模型容量通常有助于提高ID性能,從而提高分布外性能,但這并不意味著這是解決分布外泛化問題的答案,考慮到大型模型也會遭遇分布偏移時的嚴重性能下降[81]、[82],以及相關的偏見和公平性問題[34]、[140]。因此,對于分布外泛化的最終解決方案,我們建議在評估模型的分布外泛化能力時,應該區分分布外性能和ID性能。簡單使用性能差距可能不適合,因為強正則化技巧,如使用大的權重衰減,可能會降低ID性能以減少性能差距。已有一些工作討論了分布外和ID性能之間的關系[82]、[111]、[146]、[147]、[148],期待對這方面進行更深入的研究。

付費5元查看完整內容

相關內容

在深度學習之后的時代,Transformer架構在預訓練的大型模型和各種下游任務中展示了其強大的性能。然而,這一架構巨大的計算需求已經讓許多研究者望而卻步。為了進一步降低注意力模型的復雜性,許多努力已經被投入到設計更高效的方法中。其中,狀態空間模型(SSM)作為一種可能替代基于自監督學習的Transformer模型的方案,近年來越來越受到關注。在這篇論文中,我們首次提供了這些工作的綜述,并提供實驗比較和分析,以更好地展示SSM的特征和優勢。具體來說,我們首先詳細描述了原理,以幫助讀者快速把握SSM的關鍵思想。之后,我們深入綜述了現有的SSM及其在自然語言處理、計算機視覺、圖形、多模態和多媒體、點云/事件流、時間序列數據等領域的各種應用。此外,我們提供了這些模型的統計比較和分析,希望能幫助讀者理解不同結構在各種任務上的有效性。然后,我們提出了可能的研究方向,以更好地促進SSM理論模型和應用的發展。更多相關工作將在以下GitHub上持續更新://github.com/Event-AHU/Mamba State Space Model Paper List。

人工智能在2010年開始的第三波快速發展中,其中基于聯結主義的深度學習技術扮演了極其重要的角色。深度學習的奇點可以追溯到AlexNet[1]的提出,該模型在ImageNet[2]比賽中取得了最佳性能(遠超第二名)。此后,各種卷積神經網絡(CNN)相繼被提出,例如VGG[3]、ResNet[4]、GoogleNet[5]等。塊、殘差連接和Inception的思想啟發了許多后續深度神經網絡的設計[6]、[7]。另一方面,循環神經網絡(RNN)家族,如長短時記憶網絡(LSTM)[8]和門控循環單元(GRU)[9],主導了基于序列的學習領域,包括自然語言處理和音頻處理。為了進一步擴展深度神經網絡在圖數據上的應用,提出了圖神經網絡(GNNs)[10]、[11]。然而,這些主流模型在數據集和計算力支持達到最大時仍面臨瓶頸。 為了解決CNN/RNN/GNN模型僅能捕捉局部關系的問題,2017年提出的Transformer[13]能夠很好地學習長距離特征表示。核心操作是自監督學習機制,它將輸入的令牌轉換為查詢、鍵和值特征,并通過查詢和鍵特征之間的乘積得到的相似性矩陣與值特征相乘,輸出長距離特征。Transformer架構首先在自然語言處理社區借助預訓練和微調范式[14]得到廣泛應用,例如BERT[15]、ERNIE[16]、BART[17]、GPT[18]。然后,其他領域也通過這些網絡得到推動,例如在計算機視覺中發布的ViT[19]和Swin-Transformer[20]。許多研究者還通過結合Transformer和其他網絡,或適應Transformer于多模態研究問題[21]、[22],探索混合網絡架構。在當前階段,大型基礎模型正在出現,參數高效微調(PEFT)策略[23]也得到了極大的發展。然而,當前基于Transformer的模型仍需要配備大內存的高端顯卡進行訓練和測試/部署,這極大地限制了它們的廣泛應用。

為了進一步降低計算成本,同時捕捉長距離依賴并保持高性能,許多新的基于稀疏注意力的模型或新的神經網絡范式被提出[24]–[28]。其中,狀態空間模型(例如,Mamba [12],S4 [29],S4nd [30]),如圖1所示,成為關注的中心。如圖2左部分所示,與SSM相關的論文發布量顯示出爆炸性增長的趨勢。狀態空間模型(SSM)最初是為了使用狀態變量來模擬控制理論、計算神經科學等領域的動態系統而提出的框架。當將這一概念適用于深度學習時,我們通常指的是線性不變(或穩定)系統。原始的SSM是一個連續動態系統,可以離散化以適應計算機處理的遞歸和卷積視角。SSM可以用于各種數據處理和特征學習,包括圖像/視頻數據、文本數據、結構化圖數據、事件流/點云數據、多模態/多媒體數據、音頻和語音、時間序列數據、表格數據等。它還可以用來構建高效的生成模型,如基于SSM的擴散生成模型[31]–[33]。為了幫助讀者更好地理解SSM并跟蹤最新的研究進展和各種應用,本文對該領域進行了系統的綜述,并通過實驗驗證了SSM模型在下游任務中的性能。希望這篇綜述能更好地引導和促進SSM領域的發展。

本綜述的組織。在本文中,我們首先在第2節提供狀態空間模型工作原理的初步預覽。然后,在第3節,我們專注于從多個方面綜述SSM的相關工作,包括SSM的起源和變體、自然語言處理、計算機視覺、圖形、多模態和多媒體、點云/事件流、時間序列數據和其他領域。在本綜述中審查的結構和關鍵狀態空間模型相關論文的概覽在圖3中說明。更重要的是,我們在第4節對多個下游任務進行了廣泛的實驗,以驗證SSM在這些任務中的有效性。下游任務涉及單/多標簽分類、視覺對象跟蹤、像素級分割、圖像到文本生成和人員/車輛重識別。我們還在第5節提出了幾個可能的研究方向,以促進SSM的理論和應用。最后,在第6節中我們對本文進行了總結。

付費5元查看完整內容

大規模圖數據的分布式處理具有許多實際應用,并且已被廣泛研究。近年來,提出了許多分布式圖處理框架和算法。雖然大量工作致力于分析這些框架和算法,且大部分是基于編程模型進行分析,但較少的研究集中于理解它們在分布式環境中的挑戰。在分布式環境中應用圖任務并非易事,通常面臨許多挑戰,通過我們的分析,這些包括并行性、負載平衡、通信開銷和帶寬問題。在本文中,我們通過概述分布式圖算法的挑戰和解決方案,提供了該領域當前最先進狀態的廣泛綜述。我們首先對分布式圖處理中的固有挑戰進行系統分析,然后概述現有的通用解決方案。隨后,我們綜述了最近的分布式圖處理論文中強調的挑戰及采取的應對策略。最后,我們討論當前的研究趨勢,并識別潛在的未來機會。

//arxiv.org/abs/2404.06037

圖是一種高維結構,用于模型化實體之間的點對點關系。由于其強大的表示能力,圖廣泛應用于社交網絡分析[26]、道路網絡路由[74]和生物結構預測[22]。隨著近年來信息科學和大數據應用[1, 55]的發展,圖數據集的規模已變得過大,單一機器因其有限的存儲和計算能力而難以應對。為了支持對大規模圖的查詢和分析,研究人員提出了許多分布式圖算法和系統,這些系統將大規模圖分別存儲在多臺機器上并進行協作計算,例如Pregel [116]、Giraph [10]、GraphX [76]和GraphScope [61]。

近年來,關于分布式圖算法的研究激增,重點是開發特定算法如PageRank、標簽傳播和三角形計數,或解決工作調度和機器到機器通信等挑戰。然而,提供該領域全面視角的綜述仍然有限。本文旨在通過整合過去十年在SIGMOD、VLDB、PPoPP、SC、TPDS和TC等知名會議和期刊上發表的關于大規模圖的分布式圖算法的研究,彌合這一差距。我們從這些論文中提煉出四個主要且經常被提及的挑戰: ? 并行性是一個主要目標,需要同時處理多個操作并減少迭代輪數。 ? 負載均衡旨在均勻分配頂點工作并提高計算資源的利用率。這有助于防止某些機器過載而其他機器閑置。 ? 通信是指頂點之間的消息交換,與隨機內存訪問相比,這是一個昂貴的操作。優化通信開銷可以在實際執行中提高效率。 ? 帶寬限制了頂點之間傳輸的消息大小。某些算法需要大量帶寬,這在某些框架中可能不可行。 為了應對這些挑戰,提出了許多開源分布式圖處理框架(例如,Pregel [116]和GPS [137])。這些框架中抽象了通用解決方案(例如,并行循環、消息接收和發送以及廣播)。用戶可以利用高級功能開發圖算法,有效地抽象出底層實現細節的復雜性。然而,由于圖算法的不規則性,這些解決方案高度多樣化,專門為特定算法量身定做,沒有統一模式適合所有圖算法。 此外,現有研究中的分布式圖算法解決了各種圖任務。為了清晰地介紹它們,我們將廣泛研究的圖任務分類為七個主題:中心性、社區檢測、相似性、緊密子圖、遍歷、模式匹配和覆蓋。在本文中,我們首先介紹針對四個挑戰的通用解決方案,然后解析不同算法主題中解決挑戰的研究論文比例。此外,我們深入探討了特定主題中某些挑戰受到不同程度關注的原因。例如,與相似性主題相關的論文中70%集中于減少通信開銷(圖8c)。通過這些分析,我們展示了分布式圖算法研究的深入見解,并提出了未來研究的潛在有前景方向。本文的獨特貢獻是構建了一個綜合圖,如圖1所示,該圖概述了調研材料中的論文、主題、算法、解決方案和挑戰等之間的復雜連接,為該領域的格局提供了視覺敘述。讀者可以通過在線交互工具( 貢獻。現有綜述主要集中于特定的分布式挑戰(例如,負載均衡[92])或特定的分布式算法(例如,模式匹配[23])。然而,我們的綜述針對不同分布式圖算法在考慮不規則計算的情況下所面臨的挑戰。具體來說,我們的主要貢獻如下: ? 我們提供了分布式圖算法中主要挑戰及其解決方案的概述。這為分布式圖處理提供了全面的理解。 ? 我們調研了各種分布式圖算法,并根據它們解決的挑戰將它們分類為七個主題。 ? 對于分布式圖算法的每一個主題,我們進行了現有工作的徹底分析。我們還總結了它們解決的主要挑戰,并提供了對背后原因的獨特見解。本文的其余部分安排如下。第2節回顧了現有的分布式圖系統和計算處理。第3節總結了一些挑戰和解決方案,這些挑戰和解決方案在單機算法中并不常見。第4節詳細描述了流行的分布式圖算法,并突出了它們與單機版本的差異。第5節討論了流行的研究趨勢和潛在的研究機會。第6節總結了這次綜述。分布式圖處理:挑戰與解決方案概述****分布式圖處理能夠通過互聯的計算機處理非常大規模的圖。然而,從單機計算向分布式計算的轉變引入了一些挑戰,這些挑戰源于分布式系統和圖的固有特性,這些特性在設計分布式圖算法時是必須考慮的關鍵因素。在本節中,我們將對分布式圖處理中的固有挑戰進行系統分析(第3.1節)并提供現有解決方案的概述(第3.2節)。

分布式圖處理中的固有挑戰

在一個由多個互聯機器組成的分布式系統中,每臺機器都作為一個獨立的計算單元,這些機器常常分布在不同的地點。如圖2所示,這種設置利用集體的計算力進行高效的數據處理。然而,這也帶來了在計算和網絡資源利用方面的重大挑戰,這些挑戰在分布式圖處理的背景下尤為關鍵。 計算資源效率:分布式系統的特點是其龐大且可擴展的計算資源,這使得系統能夠處理大量圖數據并執行復雜的圖計算。因此,在設計分布式圖算法時,充分利用系統中的計算資源非常重要。與所有指令在單一機器上執行的集中式圖算法不同,分布式圖算法需要多臺機器的協作與合作來完成任務,這帶來了并行性和負載平衡的挑戰。 * 并行性:分布式圖處理中的并行性涉及在不同機器上同時執行多個計算。這種方法需要將較大的圖分析任務劃分為更小、更易管理的子任務。這些子任務隨后在不同機器之間分配,使得它們能夠同時執行。這種策略不僅有助于高效地利用資源,還顯著減少了整體的計算時間,從而提高了圖處理任務的性能。然而,圖分析任務往往呈現出固有的順序依賴性[3, 88, 180],使得在分布式圖算法中實現并行性變得復雜。深刻理解這些任務的基本性質對于識別可以有效并行化的獨立子任務至關重要。這需要仔細分析,以在保持順序依賴性的完整性和優化并行執行之間找到平衡。 * 負載平衡:分布式圖處理中的負載平衡確保計算工作負載在所有機器上均勻分配。負載不均會導致效率低下:一些機器可能迅速完成任務并處于閑置狀態,而其他機器(通常稱為拖后腿者)則在進行持續的計算中,最終延遲整個過程。這種不平衡在分布式圖處理中尤為問題,因為計算的不規則性來自于非均勻[50]的度分布和拓撲不對稱。盡管解決負載不平衡至關重要,但它非常復雜。它不僅需要精確的初始工作負載量化,還需要在運行時進行持續的調整以解決任何不平衡。

網絡資源效率:在分布式系統中,機器通過網絡通信,高效使用網絡資源變得至關重要,尤其是在圖處理中。圖數據的固有復雜性,由復雜的結構和不規則的頂點連接標記,經常需要對單個頂點的操作與多個其他頂點進行互動。這種情況導致頻繁且廣泛的網絡數據交換,尤其是當互聯頂點分布在不同機器上時。因此,在網絡資源效率方面出現了兩個主要挑戰。 * 通信開銷:分布式系統中的通信開銷由消息交換的網絡資源使用定義,主要取決于數據傳輸量。在分布式圖處理中,需要跨機器通信以訪問位于不同機器上的頂點或邊,增加了網絡通信。這些數據交換的低效管理可能導致顯著的網絡擁堵,使網絡通信成為整體計算性能的關鍵瓶頸。因此,管理通信開銷對于優化分布式圖處理的效率和有效性至關重要。 * 帶寬:分布式系統中的帶寬代表每輪消息傳遞中機器之間的最大數據傳輸容量。受到硬件和網絡基礎設施的限制,帶寬不是無限可擴展的。在分布式圖處理中,由于圖中頂點的度分布不均,高度頂點在與鄰居進行廣泛通信[33]時,或同時被許多頂點訪問時(在某些基于隨機游走的算法[109]中很常見),需要高帶寬。此外,低帶寬利用率也是一個挑戰。對于許多任務,如三角形計數、BFS和連通分量,大量的小消息在低度頂點之間傳輸,這些消息只包含有關其鄰居的信息。另一方面,每次使用消息傳遞接口(如MPI)的消息交換都會引入額外的開銷,以報頭信息和握手協議消息的形式出現,從而導致實際有效數據的比例降低,進而導致帶寬資源的低效利用[150]。因此,在分布式圖處理中,有效且高效地優化帶寬利用率是一個挑戰。


解決方案概述

繼第3.1節對分布式圖處理中固有挑戰的分析之后,本節總結了為應對這些挑戰而開發的各種解決方案,特別是在分布式圖處理領域,并提供了第4節中詳細算法常用技術的概覽。3.2.1 計算資源效率優化。本節重點介紹優化計算資源效率的解決方案,包括并行性和負載平衡。優化網絡資源效率。本節重點介紹解決通信開銷和帶寬挑戰的解決方案,關于網絡資源效率。通信開銷:在分布式圖處理中,不同機器的頂點頻繁交換消息,導致了大量的通信開銷。 結論

圖可以很好地表示實體之間的關系。分析和處理大規模圖數據已在許多應用中得到應用,如社交網絡分析、推薦系統和道路網絡路由。分布式圖處理提供了一種在現實世界中高效處理大規模圖數據的解決方案。為了了解分布式環境中圖任務的最新研究并促進其發展,本文進行了一項關于分布式圖任務的廣泛綜述。 我們首先概述了現有的分布式圖處理基礎設施。這些工具促進了分布式算法的設計,但仍然難以克服由分布式系統和圖的固有特性所引起的挑戰。隨后,我們分析并總結了分布式環境中圖任務面臨的主要挑戰及其根據分布式系統和圖的特性提出的相應解決方案。然后,我們提供了主要圖任務的分類,并對它們在分布式環境中的現有努力進行了詳細分析,包括它們關注的挑戰和解決這些挑戰的獨特見解。最后,我們討論了分布式圖處理領域的研究重點和現有的研究空白,并識別了潛在的未來研究機會。

付費5元查看完整內容

黑盒AI模型的激增促使需要解釋其內部機制并證明它們的可靠性,特別是在高風險應用領域,如醫療保健和自動駕駛。由于缺乏可解釋AI(XAI)的嚴格定義,開發了大量與可解釋性、可解讀性和透明度相關的研究,以從不同角度解釋和分析模型。因此,面對一長串的論文,要全面了解XAI研究的所有方面變得具有挑戰性。考慮到神經網絡在AI研究中的流行,我們將關注范圍縮窄到XAI研究的一個特定領域:基于梯度的解釋,這可以直接用于神經網絡模型。在這篇綜述中,我們系統地探索了迄今為止基于梯度的解釋方法,并引入了一個新的分類體系,將它們分為四個不同的類別。然后,我們按時間順序介紹技術細節的精髓,并強調算法的演變。接下來,我們引入人類和量化評估來衡量算法性能。更重要的是,我們展示了XAI的一般挑戰和基于梯度解釋的特定挑戰。我們希望這篇綜述能幫助研究人員理解最新進展及其相應的缺點,這可能會激發他們在未來工作中解決這些問題的興趣。

如今,我們目睹了在各個領域內神經網絡模型的顯著激增,例如,計算機視覺 [28, 43, 54]、自然語言處理 [10, 53, 97]、機器人學 [9, 47] 和醫療保健 [36, 75]。由于它們不透明的決策過程,AI模型可能會對少數民族表現出偏見或做出意外且可能災難性的錯誤。例如,ProPublica報告稱,COMPAS司法系統對非洲裔美國人的被告存在偏見,預測他們重新犯罪的可能性較高 [35]。Ribeiro等人 [70] 觀察到,模型在背景中存在雪的情況下區分狼和哈士奇犬。因此,迫切需要闡明內部過程,理解決策機制,并增強用戶對AI系統的信任。 可解釋AI(XAI)指的是一系列旨在推理和理解模型行為、提供洞見以糾正模型錯誤/偏見,并最終使用戶接受并信任模型預測的技術。根據Guidotti等人 [26] 的分類,如圖1所示,XAI可以被分類為以下方面:先驗解釋和事后解釋。先驗解釋努力開發用戶可以直接理解的透明模型,無需額外的解釋工具,例如,決策樹 [69] 和決策規則 [31]。事后解釋旨在通過利用輸入特征與模型預測之間的關系來解釋訓練過的黑盒模型。事后解釋可以進一步分為模型解釋 [13, 45]、結果解釋 [70, 84] 和模型檢查 [18, 23]。模型解釋涉及使用在全局級別上可解釋和透明的模型來近似黑盒模型的整體邏輯。結果解釋專注于探索特定預測的背后原因,屬于局部級別。模型檢查旨在提供視覺和文本表示,以便于理解模型的工作機制。 在結果解釋中通常采用兩種方法:特征歸因(也稱為特征重要性方法)和反事實解釋。特征歸因直接識別輸入特征對模型輸出的重要性,而反事實解釋探索輸入空間中的最小且有意義的擾動,以回答輸入值的哪些變化可能會影響模型的預測。為了更深入地探索兩種方法之間的聯系,我們引用了Kommiya Mothilal等人的研究 [42]。

1.1 本綜述的目的

由于缺乏一個普遍且嚴格的可解釋AI(XAI)定義,大量與可解釋性、可解讀性、透明度及其他相關概念的研究都屬于XAI領域。在谷歌學術上搜索“可解釋AI”關鍵詞會得到超過200,000個結果,這給在單一出版物內全面闡述XAI的所有方面帶來了巨大挑戰。盡管已有許多關于XAI的綜述文章或書籍章節 [2, 5, 11, 14, 14, 21, 26, 30, 51,58, 73, 85],但大多數僅簡要描述并展示了XAI的某個特定子領域,如基于梯度的特征歸因的早期工作。這種對特定子領域的欠充分探索激勵我們全面概述基于梯度解釋的最新進展。先前的綜述旨在幫助從業者快速掌握XAI的各個方面,而我們的綜述文章深入探討了基于梯度解釋方法的算法細節。通過這樣做,我們的目的是幫助研究人員在更多應用中采用適當的方法,并在這一狹窄領域內促進創新突破。 基于不同的方法論途徑,特征歸因包含以下研究分支:基于擾動的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81, 84]。然而,在本文中,我們專注于基于梯度的方法,出于以下考慮。

梯度的直覺。梯度量化了輸入特征中的無窮小變化如何影響模型預測。因此,我們可以利用梯度及其變體有效地分析特征修改對模型預測結果的影響。

神經網絡的無縫集成。神經網絡在各個領域獲得了極大的流行度和令人印象深刻的性能。在模型訓練后,可以通過反向傳播輕松獲得梯度。因此,基于梯度的解釋能夠直接解釋神經網絡,無需對模型本身進行任何更改。

滿足公理化屬性。由于缺乏真實基準,特征歸因方法可能會產生不同的解釋,這導致了確定哪個解釋更可信的挑戰。基于梯度的解釋是有意設計來滿足某些公理化原則的,例如敏感性和完整性,確保產生合理且期望的解釋。

1.2 我們的貢獻

我們綜述的貢獻總結如下

我們提出了一個新穎的分類體系,系統地將基于梯度的特征歸因分為四組。隨后,我們介紹了每組算法的研究動機和技術細節的要點。

我們全面概述了一系列廣泛接受的評估指標,包括人類評估和客觀指標,使得可以定量和定性地比較各種解釋方法的性能

我們總結了XAI中的一般研究挑戰以及基于梯度解釋特有的特定挑戰,這些挑戰可能會滋養并為未來工作中的潛在改進奠定基礎

付費5元查看完整內容

基于變換器架構的大型模型在人工智能中扮演著越來越重要的角色,特別是在自然語言處理(NLP)和計算機視覺(CV)領域內。模型壓縮方法減少了它們的內存和計算成本,這是在實際設備上實現變換器模型的必要步驟。鑒于變換器的獨特架構,特別是交替注意力機制和前饋神經網絡(FFN)模塊,需要特定的壓縮技術。這些壓縮方法的效率也非常重要,因為通常不現實在整個訓練數據集上重新訓練大型模型。本綜述提供了近期壓縮方法的全面回顧,特別關注它們在變換器模型上的應用。壓縮方法主要分為剪枝、量化、知識蒸餾和高效架構設計四個類別。在每個類別中,我們討論了CV和NLP任務的壓縮方法,強調共同的基本原則。最后,我們深入探討了各種壓縮方法之間的關系,并討論了該領域的進一步方向。

深度神經網絡已成為眾多人工智能應用中不可或缺的部分,其架構涵蓋了多種形式,如多層感知機(MLP)、卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、變換器(Transformers)等。近來,基于變換器的模型已成為各個領域的主流選擇,包括自然語言處理(NLP)和計算機視覺(CV)領域。考慮到它們強大的擴展能力,大多數擁有超過數十億參數的大型模型都是基于變換器架構的,這些模型被視為通用人工智能(AGI)的基礎元素。盡管大型模型展示了顯著的能力,但它們極大的規模對實際開發提出了挑戰。例如,GPT-3模型有1750億參數,大約需要350GB的內存模型存儲空間(float16)。巨大的參數量及其相關的計算開銷要求設備具有極高的內存和計算能力。直接部署這樣的模型將會產生巨大的資源成本,并顯著增加二氧化碳排放。此外,在像手機這樣的邊緣設備上,由于存儲和計算資源有限,這些模型的開發變得不切實際。

模型壓縮是一種有效的策略,用于減輕與變換器模型相關的開發成本。這種方法基于減少冗余的原則,包括多種類別,如剪枝、量化、知識蒸餾、高效架構設計等。網絡剪枝直接移除冗余組件,如塊、注意力頭、FFN層或個別參數。通過采用不同的剪枝粒度和剪枝標準,可以派生出多種子模型。量化通過使用較低位表示模型權重和中間特征來減少開發成本。例如,將全精度模型(float32)量化為8位整數時,內存成本可以減少四分之一。根據計算過程,它可以分為訓練后量化(PTQ)或量化感知訓練(QAT),其中前者只需要有限的訓練成本,對大型模型更有效。知識蒸餾作為一種訓練策略,將知識從大模型(教師)轉移到小模型(學生)。學生通過模擬模型的輸出和中間特征來模仿教師的行為。值得注意的是,對于像GPT-4這樣的高級模型,僅通過APIs訪問,它們生成的指示和解釋也可以指導學生模型的學習。除了從預定義的大型模型獲得模型外,一些方法通過直接減少注意力模塊或FFN模塊的計算復雜性來產生高效的架構。結合不同的方法可以實現極端壓縮。例如,Han等人結合了網絡剪枝、量化和哈夫曼編碼,在傳統的VGGNet上實現了令人印象深刻的49倍壓縮率。關于變換器模型,它們的壓縮策略展示出獨特的特點。與CNN或RNN等其他架構不同,變換器具有獨特的設計,包括替代的注意力和FFN模塊。前者通過計算不同令牌上的注意力圖來捕獲全局信息,而后者分別從每個令牌提取信息。這種特定的架構可以激發針對最優壓縮率的定制壓縮策略。此外,對于這樣的大型模型,壓縮方法的效率尤為重要。由于大型模型的高計算成本,通常無法負擔在原始訓練集上重新訓練整個模型。一些訓練效率高的方法,如訓練后壓縮更受青睞。

在這項綜述中,我們旨在全面調查如何壓縮這些變換器模型(圖1),并且根據量化、知識蒸餾、剪枝、高效架構設計等將方法進行分類。在每個類別中,我們分別調查了NLP和CV領域的壓縮方法。表1總結了主要的壓縮類別,并列出了適合大型變換器模型的代表性方法。盡管NLP和CV通常被視為非常不同的領域,我們觀察到它們的模型壓縮方法實際上共享相似的原則。最后,我們討論了不同壓縮方法之間的關系,并提出了一些未來的研究方向。本文的其余部分組織如下。第2節介紹變換器的基本概念。繼此之后,第3節對保持架構的壓縮方法進行了深入討論,包括量化和知識蒸餾——這些技術保持了模型的架構。第4節進一步探討了保持架構的壓縮,包括剪枝和高效架構設計。第5節探索了額外的變換器壓縮方法。最后,第6節總結了壓縮方法并討論了未來的研究方向。架構保留型壓縮量化是在各種設備上部署變換器的關鍵步驟,尤其是對于設計了專用于低精度算術運算的GPU和NPU。1)訓練后量化(PTQ)[21],[41],[22],[42],[43],[44],[45],主要集中在使用少量未標記的校準數據優化權重和激活的量化參數,一些最新方法還探索了權重量化的自適應舍入。(2) 量化感知訓練(QAT)[46],[47],[48],[49],[50],[51],[23],[52],[53],[54],[55],[56],將量化節點插入網絡并使用完整的訓練數據進行訓練,其中所有的權重和量化參數都一起優化。在本節中,我們系統地介紹了基于變換器的視覺模型和大型語言模型的模型量化研究,如圖2所示。

知識蒸餾(KD)旨在通過壓縮[83],[84],[85]或轉移[87],[88],[86]來自教師網絡的知識來訓練學生網絡。在本文中,我們主要關注旨在實現一個緊湊的學生模型的蒸餾方法,同時保持與笨重的教師模型相比滿意的性能。學生模型通常具有更窄、更淺的架構,使它們更適合在資源有限的系統上部署。

神經網絡剪枝長期以來被認為是一種有效的方法,用于縮小模型大小和加速模型推理。剪枝方法的分類可能相當復雜,包括剪枝和模型訓練的順序、結構規范,以及確定被剪枝參數的方式[133]。然而,在本綜述的范圍內,將源模型限定為針對自然語言處理[134],[4]或視覺識別[12],[26],[135],[136]的預訓練大型變換器,提出了幾種特定的技術類別需要被討論(見圖5)。

結論

在這項綜述中,我們系統地調查了變換器模型的壓縮方法。與傳統模型的壓縮方法相比,壓縮變換器模型時有獨特的考慮因素。與如CNN或RNN等其他架構不同,變換器擁有獨特的架構設計,包括替代的注意力和FFN模塊,這要求專門定制的壓縮方法以獲得最佳壓縮率。此外,這些大型模型的壓縮方法效率尤其關鍵。某些模型壓縮技術需要大量的計算資源,對于如此龐大的模型可能是難以承受的。這項綜述旨在涵蓋與變換器相關的大多數近期工作,并為它們的壓縮制定一個全面的路線圖。隨后,我們深入探討了各種方法之間的相互聯系,解決后續挑戰,并概述了未來研究的方向。

不同壓縮方法之間的關系。不同的壓縮方法可以一起使用,以獲得極其高效的架構。一個傳統的序列是首先定義一個具有高效操作的新架構。然后移除冗余組件(例如,注意力頭,層)以獲得更小的模型。對于實際硬件實現,將權重或激活量化到較低位是必不可少的。所需位數的選擇不僅取決于錯誤的容忍度,還取決于硬件設計。作為一個例子,Int8計算在Nvidia A00上高效優化,但在較老的Tesla P100上缺乏支持。蒸餾通常作為一種訓練策略,在剪枝和量化的微調階段都適用。為了追求極高的壓縮率,探索如何結合不同的壓縮策略是有前景的。盡管在CNN這樣的傳統模型上已經被廣泛探索,但變換器模型具有更復雜的架構和更高的計算成本。通過聯合搜索找到合適的組合策略是具有挑戰性的。

訓練高效的壓縮策略。與壓縮傳統模型相比,更加強調壓縮方法的計算成本。大型變換器目前在使用大量計算資源的大型數據集上進行訓練。例如,Llama2在幾個月內使用數千個GPU在2萬億令牌上進行訓練。在預訓練期間,尤其當原始數據通常無法訪問時,使用可比的計算資源進行微調是不切實際的。因此,在訓練后應用高效的壓縮方法變得更加可行。最初為傳統小模型開發的一系列工作已廣泛研究了訓練后量化,這些方法已無縫過渡到變換器。僅用幾個GPU小時,一些最新的工作GPTQ、SmoothQuant已將FP16模型量化到Int8,而不會造成顯著性能損失。然而,對于較低位(例如,4位),量化模型仍然遭受顯著的性能下降。值得注意的是,極低位模型,如二進制變換器,在傳統小模型中已被廣泛探索,但在大模型的背景下仍然相對未被探索。

對于剪枝,訓練后的挑戰與剪枝粒度密切相關。雖然非結構化稀疏性可以實現高壓縮率并且最小化微調需求,但類似策略難以轉移到結構性剪枝。直接移除整個注意力頭或層將導致模型架構的顯著改變和準確率的顯著降低。如何識別有效權重以及如何有效恢復性能都是洞見方向。識別有效權重和恢復表示能力的高效策略是解決這些挑戰的關鍵研究方向。

超越變換器的高效架構。在現實世界應用中,變換器架構的輸入上下文可以擴展到極長長度,包括NLP中的序列文本(例如,數十萬詞的書)或CV中的高分辨率圖像。原生注意力機制對輸入序列長度的復雜度呈二次方增長,對于長序列輸入構成了顯著的計算挑戰。許多研究通過減輕注意力的計算成本來解決這個問題,采用了稀疏注意力、局部注意力等技術。然而,這些注意力壓縮策略通常會妥協表示能力,導致性能降低。如RWKV和RetNet等新興架構采用類似RNN的遞歸輸出生成,有效地將計算復雜度降低到O(N)。這一發展為進一步探索更高效模型提供了希望。對于計算機視覺任務,即使是不帶注意力模塊的純MLP架構也能達到SOTA性能。超越廣泛使用的變換器架構,通過仔細研究它們的效率、泛化能力和擴展能力,探索新的高效架構是有前景的。

付費5元查看完整內容

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

經典機器學習算法假設訓練數據和測試數據具有相同的輸入特征空間和相同的數據分布。在諸多現實問題中,這一假設往往不能滿足,導致經典機器學習算法失效。領域自適應是一種新的學習范式,其關鍵技術在于通過學習新的特征表達來對齊源域和目標域的數據分布,使得在有標簽源域訓練的模型可以直接遷移到沒有標簽的目標域上,同時不會引起性能的明顯損失。本文介紹領域自適應的定義,分類和代表性算法,重點討論基于度量學習的領域自適應算法和基于對抗學習的領域自適應算法。最后,分析領域自適應的典型應用和存在挑戰,明確領域自適應的發展趨勢,并提出未來可能的研究方向。

付費5元查看完整內容

目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。

付費5元查看完整內容

盡管生成式對抗網絡(GAN)的歷史并不長,但它已被廣泛地研究和用于各種任務,包括其最初的目的,即合成樣品的生成。然而,將GAN用于具有不同神經網絡結構的不同數據類型,由于其在訓練方面的局限性,使得模型很容易出現混亂。這種臭名昭著的GAN訓練是眾所周知的,并已在許多研究中提出。因此,為了使GAN的訓練更加穩定,近年來提出了許多正則化方法。本文綜述了近年來引入的正則化方法,其中大部分是近三年來發表的。具體地說,我們關注的是那些可以被普遍使用的方法,而不管神經網絡體系結構如何。根據其運算原理將其分為若干組,并分析了各方法之間的差異。此外,為了提供使用這些方法的實際知識,我們調研了在最先進的GANs中經常使用的流行方法。此外,我們還討論了現有方法的局限性,并提出了未來的研究方向。

付費5元查看完整內容
北京阿比特科技有限公司