機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。
關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言
視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題:
本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。
2 生成式人工智能
生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法
如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。
強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能
大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發展,深度RL結合了RL和深度神經網絡的優勢,能夠抽象復雜的觀測并學習高效的特征表示【6】。在過去的代表性研究中,它在棋類游戲【7】【8】、電子游戲【9】【10】以及機器人控制【11】–【13】等領域表現出色,甚至在某些情況下超越了人類表現。對于自動駕駛而言,RL使端到端控制成為現實,即從車輛感知到車輛應該做什么的直接轉換,就像人類駕駛員一樣。盡管RL在自動駕駛車輛方面取得了許多顯著成就,大多數相關工作仍是從單個車輛的角度出發,這導致了以自我為中心并可能具有攻擊性的駕駛策略,可能會引發安全事故并降低交通系統的效率。
對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中,所有智能體在共享的環境中做出決策并進行交互。這意味著每個智能體的狀態不僅取決于其自身的行為,還取決于其他智能體的行為,使得環境動態呈現非靜態和時間變化性。此外,根據任務設置,智能體可能相互合作或競爭。在如此復雜的場景中,手動編程預先行動幾乎是不可能的【15】。得益于多智能體強化學習(MARL)的重大進展,交通控制【16】【17】、能源分配【18】【19】、大規模機器人控制【20】【21】以及經濟建模與預測【22】【23】領域均取得了實質性突破。圖1展示了這些相關研究主題的出版物數量。使用Dimensions數據庫進行AI搜索【14】,我們搜索了包括多智能體強化學習、自動駕駛和智能交通在內的關鍵詞。統計結果表明,學術界對這些問題高度關注,相關研究領域正處于快速增長階段。為了加速進一步研究并幫助新研究人員快速入門,我們審閱了200多篇出版物、開源軟件和代碼庫,然后系統地總結了現有成就和最新進展。
在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多綜述【28】–【30】介紹了RL的基本理論和應用,并分析了其發表時最先進的(SoTA)自動駕駛算法,但它們主要關注單智能體學習。綜述【31】的作者首次定義了分層結構的自動駕駛系統,并將其研究范圍限定在局部運動規劃。他們說明了車輛的動力學,并展示了采樣和基于搜索的方法如何在數學上工作。然而,他們忽略了基于學習的方法的貢獻。在最近的運動規劃綜述【2】中,研究人員全面調查了管道和學習方法,包括深度學習、逆向RL和模仿學習以及MARL。同樣,詳細的概述涵蓋了軌跡預測中最新的分類法和方法論【32】。還有一些優秀的綜述總結了AVs的MARL方法【1】【33】【34】。盡管如此,近年來研究人員在理論和應用方面取得了顯著進展,并且在高級機器人模擬器中也取得了進展。作為在線RL訓練的關鍵組成部分,模擬器決定了從模擬到現實的差距,即智能體學習的策略是否可以輕松地轉移到物理機器人上。因此,為了使工程師和研究人員能夠捕捉最新的進展并加速技術進步,我們全面總結了該領域的技術、挑戰和前景。
總體而言,本文的主要貢獻可總結如下:
在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總體來說,隨著大規模數據集和深度學習的發展,自動駕駛已從分層控制邁向數據驅動時代。隨著先進模擬器的出現,基于RL的方法登上了舞臺,隨后新技術如大語言模型帶來了更多的機遇。我們將在后文詳細分析,本文的其余部分組織如下:在第二節中,我們首先描述了基準的指標。我們還分析了最先進的自動駕駛模擬器和數據集的特征。在第三節中,我們回顧了RL和MARL的基本概念、定義和開放問題。在第四節中,我們詳盡介紹了自動駕駛領域最先進的MARL算法。具體而言,我們分析了它們的狀態和動作設置、方法論見解和應用。在第五節中,我們指出了現有挑戰并給出了可能的解決方案。在第六節中,我們捕捉了最新的進展,并提出了朝向更安全和智能的自動駕駛的有前途的方向。
II. 自動駕駛基準
強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。
最先進的方法論
本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習
在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化
考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習
盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習
安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結
如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。
多模態模型被認為是未來人工智能進步的關鍵組成部分。由于基礎模型在自然語言處理 (NLP) 和視覺領域的成功,這一領域正迅速發展,并涌現出大量新的設計元素。人們普遍希望將基礎模型進一步擴展到多種模態(如文本、圖像、視頻、傳感器、時間序列、圖等),最終形成通用的多模態模型,即在不同數據模態和任務之間通用的單一模型。然而,關于最近的多模態模型(尤其是那些超越文本和視覺的模型)的系統性分析研究較少,特別是對于所提出的底層架構。因此,本研究通過一種新穎的架構和訓練配置特定的分類法,提供了關于通用多模態模型(GMMs)的新視角。這包括統一性、模塊化和適應性等對GMMs廣泛采用和應用至關重要的因素。本文綜述進一步強調了該領域的關鍵挑戰和前景,并指導研究人員了解新的進展。
引言
多模態模型是能夠跨越多種數據模態進行學習的深度學習模型。有人推測,這類模型可能是實現人工通用智能(AGI)所必需的一步,因此,機器學習社區對它們的興趣正在迅速增加。多模態學習的最終目標是開發一個可以執行(或輕松適應執行)各種多模態任務的單一模型。一個簡單的多模態例子是一個視覺語言模型,它可以執行單模態任務(如文本生成、圖像分類)和跨模態任務(如文本到圖像檢索或圖像字幕生成),后者需要跨模態的上下文和聯合學習【58】。
在機器學習的發展歷程中,多模態研究一直在積極推進【3, 28, 31, 33, 34, 44, 75, 83】。然而,這些研究偏重于跨模態學習和有限范圍的模態(文本和圖像)。因此,模型架構的設計元素不足以促進向更通用模型的現代研究的平穩過渡。例如,與傳統機器學習(ML)模型不同,基礎模型通過重建大量(通常是未標注的)數據進行訓練,以便在各種下游數據集和任務中表現良好。訓練基礎模型的目標是學習如何提取可在不同領域和應用中重用的通用特征表示。類似地,多模態領域基礎模型的目標是實現跨多種模態和任務的學習,但這些模型受限于對文本和圖像模態的研究重點。
受這些差距的激勵,多模態文獻中引入了一系列新的設計元素【5, 58, 70, 84, 93, 106】。這些大多受NLP和視覺領域的單模態基礎模型成功的啟發。我們將這類新模型稱為通用多模態模型(GMMs)。GMMs可以包括那些能夠跨越研究中最常見的兩種數據類型(文本和圖像)之外的模態運行的模型。更具體地說,模型必須展示跨越多種模態(包括但不限于文本、圖像、語音、音頻、視頻和傳感器)的能力。這一更廣泛的定義捕捉了在不同模態中具有廣泛泛化表示的模型。表1總結了我們對通用多模態模型和典型多模態模型的定義之間的詳細區分。
與標準深度學習模型相比,基礎模型具有多種獨特的屬性,包括大規模預訓練(監督或/和自監督,例如掩碼語言建模【12】)和特殊的微調策略(例如,提示調優、參數高效微調)。這些基礎模型的特性使它們在文本和視覺模態中成為領跑者【96】。這些特性也被引入GMMs,并在多模態學習中顯示出類似的改進。另一方面,多模態學習在架構、訓練策略和評估方面有許多方面,使得GMMs的發展成為一個獨特的研究領域。如圖1所示,GMMs的能力隨著新策略的引入而不斷增長。因此,審視當前GMMs的努力并確定進一步增強GMMs能力的必要屬性具有重要價值。在本綜述中,我們確定了這些新興屬性并進行了全面分析。
盡管已有一些關于多模態學習的綜述論文【1, 20, 43, 51】,但它們存在以下局限:(i)主要處理文本-視覺范式,對其他模態考慮甚少;(ii)僅關注跨模態的數據融合,忽略了其他關鍵因素,如架構設計、預訓練目標以及不斷擴展的多模態任務范圍【17, 62】;(iii)對跨模態學習的關注較多,對單模態方面考慮較少【51】。因此,我們對現有的GMMs(涵蓋文本和視覺以外模態的模型)進行了全面的綜述,結合了各種數據處理、架構和訓練方面的內容。據作者所知,這是第一篇全面回顧GMMs學習最新趨勢的綜述。本文的主要貢獻如下:
從輸入數據到輸出預測的典型GMM架構管道可以分為不同的階段,如下所述,并在圖2中進行了說明。以下小節將更詳細地描述這些不同的階段。
第一個模塊與數據預處理相關,其中來自不同模態的原始數據被轉換為可被通用學習模型消耗的形式。這包括不同的階段,如下所述:
這一過程將文本、音頻、圖像等不同模態轉換為通用的數值格式(也稱為標記)。例如,在文本模態中,輸入文本被解析為標記,每個標記被映射到模型詞匯表中的一個數值ID。在視覺模態中,圖像被調整為固定大小的補丁(例如,在CLIP中為224 x 224像素【65】),并將對應的像素值存儲在數值張量中。在音頻模態中,原始音頻被轉換為頻譜圖表示,然后進一步切分為小的時間/頻率幀。在點云中,"最遠點采樣"(原始點云的代表性骨架采樣)、最近鄰和鄰接矩陣可以定位/簡化輸入數據【103】。這一步的主要目的是為編碼器準備數據。
編碼器在高維空間中獲取輸入標記的數值表示,稱為嵌入。編碼器利用預定義的知識(通過訓練的凍結模型)準確地將輸入標記定位在支持學習的高維語義空間中。對于文本模態,任何在大規模文本語料庫上訓練的語言模型(LLM)都可以作為有效的嵌入模型。CLIP和CLIP-VIT【65】系列模型是編碼視覺信息(包括圖像和視頻幀)的強有力候選者。大型音頻模型如WHISPER【66】用于編碼音頻模態。上述所有編碼器都是特定模態的,通常分別訓練,導致不同編碼器生成的表示(嵌入)之間可能存在差異。IMAGEBIND【19】是一種潛在的解決方案,它學習跨越六種模態(包括圖像、文本、音頻、深度、熱成像和慣性測量單元數據)的聯合嵌入。諸如NEXT-GPT等GMMs利用IMAGEBIND來編碼其輸入模態。此外,最近的GMMs,如META-TRANSFORMER【103】和ONELLM【22】,已經表明,任何經過良好預訓練的Transformer都可以作為通用的跨模態編碼器。
投影將編碼器的表示(嵌入)轉換為通用模型可理解的新空間。通常,LLM被用作通用模型;因此,投影器將原始嵌入轉換為語言空間。雖然序列化、標記化和編碼是標準化的,但投影步驟在不同模型之間有所不同,通常是可訓練的組件。投影可以從簡單的全連接線性層到復雜的卷積操作不等。它還通過交叉注意力和其他精妙機制對齊不同模態特定的表示。
來自輸入預處理模塊的不同模態的統一表示被送入第二個模塊,即通用/主干模型,該模型通過多個神經網絡層在共享語義空間中執行表示學習和推理。在多模態學習中,通常使用預訓練/微調的LLM作為通用模型(例如,OFA中的BART【84】,ONELLM中的LLAMA-2【22】)。這主要有兩個原因:(i)與其他模態不同,語言模型在各種通用任務上已經在大量數據上進行了廣泛訓練,從而形成了一個強大的知識模型;(ii)輸入和輸出交互大多以文本形式進行,因此使用LLM作為核心模型并將其他模態圍繞其對齊是合理的,而不是反過來。
在最后一個模塊中,數據后處理階段將學習到的多模態表示轉換為特定模態/任務的輸出。解碼器利用多模態編碼器表示的豐富融合,生成具有跨模態理解背景的任務特定輸出。對于僅文本輸出,可以利用標準的Transformer解碼器(具有注意力、交叉注意力和多層感知器(MLP)層),共享模型可以接受不同類型的輸入并適應各種任務的文本生成。對于圖像生成,使用擴散解碼器模型如Stable Diffusion(SD)【72】;對于音頻合成,使用AudioLDM【53】。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。
外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。
通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。
本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。
本綜述的貢獻。我們的綜述的主要貢獻包括:
-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。
本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。
生成式人工智能(GenAI)在近年來取得了顯著進展,并在計算機視覺和計算設計等不同領域的各種生成任務中表現出色。許多研究人員嘗試將GenAI集成到可視化框架中,利用其卓越的生成能力來執行不同操作。同時,近期在GenAI領域的重大突破,如擴散模型和大型語言模型,也極大地提升了GenAI4VIS的潛力。 從技術角度來看,本文回顧了以往利用GenAI的可視化研究,并討論了未來研究的挑戰與機遇。具體而言,我們涵蓋了不同類型的GenAI方法在不同可視化任務中的應用,包括序列生成、表格生成、空間生成和圖生成技術,并將這些任務總結為四個主要階段:數據增強、視覺映射生成、風格化和交互。對于每個具體的可視化子任務,我們展示了典型的數據和具體的GenAI算法,旨在提供對最新GenAI4VIS技術及其局限性的深入理解。 此外,基于綜述,我們討論了評估、數據集以及端到端GenAI與生成算法之間差距這三個主要方面的挑戰和研究機會。通過總結不同的生成算法、它們的當前應用及其局限性,本文旨在為未來的GenAI4VIS研究提供有用的見解。
VizDeck [1]。可視化是通過渲染空間或抽象數據的圖形表示來輔助探索性數據分析的過程。最近,許多研究人員嘗試將人工智能(AI)應用于可視化任務[2, 3, 4, 5, 6]。特別是由于可視化本質上涉及對原始數據的表示和交互,許多可視化研究人員開始采用快速發展的生成式人工智能(GenAI)技術,這是一種通過學習現有的人造樣本生成合成內容和數據的AI技術[7, 8]。近幾年,GenAI在人工智能領域嶄露頭角,對各種研究和應用領域如工件設計和交互設計產生了深遠而廣泛的影響(例如[9, 10, 11])。 最近,多模態AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得沒有傳統藝術和設計技能的普通用戶可以通過簡單的文本提示輕松生成高質量的數字繪畫或設計。在自然語言生成方面,大型語言模型如GPT [14]和LLaMa [15]也展示了驚人的對話、推理和知識嵌入能力。在計算機圖形學領域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潛力。GenAI的獨特優勢在于其靈活的能力,可以基于從現實世界數據中隱含獲得的知識進行數據建模和設計生成。這一特性使GenAI成為一種變革力量,能夠減輕傳統計算方法的工作負擔和復雜性,并通過比以往方法更具創意的生成結果擴展設計的多樣性。 GenAI的巨大潛力在其增強和簡化數據可視化過程中的操作能力中尤為明顯。從數據處理到映射階段及其后,GenAI可以在數據推理和增強、自動可視化生成以及圖表問答等任務中發揮關鍵作用。例如,自動可視化生成在當前的GenAI方法浪潮之前一直是研究重點,為非專業用戶提供了一種有效進行數據分析和創建視覺表示的方法(例如[17, 18])。傳統上,自動可視化方法依賴于基于設計原則的專家設計規則[19]。然而,這些方法受到基于知識系統的限制,難以在復雜規則或過于簡化的目標函數中全面整合專家知識[20]。GenAI的出現引入了一種范式轉變,不僅提高了效率,還在一個前所未有的技術進步時代提供了一種更直觀和可訪問的可視化方法。
盡管GenAI表現出色,但在可視化應用中它可能面臨許多挑戰,因為可視化有其獨特的數據結構和分析需求。例如,可視化圖像的生成與自然或藝術圖像的生成有顯著不同。首先,GenAI在可視化任務中的評估比自然圖像生成更復雜,因為需要考慮許多超出圖像相似性的因素,如效率[21]和數據完整性[22]。其次,與在具有簡單注釋的大型數據集上訓練的通用GenAI任務相比,可視化任務的多樣性和復雜性需要更復雜的訓練數據[23],這更難以策劃。第三,傳統可視化管道與強規則約束之間的差距使得與端到端GenAI方法的完全整合變得困難。這些獨特的特性使得利用最新的通用預訓練GenAI模型來實現特定可視化生成變得不那么直接。因此,了解以前的工作如何利用GenAI進行各種可視化應用,面臨的挑戰是什么,尤其是如何調整GenAI方法以適應這些任務是很重要的。
雖然之前的一些綜述涵蓋了AI在可視化中的一般應用[3],但據我們所知,沒有研究專門集中在綜述GenAI方法在可視化中的應用。本文廣泛綜述了文獻并總結了為可視化開發的AI驅動生成方法。我們根據具體任務將各種GenAI方法分類,這些任務對應于可視化生成的不同階段。通過這種方式,我們收集了81篇關于GenAI4VIS的研究論文。我們特別關注在特定任務中使用的不同算法,希望幫助研究人員理解最新技術的發展及其挑戰。我們還討論并突出潛在的研究機會。 本文的結構如下。第二部分概述了我們綜述的范圍和分類,并定義了關鍵概念。從第三部分到第六部分,每一部分對應于GenAI在可視化管道中的一個階段。具體來說,第三部分討論了GenAI在數據增強中的應用。第四部分總結了利用GenAI進行視覺映射生成的工作。第五部分重點介紹了GenAI如何用于風格化和與可視化的交流。第六部分涵蓋了支持用戶交互的GenAI技術。第三至第六部分的每個小節涵蓋了該階段中的一個特定任務。為了全面理解當前GenAI方法如何處理特定結構的數據以及在特定任務中仍然存在的挑戰,小節的結構分為兩部分:數據和算法以及討論。最后,第七部分討論了未來研究的主要挑戰和研究機會。
范圍與分類
范圍與定義
生成式人工智能(GenAI)是一種通過分析訓練樣本,學習其模式和分布,然后創建逼真仿制品的AI技術。GenAI利用生成建模和深度學習(DL)的進步,通過利用現有的文本、圖形、音頻和視頻等媒體,在大規模上生成多樣化的內容[7, 8]。GenAI的一個關鍵特征是通過從數據中學習而不是通過顯式編程來生成新內容。
** GenAI方法分類**
盡管生成目標在文本、代碼、多媒體到3D生成等不同領域有所不同,但生成的具體算法實際上依賴于數據結構,這些數據結構在不同領域中表現出共同的特征。特別是在GenAI4VIS應用中,基于數據結構的分類可以促進對不同可視化任務中涉及的不同類型數據的算法的更具體理解。這里,我們概述了與數據可視化相關的典型數據結構的不同類型GenAI。
為了對收集到的文章進行分類和組織,我們借鑒了描述不同基本階段的經典可視化管道[25]。然而,由于GenAI被應用于不同于傳統操作的更廣泛場景中,我們也修改了該管道以涵蓋一些最新的研究主題,包括數據增強、視覺映射生成、風格化和交互。值得注意的是,數據轉換部分被概括為數據增強的概念,這一術語靈感來自McNabb等人的研究[26]。此外,由于很少有GenAI用于可視化的工作專注于基本視圖轉換,我們將此部分替換為更廣泛的風格化與交流概念。在不同階段下,我們進一步將工作分類為具體任務,如圖1所示。
由于GenAI4VIS的廣泛多樣化應用,不同GenAI方法與任務之間沒有明確的一對一關系。然而,我們可以觀察到一些有趣的關聯。首先,序列生成主要應用于視覺映射或與交互相關的任務。這是因為如翻譯模型和最新的大型語言模型(LLMs)或視覺-語言模型在生成指定視覺映射的代碼序列或交互流程和輸出序列方面非常有用。其次,表格生成主要用于數據增強。這是因為具有屬性列的表格數據是可視化的最常見初始輸入數據,通過數據增強(如代理數據生成)可以為后續任務帶來好處。接下來,圖生成也主要用于數據增強,因為數據推理和增強可以促進圖數據的后續分析。然而,盡管其使用相對較少,它在視覺映射和風格化方面具有巨大潛力,因為圖結構(如知識圖譜或場景圖)可以優化視覺編碼和布局。最后,空間生成主要應用于數據增強和風格化任務。這是因為2D和3D數據(如圖像和體數據)也是VIS4AI和SciVis應用中常見的輸入類型,而將基本圖表修飾為風格化圖表則依賴于基于圖像的生成方法。圖2通過桑基圖展示了GenAI4VIS任務與方法之間的關系,并例示了不同方法涉及的具體數據類型。表1進一步列出了每種數據結構和任務的詳細方法。
圖機器學習(Graph ML)近年來取得了重大進展。由于其在處理圖結構數據方面的顯著能力,圖機器學習技術已被廣泛應用于各種領域,包括金融、醫療和交通等關鍵領域。盡管這些技術帶來了社會效益,但近期研究突顯了廣泛使用圖機器學習模型所帶來的重大安全隱患。這些模型缺乏以安全為中心的設計,可能會產生不可靠的預測、表現出較差的泛化能力,并危及數據機密性。在金融欺詐檢測等高風險場景中,這些漏洞可能會危及個人和社會。因此,優先開發安全導向的圖機器學習模型以減輕這些風險并增強公眾對其應用的信心是至關重要的。在這篇綜述論文中,我們探討了增強圖機器學習安全性的三個關鍵方面:可靠性、泛化能力和機密性。我們將對每個方面的威脅進行分類和分析,分為模型威脅、數據威脅和攻擊威脅三個類別。這一新穎的分類法指導了我們對有效保護策略的審查。我們的系統審查為未來開發實用的、安全導向的圖機器學習模型奠定了基礎。此外,我們強調了安全圖機器學習實踐的重要性,并提出了進一步研究這一關鍵領域的有前景方向。 近年來,圖結構數據在包括藥物發現[15]、交通預測[76]和疾病診斷[96]等廣泛的現實應用中變得越來越普遍。在這些領域中,圖機器學習(Graph ML)在建模這些數據和執行基于圖的預測任務中起著關鍵作用[83],[187]。然而,隨著圖機器學習應用范圍的擴大,人們對其潛在安全問題的擔憂也在加劇[37]。如果這些問題得不到充分解決,可能會產生嚴重影響,尤其是在關鍵決策場景中[203]。例如,在金融欺詐檢測中,圖機器學習模型會分析交易網絡,其中節點代表用戶,邊表示交易[151]。數據分布的變化可能會錯誤地將合法交易標記為欺詐[37]。此外,這些模型還可能對用戶隱私構成風險[124]。這些安全問題都會嚴重削弱人們對金融系統的信任。
盡管社會關注日益增加[147],[183],但對圖機器學習(Graph ML)安全性的全面理解仍在形成中。這種缺乏理解阻礙了研究人員和從業者系統地識別和解決與圖機器學習方法相關的基本安全問題。為了縮小這一差距,我們的綜述旨在解決兩個關鍵問題:(1) 圖機器學習安全問題涉及的主要方面是什么?(2) 在每個方面可能出現哪些具體威脅,以及如何有效應對這些威脅?為了解決第一個問題,我們引入了一種新穎的分類法,有助于對圖機器學習中的安全問題進行全面分類。為了解答第二個問題,我們對在我們分類法中確定的每個方面的潛在威脅及其相應的防護措施進行了系統回顧。
我們現在深入探討第一個問題,確定圖機器學習(Graph ML)安全問題的三個關鍵方面:可靠性、泛化能力和機密性。我們分別討論每個方面如下:
(1) 可靠性:圖機器學習模型經常面臨低質量訓練數據的挑戰,這可能源于數據噪聲[47], [188]或惡意攻擊[13], [49]。在此,我們將可靠性定義為模型即使在面對劣質輸入時也能始終產生高質量輸出的能力。可靠性在圖機器學習任務中高質量訓練數據稀缺時尤為關鍵[6], [11]。例如,在藥物發現中,圖機器學習模型預測新化合物的化學性質,并以分子圖的形式建模[91]。這包括評估毒性以排除有嚴重副作用的藥物[115]。由于實驗驗證成本高昂,高質量的訓練數據標簽難以獲得。因此,在面對低質量數據時保持模型的可靠性對于確保準確預測至關重要[75]。 (2) 泛化能力:泛化能力指圖機器學習模型在各種場景中,尤其是在基礎數據分布發生變化時,仍能表現良好的能力[91]。這在新出現的未見過的圖數據頻繁出現的環境中特別重要[175]。例如,在疫情預防中,準確預測未來感染病例對于有效分配醫療資源至關重要[198]。圖機器學習廣泛用于利用不同地理區域(如縣、市、州或國家)之間的遷移路徑連接的拓撲數據來預測確診病例[145]。然而,疫情通常會在不同地區同步爆發,導致圖機器學習模型的訓練和推理數據來自不同區域[128]。這些模型缺乏泛化能力可能導致預測的感染率與實際情況顯著偏離,可能導致醫療資源的錯誤分配。 (3) 機密性:這一方面側重于保護圖機器學習模型的完整性和其處理的敏感數據的隱私[35], [43]。機密性在處理個人數據的圖機器學習應用中特別重要[203]。例如,圖機器學習廣泛用于管理電子健康記錄(EHR),用于疾病診斷和治療預測等任務[107]。在這些應用中,各種信息(如患者姓名和診斷結果)被互相連接形成異構圖[103]。然而,圖機器學習中的機密性面臨的一個重大挑戰是消息傳遞機制的廣泛使用,這促進了節點之間的信息流動[9], [37], [140]。這個過程可能會無意中讓敏感數據到達惡意節點,導致未經授權實體可能泄露私人信息,從而危及患者隱私[54]。 我們接著通過識別三種類型的威脅來解決第二個問題,這些威脅會損害圖機器學習的安全性,適用于之前討論的所有方面。具體來說,威脅包括:(1) 模型威脅,源于為圖結構設計的固有學習機制,如大多數圖機器學習模型中普遍存在的消息傳遞;(2) 數據威脅,源于圖拓撲中節點之間的復雜相互關系;(3) 攻擊威脅,因圖機器學習模型在面對對抗性攻擊時的脆弱性而發生。在本綜述中,我們旨在全面理解每種威脅類型的起源,并系統概述當前的防護技術以減輕這些風險。 貢獻:在本綜述中,我們對圖機器學習中的安全問題進行了全面調查,并以結構化框架組織了圖機器學習安全的關鍵方面(如圖1所示)。此外,我們概述了每個方面的三種安全威脅,并深入探討了在圖機器學習背景下解決這些問題的具體防護技術。總之,我們的工作對研究社區做出了三項重要貢獻。
圖機器學習安全性的新分類法:我們引入了一種新的分類法來分類圖機器學習中的安全問題,詳細說明了三個核心方面:可靠性、泛化能力和機密性。
威脅與防護措施的全面概述:我們識別了所有安全方面共有的三種不同類型的威脅。在此基礎上,我們進一步探討了針對每種特定威脅的防護技術。
圖機器學習安全性的未來研究潛力:我們探討了在圖機器學習領域提升安全性方面的未解決挑戰和新興機會,旨在激發未來的研究項目。
與其他綜述的比較:已有一些綜述調查了圖機器學習的不同類型的安全問題及其對策[61], [80], [91], [147], [167], [182], [210]。然而,這些綜述通常缺乏對圖機器學習安全性的全面理解。其他相關綜述則側重于一個不同但相關的話題:可信度[37], [203]。大多數這些研究主要關注對抗性攻擊,而通常忽視了專門針對圖機器學習和圖數據的安全問題。與上述工作不同,在本綜述中,我們不僅借助新提出的分類法系統回顧了圖機器學習的更廣泛的安全概念,還詳細闡述了不同類型的威脅及其適當的防護技術。我們在表1中提供了詳細的差異比較。
由于圖數據的復雜性,獲取高質量的訓練數據是一個重大挑戰[47], [49]。當模型在質量較差的數據上訓練時,其性能可能會受到嚴重影響[188]。我們將可靠性定義為模型即使在低質量數據上訓練時也能保持一致性能的能力。缺乏可靠性會使模型面臨噪聲或被篡改數據帶來的風險,可能導致錯誤預測。在決策過程中,這個問題尤為關鍵,因為這種不準確可能導致不可接受的結果[42], [67]。例如,在金融欺詐檢測中,準確識別欺詐交易至關重要。缺乏可靠性的模型可能無法檢測到欺詐活動,或錯誤地將合法交易標記為欺詐,從而導致財務損失。因此,增強圖機器學習模型的可靠性對于確保其在關鍵應用中的安全性和可信賴性至關重要,最終減少錯誤結果的風險[120], [126]。
圖機器學習的可靠性可能從多個角度受到影響。首先,模型在處理不確定數據方面的固有限制可能導致在不熟悉情況下的過度自信預測[65]。與圖像或文本數據不同,圖數據涉及節點之間的復雜交互,這些連接中的不確定性會影響模型預測[226]。其次,訓練數據中的異常情況,例如顯著偏離典型分布的節點和圖,對模型性能和可靠性構成重大威脅[6], [47]。由于圖機器學習模型從相鄰節點聚合信息,異常節點可能影響整個圖中學習到的表示,進而影響整體模型可靠性。第三,毒化攻擊涉及將惡意構造的數據插入訓練集以破壞模型的可靠性[93]。在圖拓撲中,攻擊者可以操縱少數節點以不利地影響其他遠處節點,使這些攻擊特別難以檢測[80]。
大多數現有的圖機器學習模型是基于推理時的數據分布與訓練時相同的假設而開發的[91]。然而,由于圖數據結構的復雜性,這一假設在實踐中常常不成立。因此,泛化能力——即在不同數據分布中保持模型性能一致的能力——對于圖機器學習模型的安全部署至關重要。例如,在藥物發現中,圖機器學習模型通常負責預測新藥的毒性,這些新藥可能與訓練數據分布顯著不同。未能有效地泛化到這些新藥會導致不可靠的預測,從而可能危及醫療治療的開發[30], [63]。
盡管泛化能力對于確保圖機器學習模型的安全性至關重要,但實現一致模型泛化能力的過程中存在各種威脅。首先,模型本身的威脅源于其設計中的固有限制,導致模型可能無法有效適應訓練過程中遇到的目標(未標記)分布[111], [222]。當訓練涉及來自不同分布的數據時,設計增強泛化能力的模型對于圖機器學習模型的廣泛應用至關重要[110]。其次,數據威脅源于在訓練過程中未曾見過的數據分布,可能會削弱圖機器學習模型在新場景中的表現[92]。由于在訓練過程中無法觀測到目標分布,圖機器學習模型在有限數據的情況下提升泛化能力變得具有挑戰性。第三,規避攻擊對圖機器學習模型的泛化能力構成重大威脅。這些攻擊在推理過程中故意操縱輸入數據以引發預測錯誤并損害模型安全性[52], [98]。這些威脅從多個角度損害模型的泛化能力,因此需要量身定制的防護技術來解決這些問題。下文中,我們介紹了一些增強圖機器學習模型泛化能力的策略。
在圖機器學習(Graph ML)中,保密性包括對數據、模型預測和模型本身的敏感信息的保護【122】。這種保護對于確保用戶隱私和滿足法律合規性要求至關重要【183】。例如,在使用圖機器學習模型進行社交網絡用戶分類時,必須防止在訓練和推理階段無意泄露用戶信息【22】。
在這里,我們介紹如圖4所示的三種保密性威脅。首先,模型威脅來源于模型固有的設計缺陷,這些缺陷可能通過模型的預測或架構泄露敏感信息,從而引發隱私問題【169】。這一問題在基于圖的模型中特別明顯,因為消息傳遞機制可能無意中暴露來自鄰近節點的敏感信息【22】【41】【141】。其次,當訓練數據分布在多個源時,數據威脅會出現,可能導致敏感信息的無意曝光【70】。鑒于圖數據的結構性,確保每個數據源的保密性是一項重大挑戰【5】【87】。第三,攻擊威脅直接通過未經授權的模型克隆或功能克隆危害模型的保密性【185】。這不僅侵犯了隱私,還違反了知識產權,因為被復制的模型可能會在未經許可的情況下被使用或出售【43】【166】。
結論
在這篇綜述中,我們對快速發展的圖機器學習(Graph ML)領域的安全性進行了全面回顧。由于安全問題日益加劇,這一主題正受到越來越多的關注。我們對Graph ML應用中的三個關鍵安全方面進行了結構化分析:可靠性、可推廣性和保密性。為了增強安全性,我們將每個方面的威脅分類為三種主要類型:數據威脅、模型威脅和攻擊威脅,每種威脅都對Graph ML模型的安全性提出了獨特的挑戰。對于每個識別出的威脅,我們詳細介紹了具體的解決方案,提供了應對這些安全挑戰的研究努力的詳盡匯編。我們的討論將這些見解綜合成一個統一的框架,旨在加深對Graph ML安全性考慮的理解,并引導未來在這一重要領域的研究。此外,我們還強調了實際應用并提出了未來研究的方向。通過這篇綜述,我們的目標不僅是總結現有的Graph ML安全研究,還希望鼓勵進一步的研究,以確保Graph ML技術能夠安全地開發和實施。
大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。
大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。
天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。
為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。
近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。
在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。
近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。
圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。
2 視覺-語言模型(VLM)
在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。
比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向
預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。
4 結論
本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。
終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向。
傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。
在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。
1 終身學習的定義
終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。
2 終身學習方法的分類
計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。
3 終身學習的其他應用
終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。
4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言
在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。
盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。
**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:
**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。
安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。
**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。
**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。
具體而言,我們的貢獻總結如下:
據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。
創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。
3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。
在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。
這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。