亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Multimodal Large Language Model (MLLM) 最近已成為新興的研究熱點,它使用強大的大型語言模型 (LLMs) 作為大腦來執行多模態任務。MLLM 的令人驚訝的涌現能力,比如基于圖像編寫故事和無需 OCR 的數學推理,是傳統方法中很少見的,這暗示著通向人工通用智能的潛在途徑。在本文中,我們的目標是追蹤和總結 MLLM 的最新進展。首先,我們介紹 MLLM 的構造并描述其相關概念。然后,我們討論關鍵技術和應用,包括多模態指令微調(M-IT)、多模態上下文學習(M-ICL)、多模態思維鏈(M-CoT)和 LLM 輔助視覺推理(LAVR)。最后,我們討論現存的挑戰并指出有前途的研究方向。鑒于 MLLM 時代剛剛開始,我們將繼續更新這篇綜述,并希望它能激發更多的研究。一個收集最新論文的相關 GitHub 鏈接可在 //github.com/BradyFU/AwesomeMultimodal-Large-Language-Models 找到。

近年來,大型語言模型取得了顯著的進步[1-4]。通過擴大數據規模和模型規模,這些大型語言模型展現出了驚人的新能力,典型的包括上下文學習(In-Context Learning, ICL)[5]、指令執行[4, 6]和思維鏈(Chain of Thought, CoT)[7]。盡管大型語言模型在大多數自然語言處理(NLP)任務上展示出驚人的零樣本/少樣本推理能力,但由于它們只能理解離散文本,因此在本質上對視覺是“盲目的”。與此同時,大型視覺基礎模型在感知方面取得了迅猛的進步[8-10],而它們與文本的傳統結合在更多地關注模態對齊[11]和任務統一[12],在推理方面的發展較為緩慢

鑒于這種互補性,單模態的大型語言模型和視覺模型同時朝著彼此靠攏,最終催生出多模態大型語言模型(MLLM)這個新領域。正式地說,它指的是具有接收和處理多模態信息能力的基于大型語言模型的模型。從發展通用人工智能(AGI)的角度來看,MLLM相較于LLM可能是一個進步,原因如下:(1)** MLLM更符合人類感知世界的方式**。我們人類天然地接收多種感官輸入,這些輸入通常是互補且協同的。因此,多模態信息有望使MLLM更加智能。(2) MLLM提供了更加用戶友好的界面。由于支持多模態輸入,用戶可以以更加靈活的方式與智能助手進行互動和溝通。(3) MLLM是更加全面的任務解決者。雖然LLM通常可以執行NLP任務,但MLLM通常可以支持更廣泛的任務。

GPT-4 [2] 通過展示驚人的示例點燃了關于MLLM的研究熱潮。然而,GPT-4并沒有開放多模態接口,到目前為止也沒有關于該模型的信息公之于眾。盡管如此,研究界還是做出了很多努力來開發有能力的、開源的MLLM,并展示了一些令人驚訝的實用能力,比如根據圖像編寫網站代碼[13],理解一個梗圖的深層含義[14],以及無需OCR的數學推理[15]。我們撰寫這篇綜述,以向研究人員提供MLLM的基本概念、主要方法和當前進展的了解。請注意,我們主要關注視覺和語言模態,但也包括涉及其他模態的工作。具體而言,我們將現有的MLLM分為四種類型,并附上相應的總結,同時開設一個GitHub頁面,該頁面將實時更新。據我們所知,這是關于MLLM的第一篇綜述。

本文將近期代表性的MLLM分為四個主要類型多模態指令微調(MIT),多模態上下文學習(M-ICL),多模態思維鏈(M-CoT)和LLM輔助視覺推理(LAVR)。前三者構成了MLLM的基礎,而最后一個是以LLM為核心的多模態系統。請注意,這三種技術相對獨立,并且可以組合使用。因此,我們對某一概念的說明可能也涉及其他內容。我們按照這四個主要類別組織本文,并依次介紹它們。我們首先詳細介紹M-IT(第3.1節),以揭示在架構和數據兩個方面,LLM如何適應多模態。然后,我們介紹M-ICL(第3.2節),這是一種常用于推理階段以提升少樣本性能的有效技術。另一個重要的技術是M-CoT(第3.3節),通常用于復雜的推理任務。之后,我們進一步總結LLM在LAVR(第3.4節)中主要扮演的幾個角色,這通常涉及這三種技術。最后,我們以總結和潛在的研究方向結束我們的綜述。

2. 方法

2.1. 多模態指令微調

指令是對任務的描述。指令微調是一種技術,涉及在一系列指令格式的數據集[16]上對預訓練的大型語言模型進行微調。通過這種方式調整,LLM可以通過遵循新的指令來泛化到未見過的任務,從而提升零樣本性能。這個簡單而有效的想法引發了后續在NLP領域的成功作品,如ChatGPT [1]、InstructGPT [17]、FLAN [16, 18]和OPT-IML [19]。圖1說明了指令微調與相關典型學習范例之間的比較。監督微調方法通常需要大量特定任務的數據來訓練特定任務的模型。提示方法減少了對大規模數據的依賴,并可以通過提示工程完成專門的任務。在這種情況下,盡管少樣本性能得到改善,但零樣本性能仍然相當一般[5]。不同的是,指令調整學習如何泛化到未見過的任務,而不是像兩個對應方法那樣適應特定任務。此外,指令調整與多任務提示[20]高度相關。

相比之下,傳統的多模態模型仍然局限于前兩種調整范式,缺乏零樣本能力。因此,許多近期的研究[13, 21, 22]已經探討了如何將LLM中指令微調的成功應用擴展到多模態。為了從單模態擴展到多模態,對數據和模型都需要進行相應的調整。對于數據,研究人員通常通過調整現有的基準數據集[23-28]或通過自我指導[13,21,29]來獲取M-IT數據集。對于模型,一種常見的方法是將外部模態的信息注入到LLM中,并將它們視為強大的推理器。相關工作要么直接將外部嵌入與LLM對齊[21, 23-25, 27, 28, 30-32],要么求助于專家模型將外部模態轉換為LLM能夠處理的自然語言[33, 34]。以這種方式構建,這些工作通過多模態指令微調將LLM轉變為多模態聊天機器人[13, 21, 22, 33, 35]和多模態通用任務解決器[23, 24, 26]。 在本節的后續部分,我們首先提供基礎知識(第3.1.2節)。在轉向M-IT的描述之前,我們還額外介紹了在M-IT之前的常見過程,即對齊預訓練(第3.1.3節)。然后,我們按照圖2所示的結構安排剩余的內容:我們首先介紹如何收集M-IT數據(第3.1.4節),然后詳細討論MLLM的模型適應,即彌合不同模態之間差距的各種方式(第3.1.5節)。最后,我們介紹評估指令調整后的MLLM的評估方法(第3.1.6節)。

2.2. 多模態上下文中學習

ICL(In-Context Learning,上下文中學習)是LLM的重要能力之一。ICL有兩個優點:(1) 與從大量數據中學習隱含模式的傳統監督學習范式不同,ICL的關鍵是通過類比學習[74]。具體來說,在ICL設置中,LLM通過少量示例以及可選的指令學習,并對新問題進行外推,從而以少樣本的方式解決復雜和未見過的任務[14, 75, 76]。 (2) ICL通常以無需訓練的方式實現[74],因此可以靈活地在推理階段集成到不同的框架中。與ICL密切相關的技術是指令微調(見第3.1節),經驗證明可以增強ICL能力[16]。在MLLM的背景下,ICL已擴展到更多模態,從而形成多模態ICL(M-ICL)。在(第3.1.2節)中的設置基礎上,在推理時,可以通過添加演示集,即一組上下文樣本,來實現M-ICL。在這種情況下,模板可以擴展為表3所示。注意,我們列出了兩個上下文示例作為說明,但示例的數量和順序可以靈活調整。實際上,模型通常對示例的排列敏感[74, 77]。在多模態應用方面,M-ICL主要用于兩種場景:(1) 解決各種視覺推理任務[14, 27, 63, 78, 79];(2) 教LLM使用外部工具[75, 76, 80]。前者通常涉及從少量特定任務的示例中學習,并推廣到新的但相似的問題。從指令和演示中提供的信息中,LLM了解任務的內容和輸出模板,并最終生成預期答案。相比之下,工具使用的示例通常僅為文本,并且更加細致。它們通常包括一系列可以按順序執行以完成任務的步驟。因此,第二種情況與CoT(見第3.3節)密切相關。

2.3. 多模態思維鏈條

正如開創性工作[7]所指出的,CoT(Chain of Thought,思維鏈條)是“一系列中間推理步驟”,已被證明在復雜推理任務中是有效的[7, 87, 88]。CoT的主要思想是提示LLM不僅輸出最終答案,而且輸出通往答案的推理過程,類似于人類的認知過程。受NLP中的成功啟發,已經提出了多項工作[81, 82, 85, 86],將單模態CoT擴展到多模態CoT(M-CoT)。我們總結這些工作如圖3所示。首先,與M-IT的情況類似(見§3.1節),需要填補模態間的差距(§3.3.1節)。然后,我們介紹獲取M-CoT能力的不同范例(§3.3.2節)。最后,我們詳細描述M-CoT的更具體方面,包括配置(§3.3.3節)和鏈條的構建(§3.3.4節)。

2.4. LLM輔助的視覺推理

受到工具增強LLM的成功啟發[95-98],一些研究探索了調用外部工具[14, 34, 75, 76]或視覺基礎模型[14, 83, 84, 91, 92, 99]來進行視覺推理任務的可能性。這些工作以LLM作為擔任不同角色的助手,構建特定任務[84, 90, 93]或通用目的[14, 75, 76, 80, 83]的視覺推理系統。與傳統的視覺推理模型[100-102]相比,這些工作表現出幾個優點:(1) 強大的泛化能力。這些系統配備了從大規模預訓練中學到的豐富的開放世界知識,可以輕松地泛化到未見過的對象或概念,并具有顯著的零/少示例性能[75, 76, 90, 91, 93, 94]。(2) 新興的能力。在LLM的強大推理能力和豐富知識的幫助下,這些系統能夠執行復雜任務。例如,給定一張圖片,MM-REACT[14]可以解釋其背后的意義,比如解釋為什么一個梗圖是有趣的。(3) 更好的交互性和控制。傳統模型通常只允許一套有限的控制機制,并且通常需要昂貴的精心策劃的數據集[103,104]。相比之下,基于LLM的系統能夠在用戶友好的界面(如點擊和自然語言查詢)中進行精細控制[84]。

接下來的部分按照圖4所示進行組織:我們首先介紹在構建LLM輔助視覺推理系統中使用的不同訓練范例(§3.4.2節)。隨后,我們深入探討LLM在這些系統中扮演的主要角色(§3.4.3節)。最后,我們以各種類型的性能評估來結束我們的討論。

3. 挑戰和未來方向

MLLM的發展仍處于初級階段,因此有很多改進的空間,我們在下面進行總結:

? 當前的MLLM在感知能力上仍然受限,導致不完整或錯誤的視覺信息獲取[13, 73]。這可能是由于信息容量和計算負擔之間的妥協。更具體地說,Q-Former[64]只使用32個可學習的令牌來表示圖像,這可能導致信息丟失。然而,增加令牌大小不可避免地會給LLM帶來更大的計算負擔,因為其輸入長度通常是有限的。一種潛在的方法是引入大型視覺基礎模型,如SAM[8],以更有效地壓縮視覺信息[21, 29]。

? MLLM的推理鏈可能是脆弱的。例如,Fu等人[73]發現,在一個數學計算的案例中,盡管MLLM計算出正確的結果,但由于推理中斷,它仍然給出錯誤的答案。這表明,單模態LLM的推理能力可能不等于接收視覺信息后的LLM的推理能力。改進多模態推理的主題值得研究。

?** MLLM的遵循指示能力需要升級**。在M-IT之后,一些MLLM無法生成預期的答案(“是”或“否”),盡管有明確的指示,“請回答是或否”[73]。這表明,指令微調可能需要涵蓋更多任務以提高泛化能力。

? 對象幻覺問題很普遍[13, 44],這在很大程度上影響了MLLM的可靠性。這可能歸因于對齊預訓練不足[13]。因此,一種可能的解決方案是在視覺和文本模態之間進行更細粒度的對齊。細粒度是指圖像的局部特征,可以通過SAM獲得[21,29],以及相應的局部文本描述。

? 需要參數高效的訓練。現有的兩種模態橋接方式,即可學習的接口和專家模型,都是減少計算負擔的初步探索。更高效的訓練方法可能會在有限的計算資源下解鎖MLLM的更多潛力。

4. 結論

在本文中,我們對現有的MLLM文獻進行了調研,并提供了其主要方向的廣泛視角,包括三種常見技術(M-IT, M-ICL, 和 M-CoT)以及構建任務解決系統的通用框架(LAVR)。此外,我們強調了需要填補的當前研究差距,并指出了一些有前景的研究方向。我們希望這篇綜述能為讀者提供MLLM當前進展的清晰畫面,并激發更多的工作。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

Transformers在自然語言處理、計算機視覺和機器人技術等領域產生了深遠影響,相比于其他神經網絡,它們在這些領域的表現更加優秀。這篇調研報告將探索Transformer模型在強化學習(RL)中的應用,它們被視為應對不穩定的訓練、信用分配、解釋性不足和部分可觀察性等挑戰的有力解決方案。我們首先簡要概述強化學習領域,接著討論經典強化學習算法面臨的挑戰。然后,我們深入探討Transformer及其變體的屬性,并討論這些特性如何適應解決RL中固有的挑戰。我們研究了Transformer在RL的各個方面的應用,包括表示學習、轉換和獎勵函數建模,以及策略優化。我們還討論了最近旨在提高Transformer在RL中解釋性和效率的研究,包括可視化技術和有效的訓練策略。通常,Transformer的架構必須根據給定應用的特定需求進行定制。我們為如何將Transformer適應于機器人技術、醫學、語言建模、云計算和組合優化等多種應用,提供了一個廣泛的概述。最后,我們討論了在RL中使用Transformer的局限性,并評估了它們在此領域催化未來突破的潛力。

強化學習(RL)是一種學習范式,它通過從試錯過程中獲得的反饋來實現序列決策。它通常被形式化為馬爾可夫決策過程(MDP),該過程為建模代理和環境之間的互動提供了數學框架。大多數RL算法優化代理的策略,選擇能夠最大化預期累積獎勵的動作。在深度RL中,神經網絡被用作函數近似器,用于將環境的當前狀態映射到下一個動作,并估計未來的回報。當處理大型或連續狀態空間時,這種方法非常有益,因為這會使表格方法的計算成本變得過高[169],并且在挑戰性的應用中已經取得了成功[6, 90, 133]。然而,像卷積神經網絡(CNNs)和循環神經網絡(RNNs)這樣的標準神經網絡架構在處理RL中的長期問題上存在困難。這些問題包括部分可觀察性[37],處理高維狀態和動作空間的能力不足[10],以及處理長期依賴性的困難[22]。

在強化學習(RL)中,部分可觀察性是一個挑戰[104];在缺乏完整信息的情況下,代理可能無法做出最優決策。解決這個問題的典型方法是使用卷積神經網絡(CNNs)和循環神經網絡(RNNs)對代理的輸入進行整合[160]。然而,RNNs傾向于忘記信息[142],而CNNs在處理過去時間步長方面的能力有限[75]。人們提出了各種策略來克服這個限制,包括門控機制、梯度裁剪、非飽和激活函數和操縱梯度傳播路徑[151]。有時候,人們會組合使用不同的數據模態,比如文本、音頻和圖像,為代理提供額外的信息[19, 89, 167]。然而,集成不同模態的編碼器增加了模型的結構復雜性。在CNNs和RNNs中,也很難確定哪些過去的行動對當前的獎勵有貢獻[112]。這就是所謂的信用分配問題。這些挑戰以及其他問題,如訓練不穩定性,限制了大多數RL應用的范圍,使得它們僅限于不切實際的虛擬環境。Transformer首次在2017年提出[174],并迅速對深度學習領域產生了影響[99],改進了自然語言處理(NLP)和計算機視覺(CV)任務的最新技術水平[33, 79, 144, 173, 217]。這種神經網絡架構背后的關鍵思想是使用自我關注機制來捕捉數據中的長距離關系。這種在序列中模擬大規模上下文的能力,最初使得Transformer非常適合機器翻譯任務。此后,Transformer已經被改進,用來處理更復雜的任務,如圖像分割[144]、視覺問題回答[217]和語音識別[34]。

本文調研了在強化學習(RL)中使用Transformer的情況。我們首先為具有機器學習一般背景的讀者提供了對RL(第2.1節)和Transformer(第2.3節)的簡潔概述。我們強調了經典RL方法面臨的挑戰以及Transformer如何幫助解決這些挑戰(第2.2節和2.4節)。Transformer可以以不同的方式應用于RL(圖1)。我們討論了如何使用它們來學習表示(第3節),模型轉換功能(第4節),學習獎勵函數(第5節)以及學習策略(第6節)。在第7節和第8節中,我們討論了不同的訓練和解釋策略,而在第9節中,我們概述了使用Transformer的RL應用,包括機器人技術、醫學、語言建模、邊緣-云計算、組合優化、環境科學、調度、交易和超參數優化。最后,我們討論了限制和未來研究的開放問題(第10節)。通過這項工作,我們旨在激發更多的研究,并促進RL方法在實際應用中的發展。

這篇綜述探討了在強化學習(RL)中Transformer的多種用途,包括表征學習、獎勵建模、轉換函數建模和策略學習。盡管原始的Transformer架構存在限制,但它可以被修改以適應許多RL應用。我們展示了Transformer的進步,這些進步擴大了RL應用到機器人技術、藥物發現、股票交易和云計算等實際問題的范圍。最后,我們討論了RL中Transformer的當前限制和這個領域的正在進行的研究。考慮到它在處理部分可觀察性、信用分配、可解釋性和不穩定訓練等問題上的多樣性——這些問題在傳統RL中常常遇到——我們預計Transformer架構將在RL領域繼續受到歡迎。

付費5元查看完整內容

如何讓模型適配專業領域?這篇文章夠了

大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。

在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:

? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,

1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。

2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。

3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。

3 LLM領域專業化的應用

在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:

? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。

4. 結論

總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

ChatGPT和GPT-4的顯著成就引發了對大型語言模型在通用人工智能(AGI)領域的研究和關注。這些模型為我們提供了更接近人類思維的智能解決方案,使我們能夠使用通用人工智能來解決各種應用中的問題。然而,在遙感領域,關于AGI實施的科學文獻相對較少。現有的與AI相關的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。這正是視覺-語言模型的優勢所在,因為它們可以推理關于圖像及其關聯文本描述的信息,從而更深入地理解基礎語義。視覺-語言模型可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。本文對遙感領域的視覺-語言模型研究進行了全面的回顧,總結了最新的進展,突出了當前的挑戰,并指出了潛在的研究機會。具體來說,我們回顧了視覺-語言模型在幾個主流遙感任務中的應用,包括圖像描述,基于文本的圖像生成,基于文本的圖像檢索,視覺問題回答,場景分類,語義分割和對象檢測。對于每個任務,我們簡要描述了任務背景并回顧了一些代表性的工作。最后,我們總結了現有工作的局限性,并提供了一些未來發展的可能方向。本回顧旨在為遙感領域的視覺-語言模型研究的當前狀態提供全面的概述,并激發對這一激動人心且重要領域的進一步研究。

1. 引言

深度學習已經成為遙感(RS)應用的強大工具。早期的遙感工作主要側重于使用從圖像中提取的視覺特征來執行各種任務,例如物體檢測、語義分割、土地覆蓋分類和變化檢測。作為最常用的深度學習方法之一,卷積神經網絡(CNNs)可以自動學習遙感圖像的分層表示,使它們能夠捕獲局部和全局的空間特征和模式。此外,注意力機制已被整合進深度學習模型,通過讓模型關注輸入的特定區域來提高其在遙感任務中的表現。由于深度神經網絡強大的特征學習能力,深度學習模型在各種遙感任務中的有效性得到了證明,與傳統的機器學習方法相比,它們達到了最先進的性能。然而,現有的基于深度學習的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。例如,在進行土地覆蓋分類時,如果只有視覺的模型可能會把一個像高速公路的建筑物屋頂像素分類為高速公路。這是因為模型缺乏高速公路不能在建筑物屋頂內的一般知識。 近年來,大型語言模型(LLMs)在自然語言處理(NLP)和計算機視覺領域成為了熱門的研究話題。這些模型構建了大規模的視覺和自然語言理解轉換網絡,并在各種語言理解任務中取得了最先進的性能,例如語言建模、文本生成和問題回答[115]。值得注意的是,ChatGPT的顯著成就在通用人工智能(AGI)領域的大型語言模型研究中引發了一波關注和研究。預期這些模型在圖像理解和自然語言處理方面將會有更多的進步,他們有望將語言理解的水平提升到前所未有的水平。大型語言模型的巨大成功鼓勵了大量的視覺-語言模型(VLMs)研究。

視覺-語言模型(VLMs)通常被定義為一類結合了計算機視覺和自然語言處理技術的人工智能模型,它們能夠生成對視覺和文本信息的全面理解。通過共同識別視覺和語義模式及其關系,VLMs可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。更重要的是,通過將視覺模型與具有一般推理能力的大型語言模型(LLMs)結合,VLMs提供了一種更全面和類人的方法來理解視覺內容。近年來,VLMs在各種計算機視覺任務中展示了令人印象深刻的結果,包括圖像理解[19],[198],視覺問題回答[75],[74],文本到圖像生成[125],語義分割[20],[187],對象檢測[183],[99]等。 在遙感中,使用VLMs是一個相對新的研究領域。隨著與遙感數據相關的文本元數據的日益增多,研究人員已經開始探索在這個領域使用視覺和語言模型[147]。近年來,一些早期的嘗試試圖探索VLMs用于各種遙感數據分析任務,包括遙感圖像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遙感圖像生成[10],[18],[189],[48],[168],基于文本的遙感圖像檢索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],視覺問題回答[96],[192],[192],[15],[15],[3],[9],[174],[175],場景分類[72],[136],[113],[150],[86],語義分割[20],[187],對象檢測[58],[183],[99]等。隨著大規模遙感數據集的可用性增加和深度學習技術的進步,預計視覺和語言模型的使用將在遙感應用的未來中發揮重要作用。

在這項研究中,我們提供了一項全面的綜述,從視覺到語言,再到視覺-語言模型(VLMs)在遙感(RS)中模型的演變。具體來說,我們對近期在遙感領域VLMs的進展進行了廣泛的文獻調研。此外,我們為遙感應用領域VLMs的未來研究方向提供了有價值的見解和建議。我們的工作有助于更好地理解VLMs的當前最新水平,并為這個領域的研究人員提供了探索這些模型在遙感任務中潛力的指導。

遙感中的視覺-語言模型

A. 基礎模型

基礎模型指的是在大量數據上以任務無關的方式預訓練的大型深度學習神經網絡。這些模型可以通過微調、少樣本學習或零樣本學習應用于各種下游任務。基礎模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。這些模型已經在大量文本數據上進行了預訓練,并能夠為各種NLP任務進行微調,如語言翻譯、問答和文本分類。在遙感(RS)中,預訓練對于提高分類、檢測和分割任務的性能至關重要[165]。以前的方法主要利用ImageNet數據集進行預訓練。然而,將ImageNet預訓練模型轉移到RS任務會因自然圖像和RS圖像之間的巨大差異而產生巨大的領域差距。因此,設計一個針對RS數據的基礎模型是必要的。研究人員使用兩種方法來達到這個目標:監督學習和自我監督學習。在監督學習中,[152]在MillionAID數據集上預訓練了深度神經網絡,這是一個大規模的RS數據集,并提高了這些模型在RS數據集上的性能。然而,需要大量標注數據仍然是一個障礙,因為它可能阻礙更大模型的訓練。因此,自我監督技術逐漸成為開發遙感基礎模型的主要方法,因為它們可以利用大量的未標注數據[157]。一些工作[2],[79],[6],[105],[47]采用對比學習訓練基礎模型,加入RS特定信息,如地理數據、時間序列數據、音頻數據等。

最近,遮蔽圖像建模(MIM)在計算機視覺中越來越受到關注,如BEiT [8],MAE [45],SimMIM [164],因為它消除了對額外信息、數據增強和正負對選擇的需要。因此,利用大量數據變得更容易。一些工作將MIM應用于開發RS基礎模型。例如,[137]從衛星和航空平臺收集了200萬張RS圖像,創建了一個大規模的RS數據集。基于這個數據集,他們設計了第一個生成自監督RS基礎模型,RingMo。RingMo在包括變化檢測、場景識別、對象檢測和語義分割在內的四個下游任務的八個數據集上取得了最新的成果。[153]首次嘗試構建一個具有大約1億參數的簡單視覺變換器,用于定制RS任務的大型視覺基礎模型。方法概述如圖7所示。他們還引入了一個旋轉的可變大小窗口注意機制,以增強視覺變換器適應RS圖像的能力。[106]發現在構建地理空間基礎模型時,應該考慮到在多樣化數據集上預訓練的模型,例如ImageNet-22k,因為它們的表現仍然有效。因此,他們以可持續的方式構建了一個用于地理空間應用的地理空間基礎模型。[14]開發了RS領域的第一個十億規模的基礎模型,并證明了將模型的大小從百萬規模增加到十億規模的效果。

B. 遙感圖像描述

遙感圖像描述(RSIC)是一項復雜的任務,需要機器理解遙感(RS)圖像的內容并用自然語言進行描述。這是一個具有挑戰性的任務,因為生成的描述不僅必須捕捉到不同規模的地面元素,還必須描述出它們的屬性以及它們之間的相互關系。與其它旨在預測單個標簽或單詞的任務不同,RSIC旨在生成全面的句子。為了生成簡潔而有意義的句子描述,重要的是要識別并識別出不同級別的地面元素,分析它們的屬性,并從高級角度利用類別依賴性和空間關系。

C. 基于文本的圖像生成

基于文本的圖像生成是一個新興的研究領域,它結合了自然語言處理和計算機視覺,以便從文本描述中創建逼真的圖像。將這種技術應用到遙感(RS)圖像中,在現實世界的應用中具有巨大的潛力。它可能帶來的一大益處是,通過根據文本描述生成逼真的RS圖像,來幫助城市規劃者。這將使他們能夠評估他們設計的可行性,并做出更明智的決策。另一個可能的用例是生成高質量的RS圖像標注數據集,這通常是一個具有挑戰性和耗時的過程。基于文本的圖像生成技術可以用于從文本描述中創建合成的RS數據集,從而緩解標注樣本的短缺。

D. 基于文本的圖像檢索

如何有效組織和管理大量的遙感(RS)數據,長期以來都是RS領域面臨的重大挑戰。為了解決這個挑戰,基于文本的圖像檢索(TBIR)已經成為一個突出的研究課題,旨在為RS數據管理提供有效的解決方案。圖像檢索的主要目標是從大型數據集中提取特定的圖像,近年來該領域已經得到了相當多的關注。其基本思想是縮小對目標圖像的搜索范圍,并檢索出與特定查詢相匹配的圖像。這項任務在諸如森林砍伐檢測、視覺導航和城市規劃等實際應用中具有價值。

E. 視覺問題回答

視覺問題回答(VQA)是一項旨在對與圖像相關的問題提供答案的任務。盡管在計算機視覺領域已經獲得了廣泛的關注,但在遙感(RS)領域仍處于早期階段。遙感VQA系統使非專業用戶可以使用自然語言問題作為查詢來與RS圖像進行交互,從而實現對圖像的用戶友好和高級理解。開創性的工作[96]建立了RS圖像的第一個大規模VQA基準數據集。從OpenStreetMap中收集了低分辨率和高分辨率的RS圖像數據,以及與圖像相關的人生成的問題和答案。在[96]中,作者提供了一種基準方法,使用卷積神經網絡(CNNs)進行視覺特征學習,采用長短期記憶網絡(LSTM)[48]進行文本嵌入提取。進一步設計了相互關注機制以增強視覺和文本特征之間的對齊。在[95]中,作者通過參考每張RS圖像中土地使用類別的存在,構建了一個大規模的遙感VQA數據集。鄭等人[192]引入了一個相互關注網絡,利用視覺和文本特征之間的語義對應關系,采用雙線性模塊進行特征融合。Chappuis等人[15]建議使用大型語言轉換器,例如BERT[32]進行文本特征學習,并證明其性能優于循環神經網絡。

F. 視覺定位

針對遙感數據的視覺定位(RSVG)是近期的一個新穎課題,對于這個任務的研究仍然有限。具體來說,RSVG涉及使用遙感圖像和相關的查詢表達式,為特定的感興趣的對象提供邊界框[180]。通過使用自然語言引導在遙感場景中定位對象的過程,RSVG提供了對象級別的理解,并為終端用戶提供便利。RSVG的潛在應用包括目標對象的檢測和識別、搜索和救援任務、城市規劃等。

G. 零樣本場景分類

零樣本遙感場景分類(RSSC)的目標是通過參考視覺特征和語義類別之間的語義關系來識別未見過的場景概念。Li等人[72]提出了第一種基于零樣本學習的遙感(RS)場景分類方法,該方法使用在Wikipedia語料庫上預訓練的word2vec模型來獲取類別名稱的語義嵌入,然后構建語義圖以捕獲類別間的關系。Quan等人[113]通過結合半監督的Sammon嵌入算法[127]來對齊語義和視覺原型,從而加強了這種方法。

H. 少樣本目標檢測

目標檢測是遙感(RS)中的一個重要任務,涉及到通過識別其邊界框和類別標簽來檢測對象實例。由于近年來的大量研究努力,這個領域已經取得了重大進步,包括兩階段檢測器,如Fast RCNN[40]和Faster R-CNN[123],一階段檢測器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR變體[13],[200]。

I. 少樣本/零樣本語義分割

在語義分割領域,少樣本學習方法使得在有限數量的標注圖像下能夠進行新類別的分割。最近的研究主要集中在兩類方法,即參數匹配方法和原型方法。值得注意的是,開創性的工作PANet [154]通過引入一個原型對齊模塊,為每個語義類別生成高度代表性的原型,并基于特征匹配進行查詢對象的分割,從而在少樣本分割領域實現了突破。Jiang等人[58]提出了一種用于遙感(RS)圖像分割的少樣本學習方法,但是少樣本學習在RS圖像分割中的應用仍然處于起步階段。為了克服深度學習分割方法對數據的依賴,最近的研究[20],[187]已經探索了自我/半監督學習和弱監督學習,以減少對密集標注的需求。Chen等人[20]介紹了一種基于對比學習的RS圖像少樣本分割的半監督方法。Zhang等人[187]引入了一個用于跨場景高光譜圖像分類的網絡,該網絡利用語言指導實現領域泛化。圖15給出了該方法的概述。

3. 結論與未來趨勢

計算機視覺和自然語言處理傳統上被視為兩個不同的領域,每個領域都有自己獨特的挑戰和應用。然而,ChatGPT的非凡成功最近在大型語言模型(AGI)領域的研究者中引發了巨大關注。這些模型將計算機視覺和自然語言處理的優勢結合在一起,促進了更像人類的智能系統的開發,這些系統是基于VLMs構建的。在遙感(RS)的一些研究中,已經證明了VLMs在各種RS任務中比純視覺模型更優越,包括圖像標注、基于文本的圖像生成、基于文本的圖像檢索、視覺問題回答、場景分類、語義分割和目標檢測。雖然這些早期的嘗試已經展示了將VLMs應用于遙感的成功,但對于大多數研究者來說,這仍然是一個新興領域。因此,本文旨在提供一個全面的關于在遙感中應用視覺語言模型的綜述,為其他研究者提供關于該領域背景和最近進展的快速理解。它還旨在鼓勵在這個令人興奮且重要的領域進行進一步的研究。在回顧了遙感中VLMs的文獻后,我們發現了當前研究的一些限制。首先,用于訓練VLMs的RS數據集數量有限,樣本量遠小于計算機視覺領域的數十億圖像數據集。其次,大多數現有的RS VLMs仍然使用經典的CNN和RNN作為圖像和語言編碼器,只有少數工作探討了在計算機視覺中使用預訓練的視覺變換器和大型語言模型,如GPT、BERT和Flan-T5。這可能限制了這些模型的特征學習能力。此外,從零開始訓練這些VLMs需要大量的計算負擔,尤其是對于擁有數十億參數的大網絡。這就需要在RS中為大型VLMs提供有效的模型微調技術。此外,由于光照條件、大氣干擾和傳感器噪聲等因素的影響,RS數據可能會表現出高度的變化性。

付費5元查看完整內容

深度模型,如CNN和視覺transformer,在封閉世界的許多視覺任務中取得了令人印象深刻的成就。然而,在瞬息萬變的世界中,新穎的類別不斷涌現,這就要求學習系統不斷獲取新知識。例如,機器人需要理解新的指令,而意見監測系統應該每天分析新出現的主題。**類增量學習(class incremental Learning, CIL)使學習者能夠增量地吸收新類別的知識,并在所有見過的類別中構建通用分類器。**相應地,當直接用新的類實例訓練模型時,一個致命的問題發生了——模型傾向于災難性地忘記以前的特征,其性能急劇下降。在機器學習社區中,已經為解決災難性遺忘做出了許多努力。**文中全面綜述了深度類增量學習的最新進展,并從以數據為中心、以模型為中心和以算法為中心3個方面對這些方法進行了總結。**對基準圖像分類任務中的16種方法進行了嚴格統一的評估,從經驗上總結了不同算法的特點。此外,我們注意到目前的比較協議忽略了模型存儲中內存預算的影響,可能會導致不公平的比較和有偏差的結果。因此,本文主張通過在評估中調整內存預算,以及幾個與內存無關的性能度量,來進行公平比較。可以在//github.com/zhoudw-zdw/CIL_Survey/獲得重現這些評估的源代碼。

1, 引言

近年來,深度學習取得了快速的進步,深度神經網絡在許多領域取得了甚至超過人類水平的表現[1],[2],[3]。深度網絡的典型訓練過程需要預先收集數據集,例如大規模圖像[4]或文本[5]——網絡對預收集的數據集進行多個epoch的訓練過程。然而,在開放世界中,訓練數據往往是帶有流格式的[6]、[7]。由于存儲限制[8],[9]或隱私問題[10],[11],這些流數據不能長時間保存,要求模型僅用新的類實例進行增量更新。這種需求催生了類增量學習(Class-Incremental Learning, CIL)領域的興起,旨在在所有可見類之間持續構建一個整體分類器。CIL中的致命問題被稱為災難性遺忘,即直接用新類優化網絡將抹去以前類的知識,并導致不可逆的性能下降。因此,如何有效抵御災難性遺忘成為構建CIL模型的核心問題。

圖1描述了CIL的典型設置。訓練數據以流格式順序出現。在每個時間戳中,我們可以得到一個新的訓練數據集(在圖中表示為“任務”),并需要使用新的類更新模型。例如,該模型在第一個任務中學習"鳥"和"狗",在第二個任務中學習"老虎"和"魚",在第三個任務中學習"猴子"和"羊"等。然后,在所有見過的類中測試該模型,以評估其是否對它們具有區分性。一個好的模型應該在描述新類別的特征和保留之前學習的舊類別的模式之間取得平衡。這種權衡也被稱為神經系統[12]中的"穩定性-可塑性困境",穩定性表示保持以前知識的能力,可塑性表示適應新模式的能力。

除了類增量學習之外,還有其他解決增量學習問題的細粒度設置,例如任務增量學習(TIL)和領域增量學習(DIL)。我們在圖2中展示了這三個協議。TIL的設置與CIL類似,它們都觀察新任務中傳入的新類。然而,區別在于推斷階段,此時CIL要求模型在所有類之間進行區分。相比之下,TIL只需要在相應的任務空間中對實例進行分類。換句話說,它不需要跨任務辨別能力。因此,TIL比CIL更容易,這可以看作是CIL的一個特殊情況。另一方面,DIL集中于概念漂移或分布變化[13],[14]的場景,其中新任務包含來自不同領域但具有相同標簽空間的實例。在這種情況下,新的域對應于剪貼藝術格式的圖像。在本文中,我們將重點討論CIL設置,這是開放世界中更具挑戰性的場景。在深度學習[15]興起之前,也有關于CIL的研究。典型方法試圖用傳統的機器學習模型來解決災難性遺忘問題。然而,它們大多處理兩個任務內的增量學習,即模型只更新了一個新階段[16],[17],[18]。此外,數據收集和處理的快速發展要求模型能夠掌握傳統機器學習模型無法處理的長期、大規模數據流。相應地,具有強大表示能力的深度神經網絡很好地滿足了這些要求。因此,基于深度學習的CIL正在成為機器學習和計算機視覺領域的熱門話題。已有一些研究討論了增量學習問題。例如,[11]專注于任務增量學習問題,并提供了全面的綜述。[19]是一份關于類增量學習領域的相關綜述,但直到2020年才對方法進行討論和評估。然而,隨著CIL領域的快速發展,大量優秀的研究成果不斷涌現,極大地提升了基準測試集[20]、[21]、[22]、[23]的性能。另一方面,隨著視覺Transformer (ViT)[24]和預訓練模型的蓬勃發展,在CIL中關于ViT的熱討論引起了社區的關注。其他的綜述要么集中在[25]、[26]、[27]這一特定領域,要么缺乏最先進的[28]、[29]、[30]的性能演變。因此,迫切需要提供一份包含流行方法的最新綜述,以加快CIL領域的發展。文中從以數據為中心、以模型為中心、以算法為中心三個方面對深度類增量學習方法進行了全面綜述。在CIFAR100[31]和ImageNet100/1000[4]基準數據集上對不同類型的方法進行了整體比較。強調了CIL模型評估中的一個重要因素,即內存預算,并主張在預算一致的情況下對不同方法進行公平比較。相應地,用預算指標全面評估了CIL模型的可擴展性。總的來說,這項調查的貢獻可以概括如下:

  • **本文對深度CIL進行了全面的綜述,包括問題定義、基準數據集和不同的CIL方法族。**將這些算法按分類(表1)和時間順序(圖3)組織起來,以對最先進的技術進行整體概述。

  • **在幾個公開的數據集上對不同方法進行了嚴格和統一的比較,包括傳統的CNN支持的方法和現代ViT支持的方法。**討論了這些見解并總結了常見的規律,以啟發未來的研究。

  • 為了促進實際應用,CIL模型不僅應該部署在高性能計算機上,還應該部署在邊緣設備上。因此,我們主張通過強調內存預算的影響來整體評估不同方法。相應地,對給定特定預算的不同方法以及幾種新的性能指標進行了全面的評估。

本文的其余部分組織如下。第2節給出了類增量學習的問題定義。之后,我們在第3節中對當前的CIL方法進行了分類組織,并在第4節中提供了全面的評估。最后,第五節總結了類增量學習的未來研究方向。類增量方法體系

近年來,關于類增量學習的著作層出不窮,在機器學習和計算機視覺界引起了熱烈的討論。我們從以數據為中心、以模型為中心和以算法為中心三個方面對這些方法進行分類組織,如表1所示。以數據為中心的方法側重于用樣本求解CIL問題,可進一步分為數據重放和數據正則化。以模型為中心的方法,要么對模型參數進行正則化,避免漂移,要么對網絡結構進行擴展,以增強表示能力。最后,以算法為中心的方法利用知識蒸餾來抵抗遺忘或糾正CIL模型中的偏差。我們在圖3中按時間順序列出了具有代表性的方法,以顯示不同時期的研究重點。在接下來的章節中,我們將從這三個方面討論CIL方法。

付費5元查看完整內容

在過去的幾年里,人工智能(AI)技術已經被應用到人類生活的幾乎所有垂直領域。然而,人工智能模型產生的結果往往滯后于可解釋性。AI模型經常出現在開發人員無法解釋或追溯特定決策背后的原因的黑箱中。可解釋AI (XAI)是一個快速發展的研究領域,它有助于提取信息,并以最佳的透明度將生成的結果可視化。本研究對XAI在網絡安全中的應用進行了廣泛的綜述。網絡安全能夠保護系統、網絡和程序免受不同類型的攻擊。XAI的使用在預測此類攻擊方面具有巨大的潛力。這篇論文簡要概述了網絡安全和各種形式的攻擊。然后,討論了傳統AI技術的使用及其相關挑戰,這打開了XAI在各種應用中的使用的大門。介紹了XAI在各研究項目和行業中的實施情況。最后,從這些應用中吸取的經驗教訓被強調為未來的研究范圍提供指導

引言

網絡安全是程序、控制和技術的應用,以保護數據、程序、網絡和系統免受潛在的網絡攻擊。與網絡安全相關的各種工具和技術旨在對抗針對組織內部或外部環境中存在的網絡系統和應用程序的威脅。統計數據顯示,數據泄露造成的平均損失在全球范圍內為386萬美元,在美國上升到864萬美元[2]。這些成本不僅包括違約的直接影響,還包括后續調查,以確定違約的原因、相關的應對措施、收入損失、停機時間,以及最重要的聲譽品牌損害[3]。

考慮到這些成本,大多數組織都采用了基于主流最佳實踐的網絡安全策略。有效的網絡安全策略通常包括分層保護,對網絡攻擊提供防御,以保持網絡資產的機密性、完整性和可用性。這類戰略的實施還旨在防止對用戶或知名組織進行財務勒索,妨礙正常的商業運作。因此,在這方面部署明智、有效和高效的應對措施是絕對必要的。例如,美國國家標準與技術研究所(NIST)開發了一個網絡安全框架,幫助各組織保護它們的計算機系統、網絡和用于實現國家安全、公共衛生、安全和各種其他行政活動的各種其他資產。國際標準組織,即ISO27000系列資訊保安標準,旨在滿足類似的需要。盡管存在這樣的方法和標準,攻擊者仍然在安全框架中發現漏洞,這些漏洞可以繞過極其強大的防御措施。在大流行危機期間,當專業規范從辦公室變為在家工作時,網絡安全威脅還觀察到與遠程訪問工具、云服務和其他遠程工作工具相關的漏洞也發生了變化。[4]。這些不斷發展的威脅包括惡意軟件、勒索軟件、網絡釣魚、內部威脅、分布式拒絕服務(DDOS)威脅、高級持續威脅(APTs)、中間人攻擊和各種其他[5]。

網絡安全框架和相關最佳實踐能夠在不損害用戶隱私和客戶體驗的情況下保護機密信息,從而有效減少網絡漏洞。更具體地說,身份和訪問管理(IAM),例如,框架用戶角色和訪問權限,建立標準,訪問權限可以被監控。IAM技術包括單點登錄功能,其中用戶訪問網絡時無需多次重新輸入證書。IAM還可以提供多因素認證和特權用戶帳戶,只提供對特定合法用戶的訪問,減少欺騙性訪問的可能性。這些工具增強了終端用戶設備中異常活動的可見性。此外,在出現安全漏洞的情況下,這些工具可確保加速調查、響應、隔離和遏制與安全漏洞相關的所有組件。

有各種綜合的數據安全平臺,包括分類、權限分析、行為分析和合規報告等功能。這些平臺的主要目標包括在混合云和多云環境中保護敏感信息。這些平臺提供自動、實時的可見性、入侵警報和對數據漏洞[6]的監控。例如,安全信息和事件管理(Security information and event management, SIEM)是安全信息管理(Security information management, SIM)和安全事件管理(Security event management, SEM)的結合,對應用程序和網絡硬件產生的安全告警進行自動化實時分析。這些產品包括智能和先進的檢測方法,用戶行為分析和人工智能/機器智能(AI/ML),以檢測軟件產品和服務領域的異常[7]。

網絡安全風險管理有助于理解安全威脅的各種特征,以及個人和組織層面的相關內部互動。最低合理可行(ALARP)是一個類似的風險管理原則,強調網絡風險。這一原則確保通過將風險與解決相同問題所需的時間和資源進行比較來減少剩余風險。其理念是分析降低風險所涉及的成本,并確保其與所獲得的利益不成比例。網絡/信息安全的所有現代風險管理解決方案都著眼于降低風險影響,從而平衡減少或緩解風險影響的相關成本。

值得一提的是,ISO27000這類國際標準家族的范圍,強調了與網絡安全風險相關的信息安全管理系統文檔的創建和管理。該標準由14個組和35個控制類別的114個控制組成,涵蓋了組織網絡安全的所有方面。為了適用該標準,必須評估現有風險,確定適用的控制措施,評估這些控制措施帶來的緩解效果,評估應用這些控制措施的成本,還必須評估所引入的任何次級風險的緩解效果。控件將被應用于: (1)該風險經評估超過該組織的風險承受能力; (2)成本控制的應用被認為是可以接受的; (3)二次風險不排除應用。

人工智能如何幫助網絡安全

機器學習(ML)算法是在以往經驗的基礎上訓練的,以便做出類似人類行為的決定。此外,ML算法還被用于檢測與安全威脅和[8]漏洞相關的異常和威脅。此外,在過去幾年中,基于機器學習的自動化安全工具已經得到了發展,它們可以自動響應威脅,執行諸如聚類、分類和回歸[9]等任務。聚類是一種將數據根據其特征的相似性進行分組的過程。聚類中的數據對象彼此相似,但又不同于其他聚類中的數據對象。因此,聚類分析可以對沒有預定義類的數據進行無監督分類。另一方面,分類有助于預測給定數據點的類別。分類器使用訓練數據來理解輸入變量是否屬于一個特定的類別,使用無監督學習技術。回歸分析是一種統計技術,它建立因變量和獨立預測變量之間的關系與許多獨立變量之一。

AI和ML也被用于主動的漏洞管理。基于AI/機器學習的用戶和事件行為分析(UEBA)工具分析服務端點和服務器上的用戶交互,以檢測異常行為。這有助于在[10]漏洞報告或修補之前為組織提供提前保護。

反病毒檢測是人工智能技術發揮重要作用的一個領域。最主要的方法是啟發式技術、數據挖掘、代理技術和人工神經網絡[11]。例如,Cylance智能防病毒產品是為了滿足類似的目標,為家庭從合法數據中檢測惡意軟件提供企業級的基于人工智能的安全。該產品完全在執行點消除了威脅,而不需要任何人工干預[12]。有許多傳統的身份驗證系統使用用戶名或電子郵件和密碼作為一種身份驗證方法。人工智能的使用有助于檢測易受攻擊的密碼,并用于基于生物識別的認證系統,提供更強的保護層,黑客難以入侵。生物識別系統主要用于企業和政府組織的安全和訪問控制。生物識別系統可分為物理識別系統和行為識別系統。物理生物識別系統使用人體的物理、可測量和獨特的信息,如DNA、靜脈、指紋、虹膜等,并將這些信息轉換為人工智能系統可以理解的代碼。相反,行為識別系統捕捉獨特的行為特征,如聲音、個人打字節奏、與物體的交互方式,然后將這些編碼信息存儲在數據庫中。在身份驗證和驗證過程[13]期間對該信息進行數字戳記。

AI在網絡安全方面的局限性使XAI成為必要

人工智能在網絡安全領域的應用帶來了許多挑戰。特別是,人工智能應用引入了大量的反指示和次級風險,它們成為惡意行為者發起攻擊的載體。例如,攻擊者可能會成功地避開基于ML的檢測。更具體地說,攻擊者可能會操縱惡意軟件文件,使基于人工智能的檢測框架無法識別任何惡意或異常活動,這就是通常所說的規避攻擊。類似地,基于人工智能的網絡安全應用也存在各種威脅,如圖1所示,涉及通信攔截、服務失敗、事故、災難、法律問題、攻擊、停電和物理損害。

基于人工智能的系統的成功取決于數據的可用性。基于人工智能的系統引發了兩類次級風險。第一種類型包括產生假陰性結果導致不準確決策的風險。第二種包括產生假陽性結果的風險,其中存在不準確的通知或假警報的可能性。[14]。在這種情況下,迫切需要確保采取必要的緩解措施,確保更準確地處理違約或異常事件的情況,從而保持所作決定的可解釋性和合理性。

實時AI系統通常會消耗大量的計算能力、數據和原始內存資源需求。這些系統還需要更高水平的專業知識來構建和維護[16],因此部署成本非常高。人工智能生物測量系統也面臨著類似的挑戰,與上述問題相關,這些系統也容易受到信息泄露風險的影響。網絡安全公司主要使用人工智能來開發魯棒和安全的系統。相反,這些系統經常被黑客出于不道德的目的而破壞,這些黑客訓練或變異惡意軟件,使其具有AI免疫力,其行為與傳統系統相比異常。人工智能的使用使黑客能夠挫敗安全算法,使數據操作不被發現,從而使組織極其難以糾正輸入基于人工智能的安全系統的數據。因此,當前基于人工智能的系統面臨的挑戰在于,與基于模型的傳統算法[17]相比,它們的決策缺乏合理性和合理性。如果系統不能理解并從網絡安全事件中吸取教訓,那么無論基于人工智能的系統多么強大和準確,網絡安全都將成為一個具有普遍二級風險的黑匣子。

人工智能威脅體系

在深度強化學習的情況下,被確定為某些反應的原因的顯著特征,通常仍然無法解釋。例如,可以考慮貝葉斯推斷的計算,其中產生的結果的準確性往往受到數據不足的問題的影響。這就需要統計AI算法來幫助量化這些不確定性。但是這種統計AI算法的結果往往難以解釋,因此,XAI通過為基于AI的統計模型產生的結果提供可解釋性來發揮其作用,為研究人員和專家提供理解因果推理和原始數據證據[18]的能力。同樣,在醫療保健領域,XAI的實施首先允許機器分析數據并得出結論。其次,它使醫生和其他醫療保健提供者能夠獲得解釋如何做出特定的決策。在制造業中,基于人工智能的自然語言處理(AI-based natural language processing, NLP)幫助分析與設備和維護標準相關的非結構化數據,這些數據與結構化數據相關聯,即工單、傳感器讀數等業務流程數據。這有助于技術人員在他們的工作流相關操作方面做出最佳決策。

XAI能提供什么幫助

人工智能模型已經成功地應用于許多日益復雜的領域,通過其基于復雜數據集的合成能力補充和增強人類的能力。計算能力的提高進一步擴大了通過人工智能提供解決方案的范圍,人工智能應用的增長呈可視化指數增長。因此,在關鍵任務設置中對此類AI應用的需求迅速增長,其中AI被嵌入到眾多硬件智能設備中,從而實現無監督或遠程控制使用。然而,人工智能的應用帶來了相關的重大問題。過擬合,是監督式ML中的一個基本問題,其中統計模型與訓練數據完美匹配,阻礙了其在數據未知情況下的準確分析能力。當它捕捉到數據中的噪聲和不準確的值時,模型的效率和精度會下降(Ying, 2019)。過度擬合模型的使用會導致AI性能下降,在關鍵任務設置中,可能會導致不準確的決策、經濟損失、身體傷害甚至死亡。

通過對模型的機制和推理的理解,可以在一定程度上減輕這些風險。不幸的是,傳統AI系統的黑箱特性成為瓶頸,即使是AI專家也無法提供合理的解決方案[19,20]。因此,透明度是必要的,它將使明智和合理的決策制定成為可能,并有助于為模型的行為提供準確的解釋。例如,在網絡安全系統的情況下,不合理和誤導性的預測可能會使系統非常容易受到攻擊,導致完全不安全的關鍵系統。隨著可解釋人工智能的實施,提供實用的、實時的基于人工智能的解決方案將變得更加容易,因為數據集中的偏見可以完全消除,從而導致公正的決策。解釋性結果使人工智能解決方案更加穩健和可信,確保有意義的變量推理和模型推理的基礎。傳統的基于深度神經網絡的模型(DNN)非常流行,但其可解釋性滯后。例如,對于id,網絡管理員很難理解入侵檢測背后的原因,并將其轉化為黑盒模型。在這種黑盒模型中,涉及決策制定的過程是具有挑戰性的,因為DNN在試錯過程中編輯特征,以生成理想的解決方案。盡管對基于ML的入侵檢測系統進行了大量的研究,但在得出與攻擊分類、異常流量行為識別和模型自動構建相關的結論時,很少對結果的基本推理或解釋進行探討。決策樹(DT)作為一個完美的模型來支持對結果預測的解釋。DT分析的結果不基于任何與數據分布相關的假設,并且有效地處理了特征共線性問題。因此,可解釋AI系統的實現使網絡管理員能夠分析、解釋和洞察IDS系統的安全策略[21,22]。在本文中,我們探討了網絡和人工智能風險的競爭本質,并探討了XAI作為人工智能風險的主要控制手段的潛力。關于XAI在網絡安全中的應用已經進行了大量的研究。本節將討論其中一些研究。[23]的研究提出了一種新穎的黑盒攻擊,該攻擊實現了XAI,損害了相關分類器的隱私和安全性。本研究采用反事實解釋(CF)生成方法實現基于梯度的優化。本研究中使用的CF方法包括潛在CF技術、多元反事實解釋(DiCE)技術和permute攻擊(對反病毒引擎執行端到端規避攻擊)。他們還執行成員推斷攻擊,這有助于鏈接用戶,并從泄露的數據集竊取他們的密碼,從而對同一數據集發起中毒和模型提取攻擊。該研究評估了與每種攻擊有關的安全威脅,并向用戶和攻擊者提供了能夠避免和減輕風險的范圍。[24]的研究提出了一種方法來解釋由面向數據的IDSs產生的不準確的分類。采用對抗性技術來識別輸入屬性中的最小修改,以準確分類錯誤分類的數據集樣本。在[22]中,提出了一個基于深度學習的入侵檢測框架。研究中可解釋的人工智能技術,有助于實現ML模型的每個層次的透明度。

該研究中使用的XAI方法包括SHAP和BRCG,能夠完全理解模型的行為。XAI的SHAP和CHEM技術有助于理解輸入的特征,從而將決策導出為輸出。考慮到分析師的視角,使用Protodash方法來識別訓練數據樣本之間的異同。[25]的作者提出了一種創新的方法來管理網絡安全系統報警系統中的超載問題。本研究考慮實施的系統包括安全資訊及事件管理系統(SIEM)及入侵偵測系統(IDS)。將零樣本學習技術與ML相結合,在框架內計算異常預測的解釋。該框架的獨特方法包括在沒有任何先驗知識的情況下識別攻擊,破譯導致分類的特征,然后使用XAI技術將攻擊分組到特定類別中。XAI的使用有助于識別、量化因素,并了解其對特定網絡攻擊預測的貢獻。[21]的研究提出了一種基于決策樹的XAI模型的IDS增強信任管理系統。研究中使用的決策樹算法幫助IDS在多個子選擇中分割選擇,從而為基準數據集生成規則。與傳統的支持向量機(SVM)系統相比,基于決策樹的XAI方法提高了精度。

雖然有各種綜述文章關注AI在網絡安全中的應用,但目前還沒有對可解釋AI在網絡安全中的應用進行全面的綜述,其中包括明確和廣泛的信息。因此,為了彌補這一差距**,本文著重對XAI在網絡安全領域的研究現狀、現有人工智能實施所面臨的挑戰、XAI的需求及其在各個領域的潛在應用范圍進行了全面的綜述**。表2重點分析了XAI和本論文的現有工作。從用戶的角度來看,使用XAI比使用AI的好處在圖3中得到了強調。

綜上所述,本研究的具體貢獻包括:

  • 網絡安全和各種形式的攻擊的基本信息。
  • 強調人工智能在網絡安全領域的各種應用,以及在解釋所產生的結果時存在的相關缺陷,是實施XAI的必要性
  • 介紹了基于XAI的網絡安全框架在各個行業的應用

  • 詳細討論了使用XAI實現網絡安全的各種研究項目和行業項目
  • 從這些實施中獲得的經驗教訓將有助于確定該領域研究的未來范圍

付費5元查看完整內容

有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。

//github.com/allenai/acl2022-zerofewshot-tutorial

付費5元查看完整內容

強化學習(RL)通過與復雜環境的交互,推動機器學習從基礎數據擬合到學習和規劃的新時代。RL具有深度學習功能,在自動駕駛、推薦系統、無線通信、機器人、游戲等領域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基礎發展,直到最近才被徹底理解,特別是它們的有限時間收斂速度和樣本復雜性。本教程將全面概述基礎RL算法的理論理解的最新進展,利用隨機近似/優化理論和利用RL問題的馬爾可夫結構。本教程還將介紹一些高級的RL算法及其最近的發展。

付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容
北京阿比特科技有限公司