隨著人工智能(AI)的迅速發展,地球和大氣科學領域越來越多地采用數據驅動模型,這些模型由深度學習(DL)的持續進步所推動。具體來說,DL技術被廣泛用于解碼地球系統的混沌和非線性特征,并通過理解天氣和氣候數據來應對氣候挑戰。最近,通過DL在更窄的時空尺度內的特定任務上取得了尖端性能。大型模型的興起,特別是大型語言模型(LLMs),使得微調過程產生了顯著的成果,從而推動了通用AI的發展。然而,我們仍在探索為天氣和氣候制定通用AI的初期階段。在這篇綜述中,我們提供了一個全面、及時的概覽,專注于為天氣和氣候數據量身打造的最新AI方法論,特別關注時間序列和文本數據。我們的主要內容涵蓋四個關鍵方面:天氣和氣候數據的類型、主要模型架構、模型范圍和應用,以及天氣和氣候的數據集。此外,關于為天氣和氣候數據理解創建和應用基礎模型,我們深入探討了該領域當前的挑戰,提供關鍵見解,并提出未來研究的詳細途徑。這種全面的方法為從業者提供了在這個領域取得重大進展所需的知識。我們的綜述包含了關于大型、數據驅動模型在天氣和氣候數據理解方面的最新研究突破,強調了堅實的基礎、當前的進展、實際應用、關鍵資源和未來研究的機會。
概念1. 天氣和氣候是兩個不同的概念,它們在空間和時間尺度、可變性和可預測性方面有顯著的差異。這兩者之間的不同可以如下闡述: * 時間尺度。天氣涉及大氣狀況的即時狀態,通常在短期時間框架內。相反,氣候代表長期天氣模式的統計總結。 * 空間尺度。天氣代表特定位置的大氣狀況,而氣候則包括對一個地區典型天氣模式的全面總結。 * 可變性。天氣表現為快速和頻繁的變化,而氣候變化速度較慢,包括長期天氣模式的轉變。 * 可預測性。天氣預報側重于預測未來幾天或更短時間尺度內的天氣狀況。相比之下,氣候預測旨在預測未來幾個月到幾十年的氣候趨勢。
氣候變化描述了全球溫度和天氣模式在長期內的顯著變化。目前,我們的星球正經歷著極端自然現象的激增,如干旱[1]、[2],洪水[1],地震[3],熱浪[4]和強降雨[5],這些現象由不斷加劇的氣候變化所推動。加劇這些挑戰的是全球變暖和海平面下降對生態系統的驚人威脅[6]、[7]。鑒于本世紀預計的地表溫度增加,我們預見這些極端現象的嚴重程度和頻率將加劇[8]。 利用先進的氣候建模和預測技術,這些技術集成了大量的大氣和地表變量 - 包括大氣狀況、洋流、陸地生態系統和生物圈相互作用 - 可以增強我們對氣候變化的理解[9]、[10]。這些見解可以指導定制緩解策略的制定[11]。長期準確的海平面變化預測可以加強沿海城市的城市規劃和災害準備工作[12]、[13]、[14]。短期內,降雨、溫度和濕度的精確預測可以提高包括農業規劃和交通調度在內的人類活動的安全性[15]、[16]、[17]。 傳統上,一般環流模型(GCMs)[18]和數值天氣預報模型(NWPs)[19]、[20]、[21]一直是研究氣候變化趨勢和預測未來天氣和氣候情景的首選工具。這些模型融合了主要的地球系統組成部分,包括大氣、地表和海洋,以模擬地球系統的多維動態。它們通過復雜的物理方程式,如大氣動力學,確定這些組成部分之間的潛在非線性關系,以在廣泛的物理參數范圍內生成預測[22]。然而,盡管它們已經相當成熟,數值受限的天氣預報模型仍面臨許多挑戰和限制。其中之一是它們對地方地理特征的過于簡化的表現[23],因為它們通常無法捕捉到對區域天氣和氣候模式產生關鍵影響的地方地形的復雜細節。另一個障礙是有效地整合來自不同來源的觀測數據,如氣象站、雷達和衛星[8]。傳統模型通常難以將這些具有不同空間和時間分辨率的數據納入其建模框架。此外,它們需要大量的計算資源來管理眾多的物理限制[24]。地球系統的復雜性和規模要求進行大量的計算,給計算能力和效率帶來挑戰。 人工智能技術的快速發展為天氣和氣候建模引入了成本效益高、直接且簡化的解決策略。特別是,機器學習(ML)和深度學習(DL)技術可以識別天氣和氣候數據中的潛在趨勢表示,從而繞過對復雜物理關系的需求。最初,鑒于ML技術相較于大規模、長時間的物理模型的有限能力,它們被少量用于短期、局部的天氣和氣候條件預測。然而,過去十年目睹了數據驅動深度學習方法在天氣和氣候研究中的應用呈指數級增長,這得益于全球天氣和氣候數據的爆炸性擴展[25]、[26]。依托豐富的數據資源和計算技術的進步[27]、[28],這些模型正在革命性地改變氣候科學[29]。利用大量數據,深度學習模型揭示了隱藏在氣候變量中的復雜非線性關系,從而以更高的精確度捕捉氣候系統的動態性和復雜性[30]、[31]。然而,這些模型通常為特定任務而設計,并使用特定格式的數據進行訓練,如區域天氣預測或微觀尺度的降尺度。訓練數據來源的表現方式差異導致了數據驅動深度學習模型在理解天氣和氣候數據方面的過度分化功能。因此,開發能夠微調以模擬全球天氣和氣候系統的通用氣候模型成為一個重大挑戰。
近期大型模型的出現和迅速發展在各個領域取得了顯著成就,包括自然語言處理(NLP)、計算機視覺(CV)[32]、機器人學[33]以及涵蓋生命科學的一系列跨學科領域[34]、[35]、[36]、[37]、[38]。特別是在NLP領域,大型模型或大型語言模型(LLMs)正在迅速發展,它們在大規模語料庫上進行訓練,并針對各種下游任務進行微調[39]、[40]、[41]。在計算機視覺領域,大型視覺模型經過大量自然圖像的訓練[42]、[43]、[44],展示出卓越的零樣本能力[45]、[46]。這些模型在跨任務中的卓越表現源自于它們龐大的參數數量和大規模的預訓練數據。例如,GPT-3[47]、[48]擁有近120倍于GPT-2[49]的參數,使其能夠從更少的樣本中更強大地學習,而GPT-4[50]的參數不到GPT-3的十倍,但在文本生成和圖像理解方面表現出色。LLMs的迅速崛起重新定義了深度學習的前進道路,盡管在無監督/半監督和遷移學習等長期發展領域仍然存在。一個值得注意的例子是視覺-語言大型模型[46]、[51]、[52]、[53],如CLIP[46],它在眾多自然圖像-文本對上進行訓練,并針對如圖像分割[54]、[55]、[56]和視頻字幕生成[57]、[58]等任務進行微調,取得了有希望的結果。最近,大型模型在語音[59]、[60]、物理學[61]和數學分析[62]等領域的擴展催生了基礎科學和專業領域的進步。
預訓練的基礎模型的突破性成功已經顯著推動了NLP和CV領域更接近通用AI的實現。這一進步引發了一個有趣的問題:預訓練的基礎模型的成功已經使NLP和CV領域朝著實現通用AI邁出了有意義的一步,這不僅讓人好奇:是否有可能開發一個用于天氣和氣候數據理解的通用基礎模型,有效地解決相關任務的眾多問題? 基于預訓練模型理論,CLIMAX [25] 提出了一種開發天氣和氣候基礎模型的創新方法。它利用變換器預訓練大規模天氣和氣候數據,產生一個靈活的基礎模型,擅長短期至中期預測、氣候預測和降尺度。PANGU-WEATHER [63] 和 W-MAE [64] 通過使用大量數據對全球氣候系統進行建模,展示了強大的氣候預測能力。然而,開發大規模、通用氣候模型的追求面臨著重大障礙。一個主要挑戰是缺乏大型、多樣化和高質量的訓練數據集。現有數據集(詳情見表4)在不一致的測量、空間-時間偏差和有限的功能性方面存在問題,阻礙了全面、多用途大規模基礎模型的進展。此外,這些模型的計算需求增加了另一個復雜性維度,所需的基礎設施在資源有限的環境中可能無法實現。理想情況下,一個天氣/氣候基礎模型應該能夠無縫處理多源觀測,并納入地理特征的詳細表示,以生成更精確的天氣和氣候趨勢模擬。不幸的是,這仍然是目前天氣和氣候基礎模型的一個基本未開發領域。此外,這些模型的可解釋性,通常被視為“黑匣子”,是一個重要的關注點。在天氣和氣候相關任務中,錯誤的預測可能會對生態系統和社會造成嚴重破壞,因此特別強調了對可解釋性的需求[36]、[65]、[66]。盡管在理解天氣和氣候數據方面取得了顯著進步和潛力,但如上所述,開發大規模基礎模型所面臨的獨特挑戰,需要集中研究(詳情見第9節)。這強調了對這一新興領域進展的全面審查的需求。 在本文中,我們對專門針對天氣和氣候數據設計的數據驅動模型進行了全面審查。我們的綜述涵蓋了各種數據類型、模型架構、應用領域和代表性任務的廣泛大型基礎模型/特定任務模型。這篇評論擴大了從天氣和氣候數據中得出的見解的范圍,鼓勵新的策略,并促進在天氣和氣候中大型模型的跨應用。通過利用DL在大型模型中的力量,我們旨在揭示復雜的氣候模式,增強預測,并加深對氣候系統的理解,從而使社會能夠更有效地適應氣候變化帶來的挑戰。我們的貢獻總結如下: * 首次全面且現代的綜述。據我們所知,本文是首次全面綜述針對天氣和氣候數據理解的大型和特定任務模型的最新發展,涵蓋時間序列、視頻流和文本序列。我們提供了一個深入和當前的全景,涵蓋了該領域的廣泛光譜,同時深入探討了不同方法論的細微差別,為讀者提供了對這個領域的全面和最新的理解。 * 系統化和深入的分類。我們介紹并討論了一個有組織和詳細的分類,將現有相關研究劃分為兩大類:大型氣候基礎模型和特定任務氣候模型。此外,我們進一步根據模型架構對它們進行分類,包括RNN、變換器、GAN、擴散模型和圖神經網絡。基于模型的應用領域和特定任務,進一步進行劃分,并對這些任務定義進行詳細解釋。這種多維分類為讀者提供了一個連貫的路線圖。 * 豐富的資源匯編。我們已經收集了一大批與天氣和氣候科學領域相關的數據集和開源實現。每個數據集都附有詳盡的結構描述、相關任務和直接超鏈接,以便快速訪問。這個編譯作為未來研究和開發努力的領域中的寶貴資源。 * 未來展望和研究機會。我們已經勾畫了幾個未來探索的有希望的軌跡。這些觀點跨越了各個領域,包括數據后處理、模型架構、可解釋性、隱私和訓練范式等。這篇論述為讀者提供了對該領域當前狀態和未來探索可能途徑的復雜理解。設計見解。我們討論并指出了有希望的天氣和氣候基礎模型的關鍵設計元素。這些設計組件包括時間和空間尺度的選擇、數據集選擇、數據表示和模型設計、學習策略和評估方案。遵循這個系統化的設計流程使從業者能夠快速理解設計原則并構建強大的天氣和氣候基礎模型,從而促進天氣和氣候領域的迅速發展。
文章組織。本綜述的其余部分結構如下:第2節闡述了我們的綜述與其他相應研究之間的區別。第3節為讀者提供關于基礎模型、天氣和氣候數據的基本描述以及相關任務的基本知識。第4節詳細闡述了天氣和氣候任務的關鍵模型架構。第6節,我們介紹了目前用于天氣和氣候任務的主要模型分類的概要,包括氣候基礎模型和特定任務模型。該節在深入探討個別方法論的復雜性之前,提供了該領域的整體視圖。第5節簡潔地介紹了氣候基礎模型和特定任務模型,并根據不同的模型架構進一步細分特定任務模型。隨后,第7節進行了對特定天氣和氣候任務的數據驅動深度學習模型的廣泛探索。考慮到缺乏統一和全面的天氣和氣候數據集索引,第8節提出了一套詳盡的數據集資源和介紹,旨在為讀者提供便利和效率。第9節概述了目前阻礙天氣和氣候基礎模型發展的挑戰,以及該領域未來的潛在方向。第10節提出了構建天氣和氣象基礎模型的潛在藍圖,幫助從業者進行思考和執行,并促進氣候基礎模型的發展。最后,第11節對綜述內容提供了總結和結論性評論。
天氣和氣候的基礎模型
蓬勃發展的基礎模型在NLP [47]、[82]、[200]和CV [45]、[46]領域已激發了對天氣和氣候數據理解基礎模型的研究興趣。通過預訓練策略創建的大型基礎模型可以顯著提高基于AI的氣候模型的泛化能力,并可以針對特定的下游任務進行微調。這類模型的預訓練需要大規模序列數據,這不是通常從普通時間序列數據中獲取的。 考慮到計算效率和對及時氣候預測的需求,Pathak等人提出了FOURCASTNET [136],這是一種基于視覺變換器和自適應傅里葉神經網絡運算符(AFNO)[201]的氣候預訓練基礎模型,用于高分辨率預測和快速推理。其訓練過程包括基于預訓練模型的自監著預訓練和自回歸微調。PANGU-WEATHER [63],一個利用3D地球特定變換器的數據驅動模型,以其快速、精確的全球預測和卓越性能而聞名。它根據當前狀態預測隨時間變化的大氣狀態,當前狀態由上空五個變量和四個地表變量在0.25°水平網格上的13個垂直層描述。另一方面,CLIMAX [25] 通過其基于變換器的完全監督預訓練,將基礎建模概念引入天氣預測。它提出變量消歧和變量聚合策略,用于合并和揭示不同天氣變化在不同高度的潛在關系,為適應包括全球/區域/季節性預測、氣候繪制和降尺度任務在內的多樣化下游任務提供了有希望的靈活性。FENGWU [138] 以獨特設計的深度學習架構從多模態、多任務角度解決中期預測問題。它具有模型特定的解碼器和跨模態融合變換器,在不確定性損失的監督下,以區域適應的方式平衡不同預測器的優化。鑒于上述大型模型是通過完全監督的方式訓練的,W-MAE [64] 使用基于掩碼自動編碼器(MAE)[202]、[203]的方法,實施天氣預測模型的無監督訓練,這可以通過各種數據源微調用于下游任務。MetePFL [24] 和 FedWing [154] 還提出了基于提示的聯邦學習[204],用于訓練大型基礎模型,大大降低了跨區域協作模型訓練的成本,同時保護數據隱私。LLMs的快速發展導致處理天氣和氣候任務不再局限于視覺或時間序列模型。基于LLMs的OCEANGPT [197] 提出了處理廣泛海洋相關任務的方法論。除了用于預測和模擬的基礎模型之外,CLIMATEBERT [195] 是一種用于處理氣候相關文本的基于NLP的基礎模型。它在新聞文章、研究論文和公司氣候報告等多種來源的200多萬段氣候相關段落上進行訓練[205]。 結論
我們提供了一個全面和最新的針對分析天氣和氣候數據的數據驅動模型綜述。目的是通過系統組織的評估相關模型,為這個不斷發展的學科提供一個新視角。我們提煉出每個類別中最顯著的方法論,研究它們各自的優點和缺點,并提出未來探索的可行軌跡。這篇綜述旨在作為一個刺激,激發持續的興趣并培養對天氣和氣候數據理解領域數據驅動模型研究的持久熱情。
大型語言模型(LLMs)已成為增強自然語言理解的轉型力量,代表了向人工通用智能邁出的重要步伐。LLMs的應用超越了傳統語言學邊界,包括了各個科學學科內發展的特殊語言系統。這一日益增長的興趣促成了科學LLMs的出現,這是一種專為促進科學發現而精心設計的新型子類。作為AI用于科學領域中的一個新興領域,科學LLMs值得全面探索。然而,目前缺乏一項系統的、最新的綜述來介紹它們。在本文中,我們努力系統地闡述“科學語言”的概念,同時提供對科學LLMs最新進展的詳盡回顧。鑒于科學學科的廣泛領域,我們的分析采用了聚焦的視角,專注于生物學和化學領域。這包括對LLMs在文本知識、小分子、大分子蛋白、基因組序列及其組合的深入考察,并從模型架構、能力、數據集和評估方面進行分析。最后,我們批判性地審視當前的挑戰,并指出與LLMs進展相關的有前途的研究方向。通過提供該領域技術發展的全面概述,這篇綜述旨在成為研究者在探索科學LLMs錯綜復雜的領域時的寶貴資源。
//www.zhuanzhi.ai/paper/1741b30343c8826898d7c39dafe9df20
人類通過感知和認知獲取對世界的知識,其中自然語言(即人類語言)是表達這種世界知識的典型媒介。從歷史上看,這種豐富的世界知識已通過自然語言表達、記錄和傳播。目前,大型語言模型(LLMs)成為處理自然語言和收集世界知識的前沿工具。通常,LLMs指的是基于Transformer架構的,具有數億(甚至數十億)可訓練參數的模型,它們在廣泛的文本語料庫上進行訓練[218]。典型的例子包括GPT-3 [32]、PaLM [47]、Galactica [233]、LLaMA [239]、ChatGLM [288]和百川2[14]。它們已展現出強大的理解自然語言和處理復雜任務(如文本生成)的能力,并在學術和工業領域引起了極大的興趣。LLMs的卓越表現讓人們希望它們可能會在我們當前的時代進化成為人工通用智能(AGI)。
除了自然語言,為了封裝更專業的科學知識,開發了一系列的科學語言,如圖1所示。這包括科研領域的文本表達、定義數學公式的數學語言、代表分子結構的化學語言(如SMILES),以及描述蛋白質或基因組的生物語言,詳細說明生物體的復雜構成。這些科學語言帶有它們獨特的詞匯,每個術語都有特定的含義,與自然語言完全不同。例如,英文中的字符“C”在蛋白質語言中代表氨基酸半胱氨酸[87],而在SMILES語言系統中,它代表一個碳原子[262]。此外,特定領域的專家制定語法規則來組織這些術語,使構建的句子具有精確的語義功能。例如,計算化學家創建語法規則以確保機器生成分子的準確性,使用的是SELFIES格式[128]。經過數十年的演變,科學語言已成為無價的工具,顯著加速了科學發現。由于科學語言與自然語言之間可能存在的語義和語法差異,現有的通用LLMs(如ChatGPT 1或GPT-4 [190])通常無法正確處理分子和蛋白質等科學數據[5]。正如著名的奧地利哲學家路德維希·維特根斯坦所指出的,“我的語言的極限意味著我的世界的極限。”[202] 通用LLMs的世界可能僅限于自然語言。
為了促進對科學語言的理解,研究人員設計了專門針對各種科學領域和學科的科學大型語言模型(Sci-LLMs)。例如,分子語言模型已被開發出來,將分子結構表示為一串原子和化學鍵[140]。這些模型有助于預測分子屬性[252]、設計新藥[298]、提出逆合成路線[215]。類似地,蛋白質語言模型基于氨基酸序列運作[30, 205]。它們用于預測3D蛋白質結構和功能[149]、改善現有蛋白質以提高適應性[187]、創造具有特定功能的新蛋白質[184]。作為AI-for-Science研究領域內的一個新興領域,許多Sci-LLMs已被提出,它們具有修改后的架構、學習方法、訓練語料庫、評估基準和標準。盡管它們取得了顯著成就,這些模型大多在各自的研究領域內被探索。目前尚缺乏一個全面的綜述,能夠統一這些語言建模的進展。
在這篇綜述中,我們旨在通過系統地回顧Sci-LLMs的技術進步來填補這一空白,同時密切參考通用LLMs。考慮到科學語言的廣泛范圍,我們將調查重點放在生物和化學語言上。具體而言,我們的審查涵蓋了分子語言、蛋白質語言和基因組語言。除了這些專門的科學語言外,我們也認識到教科書、專利和研究論文中蘊含的巨大科學知識,這些文獻都是用自然語言撰寫的。因此,我們探索了強調科學知識的文本LLMs,更重要的是,研究了包含各種類型科學語言的多模態LLMs。
在深入探討每種語言系統時,我們首先回顧了LLM的架構,并將它們分類為三類:僅編碼器、僅解碼器和編碼器-解碼器。然后,我們報告了模型的能力,并總結了Sci-LLMs可以執行的典型下游任務。在模型訓練和評估方面,我們收集了一系列常用的訓練語料庫和評估基準。最后,我們提出了科學語言建模的區分性和生成性任務的適當標準。
這項綜述受限于特定邊界。首先,我們關注科學語言,特別是化學和生物語言。我們排除了那些既沒有通用定義的詞匯表,也沒有語法結構的語言,如數學語言。其次,在討論文本LLMs時,我們的重點仍然是表達在自然語言中的化學和生物領域知識。這一選擇確保了與化學和生物學特定語言(如分子和蛋白質語言)的一致和連貫互動。第三,我們的技術探索主要局限于基于Transformer的語言模型。盡管圖神經網絡和擴散模型等替代神經架構在分子和蛋白質建模中廣泛應用,但我們沒有包括它們。圖2描述了這項綜述中Sci-LLMs的研究范圍。
這項綜述的獨特邊界使其不同于其他關于LLMs和分子、蛋白質和基因組計算建模的回顧。與主要集中在自然語言[281, 304]的那些不同,我們的重點更傾向于科學語言。與僅專注于分子[64, 269]、蛋白質[23, 105, 241, 246]或基因組數據[52]的綜述不同,我們旨在提供一個關于化學和生物研究的語言模型的全面視角。此外,我們深入探討了多模態LLMs,探索文本與分子/蛋白質/基因組語言之間的互動。據我們所知,這種微妙的探索在以前的綜述中尚未涵蓋。本綜述的貢獻可總結如下: ? 我們提供了一個關于科學領域內語言建模的全面回顧,包括文本、分子、蛋白質和基因組語言,強調領域特定知識。 ?我們提供了現有Sci-LLMs的詳細總結,涵蓋了模型架構、能力、訓練數據、評估基準和評估標準。我們還在圖3中展示了Sci-LLMs的演化樹。 ? 我們列舉了Sci-LLMs的可用資源,開源并在 ?** 據我們所知,這項綜述代表了第一個全面概述多模態Sci-LLMs的嘗試**,旨在探索各種科學語言之間的互動。 本綜述的其余部分組織如下:第2節介紹LLMs的背景并闡述相關概念。第3、4、5、6和7節分別介紹文本、分子、蛋白質、基因組和多模態LLMs。最后,在第8節中,我們分析了現有模型的局限性,指出潛在的研究方向,并總結本綜述。
**文本科學大型語言模型 **
在本節中,我們旨在探索和深入研究專門使用文本語料庫(即文本Sci-LLMs)訓練的科學大型語言模型,特別強調它們獲取化學和生物知識的能力。我們將簡要回顧現有的文本Sci-LLMs,并檢查它們的能力、所用數據集以及評估方法。本節的概覽如圖6所示。
**分子大型語言模型 **
大型語言模型在加速化學分子發現方面顯示出巨大潛力。在本節中,我們將回顧在分子語言(Mol-LLMs)中訓練的LLMs,包括它們的模型架構、能力、使用的數據集和評估標準的洞察。本節的概覽如圖8所示。
**蛋白質大型語言模型 **
在過去的幾年中,大型語言模型在蛋白質研究中變得越來越有影響力,提供了新穎的見解和能力,用于理解和操縱蛋白質。在本節中,我們提供了一個關于蛋白質的LLMs(稱為Prot-LLMs)的全面回顧,包括對它們的模型架構、使用的數據集、各種能力和相應評估標準的詳細討論。本節的概覽如圖9所示。
**基因組大型語言模型 **
在計算生物學領域,基因組數據顯示出與自然語言中觀察到的基于序列的信息的相似性,使得大型語言模型能夠用于分析基因組序列。在本節中,我們將回顧專為基因組語言(Gene-LLMs)量身定制的LLMs,包括對它們的模型架構、數據集和評估的洞察。本節的概覽如圖10所示。
多模態科學大型語言模型
多模態大型語言模型已成為一個突出的研究領域,利用強大的LLMs作為核心來處理多模態數據。這些模型具有將不同數據類型(如文本、圖像、音頻和其他形式的信息)結合起來的獨特能力,使得它們能夠在各個領域進行全面的探索和問題解決。這些多模態模型在生物和化學科學領域,特別是蛋白質、分子和基因組研究中,展現出有希望的前景。在本節中,我們探索了這些科學領域內多模態模型的最新進展(即MM-Sci-LLMs),強調它們的能力和利用的數據集。請注意,這項綜述專注于跨語言的多模態模型,涉及至少兩種來自不同領域的語言,例如文本和分子。因此,我們排除了MM-Sci-LLMs中的單語言多模態方法,如蛋白質序列和結構的聯合建模[228, 261, 302]。圖4展示了不同語言和模態的多樣形式,本節的概覽如圖11所示。
大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。
//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053
在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。
然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey
模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。
本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。
本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。
資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。
基礎模型(FMs)作為一種新興的AI技術組合的出現,在計算醫療領域掀起了一股機遇浪潮。這些模型的交互式特性,受預訓練數據和人類指令的指導,已經點燃了一個以數據為中心的AI范式,這一范式強調更好的數據特征描述、質量和規模。在醫療AI中,獲取和處理高質量臨床數據記錄一直是一個長期挑戰,涉及數據數量、標注、患者隱私和倫理等方面。在這篇綜述中,我們調研了FM時代(從模型預訓練到推理)的一系列以數據為中心的方法,旨在改善醫療工作流程。我們討論了AI安全性、評估和與人類價值觀的一致性方面的關鍵視角。最后,我們提供了基于FM的分析技術對提升患者結果和臨床工作流程性能的樂觀展望,這在醫療和醫學不斷發展的領域中顯得尤為重要。我們在//github.com/Yunkun-Zhang/Data-CentricFM-Healthcare提供了最新的醫療相關基礎模型和數據集列表。
**1 引言 **
基礎模型(FMs)的崛起在視覺識別[131, 211, 218]、語言理解[24, 59, 193, 194]和知識發現[21, 201]等領域引發了一系列突破。在計算醫療[3, 72]領域,FMs能夠處理各種臨床數據,其在邏輯推理和語義理解方面的吸引力不言而喻。例子涵蓋了醫療對話[241, 316]、患者健康檔案[48]和治療規劃[192]等領域。此外,鑒于其在大規模數據處理方面的優勢,FMs提供了一種快速有效評估實際臨床數據的新范式,從而改善醫療工作流程[208, 261]。 FMs研究重點放在以數據為中心的視角[318]。首先,FMs展示了規模的力量,其中擴大的模型和數據規模使FMs能夠捕獲大量信息,因此增加了對訓練數據量的迫切需求[272]。其次,FMs鼓勵同質化[21],這一點通過它們廣泛適應下游任務的能力得到了證明。因此,高質量的FM訓練數據變得至關重要,因為它會影響預訓練FM和下游模型的性能。因此,解決關鍵的數據挑戰被逐漸認為是研究的重點。在醫療系統中,收集高質量的記錄可以實現對患者特征(影像、基因組和實驗室檢測數據)的全面了解[6, 121, 244]。正如所示,以數據為中心的策略有望重塑臨床工作流程[122, 219],實現精確診斷[111],并揭示治療方面的見解[40]。 醫療數據挑戰在過去幾十年一直是持續的障礙,包括多模態數據融合(第4節)、有限的數據量(第5節)、標注負擔(第6節)以及患者隱私保護的關鍵問題(第7節)[38, 94, 108, 215]。為了應對,FM時代開啟了推進以數據為中心的AI分析的視角。例如,多模態FMs可以提供針對不同數據格式的可擴展數據融合策略[63, 146]。同時,FM生成高質量數據的吸引力可以大大幫助解決醫療和醫療保健社區中的數據數量、稀缺性和隱私問題[33, 63, 168, 257, 269, 331]。為了構建負責任的醫療AI解決方案,AI與人類一致性的不斷發展視角[77, 191]變得越來越重要。我們討論了FMs在現實世界中與人類倫理、公平和社會規范保持一致的必要性,以減少在性能評估、倫理合規性和患者安全方面的潛在風險[94, 154, 163, 198]。在FM時代,實現AI與人類的一致性進一步強調了數據焦點的重要性,激勵我們優先考慮計算醫療領域中的以數據為中心的挑戰。 在這篇綜述中,我們提供了一個關于開發、分析和評估針對醫療的FM為中心的方法的廣泛視角。從圖1所示的以數據為中心的視角來看,我們強調了患者、醫療數據和基礎模型之間的相互作用。我們收集并討論了分析FMs所需的基本概念、模型、數據集和工具(圖2)。最后,我們強調了在醫療和醫學中應用FMs時出現的新風險,包括隱私保護和倫理使用方面。我們提出了基于FM的分析技術的有希望的方向,以提高患者結果的預測性能并簡化臨床數據工作流程,最終將構建更好的、與AI人類相一致的、以數據為中心的工具、方法和系統,用于醫療和醫學。
基礎模型(FM)分析的增長為醫療應用提供了洞見[208, 295, 321]。我們回顧了解決醫療領域中FM多個方面的關鍵技術、工具和應用。我們展示了如何將通用目的的FMs應用于醫療領域(第3.1節)。我們介紹了專注于醫療的FMs,并展示了從通用FMs中獲得的預訓練優勢(第3.2節)。
基礎模型與醫療健康
在醫療和醫療保健中適應通用基礎模型 研究工作已經開始評估FM在醫學領域的卓越能力[85, 192, 227]。在這些研究中,我們確定了兩個核心技術:參數高效微調(PEFT)和情境中學習(ICL)。
** 通過參數高效微調(PEFT)進行適應。**
PEFT方法已被應用于將FMs適配到醫學任務。例如,Dutt等人[68]展示了PEFT方法在醫學圖像分類和文本到圖像生成任務的數據有限場景中顯著優于FMs的完全微調。Gema等人[85]提出了一個兩階段PEFT框架,將LLaMA[263]適應到一系列臨床任務。在這項工作中,第一階段應用LoRA[105]對LLaMA進行微調,構建了針對臨床筆記的Clinical LLaMA-LoRA;第二階段再次應用LoRA將臨床FM適配到下游任務。他們還展示了LoRA作為PEFT方法的主要選擇之一,非常適合臨床領域適配。同樣,Van Veen等人[271]應用LoRA對T5模型[143, 214]進行微調,用于放射科報告摘要。他們還將LoRA與情境中學習結合應用于臨床文本摘要任務,表現出比人類專家更好的性能[273]。
通過情境中學習(ICL)進行適應。
ICL已證明在適應FMs,特別是大型語言模型(LLMs),到各種醫療任務中是有效的。通過精心設計的特定任務輸入上下文(即提示),FM可以在不修改任何模型參數的情況下很好地完成醫療任務。例如,Nori等人[192]評估了GPT-4[194]在美國醫學執照考試(USMLE)上的表現,而沒有特別設計的提示。GPT-4展示了其令人期待的零樣本性能,即使沒有添加相關醫療背景數據。Lyu等人[174]利用ChatGPT[193]將放射學報告翻譯成通俗語言,以便于報告理解和翻譯。實驗表明,通過使用更清晰、更結構化的提示,整體翻譯質量可以提高。Roy等人[227]展示了SAM[131]在腹部CT器官分割中的出色泛化能力,通過其點/邊框提示。Deng等人[58]評估了SAM在腫瘤分割、非腫瘤組織分割和整個幻燈片圖像(WSI)上的細胞核分割的零樣本性能,證明了SAM在病理掃描中大型連通物體上表現良好。Chen等人提出了“思維診斷”(DoT)提示[43],以協助專業人士檢測認知扭曲。DoT通過提示LLMs依次進行主觀性評估、對比推理和模式分析來診斷精神疾病。
預訓練醫療基礎模型
研究人員努力基于大規模未標記的醫療數據預訓練FMs,用于健康記錄檢查[7, 90, 245]、醫學影像診斷[11, 287]和蛋白質序列分析[45, 157]。原則上,預訓練過程可以概括為兩個主要方面:預訓練策略和模型初始化。
預訓練策略。
醫療FM的預訓練通常利用一系列從通用領域FMs衍生的預訓練策略,因為它們具有潛在的泛化能力。第一個預訓練策略是遮蔽語言/圖像建模,遵循BERT[59]和遮蔽自動編碼器(MAE)[96]。例如,SciBERT[14]和PubMedBERT[90]分別基于BERT策略在多領域科學出版物和生物醫學領域特定語料庫上進行預訓練。BioLinkBERT[309]利用生物醫學文檔之間的鏈接,并基于遮蔽語言建模和文檔關系預測任務進行預訓練。BioGPT[172]基于GPT-2[213]在PubMed1摘要上進行預訓練,用于生成語言任務。RETFound[334]是一個用于視網膜圖像疾病檢測的FM,基于MAE在大量未標記的視網膜圖像上進行預訓練,以重構具有75%遮蔽區域的輸入圖像。同樣,General Expression Transformer (GET)[74]是一個用于建模213種人類細胞類型的轉錄調節的FM。GET被預訓練以預測輸入中遮蔽調節元素的基序結合分數,以學習調節模式。 對比學習是另一種重要的醫療FM預訓練策略。例如,REMEDIS[11]是一個通過對比學習預訓練的醫學視覺模型,用于提取醫學圖像的代表性視覺特征。例如MedCLIP[287]、MI-Zero[171]和PLIP[110]等視覺-語言模型是通過對比學習在特定領域的圖像-文本對上進行預訓練的。它們在放射學和病理學中的零樣本圖像分類任務上取得了積極的表現。
結論
基礎模型(FMs)及其在醫療保健領域的應用所取得的顯著進展,為更好的患者管理和高效的臨床工作流程打開了新的可能性。在這些努力中,收集、處理和分析可擴展的醫療數據對于基礎模型研究變得越來越關鍵。在這篇綜述中,我們提供了從數據中心視角出發對基礎模型挑戰的概述。基礎模型具有巨大潛力,可以緩解醫療保健中的數據挑戰,包括數據不平衡和偏見、數據稀缺以及高昂的注釋成本。由于基礎模型強大的內容生成能力,對數據隱私、數據偏見以及對生成的醫療知識的倫理考慮需要更加警惕。只有充分可靠地解決數據中心的挑戰,我們才能更好地利用基礎模型在醫學和醫療保健的更廣泛范圍內的力量。
隨著大型語言模型(LLMs)和視覺基礎模型(VFMs)的出現,利用大型模型的多模態AI系統有潛力像人類一樣感知現實世界、做出決策和控制工具。近幾個月來,LLMs在自動駕駛和地圖系統中顯示出廣泛的關注。盡管潛力巨大,但對關鍵挑戰、機會和未來應用于LLM駕駛系統的努力仍缺乏全面理解。在這篇論文中,我們對這一領域進行了系統性的研究。我們首先介紹多模態大型語言模型(MLLMs)的背景、使用LLMs的多模態模型開發以及自動駕駛的歷史。然后,我們概述了現有的MLLM工具,用于駕駛、交通和地圖系統,以及現有的數據集和基準測試。此外,我們總結了第一屆WACV關于自動駕駛的大型語言和視覺模型研討會(LLVM-AD)的工作,這是首個關于自動駕駛中LLMs的綜述。為了進一步推動這一領域的發展,我們還討論了在自動駕駛系統中使用MLLMs需要由學術界和工業界解決的幾個重要問題。論文集可以在Awesome-Multimodal-LLM-Autonomous-Driving中找到。
大型語言模型(LLMs)最近獲得了顯著的關注,顯示出在模仿類似人類的智能方面的顯著潛力。這些進展激發了對多模態大型語言模型(MLLMs)[199]的熱情,這些模型將LLMs的復雜推理能力與圖像、視頻和音頻數據結合起來。模態對齊使它們能夠以更高的熟練度執行各種任務,包括分類圖像、匹配文本和對應視頻以及語音檢測。此外,[174] 證明LLMs可以處理機器人領域的簡單任務,包括基本的邏輯、幾何和數學推理,到復雜的任務,如空中導航、操縱和具體化的代理。然而,LLMs融入交通和自動駕駛車輛領域還處于開創階段。將語言交流與全景圖像、激光雷達點云和駕駛行為等多模態感官輸入相結合,可以徹底改變當前自動駕駛系統的基礎模型。 最近,更有能力的基礎模型的出現使SAE L3駕駛自動化成為可能[28]。然而,多模態LLMs在自動駕駛中的集成并沒有跟上這些進展,一個自然的問題是,基于LLM的模型如GPT-4、PaLM-2和LLaMA-2是否有潛力增強自動駕駛?圖2為我們提供了一個很好的例子。不可否認,將LLMs整合到自動駕駛車輛行業可以帶來車輛智能、決策和乘客互動方面的重大范式轉變[30,31],提供一個更以用戶為中心、適應性強和值得信賴的交通未來。 在自動駕駛的背景下,LLMs將在關鍵模塊上帶來變革性影響:感知、運動規劃和運動控制[180]。在感知方面,LLMs可以利用外部API訪問實時基于文本的信息源,如高清地圖、交通報告和天氣更新,使車輛獲得對周圍環境更全面的了解[30]。一個很好的例子是改進車載地圖中的導航。LLMs可以處理實時交通數據,識別擁擠的路線,并提出替代路徑,最終優化導航的效率和安全性[159]。在運動規劃方面,LLMs通過利用它們的自然語言理解和推理[110]發揮作用。它們促進以用戶為中心的溝通,并使乘客能夠使用日常語言表達他們的意圖和偏好。此外,LLMs還處理文本數據源,如地圖、交通報告和實時信息,然后為優化路線規劃做出高層決策[124]。
在運動控制的背景下,大型語言模型(LLMs)首先使控制器參數的定制化成為可能,以符合駕駛者的偏好,實現駕駛體驗的個性化。此外,LLMs還可以通過解釋運動控制過程的每一步提供透明度。多模態大型語言模型(MLLMs)代表了LLMs的下一個發展層次,將語言理解的能力與處理和整合多樣數據模式的能力結合在一起。在自動駕駛的領域內,MLLMs的重要性是巨大且變革性的。裝備了MLLMs的車輛可以處理來自文本輸入的信息以及車載攝像頭和其他傳感器捕獲的其他特征,使復雜交通場景和駕駛行為的學習變得更加容易。在自動駕駛之外,MLLMs還可以通過語音通信和用戶偏好分析,顯著增強個性化的人車交互。在未來的SAE L4-L5級自動駕駛車輛中,乘客可以在駕駛過程中通過語言、手勢甚至目光來傳達他們的請求,而MLLMs可以通過集成視覺顯示或語音響應提供實時的車內反饋。
在我們將自動駕駛和高級建模領域橋接起來的追求中,我們聯合舉辦了2024年IEEE/CVF冬季計算機視覺應用會議(WACV)上的首屆大型語言和視覺模型自動駕駛研討會(LLVM-AD)。該活動旨在增強學術研究人員和行業專業人士之間的合作,探索在自動駕駛領域實施多模態大型語言模型的可能性和挑戰。LLVM-AD還發布了一個后續的開源真實世界交通語言理解數據集,催化了實際進展。
本文的主要貢獻可以概括如下:
如圖1所示,我們的綜述論文旨在為自動駕駛的MLLMs提供全面概述,并討論不斷增長的趨勢和未來方向。接下來的兩個部分分別簡要描述了自動駕駛和MLLMs的發展歷史。第4節介紹了關于自動駕駛中MLLMs的當前已發表作品,涵蓋感知、運動規劃和運動控制。第5節介紹了利用MLLMs的相關自動駕駛行業應用。在最后三個部分中,我們總結了第一屆WACV LLVM-AD研討會的論文,并討論了LLMs和MLLMs在自動駕駛領域的潛在研究方向。 自動駕駛的發展 自動駕駛的追求是一個逐步前進的旅程,它由愿景抱負和技術能力之間的持續互動所標志。自動駕駛的第一波全面研究始于20世紀末。例如,由卡內基梅隆大學發起的自主陸地車輛(ALV)項目利用來自立體攝像頭、聲納和ERIM激光掃描儀的傳感器讀數執行諸如車道保持和障礙物避讓等任務。然而,這些研究受限于傳感器精度和計算能力的限制。
自動駕駛發展
在過去的二十年中,自動駕駛系統取得了快速的改進。2014年由汽車工程師學會(SAE)發布的分類系統定義了六個級別的自動駕駛系統。這種分類方法現已被廣泛接受,并揭示了研究和開發進程的重要里程碑。深度神經網絡(DNNs)的引入也發揮了重要作用。借助深度學習,計算機視覺對于解釋復雜的駕駛環境至關重要,為諸如目標檢測、場景理解和車輛定位等問題提供了最先進的解決方案。深度強化學習(DRL)在提升自動駕駛車輛的控制策略方面也發揮了關鍵作用,完善了運動規劃和決策過程,以適應動態和不確定的駕駛條件。此外,傳感器精度和計算能力的提高使得車輛上能運行更大、更準確的模型。隨著這些改進,更多L1至L2級別的高級駕駛輔助系統(ADAS)如車道居中和自適應巡航控制現在已在日常車輛上可用。諸如Waymo、Zoox、Cruise和百度等公司也在推出具有3級或更高自主性的Robotaxis。然而,這些自動駕駛系統在許多駕駛邊緣情況下仍然會失敗,例如極端天氣、糟糕的光照條件或罕見情況。
受當前局限性的啟發,自動駕駛研究的一部分現在專注于解決自動系統的安全性和增強自動系統的安全性。由于深度神經網絡通常被視為黑盒,可信AI旨在使系統更加可靠、可解釋和可驗證。例如,為自動駕駛系統生成對抗性的安全關鍵場景,以便系統更有能力處理低概率事件。另一種提高整體安全性的方法是通過車對基礎設施和車對車通信。通過來自附近實例的信息,系統將具有改進的魯棒性,并可以接收早期警告。與此同時,隨著大型語言模型展示出其強大的推理和場景理解能力,正在進行研究以利用它們來提高自動駕駛系統的安全性和整體性能。
多模態大型語言模型
最近,多模態大型語言模型(MLLMs)已成為一個重要的研究領域。這些模型利用了大型語言模型(LLMs)的力量,如ChatGPT、InstructGPT、FLAN和OPT-IML,來執行跨越多種模態(如文本和圖像)的任務。它們展現出了令人驚訝的新興能力,例如基于圖像編寫故事和執行無需光學字符識別的數學推理,這在傳統方法中很罕見。這表明了通往人工通用智能的潛在路徑。MLLMs中的關鍵技術和應用包括多模態指令調整(Multimodal Instruction Tuning),它調整模型以跟隨不同模態的指令;多模態上下文學習(Multimodal In-Context Learning),允許模型從多模態數據的上下文中學習;多模態思維鏈(Multimodal Chain of Thought),使模型能夠跨不同模態保持思維鏈;以及LLM輔助視覺推理(LLM-Aided Visual Reasoning, LAVR),利用LLMs來幫助視覺推理任務。MLLMs更符合人類感知世界的方式,提供了比LLMs更友好的用戶界面,并支持更廣泛的任務范圍。MLLMs的最新進展得益于GPT-4V的發展,盡管它沒有開放的多模態界面,但已展示出驚人的能力。研究社區已經做出了重大努力,開發了功能強大的開源MLLMs,并展示了驚人的實際能力。
**多模態語言模型在自動駕駛領域 **
在自動駕駛行業中,多模態語言模型(MLLMs)有潛力理解交通場景,改善駕駛決策過程,并徹底改變人與車輛的互動方式。這些模型接受了大量交通場景數據的訓練,使它們能夠從地圖、視頻和交通規則等不同來源提取有價值的信息。因此,它們可以增強車輛的導航和規劃能力,確保安全性和效率。此外,它們能夠適應不斷變化的道路條件,并具有與人類直覺非常相似的理解水平。
多模態語言模型在感知方面的應用 傳統的感知系統通常僅限于識別一組預定義的特定對象類別,這限制了它們的適應性,并需要收集和注釋新數據的繁瑣過程以識別不同的視覺概念。因此,它們的通用性和實用性受到了削弱。相比之下,一種新的范式正在興起,它涉及從原始文本描述和各種模態中學習,提供更豐富的監督來源。
多模態大型語言模型(MLLMs)由于能夠通過文本分析來分析非文本數據(如圖像和點云)而受到了顯著關注。這些進展極大地提高了零樣本和少樣本圖像分類、分割和對象檢測。
開創性的模型如CLIP已經表明,通過訓練將圖像與標題匹配,可以有效地從頭開始創建圖像表示。在此基礎上,Liu等人引入了LLaMa,它結合了視覺編碼器和LLM,增強了對視覺和語言概念的理解。Zhang等人進一步擴展了這項工作,開發了Video-LLaMa,使MLLMs能夠處理視頻中的視覺和聽覺信息。這代表了機器感知在整合語言和視覺模態方面的重大進展。
多模態語言模型用于規劃和控制 在機器人學領域,語言在規劃和控制任務中的使用已有悠久的歷史,可以追溯到早期展示人機互動的自然語言詞匯解析的使用[187],并且它已經被廣泛研究用于機器人領域。關于這個主題存在廣泛的綜述性研究[104, 164]。已經被充分證明,語言作為非專業人員與機器人交流的有價值接口[82]。此外,通過基于語言的控制實現機器人系統對新任務的泛化能力已經在各種研究中得到證明[2, 66]。已經廣泛研究了實現特定規劃或控制任務或策略,包括基于模型的[5, 121, 153]、模仿學習[105, 155]和強化學習[47, 67, 116]。
由于多模態語言模型在零樣本學習[167]、上下文學習[114]和推理[184]方面具有顯著的能力,許多研究表明LLM(多模態語言模型)可以啟用規劃[152, 176]和通過文本描述來感知環境[157],以開發用戶在機器人控制中的參與[174]。[81]通過文本完成和語義翻譯的組合將自然語言命令分解為可執行操作序列,以控制機器人。SayCan [2]利用加權LLMs來生成合理的動作并控制機器人,而[62]使用環境反饋,LLMs可以發展內心的自言自語,增強了它們在機器人控制場景中進行更全面處理的能力。Socratic Models [202]使用視覺語言模型替代用于機器人行動生成的語言提示中的感知信息。[96]介紹了一種使用LLMs直接生成機器人執行任務的策略代碼、指定反饋循環和編寫低級控制原語的方法。
在自動駕駛方面,LLMs可以作為支持人機交互的橋梁。對于通用目的,LLMs可以是任務無關的規劃器。在[60]中,作者發現預訓練的LLMs包含了關于一致和可執行行動計劃的可操作知識,無需額外的訓練。黃等人[61]提出了使用LLMs將任意自然語言命令或任務描述轉化為具體和詳細列出的目標和約束。[185]提出將LLMs集成為決策解碼器,以生成沿著自主車輛中的思維鏈提示的行動序列。在[31]中,作者展示了LLMs可以將駕駛員的任意命令分解為一系列中間階段,其中包括實現目標的行動的詳細描述。
同時,增強自動駕駛的安全性和可解釋性也是至關重要的。多模態語言模型提供了理解環境及決策過程透明性的潛力。[77]顯示,視頻到文本模型可以幫助生成與下游控制器對齊的環境文本解釋。Deruyttere等人[33]比較了基線模型,并顯示LLMs可以識別與自然語言命令或描述相關的環境中的特定對象。為了提高模型的可解釋性,Xu等人[193]提出了集成LLMs以生成關于計劃行動的解釋的方法。在[31]中,作者提出了一個框架,LLMs可以提供關于它們如何感知和對環境因素(如天氣和交通狀況)做出反應的描述。
此外,自動駕駛中的LLMs還可以促進控制器參數的微調,使其與駕駛員的偏好相一致,從而獲得更好的駕駛體驗。[150]通過引導參數矩陣適應將LLMs集成到低級控制器中。除了LLMs的發展,多模態語言-圖像模型(MLLMs)也取得了巨大進展。MLLMs具有作為自動駕駛的通用和安全規劃模型的潛力。處理和融合視覺信號,如圖像,可以通過結合視覺線索和語言指令[69, 84]增強導航任務。在自動規劃過程中,互操作性挑戰一直是一個問題[23, 46]。然而,近年來在解決自動規劃中的互操作性挑戰方面取得了巨大進展,利用MLLMs在自動駕駛規劃階段的出色推理能力[22, 41]。在一個顯著的方法中,陳等人[22]將矢量化的對象級2D場景表示集成到預訓練的LLM中,通過適配器實現直接解釋和全面推理各種駕駛場景。此外,付等人[41]利用LLMs進行推理,并將這種推理轉化為可執行的駕駛行為,展示了LLMs在增強自動駕駛規劃方面的多功能性。
此外,GPT-Driver [110]將運動規劃重新構想為一個語言建模問題,并利用LLMs在運動規劃中以自然語言描述高精度軌跡坐標及其內部決策過程。SurrealDriver [68]模擬了基于MLLM的生成駕駛代理,可以感知復雜的交通情景并生成相應的駕駛操作。[76]研究了在自動駕駛中使用文本描述與預訓練的語言編碼器進行運動預測的可能性。
自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。
自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。
近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。
在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為
基于LLM的自主智能體構建
近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。
基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。
預測性和健康管理(PHM)技術在工業生產和設備維護中發揮著關鍵作用,通過識別和預測可能的設備故障和損壞,從而允許采取必要的維護措施以增強設備的使用壽命和可靠性,同時降低生產成本和停機時間。近年來,基于人工智能(AI)的PHM技術在工業物聯網和大數據背景下取得了顯著的成就,并且在各種行業中得到了廣泛應用,例如鐵路、能源和航空,用于條件監控、故障預測和健康管理。如ChatGPT和DALLE-E等大規模基礎模型(LSF-Models)的出現標志著AI從AI-1.0進入了新的AI-2.0時代,其中深度模型從單模態、單任務、有限數據的研究范式迅速演變為多模態、多任務、大數據和超大型模型范式。ChatGPT代表了這種研究范式的里程碑式成就,由于其高度智能的自然語言理解能力,為通用人工智能帶來了希望。然而,PHM領域缺乏如何應對AI領域這一重大變化的共識,并需要進行系統的回顧和規劃以明確未來的發展方向。為了填補這一空白,本文系統地闡述了LSF-Models的關鍵組成部分和最新發展。然后,我們系統地回答了如何構建適用于PHM任務的LSF-Model,并概述了這一研究范式的挑戰和未來發展路線圖.
//www.zhuanzhi.ai/paper/953013e449244efd0ba5f615c2ffa34c
1. 引言
預測性和健康管理(PHM)是確保工業設備安全可靠運行的關鍵技術 [1, 2]。通過全面監控和管理設備,PHM減少設備故障的可能性,最大限度地減少生產停機時間,從而提高設備的可靠性和生產效率,為企業創造顯著的經濟效益 [3, 4]。在工業生產實踐中,PHM有三個核心任務:故障檢測(異常檢測)[5-7],故障診斷 [8-11],和剩余使用壽命(RUL)估計 [12-14]。異常檢測的目標是及時識別設備的異常活動和狀態,而故障診斷的目標是確定設備故障的原因和位置。另一方面,剩余使用壽命估計預測設備未來可能出現故障的時間。這三項任務從不同的角度共同工作,以確保設備的安全運行。隨著工業設備變得越來越復雜,運行監控數據量增大,工業數據分析、設備狀態監控和健康管理的自動化成為必要 [15]。這種自動化可以大幅度降低工業資產的維護成本,提高設備狀態識別和故障預測的效率和準確性,增強設備運行的可靠性和安全性.
近年來,隨著機器學習和深度學習[16-18]技術的進步,PHM領域取得了顯著的進步,實現了工業設備狀態自動化監控和故障預測,大大提高了工業資產維護的智能水平。自20世紀初以來,機器學習技術在實現PHM的智能識別和決策中發揮了關鍵作用[19-21]。基于機器學習的PHM模型主要包含兩個核心組件:特征工程和機器學習模型。特征工程利用統計分析和信號分析技術[22-26]從工業監控數據中提取健康相關的特征信息。機器學習模型使用各種預測和識別模型,如支持向量機(SVM)[27-29]和K最近鄰(KNN)[30-32],實現智能決策。這種研究范式使PHM實現了初步的自動化,減少了工業設備維護中對人工的需求。然而,盡管取得了進步,但仍需要手動特征工程,限制了PHM處理大規模數據的能力。機器學習模型的有限學習能力使這種范式難以適應大數據時代帶來的挑戰。
自2012年以來,深度學習技術[33-35]憑借其強大的數據分析、特征提取和智能決策能力,徹底改變了各種研究領域的范式。深度學習通過建立多級神經網絡結構實現復雜數據的自動特征提取和模式識別,可以自動處理高維、非線性和大量的數據,并具有適應性和泛化能力。因此,深度學習已經成為PHM領域的主流工具[17, 18, 36],不斷提高工業資產維護的自動化和智能化水平。針對不同的PHM應用和任務,已經提出了各種深度網絡模型,如自編碼器[37-39],卷積神經網絡(CNNs)[40-49],和遞歸神經網絡(RNNs)[50-52]。自編碼器通過數據壓縮或重建實現無監督的表示學習,在數據噪聲減少、降維和異常檢測等任務中表現優秀[53]。CNNs基于卷積理論,通過權值共享和層次學習實現高效的時空特征提取,使其適用于工業設備的健康監控、故障預測和診斷,以及剩余使用壽命預測[54]。RNNs擅長編碼長距離的時間特征,使其非常適合分析和處理各種時間信號[55]。因此,RNNs在各種工業PHM應用中得到了廣泛的使用。深度學習技術通過構建端到端的智能決策模型,顯著減少了工業PHM應用中對人工的需求[8]。然而,現有的深度學習模型在多任務、泛化和認知能力方面仍存在限制。因此,突破這些限制,實現具有高泛化和認知能力的全面多任務智能模型,是亟待解決的問題。
在過去的兩年里,大規模基礎模型(LSF-Models)[56, 57],如GPT-3 [58, 59]和ChatGPT [60, 61],展示了其流暢的文本對話中高度智能的自然語言理解能力。大規模多模態文本和圖像理解模型,如GPT-4 [62],DALL-E-2 [63],和分割任何模型(SAM)[64],進一步展示了這一研究范式在多模態對話、圖像生成和分割方面的非凡成就。基于AI的深度模型已從單模態、單任務、有限數據的研究范式(AI-1.0)快速發展到多模態、多任務、海量數據和超大型模型的研究范式(AI-2.0)。圖1清楚地顯示了這兩種研究范式的區別。AI-2.0的核心是具有跨領域知識的LSF-Model,它可以理解數據的通用概念,并在未見過的數據上實現零次學習的泛化,無需額外的訓練[64]。這種模型的實現主要基于以下三個關鍵組件,強大的特征提取模型[65-68],無監督表示學習算法[69-71],和多模態融合算法[72, 73]。此外,廣泛的未標記或標記的多模態數據是這種發展的先決條件。然而,在PHM領域如何構建具有跨領域知識的LSF-Model仍然未知,如何開發適用于PHM領域的特征提取、表示學習和多模態融合算法還缺乏足夠的研究和分析。此外,PHM領域如何應對AI領域的這一巨大變化仍然沒有定論,缺乏系統的文獻回顧,以及未來研究方向的路線圖。為了填補這個空白,本文首先系統地介紹了LSF-Models的關鍵組件和最新進展。然后,我們系統地回答了如何構建適用于PHM領域的有效LSF-Model。我們也詳細闡述了這個研究范式將面臨的挑戰以及未來的發展路線圖。
具體來說,本綜述的主要工作總結如下:1)本文提供了對LSF-Models的三個關鍵組成部分及其各自研究進展的全面回顧。2)根據PHM領域的實際情況,本文系統地分析并回答了如何構建適用于工業PHM應用的有效LSF-Model。3)本文討論了PHM領域LSF-Model研究的路線圖,并詳細分析了這個研究范式面臨的挑戰和解決方案。本文的其余部分組織如下。第2部分關注LSF-Models的關鍵組成部分,包括Transformer,自監督學習,和多模態融合。第3部分回顧了LSF-Models在自然語言處理和計算機視覺中的研究進展。第4部分系統地回答了如何為PHM實施LSF-Models,包括研究狀態,存在的問題和解決方案。第5部分全面討論了PHM領域LSF-Model研究的挑戰及其未來的路線圖。第6部分提出了結論。
2. 大模型進展
在前面的部分中,我們討論了構建LSF-Models的一些關鍵組件。本節分別在NLP和CV的領域中,提供了LSF-Models進展的廣泛概述和討論,以展示這些領域最新的發展趨勢和方向。
3. 大規模基礎模型用于預測性健康管理(PHM)
盡管深度學習模型在PHM中取得了顯著的性能,但由于它們通常針對特定的領域和任務進行訓練和優化,因此它們的效果有限。因此,在復雜和開放的工業場景中,深度學習模型可能會展現出一些限制,例如有限的泛化、多任務處理和認知能力。現有的模型可能在已知的場景中表現良好,但在未知的場景中很難有效地泛化[192-194]。這種缺乏零樣本泛化能力使得它難以應對實際工業場景的復雜性。此外,現有的深度模型通常專注于單一任務。然而,工業設備有數百個核心組件,所有這些組件都需要健康監測和故障預測。為每個核心組件開發相應的深度模型是不現實的。最后,現有的深度模型具有有限的認知能力,很難理解工業數據的性質和一般概念,所以它們經常輸出難以理解和錯誤的結果。LSF-Models的研究為我們展示了一個有效的解決方案,可以成功解決上述問題。如第3節所述,現有的LSF-Models,如ChatGPT [62] 和 SAM [64],已經展示出了出色的數據理解、零樣本泛化和強大的多任務處理能力。此外,它還具有一定的高級認知能力,可以解決一些推理任務。因此,LSF-Models的成功標志著AI領域的研究范式從單模式、單任務、有限數據的研究范式(AI 1.0)轉變為多模式、多任務、大數據和超大模型的研究范式(AI 2.0)。然而,如何在PHM領域開發LSF-Model仍然沒有定論。為了推動LSF-Model在PHM領域的研究和應用,本節從四個方面解釋和分析了如何為PHM應用構建LSF-Models。
4. 挑戰與未來路線圖
在前一部分中,我們討論了在PHM領域構建LSF-模型的技術細節和可行解決方案。本節試圖從更廣泛、更全球的角度討論這些模型的挑戰、路線圖和前景。通過這樣做,我們可以更好地理解整個大局,并確定PHM領域的改進和未來研究的方向。
圖9展示了PHM領域中LSF-模型的未來路線圖。根據LSF-模型面臨的挑戰,本節探討如何解決這些挑戰,并詳細闡述了未來的路線圖。下面將進行詳細描述。
5. 結論
目前,深度學習的研究正在經歷一場新的革命,即從單模式、單任務、有限數據的研究范式(AI 1.0)迅速發展到多模態、多任務、海量數據和超大模型的研究范式(AI 2.0)。AI 2.0關注的是開發具有跨領域知識的大型基礎模型(LSF-Models),這些模型在海量數據集上訓練后可以展現出強大的泛化能力和多任務能力。為此,本文全面回顧了LSF-Models的三大技術要點,并分析了LSF-Models在自然語言處理(NLP)和計算機視覺(CV)中的研究現狀。文獻回顧顯示,PHM領域對LSF-Models的研究嚴重缺乏,且對如何構建適用于PHM應用的LSF-Models尚無可行解決方案。因此,本文從數據集、深度模型、學習算法和數據融合四個方面全面回答了如何構建適用于PHM領域的LSF-Models。最后,本文試圖從更廣闊、更全球化的角度討論LSF-Models的挑戰和路線圖。總的來說,本文系統地介紹了LSF-Models及其在PHM領域的研究現狀、挑戰、解決方案、路線圖和前景,預計能為此領域未來的研究提供寶貴的指導。
ChatGPT和GPT-4的顯著成就引發了對大型語言模型在通用人工智能(AGI)領域的研究和關注。這些模型為我們提供了更接近人類思維的智能解決方案,使我們能夠使用通用人工智能來解決各種應用中的問題。然而,在遙感領域,關于AGI實施的科學文獻相對較少。現有的與AI相關的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。這正是視覺-語言模型的優勢所在,因為它們可以推理關于圖像及其關聯文本描述的信息,從而更深入地理解基礎語義。視覺-語言模型可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。本文對遙感領域的視覺-語言模型研究進行了全面的回顧,總結了最新的進展,突出了當前的挑戰,并指出了潛在的研究機會。具體來說,我們回顧了視覺-語言模型在幾個主流遙感任務中的應用,包括圖像描述,基于文本的圖像生成,基于文本的圖像檢索,視覺問題回答,場景分類,語義分割和對象檢測。對于每個任務,我們簡要描述了任務背景并回顧了一些代表性的工作。最后,我們總結了現有工作的局限性,并提供了一些未來發展的可能方向。本回顧旨在為遙感領域的視覺-語言模型研究的當前狀態提供全面的概述,并激發對這一激動人心且重要領域的進一步研究。
1. 引言
深度學習已經成為遙感(RS)應用的強大工具。早期的遙感工作主要側重于使用從圖像中提取的視覺特征來執行各種任務,例如物體檢測、語義分割、土地覆蓋分類和變化檢測。作為最常用的深度學習方法之一,卷積神經網絡(CNNs)可以自動學習遙感圖像的分層表示,使它們能夠捕獲局部和全局的空間特征和模式。此外,注意力機制已被整合進深度學習模型,通過讓模型關注輸入的特定區域來提高其在遙感任務中的表現。由于深度神經網絡強大的特征學習能力,深度學習模型在各種遙感任務中的有效性得到了證明,與傳統的機器學習方法相比,它們達到了最先進的性能。然而,現有的基于深度學習的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。例如,在進行土地覆蓋分類時,如果只有視覺的模型可能會把一個像高速公路的建筑物屋頂像素分類為高速公路。這是因為模型缺乏高速公路不能在建筑物屋頂內的一般知識。 近年來,大型語言模型(LLMs)在自然語言處理(NLP)和計算機視覺領域成為了熱門的研究話題。這些模型構建了大規模的視覺和自然語言理解轉換網絡,并在各種語言理解任務中取得了最先進的性能,例如語言建模、文本生成和問題回答[115]。值得注意的是,ChatGPT的顯著成就在通用人工智能(AGI)領域的大型語言模型研究中引發了一波關注和研究。預期這些模型在圖像理解和自然語言處理方面將會有更多的進步,他們有望將語言理解的水平提升到前所未有的水平。大型語言模型的巨大成功鼓勵了大量的視覺-語言模型(VLMs)研究。
視覺-語言模型(VLMs)通常被定義為一類結合了計算機視覺和自然語言處理技術的人工智能模型,它們能夠生成對視覺和文本信息的全面理解。通過共同識別視覺和語義模式及其關系,VLMs可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。更重要的是,通過將視覺模型與具有一般推理能力的大型語言模型(LLMs)結合,VLMs提供了一種更全面和類人的方法來理解視覺內容。近年來,VLMs在各種計算機視覺任務中展示了令人印象深刻的結果,包括圖像理解[19],[198],視覺問題回答[75],[74],文本到圖像生成[125],語義分割[20],[187],對象檢測[183],[99]等。 在遙感中,使用VLMs是一個相對新的研究領域。隨著與遙感數據相關的文本元數據的日益增多,研究人員已經開始探索在這個領域使用視覺和語言模型[147]。近年來,一些早期的嘗試試圖探索VLMs用于各種遙感數據分析任務,包括遙感圖像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遙感圖像生成[10],[18],[189],[48],[168],基于文本的遙感圖像檢索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],視覺問題回答[96],[192],[192],[15],[15],[3],[9],[174],[175],場景分類[72],[136],[113],[150],[86],語義分割[20],[187],對象檢測[58],[183],[99]等。隨著大規模遙感數據集的可用性增加和深度學習技術的進步,預計視覺和語言模型的使用將在遙感應用的未來中發揮重要作用。
在這項研究中,我們提供了一項全面的綜述,從視覺到語言,再到視覺-語言模型(VLMs)在遙感(RS)中模型的演變。具體來說,我們對近期在遙感領域VLMs的進展進行了廣泛的文獻調研。此外,我們為遙感應用領域VLMs的未來研究方向提供了有價值的見解和建議。我們的工作有助于更好地理解VLMs的當前最新水平,并為這個領域的研究人員提供了探索這些模型在遙感任務中潛力的指導。
遙感中的視覺-語言模型
A. 基礎模型。
基礎模型指的是在大量數據上以任務無關的方式預訓練的大型深度學習神經網絡。這些模型可以通過微調、少樣本學習或零樣本學習應用于各種下游任務。基礎模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。這些模型已經在大量文本數據上進行了預訓練,并能夠為各種NLP任務進行微調,如語言翻譯、問答和文本分類。在遙感(RS)中,預訓練對于提高分類、檢測和分割任務的性能至關重要[165]。以前的方法主要利用ImageNet數據集進行預訓練。然而,將ImageNet預訓練模型轉移到RS任務會因自然圖像和RS圖像之間的巨大差異而產生巨大的領域差距。因此,設計一個針對RS數據的基礎模型是必要的。研究人員使用兩種方法來達到這個目標:監督學習和自我監督學習。在監督學習中,[152]在MillionAID數據集上預訓練了深度神經網絡,這是一個大規模的RS數據集,并提高了這些模型在RS數據集上的性能。然而,需要大量標注數據仍然是一個障礙,因為它可能阻礙更大模型的訓練。因此,自我監督技術逐漸成為開發遙感基礎模型的主要方法,因為它們可以利用大量的未標注數據[157]。一些工作[2],[79],[6],[105],[47]采用對比學習訓練基礎模型,加入RS特定信息,如地理數據、時間序列數據、音頻數據等。
最近,遮蔽圖像建模(MIM)在計算機視覺中越來越受到關注,如BEiT [8],MAE [45],SimMIM [164],因為它消除了對額外信息、數據增強和正負對選擇的需要。因此,利用大量數據變得更容易。一些工作將MIM應用于開發RS基礎模型。例如,[137]從衛星和航空平臺收集了200萬張RS圖像,創建了一個大規模的RS數據集。基于這個數據集,他們設計了第一個生成自監督RS基礎模型,RingMo。RingMo在包括變化檢測、場景識別、對象檢測和語義分割在內的四個下游任務的八個數據集上取得了最新的成果。[153]首次嘗試構建一個具有大約1億參數的簡單視覺變換器,用于定制RS任務的大型視覺基礎模型。方法概述如圖7所示。他們還引入了一個旋轉的可變大小窗口注意機制,以增強視覺變換器適應RS圖像的能力。[106]發現在構建地理空間基礎模型時,應該考慮到在多樣化數據集上預訓練的模型,例如ImageNet-22k,因為它們的表現仍然有效。因此,他們以可持續的方式構建了一個用于地理空間應用的地理空間基礎模型。[14]開發了RS領域的第一個十億規模的基礎模型,并證明了將模型的大小從百萬規模增加到十億規模的效果。
B. 遙感圖像描述
遙感圖像描述(RSIC)是一項復雜的任務,需要機器理解遙感(RS)圖像的內容并用自然語言進行描述。這是一個具有挑戰性的任務,因為生成的描述不僅必須捕捉到不同規模的地面元素,還必須描述出它們的屬性以及它們之間的相互關系。與其它旨在預測單個標簽或單詞的任務不同,RSIC旨在生成全面的句子。為了生成簡潔而有意義的句子描述,重要的是要識別并識別出不同級別的地面元素,分析它們的屬性,并從高級角度利用類別依賴性和空間關系。
C. 基于文本的圖像生成
基于文本的圖像生成是一個新興的研究領域,它結合了自然語言處理和計算機視覺,以便從文本描述中創建逼真的圖像。將這種技術應用到遙感(RS)圖像中,在現實世界的應用中具有巨大的潛力。它可能帶來的一大益處是,通過根據文本描述生成逼真的RS圖像,來幫助城市規劃者。這將使他們能夠評估他們設計的可行性,并做出更明智的決策。另一個可能的用例是生成高質量的RS圖像標注數據集,這通常是一個具有挑戰性和耗時的過程。基于文本的圖像生成技術可以用于從文本描述中創建合成的RS數據集,從而緩解標注樣本的短缺。
D. 基于文本的圖像檢索
如何有效組織和管理大量的遙感(RS)數據,長期以來都是RS領域面臨的重大挑戰。為了解決這個挑戰,基于文本的圖像檢索(TBIR)已經成為一個突出的研究課題,旨在為RS數據管理提供有效的解決方案。圖像檢索的主要目標是從大型數據集中提取特定的圖像,近年來該領域已經得到了相當多的關注。其基本思想是縮小對目標圖像的搜索范圍,并檢索出與特定查詢相匹配的圖像。這項任務在諸如森林砍伐檢測、視覺導航和城市規劃等實際應用中具有價值。
E. 視覺問題回答
視覺問題回答(VQA)是一項旨在對與圖像相關的問題提供答案的任務。盡管在計算機視覺領域已經獲得了廣泛的關注,但在遙感(RS)領域仍處于早期階段。遙感VQA系統使非專業用戶可以使用自然語言問題作為查詢來與RS圖像進行交互,從而實現對圖像的用戶友好和高級理解。開創性的工作[96]建立了RS圖像的第一個大規模VQA基準數據集。從OpenStreetMap中收集了低分辨率和高分辨率的RS圖像數據,以及與圖像相關的人生成的問題和答案。在[96]中,作者提供了一種基準方法,使用卷積神經網絡(CNNs)進行視覺特征學習,采用長短期記憶網絡(LSTM)[48]進行文本嵌入提取。進一步設計了相互關注機制以增強視覺和文本特征之間的對齊。在[95]中,作者通過參考每張RS圖像中土地使用類別的存在,構建了一個大規模的遙感VQA數據集。鄭等人[192]引入了一個相互關注網絡,利用視覺和文本特征之間的語義對應關系,采用雙線性模塊進行特征融合。Chappuis等人[15]建議使用大型語言轉換器,例如BERT[32]進行文本特征學習,并證明其性能優于循環神經網絡。
F. 視覺定位
針對遙感數據的視覺定位(RSVG)是近期的一個新穎課題,對于這個任務的研究仍然有限。具體來說,RSVG涉及使用遙感圖像和相關的查詢表達式,為特定的感興趣的對象提供邊界框[180]。通過使用自然語言引導在遙感場景中定位對象的過程,RSVG提供了對象級別的理解,并為終端用戶提供便利。RSVG的潛在應用包括目標對象的檢測和識別、搜索和救援任務、城市規劃等。
G. 零樣本場景分類
零樣本遙感場景分類(RSSC)的目標是通過參考視覺特征和語義類別之間的語義關系來識別未見過的場景概念。Li等人[72]提出了第一種基于零樣本學習的遙感(RS)場景分類方法,該方法使用在Wikipedia語料庫上預訓練的word2vec模型來獲取類別名稱的語義嵌入,然后構建語義圖以捕獲類別間的關系。Quan等人[113]通過結合半監督的Sammon嵌入算法[127]來對齊語義和視覺原型,從而加強了這種方法。
H. 少樣本目標檢測
目標檢測是遙感(RS)中的一個重要任務,涉及到通過識別其邊界框和類別標簽來檢測對象實例。由于近年來的大量研究努力,這個領域已經取得了重大進步,包括兩階段檢測器,如Fast RCNN[40]和Faster R-CNN[123],一階段檢測器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR變體[13],[200]。
I. 少樣本/零樣本語義分割
在語義分割領域,少樣本學習方法使得在有限數量的標注圖像下能夠進行新類別的分割。最近的研究主要集中在兩類方法,即參數匹配方法和原型方法。值得注意的是,開創性的工作PANet [154]通過引入一個原型對齊模塊,為每個語義類別生成高度代表性的原型,并基于特征匹配進行查詢對象的分割,從而在少樣本分割領域實現了突破。Jiang等人[58]提出了一種用于遙感(RS)圖像分割的少樣本學習方法,但是少樣本學習在RS圖像分割中的應用仍然處于起步階段。為了克服深度學習分割方法對數據的依賴,最近的研究[20],[187]已經探索了自我/半監督學習和弱監督學習,以減少對密集標注的需求。Chen等人[20]介紹了一種基于對比學習的RS圖像少樣本分割的半監督方法。Zhang等人[187]引入了一個用于跨場景高光譜圖像分類的網絡,該網絡利用語言指導實現領域泛化。圖15給出了該方法的概述。
3. 結論與未來趨勢
計算機視覺和自然語言處理傳統上被視為兩個不同的領域,每個領域都有自己獨特的挑戰和應用。然而,ChatGPT的非凡成功最近在大型語言模型(AGI)領域的研究者中引發了巨大關注。這些模型將計算機視覺和自然語言處理的優勢結合在一起,促進了更像人類的智能系統的開發,這些系統是基于VLMs構建的。在遙感(RS)的一些研究中,已經證明了VLMs在各種RS任務中比純視覺模型更優越,包括圖像標注、基于文本的圖像生成、基于文本的圖像檢索、視覺問題回答、場景分類、語義分割和目標檢測。雖然這些早期的嘗試已經展示了將VLMs應用于遙感的成功,但對于大多數研究者來說,這仍然是一個新興領域。因此,本文旨在提供一個全面的關于在遙感中應用視覺語言模型的綜述,為其他研究者提供關于該領域背景和最近進展的快速理解。它還旨在鼓勵在這個令人興奮且重要的領域進行進一步的研究。在回顧了遙感中VLMs的文獻后,我們發現了當前研究的一些限制。首先,用于訓練VLMs的RS數據集數量有限,樣本量遠小于計算機視覺領域的數十億圖像數據集。其次,大多數現有的RS VLMs仍然使用經典的CNN和RNN作為圖像和語言編碼器,只有少數工作探討了在計算機視覺中使用預訓練的視覺變換器和大型語言模型,如GPT、BERT和Flan-T5。這可能限制了這些模型的特征學習能力。此外,從零開始訓練這些VLMs需要大量的計算負擔,尤其是對于擁有數十億參數的大網絡。這就需要在RS中為大型VLMs提供有效的模型微調技術。此外,由于光照條件、大氣干擾和傳感器噪聲等因素的影響,RS數據可能會表現出高度的變化性。
高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。
在過去的幾年里,人工智能(AI)技術已經被應用到人類生活的幾乎所有垂直領域。然而,人工智能模型產生的結果往往滯后于可解釋性。AI模型經常出現在開發人員無法解釋或追溯特定決策背后的原因的黑箱中。可解釋AI (XAI)是一個快速發展的研究領域,它有助于提取信息,并以最佳的透明度將生成的結果可視化。本研究對XAI在網絡安全中的應用進行了廣泛的綜述。網絡安全能夠保護系統、網絡和程序免受不同類型的攻擊。XAI的使用在預測此類攻擊方面具有巨大的潛力。這篇論文簡要概述了網絡安全和各種形式的攻擊。然后,討論了傳統AI技術的使用及其相關挑戰,這打開了XAI在各種應用中的使用的大門。介紹了XAI在各研究項目和行業中的實施情況。最后,從這些應用中吸取的經驗教訓被強調為未來的研究范圍提供指導。
引言
網絡安全是程序、控制和技術的應用,以保護數據、程序、網絡和系統免受潛在的網絡攻擊。與網絡安全相關的各種工具和技術旨在對抗針對組織內部或外部環境中存在的網絡系統和應用程序的威脅。統計數據顯示,數據泄露造成的平均損失在全球范圍內為386萬美元,在美國上升到864萬美元[2]。這些成本不僅包括違約的直接影響,還包括后續調查,以確定違約的原因、相關的應對措施、收入損失、停機時間,以及最重要的聲譽品牌損害[3]。
考慮到這些成本,大多數組織都采用了基于主流最佳實踐的網絡安全策略。有效的網絡安全策略通常包括分層保護,對網絡攻擊提供防御,以保持網絡資產的機密性、完整性和可用性。這類戰略的實施還旨在防止對用戶或知名組織進行財務勒索,妨礙正常的商業運作。因此,在這方面部署明智、有效和高效的應對措施是絕對必要的。例如,美國國家標準與技術研究所(NIST)開發了一個網絡安全框架,幫助各組織保護它們的計算機系統、網絡和用于實現國家安全、公共衛生、安全和各種其他行政活動的各種其他資產。國際標準組織,即ISO27000系列資訊保安標準,旨在滿足類似的需要。盡管存在這樣的方法和標準,攻擊者仍然在安全框架中發現漏洞,這些漏洞可以繞過極其強大的防御措施。在大流行危機期間,當專業規范從辦公室變為在家工作時,網絡安全威脅還觀察到與遠程訪問工具、云服務和其他遠程工作工具相關的漏洞也發生了變化。[4]。這些不斷發展的威脅包括惡意軟件、勒索軟件、網絡釣魚、內部威脅、分布式拒絕服務(DDOS)威脅、高級持續威脅(APTs)、中間人攻擊和各種其他[5]。
網絡安全框架和相關最佳實踐能夠在不損害用戶隱私和客戶體驗的情況下保護機密信息,從而有效減少網絡漏洞。更具體地說,身份和訪問管理(IAM),例如,框架用戶角色和訪問權限,建立標準,訪問權限可以被監控。IAM技術包括單點登錄功能,其中用戶訪問網絡時無需多次重新輸入證書。IAM還可以提供多因素認證和特權用戶帳戶,只提供對特定合法用戶的訪問,減少欺騙性訪問的可能性。這些工具增強了終端用戶設備中異常活動的可見性。此外,在出現安全漏洞的情況下,這些工具可確保加速調查、響應、隔離和遏制與安全漏洞相關的所有組件。
有各種綜合的數據安全平臺,包括分類、權限分析、行為分析和合規報告等功能。這些平臺的主要目標包括在混合云和多云環境中保護敏感信息。這些平臺提供自動、實時的可見性、入侵警報和對數據漏洞[6]的監控。例如,安全信息和事件管理(Security information and event management, SIEM)是安全信息管理(Security information management, SIM)和安全事件管理(Security event management, SEM)的結合,對應用程序和網絡硬件產生的安全告警進行自動化實時分析。這些產品包括智能和先進的檢測方法,用戶行為分析和人工智能/機器智能(AI/ML),以檢測軟件產品和服務領域的異常[7]。
網絡安全風險管理有助于理解安全威脅的各種特征,以及個人和組織層面的相關內部互動。最低合理可行(ALARP)是一個類似的風險管理原則,強調網絡風險。這一原則確保通過將風險與解決相同問題所需的時間和資源進行比較來減少剩余風險。其理念是分析降低風險所涉及的成本,并確保其與所獲得的利益不成比例。網絡/信息安全的所有現代風險管理解決方案都著眼于降低風險影響,從而平衡減少或緩解風險影響的相關成本。
值得一提的是,ISO27000這類國際標準家族的范圍,強調了與網絡安全風險相關的信息安全管理系統文檔的創建和管理。該標準由14個組和35個控制類別的114個控制組成,涵蓋了組織網絡安全的所有方面。為了適用該標準,必須評估現有風險,確定適用的控制措施,評估這些控制措施帶來的緩解效果,評估應用這些控制措施的成本,還必須評估所引入的任何次級風險的緩解效果。控件將被應用于: (1)該風險經評估超過該組織的風險承受能力; (2)成本控制的應用被認為是可以接受的; (3)二次風險不排除應用。
人工智能如何幫助網絡安全
機器學習(ML)算法是在以往經驗的基礎上訓練的,以便做出類似人類行為的決定。此外,ML算法還被用于檢測與安全威脅和[8]漏洞相關的異常和威脅。此外,在過去幾年中,基于機器學習的自動化安全工具已經得到了發展,它們可以自動響應威脅,執行諸如聚類、分類和回歸[9]等任務。聚類是一種將數據根據其特征的相似性進行分組的過程。聚類中的數據對象彼此相似,但又不同于其他聚類中的數據對象。因此,聚類分析可以對沒有預定義類的數據進行無監督分類。另一方面,分類有助于預測給定數據點的類別。分類器使用訓練數據來理解輸入變量是否屬于一個特定的類別,使用無監督學習技術。回歸分析是一種統計技術,它建立因變量和獨立預測變量之間的關系與許多獨立變量之一。
AI和ML也被用于主動的漏洞管理。基于AI/機器學習的用戶和事件行為分析(UEBA)工具分析服務端點和服務器上的用戶交互,以檢測異常行為。這有助于在[10]漏洞報告或修補之前為組織提供提前保護。
反病毒檢測是人工智能技術發揮重要作用的一個領域。最主要的方法是啟發式技術、數據挖掘、代理技術和人工神經網絡[11]。例如,Cylance智能防病毒產品是為了滿足類似的目標,為家庭從合法數據中檢測惡意軟件提供企業級的基于人工智能的安全。該產品完全在執行點消除了威脅,而不需要任何人工干預[12]。有許多傳統的身份驗證系統使用用戶名或電子郵件和密碼作為一種身份驗證方法。人工智能的使用有助于檢測易受攻擊的密碼,并用于基于生物識別的認證系統,提供更強的保護層,黑客難以入侵。生物識別系統主要用于企業和政府組織的安全和訪問控制。生物識別系統可分為物理識別系統和行為識別系統。物理生物識別系統使用人體的物理、可測量和獨特的信息,如DNA、靜脈、指紋、虹膜等,并將這些信息轉換為人工智能系統可以理解的代碼。相反,行為識別系統捕捉獨特的行為特征,如聲音、個人打字節奏、與物體的交互方式,然后將這些編碼信息存儲在數據庫中。在身份驗證和驗證過程[13]期間對該信息進行數字戳記。
AI在網絡安全方面的局限性使XAI成為必要
人工智能在網絡安全領域的應用帶來了許多挑戰。特別是,人工智能應用引入了大量的反指示和次級風險,它們成為惡意行為者發起攻擊的載體。例如,攻擊者可能會成功地避開基于ML的檢測。更具體地說,攻擊者可能會操縱惡意軟件文件,使基于人工智能的檢測框架無法識別任何惡意或異常活動,這就是通常所說的規避攻擊。類似地,基于人工智能的網絡安全應用也存在各種威脅,如圖1所示,涉及通信攔截、服務失敗、事故、災難、法律問題、攻擊、停電和物理損害。
基于人工智能的系統的成功取決于數據的可用性。基于人工智能的系統引發了兩類次級風險。第一種類型包括產生假陰性結果導致不準確決策的風險。第二種包括產生假陽性結果的風險,其中存在不準確的通知或假警報的可能性。[14]。在這種情況下,迫切需要確保采取必要的緩解措施,確保更準確地處理違約或異常事件的情況,從而保持所作決定的可解釋性和合理性。
實時AI系統通常會消耗大量的計算能力、數據和原始內存資源需求。這些系統還需要更高水平的專業知識來構建和維護[16],因此部署成本非常高。人工智能生物測量系統也面臨著類似的挑戰,與上述問題相關,這些系統也容易受到信息泄露風險的影響。網絡安全公司主要使用人工智能來開發魯棒和安全的系統。相反,這些系統經常被黑客出于不道德的目的而破壞,這些黑客訓練或變異惡意軟件,使其具有AI免疫力,其行為與傳統系統相比異常。人工智能的使用使黑客能夠挫敗安全算法,使數據操作不被發現,從而使組織極其難以糾正輸入基于人工智能的安全系統的數據。因此,當前基于人工智能的系統面臨的挑戰在于,與基于模型的傳統算法[17]相比,它們的決策缺乏合理性和合理性。如果系統不能理解并從網絡安全事件中吸取教訓,那么無論基于人工智能的系統多么強大和準確,網絡安全都將成為一個具有普遍二級風險的黑匣子。
人工智能威脅體系
在深度強化學習的情況下,被確定為某些反應的原因的顯著特征,通常仍然無法解釋。例如,可以考慮貝葉斯推斷的計算,其中產生的結果的準確性往往受到數據不足的問題的影響。這就需要統計AI算法來幫助量化這些不確定性。但是這種統計AI算法的結果往往難以解釋,因此,XAI通過為基于AI的統計模型產生的結果提供可解釋性來發揮其作用,為研究人員和專家提供理解因果推理和原始數據證據[18]的能力。同樣,在醫療保健領域,XAI的實施首先允許機器分析數據并得出結論。其次,它使醫生和其他醫療保健提供者能夠獲得解釋如何做出特定的決策。在制造業中,基于人工智能的自然語言處理(AI-based natural language processing, NLP)幫助分析與設備和維護標準相關的非結構化數據,這些數據與結構化數據相關聯,即工單、傳感器讀數等業務流程數據。這有助于技術人員在他們的工作流相關操作方面做出最佳決策。
XAI能提供什么幫助
人工智能模型已經成功地應用于許多日益復雜的領域,通過其基于復雜數據集的合成能力補充和增強人類的能力。計算能力的提高進一步擴大了通過人工智能提供解決方案的范圍,人工智能應用的增長呈可視化指數增長。因此,在關鍵任務設置中對此類AI應用的需求迅速增長,其中AI被嵌入到眾多硬件智能設備中,從而實現無監督或遠程控制使用。然而,人工智能的應用帶來了相關的重大問題。過擬合,是監督式ML中的一個基本問題,其中統計模型與訓練數據完美匹配,阻礙了其在數據未知情況下的準確分析能力。當它捕捉到數據中的噪聲和不準確的值時,模型的效率和精度會下降(Ying, 2019)。過度擬合模型的使用會導致AI性能下降,在關鍵任務設置中,可能會導致不準確的決策、經濟損失、身體傷害甚至死亡。
通過對模型的機制和推理的理解,可以在一定程度上減輕這些風險。不幸的是,傳統AI系統的黑箱特性成為瓶頸,即使是AI專家也無法提供合理的解決方案[19,20]。因此,透明度是必要的,它將使明智和合理的決策制定成為可能,并有助于為模型的行為提供準確的解釋。例如,在網絡安全系統的情況下,不合理和誤導性的預測可能會使系統非常容易受到攻擊,導致完全不安全的關鍵系統。隨著可解釋人工智能的實施,提供實用的、實時的基于人工智能的解決方案將變得更加容易,因為數據集中的偏見可以完全消除,從而導致公正的決策。解釋性結果使人工智能解決方案更加穩健和可信,確保有意義的變量推理和模型推理的基礎。傳統的基于深度神經網絡的模型(DNN)非常流行,但其可解釋性滯后。例如,對于id,網絡管理員很難理解入侵檢測背后的原因,并將其轉化為黑盒模型。在這種黑盒模型中,涉及決策制定的過程是具有挑戰性的,因為DNN在試錯過程中編輯特征,以生成理想的解決方案。盡管對基于ML的入侵檢測系統進行了大量的研究,但在得出與攻擊分類、異常流量行為識別和模型自動構建相關的結論時,很少對結果的基本推理或解釋進行探討。決策樹(DT)作為一個完美的模型來支持對結果預測的解釋。DT分析的結果不基于任何與數據分布相關的假設,并且有效地處理了特征共線性問題。因此,可解釋AI系統的實現使網絡管理員能夠分析、解釋和洞察IDS系統的安全策略[21,22]。在本文中,我們探討了網絡和人工智能風險的競爭本質,并探討了XAI作為人工智能風險的主要控制手段的潛力。關于XAI在網絡安全中的應用已經進行了大量的研究。本節將討論其中一些研究。[23]的研究提出了一種新穎的黑盒攻擊,該攻擊實現了XAI,損害了相關分類器的隱私和安全性。本研究采用反事實解釋(CF)生成方法實現基于梯度的優化。本研究中使用的CF方法包括潛在CF技術、多元反事實解釋(DiCE)技術和permute攻擊(對反病毒引擎執行端到端規避攻擊)。他們還執行成員推斷攻擊,這有助于鏈接用戶,并從泄露的數據集竊取他們的密碼,從而對同一數據集發起中毒和模型提取攻擊。該研究評估了與每種攻擊有關的安全威脅,并向用戶和攻擊者提供了能夠避免和減輕風險的范圍。[24]的研究提出了一種方法來解釋由面向數據的IDSs產生的不準確的分類。采用對抗性技術來識別輸入屬性中的最小修改,以準確分類錯誤分類的數據集樣本。在[22]中,提出了一個基于深度學習的入侵檢測框架。研究中可解釋的人工智能技術,有助于實現ML模型的每個層次的透明度。
該研究中使用的XAI方法包括SHAP和BRCG,能夠完全理解模型的行為。XAI的SHAP和CHEM技術有助于理解輸入的特征,從而將決策導出為輸出。考慮到分析師的視角,使用Protodash方法來識別訓練數據樣本之間的異同。[25]的作者提出了一種創新的方法來管理網絡安全系統報警系統中的超載問題。本研究考慮實施的系統包括安全資訊及事件管理系統(SIEM)及入侵偵測系統(IDS)。將零樣本學習技術與ML相結合,在框架內計算異常預測的解釋。該框架的獨特方法包括在沒有任何先驗知識的情況下識別攻擊,破譯導致分類的特征,然后使用XAI技術將攻擊分組到特定類別中。XAI的使用有助于識別、量化因素,并了解其對特定網絡攻擊預測的貢獻。[21]的研究提出了一種基于決策樹的XAI模型的IDS增強信任管理系統。研究中使用的決策樹算法幫助IDS在多個子選擇中分割選擇,從而為基準數據集生成規則。與傳統的支持向量機(SVM)系統相比,基于決策樹的XAI方法提高了精度。
雖然有各種綜述文章關注AI在網絡安全中的應用,但目前還沒有對可解釋AI在網絡安全中的應用進行全面的綜述,其中包括明確和廣泛的信息。因此,為了彌補這一差距**,本文著重對XAI在網絡安全領域的研究現狀、現有人工智能實施所面臨的挑戰、XAI的需求及其在各個領域的潛在應用范圍進行了全面的綜述**。表2重點分析了XAI和本論文的現有工作。從用戶的角度來看,使用XAI比使用AI的好處在圖3中得到了強調。
綜上所述,本研究的具體貢獻包括:
深度學習(DL)是材料數據科學中發展最快的課題之一,其應用迅速崛起,涵蓋了原子、圖像、光譜和文本數據模式。DL允許分析非結構化的數據和自動識別特征。最近,大型材料數據庫的發展推動了DL方法在原子學預測方面的應用。相比之下,圖像和光譜數據的進展在很大程度上利用了高質量的正向模型以及生成性無監督DL方法所帶來的合成數據。在這篇文章中,我們介紹了深度學習方法的高水平概述,然后詳細討論了深度學習在原子學模擬、材料成像、光譜分析和自然語言處理方面的最新發展。對于每一種模式,我們都討論了涉及理論和實驗數據的應用,典型的建模方法及其優勢和局限性,以及相關的公開可用軟件和數據集。在評論的最后,我們討論了最近與該領域的不確定性量化相關的交叉工作,以及對材料科學中DL方法的局限性、挑戰和潛在增長領域的簡要看法。
"加工-結構-性能 "是材料科學和工程(MSE)的關鍵術語。材料結構和現象的長度和時間尺度在這四個要素中差異很大,進一步增加了復雜性。例如,結構信息的范圍可以從元素的原子坐標的詳細知識到相的微觀空間分布(微觀結構),到碎片連接(中間尺度),再到圖像和光譜。在上述各部分之間建立聯系是一項具有挑戰性的任務。
實驗和計算技術對確定這種關系都是有用的。由于實驗設備自動化的快速增長和計算資源的巨大擴展,公共材料數據集的規模出現了指數級的增長。通過材料基因組計劃(MGI)和越來越多地采用可查找、可訪問、可互操作、可重用(FAIR)原則,已經開發了一些大型實驗和計算數據集。這樣的數據爆發需要自動分析,這可以通過機器學習(ML)技術來推動。
深度學習(DL)是機器學習(ML)的一個專門分支。深度學習的靈感最初來自于人腦中的計算和認知的生物模型,DL的主要優勢之一是它有可能從原始輸入數據中提取更高層次的特征。
在我們日常生活的許多方面,DL的應用正在迅速取代傳統系統,例如,在圖像和語音識別、網絡搜索、欺詐檢測、電子郵件/垃圾郵件過濾、金融風險建模等方面。DL技術已被證明在眾多領域提供了令人興奮的新能力(如下圍棋、自動駕駛汽車、導航、芯片設計、粒子物理學、蛋白質科學、藥物發現、天體物理學、物體識別等)。
最近,DL方法在許多科學領域,如化學、物理學、生物學和材料科學中的表現已經超過了其他機器學習技術。DL在材料科學和工程中的應用還比較新,該領域還沒有充分挖掘其潛力、影響和局限性。DL為研究材料現象提供了新的方法,并推動了材料科學家擴展他們的傳統工具集。
DL方法已被證明可以作為基于物理學的材料設計的補充方法。雖然大型數據集通常被視為成功應用DL的先決條件,但諸如轉移學習、多保真建模和主動學習等技術通常也能使DL在小型數據集上可行。
傳統上,材料的設計是通過試錯的方法,加上強烈的化學直覺來進行的。除了是一種非常昂貴和耗時的方法外,材料組合的數量是如此之大,以至于無法通過實驗來研究,這就導致了對經驗配方和計算方法的需求。雖然計算方法(如密度泛函理論、分子動力學、蒙特卡洛、相位場、有限元)比實驗快得多、便宜得多,但它們仍然受到長度和時間尺度的限制,這反過來又限制了它們各自的適用領域。與傳統的科學計算相比,DL方法可以提供可觀的速度,而且對于某些應用,正在達到與基于物理或計算模型相媲美的精度水平。
此外,進入一個新的材料科學領域并進行前沿研究需要多年的教育、培訓,以及專業技能和直覺的發展。幸運的是,我們現在生活在一個數據和計算資源日益開放的時代。成熟的、有據可查的DL數據庫使DL研究比幾乎任何其他研究領域的新人更容易獲得。諸如欠擬合/超擬合/交叉驗證等測試和基準方法是常識,衡量模型性能的標準也在研究界中得到了確立。
盡管DL方法有很多優點,但也有缺點,最重要的是它們的黑盒性質,可能會阻礙對所研究現象的物理洞察力。評估和提高DL模型的可解釋性(interpretability和explainability)仍然是一個活躍的研究領域。一般來說,一個DL模型有幾千到幾百萬個參數,這使得模型的解釋和直接產生科學的見解變得很困難。
盡管最近有幾篇關于ML在MSE中應用的很好的評論,但用于材料的DL一直在快速發展,值得專門寫一篇綜述來涵蓋這個領域的爆炸性研究。本文討論了DL方法中的一些基本原則,并強調了材料科學DL應用的最新進展中的主要趨勢。隨著材料中DL應用的工具和數據集的不斷發展,我們提供了一個github資源庫(//github.com/deepmaterials/dlmatreview ),可以隨著新資源的公開提供而更新。
圖1:人工智能(AI)、機器學習(ML)和深度學習(DL)方法及其在材料科學和工程中的應用概況的示意圖。