摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。
關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。
人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。
為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。
然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:
這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。
本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。
合成數據與生成式人工智能
《合成數據與生成式人工智能》涵蓋了機器學習的基礎,結合現代方法解決復雜問題,以及合成數據的系統生成與應用。重點關注可擴展性、自動化、測試、優化和可解釋性(可解釋人工智能)。例如,回歸技術——包括邏輯回歸和Lasso回歸——作為一種方法進行介紹,而不使用高級線性代數。置信區域和預測區間使用參數化自助法(parametric bootstrap)構建,而不依賴于統計模型或概率分布。模型(包括生成模型和混合模型)主要用于創建豐富的合成數據,以測試和基準化各種方法。
回顧
提供了關于機器學習基礎的全面介紹,包括解決復雜問題的現代方法 作者簡介
文森特·格蘭維爾博士(Dr. Vincent Granville)是數據科學和機器學習領域的開創者,Data Science Central(于2020年被TechTarget收購)聯合創始人,MLTechniques.com創始人,曾任風投資助的高管、作者及專利擁有者。格蘭維爾博士曾在Visa、富國銀行、eBay、NBC、微軟和CNET等公司工作,此外,他還曾在劍橋大學和國家統計科學研究所(NISS)擔任博士后研究員。格蘭維爾博士曾在《數論學報》、《皇家統計學會學報》和《IEEE模式分析與機器智能學報》上發表過文章,并且是《開發分析人才:成為數據科學家》(Wiley)一書的作者。格蘭維爾博士現居華盛頓州,熱衷于研究隨機過程、動力系統、實驗數學和概率數論。他曾被《福布斯》雜志評為“20位大數據影響者”之一。
摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在
//github.com/BestJunYu/Awesome-Physics-aware-Generation
1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。
摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:
//github.com/qianlima-lab/awesome-lifelong-llm-agent.
關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)
1 引言
“智慧是適應變化的能力。” ——斯蒂芬·霍金
終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。
近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。
將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。
本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。
據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:
本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。
終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。
終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。
接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。
摘要
自2017年引入以來,物理信息神經網絡(PINNs)已成為科學機器學習中的關鍵工具,使得利用稀疏測量高效求解常微分方程和偏微分方程成為可能。近年來,PINNs在訓練和優化方面取得了顯著進展,包括網絡架構、自適應細化、域分解,以及自適應權重和激活函數的使用。一個顯著的近期發展是物理信息Kolmogorov–Arnold網絡(PIKANs),該網絡利用了Kolmogorov在1957年提出的表示模型,為傳統PINNs提供了一種有前景的替代方案。在本綜述中,我們全面介紹了PINNs的最新進展,重點關注網絡設計、特征擴展、優化技術、不確定性量化以及理論見解的改進。我們還概述了其在多個領域中的關鍵應用,包括生物醫學、流體和固體力學、地球物理學、動力系統、熱傳導、化學工程等。最后,我們回顧了由學術界和工業界開發的支持PINN研究和應用的計算框架和軟件工具。
關鍵詞:物理信息神經網絡;Kolmogorov-Arnold網絡;優化算法;可分解的PINNs;自適應權重;不確定性量化
1. 引言
有限元方法(FEM)在過去幾十年里一直是計算科學與工程(CSE)的基石,但在20世紀60年代初期首次發表相關研究時曾受到質疑。盡管FEM在學術研究和工業應用中取得了成功,但除非使用復雜的數據同化方法,否則FEM無法輕易整合測量數據,使得大規模計算成本高昂。FEM和其他傳統數值方法在解決已知邊界和初始條件以及所有材料參數的良定問題上效果顯著。然而,在實際應用中,這些條件往往存在缺漏,因此需要做出任意假設。例如,在功率電子冷卻應用中,需要假設墻壁的熱邊界條件。這可能導致錯誤的結果,因為在此類問題中,關注點通常是位于表面的最高溫度或最高熱流,而錯誤的假設恰恰應用于此類區域。相反,可用的可能只是一些稀疏的測溫數據,無論是在表面上還是在感興趣區域內部。不幸的是,當前的數值方法(如FEM)無法有效利用這些測量數據,從而導致系統的關鍵實驗信息丟失。另一方面,神經網絡基于任何精度或模式的數據進行訓練,因此數據同化在此設置中是一個自然過程。
物理信息神經網絡(PINNs)正是為了滿足這一需求而開發的,考慮了模擬場景中的部分已知物理定律,但并非完整知識,且對某些狀態變量存在稀疏測量,而非全部。因此,PINNs為將物理定律編碼到神經網絡中提供了一個框架【1】,并彌合了傳統物理模型和現代純數據驅動方法之間的脫節。具體而言,PINNs通過在目標函數中加入一個額外的“殘差”損失項,將底層偏微分方程(PDE)作為軟約束納入其中。PINNs在所有科學領域中都能夠有效解決正向和反向問題。它們可以結合稀疏和噪聲數據,因此在獲取準確測量結果困難或昂貴的情況下尤為有效。PINNs的一項關鍵創新是基于計算圖的自動微分的使用,使其能夠精確處理守恒定律中的微分算子,并且消除了耗時且限制解精度的網格生成需求。
自2017年在arXiv上出現的兩篇原創論文【2, 3】以及2019年隨后的聯合出版論文【1】以來,CSE社區充滿了興奮,來自全球各科學領域的研究團隊提出了許多關于該方法不同方面的重要改進。在撰寫本文時,論文【1】的引用量已超過11000次,許多研究探討了PINNs在不同科學領域的適用性,同時提出了算法改進以應對原始設計的局限性。在本綜述中,我們匯編了大多數主要的算法開發成果,并列出PINNs在不同學科領域的廣泛應用。附錄中展示了一些關于PINNs的重要文獻時間線,從PINNs【2】到PIKANs【4】。
現有的綜述,如【5-8】,總結了PINNs的關鍵方面,而本文的不同之處在于我們對最新的算法進展進行了更廣泛的概述,并涵蓋了PINNs在更多科學學科中的應用。綜述【5】和【6】主要關注PINNs在各領域的方法和應用,較少強調最近的算法改進。綜述【8】簡要概述了PINNs及其擴展,并以數據驅動的方程發現為例,但并未深入探討PINNs的應用。綜述【7】則包括了算法發展的討論,但其應用范圍局限于熱管理和計算流體力學。此外,一些綜述聚焦于特定應用領域。例如,【9】和【10】回顧了PINNs在流體動力學中的應用,而【11】則專注于電力系統的應用。相較之下,【12】進行了120篇研究論文的文獻計量分析,突出了PINNs研究中的主要出版趨勢、高被引作者和主要國家。
本文的結構如圖1所示。在第2節中,我們概述了物理信息機器學習的一般框架。第3節對旨在改進PINNs的主要技術進行了全面總結。第4節概述了PINNs的多樣化應用。第5節重點介紹了PINNs中的不確定性量化方法。第6節總結了PINNs背后的理論發展。第7節回顧了各種計算框架和軟件。最后,在第8節中,我們提供了討論和未來展望。
2. 物理信息機器學習(PIML)
物理信息機器學習(PIML)已成為求解正問題和逆問題中偏微分方程(PDEs)的傳統數值方法的強大替代方案。PIML最早由Raissi、Perdikaris和Karniadakis在一系列論文中提出【13】,基于高斯過程回歸(GPR);另見同一作者的專利【14】。然而,本文將回顧PIML利用神經網絡和自動微分的后續發展,起始于2017年在arXiv上的兩篇論文【2, 3】,隨后于2019年合并為一篇論文【1】。值得注意的是,早期論文【15, 16】嘗試求解PDE(正問題),但未進行數據融合或自動微分。本文介紹的PIML采用表示模型,如多層感知器(MLP)或Kolmogorov-Arnold網絡(KAN)【4】,以最小化包含多項的損失函數來逼近常微分方程(ODEs)或偏微分方程(PDEs)的解,并符合給定的數據和約束條件。特別地,該損失函數旨在擬合可觀測數據或其他物理或數學約束,同時滿足底層物理定律,例如守恒定律【1, 17】。
與傳統數值方法不同,大多數PIML模型不依賴于預定義的網格或網格劃分,從而能夠高效處理復雜幾何和高維問題。通過自動微分,PIML模型無需離散化即可準確計算導數,將物理定律與數據無縫整合。這種靈活性使PIML模型能夠利用部分信息來逼近解,非常適合揭示隱藏參數【1】,以及從現實世界數據中重建【18】或推斷隱藏場【19】。此外,PIML模型在處理高維PDE【20】、耦合系統【21, 22】、隨機微分方程【23】和分數階PDE【24】方面表現出色,同時通過在現代硬件(如GPU)上的并行化實現了可擴展性【25】。這使得PIML模型能夠以較低的計算開銷高效處理多物理問題和大規模模擬,相比傳統方法更為高效。PIML對特定的控制方程無偏見,因此在此我們考慮以下非線性ODE/PDE:
其中,u是表示模型,θ為其可學習參數。由于u是連續且可微的,因此可以通過自動微分計算源項和邊界項f和b,表示為Fτ [u]和Bτ [u]【1】。PIML訓練的目標是找到最優的可學習參數,以最小化逼近解與真解的已知組成部分之間的累積誤差,如控制方程、邊界條件或數據殘差。該框架還可以通過為每個逼近解疊加約束,輕松擴展到ODE/PDE系統【19】。
一般來說,當方程參數τ已知且邊界條件已規定時,稱為正問題,此時不需要域內的觀測數據【1, 27】。相反,當ODE/PDE系統中的τ、邊界條件或隱藏場等部分信息未知時,稱為逆問題,目標是從現有數據或觀測中同時推斷未知信息和解【19】。整個PIML框架的示意圖如圖2所示。
PIML的算法發展
根據第2節概述的PIML框架,可以確定其三個關鍵組成部分:(1) 一個用于逼近解的表示模型,(2) 控制方程(例如ODE或PDE),以及(3) 一個優化過程,通過最小化多目標損失函數以找到最優的可學習參數(見圖2)。當前研究通過針對這三方面的多種方法顯著提升了PIML的基礎性能,即對表示模型的改進、控制方程處理的進步,以及優化過程的改善。
PIML的應用
大量研究表明,PIML在廣泛的領域中取得了成功。本文對PIML在生物醫學、力學、地球物理學、動力系統、控制與自主性、傳熱學、物理學、化學工程及其他相關領域的應用進行了精選而全面的回顧。
摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。
工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。
在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。
為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。
本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:
本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。
近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。
如表I所示,本文通過以下幾個關鍵貢獻來區分自身:
新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。
跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。
持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
強化學習(RL),特別是與深度神經網絡結合的深度強化學習(DRL),在廣泛的應用中展現了巨大的前景,表明其有望推動復雜機器人行為的發展。然而,機器人問題為RL的應用帶來了根本性的挑戰,這些挑戰源于與物理世界交互的復雜性和成本。本文提供了關于DRL在機器人領域應用的現代綜述,特別關注DRL在實現幾項關鍵機器人能力方面取得的現實世界成功。我們的分析旨在識別這些令人興奮的成功背后的關鍵因素,揭示未充分探索的領域,并對DRL在機器人領域的現狀進行總體描述。我們強調了未來研究的幾個重要方向,包括需要穩定且樣本高效的現實世界RL范式,發現和整合各種能力以應對復雜的長期開放世界任務的整體方法,以及原則性的發展和評估程序。本綜述旨在為RL從業者和機器人學家提供見解,以利用RL的力量創建具有廣泛能力的現實世界機器人系統。
強化學習(RL)(1) 是一類決策問題,其中代理必須通過試錯學習以最大化其累積回報,該回報由標量獎勵函數編碼,映射代理的狀態和行動到即時獎勵。特別是與深度神經網絡結合的深度強化學習(DRL)(2),在解決復雜決策問題方面顯示出卓越的能力,即使是在棋類游戲(3)、視頻游戲(4)、醫療保健(5)和推薦系統(6)等領域的高維觀察中也不例外。這些成功突顯了DRL在控制具有高維狀態或觀察空間和高度非線性動態的機器人系統以執行傳統決策、規劃和控制方法(如經典控制、最優控制、基于采樣的規劃)無法有效處理的挑戰性任務方面的潛力。然而,迄今為止,DRL最顯著的里程碑是在模擬或游戲環境中實現的,在這些環境中,RL代理可以從大量的經驗中學習。相比之下,機器人需要在物理世界中完成任務,這帶來了額外的挑戰。在物理世界中直接通過試錯收集樣本通常效率低下且/或不安全,而且通常不可能在模擬中創建復雜真實世界的精確副本。盡管存在這些挑戰,最近的進展使得DRL在一些現實世界的機器人任務中取得了成功。例如,DRL已實現冠軍級別的無人機競速(7)和集成到生產級四足機器人系統中的多功能四足機器人控制(如ANYbotics1、Swiss-Mile2和Boston Dynamics3)。然而,最先進的DRL解決方案在不同的機器人應用領域的成熟度差異顯著。在某些領域,如城市自動駕駛,基于DRL的解決方案仍然局限于模擬或嚴格限定的現場測試(8)。 本綜述旨在全面評估DRL在現實世界機器人應用中的當前進展,識別最令人興奮的成功背后的關鍵因素以及在較不成熟領域中仍然存在的開放挑戰。具體而言,我們評估了DRL在各種問題領域的成熟度,并對不同領域的DRL文獻進行對比,以確定廣泛適用的技術、未充分探索的領域以及需要解決的共同開放挑戰,以推進DRL在機器人中的應用。我們希望本綜述能為研究人員和從業者提供對DRL在機器人領域現狀的深入理解,提供有價值的見解,以指導未來的研究并促進現實世界機器人任務中廣泛可部署的DRL解決方案。
管之前的一些文章已經綜述了機器人強化學習,但我們在文獻中提供了獨特的視角并填補了知識空白,主要貢獻有三點。首先,我們專注于在現實世界中至少取得了一定成功的工作,旨在評估DRL在現實世界機器人應用中的當前狀態和開放挑戰。大多數現有的關于機器人強化學習的綜述并未明確討論這一主題,例如,Dulac-Arnold等(9)討論了現實世界RL的一般挑戰,但不針對機器人,Ibarz等(10)列出了基于他們自己研究的案例研究中現實世界機器人環境中特有的DRL開放挑戰。相比之下,我們的討論基于對DRL在機器人領域取得的現實世界成功的全面評估,其中一個方面是對現實世界部署水平的評價(見第3.4節)。
其次,我們提出了一個新穎且全面的分類法,從多個角度對DRL解決方案進行分類:通過DRL學習的機器人能力、問題的表述、解決方案的方法以及現實世界成功的水平。以往關于機器人強化學習和更廣泛的機器人學習的綜述通常集中在特定任務(11, 12)或特定技術(13, 14)上。相比之下,我們的分類法允許我們調查在機器人應用領域有效的DRL解決方案的完整圖景,此外,還分別回顧了每個應用領域的文獻。在此框架內,我們對解決方案進行比較和對比,識別共同模式、廣泛適用的方法、未充分探索的領域以及實現成功機器人系統的開放挑戰。
第三,盡管一些過去的綜述分享了我們對該領域進行廣泛分析的動機,但DRL快速而令人印象深刻的進展需要對該領域、其成功和局限性進行重新分析。Kober等(15)的開創性綜述是在深度學習時代之前撰寫的,而Sunderhauf等(16)關于機器人深度學習的一般綜述撰寫時,DRL的成就主要是在模擬中。我們通過專注于DRL提供了該領域的最新概述,DRL是機器人強化學習最顯著的現實世界成功背后的驅動力,特別關注過去五年中發表的論文,因為大多數成功都發生在這段時間內。
本節介紹我們用于分類深度強化學習(DRL)文獻的新分類法。由于我們對DRL在機器人領域現實世界成功的獨特關注,新的分類法可以對文獻進行分類和分析,從而評估DRL解決方案在各種機器人應用中的成熟度,并從成功與失敗中汲取寶貴的經驗教訓。具體而言,我們應識別每篇論文所解決的特定機器人問題,了解其如何抽象為強化學習問題,并總結為解決該問題所應用的DRL技術。更重要的是,我們應評估這些DRL解決方案在實驗中展示的成熟度。因此,我們引入了跨四個軸的分類法:通過DRL學習的機器人能力、問題表述、解決方案方法以及現實世界成功的水平。
我們的主要軸側重于每篇論文研究的目標機器人任務。機器人任務,尤其是在開放的現實世界場景中,可能需要多種能力。可以應用DRL來綜合一個端到端系統以實現所有能力,或者學習子模塊來實現其中的一部分能力。由于我們專注于DRL,因此我們根據通過DRL學習和實現的具體機器人能力對論文進行分類。我們首先將這些能力分類為單機器人——機器人獨立完成任務所需的能力,以及多智能體——與共享工作空間并影響其任務完成的其他智能體交互所需的能力。
當單個機器人在工作空間中完成任務時,它所需的任何能力都可以被視為實現與物理世界交互和影響的具體方式,進一步分為移動性——在環境中移動——和操作性——移動或重新安排(例如抓取、旋轉)環境中的物體(17, 18, 19)。在機器人文獻中,移動性通常分為兩個問題:運動能力和導航能力(18, 20)。運動能力側重于使各種形態的機器人(例如四足機器人、人形機器人、輪式機器人、無人機)能夠穿越不同環境的運動技能,而導航能力側重于引導機器人高效且無碰撞地到達目的地的策略。典型的導航策略生成高層次運動命令,例如質心(CoM)的期望狀態,同時假設有效的運動控制來執行這些命令(18)。有些工作同時解決了運動和導航問題,這對于導航策略受到機器人穿越環境能力(由機器人動力學和運動控制決定)嚴重影響的任務特別有用,例如穿越困難地形(20)或競速(21)。我們將這些論文與其他導航論文一起審查,因為它們的最終目標是導航。
在機器人文獻中,操作性通常在桌面環境中研究,例如安裝在固定底座上的機器人手臂或手,固定傳感器觀察場景。一些其他現實世界任務進一步要求機器人在移動底座的同時與環境交互(例如家用和倉庫機器人),這需要操作性和移動能力的協同整合。我們在固定操作性類別下審查前一種情況,在移動操作性類別下審查后一種情況。
當任務完成受到工作空間內其他智能體影響時,機器人需要進一步具備與其他智能體交互的能力,我們將其歸入多智能體能力類別。需要注意的是,在機器人與其他智能體交互時,仍可能需要某些單機器人能力,例如人群導航或協作操作。在此類別中,我們重點關注在智能體交互層面進行DRL的論文,即在給定某些單機器人能力的情況下學習交互策略,或學習聯合優化交互和單機器人能力的策略。根據機器人交互的智能體類型,我們將這些工作進一步分為兩個子類別:1)人機交互,關注機器人與人類一起操作的能力。人類的存在帶來了額外的挑戰,因為他們行為復雜且對機器人在其周圍操作有嚴格的安全要求。2)多機器人交互,指機器人與一組機器人交互的能力。通常使用一類強化學習算法——多智能體強化學習(MARL)來解決此問題。在MARL中,每個機器人都是一個學習智能體,根據其與環境和其他機器人的交互來演變其策略,這使得學習機制更加復雜。根據機器人目標是否一致,它們的交互可能是合作的、對抗的或一般總和的。此外,實際場景通常需要在部分可觀測性和有限通信帶寬下進行分散決策。
分類法的第二個軸是強化學習問題的表述,這指定了針對目標機器人能力的最優控制策略。RL問題通常建模為單智能體RL的部分可觀測馬爾可夫決策過程(POMDP)和多智能體RL的分散POMDP(Dec-POMDP)。具體而言,我們根據以下問題表述元素對論文進行分類:1)動作空間:動作是低級別(即關節或電機命令)、中級別(即任務空間命令)還是高級別(即時間延伸的任務空間命令或子例程);2)觀測空間:觀測是高維傳感器輸入(例如圖像和/或LiDAR掃描)還是估計的低維狀態向量;3)獎勵函數:獎勵信號是稀疏的還是密集的。由于篇幅限制,這些術語的詳細定義見補充材料。
另一個與前一個軸密切相關的軸是用于解決RL問題的解決方案方法,它由RL算法和相關技術組成,能夠為目標機器人問題提供實際解決方案。具體而言,我們從以下角度對解決方案方法進行分類:1)模擬器使用:是否以及如何使用模擬器,分為零樣本、少量樣本模擬到現實轉移,或直接在現實世界中離線或無模擬器學習;2)模型學習:是否從機器人數據中學習(部分)過渡動態模型;3)專家使用:是否使用專家(例如人類或預言策略)數據來促進學習;4)策略優化:采用的策略優化算法,包括計劃或離線、離政策或在政策RL;5)策略/模型表示:用于表示策略或動態模型的神經網絡架構類別,包括MLP、CNN、RNN和Transformer。詳細術語定義見補充材料。
為了評估DRL在現實世界機器人任務中的實用性,我們根據其DRL方法的成熟度對論文進行分類。通過比較不同機器人任務中DRL的有效性,我們旨在識別研究原型與現實世界部署之間差距較大或較小的領域。這需要一個量化各任務現實世界成功水平的指標,據我們所知,這在DRL機器人文獻中尚未嘗試過。受自動駕駛等級(22)和機器學習技術成熟度等級(TRL)(23)的啟發,我們引入了現實世界成功等級的概念。我們將論文分為六個等級,基于所驗證方法的情境:1)等級0:僅在模擬中驗證;2)等級1:在有限的實驗室條件下驗證;3)等級2:在多樣的實驗室條件下驗證;4)等級3:在有限的現實世界操作條件下驗證;5)等級4:在多樣、具有代表性的現實世界操作條件下驗證;6)等級5:在商業化產品中部署。我們認為等級1-5至少在某種程度上實現了現實世界的成功。我們可以用來評估現實世界成功等級的唯一信息是作者報告的實驗。然而,許多論文僅描述了單次現實世界試驗。雖然我們努力提供準確的估計,但由于信息有限,這種評估可能具有主觀性。此外,我們使用現實世界成功等級來量化解決方案在其目標問題上的成熟度,而不考慮其復雜性。
結論
深度強化學習(Deep Reinforcement Learning)近年來在開發許多機器人能力方面發揮了重要作用,取得了許多現實世界的成功。在本文中,我們回顧并分類了這些成功案例,基于特定的機器人能力、問題表述和解決方案方法對其進行了描述。通過這些軸向的分析,我們揭示了普遍趨勢和未來工作的重要方向,包括算法和程序的改進、現實世界學習的要素,以及整合本文所討論的所有能力的整體方法。利用強化學習的力量來構建具有能力的現實世界機器人系統,需要解決其應用中的基本挑戰和創新;盡管如此,我們預計強化學習將在開發普遍智能機器人方面繼續發揮核心作用。
邊緣人工智能(AI)包括一個由互聯系統和設備組成的網絡,這些系統和設備接收、緩存、處理和分析與數據捕獲位置密切相關的數據。近年來,AI效率的提升、物聯網(IoT)設備的廣泛使用以及邊緣計算的興起,揭示了邊緣AI的巨大潛力。邊緣AI的目標是優化數據處理的效率和速度,同時確保數據的機密性和完整性。盡管這一研究領域相對較新,從2014年開始到現在,但在過去五年中已經顯示出顯著和快速的發展。在本文中,我們對邊緣AI進行了系統的文獻綜述,討論了現有研究、最新進展和未來的研究方向。我們創建了一個用于云和邊緣計算分析的協作邊緣AI學習系統,包括對支持這一機制的架構的深入研究。邊緣AI的分類法有助于邊緣AI系統的分類和配置,同時還考察了其在基礎設施、云計算、霧計算、服務、使用案例、機器學習和深度學習以及資源管理等諸多領域的潛在影響。本研究強調了邊緣AI在網絡邊緣處理實時數據的重要性。此外,它還突出了邊緣AI系統面臨的研究挑戰,包括資源限制、安全威脅的脆弱性以及可擴展性問題。最后,本研究強調了旨在通過提供創新解決方案來解決邊緣AI當前局限性的潛在未來研究方向。
關鍵詞:邊緣計算、人工智能、云計算、機器學習、邊緣AI
近年來,人工智能(AI)效率的提升、物聯網(IoT)設備的采用以及邊緣計算能力的增強,正在共同釋放邊緣人工智能(Edge AI)的潛力【1】。眾多分析師和企業正在討論和實施邊緣計算,其起源可以追溯到20世紀90年代,當時位于客戶附近的邊緣服務器被用于通過內容分發網絡提供網頁和視頻內容【2】。在這一邊緣AI中,邊緣計算是一種范式轉換,它將數據存儲和處理更接近數據源,從而提高響應時間并減少帶寬使用。與傳統云計算不同的是,邊緣計算在網絡的邊緣處理數據【3】。這種接近性降低了延遲,提高了實時數據處理能力,并支持IoT設備和服務的擴展【4】。邊緣計算的主要優勢包括服務靈活性提高、低延遲、增強的一致性以及消除單點故障,使其在智能城市、自主車輛和工業自動化應用中高度相關【5】。通過地理分布計算資源,邊緣計算確保數據處理發生在數據源附近,滿足實時分析和決策的需求。
另一方面,AI包含廣泛的技術和方法,使機器能夠執行通常需要人類智能的任務,如學習、推理和自我糾正【6】。AI的應用涉及多個領域,包括醫療、金融、交通等,在這些領域,AI用于分析大型數據集、自動化任務和提供預測性見解【7】。將AI整合到不同部門中,已經通過提高效率、改進決策和創造創新機會,徹底改變了流程。隨著機器學習(ML)或深度學習(DL)的改進,AI方法在執行需要人類認知功能的復雜任務方面變得越來越有能力【8】。特別是涉及神經網絡的AI算法在圖像和語音識別、自動駕駛和預測性維護等領域取得了顯著成功。
邊緣計算與AI的融合涉及在用戶設備上處理AI算法,提供如降低延遲、能源效率和實時應用等益處。這種集成允許在源頭進行實時數據處理和決策,顯著減少延遲和帶寬使用【9】。邊緣計算與AI的結合使得更智能和更靈敏的應用成為可能,如自主車輛、工業物聯網、智能家居系統等。通過利用邊緣AI,組織可以實現更高的效率、增強的隱私和更快的洞察力,推動各個領域的創新【10】。邊緣AI是指在網絡邊緣集成AI功能,使邊緣設備具備分布式智能。其目的是改善網絡連接性,支持具有定義質量目標的AI流水線部署,并允許數據驅動應用的適應【11】。在邊緣嵌入AI功能解決了基于云處理IoT的局限性,如隱私問題和網絡連接問題。邊緣AI的部署增強了對延遲敏感的任務,并減少了網絡擁塞,提高了無線網絡的效率和安全性。
此外,基于AI的技術在解決邊緣環境中的服務質量(QoS)感知調度和資源分配挑戰方面起著至關重要的作用,確保服務質量和用戶體驗。邊緣AI支持作為服務的AI(AIaaS)部署,具有可配置的模型復雜性和數據質量,提高了性能并降低了成本【12】【13】。這種創新方法通過在邊緣利用AI功能,支持智能安全應用并增強分布式系統的安全措施。邊緣智能,一種有前途的技術,通過將計算從云服務器轉移到IoT邊緣設備,賦能實時應用,創造了擁有廣闊可能性的智能企業【14】。在邊緣而非集中位置利用AI,釋放了與IoT設備和邊緣計算結合的AI潛力,在資源受限的邊緣設備上部署AI算法,用于各種應用如自主車輛、醫療保健和監控。 邊緣AI的重要性在于它能夠在不將大量數據發送到多個集中位置的情況下提供即時的洞察和行動【15】。這種能力在延遲和帶寬是重大限制的情況下尤為關鍵,如在自主駕駛中,必須實時做出決策,或在醫療保健中,必須快速處理患者數據以提供及時的干預【16】。邊緣AI的崛起也得益于硬件的進步,如更強大和高效能的處理器,使得在智能手機和IoT傳感器等設備上運行復雜的AI模型成為可能【17】。
將邊緣計算與AI結合的動機是多方面的,主要驅動因素是實時處理數據的迫切需求以及解決集中云計算系統固有局限性【18】。隨著連接設備數量的指數級增長和數據量的激增,傳統的云中心模型越來越多地面臨如延遲、帶寬限制和顯著的數據隱私問題。邊緣AI作為解決這些挑戰的關鍵方案,倡導本地化數據處理【19】。這種轉變不僅減少了對遠程云基礎設施的依賴,從而大幅降低延遲,還顯著增強了應用對實時數據輸入的響應能力。這種范式轉變對于推動需要瞬時數據分析和決策的下一代技術發展尤為重要,涵蓋了如自主車輛、智能城市基礎設施和尖端醫療系統等領域。
此外,邊緣AI使得即使在稀疏連接的情況下,應用也能高效運行,通過在源頭直接處理數據。這種能力在遠程或高度移動的環境中至關重要,在這些環境中,持續和可靠的互聯網訪問并不總是有保障的【20】。通過現場處理數據,邊緣AI顯著增強了數據隱私和安全措施,減少了將敏感信息傳輸到遠程服務器的需求。在如醫療和金融等領域,數據的機密性和完整性至關重要,這一特性尤為關鍵。邊緣AI還通過減少需要通過網絡傳輸的數據量,支持帶寬效率,是數據密集型應用的經濟選擇【21】。這種效率不僅降低了運營成本,還緩解了網絡擁堵,促進了更順暢和可靠的數據流。可擴展性是邊緣AI提供的另一個重要優勢【6】。隨著設備網絡的擴展,邊緣計算允許無縫擴展,而不會因集中處理能力的瓶頸而受限,使企業和技術能夠在不受基礎設施限制的情況下增長。
總的來說,邊緣計算與AI的結合不僅是技術進步,也是滿足現代應用動態需求的戰略必要。通過提倡降低延遲、增強隱私和安全、提高帶寬效率和可擴展性,邊緣AI將徹底改變數據驅動決策的方式,迎來一個高效且以隱私為中心的智能時代。
本文的主要貢獻是:
第二部分討論了一個相關的調查,重點關注與邊緣AI集成的不同應用中的算法、優化技術、安全和隱私問題。第三部分介紹了邊緣AI的背景和現狀。第四部分詳細描述了采用的審查方法。第五部分概述了涵蓋基礎設施、云計算、霧計算、服務、用例、機器學習和深度學習以及資源管理的分類法。第六部分基于分類法比較了現有的邊緣AI實現。第七部分呈現了分析和獲得的結果,并在第八部分討論了未來的研究方向。最后,第九部分總結了這項調查。
本節為讀者解釋了與邊緣AI背景和現狀相關的一些概念。子節III-A解釋了邊緣計算及其歷史起源。子節III-B提供了有關AI與邊緣技術整合的信息。接下來通過子節III-C和子節III-D分別解釋邊緣AI應用和挑戰。
邊緣計算的概念是一種范式,將計算資源更接近數據源,而不是通過遠程服務器提供服務的云計算【51】。這樣可以在如今需要處理大量數據的世界中減少不必要的帶寬占用和延遲問題【52】。為了理解邊緣計算的出現,更有用的是考察之前的范式,如云計算和霧計算。圖1顯示了云計算、霧計算和邊緣計算各自的優點及其層次安排。現在簡要介紹這些概念:
云計算:云計算是一種可以追溯到1970年代的范式,指的是用戶通過互聯網在服務器上使用公共計算資源【53】。今天,主要由大公司如微軟Azure、谷歌云平臺和IBM云提供給用戶的各種服務模式。云計算的優點如下【54】:
高處理能力和集中存儲,使用戶可以輕松訪問資源,只要有互聯網。這減少了用戶的數據丟失風險,并為用戶提供了從任何有互聯網的地方工作的自由。
可擴展性,如果計算資源需求增加(需求波動),云計算通過擴展資源提供更多的處理能力和存儲服務。這樣,保證了SLA和QoS等性能指標。
按使用付費,通過云計算提供的無服務器(功能即服務(FaaS)+ 后端即服務(BaaS))服務模式,用戶只為使用的計算資源付費。這樣提供了一種經濟的模式,吸引更多用戶。
霧計算:霧計算的概念由思科在2012年提出【55】。這種范式建議將計算資源更接近網絡的終端(如路由器和網關),以減少云計算中的延遲和帶寬問題。當查看圖1時,霧計算作為云和邊緣之間的一層。霧計算的優點如下【56】:
由于將計算資源更接近網絡邊緣,霧計算的延遲低于云計算。
作為云和終端設備之間的一層,通過處理部分需要發送到云的大量數據,減少不必要的帶寬使用。
邊緣計算:物聯網和傳感器技術的發展使得需要處理的數據量增加到巨大的水平。在云計算資源上處理所有這些數據可能導致不必要的帶寬占用和延遲問題。因此,邊緣計算的概念作為一種通過在數據源附近處理數據來優化延遲和帶寬使用的范式應運而生【57】。此外,邊緣計算是解決霧計算所帶來的復雜性、安全性和管理挑戰(額外一層)的良好解決方案【58】。邊緣計算的優點如下【59】:
通過將數據處理移到網絡邊緣,減少延遲和帶寬使用,
相比霧計算,提供了如更少的復雜性和更好的安全性等優點。
將AI與邊緣計算的概念結合起來是最近的熱門話題之一。圖2顯示了一個解釋邊緣AI概念的主要圖示。邊緣AI是在靠近數據源的邊緣節點(物聯網和移動設備)上分布處理AI算法數據,而不是在集中式云平臺上處理數據【60】。這兩種技術提供的優點如下【6】:
由邊緣和AI概念結合創建的邊緣AI應用比基于云的AI應用提供了更低的延遲和更高的安全性。圖3展示了其中一些應用。讓我們解釋這些應用:
結合邊緣和AI而產生的邊緣AI帶來了其提供的優點,但也帶來了仍需解決的挑戰。這些挑戰顯示在圖4中。讓我們解釋這些挑戰:
隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。
圖1:本文的總體結構。
近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。
隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。
雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。
文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。
本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。
圖2:UV系統的基礎結構及其應用。
圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。
狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。
將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。
除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。
此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。
GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。
UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。
除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。
GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。
總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。
自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。
在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。
此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。
在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。
增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。
在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。
有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。
此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。
在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。
另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。
總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。
如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。
雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。
在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。
總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。
安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。
自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。
在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。
VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。
為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。
總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。
UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。
監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。
另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。
此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。
在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。
在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。
高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。