生成式人工智能(GenAI)正在掀起一場變革性的技術浪潮,憑借其在內容生成、推理、規劃以及多模態理解方面無與倫比的能力,重塑各行各業。這一革命性力量為解決工程領域最宏大的挑戰之一——實現可靠的完全自動駕駛,特別是向 L5 級自動駕駛邁進——提供了迄今為止最具前景的路徑。
本綜述系統地匯總并評析了生成式人工智能在自動駕駛技術棧中的新興作用。我們首先提煉了現代生成建模的基本原理及其權衡,包括變分自編碼器(VAE)、生成對抗網絡(GAN)、擴散模型(Diffusion Models)以及大語言模型(LLM)。隨后,我們繪制了這些模型在圖像、激光雷達(LiDAR)、軌跡、占用圖和視頻生成等方面的前沿應用圖譜,并探討了由大語言模型引導的推理與決策能力。
我們對其實際應用進行了分類,包括合成數據工作流、端到端自動駕駛策略、高保真數字孿生系統、智能交通網絡以及向具身智能的跨領域遷移。此外,我們還識別了若干關鍵挑戰與潛在機遇,如對稀有場景的全面泛化能力、評估與安全驗證、受限預算下的部署、監管合規、倫理問題及其環境影響等,并提出了涵蓋理論保障、信任度量、交通系統整合及社會技術影響等方面的研究規劃。
通過整合上述內容,本綜述為研究人員、工程師和政策制定者提供了一份面向未來的參考資料,以助力其應對生成式人工智能與先進自動駕駛融合發展所帶來的變革。所引用文獻的持續更新版本可參見://github.com/taco-group/GenAI4AD。
關鍵詞:生成式人工智能 · 計算機視覺 · 大語言模型 · 自動駕駛
自動駕駛長期以來被視為一項具有變革性的技術,承諾在提升道路安全、出行能力和物流效率方面帶來革命性影響。據高盛研究(Goldman Sachs Research)預測,到2030年,全球超過12%的新車銷量可能實現SAE L3及以上級別的自動化(如圖1所示),有望在實現完全自動駕駛之前,開啟一個數十億美元規模的Robotaxi市場。這一愿景正在逐步從設想變為現實,得益于過去二十年人工智能(AI)、計算機視覺、機器人技術和智能交通系統的快速發展。 這一進展覆蓋了整個技術棧,從大規模數據采集 [2, 3]、自監督模型訓練 [4, 5]、大規模驗證 [6–9],到高效的車載部署 [10–12],都受到高性能計算設備(如GPU)的推動。現代自動駕駛車輛通常配備高分辨率攝像頭、旋轉式與固態激光雷達(LiDAR)、毫米波雷達、慣性測量單元(IMU)以及全球導航衛星系統(GNSS/GPS)等多種傳感器(見圖2),用于采集周圍環境的動態信息。車規級域控制器通過多核CPU、高效GPU、高帶寬內存及強大的電源管理電路 [13–16],實現多源數據的實時融合與處理,支持從SAE L2/L3(需要駕駛員監督)到特定環境下的L4自動駕駛。 最終目標是實現L5自動駕駛,即在所有條件下無需人類介入。其潛在收益包括更安全的道路、更普惠的出行體驗,以及更高效的運輸體系,這些都激勵了全球范圍內的大規模研發投入 [18]。 學術界為自動駕駛奠定了堅實基礎,解決了多個關鍵挑戰。2005年斯坦福大學的“Stanley”贏得DARPA大獎賽,首次展示了車輛在復雜環境中自主導航的可行性 [19]。隨后,研究人員在同步定位與建圖(SLAM)[20]等領域取得突破。然而,實現真正穩健的自動駕駛系統仍依賴于感知與決策的技術進步,而這些正是傳統方法的瓶頸。深度學習的崛起推動了新一輪范式變革。ResNet [21] 與 Transformer [22, 23] 等先進神經網絡架構,使得從多模態傳感器中提取高層次語義信息成為可能,從而顯著提升了感知能力,帶動了目標檢測 [24, 25]、語義分割 [26, 27] 和目標追蹤 [28, 29] 等關鍵任務的發展,推動了復雜場景的理解能力 [30, 31]。 在此基礎上,研究進一步拓展至行為預測 [32]、路徑規劃 [33],乃至端到端自動駕駛系統的探索——即直接將傳感器輸入映射到控制輸出 [34, 35]。但正如Clive Humby所言,“數據是新的石油” [36],這一轉型依賴于大規模、高質量的視覺與多模態數據集,如ImageNet [37]、MS COCO [38]、YouTube8M [39],以及專為自動駕駛設計的KITTI [40]、nuScenes [2]、Waymo Open [3]、Argoverse [41] 和 BDD100K [42] 等。仿真平臺如CARLA [43]、AirSim [44]、SUMO [45] 和Isaac Sim [46]同樣至關重要,既用于生成地面真實數據,也為算法驗證提供平臺。 盡管工具與算法取得飛躍,大多數學術系統仍停留在原型或受控測試階段 [47, 48],這反映出從實驗室走向大規模產品部署的復雜性。工業界正在加速這一轉化進程。Waymo(起源于斯坦福DARPA團隊)和百度Apollo Go是L4 Robotaxi的領導者。Waymo自2020年起在鳳凰城運營完全無人駕駛服務,目前已擴展至舊金山、洛杉磯與奧斯汀等多個城市;百度在中國十多個城市實現了無人運營,累計服務超千萬次 [49]。Zoox(亞馬遜支持)開發專用車輛,計劃于2025年在拉斯維加斯和舊金山推出服務 [50]。然而,L4落地仍面臨技術、安全和商業障礙。Cruise(通用支持)于2023年底發生安全事故,2024年12月宣布暫停Robotaxi運營,轉而專注于高級駕駛輔助系統(ADAS)[51]。 目前市場主流仍是L2/L3級ADAS,如特斯拉Autopilot與FSD Beta [52],以及Mobileye等供應商為多家車廠提供的解決方案 [53]。這表明從受限環境擴展到廣義自動駕駛仍有重大挑戰。NVIDIA的DRIVE平臺 [54] 是核心推動者,支持從感知到規劃的AI計算。2022年推出的DRIVE Thor超級芯片 [55],進一步整合ADAS與自動駕駛功能,為量產車提供統一計算平臺。 盡管投入巨大,自動駕駛要實現L5仍面臨核心障礙: 1. 長尾問題(The Devil is in the “Long Tails”):系統難以泛化到訓練數據之外的稀有場景(如極端天氣、光照、傳感器干擾)[58]。 1. 不確定性管理(Confidentially Confused):如何在大規模、多樣化環境中可靠運行,并應對模型與環境的不確定性。 1. 復雜性與成本(An Arm and a LiDAR?):高計算需求與昂貴傳感器限制了系統的可擴展性和普及性。
當前范式的局限性表明,需要轉向更強大、可適應的AI架構以突破技術瓶頸。
OpenAI在2021年推出的DALL·E [59] 引發了生成式人工智能(GenAI)的爆炸式發展,緊隨其后的Midjourney [60] 和Stable Diffusion [61] 進一步普及了AI生成藝術 [62],廣泛影響藝術、設計、營銷、媒體和娛樂產業 [63, 64]。與視覺生成技術并行發展的是大型語言模型(LLM)的崛起,如ChatGPT [65] 和GPT-4 [66] 展現出前所未有的自然語言理解與推理能力 [67]。Meta發布的開源LLaMA系列 [68–70] 促進了社區研究的發展,多模態功能的融合更開啟了視覺語言推理與人機協作的新方向。 在本綜述中,我們將生成式AI定義為:能夠學習數據分布并合成新數據的模型,包括圖像、視頻、文本、音頻、代碼乃至三維環境。這些輸出在統計上高度接近真實數據,賦予其在生成高質量、多樣化、可擴展數據表示方面的強大能力。 GenAI 為突破L5瓶頸提供新路徑: * 高保真“長尾”模擬:通過合成LiDAR [71]、攝像頭 [72] 與軌跡數據 [73],以及復雜場景 [74],生成涵蓋稀有事件的數據集和仿真環境。 * 多主體建模與長時預測:提升系統在不確定性下的感知與規劃能力。 * 統一多模態系統:如LLaVA [75] 與DriveVLM [76],融合感知、預測與規劃于語言中心架構中,替代脆弱的模塊化流程。
因此,生成式AI不僅是補充工具,更代表了范式轉變:向統一、數據驅動、可泛化系統邁進,加速實現安全可靠的L5自動駕駛。
第2節:對比本綜述與其他自動駕駛相關綜述,推薦閱讀擴展材料。 * 第3節:匯總自動駕駛研究中常用數據集,并按應用領域分類,提供下載鏈接。 * 第4節:系統梳理生成模型的基本架構(VAE、GAN、擴散模型、自回歸模型)。 * 第5節:深入探討適用于自動駕駛的前沿GenAI模型,按圖像、視頻、LiDAR、軌跡等模態劃分。 * 第6節:詳述GenAI在自動駕駛中的關鍵應用,如傳感器合成、世界建模、多智能體預測、場景理解與決策。 * 第7節:拓展視角,探討生成式AI在具身智能領域的研究進展。 * 第8節:審視當前技術局限與未來挑戰,涵蓋數據稀缺、理論缺口、安全評估、仿真精度,以及政策、倫理、公共健康等社會議題,提出構建可信、可擴展、普惠交通系統的研究方向 [78, 79]。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。
關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。
人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。
為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。
然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:
這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。
本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。
無人駕駛飛行器(UAV)已成為各行各業的變革性技術,為軍事和民用領域的復雜挑戰提供了適應性強的解決方案。通過集成人工智能(AI)和機器學習(ML)算法等尖端計算工具,無人機不斷擴展的能力為進一步發展提供了平臺。這些進步極大地影響了人類生活的方方面面,促進了一個無與倫比的高效便捷時代的到來。大型語言模型(LLM)是人工智能的關鍵組成部分,在部署的環境中表現出卓越的學習和適應能力,展示了一種不斷發展的智能形式,有可能接近人類水平的熟練程度。這項工作探索了將無人飛行器與大型語言模型集成以推動自主系統發展的巨大潛力。我們全面回顧了 LLM 架構,評估了它們與無人機集成的適用性。此外,我們還總結了最先進的基于 LLM 的無人機架構,并確定了將 LLM 嵌入無人機框架的新機遇。值得注意的是,我們側重于利用大型語言模型來完善數據分析和決策過程,特別是在無人機應用中增強光譜傳感和共享。此外,我們還研究了 LLM 集成如何擴展現有無人機應用的范圍,從而在災難響應和網絡恢復等緊急情況下實現自主數據處理、改進決策和加快響應時間。最后,我們強調了未來研究的關鍵領域,這些領域對于促進大型語言模型與無人機的有效整合至關重要。
圖 3:集成 LLM 的無人飛行器的應用。
五十多年來,無人駕駛飛行器(UAVs)因其卓越的自主性、機動性和適應性而成為人們關注的焦點,增強了包括監視[1, 2]、監測[3, 4]、搜索和救援[5]、醫療保健[6]、海上通信[7]和無線網絡供應[8]在內的廣泛應用。這些奠基性成就推動了人工智能(AI)與無人機的結合。特別是在 2010 年代,無人機技術和人工智能的進步達到了一個關鍵時刻,為各種應用帶來了巨大效益。例如,人工智能無人機采用人臉識別和實時視頻分析技術來加強偏遠地區的安全和監控[9, 10, 11]。在農業領域,帶有人工智能模型的無人機可分析作物健康狀況,實現精準耕作,提高資源效率和產量[12, 13]。同時,人工智能驅動的無人機可優化物流路線規劃和庫存管理,簡化倉庫作業并提高交付效率[14, 15, 16]。
在這些進步中,大型語言模型(LLMs)最近獲得了極大關注,因為它們能讓系統從應用行為中學習并優化現有系統[17, 18]。各種采用變換器架構的大型語言模型,如生成式預訓練變換器(GPT)系列[19]、來自變換器的雙向編碼器表示法(BERT)[20]和文本到文本傳輸變換器(T5)[21],都表現出了基本的能力。由于在大型數據集上進行了廣泛的訓練,它們在理解、生成和翻譯類人文本方面表現出色,這使它們在機器人、醫療保健、金融、教育、客戶服務和內容創建等應用領域具有重要價值。此外,這些模型在實時數據處理、自然語言理解和生成、內容推薦、情感分析、自動應答、語言翻譯和內容摘要等方面的熟練程度也為無人機領域創造了機遇。例如,它們能使無人機對動態環境變化和通信需求做出快速反應[22, 23]。它們的自適應學習能力有助于根據接收到的數據不斷改進操作策略,從而加強決策過程[24]。此外,無人機支持多種語言的能力拓寬了其在全球行動中的適用性,對于智能城市、醫療保健、救援行動、應急響應、媒體和娛樂等不同應用領域的無人機通信尤為重要[25, 26, 27]。
近期文獻[28, 29, 30]探討了將大型語言模型納入無人機通信系統,以增強與人類操作員以及無人機之間的互動。傳統上,無人機根據預編程指令運行,動態交互能力有限。然而,集成大型語言模型可以支持自然、直觀的通信方法。例如,大型語言模型可以用自然語言解釋和響應命令,從而簡化無人機控制,并允許處理復雜的實時任務調整。這使無人機在各種應用中成為適應性更強、更實用的工具[31]。大型語言模型可根據通信上下文或環境數據增強無人機的自主決策能力[32, 33]。例如,在搜救行動中,無需人工輸入,大型語言模型就能分析信息和環境數據,確定優先級和行動。在多無人機行動中,大型語言模型可促進更好的通信和協調,管理和優化無人機之間的信息流,提高整體效率和效果。大型語言模型還可以從收集到的大量數據中生成摘要、見解和可行建議,從而提高數據處理和報告能力。此外,大型語言模型經過訓練可識別通信數據中的模式和異常情況,這對于預先防范和解決潛在問題至關重要 [34, 35]。例如,如果無人機發送的數據不一致,大型語言模型可以快速檢測到異常情況并向操作員發出警報。大型語言模型可增強通信協議的可擴展性和適應性,根據新數據或操作變化自動學習和適應新協議,確保無縫通信。利用模擬數據對大型語言模型進行預訓練有助于了解任務條件和要求,從而在任務期間進行實時調整,以實現最佳性能。
將大型語言模型集成到無人機通信系統的潛力激發了這項工作。我們全面分析了以無人機集成為重點的現有 LLM 方法,以突出在擴展當前無人機通信系統能力方面的優勢和局限性。綜述總結了最先進的 LLM 集成架構,探討了將 LLM 納入無人機架構的機會,并討論了與 LLM 集成相關的頻譜感知和共享問題。我們旨在展示大型語言模型如何優化通信、動態適應新任務以及處理復雜數據流,從而提高無人機在應急響應、環境監測、城市規劃和衛星通信等各個領域的效率和多功能性。此外,我們還探討了部署人工智能驅動的無人機所面臨的法律、倫理和技術挑戰,強調負責任和有效的整合,為推進無人機技術以滿足未來需求奠定基礎,并探索人工智能在無人機系統中的創新應用。
本文的貢獻概述如下:
未來有望徹底改變各種領域;因此,最近有幾篇評論文章對這一主題進行了探討。例如,[44, 45, 46]研究了大型語言模型架構,[47, 48, 49, 50]概述了訓練過程、微調、邏輯推理和相關挑戰,以解決其局限性,從而在各領域廣泛采用基于大型語言模型的系統。文獻[36]對基于 LLM 的智能體進行了全面分析,重點關注其構建、應用和評估。這些智能體具備復雜的自然語言理解和生成能力,無需人工干預即可運行。它們以復雜的方式與環境和用戶進行交互,因此需要在社會科學、自然科學和工程學等不同領域整合先進的人工智能技術,以完成交流和解決問題等任務。另一項工作[37]深入研究了基于 LLM 的人工智能體的開發和使用,強調了它們在推進人工通用智能方面的作用。大型語言模型因其語言能力被認為是創建多功能人工智能體的基礎,而語言能力對于各種自主任務至關重要。作者提出了一個基于大腦、感知和行動組件的框架,以提高智能體在復雜環境中的表現。在 [38] 一文中,作者對大型語言模型與人類期望相一致所面臨的挑戰和取得的進展進行了認真研究。通過增強 LLM 匹配的技術解決了誤解指令和有偏差的輸出等問題。研究還探討了數據收集策略、訓練方法和模型評估技術,以提高理解和生成類人響應的性能。另一項研究[39]探討了部署大型語言模型所面臨的挑戰,尤其是在資源緊張的環境下。研究討論了量化、剪枝和知識提煉等模型壓縮技術,以提高效率和適用性。雖然 [40, 41] 研究了大型語言模型面臨的挑戰,包括龐大的數據集管理和高昂的成本,但他們指出了僅靠增加模型規模無法克服的局限性。文獻[30]探討了生成人工智能(GAI)在改善無人機通信、網絡和安全性能方面的應用。文章介紹了一個 GAI 框架,以提高無人機的聯網能力。文獻[22]調查了無人機群在動態環境中面臨的挑戰,討論了各種用于增強協調性和功能性的 GAI 技術。在 [42] 中,作者探討了大型 GenAI 模型通過改進無線傳感和傳輸來增強未來無線網絡的潛力。他們強調了這些模型的好處,包括提高效率、降低培訓要求和改善網絡管理。在另一項研究[43]中,作者調查了大型語言模型在無線通信和網絡中開發高級信號處理算法的應用。他們探索了使用大型語言模型為復雜任務生成硬件描述語言代碼的潛力和挑戰,重點是通過軟件定義無線電進行代碼重構、重用和驗證。這種方法大大提高了生產率,減少了計算挑戰。盡管 [30, 22] 廣泛關注 GAI,但大型語言模型在無人機通信系統中的具體應用仍有待探索。這一空白凸顯了一個有待研究的領域。表 I 總結了現有研究的主要重點和關鍵發現。
本文接下來的內容安排如下。在第二節中,我們概述了大型語言模型,介紹了該領域的基本概念和發展情況。第三節專門探討用于無人機的大型語言模型,我們討論了 LLM 技術在無人機系統中的集成和適應性。第四節重點討論無人機通信中大型語言模型的網絡架構,研究支持無人機網絡中大型語言模型功能的結構設計。第五節討論無人機中大型語言模型的頻譜管理和監管。第六節探討了大型語言模型在無人機通信中的應用和使用案例,概述了這些技術的實際應用和帶來的好處。第七節探討了在實施集成 LLM 的無人機時所面臨的挑戰和需要考慮的因素,討論了潛在的障礙和操作方面的注意事項。第八節專門討論了未來方向和研究機會,提出了在無人機中進一步探索和發展大型語言模型的潛在領域。最后,第九節總結了我們的研究結果,并對我們研究的廣泛意義進行了反思。
由于在各種應用中對集成 LLM 的無人機系統的興趣日益濃厚,最近出現了一些研究成果。例如,在 [68] 中,作者為四旋翼無人機引入了基于視覺的自主規劃系統,以提高安全性。該系統預測動態障礙物的軌跡,并利用 NanoDet 精確檢測障礙物和卡爾曼濾波精確估計運動,生成更安全的飛行路徑。此外,該系統還采用了 GPT-3 和 ChatGPT 等大型語言模型,以促進更直觀的人機交互。這些大型語言模型實現了自然語言處理(NLP)過程,使用戶能夠通過簡單的語言指令控制無人機,而無需復雜的編程知識。它們將用戶指令轉化為可執行代碼,使無人機能夠以自然語言執行任務并提供反饋,從而簡化了控制過程。無人機可以以臨時和網狀方式運行,形成動態網絡,而無需依賴已有的基礎設施。因此,當建立永久性網絡基礎設施不切實際時,如災難響應、軍事行動或環境監測,無人機就顯得尤為重要。ad-hoc 和網狀網絡都增強了無人機在自動移動過程中配置和保持連接的能力。它們不斷發現新的鄰居,并能根據網絡的拓撲結構和流量條件調整路由,從而提高了可擴展性和靈活性[69]。將大型語言模型集成到無人機通信中,可增強無人機了解網絡狀況并根據網絡特性生成見解的能力,從而突出其適應性和響應能力,以快速適應不斷變化的環境條件和操作需求。大型語言模型還有助于無人機了解網絡流量模式,以便推薦減少延遲和提高吞吐量的自適應協議,特別是在這些網絡中常見的多變條件下。它們還有助于模擬或建模各種情況下的網絡行為,幫助無人機部署的規劃和決策過程。因此,加入 LLM 可以加強數據分析,提高無人機之間的數據交換效率。大型語言模型具有處理和學習海量數據的能力,可使無人機在路線規劃、數據轉發和網絡配置方面做出明智的決策。例如,針對無人機故障或環境障礙,大型語言模型可以迅速計算出替代路線或重新配置網絡,以維持連接性和性能。此外,大型語言模型通過為無人機配備先進的認知能力,使無人機能夠理解和執行復雜的指令,并與人類操作員或其他自主系統進行更自然的交互,從而提高無人機的自主水平。
此外,大型語言模型還能分析無人機的數據(如運行日志和遙測數據),在潛在故障或維護需求發生之前對其進行預測。這種預測能力可大大提高無人機的可靠性和使用壽命,減少停機時間和維護成本。安全性也是分散式 ad-hoc 網絡最關心的問題;大型語言模型可通過模式識別和異常檢測識別潛在威脅,并模擬攻擊場景以制定更強大的安全措施,從而增強安全協議。大型語言模型還能優化無人機網絡內帶寬和電力等關鍵資源的分配。大型語言模型通過了解和預測網絡需求來動態分配資源,從而最大限度地提高效率,延長無人機的運行時間。它們改善了人類操作員與無人機網絡之間的界面,提供更直觀的控制和反饋系統,包括生成網絡狀態自然語言報告,或將復雜的網絡數據轉化為決策者可操作的見解。此外,大型語言模型還能解決特設網絡固有的可擴展性難題。當無人機數量發生變化時,它們會動態調整網絡協議和配置,確保網絡無論規模大小都能保持穩定高效。通過集成 LLM 功能,無人機 ad-hoc 網絡可以變得更加智能、反應靈敏和高效,從而顯著提高其在各種應用中的有效性。
本節將詳細介紹不同的大型語言模型,并討論它們為基于無人機的通信系統帶來的機遇。
如上一節所述,BERT 是 NLP 領域頗具影響力的模型,由谷歌研究人員開發,于 2018 年發布[20]。BERT 的開發代表了 NLP 領域的一個轉折點,通過充分利用每個單詞周圍的上下文,為機器處理和理解人類語言提供了一種更加細致有效的方法。BERT 采用預訓練和微調階段。在預訓練階段,模型在大型文本語料庫中進行訓練,這些任務旨在幫助模型學習一般語言模式。這些任務包括預測句子中的屏蔽詞(即屏蔽語言模型 (MLM))和預測兩個句子在邏輯上是否相互銜接(即下一句預測 (NSP))。在預訓練之后,BERT 會根據特定任務(如問題解答或情感分析)的需要,使用額外的數據進行微調 [70, 71]。
BERT 的引入大大提升了 NLP 任務的技術水平。在命名實體識別[72, 73]、情感分析[74, 75],特別是問題解答和自然語言推理等任務的排行榜上,BERT 的性能有了明顯的提高,在這些任務中,來自兩個方向的全句子上下文對于理解微妙之處至關重要。此外,BERT 還激發了許多變化和改進,從而開發出了不同的模型,如魯棒性優化 BERT 方法(RoBERTa)[76]、來自變換器的精餾雙向編碼器表示(DistilBERT)[77]和精簡 BERT(ALBERT)[78],這些模型使用 BERT 的原始架構和訓練程序來優化其他因素,如訓練速度、模型大小或增強性能。
整合 BERT 可顯著提高無人機在各個領域的性能。例如,在應急響應場景中,BERT 可以幫助無人機理解災害管理團隊發出的復雜的自然語言指令。此外,BERT 還能解釋和總結來自無人機傳感器和報告的信息,這在需要快速總結大量視頻數據的監控任務中尤為重要。此外,BERT 還能快速分析和解讀來自多個來源的數據,從而及時做出明智的決策,這在環境監測中對評估森林火災或污染等情況至關重要。此外,BERT 還能熟練地解析和理解指令,確保多架無人機之間的精確協調,這對于在具有挑戰性的環境中運送物資的復雜物流操作至關重要。最近,在文獻[79]中,作者介紹了一種創新的端到端基于語言模型的細粒度地址解析框架(LMAR),該框架明確設計用于增強無人機交付系統。傳統的地址解析系統主要依賴于用戶提供的興趣點(POI)信息,往往缺乏準確交付所需的精度。為了解決這個問題,LMAR 采用語言模型來處理和完善用戶輸入的文本數據,改進了數據處理和正則化,提高了無人機投遞的準確性和效率。在另一項研究成果[80, 81]中,作者為無人機開發了增強型安全和取證分析協議,以支持各行各業無人機使用量的增加,包括那些容易被犯罪分子濫用的領域。他們引入了一個命名實體識別系統,從無人機飛行日志中提取信息。該系統利用帶有注釋數據的微調 BERT 和 DistilBERT 模型,大大提高了對無人機相關事件取證調查至關重要的相關實體的識別率。文獻[82]的作者側重于通過從大規模非結構化無人機數據中構建標準化知識圖譜,提高無人機在智能戰爭中的目標識別能力。作者引入了一個兩階段知識提取模型,并集成了 BERT 預訓練語言模型來生成字符特征編碼,從而提高了未來無人機系統信息提取的效率和準確性。
OpenAI 開發的 GPT 系列代表了大型語言模型在設計和功能上的重大演進,可增強文本生成、翻譯、摘要和問題解答等各種自然語言處理任務[83]。第一個架構 GPT-1 于 2018 年 6 月推出,它基于轉換器模型,使用了轉換器架構的解碼器塊堆疊。GPT-1 使用 BooksCorpus 數據集進行了語言建模任務(預測句子中的下一個單詞)的預訓練,該數據集包含 7000 多本獨特的未出版書籍(總計約 8 億個單詞)。經過初步預訓練后,監督學習針對特定任務進行了微調 [19, 83]。
GPT-2 于 2019 年 2 月發布,在其前身的基礎上進行了大幅擴展,最大版本具有多達 48 層,1600 個隱藏單元,48 個注意頭,15 億個參數[84]。GPT-2 使用了一個 WebText 數據集,該數據集是通過搜索從 Reddit 上至少有三個向上投票的帖子中鏈接出來的網頁而創建的。這產生了一個約 40GB 文本數據的多樣化數據集。GPT-2 繼續使用無監督學習方法,僅利用語言建模進行預訓練,而不針對具體任務進行微調。這證明了該模型從語言理解到特定任務的泛化能力[85]。2020 年 6 月發布的 GPT-3 是有史以來最大的人工智能語言模型之一,擁有 1750 億個參數。它包括 96 層,有 12 288 個隱藏單元和 96 個注意頭[86]。它是在一個更加廣泛和多樣化的數據集上訓練的,包括授權數據、人類訓練者創建的數據和公開數據的混合,規模遠遠大于 GPT-2。GPT-2 和 GPT-3 使用無監督學習模型,展示了從大型數據集學習的卓越能力[87]。GPT-4 建立在先進的變壓器式架構上,與前代產品 GPT-2 和 GPT-3 相比,在規模和復雜性上都有顯著提升。該模型利用 “人的反饋強化學習 ”進行了微調,并采用了公開的互聯網數據和第三方提供商授權的數據。不過,與架構有關的具體細節,如模型大小、硬件規格、用于訓練的計算資源、數據集構建和訓練方法等,尚未公開披露[88]。
無人機中的 GPT 系列代表了人工智能與無人機技術的創新交叉,可在從增強型控制系統到完全自主的任務執行等廣泛領域增強無人機的功能、自主性和交互能力 [89,90]。例如,GPT 系列集成可使無人機熟練地執行以普通語言提供的指令。例如,操作員發出在特定坐標處檢查橋梁狀況的指令后,無人機就會設計出飛行路徑,并執行橋梁檢查的所有必要步驟,而無需對每個步驟進行人工輸入。同樣,它還可以根據飛行期間收集的數據生成詳細報告,將這些模型與無人機的傳感器和數據收集系統集成后,可以自動生成文字說明,突出強調任務結果和檢測到的異常情況等各個方面[91]。因此,人類操作員無需查看大量原始數據,就能更容易地理解無人機觀察到的情況。例如,Tazir 等人在文獻[89]中將 LLM 系統 OpenAI 的 GPT-3.5-Turbo 與無人機模擬系統(即 PX4/Gazebo 模擬器)集成,創建了基于自然語言的無人機控制系統。系統架構的設計目的是通過基于 Python 的中間件提供的聊天機器人界面,實現用戶與無人機模擬器之間的無縫交互。Python 中間件是核心組件,負責在聊天機器人(GPT-3.5-Turbo)和 PX4/Gazebo 模擬器之間建立通信渠道。它處理來自用戶的自然語言輸入,使用 OpenAI API 將這些輸入轉發給 ChatGPT 模型,檢索生成的響應,并將其轉換為模擬器可以理解的命令。ChatGPT 通過 PX4 命令和解釋提供指導和支持,從而增強了無人機模擬系統的交互性和可訪問性。它還通過復雜的人工智能驅動界面促進無人機的控制和管理。在另一項工作[92]中,作者將先進的 GPT 模型和密集字幕技術集成到自主無人機中,以增強其在室內檢測環境中的功能。所提出的系統使無人機能夠像人類一樣理解和響應自然語言命令,從而提高了無人機的可及性,使沒有高級技術技能的操作人員也能輕松使用無人機。無人機的密集字幕模型通過分析飛行過程中捕獲的圖像來生成詳細的對象字典,從而促進這種類似人類的交互。這些字典使無人機能夠識別和理解環境中的各種元素,并根據預期和意外情況動態調整其行為,從而提高無人機在各種環境條件和應用中進行室內檢測的效率和準確性。
此外,在需要快速決策的動態或復雜環境中,GPT 系列可以通過處理實時數據和通信提供幫助,根據數據提供建議或自動決策。例如,搜救行動可以分析來自多個無人機的實時視頻饋送和文本報告,綜合信息,并建議重點關注的區域或調整搜索模式 [29]。通過建立一個分散的蜂群智能系統,無人機可以共享信息并做出群體決策,從而在增強無人機之間的協作通信方面發揮重要作用。例如,無人機可以使用自然語言相互報告狀態和發現,根據共同目標協調行動,并在群組之間優化任務分配,而無需持續的人工干預[93]。GPT 系列還能模擬各種通信場景,通過生成逼真的任務場景和響應,為無人機的培訓提供有力的培訓,使操作員能夠處理不同的情況,從而提高他們在實際操作中的響應能力[91]。
谷歌于 2019 年 10 月推出了 T5 模型,并采用了一種新穎、精簡的方法來處理各種 NLP 任務,將其重構為文本到文本問題 [94]。傳統模型需要針對不同任務采用不同的架構,并產生不同的輸出,而 T5 模型則不同,它將所有任務的輸入和輸出標準化[95]。每個 NLP 任務(如翻譯、摘要、問題解答或文本分類)都被視為從給定文本生成新文本。因此,T5 對所有任務都采用了統一的模型架構。這種簡化簡化了模型訓練和部署流程,因為只需對架構進行最小的修改,就能在多個任務中訓練相同的模型[21]。例如,在翻譯任務中,輸入是英文文本,輸出是法文文本,兩者都只被視為單詞序列。T5 以自我監督的方式在大量文本語料庫上進行預訓練,主要使用與 BERT 類似的掩蔽語言模型任務的變體。這種預訓練使模型能夠有效地理解和生成自然語言。之后,通過調整訓練數據以適應文本到文本格式,T5 可在特定任務中進行微調。T5 的多功能性使其適用于廣泛的應用,包括語言翻譯、文檔摘要和情感分析(通過生成描述性標簽來解釋文本情感)。它還能生成適當的文本答案,在問題解答方面表現出色[96]。
無人機可以集成 T5 框架,以提高無人機操作的效率。與 GPT 和 BERT 類似,T5 也能改進無人機的命令解釋和響應生成,將操作員用自然語言發出的復雜命令解釋并轉換為無人機的可執行指令。T5 還能根據無人機收集的數據生成全面的任務報告,包括總結主要發現、突出異常現象和描述勘測區域,以用于環境監測或災害響應應用。此外,T5 還能通過處理來自無人機傳感器和攝像頭的數據流執行實時操作,提供即時、可操作的見解。例如,在搜救行動中,T5 可以快速匯總視覺和傳感器數據,以描述潛在的關注區域或危險,幫助更有效地指導救援工作。與此同時,T5 還能解釋來自一個無人機的信息,并為其他無人機生成適當的響應或命令,從而顯著提高無人機協同任務的性能,促進各種應用領域的無縫團隊合作,包括管理飛行模式、避免碰撞或協調區域監控的時間安排等。
T5 輔助無人機通信還能實現自動故障排除和反饋,例如,如果無人機在運行過程中遇到問題或異常情況,它可以通過解釋錯誤信息或傳感器數據并以自然語言生成故障排除步驟或建議來提供幫助。這還可以擴展到向操作員提供有關任務進展的實時反饋,或提出調整建議以提高運行效率。此外,T5 還能根據歷史數據或潛在的未來情況生成模擬任務場景和對話,用于培訓目的。
XLNet 是一種先進的 NLP 模型,由谷歌和卡內基梅隆大學的研究人員聯合開發[62]。BERT 采用的是 MLM 方法(即隨機屏蔽和預測句子中的某些單詞),而 XLNet 采用的是基于排列的訓練策略。這種方法在訓練過程中考慮了句子中所有可能的單詞排列,使模型能夠根據前后其他單詞提供的所有潛在語境預測目標單詞。這種方法大大提高了語境理解的靈活性和深度。此外,與 BERT 不同的是,基于排列的訓練使 XLNet 能夠捕捉到更豐富的語言上下文理解,而 BERT 只專注于預測屏蔽詞,可能會遺漏上下文的細微差別 [97,98]。
此外,XLNet 在訓練過程中不依賴單詞屏蔽,從而避免了 BERT 在預訓練和微調階段之間的差異,使不同操作階段的行為更加一致。XLNet 還融合了自回歸語言建模(如 GPT 系列)和自動編碼(如 BERT)的策略,在不遵守固定序列順序的情況下進行自回歸訓練。相反,它根據不同的排列組合來預測單詞,從而增強了其理解和生成能力[99]。因此,XLNet 通過有效利用完整的句子結構實現更深入、更準確的上下文理解,在包括問題解答、自然語言推理和文檔排序在內的多項 NLP 任務中表現出卓越的性能[100, 101, 102]。
由于 XLNet 采用了復雜的語言處理過程,因此將其集成到無人機中可提供獨特的優勢 [103, 104]。XLNet 基于置換的訓練可實現對上下文更細致、更全面的理解,這使其在解釋上下文可能變化很大的復雜指令或環境數據時尤為有效。例如,在搜救任務中,作戰環境復雜多變,XLNet 可以實時對上下文繁重的指令進行更可靠的解釋。同樣,由于 XLNet 考慮了輸入數據的所有排列組合,因此在應對現實世界無人機任務中常見的噪聲或不完整輸入時更具魯棒性。在通信可能中斷或不完整的戰斗或災難響應場景中,這一功能尤其有益。XLNet 根據上下文預測缺失信息的能力可以保持無人機操作的有效性。
百度研究院于 2019 年 6 月推出 ERNIE,將世界知識整合到預訓練的語言模型中[58]。它將結構化的世界知識整合到語言模型的訓練中,是語言理解領域的一次重大進化。與依賴大量文本數據來學習語言模式的傳統模型不同,ERNIE 通過將知識圖譜納入訓練過程來增強這些模型。知識圖譜是存儲世界信息的結構化數據庫,機器可以通過包含實體(如人、地點和事物)及其關系來理解和處理。
ERNIE 可在傳統文本語料庫和知識圖譜上進行訓練。通過知識圖譜,ERNIE 可以理解和表示與各種實體相關的復雜關系和屬性[105]。這種訓練包括兩個關鍵部分:文本數據和知識集成。文本數據與 BERT 或 GPT 等其他模型類似,ERNIE 通過處理這些海量文本來學習語言的句法和語義模式。同時,知識整合組件使 ERNIE 能夠同時從知識圖譜中學習,吸收現實世界實體及其相互關系的結構化信息。因此,這一過程使 ERNIE 能夠從線性文本和涉及現實世界事實和關系的多維角度理解上下文。整合知識圖譜能讓 ERNIE 更深入地理解語言語義,因為它能將單詞和短語與現實世界的實體及其屬性聯系起來。這種能力使它能更好地完成需要細微理解的任務,如問題解答和命名實體識別 [106,107]。
此外,ERNIE 利用外部知識的能力有助于它提供與上下文相適應的回答或分析,尤其是在特定主題的背景知識至關重要的情況下。它還能更好地處理語言中的歧義,因為來自知識圖譜的附加數據能根據相關實體的更廣泛的上下文,澄清可能混淆或不清楚的文本[108]。ERNIE 的應用范圍廣泛,影響深遠,尤其是在需要深入理解和上下文意識的領域。例如,ERNIE 可利用其集成知識庫來回答需要理解文本之外的復雜問題,如歷史事實或有關人物或地點的具體細節。ERNIE還能理解查詢中與所學知識有關的深層含義,提供更相關、更精確的答案,從而提高語義搜索引擎的性能。
ERNIE具有將知識圖譜中的結構化世界知識與文本數據整合在一起的獨特能力,這將大大有利于無人機通信。例如,與傳統的語言模型相比,ERNIE 可以更有效地解釋操作員發出的復雜的、與上下文相關的命令。例如,如果操作員發出的命令涉及地理或操作術語,ERNIE 對知識圖譜的整合使其能夠更準確地理解和執行命令。在陌生地區執行復雜任務時,這一點至關重要,因為在這種情況下,對當地地理和術語的準確理解十分必要。ERNIE 還展示了基于環境數據和任務目標的有效自主決策能力,因為它可以同時處理當前任務數據和綜合知識,從而做出明智的決策。例如,在環境監測中,ERNIE 可根據其對環境科學的廣泛了解,識別地貌中的具體特征或異常現象,從而幫助進行更有效的數據收集和分析。
在搜救或災難響應等關鍵任務中,ERNIE 還表現出較高的實時態勢感知屬性,可應用其語義理解能力,根據其知識圖譜解釋實時數據輸入(如視覺或傳感器數據)。這有助于快速識別相關實體或情況,例如識別歷史上已知的危險區域或解讀遙感數據中的人類活動跡象。在多無人機場景中,ERNIE 可通過理解和管理無人機之間的信息交流,促進更好的溝通和協調。它可以根據與任務目標相關的相關性和緊迫性對通信進行解釋和優先排序,利用其語義理解能力確保無人機和諧運行。
此外,在培訓目的方面,ERNIE 可以生成背景豐富的模擬場景,將真實世界的知識納入培訓練習,幫助更好地理解如何在復雜場景中與無人機互動,加強他們對真實世界行動的準備。與其他大型語言模型類似,任務完成后,ERNIE 可協助生成詳細的事件報告和匯報,其中包括觀察數據和基于綜合知識的背景見解,以便對任務結果進行語義分析。因此,ERNIE 通過利用其整合和利用廣泛的知識圖譜以及文本數據的能力,可以顯著增強無人機通信系統的能力,使其在復雜的作戰環境中更加智能、反應更快和更有效。這使得ERNIE對于先進的無人機應用特別有價值,因為傳統的語言模型可能無法理解和處理復雜的上下文信息。
Facebook 開發的 BART 在變換器框架內結合了自動編碼和自動回歸技術的優勢,使其在處理序列到序列任務時異常有效[109]。BERT 主要用于理解和預測同一輸入文本中的元素,而 BART 則不同,它針對需要生成或轉換文本的任務進行了優化。它的訓練方法是用各種噪聲函數對文本進行破壞,如標記屏蔽、文本填充,并學習如何重建原始文本 [110, 70]。BART 的訓練使其具備了處理各種應用的能力,包括文本摘要(可生成較長文檔的簡明版本)和文本生成(適用于創建內容或生成對話)。此外,BART 的功能還擴展到機器翻譯和數據增強,使其成為將輸入文本轉化為連貫且與上下文相適應的輸出序列的多功能工具 [111]。
將 BART 集成到無人機中具有多種優勢,特別是在涉及復雜文本處理和生成的任務中。例如,BART 可以加強任務報告的編寫和解釋,從大量監視數據或傳感器讀數中自動生成簡明摘要,從而有助于更快地做出決策和通報情況。BART 還善于生成連貫的文本序列,用于自動回復或指示無人機操作員,特別是在需要快速準確通信的場景中。
此外,BART 還能在搜救行動中改進實時策略調整,以解讀傳入的數據,并根據不斷變化的情況提供最新的任務目標或方向。它還能將嘈雜、不完整的文本數據轉化為可理解的信息,因此在無人機操作的動態和挑戰性環境中特別有價值,可確保通信在復雜的情況下仍保持清晰和上下文相關。
對用于無人機的不同大型語言模型(即 BERT、GPT、T5、XLNet、ERNIE 和 BART)進行比較后發現,它們具有針對無人機操作各個方面的獨特能力,反映了各自獨特的架構和訓練方法。例如,BERT 擅長從單詞的兩個方向理解上下文,因此在解釋復雜命令和從任務數據中提取相關信息方面非常有效。它特別適用于對傳感器數據或操作指令的精確理解至關重要的任務,例如在監視或監測任務中,深入的上下文知識至關重要。相比之下,GPT 擅長生成連貫、擴展的文本輸出,有利于創建詳細的任務報告或進行對話。這種模式非常適合需要敘述式更新或交互式通信以生成操作日志或匯報報告的無人機模擬訓練。
而 T5 具有很高的通用性,可將任何基于文本的任務轉換為文本到文本的格式,簡化了各種類型通信的處理過程。事實證明,它在無人機通信任務中非常有效,如翻譯不同語言或協議之間的通信、匯總大量勘探數據以及將原始傳感器輸出轉換為可操作的文本格式。另一方面,XLNet 采用基于置換的訓練方法,對語言上下文的理解比 BERT 更靈活、更全面。這種模型有助于復雜、動態的操作環境,如搜索、救援和災難響應,在這些環境中,實時解釋和響應上下文繁重的指令至關重要。
同樣,ERNIE 通過知識圖譜整合外部知識,增強了對語言的語義理解,非常適合需要深入理解特定術語或概念的任務,如涉及特定生態數據的環境監測應用。雖然 BART 在自動編碼和自動回歸模型的優勢方面有所折損,但它在理解和生成文本方面表現出色。它非常適合用于編寫精確、上下文準確的任務報告或總結詳細監測數據的說明,在這種情況下,保持信息的完整性和簡潔的表達方式至關重要。
因此,總而言之,BERT 和 XLNet 憑借對上下文的深刻理解,在理解指令方面非常有效,而 XLNet 則在動態環境中提供了額外的靈活性。同時,GPT 和 BART 擅長創建連貫、廣泛的文本,其中 BART 在文本轉換任務中提供了額外的功能。T5 在文本轉換任務中具有廣泛的適用性,可滿足各種通信需求。ERNIE 在整合專業知識對準確操作和決策至關重要的應用場景中表現突出。因此,可以根據無人機任務的具體要求納入每種模型,以確保通信保持有效和高效,適應無人機操作的復雜性和挑戰。表 II 重點介紹了各種 LLM 模型,包括其主要特點、在無人機領域的應用以及集成到無人機系統中的挑戰。
將大型語言模型與無人機集成,需要部署先進的語言處理能力,以實現復雜的決策和交互能力。無人機平臺由基本硬件組成,包括配備飛行控制硬件的無人機本身、攝像頭和激光雷達等傳感器以及 Wi-Fi、LTE 和衛星等通信模塊。它還包括用于實時數據處理過程的小型機載計算機。在大型語言模型集成中,輕量級版本的大型語言模型直接部署在無人機上,通過邊緣人工智能實現快速自主決策。對于更復雜的計算,無人機數據被傳輸到云服務器,由更強大的大型語言模型進行分析,然后將結果發回無人機。地面控制站為這些操作提供支持,使操作員能夠通過直接視距或衛星通信遠程監視和控制無人機,并使用安全數據鏈路進行數據傳輸。該系統的運行涉及幾個關鍵功能。無人機通過機載傳感器收集數據,捕捉視覺圖像、環境數據或與其任務相關的特定讀數。這些數據要么在本地處理,要么發送到地面站或云服務器,具體取決于任務的復雜程度和機載處理單元的能力。無人機上的嵌入式 LLM 處理簡單任務的數據過程,以做出實時決策。對于更復雜的決策,數據會被發送到云端,由功能強大的大型語言模型對其進行分析,做出決策或產生見解,然后再傳輸回無人機。根據這些經過處理的數據和大型語言模型做出的決策,無人機執行各種行動,如優化飛行路徑、與環境互動,或執行特定任務,如投遞、監視或數據收集。反饋和學習是該系統不可或缺的一部分,任務中的數據被用來重新訓練或完善大型語言模型,提高其準確性和決策能力。這種持續的反饋回路有助于模型適應特定的環境,以實現最佳的任務性能。因此,大型語言模型與無人飛行器的集成為無人飛行器的操作提供了重大改進,為提高能力和效率開辟了廣闊的前景。
圖 2 展示了與 LLM 集成的無人機系統的綜合架構,其中無人機從傳感器收集數據。這些數據包括文本、音頻和視頻等各種類型,被輸入到集成式 LLM 架構中。LLM 處理這些數據,并將結果輸出到決策層,然后由決策層向飛行控制器、傳感器系統、能源系統和有效載荷管理系統等運行組件發出指令。
圖 2:LLM 集成無人機系統的綜合架構。
此外,地面控制和基站是無人機運營基礎設施的關鍵要素,作為指揮和控制中心,它們負責處理從飛行授權和監控到數據處理和部署管理等一切事務。將大型語言模型與地面控制和基站集成在一起,可大大增強無人機的管理和操作。例如,大型語言模型可通過解釋和處理自然語言命令或查詢,顯著改善無人機與其控制站之間的通信。它能讓操作員更直觀地與無人機互動,使復雜的命令更容易執行,并減少人為錯誤的可能性。
大型語言模型可以處理地面控制站從無人機接收到的實時數據,就飛行路徑、任務調整和應對不斷變化的環境條件做出即時決策。大型語言模型還能以比人類快得多的速度分析海量數據,提供重要見解,從而快速做出決策,優化無人機操作,確保任務成功。此外,大型語言模型還能利用歷史和實時數據,在機械故障、電池耗盡或惡劣天氣條件等潛在問題出現之前進行預測。這種預測能力可確保提前采取預防措施,提高無人機運行的安全性和可靠性。
此外,大型語言模型還能自動執行飛行調度、無人機狀態監控和數據收集管理等常規任務,從而提高復雜決策和運營戰略的效率。大型語言模型還能自動對數據進行分類、提取相關信息并生成綜合報告,從而大大有助于改進數據處理和分析。此外,它們還能分析圖像和傳感器數據,以識別模式或異常情況,從而為監視、環境監測和基礎設施檢查等任務提供幫助。大型語言模型可以根據積累的數據創建詳細的模擬和訓練場景,為操作員提供逼真多樣的訓練體驗,提高無人機操作員的技能,確保他們為復雜的作戰場景做好更充分的準備。
此外,集成到地面站和基站的大型語言模型具有先進的模式識別能力,可以加強安全協議。它們可以檢測潛在的網絡威脅和未經授權的訪問嘗試,確保無人機操作免受數字入侵。此外,大型語言模型還能根據任務要求預測可用無人機和支持設備的最佳使用情況,從而優化資源分配。大型語言模型還能促進無人機操作中使用的系統和軟件之間更好的互操作性,通過充當理解和轉換各種數據格式和協議的橋梁,確保不同平臺之間的無縫集成和通信。這樣,無人機任務就能實現高效管理、卓越的決策支持、更高的安全性和有效性。大型語言模型的這種廣泛應用為其有針對性地用于增強頻譜傳感能力奠定了基礎。
此外,鑒于頻譜傳感在確保無人機有效射頻(RF)通信方面的關鍵作用,尤其是在復雜或擁堵的環境中,大型語言模型的集成證明是非常有益的,可以通過復雜的數據處理技術顯著增強無人機的頻譜傳感能力。這種集成加深了對動態射頻條件的理解,這些條件在共享頻率或高干擾水平的區域十分普遍,無人機系統能夠智能地識別和利用最佳頻段。這種能力大大提高了無人機通信網絡的可靠性和效率,這對于在射頻密集的環境中保持穩健的鏈路和確保成功執行無人機操作至關重要,而傳統方法可能會失敗。因此,本調查報告強調了在頻譜傳感中集成 LLM 的關鍵需求,并在隨后的章節中深入探討了其機遇和挑戰。
無人機依賴射頻通信完成各種任務,包括遙控、遙測、數據傳輸以及與地面站的連接。頻譜感知是一項關鍵技術,可增強無人機的射頻通信能力,使無人機能夠識別和利用對其任務至關重要的適當頻率范圍。此外,在無人機共享頻段或遇到快速變化的射頻條件的環境中,這一點尤為重要[112, 113]。因此,通過準確感知頻譜,無人機可動態調整其通信參數,如信道選擇和功率控制,以防止干擾主用戶并優化其通信性能 [114]。此外,頻譜感知還可提高無人機的運行效率,使無人機能夠就頻段選擇做出明智決策,從而確保有效利用可用頻譜資源,并將干擾現有無線系統的風險降至最低 [115,116]。
此外,頻譜傳感在實現認知無線電功能[117, 112]、動態頻譜接入[118]、避免干擾[117]和確保無人機通信系統符合法規要求[119]方面也發揮著重要作用。例如,認知無線電允許無人機系統根據實時頻譜感知結果自適應地選擇和切換不同的頻率信道或頻段,使無人機能夠找到并利用最合適、最不擁堵和無干擾的頻段進行可靠高效的通信[120]。動態頻譜接入允許無人機訪問可用頻譜資源,動態確保無人機在優化通信鏈路的同時避免干擾現有用戶。此外,頻譜傳感還能增強無人機檢測附近是否存在其他射頻設備或系統的能力,從而促進共存和避免干擾。如果檢測到干擾或潛在沖突,無人機可自主或半自主地改變工作頻率或調整通信協議以避免干擾[121]。
世界各地的監管機構,如美國聯邦通信委員會(FCC),都制定了頻譜使用指南,以確保公平使用,并防止包括無人機在內的各種技術和服務之間發生沖突。這些指導方針指定了無人機使用的特定頻段,以避免與商業、住宅和應急通信發生沖突,從而在無人機服務日益增長的需求與傳統頻譜用戶的需求之間取得平衡。這些機構制定了動態頻譜訪問規則,特別是在無人機與其他設備共享頻譜的頻段。該框架涉及協議和技術,使無人機能夠在不干擾現有用戶的情況下檢測和利用空閑頻率。遵守這些框架對于合法、高效地運營無人機至關重要。
為確保合規,無人機運營商必須考慮幾個關鍵方面。例如,無人飛行器必須配備先進的頻譜傳感技術,能夠可靠地識別可用和被占用的信道,防止未經授權使用被占用的頻率。無人飛行器在運行時還必須盡量減少對其他頻譜用戶的干擾,遵守功率限制、頻率邊界以及旨在降低信號干擾風險的操作協議[122]。此外,有必要實施軟件解決方案,幫助管理頻譜使用,確保遵守當地和國際法規,實現頻譜管理諸多方面的自動化,減輕無人機運營商的負擔,降低違規風險。
最近的研究極大地推動了無人機操作中的頻譜感知和共享應用,重點關注提高通信效率和減少干擾的幾個關鍵方向。Shen 等人[123]介紹了一種三維時空傳感方法,利用無人機的移動性在異構環境中進行動態頻譜機會檢測。文獻[124]和[125, 126]中的作者開發了在認知無線電系統中優化頻譜感知和共享的方法,通過管理與地面鏈路的干擾來提高無人機的通信性能。Chen 等人[127]的研究重點是無人機集群之間的頻譜接入管理,以減少干擾;Xu 等人[128]的研究重點是無人機中繼系統中的發射功率分配和軌跡規劃,以實現設備之間的有效數據中繼。
在另一項研究[129]中,Qiu 等人利用區塊鏈技術確保地面和空中系統之間頻譜交易的隱私和效率。Hu 等人[130] 重點研究了利用契約理論平衡宏基站和無人機運營商利益的頻譜分配策略。Azari 等人[131] 比較了人口稠密城市場景中的底層和疊加頻譜共享機制,強調了疊加策略在保持無人機和地面用戶服務質量方面的有效性。雖然無人機的頻譜感知和共享技術取得了重大進展,但現有研究尚未廣泛探討大型語言模型的集成問題。整合大型語言模型可通過增強頻譜感知能力,實現更動態、更高效地使用通信頻率,從而徹底改變無人機領域[132]。大型語言模型可以解釋和分析無人機上頻譜傳感器產生的大量數據。憑借先進的自然語言處理能力,它們可以從非結構化數據中提取有意義的見解,促進實時智能決策。大型語言模型還能通過分析歷史數據和當前通信模式,預測頻譜可用性和潛在干擾。因此,無人機可以主動調整其通信參數,如信道選擇和功率水平,以保持最佳性能。
此外,大型語言模型可以處理傳感器數據,并識別表明潛在頻率沖突或擁堵區域的模式。然后,無人機可自主進行調整以避免這些問題,從而提高運行效率并降低通信故障風險。此外,大型語言模型還可以通過對頻譜條件和用戶行為進行更深入的分析,協助在頻率選擇方面做出更明智的選擇,從而為認知無線電的增強做出貢獻。這種整合增強了無人機選擇最不擁堵和最有效信道的能力。LLM 的持續學習和適應能力還能優化無人機的頻譜訪問策略,確保無人機根據實時數據和復雜算法利用最佳可用頻率。大型語言模型還可以通過持續監測合規參數和適應法規變化,確保無人機在合法的頻譜分配范圍內運行。大型語言模型還可以通過分析通信模式和環境數據,為干擾管理和遵守監管框架做出重大貢獻。大型語言模型可以更準確地檢測潛在干擾源,并建議立即采取糾正措施加以避免。
大型語言模型具有先進的認知和分析能力,可顯著提高無人機監視系統的效率、準確性和有效性[2]。集成 LLM 后,無人機可以更高效地處理和分析大量視覺數據,實現實時圖像識別、目標檢測和態勢感知。大型語言模型在識別視頻流或圖像中的特定物體、個人、車輛或活動方面表現出色,可提供對軍事和民用監控行動至關重要的詳細見解。它還能使無人機更加自主地進行操作,在沒有人類持續監督的情況下對周圍環境進行解讀并做出反應,在反應時間緊迫的復雜或敵對環境中大顯身手。
此外,配備大型語言模型的無人機可以根據任務目標和不斷變化的地面實際情況,實時決定飛行路線、重點區域以及何時捕捉關鍵鏡頭。NLP 可讓無人機理解和處理人類語言,使其能夠接收和解釋更復雜的命令和查詢。此外,大型語言模型還能通過分析模式和歷史數據來預測潛在的安全威脅或興趣點。這種預測能力允許采取主動監視措施,無人機可以更密切地監視可疑區域,或提醒人類操作員注意根據所學模式檢測到的異常活動或異常點。它還可以通過將大量收集到的數據匯總為可操作的情報,在飛行過程中處理和分析數據,從而加強實時決策支持。在條件瞬息萬變的監視和偵察任務中,它能做出快速、明智的決策[133]。
大型語言模型與無人機結合用于應急響應和災害管理,可大大提高應急行動的效率、準確性和有效性。大型語言模型可快速分析無人機收集的圖像和傳感器數據,在災害發生后立即評估受損程度,包括識別受阻道路、受損建筑和洪水區域 [134]。由于能夠實時了解態勢,配備了 LLM 的無人機可幫助應急人員確定需要緊急關注的區域的優先次序,并規劃最有效的應對措施 [135]。
在執行搜索和救援任務時,時間至關重要,因此具有 LLM 功能的無人機可以自主掃描大片區域,利用物體識別和模式檢測來確定幸存者的位置。它們可以在沒有人類直接引導的情況下在具有挑戰性的地形中航行,從而加快搜索行動并提高營救遇險人員的機會。此外,由于災害破壞了通信網絡,與大型語言模型集成的無人機可以建立臨時通信網絡,充當空中中繼器,促進救災人員與受災群眾之間的通信。大型語言模型可優化無人機的位置和路由,以確保最大的覆蓋范圍和網絡效率。
此外,無人機還能通過分析歷史數據和當前天氣報告,在潛在災害發生前對其進行預測,從而提高備災能力。這種預測能力使當局能夠主動部署無人機,監測危險區域,并啟動先發制人的疏散或其他緩解措施。此外,大型語言模型可以通過分析需求評估和資源可用性來管理后勤方面的問題。他們利用無人機確保食品、水和醫療設備等物資得到最佳分配和運送,尤其是運送到因災害而難以通過傳統方式到達的地區[136]。
此外,無人機還能在損失分析和恢復規劃中發揮重要作用,對損失進行詳細評估,跟蹤恢復進度,并隨時間推移分析數據,為重建工作提供指導。大型語言模型可以模擬不同的恢復場景,幫助規劃者做出以數據為導向的決策,以更具彈性的方式重建基礎設施。鑒于應急響應涉及數據的敏感性,大型語言模型可確保無人機收集和傳輸的所有信息都經過安全加密,并防止未經授權的訪問。它們監控數據流,以發現表明存在威脅的異常情況,從而在混亂情況下保護關鍵信息。大型語言模型通過將復雜的數據轉化為可操作的見解和直觀的報告,增強了無人機與人類操作員之間的互動。這樣,應急響應人員就能根據無人機以易于理解的格式提供的綜合分析結果,快速有效地做出明智決策。
集成了大型語言模型的無人機可以通過優化路線、加強客戶互動和提高運營效率來改變送貨服務和物流[79]。大型語言模型可以處理復雜的數據集,包括交通模式、天氣條件和地理數據,從而動態優化送貨路線。這可確保更快的送貨時間,并有助于降低運營成本。大型語言模型可以實時調整這些路線,以適應不斷變化的條件,確保盡可能高效地送貨[137]。
無人機可以使用 LMM 與客戶互動,實時更新送貨狀態、回答詢問,甚至處理投訴或特殊指示。互動的增強提高了客戶滿意度,簡化了交付過程,減少了客戶服務中對人工干預的需求。大型語言模型能讓無人機在執行投遞任務時自主決策。例如,當遇到意想不到的障礙或緊急情況時,無人機可以決定最佳行動方案,無論是改變路線、等待許可還是返回基地。即使在不可預測的情況下,這種自主程度也能確保交付服務的可靠性和一致性。此外,他們的主動方法還能防止停機,延長無人機機隊的使用壽命,并確保技術問題不會打亂投遞計劃。
此外,大型語言模型還能在重量分布、包裹大小和交付優先級方面提供協助,確保每架無人機都能高效裝載,最大限度地提高交付能力,減少所需的行程次數。大型語言模型可持續分析交通和天氣數據,實時調整無人機飛行計劃,以維持送貨時間表,尤其是在惡劣天氣條件或擁堵空域,確保安全準時送貨。
大型語言模型可以處理和分析無人機收集的大量環境數據,如圖像、溫度讀數和污染程度。收集到的數據可用于識別環境趨勢和異常情況,如植被變化、水質變化或污染物的存在 [138、139、140、141]。LLM 可以快速分析這些數據,并為自然保護主義者和環境科學家提供可行的見解。大型語言模型還可以通過分析無人機捕獲的視頻和音頻記錄來幫助跟蹤和研究野生動物,從而在沒有人類在場的情況下識別動物個體、跟蹤其動向并觀察其一段時間內的行為,這可以減少人類互動給動物造成的壓力和行為變化 [142,143]。
此外,與傳統方法相比,與大型語言模型集成的無人機可以更高效地繪制大面積和無法進入的區域的地圖。大型語言模型可以分析收集到的地理數據,繪制詳細的棲息地地圖,包括隨時間的變化。這些信息對于管理自然保護區、規劃重新造林項目或評估人類活動對自然棲息地的影響至關重要。大型語言模型還可以利用歷史和持續監測數據來預測未來的環境狀況和野生動物趨勢。這些預測可以為保護工作提供信息,例如預測實施物種保護措施的最佳時間和地點,或預測影響生物多樣性的生態變化。
大型語言模型可以為參與環境保護項目的利益相關者自動生成報告和演示文稿。大型語言模型可將復雜的數據綜合成易于理解的格式,從而促進調查結果和建議的交流更加透明,使決策者更容易理解問題并采取行動。此外,在資源往往有限的保護項目中,大型語言模型可以優化無人機和其他資源,通過在最佳時間安排無人機飛行、規劃航線以覆蓋關鍵區域,以及確保以具有成本效益的方式收集數據,從而確保最大的覆蓋范圍和數據收集效率。
將大型語言模型與無人機集成以增強衛星和高空平臺(HAP)通信,需要利用先進的分析和認知能力來改進數據中繼、處理和自主決策[25]。由于無人機在衛星和高空平臺通信網絡中充當移動節點或中繼點,特別是在直接通信受到地理障礙阻礙或臨時需要額外帶寬的地區。大型語言模型可以動態管理這些連接,優化地面站、衛星、HAP 和終端用戶之間的數據流。它們可以通過無人機對數據路由進行實時決策,以提高網絡彈性并減少延遲。大型語言模型可使無人機自主導航到能最有效地彌合衛星、HAP 和地面網絡之間通信差距的位置。這在災區或需要臨時通信增援的大型公共活動期間尤其有用。配備了 LLM 功能的無人機可以分析環境數據、衛星路徑和網絡需求,從而在無人干預的情況下確定最佳位置 [144]。
大型語言模型可通過分析衛星和 HAP 通信中使用的無人機的遙測和運行數據,在潛在的系統故障或次優性能成為關鍵問題之前對其進行預測。這種預測性維護能力可確保無人機的正常運行時間更長,可靠性更高,從而發揮這些關鍵作用。大型語言模型可以實時處理和壓縮無人機上的數據,然后再將其轉發給衛星或 HAP。這就減少了數據傳輸所需的帶寬,加快了通信速度。大型語言模型可采用先進的算法,根據當前的網絡條件和數據優先級確定最有效的數據編碼和傳輸方式。
集成了 LLM 的無人機可根據不斷變化的環境條件、干擾或網絡負載的變化調整其通信協議,以保持與衛星和 HAP 的有效鏈接。大型語言模型可以從過去的通信中學習,預測最佳通信窗口,并調整頻率或調制方案以提高連接質量。此外,對于在復雜環境中運行的無人機而言,大型語言模型可通過處理來自衛星和 HAP 傳感器等多個來源的數據來增強態勢感知能力。這有助于對無人機的定位、通信策略,甚至避免沖突或危險的緊急機動做出明智的決策。集成大型語言模型可實現可擴展的靈活通信網絡,無需進行大規模重新配置即可適應不同的需求。無人機可以快速部署,以擴大網絡能力,應對不斷增長的通信需求,或覆蓋臨時的衛星或 HAP 覆蓋缺口。
為無人機通信實施大型語言模型是一個新方向,必須應對一系列挑戰和考慮因素,以確保無人機應用的有效性和安全性。本節重點介紹在無人機領域有效采用大型語言模型必須考慮的幾個基本挑戰。
大型語言模型需要大量的計算能力和能源才能有效運行 [145,146]。然而,無人飛行器的機載計算能力和電源有限,受限于輕量化設計的需要,無法確保更長的飛行時間和運行效率。處理大型模型所需的功耗會迅速耗盡無人機的電池,從而減少執行關鍵任務的時間 [147,8]。此外,增加額外資源會極大地影響無人機的效率,從而使大型語言模型的集成變得更加復雜。要解決這些問題,關鍵是要通過修剪不必要的參數和使用量化技術來簡化大型語言模型,從而以更少的功耗減小模型大小并提高處理速度[148]。邊緣計算可通過在本地處理數據,進一步緩解對高帶寬連接的需求 [149]。
此外,先進的人工智能硬件,如圖形處理器(GPU)[150]、現場可編程門陣列(FPGA)[151]和模型提煉技術[152],也有助于優化計算需求。實施自適應系統,根據當前需求調整資源使用情況,也有助于有效管理功耗,在不影響性能的情況下確保運行效率。
在使用大型語言模型進行涉及實時數據處理和決策的無人機操作時,通信延遲挑戰尤為關鍵。例如,導航、監視和戰術響應要求盡量減少數據處理和決策延遲。然而,當大型語言模型需要大量計算資源時,標準的解決方案是將這一處理過程卸載到基于云的服務器上。雖然這種方法利用了強大的計算能力,但由于從無人機到云服務器再到云服務器之間的通信延遲,它本質上會帶來延遲。當關鍵的即時響應影響到任務的有效性和安全性時,這種延遲可能會造成危害[25]。
為緩解這些問題,無人機可通過集成微處理器、圖形處理器或定制專用集成電路(ASIC)等先進計算資源來增強機載處理能力,從而更高效地處理復雜算法。平衡計算能力與延遲需求至關重要,可通過采用混合處理過程進行優化。這包括直接在無人機上處理緊急、實時的處理過程,同時將更復雜、時間敏感性較低的任務委托給云。這種策略有助于平衡計算負荷,并根據特定任務的緊迫性和復雜性調整響應時間。此外,建立強大的近場通信網絡和利用邊緣計算解決方案可以進一步減少延遲。通過本地服務器或附近配備邊緣服務器的其他無人機,將處理能力置于離無人機更近的位置,可顯著縮短通信距離和時間,提高無人機操作的整體響應速度[153, 154]。
模型的魯棒性和可靠性是部署無人機通信的關鍵,因為基于模型輸出的決策會導致重大后果[46]。例如,由于模型依賴于從訓練數據中學到的模式,而訓練數據可能無法充分涵蓋現實世界中所有可能的情況,因此在新情況或邊緣情況下,模型可能會產生不可預測或不正確的輸出[155]。在必須快速、準確做出決策的動態環境中,這種風險尤其高,無人機的運行往往就是這種情況[64, 103]。利用新數據對模型進行持續更新和再訓練,有助于模型從最近的經驗中吸取教訓,并適應可能遇到的變化或新情況。這種適應包括納入無人機遇到的新情況的數據,擴大模型的理解和響應范圍。例如,建立一個系統,定期將無人機任務的數據反饋到模型的訓練程序中,從而完善和更新其算法。
此外,在依賴大型語言模型進行關鍵操作時,基于模擬的測試和驗證至關重要。在各種模擬條件下對這些模型進行測試,對于識別在惡劣天氣條件、通信中斷或異常任務參數等復雜情況下可能出現的故障或反應弱點至關重要。還可以實施強大的故障安全機制,在模型輸出不確定或超出預期參數時,通過設定需要人工干預的閾值或條件,防止因模型輸出不正確而采取有害行動。實施冗余系統還可以在執行前對關鍵決策進行雙重檢查,增強的錯誤處理功能可以在不中斷無人機運行的情況下處理大型語言模型的意外輸出[156]。
先進的大型語言模型需要與無人機現有的硬件和軟件模塊(如飛行控制、導航系統、通信協議和數據處理單元)無縫互動,每個模塊都有其獨特的規格和操作要求,以增強無人機操作過程中的決策和通信。將大型語言模型集成到這些不同的框架中既復雜又耗時,有可能導致大量的開發和測試時間,以確保全面的兼容性和功能性。因此,采用模塊化方法進行系統設計,可以在不中斷系統的情況下集成、移除或更新單個大型語言模型組件,從而極大地簡化大型語言模型的集成工作。模塊化設計具有靈活性和可擴展性,可滿足不同任務或操作調整的特定需求[26]。
此外,確保新的 LLM 組件與現有系統的互操作性也至關重要 [157]。盡管不同的系統和軟件應用程序是獨立開發的,但互操作性允許它們進行有效的通信和協同工作。通過分階段測試和部署,將大型語言模型逐步集成到無人機系統中,也可以降低集成的復雜性。它還能發現并解決具體問題,而不會出現系統大面積故障的風險。此外,有必要制定定期更新和維護的系統方法,以確保集成的大型語言模型保持有效,并確保整個系統適應新的技術進步或操作要求的變化[155]。
在無人機操作中集成大型語言模型會引發有關數據安全和隱私的重大問題,主要是因為這些模型經常處理敏感數據,其中可能包括在監視任務中收集的個人信息。這種數據類型非常容易受到破壞,一旦泄露,可能會導致嚴重的隱私侵犯和其他安全問題。實施強有力的數據安全措施對于降低這些風險至關重要。因此,強大的數據加密是確保數據在傳輸和存儲過程中不被未經授權的用戶訪問的根本[158]。
此外,還必須建立強大的訪問控制機制,限制只有授權人員才能訪問數據,從而防止任何未經授權的數據篡改或泄漏。遵守數據保護法規也至關重要。這些法規旨在保護數據的隱私性和完整性,要求企業采取嚴格措施保護所有個人信息。通過遵守這些準則,無人機運營商可以幫助確保大型語言模型處理的敏感數據的安全,最大限度地降低違規風險,維護信息的保密性和完整性[159]。
本節考慮了之前討論的挑戰和考慮因素,概述了未來的研究方向。它強調了需要立即關注的研究領域,以通過 LLM 集成提高無人機的智能、效率和適應性。這種探索對于克服當前的局限性和釋放無人機在各領域應用的全部潛力至關重要。
在無人機操作日益復雜和需求不斷增加的推動下,無人機通信 LLM 技術的未來工作方向和機遇是豐富多樣的。新方案應側重于開發 LLM 算法,使無人機能夠根據有關天氣、地形和電磁干擾的實時數據動態調整通信協議和策略。這種自適應能力可大大提高無人機在災難響應和軍事行動中的效率,因為在這些行動中,條件可能會發生快速且不可預測的變化 [37, 160]。
未來的工作應整合大型語言模型,以增強無人機群的智能,從而實現模仿生物系統的復雜群體行為。此外,未來的研究還需要關注算法,使單個無人機能夠根據蜂群的集體輸入做出決策,優化飛行路徑和任務分配,以提高效率并降低能耗 [155]。這項技術有望應用于從大規模農業監測到搜救任務等領域,在這些領域中,多無人機的協調行動至關重要。
此外,改進糾錯和信號處理對于在具有挑戰性的環境中保持通信完整性至關重要。未來的研究需要探索深度學習模型,以預測和補償信號衰減,并開發抗干擾能力更強的新型調制和編碼形式。在擁擠的城市地區或惡劣的天氣條件下,信號丟失會嚴重影響無人機的運行,因此這項技術尤其有益[161, 68]。
未來的工作還應將 LLM 增強型無人機通信的應用范圍擴展到新的領域,如人道主義援助、環境監測和物流。未來的研究需要探索如何在緊急情況下部署配備先進 LLM 和通信技術的無人機,以提供實時更新和分發援助,在最少人工參與的情況下監測野生動物或環境變化,并通過自主交付服務簡化供應鏈。
將大型語言模型與新興技術相結合可為無人機通信系統帶來巨大的進步。例如,結合可重構智能表面(RIS)可優化信號處理算法,并根據實時環境和交通數據動態配置 RIS,從而顯著提高無人機通信的效率和可靠性[162]。它還可以通過優化數據傳輸來優化遠程病人監測和遠程醫療,從而改善從智能城市到增強醫療保健機會等各種環境。此外,大型語言模型還能支持對身臨其境的體驗至關重要的高帶寬和低延遲通信,從而提高增強現實(AR)和虛擬現實(VR)應用的性能[163, 164]。
此外,將大型語言模型與 5G/6G 技術集成可顯著增強無人機的通信能力,因為這些網絡可提供更高的帶寬和更低的延遲[165]。它使無人機能夠流式傳輸高清視頻以執行監視或檢查任務,實時接收更新以進行動態任務調整,并以更好的協調性參與蜂群行動。將配備 LLM 的無人機與物聯網設備連接起來,將使無人機在智能城市和工業環境中的操作更具互動性和響應性。無人機可以充當物聯網網絡中的移動節點,收集和處理各種來源的數據,并在飛行中做出決策。這種集成在災難響應場景中尤為有用,無人機可以評估損失、檢測異常并與其他物聯網設備通信,從而有效管理應急服務 [166,167]。
此外,將大型語言模型與邊緣計算平臺集成可以分散數據處理,減少云計算場景中涉及的延遲,使無人機能夠在網絡邊緣執行實時數據分析。這種能力可使無人機在執行關鍵任務(如跟蹤移動目標或在復雜地形中導航)時更快地做出決策,而無需等待遠程處理數據的過程[168]。同樣,用可處理視覺和感官數據的專用神經網絡來增強大型語言模型,可提高無人機了解環境并與之互動的能力。它能讓無人機執行更復雜的識別任務,例如在搜救行動中識別特定的個人,在基礎設施檢查中檢測結構問題,或監測農田的病蟲害模式。
此外,量子計算集成還能成倍提高大型語言模型的處理能力,使其能夠更高效地處理龐大的數據集。量子增強型大型語言模型可以優化飛行路徑和通信協議,遠遠超出目前的能力,從而降低運營成本,提高數據量大的任務的效率[169]。
為有效實施 LLM 集成無人機操作,新方案應側重于通過刪除對提高無人機通信性能無顯著貢獻的參數來降低 LLM 的計算復雜度。未來的工作可以采用剪枝方案來減少模型大小和計算負荷,使其更適用于資源有限的設備。未來的方案還應注重采用量化技術,降低模型參數的精度(如從浮點數到整數),從而大幅減少模型大小,加快推理時間,同時降低功耗。此外,無人機還可以受益于邊緣計算服務,這種服務可以進行本地數據處理,而無需將數據傳回中央服務器。這降低了持續高帶寬連接的必要性,并通過在無人機和邊緣設備之間分配計算負荷來幫助執行復雜的模型。
此外,未來的硬件設計應明確針對人工智能任務。采用 GPU。針對人工智能干擾進行優化的 FPGA 或 ASIC 可顯著提高功耗和計算效率,與通用處理器相比,每瓦性能更優越。模型提煉是未來可以重點研究的另一種有效策略,它包括訓練一個較小的 “學生 ”模型來復制較大的 “教師 ”模型的性能。經過提煉的模型可以保持較高的精確度,但只需要很少的計算資源,因此適合部署在功能有限的設備上。根據當前需求和可用電力動態調整計算資源的系統可以優化電力使用。例如,當電池電量較低或無需進行詳細處理時,無人機可以部署簡化版模型[170]。因此,未來關注這些策略可以大大提高將復雜的大型語言模型集成到無人機系統中的可行性。這些方法有助于平衡模型性能與無人機平臺實際限制之間的權衡,確保既能利用先進的 NLP 功能,又不影響無人機的運行效率。
為了解決延遲問題,無人機可以通過利用先進的計算資源(如微處理器、GPU 或定制 ASIC)來增強機載處理能力,從而高效執行復雜的機器學習算法。未來的方案應根據每個無人機任務的具體要求,考慮計算能力和延遲之間的權衡,以有效地應對這些挑戰。混合方法可能特別有效,即無人機在機上執行關鍵的實時處理過程,而將更復雜但時間敏感性較低的任務卸載到云端。因此,它可以平衡計算負載,并根據任務的緊迫性和復雜性優化響應時間。例如,集成智能路由算法可以在考慮當前網絡條件、任務復雜性和處理要求緊迫性的情況下,動態確定處理數據的最佳位置。
此外,未來的方案還應探索穩健的近場通信網絡和邊緣服務器部署的可能性,以便在網絡邊緣以更快的處理速度和更低的延遲執行計算密集型任務。
將先進的大型語言模型集成到無人機操作中是一項復雜的挑戰,因為這些模型必須與現有的各種無人機硬件和軟件系統進行無縫交互[23]。無人機的各個組件,包括飛行控制模塊、導航系統、通信協議和數據處理單元,都有各自獨特的規格和操作需求。這種多樣性可能導致開發和測試時間延長,而這是確保完全兼容和功能性所必需的。
未來的工作重點應放在采用模塊化系統設計上,以便在不破壞整體系統完整性的情況下輕松添加、移除或更新各個組件[171]。此外,未來的工作必須確保不同的系統和軟件應用程序即使是獨立開發的,也能進行有效的通信和協同工作。因此,它們可以采用無人機行業廣泛接受的標準化數據格式和通信協議。這有助于大型語言模型理解并遵守既定標準,從而使集成過程更加順暢。
此外,今后的工作重點應是采用分階段的方法,逐步將大型語言模型集成到無人機系統中,以確保兼容性和性能,并建立一個由專門團隊進行定期更新、維護和培訓的系統框架,以適應技術進步并保持有效集成。
為了提高集成了 LLM 的無人機通信系統的可靠性,今后的工作應側重于采用先進的糾錯技術和穩健的算法,以確保即使在不利條件下也能保持通信的可靠性。對基于 LLM 的無人機系統進行初步測試時,還應考慮通信信道的冗余性,使用多個通信信道和備份系統來防止任何單一信道出現故障。
未來的工作還應該側重于人工智能驅動的預測性維護,通過集成人工智能工具來預測和安排維護,以防止故障發生。這有助于最大限度地減少停機時間,延長通信組件的使用壽命[68]。此外,未來的方案應采用動態路由和頻譜管理技術,實施人工智能驅動的動態路由算法和頻譜管理方法,以優化數據傳輸的可用頻率和路徑。這種方法有利于適應不斷變化的環境條件和通信流量,提高整個系統的彈性。此外,還必須對集成了 LLM 的無人機系統廣泛開展基于人工智能的培訓和模擬,以確保它們能夠處理各種操作環境和突發情況,從而提高可靠性。
未來的工作還應強調建立實時監控和決策支持系統[29]。這些系統至關重要,因為它們能對無人飛行器的健康和通信狀態進行持續評估,并能提出建議或自動采取糾正措施。
基于 LLM 的無人機通信在各個領域都需要干擾緩解方案,從商業快遞服務到基本的應急響應行動,不一而足。為了滿足這些需求,未來的研究必須開發出能夠實時動態識別和緩解干擾的先進信號處理算法 [172]。這涉及采用機器學習模型,特別是基于歷史數據和實時輸入預測和抵消干擾模式的深度學習技術 [173,174]。
此外,新方案還應探索波束成形技術,以提高信號清晰度和強度。這可以通過實施智能天線技術來實現,該技術可自適應地聚焦和引導波束遠離干擾源,或使用多天線發送和接收信號,從而減少干擾影響[175, 176]。加強頻譜管理策略對于優化頻率使用、避免造成或遭受干擾也至關重要。這包括開發 LLM 驅動模型,根據無人機的任務要求和頻譜環境動態分配帶寬和調整頻率。
未來的工作重點還應放在集成認知無線電功能上,使無人機通信系統能夠自動改變頻率以避免干擾。探索開發 LLM 算法可使無人機感知其運行環境,并在必要時就跳頻或調制調整做出智能決策。
此外,改進無人飛行器之間的網絡協調以共同管理和緩解干擾也至關重要。這需要未來對分散決策模型進行研究,通過大型語言模型,無人機能夠共享干擾源信息,并協同決定最佳通信路徑和協議。此外,加強無人機通信以抵御可能造成干擾或破壞通信的惡意攻擊也至關重要。另一個重點領域是利用大型語言模型開發檢測和響應系統,以識別和消除復雜的信號干擾和欺騙技術。
隨著基于 LLM 的無人機通信系統越來越多地融入各行各業[132],有關這些技術的監管宣傳和政策建議的未來方向和研究機會也越來越重要。未來的主要重點應是制定全面的政策,解決安全、隱私和道德標準問題,同時促進無人機操作的創新和集成。這需要與監管機構合作,制定明確的指導方針,以適應 LLM 和無人機技術的快速發展。
未來的工作必須確保數據通信的安全性,因為無人機要處理和傳輸大量潛在的敏感數據 [177]。因此,必須采取措施保護這些數據免遭破壞和未經授權的訪問,同時保障數據的完整性和個人隱私 [178]。此外,今后的工作應繼續關注制定空域使用法規,通過確定無人機如何與現有空中交通融合以及定義無人機操作的特定區域或高度來防止沖突和事故。與此同時,隨著無人機越來越多地基于人工智能做出自主決策,確定人工智能決策的問責措施至關重要;如果這些決策導致不良后果,確定由誰負責至關重要。因此,制定人工智能行為標準,確保人工智能系統透明,其行為可追溯,并建立法律框架來解決責任和合規問題。此外,隨著技術的發展,持續監測和修訂這些政策對于維持一個支持技術進步和保護公眾利益的環境至關重要[15]。
本文介紹了大型語言模型與無人機集成的變革潛力,開創了自主系統的新時代。我們全面分析了 LLM 架構,評估了它們在增強無人機能力方面的適用性。我們的主要貢獻包括詳細評估了用于無人機集成的 LLM 架構,并探索了基于 LLM 的前沿無人機架構。這為開發更加精密、智能和反應靈敏的無人機操作鋪平了道路。此外,通過 LLM 集成改進光譜傳感和共享的重點為數據處理的進步開辟了新的途徑,這對無人機系統內的穩健決策至關重要。我們展示了通過集成大型語言模型而擴大的現有無人機應用范圍。我們強調了這是如何使無人機在各種應用中具有更強的自主性和更有效的響應能力,并最終提高不同領域的可靠性和功能性。本文最后概述了未來需要研究的關鍵領域,以充分發揮 LLM-UAV 集成的優勢。所討論的進展為未來奠定了基礎,在未來,無人機將超越其傳統角色,發展成為復雜集成系統的關鍵組成部分,釋放人工智能的全部潛力。這項工作可以作為持續技術進步的基石,推動我們走向這樣一個未來:大型語言模型和無人機技術之間的協同作用可以通過實現前所未有的自動化和高效率水平來徹底改變各個領域。
基礎模型通過在廣泛數據上預訓練并能夠適應多種任務,正在推動醫療保健領域的發展。它促進了醫療人工智能(AI)模型的發展,打破了有限AI模型與多樣化醫療實踐之間的矛盾。更廣泛的醫療場景將從醫療基礎模型(HFM)的發展中受益,提高其高級智能醫療服務。盡管HFM的廣泛部署即將到來,但目前對它們在醫療領域的工作方式、當前挑戰以及未來發展方向的理解還不清晰。為了回答這些問題,本綜述提供了對HFM挑戰、機遇和未來發展方向的全面而深入的考察。它首先進行了包括方法、數據和應用在內的HFM全面概述,以快速掌握當前進展。然后,它對構建和廣泛應用醫療基礎模型的數據、算法和計算基礎設施中存在的挑戰進行了深入探索。本綜述還識別了該領域中未來發展的新興和有前景的方向。我們相信,這份綜述將增強社區對HFM當前進展的理解,并為該領域未來的發展提供寶貴的指導。最新的HFM論文和相關資源將在我們的網站上維護。 在過去的十年里,隨著人工智能(AI)[1]特別是深度學習(DL)[2]的發展,醫療技術經歷了革命性的進步[3]-[5]。通過學習醫療數據,AI模型能夠解鎖數據內部的相關信息,從而協助醫療實踐。在一些影響力大的臨床疾病中,包括胰腺癌[6]、視網膜疾病[7]和皮膚癌[8]等,AI模型已經獲得了專家級的表現,顯示出光明的未來。然而,在此之前,針對特定醫療任務的專家AI模型與多樣化的醫療場景和需求之間仍存在很大的矛盾,這阻礙了它們在廣泛醫療實踐中的應用[5]。因此,存在一個開放性問題:“我們能否構建AI模型,以惠及各種醫療任務?”
如圖1所示,最近對基礎模型的研究使AI模型能夠學習通用能力,并應用于廣泛的醫療場景,對這一問題給出了有希望的答案[9]-[12]。在醫療AI相關的子領域中,包括語言、視覺、生物信息學和多模態,醫療基礎模型(HFM)已顯示出令人印象深刻的成功。a) 語言基礎模型(LFM)或稱為大型語言模型(LLM)[13]、[14],為患者和臨床醫生帶來了興奮和關注[13]。它學習了大規模的醫療語言數據,并在醫學文本處理[15]和對話[16]任務中表現出非凡的性能。b) 視覺基礎模型(VFM)在醫學圖像中展示了顯著的潛力。針對特定的模式[17]、[18]、器官[19]和任務[20]、[21]的VFM顯示了它們對潛在醫療場景的適應性和通用性能。c) 生物信息學基礎模型(BFM)幫助研究人員解鎖生命的秘密,為我們在蛋白質序列、DNA、RNA等場景提供了前景[22]-[26]。d) 多模態基礎模型(MFM)[27]-[29]為通用HFM[10]、[30]、[31]提供了一種有效的方式。它整合了來自多種模態的信息,從而實現了解釋各種醫學模態和執行多種模態依賴任務的能力[11]、[31]、[32]。因此,這些模型為解決復雜的臨床問題和提高醫療實踐的效率和效果提供了基礎,從而推動了醫療領域的發展[11]。
HFM的出現源于醫療數據的持續積累、AI算法的發展和計算基礎設施的改進[9]、[12]。然而,數據、算法和計算基礎設施的當前發展不足仍是HFM面臨的各種挑戰的根源。醫療數據的倫理、多樣性、異質性和成本使得構建足夠大的數據集以訓練廣泛醫療實踐中的通用HFM[12]、[33]變得極為困難。AI算法在適應性、容量、可靠性和責任性的需求進一步使其難以應用于真實場景[34]、[35]。由于醫療數據的高維度和大規模(例如,3D CT圖像、整張幻燈片圖像(WSI)等),計算基礎設施的需求遠大于其他領域,無論是在消耗[10]、[12]還是環境[36]方面都極為昂貴。
總的來說,推動醫療保健的基礎模型為我們展示了一個充滿機會和挑戰的新未來。在這篇綜述中,我們從一個全面的視角提出了當前HFM面臨的以下問題:1) 盡管基礎模型取得了顯著的成功,它們在醫療保健中的當前進展是什么?2) 隨著基礎模型的發展,它們面臨哪些挑戰?3) 對于HFM的進一步發展,哪些潛在的未來方向值得我們關注和探索?上述問題的答案將構建對HFM當前狀況的概覽,并為其未來的發展提供清晰的視角。由于HFM的出現,近年來已孵化出數百篇論文。因此,回顧所有這些論文和所有方面在有限的論文空間內是具有挑戰性的。在本文中,我們專注于從2018年(基礎模型時代的開始[9])到2024年醫療領域的語言、視覺、生物信息學和多模態基礎模型的當前進展,以及HFM的挑戰和未來方向。我們希望這篇綜述能幫助研究人員迅速掌握HFM的發展,并激發他們的創造力,以進一步推動醫療保健的邊界。 A. 醫療保健中基礎模型的簡史
根據Bommasani等人[9]的定義,在這篇綜述中,“基礎模型”是指在廣泛數據上預訓練并能夠適應廣泛任務的任何模型。基礎模型時代的另一個社會學特征[9]是廣泛接受將某一基礎AI模型應用于大量不同任務。基礎模型時代的代表性轉折點是2018年底自然語言處理(NLP)中的BERT模型[37],此后,預訓練模型成為NLP的基礎,然后擴散到其他領域。 在醫療保健領域的AI也在由特定目標逐漸轉向一般目標[10],這是由基礎模型的發展所驅動的。在BERT[37]之后的2019年初,BioBERT[38]公開發布,實現了醫療保健中的LFM。到2022年底,ChatGPT[39]憑借其強大的多功能性,使更多與醫療相關的從業者受益于基礎模型,從而吸引了他們的注意并進一步激發了HFM研究的熱潮。僅在2023年8月,就發布了200多項與ChatGPT相關的醫療研究[12]。對于VFMs,眾多初步工作[40]、[41]專注于獨立的預訓練或遷移學習。由于SAM[20]的廣泛影響,通用視覺模型[42]–[44]在醫療保健中引發了研究熱潮。在生物信息學方面,AlphaFold2[25]在2020年蛋白質結構預測的CASP14中獲得第一名,激發了對BFMs的興趣,并推動了RNA[45]、DNA[46]、蛋白質[25]等的研究。2021年初,OpenAI構建了CLIP[47],實現了視覺和語言的大規模學習,取得了顯著的表現。由于醫療數據的天然多模態屬性,這項技術迅速應用于醫療保健[48],并整合了來自圖像、組學、文本等的多模態數據。到2024年2月為止,所回顧的四個子領域中HFM的代表性論文數量呈指數增長(圖2),除了上述典型技術和事件外,一些新興的范式和技術在HFM中也在迅速發展。
B. 相關綜述比較及我們的貢獻
在我們廣泛的搜索中,我們發現了17項與醫療基礎模型相關的代表性綜述,應注意現有綜述在HFMs不同方面提供了有見地的想法[10]–[14]、[32]、[48]–[58]。與這些作品相比,本綜述進行了更全面的HFM概述和分析,包括方法、數據和應用,并對挑戰和未來方向進行了深入的討論和展望。具體來說,它具有以下獨特優勢:1) 系統的HFM子領域分類和研究。本綜述涵蓋了與HFM相關的四個子領域,包括語言、視覺、生物信息學和多模態。與現有的綜述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了對整個HFM領域更全面的視角。2) 對HFM方法的深入分析。本綜述深入分析了從預訓練到適應不同子領域的方法,貫穿了在醫療保健中構建通用AI模型的過程。與現有的綜述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系統總結。3) 對不同屬性HFMs的廣泛回顧。本綜述介紹了整個過程的技術和HFMs,并不局限于某些特殊屬性,如“大”[12]。與現有的綜述[12]、[56]相比,它提供了具有不同屬性HFMs的廣泛視角。4) 對HFM不同關注點的全面和更深入的探索。本綜述探討了包括方法、數據、應用、挑戰和未來方向在內的全面內容。與現有的綜述[10]、[56]、[57]相比,它為HFM提供了一個完整的視角,使讀者能夠獲得更深入的理解。
本綜述提供了對醫療基礎模型的洞察,我們的貢獻如下列出: 1. 方法的系統回顧(第二節):從2018年到2024年(1月-2月)涉及HFMs的200篇技術論文被納入本綜述。我們為這些論文提出了一個新的分類,并在語言、視覺、生物信息學和多模態子領域的預訓練和適應方面進行了回顧。它為醫療基礎模型的潛在技術創新提供了洞察。 1. 數據集的全面調查(第三節):我們調查了HFM培訓可能使用的四個子領域中的114個大規模數據集/數據庫。它識別了醫療數據集當前的限制,并為HFM研究人員提供了數據資源指導。 1. 應用的全面概述(第四節):我們概述了當前HFM作品中的16個潛在醫療應用。它展示了HFM技術在醫療實踐中的當前發展,為未來在更多場景中的應用提供了參考。 1. 關鍵挑戰的深入討論(第五節):我們討論了與數據、算法和計算基礎設施相關的關鍵挑戰。它指出了HFM當前的不足,為研究人員提供了新的機會。 1. 對新興未來方向的遠見探索(第六節):我們期待HFM在其角色、實施、應用和重點方面的未來方向。它顯示了醫療AI從傳統范式到基礎模型時代的轉變,突出了在推動該領域發展方面具有前景的未來觀點。
隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。
圖1:本文的總體結構。
近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。
隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。
雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。
文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。
本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。
圖2:UV系統的基礎結構及其應用。
圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。
狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。
將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。
除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。
此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。
GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。
UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。
除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。
GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。
總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。
自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。
在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。
此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。
在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。
增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。
在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。
有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。
此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。
在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。
另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。
總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。
如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。
雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。
在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。
總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。
安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。
自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。
在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。
VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。
為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。
總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。
UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。
監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。
另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。
此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。
在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。
在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。
人工智能(AI)在自動駕駛(AD)的感知和規劃任務中展現出了令人期待的應用前景,與傳統方法相比,其優越的性能更是不言而喻。然而,難以解讀的AI系統加劇了AD安全保障的現有挑戰。解決這一挑戰的方法之一是利用可解釋AI(XAI)技術。為此,我們呈現了第一個關于安全可信賴AD的可解釋方法的全面系統的文獻綜述。我們從分析AD中AI的需求開始,重點關注三個關鍵方面:數據、模型和代理。我們發現XAI對于滿足這些需求至關重要。基于此,我們解釋了AI中解釋的來源,并描述了一個XAI的分類體系。然后,我們確定了XAI在AD中實現安全可信AI的五個關鍵貢獻,分別是可解釋設計、可解釋替代模型、可解釋監控、輔助解釋和可解釋驗證。最后,我們提出了一個名為SafeX的模塊化框架,以整合這些貢獻,實現向用戶提供解釋的同時確保AI模型的安全。
人工智能(AI)在過去幾十年里在各個技術領域獲得了大量關注。特別是,基于深度神經網絡(DNNs)的深度學習(DL)因其數據驅動的高維學習能力,在某些任務上提供了與人類相當乃至更好的性能[1],[2],因此自然而然地成為自動駕駛(AD)領域的一個重要組成部分。然而,深度學習缺乏透明度。它表現出黑盒行為,使其內部運作的洞察變得模糊。這種不透明性使得識別問題和確定哪些AI應用在現實世界中是可接受的變得更加困難。然而,在諸如AD這樣的安全相關領域中,開發安全可信的AI至關重要。雖然存在幾種緩解AI安全問題的過程,如合理的數據獲取[3],但這些措施確保足夠安全性的充分性仍是一個懸而未決的問題,這突出了進一步方法的需求。此外,目前沒有標準明確指出在AD中使用數據驅動的AI。現有的安全標準ISO 26262 - 道路車輛 - 功能安全[4]并非專門為數據驅動的AI系統及其獨特特性[5]而開發。標準ISO 21448 - 預期功能的安全性(SOTIF)[6]旨在確保由系統功能不足引起的危險沒有不合理的風險,并且需要為每個危險制定定量的接受標準或驗證目標。這一概念可以應用于基于AI的功能,但這些接受標準并沒有明確定義[7]。此外,缺乏針對設計基于AI功能的具體指導。因此,這些標準在解決數據驅動深度學習系統的安全要求方面面臨挑戰[8]。盡管ISO/AWI PAS 8800 - 道路車輛 - 安全性和人工智能[9]的工作正在進行中,但由于它仍處于開發階段,其范圍和指導仍不清晰。總的來說,社會對AD也存在相對較高的不信任水平。美國汽車協會關于自動駕駛車輛(AV)的調查表明,美國68%的駕駛員對AV持謹慎態度[10],并且AI被認為是社會不接受AV的關鍵因素之一[11]。解決這些問題的一個有希望的方法是可解釋AI(XAI)。XAI旨在提供人類可理解的AI行為洞察,開發XAI方法對不同利益相關者可能是有益的[12]。首先,它可能成為AI開發人員識別和調試故障的必要工具[13]。其次,XAI可以幫助用戶根據AV的實際能力正確校準他們對自動化系統的信任[14],從而防止誤用。最后,保險公司和監管機構也可能受益,因為XAI增加的透明度可以實現可追溯性,允許更準確地評估事故責任[15]。Muhammad等[16]甚至表示,未來在DL的AD中,包括公平性、責任性和透明度在內的監管合規性可能需要XAI。鑒于特別是針對AD的XAI文獻不斷增加,有必要系統地回顧哪些XAI技術存在以及它們如何被應用于增強AD的安全性和可信度。
A. 關于AD的XAI的先前回顧 我們注意到已經存在一些關于AD的XAI的回顧,我們在本小節中簡要概述每個回顧。這些工作提供了該領域的挑戰和利益相關者的良好概述,但存在一些關鍵缺陷:
缺乏系統和可復制的文獻回顧方法論,導致可能的偏差和覆蓋不完整;
沒有專注于XAI在AD的安全性和可信度方面的具體益處和缺點;
沒有回顧用于將XAI與AD集成的框架。Omeiza等人[17]的工作是該領域的第一個值得注意的綜述。他們提供了AD中XAI的全面看法,涵蓋了解釋的不同需求、法規、標準和利益相關者,以及在AD中應用的一些解釋性方法的概述。他們回顧了為AD設計有用的XAI系統所涉及的挑戰及相關文獻,然而,這個回顧既不可復制也不完整,特別是對于感知和規劃任務。此外,Atakishiyev等人[18]覆蓋了與Omeiza等人非常相似的主題,但對最近的XAI技術在AV感知和規劃方面有稍微廣泛的覆蓋。獨特地,他們是第一個提出將XAI與現有AD技術集成的端到端框架的,然而,他們沒有進一步探索這個方向。他們的文獻回顧也以一種不可復制的方式進行。最后,Zablocki等人[19]的文獻回顧識別了潛在的利益相關者以及為什么他們可能需要解釋、對他們有用的解釋類型以及何時需要提供解釋。基于此,他們檢查了文獻中的不同方法。然而,他們沒有專注于XAI在滿足安全和可信AI要求方面的影響。此外,綜述在完整性方面存在一些缺陷,因為他們只關注了端到端系統的基于視覺的方法。因此,他們沒有考慮可以應用于模塊化AD管道的XAI方法和感知規劃。
B. 主要貢獻鑒于現有作品和XAI對AD日益增長的重要性,我們做出以下貢獻:
這本書邀請讀者探索人工智能、意識和人類認知交匯的復雜世界。這本開創性的書籍考慮了人與機器之間的深刻差異,挑戰了人工智能和認知科學中現有的觀念。它主張,理解智能的關鍵不在于軟件,而在于我們大腦的硬件——一個與當前人工智能架構截然不同的復雜生化系統。通過深入探討時間、感知、語言和思維的本質,這本書為生物學和意識在認知中的不可或缺性提出了令人信服的論證。實現這一目標,為此進行工程化,對于人工智能來說的確是一個挑戰。 特點: * 提出了一種傳統計算機隱喻的替代方案,為理解心智提供了新的框架。 * 引入了關于時間在人工智能和哲學中角色的新視角,強調其關鍵重要性。 * 探索了認知的生化基礎,挑戰了傳統關注符號操作和神經網絡的焦點。
航空航天和國防領域正在經歷一場變革,其主要驅動力是將人工智能(AI)和機器學習(ML)技術集成到為軍事設計的傳感器、武器和信息系統中。在精確度、快速決策和穩健性至關重要的環境中,人工智能/機器學習已成為一項關鍵技術,可加快對態勢的理解和決策,提高作戰效率。這些技術使軍事行動更有可能克服 "戰爭迷霧",人工智能/機器學習基于無休止和持續的信號收集,而不是人眼可見的跡象,使感官和態勢理解更加敏銳。這些部門的獨特要求,如多域作戰、極端條件下的應變能力、高風險決策、互操作性和先進的安全措施,為人工智能發揮重大影響創造了條件。
航空航天和國防領域轉向人工智能有幾個關鍵因素:
1.快速準確的決策:軍事行動在時間和空間上都具有決定性意義。人工智能系統快速處理和分析海量數據的能力對于實時做出戰略和行動決策至關重要。挖掘來自不同來源和領域的信息并快速融合這些數據,可為決策者提供可在短周期內實施的行動情報,從而在分配的時間和空間內產生預期效果。
2.彈性和可靠性: 人工智能應用程序必須在各種具有挑戰性的環境中始終如一地運行;其建議和響應必須可信、可靠,并且不會出現商業大型語言模型(LLM)所遇到的 "幻覺"。信心和信任是軍事人工智能系統中最重要的因素,能讓用戶利用這些系統發揮最大價值。安全和信心不應是設計功能,而應是軍事人工智能系統基線基礎設施的一部分。此外,還應考慮物理安全和安保問題,采用分布式系統、邊緣處理以及強大而有彈性的網絡,使人工智能隨時隨地為作戰部隊提供支持。
3.道德和受控的自動化:無論是否有制衡機制來實現人類的信任,軍事系統的高風險都要求人工智能系統納入并遵守道德標準,并允許人類在不減慢整個流程的情況下進行監督。盡管 "道德標準 "是一個不固定的術語,取決于設計者和用戶的法律、文化、宗教和社會背景,但它為人工智能操作定義了 "游戲場地 "和邊界,就像戰爭法定義了作戰人員在戰時能做什么或不能做什么一樣。
4.先進的安全措施:鑒于國防行動的敏感性,人工智能系統必須具備無與倫比的網絡安全能力,消除系統訓練和操作過程中的不利和惡意行為。人工智能系統依賴于網絡、信息、數據饋送以及通過訓練嵌入的算法。在設計或訓練過程中篡改這些基礎,或在系統運行階段對其進行惡意操作,都可能會給用戶和依賴系統帶來巨大風險和意想不到的后果。因此,從早期設計階段就應考慮安全措施,包括風險檢測、規避和應對。
研究了數十家公司的產品,觀看了演示,并在展覽和會議上聽取了官員的介紹。通過研究,掃描了市場上專為軍事行動設計或能夠支持軍事用途的人工智能系統。使用現有最好的人工智能工具進行研究,但即使這樣也需要大量的人工分析才能提供符合標準的可用信息。在第一部分中,挑選了五個在軍事行動中表現出色的人工智能系統。
為何選擇:作為行業領導者,洛克希德-馬丁公司是將人工智能廣泛應用于國防領域的典范。他們的 AI Factory 計劃展示了他們在該領域推進 AI/ML 技術的承諾。它提供了一個安全的端到端模塊化生態系統,用于訓練、部署和維持可信賴的人工智能解決方案。其功能側重于從開發到部署和維護的自動化,應用 MLOps 解決方案(機器學習運營)來驗證、解釋、保護和監控所有機器學習生命周期階段,并創建可跨項目重復使用的參考架構和組件。
影響:從作戰飛機到太空探索,洛克希德-馬丁公司通過其人工智能驅動的解決方案影響著全球國防戰略,樹立了行業標準并為未來的技術進步鋪平了道路。
為何選擇: Palantir 在大數據分析領域舉足輕重,為情報收集和作戰計劃提供人工智能平臺。他們的 AIP 平臺為綜合解決方案奠定了基礎,通過向決策者提供相關信息、利用可用傳感器增強信息以及根據對信息、紅軍和藍軍戰術、技術和程序(TTP)的理解向決策者提供相關的、可操作的響應,從而增強軍事組織的能力并使其同步化。
影響: Palantir AIP 將大型語言模型和尖端人工智能的力量結合起來,激活數據和模型,以安全、合法和合乎道德的方式從最高度敏感的環境中獲取信息。他們的系統利用信息源的可追溯性和可信推理,在復雜的國防環境中實現數據驅動決策,說明人工智能在作戰計劃和情報行動中的重要性與日俱增。
為何選擇:Anduril Industries 站在將人工智能整合到自主系統和監控技術的前沿,改變傳統的防御戰略,采用可信賴的有人無人操作能力。
影響:他們的任務自主方法是從邊境安全和態勢感知發展而來的。他們的 Lattice AI 操作系統重新定義了防御方法,引入了分布式任務自主,采用由小型人類團隊操作的眾多無人系統。核心軟件提供傳感器融合、目標識別和跟蹤、智能網絡、指揮和控制。與其他解決方案不同的是,Anduril 的方法是通過添加可操作的使能因素,將其人工智能的覆蓋范圍擴展到 Lattice 核心之外--在安全領域,這些使能因素包括 Sentry 傳感器、Anvil 和 Roadrunner 反制措施。在進攻性打擊任務中,例如在美國陸軍的 "空中發射效應 "中,該系統通過Altius長續航時間傳感器、Fury Attritable飛機和Altius 700M效應器,將Anduril的移動自主概念發揮到極致。作為一個集成解決方案,它通過擴展覆蓋范圍、能力和態勢感知,使人類能夠使用自主系統,同時使作戰人員能夠更快地做出更好的決策。
為何選擇:C3.ai 的突出之處在于其將各種人工智能工具整合到 AI-Readiness 中的戰略,這是一個安全、統一的平臺,具有可信任、彈性和可互操作的可擴展系統,可在整個生命周期內連接和管理復雜且不同的資產。
影響: 通過提高決策和運營效率,C3.ai 的解決方案優化了資源管理和維護計劃,證明了人工智能在提高國防資產的可用性和使用壽命方面的作用,同時還能保持高安全標準。為支持引入人工智能驅動的解決方案,該公司提供了一個人工智能開發工作室,將技術評估加速到數天,并在數周或數月內完成應用開發和部署,而不是數年。
為何選擇:赫爾辛公司代表了新一輪專注于專業人工智能應用的國防初創企業,他們得到歐洲主要國防企業的支持,凸顯了赫爾辛公司在人工智能國防市場的潛力和影響力。
影響:赫爾辛公司在情報分析和決策支持方面的人工智能解決方案利用先進的目標識別和人工智能賦能的電子戰技術,與其他合作伙伴的解決方案一起,必將成為雄心勃勃的未來空戰系統(FCAS)這一任務系統的人工智能支柱的一部分。赫爾辛公司專為現代戰爭量身定制,將為未來提供獨一無二的人工智能國防和航空應用。自 2022 年以來,赫爾辛公司一直活躍在烏克蘭,為前線作戰提供能力和技術。
正如這些領先公司所展示的那樣,航空航天和國防領域正在走向以人工智能為中心的未來。市場格局多種多樣,發展迅速。每家公司都以獨特的方式塑造人工智能的市場、技術和未來,凸顯了人工智能對全球國防和航空航天戰略的變革性影響。這一趨勢增強了當前的能力,為軍事和太空行動開辟了新的可能性,標志著國防技術進入了一個新時代。
參考來源:DEFENSE UPDATE
高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。
類人智能學習是AI界始終追逐的終極目標。自2006年以來,深度學習的出現極大的推動了人工智能的研究進展,人類似乎找到了解決“抽象概念”的方法。人工智能借助深度學習的力量,已可以在多個應用場景落地,特別是互聯網領域。但就總體發展而言,目前的人工智能距離類人類智能還有很長的路要走。類人智能學習是AI界始終追逐的終極目標。
類人智能的小樣本學習。如果用形象的比喻來說,深度學習(DL)是解決計算機“運籌帷幄”的問題(大量數據形成規律和抽象概念),而小樣本學習是解決計算機“照貓畫虎”的問題(少量數據形成決策)。深度學習更擅長分析規律和預測趨勢,而小樣本學習則具備舉一反三的能力。小樣本學習相當符合人類的思維推理模式,是實現類人人工智能的必由之路。 小樣本研究領域的發展現狀。2011年至2015年,由于小樣本理論不完整,相關論文較少。自2015年以來,隨著深度學習的興起,小樣本學習進入深度學習階段,相關研究論文的數量呈線性大幅增長。國家間,在小樣本學習研究領域的競爭也十分激烈,美國和中國是最大的兩個研究產出國,而美國的私營部門在小樣本學習的投入領先于其他國家。 小樣本學習可以解決AI商業落地難題。2015年是小樣本學習研究進展的分水嶺,開始真正進入深度學習階段,進而帶動AI產業的實質性應用落地。小樣本學習算法的性價比最優,不需要大量數據的標注準備,極大降低了數據標注、算力以及AI交付的工程化成本,對AI應用普惠化起到了至關重要的作用。 工業視覺檢測是小樣本學習的典型應用場景。小樣本學習相關的任務中,計算機視覺是最活躍的研究領域,而AI視覺檢測是小樣本學習在工業領域的突出應用。