摘 要 工業控制系統(Industrial Control Systems, ICS)在現代工業生產中發揮關鍵作用,負責監控和控制工業過 程,確保高效、安全和穩定的生產。隨著工業 4.0 和智能制造的發展,傳統工業控制方法難以應對日益復雜且動態 變化的生產環境。深度強化學習(Deep Reinforcement Learning, DRL)結合了深度學習與強化學習的優勢,在工業 智能控制領域展現出巨大潛力。本文綜述了 DRL 在工業智能控制中的應用現狀和研究進展。首先介紹了 DRL 的基 本原理及相關算法,并簡述工業控制的背景,分析智能控制的應用需求與現存挑戰。隨后,詳細綜述了 DRL 在工 業領域的應用,并對當前研究進行了總結,最后對未來研究方向提出了展望。關鍵詞 深度強化學習;在線強化學習;離線強化學習;工業控制系統;智能控制//115.25.60.6/cn/article/pdf/preview/10.13374/j.issn2095-9389.2024.10.29.006.pdf
摘要— 使用攝像頭傳感器捕捉的圖像進行異常檢測是工業領域中的主流應用之一。特別是在先進制造和航空航天工程等多種工業任務中,它有助于維護質量并優化生產過程的效率。傳統的異常檢測流程依賴人工操作員進行人工檢查,這是一個繁瑣的任務。智能自動化檢測系統的進步徹底改變了工業異常檢測(IAD)過程。近年來,基于視覺的方法能夠利用計算機視覺自動提取、處理和解讀特征,并與工業操作中的自動化目標相一致。鑒于檢查方法的轉變,本綜述回顧了自2019年以來發布的研究,重點關注基于視覺的異常檢測。現有綜述中被忽視的IAD管道組件也被提出,包括與數據采集、預處理、學習機制和評估相關的領域。除了收集的文獻,本文還突出了若干科學和行業相關的挑戰及其解決方案。此外,還總結了流行的相關工業數據集,為檢測應用提供了進一步的洞察。最后,討論了基于視覺的IAD的未來發展方向,為研究人員提供了有關工業檢測技術最新進展的見解。
關鍵詞— 異常檢測,計算機視覺,深度學習,工業缺陷檢測,神經網絡,質量控制,視覺傳感器。
I. 引言
在制造和工業環境中,能夠檢測異常的能力至關重要,因為它確保生產過程保持可控,并按照預期運作[1]。在商品生產過程中,尤其需要進行檢查,以保持標準并確保過程中的一致性。例如,產品表面存在的缺陷不僅會影響其外觀,還可能降低其整體性能[2]。在工業制造中缺乏適當的質量控制方法,導致缺陷從小瑕疵到重大結構問題不被發現,從而引發產品責任和可能的傷害。這些缺陷不僅局限于某一行業,還可以出現在增材制造的部件、印刷電路板(PCB)和藥品片劑等產品中。傳統上,缺陷通過人工檢查來識別,依賴于人工判斷。此類方法要求人工檢查員具有豐富的經驗或接受專門培訓,以準確檢測缺陷[3]。然而,這種類型的檢查是一項繁瑣且耗時的任務,通常由不穩定、易出錯、不可靠的操作員執行,而且不同的個人判斷依據風險容忍度的不同也會有所差異。此外,向下一次工業革命的推進更加強烈地促使探索替代解決方案。例如,工業4.0革命旨在提升檢查能力。其他類似的戰略也已提出,如“中國制造2025”[4]、日本的“社會5.0”[5]和美國的“工業互聯網聯盟”[6]。這些方法的主要目標是通過實施先進的技術應用來改善性能、質量和效率,進而轉型制造業。這樣的革命性進展通過將人工智能、先進機器人技術和物聯網(IoT)[7]融入制造領域來實現。因此,自動化缺陷檢測系統應運而生,旨在模擬人工檢查過程,解決這些限制并提高效率。圖1展示了自動化檢測在制造環境中的應用。一般過程包括對制造好的產品進行成像,產品可沿傳送帶移動。根據具體應用,成像介質可能有所不同。然后,圖像被發送到決策站,在那里識別缺陷。最后,輸出數據會集成到質量控制中心,以便獲取缺陷的相關信息,并做出關于生產過程的知情決策。高效的工業產品缺陷識別和分類是文獻中持續研究的一個關鍵問題。由于影響缺陷形成的因素復雜多樣,因此高效檢測自動化的研究尤為重要。一些挑戰在實際工業環境中尤為突出。例如,制造產品的表面經常暴露于制造過程中引入的噪聲。表面外觀的變化使得區分噪聲和真實缺陷變得困難。此外,缺陷的大小、位置、紋理和顏色可能大不相同,這進一步增加了檢測過程的復雜性。更重要的是,由于圖像中的某些物體通常較小,因此提取的紋理信息可能不盡如人意[8]。盡管如此,學術界對監控和控制系統的興趣仍然很大,這些系統旨在推動檢查技術的進步。這些領域的進展得益于潛在的生產成本降低、產量增加和智能制造的實施[9]。這種先進控制系統的引入是第四次工業革命的關鍵推動技術,尤其在制造產品的質量控制中[10]。因此,基于學習的算法已經成為實現自動化檢查系統的重要考慮因素。
基于視覺的缺陷檢測已成為智能制造中的關鍵技術之一[2]。這些技術包括機器學習(ML)和深度學習(DL)算法,它們分析數據并學習做出準確的預測以應對未來的任務[11]。機器學習可以定義為自動檢測數據中的模式并在不確定性下做出決策的一系列方法[12]。然而,深度學習作為機器學習的一個特定子集,結合了人工神經網絡,能夠從數據中學習模式并提取更高層次的特征。近年來,隨著人工智能技術的進步,機器學習和深度學習已廣泛應用于工業領域的缺陷檢測[13]。然而,另一個影響這些算法的因素是訓練過程中施加的監督級別。不同級別的監督,包括有監督學習(SL)、無監督學習(USL)和半監督學習(SSL),各自塑造了模型如何從數據中學習并應對挑戰。
為此,通過基于關鍵詞的檢索收集了相關文獻,目標是涵蓋2019年以后發布的研究。搜索通過四個科學數據庫(IEEE Xplore、Scopus、Springer 和 Taylor & Francis)進行,這些大數據庫與本綜述主題密切相關,并允許使用邏輯運算符(如“OR”和“AND”),并且能夠在標題、摘要和關鍵詞等元數據字段中進行搜索。具體的檢索字符串為:(“機器學習”或“深度學習”或“人工智能”或“計算機視覺”)且(“缺陷檢測”或“異常檢測”或“基于視覺的缺陷檢測”或“自動化缺陷檢測”)且(“工業”或“制造”或“行業”)。最終選擇時排除了排名較低的期刊論文。搜索結果表明,近年來,工業異常檢測(IAD)相關文獻顯著增長,從2019年到2023年增長了近380%。圖5清晰地展示了這一趨勢,直到2024年6月,相關論文數量持續增加。
摘要 文章探討了大模型作為人工智能技術的前沿應用之一,在軍事領域具有廣泛的應用前景,包括指揮控制、情報分析、戰術訓練等多個方面。然而,大模型的應用也面臨著諸多挑戰和安全風險,如計算資源需求、模型解釋性、數據安全性等方面的問題。為了充分發揮大模型在軍事領域的潛力,文章提出了一系列建議,包括加強技術創新、提升計算資源支持、保障數據安全、加強模型解釋性、應對安全風險等方面的措施。 關鍵詞 大模型,人工智能,軍事應用,指揮控制
0 引言 當今迅速發展的科技時代,人工智能(AI)技術正以前所未有的速度改變著我們的生活和工作方式。其中,大模型(Large Language Model,LLM)作為人工智能技術的重要代表之一,已經在各個領域展現出了驚人的應用潛力。在軍事領域,大模型所蘊含的強大計算能力、大規模數據處理能力和智能決策能力引發了人們對其在戰爭模擬、情報分析、戰場指揮等方面的廣泛關注[1-4]。 大模型[5-6]通常指的是擁有數億甚至數十億參數的深度學習模型,其可以通過學習大量的數據來提取特征,從而實現對復雜問題的建模和預測。隨著軍事技術的不斷發展和戰爭形態的日新月異,如何有效利用大模型技術來增強軍事力量、提高戰爭效率、保障國家安全,成為當前軍事領域面臨的重大挑戰 要課題之一。大模型的應用可以極大地提高情報分析的準確性和效率,輔助指揮員進行決策,提高指揮控制的智能化水平,同時也可以用于武器系統的目標識別、路徑規劃等領域,提高武器系統的性能。 本文將首先介紹大模型大模型的概念、特點,其次介紹大模型在軍事領域中的具體應用、情報分析、指揮控制、武器系統等方面,接著分析大模型在軍事領域應用的挑戰,如數據安全、算法偏見等,探討我國在這一領域的現狀和未來發展方向,最后總結全文并展望未來。
無人駕駛飛行器(UAV)已成為各行各業的變革性技術,為軍事和民用領域的復雜挑戰提供了適應性強的解決方案。通過集成人工智能(AI)和機器學習(ML)算法等尖端計算工具,無人機不斷擴展的能力為進一步發展提供了平臺。這些進步極大地影響了人類生活的方方面面,促進了一個無與倫比的高效便捷時代的到來。大型語言模型(LLM)是人工智能的關鍵組成部分,在部署的環境中表現出卓越的學習和適應能力,展示了一種不斷發展的智能形式,有可能接近人類水平的熟練程度。這項工作探索了將無人飛行器與大型語言模型集成以推動自主系統發展的巨大潛力。我們全面回顧了 LLM 架構,評估了它們與無人機集成的適用性。此外,我們還總結了最先進的基于 LLM 的無人機架構,并確定了將 LLM 嵌入無人機框架的新機遇。值得注意的是,我們側重于利用大型語言模型來完善數據分析和決策過程,特別是在無人機應用中增強光譜傳感和共享。此外,我們還研究了 LLM 集成如何擴展現有無人機應用的范圍,從而在災難響應和網絡恢復等緊急情況下實現自主數據處理、改進決策和加快響應時間。最后,我們強調了未來研究的關鍵領域,這些領域對于促進大型語言模型與無人機的有效整合至關重要。
圖 3:集成 LLM 的無人飛行器的應用。
五十多年來,無人駕駛飛行器(UAVs)因其卓越的自主性、機動性和適應性而成為人們關注的焦點,增強了包括監視[1, 2]、監測[3, 4]、搜索和救援[5]、醫療保健[6]、海上通信[7]和無線網絡供應[8]在內的廣泛應用。這些奠基性成就推動了人工智能(AI)與無人機的結合。特別是在 2010 年代,無人機技術和人工智能的進步達到了一個關鍵時刻,為各種應用帶來了巨大效益。例如,人工智能無人機采用人臉識別和實時視頻分析技術來加強偏遠地區的安全和監控[9, 10, 11]。在農業領域,帶有人工智能模型的無人機可分析作物健康狀況,實現精準耕作,提高資源效率和產量[12, 13]。同時,人工智能驅動的無人機可優化物流路線規劃和庫存管理,簡化倉庫作業并提高交付效率[14, 15, 16]。
在這些進步中,大型語言模型(LLMs)最近獲得了極大關注,因為它們能讓系統從應用行為中學習并優化現有系統[17, 18]。各種采用變換器架構的大型語言模型,如生成式預訓練變換器(GPT)系列[19]、來自變換器的雙向編碼器表示法(BERT)[20]和文本到文本傳輸變換器(T5)[21],都表現出了基本的能力。由于在大型數據集上進行了廣泛的訓練,它們在理解、生成和翻譯類人文本方面表現出色,這使它們在機器人、醫療保健、金融、教育、客戶服務和內容創建等應用領域具有重要價值。此外,這些模型在實時數據處理、自然語言理解和生成、內容推薦、情感分析、自動應答、語言翻譯和內容摘要等方面的熟練程度也為無人機領域創造了機遇。例如,它們能使無人機對動態環境變化和通信需求做出快速反應[22, 23]。它們的自適應學習能力有助于根據接收到的數據不斷改進操作策略,從而加強決策過程[24]。此外,無人機支持多種語言的能力拓寬了其在全球行動中的適用性,對于智能城市、醫療保健、救援行動、應急響應、媒體和娛樂等不同應用領域的無人機通信尤為重要[25, 26, 27]。
近期文獻[28, 29, 30]探討了將大型語言模型納入無人機通信系統,以增強與人類操作員以及無人機之間的互動。傳統上,無人機根據預編程指令運行,動態交互能力有限。然而,集成大型語言模型可以支持自然、直觀的通信方法。例如,大型語言模型可以用自然語言解釋和響應命令,從而簡化無人機控制,并允許處理復雜的實時任務調整。這使無人機在各種應用中成為適應性更強、更實用的工具[31]。大型語言模型可根據通信上下文或環境數據增強無人機的自主決策能力[32, 33]。例如,在搜救行動中,無需人工輸入,大型語言模型就能分析信息和環境數據,確定優先級和行動。在多無人機行動中,大型語言模型可促進更好的通信和協調,管理和優化無人機之間的信息流,提高整體效率和效果。大型語言模型還可以從收集到的大量數據中生成摘要、見解和可行建議,從而提高數據處理和報告能力。此外,大型語言模型經過訓練可識別通信數據中的模式和異常情況,這對于預先防范和解決潛在問題至關重要 [34, 35]。例如,如果無人機發送的數據不一致,大型語言模型可以快速檢測到異常情況并向操作員發出警報。大型語言模型可增強通信協議的可擴展性和適應性,根據新數據或操作變化自動學習和適應新協議,確保無縫通信。利用模擬數據對大型語言模型進行預訓練有助于了解任務條件和要求,從而在任務期間進行實時調整,以實現最佳性能。
將大型語言模型集成到無人機通信系統的潛力激發了這項工作。我們全面分析了以無人機集成為重點的現有 LLM 方法,以突出在擴展當前無人機通信系統能力方面的優勢和局限性。綜述總結了最先進的 LLM 集成架構,探討了將 LLM 納入無人機架構的機會,并討論了與 LLM 集成相關的頻譜感知和共享問題。我們旨在展示大型語言模型如何優化通信、動態適應新任務以及處理復雜數據流,從而提高無人機在應急響應、環境監測、城市規劃和衛星通信等各個領域的效率和多功能性。此外,我們還探討了部署人工智能驅動的無人機所面臨的法律、倫理和技術挑戰,強調負責任和有效的整合,為推進無人機技術以滿足未來需求奠定基礎,并探索人工智能在無人機系統中的創新應用。
本文的貢獻概述如下:
未來有望徹底改變各種領域;因此,最近有幾篇評論文章對這一主題進行了探討。例如,[44, 45, 46]研究了大型語言模型架構,[47, 48, 49, 50]概述了訓練過程、微調、邏輯推理和相關挑戰,以解決其局限性,從而在各領域廣泛采用基于大型語言模型的系統。文獻[36]對基于 LLM 的智能體進行了全面分析,重點關注其構建、應用和評估。這些智能體具備復雜的自然語言理解和生成能力,無需人工干預即可運行。它們以復雜的方式與環境和用戶進行交互,因此需要在社會科學、自然科學和工程學等不同領域整合先進的人工智能技術,以完成交流和解決問題等任務。另一項工作[37]深入研究了基于 LLM 的人工智能體的開發和使用,強調了它們在推進人工通用智能方面的作用。大型語言模型因其語言能力被認為是創建多功能人工智能體的基礎,而語言能力對于各種自主任務至關重要。作者提出了一個基于大腦、感知和行動組件的框架,以提高智能體在復雜環境中的表現。在 [38] 一文中,作者對大型語言模型與人類期望相一致所面臨的挑戰和取得的進展進行了認真研究。通過增強 LLM 匹配的技術解決了誤解指令和有偏差的輸出等問題。研究還探討了數據收集策略、訓練方法和模型評估技術,以提高理解和生成類人響應的性能。另一項研究[39]探討了部署大型語言模型所面臨的挑戰,尤其是在資源緊張的環境下。研究討論了量化、剪枝和知識提煉等模型壓縮技術,以提高效率和適用性。雖然 [40, 41] 研究了大型語言模型面臨的挑戰,包括龐大的數據集管理和高昂的成本,但他們指出了僅靠增加模型規模無法克服的局限性。文獻[30]探討了生成人工智能(GAI)在改善無人機通信、網絡和安全性能方面的應用。文章介紹了一個 GAI 框架,以提高無人機的聯網能力。文獻[22]調查了無人機群在動態環境中面臨的挑戰,討論了各種用于增強協調性和功能性的 GAI 技術。在 [42] 中,作者探討了大型 GenAI 模型通過改進無線傳感和傳輸來增強未來無線網絡的潛力。他們強調了這些模型的好處,包括提高效率、降低培訓要求和改善網絡管理。在另一項研究[43]中,作者調查了大型語言模型在無線通信和網絡中開發高級信號處理算法的應用。他們探索了使用大型語言模型為復雜任務生成硬件描述語言代碼的潛力和挑戰,重點是通過軟件定義無線電進行代碼重構、重用和驗證。這種方法大大提高了生產率,減少了計算挑戰。盡管 [30, 22] 廣泛關注 GAI,但大型語言模型在無人機通信系統中的具體應用仍有待探索。這一空白凸顯了一個有待研究的領域。表 I 總結了現有研究的主要重點和關鍵發現。
本文接下來的內容安排如下。在第二節中,我們概述了大型語言模型,介紹了該領域的基本概念和發展情況。第三節專門探討用于無人機的大型語言模型,我們討論了 LLM 技術在無人機系統中的集成和適應性。第四節重點討論無人機通信中大型語言模型的網絡架構,研究支持無人機網絡中大型語言模型功能的結構設計。第五節討論無人機中大型語言模型的頻譜管理和監管。第六節探討了大型語言模型在無人機通信中的應用和使用案例,概述了這些技術的實際應用和帶來的好處。第七節探討了在實施集成 LLM 的無人機時所面臨的挑戰和需要考慮的因素,討論了潛在的障礙和操作方面的注意事項。第八節專門討論了未來方向和研究機會,提出了在無人機中進一步探索和發展大型語言模型的潛在領域。最后,第九節總結了我們的研究結果,并對我們研究的廣泛意義進行了反思。
由于在各種應用中對集成 LLM 的無人機系統的興趣日益濃厚,最近出現了一些研究成果。例如,在 [68] 中,作者為四旋翼無人機引入了基于視覺的自主規劃系統,以提高安全性。該系統預測動態障礙物的軌跡,并利用 NanoDet 精確檢測障礙物和卡爾曼濾波精確估計運動,生成更安全的飛行路徑。此外,該系統還采用了 GPT-3 和 ChatGPT 等大型語言模型,以促進更直觀的人機交互。這些大型語言模型實現了自然語言處理(NLP)過程,使用戶能夠通過簡單的語言指令控制無人機,而無需復雜的編程知識。它們將用戶指令轉化為可執行代碼,使無人機能夠以自然語言執行任務并提供反饋,從而簡化了控制過程。無人機可以以臨時和網狀方式運行,形成動態網絡,而無需依賴已有的基礎設施。因此,當建立永久性網絡基礎設施不切實際時,如災難響應、軍事行動或環境監測,無人機就顯得尤為重要。ad-hoc 和網狀網絡都增強了無人機在自動移動過程中配置和保持連接的能力。它們不斷發現新的鄰居,并能根據網絡的拓撲結構和流量條件調整路由,從而提高了可擴展性和靈活性[69]。將大型語言模型集成到無人機通信中,可增強無人機了解網絡狀況并根據網絡特性生成見解的能力,從而突出其適應性和響應能力,以快速適應不斷變化的環境條件和操作需求。大型語言模型還有助于無人機了解網絡流量模式,以便推薦減少延遲和提高吞吐量的自適應協議,特別是在這些網絡中常見的多變條件下。它們還有助于模擬或建模各種情況下的網絡行為,幫助無人機部署的規劃和決策過程。因此,加入 LLM 可以加強數據分析,提高無人機之間的數據交換效率。大型語言模型具有處理和學習海量數據的能力,可使無人機在路線規劃、數據轉發和網絡配置方面做出明智的決策。例如,針對無人機故障或環境障礙,大型語言模型可以迅速計算出替代路線或重新配置網絡,以維持連接性和性能。此外,大型語言模型通過為無人機配備先進的認知能力,使無人機能夠理解和執行復雜的指令,并與人類操作員或其他自主系統進行更自然的交互,從而提高無人機的自主水平。
此外,大型語言模型還能分析無人機的數據(如運行日志和遙測數據),在潛在故障或維護需求發生之前對其進行預測。這種預測能力可大大提高無人機的可靠性和使用壽命,減少停機時間和維護成本。安全性也是分散式 ad-hoc 網絡最關心的問題;大型語言模型可通過模式識別和異常檢測識別潛在威脅,并模擬攻擊場景以制定更強大的安全措施,從而增強安全協議。大型語言模型還能優化無人機網絡內帶寬和電力等關鍵資源的分配。大型語言模型通過了解和預測網絡需求來動態分配資源,從而最大限度地提高效率,延長無人機的運行時間。它們改善了人類操作員與無人機網絡之間的界面,提供更直觀的控制和反饋系統,包括生成網絡狀態自然語言報告,或將復雜的網絡數據轉化為決策者可操作的見解。此外,大型語言模型還能解決特設網絡固有的可擴展性難題。當無人機數量發生變化時,它們會動態調整網絡協議和配置,確保網絡無論規模大小都能保持穩定高效。通過集成 LLM 功能,無人機 ad-hoc 網絡可以變得更加智能、反應靈敏和高效,從而顯著提高其在各種應用中的有效性。
本節將詳細介紹不同的大型語言模型,并討論它們為基于無人機的通信系統帶來的機遇。
如上一節所述,BERT 是 NLP 領域頗具影響力的模型,由谷歌研究人員開發,于 2018 年發布[20]。BERT 的開發代表了 NLP 領域的一個轉折點,通過充分利用每個單詞周圍的上下文,為機器處理和理解人類語言提供了一種更加細致有效的方法。BERT 采用預訓練和微調階段。在預訓練階段,模型在大型文本語料庫中進行訓練,這些任務旨在幫助模型學習一般語言模式。這些任務包括預測句子中的屏蔽詞(即屏蔽語言模型 (MLM))和預測兩個句子在邏輯上是否相互銜接(即下一句預測 (NSP))。在預訓練之后,BERT 會根據特定任務(如問題解答或情感分析)的需要,使用額外的數據進行微調 [70, 71]。
BERT 的引入大大提升了 NLP 任務的技術水平。在命名實體識別[72, 73]、情感分析[74, 75],特別是問題解答和自然語言推理等任務的排行榜上,BERT 的性能有了明顯的提高,在這些任務中,來自兩個方向的全句子上下文對于理解微妙之處至關重要。此外,BERT 還激發了許多變化和改進,從而開發出了不同的模型,如魯棒性優化 BERT 方法(RoBERTa)[76]、來自變換器的精餾雙向編碼器表示(DistilBERT)[77]和精簡 BERT(ALBERT)[78],這些模型使用 BERT 的原始架構和訓練程序來優化其他因素,如訓練速度、模型大小或增強性能。
整合 BERT 可顯著提高無人機在各個領域的性能。例如,在應急響應場景中,BERT 可以幫助無人機理解災害管理團隊發出的復雜的自然語言指令。此外,BERT 還能解釋和總結來自無人機傳感器和報告的信息,這在需要快速總結大量視頻數據的監控任務中尤為重要。此外,BERT 還能快速分析和解讀來自多個來源的數據,從而及時做出明智的決策,這在環境監測中對評估森林火災或污染等情況至關重要。此外,BERT 還能熟練地解析和理解指令,確保多架無人機之間的精確協調,這對于在具有挑戰性的環境中運送物資的復雜物流操作至關重要。最近,在文獻[79]中,作者介紹了一種創新的端到端基于語言模型的細粒度地址解析框架(LMAR),該框架明確設計用于增強無人機交付系統。傳統的地址解析系統主要依賴于用戶提供的興趣點(POI)信息,往往缺乏準確交付所需的精度。為了解決這個問題,LMAR 采用語言模型來處理和完善用戶輸入的文本數據,改進了數據處理和正則化,提高了無人機投遞的準確性和效率。在另一項研究成果[80, 81]中,作者為無人機開發了增強型安全和取證分析協議,以支持各行各業無人機使用量的增加,包括那些容易被犯罪分子濫用的領域。他們引入了一個命名實體識別系統,從無人機飛行日志中提取信息。該系統利用帶有注釋數據的微調 BERT 和 DistilBERT 模型,大大提高了對無人機相關事件取證調查至關重要的相關實體的識別率。文獻[82]的作者側重于通過從大規模非結構化無人機數據中構建標準化知識圖譜,提高無人機在智能戰爭中的目標識別能力。作者引入了一個兩階段知識提取模型,并集成了 BERT 預訓練語言模型來生成字符特征編碼,從而提高了未來無人機系統信息提取的效率和準確性。
OpenAI 開發的 GPT 系列代表了大型語言模型在設計和功能上的重大演進,可增強文本生成、翻譯、摘要和問題解答等各種自然語言處理任務[83]。第一個架構 GPT-1 于 2018 年 6 月推出,它基于轉換器模型,使用了轉換器架構的解碼器塊堆疊。GPT-1 使用 BooksCorpus 數據集進行了語言建模任務(預測句子中的下一個單詞)的預訓練,該數據集包含 7000 多本獨特的未出版書籍(總計約 8 億個單詞)。經過初步預訓練后,監督學習針對特定任務進行了微調 [19, 83]。
GPT-2 于 2019 年 2 月發布,在其前身的基礎上進行了大幅擴展,最大版本具有多達 48 層,1600 個隱藏單元,48 個注意頭,15 億個參數[84]。GPT-2 使用了一個 WebText 數據集,該數據集是通過搜索從 Reddit 上至少有三個向上投票的帖子中鏈接出來的網頁而創建的。這產生了一個約 40GB 文本數據的多樣化數據集。GPT-2 繼續使用無監督學習方法,僅利用語言建模進行預訓練,而不針對具體任務進行微調。這證明了該模型從語言理解到特定任務的泛化能力[85]。2020 年 6 月發布的 GPT-3 是有史以來最大的人工智能語言模型之一,擁有 1750 億個參數。它包括 96 層,有 12 288 個隱藏單元和 96 個注意頭[86]。它是在一個更加廣泛和多樣化的數據集上訓練的,包括授權數據、人類訓練者創建的數據和公開數據的混合,規模遠遠大于 GPT-2。GPT-2 和 GPT-3 使用無監督學習模型,展示了從大型數據集學習的卓越能力[87]。GPT-4 建立在先進的變壓器式架構上,與前代產品 GPT-2 和 GPT-3 相比,在規模和復雜性上都有顯著提升。該模型利用 “人的反饋強化學習 ”進行了微調,并采用了公開的互聯網數據和第三方提供商授權的數據。不過,與架構有關的具體細節,如模型大小、硬件規格、用于訓練的計算資源、數據集構建和訓練方法等,尚未公開披露[88]。
無人機中的 GPT 系列代表了人工智能與無人機技術的創新交叉,可在從增強型控制系統到完全自主的任務執行等廣泛領域增強無人機的功能、自主性和交互能力 [89,90]。例如,GPT 系列集成可使無人機熟練地執行以普通語言提供的指令。例如,操作員發出在特定坐標處檢查橋梁狀況的指令后,無人機就會設計出飛行路徑,并執行橋梁檢查的所有必要步驟,而無需對每個步驟進行人工輸入。同樣,它還可以根據飛行期間收集的數據生成詳細報告,將這些模型與無人機的傳感器和數據收集系統集成后,可以自動生成文字說明,突出強調任務結果和檢測到的異常情況等各個方面[91]。因此,人類操作員無需查看大量原始數據,就能更容易地理解無人機觀察到的情況。例如,Tazir 等人在文獻[89]中將 LLM 系統 OpenAI 的 GPT-3.5-Turbo 與無人機模擬系統(即 PX4/Gazebo 模擬器)集成,創建了基于自然語言的無人機控制系統。系統架構的設計目的是通過基于 Python 的中間件提供的聊天機器人界面,實現用戶與無人機模擬器之間的無縫交互。Python 中間件是核心組件,負責在聊天機器人(GPT-3.5-Turbo)和 PX4/Gazebo 模擬器之間建立通信渠道。它處理來自用戶的自然語言輸入,使用 OpenAI API 將這些輸入轉發給 ChatGPT 模型,檢索生成的響應,并將其轉換為模擬器可以理解的命令。ChatGPT 通過 PX4 命令和解釋提供指導和支持,從而增強了無人機模擬系統的交互性和可訪問性。它還通過復雜的人工智能驅動界面促進無人機的控制和管理。在另一項工作[92]中,作者將先進的 GPT 模型和密集字幕技術集成到自主無人機中,以增強其在室內檢測環境中的功能。所提出的系統使無人機能夠像人類一樣理解和響應自然語言命令,從而提高了無人機的可及性,使沒有高級技術技能的操作人員也能輕松使用無人機。無人機的密集字幕模型通過分析飛行過程中捕獲的圖像來生成詳細的對象字典,從而促進這種類似人類的交互。這些字典使無人機能夠識別和理解環境中的各種元素,并根據預期和意外情況動態調整其行為,從而提高無人機在各種環境條件和應用中進行室內檢測的效率和準確性。
此外,在需要快速決策的動態或復雜環境中,GPT 系列可以通過處理實時數據和通信提供幫助,根據數據提供建議或自動決策。例如,搜救行動可以分析來自多個無人機的實時視頻饋送和文本報告,綜合信息,并建議重點關注的區域或調整搜索模式 [29]。通過建立一個分散的蜂群智能系統,無人機可以共享信息并做出群體決策,從而在增強無人機之間的協作通信方面發揮重要作用。例如,無人機可以使用自然語言相互報告狀態和發現,根據共同目標協調行動,并在群組之間優化任務分配,而無需持續的人工干預[93]。GPT 系列還能模擬各種通信場景,通過生成逼真的任務場景和響應,為無人機的培訓提供有力的培訓,使操作員能夠處理不同的情況,從而提高他們在實際操作中的響應能力[91]。
谷歌于 2019 年 10 月推出了 T5 模型,并采用了一種新穎、精簡的方法來處理各種 NLP 任務,將其重構為文本到文本問題 [94]。傳統模型需要針對不同任務采用不同的架構,并產生不同的輸出,而 T5 模型則不同,它將所有任務的輸入和輸出標準化[95]。每個 NLP 任務(如翻譯、摘要、問題解答或文本分類)都被視為從給定文本生成新文本。因此,T5 對所有任務都采用了統一的模型架構。這種簡化簡化了模型訓練和部署流程,因為只需對架構進行最小的修改,就能在多個任務中訓練相同的模型[21]。例如,在翻譯任務中,輸入是英文文本,輸出是法文文本,兩者都只被視為單詞序列。T5 以自我監督的方式在大量文本語料庫上進行預訓練,主要使用與 BERT 類似的掩蔽語言模型任務的變體。這種預訓練使模型能夠有效地理解和生成自然語言。之后,通過調整訓練數據以適應文本到文本格式,T5 可在特定任務中進行微調。T5 的多功能性使其適用于廣泛的應用,包括語言翻譯、文檔摘要和情感分析(通過生成描述性標簽來解釋文本情感)。它還能生成適當的文本答案,在問題解答方面表現出色[96]。
無人機可以集成 T5 框架,以提高無人機操作的效率。與 GPT 和 BERT 類似,T5 也能改進無人機的命令解釋和響應生成,將操作員用自然語言發出的復雜命令解釋并轉換為無人機的可執行指令。T5 還能根據無人機收集的數據生成全面的任務報告,包括總結主要發現、突出異常現象和描述勘測區域,以用于環境監測或災害響應應用。此外,T5 還能通過處理來自無人機傳感器和攝像頭的數據流執行實時操作,提供即時、可操作的見解。例如,在搜救行動中,T5 可以快速匯總視覺和傳感器數據,以描述潛在的關注區域或危險,幫助更有效地指導救援工作。與此同時,T5 還能解釋來自一個無人機的信息,并為其他無人機生成適當的響應或命令,從而顯著提高無人機協同任務的性能,促進各種應用領域的無縫團隊合作,包括管理飛行模式、避免碰撞或協調區域監控的時間安排等。
T5 輔助無人機通信還能實現自動故障排除和反饋,例如,如果無人機在運行過程中遇到問題或異常情況,它可以通過解釋錯誤信息或傳感器數據并以自然語言生成故障排除步驟或建議來提供幫助。這還可以擴展到向操作員提供有關任務進展的實時反饋,或提出調整建議以提高運行效率。此外,T5 還能根據歷史數據或潛在的未來情況生成模擬任務場景和對話,用于培訓目的。
XLNet 是一種先進的 NLP 模型,由谷歌和卡內基梅隆大學的研究人員聯合開發[62]。BERT 采用的是 MLM 方法(即隨機屏蔽和預測句子中的某些單詞),而 XLNet 采用的是基于排列的訓練策略。這種方法在訓練過程中考慮了句子中所有可能的單詞排列,使模型能夠根據前后其他單詞提供的所有潛在語境預測目標單詞。這種方法大大提高了語境理解的靈活性和深度。此外,與 BERT 不同的是,基于排列的訓練使 XLNet 能夠捕捉到更豐富的語言上下文理解,而 BERT 只專注于預測屏蔽詞,可能會遺漏上下文的細微差別 [97,98]。
此外,XLNet 在訓練過程中不依賴單詞屏蔽,從而避免了 BERT 在預訓練和微調階段之間的差異,使不同操作階段的行為更加一致。XLNet 還融合了自回歸語言建模(如 GPT 系列)和自動編碼(如 BERT)的策略,在不遵守固定序列順序的情況下進行自回歸訓練。相反,它根據不同的排列組合來預測單詞,從而增強了其理解和生成能力[99]。因此,XLNet 通過有效利用完整的句子結構實現更深入、更準確的上下文理解,在包括問題解答、自然語言推理和文檔排序在內的多項 NLP 任務中表現出卓越的性能[100, 101, 102]。
由于 XLNet 采用了復雜的語言處理過程,因此將其集成到無人機中可提供獨特的優勢 [103, 104]。XLNet 基于置換的訓練可實現對上下文更細致、更全面的理解,這使其在解釋上下文可能變化很大的復雜指令或環境數據時尤為有效。例如,在搜救任務中,作戰環境復雜多變,XLNet 可以實時對上下文繁重的指令進行更可靠的解釋。同樣,由于 XLNet 考慮了輸入數據的所有排列組合,因此在應對現實世界無人機任務中常見的噪聲或不完整輸入時更具魯棒性。在通信可能中斷或不完整的戰斗或災難響應場景中,這一功能尤其有益。XLNet 根據上下文預測缺失信息的能力可以保持無人機操作的有效性。
百度研究院于 2019 年 6 月推出 ERNIE,將世界知識整合到預訓練的語言模型中[58]。它將結構化的世界知識整合到語言模型的訓練中,是語言理解領域的一次重大進化。與依賴大量文本數據來學習語言模式的傳統模型不同,ERNIE 通過將知識圖譜納入訓練過程來增強這些模型。知識圖譜是存儲世界信息的結構化數據庫,機器可以通過包含實體(如人、地點和事物)及其關系來理解和處理。
ERNIE 可在傳統文本語料庫和知識圖譜上進行訓練。通過知識圖譜,ERNIE 可以理解和表示與各種實體相關的復雜關系和屬性[105]。這種訓練包括兩個關鍵部分:文本數據和知識集成。文本數據與 BERT 或 GPT 等其他模型類似,ERNIE 通過處理這些海量文本來學習語言的句法和語義模式。同時,知識整合組件使 ERNIE 能夠同時從知識圖譜中學習,吸收現實世界實體及其相互關系的結構化信息。因此,這一過程使 ERNIE 能夠從線性文本和涉及現實世界事實和關系的多維角度理解上下文。整合知識圖譜能讓 ERNIE 更深入地理解語言語義,因為它能將單詞和短語與現實世界的實體及其屬性聯系起來。這種能力使它能更好地完成需要細微理解的任務,如問題解答和命名實體識別 [106,107]。
此外,ERNIE 利用外部知識的能力有助于它提供與上下文相適應的回答或分析,尤其是在特定主題的背景知識至關重要的情況下。它還能更好地處理語言中的歧義,因為來自知識圖譜的附加數據能根據相關實體的更廣泛的上下文,澄清可能混淆或不清楚的文本[108]。ERNIE 的應用范圍廣泛,影響深遠,尤其是在需要深入理解和上下文意識的領域。例如,ERNIE 可利用其集成知識庫來回答需要理解文本之外的復雜問題,如歷史事實或有關人物或地點的具體細節。ERNIE還能理解查詢中與所學知識有關的深層含義,提供更相關、更精確的答案,從而提高語義搜索引擎的性能。
ERNIE具有將知識圖譜中的結構化世界知識與文本數據整合在一起的獨特能力,這將大大有利于無人機通信。例如,與傳統的語言模型相比,ERNIE 可以更有效地解釋操作員發出的復雜的、與上下文相關的命令。例如,如果操作員發出的命令涉及地理或操作術語,ERNIE 對知識圖譜的整合使其能夠更準確地理解和執行命令。在陌生地區執行復雜任務時,這一點至關重要,因為在這種情況下,對當地地理和術語的準確理解十分必要。ERNIE 還展示了基于環境數據和任務目標的有效自主決策能力,因為它可以同時處理當前任務數據和綜合知識,從而做出明智的決策。例如,在環境監測中,ERNIE 可根據其對環境科學的廣泛了解,識別地貌中的具體特征或異常現象,從而幫助進行更有效的數據收集和分析。
在搜救或災難響應等關鍵任務中,ERNIE 還表現出較高的實時態勢感知屬性,可應用其語義理解能力,根據其知識圖譜解釋實時數據輸入(如視覺或傳感器數據)。這有助于快速識別相關實體或情況,例如識別歷史上已知的危險區域或解讀遙感數據中的人類活動跡象。在多無人機場景中,ERNIE 可通過理解和管理無人機之間的信息交流,促進更好的溝通和協調。它可以根據與任務目標相關的相關性和緊迫性對通信進行解釋和優先排序,利用其語義理解能力確保無人機和諧運行。
此外,在培訓目的方面,ERNIE 可以生成背景豐富的模擬場景,將真實世界的知識納入培訓練習,幫助更好地理解如何在復雜場景中與無人機互動,加強他們對真實世界行動的準備。與其他大型語言模型類似,任務完成后,ERNIE 可協助生成詳細的事件報告和匯報,其中包括觀察數據和基于綜合知識的背景見解,以便對任務結果進行語義分析。因此,ERNIE 通過利用其整合和利用廣泛的知識圖譜以及文本數據的能力,可以顯著增強無人機通信系統的能力,使其在復雜的作戰環境中更加智能、反應更快和更有效。這使得ERNIE對于先進的無人機應用特別有價值,因為傳統的語言模型可能無法理解和處理復雜的上下文信息。
Facebook 開發的 BART 在變換器框架內結合了自動編碼和自動回歸技術的優勢,使其在處理序列到序列任務時異常有效[109]。BERT 主要用于理解和預測同一輸入文本中的元素,而 BART 則不同,它針對需要生成或轉換文本的任務進行了優化。它的訓練方法是用各種噪聲函數對文本進行破壞,如標記屏蔽、文本填充,并學習如何重建原始文本 [110, 70]。BART 的訓練使其具備了處理各種應用的能力,包括文本摘要(可生成較長文檔的簡明版本)和文本生成(適用于創建內容或生成對話)。此外,BART 的功能還擴展到機器翻譯和數據增強,使其成為將輸入文本轉化為連貫且與上下文相適應的輸出序列的多功能工具 [111]。
將 BART 集成到無人機中具有多種優勢,特別是在涉及復雜文本處理和生成的任務中。例如,BART 可以加強任務報告的編寫和解釋,從大量監視數據或傳感器讀數中自動生成簡明摘要,從而有助于更快地做出決策和通報情況。BART 還善于生成連貫的文本序列,用于自動回復或指示無人機操作員,特別是在需要快速準確通信的場景中。
此外,BART 還能在搜救行動中改進實時策略調整,以解讀傳入的數據,并根據不斷變化的情況提供最新的任務目標或方向。它還能將嘈雜、不完整的文本數據轉化為可理解的信息,因此在無人機操作的動態和挑戰性環境中特別有價值,可確保通信在復雜的情況下仍保持清晰和上下文相關。
對用于無人機的不同大型語言模型(即 BERT、GPT、T5、XLNet、ERNIE 和 BART)進行比較后發現,它們具有針對無人機操作各個方面的獨特能力,反映了各自獨特的架構和訓練方法。例如,BERT 擅長從單詞的兩個方向理解上下文,因此在解釋復雜命令和從任務數據中提取相關信息方面非常有效。它特別適用于對傳感器數據或操作指令的精確理解至關重要的任務,例如在監視或監測任務中,深入的上下文知識至關重要。相比之下,GPT 擅長生成連貫、擴展的文本輸出,有利于創建詳細的任務報告或進行對話。這種模式非常適合需要敘述式更新或交互式通信以生成操作日志或匯報報告的無人機模擬訓練。
而 T5 具有很高的通用性,可將任何基于文本的任務轉換為文本到文本的格式,簡化了各種類型通信的處理過程。事實證明,它在無人機通信任務中非常有效,如翻譯不同語言或協議之間的通信、匯總大量勘探數據以及將原始傳感器輸出轉換為可操作的文本格式。另一方面,XLNet 采用基于置換的訓練方法,對語言上下文的理解比 BERT 更靈活、更全面。這種模型有助于復雜、動態的操作環境,如搜索、救援和災難響應,在這些環境中,實時解釋和響應上下文繁重的指令至關重要。
同樣,ERNIE 通過知識圖譜整合外部知識,增強了對語言的語義理解,非常適合需要深入理解特定術語或概念的任務,如涉及特定生態數據的環境監測應用。雖然 BART 在自動編碼和自動回歸模型的優勢方面有所折損,但它在理解和生成文本方面表現出色。它非常適合用于編寫精確、上下文準確的任務報告或總結詳細監測數據的說明,在這種情況下,保持信息的完整性和簡潔的表達方式至關重要。
因此,總而言之,BERT 和 XLNet 憑借對上下文的深刻理解,在理解指令方面非常有效,而 XLNet 則在動態環境中提供了額外的靈活性。同時,GPT 和 BART 擅長創建連貫、廣泛的文本,其中 BART 在文本轉換任務中提供了額外的功能。T5 在文本轉換任務中具有廣泛的適用性,可滿足各種通信需求。ERNIE 在整合專業知識對準確操作和決策至關重要的應用場景中表現突出。因此,可以根據無人機任務的具體要求納入每種模型,以確保通信保持有效和高效,適應無人機操作的復雜性和挑戰。表 II 重點介紹了各種 LLM 模型,包括其主要特點、在無人機領域的應用以及集成到無人機系統中的挑戰。
將大型語言模型與無人機集成,需要部署先進的語言處理能力,以實現復雜的決策和交互能力。無人機平臺由基本硬件組成,包括配備飛行控制硬件的無人機本身、攝像頭和激光雷達等傳感器以及 Wi-Fi、LTE 和衛星等通信模塊。它還包括用于實時數據處理過程的小型機載計算機。在大型語言模型集成中,輕量級版本的大型語言模型直接部署在無人機上,通過邊緣人工智能實現快速自主決策。對于更復雜的計算,無人機數據被傳輸到云服務器,由更強大的大型語言模型進行分析,然后將結果發回無人機。地面控制站為這些操作提供支持,使操作員能夠通過直接視距或衛星通信遠程監視和控制無人機,并使用安全數據鏈路進行數據傳輸。該系統的運行涉及幾個關鍵功能。無人機通過機載傳感器收集數據,捕捉視覺圖像、環境數據或與其任務相關的特定讀數。這些數據要么在本地處理,要么發送到地面站或云服務器,具體取決于任務的復雜程度和機載處理單元的能力。無人機上的嵌入式 LLM 處理簡單任務的數據過程,以做出實時決策。對于更復雜的決策,數據會被發送到云端,由功能強大的大型語言模型對其進行分析,做出決策或產生見解,然后再傳輸回無人機。根據這些經過處理的數據和大型語言模型做出的決策,無人機執行各種行動,如優化飛行路徑、與環境互動,或執行特定任務,如投遞、監視或數據收集。反饋和學習是該系統不可或缺的一部分,任務中的數據被用來重新訓練或完善大型語言模型,提高其準確性和決策能力。這種持續的反饋回路有助于模型適應特定的環境,以實現最佳的任務性能。因此,大型語言模型與無人飛行器的集成為無人飛行器的操作提供了重大改進,為提高能力和效率開辟了廣闊的前景。
圖 2 展示了與 LLM 集成的無人機系統的綜合架構,其中無人機從傳感器收集數據。這些數據包括文本、音頻和視頻等各種類型,被輸入到集成式 LLM 架構中。LLM 處理這些數據,并將結果輸出到決策層,然后由決策層向飛行控制器、傳感器系統、能源系統和有效載荷管理系統等運行組件發出指令。
圖 2:LLM 集成無人機系統的綜合架構。
此外,地面控制和基站是無人機運營基礎設施的關鍵要素,作為指揮和控制中心,它們負責處理從飛行授權和監控到數據處理和部署管理等一切事務。將大型語言模型與地面控制和基站集成在一起,可大大增強無人機的管理和操作。例如,大型語言模型可通過解釋和處理自然語言命令或查詢,顯著改善無人機與其控制站之間的通信。它能讓操作員更直觀地與無人機互動,使復雜的命令更容易執行,并減少人為錯誤的可能性。
大型語言模型可以處理地面控制站從無人機接收到的實時數據,就飛行路徑、任務調整和應對不斷變化的環境條件做出即時決策。大型語言模型還能以比人類快得多的速度分析海量數據,提供重要見解,從而快速做出決策,優化無人機操作,確保任務成功。此外,大型語言模型還能利用歷史和實時數據,在機械故障、電池耗盡或惡劣天氣條件等潛在問題出現之前進行預測。這種預測能力可確保提前采取預防措施,提高無人機運行的安全性和可靠性。
此外,大型語言模型還能自動執行飛行調度、無人機狀態監控和數據收集管理等常規任務,從而提高復雜決策和運營戰略的效率。大型語言模型還能自動對數據進行分類、提取相關信息并生成綜合報告,從而大大有助于改進數據處理和分析。此外,它們還能分析圖像和傳感器數據,以識別模式或異常情況,從而為監視、環境監測和基礎設施檢查等任務提供幫助。大型語言模型可以根據積累的數據創建詳細的模擬和訓練場景,為操作員提供逼真多樣的訓練體驗,提高無人機操作員的技能,確保他們為復雜的作戰場景做好更充分的準備。
此外,集成到地面站和基站的大型語言模型具有先進的模式識別能力,可以加強安全協議。它們可以檢測潛在的網絡威脅和未經授權的訪問嘗試,確保無人機操作免受數字入侵。此外,大型語言模型還能根據任務要求預測可用無人機和支持設備的最佳使用情況,從而優化資源分配。大型語言模型還能促進無人機操作中使用的系統和軟件之間更好的互操作性,通過充當理解和轉換各種數據格式和協議的橋梁,確保不同平臺之間的無縫集成和通信。這樣,無人機任務就能實現高效管理、卓越的決策支持、更高的安全性和有效性。大型語言模型的這種廣泛應用為其有針對性地用于增強頻譜傳感能力奠定了基礎。
此外,鑒于頻譜傳感在確保無人機有效射頻(RF)通信方面的關鍵作用,尤其是在復雜或擁堵的環境中,大型語言模型的集成證明是非常有益的,可以通過復雜的數據處理技術顯著增強無人機的頻譜傳感能力。這種集成加深了對動態射頻條件的理解,這些條件在共享頻率或高干擾水平的區域十分普遍,無人機系統能夠智能地識別和利用最佳頻段。這種能力大大提高了無人機通信網絡的可靠性和效率,這對于在射頻密集的環境中保持穩健的鏈路和確保成功執行無人機操作至關重要,而傳統方法可能會失敗。因此,本調查報告強調了在頻譜傳感中集成 LLM 的關鍵需求,并在隨后的章節中深入探討了其機遇和挑戰。
無人機依賴射頻通信完成各種任務,包括遙控、遙測、數據傳輸以及與地面站的連接。頻譜感知是一項關鍵技術,可增強無人機的射頻通信能力,使無人機能夠識別和利用對其任務至關重要的適當頻率范圍。此外,在無人機共享頻段或遇到快速變化的射頻條件的環境中,這一點尤為重要[112, 113]。因此,通過準確感知頻譜,無人機可動態調整其通信參數,如信道選擇和功率控制,以防止干擾主用戶并優化其通信性能 [114]。此外,頻譜感知還可提高無人機的運行效率,使無人機能夠就頻段選擇做出明智決策,從而確保有效利用可用頻譜資源,并將干擾現有無線系統的風險降至最低 [115,116]。
此外,頻譜傳感在實現認知無線電功能[117, 112]、動態頻譜接入[118]、避免干擾[117]和確保無人機通信系統符合法規要求[119]方面也發揮著重要作用。例如,認知無線電允許無人機系統根據實時頻譜感知結果自適應地選擇和切換不同的頻率信道或頻段,使無人機能夠找到并利用最合適、最不擁堵和無干擾的頻段進行可靠高效的通信[120]。動態頻譜接入允許無人機訪問可用頻譜資源,動態確保無人機在優化通信鏈路的同時避免干擾現有用戶。此外,頻譜傳感還能增強無人機檢測附近是否存在其他射頻設備或系統的能力,從而促進共存和避免干擾。如果檢測到干擾或潛在沖突,無人機可自主或半自主地改變工作頻率或調整通信協議以避免干擾[121]。
世界各地的監管機構,如美國聯邦通信委員會(FCC),都制定了頻譜使用指南,以確保公平使用,并防止包括無人機在內的各種技術和服務之間發生沖突。這些指導方針指定了無人機使用的特定頻段,以避免與商業、住宅和應急通信發生沖突,從而在無人機服務日益增長的需求與傳統頻譜用戶的需求之間取得平衡。這些機構制定了動態頻譜訪問規則,特別是在無人機與其他設備共享頻譜的頻段。該框架涉及協議和技術,使無人機能夠在不干擾現有用戶的情況下檢測和利用空閑頻率。遵守這些框架對于合法、高效地運營無人機至關重要。
為確保合規,無人機運營商必須考慮幾個關鍵方面。例如,無人飛行器必須配備先進的頻譜傳感技術,能夠可靠地識別可用和被占用的信道,防止未經授權使用被占用的頻率。無人飛行器在運行時還必須盡量減少對其他頻譜用戶的干擾,遵守功率限制、頻率邊界以及旨在降低信號干擾風險的操作協議[122]。此外,有必要實施軟件解決方案,幫助管理頻譜使用,確保遵守當地和國際法規,實現頻譜管理諸多方面的自動化,減輕無人機運營商的負擔,降低違規風險。
最近的研究極大地推動了無人機操作中的頻譜感知和共享應用,重點關注提高通信效率和減少干擾的幾個關鍵方向。Shen 等人[123]介紹了一種三維時空傳感方法,利用無人機的移動性在異構環境中進行動態頻譜機會檢測。文獻[124]和[125, 126]中的作者開發了在認知無線電系統中優化頻譜感知和共享的方法,通過管理與地面鏈路的干擾來提高無人機的通信性能。Chen 等人[127]的研究重點是無人機集群之間的頻譜接入管理,以減少干擾;Xu 等人[128]的研究重點是無人機中繼系統中的發射功率分配和軌跡規劃,以實現設備之間的有效數據中繼。
在另一項研究[129]中,Qiu 等人利用區塊鏈技術確保地面和空中系統之間頻譜交易的隱私和效率。Hu 等人[130] 重點研究了利用契約理論平衡宏基站和無人機運營商利益的頻譜分配策略。Azari 等人[131] 比較了人口稠密城市場景中的底層和疊加頻譜共享機制,強調了疊加策略在保持無人機和地面用戶服務質量方面的有效性。雖然無人機的頻譜感知和共享技術取得了重大進展,但現有研究尚未廣泛探討大型語言模型的集成問題。整合大型語言模型可通過增強頻譜感知能力,實現更動態、更高效地使用通信頻率,從而徹底改變無人機領域[132]。大型語言模型可以解釋和分析無人機上頻譜傳感器產生的大量數據。憑借先進的自然語言處理能力,它們可以從非結構化數據中提取有意義的見解,促進實時智能決策。大型語言模型還能通過分析歷史數據和當前通信模式,預測頻譜可用性和潛在干擾。因此,無人機可以主動調整其通信參數,如信道選擇和功率水平,以保持最佳性能。
此外,大型語言模型可以處理傳感器數據,并識別表明潛在頻率沖突或擁堵區域的模式。然后,無人機可自主進行調整以避免這些問題,從而提高運行效率并降低通信故障風險。此外,大型語言模型還可以通過對頻譜條件和用戶行為進行更深入的分析,協助在頻率選擇方面做出更明智的選擇,從而為認知無線電的增強做出貢獻。這種整合增強了無人機選擇最不擁堵和最有效信道的能力。LLM 的持續學習和適應能力還能優化無人機的頻譜訪問策略,確保無人機根據實時數據和復雜算法利用最佳可用頻率。大型語言模型還可以通過持續監測合規參數和適應法規變化,確保無人機在合法的頻譜分配范圍內運行。大型語言模型還可以通過分析通信模式和環境數據,為干擾管理和遵守監管框架做出重大貢獻。大型語言模型可以更準確地檢測潛在干擾源,并建議立即采取糾正措施加以避免。
大型語言模型具有先進的認知和分析能力,可顯著提高無人機監視系統的效率、準確性和有效性[2]。集成 LLM 后,無人機可以更高效地處理和分析大量視覺數據,實現實時圖像識別、目標檢測和態勢感知。大型語言模型在識別視頻流或圖像中的特定物體、個人、車輛或活動方面表現出色,可提供對軍事和民用監控行動至關重要的詳細見解。它還能使無人機更加自主地進行操作,在沒有人類持續監督的情況下對周圍環境進行解讀并做出反應,在反應時間緊迫的復雜或敵對環境中大顯身手。
此外,配備大型語言模型的無人機可以根據任務目標和不斷變化的地面實際情況,實時決定飛行路線、重點區域以及何時捕捉關鍵鏡頭。NLP 可讓無人機理解和處理人類語言,使其能夠接收和解釋更復雜的命令和查詢。此外,大型語言模型還能通過分析模式和歷史數據來預測潛在的安全威脅或興趣點。這種預測能力允許采取主動監視措施,無人機可以更密切地監視可疑區域,或提醒人類操作員注意根據所學模式檢測到的異常活動或異常點。它還可以通過將大量收集到的數據匯總為可操作的情報,在飛行過程中處理和分析數據,從而加強實時決策支持。在條件瞬息萬變的監視和偵察任務中,它能做出快速、明智的決策[133]。
大型語言模型與無人機結合用于應急響應和災害管理,可大大提高應急行動的效率、準確性和有效性。大型語言模型可快速分析無人機收集的圖像和傳感器數據,在災害發生后立即評估受損程度,包括識別受阻道路、受損建筑和洪水區域 [134]。由于能夠實時了解態勢,配備了 LLM 的無人機可幫助應急人員確定需要緊急關注的區域的優先次序,并規劃最有效的應對措施 [135]。
在執行搜索和救援任務時,時間至關重要,因此具有 LLM 功能的無人機可以自主掃描大片區域,利用物體識別和模式檢測來確定幸存者的位置。它們可以在沒有人類直接引導的情況下在具有挑戰性的地形中航行,從而加快搜索行動并提高營救遇險人員的機會。此外,由于災害破壞了通信網絡,與大型語言模型集成的無人機可以建立臨時通信網絡,充當空中中繼器,促進救災人員與受災群眾之間的通信。大型語言模型可優化無人機的位置和路由,以確保最大的覆蓋范圍和網絡效率。
此外,無人機還能通過分析歷史數據和當前天氣報告,在潛在災害發生前對其進行預測,從而提高備災能力。這種預測能力使當局能夠主動部署無人機,監測危險區域,并啟動先發制人的疏散或其他緩解措施。此外,大型語言模型可以通過分析需求評估和資源可用性來管理后勤方面的問題。他們利用無人機確保食品、水和醫療設備等物資得到最佳分配和運送,尤其是運送到因災害而難以通過傳統方式到達的地區[136]。
此外,無人機還能在損失分析和恢復規劃中發揮重要作用,對損失進行詳細評估,跟蹤恢復進度,并隨時間推移分析數據,為重建工作提供指導。大型語言模型可以模擬不同的恢復場景,幫助規劃者做出以數據為導向的決策,以更具彈性的方式重建基礎設施。鑒于應急響應涉及數據的敏感性,大型語言模型可確保無人機收集和傳輸的所有信息都經過安全加密,并防止未經授權的訪問。它們監控數據流,以發現表明存在威脅的異常情況,從而在混亂情況下保護關鍵信息。大型語言模型通過將復雜的數據轉化為可操作的見解和直觀的報告,增強了無人機與人類操作員之間的互動。這樣,應急響應人員就能根據無人機以易于理解的格式提供的綜合分析結果,快速有效地做出明智決策。
集成了大型語言模型的無人機可以通過優化路線、加強客戶互動和提高運營效率來改變送貨服務和物流[79]。大型語言模型可以處理復雜的數據集,包括交通模式、天氣條件和地理數據,從而動態優化送貨路線。這可確保更快的送貨時間,并有助于降低運營成本。大型語言模型可以實時調整這些路線,以適應不斷變化的條件,確保盡可能高效地送貨[137]。
無人機可以使用 LMM 與客戶互動,實時更新送貨狀態、回答詢問,甚至處理投訴或特殊指示。互動的增強提高了客戶滿意度,簡化了交付過程,減少了客戶服務中對人工干預的需求。大型語言模型能讓無人機在執行投遞任務時自主決策。例如,當遇到意想不到的障礙或緊急情況時,無人機可以決定最佳行動方案,無論是改變路線、等待許可還是返回基地。即使在不可預測的情況下,這種自主程度也能確保交付服務的可靠性和一致性。此外,他們的主動方法還能防止停機,延長無人機機隊的使用壽命,并確保技術問題不會打亂投遞計劃。
此外,大型語言模型還能在重量分布、包裹大小和交付優先級方面提供協助,確保每架無人機都能高效裝載,最大限度地提高交付能力,減少所需的行程次數。大型語言模型可持續分析交通和天氣數據,實時調整無人機飛行計劃,以維持送貨時間表,尤其是在惡劣天氣條件或擁堵空域,確保安全準時送貨。
大型語言模型可以處理和分析無人機收集的大量環境數據,如圖像、溫度讀數和污染程度。收集到的數據可用于識別環境趨勢和異常情況,如植被變化、水質變化或污染物的存在 [138、139、140、141]。LLM 可以快速分析這些數據,并為自然保護主義者和環境科學家提供可行的見解。大型語言模型還可以通過分析無人機捕獲的視頻和音頻記錄來幫助跟蹤和研究野生動物,從而在沒有人類在場的情況下識別動物個體、跟蹤其動向并觀察其一段時間內的行為,這可以減少人類互動給動物造成的壓力和行為變化 [142,143]。
此外,與傳統方法相比,與大型語言模型集成的無人機可以更高效地繪制大面積和無法進入的區域的地圖。大型語言模型可以分析收集到的地理數據,繪制詳細的棲息地地圖,包括隨時間的變化。這些信息對于管理自然保護區、規劃重新造林項目或評估人類活動對自然棲息地的影響至關重要。大型語言模型還可以利用歷史和持續監測數據來預測未來的環境狀況和野生動物趨勢。這些預測可以為保護工作提供信息,例如預測實施物種保護措施的最佳時間和地點,或預測影響生物多樣性的生態變化。
大型語言模型可以為參與環境保護項目的利益相關者自動生成報告和演示文稿。大型語言模型可將復雜的數據綜合成易于理解的格式,從而促進調查結果和建議的交流更加透明,使決策者更容易理解問題并采取行動。此外,在資源往往有限的保護項目中,大型語言模型可以優化無人機和其他資源,通過在最佳時間安排無人機飛行、規劃航線以覆蓋關鍵區域,以及確保以具有成本效益的方式收集數據,從而確保最大的覆蓋范圍和數據收集效率。
將大型語言模型與無人機集成以增強衛星和高空平臺(HAP)通信,需要利用先進的分析和認知能力來改進數據中繼、處理和自主決策[25]。由于無人機在衛星和高空平臺通信網絡中充當移動節點或中繼點,特別是在直接通信受到地理障礙阻礙或臨時需要額外帶寬的地區。大型語言模型可以動態管理這些連接,優化地面站、衛星、HAP 和終端用戶之間的數據流。它們可以通過無人機對數據路由進行實時決策,以提高網絡彈性并減少延遲。大型語言模型可使無人機自主導航到能最有效地彌合衛星、HAP 和地面網絡之間通信差距的位置。這在災區或需要臨時通信增援的大型公共活動期間尤其有用。配備了 LLM 功能的無人機可以分析環境數據、衛星路徑和網絡需求,從而在無人干預的情況下確定最佳位置 [144]。
大型語言模型可通過分析衛星和 HAP 通信中使用的無人機的遙測和運行數據,在潛在的系統故障或次優性能成為關鍵問題之前對其進行預測。這種預測性維護能力可確保無人機的正常運行時間更長,可靠性更高,從而發揮這些關鍵作用。大型語言模型可以實時處理和壓縮無人機上的數據,然后再將其轉發給衛星或 HAP。這就減少了數據傳輸所需的帶寬,加快了通信速度。大型語言模型可采用先進的算法,根據當前的網絡條件和數據優先級確定最有效的數據編碼和傳輸方式。
集成了 LLM 的無人機可根據不斷變化的環境條件、干擾或網絡負載的變化調整其通信協議,以保持與衛星和 HAP 的有效鏈接。大型語言模型可以從過去的通信中學習,預測最佳通信窗口,并調整頻率或調制方案以提高連接質量。此外,對于在復雜環境中運行的無人機而言,大型語言模型可通過處理來自衛星和 HAP 傳感器等多個來源的數據來增強態勢感知能力。這有助于對無人機的定位、通信策略,甚至避免沖突或危險的緊急機動做出明智的決策。集成大型語言模型可實現可擴展的靈活通信網絡,無需進行大規模重新配置即可適應不同的需求。無人機可以快速部署,以擴大網絡能力,應對不斷增長的通信需求,或覆蓋臨時的衛星或 HAP 覆蓋缺口。
為無人機通信實施大型語言模型是一個新方向,必須應對一系列挑戰和考慮因素,以確保無人機應用的有效性和安全性。本節重點介紹在無人機領域有效采用大型語言模型必須考慮的幾個基本挑戰。
大型語言模型需要大量的計算能力和能源才能有效運行 [145,146]。然而,無人飛行器的機載計算能力和電源有限,受限于輕量化設計的需要,無法確保更長的飛行時間和運行效率。處理大型模型所需的功耗會迅速耗盡無人機的電池,從而減少執行關鍵任務的時間 [147,8]。此外,增加額外資源會極大地影響無人機的效率,從而使大型語言模型的集成變得更加復雜。要解決這些問題,關鍵是要通過修剪不必要的參數和使用量化技術來簡化大型語言模型,從而以更少的功耗減小模型大小并提高處理速度[148]。邊緣計算可通過在本地處理數據,進一步緩解對高帶寬連接的需求 [149]。
此外,先進的人工智能硬件,如圖形處理器(GPU)[150]、現場可編程門陣列(FPGA)[151]和模型提煉技術[152],也有助于優化計算需求。實施自適應系統,根據當前需求調整資源使用情況,也有助于有效管理功耗,在不影響性能的情況下確保運行效率。
在使用大型語言模型進行涉及實時數據處理和決策的無人機操作時,通信延遲挑戰尤為關鍵。例如,導航、監視和戰術響應要求盡量減少數據處理和決策延遲。然而,當大型語言模型需要大量計算資源時,標準的解決方案是將這一處理過程卸載到基于云的服務器上。雖然這種方法利用了強大的計算能力,但由于從無人機到云服務器再到云服務器之間的通信延遲,它本質上會帶來延遲。當關鍵的即時響應影響到任務的有效性和安全性時,這種延遲可能會造成危害[25]。
為緩解這些問題,無人機可通過集成微處理器、圖形處理器或定制專用集成電路(ASIC)等先進計算資源來增強機載處理能力,從而更高效地處理復雜算法。平衡計算能力與延遲需求至關重要,可通過采用混合處理過程進行優化。這包括直接在無人機上處理緊急、實時的處理過程,同時將更復雜、時間敏感性較低的任務委托給云。這種策略有助于平衡計算負荷,并根據特定任務的緊迫性和復雜性調整響應時間。此外,建立強大的近場通信網絡和利用邊緣計算解決方案可以進一步減少延遲。通過本地服務器或附近配備邊緣服務器的其他無人機,將處理能力置于離無人機更近的位置,可顯著縮短通信距離和時間,提高無人機操作的整體響應速度[153, 154]。
模型的魯棒性和可靠性是部署無人機通信的關鍵,因為基于模型輸出的決策會導致重大后果[46]。例如,由于模型依賴于從訓練數據中學到的模式,而訓練數據可能無法充分涵蓋現實世界中所有可能的情況,因此在新情況或邊緣情況下,模型可能會產生不可預測或不正確的輸出[155]。在必須快速、準確做出決策的動態環境中,這種風險尤其高,無人機的運行往往就是這種情況[64, 103]。利用新數據對模型進行持續更新和再訓練,有助于模型從最近的經驗中吸取教訓,并適應可能遇到的變化或新情況。這種適應包括納入無人機遇到的新情況的數據,擴大模型的理解和響應范圍。例如,建立一個系統,定期將無人機任務的數據反饋到模型的訓練程序中,從而完善和更新其算法。
此外,在依賴大型語言模型進行關鍵操作時,基于模擬的測試和驗證至關重要。在各種模擬條件下對這些模型進行測試,對于識別在惡劣天氣條件、通信中斷或異常任務參數等復雜情況下可能出現的故障或反應弱點至關重要。還可以實施強大的故障安全機制,在模型輸出不確定或超出預期參數時,通過設定需要人工干預的閾值或條件,防止因模型輸出不正確而采取有害行動。實施冗余系統還可以在執行前對關鍵決策進行雙重檢查,增強的錯誤處理功能可以在不中斷無人機運行的情況下處理大型語言模型的意外輸出[156]。
先進的大型語言模型需要與無人機現有的硬件和軟件模塊(如飛行控制、導航系統、通信協議和數據處理單元)無縫互動,每個模塊都有其獨特的規格和操作要求,以增強無人機操作過程中的決策和通信。將大型語言模型集成到這些不同的框架中既復雜又耗時,有可能導致大量的開發和測試時間,以確保全面的兼容性和功能性。因此,采用模塊化方法進行系統設計,可以在不中斷系統的情況下集成、移除或更新單個大型語言模型組件,從而極大地簡化大型語言模型的集成工作。模塊化設計具有靈活性和可擴展性,可滿足不同任務或操作調整的特定需求[26]。
此外,確保新的 LLM 組件與現有系統的互操作性也至關重要 [157]。盡管不同的系統和軟件應用程序是獨立開發的,但互操作性允許它們進行有效的通信和協同工作。通過分階段測試和部署,將大型語言模型逐步集成到無人機系統中,也可以降低集成的復雜性。它還能發現并解決具體問題,而不會出現系統大面積故障的風險。此外,有必要制定定期更新和維護的系統方法,以確保集成的大型語言模型保持有效,并確保整個系統適應新的技術進步或操作要求的變化[155]。
在無人機操作中集成大型語言模型會引發有關數據安全和隱私的重大問題,主要是因為這些模型經常處理敏感數據,其中可能包括在監視任務中收集的個人信息。這種數據類型非常容易受到破壞,一旦泄露,可能會導致嚴重的隱私侵犯和其他安全問題。實施強有力的數據安全措施對于降低這些風險至關重要。因此,強大的數據加密是確保數據在傳輸和存儲過程中不被未經授權的用戶訪問的根本[158]。
此外,還必須建立強大的訪問控制機制,限制只有授權人員才能訪問數據,從而防止任何未經授權的數據篡改或泄漏。遵守數據保護法規也至關重要。這些法規旨在保護數據的隱私性和完整性,要求企業采取嚴格措施保護所有個人信息。通過遵守這些準則,無人機運營商可以幫助確保大型語言模型處理的敏感數據的安全,最大限度地降低違規風險,維護信息的保密性和完整性[159]。
本節考慮了之前討論的挑戰和考慮因素,概述了未來的研究方向。它強調了需要立即關注的研究領域,以通過 LLM 集成提高無人機的智能、效率和適應性。這種探索對于克服當前的局限性和釋放無人機在各領域應用的全部潛力至關重要。
在無人機操作日益復雜和需求不斷增加的推動下,無人機通信 LLM 技術的未來工作方向和機遇是豐富多樣的。新方案應側重于開發 LLM 算法,使無人機能夠根據有關天氣、地形和電磁干擾的實時數據動態調整通信協議和策略。這種自適應能力可大大提高無人機在災難響應和軍事行動中的效率,因為在這些行動中,條件可能會發生快速且不可預測的變化 [37, 160]。
未來的工作應整合大型語言模型,以增強無人機群的智能,從而實現模仿生物系統的復雜群體行為。此外,未來的研究還需要關注算法,使單個無人機能夠根據蜂群的集體輸入做出決策,優化飛行路徑和任務分配,以提高效率并降低能耗 [155]。這項技術有望應用于從大規模農業監測到搜救任務等領域,在這些領域中,多無人機的協調行動至關重要。
此外,改進糾錯和信號處理對于在具有挑戰性的環境中保持通信完整性至關重要。未來的研究需要探索深度學習模型,以預測和補償信號衰減,并開發抗干擾能力更強的新型調制和編碼形式。在擁擠的城市地區或惡劣的天氣條件下,信號丟失會嚴重影響無人機的運行,因此這項技術尤其有益[161, 68]。
未來的工作還應將 LLM 增強型無人機通信的應用范圍擴展到新的領域,如人道主義援助、環境監測和物流。未來的研究需要探索如何在緊急情況下部署配備先進 LLM 和通信技術的無人機,以提供實時更新和分發援助,在最少人工參與的情況下監測野生動物或環境變化,并通過自主交付服務簡化供應鏈。
將大型語言模型與新興技術相結合可為無人機通信系統帶來巨大的進步。例如,結合可重構智能表面(RIS)可優化信號處理算法,并根據實時環境和交通數據動態配置 RIS,從而顯著提高無人機通信的效率和可靠性[162]。它還可以通過優化數據傳輸來優化遠程病人監測和遠程醫療,從而改善從智能城市到增強醫療保健機會等各種環境。此外,大型語言模型還能支持對身臨其境的體驗至關重要的高帶寬和低延遲通信,從而提高增強現實(AR)和虛擬現實(VR)應用的性能[163, 164]。
此外,將大型語言模型與 5G/6G 技術集成可顯著增強無人機的通信能力,因為這些網絡可提供更高的帶寬和更低的延遲[165]。它使無人機能夠流式傳輸高清視頻以執行監視或檢查任務,實時接收更新以進行動態任務調整,并以更好的協調性參與蜂群行動。將配備 LLM 的無人機與物聯網設備連接起來,將使無人機在智能城市和工業環境中的操作更具互動性和響應性。無人機可以充當物聯網網絡中的移動節點,收集和處理各種來源的數據,并在飛行中做出決策。這種集成在災難響應場景中尤為有用,無人機可以評估損失、檢測異常并與其他物聯網設備通信,從而有效管理應急服務 [166,167]。
此外,將大型語言模型與邊緣計算平臺集成可以分散數據處理,減少云計算場景中涉及的延遲,使無人機能夠在網絡邊緣執行實時數據分析。這種能力可使無人機在執行關鍵任務(如跟蹤移動目標或在復雜地形中導航)時更快地做出決策,而無需等待遠程處理數據的過程[168]。同樣,用可處理視覺和感官數據的專用神經網絡來增強大型語言模型,可提高無人機了解環境并與之互動的能力。它能讓無人機執行更復雜的識別任務,例如在搜救行動中識別特定的個人,在基礎設施檢查中檢測結構問題,或監測農田的病蟲害模式。
此外,量子計算集成還能成倍提高大型語言模型的處理能力,使其能夠更高效地處理龐大的數據集。量子增強型大型語言模型可以優化飛行路徑和通信協議,遠遠超出目前的能力,從而降低運營成本,提高數據量大的任務的效率[169]。
為有效實施 LLM 集成無人機操作,新方案應側重于通過刪除對提高無人機通信性能無顯著貢獻的參數來降低 LLM 的計算復雜度。未來的工作可以采用剪枝方案來減少模型大小和計算負荷,使其更適用于資源有限的設備。未來的方案還應注重采用量化技術,降低模型參數的精度(如從浮點數到整數),從而大幅減少模型大小,加快推理時間,同時降低功耗。此外,無人機還可以受益于邊緣計算服務,這種服務可以進行本地數據處理,而無需將數據傳回中央服務器。這降低了持續高帶寬連接的必要性,并通過在無人機和邊緣設備之間分配計算負荷來幫助執行復雜的模型。
此外,未來的硬件設計應明確針對人工智能任務。采用 GPU。針對人工智能干擾進行優化的 FPGA 或 ASIC 可顯著提高功耗和計算效率,與通用處理器相比,每瓦性能更優越。模型提煉是未來可以重點研究的另一種有效策略,它包括訓練一個較小的 “學生 ”模型來復制較大的 “教師 ”模型的性能。經過提煉的模型可以保持較高的精確度,但只需要很少的計算資源,因此適合部署在功能有限的設備上。根據當前需求和可用電力動態調整計算資源的系統可以優化電力使用。例如,當電池電量較低或無需進行詳細處理時,無人機可以部署簡化版模型[170]。因此,未來關注這些策略可以大大提高將復雜的大型語言模型集成到無人機系統中的可行性。這些方法有助于平衡模型性能與無人機平臺實際限制之間的權衡,確保既能利用先進的 NLP 功能,又不影響無人機的運行效率。
為了解決延遲問題,無人機可以通過利用先進的計算資源(如微處理器、GPU 或定制 ASIC)來增強機載處理能力,從而高效執行復雜的機器學習算法。未來的方案應根據每個無人機任務的具體要求,考慮計算能力和延遲之間的權衡,以有效地應對這些挑戰。混合方法可能特別有效,即無人機在機上執行關鍵的實時處理過程,而將更復雜但時間敏感性較低的任務卸載到云端。因此,它可以平衡計算負載,并根據任務的緊迫性和復雜性優化響應時間。例如,集成智能路由算法可以在考慮當前網絡條件、任務復雜性和處理要求緊迫性的情況下,動態確定處理數據的最佳位置。
此外,未來的方案還應探索穩健的近場通信網絡和邊緣服務器部署的可能性,以便在網絡邊緣以更快的處理速度和更低的延遲執行計算密集型任務。
將先進的大型語言模型集成到無人機操作中是一項復雜的挑戰,因為這些模型必須與現有的各種無人機硬件和軟件系統進行無縫交互[23]。無人機的各個組件,包括飛行控制模塊、導航系統、通信協議和數據處理單元,都有各自獨特的規格和操作需求。這種多樣性可能導致開發和測試時間延長,而這是確保完全兼容和功能性所必需的。
未來的工作重點應放在采用模塊化系統設計上,以便在不破壞整體系統完整性的情況下輕松添加、移除或更新各個組件[171]。此外,未來的工作必須確保不同的系統和軟件應用程序即使是獨立開發的,也能進行有效的通信和協同工作。因此,它們可以采用無人機行業廣泛接受的標準化數據格式和通信協議。這有助于大型語言模型理解并遵守既定標準,從而使集成過程更加順暢。
此外,今后的工作重點應是采用分階段的方法,逐步將大型語言模型集成到無人機系統中,以確保兼容性和性能,并建立一個由專門團隊進行定期更新、維護和培訓的系統框架,以適應技術進步并保持有效集成。
為了提高集成了 LLM 的無人機通信系統的可靠性,今后的工作應側重于采用先進的糾錯技術和穩健的算法,以確保即使在不利條件下也能保持通信的可靠性。對基于 LLM 的無人機系統進行初步測試時,還應考慮通信信道的冗余性,使用多個通信信道和備份系統來防止任何單一信道出現故障。
未來的工作還應該側重于人工智能驅動的預測性維護,通過集成人工智能工具來預測和安排維護,以防止故障發生。這有助于最大限度地減少停機時間,延長通信組件的使用壽命[68]。此外,未來的方案應采用動態路由和頻譜管理技術,實施人工智能驅動的動態路由算法和頻譜管理方法,以優化數據傳輸的可用頻率和路徑。這種方法有利于適應不斷變化的環境條件和通信流量,提高整個系統的彈性。此外,還必須對集成了 LLM 的無人機系統廣泛開展基于人工智能的培訓和模擬,以確保它們能夠處理各種操作環境和突發情況,從而提高可靠性。
未來的工作還應強調建立實時監控和決策支持系統[29]。這些系統至關重要,因為它們能對無人飛行器的健康和通信狀態進行持續評估,并能提出建議或自動采取糾正措施。
基于 LLM 的無人機通信在各個領域都需要干擾緩解方案,從商業快遞服務到基本的應急響應行動,不一而足。為了滿足這些需求,未來的研究必須開發出能夠實時動態識別和緩解干擾的先進信號處理算法 [172]。這涉及采用機器學習模型,特別是基于歷史數據和實時輸入預測和抵消干擾模式的深度學習技術 [173,174]。
此外,新方案還應探索波束成形技術,以提高信號清晰度和強度。這可以通過實施智能天線技術來實現,該技術可自適應地聚焦和引導波束遠離干擾源,或使用多天線發送和接收信號,從而減少干擾影響[175, 176]。加強頻譜管理策略對于優化頻率使用、避免造成或遭受干擾也至關重要。這包括開發 LLM 驅動模型,根據無人機的任務要求和頻譜環境動態分配帶寬和調整頻率。
未來的工作重點還應放在集成認知無線電功能上,使無人機通信系統能夠自動改變頻率以避免干擾。探索開發 LLM 算法可使無人機感知其運行環境,并在必要時就跳頻或調制調整做出智能決策。
此外,改進無人飛行器之間的網絡協調以共同管理和緩解干擾也至關重要。這需要未來對分散決策模型進行研究,通過大型語言模型,無人機能夠共享干擾源信息,并協同決定最佳通信路徑和協議。此外,加強無人機通信以抵御可能造成干擾或破壞通信的惡意攻擊也至關重要。另一個重點領域是利用大型語言模型開發檢測和響應系統,以識別和消除復雜的信號干擾和欺騙技術。
隨著基于 LLM 的無人機通信系統越來越多地融入各行各業[132],有關這些技術的監管宣傳和政策建議的未來方向和研究機會也越來越重要。未來的主要重點應是制定全面的政策,解決安全、隱私和道德標準問題,同時促進無人機操作的創新和集成。這需要與監管機構合作,制定明確的指導方針,以適應 LLM 和無人機技術的快速發展。
未來的工作必須確保數據通信的安全性,因為無人機要處理和傳輸大量潛在的敏感數據 [177]。因此,必須采取措施保護這些數據免遭破壞和未經授權的訪問,同時保障數據的完整性和個人隱私 [178]。此外,今后的工作應繼續關注制定空域使用法規,通過確定無人機如何與現有空中交通融合以及定義無人機操作的特定區域或高度來防止沖突和事故。與此同時,隨著無人機越來越多地基于人工智能做出自主決策,確定人工智能決策的問責措施至關重要;如果這些決策導致不良后果,確定由誰負責至關重要。因此,制定人工智能行為標準,確保人工智能系統透明,其行為可追溯,并建立法律框架來解決責任和合規問題。此外,隨著技術的發展,持續監測和修訂這些政策對于維持一個支持技術進步和保護公眾利益的環境至關重要[15]。
本文介紹了大型語言模型與無人機集成的變革潛力,開創了自主系統的新時代。我們全面分析了 LLM 架構,評估了它們在增強無人機能力方面的適用性。我們的主要貢獻包括詳細評估了用于無人機集成的 LLM 架構,并探索了基于 LLM 的前沿無人機架構。這為開發更加精密、智能和反應靈敏的無人機操作鋪平了道路。此外,通過 LLM 集成改進光譜傳感和共享的重點為數據處理的進步開辟了新的途徑,這對無人機系統內的穩健決策至關重要。我們展示了通過集成大型語言模型而擴大的現有無人機應用范圍。我們強調了這是如何使無人機在各種應用中具有更強的自主性和更有效的響應能力,并最終提高不同領域的可靠性和功能性。本文最后概述了未來需要研究的關鍵領域,以充分發揮 LLM-UAV 集成的優勢。所討論的進展為未來奠定了基礎,在未來,無人機將超越其傳統角色,發展成為復雜集成系統的關鍵組成部分,釋放人工智能的全部潛力。這項工作可以作為持續技術進步的基石,推動我們走向這樣一個未來:大型語言模型和無人機技術之間的協同作用可以通過實現前所未有的自動化和高效率水平來徹底改變各個領域。
人工智能領域的最新進展帶動了能夠根據文本描述生成高度詳細和準確圖像的技術的發展。這種技術以神經網絡模型為基礎,使用一種變體架構,旨在理解自然語言輸入并生成相應的視覺輸出。這些功能允許創建從簡單插圖到復雜逼真圖像的一切,為包括軍事在內的各個領域帶來了無數可能性。
幾十年來,人工智能一直是軍事戰略和技術不可或缺的一部分。它從最基本的計算算法開始,逐漸發展成為復雜的機器學習模型,可以模擬、預測復雜場景并做出反應。人工智能在軍事領域的早期應用包括目標識別系統和模擬訓練程序。隨著時間的推移,這些系統變得越來越先進,結合了神經網絡和深度學習技術,以加強決策過程、改善監視以及優化后勤和戰場管理。
將先進的人工智能圖像生成技術融入軍事行動,是因為該技術能夠顯著增強視覺交流和態勢感知能力。傳統的偵察和監視方法可輔以人工智能生成的圖像,根據現有數據對敵方位置或潛在的未來場景進行可視化預測。這種能力改變了計劃和執行任務的方式,提供了一種動態工具,可以實時生成詳細的視覺輔助材料,幫助戰略規劃和決策。
此外,人工智能生成逼真訓練場景的能力尤為寶貴。軍事訓練可能是資源密集型的,需要大量的人力、設備和時間。人工智能圖像生成技術可以為模擬訓練創造多樣而復雜的視覺環境和場景,從而減少對實體舞臺的需求,實現更靈活、更具成本效益和更全面的訓練方法。這些場景可根據特定任務需求或環境量身定制,增強了訓練的真實感,使士兵為在戰場上可能遇到的各種情況做好準備。
此外,在心理戰中,人工智能生成有說服力和戰略性圖像的能力可用于影響敵方戰斗人員和平民。該技術可以制作視覺內容,旨在誤導、迷惑或打擊對手的士氣,或以符合軍事戰略目標的方式支持宣傳工作。
總之,將先進的人工智能圖像生成技術引入軍事應用,不僅有望提高作戰效率,還能在戰略制定、訓練和執行方面引入新的方法。然而,與任何技術一樣,人工智能技術也有其自身的一系列挑戰和倫理考慮,必須加以謹慎管理,以確保其服務于安全和維和努力的最佳利益。這些方面凸顯了建立健全的協議和道德準則的重要性,以管理人工智能在軍事環境中的使用,確保其效益最大化,同時最大限度地減少潛在風險和濫用。
將人工智能圖像生成技術融入軍事訓練和模擬中,標志著在讓士兵為實戰場景做好準備方面的一次變革。傳統方法通常依賴于靜態環境或腳本事件,可能無法捕捉實戰的不可預測性和復雜性。這項技術能夠根據文字描述生成圖像,因此可以創建動態的、高度多變的、接近真實世界條件的場景。
例如,培訓人員可以輸入對特定地理特征、天氣條件和敵人配置的描述。然后,該技術就能生成包含這些元素的可視化場景,為受訓者提供身臨其境的視覺體驗,增強他們的空間意識和戰術技能。這種方法可以根據敵方戰術的新情報或作戰環境的變化快速調整培訓模塊,使準備工作既與時俱進又切合實際。
考慮這樣一個場景:軍事戰略家需要讓部隊為在平民混雜的城市環境中開展行動做好準備,而這種環境會帶來復雜的交戰規則。通過使用人工智能圖像生成技術,培訓人員可以創建多個城市場景,其中包括不同密度的平民、不同的建筑結構和潛在的敵人藏身之處。然后,受訓人員可以練習識別非戰斗人員,并在瞬間做出符合交戰規則的決定,從而減少附帶損害,提高任務成功率。
另一個假設場景可能涉及兩棲作戰,其中地形和天氣起著至關重要的作用。培訓人員可以利用該技術生成不同天氣條件下的不同海灘景觀圖像,如霧、雨或強光,每種天氣條件對能見度的影響都不同。這些圖像可以集成到虛擬現實設備中,提供一個全感官的訓練環境,讓部隊在具有挑戰性的條件下練習登陸和初始海灘攻擊。
在軍事模擬中使用人工智能圖像生成技術有很多好處。它減輕了后勤負擔,降低了與建立實體訓練環境相關的成本。它還能快速重新配置場景,實現重復練習,而不會有可預測性風險或需要大量重置。此外,人工智能生成的場景可以包含物理模擬難以達到的細節和可變性,例如建筑物或地貌在長期作戰過程中的磨損和破壞效果。
不過,也存在潛在的局限性和挑戰。生成圖像的準確性在很大程度上取決于輸入描述的質量和具體性。所生成的數字圖像與真實世界的視覺效果之間也可能存在差距,這可能會影響受訓人員將在模擬環境中學到的技能應用到實際戰斗中的能力。要解決這些問題,需要不斷改進所使用的人工智能模型,并通過實戰演習和經驗豐富的軍事人員的反饋來持續驗證培訓效果。
此外,對人工智能圖像生成等尖端技術的依賴需要強大的 IT 基礎設施和網絡安全措施來防止中斷,并確保訓練環境不會受到外部威脅的破壞或干擾。軍方還必須考慮對教官和 IT 人員進行有效利用和維護這些先進系統所需的培訓,確保這些系統成為資產而不是負擔。
雖然人工智能圖像生成技術為軍事訓練和模擬提供了巨大優勢,但在將其融入現有軍事訓練計劃時,必須仔細規劃并考慮技術和操作因素。確保這些工具增強而不是復雜化訓練過程,將是成功采用和利用這些工具幫助部隊做好準備應對復雜的現代戰爭的關鍵。
軍事行動的戰略規劃錯綜復雜,需要有關作戰環境的精確而全面的信息。人工智能生成的圖像可根據一系列數據輸入(包括情報報告中的文字描述)提供可視化效果,從而加強這一過程。這些可視化圖像可以描繪假想敵的位置、潛在的后勤路線或重要基礎設施的布局,使軍事規劃人員能夠直觀地看到各種場景,并做出明智的戰略和戰術決策。
假設偵察數據顯示在偏遠的森林地區存在敵軍。由于地形原因,有關敵軍人數、裝備和防御工事的詳細信息可能不完整或模糊不清。有了人工智能圖像生成功能,指揮官可以輸入現有數據,并獲得各種潛在敵軍設置的詳細可視化預測。這些視覺效果有助于評估不同攻擊路線或防御陣地的可行性,從而通過模擬預測各種敵方配置來加強計劃階段的工作。
在海軍行動中,了解沿海地區的地理布局至關重要。人工智能可以生成詳細的海岸線圖像,根據衛星圖像和其他偵察數據顯示潛在的海軍工事和碼頭設施。這種能力有助于規劃兩棲攻擊,并有助于在封鎖或防御行動中對海軍資產進行戰略部署。
將人工智能生成的圖像整合到任務規劃中,可以大大縮短制定作戰計劃所需的時間。傳統上,創建詳細的戰場環境可視化圖像可能需要數天或數周的時間,涉及多個部門和大量資源。有了人工智能,這一過程就會加快,為規劃人員提供即時的可視化洞察,并可在獲得新信息時輕松調整。
快速生成和迭代可視化情景的能力使規劃流程更加動態。規劃人員可以探索多種應急計劃,快速將各種決策的結果可視化。這種迭代過程可支持對不斷變化的實地情況做出更敏捷的反應,這在情況可能迅速變化的現代軍事行動中至關重要。
然而,依賴人工智能來執行此類關鍵任務也會帶來重大責任和風險。為了確保準確性,有必要根據真實世界的數據不斷驗證人工智能生成的圖像。圖像生成中的誤讀或錯誤可能導致錯誤的戰略決策,造成嚴重后果。因此,這些工具應被視為傳統作戰計劃和情報分析方法的輔助工具,而不是其替代品。
在安全的軍事環境中部署人工智能需要解決幾個技術難題,如確保人工智能所使用數據的完整性和安全性。軍事行動往往涉及敏感信息,必須防止網絡威脅。要確保人工智能系統的安全,就必須采取強有力的網絡安全措施。
另一個挑戰是人工智能工具與現有軍事技術的整合。這就需要標準化的協議和接口,以便人工智能生成的可視化圖像能在各種平臺上無縫使用,并能被不同專業技術水平的人員使用。
為了應對這些挑戰,軍事組織可以部署專為人工智能操作設計的加密網絡和安全數據庫,確保敏感數據始終受到保護。此外,針對軍事人員的持續培訓計劃可以提高他們有效利用這些先進工具的能力,從而降低出錯風險,提高人工智能生成的可視化的作戰效益。
人工智能技術為軍事環境中的任務規劃和可視化提供了巨大優勢,但其成功與否取決于謹慎的集成、對輸出的全面驗證以及對相關安全風險的持續管理。通過增強可視化能力,人工智能可以極大地促進軍事行動的精確性和有效性,但前提是在實施過程中必須有必要的保障和監督。
人工智能技術在心理作戰(PsyOps)中具有巨大潛力,而心理作戰是現代軍事戰略的重要組成部分,旨在影響對手的心理狀態。通過生成令人信服的戰略性視覺效果,人工智能可以幫助制作影響敵軍和平民士氣、決策和行為的信息或宣傳。例如,人工智能可以生成描述旨在打擊敵軍士氣的場景的圖像,如壓倒性敵軍的可視化圖像或敵軍內部不穩定的虛構圖像。同樣,對于平民受眾,人工智能可以生成視覺圖像,提升對維和部隊的正面看法,或突出敵對行動的負面影響,從而為沖突地區的戰略敘事做出貢獻。
在心理戰中使用人工智能會引發重大的倫理問題,特別是關于視覺內容的真實性和操縱問題。雖然這些行動在戰略上有利于軍事目標,但也會帶來錯誤信息的風險,從而在國內和國際上造成意想不到的后果。因此,在心理戰中部署人工智能必須遵守嚴格的道德標準,以確保在國際法和國際規范的范圍內負責任地使用這種能力。
當務之急是制定明確的指導方針,規定心理戰中人工智能生成內容的適當環境和限制。這些準則應確保必要時的透明度,并防止散布徹頭徹尾的虛假信息,從而維護軍事行動的可信度并尊重道德考量。
人工智能生成的圖像在心理戰中被濫用的可能性是一個關鍵問題。一旦暴露,錯誤的表述可能導致沖突升級、誤解或反彈。為降低這些風險,軍事實體必須實施強有力的控制措施,包括監督視覺內容創建和傳播的監督機制。這可確保在開展行動時實行問責制,并遵守旨在防止濫用的道德準則。
操作安全措施應包括由人工分析師對人工智能輸出進行驗證,以確保生成的圖像不包含誤導或有害內容。此外,還應制定協議來跟蹤這些視覺效果的使用情況和效果,以便根據反饋和當地不斷變化的局勢進行調整。
此外,還需要對軍事人員進行心理復原力培訓,使他們了解并以道德的方式處理所部署的視覺效果帶來的心理影響。這種培訓將有助于制定既有效又考慮到所有相關方心理健康的策略。
人工智能技術提供了可增強心理作戰能力的重要功能,因此有必要認真考慮其倫理影響和潛在風險。有效的管理框架,加上嚴格的監督和道德培訓,對于在心理作戰中利用人工智能生成的圖像的力量至關重要。這些措施不僅能防止濫用,還能確保心理作戰在堅持最高行為標準的同時為實現任務目標做出積極貢獻。
在軍事行動領域,監視對于收集情報和維護安全至關重要。人工智能的圖像生成功能可以填補視覺空白或從部分信息中推斷潛在場景,從而大大增強對監控數據的解讀。這種整合可將原始數據轉化為可操作的情報,為軍事分析人員提供詳細的可視化表述,幫助他們做出明智的決策。
例如,如果監視無人機因天氣條件或技術限制而捕捉到不清晰或不完整的圖像,可利用人工智能生成更清晰的增強版圖像。通過向系統輸入描述或部分視覺效果,分析人員可以獲得更清晰的圖像,突出重要特征或活動,從而可能揭示隱藏的設備、偽裝的敵方陣地或不尋常的移動。
該技術的一個重要應用是預測敵人的動向。通過分析長期收集的模式和部分數據,人工智能可以生成敵軍前進或撤退的預測可視化圖像。這些預測可以幫助戰略家更有效地規劃防御演習或準備交戰。
在敵方使用偽裝技術隱藏設施或設備的環境中,人工智能可以根據環境背景和已知偽裝模式生成圖像,假設潛在物體的外觀,從而提供幫助。這種能力不僅有助于識別威脅,還能加強監視飛行和地面巡邏的規劃。
部署人工智能以加強監視解釋需要克服幾個技術挑戰。首先,人工智能生成圖像的準確性至關重要。不正確的判讀會導致錯誤的決策,并可能造成嚴重后果。為確保可靠性,有必要利用最新的多樣化數據集對人工智能模型進行持續訓練。這種訓練可使人工智能隨著時間的推移提高其預測能力和準確性。
此外,將人工智能工具與現有軍事監控系統集成需要仔細考慮兼容性和互操作性。系統的設計必須能將數據無縫地輸入人工智能模型,并以對分析人員和決策者有用和可訪問的格式顯示其輸出結果。這種集成往往需要對現有基礎設施進行重大技術調整和升級。
在敏感的軍事環境中部署人工智能技術時,安全是另一個最重要的問題。保護輸入人工智能系統的數據以及生成的圖像免遭未經授權的訪問或篡改至關重要。必須采用強大的加密方法、安全的數據傳輸協議和嚴格的訪問控制來保護這些信息。
此外,還應定期進行安全審計和合規檢查,以確保所有系統都遵守數據安全和操作完整性的最高標準。這些措施可防止敏感信息的潛在泄漏,并防范可能危及監控操作的網絡威脅。
雖然將人工智能融入軍事監控在增強數據解讀和行動規劃方面具有顯著優勢,但也需要對技術和安全挑戰給予細致的關注。通過有效應對這些挑戰,軍事組織可以利用人工智能生成的圖像獲得戰略優勢,增強其在監控、威脅檢測和戰術規劃方面的能力。
將人工智能技術融入軍事應用需要采取嚴格的安全措施,以保護敏感數據并保持操作的完整性。鑒于人工智能具有生成詳細和戰略性視覺內容的能力,確保這些系統的安全至關重要。軍事環境需要最高標準的數據保護,因此必須制定包括物理、網絡和程序安全措施在內的強大協議。
必須在存放人工智能系統的硬件和數據存儲設施周圍嚴格執行物理安全措施。這包括受控訪問環境、持續監控和安全設施,以防止未經授權的物理訪問。網絡安全同樣重要,包括使用加密、安全通信協議和入侵檢測系統保障系統間的數據傳輸,以防范網絡威脅。
程序安全至關重要,它涉及對訪問人工智能系統的人員實施嚴格的操作規程和許可級別。這種方法可確保只有獲得授權的人員才能與人工智能的操作參數或輸出進行交互或修改,從而降低可能危及安全的內部威脅或人為錯誤的風險。
在軍事環境中部署人工智能技術會引發重大的倫理問題,必須謹慎處理,以維護公眾信任并遵守國際法律和規范。倫理方面的考慮包括生成圖像的準確性和操控性、在心理戰中濫用的可能性以及對國際穩定與安全的廣泛影響。
制定規范軍事領域人工智能應用開發和部署的道德準則至關重要。這些準則應確保必要時的透明度,促進問責制,并防止制造或傳播誤導性信息。此外,這些指導方針還應涉及人工智能決策過程的影響,確保軍事行動中的最終決策仍由人類控制,以避免在戰斗場景中出現與機器決策有關的道德困境。
展望未來,軍方必須考慮整合先進人工智能技術的長期影響。這包括持續評估該技術對軍事戰略、行動和倫理方面的影響。為應對新出現的威脅和作戰需求,必須不斷改進人工智能系統,以保持技術優勢和作戰效能。
制定全面的管理框架對監督這些技術的部署和使用至關重要。這些框架應包括定期審查和調整安全措施和道德準則的機制,確保它們隨著技術的發展而保持相關性。與國際機構和其他國家的合作有助于制定在軍事領域使用人工智能的全球標準和規范,在促進和平與穩定的同時防止沖突升級。
人工智能技術為加強軍事行動提供了革命性的能力,但將其融入軍事環境必須謹慎管理。安全協議、道德考量和嚴格的管理框架對于確保安全、負責和有效地使用這些技術至關重要。通過解決這些方面的問題,軍事組織可以利用人工智能的全部潛力來支持其任務,同時堅持安全和道德行為的最高標準。
在探索 DALL-E 人工智能技術在軍事領域的應用過程中,我們發現技術能力與戰略優勢之間的界限越來越模糊,揭示了軍事行動的新領域。將人工智能生成的圖像用于訓練、任務規劃、心理作戰、強化監視,以及管理這些應用的嚴格的安全和道德協議,凸顯了軍事方法的關鍵轉變。
首先,詳細介紹了 DALL-E 如何增強訓練環境,從而實現成本效益高、適應性強和高度特定的場景,使軍事人員更好地為現代戰爭的復雜性做好準備。在任務規劃中,可視化和快速準確地模擬各種作戰結果的能力提供了前所未有的優勢,使戰略決策更加明智,反應更加迅速。
心理作戰也有可能因人工智能而發生轉變,影響敵方戰斗人員和平民看法的能力既是一種強大的工具,也是一種道德挑戰。在監視方面,DALL-E對數據進行內插和外推的能力為更好地了解和預測對手的動向和意圖提供了機會,從而將原始數據轉化為戰略資產。
然而,這些應用中的每一項都伴隨著重大責任--維護人工智能系統的安全、確保生成圖像的準確性和道德使用,以及管理人工智能在戰爭中的廣泛影響。這些考慮因素需要持續的警惕、適應和管理,以確保人工智能技術的優勢不會變成負擔。
未來,人工智能在軍事應用中的作用必將擴大。機器學習和神經網絡方面的創新將增強 DALL-E 等系統的能力,使其更準確、更快速,并能處理更復雜的場景。這些進步可能會帶來更多的自主系統,它們可以與人類指揮官協調操作,在實戰中提供實時數據和可視化信息。
然而,隨著人工智能系統越來越多地嵌入軍事行動,管理這些技術的強大框架變得更加重要。這不僅包括安全和操作協議,還包括關于在戰爭中使用人工智能的國際協議,這有助于降低升級風險,確保全球穩定。
當我們在軍事環境中利用像 DALL-E 這樣的人工智能的強大能力時,技術創新與道德責任之間的平衡仍然至關重要。確保人工智能有助于保護、支持和推進戰略目標,同時又不損害道德標準或國際和平,這將是我們在這個數字時代前進過程中面臨的最大挑戰之一,也是必要條件。未來的軍事行動在很大程度上受到人工智能的影響,必須以對透明度、道德和全球合作的承諾為導航,確保技術在維護國家和國際安全方面發揮有益的作用。
參考來源:Kinomoto.Mag AI
導讀
汽車行業作為技術創新的重要領域,正迅速采納大語言模型,如 GPT 系列,以推動行業的數字化轉型。這些模型在提升車載智能系統的交互體驗、優化客戶服務、加速產品開發及市場營銷策略方面展現出巨大潛力。通過具體應用案例分析,接下來我們一起揭示大語言模型如何為汽車企業帶來效率提升和成本優化,同時探討這些技術在未來汽車行業中的潛在發展方向。主要內容包括以下幾個部分:
01****大語言模型簡介
****人工智能技術蓬勃發展,并于 2012 年開始加速。那一年,Hinton 及其指導的學生通過 AlexNet 網絡在 2012 年 ImageNet 圖像分類大賽中奪冠,標志著深度學習技術重新獲得了廣泛關注。自 2012 年至 2017 年間,有監督學習技術成為了主流,期間圖像處理技術迅猛發展,然而自然語言處理領域卻未能實現突破性進展。這個階段在解決自然語言處理問題時,雖然采用了循環神經網絡、長短期記憶網絡等復雜的網絡結構,但仍未能解決自然語言處理領域的核心問題,如長期依賴導致的梯度消失問題、處理效率無法并行化,以及依賴大量標注數據的監督學習模式使得數據獲取成本高昂。正因如此,該時期自然語言處理領域并未實現顯著的突破。然而,一切在 2017 年發生了轉變,Google 發布了開創性的論文《Attention is All You Need》,首次提出了基于注意力機制的 Transformer 網絡架構。這種架構完全舍棄了傳統的循環和卷積網絡結構,實現了模型的并行化處理和自監督學習,使得大量未標注數據得以有效利用。并行化處理降低了計算復雜度,加速了大規模計算任務的處理速度。Transformer 網絡的提出促進了大規模預訓練模型的興起,標志性地將我們的研究方向分為三個主要類別:基于 Transformer 的 Encoder-Decoder 結構,分別形成了 Encoder 類、Decoder 類以及 Encoder-Decoder 的預訓練模型。例如,2018 年提出的 BERT 模型,屬于 Encoder 類,能夠執行閱讀理解等任務,通過上下文推斷含義;而 GPT 系列模型,作為 Decoder 類,側重于根據前文預測后文;Encoder-Decoder 模型則在如機器翻譯等任務中表現出色。這些創新大大推動了自然語言處理技術的發展。從下圖中可以看到基于 Transformer 架構衍生出的各類大型模型。左側圖展示了三個主要分支:紅色代表僅包含編碼器(encode only)的模型,中間部分包含編碼器和解碼器(encode-decode)的模型,而右側則聚焦于僅含解碼器(decode only)的模型。右側的圖則依據模型的規模進行分類。我們可以觀察到,自 Transformer 誕生后,隨著 GPT-1 的推出,模型規模開始逐漸增大。隨后,BERT 的問世以及 GPT 系列的持續發展,在 Transformer 架構的基礎上不斷演進,展現了模型規模的快速增長趨勢。
下圖詳細闡述了 GPT 系列模型的演進歷程。自 Transformer 模型問世以來,OpenAI 以此為基礎,提出了一種新的范式:利用預訓練加微調的方法來處理自然語言任務。GPT-1 采用了 5GB 的訓練語料和 1 億參數,盡管其性能不及隨后Google 推出的 BERT 模型,但 OpenAI 堅信未來的發展應朝向無監督學習方向邁進。因此,在 2019 年,OpenAI 推出了 GPT-2,使用了 40GB 的訓練數據和 15 億參數,并實施了 Zero-shot 學習,能在模型未接觸過的任務上進行作業,盡管生成的文本已相對較長,但仍存在改進空間。隨后,OpenAI 以 570GB 的數據訓練量和 1750 億參數推出了 GPT-3。與前作相比,GPT-3 采用了 Few-shot 學習方法,僅需少數樣本即可顯著提升性能,實現了接近監督學習最優效果的無監督學習能力。GPT-3 之后,OpenAI 轉而專注于模型的可控性問題。GPT-3 雖然功能強大,但其輸出內容有時并不完全符合人類的意圖。這一挑戰促使 OpenAI 發展出 ChatGPT,旨在從有監督學習向無監督學習轉變,同時從不可控走向可控,進而發展至今日的多模態方向,標志著自然語言處理技術向更加高級的發展階段邁進。
ChatGPT 的推出,為大型模型的訓練提供了一種新的范式。這一訓練范式的核心在于先進行預訓練,緊接著通過有監督的微調過程,進而采用獎勵建模,最終通過強化學習來優化模型性能。這種方法論不僅加深了我們對大規模自然語言處理模型訓練的理解,而且為未來模型的發展指明了方向,即如何有效結合預訓練、微調和強化學習,以實現更高效、更精準的語言模型訓練。
02
大語言模型對汽車行業的影響上述訓練范式提出之后,國內大型模型相關的發展也隨之加速。目前,大型模型的生態系統主要分為兩類:一類是以 OpenAI 的 ChatGPT 為代表的閉源模型,這類模型通過提供 API 服務進行應用;另一類是以 Meta 的 LLAMA 為代表的開源模型生態。除此之外,國內的大型模型發展同樣迅猛,展現了中國在人工智能領域的強大實力和獨特貢獻。這些發展不僅促進了技術的進步,還為未來的人工智能應用和研究打開了新的可能性。大模型的快速發展,不僅在國內外科技領域引起轟動,也為汽車行業帶來了實質性的應用機遇。通過這些實際應用案例,我們得以洞察大型語言模型所擁有的獨特能力。首先是理解能力的顯著提升。與早期模型相比,現代大型模型能更加自然地理解人類語言,其交互體驗遠勝過以往,讓人們更愿意與之對話,不再感覺像是與一臺機器人交流。其次,生成能力也大大增強。開發人員可以利用這些模型編寫代碼,生成符合預期的汽車外觀設計等內容,極大地拓展了創造性應用的邊界。再有,規劃能力的提升讓大模型能夠協助人們規劃活動、安排日程,有效地優化活動流程和步驟。最后,評估能力也是一個重要的進步。用戶可以向模型提出評估要求,例如對文本進行評分、檢測錯別字等,模型能夠根據要求完成評價任務。盡管在數學問題上可能仍存在不足,但在代碼審查和改進建議方面,大模型已展現出其潛在的評估和優化能力。汽車供應鏈的復雜性及其環節的廣泛性為大語言模型提供了廣闊的應用場景。從研發、生產制造,到銷售、物流,乃至售后服務,每一個環節都蘊含著與大語言模型結合的潛力。在銷售和售后服務方面,大語言模型能夠處理和分析行業新聞,對新出臺的政策進行摘要,幫助企業快速把握行業動態。此外,通過匯總和分析來自各大 APP 的市場評價,模型可以為產品改進提供實時反饋,指導市場營銷策略的調整。在產品研發和長期規劃方面,大語言模型通過處理大量文本數據,能夠挖掘出創新點和用戶需求,為產品迭代和創新提供有力的數據支撐。客服領域尤其能體現大模型的價值,不僅可以提供常規的客戶咨詢響應,還能在專業知識領域內提供支持,如快速識別合適的維修方案,從而提高服務效率和顧客滿意度。總的來說,大語言模型能夠深入汽車供應鏈的各個環節,優化流程,提高效率,同時也為企業提供了前所未有的洞察力,從而在競爭激烈的市場中獲得優勢。在汽車行業中,大型語言模型展現出多種關鍵應用場景:
語音助手與車載娛樂。智能座艙可以劃分為三個主要功能:一是執行基本命令,比如查詢天氣、股票信息或播放音樂;二是通過語音控制車輛的內部系統,以一系列語句完成復雜操作;三是將車輛當作多功能的 AI 助手,它能在游戲中擔當各種角色,豐富娛樂體驗。
客戶支持與售后。在這里,大模型可協助坐席人員處理客戶的咨詢與問題,提升服務效率。
銷售與市場營銷。通過分析用戶通過各種渠道提出的需求,有助于大模型精準營銷和銷售策略的優化。
車輛設計和系統研發。由于該領域涉及大量專業知識,通用大模型可能需要針對性的微調或專項訓練才能發揮作用。
企業內部知識服務。大模型可以通過問答系統或檢索企業內部的知識庫來優化知識管理。
自動駕駛技術。在此,大模型能生成逼真的模擬場景,助力自動駕駛系統的測試和開發。
03
大語言模型的實踐探索在本節中,將介紹大型語言模型在實際操作中的探索。隨著去年 LLAMA-70B 模型的問世,我們見證了開源大模型數量的顯著增加,并借此機會進行了一系列的實踐探索。這些探索主要基于 Transformer 結構,可分為三大類:語言理解、語言生成以及機器翻譯相關任務。具體到問答機器人,我們嘗試了 FAQ 問答,針對常見問題提供快速響應;此外,我們還開展了基于汽車手冊或企業內部知識文檔的長文本問答實踐。在傳統 NLP 任務方面,借鑒 OpenAI 發布的 GPT-2 研究成果,我們測試了模型在文本分類上的能力,并嘗試利用其生成報告的摘要。在 AI 代理的應用上,我們開發了自然語言查詢數據庫的功能,允許不具備編程技能的用戶通過自然語言完成數據庫查詢,尤其適用于無法直接生成報表的臨時查詢。進一步地,我們還探索了 AI 代理在更廣泛任務中的應用,例如自動填寫請假申請等行政事務。接下來,將詳細介紹 FAQ 問答機器人的應用場景。在大模型興起之前,常規做法是建立并維護一個問答知識庫,對用戶提出的查詢進行匹配,匹配工作通常是 Q-Q 的相似性,或是 Q-A 間的相似性,有時則是將這兩者結合起來進行。這一過程最終會產出一個答案。這里的主要挑戰包括相似問題的生成,因為標準問題的變體可能非常多,這就需要大量的人力投入。另一個挑戰是語義相似度模型的匹配準確度,Q-Q 和 Q-A 的匹配質量完全取決于相似度模型的性能,這就使得其語義理解的能力相對較弱。
我們從去年 6 月份開始嘗試了幾個不同版本的大語言模型。最初,我們直接使用指令詢問大模型,但這樣的方式無法達到我們預期的效果。隨后,我們對大模型進行了微調,并結合 prompt 進行了實驗,這種方法在問答生成上的效果有所改善,但結果的不確定性依然較大。我們的第三次嘗試結合了自有知識庫的相似度匹配和經過微調的大模型,這種方法的表現超過了前兩種。但當時使用的都是較小的 6B 模型,即便采用了 RAG(Retriever-Augmented Generation)加上 prompt 和微調的方式,生成的結果仍舊難以控制。之后,我們嘗試了 13B 和 70B 的大模型,并專注于利用這些模型的理解能力而非生成能力,這樣做取得了不錯的效果。
此外,我們也嘗試了多種使用 prompt 的技巧。分享一個小竅門:prompt 需要明確且清晰,指令需精準無誤,而最終輸出的結果最好是有強代碼結構的,比如 JSON 格式,或者是預先定義的明確結構。如果模型較大,使用 few-shot 方法效果會更好;只需給出幾個示例,模型便能呈現出較佳的性能。再者,向模型說明思考方式,逐步引導其如何操作,也能有效提升結果。在實際測試中,我們主要使用了 40 對 FAQ 標準問,并測試了 167 條數據。在第一版中,我們采用傳統的語義相似性方法進行問答,手動擴展了 300 條相似問,得到的準確率為 82%。需要注意的是,這個準確率是基于我們自己的測試數據得出的,不同的數據集可能會有不同的準確率。在第二版中,我們利用大模型生成每個標準問的 50 條相似問,這在使用大型語言模型時相對容易實現。結合語義相似性和大模型的方法,我們獲得了 94% 的回答準確率。這里的“準確”是指生成的答案必須與知識庫中的標準答案完全一致。雖然剩余的 6% 在檢查時發現與知識庫中的答案有些模糊匹配的情況,但 94% 的準確率在我們看來,實際上已經非常接近完美了。在第三版的實驗中,我們將每個標準問的相似問擴展到 100 條,測試后發現準確率略有下降,為 93%。在 FAQ 問答場景的測試中得出的結論是,大型語言模型能夠協助我們擴展相似問題。此外,結合了 RAG 索引輔助生成與大型語言模型(LLM)的方法能夠提高 FAQ 智能問答場景的準確率。總體來看,效果的優劣與召回數據的相關性以及大型語言模型的理解能力密切相關。
04
數據分析人員的要求關于數據分析人員的能力要求,大模型的出現確實引發了一部分人的焦慮,擔心自己的工作會被取代,或者擔心趕不上這一技術浪潮。然而,我認為大模型不會取代我們的工作,而是會成為我們完成任務的強大助手,促使我們做出積極的改變。通過前期的一些探索,我們發現大語言模型實際上能在數據分析工作中發揮重要作用。在項目實施過程中,大模型可以在多個階段提供支持。例如,在需求定義階段,它能夠提供需求靈感、輔助編寫和潤色文檔,提供關鍵需求信息,甚至在我們還未完全明確需求時補充設計元素。它還能幫助審核文檔,確保關鍵信息的包含。在構建階段,大模型能輔助生成代碼,補充代碼注釋,以及進行不同開發語言之間的代碼翻譯。這在一些擁有較老系統需要語言轉換的公司中尤其有用,特別是當這些系統的代碼注釋不夠充分時。此外,大模型還能進行代碼審核,確保代碼符合公司的要求,輔助開發框架的設計和生成。在測試階段,大模型能夠幫助生成測試用例、編寫測試文檔以及修復 bug。這些都是在大模型應用場景中應該考慮到的作用。
對于數據分析人員而言,大模型的出現帶來了技能要求的變化。首先,大模型可以輔助寫代碼,提高代碼編寫效率。這意味著數據分析人員不僅要掌握編碼技能,還需要能夠明確地定義和描述問題,以便大模型能高效生成代碼。因此,問題定義、分解能力以及設計規劃能力變得尤為重要。其次,代碼質量的辨別能力也變得關鍵。雖然大模型能生成代碼,但有時候生成的代碼可能是錯誤的。如果數據分析人員本身編碼水平有限,可能難以識別錯誤,進而影響工作效率。這意味著對代碼質量的判斷能力對于數據分析人員來說變得更加重要,特別是對于高資質人員的需求可能會增加,而對于剛入門的人員需求可能減少。但對新手來說,大模型也提供了學習和成長的機會。第三,代碼測試和診斷能力。隨著 AI 生成代碼的普及,數據分析人員需要能夠診斷和測試大模型生成的代碼,這要求具備高度的代碼理解能力和測試技能。第四,掌握 prompt 工程能力。大模型的輸出質量很大程度上取決于 prompt 的編寫質量。寫好 prompt 是達成高效輸出的關鍵,同時也需要考慮到安全管控和響應時間的優化。此外,作為算法相關人員,需要掌握對大模型的評估和評價能力,判斷不同模型是否適用于特定應用場景,以及它們的優勢和局限性。同時,對算力和資源的評估也變得重要,需要在使用大模型和資源投入之間做出權衡。最后,選擇合適的解決方案對于特定場景至關重要,并不是所有問題都需要用到大模型。數據分析人員需要具備判斷并選擇最適合當前場景解決方案的能力。
05****
問答環節
Q1**:如何保證大模型的可控性?**
***A1:目前,RAG(Retriever-Augmented Generation)是大家討論的熱點。使用 RAG 的通常做法是:首先將知識向量化存儲到向量數據庫中,然后查詢與之相似的問題,并讓大模型生成答案。但是,如果僅僅按照這種方式操作,很難保證生成的答案與知識庫中的信息完全一致,即使考慮到大模型的規模,也存在一定的困難。我們之所以能實現 94% 的準確率,與知識庫內容完全匹配,是因為我們采取了特定的策略。在提問時,我們根據問題的相似性選擇最相似的幾個問題,然后在生成答案時指導大模型選擇與哪個問題最相似,而不是直接將問題和答案一起提供給大模型讓其理解后再生成答案。我們是讓大模型直接返回最相似問題的編號。通過這種方式,我們可以通過編號直接獲取對應的準確答案,從而保證了答案的相似性和準確性。
Q2**:大語言模型可以做推薦系統嗎?*****A2:在我們的汽車行業場景中,使用大語言模型進行推薦的案例相對較少。我們主要在售后服務領域探索推薦系統的應用,由于汽車配件的種類較少,這與電商領域的推薦系統有所不同,因此我們還未在電商領域那樣廣泛嘗試使用大語言模型進行推薦。在售后服務領域,大語言模型的應用主要集中在售后維修案例的檢索上,這涉及到與知識庫相關的內容檢索。例如,基于用戶對售后維修或保養的咨詢,以及參與售后活動的需求,大語言模型可以輔助客服人員檢索知識庫中的相關信息,從而提供輔助服務。
Q3***:在 70B 的模型中,RAG +微調 + prompt 是否效果比 RAG + prompt 好?******A3:由于資源限制,我們尚未對 70B 的大模型進行調整,這取決于具體應用場景的需求。如果是通用場景,我們目前的測試顯示不需要進行微調。然而,對于特定垂直領域,如汽車行業中的特殊場景,我們還沒有進行嘗試,可能會需要進行相應的微調。
Q4**:大語言模型中做自然語言查詢數據庫,會不會有幻覺的問題?******A4:我們采用的自然語言查詢實現方式是這樣的:基于一種不會產生幻覺的方法,或者說,采用類似于 AI agent 的框架。它首先將自然語言轉換為 SQL 語句,然后執行數據庫查詢。如果 SQL 語句轉換錯誤,則查詢結果也會出錯。通常情況下,我們的測試結果顯示,要么查詢正確,要么由于生成的 SQL 語句錯誤而沒有產生結果。我們使用的是 Vicuna-13B v1.5 版本來生成 SQL 語句,主要進行了單表查詢的測試。在單表情況下,處理單表操作是可行的,包括執行 where 語句、模糊查詢等。
Q5**:是否有嘗試過用 Stable Diffusion 進行汽車設計?******A5:SD(Stable Diffusion)可以應用于汽車設計領域,我們的設計部門已經在使用它進行汽車設計工作。此外,SD 還能夠進行產品設計,我們已經在進行一些相關的嘗試。它還能生成一些海報,使得我們日常的海報生成工作比以往更為迅速。
Q6**:70B 模型的 GPU 配置要求是什么呢?以及它能支持多大的流量查詢?******A6:對于 70B 模型,我們采用了量化版本,例如使用 INT4 量化,需要 43G 的顯存。有關大模型的詳細配置,可以在官網找到相應的信息,這與模型能夠支持的流量查詢量密切相關。我們實際測試情況供參考:72b-int4 用 vllm 推理加速,輸入輸出共 1000 token,4 秒之內返回,用 A100 40G 2 張,可以支持 4 個并發。以上就是本次分享的內容,謝謝大家。
分享嘉賓
INTRODUCTION
林琳
某汽車集團
數據挖掘&人工智能主任專家
復旦大學基礎數學碩士,10 年以上汽車行業AI從業經驗,在大語言模型、運籌優化和機器學習領域有豐富的實戰經驗。
無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。
1. 引言
無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。
強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。
本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。
1 強化學習的基本理論
強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。
2 強化學習在自動駕駛領域的應用
2.1 在避障問題中的應用
在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。
雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。
Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。
2.2 在變道與超車問題中的應用
在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。
針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。
在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。
針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。
2.3 在車道保持問題中的應用
在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。
原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。
基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。
2.4 在道路交叉口通行問題中的應用
在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。
3 強化學習在無人車領域的應用展望
無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:
1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。
2)提升強化學習在無人車決策上的可解釋性
當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。
3)提高強化學習在無人車決策上的安全性
當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。
4)研究無人車大數據背景下基于強化學習的
云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。
4 結論
本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。
摘要:數據和知識是新一代信息技術與智能制造深度融合的基礎。然而,當前產品設計、制造、裝配和服務等過程中,數據及知識的存儲大多以傳統關系型數據庫為基礎,這導致了數據及知識的冗余性和搜索及推理的低效性。近年來,知識圖譜技術飛速發展起來,它本質上是基于語義網絡的思想,可以實現對現實世界的事物及其相互關系的形式化描述。該技術為智能制造領域數據及知識的關聯性表達和相關性搜索推理問題的解決帶來了可能性,因此其在智能制造的實現過程中扮演著越來越重要的角色。為了給知識圖譜在智能制造領域的應用提供理論支撐,總結了知識圖譜領域的研究進展;同時探索了知識圖譜在智能制造領域的3大類應用方向,共15小類應用前景,分析了在各個應用前景上與傳統方法的不同之處,應用過程中所需要使用的知識圖譜相關技術以及實施過程中所待突破的關鍵技術,希望可以為進一步展開針對知識圖譜在智能制造領域的研究提供啟發,同時為相關企業針對知識圖譜的實際應用提供參考;最后以數控車床故障分析為案例,驗證了知識圖譜在智能制造領域應用的有效性。
物聯網、云計算、人工智能等新一代信息技術的迅猛發展,帶來了制造業的新一輪突破,推動著制造系統向智能化方向發展,驅動著未來制造模式的創新[1]。其中數據和知識是實現制造業與新一代信息技術融合的基礎,是實現智能制造的保障。一方面,產品在其生命周期的各個階段將會產生海量工業數據和知識[2];另一方面,工業數據和知識是制造領域的信息化進程的必備資源,其中蘊含了大量有用的模式。然而,當前制造領域產品設計、制造、裝配、服務等生命周期過程中數據以及知識的存儲大多以傳統關系型數據庫為基礎,冗余性較高、分布分散、關聯性較弱且儲量相對較小,強調對數據以及知識的檢索卻較少從語義層面研究數據以及知識的關聯、認知、理解與推理。因此,如何從冗 余的數據與知識文本中抽取有用信息,如何有效表 達數據之間的內在關聯與知識之間的內在關聯,如 何有效利用數據的關聯性與知識的關聯性實現高效 的信息檢索與信息推理,是當前實現智能制造目標 的核心瓶頸之一。知識圖譜(Knowledge graph,KG)來源于谷歌下 一代智能語義搜索引擎技術。其本質上基于語義網 絡的思想,是一種有向圖結構的語義知識庫,用于 以符號形式描述物理世界中的概念及其相互關 系 [3],其應用服務架構如圖 1 所示。在知識圖譜內 部,數據和知識的存儲結構為三元組,形如 s p o , ,其中 s 和 o 為知識圖譜中的節點,分別 代表了主語實體知識和賓語實體知識, p 為知識圖 譜中的邊,代表了從 s 指向 o 的關系知識(謂語)。
知識圖譜具有如下 3 種特點:① 數據及知識的 存儲結構為有向圖結構。有向圖結構允許知識圖譜 有效地存儲數據和知識之間的關聯關系;② 具備高 效的數據和知識檢索能力。知識圖譜可以通過圖匹 配算法,實現高效的數據和知識訪問;③ 具備智能 化的數據和知識推理能力。知識圖譜可以自動化、 智能化地從已有的知識中發現和推理多角度的隱含知識。
目前,知識圖譜技術已經在互聯網領域如搜索引擎、智能問答等發揮了重要作用,同時也已經在 多個領域進行初步應用,比如:金融、電商、醫療 等 [4]。許多國際著名企業也已經開始探索知識圖譜 的應用,比如谷歌、微軟、IBM、蘋果等。與此同 時,在智能制造領域,西門子于 2018 年提出了他們 在知識圖譜領域的規劃[5];博世公司于 2019 年構建 了底盤系統控制相關數據的大型知識圖譜,以提供 有效地數據訪問[6]。然而國內的機械行業針對知識 圖譜的探索卻有些許不足。在研究過程中以及與多家機械相關企業的交流中發現,當前知識圖譜在智 能制造領域應用過程還存在以下不足。
(1) 缺乏對知識圖譜理論的深入認識。目前知 識圖譜相關理論與技術在迅速發展,但是智能制造 領域的專家大多對該技術缺乏深入的了解,無法有 效管理和應用知識圖譜中的數據及知識。
(2) 知識圖譜相關技術在智能制造領域的優勢 不明晰。目前知識圖譜在智能制造領域的應用處于 起步階段,針對產品設計、制造、裝配、服務等過 程所帶來的優勢不是很明確,且在知識圖譜應用于 智能制造領域過程中可能遇到的問題尚不明確。
(3) 知識圖譜相關技術在智能制造領域的應用 場景模糊。當前企業對知識圖譜在智能制造領域的 應用前景有所疑問,不確定知識圖譜技術在產品設 計、制造、裝配和服務等過程的切入點和切入方式。
(4) 知識圖譜在智能制造領域落地所需要的技 術不明確。目前在通用領域上的知識圖譜的研究角 度十分廣泛,但是針對智能制造領域各個應用場景, 所需要使用的知識圖譜相關技術類別卻還不是很明晰。
(5) 智能制造領域相關數據缺乏。目前基于深 度學習的知識圖譜相關技術需要構建一定量的有標 簽數據集,目前通用領域的相關數據集比較多,而 智能制造領域的相關數據卻比較缺乏。
針對以上問題,本文總結了可以應用于智能制 造領域的知識圖譜技術的研究進展。同時從應用出 發,探索了知識圖譜在智能制造領域的 3 大類應用 方向,共 15 小類應用前景,分析了在各個應用前景 上與傳統方法的不同之處,應用過程中所需要的知 識圖譜技術以及實施過程中所待突破的關鍵技術, 為后續知識圖譜在智能制造領域的進一步落地提供 理論支撐和方法參考。
摘要: 工業4.0將工業制造流程以及產品質量優化從以前依照經驗和觀察進行判斷轉變為以事實為基礎, 通過分析數據進而挖掘潛在價值的完整智能系統. 人工智能技術的快速發展在工業4.0的實現中扮演著關鍵的角色. 然而, 傳統的人工智能技術通常著眼于日常生活、社會交流和金融場景, 而非解決工業界實際所遇到的問題. 相比而言, 工業人工智能技術基于工業領域的具體問題, 利用智能系統提升生產效率、系統可靠性并優化生產過程, 更加適合解決特定的工業問題同時幫助從業人員發現隱性問題, 并讓工業設備有自主能力來實現彈性生產并最終創造更大價值. 本文首先介紹工業人工智能的相關概念, 并通過實際的工業應用案例如元件級的滾珠絲杠、設備級的帶鋸加工機與機器群等不同層次的問題來展示工業人工智能架構的可行性與應用前景.