個人數字數據是一項關鍵資產,全球各地的政府已經實施了法律和規章來保護數據隱私。數據使用者被賦予了其數據的“被遺忘權”。在機器學習(ML)過程中,被遺忘權要求模型提供者在用戶請求時刪除用戶數據及其對ML模型的后續影響。機器遺忘應運而生,以解決這一問題,它從業界和學術界獲得了越來越多的關注。雖然這一領域發展迅速,但缺乏全面的綜述來捕捉最新的進展。認識到這一缺口,我們進行了廣泛的探索,繪制了機器遺忘的全景,包括在集中式和分布式設置下遺忘算法的(細粒度)分類、關于近似遺忘的討論、驗證和評估指標、不同應用下遺忘的挑戰和解決方案,以及針對機器遺忘的攻擊。本綜述通過概述未來研究的潛在方向來結束,希望能為感興趣的學者們提供指導。
//www.zhuanzhi.ai/paper/0f1c229cadcb491e16dc9a452b6d7d91
在數據和計算能力的爆炸性增長驅動下,深度學習(DL)在各種應用中展現了驚人的性能,如自動駕駛[77, 130]、從氨基酸序列預測蛋白質的3D結構[51]、破譯遺傳密碼并揭示隱藏的DNA疾病的秘密[22],以及最近的人工智能生成內容(AIGC)浪潮,代表作有通過ChatGPT進行的文本生成[29, 97]、通過擴散模型進行的圖像和視頻生成[125]、以及通過Codex進行的代碼生成[19]。這些模型是在用戶貢獻的數據[70]上訓練的。無意中,這引發了隱私擔憂,因為模型永久記住了用戶的私人信息,這可能通過已知的例如成員推斷、屬性推斷和偏好分析攻擊以及尚未披露的隱私攻擊泄露。
通過認識到保護用戶數據隱私的重要性,國家政府已經發布了一系列規定,包括歐盟的一般數據保護條例(GDPR)[2]、加拿大的消費者隱私保護法(CPPA)和美國的加利福尼亞消費者隱私法(CCPA)[1]。這些規定規定了相關數據消費者或組織收集、存儲、分析和利用公民個人數據的強制手段。通過“被遺忘權”的執行,數據消費者必須迅速遵守用戶請求刪除其數據并消除任何相關影響。這賦予了數據貢獻者即使在數據發布后也能控制自己數據的能力,促進了分享和貢獻高質量數據的意愿。這反過來又通過提高服務利潤和降低法律風險,為(模型)服務提供者帶來了好處[11]。
值得注意的是,遺忘數據不僅符合法律要求以保護隱私,而且在其他場景中也是有益的。它可以遺忘由于有害數據(例如,對抗數據、投毒數據[134]、噪聲標簽[80])或過時數據造成的不利影響,從而提高模型的安全性、響應性和可靠性。此外,通過遺忘對手針對的受害者數據,它可以減輕多種隱私攻擊,如成員推斷攻擊和模型反轉攻擊,防止模型中敏感訓練數據的私人信息泄露。
在DL上下文中,僅從后端數據庫中刪除原始訓練數據相對無意義。因為DL模型仍然(顯式或非顯式地)記住了通常包含請求數據樣本的敏感細節的根深蒂固的模式和特征[4, 13]。因此,與DL模型直接相關的原始數據潛在表示似乎是一個挑戰,難以直接從DL模型中消除。現有的傳統隱私保護技術未能滿足這些要求,導致了機器學習中稱為機器遺忘(MU)的研究方向的出現。MU使數據貢獻者能夠主動撤回用于模型訓練的數據,旨在從訓練好的模型中擦除其影響,就好像它從未存在過一樣,而不損害模型的實用性(如圖1所示)。
鑒于賦予的“被遺忘權”,機器遺忘無疑變得更加相關。最直接的方法是定期從頭開始在剩余數據集上重新訓練一個新模型(不包括要遺忘的數據群)。不幸的是,這顯然會帶來昂貴的計算開銷以及響應延遲,尤其是對于不斷增加的數據集大小和模型復雜性。這種從頭開始的訓練更有可能對模型提供者和用戶來說是不可接受的,因此對于實際應用來說并不實用。機器遺忘試圖克服上述簡單方法的嚴重缺點。現有的MU方法可以根據是否需要對剩余數據集進行(重新)訓練操作分為兩大類,即精確遺忘和近似遺忘。精確遺忘旨在加速(重新)訓練過程,而近似遺忘通過直接更改模型參數,避免了重新訓練的需要,兩者都使得遺忘后的模型與采用簡單方法獲得的模型無法區分。
**機器遺忘正在經歷迅速的發展,但存在著顯著的全面總結和分析缺乏,以更好地描繪最新技術狀態。**例如,缺乏解決跨各種應用的機器遺忘挑戰的討論,以及缺少對機器遺忘安全性分析的討論。這些不足促使我們進行了徹底的調查。本綜述涵蓋了2015年至2024年機器遺忘領域的關鍵研究,包括集中式和分布式設置下遺忘算法的分類——后者經常被忽視,評估和驗證指標,啟用遺忘的應用,以及針對威脅MU的攻擊。本綜述的目的是提供一個知識庫,以促進該新興MU領域的進一步學術研究和創新。 本綜述的關鍵貢獻總結如下:
我們對現有的機器遺忘算法進行了全面的回顧,這些算法適用于包括大型語言模型在內的多種任務,系統地將它們按遺忘機制進行分類,并對每個(子)類別固有的優點和限制進行了批判性分析。
我們提供了在分布式學習設置中面臨的機器遺忘挑戰的詳細分析,系統地對其方法進行了分類并比較了它們的優點和缺點。
我們為機器遺忘中現有的驗證和評估指標制定了一個分類體系。這個分類旨在協助數據所有者和模型所有者,強調每個指標的主要關注點。
我們強調了機器遺忘在各種場景中的多樣化應用,強調其在優化模型和防御安全與隱私攻擊方面的獨特優勢。這種靈活性允許在現實世界情況下根據特定需求進行快速部署和適應。
我們對與機器遺忘相關的挑戰進行了徹底的考察,概述了未來學者探索和參考的潛在研究方向。
本綜述的組織結構如下。第2節介紹機器遺忘的初步知識。第3節討論用于衡量機器遺忘質量的驗證和評估指標。第4節對現有的機器遺忘算法進行分類,深入探討每個細粒度類別并徹底分析其各自的優點和缺點。第5節研究分布式設置中出現的機器遺忘。第6節強調機器遺忘啟用的潛在應用,例如,擦除有害信息。第7節總結針對機器遺忘的現有隱私和安全攻擊。最后,第8節勾畫了機器遺忘當前面臨的挑戰,并提出了有希望的未來研究方向。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
基礎模型通過在廣泛數據上預訓練并能夠適應多種任務,正在推動醫療保健領域的發展。它促進了醫療人工智能(AI)模型的發展,打破了有限AI模型與多樣化醫療實踐之間的矛盾。更廣泛的醫療場景將從醫療基礎模型(HFM)的發展中受益,提高其高級智能醫療服務。盡管HFM的廣泛部署即將到來,但目前對它們在醫療領域的工作方式、當前挑戰以及未來發展方向的理解還不清晰。為了回答這些問題,本綜述提供了對HFM挑戰、機遇和未來發展方向的全面而深入的考察。它首先進行了包括方法、數據和應用在內的HFM全面概述,以快速掌握當前進展。然后,它對構建和廣泛應用醫療基礎模型的數據、算法和計算基礎設施中存在的挑戰進行了深入探索。本綜述還識別了該領域中未來發展的新興和有前景的方向。我們相信,這份綜述將增強社區對HFM當前進展的理解,并為該領域未來的發展提供寶貴的指導。最新的HFM論文和相關資源將在我們的網站上維護。 在過去的十年里,隨著人工智能(AI)[1]特別是深度學習(DL)[2]的發展,醫療技術經歷了革命性的進步[3]-[5]。通過學習醫療數據,AI模型能夠解鎖數據內部的相關信息,從而協助醫療實踐。在一些影響力大的臨床疾病中,包括胰腺癌[6]、視網膜疾病[7]和皮膚癌[8]等,AI模型已經獲得了專家級的表現,顯示出光明的未來。然而,在此之前,針對特定醫療任務的專家AI模型與多樣化的醫療場景和需求之間仍存在很大的矛盾,這阻礙了它們在廣泛醫療實踐中的應用[5]。因此,存在一個開放性問題:“我們能否構建AI模型,以惠及各種醫療任務?”
如圖1所示,最近對基礎模型的研究使AI模型能夠學習通用能力,并應用于廣泛的醫療場景,對這一問題給出了有希望的答案[9]-[12]。在醫療AI相關的子領域中,包括語言、視覺、生物信息學和多模態,醫療基礎模型(HFM)已顯示出令人印象深刻的成功。a) 語言基礎模型(LFM)或稱為大型語言模型(LLM)[13]、[14],為患者和臨床醫生帶來了興奮和關注[13]。它學習了大規模的醫療語言數據,并在醫學文本處理[15]和對話[16]任務中表現出非凡的性能。b) 視覺基礎模型(VFM)在醫學圖像中展示了顯著的潛力。針對特定的模式[17]、[18]、器官[19]和任務[20]、[21]的VFM顯示了它們對潛在醫療場景的適應性和通用性能。c) 生物信息學基礎模型(BFM)幫助研究人員解鎖生命的秘密,為我們在蛋白質序列、DNA、RNA等場景提供了前景[22]-[26]。d) 多模態基礎模型(MFM)[27]-[29]為通用HFM[10]、[30]、[31]提供了一種有效的方式。它整合了來自多種模態的信息,從而實現了解釋各種醫學模態和執行多種模態依賴任務的能力[11]、[31]、[32]。因此,這些模型為解決復雜的臨床問題和提高醫療實踐的效率和效果提供了基礎,從而推動了醫療領域的發展[11]。
HFM的出現源于醫療數據的持續積累、AI算法的發展和計算基礎設施的改進[9]、[12]。然而,數據、算法和計算基礎設施的當前發展不足仍是HFM面臨的各種挑戰的根源。醫療數據的倫理、多樣性、異質性和成本使得構建足夠大的數據集以訓練廣泛醫療實踐中的通用HFM[12]、[33]變得極為困難。AI算法在適應性、容量、可靠性和責任性的需求進一步使其難以應用于真實場景[34]、[35]。由于醫療數據的高維度和大規模(例如,3D CT圖像、整張幻燈片圖像(WSI)等),計算基礎設施的需求遠大于其他領域,無論是在消耗[10]、[12]還是環境[36]方面都極為昂貴。
總的來說,推動醫療保健的基礎模型為我們展示了一個充滿機會和挑戰的新未來。在這篇綜述中,我們從一個全面的視角提出了當前HFM面臨的以下問題:1) 盡管基礎模型取得了顯著的成功,它們在醫療保健中的當前進展是什么?2) 隨著基礎模型的發展,它們面臨哪些挑戰?3) 對于HFM的進一步發展,哪些潛在的未來方向值得我們關注和探索?上述問題的答案將構建對HFM當前狀況的概覽,并為其未來的發展提供清晰的視角。由于HFM的出現,近年來已孵化出數百篇論文。因此,回顧所有這些論文和所有方面在有限的論文空間內是具有挑戰性的。在本文中,我們專注于從2018年(基礎模型時代的開始[9])到2024年醫療領域的語言、視覺、生物信息學和多模態基礎模型的當前進展,以及HFM的挑戰和未來方向。我們希望這篇綜述能幫助研究人員迅速掌握HFM的發展,并激發他們的創造力,以進一步推動醫療保健的邊界。 A. 醫療保健中基礎模型的簡史
根據Bommasani等人[9]的定義,在這篇綜述中,“基礎模型”是指在廣泛數據上預訓練并能夠適應廣泛任務的任何模型。基礎模型時代的另一個社會學特征[9]是廣泛接受將某一基礎AI模型應用于大量不同任務。基礎模型時代的代表性轉折點是2018年底自然語言處理(NLP)中的BERT模型[37],此后,預訓練模型成為NLP的基礎,然后擴散到其他領域。 在醫療保健領域的AI也在由特定目標逐漸轉向一般目標[10],這是由基礎模型的發展所驅動的。在BERT[37]之后的2019年初,BioBERT[38]公開發布,實現了醫療保健中的LFM。到2022年底,ChatGPT[39]憑借其強大的多功能性,使更多與醫療相關的從業者受益于基礎模型,從而吸引了他們的注意并進一步激發了HFM研究的熱潮。僅在2023年8月,就發布了200多項與ChatGPT相關的醫療研究[12]。對于VFMs,眾多初步工作[40]、[41]專注于獨立的預訓練或遷移學習。由于SAM[20]的廣泛影響,通用視覺模型[42]–[44]在醫療保健中引發了研究熱潮。在生物信息學方面,AlphaFold2[25]在2020年蛋白質結構預測的CASP14中獲得第一名,激發了對BFMs的興趣,并推動了RNA[45]、DNA[46]、蛋白質[25]等的研究。2021年初,OpenAI構建了CLIP[47],實現了視覺和語言的大規模學習,取得了顯著的表現。由于醫療數據的天然多模態屬性,這項技術迅速應用于醫療保健[48],并整合了來自圖像、組學、文本等的多模態數據。到2024年2月為止,所回顧的四個子領域中HFM的代表性論文數量呈指數增長(圖2),除了上述典型技術和事件外,一些新興的范式和技術在HFM中也在迅速發展。
B. 相關綜述比較及我們的貢獻
在我們廣泛的搜索中,我們發現了17項與醫療基礎模型相關的代表性綜述,應注意現有綜述在HFMs不同方面提供了有見地的想法[10]–[14]、[32]、[48]–[58]。與這些作品相比,本綜述進行了更全面的HFM概述和分析,包括方法、數據和應用,并對挑戰和未來方向進行了深入的討論和展望。具體來說,它具有以下獨特優勢:1) 系統的HFM子領域分類和研究。本綜述涵蓋了與HFM相關的四個子領域,包括語言、視覺、生物信息學和多模態。與現有的綜述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了對整個HFM領域更全面的視角。2) 對HFM方法的深入分析。本綜述深入分析了從預訓練到適應不同子領域的方法,貫穿了在醫療保健中構建通用AI模型的過程。與現有的綜述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系統總結。3) 對不同屬性HFMs的廣泛回顧。本綜述介紹了整個過程的技術和HFMs,并不局限于某些特殊屬性,如“大”[12]。與現有的綜述[12]、[56]相比,它提供了具有不同屬性HFMs的廣泛視角。4) 對HFM不同關注點的全面和更深入的探索。本綜述探討了包括方法、數據、應用、挑戰和未來方向在內的全面內容。與現有的綜述[10]、[56]、[57]相比,它為HFM提供了一個完整的視角,使讀者能夠獲得更深入的理解。
本綜述提供了對醫療基礎模型的洞察,我們的貢獻如下列出: 1. 方法的系統回顧(第二節):從2018年到2024年(1月-2月)涉及HFMs的200篇技術論文被納入本綜述。我們為這些論文提出了一個新的分類,并在語言、視覺、生物信息學和多模態子領域的預訓練和適應方面進行了回顧。它為醫療基礎模型的潛在技術創新提供了洞察。 1. 數據集的全面調查(第三節):我們調查了HFM培訓可能使用的四個子領域中的114個大規模數據集/數據庫。它識別了醫療數據集當前的限制,并為HFM研究人員提供了數據資源指導。 1. 應用的全面概述(第四節):我們概述了當前HFM作品中的16個潛在醫療應用。它展示了HFM技術在醫療實踐中的當前發展,為未來在更多場景中的應用提供了參考。 1. 關鍵挑戰的深入討論(第五節):我們討論了與數據、算法和計算基礎設施相關的關鍵挑戰。它指出了HFM當前的不足,為研究人員提供了新的機會。 1. 對新興未來方向的遠見探索(第六節):我們期待HFM在其角色、實施、應用和重點方面的未來方向。它顯示了醫療AI從傳統范式到基礎模型時代的轉變,突出了在推動該領域發展方面具有前景的未來觀點。
隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。
圖1:本文的總體結構。
近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。
隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。
雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。
文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。
本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。
圖2:UV系統的基礎結構及其應用。
圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。
狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。
將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。
除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。
此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。
GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。
UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。
除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。
GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。
總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。
自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。
在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。
此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。
在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。
增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。
在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。
有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。
此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。
在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。
另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。
總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。
如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。
雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。
在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。
總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。
安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。
自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。
在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。
VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。
為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。
總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。
UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。
監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。
另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。
此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。
在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。
在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。
隨著基礎模型的出現,基于深度學習的目標檢測器在封閉集場景中展現出了實際的可用性。然而,對于現實世界的任務而言,目標檢測器往往在開放環境中運作,其中影響模型學習的關鍵因素(例如,數據分布、目標)經常在變化。開放環境的動態復雜性給目標檢測器帶來了新穎而巨大的挑戰。不幸的是,當前對開放環境中目標檢測器的研究缺乏對它們獨特特性、挑戰及相應解決方案的全面分析,這阻礙了它們在關鍵的現實世界場景中的安全部署。本文旨在通過對開放環境中目標檢測器進行全面的綜述和分析來彌補這一差距。我們最初識別了現有檢測管道內關鍵結構組件的局限性,并提出了包括四個象限(即,領域外、類別外、魯棒學習和增量學習)的開放環境目標檢測器挑戰框架,基于數據/目標變化的維度。對于提出框架中的每一個挑戰象限,我們提供了詳細的描述和系統的分析,概括了總體目標和核心難點,系統地回顧了相應的解決方案,并在多個廣泛采用的數據集上對它們的性能進行了基準測試。此外,我們還討論了開放問題和未來研究的潛在途徑。本文旨在提供一個新鮮的、全面的、系統的對開放環境目標檢測器的挑戰與解決方案的理解,從而催化更加堅固的應用在現實世界場景中的發展。與此綜述相關的項目可以在 //github.com/LiangSiyuan21/OEOD_Survey 找到。
目標檢測作為計算機視覺中的基礎任務之一,通過預測給定圖像中視覺對象的位置和類別來識別實例。隨著深度神經網絡的發展,尤其是基礎模型的出現,深度目標檢測[1]、[2]、[3]受到了廣泛關注,并成為自動駕駛[4]、醫療保健[5]、人臉檢測[6]、[7]等各個應用領域的基礎構件。特別是,深度目標檢測器的有效性主要依賴于閉集假設,即有限、已知和定義良好的結構[8]。例如,用于訓練和測試的數據滿足相同的分布,學習過程針對不變的目標任務(良性示例上的標簽分類和位置回歸)進行優化。由于日益具有挑戰性的任務的驅動,實際深度檢測器應用場景的環境從閉合逐漸演變為開放[8]。在開放環境中,模型學習過程的關鍵因素(例如,數據分布和目標任務)可能隨著時間和周圍環境發生動態變化。例如,開放環境可能在測試期間引入模型在訓練期間未遇到的新類別,甚至帶有可能干擾模型決策的噪聲。開放環境設置緊密地反映了現實世界情況,要求深度檢測器展現出增強的魯棒性和可擴展性,有效地應對未預見的變化和挑戰。
一些綜述專門關注了深度目標檢測器面臨開放環境中特定挑戰時的性能,如域適應問題[9]。更多相關綜述可以在附錄材料A中找到。然而,仍然不存在對開放環境中目標檢測器的獨特特性、挑戰及相應解決方案進行全面和整體分析的研究,這阻礙了它們在關鍵的現實世界場景中的安全部署。這篇綜述通過全面檢查開放環境中的目標檢測器,強調深度檢測模型對數據變異性和目標變化的韌性,彌補了這一差距。特別地,我們首先進行結構分析,以識別現有檢測管道內的脆弱性。隨后,我們提出了一個四象限分類框架,清晰地展示了這些挑戰在數據變化和目標變化兩個維度上的相互作用和區別,分別在水平軸和垂直軸上表示。通過界定每個象限,我們提供了對每個特定上下文中深度目標檢測器的公式、挑戰和潛在解決方案的詳細分析。我們還定量基準測試并討論了在多個廣泛采用的檢測數據集上回顧的方法。此外,我們強調了每個問題領域的前瞻性研究方向,并強調加強這些挑戰之間聯系的重要性。圖1中展示的研究趨勢突顯了研究者在這一領域的日益增長的興趣和積極參與。這強調了我們對開放環境中目標檢測的詳細回顧的重要性,旨在闡明和解決目標檢測器面臨的挑戰,并鼓勵在現實世界中的創新解決方案。我們的貢獻可以總結如下:
這項綜述首次開發了一個四象限分類法,涵蓋了開放環境中目標檢測器面臨的主要挑戰。此外,我們的分析深入探討了深度目標檢測架構的脆弱性,闡明了模塊之間與挑戰之間的關系。
基于挑戰框架,我們強調了開放環境目標檢測器的四個關鍵目標,并對特定問題及其相關解決方案進行了深入的審視。
我們還定量基準測試了回顧的方法在多個廣泛采用的檢測數據集上,并探索了開放環境目標檢測未來發展的潛在方向。
本文的其余部分組織如下。第2節描述了深度目標檢測器的發展趨勢并介紹了開放環境問題。第3節分析了現有檢測器每個組件的脆弱性以及在開放環境中的總體目標。第4、5、6和7節分別詳細介紹了領域外、類別外、魯棒學習和增量學習在開放環境中的挑戰、困難和解決方案。第8節總結并基準測試了現有方法在多個數據集上的性能。第9節總結了這項工作并討論了幾個潛在的研究方向。
數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。
在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。
在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。
盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。
隨著深度學習技術的發展與應用,特別是資源受限場景和數據安全場景對序列任務和數據進行快速學習需求的增多,持續學習逐漸成為機器學習領域關注的一個新熱點. 不同于人類所具備的持續學習和遷移知識的能力,現有深度學習模型在序列學習過程中容易遭受災難性遺忘的問題. 因此,如何在動態、非平穩的序列任務及流式數據中不斷學習新知識、同時保留舊知識是持續學習研究的核心. 首先,通過對近年來持續學習國內外相關工作的調研與總結,將持續學習方法分為基于回放、基于約束、基于結構3大類,并對這3類方法做進一步的細分. 具體而言,根據所使用的樣本來源將基于回放的方法細分為采樣回放、生成回放、偽樣本回放3類;根據訓練約束的來源將基于約束的方法細分為參數約束、梯度約束、數據約束3類;根據對于模型結構的使用方式將基于結構的方法細分為參數隔離、模型拓展2類. 通過對比相關工作的創新點,對各類方法的優缺點進行總結. 其次,對國內外研究現狀進行分析. 最后,針對持續學習與其他領域相結合的未來發展方向進行展望.
目前,深度學習算法和模型憑借其優異的性能在眾多任務和場景中取得巨大的成功,特別是在圖像識別[1-3]、自然語言處理[4-6]和視頻分析[7-9]等領域,甚至在具體圖像分類、實例分割任務上超越了人類的水平[10]. 然而,當面臨新任務,特別是分布差異大的序列任務學習時,深度學習模型的表現就難以達到預期,往往會出現迅速破壞之前學到的舊任務知識的現象,即災難性遺忘(catastrophic forgetting). 造成深度模型2種截然不同表現的原因在于,在傳統離線非序列任務場景下,深度模型可以重復不斷地交錯訪問和學習任務數據中的知識直到模型飽和,然而在真實序列或在線場景下,舊任務和數據無法被交錯訪問和讀取,導致舊任務的知識及其關聯的模型參數逐漸被新任務和數據擦除和覆蓋.
不同于深度模型,人類等高級動物雖然也會逐漸忘記以前學到的信息,但很少有新信息的學習會對鞏固的知識造成災難性的干擾,即人類天生具備序列學習和抵抗災難性遺忘的能力,并且能夠利用舊任務的知識幫助新任務的學習,同時將新任務知識整合進現有知識體系[11-12]. 例如,人類在小時候學會了騎自行車、游泳等技能,即便多年沒再實踐過,長大后在需要時仍然能夠輕易上手,進一步還能幫助其快速學習騎摩托車、其他水上運動等. 換言之,人類具有終生學習的能力,這是目前機器學習和深度學習算法所不具備的. 根據目前生物學和神經科學的發現,人類之所以能夠進行持續學習,是因為大腦中存在一套豐富的神經生理學機制能夠很好地調控不同腦區的穩定性-可塑性的平衡(stability-plasticity balance)[13-15] , 在早期發育的關鍵時期,大腦的可塑性特別強,隨著生物系統在一系列特定的發育階段穩定下來,可塑性變得不那么突出,在較小規模上保持一定程度的可塑性,以快速適應環境和重組知識. 此外,互補學習系統理論 (complementary learning systems theory)認為智能主體必須擁有2個學習系統,在哺乳動物的新皮質和海馬中實例化. 大腦海馬體系統具有短期適應性可以快速學習新的信息和知識,而大腦新皮層系統具有長期保持性,二者互補的特性使得人類認知系統可實現短期學習和長期記憶[16-19]. 因此,受人類認知系統的啟發,在機器學習領域,如何有效克服災難性遺忘,在記憶舊知識的同時通過遷移加快新任務的學習,使得深度模型在序列任務數據中持續不斷的學習,即持續學習(continual learning),得到廣泛關注和研究,具有重要科學研究價值和應用價值.
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。
圖像分類作為計算機視覺領域中的重要研究方向之一,應用領域非常廣泛.基于深度學習的圖像分類技術取得的成功,依賴大量的已標注數據,然而數據的標注成本往往是昂貴的.主動學習作為一種機器學習方法,旨在以盡可能少的高質量標注數據達到期望的模型性能,緩解監督學習任務中存在的標注成本高、標注信息難以大量獲取的問題.主動學習圖像分類算法根據樣本選擇策略,從未標記樣本數據集合中選擇出信息量豐富,對分類模型訓練貢獻更高的樣本進行標注,以更新已標注訓練數據池,如此循環直至滿足給定的停止條件或模型標注預算耗盡.本文對近年來提出的主動學習圖像分類算法進行了詳細綜述,并根據所用樣本數據處理及模型優化方案,將現有算法分為三類:基于數據增強的算法,包括利用圖像增廣來擴充訓練數據,或者根據圖像特征插值后的差異性來選擇高質量的訓練數據;基于數據分布信息的算法,根據數據分布的特點來優化樣本選擇策略;優化模型預測的算法,包括優化獲取和利用深度模型預測信息的方法、基于生成對抗網絡和強化學習來優化預測模型的結構,以及基于Transformer結構提升模型預測性能,以確保模型預測結果的可靠性.此外,本文還對各類主動學習圖像分類算法下的重要學術工作進行了實驗對比,并對各算法在不同規模數據集上的性能和適應性進行了分析.另外,本文探討了主動學習圖像分類技術所面臨的挑戰,并指出了未來研究的方向. 圖像分類是計算機視覺領域中的一大基本任務 . 圖像分類任務的核心在于圖像特征提取和分類器的設 計. 隨著深度學習(Deep Learning,DL)[1] 技術的不斷發 展,基于卷積神經網絡(Convolutional Neural Networks, CNN)[2] 的圖像特征提取技術取得了巨大的成就. 卷積 神經網絡可以通過組合簡單特征形成更復雜和抽象的 特征,從而提高圖像分類任務的準確性和魯棒性. 作為 一種數據表示學習的方法,深度學習可以通過迭代更 新深度網絡層級參數來訓練和優化模型,從而使結果 更加接近真實值 . 常用于圖像分類的深度網絡包括 LeNet[3],GoogLeNet[4],AlexNet[5],VGGNet[6],ResNet[7] 等. 然而,在圖像分類領域,為了得到高精度的分類器, 深度學習模型很大程度上依賴大量已標注數據來優化 模型參數. 特別是在需要高水平專業知識的領域,如醫 學圖像[8] 、遙感圖像[9] 等,獲取大量的高質量已標注數 據集需要消耗大量的人力. 主動學習(Active Learning,AL)[10] 作為一種能夠降 低樣本標注成本的學習方法,正逐漸受到越來越多的 關注. 主動學習作為監督式機器學習中的一種范式,旨 在標注盡可能少的樣本,同時最大化模型的性能增益. 具體來講,主動學習根據樣本選擇策略從未標記的數 據集中選擇信息豐富的樣本,交由 Oracle 進行標注,以 降低模型所需數據量、計算資源和存儲資源的需求,同 時保持分類器性能. Oracle是一個能夠提供準確標簽的 信息源,可以是人類專家或自動化系統. 樣本選擇策略 決定了算法選擇哪些樣本以獲得最大的模型性能提 升 . 目前,主動學習已被應用于分類與檢索[11] 、圖像分 割[12] 、目標檢測[13] 等多種圖像處理任務.
在早期研究中,文獻[10]將目前主動學習方法定 義為三種基本框架:基于成員查詢的主動學習、基于流 的選擇性采樣和基于池的主動學習 . 基于成員查詢的 主動學習方法是指學習器可以請求查詢輸入空間中任 何未標記樣本的標簽,包括學習器生成的樣本. 基于流 的選擇性采樣是指每次從未標記數據源中提取一個樣本數據,學習器必須決定是查詢標簽還是丟棄該數據. 基于池的主動學習框架則維護一個未標注數據集合, 由樣本選擇策略從未標記集合中選擇要標注的樣本. 目前,基于池的主動學習框架更適用于圖像分類 任務中. 該框架能同時處理批量數據,從未標記數據集 中選出對模型訓練最有幫助的數據進行標注,提高標 注數據效率,降低成本 . 此外,該框架適用于數據集規 模較大、標注數據較少的情況,符合多數圖像分類技術 場景. 相比之下,基于成員查詢的主動學習算法需要逐 個查詢成員并進行標注,不適用于大規模的數據集. 基 于流的選擇性采樣在處理流數據時,對每個數據點進 行快速分類來實現快速標注,從而處理大量的數據流. 但在圖像分類中,每個數據點都是一個獨立的圖像,對 每個圖像進行分類和標注可能會帶來更多的標注成 本,因此該方法在圖像分類中使用較少. 該方法主要適 用于需要時效性的小型移動設備的應用場景,因為這 些小型設備通常具有有限的存儲和計算能力 . 圖 1 展 示了基于池的主動學習的基本框架.
近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。
因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。
在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。
本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。
傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。
IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。
IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。
因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。
這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。