亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)理論的持續發展推動了這一領域的前所未有的高度,這歸功于學者和研究人員的不懈努力。在醫學領域,人工智能發揮著關鍵作用,依托強大的機器學習(ML)算法。醫學影像中的人工智能技術幫助醫生進行X射線、計算機斷層掃描(CT)和磁共振成像(MRI)診斷,基于聲學數據進行模式識別和疾病預測,提供疾病類型及發展趨勢的預后,利用智能健康管理可穿戴設備結合人機交互技術等。盡管這些成熟的應用在醫學診斷、臨床決策和管理中起到了重要作用,但醫學和人工智能領域的合作面臨著一個迫切的挑戰:如何驗證決策的可靠性?這一問題的根源在于醫學場景中對問責制和結果透明度的需求與人工智能的“黑箱”模型特性之間的沖突。本文綜述了近期基于可解釋人工智能(XAI)的研究,重點關注視覺、音頻及多模態視角下的醫學實踐。我們旨在對這些實踐進行分類和綜合,旨在為未來的研究人員和醫療專業人士提供支持和指導。

1 引言

隨著許多技術瓶頸的突破,人工智能(AI)已經催生了多個重要分支,包括深度學習(DL)、計算機視覺(CV)、自然語言處理(NLP)和大語言模型(LLMs)[203]。這些子領域相互聯系,共同推動了人工智能的全面發展。隨著技術的不斷進步,人工智能已經逐步滲透到教育、交通和醫療等多個領域[123]。 近年來,基于人工智能的醫療領域迅速擴展,催生了許多針對不同臨床學科的新技術。深度學習的興起標志著數字技術范式的重大變化,顯著提升了醫療模型預測的精準度[120]。例如,基于卷積神經網絡(CNNs)的醫學影像模型在腫瘤識別、器官分割和異常檢測等任務中展現了卓越的準確性[199, 201]。另一方面,遞歸神經網絡(RNNs)顯著提高了語音識別的準確性,替代了傳統的GMM-HMM模型。RNN在音頻數據上的卓越表現得到了驗證[209]。因此,這些方法被廣泛應用于聲學病理檢測系統和遠程醫療中[63, 137]。此外,基于注意力機制的Transformer架構在研究界得到廣泛應用[186, 189]。例如,它被用來處理多模態醫學數據,將影像數據與其他醫療數據(如音頻或生理參數)結合,以獲得更全面的健康視圖[2, 178]。 然而,病例的復雜性和數據的龐大規模使得醫療領域充滿了巨大的挑戰。根據國際數據公司(IDC)的預測,全球數據量預計將從2018年的33澤字節增長到2025年的175澤字節,其中醫療數據預計將以最快的速度增長,這是由于醫療分析技術的進步和醫學影像頻率及分辨率的提升[150]。這些龐大的數據集不僅包含個體信息、生理參數和為患者量身定制的治療數據,還包括疾病特征、財務考慮和文化差異等[83, 195]。此外,突發流行病的發生,尤其是2019年底爆發的COVID-19大流行,顯著加重了醫療系統的壓力。截至2024年1月28日,全球政府機構已確認報告了774,469,939例COVID-19病例[113],且因該病及其并發癥導致的死亡人數不可估量。這場災難暴露了醫療系統中醫務人員短缺、醫療決策效率低下和醫療設施不足等問題[124]。因此,在如此復雜和不斷變化的環境中找到有效解決方案,成為醫療領域亟待解決的問題。 研究人員通常需要對復雜且往往不透明的機器學習(ML)算法進行大量訓練,經過成千上萬次迭代才能取得令人滿意的結果[40]。這些復雜的人工智能模型已被證明能夠有效推動創新和提高模型的準確性[70, 138]。然而,隨之而來的新問題是如何闡明人工智能模型的決策過程:人工智能模型的不透明性使得人們無法理解或解釋其決策過程[69]。這一問題的根本原因在于,許多復雜的機器學習模型,特別是深度學習模型,涉及數百萬個參數和層次結構,導致決策過程錯綜復雜,難以解釋[159]。然而,在醫療領域,醫療決策的透明性和可解釋性恰恰是醫生和患者最需要的[37, 70]。 目前,已經有多種可解釋人工智能(XAI)技術在醫療行業中得到了應用和擴展[107, 152, 211]。本文將介紹在醫學視覺、音頻和多模態解決方案中近期的可解釋性研究成果。這些成就包括成熟的XAI模型的演變以及提高可解釋性的創新努力。 許多顯著的綜述探討了XAI與醫療領域的交集。Loh等人[103]回顧了2011年至2022年間XAI在醫療中的應用,重點介紹了各種醫療環境下不同的XAI技術。然而,他們的綜述涵蓋的時間跨度較長,許多他們討論的傳統人工智能方法如今已經不再使用。此外,他們沒有深入探討與低維生物信號相關的XAI應用。Band等人[20]考察了XAI在醫療中的應用,提出了一些常見的XAI方法,并探討了這些方法如何應用于解釋特定疾病。他們還對實施方法進行了簡要評估。然而,文章缺乏對XAI分類框架的深入討論,也沒有分析更廣泛的醫療XAI研究。Singh等人[173]的綜述專注于可解釋的深度學習模型在醫學影像分析中的應用。他們的綜述主要集中在醫學影像領域,而沒有考慮其他數據模態。類似地,Chaddad等人[28]回顧了XAI在醫療中的應用,分類并總結了醫學影像中的XAI類型和算法。然而,他們僅涵蓋了有限的XAI技術,且未探討這些技術在更廣泛臨床應用中的表現。 與此不同,我們的綜述做出了不同的貢獻,提供了更全面和新穎的視角。我們首先探討了醫療領域中的具體可解釋性需求,突出了患者和臨床醫生對于可解釋性的共同需求。然后,我們介紹了XAI的定義、相關術語及分類標準。值得注意的是,我們在醫療層面上對可解釋性需求進行了分類,澄清了相關術語,并解釋了它們之間的關系。在分類標準方面,我們結合了[183]、[70]、[34]和[106]提出的框架,基于四個標準對19種在醫療中常用且具有前景的XAI技術進行了分類。此外,我們分析了過去五年內發表的100多篇聚焦于XAI在不同模態(視覺、音頻和多模態)應用的論文,批判性地評估了這些研究,識別了當前的挑戰,并提供了未來研究方向和XAI應用發展的展望。 基于這些貢獻,本文的組織框架如下:第二節闡明了在醫療領域中解釋的重要性以及XAI在醫療領域的獨特背景。第三節介紹了XAI的定義、相關術語、分類標準和詳細技術。第四節分別探討了視覺、音頻和多模態解決方案中醫學應用中可解釋性的最新進展。通過呈現和深入分析這些應用,第五節和第六節討論了XAI在醫學應用中的挑戰與展望。最后,第七節對本文進行全面總結。

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

隨著大語言模型(LLMs)的最新進展,代理式人工智能(Agentic AI)在現實應用中取得了顯著進展,朝著基于多個大語言模型的智能體邁進,實現感知、學習、推理和協同行動。這些基于大語言模型的多智能體系統(MASs)使得一組智能體能夠協作解決復雜任務,并以大規模方式實現集體行動,從孤立的模型轉向以協作為核心的方法。

本文提供了關于多智能體系統協作方面的廣泛綜述,并提出了一個可擴展的框架來指導未來的研究。我們的框架根據關鍵維度對協作機制進行表征:參與者(涉及的智能體)、類型(例如,合作、競爭或合作競爭)、結構(例如,點對點、集中式或分布式)、策略(例如,基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究成果為揭示和推動基于大語言模型的多智能體系統向更加智能和協作的解決方案發展,特別是在復雜的現實應用中,提供了基礎。

此外,本文還探討了多智能體系統在不同領域的各種應用,包括5G/6G網絡、工業5.0、問答系統、以及社會文化環境,展示了它們的廣泛應用和更深遠的影響。最后,我們總結了關鍵經驗教訓,分析了多智能體系統面臨的開放挑戰,并指出了朝著人工集體智能發展的潛在研究方向。

CCS概念:

? 一般和參考 → 綜述與概覽; ? 計算方法 → 多智能體系統;自然語言生成;神經網絡。 附加關鍵詞: 人工智能,大語言模型,多智能體協作

1 引言

1.1 動機

大語言模型(LLMs)的最新進展已徹底改變了人工智能(AI),使其能夠執行復雜的任務,如創造性寫作、推理和決策,堪比人類水平 [156]。盡管這些模型在單獨使用時展現了顯著的能力,但它們仍然存在一些內在的局限性,如幻覺問題 [57]、自回歸特性(例如,無法進行深思熟慮的推理 [49])和擴展法則 [55, 69]。為了應對這些挑戰,代理式人工智能(Agentic AI)利用LLM作為大腦或協調者,將它們與外部工具和任務(如規劃)結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行交互。 此外,研究者們越來越多地探索橫向擴展——利用多個基于LLM的智能體協作實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使一組智能體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的多智能體系統,利用多個LLM的集體智能來應對復雜的多步挑戰 [118]。MAS的靈感不僅來自技術進展,還源于人類集體智能(例如,心智社會 [87],心智理論 [45])。人類社會擅長通過團隊合作和專業化實現共享目標,從日常任務到科學發現都可以體現這一點。同樣,MAS旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角有效協作。

基于LLM的MAS可以通過不同的協作渠道進行協作,這些渠道具有不同的特征,如圖1所示。MAS在各個領域取得了顯著成功,通過讓智能體之間進行協作和協調,增強了單個LLM的能力。這些系統將任務分配給智能體,允許智能體共享知識、執行子任務,并將其努力與共享目標對齊。MAS的潛在優勢是變革性的。它們擅長知識記憶,使得分布式智能體能夠保持并共享多樣的知識庫,而不會使單一系統過載 [51, 154]。它們通過將任務分配給不同的智能體來增強長期規劃,支持在延續的交互中持續解決問題 [58]。此外,MAS通過匯聚來自多個模型的專業知識和提示/角色,能夠實現更有效的泛化,比單一模型更有效地解決各種問題。最后,MAS通過通過專業智能體同時管理子任務,提高了交互效率,加速了解決復雜的多步任務。MAS力求實現集體智能,其中多個智能體的綜合能力超過了它們單個貢獻的總和 [24]。

有效的MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],它們促使從傳統的孤立模型向強調互動的方法過渡,使得智能體能夠連接、協商、做決策、規劃并共同執行任務,從而推動集體環境中AI能力的發展。深入理解MAS中的協作機制是解鎖其全部潛力的關鍵。

1.2 現狀與貢獻

由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些綜述文章討論了這一主題。然而,這些工作往往未能充分探討基于LLM的MAS的協作方面和機制,而這些方面對實現智能體朝著共享目標高效協作至關重要,具體總結見表1。例如,[47, 107, 136] 主要關注單智能體系統,僅在表面層次上提及多智能體協作。 [136] 通過提出一個框架為LLM智能體奠定了基礎,框架由三部分組成:大腦、感知和行動。該工作強調了使用LLM作為智能體的大腦,利用輸入模態整合、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,未深入探討使智能體協同工作的機制。[47] 綜述了基于LLM的MAS成功應用的領域和場景,概述了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但沒有涉及協作的其他特征,如類型、策略或協調架構。

其他一些工作,如 [82],關注協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLM,并將合作擴展到傳統的融合技術之外,但忽略了競爭與合作競爭等其他重要的協作機制,以及超越流行的協作類型的維度。與此不同,[120] 提出了一個增強LLM能力的通用框架,展示了Auto-GPT等工具如何與該框架對接。然而,協作機制仍然停留在概念層面,缺乏詳細的實現和表征。[50] 的研究重點是配置LLM以利用多樣的能力和角色,如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局與局部任務規劃。同時,[46] 的工作將焦點縮小到基于LLM的MAS在基于智能體的建模與仿真中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管這些工作對于仿真特定應用有啟發性,但缺乏對深入協作機制的廣泛視角。同樣,[68] 綜述了這些系統在數字孿生應用中的應用,[52, 70] 聚焦于軟件工程領域。

從上述總結和說明中可以看出,在充分探索基于LLM的MAS的協作方面和機制上存在明顯的不足,這對于使智能體朝著共享目標有效協作至關重要。本工作旨在提供基于LLM的多智能體協作系統中智能體間協作基礎的全面視角。以協作為主要焦點,我們的研究將基于LLM的智能體間協作表征為:參與者(涉及的智能體)、類型(如合作、競爭或合作競爭)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)和協調層。我們強調促進有效協作的機制和“訣竅”,識別MAS設計中的關鍵特征和趨勢。通過綜述現有方法并識別開放挑戰,我們將這些發現綜合成一個連貫的框架。該框架為未來研究提供基礎,推動LLM在MAS中的集成,為更具適應性、智能性和合作性的AI系統鋪平道路,使其能夠應對復雜的現實應用。 我們的主要貢獻如下:

  • 基于LLM的MAS中的協作方面和機制:我們關注基于LLM的多智能體協作的操作機制,強調實現有效協作所需的“訣竅”,包括協作類型、策略、通信結構和協調架構。
  • 基于LLM的MAS通用框架:我們提出了一個綜合框架,整合了MAS的多種特征,幫助研究人員理解、設計和開發多智能體協作系統。
  • 現實世界應用的綜述:我們審視了基于LLM的MAS在不同領域的實際應用,突出了其實際應用、成功案例和局限性。經驗教訓與開放問題的討論:我們識別了MASs發展的關鍵挑戰,如集體推理和決策,并概述了解決這些挑戰的潛在研究方向。1.3 論文結構

本文組織結構如下。第2節提供了理解本研究所需的背景信息,包括LLM、MAS和協作AI的概述。第3節介紹了基于LLM的多智能體協作系統的基礎概念,通過數學符號強調協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛的綜述,按協作的關鍵特征進行分類,包括類型、策略、結構和協調與 orchestration。第5節回顧了基于LLM的多智能體協作系統在工業和學術領域中的關鍵應用。第6節討論了這一新興研究領域中的開放問題和潛在的未來研究方向。最后,第7節對本文進行了總結。

2. 背景知識

2.1 多智能體系統(MAS)

多智能體系統(MAS)是由多個相互作用的智能體組成的計算機化系統。這些智能體具有自主性,能夠感知環境、與其他智能體交互,并通過協作解決復雜的任務。MAS 的關鍵組成部分包括:

  • 智能體:系統中的核心參與者,具有角色、能力、行為模式和知識模型。智能體的能力包括學習、規劃、推理和決策制定,這些能力賦予了智能體和整個系統智能。
  • 環境:智能體所處的外部世界,智能體可以感知并作用于環境。環境可以是模擬的或物理空間,如工廠、道路、電網等。
  • 交互:智能體之間通過標準的智能體通信語言進行通信。智能體的交互包括合作、協調、協商等,具體取決于系統的需求。
  • 組織:智能體可以按照層次結構進行控制,或基于涌現行為進行組織。

MAS 的顯著特征包括靈活性、可靠性、自組織和實時操作,使其成為解決復雜任務的有效解決方案。通過將復雜任務分解為多個子任務,每個子任務由不同的智能體處理,MAS 能夠以較低的成本和較高的可靠性完成任務。

2.2 大語言模型(LLMs)

大語言模型(LLMs)是基于 Transformer 架構的深度學習模型,如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。這些模型通過在大規模文本語料庫上進行訓練,具備了強大的語言理解和生成能力。LLMs 的規模使其能夠解決未經過明確訓練的任務,如類比推理和零樣本學習。 盡管 LLMs 在單智能體任務中表現出色,但在多智能體環境中,協調、通信和決策制定的復雜性增加,LLMs 的局限性變得更加明顯。例如,級聯幻覺(cascading hallucinations)問題在多智能體交互中尤為突出,即一個錯誤的輸出可能導致連鎖的錯誤反應。然而,通過引入結構化工作流和共識機制,研究人員正在探索如何克服這些挑戰,使 LLMs 在多智能體環境中發揮更大的作用。

2.3 協作式人工智能(Collaborative AI)

協作式人工智能(Collaborative AI)是指設計用于與其他 AI 智能體或人類協作的 AI 系統。協作式 AI 的研究方向包括多智能體系統、人機交互、博弈論和自然語言處理。通過集成這些技術,協作式 AI 有潛力推動具有深遠經濟和社會影響的新型應用。 協作是使 AI 智能體能夠相互交互和合作的關鍵。協作機制不僅限于簡單的合作,還包括競爭和競合等高級機制。協作式 AI 推動了從傳統的孤立模型向強調協作的方法的轉變,新的方法使智能體能夠交互、協商、決策、規劃和共同行動,從而推動 AI 在集體環境中的能力。

3. 多智能體協作概念

3.1 智能體與協作系統的定義

在 LLM 多智能體協作系統中,智能體可以數學表示為 a={m,o,e,x,y},其中:

  • 模型 mm:AI 模型,包括其架構(arch)、智能體的特定內存(mem)和可選的適配器(adp)。適配器是自適應智能模塊,允許智能體通過機制(如推測解碼和參數高效適配器)從其他智能體獲取額外知識。
  • 目標 oo:智能體的目標或任務,指導其在系統中的行為。
  • 環境 ee:智能體所處的環境或上下文,通常由上下文窗口中的令牌數量限制。
  • 輸入 xx:智能體的輸入感知,如文本或傳感器數據。
  • 輸出 yy:智能體的相應動作或輸出,定義為 y=m(o,e,x)。

3.2 問題定義

在 LLM 驅動的 MAS 中,智能體之間的協作至關重要。每個協作都有一個通信通道 cc,協作包括:

  1. 任務分配:根據智能體的獨特專業知識和資源,將任務分配給多個智能體。
  2. 協作機制:定義智能體之間的協作機制,使它們能夠共同工作。
  3. 決策制定:智能體之間的決策制定,以達到最終目標。

協作通道通過特定的屬性進行表征,包括參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)和策略(如基于角色、基于規則或基于模型)。任何屬性的差異都會導致不同的協作通道。

4. 方法論

4.1 協作類型

**4.1.1 合作

合作是 LLM 多智能體系統中最常見的協作類型。當智能體將其個體目標 oi與共享的集體目標 Ocollab對齊時,它們會共同努力實現互利的結果。合作在需要協作問題解決、集體決策和互補技能的任務中尤為重要。

**4.1.2 競爭

競爭發生在智能體的個體目標 oi與其他智能體的目標沖突或資源有限的情況下。競爭可以推動智能體發展更高級的推理能力和創造性問題解決能力,增強系統的適應性。

**4.1.3 競合

競合是合作與競爭的結合,智能體在某些任務上合作,而在其他任務上競爭。競合機制在需要權衡和妥協的場景中尤為有效。

4.2 協作策略

**4.2.1 基于規則的協議

基于規則的協議通過預定義的規則嚴格控制智能體之間的交互,確保智能體按照系統范圍內的約束協調行動。這種策略在任務程序明確且變化有限的情況下非常有效,但在面對意外情況時缺乏適應性。

**4.2.2 基于角色的協議

基于角色的協議通過為每個智能體分配特定的角色或分工,使智能體能夠專注于其專業領域內的子任務。這種策略提高了系統的效率和結構,但在角色定義不明確時可能導致沖突或功能缺陷。

**4.2.3 基于模型的協議

基于模型的協議在輸入感知存在不確定性的環境中提供了決策制定的靈活性。智能體根據對環境的感知、共同目標和固有的不確定性做出概率性決策。這種策略在動態環境中表現出色,但設計和部署復雜,計算成本較高。

4.3 通信結構

**4.3.1 集中式結構

集中式結構中,所有智能體都連接到一個中央智能體,中央智能體負責管理和協調智能體之間的交互。集中式結構在資源分配和任務協調方面具有優勢,但中央節點的故障可能導致整個系統崩潰。

**4.3.2 分布式結構

分布式結構中,控制權和決策權分布在多個智能體之間,每個智能體基于本地信息和有限的通信進行操作。分布式結構在系統容錯性和可擴展性方面具有優勢,但資源分配效率較低,通信開銷較大。

**4.3.3 分層結構

分層結構中,智能體按層次組織,每個層次的智能體具有不同的功能和權限。分層結構在任務分配和資源管理方面具有優勢,但邊緣設備的故障可能導致系統失效。

4.4 協調與編排

**4.4.1 靜態架構

靜態架構依賴于領域知識和預定義的規則來建立協作通道。這種架構在任務執行一致性和利用領域知識方面具有優勢,但在面對動態環境時缺乏靈活性。

**4.4.2 動態架構

動態架構能夠適應變化的環境和任務需求,通過管理智能體或自適應機制實時分配角色和定義協作通道。動態架構在處理復雜和動態任務時表現出色,但資源使用較高,動態調整可能失敗。

5. 實際應用

5.1 5G/6G 網絡與工業 5.0

LLMs 在 5G/6G 網絡和工業 5.0 中的應用顯著提升了邊緣網絡的性能。例如,LLM-SC 框架利用 LLMs 建模文本的語義信息,設計基于 LLMs 的語義通信系統,實現了語義級和技術級性能的平衡。

5.2 問答與自然語言生成(QA/NLG)

LLMs 在問答和自然語言生成任務中的應用顯著提升了系統的能力。例如,OpenAI 的 Swarm 框架通過引入“交接”機制,使多個智能體能夠無縫協作,提升系統的效率和適應性。

5.3 社會與文化領域

LLMs 和 MASs 在社會和文化領域的應用展示了這些系統在模擬人類行為、社會動態和文化互動方面的潛力。例如,CulturePark 框架通過模擬跨文化互動,促進了跨文化理解和減少偏見。

6. 開放問題與討論

6.1 集體智能的實現

實現集體智能需要解決多個開放挑戰,包括統一治理、共享決策制定、智能體作為數字物種的設計、可擴展性和資源管理,以及發現和探索意外的泛化能力。

6.2 綜合評估與基準測試

評估 MASs 的性能和行為比評估單個 LLMs 更為復雜。需要建立統一的、廣泛的基準測試框架,以確保評估結果的可重復性和一致性。

6.3 倫理風險與安全性

LLMs 在多智能體系統中的部署可能放大幻覺和對抗性攻擊的風險。確保智能體在倫理邊界內操作,并防止有害行為的發生,是確保系統安全性和可靠性的關鍵。

7. 結論

通過對 LLM 多智能體協作機制的全面綜述,我們提出了一個結構化和可擴展的框架,以指導未來的研究。我們的框架基于參與者、類型、結構、策略和協調機制五個關鍵維度,提供了分析和設計 LLM 多智能體協作交互的系統方法。我們相信,這項工作將為未來的研究提供靈感,并推動 MASs 向更智能和協作的解決方案邁進。

付費5元查看完整內容

摘要—神經場(Neural Fields)已成為計算機視覺和機器人領域中用于3D場景表示的變革性方法,能夠從帶姿態的2D數據中精準推理幾何、3D語義和動態信息。通過可微分渲染(differentiable rendering),神經場包括連續隱式和顯式神經表示,實現高保真3D重建、多模態傳感器數據的整合,以及新視角的生成。本綜述探討了神經場在機器人領域的應用,強調其在提升感知、規劃和控制方面的潛力。神經場的緊湊性、內存效率和可微性,加之與基礎模型和生成模型的無縫集成,使其非常適合實時應用,有助于提升機器人的適應性和決策能力。本文對機器人中的神經場進行了全面回顧,涵蓋200多篇論文中的應用,并對其優缺點進行評估。首先,我們介紹了四種關鍵的神經場框架:占用網絡(Occupancy Networks)、符號距離場(Signed Distance Fields)、神經輻射場(Neural Radiance Fields)和高斯分布(Gaussian Splatting)。其次,我們詳細描述了神經場在機器人五大主要領域中的應用:姿態估計、操控、導航、物理仿真和自動駕駛,重點介紹了關鍵工作并討論了主要發現與開放挑戰。最后,我們總結了神經場在機器人應用中的當前局限性,并提出了未來研究的有前景方向。項目頁面:robonerf.github.io 關鍵詞—神經輻射場(Neural Radiance Field, NeRF)、神經場(Neural Fields)、符號距離場(Signed Distance Fields)、3D高斯分布(3D Gaussian Splatting)、占用網絡(Occupancy Networks)、計算機視覺新視角合成(Novel View Synthesis)、神經渲染(Neural Rendering)、體渲染(Volume Rendering)、姿態估計機器人操控導航自動駕駛

I. 引言

機器人依賴對環境的精確且緊湊的表示來執行廣泛的任務,從穿越繁忙的倉庫到整理雜亂的家庭環境,甚至參與高風險的搜救任務。在典型的機器人系統中,感知與行動之間的協同作用是其核心。感知系統通過RGB相機、LiDAR和深度傳感器等設備采集感官數據,并將其轉化為一致的環境模型——例如,使機器人能夠在動態且障礙密集的空間中導航的3D地圖。這種表示的質量直接影響機器人的決策或策略,從而將所感知的環境轉化為行動,使其能夠避開移動的叉車、拾取散落的物體或在緊急情況下規劃安全路徑。 傳統上,機器人使用點云 [13–15]、體素網格 [16]、網格 [17–19]和截斷符號距離函數(TSDF)[20]等數據結構來建模環境。盡管這些表示提升了機器人能力,但它們在捕捉復雜或動態環境中的精細幾何細節方面仍存在局限,導致在適應性場景中的性能不佳。

為了克服這些限制,神經場(Neural Fields, NFs)[21]作為一種有前途的替代方案出現,它提供了從空間坐標到物理量(如顏色或符號距離)的連續、可微映射。與傳統的數據結構不同,神經場可以將3D環境建模為由神經網絡或高斯分布參數化的連續函數,從而更加高效地表示復雜的幾何結構和精細細節 [22, 23]。神經場可以使用基于梯度的方法與各種真實世界的傳感器數據(包括圖像和深度圖)進行優化,從而生成高質量的3D重建。

在機器人領域,神經場相比傳統方法具有幾大優勢:

  • 高質量3D重建:神經場生成詳細的3D環境表示,對于導航、操控和場景理解等任務至關重要 [24–28]。
  • 多傳感器融合:神經場可以無縫整合來自多種傳感器的數據,如LiDAR和RGB相機,從而提供更穩健且適應性強的環境感知 [29, 30]。
  • 連續且緊湊的表示:與體素網格或點云的離散性不同,神經場提供連續的表示,能夠以更少的參數捕捉空間細節,提升計算效率 [22, 31]。
  • 泛化與適應性:訓練完成后,神經場可以生成場景的新視角,即使是先前未見過的視角,這對探索或操控任務特別有價值。這一能力得益于通用的NeRF方法 [32–34]。
  • 與基礎模型的集成:神經場可以與基礎模型(如CLIP [35]或DINO [36])結合,使機器人能夠理解并響應自然語言查詢或其他語義輸入 [37, 38]。

生成式AI的最新進展 [39]通過將合成數據作為監督信號進一步擴展了神經場的能力,從而減少了對真實世界觀測數據的依賴。這一范式轉變使得神經場可以在現實數據采集不可行或成本高昂的情況下進行優化。重要的是,它將神經場定位為生成式AI與機器人之間的關鍵橋梁。盡管2D數據生成先驗具有強大的功能,但通常缺乏進行有效機器人決策所需的空間一致性。神經場將這些先驗與稀疏的真實世界數據 [33]結合,能夠在物理環境約束(如有限的傳感器配置和遮擋)下建模傳感與運動空間。 鑒于這些優勢,神經場在機器人領域的應用正迅速發展。圖1和圖2概述了神經場在機器人的應用,并展示了與神經場相關的機器人研究出版物的增長趨勢。本文旨在梳理和分析其對該領域的影響。

本文的結構如下:第II節介紹了神經場的基本公式,而第III節則從以下主題中概述其在不同領域中的優勢:

  • 姿態估計:重點探討神經場在相機姿態估計、物體姿態估計以及同時定位與地圖構建(SLAM)中的應用(第III-A節)。
  • 操控:討論神經場的精確3D重建如何協助機器人操控物體(第III-B節)。
  • 導航:探討神經場如何通過提供對真實環境的精確和高效感知來增強機器人導航(第III-C節)。
  • 物理:研究神經場如何幫助機器人推理物理交互,以改進其對現實動態的理解(第III-D節)。
  • 自動駕駛:重點介紹神經場在構建真實世界的寫實模擬器中的作用(第III-E節)。

我們在第IV節通過探討若干研究方向和挑戰進行總結。據我們所知,本綜述是首批對機器人領域的神經場進行全面考察的研究之一。我們在最接近的并行綜述 [40] 的基礎上補充了對NeRF、3DGS、占用網絡、符號距離場等多個領域的全面涵蓋。通過結合多個維度的見解,本綜述旨在提供對神經場在機器人應用中當前狀態的整體理解,突顯近期成就、未來挑戰及未探索的研究領域。

付費5元查看完整內容

機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。

關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言

視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題

  1. 在工業機器視覺應用中使用了哪些GenAI模型架構?
  2. GenAI方法需要滿足哪些要求和特性才能適用于工業機器視覺領域?
  3. GenAI已成功應用于哪些工業機器視覺任務?

本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。

2 生成式人工智能

生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法

如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。

付費5元查看完整內容

生成式人工智能(GenAI)在近年來取得了顯著進展,并在計算機視覺和計算設計等不同領域的各種生成任務中表現出色。許多研究人員嘗試將GenAI集成到可視化框架中,利用其卓越的生成能力來執行不同操作。同時,近期在GenAI領域的重大突破,如擴散模型和大型語言模型,也極大地提升了GenAI4VIS的潛力。 從技術角度來看,本文回顧了以往利用GenAI的可視化研究,并討論了未來研究的挑戰與機遇。具體而言,我們涵蓋了不同類型的GenAI方法在不同可視化任務中的應用,包括序列生成、表格生成、空間生成和圖生成技術,并將這些任務總結為四個主要階段:數據增強、視覺映射生成、風格化和交互。對于每個具體的可視化子任務,我們展示了典型的數據和具體的GenAI算法,旨在提供對最新GenAI4VIS技術及其局限性的深入理解。 此外,基于綜述,我們討論了評估、數據集以及端到端GenAI與生成算法之間差距這三個主要方面的挑戰和研究機會。通過總結不同的生成算法、它們的當前應用及其局限性,本文旨在為未來的GenAI4VIS研究提供有用的見解。

引言

VizDeck [1]。可視化是通過渲染空間或抽象數據的圖形表示來輔助探索性數據分析的過程。最近,許多研究人員嘗試將人工智能(AI)應用于可視化任務[2, 3, 4, 5, 6]。特別是由于可視化本質上涉及對原始數據的表示和交互,許多可視化研究人員開始采用快速發展的生成式人工智能(GenAI)技術,這是一種通過學習現有的人造樣本生成合成內容和數據的AI技術[7, 8]。近幾年,GenAI在人工智能領域嶄露頭角,對各種研究和應用領域如工件設計和交互設計產生了深遠而廣泛的影響(例如[9, 10, 11])。 最近,多模態AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得沒有傳統藝術和設計技能的普通用戶可以通過簡單的文本提示輕松生成高質量的數字繪畫或設計。在自然語言生成方面,大型語言模型如GPT [14]和LLaMa [15]也展示了驚人的對話、推理和知識嵌入能力。在計算機圖形學領域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潛力。GenAI的獨特優勢在于其靈活的能力,可以基于從現實世界數據中隱含獲得的知識進行數據建模和設計生成。這一特性使GenAI成為一種變革力量,能夠減輕傳統計算方法的工作負擔和復雜性,并通過比以往方法更具創意的生成結果擴展設計的多樣性。 GenAI的巨大潛力在其增強和簡化數據可視化過程中的操作能力中尤為明顯。從數據處理到映射階段及其后,GenAI可以在數據推理和增強、自動可視化生成以及圖表問答等任務中發揮關鍵作用。例如,自動可視化生成在當前的GenAI方法浪潮之前一直是研究重點,為非專業用戶提供了一種有效進行數據分析和創建視覺表示的方法(例如[17, 18])。傳統上,自動可視化方法依賴于基于設計原則的專家設計規則[19]。然而,這些方法受到基于知識系統的限制,難以在復雜規則或過于簡化的目標函數中全面整合專家知識[20]。GenAI的出現引入了一種范式轉變,不僅提高了效率,還在一個前所未有的技術進步時代提供了一種更直觀和可訪問的可視化方法。

盡管GenAI表現出色,但在可視化應用中它可能面臨許多挑戰,因為可視化有其獨特的數據結構和分析需求。例如,可視化圖像的生成與自然或藝術圖像的生成有顯著不同。首先,GenAI在可視化任務中的評估比自然圖像生成更復雜,因為需要考慮許多超出圖像相似性的因素,如效率[21]和數據完整性[22]。其次,與在具有簡單注釋的大型數據集上訓練的通用GenAI任務相比,可視化任務的多樣性和復雜性需要更復雜的訓練數據[23],這更難以策劃。第三,傳統可視化管道與強規則約束之間的差距使得與端到端GenAI方法的完全整合變得困難。這些獨特的特性使得利用最新的通用預訓練GenAI模型來實現特定可視化生成變得不那么直接。因此,了解以前的工作如何利用GenAI進行各種可視化應用,面臨的挑戰是什么,尤其是如何調整GenAI方法以適應這些任務是很重要的。

雖然之前的一些綜述涵蓋了AI在可視化中的一般應用[3],但據我們所知,沒有研究專門集中在綜述GenAI方法在可視化中的應用。本文廣泛綜述了文獻并總結了為可視化開發的AI驅動生成方法。我們根據具體任務將各種GenAI方法分類,這些任務對應于可視化生成的不同階段。通過這種方式,我們收集了81篇關于GenAI4VIS的研究論文。我們特別關注在特定任務中使用的不同算法,希望幫助研究人員理解最新技術的發展及其挑戰。我們還討論并突出潛在的研究機會。 本文的結構如下。第二部分概述了我們綜述的范圍和分類,并定義了關鍵概念。從第三部分到第六部分,每一部分對應于GenAI在可視化管道中的一個階段。具體來說,第三部分討論了GenAI在數據增強中的應用。第四部分總結了利用GenAI進行視覺映射生成的工作。第五部分重點介紹了GenAI如何用于風格化和與可視化的交流。第六部分涵蓋了支持用戶交互的GenAI技術。第三至第六部分的每個小節涵蓋了該階段中的一個特定任務。為了全面理解當前GenAI方法如何處理特定結構的數據以及在特定任務中仍然存在的挑戰,小節的結構分為兩部分:數據和算法以及討論。最后,第七部分討論了未來研究的主要挑戰和研究機會。

范圍與分類

范圍與定義

生成式人工智能(GenAI)是一種通過分析訓練樣本,學習其模式和分布,然后創建逼真仿制品的AI技術。GenAI利用生成建模和深度學習(DL)的進步,通過利用現有的文本、圖形、音頻和視頻等媒體,在大規模上生成多樣化的內容[7, 8]。GenAI的一個關鍵特征是通過從數據中學習而不是通過顯式編程來生成新內容。

** GenAI方法分類**

盡管生成目標在文本、代碼、多媒體到3D生成等不同領域有所不同,但生成的具體算法實際上依賴于數據結構,這些數據結構在不同領域中表現出共同的特征。特別是在GenAI4VIS應用中,基于數據結構的分類可以促進對不同可視化任務中涉及的不同類型數據的算法的更具體理解。這里,我們概述了與數據可視化相關的典型數據結構的不同類型GenAI。

  • 序列生成:此類別包括有序數據的生成,例如文本、代碼、音樂、視頻和時間序列數據。序列生成模型,如LSTMs和Transformers,可用于創建具有順序或時間結構的內容。
  • 表格生成:此類別涵蓋以行和列形式生成結構化數據,如電子表格或數據庫表。應用包括數據增強、匿名化和數據插補。
  • 圖生成:此類別涉及生成圖和網絡結構,如社交網絡、分子結構或推薦系統。像圖神經網絡(GNNs)和圖卷積網絡(GCNs)這樣的模型可以用來生成或操作圖結構數據。
  • 空間生成:此類別涵蓋2D圖像和3D模型的生成。這些數據具有在歐幾里得空間中進行2D或3D投影的空間數據的共同特征,可以表示為具有2D/3D坐標的像素、體素或點。2D生成包括圖像合成、風格遷移和數字藝術,而3D生成涵蓋計算機圖形、虛擬現實和3D打印。像GANs、VAEs和PointNet [24]等技術可以用于創建2D和3D內容。 GenAI4VIS任務分類

為了對收集到的文章進行分類和組織,我們借鑒了描述不同基本階段的經典可視化管道[25]。然而,由于GenAI被應用于不同于傳統操作的更廣泛場景中,我們也修改了該管道以涵蓋一些最新的研究主題,包括數據增強、視覺映射生成、風格化和交互。值得注意的是,數據轉換部分被概括為數據增強的概念,這一術語靈感來自McNabb等人的研究[26]。此外,由于很少有GenAI用于可視化的工作專注于基本視圖轉換,我們將此部分替換為更廣泛的風格化與交流概念。在不同階段下,我們進一步將工作分類為具體任務,如圖1所示。

  • 數據增強:數據增強是指改善數據質量或完整性,或增強數據的特征表示以便后續可視化的過程。這可以包括數據增強、嵌入或其他變換,使其更適合可視化。
  • 視覺映射生成:這是指使用算法和軟件工具自動生成可視化,而無需大量手動干預。自動視覺映射生成允許用戶利用如何創建適當可視化的常識來減少工作量和人為違反設計原則的情況。
  • 風格化:擴展了[27]中提出的呈現概念,我們在可視化中定義了風格化,這涉及應用設計原則和美學選擇,使可視化更具吸引力和有效傳達信息。它包括關于顏色方案、字體、布局和其他視覺或文本元素的決策,以增強信息輔助可視化[20]。 -** 交互**:在數據可視化的背景下,交互是指用戶與可視化數據之間的動態參與和交流。它包括用戶操縱、探索和解釋視覺表示的能力。這可以涉及各種形式的交互,例如圖形交互(如縮放、平移、點擊)和自然語言交互(如圖表問答)。 這些任務的早期方法側重于具有復雜專家設計規則反映設計原則的基于規則的算法,這在許多應用(如色彩映射生成[28])中仍然有效。一些研究還利用基于優化的方法來最小化專家定義的顯式目標函數。然而,這些類型的方法與GenAI方法不同,因為它們是自上而下的,并不從現實世界的數據中學習。為了縮小我們綜述的范圍,我們排除所有純粹基于規則或優化的生成算法。 ** 不同GenAI方法與任務的關系**

由于GenAI4VIS的廣泛多樣化應用,不同GenAI方法與任務之間沒有明確的一對一關系。然而,我們可以觀察到一些有趣的關聯。首先,序列生成主要應用于視覺映射或與交互相關的任務。這是因為如翻譯模型和最新的大型語言模型(LLMs)或視覺-語言模型在生成指定視覺映射的代碼序列或交互流程和輸出序列方面非常有用。其次,表格生成主要用于數據增強。這是因為具有屬性列的表格數據是可視化的最常見初始輸入數據,通過數據增強(如代理數據生成)可以為后續任務帶來好處。接下來,圖生成也主要用于數據增強,因為數據推理和增強可以促進圖數據的后續分析。然而,盡管其使用相對較少,它在視覺映射和風格化方面具有巨大潛力,因為圖結構(如知識圖譜或場景圖)可以優化視覺編碼和布局。最后,空間生成主要應用于數據增強和風格化任務。這是因為2D和3D數據(如圖像和體數據)也是VIS4AI和SciVis應用中常見的輸入類型,而將基本圖表修飾為風格化圖表則依賴于基于圖像的生成方法。圖2通過桑基圖展示了GenAI4VIS任務與方法之間的關系,并例示了不同方法涉及的具體數據類型。表1進一步列出了每種數據結構和任務的詳細方法。

付費5元查看完整內容

隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。

圖1:本文的總體結構。

近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。

隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。

雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。

文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。

  • 介紹了 UV 集群的基本原理,包括其在空中、地面、水面和水下領域的設計和運行以及實際應用案例。
  • 深入概述了常見的 GAI 技術,包括生成對抗網絡 (GAN)、變異自動編碼器 (VAE)、生成擴散模型、變換器和歸一化流。我們還詳細介紹了每種技術在 UV 群體中的主要優勢和挑戰。
  • 全面回顧了 GAI 在 UV 集群各種問題中的應用,如狀態估計、環境感知、任務/資源分配、網絡覆蓋和點對點通信以及安全和隱私。通過回顧這些 GAI 應用,我們深入了解了如何將 GAI 應用于解決 UV 集群中新出現的問題。
  • 介紹了 UV 集群中 GAI 的基本開放問題和未來研究方向,包括可擴展性、自適應 GAI、可解釋群體智能、安全/隱私和異構群體智能。

本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。

圖2:UV系統的基礎結構及其應用。

圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。

狀態估計

狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。

將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。

除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。

此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。

GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。

環境感知

UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。

除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。

GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。

總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。

自主程度

自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。

在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。

此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。

在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。

增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。

任務/資源分配

在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。

有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。

此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。

在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。

另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。

總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。

網絡覆蓋和點對點通信

如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。

雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。

在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。

總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。

安全/隱私

安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。

自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。

在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。

VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。

為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。

總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。

UV安全和故障檢測

UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。

監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。

另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。

此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。

在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。

在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。

結論:

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容

在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。

這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。

付費5元查看完整內容

機器學習的巨大成功導致了AI應用的新浪潮(例如,交通、安全、醫療、金融、國防),這些應用提供了巨大的好處,但無法向人類用戶解釋它們的決定和行動。DARPA的可解釋人工智能(XAI)項目致力于創建人工智能系統,其學習的模型和決策可以被最終用戶理解并適當信任。實現這一目標需要學習更多可解釋的模型、設計有效的解釋界面和理解有效解釋的心理要求的方法。XAI開發團隊正在通過創建ML技術和開發原理、策略和人機交互技術來解決前兩個挑戰,以生成有效的解釋。XAI的另一個團隊正在通過總結、擴展和應用心理解釋理論來解決第三個挑戰,以幫助XAI評估人員定義一個合適的評估框架,開發團隊將使用這個框架來測試他們的系統。XAI團隊于2018年5月完成了第一個為期4年的項目。在一系列正在進行的評估中,開發人員團隊正在評估他們的XAM系統的解釋在多大程度上改善了用戶理解、用戶信任和用戶任務性能。

付費5元查看完整內容
北京阿比特科技有限公司