亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。

圖1:本文的總體結構。

近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。

隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。

雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。

文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。

  • 介紹了 UV 集群的基本原理,包括其在空中、地面、水面和水下領域的設計和運行以及實際應用案例。
  • 深入概述了常見的 GAI 技術,包括生成對抗網絡 (GAN)、變異自動編碼器 (VAE)、生成擴散模型、變換器和歸一化流。我們還詳細介紹了每種技術在 UV 群體中的主要優勢和挑戰。
  • 全面回顧了 GAI 在 UV 集群各種問題中的應用,如狀態估計、環境感知、任務/資源分配、網絡覆蓋和點對點通信以及安全和隱私。通過回顧這些 GAI 應用,我們深入了解了如何將 GAI 應用于解決 UV 集群中新出現的問題。
  • 介紹了 UV 集群中 GAI 的基本開放問題和未來研究方向,包括可擴展性、自適應 GAI、可解釋群體智能、安全/隱私和異構群體智能。

本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。

圖2:UV系統的基礎結構及其應用。

圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。

狀態估計

狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。

將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。

除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。

此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。

GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。

環境感知

UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。

除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。

GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。

總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。

自主程度

自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。

在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。

此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。

在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。

增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。

任務/資源分配

在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。

有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。

此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。

在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。

另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。

總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。

網絡覆蓋和點對點通信

如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。

雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。

在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。

總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。

安全/隱私

安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。

自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。

在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。

VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。

為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。

總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。

UV安全和故障檢測

UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。

監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。

另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。

此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。

在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。

在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

基礎模型通過在廣泛數據上預訓練并能夠適應多種任務,正在推動醫療保健領域的發展。它促進了醫療人工智能(AI)模型的發展,打破了有限AI模型與多樣化醫療實踐之間的矛盾。更廣泛的醫療場景將從醫療基礎模型(HFM)的發展中受益,提高其高級智能醫療服務。盡管HFM的廣泛部署即將到來,但目前對它們在醫療領域的工作方式、當前挑戰以及未來發展方向的理解還不清晰。為了回答這些問題,本綜述提供了對HFM挑戰、機遇和未來發展方向的全面而深入的考察。它首先進行了包括方法、數據和應用在內的HFM全面概述,以快速掌握當前進展。然后,它對構建和廣泛應用醫療基礎模型的數據、算法和計算基礎設施中存在的挑戰進行了深入探索。本綜述還識別了該領域中未來發展的新興和有前景的方向。我們相信,這份綜述將增強社區對HFM當前進展的理解,并為該領域未來的發展提供寶貴的指導。最新的HFM論文和相關資源將在我們的網站上維護。 在過去的十年里,隨著人工智能(AI)[1]特別是深度學習(DL)[2]的發展,醫療技術經歷了革命性的進步[3]-[5]。通過學習醫療數據,AI模型能夠解鎖數據內部的相關信息,從而協助醫療實踐。在一些影響力大的臨床疾病中,包括胰腺癌[6]、視網膜疾病[7]和皮膚癌[8]等,AI模型已經獲得了專家級的表現,顯示出光明的未來。然而,在此之前,針對特定醫療任務的專家AI模型與多樣化的醫療場景和需求之間仍存在很大的矛盾,這阻礙了它們在廣泛醫療實踐中的應用[5]。因此,存在一個開放性問題:“我們能否構建AI模型,以惠及各種醫療任務?”

如圖1所示,最近對基礎模型的研究使AI模型能夠學習通用能力,并應用于廣泛的醫療場景,對這一問題給出了有希望的答案[9]-[12]。在醫療AI相關的子領域中,包括語言、視覺、生物信息學和多模態,醫療基礎模型(HFM)已顯示出令人印象深刻的成功。a) 語言基礎模型(LFM)或稱為大型語言模型(LLM)[13]、[14],為患者和臨床醫生帶來了興奮和關注[13]。它學習了大規模的醫療語言數據,并在醫學文本處理[15]和對話[16]任務中表現出非凡的性能。b) 視覺基礎模型(VFM)在醫學圖像中展示了顯著的潛力。針對特定的模式[17]、[18]、器官[19]和任務[20]、[21]的VFM顯示了它們對潛在醫療場景的適應性和通用性能。c) 生物信息學基礎模型(BFM)幫助研究人員解鎖生命的秘密,為我們在蛋白質序列、DNA、RNA等場景提供了前景[22]-[26]。d) 多模態基礎模型(MFM)[27]-[29]為通用HFM[10]、[30]、[31]提供了一種有效的方式。它整合了來自多種模態的信息,從而實現了解釋各種醫學模態和執行多種模態依賴任務的能力[11]、[31]、[32]。因此,這些模型為解決復雜的臨床問題和提高醫療實踐的效率和效果提供了基礎,從而推動了醫療領域的發展[11]。

HFM的出現源于醫療數據的持續積累、AI算法的發展和計算基礎設施的改進[9]、[12]。然而,數據、算法和計算基礎設施的當前發展不足仍是HFM面臨的各種挑戰的根源。醫療數據的倫理、多樣性、異質性和成本使得構建足夠大的數據集以訓練廣泛醫療實踐中的通用HFM[12]、[33]變得極為困難。AI算法在適應性、容量、可靠性和責任性的需求進一步使其難以應用于真實場景[34]、[35]。由于醫療數據的高維度和大規模(例如,3D CT圖像、整張幻燈片圖像(WSI)等),計算基礎設施的需求遠大于其他領域,無論是在消耗[10]、[12]還是環境[36]方面都極為昂貴。

總的來說,推動醫療保健的基礎模型為我們展示了一個充滿機會和挑戰的新未來。在這篇綜述中,我們從一個全面的視角提出了當前HFM面臨的以下問題:1) 盡管基礎模型取得了顯著的成功,它們在醫療保健中的當前進展是什么?2) 隨著基礎模型的發展,它們面臨哪些挑戰?3) 對于HFM的進一步發展,哪些潛在的未來方向值得我們關注和探索?上述問題的答案將構建對HFM當前狀況的概覽,并為其未來的發展提供清晰的視角。由于HFM的出現,近年來已孵化出數百篇論文。因此,回顧所有這些論文和所有方面在有限的論文空間內是具有挑戰性的。在本文中,我們專注于從2018年(基礎模型時代的開始[9])到2024年醫療領域的語言、視覺、生物信息學和多模態基礎模型的當前進展,以及HFM的挑戰和未來方向。我們希望這篇綜述能幫助研究人員迅速掌握HFM的發展,并激發他們的創造力,以進一步推動醫療保健的邊界。 A. 醫療保健中基礎模型的簡史

根據Bommasani等人[9]的定義,在這篇綜述中,“基礎模型”是指在廣泛數據上預訓練并能夠適應廣泛任務的任何模型。基礎模型時代的另一個社會學特征[9]是廣泛接受將某一基礎AI模型應用于大量不同任務。基礎模型時代的代表性轉折點是2018年底自然語言處理(NLP)中的BERT模型[37],此后,預訓練模型成為NLP的基礎,然后擴散到其他領域。 在醫療保健領域的AI也在由特定目標逐漸轉向一般目標[10],這是由基礎模型的發展所驅動的。在BERT[37]之后的2019年初,BioBERT[38]公開發布,實現了醫療保健中的LFM。到2022年底,ChatGPT[39]憑借其強大的多功能性,使更多與醫療相關的從業者受益于基礎模型,從而吸引了他們的注意并進一步激發了HFM研究的熱潮。僅在2023年8月,就發布了200多項與ChatGPT相關的醫療研究[12]。對于VFMs,眾多初步工作[40]、[41]專注于獨立的預訓練或遷移學習。由于SAM[20]的廣泛影響,通用視覺模型[42]–[44]在醫療保健中引發了研究熱潮。在生物信息學方面,AlphaFold2[25]在2020年蛋白質結構預測的CASP14中獲得第一名,激發了對BFMs的興趣,并推動了RNA[45]、DNA[46]、蛋白質[25]等的研究。2021年初,OpenAI構建了CLIP[47],實現了視覺和語言的大規模學習,取得了顯著的表現。由于醫療數據的天然多模態屬性,這項技術迅速應用于醫療保健[48],并整合了來自圖像、組學、文本等的多模態數據。到2024年2月為止,所回顧的四個子領域中HFM的代表性論文數量呈指數增長(圖2),除了上述典型技術和事件外,一些新興的范式和技術在HFM中也在迅速發展。

B. 相關綜述比較及我們的貢獻

在我們廣泛的搜索中,我們發現了17項與醫療基礎模型相關的代表性綜述,應注意現有綜述在HFMs不同方面提供了有見地的想法[10]–[14]、[32]、[48]–[58]。與這些作品相比,本綜述進行了更全面的HFM概述和分析,包括方法、數據和應用,并對挑戰和未來方向進行了深入的討論和展望。具體來說,它具有以下獨特優勢:1) 系統的HFM子領域分類和研究。本綜述涵蓋了與HFM相關的四個子領域,包括語言、視覺、生物信息學和多模態。與現有的綜述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了對整個HFM領域更全面的視角。2) 對HFM方法的深入分析。本綜述深入分析了從預訓練到適應不同子領域的方法,貫穿了在醫療保健中構建通用AI模型的過程。與現有的綜述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系統總結。3) 對不同屬性HFMs的廣泛回顧。本綜述介紹了整個過程的技術和HFMs,并不局限于某些特殊屬性,如“大”[12]。與現有的綜述[12]、[56]相比,它提供了具有不同屬性HFMs的廣泛視角。4) 對HFM不同關注點的全面和更深入的探索。本綜述探討了包括方法、數據、應用、挑戰和未來方向在內的全面內容。與現有的綜述[10]、[56]、[57]相比,它為HFM提供了一個完整的視角,使讀者能夠獲得更深入的理解。

本綜述提供了對醫療基礎模型的洞察,我們的貢獻如下列出: 1. 方法的系統回顧(第二節):從2018年到2024年(1月-2月)涉及HFMs的200篇技術論文被納入本綜述。我們為這些論文提出了一個新的分類,并在語言、視覺、生物信息學和多模態子領域的預訓練和適應方面進行了回顧。它為醫療基礎模型的潛在技術創新提供了洞察。 1. 數據集的全面調查(第三節):我們調查了HFM培訓可能使用的四個子領域中的114個大規模數據集/數據庫。它識別了醫療數據集當前的限制,并為HFM研究人員提供了數據資源指導。 1. 應用的全面概述(第四節):我們概述了當前HFM作品中的16個潛在醫療應用。它展示了HFM技術在醫療實踐中的當前發展,為未來在更多場景中的應用提供了參考。 1. 關鍵挑戰的深入討論(第五節):我們討論了與數據、算法和計算基礎設施相關的關鍵挑戰。它指出了HFM當前的不足,為研究人員提供了新的機會。 1. 對新興未來方向的遠見探索(第六節):我們期待HFM在其角色、實施、應用和重點方面的未來方向。它顯示了醫療AI從傳統范式到基礎模型時代的轉變,突出了在推動該領域發展方面具有前景的未來觀點。

付費5元查看完整內容

由人工智能(AI)支持的自主系統已經徹底改變了軍事行動和現代戰爭。無人系統非常適合執行危險和重復性的任務,在增強態勢感知和后勤能力的同時,也降低了對人類人員的風險。然而,它們日益重要的作用也引發了重大的安全問題:無人系統嚴重依賴機器學習(ML),容易受到網絡攻擊,從而危及任務、部隊和關鍵技術。雖然沒有系統是不可破解的,但系統架構對于確保設備盡可能抵御網絡攻擊至關重要,這不僅體現在初始部署,還體現在其產品生命周期的若干年內。因此,在整個開發和部署生命周期中都必須采取強有力的保障措施。安全設計原則、加密、訪問控制和安全通信可以強化這些系統,防止未經授權的訪問。

隨著自主系統在海洋、陸地和戰場上越來越普遍,包括軍隊、私營部門、學術界和政府在內的航空航天與國防(A&D)生態系統必須考慮大量因素。

從長矛、大炮到坦克,技術進步早已為軍隊帶來了戰術優勢。如今,人工智能(AI)已成為有望徹底改變戰爭的下一個前沿領域。能否實現這一愿景,取決于是否有能力防止這些 "會思考 "的機器被用來對付我們。

新的矛頭:無人機(UAV)和自主哨兵

無人機(UAV)和機器人哨兵 "狗 "等自主技術正在重新定義戰斗空間。這些設備擅長勘測地形、識別目標、探測威脅并解除威脅,而不會危及軍人的安全。它們的潛力巨大,但也存在漏洞。如果在設計中不采取嚴格的網絡安全措施,這些自主系統最終服務的可能是我們的對手,而不是我們的兵力。

軍用無人機和設備利用尖端的人工智能技術,只需極少的人工引導即可運行。計算機視覺算法使無人機能夠導航和探測目標,而自然語言處理技術則能分析語音和文本數據以提取洞察力。強化學習可優化復雜任務的決策,而深度神經網絡則可識別模式并從海量數據集中進行預測。

然而,增強無人系統的技術也帶來了新的網絡安全風險。人工智能支持的自主平臺在很大程度上依賴于數據和機器學習(ML)算法,這可能會使其面臨數據中毒、模型被盜以及旨在操縱其行為的惡意攻擊。

國防系統面臨的網絡威脅不斷增加

2015 年至 2021 年間,美國國防部(DoD)經歷了 12000 多起針對無人機和無人駕駛飛行器等無人系統的網絡事件--這個數字還會上升。攻擊者通過干擾通信、奪取飛行器控制權、竊取用于訓練人工智能模型的專有技術和敏感數據集等方式危害國家安全。這些最近的例子凸顯了網絡威脅日益增長的態勢。

此外,美國還面臨著來自戰略競爭對手的日益嚴重的網絡威脅,他們正在利用距離直接沖突不遠的灰色地帶,試圖破壞安全利益。這些漏洞的后果可能超出直接的安全風險: 黑客可能會偷取數據來降低人工智能模型的性能,或者竊取知識產權,如專有算法,從而削弱一個國家的競爭優勢。(圖 1)。

圖1 美國及其軍事利益面臨著來自戰略競爭對手的日益嚴重的網絡威脅,這些競爭對手試圖利用尚未發生沖突的灰色地帶破壞國家安全。

然而,預計到 2028 年,全球軍用人工智能市場規模將超過 130 億美元,這反映出越來越多的人開始采用這些非常適合執行危險任務和提高態勢感知能力的系統。在這種快速發展和暴露的環境中,技術進步與網絡安全復原力之間的微妙平衡已成為維護國家利益和保護每個人的當務之急。

用模塊化開放系統架構加強防御

為加強防御,無人系統開發人員應利用模塊化開放系統架構(MOSA)原則。模塊化開放系統架構通過開放標準和接口提供強大而靈活的網絡安全保障。

開發人員還可以將來自不同供應商的傳感器、處理器和功能作為人工智能操作系統的模塊組件進行集成。這種即插即用的方法更便于快速更換易受攻擊的部件,并針對快速發展的威脅定制防御措施。這也是沙箱或分離功能的關鍵策略,這樣任何損壞的應用程序都不會給其他應用程序帶來問題。

利用 MOSA,還可以利用最小特權原則(PoLP)(也稱為最小特權訪問模型)來保護系統架構免受破壞或攻擊。利用PoLP,內存等系統資源可以不可改變地分配給某些功能,開發人員可以確保應用程序只能訪問完成任務所需的最小系統功能集。

利用未來機載能力環境(FACE)和傳感器開放系統架構(SOSA)等通用開放式架構標準,可以安全地集成組件,并在不同平臺和不同技術世代之間實現互換。例如,一個供應商提供的模塊化計算板可以用另一個供應商提供的升級模塊替換,而無需徹底修改整個系統設計。

MOSA 還減少了對供應商的鎖定,從而使長期維護和升級更加經濟實惠。考慮到維持和維護成本通常占國防部系統生命周期成本的 70%,采用組件可互換的模塊化方法有望大大減少為適應新系統而重寫代碼的需要。

開發人員可以創建可重復使用、經認可的軟件和加密 IP 庫,從而簡化并加速新功能的集成,以適應不斷變化的威脅。通過迭代開發和測試,MOSA 等開放式架構方法可以更輕松地持續驗證、確認和認證是否符合安全標準。

從硬件的設計階段到軟件的開發階段,無人系統的每個層面都必須考慮到安全問題。為防止未經授權的訪問,開發人員應采用加密關鍵數據和通信、建立基于角色的訪問控制以及設計具有內置防篡改機制的硬件等策略。主動監控、頻繁打補丁和定期重新訓練 ML 模型將增強其在生命周期內的恢復能力。

軍事人工智能發展與網絡彈性之間的必要平衡

人工智能和自主技術正在改變現代戰爭:無人系統增強了軍事能力,同時降低了人類面臨的風險,并確保網絡安全始終是重中之重。如果不能在這些系統中建立強大的防御系統,我們的對手就可能獲得優勢。

隨著無人系統的普及,A&D 生態系統必須共同努力,應對人工智能帶來的獨特安全挑戰。為此,公共和私營部門應增加對安全人工智能研發的投資。學術機構可以加強網絡安全、ML 和機器人等領域的培訓。

隨著系統變得更加自主,政策制定者還必須使法規現代化,以促進安全性和問責制。采購準則應要求采用模塊化設計和開放式標準,使無人平臺面向未來。通過全企業范圍內的合作和警惕,無人駕駛系統實際上可以以負責任的方式部署,從而贏得信任。

人工智能的前景是廣闊的,但如果不對其力量加以控制,危險也會隨之而來。如果將嚴格的網絡安全保護措施融入系統架構中,人工智能操作系統就能加強國家安全,為作戰人員提供持久優勢,應對不斷變化的威脅。A&D 行業有義務以明智和合乎道德的方式開發和利用這些技術。通過將安全放在首位,行業和政府可以負責任地獲得人工智能的好處,同時保障生命和自由。

付費5元查看完整內容

個人數字數據是一項關鍵資產,全球各地的政府已經實施了法律和規章來保護數據隱私。數據使用者被賦予了其數據的“被遺忘權”。在機器學習(ML)過程中,被遺忘權要求模型提供者在用戶請求時刪除用戶數據及其對ML模型的后續影響。機器遺忘應運而生,以解決這一問題,它從業界和學術界獲得了越來越多的關注。雖然這一領域發展迅速,但缺乏全面的綜述來捕捉最新的進展。認識到這一缺口,我們進行了廣泛的探索,繪制了機器遺忘的全景,包括在集中式和分布式設置下遺忘算法的(細粒度)分類、關于近似遺忘的討論、驗證和評估指標、不同應用下遺忘的挑戰和解決方案,以及針對機器遺忘的攻擊。本綜述通過概述未來研究的潛在方向來結束,希望能為感興趣的學者們提供指導。

//www.zhuanzhi.ai/paper/0f1c229cadcb491e16dc9a452b6d7d91

在數據和計算能力的爆炸性增長驅動下,深度學習(DL)在各種應用中展現了驚人的性能,如自動駕駛[77, 130]、從氨基酸序列預測蛋白質的3D結構[51]、破譯遺傳密碼并揭示隱藏的DNA疾病的秘密[22],以及最近的人工智能生成內容(AIGC)浪潮,代表作有通過ChatGPT進行的文本生成[29, 97]、通過擴散模型進行的圖像和視頻生成[125]、以及通過Codex進行的代碼生成[19]。這些模型是在用戶貢獻的數據[70]上訓練的。無意中,這引發了隱私擔憂,因為模型永久記住了用戶的私人信息,這可能通過已知的例如成員推斷、屬性推斷和偏好分析攻擊以及尚未披露的隱私攻擊泄露。

通過認識到保護用戶數據隱私的重要性,國家政府已經發布了一系列規定,包括歐盟的一般數據保護條例(GDPR)[2]、加拿大的消費者隱私保護法(CPPA)和美國的加利福尼亞消費者隱私法(CCPA)[1]。這些規定規定了相關數據消費者或組織收集、存儲、分析和利用公民個人數據的強制手段。通過“被遺忘權”的執行,數據消費者必須迅速遵守用戶請求刪除其數據并消除任何相關影響。這賦予了數據貢獻者即使在數據發布后也能控制自己數據的能力,促進了分享和貢獻高質量數據的意愿。這反過來又通過提高服務利潤和降低法律風險,為(模型)服務提供者帶來了好處[11]。

值得注意的是,遺忘數據不僅符合法律要求以保護隱私,而且在其他場景中也是有益的。它可以遺忘由于有害數據(例如,對抗數據、投毒數據[134]、噪聲標簽[80])或過時數據造成的不利影響,從而提高模型的安全性、響應性和可靠性。此外,通過遺忘對手針對的受害者數據,它可以減輕多種隱私攻擊,如成員推斷攻擊和模型反轉攻擊,防止模型中敏感訓練數據的私人信息泄露。

在DL上下文中,僅從后端數據庫中刪除原始訓練數據相對無意義。因為DL模型仍然(顯式或非顯式地)記住了通常包含請求數據樣本的敏感細節的根深蒂固的模式和特征[4, 13]。因此,與DL模型直接相關的原始數據潛在表示似乎是一個挑戰,難以直接從DL模型中消除。現有的傳統隱私保護技術未能滿足這些要求,導致了機器學習中稱為機器遺忘(MU)的研究方向的出現。MU使數據貢獻者能夠主動撤回用于模型訓練的數據,旨在從訓練好的模型中擦除其影響,就好像它從未存在過一樣,而不損害模型的實用性(如圖1所示)。

鑒于賦予的“被遺忘權”,機器遺忘無疑變得更加相關。最直接的方法是定期從頭開始在剩余數據集上重新訓練一個新模型(不包括要遺忘的數據群)。不幸的是,這顯然會帶來昂貴的計算開銷以及響應延遲,尤其是對于不斷增加的數據集大小和模型復雜性。這種從頭開始的訓練更有可能對模型提供者和用戶來說是不可接受的,因此對于實際應用來說并不實用。機器遺忘試圖克服上述簡單方法的嚴重缺點。現有的MU方法可以根據是否需要對剩余數據集進行(重新)訓練操作分為兩大類,即精確遺忘和近似遺忘。精確遺忘旨在加速(重新)訓練過程,而近似遺忘通過直接更改模型參數,避免了重新訓練的需要,兩者都使得遺忘后的模型與采用簡單方法獲得的模型無法區分。

**機器遺忘正在經歷迅速的發展,但存在著顯著的全面總結和分析缺乏,以更好地描繪最新技術狀態。**例如,缺乏解決跨各種應用的機器遺忘挑戰的討論,以及缺少對機器遺忘安全性分析的討論。這些不足促使我們進行了徹底的調查。本綜述涵蓋了2015年至2024年機器遺忘領域的關鍵研究,包括集中式和分布式設置下遺忘算法的分類——后者經常被忽視,評估和驗證指標,啟用遺忘的應用,以及針對威脅MU的攻擊。本綜述的目的是提供一個知識庫,以促進該新興MU領域的進一步學術研究和創新。 本綜述的關鍵貢獻總結如下

我們對現有的機器遺忘算法進行了全面的回顧,這些算法適用于包括大型語言模型在內的多種任務,系統地將它們按遺忘機制進行分類,并對每個(子)類別固有的優點和限制進行了批判性分析。

我們提供了在分布式學習設置中面臨的機器遺忘挑戰的詳細分析,系統地對其方法進行了分類并比較了它們的優點和缺點。

我們為機器遺忘中現有的驗證和評估指標制定了一個分類體系。這個分類旨在協助數據所有者和模型所有者,強調每個指標的主要關注點。

我們強調了機器遺忘在各種場景中的多樣化應用,強調其在優化模型和防御安全與隱私攻擊方面的獨特優勢。這種靈活性允許在現實世界情況下根據特定需求進行快速部署和適應。

我們對與機器遺忘相關的挑戰進行了徹底的考察,概述了未來學者探索和參考的潛在研究方向。

本綜述的組織結構如下。第2節介紹機器遺忘的初步知識。第3節討論用于衡量機器遺忘質量的驗證和評估指標。第4節對現有的機器遺忘算法進行分類,深入探討每個細粒度類別并徹底分析其各自的優點和缺點。第5節研究分布式設置中出現的機器遺忘。第6節強調機器遺忘啟用的潛在應用,例如,擦除有害信息。第7節總結針對機器遺忘的現有隱私和安全攻擊。最后,第8節勾畫了機器遺忘當前面臨的挑戰,并提出了有希望的未來研究方向。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

從規劃到執行,人工智能(AI)在軍事行動中發揮著越來越重要的作用。隨著技術的進步,將人工智能融入國防戰略已成為各國保持競爭優勢、確保國民安全和安保的關鍵所在。人工智能在軍事行動中的潛在應用非常廣泛,從加強決策過程到提高軍事系統的效率和效力,不一而足。

人工智能在軍事行動中的主要應用方式之一是分析大量數據。在當今的信息時代,兵力從衛星圖像、信號情報和社交媒體等各種來源生成和收集海量數據。人工分析這些數據是一個耗時耗力的過程,可能會延誤關鍵決策。而人工智能算法則能以更快的速度處理和分析這些數據,使軍事指揮官能夠根據實時信息做出更明智的決策。

除數據分析外,人工智能還被用于加強軍事行動的規劃和執行。例如,人工智能驅動的系統可以通過模擬各種場景和預測不同戰略的結果,幫助軍事戰略家制定更有效、更高效的作戰計劃。這樣,指揮官就能根據最準確的最新信息選擇最佳行動方案。此外,人工智能還可用于優化人員和裝備等資源的分配,確保以最有效的方式部署兵力。

人工智能在軍事行動中的另一個重要應用是開發自主系統。無人駕駛飛行器(UAVs)又稱無人機,由于能夠在不危及人類生命的情況下執行監視和偵察任務,已成為現代戰爭的主要裝備。人工智能技術有可能進一步提升這些能力,使無人機能夠自主運行,根據周圍環境和任務目標做出決策,而無需人工干預。這不僅能降低人類操作員的風險,還能更高效、更有效地利用這些資產。

此外,人工智能正被集成到各種軍事系統中,以提高其性能和能力。例如,人工智能驅動的算法可用于提高導彈防御系統的精確度和瞄準能力,增強其攔截和消除來襲威脅的效力。同樣,人工智能也可用于提高軍事通信系統的性能,確保信息在不同單位和指揮中心之間快速、安全地傳輸。

盡管人工智能為軍事行動帶來了諸多好處,但也存在一些需要解決的問題和挑戰。其中一個主要問題是在戰爭中使用人工智能所涉及的倫理問題,特別是當涉及到可以在沒有人類干預的情況下做出生死攸關決定的自主系統時。確保這些系統遵守國際法和道德標準對于防止潛在的濫用和意外后果至關重要。

另一個挑戰是對手惡意利用人工智能技術的風險。隨著人工智能變得越來越先進,越來越容易獲取,人們越來越擔心敵對行為體可能會利用人工智能開發出新的、更復雜的網絡戰形式,甚至制造出難以防御的人工智能武器。

總之,將人工智能融入軍事行動有可能徹底改變戰爭的打法和勝負。從加強決策過程到提高軍事系統的效率和效力,人工智能提供了眾多好處,可以幫助各國在日益復雜和不可預測的全球安全環境中保持競爭優勢。然而,必須解決與戰爭中的人工智能相關的倫理問題和潛在風險,以確保負責任地使用這項技術,并為更大的利益服務。

參考來源:TS2 space,作者:Marcin Fr?ckiewicz

付費5元查看完整內容

目前人工智能尚處于狹義人工智能階段,只能針對特定任務與封閉場景,難以應對多任務 與不確定性環境時應用需求。 “集成智能”是將一種或多種智能能力進行集成,是實現適應場景的 人工智能的可能路徑。 現有研究對于集成智能系統評價的研究尚不成熟,難以牽引集成智能系統 研究。 在分析集成智能概念內涵的基礎上,提出了面向基礎級、系統級以及應用級的多視角多層次 集成智能系統評價框架并以人機協同軍事智能應用為例,應用該框架建立了相應的指標體系,從而 指導集成智能系統的評價。

近年來,人工智能加速發展,“里程碑” 成果不 斷涌現,應用領域快速拓展,即將演進形成顛覆式科 技變革,“智能化革命” 正在孕育。 但是,當前人工 智能研究還是以解決場景封閉的特定任務的單一智 能為主,在應用于諸如軍事等領域中缺乏通用性與 適應性[1] 。 集成智能是將多種單一智能集成從而 提高通用性與適應性,是今后人工智能研究的重要方向。

智能系統評價不僅關乎對現有系統評價比較, 更關乎未來發展方向的牽引與指導,是人工智能研 究中的關鍵領域。 面向特定領域的智能系統測評研 究已經有一定研究成果,如面向組件級、系統級等多 層次的 SCORE(System, Component and Operationally Relevant Evaluations)評價模型[3] 、面向自治水平的 (Autonomy Levels for Unmanned Systems,ALFUS)評 價框架[4]與認知心理學中反映人類認知能力的典 型結構(Cattell?Horn?Carroll,CHC) [14]等。 但是上述 相關研究一方面并沒有突出對于未來集成智能系統 的評價框架與方法研究,更重要的是上述研究往往 是從計算機系統、應用場景或認知科學等單一領域 出發,沒有全面分析“智能”的概念內涵,缺乏在多 學科領域下對“智能”的認知與評價,因而難以實現 對智能以及智能系統未來發展的牽引與指導。 為此,本文首先面向智能尤其是集成智能的概 念內涵的相關研究進行借鑒與分析,以“集成智能” 概念內涵為基礎,提出了多視角、多層次的集成智能 評價框架,具有更好的通用性、全面性與科學性;然 后,以該框架為指導、以典型軍事智能應用需求為例 構建相應指標體系,指導集成智能系統評價并支撐 集成智能系統測評的應用落地,從而為集成智能技 術發展與系統研制提供牽引支撐。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。

結論:

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

近年來,隨著人工智能與大數據技術的發展,深度神經網絡在語音識別、自然語言處理、圖像理解、視 頻分析等應用領域取得了突破性進展. 深度神經網絡的模型層數多、參數量大且計算復雜,對硬件的計算能力、 內存帶寬及數據存儲等有較高的要求. FPGA 作為一種可編程邏輯器件,具有可編程、高性能、低能耗、高穩定、 可并行和安全性的特點. **FPGA 與深度神經網絡的結合成為推動人工智能產業應用的研究熱點. **本文首先簡述了人工神經網絡坎坷的七十年發展歷程與目前主流的深度神經網絡模型,并介紹了支持深度神經網絡發展與應用的主 流硬件;接下來,在介紹 FPGA 的發展歷程、開發方式、開發流程及型號選取的基礎上,從六個方向分析了 FPGA 與深度神經網絡結合的產業應用研究熱點;然后,基于 FPGA 的硬件結構與深度神經網絡的模型特點,總結了基 于 FPGA 的深度神經網絡的設計思路、優化方向和學習策略;接下來,歸納了 FPGA 型號選擇以及相關研究的評 價指標與度量分析原則;最后,我們總結了影響 FPGA 應用于深度神經網絡的五個主要因素并進行了概要分析.

引言**

隨著智能化時代的到來,人工智能的應用已經 深入到社會的各行各業. 作為人工智能的主要研究 分支,神經網絡的研究和發展成為主導當前智能化 程度的主要力量. 簡單來講,神經網絡是通過模擬 人腦中神經元的連接方式來實現類腦的信息處理過 程. 在過去的七十年發展歷史中,神經網絡的發展 也經歷了質疑和低谷,得幸于研究者的堅持探索才 使它被普遍認可并有機會更好的造福人類. 為讓機 器更好地模擬人腦來認識世界,神經網絡模型不斷 革新發展,經歷了從淺層神經網絡到深度神經網絡 的重要變革. 目前,深度神經網絡可以利用深層的 結構很好地提取和擬合數據特征,并在語音識別、 自然語言處理、圖像理解、視頻分析等應用領域取 得了突破性進展. 研究者在追求更好精度的同時, 深度神經網絡模型層數和參數數量也在不斷增加, 從而對硬件的計算能力、內存帶寬及數據存儲等的 要求也越來越高. 因此. 計算能力強、可并行加速、 數據吞吐高的高性能硬件平臺對于模型訓練和產業 應用來說顯得尤為重要. 本節將概述神經網絡的發 展史和當前流行的深度神經網絡模型,并分析推動 深度神經網絡產業應用的主流硬件平臺.

1.1 深度神經網絡的發展歷程**

相比今天神經網絡的發展速度,其基礎理論研 究初期卻經歷重重波折. 最早的神經網絡數學模型 是由心理學家 McCulloch 教授和數學家 Pitts 教授于 1943 年提出的模擬人類大腦神經元的 McCullochPitt 神經元模型,并被稱為 M-P 模型[1]. 該模型是通 過簡單的線性加權來實現對人類神經元處理信號的 模擬,該工作被稱為人工神經網絡(ANN)的起點,隨后出現的神經網絡模型均是以該模型為基礎的**. 然而,其性能的好壞完全由分配的權重決定,這就 使該模型很難達到最優的效果. 隨后,為了改善該 模型并讓計算機自動合理的設置權重,心理學家 Hebb 于 1949 年提出 Hebb 學習規則[2]并得到諾貝爾 醫學獎得主 Kandel 的認可. 康奈爾大學的實驗心理 學家 Rosenblatt 于 1958 年提出感知機模型[3],該模 型是第一個真正意義上的人工神經網絡,標志著神 經網絡研究進入了第一次高潮期. Minsky 和 Papert 等學者對感知機模型進行了分析,結論為該模型無 法求解簡單的異或等線性不可分問題[4],從此神經 網絡的發展進入低潮甚至幾乎處于停滯狀態. 隨 后,并行分布處理[5]、反向傳播算法[6]及 1982 年連 續和離散 Hopfield 神經網絡模型的提出為研究者重 新打開了思路,開啟了神經網絡發展的又一個春天, 此后的神經網絡模型研究開始向問題導向發展.

1985 年 Sejnowski 和 Hinton 受 Hopfield 神經網 絡模型的啟示提出的玻爾茲曼機模型[7]. 該模型通 過學習數據的固有內在表示來解決困難學習的問 題,隨后又針對模型局限性進一步提出受限玻爾茲 曼機模型[8]和深度玻爾茲曼機模型[9]. 反向傳播算 法于 1986 年得到進一步發展,成為后續神經網絡 模型發展的基石[10],1990 年用于解決數據結構關 系的遞歸神經網絡出現[11]. 經過半個世紀的研究, 加拿大多倫多大學的教授 Hinton 等人在 2006 年提 出了深度置信網絡模型[12],不但提出了多隱層的神 經網絡,而且提出了深層神經網絡在訓練問題上的 解決方法,該模型開啟了深度神經網絡的研究熱 潮.** 自此,針對特定研究問題的深度神經網絡模型 大量涌現**.

深度卷積神經網絡是一種受啟發于人類大腦對眼睛里接收到的信號的理解過程而提出的神經網絡 模型. 該網絡作為人工神經網絡的典型模型之一被 提出并出色地應用于計算機視覺領域. LeCun 等人 提出的 LeNet 模型作為卷積神經網絡的雛形起初被 應用于手寫體識別 . 2012 年 Hinton 等人提出 AlexNet 模型,并應用 ImageNet 圖像識別大賽中[13], 其精確度顛覆了圖像識別領域,使卷積神經網絡進 入大眾視野. 隨后出現了大量經典卷積神經網絡模 型如在網絡層次上進行加深的 NIN[14],GoogLeNet[15], VGGNet[16] 等,通過拆分卷積核來提升效率的 Inception V2/V3[17],在深層網絡中引入連跳結構來 緩解梯度消失的 ResNet[18]和 DenseNet[19]等. 除此 之外,還有建模特征通道間相互依賴關系的 SENet[20]、基于 ResNet 進行改進的 ResNext[21]及 ResNeSt[22]等. 在不同的研究領域也出現大量經典 的卷積神經網絡模型,如致力于全景分割的 UPSNet[23]、FPSNet[24]和 OANet[25]等,致力于目標 檢測的 Faster-RCNN[26] 、 YOLO v1/v2/v3[27–29] 、 SSD[30]、EfficientDet[31]、LRF-Net[32]等,致力于目 標跟蹤的 SimeseNet[33]、MDNet[34]. 目前,隨著社會 的不斷進步,卷積神經網絡的各種變型模型已經被 應用于無人駕駛、智能監控和機器人等領域. 膠囊 網絡是 Hinton 團隊于 2017 年為彌補卷積神經網絡 在物體空間關系上認知的不足而提出的一種新的網 絡體系結構. 其與卷積神經網絡的區別在于,該網 絡是一種由含有一小群神經元的膠囊組成新型的神 經網絡[35],這些膠囊之間通過動態路由來傳遞特征. 膠囊網絡獨特的數據表示方式使其考慮了目標的位 置、方向、形變等特征,并能對提取的特征進行理 解. 隨后,為提升膠囊網絡的性能,對膠囊進行優 化[36–38]和對動態路由進行優化[39, 40]的方法被提出. 目前,膠囊網絡的成就主要有抵御對抗性攻擊、結 合圖卷積神經網絡進行圖像分類、結合注意力機制 進行零樣本意圖識別等。

深度強化學習是一種集感知能力和決策能力為 一體的神經網絡模型,其應用成果真正進入大眾視 野是在 Alpha Go 出現后. Google DeepMind 公司提 出的深度強化學習模型 Deep Q-Network[41]讓這一 更接近人類思維方式的模型得到更多學者的青睞. 隨后,針對 Deep Q-Network 計算方法、網絡結構 和數據結構進行改進出現了 Double DQN、Dueling Network 和 Prioritized Replay 三種強化學習模型. 另 外,Deep Q-Network 加入了遞歸思想生成了 Deep Recurrent Q-Network. 田春偉等人將強化學習思想 用于目標跟蹤領域并提出了 ADNet 模型[42]. 除此之 外,繼 Alpha Go 之后,DeepMind 又推出基于強化 學習的 AlphaZero[43]和 MuZero[44],提高了深度神經 網絡的智能化水平. 生成對抗網絡(GAN)[45]是由 Goodfellow 等人在 2014 年提出的,是采用博弈對抗 理論的一種新型神經網絡模型. 該模型打破了已存 在的神經網絡對標簽的依賴性,一出現就受到業界 的歡迎并衍生出許多廣泛流行的構架模型,主要有:第一次將 GAN 和卷積神經網絡相結合的 DCGAN 模型[46]、利用 GAN 刷新人臉生成任務的 StyleGAN 模型[47]、探索文本和圖像合成的 StackGAN 模型[48]、 進行圖像風格轉化的 CycleGAN[49]、Pix2Pix[50]和 StyleGAN[47],首次可生成具有高保真度低品種差距 圖像的 BigGAN[51],用于解決視頻跟蹤問題中樣本 不均衡問題的 VITAL 網絡模型[52]. 圖神經網絡是針 對圖結構數據發展而來的一種神經網絡模型,該模 型可以對可轉化為圖結構的數據之間的關系進行處 理分析,它克服了已有的神經網絡模型在處理不規 則數據時的不足. 圖神經網絡模型最早起源于 2005 年[53],隨后由 Franco 博士在 2009 年首次定義了該 模型的理論基礎[54],提出之初,該模型并沒有引起 很大波瀾,直到 2013 年圖神經網絡才得到廣泛關注. 近年來圖神經網絡得到廣泛應用,同時結合已有網 絡模型. 圖神經網絡的不同拓展模型被不斷提出, 如圖卷積網絡(Graph Convolutional Networks)[55]、 圖注意力網絡(Graph Attention Networks)[56]、圖 自編碼器(Graph Auto-encoder)[57]、圖時空網絡 (Graph Spatial-Temporal Networks)[58]、圖強化學 習[59–61]、圖對抗網絡模型[62,63]等. 目前,圖神經網 絡模型應用比較廣泛,不僅被應用于計算機視覺、 推薦系統、社交網絡、智能交通等領域,還被應用 于物理、化學、生物和知識圖譜等領域.

輕量級神經網絡是在保證模型的精度下對神經 網絡結構進行壓縮、量化、剪枝、低秩分解、教師學生網絡、輕量化設計后的小體積網絡模型. 2015 年之前,隨著神經網絡模型性能的不斷提升,不斷 增大的網絡體積和復雜度對計算資源也有較高的需 求,這就限制了當前高性能的網絡模型在移動設備 上的靈活應用. 為了解決這一問題,在保證精確度 的基礎上,一些輕量級網絡應運而生. 從 2016 年開 始,SqueezeNet[64]、ShuffleNet[65]、NasNet[66]以及 MobileNet[67]、MobileNetV2[68]、MobileNetV3[69]等 輕量級網絡模型相繼出現,這些輕量級網絡的出現 使一些嵌入式設備和移動終端運行神經網絡成為可 能,也使神經網絡得到更廣泛的應用。

自動機器學習(Automatic Machine Learning,AutoML)是針對機器學習領域對機器學習從業者和 所需經費的需求不斷增長而提出的一種真正意義上 的自動化機器學習系統. AutoML 代替人工進行自動 的網絡模型選取、目標特征選擇、網絡參數優化和 模型評價. 也就是說,AutoML 可以自動構建具有有 限計算預算的機器學習模型結構. AutoML 通過 2017 年 5 月的 Google I/O 大會進入業界視野并得到 廣泛關注. 隨著神經網絡深度和模型數量的不斷增 加,大部分的 AutoML 研究將重點關注在了神經網 絡搜索算法(Neural Architecture Search algorithm, NAS),NAS 的開創性工作是 GoogleBrain 于 2016 年同時提出的[70]. 隨后 MIT 和 GoogleBrain 又在其 基礎上做了一系列的改進工作,加入了強化學習、 基于序列模型的優化、遷移學習等更多合理的邏輯 思路,隨之依次出現了 NasNet[66,71]、基于正則化 進化的 NasNet[72]、PNAS[73]和 ENAS[74]等. 賀鑫等 將目前神經網絡搜索算法的研究進展進行了詳細 總結[75]. Google 推出了 Cloud AutoML 平臺,只需 上傳你的數據,Google 的 NAS 算法就會為你找到 一個快速簡便的架構. AutoML 的出現降低了部分行 業對機器學習尤其是神經網絡的使用者的在數量 和知識儲備上的要求,進一步拓寬了機器學習和神 經網絡的適用范圍.

1.2 深度神經網絡的主流硬件平臺

**隨著硬件技術和深度神經網絡的發展,目前形 成了以“CPU+GPU”的異構模式服務器為主的深度 神經網絡的研究平臺,如英偉達的 DGX-2. 其具有 16 塊 Tesla V100 GPU,可以提供最高達 2 PFLOPs 的計算能力. 面對復雜的實際應用需求和不斷加深 的神經網絡結構,多樣化的深度神經網絡硬件平臺 也不斷發展起來,形成了以通用性芯片(CPU、 GPU)、半制定化芯片(FPGA)、全制定化芯片 (ASIC)、集成電路芯片(SoC)和類腦芯片等為主 的硬件平臺市場. 計算性能、靈活性、易用性、成 本和功耗等成為評價深度神經網絡硬件平臺的因素 和標準.

1.2.1 GPU

GPU(Graphic Processing Unit)起初專門用于 處理圖形任務,主要由控制器、寄存器和邏輯單元 構成. GPU 包含幾千個流處理器,可將運算并行化 執行,大幅縮短模型的運算時間. 由于其強大的計 算能力,目前主要被用于處理大規模的計算任務. 英偉達在 2006 年推出了統一計算設備構架 CUDA 及對應的 G80 平臺,第一次讓 GPU 具有可編程性, 使得 GPU 的流式處理器除了處理圖形也具備處理 單精度浮點數的能力. 在深度神經網絡中,大多數 計算都是矩陣的線性運算,它涉及大量數據運算, 但控制邏輯簡單. 對于這些龐大的計算任務,GPU 的并行處理器表現出極大的優勢. 自從 AlexNet[13] 在 2012 年的 ImageNet 比賽中取得優異成績以來, GPU 被廣泛應用于深層神經網絡的訓練和推理. 大 量依賴 GPU 運算的深度神經網絡軟件框架(如:TensorFlow、PyTorch、Caffe、Theano 和 Paddle-Paddle 等)的出現極大地降低了 GPU 的使用難度. 因此它 也成為人工智能硬件首選,在云端和終端各種場景 均被率先應用,也是目前應用范圍最廣、靈活度最 高的 AI 硬件.

1.2.2 FPGA

FPGA(Field Programmable Gate Array)是現場 可編程門陣列,它允許無限次的編程,并利用小型 查找表來實現組合邏輯. FPGA 可以定制化硬件流 水線,可以同時處理多個應用或在不同時刻處理不 同應用,具有可編程、高性能、低能耗、高穩定、 可并行和安全性的特點,在通信、航空航天、汽車 電子、工業控制、測試測量等領域取得了很大應用 市場. 人工智能產品中往往是針對一些特定應用場 景而定制的,定制化芯片的適用性明顯比通用芯片 的適用性高. FPGA 成本低并且具有較強的可重構 性,可進行無限編程. 因此,在芯片需求量不大或 者算法不穩定的時候,往往使用 FPGA 去實現半定 制的人工智能芯片,這樣可以大大降低從算法到芯 片電路的成本. 隨著人工智能技術的發展,FPGA 在加速數據處理、神經網絡推理、并行計算等方面 表現突出,并在人臉識別、自然語言處理、網絡安 全等領域取得了很好的應用.

1.2.3 ASIC

ASIC(Application Specific Integrated Circuit) 是專用集成電路,是指根據特定用戶要求和特定電 子系統的需要而設計、制造的集成電路. 相比于同 樣工藝 FPGA 實現,ASIC 可以實現 5~10 倍的計算 加速,且量產后 ASIC 的成本會大大降低. 不同于可 編程的 GPU 和 FPGA,ASIC 一旦制造完成將不能 更改,因此具有開發成本高、周期長、門檻高等問 題. 例如近些年類似谷歌的 TPU、寒武紀的 NPU、 地平線的 BPU、英特爾的 Nervana、微軟的 DPU、 亞馬遜的 Inderentia、百度的 XPU 等芯片,本質上 都屬于基于特定應用的人工智能算法的 ASIC 定制. 與通用集成電路相比,由于 ASIC 是專為特定目的 而設計,GoogleBrain 具有體積更小、功耗更低、性能提高、保密性增強等優點,具有很高的商業價值, 特別適合移動終端的消費電子領域的產業應用.

1.2.4 SoC

SoC(System on Chip)是系統級芯片,一般是 將中央處理器、儲存器、控制器、軟件系統等集成 在單一芯片上,通常是面向特殊用途的指定產品, 如手機 SoC、電視 SoC、汽車 SoC 等. 系統級芯片 能降低開發和生產成本,相比于 ASIC 芯片的開發 周期短,因此更加適合量產商用. 目前,高通、AMD、 ARM、英特爾、英偉達、阿里巴巴等都在致力于 SoC 硬件的研發,產品中集成了人工智能加速引擎,從 而滿足市場對人工智能應用的需求. 英特爾旗下子 公司 Movidius 在 2017 年推出了全球第一個配備專 用神經網絡計算引擎的 SoC(Myriad X),芯片上集 成了專為高速、低功耗的神經網絡而設計的硬件模 塊,主要用于加速設備端的深度神經網絡推理計算. 賽靈思推出的可編程片上系統(Zynq 系列)是基于 ARM 處理器的 SoC,具有高性能、低功耗、多核和 開發靈活的優勢. 華為推出的昇騰 310 是面向計算 場景的人工智能 SoC 芯片.

1.2.5 類腦芯片

類腦芯片(brain-inspired chip)是仿照人類大 腦的信息處理方式,打破了存儲和計算分離的架構, 實現數據并行傳送、分布式處理的低功耗芯片. 在 基于馮諾依曼結構的計算芯片中,計算模塊和存儲 模塊分離處理從而引入了延時及功耗浪費. 類腦芯 片側重于仿照人類大腦神經元模型及其信息處理的 機制,利用扁平化的設計結構,從而在降低能耗的 前提下高效地完成計算任務. 在人工智能火熱的時 代,各國政府、大學、公司紛紛投入到類腦芯片的 研究當中,其中典型的有 IBM 的 TrueNorth、英特 爾的 Loihi、高通的 Zeroth、清華大學的天機芯等. 目前,深度神經網絡芯片正在不斷研究開發中, 每種芯片均是針對一定的問題而設計的. 因此,不同 的芯片有其獨特的優勢和不足. 通過上述對不同芯 片的描述,我們可以了解到相比 GPU,FPGA 具有更 強的計算能力和較低的功耗. 相比 ASIC 和 SoC, FPGA 具有更低的設計成本和靈活的可編程性. 相比 類腦芯片,FPGA 的開發設計更簡單. 綜合當前深度 神經網絡芯片的特性可知,FPGA 的設計性能更適合 應用于深度神經網絡在普通領域的開發和應用. 隨著 FPGA 在深度神經網絡領域的應用,相關 學者對其進行了分析和整理. 文獻[76]對基于 FPGA 的卷積神經網絡加速過程進行分析總結. 文獻[77] 匯總了目前 FPGA 用于卷積神經網絡加速的發展研 究現狀. 文獻[78]對目前 FPGA 用于神經網絡的發 展現狀進行總結,并提出所面臨的問題和挑戰. 文 獻[79]總結了 FPGA 的設計理論及其用于神經網絡 加速的技術原理和實現方法. 文獻[80]分別介紹了 人工神經網絡和 FPGA 進行介紹的發展,同時總結 了 FPGA 用于人工神經網絡的發展和挑戰. 本文從 FPGA 應用于深度神經網絡的設計原理、型號選擇、 應用領域、加速器及具體加速原理、實驗評估指標 到最后的 FPGA 應用與深度神經網絡的影響因素等 方面進行歸納總結,對 FPGA 用于神經網絡加速進 行全面的介紹,為讀者提供理論和實踐指導.

付費5元查看完整內容
北京阿比特科技有限公司