亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。

本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。

所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

人工智能(AI)作為成功范式已廣泛應用于多領域,但在偏遠地區部署或弱連通場景下實施時,常需在數據采集源頭就近完成推理計算。本研究致力于探索AI模型優化路徑,推動智能算法向邊緣端部署。聚焦農業等領域的便攜式設備應用場景(如氣培容器、無人機、移動機器人),核心目標是通過開發定制化模型并實現"模型尺寸壓縮"與"推理時延優化"。為此系統探索了多維度優化方案:包括樣本數據"相關特征"提取技術、網絡剪枝及量化壓縮等方法。本論文提出涵蓋開發-實現-優化的全棧式框架,重點解決邊緣設備部署所需的輕量化與高效能需求。

研究目標通過三重遞進步驟實現:驗證至少存在一種AI模型可為目標應用提供有效預測;探索并實施模型優化方法;最終在資源受限硬件平臺完成部署。核心創新點在于建立定制模型通用優化流程,并首創基于"模型可解釋性"的特征選擇框架——該方案在農業科技領域尚屬首次系統性實踐。優化體系以特征選擇為主體,輔以剪枝與量化技術形成完整閉環。通過在準邊緣設備部署驗證,實證了本方案的工程可行性。

盡管本文構建了從模型設計到邊緣部署的完整研究鏈,仍需指出若干可深化方向:AI領域與邊緣計算技術持續迭代,硬件加速架構及軟件工具鏈的革新為后續研究開辟廣闊空間。本工作旨在填補現有研究空白并提供方法論參考,寄望所提思想能為未來邊緣智能技術發展提供有效范式支撐。

付費5元查看完整內容

強化學習(RL)已成為教導機器人在復雜環境中學習與適應的強大范式。本文探討強化學習技術在機器人領域的最新進展。傳統機器人控制方法在處理動態不確定環境時面臨挑戰。強化學習通過讓機器人積累經驗、自主決策并持續優化行動,為這些問題提供了解決方案。文章概述強化學習的核心概念,包括策略學習、價值函數及探索-開發權衡。策略學習涉及建立狀態到行動的映射關系,使機器人能判定不同情境下的最優行動方案;價值函數評估行動質量,引導學習過程趨向最優行為;探索-開發權衡則指在嘗試新行動與利用已知知識之間取得平衡以最大化獎勵。深度強化學習、模型強化學習等算法的突破性進展顯著提升了機器人系統能力:深度強化學習將強化學習與深度神經網絡結合,可處理高維狀態與行動空間,使機器人能直接從原始傳感器數據學習復雜任務;模型強化學習則借助環境預測模型提升樣本效率并加速學習進程。

文章重點闡述強化學習在機器人領域的三大應用:自主導航、精準操控及任務學習。該技術使機器人能適應動態環境、處理不確定性并通過與世界交互持續學習。當前研究聚焦提升算法樣本效率、擴展性與泛化能力,以適應實際機器人應用需求。綜上所述,本文強調強化學習通過賦能機器人適應多元挑戰性環境,具有顛覆機器人技術的潛力。未來研究方向包括融合模仿學習、元學習等范式,進一步拓展機器人系統能力邊界。

強化學習(RL)已成為訓練自主智能體通過試錯機制、環境反饋與交互來學習復雜任務的重要范式。近年來,強化學習技術在機器人領域的應用取得重大突破,為解決現實環境中導航、操控與交互難題開辟了新路徑。本研究報告系統綜述機器人強化學習的最新進展,著重闡述推動該領域發展的關鍵技術、算法與應用。強化學習與機器人技術的融合具備多重優勢:能夠基于高維傳感輸入學習復雜任務,適應動態環境變化,并在不同場景中實現知識遷移。通過強化學習,機器人可自主獲取傳統編程難以實現的技能與行為,從而靈活高效地執行多樣化任務。本文評述專為機器人應用優化的前沿強化學習算法,包括深度Q網絡(DQN)、深度確定性策略梯度(DDPG)、近端策略優化(PPO)及柔性演員-評論家(SAC)。我們探討這些算法如何應對機器人領域的探索困境、樣本效率及泛化能力等挑戰,并分析其在不同場景中的優勢與局限。

此外,深入探究機器人強化學習的最新研究趨勢與創新方向: ? 遷移學習與領域自適應技術實現跨任務跨環境的知識遷移

? 融合激光雷達、慣性測量單元及本體感受傳感器技術,增強感知導航與操控能力

? 結合計算機視覺實現精細控制、目標檢測及場景理解

? 仿真環境與硬件平臺創新推動基于強化學習的機器人系統訓練與部署

通過綜合文獻研究與實證分析,本文旨在明晰機器人強化學習的發展現狀,指明未來研究方向與挑戰。依托強化學習的強大能力,機器人研究者與實踐者將持續突破自主機器人在工業自動化、物流運輸、醫療健康及服務領域的應用極限。

強化學習進展對提升機器人系統能力的重要性

i. 強化學習(RL)作為人工智能領域的變革性方法,賦予機器人通過與環境交互學習適應行為的能力。相較于傳統編程需預設所有場景指令的模式,強化學習使機器人能夠通過經驗積累,基于試錯機制進行決策以最大化累積獎勵。這種范式轉變為機器人系統解鎖了全新可能,使其能夠自主學習技能并持續提升性能。

ii. 近年強化學習與機器人技術的融合在多領域取得重大突破。從機器人運動控制到自主導航決策,強化學習技術顯著增強了機器人在真實場景中的能力。借助強化學習算法,機器人可以更高靈活性、魯棒性與適應性處理復雜任務,為開發智能多用途機器人系統鋪平道路。

iii. 本研究報告聚焦機器人強化學習的技術進展,深入探討其應用場景、現存挑戰及未來發展潛力。通過對尖端技術的系統綜述,我們旨在揭示強化學習對機器人領域的變革性影響,并探索該方法在塑造未來自主機器人系統過程中的機遇與局限。

付費5元查看完整內容

隨著自主機器人能力提升并日益融入社會生活,用戶交互方式、機器對人的感知機制及其對人類意圖的理解能力成為關鍵課題。當用戶需同時操控多臺機器人時,這一挑戰的復雜性將顯著增加。

自主作業中常需人工介入,尤需復雜決策或存在安全隱患的場景。因此,多智能體系統的人機交互方法成為重要研究方向——這類交互應兼具直觀性、高效性與安全性。本研究提出新型"集群人機交互界面(HSI)",通過手勢控制與觸覺反饋實現在密閉空間內操控四旋翼無人機群。該界面在保障操作者安全的同時,顯著降低集群控制的認知負荷。

人機交互界面(HRI)旨在優化人機通信機制,以直觀友好方式增強用戶對機器人的指揮協作能力。核心挑戰在于賦予移動機器人系統環境中的用戶定位與交互能力:定位需獲取用戶相對于機器人的位姿(位置與朝向),這對近距離交互或共享空間導航至關重要。我們提出創新方法,可實時獲取用戶位姿及其他人機交互所需人體參數。

另一挑戰在于將HRI與HSI范式擴展至戶外場景。不同于受控實驗室環境,戶外涉及諸多變量(如多變氣象條件、靜態與動態障礙物混合)。本論文設計便攜式集群人機交互界面,支持操作者在戶外操控多智能體系統。該便攜HSI采用智能雙目鏡形態,用戶通過其選定戶外區域并分配任務,使多智能體系統在目標區域執行作業。此系統開創了多智能體作業新模式:在利用自動駕駛設備執行視距操作時,既能融合用戶實地知識,又能保持其態勢感知能力。

付費5元查看完整內容

利用僅能部分觀測系統的傳感器,對具有時空演化特征的大規模隨機現象進行建模與監測,是諸多應用領域的核心難題。尤其是在機器人協調與驅動的智能決策中,機器人需基于稀疏測量數據實時預測動態環境全態。本論文旨在推進這一挑戰性問題的研究。緊湊型系統與機器人技術算力的飛速發展,推動了分布式信息物理系統的實際應用爆發式增長。本研究將在理論與實驗層面呈現該領域的進展:首先闡述核觀測器(KO)方法,推導適用于時空演化系統泛化的演化高斯過程(E-GP)模型,論證該方法在非線性流體建模中的有效性,并揭示其與計算流體動力學(CFD)領域公認的Koopman算子理論及動態模態分解(DMD)間的深層理論關聯。進一步研究聚焦動態模型分解分析,以此確定傳感器最優布設位置,實現系統真實狀態的快速精準估計。隨后,論文將探討分布式信息物理系統的具體應用難題——局部環境信息條件下的多智能體協同田間除草。本章在適配E-GP模型的同時,解決動態信息受限環境中智能體任務分配的經典"探索-開發"權衡問題。前述章節構建的理論體系為終章奠定基礎,其中將分析與解決另一挑戰性應用:利用云臺變焦(PTZ)相機實施大規模環境視覺搜索。通過系統化方法整合時空建模與智能決策,本研究為部分可觀測環境下的自主系統優化提供理論支撐與實踐路徑。

本論文提出一種融合基于核的建模、系統理論與貝葉斯濾波的時空監測問題解決框架。監測問題定義如下:基于歷史數據學習獲得的時空現象近似預測模型,在傳感器數量與位置受限條件下,估計存在不確定性的當前潛在現象狀態。本文主張,針對時空現象的預測推理,采用卡爾曼濾波器式預測校正方法(結合最小化傳感器反饋),是應對現實世界不確定性與固有建模誤差的穩健路徑。就該具體問題而言,本研究證明時空函數演化可通過在混合權重上疊加線性動態系統層的平穩核進行建模。相較于現有研究,此方法無需設計復雜時空核,且可適配任意定義域上的正定核(含黎曼流形、字符串、圖結構與圖像等非歐幾里得域)[Jayasumana et al., 2015]。該范式首創研究者[Kingravi et al., 2015a]通過建立基于核模型可觀測性的基礎理論,推導出保障函數演化隱態可通過核模型特征空間內貝葉斯狀態估計器(卡爾曼濾波器)進行估計所需采樣點位數量下限的非保守邊界。作者對該方法的貢獻體現在三方面:其一,通過開發可泛化至相似時空系統(含流體流動等復雜非線性系統)的模型[Whitman and Chowdhary, 2017],為替代高成本數值模擬的高效機器學習模型奠定基礎(服務于設計與自主目的);其二,借助Koopman算子理論分析模型,證明該模型可生成Koopman模態、特征值與特征函數的關鍵理論成果[Whitman et al., 2021b, Jayaraman et al., 2019],由此開發出求解模型線性轉移算子不變子空間的穩健數值算法(克服了傳感器布設前期研究的核心局限)[Whitman et al., 2021b];其三,深入探究時空建模在多智能體動態環境任務執行的實際自主問題中的應用,展示本工作所述方法在不同場景中的適應性與性能提升潛力[McAllister et al., 2020b,Whitman et al., 2021a]。

除時空監測問題的研究外,本論文對自主系統決策領域做出貢獻——該領域與時空監測問題天然關聯,因所選行動不僅影響智能體收益積累,還決定獲取何種傳感器測量。諸多應用場景存在環境已知特征開發與未知特征探索間的權衡(經典"探索-開發"困境),而當測量數據極度稀疏且行動成本高昂時,問題復雜性加劇:自主系統必須基于有限測量推斷全局環境以實現成功。

本工作分析兩個具此特征的現實問題:
其一,工業化農業協同除草問題——面對田間雜草分布與動態生長不確定性,機器人須決策優先處理哪些作物行列;
 其二,云臺變焦相機視覺搜索問題——在大規模城市環境中目標位置不確定條件下,機器人動態決策場景中需高倍率探查的特定區域。

這些應用級自主與控制研究與時空學習預測的理論工作形成互補。

??圖1.1??:對具有復雜不確定動態特性的系統進行建模、監測與控制,是控制學界亟待突破的開放性挑戰。左下象限描述具單尺度動態的線性時不變系統(傳統動態系統反饋控制理論足以應對);右下象限展示隨機單尺度系統(卡爾曼濾波器與高斯優化等方法已獲顯著成功,支撐登月至GPS導航等成就);左上象限表征多尺度動態系統(偏微分方程高效求解是研究熱點);而右上象限所示多尺度隨機信息物理系統(如分布式農業機器人系統、交通網絡、移動/固定傳感器氣象監測系統)的自主決策,仍需基礎理論突破與實踐算法創新。

付費5元查看完整內容

人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。

本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。

付費5元查看完整內容

多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。

第一章
 本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。

第二章:基于圖神經網絡的多機器人覆蓋控制
 本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。

第三章:具備任務優先級關系的多機器人協調協作
 本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。

第四章:在線環境下的多機器人協調協作
 本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。

付費5元查看完整內容

深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。

本文的主要貢獻概述如下:

  • 在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;

  • 在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;

  • 在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。

付費5元查看完整內容

強化學習(RL)是一種框架,在這種框架中,智能體通過與環境的交互,以行動獎勵或懲罰的形式獲得數據驅動的反饋,從而學會做出決策。深度 RL 將深度學習與 RL 相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。利用深度 RL 框架,我們的機器學習研究界在使機器能夠在長時間范圍內做出連續決策方面取得了巨大進步。這些進步包括在雅達利(Atari)游戲中實現超人性能[Mnih 等人,2015],掌握圍棋游戲,擊敗人類世界冠軍[Silver 等人,2017],提供強大的推薦系統[GomezUribe 和 Hunt,2015, Singh 等人,2021]。本論文的重點是找出一些阻礙 RL 智能體在其特定環境中學習的關鍵挑戰,并改進方法,從而提高智能體的性能、改善樣本效率以及學習到的智能體策略的普適性。

在論文的第一部分,我們將重點放在單智能體 RL 設置中的探索上,在單智能體 RL 設置中,智能體必須與復雜的環境交互以追求目標。不探索環境的智能體不可能獲得高性能,因為它會錯過關鍵獎勵,因此無法學習到最佳行為。一個關鍵的挑戰來自于獎勵稀少的環境,在這種環境中,智能體只有在任務完成后才會收到反饋,這使得探索更具挑戰性。我們提出了一種能進行語義探索的新方法,從而提高了樣本效率和稀疏獎勵任務的性能。

在論文的第二部分,我們將重點放在合作式多智能體強化學習(MARL)上,這是對通常的 RL 設置的擴展,我們考慮多個智能體在同一環境中為共同的任務進行交互。在多智能體任務中,各智能體之間需要進行大量協調,并對協調失誤進行嚴格懲罰,而最先進的 MARL 方法往往無法學習到有用的行為,因為各智能體會陷入次優平衡狀態。另一個挑戰是在所有智能體的聯合行動空間中進行探索,而這一空間會隨著智能體數量的增加而呈指數級增長。為了應對這些挑戰,我們提出了通用價值探索和可擴展的基于角色的學習等創新方法。這些方法有助于改善智能體之間的協調,加快探索速度,并增強智能體適應新環境和新任務的能力,展示零鏡頭泛化能力,從而提高樣本效率。最后,我們研究了合作式 MARL 中基于獨立策略的方法,其中每個智能體都將其他智能體視為環境的一部分。我們表明,在一個流行的多智能體基準上,這種方法的表現優于最先進的聯合學習方法。

總之,本論文的貢獻大大提高了深度(多智能體)強化學習的最新水平。本論文中開發的智能體可以高效地探索其環境以提高采樣效率,學習需要大量多智能體協調的任務,并在各種任務中實現零點泛化。

付費5元查看完整內容

多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。

本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。

對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。

我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。

由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。

任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。

然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。

我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。

付費5元查看完整內容

機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們

機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。

在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。

其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。

在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。

最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。

付費5元查看完整內容
北京阿比特科技有限公司