亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(RL)已成為教導機器人在復雜環境中學習與適應的強大范式。本文探討強化學習技術在機器人領域的最新進展。傳統機器人控制方法在處理動態不確定環境時面臨挑戰。強化學習通過讓機器人積累經驗、自主決策并持續優化行動,為這些問題提供了解決方案。文章概述強化學習的核心概念,包括策略學習、價值函數及探索-開發權衡。策略學習涉及建立狀態到行動的映射關系,使機器人能判定不同情境下的最優行動方案;價值函數評估行動質量,引導學習過程趨向最優行為;探索-開發權衡則指在嘗試新行動與利用已知知識之間取得平衡以最大化獎勵。深度強化學習、模型強化學習等算法的突破性進展顯著提升了機器人系統能力:深度強化學習將強化學習與深度神經網絡結合,可處理高維狀態與行動空間,使機器人能直接從原始傳感器數據學習復雜任務;模型強化學習則借助環境預測模型提升樣本效率并加速學習進程。

文章重點闡述強化學習在機器人領域的三大應用:自主導航、精準操控及任務學習。該技術使機器人能適應動態環境、處理不確定性并通過與世界交互持續學習。當前研究聚焦提升算法樣本效率、擴展性與泛化能力,以適應實際機器人應用需求。綜上所述,本文強調強化學習通過賦能機器人適應多元挑戰性環境,具有顛覆機器人技術的潛力。未來研究方向包括融合模仿學習、元學習等范式,進一步拓展機器人系統能力邊界。

強化學習(RL)已成為訓練自主智能體通過試錯機制、環境反饋與交互來學習復雜任務的重要范式。近年來,強化學習技術在機器人領域的應用取得重大突破,為解決現實環境中導航、操控與交互難題開辟了新路徑。本研究報告系統綜述機器人強化學習的最新進展,著重闡述推動該領域發展的關鍵技術、算法與應用。強化學習與機器人技術的融合具備多重優勢:能夠基于高維傳感輸入學習復雜任務,適應動態環境變化,并在不同場景中實現知識遷移。通過強化學習,機器人可自主獲取傳統編程難以實現的技能與行為,從而靈活高效地執行多樣化任務。本文評述專為機器人應用優化的前沿強化學習算法,包括深度Q網絡(DQN)、深度確定性策略梯度(DDPG)、近端策略優化(PPO)及柔性演員-評論家(SAC)。我們探討這些算法如何應對機器人領域的探索困境、樣本效率及泛化能力等挑戰,并分析其在不同場景中的優勢與局限。

此外,深入探究機器人強化學習的最新研究趨勢與創新方向: ? 遷移學習與領域自適應技術實現跨任務跨環境的知識遷移

? 融合激光雷達、慣性測量單元及本體感受傳感器技術,增強感知導航與操控能力

? 結合計算機視覺實現精細控制、目標檢測及場景理解

? 仿真環境與硬件平臺創新推動基于強化學習的機器人系統訓練與部署

通過綜合文獻研究與實證分析,本文旨在明晰機器人強化學習的發展現狀,指明未來研究方向與挑戰。依托強化學習的強大能力,機器人研究者與實踐者將持續突破自主機器人在工業自動化、物流運輸、醫療健康及服務領域的應用極限。

強化學習進展對提升機器人系統能力的重要性

i. 強化學習(RL)作為人工智能領域的變革性方法,賦予機器人通過與環境交互學習適應行為的能力。相較于傳統編程需預設所有場景指令的模式,強化學習使機器人能夠通過經驗積累,基于試錯機制進行決策以最大化累積獎勵。這種范式轉變為機器人系統解鎖了全新可能,使其能夠自主學習技能并持續提升性能。

ii. 近年強化學習與機器人技術的融合在多領域取得重大突破。從機器人運動控制到自主導航決策,強化學習技術顯著增強了機器人在真實場景中的能力。借助強化學習算法,機器人可以更高靈活性、魯棒性與適應性處理復雜任務,為開發智能多用途機器人系統鋪平道路。

iii. 本研究報告聚焦機器人強化學習的技術進展,深入探討其應用場景、現存挑戰及未來發展潛力。通過對尖端技術的系統綜述,我們旨在揭示強化學習對機器人領域的變革性影響,并探索該方法在塑造未來自主機器人系統過程中的機遇與局限。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文探索了在物聯網(IoT)內動態無人機網絡格局下,高效無人機控制方法的開發。隨著無人機日益融入物聯網生態系統,解決其協同中固有的復雜性和挑戰,對于確保可靠性和效率至關重要。論文始于對物聯網概念和無人機網絡的深入探討,概述了關鍵應用領域,并描述了最先進的解決方案,特別是在定位與跟蹤方面。此外,它還審視了先進的無人機航路規劃策略,強調了其帶來的機遇和所蘊含的關鍵挑戰。論文的主體部分引入了新穎的協作算法,這些算法源于確定性原理和人工智能(AI)技術。這些算法受到鳥群等自然現象的啟發,使無人機能夠協作確定其在動態物聯網環境中追蹤移動傳感器的航線。隨著這些方法有效性的證明,它們如何增強無人機合作并顯著提升跟蹤效率變得顯而易見。基于此基礎,論文接下來介紹了一種創新的深度強化學習(DRL)方案,賦予自主無人機智能體能力,使其能在物聯網網絡內高效地制定最優數據收集策略。通過利用DRL,無人機持續從其環境和行動中獲取洞見,適應變化并做出智能決策以優化其數據收集策略。該方案調整了最先進的算法,使其能有效擴展到現實世界物聯網應用中常見的高維狀態-行動空間。本研究為圍繞無人機-IoT集成的持續討論做出了貢獻,提供了無人機控制的新穎方法。這些方法的引入為在物聯網范式中創建更高效、更自主的無人機網絡開辟了新途徑,凸顯了人工智能在此背景下的未開發潛力,并為該領域的未來發展奠定了基礎。

本文后續包含五個不同的章節:一章是對該研究努力在論文背景下探索的相關文獻進行的綜述;三章——每章專門分析和解決一項既定主要研究目標;以及一章討論研究發現、評估目標達成情況并總結論文。

第2章深入探討了本工作的背景,其結構旨在為建立本論文基礎的相關研究和文獻提供詳盡的分析。該章首先全面概述了物聯網范式,確立了其在當前技術格局中的關鍵作用。然后焦點轉向無人機網絡,討論了其獨特特性、操作應用(重點關注定位與跟蹤方法),以及航路規劃優化面臨的挑戰和當前技術。這為理解當前無人機網絡的能力和局限性奠定了堅實基礎。綜述的后半部分審視了人工智能在無人機集群管理中潛在的作用。它始于評估機器學習在無人機控制中的應用,繼而探討如何使用深度強化學習技術來實現高效無人機導航。

第3章題為“新型無人機控制確定性技術的開發”,涉及在協作式無人機控制領域研究確定性方法。該章通過引入一種新確定性技術的基礎為后續內容鋪墊,隨后對其在無人機控制中的應用進行了廣泛考察。它深入分析了如何利用該技術來加強無人機在用于搜救行動中的移動IoT傳感器追蹤應用中的協作。此外,它評估了該方法的優缺點,揭示了潛在的挑戰和改進領域。本次調查的發現為后續探索人工智能在無人機控制中的應用鋪平了道路,并為不同的控制策略建立了比較框架。

第4章題為“推進無人機控制:集群形成中的深度學習”,標志著從傳統確定性技術向探索深度學習方法在無人機集群形成與群體協同范圍內應用的轉變。本章介紹了設計和實現一個能夠促進無人機集群形成的深度學習模型,重點突出了其創建高效、適應性強的群體編隊的能力,從而進一步提升了純確定性方案的移動IoT傳感器跟蹤性能。對深度學習的探索引領至研究的下一步:利用深度強化學習優化無人機航路規劃。

第5章題為“多智能體無人機航路規劃優化”,代表了本研究歷程的頂點,它整合了從前幾章獲得的認知,以應對一個不同且更復雜的問題:即在IoT情境下優化多智能體無人機航路規劃以實現高效數據收集。本章主要聚焦于引入一種新穎的深度強化學習框架,論證其能夠管理多智能體系統的動態特性,并在多重約束條件下優化無人機航線。詳細的研究和分析揭示了所提出的框架如何能夠產生高效、適應性強的無人機網絡,這些網絡具備處理錯綜復雜現實場景的能力。本章不僅強調了智能系統在無人機航路規劃優化中的重要性,也闡釋了其在物聯網基礎設施內極大推進無人機控制領域的潛力。

最后,第6章總結研究,回顧關鍵發現、其意義以及未來前景。它分析了研究成果,承認了局限性,并提出了未來的研究方向。它以強調智能無人機控制優化中未開發的潛力作結,以激勵該領域的進一步創新。

付費5元查看完整內容

人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。

本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。

所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。

付費5元查看完整內容

多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。

圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?

第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??

??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??

??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?

在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?

付費5元查看完整內容

多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。

第一章
 本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。

第二章:基于圖神經網絡的多機器人覆蓋控制
 本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。

第三章:具備任務優先級關系的多機器人協調協作
 本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。

第四章:在線環境下的多機器人協調協作
 本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。

付費5元查看完整內容

摘要

本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。

I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。

近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。

生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。

在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。

A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。

生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。

其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。

付費5元查看完整內容

深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。

本文的主要貢獻概述如下:

  • 在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;

  • 在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;

  • 在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們

機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。

在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。

其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。

在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。

最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。

付費5元查看完整內容

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

本 章 將 介 紹一些基本概念,通過它們來定義和區分常用的機器學習方法。你將學到下列知識:

□ 機器學習的起源及其實際應用。 □ 計算機如何將數據轉換為知識和行動。 □ 如何為數據匹配機器學習算法。

機 器 學 習 領 域 提 供 了 把 數 據 轉 換 成 可 行 動 的 知 識 的 算 法 集 合 。繼 續 閱 讀 可 以 了 解 使 用 R將機器學習應用到現實世界中的問題是多么容易。

付費5元查看完整內容
北京阿比特科技有限公司