亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(RL)在人工智能(AI)領域取得了一些最令人矚目的進展。強化學習從深度神經網絡的出現中獲益匪淺,深度神經網絡使學習代理能夠在日益復雜的環境中逼近最優行為。特別是,競爭性 RL 的研究表明,在對抗環境中競爭的多個智能體可以同時學習,以發現它們的最優決策策略。

近年來,競爭性 RL 算法已被用于訓練各種游戲和優化問題的高性能人工智能。了解訓練這些人工智能模型的基本算法對于利用這些工具應對現實世界的挑戰至關重要。網絡安全領域正在考慮將競爭性 RL 的新興研究成果應用于現實世界。

為了利用 RL 開發自動化網絡行動(ACO) 工具,可以使用各種環境模擬網絡安全事件。其中許多 ACO 環境都是在過去三年中開源的。這些新環境促進了探索人工智能在網絡安全方面潛力的研究。這些環境中的現有研究通常是片面的:紅方或藍方智能體接受訓練,針對具有固定策略的靜態對手優化決策。

通過只針對一個對手或一組靜態對手進行訓練,學習型人工智能在面對場景中其他所有可能的對手時都無法保持高性能。競爭性 RL 可用來發現對抗環境中任何潛在對手的最佳決策策略。然而,在這些新興的 ACO 模擬中還沒有嘗試過。本論文的目的是使用競爭性 RL 訓練智能體,使其在模擬 ACO 環境中接近博弈論中的最優策略。

圖 4:虛構游戲過程中使用的系統概覽,包括actor-critic框架和對手采樣。切換代理和對手,為對手的策略庫訓練新策略。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。

本文的主要貢獻概述如下:

  • 在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;

  • 在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;

  • 在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。

付費5元查看完整內容

強化學習(RL)是一種框架,在這種框架中,智能體通過與環境的交互,以行動獎勵或懲罰的形式獲得數據驅動的反饋,從而學會做出決策。深度 RL 將深度學習與 RL 相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。利用深度 RL 框架,我們的機器學習研究界在使機器能夠在長時間范圍內做出連續決策方面取得了巨大進步。這些進步包括在雅達利(Atari)游戲中實現超人性能[Mnih 等人,2015],掌握圍棋游戲,擊敗人類世界冠軍[Silver 等人,2017],提供強大的推薦系統[GomezUribe 和 Hunt,2015, Singh 等人,2021]。本論文的重點是找出一些阻礙 RL 智能體在其特定環境中學習的關鍵挑戰,并改進方法,從而提高智能體的性能、改善樣本效率以及學習到的智能體策略的普適性。

在論文的第一部分,我們將重點放在單智能體 RL 設置中的探索上,在單智能體 RL 設置中,智能體必須與復雜的環境交互以追求目標。不探索環境的智能體不可能獲得高性能,因為它會錯過關鍵獎勵,因此無法學習到最佳行為。一個關鍵的挑戰來自于獎勵稀少的環境,在這種環境中,智能體只有在任務完成后才會收到反饋,這使得探索更具挑戰性。我們提出了一種能進行語義探索的新方法,從而提高了樣本效率和稀疏獎勵任務的性能。

在論文的第二部分,我們將重點放在合作式多智能體強化學習(MARL)上,這是對通常的 RL 設置的擴展,我們考慮多個智能體在同一環境中為共同的任務進行交互。在多智能體任務中,各智能體之間需要進行大量協調,并對協調失誤進行嚴格懲罰,而最先進的 MARL 方法往往無法學習到有用的行為,因為各智能體會陷入次優平衡狀態。另一個挑戰是在所有智能體的聯合行動空間中進行探索,而這一空間會隨著智能體數量的增加而呈指數級增長。為了應對這些挑戰,我們提出了通用價值探索和可擴展的基于角色的學習等創新方法。這些方法有助于改善智能體之間的協調,加快探索速度,并增強智能體適應新環境和新任務的能力,展示零鏡頭泛化能力,從而提高樣本效率。最后,我們研究了合作式 MARL 中基于獨立策略的方法,其中每個智能體都將其他智能體視為環境的一部分。我們表明,在一個流行的多智能體基準上,這種方法的表現優于最先進的聯合學習方法。

總之,本論文的貢獻大大提高了深度(多智能體)強化學習的最新水平。本論文中開發的智能體可以高效地探索其環境以提高采樣效率,學習需要大量多智能體協調的任務,并在各種任務中實現零點泛化。

付費5元查看完整內容

多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。

本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。

對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。

我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。

由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。

任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。

然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。

我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。

付費5元查看完整內容

強化學習(RL)的成功,如《星際爭霸》和《DOTA 2》等視頻游戲達到了高于人類的性能水平,這就提出了關于該技術在軍事建設性模擬中的未來作用的問題。本研究的目的是使用卷積神經網絡(CNN)來開發人工智能(AI)Agent,能夠在具有多個單位和地形類型的簡單場景中學習最佳行為。這篇論文試圖納入一個可用于軍事建設性模擬領域的多Agent訓練方案。八個不同的場景,都有不同的復雜程度,被用來訓練能夠表現出多種類型戰斗行為的Agent。總的來說,結果表明,人工智能Agent可以學習在每個場景中實現最佳或接近最佳性能所需的強大戰術行為。研究結果還表明,對多Agent訓練有了更好的理解。最終,CNN與RL技術的結合被證明是一種高效可行的方法,可以在軍事建設性模擬中訓練智能Agent,其應用有可能在執行實戰演習和任務時節省人力資源。建議未來的工作應研究如何最好地將類似的深度RL方法納入現有的軍事記錄構建性模擬項目中。

引言

A. 戰斗建模和戰爭

正確預測對手在戰爭中的戰略或戰術行為的愿望與人類進行這些戰爭的能力一樣古老[1]。在中國古代,像魏黑和圍棋這樣的游戲最初被用作加強軍事和政治領導人的戰略思維能力的方法。后來,羅馬人利用沙盤在戰役或戰斗前討論自己和敵人的可能行動。然而,直到19世紀初,普魯士人用他們的兵棋推演(Kriegsspiel)才開始利用具有嚴格規則的游戲來預測軍事交戰的可能結果。雖然這些兵棋推演在接下來的幾十年里在世界各地的許多武裝部隊中越來越受歡迎,但進行必要計算的能力有限,總是限制了這些基于棋盤的兵棋推演所能達到的復雜程度。此外,棋盤游戲的物理限制限制了設計者簡化行為和游戲元素,而不是努力追求真實。然而,計算能力的提高和用戶友好的圖形界面使設計者在20世紀末能夠以更高的復雜性來模擬兵棋推演的規則和游戲中的組件數量。此外,計算機的使用允許實施基于計算機的對手,在基于硬編碼規則的人工智能軟件的基礎上成功地與人類玩家進行比賽。

今天,基于計算機的兵棋推演,也被稱為建設性模擬[2],已經成為整個國防部(DOD)的一個有用工具。它們使軍事領導人能夠進一步學習和發展他們在那些通常被認為成本太高或太危險而無法定期演練的領域的行動程序。領導人有能力在實際執行前針對多種紅色力量設計使用他們的部隊,使他們有機會在不承擔任何額外風險的情況下驗證他們的機動方案。在戰略層面上,大型單位的工作人員經常使用建設性的模擬作為訓練方法[3],領導人可以在模擬環境中進行投入,但他們不參與確定場景的結果[2]。

B. 范圍和問題陳述

在基于計算機的兵棋推演中用來表現對抗行為的方法,需要由場景設計者通過腳本直接編碼,或者使用真人玩家進行所有紅軍的決策。這兩種方法都能提供足夠的分辨率來表現對抗性行為,但每種方法都有其缺點[4]。對于低級別的場景來說,直接對特定行為進行編碼可能是可行的,但隨著場景的擴大,單位的數量和可能的行動對于腳本的控制來說變得太有挑戰性,往往會導致不現實的行為[4]。對于大型場景,使用人類玩家作為紅色力量可能會提供更真實的結果,但額外的人力資源會造成后勤方面的壓力,而且整體的生產力也受限于單個玩家的知識和能力。

解決這個問題的一個可能的方法可能在于利用人工神經網絡。在計算機游戲領域,這種方法最近已被證明是相當成功的。例如,對于實時戰略游戲《星際爭霸II》,一個人工神經網絡被開發出來,打敗了99.8%經常參加在線比賽的玩家[5]。雖然在計算機游戲領域,人工神經網絡的利用最近取得了巨大的進展,但在軍事用途的兵棋推演領域,研究才剛剛開始。在最近的研究中,Boron[6]和Sun等人[7].已經表明,人工神經網絡適合解決簡單軍事兵棋推演場景中的挑戰。基于以前的工作,特別是Boron[6]的工作,本論文旨在提高所使用的軍事場景的復雜性。雖然Boron使用了簡單的多層感知器(MLP)神經網絡,但在處理己方和敵方單位的動態起始位置以及敵人的動態行為時,這種結構被證明是不合適的。此外,所使用的場景被限制在戰場上最多五個單位[6]。在本論文中,將建立一個支持卷積神經網絡(CNN)架構的訓練模擬,包括多個單位和地形類型以克服這些限制。此外,將在一個確定的場景中應用多智能體訓練,以測試這種方法是否可以成功地用于軍事建設性模擬領域。

付費5元查看完整內容

最近,深度學習在許多AI/ML任務中被證明非常成功,但對該技術的理論理解一直滯后。這次報告將調研正在進行的努力,以理解這種方法的成功,包括優化方面和巨大的網絡在微小數據集上不過度擬合的神奇能力。

在過去的十年里,深度學習迅速占據了人工智能和機器學習的主導地位。盡管深度學習在很大程度上是一個“黑盒子”,但不可否認,其取得了顯著的成功。當下,有一個小的分支學科正在發展起來,獲得對深度學習潛在數學特性更好的理解。通過對深度學習在某些具體情況下的最新理論分析的回顧,我們說明了黑盒理論是如何忽略(甚至錯誤地理解)訓練過程中發生的特殊現象的。這些現象也沒有體現在訓練目標函數中。我們認為,通過數學視角來理解這種現象對于未來的全面應用至關重要。

**演講嘉賓:**Sanjeev Arora

**Sanjeev Arora是普林斯頓大學計算機科學Charles C. Fitzmorris教授。**他曾獲得Packard Fellowship(1997)、Simons Investigator Award(2012)、G?del Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成員。

付費5元查看完整內容

深度神經網絡(DNN)是一種不可缺少的機器學習工具,盡管很難診斷出模型的輸入有哪些方面在驅動它的決策。在無數的現實世界領域,從立法、執法到醫療,這樣的診斷對于確保DNN的決策是由適合其使用的方面驅動的,是至關重要的。因此,開發能夠解釋DNN決策的方法和研究已經成為一個活躍而廣泛的研究領域。對于 "解釋 "DNN的行動和評估方法的 "解釋能力 "的定義的競爭,加劇了該領域的復雜性。本文提供了一個領域指南,為那些在人工智能/ML領域沒有經驗的人探索可解釋的深度學習的空間。該領域指南:i)介紹了三個簡單的維度,定義了有助于可解釋的深度學習的基礎方法的空間,ii)討論了對模型解釋的評價,iii)將可解釋性放在其他相關的深度學習研究領域的背景中,以及iv)討論了面向用戶的解釋設計和未來的方向。我們希望該指南能被看作是那些著手于該研究領域的人的一個起點。

本文為正在著手可解釋深度學習領域的研究人員和從業人員提供了一個起點。這份領域指南旨在幫助新人了解:

  • 一組表征可解釋深度學習的基礎性工作空間的維度,以及對這類方法的描述。這個空間總結了可解釋的DNN技術的核心內容,目前的大部分工作都是由這些技術啟發或建立的(第2節)。

  • 評估解釋方法的方法(第3節)。

  • 與可解釋性相一致的補充性研究課題,如 DNN 如何學習概括或減少 DNN 對特定輸入特征的敏感性的方法。這些課題與可解釋性間接相關,因為它們研究了DNN如何學習或執行推理(第4節)。

  • 開發可解釋的 DNN 系統的設計者的考慮(第 5 節)。

  • 可解釋性研究的未來方向(第6節)。

圖 1:指南大綱。

付費5元查看完整內容

近年來,RL的顯著成就使其在人工智能研究的前沿占有一席之地。最關鍵的是,這些結果大多是在模擬環境中獲得的,在模擬環境中,不良行為不會產生有害后果。然而,為了釋放RL的全部潛力,我們希望在現實世界中部署它。雖然這擴大了RL有益影響的范圍,但也放大了其有害行為的后果。因此,我們必須理解和解決可能導致RL智能體在現實世界中做出潛在破壞性決策的原因。

//www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小數據環境下由不準確的模型可能導致的RL不安全行為。特別地,它關注的是對分布偏移的魯棒性問題。不過度擬合訓練數據,而泛化到以前未見過的環境條件,以及安全探索,即。,在訓練過程中安全獲取數據。

我們首先從線性控制理論引入魯棒性指標的無模型近似。我們利用我們的方法為Furuta擺設計控制策略,并在模擬到現實和硬件實驗中演示了它們的魯棒性,其中包括一個顯著的分布位移。

在此基礎上,研究了將安全表示為一組未知光滑約束的目標導向安全勘探問題。針對這一問題,我們提出了一種保證安全性和完整性的算法,并在模擬實驗中表明,該算法在樣本效率方面較現有方法有明顯提高。然后,我們將其擴展到自適應控制問題,一類與外生變量引起的分布位移有關的經典控制問題。我們部署我們的算法來控制旋轉軸驅動器在不斷變化的環境。 最后,我們提出了一個新的框架,將先驗知識融入到安全勘探問題中,使我們可以解除以前的方法所做的許多假設,如平滑性。為該框架提供了安全保證,并將其與深度強化學習智能體相結合,以在具有挑戰性的環境中安全地訓練控制策略。

付費5元查看完整內容

強化學習作為人工智能領域研究熱點之一,它與元學習相結合的研究進展與成果也引發了眾多關注。元強化學習近年來取得了令人矚目的成就,其應用于各個領域的研究也取得較大的進步。元強化學習在總結多次學習策略的情況下,以不斷改進學習算法。近年來,該方向已經取得了一系列矚目的進展,比如策略自適應、機器人導航、加工參數優化等。故元強化學習領域具有較大的潛在研究優勢。

付費5元查看完整內容

強化學習(RL)通過與復雜環境的交互,推動機器學習從基礎數據擬合到學習和規劃的新時代。RL具有深度學習功能,在自動駕駛、推薦系統、無線通信、機器人、游戲等領域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基礎發展,直到最近才被徹底理解,特別是它們的有限時間收斂速度和樣本復雜性。本教程將全面概述基礎RL算法的理論理解的最新進展,利用隨機近似/優化理論和利用RL問題的馬爾可夫結構。本教程還將介紹一些高級的RL算法及其最近的發展。

付費5元查看完整內容

最近機器學習或人工智能的視覺和自然語言處理方面的進展使個人助理或自動駕駛汽車等新技術的發展成為可能,這將機器學習和人工智能帶到了流行文化的前沿。這些算法進步的積累,以及大量數據集和隨時可用的高性能計算的增加,在將機器學習應用到如此廣泛的學科中發揮了重要作用。鑒于化學科學強調結構和功能之間的關系,無論是在生物化學還是在材料化學中,化學家采用機器學習。《化學中的機器學習》關注以下內容,以啟動您對這一高度相關主題的理解:

//axial.acs.org/2021/06/21/machine-learning-in-chemistry-now-and-in-the-future/

與化學科學最相關的主題是重點。

  • 關注概念而不是技術細節。綜合引用為更多的技術細節提供了資源。

  • 機器學習方法的關鍵細節(不容易,但重要的是理解這些方法的優點和局限性,并確定領域知識最容易應用的地方。

  • 熟悉基本的單變量微積分和線性代數將會很有幫助,盡管我們已經提供了重要的一步一步的推導

付費5元查看完整內容
北京阿比特科技有限公司