亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在協同多智能體強化學習中,集中訓練和分散執行(CTDE)取得了顯著的成功。IGM (Individual Global Max)分解是CTDE的重要組成部分,用來衡量局部策略與聯合策略之間的一致性。大多數基于IGM的研究關注于如何建立這種一致的關系,但很少關注檢查IGM的潛在缺陷。在這項工作中,我們揭示了IGM條件是一個有損分解,并且有損分解的誤差會在基于超網絡的方法中積累。針對上述問題,本文提出采用模仿學習策略將有損分解與Bellman迭代分離,從而避免誤差累積。在零視點的《星際爭霸》多智能體挑戰賽基準問題上,對所提策略進行了理論驗證和實證驗證。結果也證實了提出的方法優于最先進的基于IGM的方法。//www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23

付費5元查看完整內容

相關內容

近年來,基于異構信息網絡(HINs)的自監督預訓練方法與傳統的半監督異構圖神經網絡(HGNNs)相比顯示出了良好的競爭力。不幸的是,它們的性能嚴重依賴于精心定制各種策略,以生成高質量的正例和反例,這明顯限制了它們的靈活性和泛化能力。在這項工作中,我們提出了一種新的自監督異構圖預訓練方法SHGP,它不需要生成任何正例或負例。它由兩個共享相同注意力聚合方案的模塊組成。在每次迭代中,Att-LPA模塊通過結構聚類產生偽標簽,這些偽標簽作為自我監督信號,指導Att-HGNN模塊學習對象嵌入和注意系數。這兩個模塊可以有效地相互利用和增強,促進模型學習判別嵌入。在四個真實數據集上的大量實驗證明了SHGP對最先進的無監督基線甚至半監督基線的優越有效性。我們在//github.com/kepsail/SHGP發布源代碼。

付費5元查看完整內容

現有的持續學習(CL)研究集中在減輕災難性遺忘上,即模擬在學習新任務時對過去任務的表現惡化。然而,對于CL系統的訓練效率研究不足,這限制了CL系統在資源有限場景下的實際應用。在這項工作中,我們提出了一個名為稀疏持續學習(SparCL)的新框架,這是第一個利用稀疏性在邊緣設備上實現低成本持續學習的研究。SparCL通過權值稀疏性、數據效率和梯度稀疏性三個方面的協同作用實現了訓練加速和準確性保持。提出任務感知動態掩碼(TDM)在整個CL過程中學習一個稀疏的網絡,動態數據移除(DDR)來刪除信息量較少的訓練數據,以及動態梯度掩碼(DGM)來稀疏梯度更新。這些方法不僅提高了效率,還進一步減輕了災難性的遺忘。SparCL通過最多23×少的FLOP訓練,持續提高現有的最先進的(SOTA) CL方法的訓練效率,并且令人驚訝的是,進一步提高SOTA精度最多1.7%。SparCL在效率和準確性方面也優于通過將SOTA稀疏訓練方法應用于CL設置而獲得的競爭基線。我們還在真實的手機上評估了SparCL的有效性,進一步表明了我們的方法的實用潛力。源代碼將被發布。

//arxiv.org/pdf/2209.09476.pdf

付費5元查看完整內容

元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多DSAA參與者來說越來越重要。

//metalearningacademy.github.io/tutorial/

人類可以從很少的例子中非常有效地學習,因為我們幾乎不會從頭開始學習新的任務,而是利用我們以前學過的所有東西。元學習在許多不同的方面模仿了這種方法。本教程涵蓋了元學習領域中當前技術狀態下的關鍵方法。

付費5元查看完整內容

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

多智能體強化學習在網絡路由,自動駕駛,機器人控制等方面得到的廣泛的應用。在許多場景中,多個智能體需要相互合作來完成任務,而在每個時刻,環境只能反饋全局獎勵(global reward)。在訓練時,需要進行credit assignment,即將整體收益的估計值分配給各個獨立的Agent,從而使得各個Agent能夠合理的獲得訓練。目前的credit assignment分為隱式的方法和顯式的方法,前者缺乏可解釋性,而后者大多沒有考慮agent之間的相互關系。本研究中,我們提出了一種使用Counterfactual Shapley Value來建模agent之間的相互關系的顯式的方法。Shapley Value 源于合作博弈論,其基本思想是,先計算每個參與者在大聯盟中所有子集的邊際貢獻,再對邊際貢獻進行加權平均來代表參與者的真實貢獻。我們在研究中,首先提出了一種因果反事實Shapley Value的計算方法來衡量任意agent集合的輸入與central critic輸出的因果關系,即考慮該集合不存在時對模型性能的影響。基于此,我們計算每個agent對于central critic的contribution,并使用該contribution作為credits來對local agents進行訓練。另一個問題是Shapley Value的計算復雜度是指數級別。為了提升訓練效率,我們提出使用Monte Carlo采樣來近似計算,從而將計算復雜度降低到線性級別。我們使用StarCraft II作為benchmark,在復雜的場景如3s5z和3s5z_vs_3s6z中的實驗表明,我們的方法優于SOTA,從而說明了我們方法的優越性。【諾亞決策與推理團隊和浙江大學計算機學院人工智能研究所聯合研究成果】

//www.zhuanzhi.ai/paper/06d0c35747b2ef6553c97056b1a69b24

付費5元查看完整內容

?遷移學習作為機器學習領域的關鍵核心技術,能夠有效地緩解訓練模型時對訓練數據規模以及計算能力的需求。近年來,研究人員針對遷移學習進行了大量的研究,主要集中在提高遷移后模型在目標域上的準確率,而忽略了遷移后模型面對對抗樣本攻擊時的魯棒性。該論文針對人工智能系統安全問題,分析了在遷移學習場景下,當深度神經網絡面臨對抗樣本攻擊時,遷移策略對神經網絡魯棒性的影響。

該論文彌補了現有分析的缺陷,在基于多種常用的圖像數據集構建的遷移學習場景中,細致地探討了在目標域上微調的模型層數對模型準確率及魯棒性的影響,并揭示了兩者之間存在的平衡問題,即隨著模型微調的層數增加,其在目標域上的準確率與魯棒性出現了不同步的變化(如圖1所示,左右分別為在不同數據集上的實驗結果)。同時,該論文針對目前普遍采用的批歸一化層,分析了其對于遷移學習后模型性能的影響,并通過大量實驗證明:在遷移學習中有選擇地重用批歸一化層的參數,可以有效地提高系統魯棒性。

更進一步地,對于遷移學習過程中準確率與魯棒性的平衡問題,該論文針對性地提出協同對抗魯棒的遷移學習框架(如圖2所示),分別針對源域模型(文中稱為TeacherModel)的對抗訓練階段以及目標域模型(文中稱為StudentModel)的微調階段設計了新算法:考慮源域模型中的部分網絡層會被目標域模型重用—被用于提取輸入的特征—對此該論文提出特征距離最小化,通過減少源域模型對正常樣本與對抗樣本所提取特征的差異程度,使其魯棒性能夠更加容易地被目標域模型繼承;對于在目標域上的微調過程,該論文提出非拓展微調算法,通過限制微調部分網絡參數的利普希茨常數,降低模型對于對抗樣本的敏感程度,從而使微調后的模型能夠更好地從源域繼承魯棒性。作者在多個圖像數據集(CIFAR、SVHN、GTSRB)上進行了大量實驗和分析,實驗結果充分驗證了該方案的有效性。

//arxiv.org/pdf/2106.06667.pdf

付費5元查看完整內容

圖池化是眾多圖神經網絡(GNN)架構的核心組件。由于繼承了傳統的CNNs,大多數方法將圖池化為一個聚類分配問題,將規則網格中的局部patch的思想擴展到圖中。盡管廣泛遵循了這種設計選擇,但沒有任何工作嚴格評估過它對GNNs成功的影響。我們以代表性的GNN為基礎,并引入了一些變體,這些變體挑戰了在補充圖上使用隨機化或聚類的局部保持表示的需要。引人注目的是,我們的實驗表明,使用這些變體不會導致任何性能下降。為了理解這一現象,我們研究了卷積層和隨后的池層之間的相互作用。我們證明了卷積在學習的表示法中起著主導作用。與通常的看法相反,局部池化不是GNNs在相關和廣泛使用的基準測試中成功的原因。

付費5元查看完整內容

多智能體深度強化學習中的Q值路徑分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺

簡介:

近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

方法:

  • 在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。

  • 在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。

  • 使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。

效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。

付費5元查看完整內容

主題: Multi-Agent Determinantal Q-Learning

摘要: 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行,但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中,我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP,這是一種將確定性點過程(DPP)擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式;這允許對聯合Q函數進行自然分解,而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN,QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本,我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中,我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法;與最新技術相比,我們算法的有效性得到了證明。

付費5元查看完整內容

現實世界中的對象頻率通常遵循冪次定律,導致機器學習模型所看到的具有長尾類分布的數據集與我們對模型在所有類上表現良好的期望之間的不匹配。我們從領域適應的角度來分析這種不匹配。首先,我們將現有的長尾分類的類平衡方法與目標移位相聯系,這是一個在領域適應方面得到充分研究的場景。這種聯系表明,這些方法隱含地假設訓練數據和測試數據共享相同的類條件分布,這種分布在一般情況下不成立,尤其是尾部類。雖然頭類可以包含豐富多樣的訓練示例,很好地表示推斷時的預期數據,但尾部類通常缺乏代表性的訓練數據。為此,我們建議通過元學習方法顯式地估計類條件分布之間的差異來擴充經典的類平衡學習。我們用6個基準數據集和3個損失函數驗證了我們的方法。

付費5元查看完整內容
北京阿比特科技有限公司