亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

許多任務涉及多個智能體,需要順序決策策略來實現共同目標,如足球比賽、實時策略游戲和道路網絡中的交通燈控制。為獲得所有智能體的策略,這些問題可被建模為多智能體系統,并通過多智能體強化學習(MARL)來解決。然而,由于復雜的多智能體行為和環境動態的非平穩性質,優化多智能體場景中的策略并非易事。智能體的行為及其與其他智能體的互動導致環境狀態和智能體觀察隨時間變化,使得開發長期有效的策略成為挑戰。此外,部分可觀測性(智能體對環境的信息有限或不完整)也增加了問題的復雜性。而且,環境動態的固有不確定性使得決策變得不穩定。

這篇博士論文通過提出新穎的MARL方法來應對這些挑戰。這些新方法使智能體能夠在動態且部分可觀測的環境中學習高效的策略,尤其是在需要合作的環境中。特別是,我們針對以下四個基礎的多智能體研究問題提出了解決方案。首先,我們研究了在風險較高的場景中為智能體學習風險敏感的合作策略的問題,這些場景的特點是執行潛在低回報行為可能導致重大的潛在獎勵損失。特別是,我們關注那些團隊內部存在智能體異質性且對手可能數量眾多的環境。為應對此問題,我們提出了RMIX來學習MARL中的風險敏感合作策略。我們首先通過分布式強化學習來模擬個體的Q值分布。然后我們利用條件風險價值(CVaR)來衡量個體回報的分布。我們還提出了一個動態風險水平優化器來處理執行過程中隨機 結果的時間性質。實證結果表明,RMIX在多種多智能體風險敏感場景中的表現優于現有最先進方法,它展示了更好的協調能力和提高了樣本效率。

接著,我們研究了在動態電子收費(DETC)問題中學習可擴展策略的問題,其中交通網絡龐大且動態變化。為此,我們提出了一種新穎的MARL方法,通過將大型狀態分解為更小的部分,對每個分解后的狀態學習多智能體策略,從而擴展DETC的處理范圍。具體來說,我們將圖網絡分解成更小的圖,并提出了一種新型的基于邊的圖卷積神經網絡(eGCN),以提取道路網絡特征的時空關聯性。提取出的特征被輸入到合作MARL方法的策略網絡中。實驗結果表明,這種分而治之的方法能夠擴展到現實規模的問題,并且性能穩健,顯著優于現有最先進方法。

第三,我們關注在行動持續時間的場景中學習高效多智能體協調策略的問題。由于行動持續時間的存在,獎勵被推遲,使得基于時間差異的MARL策略訓練變得具有挑戰性。為了解決這個問題,我們提出了一種基于我們新穎的基于圖的情節記憶LeGEM-core的獎勵重分配方法,以在非同步行動普遍存在的環境中學習高效的多智能體協調。非同步行動指的是具有行動持續時間的行動,在此期間環境變化受到這些行動的影響。LeGEM-core明確記憶智能體的過去經驗,并在MARL訓練中實現信用分配。我們將這種解決方案命名為LeGEM。我們在包括Stag-Hunter Game、Quarry Game和Afforestation Game在內的多種多智能體場景中評估LeGEM。實證結果顯示,它在具有非同步行動的多智能體環境中顯著提升了多智能體協調能力,并實現了領先的性能。 最后,我們的目標是學習能使智能體在訓練期間未見過的其他智能體的策略中進行協調或競爭的通用策略。我們提出了RPM,用于在評估場景中學習面向智能體的通用策略,這些場景中其他智能體的行為不同。RPM的主要思想是通過收集大量多智能體互動數據來訓練MARL策略。我們首先根據每個智能體的訓練集回報對其策略進行排名,然后將排名的策略保存在內存中;當一個情節開始時,每個智能體可以從內存中隨機選擇一個策略作為行為策略。這種新穎的自我博弈框架在訓練數據中多樣化了多智能體互動,并提高了MARL的泛化性能。Melting Pot上的實驗結果表明,RPM使智能體能夠在多智能體泛化評估場景中與未見過的智能體進行交互,并取得了提升的性能。

總結來說,這篇博士論文調查了四個普遍存在且未解決的基礎多智能體順序決策研究問題。所提出的四種MARL方法解決方案,在潛在獎勵損失、大狀態空間問題、行動持續時間和MARL泛化性缺乏所引起的不確定性多智能體環境中,為智能體提供了高效的策略訓練和性能提升。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。

我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。

在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。

最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。

然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:

(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。

(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。

付費5元查看完整內容

人類不斷地適應我們周圍的世界,讓我們無縫地獲取新技能和探索多樣的環境。但是,當前的AI方法不能達到這種多功能性。相反,它們通常使用大量的數據集進行訓練,并同時學習所有任務。然而,經過訓練的模型在適應變化的上下文時有限的能力,并受到可用數據的限制。在機器人技術中,這一挑戰尤為突出,因為真實世界的交互數據非常稀少。

相反,我們設想一個機器人能夠從環境和人類互動中持續學習,快速獲取新信息而不覆蓋過去的知識,并能夠適應用戶的特定需求。

在這篇論文中,我們將持續學習應用于機器人技術,目標是啟用關鍵能力,包括:將先前的信息應用于新設置,維護舊信息,保持學習新技能的能力,以及理解上下文。我們在兩種學習模式下探索這些:持續的強化學習(CRL),代理從經驗中學習;以及持續的模仿學習(CIL),它從演示中學習。

然而,許多障礙阻礙了進步,包括有限的開源資源、資源密集型基準和機器人技術的不實用指標。為了應對這些挑戰,我們提出CORA(持續強化學習代理),一個帶有基準、基線和指標的開源工具包,以增強CRL的可用性。CORA超越了災難性遺忘,評估模型進行前向轉移和泛化的能力。

在此基礎上,我們引入SANE(自激活神經集合)來創建一個動態的可適應技能庫。SANE的獨立模塊集合根據需要學習和應用技能,減少遺忘。我們在幾個Procgen強化學習任務集上展示了這種方法。

然后,我們將SANE適應到一個物理機器人——Stretch,使用CIL并命名為SANER(SANE用于機器人技術)。借助我們創新的基于注意力的交互策略(ABIP),SANER在少次學習中表現出色,展示了其在各種任務中的泛化效果。 SANERv2進一步增強了這一能力,整合了自然語言,并在一個模擬環境RLBench中,在15個不同的操縱任務上實現了強大的性能。值得注意的是,SANERv2還能展示獨立模塊的潛力,證明一個節點可以在代理之間移動而不損失性能,這預示著未來可能有組合的集成。

付費5元查看完整內容

機器學習算法已被廣泛應用于多種領域,人們對這些算法可能存在的偏見越來越關注。雖然已有許多解決算法預測偏見的方案,但在將預測轉化為合理決策的過程中仍存在空白。此外,即使一個公正且公平的決策也可能在決策產生反饋效應時導致不可預期的后果。盡管已經有許多方案提出實現一次性決策的公平性,但在研究連續算法決策的長期效果方面仍有空白。在這篇論文中,我們專注于在連續決策環境中研究算法的公平性。我們首先研究如何將模型預測轉化為公平的決策。具體而言,給定黑箱模型(機器學習模型或人類專家)的預測,我們基于經典的學習自專家方案提出了一個算法,將預測結合起來生成公平且準確的決策。我們的理論結果表明,可以在不犧牲太多遺憾的情況下實現近似等化的機會。我們還展示了這個算法在公平社區常用的真實數據集上的表現。

在論文的第二部分,我們研究在連續設定中強制執行靜態公平決策是否能在反饋循環下導致弱勢群體的長期平等和改善。特別地,我們使用具有一般過渡函數的馬爾可夫決策模型來模擬算法決策和基本分布之間的互動。我們提出了一個新的度量標準,通過衡量分布的中心、擴散和形狀的變化來衡量算法決策的分布影響。這個度量將影響劃分為群體內影響和群體間影響,其中群體內影響度量政策如何影響組內分布,群體間影響則度量政策如何對兩個人口群體的分布產生不同的影響。我們的結果顯示,閾值策略的效用和群體間影響之間通常存在權衡,常見的公平約束可能會導致“反作用效應”,即對各群體的影響可能存在差異。

付費5元查看完整內容

多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。

付費5元查看完整內容

深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。

付費5元查看完整內容

稀疏性在機器學習中扮演著關鍵的角色,原因有幾個,包括可解釋性。可解釋性是由從業者或科學家尋求的。事實上,一方面,可解釋性在醫療健康等實踐中可能是關鍵,在這些實踐中,黑盒模型不能用于為患者開具治療處方。另一方面,可解釋性對于理解使用機器學習建模的現象(如等離子體電磁發射)至關重要。除了可解釋性,稀疏性還有其他一些重要的應用,如提高模型的預測能力,降低運營和投資成本。 整數優化在處理稀疏性的方法概念中是一個非常有效的工具。它為構建稀疏模型提供了一個嚴格的框架,并已被證明比其他方法(包括使用稀疏誘導正則化規范的方法)提供了更精確和稀疏的模型。本文主要研究整數優化在稀疏性問題中的應用。

我們提供了稀疏建模的兩個應用。第一個是關于混合整數優化稀疏回歸在激光誘導擊破光譜分析技術中的應用。我們在化學計量學中建立了一種稀疏和魯棒模型的方法,并在各種類型的礦物礦石上進行了測試。MIO方法優于專家的預測,同時提供了與??????????相比顯著稀疏的模型。由于??2在某些情況下達到的值高于0.99,據我們所知,這個應用程序是第一個帶來經驗證據的應用程序,證明在自然界中存在真正的支持,因為優化社區一直在質疑在現實生活中的應用程序中存在這樣的概念。第二個應用與COVID檢測和稀疏分類有關。我們提出了一種基于光譜的快速、簡單的檢測方法。這種新方法建立在機器學習能力的基礎上,可以在一分鐘內完成診斷,不使用任何試劑,達到接近PCR的精確度。稀疏方法能夠檢測SARS-CoV-2 RNA和蛋白質的3D結構中的特定特征。

鑒于主成分分析在我們的研究和機器學習中的重要性,我們也提供了一種解決稀疏主成分分析問題的新方法。該方法是第一個一步生成多個稀疏主成分的方法,而現有的技術依賴于壓縮迭代生成主成分。提出的方法(GeoSPCA)生成高質量的解決方案,將壓縮技術解釋的方差提高了一個數量級以上。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。

因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。

有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。

//dspace.mit.edu/handle/1721.1/138930

付費5元查看完整內容
北京阿比特科技有限公司