亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習是專注于序列決策問題的機器學習范式。與許多其他機器學習和統計領域類似,數據效率通常是一個主要關注點,即序列決策代理需要多少試錯交互數據才能學習到期望的行為?數據高效強化學習的一個關鍵障礙是探索問題,即序列決策代理必須在獲取有關環境的新知識和利用當前知識最大化近期性能之間找到平衡。傳統文獻關于平衡探索和利用的研究主要集中在代理可以在相關時間范圍內接近最優性能的環境中。然而,現代人工決策代理涉及復雜環境,例如萬維網,在任何相關時間范圍內都不可能接近最優性能。 本文致力于開發應對復雜環境中探索問題的原則性和實用性方法。我們的方法基于一個簡單的觀察:面對如此復雜的環境,與其試圖獲取足夠的信息以實現最優行為,不如針對一個適度的信息庫,該信息庫雖然能夠促進行為改善,但本身不足以實現近似最優性能。我們設計了一個以這種方式調節探索的代理,并對其行為進行了理論和實證分析。實際上,在每個時間段,該代理決定學習什么,以在信息需求和性能之間達到理想的權衡。 正如本文所闡明的,設計這種代理的核心是經典的信息論和有損壓縮工具,這不僅提供了原則性的理論保證,而且在大規模實踐實施中也具有可行性。

數據高效的強化學習

強化學習(RL)[Sutton and Barto, 1998; Kaelbling et al., 1996] 是一種專注于序列決策問題的機器學習范式。與機器學習和統計學的許多其他領域類似,數據效率通常是一個主要關注點,即序列決策代理需要多少試錯交互數據才能學習到期望的行為?然而,與其他任何機器學習范式不同,RL中的數據效率需要同時應對三個基本挑戰:

探索:明智地優先收集哪些環境數據以改善長期性能。

泛化:穩健地從采樣數據中提取可轉移的信息,擴展到尚未見過的觀測。

信用分配:準確地將每步決策的長序列與延遲的未來結果關聯起來。

與傳統的監督學習不同,在傳統的監督學習中,學習者被提供了一個固定的、靜態的數據集,而RL代理通過與環境的交互自適應地收集數據。廣義上講,探索挑戰歸結為序列決策代理面臨的一個二元選擇:是獲取關于世界的新知識,還是利用當前知識以最大化即時性能。盡管泛化和信用分配帶來的挑戰通常非常顯著,但本文將專注于解決RL中的探索問題。然而,我們的解決方案設計成這樣,以便未來的研究可以將這些理念與處理其他兩個挑戰的方法相結合,從而形成一個更全面的數據高效RL代理。 在復雜環境中的探索 在序列決策文獻中,學習識別最優行為的代理代表了主要的研究重點。事實上,已有許多強化學習算法通過引導探索性決策來學習最優行為。然而,學習是一個獲取信息的過程,因此,任何代理試圖學習的內容都需要從與環境的交互中獲得精確量的信息;自然地,以這種必要信息量來衡量,有些東西比其他東西更容易學習。 在與復雜環境交互時,識別最優策略可能是一個極其困難的挑戰,因為在任何合理的時間范圍內都有太多的東西需要學習。因此,一個受限的代理必須進行優先級排序。一個簡單的方法是指定一個學習目標,這可以看作是一個信息庫,雖然不足以在環境中產生最優性能,但足以指導有效的決策并促進行為改善。然后,代理可以重新定位其探索,優先收集關于這個學習目標的信息,而不是追求最優行為。 與其讓代理設計者為代理制定學習目標,不如讓每個代理自動地、數據驅動地選擇自己的學習目標。這將代理設計者的角色從指定目標轉變為賦予代理設定和適當調整目標的能力。設計者可以將這種學習目標的一般形式作為學習算法的框架的一部分來指定。然后,可以將更傳統的、固定目標的學習算法重新用于代理實現其目標的子程序。本文介紹了一系列連貫的工作,從多臂賭博機問題一直到深度強化學習,以解決一個基本問題: 一個與復雜環境交互的代理應該如何決定學習什么? 這種方法不僅使代理能夠自主選擇和調整學習目標,還使其探索過程更具適應性和效率。通過優先獲取能夠顯著改善決策的信息,即使在無法實現最優行為的情況下,代理也能在復雜環境中取得良好的表現。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

強化學習是機器學習中專注于序列決策問題的范式。與機器學習和統計學的許多其他領域一樣,數據效率常常是一個主要關注點;即,一個序列決策的智能體需要多少試驗與錯誤的交互數據才能學習到所需的行為?數據效率低下的強化學習面臨的一個關鍵障礙是探索問題,即智能體必須在獲取新知識與利用當前知識以最大化近期性能之間找到平衡。傳統的探索與利用平衡的文獻主要針對智能體能夠在相關的時間框架內接近最優性能的環境。然而,現代人工決策智能體所面對的復雜環境(例如萬維網)使得在任何相關的時間框架內接近最優性能幾乎無望。 本論文的重點是開發應對復雜環境中探索問題的有原則且實用的方法。我們的方法基于一個簡單的觀察,即面對如此復雜的環境時,智能體不應致力于獲取足夠的信息以實現最優行為,而應瞄準一個較為適中的信息集,雖然該信息集可以促進行為改進,但本身不足以實現接近最優的性能。我們設計了一個能夠以這種方式調節探索的智能體,并對其行為進行了理論和實證分析。實際上,該智能體在每個時間段都會決定學習什么,以在信息需求和性能之間取得所需的權衡。正如本論文所闡明的那樣,這類智能體的設計核心在于信息論和有損壓縮的經典工具,這些工具不僅能夠提供有原則的理論保證,也有助于在大規模實踐中實現。


數據高效的強化學習

強化學習(Reinforcement Learning,RL)[Sutton 和 Barto, 1998;Kaelbling 等人, 1996] 是機器學習中專注于序列決策問題的范式。與機器學習和統計學的許多其他領域一樣,數據效率常常是一個主要的關注點;即,序列決策的智能體需要通過多少試錯交互數據才能學習到所需的行為?然而,與其他任何機器學習范式不同的是,RL 中的數據效率要求同時應對三個基本挑戰:

  1. 探索:明智地優先收集環境中的數據,以提高長期性能。
  2. 泛化:穩健地提取可遷移的信息,這些信息可以擴展到尚未見過的觀測中。
  3. 信用分配:準確地將每步決策的長序列與延遲的未來結果關聯起來。

與傳統的監督學習不同,監督學習中的學習者會被提供一個固定的、靜態的數據集,而強化學習的智能體通過與環境的交互自適應地收集數據。廣義上講,探索挑戰歸結為一個序列決策智能體面對的二元選擇:是獲取關于世界的新知識,還是利用現有知識以最大化即時性能?雖然泛化和信用分配帶來的挑戰通常也很重要,但本論文將專注于應對強化學習中的探索問題。盡管如此,我們的解決方案概念設計使得未來的研究可能會發現,將這些想法與處理另外兩個挑戰的方法結合起來,能夠構建一個更全面的數據高效RL智能體。 復雜環境中的探索

學習識別最優行為的智能體是序列決策文獻的主要關注點。事實上,強化學習算法有著悠久的歷史,這些算法引導探索性決策,目的是學習最優行為。然而,學習是一個獲取信息的過程,因此,智能體想要學習的任何內容都需要從與環境的交互中獲取足夠精確的信息;自然地,以這一必要信息量來衡量,有些事情比其他事情更容易學習。 在與復雜環境交互時,識別最優策略可能是一項極其困難的挑戰,因為在任何合理的時間框架內需要學習的內容都過多。因此,有限的智能體必須進行優先排序。一種簡單的方法是指定一個學習目標,可以被視為一個信息集,雖然不足以在環境中實現最優性能,但足以引導有效決策并促進行為改進。然后,智能體可以重新調整其探索,優先收集有關該學習目標的信息,而不是最優行為。 與其讓智能體設計者為智能體設計一個學習目標,本論文中所探討的每個智能體都被設計為能夠以自動化、數據驅動的方式選擇其自己的學習目標。這將智能體設計者的角色從指定目標轉變為賦予智能體確定并適時調整學習目標的能力。設計者可以將學習目標的一般形式作為學習算法的框架的一部分進行指定。傳統的、固定目標的學習算法可以重新用作智能體實現其自身目標的子程序。我們在本論文中引入了一條連貫的研究路線,涵蓋了從多臂賭博機問題到深度強化學習,以解決一個基本問題: 智能體在與復雜環境交互時,應該如何決定學習什么?

付費5元查看完整內容

優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。

付費5元查看完整內容

與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。

付費5元查看完整內容

近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。

圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。

為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。

在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。

繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。

近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。

盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:

圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。

我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。

我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。

我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。

我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。

付費5元查看完整內容

在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。

這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。

總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。

付費5元查看完整內容

深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。

然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。

機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。

想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

強化學習是一種學習范式,它關注于如何學習控制一個系統,從而最大化表達一個長期目標的數值性能度量。強化學習與監督學習的區別在于,對于學習者的預測,只向學習者提供部分反饋。此外,預測還可能通過影響被控系統的未來狀態而產生長期影響。因此,時間起著特殊的作用。強化學習的目標是開發高效的學習算法,以及了解算法的優點和局限性。強化學習具有廣泛的實際應用價值,從人工智能到運籌學或控制工程等領域。在這本書中,我們重點關注那些基于強大的動態規劃理論的強化學習算法。我們給出了一個相當全面的學習問題目錄,描述了核心思想,關注大量的最新算法,然后討論了它們的理論性質和局限性。

Preface ix Acknowledgments xiii Markov Decision Processes 1 Value Prediction Problems 11 Control 37 For Further Exploration 63 Further reading 63 Applications 63 Software 64 Appendix: The Theory of Discounted Markovian Decision Processes 65 A.1 Contractions and Banach’s fixed-point theorem 65 A.2 Application to MDPs 69 Bibliography 73 Author's Biography 89

付費5元查看完整內容
北京阿比特科技有限公司