亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人類具有持續學習而不忘記的非凡能力,并使自己的行為適應不斷變化的環境要求。雖然以前的工作集中在闡明靈活的依賴于上下文的信息處理的基礎機制,但對信息在人腦中表示的格式以及這如何促進持續的任務表現知之甚少。本論文的目的是為依賴上下文的處理開發計算信息的表示學習理論,并在健康人類參與者的行為和神經成像記錄中測試這些理論。

通過一系列神經網絡模擬、行為和神經成像研究,以及對從macaque FEF錄制的免費可用數據集的重新分析,我收集了支持早期認知控制理論的證據,該理論假設,前額葉皮質實施了有利于任務相關而非任務無關信息的門控策略,以服務于特定上下文的任務目標。在第3章中,我提出了一個計算框架,用于研究人工神經網絡的上下文相關決策的表示學習,并演示了相同的架構如何學習高維和任務無關的表示,或低維和任務特定的表示。在第4章中,我在學習執行類似的上下文依賴決策任務的人類參與者的fMRI記錄中測試了這些模擬的預測,發現額頂葉區域的表示是高度特定于任務的,不同任務的相關信息映射到正交編碼軸上。在第5章中,我將介紹一個人類持續學習的模型,其中門控信號是通過一個簡單的Hebbian機制學習的。最后,在第6章中,我測試了之前報告的blocked相比于泛化到抽象規則的交叉訓練的好處,以及它們是否促進了跨域遷移。本文介紹了持續表示學習的計算理論,并提供了人類大腦使用門控策略在特定上下文的子空間中表示相關信息的經驗證據。

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

表示學習旨在從原始數據中提煉有用的知識,并將這些知識應用于廣泛的應用場景。這種不僅對選定任務有用,而且能推廣到新環境的信息提取能力是實現人工智能的關鍵一步。在這篇論文中,我們關注通過一種特定類型的生成模型得到的表示,即變分自編碼器(VAEs)。VAEs具有幾個理想的屬性。得益于使用變分推理和高斯后驗的便捷模型假設以及簡單的先驗,VAEs通常易于訓練并表現出快速收斂。概率建模方法使得VAEs能夠從原始數據中得到平滑的潛在表示(即,語義相似的數據樣本可能會被映射到潛在空間的相鄰區域)。VAEs將原始數據壓縮到一個更低維度的潛在空間。與原始數據相比,使用低維表示可以顯著降低內存和計算成本。憑借這些優勢,VAEs已廣泛應用于許多應用領域,包括機器人技術[1]、藥物發現[2]和數字內容創作[3]。盡管VAEs已經廣泛應用,但進一步提高VAEs的生成建模仍然是一個活躍的研究課題。在這篇論文中,我們關注VAE訓練中的兩個挑戰:1) 在具有高斯解碼器和簡單先驗模型的VAEs中,經常會遇到過度正則化的后驗分布;2) 自編碼函數可能導致嚴重的信息漂移,并在連續編碼過程中改變原始數據中的信息。針對這兩種現象,我們提出了解決方案。具體來說,我們優化高斯解碼器中的方差參數,以平衡ELBO目標中的競爭損失項。我們采用一個靈活的先驗模型,該模型在潛在空間中實現為一個VAE,以減輕過度正則化的影響。為了減少信息漂移,我們建議修改ELBO目標,加入一個一致性損失,以懲罰這種漂移。我們證明了這些提議可以有效解決之前確定的挑戰,并提高VAEs的似然得分。除了與改進VAEs相關的貢獻外,我們還展示了VAEs在兩個重要機器學習應用中表示學習的能力。首先,我們展示了VAE壓縮復雜高維數據的能力是實現異常檢測良好性能的關鍵。我們設計了一個VAE-LSTM異常檢測系統,可以準確地識別時間序列中的異常效果。其次,我們展示了結合VAE模塊的分類器可以給出更好的校準預測。這是因為VAEs能夠在后驗分布的擴散中表達相似數據樣本之間的不確定性,以及識別出分布樣本的能力。

付費5元查看完整內容

**本文研究了因果表示學習問題,即從高維的低維觀測中發現低維的高層次因果變量及其因果關系,以實現機器學習中的泛化和自適應。**考慮在監督學習中為泛化學習因果表示。由于虛假的相關性,預測模型往往無法泛化到與訓練時使用的分布不同的環境。本文提出一個框架,在基本因果圖的相當一般的假設下有理論保證,首先從觀察中確定給定目標的直接原因,然后用這些原因來構建不變的預測器,這些預測器能夠泛化到未見過的測試環境。

**其次,我們考慮在模仿和強化學習中學習因果表示的泛化。**其中一個基本的挑戰是學習策略、表示或動態,這些策略、表示或動態不會建立在虛假的相關性之上,并且不會泛化到它們所訓練的特定環境之外。我們從一個統一的觀點來研究這些泛化問題。為此,我們提出了一個框架來解決它們,在溫和的環境變化假設下,理論保證了可識別性和可泛化性。關鍵思想是,通過利用環境變量之間的結構關系(即,觀察、狀態、行動和獎勵),我們首先構建一個忽略虛假特征的數據表示,然后在策略、表示和動態方面構建不變預測因子。我們從理論上證明,所得到的策略、表示和動態可以很好地泛化到未見的環境。

**最后,我們考慮了強化學習中適應的學習因果表示。**除了泛化之外,強化學習的另一個基本挑戰是如何在只提供少量樣本的情況下快速使策略適應新環境。通過利用環境變量的結構關系,我們構建了一個簡約的圖表示,它分別編碼了用于策略適應的最小和充分的環境特定因素集和環境共享因素集的內容和位置。我們表明,這樣的表示允許我們以一種只需要少量樣本的有效方式使策略適應目標環境,而不需要進一步的策略優化。

付費5元查看完整內容

在過去的幾十年里,機器學習在眾多人工智能應用中取得了長足的進步。然而,它的成功主要依賴于在一個封閉的環境中使用大量的離線數據訓練模型,然后在類似的測試環境中對它們進行評估。這意味著大多數機器學習模型無法在很少的觀察下快速適應新環境并在線學習新知識。相比之下,我們的人類大腦可以從在線感官輸入流中學習新的表示、概念和技能。**本文旨在使具有幾個核心能力的機器能夠在開放世界中學習新概念,而無需訪問大量精心策劃的標記數據。**具體來說,它解決了幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據以及不平衡和噪聲數據進行學習。本文提出的算法可以自然地與任何深度神經網絡相結合,并且與網絡架構無關。它們可以為各種開放世界條件提供更大的靈活性和魯棒性,使基于學習的方法適合部署在一般的基于智能體的智能系統中。

1.引言

**機器學習是人工智能領域的核心課題之一。由于許多智能行為不能簡單地由標準程序定義,而不是依靠人工設計的規則,本文使用機器學習來獲得函數逼近,給定許多輸入和輸出觀測。**今天,在機器學習的幫助下,我們的計算機可以識別我們的聲音和筆跡,記住我們的臉,標記我們的照片,翻譯不同的語言,在下棋和圍棋中擊敗我們,并在道路上安全駕駛汽車。就像阿蘭·圖靈在20世紀50年代設想的那樣,今天的計算機使用機器學習來“模擬”兒童的思維,這是一張逐漸充滿各種各樣的知識和表示的白紙。然而,機器的學習過程與兒童的學習過程仍有很大的差距。也許機器學習和人類學習之間最顯著的區別之一是能夠學習自然世界中稀缺數據的任務。如今的機器學習往往依賴于在一個封閉的世界環境中訓練模型,并在大量經過整理的數據中進行評估,然后在類似或相同的測試環境中進行評估。這意味著,與人類不同,標準的機器學習算法無法在很少的觀察下快速適應新環境并在線學習新知識。在本文中,我們將這種期望的能力稱為開放世界學習。 我們如何彌合人類和機器之間的這種明顯差距?我的論文旨在尋求解決方案,使機器能夠在一個開放的世界中學習新概念,而不需要獲取大量的策劃標簽。具體來說,它解決了開放世界學習框架下的幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據、不平衡和噪聲數據、在線和流數據進行學習,所有這些都是今天典型的機器學習管道中沒有考慮的。這些問題的最終解決方案將對我們所有人產生深遠的影響。首先,它將允許未來的智能體在飛行中學習:你未來的家庭機器人將適應你的房子,識別新家具,并學習使用新設備;你的增強現實眼鏡將通過你對世界的視角來學習,這些視角是你過去從未經歷過的;您的個人AI助理將適應您的偏好,并在與您的對話中學習新技能。此外,它將在許多工業應用中節省數百萬小時的工程、標簽和數據管理工作。最后,通過將我們的學習過程投射到計算框架中,這也將是探索理解人類智能的一個里程碑。

本文概述

**本文提出的貢獻,使機器能夠用很少的標記示例獲得新概念,并使它們對許多自然主義和開放世界條件更魯棒。**在過去,有幾種機器學習范式,如小樣本學習、持續學習、自監督學習等,它們都是由使機器學習在開放世界中更加靈活和自適應的大愿景所驅動的。第二章概述了這些課題的背景文獻。具體來說,本文首先討論了各種學習范式,這些范式鼓勵在與訓練不同的環境中進行測試時的學習,例如小樣本學習和持續學習,然后討論了另一個相關研究的思路,旨在從無標簽的示例中學習,例如自監督學習。 然而,這些學習范式通常只專注于一個特定的屬性,如域偏移量或標記數據點的數量。有時,這些性質是正交的,它們的解可以組合在一起,但通常提出的解決方案依賴于一些額外的不現實的假設。例如,標準的半監督學習利用未標記的數據來提高學習模型的質量;然而,它假設未標記的數據與標記的數據來自相同的分布,并且也屬于預定義的類別之一。在另一個例子中,標準的少樣本學習旨在用很少的數據點來學習新類別,但它假設數據點平均分布于在訓練期間從未見過的幾個新類別。或者,類不平衡問題通常假設類標簽是正確的,因此高訓練成本意味著數據點來自少數類。在這些示例中,假設學習環境的其他屬性的解決方案在同時存在多個問題的開放世界中部署時可能會崩潰。因此,本文的核心主題是尋求新的解決方案,以同時解決開放世界的多種特性,如有限的標記數據學習、輸出空間的增量增長、無標記、不平衡和有噪聲的數據。為了實現這一目標,我們不僅需要開發新的學習算法,還需要重新思考定義問題的學習范式。因此,論文的一部分,如第4章和第6章的部分,也旨在定義具有額外自然屬性的新的學習范式或基準。

**用有限的標記數據進行學習的文獻被廣泛稱為少樣本學習。然而,標準的少樣本學習在測試時只處理少量的新類。**在第3章中,我們關注的是增量少樣本學習的問題,模型需要識別訓練時多次出現的舊類別和測試時剛剛引入的新類別。令人驚訝的是,許多只專注于解決新類別的經典少樣本學習方法,實際上在處理結合新舊類別的更現實問題時受到了影響,可能是因為新舊類別的表示彼此不兼容。與直接使用新類樣本的某些特征向量作為分類器權重的傳統方法不同,本文提出的方法是基于連續優化的,通過平衡新舊類帶來的目標來求解權重,并在測試時達到更好的優化解。在整個增量學習新類別的過程中,現實世界的智能體通常會遇到更多的未標記樣本。在第4章中,我們又向前邁進了一步,將未標記數據引入到小樣本學習問題中。本文提出一種半監督少樣本學習的新學習范式,除了在每個學習片段中標記的數據點很少的約束外,還考慮未標記的樣本。本文工作是第一個同時解決半監督學習和少樣本學習的工作。它不僅減少了訓練和測試任務中對標記數據量的依賴,而且解決了干擾因素的問題,即不屬于任何已知類別的類別,因為在經典的半監督學習中不考慮這一問題。本文提出新的少樣本學習模型,可以規避分干擾類的影響,同時仍然設法利用來自未標記數據的有用信息。

**盡管小樣本學習取得了廣泛的成功,但情節通常是從精心策劃的數據集中采樣,而不是從自然世界的噪聲長尾分布中采樣。**我們在第4章中介紹的干擾物例子也可以被認為是一種噪聲訓練數據。在第5章中,我們將研究在標準機器學習環境下的不平衡和噪聲類標簽學習問題。雖然這兩個問題在自然學習環境中普遍發生,但傳統上,它們被分開研究,采用相互矛盾的補救方法。為了解決這一沖突,本文提出了一種數據驅動的示例權重機制,可以在統一的框架下直接應用于這兩個問題。該算法利用干凈和平衡的驗證集來校準訓練樣本權重。該模型還強調了一種同時聯合更新內層和外層循環參數的高效學習方法。少樣本學習通常伴隨著僵化的情景設置,這使得對新概念的持續增量獲取進行建模變得不自然。第6章提出了一種新的在線情境化小樣本學習范式。雖然我們在第3章中研究了新舊類別的組合,但之前的方法主要關注情節的概念,但知識從未隨著時間順序和增量增長。雖然已經有一些努力使這些情節更有順序,就像設置增量類學習一樣,但訓練和測試階段的分離仍然使評估變得繁重。現實世界的智能體不依賴偶發的停止,而是執行在線持續學習,在序列的每個時間步中產生一些輸出預測,通過自上而下的上下文信息流進行調制。新范式包含了許多自然主義屬性,如在線、增量、上下文化、少樣本和半監督,還開發了一個基于室內家庭圖像的新基準,模仿現實世界智能體的視覺輸入流。提出了一種新的模型——上下文原型記憶(context Prototypical Memory, CPM),成功地解決了在有限標記數據下的在線上下文類學習問題。

最后,在第7章中,我們研究了在不使用任何類別標簽的情況下,通過在線視覺輸入流動態學習表示和類別。在前幾章中,學習仍然主要由帶標簽的示例驅動:例如,在第6章中,只有當環境告訴智能體它是一個新類時,新的類別簇才會創建。在本章中,我們將介紹一種算法,該算法允許智能體同時從未標記的數據流中學習表示和類別。這可以被視為發展過程中的一個前階段,因為智能體可以首先通過在沒有標記數據的情況下學習表示和類別來探索環境,然后在一些示例的監督下進行。所提出的模型,在線無監督原型網絡,將用于概念學習的原型網絡與基于聚類的自監督表示學習相結合,并與僅使用在線數據流進行訓練的最先進的自監督視覺表示學習方法相比較。此外,該算法對不均衡分布也具有較強的魯棒性。

目錄內容:

付費5元查看完整內容

兒童和機器的語言習得是了不起的。然而,雖然兒童通過聽相對少量的語言以及與人和周圍環境的互動來學習,但神經語言模型需要更多的數據和監督,難以泛化到新領域,絕大多數情況下只能從文本中學習。本文探討了關于兒童語言習得的知識——特別是兒童接受語言信息的規模和類型,他們如何使用反饋,以及他們如何以超出他們接觸到的語言輸入的系統方式進行概括——如何應用于多模態語言模型。本文的重點是:(1)基于視覺,用較少的數據訓練弱監督語言模型;(2)探索模型在多模態域的泛化能力。第一種方法使用字幕視頻訓練語義解析器,將自然語言映射到邏輯形式,在沒有解析樹或任何其他注釋的情況下進行學習。第二種方法從簡單的觀察視頻轉向使用機器人模擬器和世界狀態來驗證生成的邏輯形式的更動態的設置。這些方法專注于評估弱監督,訓練和推理數據相對相似;探索了評估,其中推理數據與訓練數據有很大不同,需要系統的泛化。一種方法測試了預訓練和一種新的解碼策略在網格世界中導航的作用;推理命令和動作序列在系統方面與訓練不同。最后一種方法測試了當輸入圖像或文本中的人口統計特征與其學習到的社會偏見不同時,預訓練的多模態transformer模型的泛化程度。

付費5元查看完整內容

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。

在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。

總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。

付費5元查看完整內容

幾十年來,研究人員一直在追求一個雄心勃勃的目標:設計出能夠像人類一樣有效地解決問題的計算機模型。人工神經網絡——一種通用的、可優化的模型,最初是受到大腦中的生物神經元的啟發——似乎提供了一個有希望的答案。然而,當前模型的一個重大限制是,它們往往只可靠地精通它們明確訓練過的任務和數據集。如果正在訓練多個任務或數據集,則需要適當地混合和平衡樣本,以便在連續批次的訓練中不會導致前批次學習到的知識的遺忘,這是持續學習的障礙。此外,需要通過成對的輸入目標樣本使訓練網絡的關聯明確,以實現其在期望任務上的最佳性能;當網絡在沒有明確目標的情況下以無監督方式進行訓練時,為了減少數據收集的成本,網絡學到的知識遷移到期望任務的效果明顯差于具有明確關聯的有監督訓練。

所有這些問題都與基本的泛化問題有關,泛化是指盡管面向新類但仍能表現良好的能力。在第二章中,我們討論了在有監督、無監督和持續學習環境下,可以預期產生良好泛化的條件,包括小模型大小和訓練和測試數據之間的相似性。第三章提出了一種預測模型何時不能泛化到測試樣本的方法,推導出泛化邊界,利用模型大小和與訓練數據的相似度來量化預測的可靠性。第四章介紹了一種聚類方法,該方法學習了如何在語義概念之間近似地分離數據,使用的是非監督目標不使用手動標簽。第五章包含了一種不需要專門訓練數據就可以執行目標定位任務的方法,即通過重新利用顯著性映射。第6章包含了一個持續學習的方法,在這個方法中,模型被迫重新考慮之前的知識與新知識并行,第7章使用了一個動態架構來抑制新學習片段對舊知識的干擾。如果沒有這些泛化問題的解決方案,神經網絡就無法從自然順序的、沒有注釋的現實世界數據中實時有效地學習,這限制了它們的部署選項。因此,泛化是一個具有巨大實際意義的問題,從理論上和從生物學啟發學習的角度來看都很有趣。

//ora.ox.ac.uk/objects/uuid:2d7f8f92-d730-40a5-a47c-0acd0998f0d0

付費5元查看完整內容

本文探討了計算機如何使用自監督學習在沒有強監督的情況下學習視覺對象的結構。我們演示了我們可以使用一個以重構為關鍵學習信號的自動編碼框架來學習對象的結構表示。我們通過工程瓶頸將對象結構從其他變化因素中分離出來來做到這一點。此外,設計了以2D和3D物體地標或3D網格形式表示物體結構的瓶頸。具體來說,我們開發了一種自動發現2D對象地標的方法,無需任何注釋,該方法使用帶有2D關鍵點瓶頸的條件自動編碼器,將表示為2D關鍵點的姿勢和外觀分離開來。**盡管自監督學習方法能夠學習穩定的物體地標,但自動發現的地標與人類標注者標注的地標不一致。為解決這個問題,本文提出一種方法,通過引入一種新的地標自編碼,將未配對的經驗先驗注入到條件自編碼器中,可以利用對抗性學習中使用的強大圖像鑒別器。**這些條件自動編碼方法的一個副產品是,可以通過操縱瓶頸中的關鍵點來交互控制生成。我們利用這一特點在一個新的方法進行交互式3D形狀變形。該方法以自監督的方式訓練,使用自動發現的3D地標來對齊對3D形狀。在測試時間內,該方法允許用戶通過發現的三維物體標志進行物體形狀的交互變形。最后,我們提出了一種利用光幾何自編碼器恢復物體類別三維形狀的方法,而不需要任何三維注釋。它使用視頻進行訓練,并學會將輸入的圖像分解為剛性的姿勢、紋理和可變形的形狀模型。

付費5元查看完整內容

近年來,人工學習系統在計算機視覺、自然語言處理和語音識別等許多具有挑戰性的領域取得了巨大的進展。這些最新進展的一個顯著特點是,將靈活的深度函數逼近器與為特定問題收集的大型數據集結合起來,這似乎是一個簡單的公式。然而,這些系統在泛化新輸入以獲取新功能時,很難利用其學習能力,通常需要在類似的大型數據集上從頭開始重新訓練。這與人類形成了鮮明的對比,人類有一種非凡的能力,可以在之前的經驗基礎上,從少數幾個例子中學習新概念。在本論文的第一部分,我們將研究如何構建系統來模擬這種快速適應新任務的能力。本文這一部分的核心原則之一是,利用大量以前的經驗/任務中的結構來實現快速適應和不確定性。首先,我們將研究獎勵規范的設置,這是強化學習中的一個常見挑戰,接下來,我們將研究元學習設置的概率框架如何能夠在不確定性下進行推理。

在本文的第二部分中,鑒于先前的任務數據集在加速學習方面發揮的潛在作用,我們將提出一個自然的問題:如何讓智能體完全自主地收集數據。這將消除人類為人工智能“管理”任務數據集的需要,并實現完全可擴展的、永無止境的具身學習。我們所采取的方法的中心主題將是考慮智能體必須解決的在線現實世界“任務”的本質,并通過它重新審視偶發性RL的基本假設。最后,我們將在現實世界靈巧操作領域展示這些想法,并為今后在這種更“自主”的強化學習設置方面的工作提供一些提示。

付費5元查看完整內容
北京阿比特科技有限公司