亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。

在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。

在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

近年來,從一般物體抓取到手部操作,深度學習實現了許多令人興奮的機器人操作能力。盡管如此,能夠進入以前從未見過的家庭環境,并像人類一樣完成各種任務的典型家用機器人還遠遠不現實。雖然在實現這一目標方面有許多問題要解決,但中心瓶頸之一在于從機器人傳感器輸入中學習控制策略,這些策略可以泛化到新的任務、對象和環境。例如,一個在家做飯的機器人無法負擔從頭開始學習每一道菜,也無法為機器人可能遇到的每個新廚房硬編碼狀態特征。實現這種泛化的一個潛在途徑是在包含許多任務、對象和環境的廣泛數據分布上訓練機器人。事實上,這種將大型、多樣化的數據集與可擴展的離線學習算法(例如,自監督或廉價監督學習)相結合的方法,是自然語言處理(NLP)和視覺最近取得成功的關鍵。然而,直接將此方法擴展到機器人領域并非易事,因為我們既沒有足夠大和多樣化的機器人交互數據集,也不清楚哪種類型的學習算法或監督來源可以使我們從這些數據集中可擴展地學習技能。

本文的目標在于解決這些挑戰,并在機器人操縱的背景下重現大規模數據和學習的方法。

本文的第一部分將討論如何可擴展地收集在物理世界中交互的機器人的大型和多樣化數據集,以及如何在這種離線機器人數據集上有效地預訓練自監督世界模型。然后,我們將探討如何使用這些預訓練的世界模型,通過將它們與規劃相結合來解決任務,首先用于解決長視距操縱任務,其次用于完成自然語言指定的任務。最后,我們將討論如何超越機器人數據,并解鎖存在于網絡上的廣泛數據源,如人類的視頻,以使機器人更有效地學習,特別是通過獎勵學習和視覺預訓練。本文將通過討論公開的挑戰來結束,特別是如何統一模擬、真實世界的數據收集和人類視頻的范式,以實現通用家用機器人的愿景。

付費5元查看完整內容

**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。

**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。

**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。

付費5元查看完整內容

**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。

付費5元查看完整內容

魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。

我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。

探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。

付費5元查看完整內容

//searchworks.stanford.edu/view/14230541

自動駕駛汽車將在安全和效率方面給交通帶來革命性的變化。然而,自動駕駛系統在復雜的人類環境中仍然面臨著挑戰,比如在雜亂、動態的城市環境中駕駛自動駕駛汽車。在道路上部署自動駕駛系統的一個關鍵障礙是對人類行為的理解、預測和推斷。自主感知為機器人建立了對環境的總體理解。這包括在空間和時間上推斷人類行為。由于人類的行為差異巨大,目標變化迅速,因此很難對其進行建模。此外,在雜亂的環境中,存在計算和可見性的限制。然而,人類也擁有令人滿意的能力,例如他們在觀察到的環境之外進行泛化的能力。盡管基于學習的系統近年來在建模和模仿人類行為方面取得了成功,但有效地獲取這些系統的數據和模型的不確定性仍然是一個開放的問題。本文提出了在人類環境中不確定性感知自主感知系統的算法改進。我們在時空機器人感知方面做出了系統層面的貢獻,從而推斷出人類行為,并在軌跡預測的不確定性感知機器學習模型方面取得了基礎性進展。這些貢獻使機器人系統能夠對人類行為做出不確定性和具有社會意識的時空推斷。 傳統的機器人感知是以物體為中心的模塊化的,包括物體檢測、跟蹤和軌跡預測三個階段。由于環境中的部分遮擋,這些系統可能會在預測階段之前失效。因此,我們提出了一種從以地圖為中心的占用網格表示來進行時空環境預測的端到端范式。占用網格對部分遮擋具有魯棒性,可以處理場景中任意數量的人類智能體,并且不需要關于環境的先驗信息。我們研究了計算機視覺技術在這一背景下的性能,并開發了新的機制,以適應時空環境預測的任務。在空間上,機器人還需要對其環境中的全遮擋智能體進行推理,這可能是由于傳感器的限制或道路上的其他智能體阻礙了視野。人類擅長從觀察到的社會行為中推斷他們的經驗。我們從人類的直覺中汲取靈感,填補了機器人地圖上傳統傳感器無法觀察到的部分。我們通過學習從觀察到的人類駕駛員行為到前方環境的多模態映射來推斷這些閉塞區域的占用率,從而將人視為傳感器。該系統處理多個觀察智能體,以最大限度地告知機器人周圍的占用地圖。 為了安全地將人類行為建模集成到機器人自主堆棧中,感知系統必須有效地考慮不確定性。在基于學習的模型中,人類行為通常使用離散潛空間來建模,以捕獲分布中的多模態。例如,在一個軌跡預測任務中,對于一個過去的軌跡,可能存在多個有效的未來預測。為了準確地模擬這種潛在分布,潛在空間需要足夠大,這導致下游任務(如路徑規劃)的可處理性問題。我們通過提出一種離散潛在樣本空間的稀疏化算法來解決這個問題,該算法可以在不犧牲模型性能的情況下應用于事后處理。我們的方法成功地平衡了多模態和稀疏性,實現了有效的數據不確定性估計。除了對數據的不確定性進行建模,基于學習的自主系統必須意識到它們的模型不確定性或它們不知道的東西。標記現實世界中遇到的分布外或未知場景,可能有助于下游自治堆棧組件和工程師進行進一步的系統開發。盡管機器學習社區在小型基準問題的模型不確定性估計方面非常豐富,但在復雜的基于學習的機器人系統中估計這種不確定性方面的工作相對較少。本文提出在軌跡預測任務的背景下,在可解釋的低維潛空間上有效學習模型的不確定性。本文提出的算法在真實的自動駕駛數據上進行了驗證,并以最先進的技術為基準。我們表明,在建模相關的不確定性時,從人類層面的推理中汲取靈感,可以為自主感知系統的環境理解提供信息。在這篇論文中所做的貢獻是向不確定性和社會意識的自治系統邁出的一步,它可以在人類環境中無縫地運行。

付費5元查看完整內容

對于機器人來說,要在現實世界的非結構化環境中執行任務,他們必須能夠以一般的方式被賦予一個期望的目標,并且在機器人還不知道如何完成的情況下,學會快速地執行期望的任務。在這篇論文中,我們探索了深度強化學習作為一種解決方案,通過兩個主要主題來實現可擴展的基于學習的真實世界機器人的愿景:從先驗數據加速強化學習和自監督RL。從先驗數據或先驗知識加速RL對于使強化學習算法具有足夠的樣本效率來直接運行在現實世界中是非常重要的。我們討論了利用人類演示來加速強化學習,使用人類設計的剩余控制器與工業插入任務的強化學習相結合,以及離線強化學習的算法,也可以受益于少量的在線微調。同時,雖然強化學習算法的樣本效率是一個備受贊賞的問題,但圍繞可以從豐富的觀察(如圖像)中學習的智能體產生了額外的問題:特別是獎勵監督和自主收集數據。我們通過一個生成模型來討論自監督的RL,通過目標達成,讓智能體評估他們自己在達成目標方面的成功,并自主提出和練習技能。在最后一部分,我們考慮將線下政策學習與自我監督練習相結合,讓機器人在新的環境中練習和完善技能。這些指示使機器人能夠監督自己的數據收集,從交互中學習復雜和一般的操作技能。

機器人在制造業和其他行業變得無處不在,用于各種任務,如揀貨、組裝、焊接、油漆等。然而,現代機器人系統的自主能力仍然相當有限。機器人操作的設置被仔細控制;它們通常需要非常具體的末端執行器工具(Zhongkui Wang et al., 2020)結合高精度運動和運動規劃(Ang et al., 2005;LaValle, 2006; Karaman and Frazzoli, 2011; Zucker et al., 2013)來完成一項特定的任務。實際上,機器人依靠人類的智慧和工程學來完成他們的工作。但是這樣的系統是脆弱的,并且硬件和軟件必須經常為任務的微小變化而重新設計。柔性機器人控制器可以實現一定的適應性或自主性(Mason, 1981;Hogan, 1985),以及與抽象任務規劃(Sacerdoti, 1974;萊斯利·帕克·凱爾布林(Sacerdoti, 1974; Leslie Pack Kaelbling and Lozano-Perez, 2011)結合了感知。但是,如果一項制造任務實際上需要對基于感知輸入的各種環境條件具有顯著的適應性或穩健性,那么設計一個工作系統就會變得困難得多——這一點從今天數百萬從事這些工作的人類勞動者身上就可以看出。除了相對可控的制造環境之外,我們還希望未來的機器人能做更多的事情:做飯、幫助家中的老人和其他以人類為中心的環境、導航未繪制的地形、操作機械和電器、操作物體,以及在人類在場時安全互動。這種開放世界的能力需要適應性、通用性,這是當今大多數機器人所無法企及的。

相比之下,人類可以如此輕松地進行高度熟練的靈巧操作,以至于有時很難想象在機器人身上復制這種能力的難度。大多數人在生命的前五年內已經發展出復雜的精細運動技能,成功地對各種不熟悉的動態物體進行雙手靈巧操作,并使用帶有緊密感覺運動回路的工具,其中包括感知、功能性抓取和控制(Adolph和franak, 2017)。為機器人開發同樣魯棒的反饋控制器仍然是一個挑戰,它可以適應各種各樣的情況來完成目標。如果機器人也有同樣的技術,那么它將具有難以置信的經濟價值——它們可以用來自動化許多人類今天必須做的任務。我們怎樣才能開發出具有類似技術的通用機器人呢?

過去十年的深度學習表明,從大型數據集學習模型是這種開放世界泛化的關鍵,這是通用機器人的先決條件。在廣泛的數據集上訓練的表達函數逼近推動了一系列領域的人工智能研究的最新進展:在語音識別(Graves等人,2014年)、圖像分類(Krizhevsky等人,2012年)和分割(Ren等人,2015年)、自然語言處理(Devlin等人,2019年),甚至蛋白質結構預測(Jumper等人,2021年)等領域,結合適當的深度學習架構的大數據集recipe已經推動了前沿領域的發展。這些模型是在足夠廣泛的數據集上訓練的,因此模型可以從廣泛的訓練分布中一般化,并在測試時捕獲拐角用例,這對于手動設計的解決方案來說是一個挑戰。如果我們能夠實現控制的普遍性——選擇行動以最大化獎勵函數的問題——它就能夠在野外實現真正的通用機器人。但是控制引入了監督學習中沒有的兩個新問題。第一個問題是信用分配:過去采取的行動會影響未來。第二是探索:所采取的行動改變了訪問數據的分布。為了解決這些問題,深度強化學習(RL)是一種很有前途的方法,它將強化學習與深度函數逼近相結合。深度強化學習已成功應用于許多連續決策問題:在競爭游戲如雅達利(Mnih等人,2015),圍棋(D. Silver等人,2016a), Dota 2 (OpenAI等人,2019)和星際爭霸II (Vinyals等人,2019),機器人(MMarc Peter Deisenroth and Rasmussen, 2011; Kober et al., 2013; Levine et al., 2017; J. ; Lee et al., 2020),平流層氣球導航Marc G. belleare等人,2020,甚至控制核聚變反應堆中的等離子體,Degrave等人,2022。然而,雖然RL的算法一直在穩步發展(Schulman et al., 2015; Lillicrap et al., 2016; Schulman et al., 2017; Haarnoja et al., 2018a),變得更高效和穩定的樣本,仍然有重大的障礙,以RL機器人的通用解決方案。在賦予機器人人類水平的操作技能方面還存在哪些挑戰?

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

這本書描述了如何創建能夠自主執行任務的行為和認知技的機器人,而他們與環境互動,通過進化和/或學習過程。本書專注于無模型的方法,以最少的人為干預,機器人使用的行為解決了它的任務,這種行為產生的方式是由自適應過程自動發現的,即它不是由實驗者指定的。

//bacrobotics.com/

這本書的第一個目標是介紹自主機器人和自適應方法:進化機器人,強化學習,和通過演示學習。在這方面,本書不能也不打算詳盡無遺。它側重于當前最有效的方法,以及那些密切相關但通常在獨立的研究團體中獨立研究的方法之間的關系。

第二個目標是通過對自適應機器人在具體實驗中發現的行為和認知解決方案的分析來說明具身智能的基本方面:機器人的身體和“大腦”之間的關系,感覺運動協調的作用,欠驅動的后果,行為的動力和多層次的含義,魯棒性的重要性,出現和自組織的作用,學習經驗對適應過程的影響,預測和世界模型的作用,機器人之間的合作和競爭的作用,能夠促進持續和開放學習的因素。

最后,第三個目標是讓讀者通過實驗自適應機器人來獲得實際知識。這個最終目標是通過向讀者介紹易于使用和強大的軟件工具來實現的,允許創建自適應機器人,復制代表性的最先進的實驗,并獲得在這個領域進行高質量研究所需的實踐技能。

Preface

  1. Autonomous Robots
  2. From Braitenberg's Vehicles To Neuro-Robots
  3. Embodiment
  4. Situatedness
  5. Behavior And Cognition As Complex Dynamical Systems
  6. Adaptation
  7. Robustness, Plasticity and Antifragility
  8. Swarm Robotics
  9. Communication and Language
  10. Neural Basis of Cognition
  11. Cognition
  12. Long-Term and Open-Ended Learning
  13. How to Train Robots Through Evolutionary And Reinforcement Learning Algorithms
付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

機器人和自主系統在現代經濟中扮演著重要的角色。定制機器人顯著提高了生產率、操作安全性和產品質量。然而,人們通常通過編程操作這些機器人來完成較小的領域的特定任務,而無法快速適應新任務和新情況。廉價、輕便和靈活的機器人硬件的出現為將機器人的自主能力提升到前所未有的水平提供了機會。新的機器人硬件在日常環境中的一個主要挑戰是處理現實世界的持續變化性和不確定性。為了應對這一挑戰,我們必須解決感知和行動之間的協同作用:一方面,機器人的感知自適應地指導其行動,另一方面,它的行動產生了新的感知信息,用于決策。我認為,實現通用機器人自治的關鍵一步是將感知和動作緊密地結合起來。

新興的人工智能計算工具已經證明了成功的希望,并構成了在非結構化環境中增強機器人感知和控制的理想候選。機器人的實體本質迫使我們超越現有的從無實體數據集學習的范式,并激勵我們開發考慮物理硬件和動態復雜系統的新算法。

本論文的研究工作是建立可通用的機器人感知和控制的方法和機制。我們的工作表明,感知和行動的緊密耦合,有助于機器人通過感官與非結構化的世界進行交互,靈活地執行各種任務,并適應地學習新任務。我們的研究結果表明,從低級的運動技能到高級的任務理解三個抽象層次上解剖感知-動作循環,可以有效地促進機器人行為的魯棒性和泛化。我們規劃的研究工作是處理日益復雜的任務,展現出我們朝著圣杯目標的路線圖:在現實世界中構建長期的、通用的機器人自治。

付費5元查看完整內容
北京阿比特科技有限公司