亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大多數用于機器人感知的3D傳感器,如激光雷達,被動掃描整個環境,同時與處理傳感器數據的感知系統解耦。相比之下,主動感知是機器人的另一種范式,在這種范式中,可控傳感器只自適應地將其感知能力集中在環境中最有用的區域。可編程光幕是最近發明的一種資源高效的主動傳感器,可以測量任何用戶指定的表面(“窗簾”)的深度,分辨率比激光雷達高得多。主要的研究挑戰是設計感知算法來決定光幕在每個時間步的位置,在閉環中緊密耦合感知和控制。

本文為利用可編程光幕進行機器人主動感知奠定了算法基礎。我們研究了光幕在各種感知任務中的使用,如3D對象檢測、深度估計、障礙物檢測和規避以及速度估計。首先,我們將光幕的速度和加速度約束合并為約束圖;這允許我們計算可行的光幕,優化任何特定任務的目標。然后,我們開發了一套算法,使用各種工具,如貝葉斯推理、深度學習、信息獲取和動態規劃,智能地在場景中放置光幕。

最后,我們在一個在線學習框架中結合了多種智能放置策略。首先,我們能夠使用基于粒子濾波和占用網格的貝葉斯濾波技術顯式估計場景點的速度和位置。然后,我們提出了一個新的自監督獎勵函數,評估當前速度估計的準確性使用未來光幕布局。這種洞察力使在線多臂盜匪框架能夠在多個放置策略之間實時智能切換,優于單個策略。這些算法為可控光幕準確、高效、有目的地感知復雜動態環境鋪平了道路。

付費5元查看完整內容

相關內容

美國卡耐基梅隆大學(Carnegie Mellon University),簡稱CMU,坐落在美國賓夕法尼亞州的匹茲堡(Pittsburgh),是一所擁有13,600名在校學生和1,423名教職及科研人員的世界著名學府。該校擁有享譽全球的計算機學院和戲劇學院,其藝術學院,商學院,工程院以及公共管理學院等也都在全美名列前茅。

一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。

深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。

我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。

付費5元查看完整內容

魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。

我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。

探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。

付費5元查看完整內容

黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。

**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。

本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。

付費5元查看完整內容

多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。

這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。

本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類

首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。

其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。

最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。

付費5元查看完整內容

過去十年在人工智能和硬件開發方面的研究對自動駕駛的發展產生了重大影響。然而,在高風險環境中部署此類系統時,安全性仍然是一個主要問題。現代神經網絡已被證明很難正確識別自己的錯誤,并在面對看不清的情況時提供過度自信的預測,而不是放棄。在這些問題上取得進展,不僅對獲得交通主管部門的認證至關重要,而且對激發用戶的熱情也至關重要。

本論文的目的是開發為深度神經網絡提供可靠的不確定性估計的方法工具。特別是,我們的目標是改進測試時錯誤預測和異常的檢測。首先,我們引入了一種新的模型置信度目標準則——真類概率(TCP)。在故障預測任務中,TCP比當前的不確定性度量提供了更好的性能。由于真正的類在測試時本質上是未知的,我們提出使用輔助模型(知己網)從數據中學習TCP準則,并引入了一種適合這種情況的特定學習方案。在圖像分類和語義分割數據集上驗證了所提方法的相關性,證明了在故障預測方面強不確定性量化基線的優越性。

然后,我們將學習過的置信度方法擴展到語義分割的領域適應任務中。一種流行的策略是自訓練,它依賴于在未標記的數據上選擇預測,并用這些偽標簽重新訓練模型。這種被稱為ConDA的自適應方法通過提供用于選擇偽標簽的有效置信度估計改進了自我訓練方法。為了應對領域適應的挑戰,我們為輔助模型配備了多尺度的置信度體系結構,并用對抗訓練方案補充置信度損失,以加強源域和目標域的置信度映射之間的對齊。最后,我們考慮了異常的存在,并解決了聯合檢測錯誤分類和非分布樣本的最終實際目標。為此,我們引入了一種基于證據模型并定義在類概率單形上的不確定性測度KLoS。通過保留完整的分布信息,KLoS既捕獲了由于類別混亂而產生的不確定性,又捕獲了與分布不均樣本相關的知識缺乏。通過使用輔助模型和學習置信方法,我們進一步提高了不同圖像分類數據集的性能。

付費5元查看完整內容

如何對不同設置下的序列數據建模是一個跨許多領域的重要機器學習問題,包括對時間序列數據、自然語言文本和事件流的預測。不同字段中的順序數據通常具有不同的特征。例如,自然語言文本可以被視為一個離散變量的序列,而傳感器網絡信號可以被視為一個連續向量空間中的多變量序列。為了在各種各樣的現實世界領域中開發成功的神經網絡模型,我們需要根據數據和問題的性質定制架構和算法。本文設計了新穎高效的神經網絡解決方案,用于序列建模和應用。具體來說,這些貢獻可以分為四部分。

第一部分重點研究了多變量序列數據中變量之間的相關性,如多傳感器的時間序列,并提出了新的算法,即深度可分圖卷積網絡(DSGC)(第二章)[60]和分解遞歸神經網絡(FRNN)(第三章)[63],以利用相關模式,提高預測精度。

第二部分側重于將人類先驗知識用于時序數據依賴模式的時間建模。具體地說,我們提出了一種新的方法,命名為長期和短期時間序列網絡(LSTNet)(第4章)[59],它被證明是特別有效的捕獲各種周期模式在不同的應用。

第三部分著重于序列分類任務中Transformers 的高效算法。具體來說,通過識別常用的Transformer架構中的計算冗余,并提出一種新的替代方案,即漏斗Transformers (第5章)[27],我們實現了更好的計算與精度之間的權衡。

第四部分側重于事件之間時間關系的建模/預測,其中的主要挑戰是從稀疏標記的數據中有效學習。我們通過結合高級數據增強、半監督學習和人類先驗知識的引入來應對這一挑戰(第6章)。因此,我們大大提高了這項任務的最先進性能。

付費5元查看完整內容

摘要

無人駕駛飛行器 (UAV) 在過去十年中受到無人機硬件和監管框架的快速創新推動,被設想用于為未來社會多種服務應用。從下一代無線網絡的角度來看,無人機不僅有望充當被動蜂窩連接用戶的角色,而且還可以作為無人機輔助網絡的一部分,作為連接的主動推動者。用例范圍從貨物的“最后一英里”交付、客運、基礎設施檢查、環境監測和測量到智能農業的推動者。它們快速靈活的部署使它們在地面通信基礎設施不堪重負或被破壞的情況下特別有用,例如在自然災害和搜救情況下。在擴展永久性網絡基礎設施不可行或經濟上不可行的偏遠地區,無人機可以為目前沒有移動互聯網的世界一半人口提供移動互聯網接入。

圖 1.1 無人機提供通信服務和支撐固定基礎設施的應用示例。

圖 1.2 無人機分類。

無人機在所有潛在應用場景中的決定性優勢是它們的移動性。為了充分利用它們的能力,靈活高效的路徑規劃方法是必要的。本論文的重點是探索機器學習 (ML),特別是強化學習 (RL),作為解決無人機移動管理挑戰的一類有前途的解決方案。隨著近年來RL與神經網絡相結合的研究進展,deep RL是為數不多的能夠直接解決通信場景下無人機控制與部署復雜任務的框架之一,因為這些問題通常是NP-hard優化問題,且受到非凸性的嚴重影響。此外,深度 RL 提供了以直接方式平衡無人機輔助網絡的多個目標的可能性,它在先驗或模型信息的可用性方面非常靈活,而深度 RL 推理在計算上是高效的。

中小型無人機路徑規劃的一個關鍵限制是它們的最大活動任務時間受到機載電池能量密度的限制。當用作向地面用戶提供數據服務的空中基站 (BS) 時,自主無人機需要共同優化其飛行時間和系統的通信性能目標。論文的第一部分探討了使用深度 Q 學習來控制空中 BS,該 BS 從地面用戶那里收集數據,同時集成專用著陸點,無人機可以在著陸點著陸,從而在繼續為用戶服務的同時在其軌跡上節省能源。深度 Q 學習允許無人機在沒有任何關于環境或任務的明確信息的情況下找到有效的軌跡。

圖 3.1 空中 BS 移動決策是根據無人機的當前狀態做出的,即位置和電池電量。 UAV 完全不知道環境的先驗知識,即不知道著陸點(LS)的存在或位置、用戶位置、信道模型或最終 UAV 著陸位置。雖然 LS 提供了節能的可能性,但 UAV BS 可能不得不為某些用戶犧牲一些 QoS。

雖然 RL 范式為解決無人機輔助網絡中的優化問題提供了許多優勢,但仍然存在一些實際挑戰,尤其是在無人機可以學習的訓練數據需求的背景下。在現實世界中收集訓練數據是一個昂貴且耗時的過程,而在傳統的 RL 方法中,如果任務參數發生變化,則需要重復冗長的訓練過程,例如無人機的電池容量。在本論文中,我們通過提出一種深度 RL 算法來解決這個問題,該算法將訓練擴展到來自分布式物聯網 (IoT) 設備的無人機數據收集任務的隨機實例,如果任務參數發生變化,則無需重新訓練。與傳統方法相比,結果是一個復雜得多的問題,因為需要同時找到數千個任務實例的解決方案。這可以通過利用任務密集城市環境的智能處理地圖信息來實現。我們將此設置擴展到協作多無人機案例,其中出現機群協作的額外挑戰,以及大型、復雜和現實的城市環境挑戰。

圖 4.7 同一智能體適應設備數量和設備位置差異以及飛行時間限制的圖示,顯示了曼哈頓場景中已使用和可用的飛行時間以及收集和可用的總數據。

圖 5.8 軌跡圖說明傳播條件的變化對已經訓練好的智能體的影響。圖 5.8a 顯示了在智能體訓練時使用路徑損耗指數的原始行為。圖 5.8b 顯示了相同智能體在其他情況不變的情況下,路徑損耗指數略低。

論文的以下部分探討了無人機輔助通信和機器人技術,這是兩個通常不相交的研究界。 RL 范式的固有靈活性為提出可在多個無人機路徑規劃實例中工作的解決方案提供了機會,例如物聯網數據收集和覆蓋路徑規劃 (CPP),這是一個經典的機器人問題。最后,在本文的最后一部分,研究了基于模型輔助學習框架的另一種解決RL算法訓練數據需求挑戰的方法。在這種方法中,UAV首先學習真實環境的模型,然后利用學習的模型生成模擬訓練數據,大大減少了對昂貴的真實世界數據的需求

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司