爱琴海论坛视频播放三免费,又大又硬又长又粗免费看,开心五月激情综合婷婷向,亚洲国产精品H片在线观看,露脸公妇仑乱在线观看日本

深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而，在許多情況下，學習到的表示是依賴于數據集的，不能轉移到具有不同分布的數據集，即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案，允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。

在本論文中，我將介紹在不同場景下學習可遷移表示的許多方法，包括1) 當源域只有有限的標簽，甚至每個類只有一個標簽時，2) 當有多個標記源域時，3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的，并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應)，使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據，以減少對昂貴的手動注釋的需求。最后，介紹了我們在構建LiDAR 點云模擬器方面的開創性工作，進一步實現了LiDAR 點云分割的大量領域適配工作。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html

付費5元查看完整內容

相關內容

加州大學伯克利分校 (UC Berkeley)

關注 0

（University of California, Berkeley），是美國最負盛名且是最頂尖的一所公立研究型大學，位于舊金山東灣伯克利市的山丘上。創建于1868年，是加州大學十個分校中歷史最悠久的一所。加州大學伯克利分校在世界范圍內擁有崇高的學術聲譽，擁有豐富的教學資源，研究水平非常堅厚，與斯坦福大學、麻省理工學院等一同被譽為美國工程科技界的學術領袖。

牛津大學 (University of Oxford) · 自監督學習 · 多模態 · 博士論文 ·

2022 年 10 月 4 日

[付費5元查看完整內容]【牛津大學博士論文】多模態自監督學習，172頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習推動了應用的爆炸式增長，然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中，我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說，要么采用自監督方法來自動糾正自由獲得的數據標簽，要么完全放棄使用人工標簽，而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽，這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據，但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲，從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破，使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊，從而實現更大的泛化。進一步探索了多模態感覺流，利用模態冗余，即模態之間的重疊信息，為模型提供自監督。表示是通過利用不同的模式來學習的，而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術。

首先，我們自動管理一個大型音頻數據集VGG-Sound，使用視覺引導收集了超過200k的視頻，并在此基礎上進行訓練，生成最先進的音頻識別模型。其次，我們提出了一種改進和擴展最近聲源定位技術的方法，通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后，與在一個特定領域執行的現有視聽同步任務不同，我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型，我們在具有挑戰性的語音數據集中獲得了最先進的結果，并在一般聲音數據集中顯示了出色的泛化效果。

付費5元查看完整內容

AI與醫學 · 博士論文 · 麻省理工學院 (MIT) · 表示學習 ·

2022 年 9 月 3 日

[付費5元查看完整內容]【MIT博士論文】異構醫療數據表示學習，193頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

由于醫療數據的多樣性和數據收集和注釋的費用高昂，數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示，我們的目標是利用各種學習范式來克服這個問題。在本文中，我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架，使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究，如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。

//dspace.mit.edu/handle/1721.1/144745

我們首先關注有限的數據問題，這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法，在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示，并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標，開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示，我們隨后采用了自我監督學習技術，并將相應的元數據作為多模態資源集成，以引入歸納偏差。我們發現，與標準遷移學習方法相比，通過開發的方法學習的表示可以獲得更好的下游任務性能，如超聲圖像質量分類和器官分割。

接下來，我們放大數據不平衡問題。本文探索了對比學習的用途，特別是孿生網絡，從不平衡的眼底成像數據集中學習表示，用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比，我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現，使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能，特別是對于罕見的皮膚病。

最后，針對異構醫療數據，我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據，并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比，我們發現當存在偏移時，魯棒訓練提供了更好的容忍度，并學習了肺病理預測的魯棒表示。本文的研究并不詳盡，但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告，以激發利用低資源和高維醫療數據的機器學習的未來研究方向，并希望對現實世界的臨床產生積極的影響。

付費5元查看完整內容

自監督學習 · 語音處理 · 麻省理工學院 (MIT) · 博士論文 ·

2022 年 8 月 31 日

[付費5元查看完整內容]【MIT博士論文】自監督學習語音處理，148頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能，往往在相應的排行榜上處于領先地位。然而，訓練這些系統依賴于大量帶注釋的語音這一事實，為繼續發展最先進的性能造成了可擴展性瓶頸，而且對在語音領域部署深度神經網絡構成了更根本的障礙，因為標記數據本質上是罕見的，昂貴的，或耗時的收集。

與帶注釋的語音相比，未轉錄的音頻通常積累起來要便宜得多。在這篇論文中，我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法，一種基于"未來預測"的思想，另一種基于"從未被掩碼中預測被掩碼"的思想，用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征，將語音信號的高級屬性，如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式，并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法，我們還提供了廣泛的分析，旨在理解學習的自監督表示的屬性，以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761

如今，深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力，用于各種數據類型的廣泛應用——圖像分類(He et al.，2016;Liu et al.，2022)、機器翻譯(Vaswani et al.，2017)和語音識別(Gulati et al.，2020)等等。然而，訓練這些系統的傳統范式一直是監督學習，其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.，2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸，而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說，這是一個更根本的障礙。

上述情況激發了一波關于自監督表征學習的研究浪潮，其中，由精心設計的前置任務生成的免費標簽被用作監督信號，以預訓練深度神經網絡。然后，從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數，以解決下游的任務，使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。

自監督學習技術已被成功地用于提高各種模式下學習的樣本效率，包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020)，視頻(Xu et al., 2019; Alwassel et al., 2020)，語音和音頻(Baevski et al., 2020b; Gong et al., 2022)，文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019)，到圖表(Velickovic et al.，2019年)，舉幾個例子。一些結果表明，自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人，2019)。如果這一趨勢保持不變，那么隨著時間的推移，可實現的性能可能會“免費”提高，因為數據收集和計算能力的改進允許使用越來越大的預訓練集，而不需要手動注釋新數據。在本論文中，我們著重于將自監督學習策略應用于語音領域，目的是推動口語技術的最先進性能，并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法，并分析其學習表征的特性。

論文貢獻：

1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想，并提出了一個簡單而有效的自監督目標，稱為自回歸預測編碼(APC)，用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示，使語音的高級屬性，如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一，表明使用自監督學習來提高口語技術表現的潛力。

2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法，并提出了w2v-BERT，這是目前最先進的框架之一，用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記，并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比，w2v-BERT可以以端到端方式優化離散化器和上下文網絡，避免了多個訓練階段之間的協調，這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性，在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上，它優于包括HuBERT和wav2vec 2.0在內的最新技術。

3.引入一種分析方法，能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量，以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究，并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性，也可用于其他自監督目標的分析。

4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時，我們發現，盡管這些模型在訓練目標和神經網絡結構上存在差異，但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現，在自監督模型中通常存在一些層，其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時)，即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是，不同層次的語音信息被捕獲在不同的層中，盡管信息分布可能因模型而異。例如，在APC中，較低的層次往往對說話者更具辨別能力，而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層，從中提取表示，以便在感興趣的任務中獲得最佳性能。

5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型，并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer)，并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言，我們發現在所有因素中，訓練目標對表征相似性的影響最大;在相同的訓練目標下，模型的方向性對表征相似性的影響大于其神經網絡構件。

付費5元查看完整內容

卡內基梅隆大學 (Carnegie Mellon University) · 博士論文 · 遷移學習 · 泛化性 ·

2022 年 4 月 19 日

[付費5元查看完整內容]【CMU博士論文】緩解負遷移提高遷移學習的泛化和效率，201頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

傳統的機器學習范式在單個任務上訓練特定任務模型，已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性，遷移學習旨在適應從源任務中學習到的知識，以提高在其他目標任務中的表現。然而，現有的遷移學習范式還有待進一步研究，因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是，當知識從一個不太相關的來源轉移時，可能會對目標性能造成負面影響，這種現象稱為負轉移。然而，負遷移的原因尚不明確，負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中，我們的目標是徹底描述和解決機器學習模型中的負遷移，我們仔細研究了流行的視覺和自然語言處理設置中的負遷移，收集了其原因的見解，并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件，并證明任務沖突是負遷移的一個關鍵因素。在第二部分，我們提出了各種對齊方法，通過更好的對齊表示和梯度解決上述任務沖突，增強可轉移模型的泛化。最后，在第三部分，我們探索了有效樣本遷移學習算法，使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解，提出了一系列實用的方法和算法，提高了模型的泛化和效率。

//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf

付費5元查看完整內容

多模態 · 深度學習 · 視頻理解 ·

2021 年 10 月 15 日

[付費5元查看完整內容]【牛津大學博士論文】使用多模態深度學習的視頻理解

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們對世界的體驗是多模態的，然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中，我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督，(ii)自監督表示學習和(iii)模態融合。在跨模態監督中，來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示，從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先，我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集，對其進行訓練，產生了最先進的說話人識別模型; 其次，我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽，并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好，而這些模型是通過昂貴的人工監督進行訓練的; 第三，我們從為情感識別而訓練的人臉模型中提取信息到語音領域，而在語音領域，手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里，我們學習了在沒有任何人工監督的情況下，在任何一種模式下的視聽表示，特別是對于人類的面孔和聲音。與現有的表示不同，我們的聯合表示支持從音頻到視覺的跨模態檢索，反之亦然。然后，我們將這項工作擴展到明確地消除習得偏見，從而實現更大的泛化。最后，我們通過開發新的模態融合架構，有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示，我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型，我們在動作識別和視頻文本檢索方面都取得了最先進的結果。

//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf

付費5元查看完整內容

圖像合成 · 機器學習 · 博士論文 · 加州大學伯克利分校 (UC Berkeley) ·

2021 年 5 月 26 日

[付費5元查看完整內容]【伯克利博士論文】面向深度圖像合成的機器學習，155頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

常見的圖像編輯方法側重于低級特征。在本論文中，我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說，所提出的方法旨在通過結合通用的視覺知識，從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此，新方法可以以人類可理解的方式轉換圖像，比如將一個物體轉換為另一個物體，將照片程式化到特定藝術家的畫作中，或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽，逐圖像標簽，和沒有標簽。首先，利用逐像素監督，我提出了一種新的深度神經網絡架構，可以從場景布局和可選目標風格合成逼真的圖像。其次，使用每個圖像監督，我探索了域翻譯的任務，其中一個類的輸入圖像被轉換為另一個類。最后，我設計了一個框架，可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果，包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少，以及圖像紋理的逼真操作

付費5元查看完整內容

域自適應 · 博士論文 ·

2020 年 12 月 27 日

[付費5元查看完整內容]【伯克利博士論文】通過對齊表示和圖像來跨域自適應，95頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度卷積網絡的出現推動了視覺識別領域的新一波進步。這些學習到的表示大大優于手工設計的特征，在視覺任務上獲得更高的性能，同時在數據集上有更好的泛化性。盡管這些模型看起來很普遍，但當它們所訓練的數據與所要求操作的數據之間存在不匹配時，它們仍然會受到影響。領域適應提供了一種潛在的解決方案，允許我們將網絡從源領域訓練到新的目標領域。在這些領域中，標記數據是稀疏的或完全缺失的。然而，在端到端可學習表示出現之前，視覺域適應技術很大程度上局限于在固定的、手工設計的視覺特征上訓練的分類器。在這篇論文中，我們展示了如何將視覺域適應與深度學習相結合，以直接學習能夠適應域移動的表示，從而使模型能夠泛化到源域之外。

在第2章中，我們將演示如何設計損失，以衡量兩個領域的不同程度。我們表明，通過優化表示來最小化這些損失，我們可以學習從源到目標更好地泛化的表示。在第3章和第4章中，我們展示了我們可以訓練模型來嘗試測量域差異，而不是手工設計這些域損失。由于這些模型本身是端到端可學習的，我們可以通過它們反向傳播來學習表示，從而最小化學習的差異。這在概念上與生成式對抗網絡類似，我們還探索了兩者之間的關系，以及我們如何在對抗環境中使用為GANs開發的技術。最后，在第5章和第6章中，我們證明了適應性不需要局限于深度網絡的中間特征。對抗適應技術也可以用于訓練模型，直接改變圖像的像素，將它們轉換成跨域的類似物。然后，這些轉換后的圖像可以用作標記的偽目標數據集，以學習更適合目標領域的監督模型。我們表明，這種技術是基于特征的適應性的補充，當兩者結合時產生更好的性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

付費5元查看完整內容

牛津大學 (University of Oxford) · 重建和分割三維物體 ·

2020 年 11 月 9 日

[付費5元查看完整內容]【牛津大學BoYang博士論文】學習重建和分割三維物體，143頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

賦予機器以感知三維世界的能力，就像我們人類一樣，是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入，如二維/三維傳感器獲取的圖像或點云，一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而，他們很難推廣到新的對象和場景，并努力克服關鍵問題造成的視覺遮擋。相比之下，我們的目標是理解場景和其中的對象，通過學習一般和魯棒的表示使用深度神經網絡，訓練在大規模的真實世界3D數據。為了實現這些目標，本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中，我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形，提出一種強大的編碼器解碼器結構，并結合對抗式學習，從大型三維對象庫中學習可行的幾何先驗。在第4章中，我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法，我們的框架能夠集成可變數量的輸入視圖，預測穩健且一致的物體三維形狀。在第5章中，我們將我們的研究擴展到三維場景，這通常是一個復雜的個體對象的集合。現實世界的3D場景，例如點云，通常是雜亂的，無結構的，閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上，我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說，本文開發了一系列新穎的數據驅動算法，讓機器感知我們真實的3D環境，可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

深度強化學習 · 人工智能 · 加州大學伯克利分校 (UC Berkeley) · 博士論文 · Robot ·

2019 年 10 月 27 日

[付費5元查看完整內容]【伯克利博士論文】如何讓機器人多技能？通過最大熵強化學習(107頁pdf)

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文題目：Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者：Tuomas Haarnoja

導師：Pieter Abbeel and Sergey Levine

網址：
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要：

在本文中，我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法，以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先，最優策略是隨機的，改進了搜索，防止了收斂到局部最優，特別是當目標是多模態的時候。其次，熵項提供了正則化，與確定性方法相比，具有更強的一致性和魯棒性。第三，最大熵策略是可組合的，即可以組合兩個或兩個以上的策略，并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四，最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中，我們將討論由最大熵策略固有的隨機特性所支持的擴展，包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容