大規模的神經語言模型在自然語言生成方面取得了令人印象深刻的進展。然而,典型的模型以一種從左到右的、不受約束的方式運行,對生成的內容的控制有限。本文探討了柔性序列模型和弱監督方法來執行各種控制生成任務。我們預計這些技術將廣泛應用于其他領域,如圖像、分子和生物序列的生成。
我們首先介紹了一類稱為空白語言模型(BLMs)的序列模型,它通過動態創建和填充空白來生成序列。給定帶有一個或多個空格的部分指定文本,BLM將使用與上下文一致的可變數量的標記來填充這些空格。我們的模型非常適合各種文本編輯和重寫任務,并在文本填充、古代文本恢復和情感遷移方面證明了有效性。
接下來,我們研究文本自動編碼器及其通過潛在空間操作控制生成的用途。我們建立了一個理論,如何塑造一個有意義的潛在空間幾何離散文本數據。在此基礎上,我們開發了一系列去噪文本自動編碼器,通過簡單的矢量算法展示了屬性修改(例如,時態,情感等)的潛力。
最后兩章討論了在沒有監督數據的情況下的語言風格遷移。我們首先將非并行風格遷移的任務形式化,并討論學習問題的可行性。我們提出了一種利用潛在表示的分布對齊來執行樣式傳輸的方法。然后,我們研究了混雜因素,并表明通過將數據分為兩組不同的風格,每組中的集合說明了我們不希望改變的變化,我們可以利用不變性來隔離混雜因素,并向所需的方向轉移文本。
//dspace.mit.edu/handle/1721.1/144561
如果我們做A, Y會怎樣?許多有意義的社會和工程問題可以這樣表述:如果病人接受一種新的療法,他們的健康會發生什么變化?如果政策制定者制定一項新稅,會對一個國家的經濟產生什么影響?如果使用新的擁塞控制協議,數據中心的延遲會發生什么變化?我們將探討如何使用觀測數據(由于數字化和無處不在的傳感器,觀測數據越來越多)和/或非常有限的實驗數據來回答這些反事實的問題。兩個關鍵挑戰是:(i)存在潛在混雜因素的反事實預測;(ii)用高維、噪聲和稀疏的現代數據集進行估計。我們介紹的關鍵框架是將因果推理與張量補全聯系起來。特別地,我們通過一個3階張量來表示感興趣的各種潛在結果(即反事實)。給出的主要理論結果是:(i)確定在什么張量的缺失模式、潛在混雜和結構下可能恢復未觀察到的潛在結果的形式化識別結果。(ii)引入新的估計量來恢復這些未觀察到的潛在結果,并證明它們是有限樣本一致和漸近正態的。最后,我們討論了矩陣/張量補全與時間序列分析之間的聯系;我們相信這可以作為反事實預測的基礎。//dspace.mit.edu/handle/1721.1/144576
在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。
與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761
如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。
上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。
自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。
論文貢獻:
1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。
2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。
3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。
4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。
5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。
這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。
//dspace.mit.edu/handle/1721.1/143249
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
在21世紀,人們與技術互動的方式發生了重大變化,自然語言生成(NLG)發揮著核心作用。智能手機和智能家居設備的用戶現在希望他們的設備能夠了解他們的處境,并在交互中產生自然的語言輸出。本文從人類溝通的三個方面來確定如何讓機器聽起來像人類——風格、內容和結構。本文提供了深度學習的解決方案來控制這些變量在神經文本生成。我首先概述了可以操縱的各種模塊,以進行有效的可控文本生成。我提供了一種使用反向翻譯進行樣式轉換的新穎解決方案,并引入了兩個新任務,將來自非結構化文檔的信息利用到生成過程中。我還為句子排序任務提供了一種新的優雅設計,以學習有效的文檔結構。最后,我提供了一個關于可控制文本生成應用的倫理考慮的討論。提出的工作,我計劃:(I) 提供對各種可控文本生成技術的經驗理解,(ii) 提供對樣式的計算理解并構建有用的樣式表示,(iii) 設計有效的內容基礎生成方式,以及(iv) 探索可控文本生成的更廣泛影響。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
摘要
基于神經網絡的生成式模型的最新進展重新燃起了計算機系統能夠與人類無縫對話并能夠理解自然語言的希望。神經結構被用于生成文本摘錄,在滿足不同用戶需求的多種上下文和任務中取得了不同程度的成功。值得注意的是,在大規模數據集上訓練的高容量深度學習模型顯示出無與倫比的能力,即使在缺乏明確的監督信號的情況下,也能在數據中學習模式,這為生成現實和連貫的文本提供了大量新的可能性。雖然自然語言生成領域正在迅速發展,但仍有許多開放的挑戰需要解決。在這篇綜述中,我們正式地定義和分類自然語言生成的問題。我們回顧了這些通用公式的實例化的特定應用程序任務,在這些任務中生成自然語言是非常重要的。接下來,我們涵蓋了用于生成不同文本的方法和神經存檔的全面的總結。然而,這些生成式模型產生的文本質量并沒有一個標準的評價方法,這是該領域發展的一個嚴重瓶頸。為此,我們還回顧了當前評估自然語言生成系統的方法。我們希望這篇綜述將提供一個公式,方法,和神經自然語言生成的評估信息概述。
介紹
最近在深層生成式模型和表征學習方面的成功導致了自然語言生成(NLG)方面的重大進展,其動機是越來越需要理解和派生語言的意義。文本生成的研究領域是自然語言處理的基礎,其目標是生成真實可信的文本內容,與人類書寫的文本沒有區別 (Turing, 1950)。從廣義上講,在給定語境下,預測連續詞在句法和語義上的正確順序需要兩個步驟:首先從給定語料庫中估計句子的分布情況,然后從已學習得到的語料中抽取新穎和真實的句子。理想情況下,生成的句子保留了真實世界句子的語義和句法屬性,并且不同于用于估計模型的訓練示例(Zhang et al., 2017b)。語言生成是一項內在復雜的任務,需要大量的語法、語義、形態、音韻、語用等多層次的語言學和領域知識。此外,文本生成是為了實現一個交流目標(Reiter, 2019),例如在決策過程中提供支持、總結內容、在語言之間進行翻譯、與人交談、使特定文本更容易理解,以及娛樂用戶或鼓勵他們改變行為。因此,生成的文本應該根據內容和使用的術語的適當性,以及出于公平和透明度的原因(Mayfield et al., 2019),針對特定受眾量身定制(Paris, 2015)。長期以來,自然語言生成模型都是基于規則的,或者依賴于在稀疏的高維特征上訓練淺層模型。隨著最近神經網絡的復蘇,基于密集向量表示訓練的文本生成神經網絡模型已經建立了無與倫比的先前表現,重新點燃了機器能夠理解語言并與人類無縫對話的希望。事實上,生成有意義和連貫的文本是許多自然語言處理任務的關鍵。然而,由于文本數據的離散性,設計能夠生成連貫文本并建立長期依賴關系模型的神經網絡一直是自然語言生成的挑戰。除此之外,神經網絡模型理解語言和基礎文本概念的能力,除了從數據中提取淺層的模式,仍然是有限的。最后,自然語言生成模型的評價是一個同樣活躍和具有挑戰性的研究領域,對推動該領域的發展具有重要意義。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。