Ronghang Hu (胡戎航)
胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科學家。他的研究興趣包括視覺和語言推理和視覺感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指導下獲得UC Berkeley的計算機科學博士學位。2019年夏天和2017年夏天,他在FAIR做研究實習生,分別與Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年獲得清華大學學士學位。2014年,他在中國科學院計算技術研究所進行研究實習,得到了山時光教授和王瑞平教授的指導。
視覺與語言推理的結構化模型
視覺和語言任務(例如回答一個關于圖像的問題,為參考表達做基礎,或遵循自然語言指令在視覺環境中導航)需要對圖像和文本的兩種模式共同建模和推理。我們已經見證了視覺和語言推理的顯著進展,通常是通過在更大的數據集和更多計算資源的幫助下訓練的神經方法。然而,解決這些視覺和語言的任務就像用更多的參數建立模型,并在更多的數據上訓練它們一樣簡單嗎?如果不能,我們怎樣才能建立數據效率高、易于推廣的更好的推理模型呢?
這篇論文用視覺和語言推理的結構化模型為上述問題提供了答案——這些模型的架構考慮了人類語言、視覺場景和代理技能中的模式和規律。我們從表達式的基礎開始,我們在第二章中展示了通過考慮這些表達式中的組合結構,我們提出的組合模塊網絡(CMNs)可以實現更好的準確性和泛化。在第三章中,我們使用基于與問題推理步驟一致的動態組合模塊的端到端模塊網絡(N2NMNs)進一步解決了可視化的問題回答任務。在第四章中,我們擴展了模塊化推理的研究,提出了基于可解釋推理步驟的堆棧神經模塊網絡(SNMNs)。模塊化推理之外,我們也提出構建環境敏感的視覺表征與Language-Conditioned場景圖網絡(LCGNs)。第五章對于關系推理和解決問題的閱讀文本圖像的問答迭代pointer-augmented多通道變形金剛。在第六章,我們說明了嵌入任務也需要結構化模型,并在第7章中提出了說話者-跟隨者模型,其中說話者模型和跟隨者模型互為補充。在所有這些場景中,我們表明,通過考慮任務中的結構和輸入模式,我們的模型的執行和泛化明顯優于非結構化對應模型。
來自卡內基梅隆大學機器人研究所Zhanghao博士論文,他師從著名的邢波教授!博士題目是機器學習并行可以是自適應的、可組合的和自動化的,不可錯過!
Zhang hao, 卡內基梅隆大學機器人研究所博士,導師是Eric Xing教授。畢業后將加入加州大學伯克利分校的RISE實驗室,做博士后。 //www.cs.cmu.edu/~hzhang2/
Machine Learning Parallelism Could Be Adaptive, Composable and Automated
近年來,機器學習(ML)領域的創新步伐加快,SysML的研究人員已經創建了在多個設備或計算節點上并行化ML訓練的算法和系統。隨著ML模型在結構上變得越來越復雜,許多系統都努力在各種模型上提供全面的性能。一般來說,根據從適當的分布策略映射到模型所需的知識數量和時間,ML的規模通常被低估了。將并行訓練系統應用到復雜的模型中,除了模型原型之外,還增加了重要的開發開銷,并且經常導致低于預期的性能。本文識別并解決并行ML技術和系統實現在可用性和性能方面的研究挑戰。
本文的第一部分提出了一個簡單的設計原則,自適應并行化,它根據特定的ML屬性將適當的并行化技術應用于模型構建塊(如層)。接下來,我們導出了一系列優化ML并行化不同方面的優化和實現。我們對它們進行了研究,并表明它們顯著提高了ML訓練在適用場景下對集群進行2-10倍的效率或可伸縮性。
為了推廣這種方法,本論文的第二部分將ML并行化為端到端優化問題,并尋求自動解決它,用于ML并行任務的兩種廣泛范例:單節點動態批處理和分布式ML并行。我們提出了有原則的表示來表示兩類ML并行性,以及可組合的系統架構,分別是Cavs和AutoDist。它們支持為不可見的模型快速組合并行化策略,提高并行化性能,并簡化并行ML編程。
在此基礎上,本文的第三部分提出了自動并行化框架AutoSync,用于自動優化數據并行分布訓練中的同步策略。AutoSync實現了“開框即用”的高性能——它在提議的表現方式所覆蓋的范圍內導航,并自動識別同步策略,這些同步策略的速度比現有手動優化的系統快1.2 - 1.6倍,降低了分布式ML的技術障礙,并幫助更大的用戶社區訪問它。本文所開發的技術和系統為分布式環境下大規模ML訓練的端到端編譯器系統的概念和原型實現提供了理論依據。
論文結構:
第一部分(第三章-第五章):通過自適應并行來理解和優化并行ML在各個方面的性能; 第二部分(第六章-第七章):開發ML并行的統一表示和可組合系統; 第三部分(第八章):自動化ML并行化
【導讀】牛津大學的博士生Oana-Maria Camburu撰寫了畢業論文《解釋神經網絡 (Explaining Deep Neural Networks)》,系統性介紹了深度神經網絡可解釋性方面的工作,值得關注。
作者介紹:
Oana-Maria Camburu,來自羅馬尼亞,目前是牛津大學的博士生,主修機器學習、人工智能等方向。
Explaining Deep Neural Networks
深度神經網絡在計算機視覺、自然語言處理和語音識別等不同領域取得了革命性的成功,因此越來越受歡迎。然而,這些模型的決策過程通常是無法向用戶解釋的。在各種領域,如醫療保健、金融或法律,了解人工智能系統所做決策背后的原因至關重要。因此,最近研究了幾個解釋神經模型的方向。
在這篇論文中,我研究了解釋深層神經網絡的兩個主要方向。第一個方向由基于特征的事后解釋方法組成,也就是說,這些方法旨在解釋一個已經訓練過的固定模型(事后解釋),并提供輸入特征方面的解釋,例如文本標記和圖像的超級像素(基于特征的)。第二個方向由生成自然語言解釋的自解釋神經模型組成,也就是說,模型有一個內置模塊,為模型的預測生成解釋。在這些方面的貢獻如下:
首先,我揭示了僅使用輸入特征來解釋即使是微不足道的模型也存在一定的困難。我表明,盡管有明顯的隱含假設,即解釋方法應該尋找一種特定的基于真實值特征的解釋,但對于預測通常有不止一種這樣的解釋。我還展示了兩類流行的解釋方法,它們針對的是不同類型的事實基礎解釋,但沒有明確地提及它。此外,我還指出,有時這兩種解釋都不足以提供一個實例上決策過程的完整視圖。
其次,我還介紹了一個框架,用于自動驗證基于特征的事后解釋方法對模型的決策過程的準確性。這個框架依賴于一種特定類型的模型的使用,這種模型有望提供對其決策過程的洞察。我分析了這種方法的潛在局限性,并介紹了減輕這些局限性的方法。引入的驗證框架是通用的,可以在不同的任務和域上實例化,以提供現成的完整性測試,這些測試可用于測試基于特性的后特殊解釋方法。我在一個情緒分析任務上實例化了這個框架,并提供了完備性測試s1,在此基礎上我展示了三種流行的解釋方法的性能。
第三,為了探索為預測生成自然語言解釋的自解釋神經模型的發展方向,我在有影響力的斯坦福自然語言推斷(SNLI)數據集之上收集了一個巨大的數據集,數據集約為570K人類編寫的自然語言解釋。我把這個解釋擴充數據集稱為e-SNLI。我做了一系列的實驗來研究神經模型在測試時產生正確的自然語言解釋的能力,以及在訓練時提供自然語言解釋的好處。
第四,我指出,目前那些為自己的預測生成自然語言解釋的自解釋模型,可能會產生不一致的解釋,比如“圖像中有一只狗。”以及“同一幅圖片中沒有狗”。不一致的解釋要么表明解釋沒有忠實地描述模型的決策過程,要么表明模型學習了一個有缺陷的決策過程。我將介紹一個簡單而有效的對抗性框架,用于在生成不一致的自然語言解釋時檢查模型的完整性。此外,作為框架的一部分,我解決了使用精確目標序列的對抗性攻擊的問題,這是一個以前在序列到序列攻擊中沒有解決的場景,它對于自然語言處理中的其他任務很有用。我將這個框架應用到e-SNLI上的一個最新的神經模型上,并表明這個模型會產生大量的不一致性。
這項工作為獲得更穩健的神經模型以及對預測的可靠解釋鋪平了道路。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》,是信息檢索領域值得關注的最新工作。
作者介紹:
Zhuyun Dai
卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力,構建下一代信息助理系統,幫助人們無縫地獲取世界上的知識。
//www.cs.cmu.edu/~zhuyund/index.html
信息檢索中的神經匹配與重要性學習
地址:
在50-60年的時間里,信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制,但解決這些問題的嘗試大多是不成功的。最近,神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢,以帶來更深入的語言理解IR。
本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配,這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示,我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲,本文提出了一種新的核池技術,該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域,以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。
本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重,但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡,以估計詞的重要性,基于如何相互作用的語言語境。開發了一種弱監督方法,允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行,在不影響效率的前提下顯著提高了第一階段的檢索。
總之,本文提出了一種新的神經檢索范式,克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。
隨著開放科學和開放資源的雙重運動將越來越多的科學過程帶入數字領域,科學本身的元科學研究(包括數據科學和統計)出現了新的機會。未來的科學很可能看到機器在處理、組織甚至創造科學知識方面發揮積極作用。為了使這成為可能,必須進行大量的工程努力來將科學工件轉化為有用的計算資源,并且必須在科學理論、模型、實驗和數據的組織方面取得概念上的進展。本論文的目標是將數據科學的兩大主要產物——統計模型和數據分析——數字化和系統化。使用來自代數的工具,特別是分類邏輯,在統計和邏輯的模型之間進行了精確的類比,使統計模型在邏輯意義上被視為理論的模型。統計理論,作為代數結構,服從機器表示,并配備了形式化不同統計方法之間的關系的形態。從數學轉向工程,設計和實現了一個軟件系統,用于以Python或R程序的形式創建數據分析的機器表示。表示的目的是捕獲數據分析的語義,獨立于實現它們的編程語言和庫。
自然語言理解(NLU)系統需要把人類產生的文本進行編碼,然后在深層次的語義層面上進行推理。NLU系統通常都會包括到兩個部分:第一個是編碼器(encoder),它將語言中的單詞組合在一起作為輸入,編碼產生一個新的表示,然后將這些表示作為第二部分--預測器(predictor)中的特征,然后在這些編碼過的輸入信息上進行推理并生成所需的輸出。本文的研究目標是構建一個端到端的NLU系統,能夠結合相關的背景知識對輸入信息進行編碼,然后在上下文的語境中對其進行推理。
Compositional visual intelligence
Johnson Justin
Li, Fei Fei, 1976- degree supervisor.
Goodman, Noah, degree committee member.
Ré, Christopher, degree committee member.
Stanford University. Computer Science Departmen
//searchworks.stanford.edu/view/12746402
計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標,我們必須探索新的計算機視覺任務,創建新的數據集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子,但是通過將圖像分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題,我們引入了一個新的benchark數據集。在此基礎上,提出了一種可視化問題交互的顯式組成模型,該模型將問題轉換為功能程序,并通過組合神經模塊來執行這些程序。第三,我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像,但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個對象的復雜圖像。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。
作者Jacob Andreas是自然語言處理的研究者,研究興趣為用語言作為更有效學習的支架和理解模型行為的探針,以及結合深度表示和離散組合性優點的結構化神經方法。近期公開發布了他的博士論文。
博士論文介紹:
本文探討了語言結構在結構和參數化中用于語言處理和其他應用的機器學習模型的方法。作者將該模型應用于問答系統,指令跟蹤,圖像分類等多種任務。
作者首先介紹一類稱為神經模塊網絡(NMN)的模型,并介紹它們在自然語言問答中的應用。NMN旨在實現同時利用深層網絡的表征能力和構成問題的語言結構。我們的方法將問題分解為語言子結構,并使用這些子結構動態地從可重復使用的模塊庫構建網絡。由此產生的復合網絡是共同訓練的。作者并在含有圖像和結構化知識庫的問答數據集上的方法評估模型。隨后,作者將這種思想轉移到策略學習中,研究在面對不同但相似的問題時,怎么組合策略。