簡介:
模仿學習研究如何從專家的決策數據中進行學習,以得到接近專家的決策模型。同樣學習如何決策的強化學習往往只根據環境的滯后反饋進行學習。與之相比,模仿學習能從決策數據中獲得更為直接的反饋。它可以分為行為克隆、基于逆向強化學習的模仿學習兩類方法。基于逆向強化學習的模仿學習把模仿學習的過程分解成逆向強化學習和強化學習兩個子過程,并反復迭代。逆向強化學習用于推導符合專家決策數據的獎賞函數,而強化學習基于該獎賞函數學習策略。基于生成對抗網絡的模仿學習方法從基于逆向強化學習的模仿學習發展而來,其中最早出現且最具代表性的是生成對抗模仿學習方法(Generative Adversarial Imitation Learning,簡稱GAIL)。生成對抗網絡由兩個相對抗的神經網絡構成,分別為判別器和生成器。GAIL的特點是用生成對抗網絡框架求解模仿學習問題,其中,判別器的訓練過程可類比獎賞函數的學習過程,生成器的訓練過程可類比策略的學習過程。與傳統模仿學習方法相比,GAIL具有更好的魯棒性、表征能力和計算效率。因此,它能夠處理復雜的大規模問題,并可拓展到實際應用中。然而,GAIL存在著模態崩塌、環境交互樣本利用效率低等問題。最近,新的研究工作利用生成對抗網絡技術和強化學習技術等分別對這些問題進行改進,并在觀察機制、多智能體系統等方面對GAIL進行了拓展。本文綜述了這些有代表性的工作,并探討這類算法未來的發展趨勢,最后進行了總結。
作者簡介:
郝建業博士,現任天津大學智能與計算學部-軟件學院副教授,博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士后研究員。
郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10余項, 與國際上多個頂尖科研團隊(包括麻省理工學院 (MIT), 帝國理工學院,CMU, 香港中文大學,代爾夫特理工大學,新加坡國立大學,南洋理工大學等)具有良好的長期合作關系, 并取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗,目前已在多智能體系統、 人工智能、 軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70余篇,專著2部。
模仿學習是一種基于專家示教重建期望策略的方法,一直是AI領域的研究熱點。為了提升模仿學習的通用性和在實際工程中的應用,相關的研究方向吸引了大量學術和工業界人士,其中利用多模態模仿學習提升模仿學習效果是重要的方向之一。例如,應用于自動駕駛中的駕駛行為學習,真實駕駛員示教數據由于駕駛技能和行為習慣的多樣性呈現多種模態并服從不同的分布,如果直接利用行為克隆(Behavioral Cloning,BC)或逆向強化學習(Inverse Reinforcement Learning,IRL)容易導致模態坍塌問題(mode collapse problem),因缺乏發現和區分示教數據中的模態變化的能力。為了針對多模態示教數據進行有效的模仿,我們提出了一種基于生成對抗模仿學習(Generative Adversarial Imitation Learning,GAIL)的多模態模仿學習算法框架(圖3),稱為Triple-GAIL,通過對模態選擇和行為模仿聯合學習并利用模態選擇器增量式生成數據促進模態區分優化模仿效果。Triple-GAIL在GAIL的基礎上增加了一個模態選擇器(Selector)用于區分多個模態,并和生成器(Generator)一起持續生成狀態-動作-模態數據序列,達到數據增廣的目的,而判別器(Discriminator)用于區分狀態-動作-模態數據序列是否來自于專家示教數據。與已有多模態模仿學習方法相比,Triple-GAIL既可以直接通過指定模態生成行為軌跡,也可以直接利用模態選擇器基于歷史數據判斷模態。
題目: 基于深度學習的主題模型研究
摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。
摘要: 線條畫作為一種簡單而有效的視覺傳達手段,通過突出主要的細節特征,使得人們可以快速地獲得主要信息;同時,風格線條畫作為一種藝術形式,讓人們能夠快速欣賞和理解其藝術特征。文中對線條畫的生成方法進行了綜述與分析。線條畫生成技術可以分為基于2D圖像的方法與基于3D模型的方法。其中,基于2D圖像的線條畫生成技術包括樣本學習方法、非樣本學習的數據驅動方法與非數據驅動方法;基于3D模型的線條畫生成技術包括圖像空間方法、對象空間方法以及兩者的混合方法。通過介紹與分析各種方法并對比分析其優缺點,總結了線條畫生成技術現階段存在的問題及其可能的解決方案,并在此基礎上對線條畫生成的未來發展趨勢進行了展望。
題目: 自然語言與理解
摘要: 雖然自然語言一直在社會、經濟和國家安全等領域中扮演著重要角色,但是一直以來計算機的自然語言理解能力遠遜于人類。近幾年,隨著移動互聯網的不斷普及,以及云計算、大數據、GPU、深度學習等相關平臺和技術的快速發展,我們越來越感到自然語言處理方面的突破就在眼前。本報告將從自然語言理解層面探討如何提高自然語言處理能力。具體包括:自然語言本質特點、自然語言處理核心任務、篇章理解與知識圖譜。
個人簡介: 周國棟教授,1997年12月畢業于新加坡國立大學獲得博士學位;1998年1月至1999年3月在新加坡國立大學從事博士后研究;1999年4月-2006年8月在新加坡資訊通信研究院分別擔任副研究員、研究員和副主任研究員;2006年8月底加入蘇州大學擔任教授博導,組建自然語言處理實驗室。研究方向:自然語言理解、信息抽取、自然語言認知等。近5年來,發表國際著名SCI期刊論文20多篇和國際頂級會議ACL/EMNLP/COLING/IJCAI/AAAI論文80多篇,主持NSFC項目4個(包括重點項目2個)。據Google Scholar統計,論文引用超過7000次,曾擔任國際自然語言理解領域頂級SCI期刊Computational Linguistics編委,目前擔任ACM TALLIP副主編、《軟件學報》責任編委、CCF中文信息技術專委會副主任委員、蘇州大學學術委員會委員。
題目: 基于知識智能的機器人技能學習
摘要: 人類的進化過程中,伴隨的操作任務越來越復雜,對靈巧性要求也越來越高,這個過程也改變和進化了大腦結構,促進了認知語言和知識的發展,增強了人類的智能。人手的操作是智能的直接體現,是人類進化的驅動力。靈巧手對機器人的同樣重要,可以說機器人的智能革命是從手的靈巧操作開始的。本報告面向機器人的主動技能學習,重點討論了操作示范與技能傳授、巧操作技能的運動規劃與協調控制、操作技能的多層次知識化表達、操作數據/知識庫和基于知識智能的多任務操作技能遷移學習與技能增強。最后,討論了機器人靈巧操作的未來發展。
個人簡介: 清華大學計算機科學與技術系教授,博士生導師,IEEE/CAAI Fellows, 國家杰出青年基金獲得者;兼任清華大學校學術委員會委員,計算機科學與技術系學術委員會主任,智能技術與系統國家重點實驗室常務副主任。兼任中國人工智能學會副理事長,中國自動化學會常務理事,國家重點研發計劃機器人總體專家組成員,國際刊物《Cognitive Computation and Systems》主編,國際刊物《IEEE Trans. on Cognitive and Developement Systems》,《IEEE Trans. on Systems, Man and Cybernetics: Systems》和《International Journal of Control, Automation, and Systems (IJCAS)》副主編或領域主編,國內刊物《中國科學:F輯》和《自動化學報》編委。
主題: End-to-end deep neural network-based speaker and language recognition
簡介: 語音信號不僅包含詞匯信息,還傳遞說話人、語言、性別、年齡、情感等多種副語言的語音屬性信息。其背后的核心技術問題是基于文本獨立或文本依賴的靈活時長語音信號的話語水平監督學習。在第一部分中,我們將首先闡述說話者和語言識別的問題。在第2節中,我們介紹了傳統的流程中包含不同模塊的框架,即特征提取、表示、可變性補償和后端分類。然后很自然地引入端到端思想,并與傳統框架進行了比較。我們將展示特征提取和CNN層、表示和編碼層、后端建模和完全連接層之間的對應關系。具體來說,我們將在這里詳細介紹端到端框架中的模塊,如變長數據加載器、前端卷積網絡結構設計、編碼(或池)層設計、損失函數設計、數據增廣設計、傳輸學習和多任務學習等。
嘉賓介紹: 李明,男,昆山杜克大學電子與計算機工程副教授,美國杜克大學電子與計算機工程系客座研究員。2005年獲南京大學通信工程專業學士學位,2008年獲中科院聲學所信號與信息處理專業碩士學位,2013年畢業于美國南加州大學電子工程系,獲工學博士學位。2013-2017年任教于中山大學卡內基梅隆大學聯合工程學院及電子與信息工程學院,副教授,博士生導師。研究方向包括音頻語音信息處理,多模態行為信號分析等多個方向。已發表學術論文80 余篇,其中SCI期刊論文19篇。曾擔任多個知名學術會議的科學委員會成員(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多個知名學術期刊的審稿人(IEEE TPAMI,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),擔任Interspeech2016及2018說話人識別領域主席。榮獲了2009年Body Computing Slam Contest 第一名,IEEE DCOSS 2009 會議最佳論文獎。指導學生獲得ISCSLP2016最佳學生論文獎,于2011年和2012年連續兩次獲得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。