題目: Deep Representation Learning in Speech Processing: Challenges, Recent Advances, and Future Trends
簡介: 傳統上,語音處理研究將設計人工工程聲學特征(特征工程)的任務與設計有效的機器學習(ML)模型以做出預測和分類決策的任務分離為一個獨立的問題。這種方法有兩個主要缺點:首先,手工進行的特征工程很麻煩并且需要人類知識。其次,設計的功能可能不是最適合當前目標的。這引發了語音社區中采用表示表達學習技術的最新趨勢,該趨勢可以自動學習輸入信號的中間表示,從而更好地適應手頭的任務,從而提高性能。表示學習的重要性隨著深度學習(DL)的發展而增加,在深度學習中,表示學習更有用,對人類知識的依賴性更低,這有助于分類,預測等任務。本文的主要貢獻在于:通過將跨三個不同研究領域(包括自動語音識別(ASR),說話者識別(SR)和說話者情緒識別(SER))的分散研究匯總在一起,對語音表示學習的不同技術進行了最新和全面的調查。最近針對ASR,SR和SER進行了語音復習,但是,這些復習都沒有集中于從語音中學習表示法,這是我們調查旨在彌補的差距。
主題: Deep Learning for Community Detection: Progress, Challenges and Opportunities
摘要: 由于社區代表著相似的觀點,相似的功能,相似的目的等,因此社區檢測在科學查詢和數據分析中都是重要且極其有用的工具。 但是,隨著深度學習技術展示出以令人印象深刻的性能處理高維圖數據的能力日益增強,諸如頻譜聚類和統計推斷之類的經典社區檢測方法正在逐漸被淘汰。 因此,對通過深度學習進行社區發現的當前進展進行調查是及時的。 本文分為三個領域,分別是深度神經網絡,深度圖嵌入和圖神經網絡,本文總結了各個框架中各種框架,模型和算法的貢獻以及當前尚未解決的挑戰以及 未來的研究機會有待探索。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
深度神經網絡(DNN)是實現人類在許多學習任務上的水平的不可缺少的機器學習工具。然而,由于其黑箱特性,很難理解輸入數據的哪些方面驅動了網絡的決策。在現實世界中,人類需要根據輸出的dna做出可操作的決定。這種決策支持系統可以在關鍵領域找到,如立法、執法等。重要的是,做出高層決策的人員能夠確保DNN決策是由數據特征的組合驅動的,這些數據特征在決策支持系統的部署上下文中是適當的,并且所做的決策在法律上或倫理上是可辯護的。由于DNN技術發展的驚人速度,解釋DNN決策過程的新方法和研究已經發展成為一個活躍的研究領域。在定義什么是能夠解釋深度學習系統的行為和評估系統的“解釋能力”時所存在的普遍困惑,進一步加劇了這種復雜性。為了緩解這一問題,本文提供了一個“領域指南”,為那些在該領域沒有經驗的人提供深度學習解釋能力指南: i)討論了研究人員在可解釋性研究中增強的深度學習系統的特征,ii)將可解釋性放在其他相關的深度學習研究領域的背景下,iii)介紹了定義基礎方法空間的三個簡單維度。
雖然像CNNs這樣的深度學習模型在醫學圖像分析方面取得了很大的成功,但是小型的醫學數據集仍然是這一領域的主要瓶頸。為了解決這個問題,研究人員開始尋找現有醫療數據集之外的外部信息。傳統的方法通常利用來自自然圖像的信息。最近的研究利用了來自醫生的領域知識,通過讓網絡模仿他們如何被訓練,模仿他們的診斷模式,或者專注于他們特別關注的特征或領域。本文綜述了將醫學領域知識引入疾病診斷、病變、器官及異常檢測、病變及器官分割等深度學習模型的研究進展。針對不同類型的任務,我們系統地對所使用的不同類型的醫學領域知識進行了分類,并給出了相應的整合方法。最后,我們總結了挑戰、未解決的問題和未來研究的方向。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.