非自回歸序列生成(Non-autoregressive sequence generation, NAR)嘗試并行生成全部或部分輸出序列,以加速生成過程,避免自回歸生成中潛在的問題(如標簽偏差、暴露偏差)。雖然它受到了大量的研究關注,并已被應用于自然語言和語音中的許多序列生成任務,但由于缺乏建模能力,原始NAR模型在縮小與最先進的自回歸模型之間的性能差距方面仍面臨許多挑戰。在本教程中,我們將全面介紹和回顧非自回歸序列生成,分為四個部分:1)背景,包括NAR生成的動機,問題定義,評估協議,以及與標準自回歸生成方法的比較。2)方法,包括不同的方面:模型架構、目標函數、訓練數據、學習范式和額外的推理技巧。3)應用,涵蓋了文本和語音生成中的不同任務,以及應用中的一些高級主題。4)結論,我們描述了幾個研究挑戰,并討論了潛在的未來研究方向。我們希望本教程可以服務于從事非自回歸序列生成的學術研究人員和行業從業人員。
CVPR 2022 線下會議將于 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。相關一系列教程從19號就開始了。來自英偉達和Google的三名研究學者講述了《基于擴散的去噪生成建模:基礎與應用》教程,182頁ppt帶你更好地了解高保真圖像視頻生成方法。
去噪擴散模型,也被稱為基于分數的生成模型,是最近出現的一個強大的生成模型類別。它們在高保真圖像生成方面表現出驚人的結果,甚至常常超過生成對抗網絡。重要的是,它們還提供了較強的樣本多樣性和對已學習數據分布的保真模式覆蓋。這意味著去噪擴散模型非常適合學習復雜多樣的數據模型。去噪擴散模型定義了一個正向擴散過程,通過逐漸擾動輸入數據將數據映射到噪聲。數據生成是通過一個學習的、參數化的反向過程實現的,該過程執行迭代去噪,從純隨機噪聲開始(見上圖)。雖然擴散模型相對較新,但它們已經發現了許多成功的應用。例如,它們已經在計算機視覺中用于圖像編輯、可控、語義和文本驅動的圖像合成、圖像到圖像的翻譯、超分辨率、圖像分割以及三維形狀生成和完成。
在本教程中,我們介紹了去噪擴散模型的基礎,包括他們的離散步驟的公式以及他們的基于微分方程的描述。我們還討論了與實踐者相關的實際實施細節,并強調了與其他現有生成模型的聯系,從而將去噪擴散模型置于更廣泛的背景中。此外,我們回顧了近年來加速采樣、條件生成等方面的技術擴展和先進方法。采樣速度慢一直是擴散模型去噪的主要缺點。然而,已經出現了許多有希望克服這一挑戰的技術。最近去噪擴散模型在高分辨率條件生成任務中也取得了驚人的進展,例如文本到圖像的生成,我們討論了實現這一目標的幾個關鍵的先進技術。為了展示去噪擴散模型如何適合視覺用例,我們也回顧了在計算機視覺中的成功應用。
考慮到擴散模型具有生成質量高、模式覆蓋率和多樣性的獨特優勢,以及近年來關于快速采樣和條件生成的研究成果,我們認為擴散模型將在計算機視覺和圖形學領域得到廣泛應用。不幸的是,擴散模型依賴于相當技術性的概念,因此在許多應用領域,這些模型的真正潛力還沒有被釋放出來,因為研究它們的社區仍然相對較小。本教程的主要目標是使擴散模型可通過提供一個介紹性的短期課程廣泛的計算機視覺觀眾。本教程將建立在生成學習的簡單概念上,并將為感興趣的研究人員和從業者提供基礎知識,以開始在這一令人興奮的領域工作。
//cvpr2022-tutorial-diffusion-models.github.io/
日程目錄:
引言 Introduction
Part (1): Denoising Diffusion Probabilistic Models Part (2): Score-based Generative Modeling with Differential Equations Part (3): Advanced Techniques: Accelerated Sampling, Conditional Generation, and Beyond 應用:
Applications (1): Image Synthesis, Text-to-Image, Controllable and Semantic Generation Applications (2): Image Editing, Image-to-Image, Superresolution, Segmentation Applications (3): Discrete State Models, 3D Generation, Medical Imaging, Video Synthesis Conclusions, Open Problems and Final Remarks
講者介紹:
Karsten Kreis是英偉達多倫多人工智能實驗室的高級研究科學家。在加入NVIDIA之前,他曾在D-Wave Systems從事深度生成建模工作,并參與創立了一家利用生成模型進行藥物發現的初創公司Variational AI。在轉向深度學習之前,Karsten在馬克斯普朗克光科學研究所完成了量子信息論碩士學位,在馬克斯普朗克聚合物研究所完成了計算與統計物理學博士學位。目前,Karsten的研究重點是開發新的生成學習方法,以及將深度生成模型應用于計算機視覺、圖形和數字藝術等領域的問題。
Ruiqi Gao是谷歌research, Brain team的研究科學家。她的研究方向是統計建模和學習,主要關注生成模型和表示學習。她于2021年獲得加州大學洛杉磯分校(UCLA)統計學博士學位,在視覺、認知、學習和自主研究中心(VCLA)工作,導師是Song-Chun Zhu 和 Ying Nian Wu。她最近的研究主題包括深度生成模型的可擴展訓練算法,以及在計算機視覺、自然語言處理和神經科學中的應用。
Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。
隨著大規模預訓練模型的出現,自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識,使預測結果更具可解釋性。在本教程中,我們將介紹將知識集成到自然語言處理中的關鍵步驟,包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用,融合知識到語言理解,語言生成和常識推理。
//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/
自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言,因為通常需要時間、金錢和專業知識來標記大量文本數據。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。
本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。
//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial
數據增強是一種常用的技術,用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合,數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索,包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性,但文本數據的增強方法卻非常廣泛。
NLP中具有代表性的數據增強方法包括: token增強,如隨機刪除或屏蔽令牌(Bowman et al., 2015),用同義詞或相關詞替換單詞(Zhang et al., 2015;Kobayashi, 2018),以及用隨機token插入或替換不重要的token (Xie et al.,2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上,先將句子翻譯成某些中間語言,然后再將它們翻譯回來,生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯,可以引入一定的方差,即雙向翻譯(Xie et al., 2019; Coulombe, 2018),或根據給定的標簽生成句子;對抗性數據增強,使用受擾動的數據顯著影響模型的預測和信心,而不影響人類判斷(Morris et al., 2020),例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強,通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人,2020a)。
我們將向觀眾介紹最近廣泛使用的數據增強方法,并以NLP應用實例(如無監督翻譯的反向翻譯)為例,演示如何在實踐中利用這些代表性的數據增強技術。
當只有一個小的標簽訓練數據集可用時,數據增強可以應用在監督設置中產生更好的結果,數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法,當只有有限的標記數據可用時,這種方法可以顯著改進模型。這在普通設置中特別有用,因為與有標記的數據相比,未標記的數據更便宜、更容易獲得。在本教程中,我們將使用示例應用程序或任務,簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據,將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.,2006);多任務訓練利用帶有標簽的額外輔助任務,進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型,當輸入通過數據增強受到干擾時,輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。
解決數據有限的學習問題還有其他相關方向,如其他半監督學習方法,如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法,更具體地說,我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能,包括跨語言遷移學習,它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019),很少/零樣本學習(Pham et al., 2019; Abad et al., 2020),只使用了來自低資源領域的幾個例子,以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功,但為了更好地學習,仍有一些挑戰需要解決。為此,我們將通過強調一些挑戰來結束我們的教程,包括但不限于數據分布的轉移,量化增強的多樣性和效率,處理域外未標記的數據,學習特定于文本的數據增強策略,并討論未來可能有助于推進該領域的方向。
自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于資源不足的設置和語言,因為標記大量文本數據通常需要時間、金錢和專業知識。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。
機器閱讀理解(MRC)旨在教機器閱讀和理解人類語言,這是自然語言處理(NLP)的長期目標。隨著深度神經網絡的爆發和上下文語言模型(contextualized language models-CLM)的發展,MRC的研究經歷了兩個重大突破。作為一種現象,MRC和CLM對NLP社區有很大的影響。在本次調查中,我們提供了有關MRC的全面,比較性綜述,涵蓋了有關以下方面的總體研究主題:1)MRC和CLM的起源和發展,尤其著重于CLM的作用;2)MRC和CLM對NLP社區的影響;3)MRC的定義,數據集和評估;4)從人類認知過程的角度出發,從兩階段編碼器-解碼器解決架構的角度來看,一般的MRC架構和技術方法;5)以前的重點,新興的話題以及我們的經驗分析,其中我們特別關注在MRC研究的不同時期有效的方法。我們建議對這些主題進行全視圖分類和新的分類法。我們得出的主要觀點是:1)MRC促進了從語言處理到理解的進步;2)MRC系統的快速改進極大地受益于CLM的開發;3)MRC的主題正逐漸從淺的文本匹配轉變為認知推理。
本教程對機器閱讀理解進行了全面和比較的綜述,旨在訓練機器對真實數據的閱讀理解能力,這是人工智能的一個主要目標。討論涵蓋了背景、發展、影響、數據集、典型的和最先進的技術、經驗評估和最近的趨勢,特別關注最近的高級預先訓練的語言模型的作用。
【導讀】ACL-IJCNLP 2021是CCF A類會議,是人工智能領域自然語言處理( Natural Language Processing,NLP)方向最權威的國際會議。ACL2021計劃于今年8月1日-8月6日以線上會議形式召開. 最近字節跳動AI實驗室總監李磊重返學術界,進入加州大學圣巴巴拉分校擔任助理教授。他和王明軒給了關于預訓練時代機器翻譯的教程,非常值得關注!
預訓練是自然語言處理(NLP)[28,8,20]、計算機視覺(CV)[12,34]和自動語音識別(ASR)[3,6,24]的主導范式。通常,首先對模型進行大量未標記數據的預訓練,以捕獲豐富的輸入表示,然后通過提供上下文感知的輸入表示,或初始化下游模型的參數進行微調,將模型應用于下游任務。最近,自監督的預訓練和任務特定的微調范式終于完全達到了神經機器翻譯(NMT)[37,35,5]。
盡管取得了成功,但在NMT中引入一個通用的預訓練模型并非易事,而且不一定會產生有希望的結果,特別是對于資源豐富的環境。在幾個方面仍然存在獨特的挑戰。首先,大多數預訓練方法的目標不同于下游的NMT任務。例如,BERT[8]是一種流行的預訓練模型,其設計目的是僅使用一個轉換器編碼器進行語言理解,而NMT模型通常由一個編碼器和一個解碼器組成,以執行跨語言生成。這一差距使得運用NMT[30]的預訓練不夠可行。此外,機器翻譯本身就是一個多語言問題,但一般的NLP預訓練方法主要集中在英語語料庫上,如BERT和GPT。鑒于遷移學習在多語言機器翻譯中的成功,對NMT[7]進行多語言預訓練是非常有吸引力的。最后,語音翻譯近年來受到了廣泛的關注,而大多數的預訓練方法都側重于文本表示。如何利用預訓練的方法來提高口語翻譯水平成為一個新的挑戰。
本教程提供了一個充分利用神經機器翻譯的預訓練的全面指導。首先,我們將簡要介紹NMT的背景、預訓練的方法,并指出將預訓練應用于NMT的主要挑戰。在此基礎上,我們將著重分析預訓練在提高非語言教學績效中的作用,如何設計更好的預訓練模式來執行特定的非語言教學任務,以及如何更好地將預訓練模式整合到非語言教學系統中。在每一部分中,我們將提供例子,討論訓練技巧,并分析在應用預訓練時轉移了什么。
第一個主題是NMT的單語預訓練,這是研究最深入的領域之一。ELMo、GPT、MASS和BERT等單語文本表征具有優勢,顯著提高了各種自然語言處理任務的性能[25,8,28,30]。然而,NMT有幾個明顯的特點,如大的訓練數據(1000萬或更多)的可用性和基線NMT模型的高容量,這需要仔細設計預訓練。在這一部分,我們將介紹不同的預訓練方法,并分析它們在不同的機器翻譯場景(如無監督的NMT、低資源的NMT和富資源的NMT)中應用的最佳實踐[37,35]。我們將介紹使用各種策略對預訓練的模型進行微調的技術,如知識蒸餾和適配器[4,16]。
下一個話題是NMT的多語言預訓練。在此背景下,我們旨在緩解英語為中心的偏見,并建議可以建立不同語言的普遍表示,以改善大量多語言的NMT。在這部分中,我們將討論不同語言的一般表示,并分析知識如何跨語言遷移。這將有助于更好地設計多語言預訓練,特別是零樣本遷移到非英語語言對[15,27,7,26,13,17,19,23,18]。
本教程的最后一個技術部分是關于NMT的預訓練。特別地,我們關注于利用弱監督或無監督訓練數據來改進語音翻譯。在這一部分中,我們將討論在言語和文本中建立一個一般表示的可能性。并展示了文本或音頻預處理訓練如何引導NMT的文本生成[33,21,32,14,22,10,9,11,36]。
在本教程的最后,我們指出了在應用NMT預訓練時的最佳實踐。這些主題涵蓋了針對不同的NMT情景的各種預訓練方法。在本教程之后,觀眾將理解為什么NMT預訓練不同于其他任務,以及如何充分利用NMT預訓練。重要的是,我們將深入分析預訓練如何以及為什么在NMT中起作用,這將為未來設計特定的NMT預訓練范式提供啟發。
//sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/
報告嘉賓:
李磊,加州大學圣巴巴拉分校擔任助理教授,曾任字節跳動人工智能實驗室總監。本科博士分別畢業于上海交通大學和卡耐基梅隆大學計算機系。曾任加州大學伯克利分校作博士后研究員和百度美國深度學習實驗室少帥科學家。曾獲2012年美國計算機學會SIGKDD最佳博士論文第二名、2017年吳文俊人工智能技術發明二等獎、2017年CCF杰出演講者、2019年CCF青竹獎。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文100余篇,擁有二十余項技術發明專利。擔任CCF自然語言處理專委委員和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多個會議組委成員和領域主席。
王明軒,字節跳動人工智能實驗室資深研究員,博士畢業于中國科學院計算技術研究所,主要研究方向為機器翻譯。主導研發了火山翻譯系統,服務全球過億用戶,并多次帶領團隊在 WMT 機器翻譯評測中拿到過冠軍。在 ACL、EMNLP、NAACL 等相關領域發表論文 30 多篇。擔任CCF自然語言處理專委委員和國內外多個會議組委成員。
本教程將由四個主要部分組成,每個部分由一名講者負責,然后是一個討論環節。我們將從介紹常識的公理化理論開始。接下來,我們將討論跨異構常識源協調節點和關系的工作,以及這種整合對下游推理任務的影響。第三,我們將討論如何從文本中自動提取常識知識,以及定量和定性語境化。然后,我們將討論大型模型(如BERT、GPT-2和T5)如何學習隱式地表示通過閱讀web獲得的大量常識知識。另外,如何通過精心設計的語言提示或對知識圖譜元組進行微調來提取這些知識。我們將以對未來方法的討論來結束本教程,并提出在下一代常識推理技術中結合語言模型、知識圖譜和公理化。參與者的先驗知識將是最少的。一些機器學習和語言建模的知識會有幫助,但不是強制性的: 我們將介紹相關的機器學習概念,以便每個人都有機會跟隨。
目錄:
常識推理被認為是構建更先進的“通用”人工智能系統的關鍵,這些系統具有類似人類的能力和推理能力,即使在面對不確定、隱含(或潛在矛盾)信息時也是如此。認識到它的重要性,幾個社區的研究人員越來越多地從事研究和評估常識推理任務有關的問題回答和溯因推理。與其他“純”或邏輯推理任務不同,知識庫和推理公理可以分離(至少在原則上),知識是常識推理的一個重要方面。例如BERT (Devlin et al., 2018)和GPT (Radford et al., 2019)等基于轉換的模型,或者通過使用自然語言處理和眾包技術構建的概念、關系和事件的“知識圖譜”來獲取知識。一旦獲得,知識也必須被恰當地表示,以支持類似人類的推理和問題回答。語言模型傾向于連續的類向量表示,而知識圖譜則更加離散。在本教程中,我們將基于經典研究以及自然語言處理和語義Web社區的現代進展,全面概述常識知識獲取和表示技術。
參與者的先驗知識將是最少的。一些機器學習的知識,包括基本的概念,如訓練,測試和驗證,特征工程等將是有幫助的,但不是絕對的先決條件,因為我們不會進入高級機器學習數學或優化。此外,在可能的情況下,我們將介紹基本的機器學習概念,以便每個人都有機會跟隨。參加者不需要有任何回答自然語言常識問題的知識,也不需要有最先進的知識來源或公理化理論。
參考文獻:
Bosselut, A.; Rashkin, H.; Sap, M.; Malaviya, C.; Celikyilmaz, A.; and Choi, Y. 2019. COMET: Commonsense transformers for automatic knowledge graph construction. arXiv preprint arXiv:1906.05317.
Chalier, Y.; Razniewski, S.; and Weikum, G. 2020. Joint Reasoning for Multi-Faceted Commonsense Knowledge. AKBC.
Devlin, J.; Chang, M. W.; Lee, K.; and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Ilievski, F.; Szekely, P.; Zhang, B. 2020. CSKG: The CommonSense Knowledge Graph. arXiv preprint arXiv:2012.11490.
Radford, A.; Wu, J.; Child, R.; Luan, D.; Amodei, D.; and Sutskever, I. 2019. Language models are unsupervised multitask learners. OpenAI Blog1(8): 9.
Romero, J.; Razniewski, S.; Pal, K.; Z. Pan, J.; Sakhadeo, A.; and Weikum, G. 2019. Commonsense properties from query logs and question answering forums. In Proceedingsof the 28th ACM International Conference on Information and Knowledge Management, 1411–1420.
Tandon, N.; De Melo, G.; and Weikum, G. 2017. Webchild2.0: Fine-grained commonsense knowledge distillation. In Proceedings of ACL 2017, System Demonstrations, 115–120.
題目
自然語言處理中的遷移學習,41 頁PPT
關鍵字
自然語言處理,遷移學習
簡介
本教程,將系統地介紹在自然語言處理中,遷移學習的應用。
內容
臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知