在自然語言處理(NLP)中,不確定度的準確估計對于許多困難或敏感的預測任務非常重要。盡管大規模的預訓練模型極大地提高了整個領域應用機器學習模型的準確性,但仍有許多情況下它們失敗了。精確量化不確定性的能力,在處理現代模型在現實世界中部署時可能面臨的挑戰場景時,對于可靠的、結果性的決策是至關重要的。本教程面向學術研究人員和行業從業者,全面介紹了NLP問題的不確定性估計——從概率校準的基本原理、貝葉斯推斷和置信集(或區間)構建,到現代分布失衡檢測和選擇性推斷的應用主題。
目錄內容
來自UNC-NLP的Peter Hase關于自然語言處理中的可解釋機器學習:方法與評估的報告,
【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將于2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。
來自 Adelaide大學的研究人員在KDD2021上將給出關于可解釋深度異常檢測的教程,非常值得關注!
異常檢測可以為許多安全關鍵或具有商業意義的現實世界應用提供重要的洞察,如極端氣候事件檢測、機械故障檢測、恐怖主義檢測、欺詐檢測、惡意URL檢測,僅舉幾例。由于這個意義,它已經被廣泛研究了幾十年,有許多淺顯的方法被提出。然而,這些方法面臨著各種數據復雜性的挑戰,如高維性、數據相關性、數據異構性等。近年來,深度學習在解決這些復雜性方面取得了巨大的成功,在廣泛的應用中,但由于異常的一些獨特特征,例如稀罕性、異質性、無界性、以及收集大規模異常數據的高昂成本。因此,針對異常檢測的深度學習技術進行了大量的研究。這些研究表明,在解決淺層異常檢測方法在不同應用環境中失敗的一些主要挑戰方面取得了巨大成功。
在本教程中,我們旨在全面回顧基于深度學習的異常檢測和解釋的進展。首先介紹了12類最先進的深度異常檢測方法的關鍵直覺、目標函數、基本假設和優缺點。異常解釋通常與異常檢測一樣重要,這對于深度檢測模型——“黑箱”模型尤其如此,因此我們也介紹了一些用于為深度檢測模型提供異常解釋的原則方法。與許多其他數據挖掘任務相比,深度異常檢測的探索要少得多。我們旨在通過本教程積極推動其在算法、理論和評估方面的發展。
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
深度學習模型在預測失敗信號方面表現不佳: 它們往往非常有把握地做出預測,這在現實世界的應用中是有問題的,比如醫療保健、自動駕駛汽車和自然語言系統,這些應用存在相當大的安全隱患,或者在訓練數據和模型預測所依據的數據之間存在差異。現在迫切需要了解模型何時不應該進行預測,以及改進模型對數據中自然變化的健壯性。本教程將對深度學習中的不確定性和健壯性進行概述。也就是說,我們檢查校準和非分布泛化作為關鍵任務。然后,我們將深入探討有希望的途徑。這包括平均多個神經網絡預測的方法,如貝葉斯神經網絡,集成,和高斯過程;在總體參數或預測時間效率方面處于尺度前沿的方法;以及鼓勵關鍵的誘導偏差的方法,如數據增強。我們將這些想法建立在經驗理解和理論的基礎上,并通過基準和提示和技巧提供實際的建議。最后,我們強調該領域的開放挑戰。
//nips.cc/Conferences/2020/Schedule?showEvent=16649
EMNLP(Conference on Empirical Methods in Natural Language Processing)是計算語言學和自然語言處理領域的頂級國際會議,由ACL旗下SIGDAT組織,每年舉辦一次,Google Scholar計算語言學刊物指標中排名第二,是CCF-B類推薦會議。今年EMNLP 2020將于2020年11月16日至20日以在線會議的形式舉辦。本篇為大家帶來EMNLP2020在線Tutorial《Interpreting Predictions of NLP Models》教程,系統性講解了自然語言處理模型可解釋性預測,不可錯過!
雖然神經NLP模型具有高度的表示學習能力和良好性能,但它們也會以違反直覺的方式系統性失敗,并且在決策過程中不透明。本教程將提供可解釋技術的背景知識,即可解釋NLP模型預測的方法。我們將首先將具體實例的解釋置于理解模型的其他方法的上下文中(例如,探測,數據集分析)。接下來,我們將全面研究具體例子的解釋,包括顯著性映射、輸入擾動(例如LIME、輸入減少)、對抗性攻擊和影響函數。除了這些描述之外,我們還將介紹為各種NLP任務創建和可視化解釋的源代碼。最后,我們將討論該領域的開放問題,如評價、擴展和改進解釋方法。
//github.com/Eric-Wallace/interpretability-tutorial-emnlp2020/
題目
自然語言處理中的遷移學習,41 頁PPT
關鍵字
自然語言處理,遷移學習
簡介
本教程,將系統地介紹在自然語言處理中,遷移學習的應用。
內容