人工神經網絡(ANNS)在解決各種認知模式下的感知任務方面顯示出很大的經驗成功。雖然它們只是受到生物大腦的松散啟發,但最近的研究報告稱,從任務優化的神經網絡中提取的表征與大腦中的神經種群之間存在相當多的相似性。神經網絡后來成為一個流行的模型類,用來推斷復雜認知功能下的計算原理,反過來,它們也成為一個自然的實驗平臺,用來應用最初開發的方法來探測神經群體中的信息。在這項工作中,我們利用平均場理論流形分析,從計算神經科學的最新技術,從大規模語境嵌入模型分析語言表示的高維幾何。我們從不同的模型族(BERT, RoBERTa, GPT-2等)中探索表征,并找到跨層深度的語言流形出現的證據(例如詞性流形和組合范疇語法標簽)。我們進一步觀察到,不同的編碼方案用于獲取表示,導致這些語言流形出現在網絡的早期或后期層的差異。此外,我們發現這些流形中線性可分性的出現是由流形半徑、維數和流形間相關性的聯合減少所驅動的。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
主題: Multi-Agent Determinantal Q-Learning
摘要: 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行,但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中,我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP,這是一種將確定性點過程(DPP)擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式;這允許對聯合Q函數進行自然分解,而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN,QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本,我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中,我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法;與最新技術相比,我們算法的有效性得到了證明。
隨著機器學習模型越來越多地用于在醫療保健和刑事司法等高風險環境中幫助決策者,確保決策者(最終用戶)正確理解并信任這些模型的功能非常重要。我們將回顧了解模型的可解釋性和explainability的概念,詳細討論不同類型的可說明的模型(例如,基于原型方法,稀疏線性模型、基于規則的技術,廣義可加模型),事后解釋(黑箱解釋,包括反事實解釋和顯著性映射),并探索可解釋性與因果性、調試和公平性之間的聯系。可解釋機器學習這些應用可以極大地受益于模型的可解釋性,包括刑事司法和醫療保健。
深度和大型的預訓練語言模型是各種自然語言處理任務的最新技術。然而,這些模型的巨大尺寸可能會阻礙在實踐中使用它們。最近的一些并行工作使用知識蒸餾來將這些龐大的模型壓縮成小型模型。在這項工作中,我們以多語言命名實體識別(NER)為重點來研究知識蒸餾。特別地,我們研究了幾種提煉策略,并提出了一種利用教師內部表征的階段性優化方案,該方案不考慮教師體系結構,并證明其優于以往工作中所采用的策略。此外,我們還研究了幾個因素的作用,比如未標記數據的數量、注釋資源、模型架構和推理延遲等等。我們證明,我們的方法可以將類mbert教師模型的參數壓縮高達35倍,批量推理的延遲壓縮51倍,而NER超過41種語言的95%的f1分都保留下來。
機器學習模型在自然語言處理中的應用最近的進展是由評估各種任務模型的基準驅動的。然而,這些覆蓋范圍廣泛的基準測試主要局限于英語,盡管人們對多語言模型的興趣越來越大,但是仍然缺少一個基準測試來全面評估這些方法對各種語言和任務的影響。為此,我們引入了多語言編碼器XTREME基準的跨語言轉換評估,這是一個多任務基準,用于評估40種語言和9個任務的多語言表示的跨語言泛化能力。我們證明,雖然英語測試的模型在許多任務上達到了人類的表現,但在跨語言遷移模型的表現上仍然有相當大的差距,特別是在句法和句子檢索任務上。在不同的語言之間也有廣泛的結果。我們發布基準測試是為了鼓勵對跨語言學習方法的研究,這種方法可以將語言知識傳遞到不同的、有代表性的語言和任務中。
【導讀】越來越明顯的是,廣泛采用的機器學習模型可能導致歧視性結果,并可能加劇訓練數據之間的差異。隨著越來越多的機器學習用于現實世界中的決策任務,必須解決機器學習中的偏見和公平問題。我們的動機是,在各種新興方法中,表示學習為評估和潛在地減輕不公平現象提供了獨特的工具集。本教程介紹了現有的研究,并提出了在表示學習和公平的交集中存在的開放性問題。我們將研究學習公平任務不可知表示的可能性(不可能性),公平性和泛化性能之間的聯系,以及利用來自表示形式學習的工具來實現算法上的個人和群體公平性的機會。本教程旨在為廣大的機器學習實踐者提供幫助,并且必要的背景知識是預測性機器學習的工作知識。
作者介紹
Sanmi Koyejo,伊利諾伊大學香檳分校計算機科學系助理教授。
研究綜述: 我們的研究興趣是開發自適應魯棒機器學習的原理和實踐。最近的一些亮點包括:1)可伸縮的、分布式的和容錯的機器學習;2)度量引出;通過人機交互選擇更有效的機器學習指標。我們的應用研究主要集中在認知神經成像和生物醫學成像方面。最近的一些重點包括①生物圖像的生成模型,②時變腦電圖的估計和分析。
課程介紹
在人工智能、統計學、計算機系統、計算機視覺、自然語言處理和計算生物學等許多領域中的問題,都可以被視為從局部信息中尋找一致的全局結論。概率圖模型框架為這些普遍問題提供了統一的視角解決方案,支持在具有大量屬性和龐大數據集的問題中進行有效的推理、決策和學習。本研究生課程將為您運用圖模型到復雜的問題和解決圖模型的核心研究課題提供堅實的基礎。
課程大綱
講師:邢波
講師簡介
邢波,卡耐基梅隆大學教授,曾于2014年擔任國際機器學習大會(ICML)主席。主要研究興趣集中在機器學習和統計學習方法論及理論的發展,和大規模計算系統和架構的開發。他創辦了Petuum 公司,這是一家專注于人工智能和機器學習的解決方案研發的公司,騰訊曾投資了這家公司。
個人主頁: