隨著不同形式的世界模型的出現,“知識感知”學習正在成為語言學習的一個重要研究領域。?OOD泛化、ML安全性和數據效率是全面評估我們在ML管道中利用這些預先訓練模型的效果的關鍵軸。?當使用不同的“先驗”時,我們需要新的理論工具來精確地描述這些軸之間的權衡。?知識是“不完整的”——用我們的經驗適當地增強世界模型對實現閉環系統至關重要。?不確定性估計和模型可靠性描述是模型設計和優化的一個組成部分。
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多DSAA參與者來說越來越重要。
//metalearningacademy.github.io/tutorial/
人類可以從很少的例子中非常有效地學習,因為我們幾乎不會從頭開始學習新的任務,而是利用我們以前學過的所有東西。元學習在許多不同的方面模仿了這種方法。本教程涵蓋了元學習領域中當前技術狀態下的關鍵方法。
GPT-3: Few-Shot Learning with a Giant Language Model
最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。
//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml
生成式模型是以圖模型和概率編程語言中的概率推理的重要范式。神經網絡對這些模型的參數化和基于梯度的隨機優化技術的進步使得高維數據的可擴展建模成為可能。
本教程的前半部分將全面回顧深度生成模型的主要家族,包括生成對抗網絡、變分自編碼器、標準化流和自回歸模型。對于每一個模型,我們將討論概率公式,學習算法,以及與其他模型的關系。本教程的后半部分將演示在科學發現中使用深度生成模型的方法,例如材料和藥物發現、壓縮感知等等。最后,我們將討論該領域目前的挑戰和未來研究的前景。
//dl4sci-school.lbl.gov/agenda
Andrew Gordon Wilson,紐約大學Courant數學科學研究所和數據科學中心助理教授,曾擔任AAAI 2018、AISTATS 2018、UAI 2018、NeurIPS 2018、AISTATS 2019、ICML 2019、UAI 2019、NeurIPS 2019、AAAI 2020、ICLR 2020的區域主席/SPC以及ICML 2019、2020年EXO主席。 個人主頁://cims.nyu.edu/~andrewgw/
貝葉斯深度學習與概率模型構建
貝葉斯方法的關鍵區別屬性是間隔化,而不是使用單一的權重設置。貝葉斯間隔化尤其可以提高現代深度神經網絡的準確性和標度,這些數據通常不充分指定,并可以代表許多引人注目但不同的解決方案。研究表明,深層的綜合系統提供了一種有效的近似貝葉斯間隔化機制,并提出了一種相關的方法,在沒有顯著開銷的情況下,通過在吸引 basins 內間隔化來進一步改進預測分布。我們還研究了神經網絡權值的模糊分布所隱含的先驗函數,從概率的角度解釋了這些模型的泛化特性。從這個角度出發,我們解釋了一些神秘而又不同于神經網絡泛化的結果,比如用隨機標簽擬合圖像的能力,并表明這些結果可以用高斯過程重新得到。我們還表明貝葉斯平均模型減輕了雙下降,從而提高了靈活性,提高了單調性能。最后,我們提供了一個貝葉斯角度的調溫校正預測分布。
視頻地址:
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。