這個演講概述了為什么自監督學習是醫療人工智能中一些重大轉化挑戰的關鍵解決方案,并涵蓋了我的團隊最近在這個領域的一些研究工作。
從有限的標記數據中學習是機器學習的一個基本問題,對醫學圖像進行標注費時且昂貴,因此對醫學圖像的分析至關重要。從有限的標記數據中學習的兩種常見預訓練方法包括:(1)在大型標記數據集(如ImageNet)上進行監督預訓練,(2)在未標記數據上使用對比學習(如[16,8,9])進行自監督預訓練。在預訓練后,對感興趣的目標標記數據集進行監督微調。雖然ImageNet預訓練在醫學圖像分析中無處不在[46,32,31,29,15,20],但自監督方法的使用受到的關注有限。自監督方法很有吸引力,因為它們能夠在預訓練期間使用未標記的特定領域圖像來學習更相關的表示。
醫學人工智能(AI)的最新進展已經交付了可以達到臨床專家水平性能的系統。然而,當在不同于訓練環境的臨床環境中進行評估時,這種系統往往表現出次優的“分布外”性能。一種常見的緩解策略是使用特定位點數據[1]為每個臨床環境開發單獨的系統。然而,這很快就變得不切實際,因為獲取醫療數據非常耗時,并且注釋[2]的成本很高。因此,"數據高效泛化"問題為醫療人工智能的發展帶來了持續的困難。盡管表示學習的進展顯示出了希望,但其好處尚未得到嚴格研究,特別是在分布外的情況下。為應對這些挑戰,本文提出補救策略,一種統一的表示學習策略,以提高醫學成像AI的魯棒性和數據效率。REMEDIS使用了大規模監督遷移學習與自監督學習的通用組合,幾乎不需要針對特定任務的定制。研究了各種各樣的醫學成像任務,并使用回顧性數據模擬了三個現實的應用場景。remedy表現出顯著改善的分布性能,與強監督基線相比,診斷準確性相對提高了11.5%。更重要的是,該策略實現了醫學成像AI強大的數據高效泛化,使用1%到33%的跨任務再訓練數據匹配強監督基線。這些結果表明,補救可以顯著加快醫學成像AI發展的生命周期,從而為醫學成像AI帶來廣泛影響邁出了重要一步。
預訓練語言模型(PLMs)是在大規模語料庫上以自監督方式進行預訓練的語言模型。在過去的幾年中,這些PLM從根本上改變了自然語言處理社區。**在本教程中,我們旨在從兩個角度提供廣泛而全面的介紹:為什么這些PLM有效,以及如何在NLP任務中使用它們。**本教程的第一部分對PLM進行了一些有見地的分析,部分解釋了PLM出色的下游性能。第二部分首先關注如何將對比學習應用于PLM,以改進由PLM提取的表示,然后說明如何在不同情況下將這些PLM應用于下游任務。這些情況包括在數據稀缺的情況下對PLM進行微調,以及使用具有參數效率的PLM。我們相信,不同背景的與會者會發現本教程內容豐富和有用。
//d223302.github.io/AACL2022-Pretrain-Language-Model-Tutorial/
近年來,基于深度學習的自然語言處理(NLP)已經成為主流研究,比傳統方法有了顯著改進。在所有深度學習方法中,在感興趣的下游任務上微調自監督預訓練語言模型(PLM)已經成為NLP任務中的標準流程。自ELMo (Peters等人,2018年)和BERT (Devlin等人,2019年)于2018年提出以來,從PLM微調的模型在各種任務中占據了許多排行榜,包括問答、自然語言理解、自然語言推理、機器翻譯和句子相似度。除了將PLM應用于各種下游任務之外,許多人一直在深入了解PLM的屬性和特征,包括PLM表示中編碼的語言知識,以及PLM在預訓練期間獲得的事實知識。雖然PLM第一次被提出已經三年了,但與PLM相關的研究并沒有衰退的跡象。
有兩個教程專注于自監督學習/ PLM:一個是NAACL 2019的教程(Ruder等人,2019),另一個是AACL 20201的教程。然而,考慮到該領域不斷發展的性質,可以想象plm的研究已經取得了重大進展。具體來說,與2019年plm主要由科技巨頭持有并用于科學研究相比,如今的PLM被具有不同硬件基礎設施和數據量的用戶更廣泛地應用于各種現實場景中,從而提出了以前從未出現過的問題。已經取得了實質性的進展,包括對PLM的有效性和新的培訓范式的可能答案,以使plm更好地部署在更現實的環境中。因此,我們認為通過一個組織良好的教程將PLM的最新進展告知NLP社區是必要和及時的。本教程分為兩個部分:為什么PLM工作和PLM如何工作。表1總結了本教程將涉及的內容。本教程旨在促進NLP社區的研究人員對近年來PLM進展有一個更全面的看法,并將這些新出現的技術應用于他們感興趣的領域。
教程結構預訓練語言模型是在大規模語料庫上以自監督方式進行預訓練的語言模型。傳統的自監督預訓練任務主要涉及恢復損壞的輸入句子,或自回歸語言建模。在對這些PLM進行預訓練后,可以對下游任務進行微調。按照慣例,這些微調協議包括在PLM之上添加一個線性層,并在下游任務上訓練整個模型,或將下游任務表述為句子補全任務,并以seq2seq的方式微調下游任務。在下游任務上對PLM進行微調通常會帶來非凡的性能提升,這就是plm如此受歡迎的原因。在教程的第一部分(估計40分鐘)中,我們將總結一些發現,這些發現部分解釋了為什么PLM會導致出色的下游性能。其中一些結果幫助研究人員設計了更好的預訓練和微調方法。在第二部分(估計2小時20分鐘)中,我們將介紹如何預訓練和微調PLM的最新進展;本部分中介紹的新技術已經被證明在實現卓越性能的同時,在硬件資源、訓練數據和模型參數方面帶來了顯著的效率。
深度學習在各個領域的顯著成功依賴于大規模注釋數據集的可用性。然而,使用人工生成的注釋會導致模型有偏差學習、領域泛化能力差和魯棒性差。獲取注釋也很昂貴,需要付出很大的努力,這對視頻來說尤其具有挑戰性。作為另一種選擇,自監督學習提供了一種不需要注釋的表示學習方法,在圖像和視頻領域都顯示出了前景。與圖像域不同,學習視頻表示更具有挑戰性,因為時間維度,引入了運動和其他環境動力學。這也為在視頻和多模態領域推進自監督學習的獨家想法提供了機會**。在這項綜述中,我們提供了一個現有的方法在視頻領域的自監督學習重點。**我們根據它們的學習目標將這些方法總結為三種不同的類別: 1) 文本預置任務,2) 生成式建模,和 3)對比學習。這些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我們進一步介紹了常用的數據集、下游評估任務、現有工作的局限性以及該領域未來的潛在方向。
對大規模標記樣本的要求限制了深度網絡在數據有限且標注困難的問題上的使用,例如醫學成像Dargan et al. [2020]。雖然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大規模標記數據集上進行預訓練確實能提高性能,但這種方法存在一些缺陷,如注釋成本Yang et al. [2017], Cai et al. [2021],注釋偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏魯棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自監督學習(SSL)已經成為預訓練深度模型的一種成功方法,以克服其中一些問題。它是一種很有前途的替代方案,可以在大規模數據集上訓練模型,而不需要標記Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些來自訓練樣本本身的學習目標來訓練模型。然后,這個預訓練的模型被用作目標數據集的初始化,然后使用可用的標記樣本對其進行微調。圖1顯示了這種方法的概覽。
深度學習是人工智能的一個分支學科,它使用一種名為人工神經網絡的機器學習技術,從大型數據集中提取模式并做出預測。深度學習在醫療保健領域的日益普及,以及高度特征的癌癥數據集的可用性,加速了深度學習在復雜癌癥生物學分析中的應用研究。雖然早期的結果很有希望,但這是一個快速發展的領域,癌癥生物學和深度學習領域都出現了新知識。在這篇綜述中,我們概述了新興的深度學習技術以及它們是如何應用于腫瘤學的。我們專注于組學數據類型的深度學習應用,包括基因組、甲基化和轉錄組數據,以及基于組織病理學的基因組推斷,并提供了如何集成不同數據類型以開發決策支持工具的觀點。我們提供了具體的例子,如何深度學習可以應用于癌癥診斷,預后和治療管理。我們還評估了深度學習在精確腫瘤學中的應用目前的局限性和挑戰,包括缺乏表型豐富的數據和需要更多解釋的深度學習模型。最后,我們討論了如何克服目前的障礙,從而使深度學習在未來的臨床應用成為可能。
人工智能(AI)包含多種技術,其共同目標是計算模擬人類智能。機器學習(ML)是人工智能的一個分支,專注于通過使用數學算法識別數據中的模式來進行預測。深度學習(DL)是ML的一個亞組,專注于利用受大腦神經結構啟發的多層神經網絡算法進行預測。與其他ML方法(如邏輯回歸)相比,DL的神經網絡架構使模型能夠隨著數據[1]的數量和維數的增長呈指數級伸縮。這使得DL特別適用于解決復雜的計算問題,如大規模圖像分類、自然語言處理、語音識別和翻譯[1]。
由于包括基因組、轉錄組和組織病理學數據在內的多種數據類型的可用性和整合性不斷增加,癌癥護理正在向精準醫療轉變(圖1)。用于轉化研究或臨床任務的多種高維數據類型的使用和解釋需要大量的時間和專業知識。此外,多個數據類型的集成比單個數據類型的解釋更占用資源,并且需要能夠從大量復雜特征中學習的建模算法。使用ML算法來自動化這些任務并幫助癌癥檢測(識別癌癥的存在)和診斷(表征癌癥)已經變得越來越普遍[2,3]。令人興奮的是,DL模型有潛力利用這種復雜性來提供有意義的見解,并從多種數據類型中識別相關的粒度特征[4,5]。本文綜述了深度學習在癌癥診斷、預后和治療選擇方面的最新應用。我們專注于組學和組織病理學數據的DL應用,以及多種數據類型的集成。我們提供了一個簡短的介紹新興DL方法相關的應用程序涵蓋在這一綜述。接下來,我們將討論DL在腫瘤學中的具體應用,包括腫瘤起源檢測、分子亞型鑒定、預后和生存能力預測、基因組性狀的組織學推斷、腫瘤微環境分析以及未來在空間轉錄組學、宏基因組學和藥物基因組學中的應用。我們總結了目前的挑戰和潛在的策略,使DL在臨床環境中常規應用。
無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。
盡管深度網絡在計算機視覺方面取得了實驗性成功,但它們往往需要“大的”和高質量標記的訓練數據。當被運用于研究真實視覺世界中的復雜問題時,它們的性能是有限的,因為數據和標簽的獲取是非常昂貴的,或者可能以各種噪聲、弱或長尾的形式出現。例如,收集許多科學和工程學科(天文學、材料科學、地球科學、醫學等)的圖像數據往往依賴于昂貴和高風險的實驗。此外,在這些應用中,數據標簽的操作也很繁瑣,需要高技能的專業人員,這給使用一些具有成本效益的解決方案(如眾包)帶來了挑戰。此外,對于專有或敏感數據,使用眾包來大規模標記數據往往是不可行的。更糟糕的是,當經過訓練的模型面臨操作環境的變化,需要進行調整時,總是需要額外的標簽。對于許多問題,使模型適應新環境所需的標記數據接近從頭訓練所需的數量。因此,當系統表現出非平穩特性或在不同的環境中運行時,也需要連續的數據和標簽收集。
在CVPR2021本教程中,來自Google大腦的Chen Ting講述了自監督視覺表示學習中的關鍵技術-對比學習要點,非常值得關注!
自監督學習快速概覽
對比學習, Contrastive learning
對比學習的關鍵要素 What matters in contrastive learning
面臨少樣本如何處理 How to do better with a few labels
對比學習限制要素, What is limiting contrastive learning
自監督學習(Self-Supervised learning, SSL)是近年來機器學習研究的熱點之一。在SSL中,學習模型捕獲輸入變量之間的依賴關系,其中一些可能被觀察到,記為X,而另一些不總是被觀察到,記為Y。SSL預訓練已經徹底改變了自然語言處理,并在語音和圖像識別方面取得了非常快的進展。SSL可以使機器通過觀察學習世界的預測模型,并學習感知世界的表示,從而減少標記樣本或獎勵試驗的數量,以學習下游任務。在基于能量的模型框架(EBM)中,X和Y都是輸入,模型輸出一個度量X和Y之間不兼容程度的標量能量。EBM是隱式函數,可以表示X和Y之間復雜和多模態的依賴關系。EBM架構主要分為兩類:聯合嵌入架構和潛在變量生成架構。訓練EBMs的方法主要有兩類: 對比方法和容量正則化方法。EBM的許多基礎數學借鑒自統計物理學,包括配分函數、自由能量和其變分逼近的概念。
【導讀】Yann Lecun在紐約大學開設的2020春季《深度學習》課程,干貨滿滿。最新的一期是來自Facebook AI的研究科學家Ishan Misra講述了計算機視覺中的自監督學習最新進展,108頁ppt,很不錯報告。
在過去的十年中,許多不同的計算機視覺問題的主要成功方法之一是通過對ImageNet分類進行監督學習來學習視覺表示。并且,使用這些學習的表示,或學習的模型權值作為其他計算機視覺任務的初始化,在這些任務中可能沒有大量的標記數據。
但是,為ImageNet大小的數據集獲取注釋是非常耗時和昂貴的。例如:ImageNet標記1400萬張圖片需要大約22年的人類時間。
因此,社區開始尋找替代的標記過程,如社交媒體圖像的hashtags、GPS定位或自我監督方法,其中標簽是數據樣本本身的屬性。
什么是自監督學習?
定義自我監督學習的兩種方式:
基礎監督學習的定義,即網絡遵循監督學習,標簽以半自動化的方式獲得,不需要人工輸入。
預測問題,其中一部分數據是隱藏的,其余部分是可見的。因此,其目的要么是預測隱藏數據,要么是預測隱藏數據的某些性質。
自監督學習與監督學習和非監督學習的區別:
監督學習任務有預先定義的(通常是人為提供的)標簽,
無監督學習只有數據樣本,沒有任何監督、標記或正確的輸出。
自監督學習從給定數據樣本的共現形式或數據樣本本身的共現部分派生出其標簽。
自然語言處理中的自監督學習
Word2Vec
給定一個輸入句子,該任務涉及從該句子中預測一個缺失的單詞,為了構建文本前的任務,該任務特意省略了該單詞。
因此,這組標簽變成了詞匯表中所有可能的單詞,而正確的標簽是句子中省略的單詞。
因此,可以使用常規的基于梯度的方法對網絡進行訓練,以學習單詞級表示。
為什么自監督學習
自監督學習通過觀察數據的不同部分如何交互來實現數據的學習表示。從而減少了對大量帶注釋數據的需求。此外,可以利用可能與單個數據樣本相關聯的多個模式。
計算機視覺中的自我監督學習
通常,使用自監督學習的計算機視覺管道涉及執行兩個任務,一個前置任務和一個下游任務。
下游任務可以是任何類似分類或檢測任務的任務,但是沒有足夠的帶注釋的數據樣本。
Pre-text task是為學習視覺表象而解決的自監督學習任務,其目的是利用所學習的表象,或下游任務在過程中獲得的模型權值。
發展Pre-text任務
針對計算機視覺問題的文本前任務可以使用圖像、視頻或視頻和聲音來開發。
在每個pre-text任務中,都有部分可見和部分隱藏的數據,而任務則是預測隱藏的數據或隱藏數據的某些屬性。
下載鏈接: 鏈接: //pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取碼: ek7i