自2012年AlexNet贏得ImageNet挑戰賽以來,深度神經網絡(DNN)在能力方面實現了數量級的飛躍。這一成功的主要推動力之一是大規模、高質量的精心構建的數據集的可用性。這類數據集(如ImageNet、MSCOCO等)通常通過人工方式在各類別之間進行均衡,以便模型能更好地學習所有類別。然而,這種構建過程代價高昂,往往需要舍棄寶貴的已標注樣本,以平衡類別分布。現實世界中的數據(如來自互聯網)分布與這些精心構建的數據集顯著不同,往往集中于常見類別,導致類別嚴重不平衡。
因此,專為理想數據設計的算法在處理這類“長尾不平衡”與分布偏移的現實數據時性能明顯下降。要拓展深度模型在現實中的應用,就必須擺脫依賴大量人工數據篩選的瓶頸,發展出能夠從真實世界的有限與不完美數據中學習的魯棒算法。
為達此目標,本論文提出了一系列實用的深度學習算法,使模型能夠從現實中的有限與不完美數據中學習。論文分為四個部分,分別對應四類典型的學習場景:
首先,我們評估了生成對抗網絡(GAN)在長尾數據集上的表現,發現現有GAN變體普遍存在模式崩潰(mode collapse)或類別生成遺漏的問題。為緩解這一現象,我們提出Class Balancing GAN with a Classifier in the Loop,通過引入分類器評估生成圖像的模式分布,并反饋引導GAN均衡地生成各類樣本。 進一步,我們發現GAN中的BatchNorm參數的譜范數爆炸與模式崩潰高度相關。于是提出Group Spectral Regularizer(gSR),一種低成本的正則化方法,有效抑制譜崩潰,并顯著提升SNGAN和BigGAN等主流條件GAN在長尾數據上的性能。但在大規模數據集上,gSR可能引入類別混淆。 為解決此問題,我們在最新工作NoisyTwins中設計了一種顯式建模的潛空間結構:為每個類別設定獨立的高斯分布,通過對比學習方法(BarlowTwins)同時增強類別一致性與類內多樣性,從而將高分辨率的StyleGAN成功擴展到ImageNet-LT和iNaturalist2019等千類長尾數據集上,并取得了SOTA表現。
雖然基于圖像生成可提升對尾類的分類性能,但訓練額外的生成模型成本較高。為此,我們探索了更輕量的手段,如對尾類加大損失權重(loss re-weighting)。但該策略易導致模型陷入鞍點(saddle point)而非收斂到最優點,從而影響泛化能力。 我們引入Sharpness-Aware Minimization(SAM)以誘導模型逃離鞍點,促使尾類也能如頭類一樣有效泛化。此外,訓練視覺Transformer(ViTs)在長尾分類任務中仍具挑戰,因其缺乏如局部感知等歸納偏置,訓練數據需求高。我們提出DeiT-LT,結合來自CNN的OOD蒸餾與低秩特征蒸餾,將CNN的魯棒性引入可擴展的ViT模型中。
上述方法均在監督學習框架下,避免丟棄已標注數據。而現實中,大量未標注數據的有效利用是關鍵。為此,我們構建了一種針對非可加性指標(如worst-case recall、H-mean recall)進行反饋學習的半監督學習框架。 我們提出Cost-Sensitive Self-Training(CSST),將傳統的自訓練方法(如FixMatch)推廣至長尾數據下,并具備理論保證與良好實證表現。在主流的“自監督預訓練 + 微調”范式中,我們還提出了SelMix,一種高效的微調方法,可用來優化非可加指標。SelMix放寬了“未標注數據分布與標注數據一致”的假設,增強模型對分布偏移的魯棒性。
長尾學習方法主要提升的是受限數據下的“內分布”泛化能力,但實際應用中,模型還需能在跨領域的場景下泛化。為此,我們提出子模集選擇的對抗性領域自適應方法,通過精挑細選少量目標域樣本用于標注,最大化模型性能提升。 進一步,為提高適應效率,我們引入Smooth Domain Adversarial Training(SDAT),該方法使模型收斂到更具泛化能力的“平滑最小值”,從而實現跨任務、跨領域的高效模型遷移。
總結:本論文系統探索了在真實世界中如何從有限與不完美數據中訓練深度神經網絡模型,涵蓋生成學習、判別學習、半監督學習與跨域遷移四大子方向,為深度模型的大規模實際部署提供了堅實算法基礎與方法論支撐。
創建規模日益龐大的數據集在深度學習的實際成功中起到了重要作用。然而,在許多現實場景中,高質量數據可能非常稀缺,導致深度學習的直接應用難以達到預期效果。大量先前研究試圖解決這一問題,以提高深度學習的數據效率。這類方法通常依賴于以下一種或多種高級策略:通過調整模型架構或訓練方式更有效地利用現有數據;主動控制數據生成過程,以優先獲取更有價值的數據;或利用其他間接相關任務的數據。在理想情況下,這些方法可以顯著提升深度學習在小數據環境下的表現。但即便如此,深度學習中的數據效率問題仍遠未解決,許多挑戰依然存在。 本論文提出并研究了四種不同的數據高效深度學習方法,通過質疑當前主流方法中的一些默認假設,推動了該領域的最新進展。 首先,我們提出了一種名為**非參數 Transformer(Non-Parametric Transformers, NPTs)的數據高效深度學習架構,它將整個數據集作為模型輸入。這一做法突破了傳統深度學習“單樣本輸入”的常規,使得 NPT 能夠通過直接推理樣本之間的交互關系來進行預測。NPT 在小規模結構化數據集(tabular datasets)上表現出色,而這是深度學習方法此前常常表現不佳的領域。 其次,我們將數據效率的關注點拓展至模型評估領域。盡管主動學習(active learning)方法可以減少訓練過程中所需的標簽數量,但評估階段的標注成本卻常被忽視,缺乏合理解釋。為此,我們提出了兩種不同的方法,通過僅主動標注具有信息量的樣本子集,構建出對模型性能的特化估計,從而實現標簽高效的模型評估。 第三,我們研究了上下文學習(In-Context Learning, ICL)**在大語言模型中學習標簽關系的能力。盡管已有大量文獻圍繞 ICL 是否真正利用標簽信息展開討論,我們的系統研究為這一問題提供了新的視角,揭示了 ICL 在標簽學習方面的潛力與局限性。
機器學習(ML)從業者正在部署數據中心級別的集群,以提供訓練和服務越來越大、更強大機器學習模型所需的巨大的計算資源。這些集群可以包含成百上千個專用加速器(例如,GPU),通過專用的高帶寬互聯(例如,NVLink、RoCE或InfiniBand)進行互聯。然而,繼續擴展機器學習系統的能力不僅僅需要加速機器學習的核心計算內核(例如,基于梯度的優化或推理執行)。它還需要擴展端到端的機器學習流水線,包括以足夠的速度存儲和處理艾字節級的數據,以滿足大規模機器學習工作負載的攝取需求。
本論文的重點是如何為端到端的機器學習訓練流水線構建數據系統。這些系統生成、存儲和處理數據,以支持數據中心級的機器學習訓練集群。因此,它們必須是可擴展的、高效的和安全的。首先,機器學習數據系統需要具備可擴展性;它們不僅需要存儲艾字節級的數據,還需要提供足夠的攝取吞吐量,以確保加速器不會因為輸入數據的延遲而被阻塞。雖然擴展性可以消除因訓練加速器未充分利用而產生的數據停頓,但僅僅將運行在通用存儲設備和CPU上的數據系統擴展以滿足專用加速器的巨大數據需求,可能需要龐大的數據中心容量。因此,確保端到端機器學習數據流水線中的系統高效運行至關重要,從而使得整體的機器學習基礎設施能夠繼續擴展。最后,機器學習模型現在廣泛部署在用戶面向的應用程序中,從社交媒體到電子商務。因此,機器學習數據系統必須具備安全性,以保護最終用戶的敏感數據。
我們首先旨在理解端到端機器學習訓練流水線的系統瓶頸和設計空間,重點關注深度學習推薦模型(DLRM)訓練工作負載,因為它們對數據的需求極大,并且在現代網絡應用程序中非常普遍。為此,我們首先提出了一項研究,首次探索了構成機器學習數據存儲和攝取流水線的系統,重點是超大規模數據中心Meta。我們提出了分布式存儲和數據處理系統的必要性,以防止訓練數據的停頓。接著,我們展示并描述了支持Meta數據中心級DLRM訓練集群的各種數據系統——批處理引擎、分布式文件系統和分散的預處理系統。然而,簡單的分離存儲并不足夠,因為存儲和預處理可能消耗比實際GPU本身多出2倍以上的資源。為了應對這一挑戰,我們將我們的特征描述提煉為可行的研究機會,以構建更高效的數據系統。
基于這些機會,我們接下來展示了Meta部署的兩個項目,以提高DLRM數據系統的效率。首先,Tectonic-Shift解決了高效存儲艾字節級訓練數據集的挑戰。傳統上,數據集存儲在一個名為Tectonic的硬盤(HDD)支持的分布式文件系統中,這對于以讀為主的機器學習訓練作業提供了較差的I/O效率。為了提高Tectonic的I/O效率,我們構建了一個名為Shift的Flash緩存層。Shift智能地利用訓練作業規格提供的預測信息,將數據集中的熱門部分緩存到I/O高效的SSD中,從而將數據集所需的存儲資源減少了29%。其次,我們展示了如何利用數據本身的表示來提高端到端訓練系統效率,在一個名為RecD的項目中,RecD利用了深度學習推薦模型數據集在訓練樣本之間存在大量重復特征值的洞察——在Meta的數據集中,最多有89%的字節是重復的。RecD是一套互相關聯的優化方案,涉及數據生成、存儲、預處理和訓練系統,通過去重減少了由于重復值帶來的系統開銷。因此,RecD分別提高了存儲、預處理和訓練效率,提升幅度分別為3.71倍、1.79倍和2.48倍。 雖然這些工作優化了Meta DLRM訓練流水線的效率,但將效率優化擴展到各個領域,從語言到視覺也是非常重要的。為了減輕在各個領域和機器學習流水線中導航復雜系統優化空間的負擔,我們引入了cedar。cedar允許機器學習從業者使用通用和可組合的運算符庫,輕松定義端到端的機器學習數據預處理作業。然后,cedar系統地應用多種性能優化,以高效地將作業執行,并為訓練加速器提供數據流。在此過程中,cedar能夠將機器學習預處理性能提高最多1.87倍到10.65倍,超越現有最先進的機器學習數據系統。 最后,我們解決了在機器學習數據流水線中保護敏感用戶數據的挑戰。當前的硬件安全機制,例如英特爾的SGX或NVIDIA的保密計算,能夠在處理過程中強制執行數據機密性和完整性保證。然而,這些當前的解決方案并未涵蓋整個流水線,并且無法強制執行存儲層所需的豐富安全屬性,例如GDPR。幸運的是,FPGA越來越多地被部署到數據中心基礎設施中,以加速存儲和網絡等操作。我們構建了ShEF,一個開源框架,使得加速器設計者能夠在這些FPGA中構建、定制和部署受信執行環境(TEEs)。我們展示了如何通過ShEF在分布式、FPGA啟用的存儲節點上創建一個加密的、符合GDPR的存儲層。因此,ShEF能夠實現高吞吐量和安全的分布式存儲,邁出了保護端到端機器學習數據流水線安全的重大步伐。ShEF還提供了關于如何為現代數據中心加速器(不僅僅是FPGA)構建受信執行環境的寶貴經驗。
近年來,語言模型(Language Models, LMs)在多種自然語言處理(NLP)任務中取得了顯著進展。然而,這些模型的學習能力與人類之間仍存在明顯差距。其中一個主要區別在于學習的效率與靈活性。人類可以通過少量帶標簽的樣本迅速掌握新概念,并能在一生中持續學習新任務而不會遺忘先前獲得的知識。相比之下,語言模型通常需要大量數據才能實現有效泛化,并在適應新任務或不同數據分布時容易出現災難性遺忘(catastrophic forgetting)的問題,即忘記之前已學到的知識。
本論文聚焦于解決這些挑戰,圍繞人類類學習(human-like learning)的兩個核心方面展開研究:(1) 小樣本學習(few-shot learning),即語言模型需能從有限的標簽數據中有效泛化;(2) 持續(終身)學習(continual/lifelong learning),即模型在連續任務中學習時能夠保留并積累知識。圍繞這兩個目標,我們提出了一系列新穎的框架與學習算法,旨在使語言模型成為更高效、類人化的學習者,能夠從少量樣本中學習并適應不斷變化的數據分布,同時避免災難性遺忘。
首先,我們提出了**元提示調優(Meta Prompt Tuning, MPT)**方法,該方法通過從相關任務中學習提示向量的初始化,系統探索了元學習(meta-learning)在提升跨任務小樣本泛化中的潛力。通過大量實驗與分析,我們驗證了MPT在多種源任務/目標任務配置下的有效性與局限性。
接下來,我們研究了**終身序列生成(Lifelong Sequence Generation, LSG)問題,即在一系列生成任務中持續訓練模型,使其能夠不斷學習新模式的同時保留先前任務中的知識。受人類學習過程啟發,我們提出了動態模塊擴展與自適應(Dynamic Module Expansion and Adaptation, DMEA)**框架,使模型能夠根據任務間相關性動態調整結構,并選擇最相關的先前任務以輔助新任務的適應。
在此基礎上,我們進一步挑戰更復雜且更現實的學習場景:持續小樣本學習(Continual Few-Shot Learning)。在該場景下,模型不僅需從少量樣本中學習新任務,還需適應任務序列的不斷演化,貼近人類增量式學習過程。鑒于關系抽取(relation extraction)是眾多NLP下游任務的基礎,我們提出了**持續小樣本關系學習(Continual Few-shot Relation Learning, CFRL)問題,并通過嵌入空間正則化與數據增強(Embedding space Regularization and Data Augmentation, ERDA)**方法進行解決。
最后,考慮到當前語言模型在處理多種任務方面已具備強大能力,我們提出了一種新的學習范式:終身小樣本語言學習(Lifelong Few-shot Language Learning, LFLL),并構建了統一框架LFPT5,該框架基于提示調優(prompt tuning),能夠靈活適應新類型任務或新領域,同時保留已學知識。
本論文在提升語言模型學習效率、靈活性與適應性方面做出重要貢獻,使其更適用于數據稀缺、不斷演化的現實應用環境。通過融合小樣本學習與持續學習的研究進展,我們朝著構建不僅性能優異且認知能力更接近人類的語言模型邁出了堅實一步。最終,本研究表明,語言模型可以成為更穩健、多能、適應性更強的學習體,不再依賴大規模標注數據,而是邁向一種更類人、更智能的學習范式。
在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。
在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。
//pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf 深度神經網絡在人工智能各個領域取得了顯著的成功。其成功的關鍵因素之一是它們從數據中學習有效特征表示的能力,這使得它們與傳統的機器學習方法有所不同。本論文探討了特征學習在神經網絡訓練中的出現,并展示了其在基礎模型適應下游應用中的關鍵作用。
首先,我們提供了關于神經網絡中特征學習出現的理論見解。我們展示了網絡在早期訓練階段可以使用最小的參數有效地學習與類別相關的模式,從而避免了傳統方法中常見的維度災難。我們的分析揭示了這一能力來源于網絡能夠利用輸入數據的固有結構。我們為通過梯度下降訓練的兩層網絡開發了一個統一的分析框架,刻畫了特征學習如何超越核方法進行發生。我們將研究擴展到Transformer架構,分析了單層Transformer中的傅里葉特征,并揭示了模型規模與上下文學習行為之間的關系。我們的研究發現,較大的模型覆蓋了更多的隱藏特征,而較小的模型則強調重要特征,導致了不同的上下文學習行為。 基于這些理論見解,我們為基礎模型開發了實際應用。我們引入了核范數正則化以提高領域泛化能力,展示了在各種任務中一致的性能提升。我們通過一種新型正則化方法解決了對比學習中普適性和標簽效率之間的權衡問題。此外,我們提出了回環Transformer,用于實現多步梯度下降的上下文學習,并開發了GemFilter算法,利用早期層的注意力特征來加速大型語言模型推理。 本論文推動了我們對神經網絡中特征學習的理解,并提供了改善基礎模型性能的實際方法,從而開發出更高效、更有效的機器學習系統。**
深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。
為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。
我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。
語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。
在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。
在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。
接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。
雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。
聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。
本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf