機器學習(ML)從業者正在部署數據中心級別的集群,以提供訓練和服務越來越大、更強大機器學習模型所需的巨大的計算資源。這些集群可以包含成百上千個專用加速器(例如,GPU),通過專用的高帶寬互聯(例如,NVLink、RoCE或InfiniBand)進行互聯。然而,繼續擴展機器學習系統的能力不僅僅需要加速機器學習的核心計算內核(例如,基于梯度的優化或推理執行)。它還需要擴展端到端的機器學習流水線,包括以足夠的速度存儲和處理艾字節級的數據,以滿足大規模機器學習工作負載的攝取需求。
本論文的重點是如何為端到端的機器學習訓練流水線構建數據系統。這些系統生成、存儲和處理數據,以支持數據中心級的機器學習訓練集群。因此,它們必須是可擴展的、高效的和安全的。首先,機器學習數據系統需要具備可擴展性;它們不僅需要存儲艾字節級的數據,還需要提供足夠的攝取吞吐量,以確保加速器不會因為輸入數據的延遲而被阻塞。雖然擴展性可以消除因訓練加速器未充分利用而產生的數據停頓,但僅僅將運行在通用存儲設備和CPU上的數據系統擴展以滿足專用加速器的巨大數據需求,可能需要龐大的數據中心容量。因此,確保端到端機器學習數據流水線中的系統高效運行至關重要,從而使得整體的機器學習基礎設施能夠繼續擴展。最后,機器學習模型現在廣泛部署在用戶面向的應用程序中,從社交媒體到電子商務。因此,機器學習數據系統必須具備安全性,以保護最終用戶的敏感數據。
我們首先旨在理解端到端機器學習訓練流水線的系統瓶頸和設計空間,重點關注深度學習推薦模型(DLRM)訓練工作負載,因為它們對數據的需求極大,并且在現代網絡應用程序中非常普遍。為此,我們首先提出了一項研究,首次探索了構成機器學習數據存儲和攝取流水線的系統,重點是超大規模數據中心Meta。我們提出了分布式存儲和數據處理系統的必要性,以防止訓練數據的停頓。接著,我們展示并描述了支持Meta數據中心級DLRM訓練集群的各種數據系統——批處理引擎、分布式文件系統和分散的預處理系統。然而,簡單的分離存儲并不足夠,因為存儲和預處理可能消耗比實際GPU本身多出2倍以上的資源。為了應對這一挑戰,我們將我們的特征描述提煉為可行的研究機會,以構建更高效的數據系統。
基于這些機會,我們接下來展示了Meta部署的兩個項目,以提高DLRM數據系統的效率。首先,Tectonic-Shift解決了高效存儲艾字節級訓練數據集的挑戰。傳統上,數據集存儲在一個名為Tectonic的硬盤(HDD)支持的分布式文件系統中,這對于以讀為主的機器學習訓練作業提供了較差的I/O效率。為了提高Tectonic的I/O效率,我們構建了一個名為Shift的Flash緩存層。Shift智能地利用訓練作業規格提供的預測信息,將數據集中的熱門部分緩存到I/O高效的SSD中,從而將數據集所需的存儲資源減少了29%。其次,我們展示了如何利用數據本身的表示來提高端到端訓練系統效率,在一個名為RecD的項目中,RecD利用了深度學習推薦模型數據集在訓練樣本之間存在大量重復特征值的洞察——在Meta的數據集中,最多有89%的字節是重復的。RecD是一套互相關聯的優化方案,涉及數據生成、存儲、預處理和訓練系統,通過去重減少了由于重復值帶來的系統開銷。因此,RecD分別提高了存儲、預處理和訓練效率,提升幅度分別為3.71倍、1.79倍和2.48倍。 雖然這些工作優化了Meta DLRM訓練流水線的效率,但將效率優化擴展到各個領域,從語言到視覺也是非常重要的。為了減輕在各個領域和機器學習流水線中導航復雜系統優化空間的負擔,我們引入了cedar。cedar允許機器學習從業者使用通用和可組合的運算符庫,輕松定義端到端的機器學習數據預處理作業。然后,cedar系統地應用多種性能優化,以高效地將作業執行,并為訓練加速器提供數據流。在此過程中,cedar能夠將機器學習預處理性能提高最多1.87倍到10.65倍,超越現有最先進的機器學習數據系統。 最后,我們解決了在機器學習數據流水線中保護敏感用戶數據的挑戰。當前的硬件安全機制,例如英特爾的SGX或NVIDIA的保密計算,能夠在處理過程中強制執行數據機密性和完整性保證。然而,這些當前的解決方案并未涵蓋整個流水線,并且無法強制執行存儲層所需的豐富安全屬性,例如GDPR。幸運的是,FPGA越來越多地被部署到數據中心基礎設施中,以加速存儲和網絡等操作。我們構建了ShEF,一個開源框架,使得加速器設計者能夠在這些FPGA中構建、定制和部署受信執行環境(TEEs)。我們展示了如何通過ShEF在分布式、FPGA啟用的存儲節點上創建一個加密的、符合GDPR的存儲層。因此,ShEF能夠實現高吞吐量和安全的分布式存儲,邁出了保護端到端機器學習數據流水線安全的重大步伐。ShEF還提供了關于如何為現代數據中心加速器(不僅僅是FPGA)構建受信執行環境的寶貴經驗。
自2012年AlexNet贏得ImageNet挑戰賽以來,深度神經網絡(DNN)在能力方面實現了數量級的飛躍。這一成功的主要推動力之一是大規模、高質量的精心構建的數據集的可用性。這類數據集(如ImageNet、MSCOCO等)通常通過人工方式在各類別之間進行均衡,以便模型能更好地學習所有類別。然而,這種構建過程代價高昂,往往需要舍棄寶貴的已標注樣本,以平衡類別分布。現實世界中的數據(如來自互聯網)分布與這些精心構建的數據集顯著不同,往往集中于常見類別,導致類別嚴重不平衡。
因此,專為理想數據設計的算法在處理這類“長尾不平衡”與分布偏移的現實數據時性能明顯下降。要拓展深度模型在現實中的應用,就必須擺脫依賴大量人工數據篩選的瓶頸,發展出能夠從真實世界的有限與不完美數據中學習的魯棒算法。
為達此目標,本論文提出了一系列實用的深度學習算法,使模型能夠從現實中的有限與不完美數據中學習。論文分為四個部分,分別對應四類典型的學習場景:
首先,我們評估了生成對抗網絡(GAN)在長尾數據集上的表現,發現現有GAN變體普遍存在模式崩潰(mode collapse)或類別生成遺漏的問題。為緩解這一現象,我們提出Class Balancing GAN with a Classifier in the Loop,通過引入分類器評估生成圖像的模式分布,并反饋引導GAN均衡地生成各類樣本。 進一步,我們發現GAN中的BatchNorm參數的譜范數爆炸與模式崩潰高度相關。于是提出Group Spectral Regularizer(gSR),一種低成本的正則化方法,有效抑制譜崩潰,并顯著提升SNGAN和BigGAN等主流條件GAN在長尾數據上的性能。但在大規模數據集上,gSR可能引入類別混淆。 為解決此問題,我們在最新工作NoisyTwins中設計了一種顯式建模的潛空間結構:為每個類別設定獨立的高斯分布,通過對比學習方法(BarlowTwins)同時增強類別一致性與類內多樣性,從而將高分辨率的StyleGAN成功擴展到ImageNet-LT和iNaturalist2019等千類長尾數據集上,并取得了SOTA表現。
雖然基于圖像生成可提升對尾類的分類性能,但訓練額外的生成模型成本較高。為此,我們探索了更輕量的手段,如對尾類加大損失權重(loss re-weighting)。但該策略易導致模型陷入鞍點(saddle point)而非收斂到最優點,從而影響泛化能力。 我們引入Sharpness-Aware Minimization(SAM)以誘導模型逃離鞍點,促使尾類也能如頭類一樣有效泛化。此外,訓練視覺Transformer(ViTs)在長尾分類任務中仍具挑戰,因其缺乏如局部感知等歸納偏置,訓練數據需求高。我們提出DeiT-LT,結合來自CNN的OOD蒸餾與低秩特征蒸餾,將CNN的魯棒性引入可擴展的ViT模型中。
上述方法均在監督學習框架下,避免丟棄已標注數據。而現實中,大量未標注數據的有效利用是關鍵。為此,我們構建了一種針對非可加性指標(如worst-case recall、H-mean recall)進行反饋學習的半監督學習框架。 我們提出Cost-Sensitive Self-Training(CSST),將傳統的自訓練方法(如FixMatch)推廣至長尾數據下,并具備理論保證與良好實證表現。在主流的“自監督預訓練 + 微調”范式中,我們還提出了SelMix,一種高效的微調方法,可用來優化非可加指標。SelMix放寬了“未標注數據分布與標注數據一致”的假設,增強模型對分布偏移的魯棒性。
長尾學習方法主要提升的是受限數據下的“內分布”泛化能力,但實際應用中,模型還需能在跨領域的場景下泛化。為此,我們提出子模集選擇的對抗性領域自適應方法,通過精挑細選少量目標域樣本用于標注,最大化模型性能提升。 進一步,為提高適應效率,我們引入Smooth Domain Adversarial Training(SDAT),該方法使模型收斂到更具泛化能力的“平滑最小值”,從而實現跨任務、跨領域的高效模型遷移。
總結:本論文系統探索了在真實世界中如何從有限與不完美數據中訓練深度神經網絡模型,涵蓋生成學習、判別學習、半監督學習與跨域遷移四大子方向,為深度模型的大規模實際部署提供了堅實算法基礎與方法論支撐。
深度學習(Deep Learning, DL)作為機器學習(Machine Learning, ML)的一個強大分支,因其能夠通過深度神經網絡(DNNs)自動從大規模數據集中提取層次化特征,近年來得到了廣泛應用。這一能力推動了多個領域的發展,包括醫療保健、計算機視覺、自然語言處理以及自動化系統等。然而,在資源受限的終端設備(如智能手機和物聯網設備)上運行深度學習模型仍面臨顯著挑戰,主要包括計算能力受限、能耗控制以及對低延遲的需求。 本論文旨在解決在異構多處理系統芯片(Heterogeneous Multi-Processing System-on-Chips, HMPSoCs)上進行深度學習推理時的優化問題。此類系統通常集成了 CPU 集群、GPU 和神經網絡處理單元(Neural Processing Units, NPUs),各自具有不同的能效、性能和精度取舍。研究聚焦于多處理器協同利用,以提升推理的延遲表現、電源效率與吞吐量。在準確性、性能和功耗之間進行優化與平衡,是實現資源受限設備上高效推理的關鍵目標。 本研究的核心貢獻如下:
提出一種預配置的層級切換策略,將深度學習模型的每一層分配給能夠最小化整體推理延遲的處理器(CPU 或 GPU)。該方法特別適用于增強現實(AR)和虛擬現實(VR)等對延遲高度敏感的應用,確保其在不犧牲實時性的前提下實現理想性能。
為了解決在滿足延遲約束的同時優化功耗的問題,研究結合了動態電壓與頻率調整(Dynamic Voltage and Frequency Scaling, DVFS)與預配置的 CPU/GPU 層級切換方法。該方案在不犧牲性能的前提下,最大限度降低了處理器功耗,使深度學習模型能夠在電池供電設備的功耗范圍內運行,并維持目標延遲表現。
專為深度學習設計的 NPU 可顯著提升能效與性能,但量化操作可能會引入精度損失。為此,提出一種選擇性量化的方法,即僅對部分網絡層進行量化并在 NPU 上運行,其余層保持全精度。此方法在準確性、能耗與計算性能之間實現了更優的平衡。
為提升系統吞吐量,研究設計了一種基于流水線的執行策略,預先將模型劃分至 CPU 集群、GPU 和 NPU 的不同處理階段,使得多個處理器可并行處理不同部分的模型。這種方式支持視頻處理等高吞吐量應用所需的幀率(FPS),同時保持較低的功耗和延遲開銷。
本研究的一個重要成果是開發并發布了名為 ARM-CO-UP的框架,該框架支持在 HMPSoCs 上高效執行深度學習推理。其主要功能包括處理器切換、流水線執行、DVFS 控制,以及執行時間與功耗的層級分析。ARM-CO-UP 專為支持 CPU、GPU 與 NPU 之間的協同執行而設計,是一個靈活可擴展的工具,可用于實驗不同的優化方案、切換策略及執行模型,對推動資源受限終端設備上的深度學習部署具有重要意義。 本論文的研究成果有助于推動先進人工智能(AI)技術在日常設備上的部署,使得深度學習模型能夠在資源受限的環境中高效運行。所提出的集成式框架為該領域的持續探索提供了實用且可擴展的解決方案。
在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。
在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。
持續學習(Continual Learning, CL)是一個新興領域,專注于開發能夠從不斷流入的數據流中持續學習的模型,而不是在靜態、精選的數據集上進行數百次訓練。這些模型旨在保留先前獲得的知識,同時無縫整合新信息,通常還受到存儲容量等限制。為了推動這一領域的發展,我們首先指出了當前研究范式的局限性,并通過以下方式解決這些問題:(1)實施更現實的約束,例如在有限計算資源內優化學習;(2)展示簡單直接算法的有效性。此外,我們解決了現有指標的缺陷,并改進了數據收集方法,以提高持續模型在實際場景中的效率和適用性。 我們的主要貢獻如下:
總的來說,本論文為更高效計算的持續學習方法奠定了基礎,并倡導其更適合實際應用的發展方向。
多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法:
在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能。
人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。
雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。
I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,
這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,
通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,
這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。
人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。
然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。
模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。
在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。
為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。
增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。
LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。
機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。
為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。
我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:
貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。
貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。