持續學習(Continual Learning, CL)是一個新興領域,專注于開發能夠從不斷流入的數據流中持續學習的模型,而不是在靜態、精選的數據集上進行數百次訓練。這些模型旨在保留先前獲得的知識,同時無縫整合新信息,通常還受到存儲容量等限制。為了推動這一領域的發展,我們首先指出了當前研究范式的局限性,并通過以下方式解決這些問題:(1)實施更現實的約束,例如在有限計算資源內優化學習;(2)展示簡單直接算法的有效性。此外,我們解決了現有指標的缺陷,并改進了數據收集方法,以提高持續模型在實際場景中的效率和適用性。 我們的主要貢獻如下:
總的來說,本論文為更高效計算的持續學習方法奠定了基礎,并倡導其更適合實際應用的發展方向。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
機器學習(ML)從業者正在部署數據中心級別的集群,以提供訓練和服務越來越大、更強大機器學習模型所需的巨大的計算資源。這些集群可以包含成百上千個專用加速器(例如,GPU),通過專用的高帶寬互聯(例如,NVLink、RoCE或InfiniBand)進行互聯。然而,繼續擴展機器學習系統的能力不僅僅需要加速機器學習的核心計算內核(例如,基于梯度的優化或推理執行)。它還需要擴展端到端的機器學習流水線,包括以足夠的速度存儲和處理艾字節級的數據,以滿足大規模機器學習工作負載的攝取需求。
本論文的重點是如何為端到端的機器學習訓練流水線構建數據系統。這些系統生成、存儲和處理數據,以支持數據中心級的機器學習訓練集群。因此,它們必須是可擴展的、高效的和安全的。首先,機器學習數據系統需要具備可擴展性;它們不僅需要存儲艾字節級的數據,還需要提供足夠的攝取吞吐量,以確保加速器不會因為輸入數據的延遲而被阻塞。雖然擴展性可以消除因訓練加速器未充分利用而產生的數據停頓,但僅僅將運行在通用存儲設備和CPU上的數據系統擴展以滿足專用加速器的巨大數據需求,可能需要龐大的數據中心容量。因此,確保端到端機器學習數據流水線中的系統高效運行至關重要,從而使得整體的機器學習基礎設施能夠繼續擴展。最后,機器學習模型現在廣泛部署在用戶面向的應用程序中,從社交媒體到電子商務。因此,機器學習數據系統必須具備安全性,以保護最終用戶的敏感數據。
我們首先旨在理解端到端機器學習訓練流水線的系統瓶頸和設計空間,重點關注深度學習推薦模型(DLRM)訓練工作負載,因為它們對數據的需求極大,并且在現代網絡應用程序中非常普遍。為此,我們首先提出了一項研究,首次探索了構成機器學習數據存儲和攝取流水線的系統,重點是超大規模數據中心Meta。我們提出了分布式存儲和數據處理系統的必要性,以防止訓練數據的停頓。接著,我們展示并描述了支持Meta數據中心級DLRM訓練集群的各種數據系統——批處理引擎、分布式文件系統和分散的預處理系統。然而,簡單的分離存儲并不足夠,因為存儲和預處理可能消耗比實際GPU本身多出2倍以上的資源。為了應對這一挑戰,我們將我們的特征描述提煉為可行的研究機會,以構建更高效的數據系統。
基于這些機會,我們接下來展示了Meta部署的兩個項目,以提高DLRM數據系統的效率。首先,Tectonic-Shift解決了高效存儲艾字節級訓練數據集的挑戰。傳統上,數據集存儲在一個名為Tectonic的硬盤(HDD)支持的分布式文件系統中,這對于以讀為主的機器學習訓練作業提供了較差的I/O效率。為了提高Tectonic的I/O效率,我們構建了一個名為Shift的Flash緩存層。Shift智能地利用訓練作業規格提供的預測信息,將數據集中的熱門部分緩存到I/O高效的SSD中,從而將數據集所需的存儲資源減少了29%。其次,我們展示了如何利用數據本身的表示來提高端到端訓練系統效率,在一個名為RecD的項目中,RecD利用了深度學習推薦模型數據集在訓練樣本之間存在大量重復特征值的洞察——在Meta的數據集中,最多有89%的字節是重復的。RecD是一套互相關聯的優化方案,涉及數據生成、存儲、預處理和訓練系統,通過去重減少了由于重復值帶來的系統開銷。因此,RecD分別提高了存儲、預處理和訓練效率,提升幅度分別為3.71倍、1.79倍和2.48倍。 雖然這些工作優化了Meta DLRM訓練流水線的效率,但將效率優化擴展到各個領域,從語言到視覺也是非常重要的。為了減輕在各個領域和機器學習流水線中導航復雜系統優化空間的負擔,我們引入了cedar。cedar允許機器學習從業者使用通用和可組合的運算符庫,輕松定義端到端的機器學習數據預處理作業。然后,cedar系統地應用多種性能優化,以高效地將作業執行,并為訓練加速器提供數據流。在此過程中,cedar能夠將機器學習預處理性能提高最多1.87倍到10.65倍,超越現有最先進的機器學習數據系統。 最后,我們解決了在機器學習數據流水線中保護敏感用戶數據的挑戰。當前的硬件安全機制,例如英特爾的SGX或NVIDIA的保密計算,能夠在處理過程中強制執行數據機密性和完整性保證。然而,這些當前的解決方案并未涵蓋整個流水線,并且無法強制執行存儲層所需的豐富安全屬性,例如GDPR。幸運的是,FPGA越來越多地被部署到數據中心基礎設施中,以加速存儲和網絡等操作。我們構建了ShEF,一個開源框架,使得加速器設計者能夠在這些FPGA中構建、定制和部署受信執行環境(TEEs)。我們展示了如何通過ShEF在分布式、FPGA啟用的存儲節點上創建一個加密的、符合GDPR的存儲層。因此,ShEF能夠實現高吞吐量和安全的分布式存儲,邁出了保護端到端機器學習數據流水線安全的重大步伐。ShEF還提供了關于如何為現代數據中心加速器(不僅僅是FPGA)構建受信執行環境的寶貴經驗。
深度學習(Deep Learning, DL)作為機器學習(Machine Learning, ML)的一個強大分支,因其能夠通過深度神經網絡(DNNs)自動從大規模數據集中提取層次化特征,近年來得到了廣泛應用。這一能力推動了多個領域的發展,包括醫療保健、計算機視覺、自然語言處理以及自動化系統等。然而,在資源受限的終端設備(如智能手機和物聯網設備)上運行深度學習模型仍面臨顯著挑戰,主要包括計算能力受限、能耗控制以及對低延遲的需求。 本論文旨在解決在異構多處理系統芯片(Heterogeneous Multi-Processing System-on-Chips, HMPSoCs)上進行深度學習推理時的優化問題。此類系統通常集成了 CPU 集群、GPU 和神經網絡處理單元(Neural Processing Units, NPUs),各自具有不同的能效、性能和精度取舍。研究聚焦于多處理器協同利用,以提升推理的延遲表現、電源效率與吞吐量。在準確性、性能和功耗之間進行優化與平衡,是實現資源受限設備上高效推理的關鍵目標。 本研究的核心貢獻如下:
提出一種預配置的層級切換策略,將深度學習模型的每一層分配給能夠最小化整體推理延遲的處理器(CPU 或 GPU)。該方法特別適用于增強現實(AR)和虛擬現實(VR)等對延遲高度敏感的應用,確保其在不犧牲實時性的前提下實現理想性能。
為了解決在滿足延遲約束的同時優化功耗的問題,研究結合了動態電壓與頻率調整(Dynamic Voltage and Frequency Scaling, DVFS)與預配置的 CPU/GPU 層級切換方法。該方案在不犧牲性能的前提下,最大限度降低了處理器功耗,使深度學習模型能夠在電池供電設備的功耗范圍內運行,并維持目標延遲表現。
專為深度學習設計的 NPU 可顯著提升能效與性能,但量化操作可能會引入精度損失。為此,提出一種選擇性量化的方法,即僅對部分網絡層進行量化并在 NPU 上運行,其余層保持全精度。此方法在準確性、能耗與計算性能之間實現了更優的平衡。
為提升系統吞吐量,研究設計了一種基于流水線的執行策略,預先將模型劃分至 CPU 集群、GPU 和 NPU 的不同處理階段,使得多個處理器可并行處理不同部分的模型。這種方式支持視頻處理等高吞吐量應用所需的幀率(FPS),同時保持較低的功耗和延遲開銷。
本研究的一個重要成果是開發并發布了名為 ARM-CO-UP的框架,該框架支持在 HMPSoCs 上高效執行深度學習推理。其主要功能包括處理器切換、流水線執行、DVFS 控制,以及執行時間與功耗的層級分析。ARM-CO-UP 專為支持 CPU、GPU 與 NPU 之間的協同執行而設計,是一個靈活可擴展的工具,可用于實驗不同的優化方案、切換策略及執行模型,對推動資源受限終端設備上的深度學習部署具有重要意義。 本論文的研究成果有助于推動先進人工智能(AI)技術在日常設備上的部署,使得深度學習模型能夠在資源受限的環境中高效運行。所提出的集成式框架為該領域的持續探索提供了實用且可擴展的解決方案。
人類智能的標志是通過應用從先前任務中學到的相關知識來應對新任務的能力。因此,人類只需要從新任務中獲取最少的示例就可以完成適應過程。相反,深度學習模型在實現如此顯著的泛化能力方面仍然落后于人類,尤其是在數據有限的新任務上。這樣的學習設置被稱為資源高效學習。在本論文中,我們探索了面向視覺能力深度學習模型的資源高效問題表述。
//dr.ntu.edu.sg/handle/10356/180196
我們首先研究了僅限視覺的神經模型,并將其應用于長尾圖像分類。在長尾圖像分類中,尾部類別的訓練樣本稀缺,而頭部類別的訓練樣本豐富。訓練分布的不平衡使得學習良好的尾部類別表示成為一項困難任務。我們提出了一種插值質心對比學習(ICCL)方法,通過利用豐富的頭部類別樣本,促進尾部類別表示的學習。我們在頭部和尾部類別之間創建插值樣本,并通過一種新的插值質心對比損失優化表示。我們在多個長尾評估數據集上展示了ICCL的有效性。
接下來,我們將研究擴展到視覺語言模型(VLM),它涉及圖像和文本模態。我們研究了零樣本視覺問答(Zero-shot VQA),該任務限制了VLM訪問任何VQA訓練樣本。我們設計了一個模塊化框架PnP-VQA,能夠執行零樣本VQA,并且無需任何訓練。我們利用自然語言和網絡可解釋性技術作為接口,結合多個預訓練模型。具體來說,我們首先通過關注相關的圖像區域生成多個引導問題的圖像描述。然后,我們將這些描述作為上下文輸入到預訓練語言模型中以回答問題。我們的引導問題描述可以捕捉到詳細的視覺屬性,并包含回答詞匯,從而幫助問答模型得到正確答案。我們的PnP-VQA在多個VQA基準測試中達到了最先進的結果。 最后,我們調查了VLM的零樣本評估。VLM在零樣本設置下的測試任務表現反映了它們的真正泛化能力,這對于我們公平地比較不同VLM并追蹤它們的進展至關重要。當一個測試任務與VLM的訓練任務有較高相似性時,該VLM的表現可能優于其他沒有這種相似性的VLM。因此,我們進行遷移學習實驗,研究訓練任務和測試任務之間的任務相似性,這在評估VLM時往往未被考慮。此外,我們通過對遷移性能進行因子分析,直接從數據中發現潛在的視覺語言技能。我們證明了因子分析是一種有效的數據驅動方法,可以識別合理卻令人驚訝的視覺語言技能。 此外,我們通過提出一個新的基準測試OLIVE,解決了當前缺乏關注VLM在實際環境中評估的視覺語言基準問題。OLIVE模擬了來自用戶對VLM的多樣化查詢,旨在真實的應用場景中進行評估。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
隨著先進計算技術和人工智能的快速發展,復雜系統和應用程序迎來了新紀元,尤其是在自動駕駛汽車(AV)和機器人領域。這些系統越來越多地需要在動態和不確定的環境中自主決策。強化學習(RL)在這一背景下成為了關鍵技術,為通過與環境互動來學習最優決策策略提供了框架。然而,確保這些決策的安全性和可信性仍然是一個重要的挑戰,特別是在安全至關重要的應用場景中,如自動駕駛。本論文針對這一挑戰,提出了創新的基于RL的方法,結構分為三個既獨立又相互關聯的部分,每一部分都專注于安全且可信決策制定中的不同方面。論文的主線是探索和改進RL技術,以確保自主決策系統在復雜、動態環境下的安全性和可靠性。首先,本論文奠定了RL在決策制定中的基礎,特別是在不確定和動態的環境下。該部分聚焦于增強RL,以應對現實世界的復雜性,例如在自動駕駛場景中與不可預測的代理(如人類駕駛員)互動,以及在離線RL設置中處理分布偏移問題。這為理解和提升自主系統在不確定條件下的決策能力奠定了基礎。在第一部分的基礎上,第二部分探討了層次化規劃與RL的集成。該部分重點在于創建一種框架,將不同層次的決策制定相結合,平衡即時的低層次安全問題與高層次戰略目標。該方法旨在應對傳統RL在復雜多代理環境和長時間任務中的局限性,從而在實時決策中展示出更好的適應性和效率。第三部分則呈現了對RL的前瞻性方法,重點在于離線和在線學習方法的整合。這一部分解決了在探索可能代價高昂或危險的場景中,安全有效地訓練RL代理的問題。通過將大規模離線數據(如專家示范)的優勢與在線學習相結合,本部分提出了一個新的框架,以增強RL代理在實際應用中的安全性和性能。
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。
序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標。
在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。
為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。
本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。
這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。