為了使機器人系統能夠在真實世界中常常令人驚訝且不可預測的環境中成功運行,它們必須具備在部署期間學習和適應的能力。然而,在機器人領域,通常將每個機器人視為一個單獨的孤立系統,必須獨立學習新技能并對環境作出反應。實際上,世界早已是一個高度互聯的環境,數以億計的獨立設備持續進行通信。因此,沒有理由機器人系統不能遵循相同的模式。事實上,由于數據獲取通常是有效且高效學習的瓶頸,多機器人系統可以通過協作共享多個機器人收集的數據,實現學習速度的倍增效應。 本論文提出了三種用于互聯多機器人系統協作學習的新型算法,以及支持并驗證它們在真實世界中部署的工具與分析方法。 第一個算法在本論文的第三章中介紹,是一種新穎的自主車隊對數百個目標車輛進行同時跟蹤的方法。通過利用多個自動駕駛車輛的實時數據,該算法使車隊能夠形成對所跟蹤目標車輛運動的城市級感知。每輛車隊中的車輛隨后都能夠利用這種感知,即使在沒有直接視線的情況下,也能預測被跟蹤車輛的未來運動,從而避免諸如盲角等危險情況。我們通過在真實的自動駕駛車輛仿真環境中進行城市級分布式多目標跟蹤演示了該方法的潛力。 第四章介紹了本論文的第二個算法貢獻,一種使互聯機器人能夠利用各自獨立收集的數據,以通信高效的方式協作優化神經網絡參數的方法。該算法可推廣至任何神經網絡架構,且從不需要傳輸原始數據,從而保證了通信效率。為了驗證我們的觀點,我們展示了該方法在三個不同的應用場景下優于基線方法:分類、神經隱式映射和強化學習。 最后,在第五章中,我們討論了本論文的最后一個貢獻,一種多機器人度量-語義映射算法,使多種不同的機器人系統能夠異步且協作地學習高度詳細的環境地圖。在實驗演示中,我們展示了該方法在多個不同環境中的有效性,并證明了生成的地圖可用于多機器人無碰撞運動規劃,同時支持開放詞匯的語義目標指定。
機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。
本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。
人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。
雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。
I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,
這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,
通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,
這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。
人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。
然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。
模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。
在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。
為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。
增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。
LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
在一個互聯的世界中,制定有效政策日益依賴于對復雜人類網絡的理解,例如用于疫情應對的接觸網絡、增強經濟韌性的供應鏈網絡,以及用于信息傳播的社會網絡。然而,要理解人類網絡及其與政策的關系面臨諸多挑戰。首先,現實世界中在網絡上展開的過程非常復雜(如疾病傳播),而用于擬合這些過程模型的數據卻十分稀缺。其次,在許多情況下,由于數據缺失或隱私限制,我們甚至無法獲得完整的網絡信息,導致只能觀察到部分網絡。第三,人類網絡不僅會影響政策結果,政策也會改變這些網絡的結構,因此需要對政策對網絡的影響進行可靠估計。最后,即使擁有最先進的技術模型,制定有效政策仍常取決于人類因素:人們對政策的真實感受如何,我們又如何從數據中提取這些信息? 本論文聚焦于人類網絡與政策交匯處的四個核心挑戰。在第一部分,我研究了復雜過程在疫情背景下的表現,我們開發了一種流行病學模型,該模型整合了包含數十億小時級邊的流動網絡,從而能夠精細建模COVID-19的傳播,而僅需三個模型參數。在第二部分,我探討了部分觀察網絡的兩種情景:動態網絡(我們僅能觀察其時變邊緣分布和時間聚合的鄰接矩陣)以及供應鏈網絡(我們觀察到企業之間的交易,但缺失企業內部生產函數的信息),并描述了我們為推斷這些缺失部分所開發的方法。在第三部分,我研究了估計政策對網絡影響的問題,并提出了兩種方法:一種是基于數據的觀察性因果推斷框架,另一種是基于模型的理論分析。最后,在第四部分,我們深入分析了兩種豐富的數據來源:搜索日志和政治演講,這些數據揭示了人們對政策的態度,以及我們如何開發機器學習系統,從這些龐大且未標注的數據集中提取精確的、與政策相關的信號。
人類網絡構成了我們社會的基礎。這些網絡反映了我們之間多樣的關系:誰與誰是朋友,誰與誰有身體接觸,誰消費相同的新聞或購買相同的產品,等等。隨著世界變得日益互聯,人類網絡在社會面臨的重大挑戰中發揮著越來越重要的作用。COVID-19疫情提供了一個典型的例子:COVID-19已在全球至少造成700萬人死亡 [1],疫情還導致了巨大的經濟和社會成本。在COVID-19等傳染病的核心,是人類接觸網絡。首先,一組種子節點被感染,隨后可能感染其接觸者(即網絡中的鄰居),這些接觸者如果被感染,可能繼續感染他們的接觸者,以此類推。因此,接觸網絡的結構調控了疾病的傳播,極大地影響了疾病傳播的范圍、速度以及傳播對象。這些特性為決策者提供了干預依據,例如在哪里實施封鎖、如何安全地重新開放以及如何減少健康差距。 全球供應鏈是另一個例子:供應鏈本質上是一個網絡,節點是個人或企業,邊則代表它們之間的買賣關系 [2]。如果某個企業受到沖擊(例如,由于自然災害而無法繼續生產其產品),該企業的買家將因失去供應而受到影響,其買家的買家也會受到影響,以此類推;反過來,該企業的賣家將失去需求,其賣家的賣家也會受到影響,以此類推 [3]。因此,沖擊通過供應鏈傳播,導致全球范圍內的放大性破壞,給企業帶來巨大損失。同樣,供應鏈網絡的結構調控了沖擊的傳播,因此理解這種結構可以為制定關鍵政策提供依據,例如如何提升供應鏈的韌性以及在破壞后如何更高效地恢復。
除了疫情和供應鏈,人類網絡在許多社會挑戰中扮演著核心角色:社交網絡影響意見和極化 [4, 5],交通網絡為城市規劃提供信息 [6],用戶-物品網絡影響推薦系統 [7],流動網絡幫助解釋隔離和不平等現象 [8],等等。在所有這些領域,做出有效決策都依賴于對這些人類網絡的理解。然而,由于數據的局限性和現實世界的復雜性,理解人類網絡及其與政策的關系面臨多種挑戰。
首先,在網絡上展開并為政策提供依據的過程(例如,疾病在接觸網絡上的傳播或沖擊在供應鏈中的傳播)非常復雜。例如,疾病在接觸網絡上的傳播高度依賴接觸的類型,例如接觸是否發生在室內或室外,接觸的距離和持續時間,以及個體的易感性或傳染性。此外,用于擬合這些過程模型的數據往往稀缺:例如,在流行病學背景下,我們通常只能獲得整個地區的每日報告病例,而疾病的傳播實際上發生在個體層面。因此,復雜動態與稀缺數據的結合需要創造性的方法,既能捕捉復雜性又不過度擬合現有數據。
其次,在許多情況下,由于數據缺失或隱私限制,我們甚至無法獲得完整的網絡。例如,在疫情背景下,大多數國家并不確切知道誰與誰有過接觸。在供應鏈的背景下,我們也無法觀察到買賣關系的完整圖譜,因為企業通常不愿意公開這些信息,我們也缺乏企業內部如何將投入轉化為產出的關鍵信息。然而,我們往往能夠獲取部分網絡信息,例如聚合的流動數據或某些企業的買賣關系。因此,如何利用這些數據,從部分觀察網絡中學習是一個關鍵問題。
第三,人類網絡并非靜態的。政策不僅可能改變網絡上過程的展開方式,還可能改變網絡本身的結構。然而,研究政策對人類網絡的影響非常困難,因為在高風險環境下,我們通常無法進行隨機試驗。相反,我們要么求助于基于模型的反事實分析,要么從觀察數據中估計因果效應,這往往受到潛在混雜因素的影響(例如,更高的COVID-19感染率可能預測更嚴格的政策,但也可能自行改變行為)。此外,由于個體的結果可能受其鄰居所接受治療的影響,網絡可能違反因果推斷中沒有單元間干擾的假設,因此需要特別關注可能的溢出效應。
最后,有效政策制定的關鍵瓶頸往往不是技術或科學上的挑戰,而是人類因素。政策并非在真空中制定:決策者會受到超出數據或模型的信息的影響,例如政治、選民的要求或無法通過數據捕捉的信息。一旦政策實施,個人的反應還取決于個人因素,例如他們的信念、信任對象以及如何權衡風險和收益。人類生成的數據(例如搜索引擎日志、社交媒體和演講)提供了洞察這些個人因素的窗口。然而,這些數據源通常規模巨大,包含大量與政策問題無關的信息,并且未被標注,需要能夠在最小標注下精準識別相關信號的方法。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
計算系統已經在現代世界中變得無處不在,但它們的設計遠非“一刀切”。從電池供電設備到超級計算機,部署需求是計算機設計中異構性的重要驅動力。由于現代系統依賴并行性和專業化來實現其性能和功耗目標,新挑戰也隨之而來。隨著硬件模塊數量的增加,系統的復雜性也在增加,這使得正確和安全行為的驗證變得更加復雜。此外,將并行化擴展到更多的處理單元(PUs)會增加對內存層次結構和處理單元間網絡的壓力,從而導致在處理具有間接內存訪問(IMAs)的圖狀數據結構的應用程序時出現嚴重的瓶頸。這些挑戰要求重新思考軟件抽象和硬件設計,以實現可擴展和高效的系統,并引入強大的方法來確保其正確性。我的論文旨在通過三個主要方向來解決這些挑戰。首先,為了便于硬件設計師將形式驗證應用于他們的模塊,本文引入了AutoSVA,這是一種從模塊接口注釋生成形式驗證測試平臺的工具流程。使用AutoSVA生成的測試平臺已經在開源項目中發現了漏洞,包括一個廣泛使用的RISC-V CPU。其次,為了在不增加驗證復雜性的情況下緩解IMA延遲,本文介紹了MAPLE,這是一種支持數據流水線和預取的網絡連接內存訪問引擎,無需修改PU。因此,現成的PUs可以將IMAs卸載到MAPLE,并通過軟件管理的隊列消費數據。使用MAPLE可以有效地減輕內存延遲,提供比軟件和硬件預取快2倍的速度提升。第三,為了進一步提高圖和稀疏工作負載的可擴展性,本文共同設計了一個數據中心執行模型的擴展架構,Dalorex,在這個模型中,IMAs被分割成僅訪問受限地址范圍的任務,并在具有專用訪問該內存范圍的PU上執行。跨越一百萬個PUs并行執行一個具有十億條邊的圖的廣度優先搜索,比Graph500的頂級條目快了近一個數量級的運行時間。通過引入新穎的硬件設計、執行模型和驗證工具,本論文為解決日益增長的對高性能、能效和成本效益計算系統的需求所帶來的挑戰作出了貢獻。
神經網絡在處理大量數據方面表現優異,從家庭助手到自動駕駛汽車,在很多方面都極大地造福了我們的生活。然而,人們發現神經網絡是脆弱的。通過以一種人類察覺不到的方式輕微擾亂輸入,神經網絡幾乎不能做出任何正確的預測。這嚴重限制了它們在安全關鍵領域的應用,如醫療健康和金融。在本文中,我們研究了魯棒神經網絡,希望促進神經網絡的更廣泛和更可靠的應用。具體來說,我們專注于評估和訓練魯棒的神經網絡。我們首先考慮魯棒性評估。評估神經網絡魯棒性的一種常用方法是通過形式化驗證,這通常是計算開銷很大的。我們為加快這一進程做出了一些貢獻。簡單地說,我們采用了在統一的分支和定界框架下可以重新制定大多數驗證方法的思想。通過直接處理統一框架,對分支和邊界組件提出了高層次的改進,包括啟發式和學習框架。此外,我們引入了新的數據集,使我們的方法能夠與其他現有的方法進行綜合比較分析。在構造魯棒神經網絡方面,我們提出了一種新的魯棒訓練算法。許多流行的魯棒訓練方法依賴于強對手,當模型復雜度和輸入維數較高時,計算成本較高。我們設計了一個新的框架,可以更有效地利用對手。因此,為了達到類似的性能,可以使用廉價而弱小的對手。在此基礎上,介紹了算法ATLAS。我們通過展示ATLAS在幾個標準數據集上的出色表現來證明它的有效性和效率。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
COVID-19大流行的例子表明,我們的健康和福祉取決于一個難以衡量的社會因素和個人行為網絡。我的研究旨在建立能夠影響這種社會挑戰的計算方法。這一努力需要新的算法和數據驅動的范式,涵蓋收集昂貴數據、學習模型以理解和預測交互作用以及優化干預中有限資源的使用的整個過程。針對這些需求,本文提出了機器學習、優化和社交網絡交叉的方法學發展,這些方面的發展是由在艾滋病毒預防、結核病治療和COVID-19反應方面的實地合作所推動的。這些項目產生了已部署的應用程序和策略影響。一個例子是在無家可歸的青年中開發一項預防艾滋病毒的人工智能增強干預措施。該系統在一項涉及700多名青年的實地測試中進行了評估,發現它顯著降低了艾滋病毒的關鍵風險行為。
//dash.harvard.edu/handle/1/37370083
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。