亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習(Deep Learning, DL)作為機器學習(Machine Learning, ML)的一個強大分支,因其能夠通過深度神經網絡(DNNs)自動從大規模數據集中提取層次化特征,近年來得到了廣泛應用。這一能力推動了多個領域的發展,包括醫療保健、計算機視覺、自然語言處理以及自動化系統等。然而,在資源受限的終端設備(如智能手機和物聯網設備)上運行深度學習模型仍面臨顯著挑戰,主要包括計算能力受限、能耗控制以及對低延遲的需求。 本論文旨在解決在異構多處理系統芯片(Heterogeneous Multi-Processing System-on-Chips, HMPSoCs)上進行深度學習推理時的優化問題。此類系統通常集成了 CPU 集群、GPU 和神經網絡處理單元(Neural Processing Units, NPUs),各自具有不同的能效、性能和精度取舍。研究聚焦于多處理器協同利用,以提升推理的延遲表現、電源效率與吞吐量。在準確性、性能和功耗之間進行優化與平衡,是實現資源受限設備上高效推理的關鍵目標。 本研究的核心貢獻如下:

1. 基于層級切換的延遲優化(Layer-Switching):

提出一種預配置的層級切換策略,將深度學習模型的每一層分配給能夠最小化整體推理延遲的處理器(CPU 或 GPU)。該方法特別適用于增強現實(AR)和虛擬現實(VR)等對延遲高度敏感的應用,確保其在不犧牲實時性的前提下實現理想性能。

2. 結合 DVFS 與層級切換提升能效:

為了解決在滿足延遲約束的同時優化功耗的問題,研究結合了動態電壓與頻率調整(Dynamic Voltage and Frequency Scaling, DVFS)與預配置的 CPU/GPU 層級切換方法。該方案在不犧牲性能的前提下,最大限度降低了處理器功耗,使深度學習模型能夠在電池供電設備的功耗范圍內運行,并維持目標延遲表現。

3. NPU 集成與準確率、功耗、性能之間的權衡:

專為深度學習設計的 NPU 可顯著提升能效與性能,但量化操作可能會引入精度損失。為此,提出一種選擇性量化的方法,即僅對部分網絡層進行量化并在 NPU 上運行,其余層保持全精度。此方法在準確性、能耗與計算性能之間實現了更優的平衡。

4. 基于多處理器流水線執行的吞吐量優化:

為提升系統吞吐量,研究設計了一種基于流水線的執行策略,預先將模型劃分至 CPU 集群、GPU 和 NPU 的不同處理階段,使得多個處理器可并行處理不同部分的模型。這種方式支持視頻處理等高吞吐量應用所需的幀率(FPS),同時保持較低的功耗和延遲開銷。

5. 框架實現與發布:ARM-CO-UP

本研究的一個重要成果是開發并發布了名為 ARM-CO-UP的框架,該框架支持在 HMPSoCs 上高效執行深度學習推理。其主要功能包括處理器切換、流水線執行、DVFS 控制,以及執行時間與功耗的層級分析。ARM-CO-UP 專為支持 CPU、GPU 與 NPU 之間的協同執行而設計,是一個靈活可擴展的工具,可用于實驗不同的優化方案、切換策略及執行模型,對推動資源受限終端設備上的深度學習部署具有重要意義。 本論文的研究成果有助于推動先進人工智能(AI)技術在日常設備上的部署,使得深度學習模型能夠在資源受限的環境中高效運行。所提出的集成式框架為該領域的持續探索提供了實用且可擴展的解決方案。

付費5元查看完整內容

相關內容

 荷蘭最大城市,位于荷蘭西部。阿姆斯特丹是繁(kai)華(fang)知(zi)名(you)的國際大都市

在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。

在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。

//dspace.mit.edu/handle/1721.1/158802

付費5元查看完整內容

持續學習(Continual Learning, CL)是一個新興領域,專注于開發能夠從不斷流入的數據流中持續學習的模型,而不是在靜態、精選的數據集上進行數百次訓練。這些模型旨在保留先前獲得的知識,同時無縫整合新信息,通常還受到存儲容量等限制。為了推動這一領域的發展,我們首先指出了當前研究范式的局限性,并通過以下方式解決這些問題:(1)實施更現實的約束,例如在有限計算資源內優化學習;(2)展示簡單直接算法的有效性。此外,我們解決了現有指標的缺陷,并改進了數據收集方法,以提高持續模型在實際場景中的效率和適用性。 我們的主要貢獻如下:

  1. 通用問題定義與在線數據流相關性的關注:我們提出了一個受開放集識別問題啟發的CL分類問題通用定義,要求模型從數據流中持續適應新類別。我們詳細說明了持續學習中的一些假設可能過度簡化問題,從而降低了其實際相關性。我們的GDumb模型表明,即使是不使用在線數據流的簡單消融實驗,也能匹配或超越為特定持續學習場景設計的算法,挑戰了該領域的進展。
  2. 持續表示學習的挑戰:我們的RanDumb模型通過使用固定的隨機變換和簡單的線性分類器探索持續表示學習,揭示了不使用表示學習的方法在各種標準持續學習基準上優于使用深度網絡的持續學習表示。這一發現表明,我們需要重新評估如何設計和訓練模型以實現有效的持續學習。
  3. 引入計算約束:當前文獻通常忽略計算和時間預算的實際約束,而專注于無限制的數據訪問。我們開發了大規模數據集(如ImageNet2K和Continual Google Landmarks V2),并在計算受限的設置下廣泛評估持續學習,結果表明傳統的CL方法即使通過策略性采樣和蒸餾也無法超越簡單的經驗回放基線。這表明現有的CL方法在實際應用中計算成本過高。
  4. 無存儲約束的在線持續學習:我們提出了一種簡單的算法,使用固定的預訓練特征提取器持續更新kNN分類器,適用于數據流快速變化且計算預算極低的場景。該方法在保持低計算和存儲需求的同時,顯著優于現有方法的準確性。
  5. 在線持續學習中的快速適應指標:我們批判了在線持續學習中使用的傳統指標。我們的研究結果表明,現有方法可能并未真正適應數據,而是記憶了無關的數據模式。我們通過提出一種專注于“近未來”樣本準確性的新指標來解決這一問題,避免學習虛假標簽相關性,更好地反映模型真正適應新數據的能力。
  6. 利用網絡監督數據:為了解決持續獲取大規模標注數據的不切實際性,我們引入了一種新的持續數據獲取范式,允許模型僅使用類別名稱適應新類別。我們提出了一種使用未經篩選的網絡監督數據的簡單方法,不僅減少了對昂貴人工標注的依賴,還展示了互聯網數據支持有效學習的潛力。我們創建的EvoTrends數據集以最低的成本反映了現實世界的趨勢。

總的來說,本論文為更高效計算的持續學習方法奠定了基礎,并倡導其更適合實際應用的發展方向。

付費5元查看完整內容

多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法

  1. 多模態自監督學習:通過使用單模態原型(unimodal prototypes)來統一不同模態的表示,從而縮小模態間的表示差距。
  2. 數據選擇階段:引入正則化項以最大化模態對齊度,在不增加數據量的前提下提升模型性能,相較于現有方法取得了更優結果。

在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能

付費5元查看完整內容

深度學習因其卓越的高維特征表示學習能力而變得越來越受歡迎。許多算法和模型已經被開發出來,以增強深度學習在各種現實任務中的應用,包括圖像分類、自然語言處理和自動駕駛。然而,深度學習模型容易受到后門威脅的影響,攻擊者通過操控訓練過程或數據,導致模型在含有特定觸發器的惡意樣本上做出錯誤預測,同時在正常樣本上保持正常性能。隨著深度學習的發展,包括不斷演化的訓練方案以及對大規模訓練數據的需求,后門領域的新威脅不斷出現。另一方面,后門也可以被用來保護深度學習模型,例如通過水印技術。在本論文中,我們從三個新穎的角度深入探討了后門技術。

在論文的第一部分,我們展示了新興的深度學習訓練方案可能引入新的后門風險。具體而言,預訓練的自然語言處理(NLP)模型可以輕松地適應多種下游語言任務,顯著加速語言模型的開發。然而,預訓練模型成為這些下游模型的單點故障。我們提出了一種新的任務無關的后門攻擊方法,針對預訓練的NLP模型,在這種攻擊中,攻擊者無需事先了解下游任務即可將后門植入預訓練模型中。任何從這個惡意模型轉移的下游模型將繼承后門,即使在經過廣泛的遷移學習后,這揭示了預訓練基礎模型在面對后門攻擊時的嚴重脆弱性。 在論文的第二部分,我們開發了適應新威脅場景的創新后門攻擊方法。深度學習模型的快速擴展需要大規模的訓練數據,其中大部分是未標注的,并外包給第三方進行注釋。為了確保數據安全,大多數數據集對訓練樣本是只讀的,防止添加輸入觸發器。因此,攻擊者只能通過上傳惡意注釋來實現數據中毒。在這種實際場景中,所有現有的數據中毒方法都無法在輸入中添加觸發器。因此,我們提出了新的后門攻擊方法,這些方法僅通過中毒標簽而不修改任何輸入樣本來實現。

在論文的第三部分,我們利用后門技術主動保護我們的深度學習模型,特別是在知識產權保護方面。考慮到深度學習任務的復雜性,生成一個訓練良好的深度學習模型需要大量的計算資源、訓練數據和專業知識。因此,保護這些資產并防止版權侵權至關重要。受到后門攻擊的啟發,后門攻擊可以通過精心設計的樣本誘發目標模型特定的行為,已經提出了幾種水印方法來保護深度學習模型的知識產權。模型所有者可以訓練他們的模型,以便對某些精心制作的樣本產生獨特的輸出,并利用這些樣本進行所有權驗證。盡管為監督學習的深度學習模型設計了各種提取技術,但在將它們應用于深度強化學習模型時會遇到挑戰,因為模型特性和場景的不同。因此,我們提出了一種新的水印方案,以保護深度強化學習模型免受未經授權的分發。與傳統深度學習模型中使用空間水印不同,我們設計了時間水印,這種水印在盡量減少對受保護深度強化學習模型潛在影響和損害的同時,能夠實現高保真度的所有權驗證。 總之,本論文探討了深度學習技術發展過程中后門威脅的演變,并研究了如何利用后門技術在知識產權保護中發揮積極作用。

付費5元查看完整內容

人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。

雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。

I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,

這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,

通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,

這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。

人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。

然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。

模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。

在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。

推理方法

為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。

模型架構

增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。

人工智能應用

LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。

付費5元查看完整內容

強化學習是一種優化決策的框架,考慮到行動的長期后果。

強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。

在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。

首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。

付費5元查看完整內容

隨著先進計算技術和人工智能的快速發展,復雜系統和應用程序迎來了新紀元,尤其是在自動駕駛汽車(AV)和機器人領域。這些系統越來越多地需要在動態和不確定的環境中自主決策。強化學習(RL)在這一背景下成為了關鍵技術,為通過與環境互動來學習最優決策策略提供了框架。然而,確保這些決策的安全性和可信性仍然是一個重要的挑戰,特別是在安全至關重要的應用場景中,如自動駕駛。本論文針對這一挑戰,提出了創新的基于RL的方法,結構分為三個既獨立又相互關聯的部分,每一部分都專注于安全且可信決策制定中的不同方面。論文的主線是探索和改進RL技術,以確保自主決策系統在復雜、動態環境下的安全性和可靠性。首先,本論文奠定了RL在決策制定中的基礎,特別是在不確定和動態的環境下。該部分聚焦于增強RL,以應對現實世界的復雜性,例如在自動駕駛場景中與不可預測的代理(如人類駕駛員)互動,以及在離線RL設置中處理分布偏移問題。這為理解和提升自主系統在不確定條件下的決策能力奠定了基礎。在第一部分的基礎上,第二部分探討了層次化規劃與RL的集成。該部分重點在于創建一種框架,將不同層次的決策制定相結合,平衡即時的低層次安全問題與高層次戰略目標。該方法旨在應對傳統RL在復雜多代理環境和長時間任務中的局限性,從而在實時決策中展示出更好的適應性和效率。第三部分則呈現了對RL的前瞻性方法,重點在于離線和在線學習方法的整合。這一部分解決了在探索可能代價高昂或危險的場景中,安全有效地訓練RL代理的問題。通過將大規模離線數據(如專家示范)的優勢與在線學習相結合,本部分提出了一個新的框架,以增強RL代理在實際應用中的安全性和性能。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:

貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。

貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。

付費5元查看完整內容
北京阿比特科技有限公司