亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習因其卓越的高維特征表示學習能力而變得越來越受歡迎。許多算法和模型已經被開發出來,以增強深度學習在各種現實任務中的應用,包括圖像分類、自然語言處理和自動駕駛。然而,深度學習模型容易受到后門威脅的影響,攻擊者通過操控訓練過程或數據,導致模型在含有特定觸發器的惡意樣本上做出錯誤預測,同時在正常樣本上保持正常性能。隨著深度學習的發展,包括不斷演化的訓練方案以及對大規模訓練數據的需求,后門領域的新威脅不斷出現。另一方面,后門也可以被用來保護深度學習模型,例如通過水印技術。在本論文中,我們從三個新穎的角度深入探討了后門技術。

在論文的第一部分,我們展示了新興的深度學習訓練方案可能引入新的后門風險。具體而言,預訓練的自然語言處理(NLP)模型可以輕松地適應多種下游語言任務,顯著加速語言模型的開發。然而,預訓練模型成為這些下游模型的單點故障。我們提出了一種新的任務無關的后門攻擊方法,針對預訓練的NLP模型,在這種攻擊中,攻擊者無需事先了解下游任務即可將后門植入預訓練模型中。任何從這個惡意模型轉移的下游模型將繼承后門,即使在經過廣泛的遷移學習后,這揭示了預訓練基礎模型在面對后門攻擊時的嚴重脆弱性。 在論文的第二部分,我們開發了適應新威脅場景的創新后門攻擊方法。深度學習模型的快速擴展需要大規模的訓練數據,其中大部分是未標注的,并外包給第三方進行注釋。為了確保數據安全,大多數數據集對訓練樣本是只讀的,防止添加輸入觸發器。因此,攻擊者只能通過上傳惡意注釋來實現數據中毒。在這種實際場景中,所有現有的數據中毒方法都無法在輸入中添加觸發器。因此,我們提出了新的后門攻擊方法,這些方法僅通過中毒標簽而不修改任何輸入樣本來實現。

在論文的第三部分,我們利用后門技術主動保護我們的深度學習模型,特別是在知識產權保護方面。考慮到深度學習任務的復雜性,生成一個訓練良好的深度學習模型需要大量的計算資源、訓練數據和專業知識。因此,保護這些資產并防止版權侵權至關重要。受到后門攻擊的啟發,后門攻擊可以通過精心設計的樣本誘發目標模型特定的行為,已經提出了幾種水印方法來保護深度學習模型的知識產權。模型所有者可以訓練他們的模型,以便對某些精心制作的樣本產生獨特的輸出,并利用這些樣本進行所有權驗證。盡管為監督學習的深度學習模型設計了各種提取技術,但在將它們應用于深度強化學習模型時會遇到挑戰,因為模型特性和場景的不同。因此,我們提出了一種新的水印方案,以保護深度強化學習模型免受未經授權的分發。與傳統深度學習模型中使用空間水印不同,我們設計了時間水印,這種水印在盡量減少對受保護深度強化學習模型潛在影響和損害的同時,能夠實現高保真度的所有權驗證。 總之,本論文探討了深度學習技術發展過程中后門威脅的演變,并研究了如何利用后門技術在知識產權保護中發揮積極作用。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法

  1. 多模態自監督學習:通過使用單模態原型(unimodal prototypes)來統一不同模態的表示,從而縮小模態間的表示差距。
  2. 數據選擇階段:引入正則化項以最大化模態對齊度,在不增加數據量的前提下提升模型性能,相較于現有方法取得了更優結果。

在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能

付費5元查看完整內容

人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。

雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。

I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,

這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,

通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,

這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。

人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。

然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。

模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。

在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。

推理方法

為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。

模型架構

增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。

人工智能應用

LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。

付費5元查看完整內容

理解圖像內容是許多應用的重要組成部分,例如自動駕駛、增強現實、機器人、醫學影像和遙感。隨著深度神經網絡的突破,語義圖像理解在過去幾年中取得了顯著進展。然而,神經網絡需要大量標注數據才能進行適當訓練。由于大規模真實世界數據集的標注成本高昂,網絡可以在具有現成或較低成本標注的數據集(如自動標注的合成數據)上進行訓練。然而,神經網絡通常對領域偏移(domain shifts)敏感,因此在與訓練數據不同的領域中表現較差。因此,無監督領域適應(UDA)和領域泛化(DG)方法的目標是使在源域(例如合成數據)上訓練的模型在未標注或甚至未見過的目標域(例如真實世界數據)上表現良好。

大多數UDA/DG研究專注于設計適應和泛化技術以克服領域偏移的問題。然而,學習框架中其他方面對領域魯棒性的影響大多被忽視。因此,我們從更全面的角度研究領域魯棒性,探討不同學習框架方面對UDA和DG的影響,包括網絡架構、通用訓練方案、圖像分辨率、裁剪大小和上下文信息。特別是,我們解決了現有DG和UDA方法中的以下問題:(1) 我們研究了最新架構對領域魯棒語義/全景分割的影響,并設計了一種專為領域泛化和領域適應分割量身定制的網絡架構,而不是依賴過時的分割架構來評估DG/UDA策略。(2) 為了避免對源域的過擬合,我們提出了保持先驗知識的通用訓練策略。(3) 為了在DG/UDA增加的GPU內存消耗下實現精細的分割細節,我們提出了一個領域魯棒且內存高效的多分辨率訓練框架。(4) 為了解決目標域的局部外觀歧義,我們提出了一種增強空間上下文關系學習的方法。以下段落詳細介紹了這些貢獻。

由于之前的UDA和DG語義分割方法大多基于過時的DeepLabV2網絡和ResNet骨干網絡,我們對較新的架構進行了基準測試,揭示了Transformer的潛力,并設計了DAFormer網絡架構,專為UDA和DG量身定制。它由分層Transformer編碼器和多級上下文感知特征融合解碼器組成。DAFormer網絡通過三種簡單但至關重要的訓練策略來穩定訓練并避免對源域的過擬合:在源域上進行稀有類采樣,通過緩解自訓練對常見類別的確認偏差,改善偽標簽的質量;Thing-Class ImageNet特征距離和學習率預熱有助于從ImageNet預訓練中轉移特征。通過這些技術,DAFormer在UDA和DG中實現了顯著的性能提升,甚至能夠學習像火車、公交車和卡車等難以分類的類別。

此外,我們研究了全景分割的主要架構設計及其UDA能力。我們表明,之前的全景UDA方法在設計上做出了次優選擇。基于這些發現,我們提出了EDAPS,一種特別為領域適應全景分割設計的網絡架構。它使用一個共享的領域魯棒Transformer編碼器,以促進語義和實例特征的聯合適應,同時針對領域適應語義分割和實例分割的具體需求設計了任務特定解碼器。

雖然DAFormer和EDAPS能夠更好地區分不同的類別,但我們觀察到它們缺乏精細的分割細節。我們將其歸因于使用了下采樣的圖像,導致了低分辨率的預測。然而,直接使用全分辨率圖像在UDA/DG中由于其較高的GPU內存消耗而不可行。使用高分辨率圖像的隨機裁剪進行訓練雖然緩解了這一問題,但在捕捉長程、領域魯棒的上下文信息方面表現不足。因此,我們提出了HRDA,一種用于UDA和DG的多分辨率訓練方法,結合了小型高分辨率裁剪以保留精細分割細節和大型低分辨率裁剪以捕捉長程上下文依賴關系,同時保持可管理的GPU內存占用。HRDA能夠適應小物體并保留精細分割細節,顯著提高了之前UDA和DG方法的性能。

即使有了DAFormer和HRDA改進的區分能力和高分辨率性能,UDA方法在目標域中具有類似視覺外觀的類別上仍然表現掙扎,因為沒有可用的真實標簽來學習細微的外觀差異。為了解決這個問題,我們提出了一個掩碼圖像一致性(MIC)模塊,通過學習目標域的空間上下文關系作為穩健視覺識別的額外線索,來增強UDA。MIC通過對隨機遮蔽的目標圖像的預測與基于完整圖像生成的偽標簽之間的一致性進行約束。為了最小化一致性損失,網絡必須學會從上下文中推斷被遮蔽區域的預測。由于其簡單且通用的概念,MIC可以集成到各種UDA方法中,涵蓋不同的視覺識別任務,如圖像分類、語義分割和目標檢測。MIC顯著提高了不同識別任務和領域差距的最新性能。

總體而言,本論文揭示了在領域魯棒的視覺場景理解中,從網絡架構和通用訓練策略等學習框架的不同方面進行全面考量的重要性。所提出的方法大幅提升了從合成到真實、白天到夜晚、晴朗到惡劣天氣等多個感知任務的領域適應性能。例如,在GTA→Cityscapes的語義分割中,它們實現了+18.4 mIoU的總體提升。超越領域適應,DAFormer和HRDA甚至在更具挑戰性的領域泛化設置中也表現出色,在從GTA泛化到5個未見的真實世界數據集時,性能提升了+12.0 mIoU。實現已開源并可在//github.com/lhoyer上獲取。

付費5元查看完整內容

近年來,深度學習的進展在很大程度上得益于數據和計算資源的增加。盡管數據的豐富性使模型在某些領域表現良好,但在實際應用中(例如醫學領域),數據往往稀缺或難以收集。此外,也存在將大型數據集視為許多相關的小數據集的情境,其中一個小數據集相關任務的數據可能不充足。同時,人類智能通常只需少量樣本即可在新任務上表現出色,這強調了設計數據高效AI系統的重要性。本論文探討了應對這一挑戰的兩種策略:元學習和對稱性。

元學習將數據豐富的環境視為許多小型、獨立數據集的集合。每個小數據集代表一個不同的任務,但它們之間存在潛在的共享知識。利用這種共享知識可以設計出在相似領域中高效解決新任務的學習算法。相比之下,對稱性是一種直接的先驗知識。通過確保模型的預測在輸入發生任何變換后仍保持一致,這些模型可以提高樣本效率和泛化能力。

在后續章節中,我們提出了一些旨在提高深度學習系統數據效率的新技術和模型。首先,我們展示了基于條件神經過程(CNPs)的編碼器-解碼器風格的元學習方法的成功應用。其次,我們引入了一類新型的表達力強的元學習隨機過程模型,這些模型通過在函數空間中堆疊神經參數化的馬爾可夫轉移算子序列構建而成。最后,我們提出了群等變子采樣/上采樣層,以解決傳統子采樣/上采樣層中等變性的喪失問題。利用這些層可以構建端到端的等變模型,從而提升數據效率。

//ora.ox.ac.uk/objects/uuid:98de960f-f7eb-4437-8c37-174b82374b21

付費5元查看完整內容

優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。

付費5元查看完整內容

盡管深度學習有著廣泛的應用,但在實際應用中仍面臨穩健性挑戰,尤其是在訓練和測試分布不一致的情況下。訓練和測試分布之間的差異原因包括人類行為的逐漸變化或服務使用環境的人口統計學差異。雖然獲取預期分布變化的標注數據可能非常困難,但未標注樣本相對便宜且數量充足。

我的研究利用目標領域的未標注數據,識別目標領域和源領域之間的結構關系,然后利用這些關系來適應和評估模型。本論文討論的工作涉及理論和實證上理解深度模型的行為,并利用這些見解開發穩健的方法。特別是,本論文調查了我在以下三個問題上的工作:

Q1:如何在分布變化的情況下適應模型?如果沒有對分布變化性質的假設,這項任務是不可能完成的。我的研究重點是制定在實際環境中出現的分布變化場景的假設,并通過利用未標注數據來改進和適應深度模型。論文的第一部分和第二部分詳細探討了這一研究。

Q2:在沒有標注數據的情況下,如何評估模型的性能?深度學習模型會無聲地失敗,即它們無法標記不確定的決策。為了構建可靠的機器學習系統,獲得準確性的證明與增強系統的穩健性同樣重要。第三部分討論了我在這方面的研究,并提出了利用未標注數據預測模型準確性的技術。

Q3:如何利用基礎模型來解決分布變化帶來的挑戰?基礎模型(如視覺語言模型)在廣泛的任務中表現出色。然而,這些模型也由于虛假關聯、圖像與文本對齊差等原因缺乏穩健性。此外,隨著互聯網數據的演變,這些模型也會變得過時,提出了保持它們更新的新的挑戰。第四部分討論了我對基礎模型行為的理解以及在分布變化下提高其穩健性的技術。

總體而言,本論文通過開發利用未標注數據在分布變化下適應和評估模型的技術,拓展了穩健機器學習的前沿。這里展示的工作是朝著在分布變化面前開發穩健機器學習全面工具包邁出的一步。

付費5元查看完整內容

與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。

付費5元查看完整內容

深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。

然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。

機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。

想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容
北京阿比特科技有限公司