人類具有從原始感官輸入(如視頻和音頻)中學習強大感知能力的非凡能力,并且幾乎不需要監督。盡管在建模高層次認知功能(如語言理解與生成)方面取得了巨大的近期進展,但我們目前最先進的計算機視覺模型在學習感知和表征物理世界的效率和性能方面,遠遠落后于人類水平。它們通常需要大量的訓練數據,并且這些數據需要昂貴的手工標注,任務特定的架構,以及即便在模型參數和訓練數據規模增大的情況下,性能提升也非常有限。在本論文中,我們研究了如何從原始未標注的視頻數據構建可擴展的通用感知系統的問題。核心思想是訓練一個大規模的世界模型,基于視覺數據。預訓練的世界模型根據當前狀態和額外干預預測可能的未來世界狀態。我們進一步展示了,可以利用預測器生成的預測結果,以零-shot(零樣本)方式提取廣泛的視覺結構——如關鍵點、光流、分割和深度信息。 本論文分為三部分,我們在其中探索了無需手工標注的新范式,用于訓練可擴展的通用感知系統。第一部分,我們提出了通過利用視頻中的運動作為自監督信號來學習結構化場景表示的新方法。第二部分,概述了一個用于在視頻數據上預訓練大規模世界模型的通用框架,這反過來使得通過統一架構和任務接口能夠零-shot地提取不同的視覺結構。第三部分,進一步通過解決不確定性管理的關鍵挑戰,提升了世界模型的性能。
機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。
本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。
為了使機器人系統能夠在真實世界中常常令人驚訝且不可預測的環境中成功運行,它們必須具備在部署期間學習和適應的能力。然而,在機器人領域,通常將每個機器人視為一個單獨的孤立系統,必須獨立學習新技能并對環境作出反應。實際上,世界早已是一個高度互聯的環境,數以億計的獨立設備持續進行通信。因此,沒有理由機器人系統不能遵循相同的模式。事實上,由于數據獲取通常是有效且高效學習的瓶頸,多機器人系統可以通過協作共享多個機器人收集的數據,實現學習速度的倍增效應。 本論文提出了三種用于互聯多機器人系統協作學習的新型算法,以及支持并驗證它們在真實世界中部署的工具與分析方法。 第一個算法在本論文的第三章中介紹,是一種新穎的自主車隊對數百個目標車輛進行同時跟蹤的方法。通過利用多個自動駕駛車輛的實時數據,該算法使車隊能夠形成對所跟蹤目標車輛運動的城市級感知。每輛車隊中的車輛隨后都能夠利用這種感知,即使在沒有直接視線的情況下,也能預測被跟蹤車輛的未來運動,從而避免諸如盲角等危險情況。我們通過在真實的自動駕駛車輛仿真環境中進行城市級分布式多目標跟蹤演示了該方法的潛力。 第四章介紹了本論文的第二個算法貢獻,一種使互聯機器人能夠利用各自獨立收集的數據,以通信高效的方式協作優化神經網絡參數的方法。該算法可推廣至任何神經網絡架構,且從不需要傳輸原始數據,從而保證了通信效率。為了驗證我們的觀點,我們展示了該方法在三個不同的應用場景下優于基線方法:分類、神經隱式映射和強化學習。 最后,在第五章中,我們討論了本論文的最后一個貢獻,一種多機器人度量-語義映射算法,使多種不同的機器人系統能夠異步且協作地學習高度詳細的環境地圖。在實驗演示中,我們展示了該方法在多個不同環境中的有效性,并證明了生成的地圖可用于多機器人無碰撞運動規劃,同時支持開放詞匯的語義目標指定。
本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:
SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。
本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。
當我們說話、寫作或聆聽時,我們不斷地基于對語言語法的知識進行預測。令人驚訝的是,兒童僅僅在幾年內便能掌握這種語法知識,使得他們能夠理解并將這種知識推廣到從未說過的新結構中。語言模型是強大的工具,它們通過逐步預測句子中的下一個詞來構建語言的表示,并且在近年來對社會產生了巨大影響。本文的核心研究問題是,這些模型是否擁有類似于人類的深刻語法結構理解。這個問題位于自然語言處理、語言學和可解釋性研究的交叉點。為了回答這個問題,我們將開發新的可解釋性技術,以加深我們對大規模語言模型復雜本質的理解。我們將從三個方向來探索這個研究問題。首先,我們通過結構性啟動(structural priming)這一心理語言學中的關鍵范式,探索抽象語言信息的存在,這一范式可以揭示人類語言處理中的語法結構。接下來,我們考察各種語言現象,如形容詞順序和否定極性項目,并將模型對這些現象的理解與其訓練數據分布進行關聯。最后,我們引入一個受控的測試平臺,用于研究語言模型中的層級結構,采用各種逐步增加復雜度的合成語言,并考察特征交互在建模這些結構中的作用。我們的研究結果提供了關于語言模型表示中蘊含的語法知識的詳細描述,并為使用計算方法研究基本語言學問題提供了若干方向。
隨著我們開始與人工智能系統進行交互,這些系統需要能夠以四維(4D)的方式理解視覺世界——也就是說,感知世界中的幾何結構和運動。然而,圖像空間中像素的差異可能由幾何變化(如相機運動)或場景中的運動引起。要從單個視頻中分離這兩種來源是一項極具挑戰性的欠約束問題。在本文中,我構建了多個系統,用于從有限的圖像觀測中恢復場景表示。具體而言,我研究了一系列問題,逐步解決4D單目恢復問題中的不同方面,每個問題都針對該問題的欠約束特性提出解決方案。首先,我研究了在沒有場景運動的情況下,從欠約束輸入中恢復形狀的問題。具體來說,我提出了pixelNeRF,這是一種從單視圖或少量視圖合成靜態場景新視角的方法。通過在多個場景中訓練基于圖像特征的三維神經表示,我們學習了一個場景先驗。這種學習到的場景先驗使得可以從單個或少量圖像的欠約束輸入中完成三維場景重建。接著,我研究了在沒有三維形狀的情況下恢復運動的問題。特別是,我提出了Deformable Sprites,一種從輸入視頻中提取動態場景持久元素的方法。我們將每個元素表示為在視頻中變形的二維圖像層。最后,我提出了兩項關于從單個視頻中聯合恢復四維世界中形狀和運動的研究。首先,我研究了動態人類的特殊情況,并提出了SLAHMR,通過該方法,我們可以從單個視頻中恢復所有人的全局姿態以及世界坐標系中的相機位置。然后,我轉向從單個視頻中恢復任意動態對象的通用情況,在Shape of Motion中,我們將整個場景表示為四維高斯分布。這種表示可以用于動態新視角合成和三維跟蹤。
當我們拍攝視覺世界的視頻時,所得到的視頻是一系列時間切片中該世界的快照。當人們觀看此類視頻時,他們會感知到被捕捉的世界的四維(4D)特性。也就是說,觀眾能夠理解場景中的元素如何在三維空間和時間上相互關聯。 例如,考慮圖1.1中的視頻,展示了兩個人見面并擁抱的場景。觀眾可以看到穿白衣女子表面上各點在三維空間中的相互關系——這些關系形成了她表面幾何形狀的整體。觀眾還可以觀察到白衣女子和背橙色背包女子在擁抱時身體各部分的空間關系,這些關系定義了場景中實體的布局。此外,觀眾還可以看到所有這些關系——無論是她們各自身體表面點之間的關系,還是彼此之間的關系——在時間上的變化,隨著兩人在山間一座房子前見面并擁抱。 觀眾能夠從單個視頻中感知這些四維關系。然而,對于機器來說,視頻只是像素的流動。那么,我們是否可以讓機器也理解這些關系呢?
我們將恢復捕捉場景的時空關系的問題稱為4D重建問題。我們將一個四維場景概念化為由三個主要元素組成:靜態環境(例如建筑物、街道、田野)、運動的主體(例如人、動物、汽車)以及相機(可能也在移動)。這些元素各自具有其獨特的三維幾何和外觀。此外,由于場景中的元素在移動,每個時間點它們相對于場景中的其他元素都會處于不同的位置。 對于一個靜態場景來說,多個投影視角之間的二維像素變化可以用來通過三角測量方法恢復底層的三維形狀 [56]。對于一個動態變化的場景,可以在每個時間點應用同樣的關系,通過多個投影視角恢復三維形狀。這種方法中,同時視角之間的像素變化仍然僅與三維形狀相關。 然而,單個視頻僅在每個時間點捕捉到這個演變中的四維世界的二維投影視圖。這帶來了一個根本性挑戰:視角間的像素變化可能來自三維形狀(由于視角變化),也可能來自場景運動。那么,我們如何將形狀與運動分離? 盡管如此,視頻觀眾卻能夠在每個時間點僅通過單個觀測推斷出場景元素的形狀和運動。這種顯而易見的模糊性下,觀眾卻能輕松地理解這些四維關系。那么,我們如何設計系統,使其能夠做到同樣的事情?
在本文中,我構建了多個系統,從有限的圖像觀測中恢復場景表示。具體來說,我研究了一系列逐步解決單目4D恢復問題的恢復問題,每個問題針對該問題的欠約束特性提出了不同的解決方案。 在第二章中,我研究了靜態場景的三維重建問題,即在沒有運動的情況下恢復形狀。具體而言,我們通過使用多視角數據訓練一個基于圖像條件的三維表示,學習如何合成靜態場景的新視角。在第三章中,我研究了動態場景中運動的恢復問題,即在沒有三維形狀的前提下,恢復單個視頻中的二維運動元素。我們將這些元素建模為隨時間變形的持久二維圖像層。 接下來,我重點研究從單個視頻中同時恢復形狀和運動的問題。在這一背景下,核心挑戰在于從視頻中觀察到的像素變化中分離幾何和運動的影響。在第四章中,我研究了動態人類這一特殊情況,以解決人類拍攝視頻中最常見的復雜運動來源。我們直接使用參數化的人體形狀和運動先驗來指導三維形狀和運動的恢復。在第五章中,我研究了從任意視頻中恢復任意動態對象的問題。在這里,我們用單幀的單目深度估計和二維對應關系代替參數化先驗,以指導形狀和運動的分離。在這兩個研究中,我們都通過全局優化恢復了場景的四維表示。
盡管許多多模態機器學習方法相較于單一感知的單模態方法在準確性上取得了優越的表現,但它們隱含地假設視覺模態總是清晰的。然而,這一假設在實際應用中容易被證偽,因為在日常環境中,視覺條件不佳的情況十分常見。我們發現,當視覺條件具有挑戰性時,現有的機器學習方法往往無法有效地利用其他模態的信息。因此,它們過度依賴視覺模態,因為在訓練數據中,視覺模態通常是可靠且信息豐富的。結果,當視覺條件變差并開始包含誤導性信息時,這些方法無法適應。此外,傳統的多模態模型從未學會在視覺挑戰場景中找到跨模態的對應關系。本論文旨在研究在視覺挑戰條件下的多模態學習。我們將在各個章節中分別探討每種變化,并提出我們的解決方案,以實現更有效的多模態表示學習。最后,在論文的最后一章,我們將提供一個簡要的結論。我們希望我們的研究能激發更多關于視覺挑戰條件下多模態學習的研究。
//hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。
深度學習算法,比如那些用于圖像識別的算法,在自動化醫療診斷和指導臨床決策方面大有前途。與此同時,醫學深度學習系統的開發和臨床轉化還面臨著一些重要的挑戰。首先,開發大型且注釋良好的數據集成本很高。其次,醫學圖像判讀有必要識別病灶的微妙關鍵特征,盡管在人群中生理外觀有很大差異。第三,由于域轉移問題,將深度學習算法的性能從一種設置轉移到另一種設置具有挑戰性。第四,深度學習系統的輸出需要是可解釋的,以便臨床醫生能夠理解系統。本文研究了如何應對這些挑戰,從小型數據集構建可泛化和可解釋的深度學習模型。本文研究了將從非醫療源ImageNet學習到的先驗知識遷移到醫療應用對模型性能的影響,特別是當數據集大小不夠時。與直接從ImageNet轉移學習不同,GrayNet被提議作為一個橋梁數據集,在從ImageNet學習到的通用圖像特征上創建一個預先訓練的豐富醫學圖像表示的模型。分析了GrayNet的優點,包括總體性能和跨不同成像掃描儀的泛化,并與使用小數據從頭開始訓練和從ImageNet轉移學習進行了比較。受放射科醫生如何解釋診斷圖像的啟發,還介紹了特定領域的技術,包括窗口設置優化和切片插值,并展示了進一步增強模型性能的方法。引入了一個新的可視化模塊,能夠在訓練過程中生成一個圖像圖譜,并將其顯示為測試過程中所做的模型預測的基礎,以證明模型預測的合理性,并使臨床醫生更容易理解它們。本論文通過三種不同的應用展示了深度學習在醫學圖像判讀方面的潛力,包括人工智能輔助骨齡評估,以提高人類的準確性和可變性,發現以前未識別的模式,在手部x光片中進行骨性別分類,以及處理原始計算機斷層掃描數據,而不需要圖像重建。本論文的貢獻有望促進各種醫療應用中可推廣和可解釋的深度學習算法的發展,從而加速人工智能系統進入臨床實踐。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。