當代機器學習系統在各種任務上都取得了巨大的成功,包括圖像分類、目標檢測和跟蹤以及推薦算法。這一成功是由計算能力的巨大進步推動的,它使我們能夠利用大型訓練數據集,具有大量的類和具有大量參數的訓練模型。事實上,這些系統使用的模型具有足夠的模型容量,可以在有噪聲甚至完全隨機的標簽上訓練到誤差。然而,這些模型在實踐中往往具有很好的泛化性,避免了有害的“過擬合”。良好泛化的關鍵在于模型體系結構和訓練算法的隱性偏差,它們引導我們找到良好泛化的解決方案。本文通過分析過度參數化的線性模型,證明良好泛化的充要條件,從理論上更好地理解這一現象。此外,我們還實證研究了在訓練模型來解決控制領域的實際問題時,是否可以利用我們關于問題領域的知識來設計正確的內隱偏差。
我們從分析過參數化線性回歸的簡單設置開始,當特征的數量超過訓練點的數量時,對有噪聲的數據擬合一個線性模型。通過采取傅立葉理論的角度,我們映射了由過度參數化帶來的關鍵挑戰,眾所周知,由于欠采樣導致真實信號混疊的現象。借用信號處理中的“信號出血”和“信號污染”的概念,我們為傅里葉特征設置導出了良好的泛化條件。
接下來,我們分析最小-?2-范數插值器在高斯特征設定下的回歸和二元分類問題的泛化誤差。對于回歸,我們插值實值標簽,對于二元分類,我們插值二元標簽。(事實證明,在充分的過參數化條件下,二值標簽的最小范數插值與其他二值分類訓練方法等價,如支持向量機或邏輯損失梯度下降法。)我們研究了一個漸近設置,其中特征的數量d與訓練點的數量n成比例,且都是n, d→∞。在特征的雙水平尖峰協方差模型下,證明了存在一種中間狀態,在這種狀態下,我們在分類任務上表現良好,但在相應的回歸任務上表現不佳。然后,我們將分析擴展到多類分類設置,其中類的數量也與訓練點的數量成比例,通過導出由一熱編碼標簽的最小范數插值器引起的分類誤差的漸近界。最后,為了理解我們如何學習在實踐中很好地推廣的模型,我們經驗地研究了神經網絡的應用,在硬控制問題中,最優解是未知的,線性解被證明是次優的非線性控制策略。通過智能設計神經網絡架構和訓練方法,利用我們對控制系統動力學的知識,我們能夠更容易和魯棒地學習性能良好的控制策略。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
本書介紹了信號處理的基本原理和技術,從信號和系統理論的基本思想到真實世界的應用。學生被介紹到現代信號處理的強大基礎,包括希爾伯特空間的基本幾何,傅里葉變換的數學,以及采樣、插值、逼近和壓縮的要點。作者討論了現實世界的問題和使用這些工具的障礙,以及適應他們的方法,以克服有限和本地化的問題,不確定性的限制,和計算成本。它包括超過160個家庭作業問題和超過220個工作示例,專門設計用于測試和擴展學生對信號處理基礎的理解,并伴隨著廣泛的在線材料,旨在幫助學習,包括Mathematica?資源和交互式演示。
這本書涵蓋了現代信號處理的深入理解的基礎。它包含了許多讀者以前可能看到的分散在多個來源的材料,但沒有希爾伯特空間解釋,這在信號處理中是必不可少的。我們的目標是用幾何來教授信號處理,也就是說,將歐幾里得幾何觀點擴展到抽象信號;我們用希爾伯特空間幾何來完成。通過這種方法,基本概念——如基的性質、傅里葉表示、采樣、插值、逼近和壓縮——通常在有限維度、離散時間和連續時間中統一起來,從而更容易指出少數的本質區別。幾何上統一結果有助于推廣到傅里葉域以外的見解,推動理解得更遠、更快。
這本書的目的是為剛才描述的方法開發框架,即擴展和近似,以及展示這些方法在工程和應用科學中使用的實際例子。特別地,我們將看到擴展和逼近與采樣、濾波、估計和壓縮等基本信號處理任務密切相關。
第二章,從歐幾里得到希爾伯特,介紹了希爾伯特空間的基本結構。這些向量空間被賦予了可以歸納直觀幾何性質的操作。在一般情況下,我們提出信號表示的概念,它本質上是向量空間的坐標系。當一個表示是完整的且不冗余的,它為空間提供了基礎;當它是完整的和冗余的,它為空間提供了一個框架。基的一個關鍵優點是正交性;與框架相對應的是緊密性。
第3章和第4章將我們的注意力集中在序列和函數空間上,它們的域可以與時間相關聯,從而得到一種在一般希爾伯特空間中不一定存在的內在排序。
在第3章“序列與離散時間系統”中,向量是依賴于離散時間的序列,在這些向量上的一類重要的線性算子是對時移不變的算子;這些是卷積算子。這些運算符自然地導致使用離散時間傅里葉變換的信號表示,而對于循環擴展的有限長度序列,則使用離散傅里葉變換。
第四章,函數與連續時間系統,平行于第三章;向量現在是一個依賴于連續時間的函數,關于這些向量的一個重要的線性算子是那些對時移不變的;這些是卷積算子。這些運算符自然地導致使用傅里葉變換的信號表示,對于循環擴展的有限長度函數,或周期函數,傅里葉級數。這兩章中的四種傅里葉表示在不同的領域中例證了線性、移位不變算子或卷積的對角化。
第5章,采樣和插值,在第3章和第4章之間建立了基本的聯系。將離散時間序列與給定的連續時間函數聯系起來是采樣,反之則是插值;這些是信號處理中的核心概念,因為連續域現象的數字計算必須在離散域中進行。
第6章,近似和壓縮,介紹了許多類型的近似,這些近似是制造計算實用工具的核心。研究了多項式逼近和級數展開式截斷法,以及壓縮的基本原理。
第7章,局部化和不確定性,介紹了單個向量的時間、頻率、尺度和分辨率特性;這些屬性建立了我們的直覺,讓我們知道單個表示系數可能捕捉到什么,也可能捕捉不到什么。然后,我們研究用于表示信號的向量集的這些性質。具體地說,時間和頻率本地化導致了時頻平面的概念,傅里葉技術和小波技術之間的本質區別變得明顯:傅里葉技術使用頻率上的等間距向量,而小波技術使用頻率上的冪律間距向量;此外,傅里葉技術使用等尺度的向量,而小波技術使用幾何間距的尺度。我們以真實信號的例子結束,以發展對各種信號表示的直覺。
在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。
與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761
如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。
上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。
自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。
論文貢獻:
1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。
2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。
3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。
4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。
5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930
在過去的幾十年里,分析為徹底改變醫療保健提供了希望,提供更有效、以患者為中心和個性化的護理。隨著越來越多的數據被收集、計算性能得到提高以及新算法的開發,機器學習已被視為推進醫療保健服務的關鍵分析工具。然而,直到最近,盡管人們對大數據的潛力充滿熱情,但只有少數例子影響了當前的臨床實踐。本論文提出了預測性和規范性方法的組合,這些方法將有助于向個性化醫療的過渡。
我們提出了新的機器學習算法來解決主要的數據缺陷,如缺失值、審查觀察和未觀察到的反事實。利用各種數據源,包括健康和索賠記錄、縱向研究和非結構化醫療報告,我們展示了分析在心血管和腦血管疾病背景下的潛在好處。為了推動這些方法的采用,我們在算法保險領域奠定了基礎,提出了一個量化框架來估計機器學習模型的訴訟風險。這項工作強調可解釋性和促進臨床醫生參與融入醫療保健系統的模型設計。
第一部分介紹了機器學習和優化交叉點的缺失數據插補、聚類和生存分析的數據驅動算法。第二部分強調了醫學領域的規范性和預測性分析的潛力。我們為個性化處方開發了一個新框架,并將其應用于冠狀動脈疾病的治療。第二部分還介紹了可以支持早期診斷和改善中風患者管理的預測模型。最后,第三部分提出了一種新的風險評估方法,使醫療機構能夠管理因實施分析決策工具而產生的風險。
ML 模型已開始在現代組織中發揮重要作用。在當今瞬息萬變的經濟和社會中,它們正迅速成為轉型、顛覆和競爭優勢的關鍵來源。等待這種影響的科學領域前沿是醫療保健和保險。這些領域的特點是不確定性和可變性,這對臨床醫生、政策制定者和商業領袖的決策過程構成重大挑戰。需要考慮的參數太多,潛在的并發癥眾多,而少數群體的專業信息匱乏。
醫療實踐仍然主要由傳統的統計技術驅動,這些技術從有限的樣本量和風險因素中得出結論。數據驅動的流程尚未整合到醫院決策中,而廣泛建立的醫療指南主要針對普通人群,在絕大多數情況下缺乏個性化。分析和機器學習為該領域創造了前所未有的機會,提供了可以利用大數據力量的新技術,在個人層面發現新見解。本論文的目的是展示我們如何利用這些寶貴的資源來個性化決策,并最終為患者、醫療機構和保險組織帶來更好的結果。
從電子健康和索賠記錄到縱向研究和非結構化醫療報告,醫療保健行業使用各種需要專門算法的數據源。該領域遇到的問題的復雜性以及數據的不完整性,對充分發揮其潛力構成了重大挑戰。第一部分介紹了利用優化技術解決醫療保健應用中遇到的一些最常見數據問題的新 ML 算法:缺失值、聚類和刪失。在第 2 章中,我們設計了一種新方法 MedImpute,用于在多變量面板數據中估算缺失的臨床協變量。在第 3 章中,我們提出了通過最優樹 (ICOT) 進行可解釋聚類,這是一種恢復可解釋數據集群的新型無監督學習方法。在第 4 章中,我們解決了使用最優生存樹 (OST) 算法進行刪失的挑戰,生成全局優化的生存樹模型。與各種數據集和環境上的現有成熟方法相比,我們展示了這些算法的卓越計算性能。第一部分提供了可解釋性不必以犧牲準確性為代價的證據,提供了一套新的工具,可以在醫療保健中采用數據驅動模型方面發揮關鍵作用。
第二部分說明了分析對醫療保健行業的變革力量,強調了我們與醫學研究人員在創建促進臨床決策的規范模型和預測分數方面的聯合研究工作。首先,我們展示了如何利用可用的 ML 算法在患者層面提供治療建議,從而實現向個性化醫療的過渡。我們的工作通過綜合大量患者對不同方案觀察到的異質反應,揭示了個性化、高效的治療方法。我們的規范算法利用了基于投票方案的通用監督學習模型的組合。它的性能是通過一系列新的評估指標來衡量的,這些指標考慮了在各種基本事實下多種治療的反事實結果。因此,我們評估了規范方法的準確性、有效性和魯棒性。我們將這項技術應用于冠狀動脈疾病 (CAD) 的管理,這是對人類健康影響最大的臨床疾病之一(第 5 章)。
接下來,我們專注于以中風患者為中心的預測模型。我們強調模型推導和外部驗證過程,并提出潛在的技術來從非線性模型中識別可操作的見解。使用來自廣為人知的弗雷明漢心臟研究的結構化數據,我們在第 6 章中提出了一個健康個體估計 10 年中風風險的新模型。該模型已在波士頓醫療中心 (BMC) 進行了前瞻性驗證,并且正在 Hartford HealthCare 的初級保健機構進行回顧性評估。第 7 章轉向非結構化信息,介紹從非結構化放射影像文本中提取患者信息的綜合框架。我們結合使用自然語言處理和監督學習方法,自動檢測缺血性中風的潛在存在、位置和嚴重程度。該模型現已在布萊根婦女醫院和 BMC 成功用于患者表征。
在這些調查中,我們的目標是這些模型的采用和臨床整合。為了提供影響醫療實踐的有用且可解釋的工具,我們開發了在線 Web 應用程序來傳達建議的推薦系統結果。事實證明,這些接口對于確保醫生使用模型并在部署它們的醫療保健組織中產生真正的影響至關重要。
現代醫療保健組織中數據驅動工具的實施同時擾亂了保險業。通過提供強大的預測模型來估計可能導致索賠的不良事件(即心臟病發作、癌癥等)的概率,分析已經開始超越健康保險中的傳統精算方法。未來,機器學習算法有望發揮更核心的作用,因為在預測性和規范性性能產生更好結果的情況下,它們將被要求取代人類決策。這種轉變引發了具有挑戰性的問題:“如果算法的推薦錯誤,誰來承擔責任?”和“我們如何保護決策者免受錯誤的算法預測?”隨著人工智能開始融入組織的決策過程,必須開發新型保險產品來保護其所有者免受風險。潛在的例子包括應用于放射學的圖像識別系統,這些系統可能承擔醫療責任,并從醫療保健擴展到自動駕駛汽車或用于制造的預測性維護算法,以及許多其他應用。第三部分為稱為算法保險的新研究領域奠定了基礎。我們提出了一個全面的量化過程來估計算法責任保險合同的風險敞口,同時考慮到二元分類模型的預測性能、可解釋性和可概括性。我們在醫療事故的背景下展示了我們的方法實施。
本文的貢獻可以總結如下,按章節列出。
數據缺失是醫療保健研究中的一個主要問題,因為不完整的信息經常出現在患者記錄中。在本章中,我們提出了一個新框架 MedImpute,用于在多變量面板數據中估算缺失的臨床協變量。這種方法提出了一種靈活的優化公式,可以對其進行修改以適應不同的插補算法。它可以使用廣泛的臨床數據集作為輸入,包括來自臨床試驗和電子健康記錄 (EHR) 的信息,這些信息對個性化醫療具有特別的研究興趣。我們將我們的貢獻總結如下:
? 我們在 MedImpute 框架下用時間序列信息制定了缺失數據插補的問題,擴展了 Bertsimas 等人 (2018) [32]提出的 OptImpute 框架。我們專注于 ??-最近鄰 (??-NN) 公式來解決優化問題并推導出相應的快速一階算法 med.knn。
? 我們進行了一系列計算實驗,測試該方法在三個真實世界數據集上的性能,改變缺失數據的百分比、每個個體的觀察次數以及缺失數據的機制。
? 我們證明,相對于其他最先進的缺失數據插補方法,med.knn 在所有實驗中始終能帶來最佳的預測性能和最低的插補誤差。
? 我們提出了一種新的自定義調整程序,以有效地學習優化問題中的超參數,與標準交叉驗證相比,該程序具有卓越的縮放性能和更好的插補精度。
本章中的工作成果發表在“機器學習”期刊 [41]。
圖 2.1:在 FHS、DFCI 和 PPMI 數據集上使用 MAE 度量的每種方法的插補誤差,缺失數據的百分比從 10% 變化到 50%。缺失數據機制固定為 MCAR。
廣泛建立的聚類技術不能提供數據分離背后的直觀推理,從而限制了它們的可解釋性。在現實世界的應用中,特別是在醫療保健環境中,后者對決策者采用和集成 ML 工具構成了主要障礙。在本章中,我們提出了一種基于樹的無監督學習方法,該方法可以獲得可解釋的集群,其性能與其他現有算法相當或更好。我們的貢獻如下:
? 我們提供了無監督學習問題的 MIO 公式,導致創建全局最優聚類樹,激發了我們的新算法 ICOT。
? 我們建議使用迭代坐標下降 (CD) 方法來實現我們的方法,該方法可擴展到更大的問題,很好地逼近全局最優解。
? 我們引入了其他技術,利用采樣和集群創建的幾何原理來提高算法的效率。
? 我們證明,ICOT 與使用跨多個內部驗證標準的合成數據集的各種聚類方法相比具有競爭力。
? 我們提供了該算法如何在實際環境中使用的示例,并測試了 ICOT 對大型問題實例的擴展能力。
本章的工作成果發表于“機器學習” 期刊[31]。
圖 3.1:基于 Ruspini 數據集構建的聚類樹示例。
生存分析解決了數據集中出現的挑戰,在這些數據集中出現了審查觀察結果,其中感興趣的結果通常是事件發生前的時間,但對于某些人來說,事件的確切時間是未知的。審查結果在醫療保健研究中無處不在,因此,用于生存分析的 ML 方法越來越受歡迎。我們提出了利用 MIO 和局部搜索技術生成全局優化生存樹模型的 OST 算法。我們證明 OST 提高了現有生存樹方法的準確性,特別是在大型數據集中。本章的主要貢獻是:
? 我們提出了一種生存樹算法,該算法利用 Optimal Trees 框架為審查數據生成可解釋的樹。
? 我們提出了一種新的準確度指標,用于評估 Kaplan-Meier 曲線估計相對于模擬數據集中已知生存分布的擬合度。
? 我們評估了我們的方法在模擬和真實世界數據集中的性能,并展示了相對于兩種現有算法的改進準確性。
? 我們提供了該算法如何用于預測不良事件風險并在現實世界數據集中產生臨床見解的示例。
本章中的工作已提交出版[28]。
圖 4.1:在 60 個真實世界數據集中平均分類方法的性能。 OCT 和 OCT-H 分別指的是沒有和有超平面分割的最優分類樹。
圖 4.6:生存樹算法的樹恢復指標摘要。
在本章中,我們的目標是為 CAD 患者找到最佳的主要治療方法,以最大限度地提高 TAE(心肌梗塞或中風)。我們提出了一種數據驅動的方法,利用多種回歸算法為每位患者分配具有最佳預測結果的方案。我們開發預測性和規范性模型,提供個性化的治療建議和評估它們的定量框架。本章的主要貢獻是:
? 我們提出了一種治療右刪失患者的新方法,該方法利用 ??-NN 方法來估計真實世界數據的真實生存時間。
? 我們開發了可解釋且準確的二元分類和回歸模型,用于預測 CAD 患者潛在不良事件的風險和時間。
? 我們提出了第一個利用 EHR 為 CAD 提供治療建議的規范性方法,將多個最先進的回歸模型與臨床專業知識相結合。
? 我們引入了一種新的評估框架來衡量規范算法的樣本外性能。
? 我們創建了一個在線應用程序,醫生可以在其中實時測試算法的性能,從而縮小與臨床實踐的差距。
本章中的工作成果發表于“醫療管理科學”期刊 [42]。
圖 5.3:OCT 模型第一部分的可視化。路徑 1 和 2 用藍色虛線矩形框表示。陰影節點包括樹模型的折疊子集。
絕大多數中風發生在沒有梗塞病史的人群中,這突出了健康個體需要準確的中風風險評估工具。標準中風風險評分基于風險因素與疾病患病率之間存在線性關系的假設。然而,數學和醫學現實表明,這些因素的相互作用遠非線性,并且由于其他變量的缺失或存在,某些變量會獲得或失去意義。本章介紹 N-SRS;一種預測 10 年中風風險的新模型。利用 ML 算法,我們的風險計算器提高了事件預測的準確性,并以可解釋的方式揭示了患者特征之間的新關系。本章的主要貢獻如下:
? 我們提出了一種利用縱向研究數據用于監督學習模型的新方法,允許在訓練和測試隊列中出現同一患者的多個實例。
? 我們使用來自著名的弗雷明漢心臟研究的數據開發并驗證了第一個非線性、可解釋的預測評分,用于 10 年中風風險。
? 我們展示了 N-SRS 樹結構如何導致識別 23 個中風風險概況,突出新變量在疾病進展中的作用,例如心電圖結果中顯示的血細胞比容水平或異常。
? 我們構建了一個動態在線應用程序,作為算法的用戶友好界面,供臨床提供者使用。
本章中的工作發表于 PLOS one [257]。
圖 6.1:基于 N-SRS 樹的模型的可視化。
快速、準確的數據提取可以顯著改善在大型數據集中識別中風、分類關鍵臨床報告和質量改進工作。然而,廣泛使用的 ICD-9/10 代碼經常錯誤地對缺血性卒中事件進行分類,并且不區分嚴重程度或位置。在本章中,我們的目標是開發一種工具,能夠以準確和自動化的方式從非結構化文本中提取臨床卒中信息。我們開發并報告了一個綜合框架,該框架研究了簡單和復雜的中風特異性自然語言處理 (NLP) 和監督學習技術的性能,以從射線照相文本中確定缺血性中風的存在、位置和嚴重度。我們將我們的貢獻總結如下:
? 我們收集了來自兩個大型學術醫療中心的 17,864 名患者的 60,564 份放射學報告。神經病學專家標記了 1,359 份報告,以確定中風的存在、位置和敏銳度。
? 我們應用標準文本特征化技術并開發神經血管特定詞 GloVe 嵌入。
? 我們訓練和驗證各種二進制分類算法,以從放射學報告中識別感興趣的結果。
? 我們證明了與深度學習配對的 GloVe 詞嵌入在推導和驗證隊列中的三項任務的所有方法中具有最佳的識別性能。
本章的工作成果發表于 PLOS one [256] 中。
圖 7.1:NLP 分類的接收器操作曲線。 A、中風存在; B、MCA位置; C、嚴重度。我們展示了數據的五次隨機拆分的平均靈敏度和特異性。
ML 建模者和決策者免受算法錯誤的訴訟風險。在本章中,我們針對二元分類模型提出了一類新的訴訟索賠保險產品以及評估它們的定量工具。這項工作提供了一個全面的分析過程來評估此類模型的財務風險,為算法保險的新領域奠定了基礎。本章的主要貢獻是:
? 我們提出了一個定量框架,該框架根據模型的辨別性能、可解釋性和可概括性來估計模型的風險敞口。
? 我們采用優化公式來同時估計給定分類模型的保費和訴訟風險。我們使用穩健的優化和圍繞潛在損失場景的不同類型的不確定性來擴展公式。
? 我們為醫療責任提供了乳腺癌檢測的案例研究,并研究了模型參數在計算實驗中的影響。本
章的工作已提交出版 [30]。
圖 8.1:對于 ??、?? 分布的兩種不同組合,CVaR 作為 ?? 參數的函數。
盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。
在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。
其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。
在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。
結構化數據的自適應處理是機器學習中一個長期存在的研究課題,研究如何自動學習從結構化輸入到各種性質的輸出的映射。最近,人們對圖形的自適應處理越來越感興趣,這導致了不同的基于神經網絡的方法的發展。在本論文中,我們采用不同的方法,開發了一個用于圖學習的貝葉斯深度學習框架。本論文首先回顧了該領域中大多數方法建立的原則,然后對圖分類再現性問題進行了研究。然后,通過以增量的方式構建我們的深度架構,我們繼續將深度學習的基本思想與貝葉斯世界聯系起來。這個框架允許我們考慮具有離散和連續邊緣特征的圖,產生足夠豐富的無監督嵌入,以達到在多個分類任務上的先進水平。該方法還支持貝葉斯非參數擴展,它可以自動選擇幾乎所有模型的超參數。兩個真實世界的應用證明了深度學習對圖形的有效性。第一個問題是用有監督的神經模型預測分子模擬的信息理論量。之后,我們利用貝葉斯模型來解決惡意軟件分類任務,同時對過程內代碼混淆技術具有魯棒性。最后,我們試圖將神經和貝葉斯世界的精華融合在一起。由此產生的混合模型能夠預測以輸入圖為條件的多模態分布,因此能夠比大多數工作更好地模擬隨機性和不確定性。總的來說,我們的目標是為圖形深度學習的研究領域提供一個貝葉斯視角。
譜方法已經成為一種從大量、噪聲和不完整的數據中提取信息的簡單而有效的方法。簡而言之,譜方法指的是建立在特征值和特征向量上的一組算法。在機器學習、成像科學、金融和計量建模以及信號處理領域,已經發現了一系列不同的應用,包括推薦系統、社區檢測、排名、結構化矩陣恢復、張量數據估計、關節形狀匹配、盲反褶積、金融投資、風險管理、治療評估,因果推理等等。由于其簡單和有效性,譜方法不僅被用作獨立的估計器,而且經常被用于促進其他更復雜的算法,以提高性能。雖然譜方法的研究可以追溯到經典的矩陣攝動理論和矩量方法,但在過去的十年中,通過統計建模的視角,借助集中不等式和非漸近隨機矩陣理論,在揭開其效力的神秘面紗方面,已經見證了巨大的理論進步。本專論旨在從現代統計角度系統地、全面地介紹譜方法,突出它們在不同的大規模應用中的算法含義。特別地,我們的論述圍繞著幾個中心問題,這些問題涉及不同的應用:如何描述譜方法在達到統計精度目標水平時的樣本效率,以及如何評估它們在面對隨機噪聲、缺失數據和對抗性破壞時的穩定性?除了傳統的l2攝動分析,我們提出了一個系統的l∞和l2,∞攝動理論的特征空間和奇異子空間,這是最近才成為可用的強大的“留一”分析框架。
強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。
在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。
在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html
深度學習在實踐中的顯著成功,從理論的角度揭示了一些重大的驚喜。特別是,簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案,盡管在沒有任何明確的努力控制模型復雜性的情況下,這些方法提供了近乎完美的訓練數據,這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解,這些方法隱含地施加正則化,過度參數化導致良性過擬合,也就是說,盡管過擬合訓練數據,但仍能準確預測。在這篇文章中,我們調查了統計學習理論的最新進展,它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子,在這些例子中,梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法,關注二次損失的回歸問題。對于這些方法,我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件,但在良好的設置下,不會損害預測精度。我們特別關注神經網絡的線性區域,其中網絡可以用一個線性模型來近似。在這種情況下,我們證明了梯度流的成功,并考慮了雙層網絡的良性過擬合,給出了精確的漸近分析,精確地證明了過參數化的影響。最后,我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。