隨著人工智能在醫學實踐中的逐步融合,對數據高效模型的需求變得尤為重要,特別是在醫學領域獲取大量標注數據集的高成本和復雜性背景下。本論文圍繞三個核心主題展開:
本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:
SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。
本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。
通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。
此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。
隨著人工智能越來越多地融入醫療實踐,數據高效模型的需求變得至關重要,尤其是在醫療領域獲取大型、標注數據集的高成本和復雜性下。本論文圍繞三個核心主題展開:
隨著人工智能(AI)在各個領域的廣泛應用,尤其是在醫療領域,AI在變革醫療診斷和治療方面展現出了巨大的潛力。然而,AI在醫學中的實際應用面臨著顯著的挑戰,特別是在數據可用性、質量以及在不同臨床環境中的通用性方面。本論文題為**《促進醫療人工智能發展的數據高效算法》**,旨在通過開發創新的、數據高效的算法來提高AI在醫療應用中的有效性和可靠性,從而應對這些挑戰。
本論文圍繞三個核心主題展開:利用主動學習解決標簽稀缺問題、通過半監督學習和領域自適應最大化未標注數據的利用、以及通過預訓練基礎模型提升魯棒性和效率。這些主題共同構成了一個連貫的敘述,探討了如何克服標注數據有限、領域自適應以及在醫療背景中實現魯棒、可擴展的AI解決方案的難題。
在醫療領域部署AI模型時,最緊迫的問題之一是標注數據的稀缺性。在許多情況下,獲取大規模、高質量的標注數據集既昂貴又耗時,因為這需要醫療專業人員的專業知識。主動學習成為解決這一問題的關鍵,通過戰略性選擇最具信息量的數據點進行標注,最大化有限標注資源的影響。
本論文首先通過開發對抗表示主動學習框架探討了這一主題。該方法將對抗學習技術與主動學習相結合,創建了一個能夠高效利用標注和未標注數據的模型。通過學習數據的魯棒潛在表示,模型能夠識別并優先標注那些最有可能提高其性能的數據點。該方法的有效性通過標準圖像分類基準測試得到驗證,顯著優于傳統的主動學習方法。
基于此基礎,論文進一步探討了從患者文本中識別醫療癥狀的應用,該研究將主動學習應用于遠程醫療環境中從患者報告文本中識別癥狀的挑戰。該工作應對了長尾、多標簽分布的復雜性,其中一些癥狀較為常見,而另一些則較為罕見,并且患者使用的語言可能高度多樣化。通過利用主動學習,模型能夠重點獲取最關鍵和最具信息量的癥狀標簽,從而提高自動化醫療病史記錄系統的準確性和可靠性。
盡管標注數據稀缺,但在醫療環境中通常有大量的未標注數據。論文的第二個主題集中于通過半監督學習和領域自適應最大化未標注數據的利用,旨在通過有效利用這些未標注數據來提高模型的性能。 在此背景下,提出了AdaEmbed:嵌入空間中的半監督領域自適應,作為一種新穎的方法,用于將AI模型從一個領域自適應到另一個領域。領域自適應在醫療中至關重要,因為在一個臨床環境中訓練的模型在另一個環境中部署時,由于數據分布的差異,通常表現不佳。AdaEmbed通過創建一個共享的嵌入空間來對齊來自源域和目標域的數據,生成目標未標注數據的偽標簽,并結合對比學習,確保自適應后的模型在不同領域中仍然保持準確性和可靠性。
該主題的另一個應用探討了跨手術室的手術活動識別模型的自適應。手術工作流程分析對于提高手術室效率和患者預后至關重要,但在一個手術室訓練的模型往往難以泛化到其他手術室。該工作應用半監督領域自適應技術,創建能夠以最少標注數據自適應到新手術室的模型,從而提高手術活動識別系統的通用性和魯棒性。
本論文的最后一個主題探討了通過預訓練基礎模型提升魯棒性和效率的需求。隨著AI模型變得越來越復雜,能夠重用和自適應預訓練模型以完成特定任務變得愈發重要。這一方法不僅提高了AI系統的魯棒性,還減少了訓練所需的計算資源和數據資源。 該主題通過開發基于視頻的面癱評估人工智能系統得到了體現。面癱是一種嚴重影響患者生活質量的疾病,準確評估對于有效治療至關重要。該工作利用預訓練模型來分析患者視頻,提供客觀和標準化的面癱評估。通過使用預訓練組件,該系統能夠在有限的數據下進行準確評估,展示了基礎模型在臨床應用中的強大能力。
進一步擴展這一主題,論文還提出了利用大型語言模型對創傷護理記錄進行結構化分析。創傷護理文檔通常是非結構化且不一致的,難以提取有意義的見解。該工作應用大型語言模型(如GPT-4),將非結構化的臨床筆記轉化為結構化的、按時間順序排列的格式。這種結構化分析增強了醫療記錄的可訪問性和實用性,促進了及時且有依據的臨床決策,提高了創傷護理的效率和效果。
生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。
我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。
作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。
接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。
然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
隨著機器學習系統逐漸成為我們日常生活的組成部分,尤其是基礎模型的顯著進步,我們必須評估它們的可信性、公平性,并探索改進這些關鍵方面的方法。本論文探討了機器學習模型性能、魯棒性和公平性的測量與提升。此外,我們還研究了這些系統在新應用領域的設計和部署,并將這些指標作為重要目標。
本論文旨在使機器學習在總體上變得更加可信和強大。第一個主題是評估機器學習模型的魯棒性和公平性及其改進策略。我們的方法結合了分布魯棒優化(DRO)和人類難以察覺的對抗攻擊,同時提高了模型的魯棒性和公平性。通過分析機器學習系統的魯棒性和公平性,我們直觀地將機器感知與人類感知更接近。除了魯棒性和公平性之外,我們還研究了梯度流方法,以緩解數據稀缺問題,并在少樣本學習環境中提高分類系統的性能。我們證明了梯度流方法能夠全局收斂,并且在下游遷移學習任務中展示了其生成有用數據樣本的能力。
最后,我們專注于機器學習算法在材料科學領域的創新應用。具體來說,我們設計了機器學習系統來加速分子模擬中罕見事件的采樣。與傳統采樣方法相比,我們的方法在速度上有顯著提高,同時對這些罕見事件的概率估計也更加魯棒。
在整個論文中,我們展示了機器學習在多個方面的改進,包括公平性和魯棒性。我們還展示了它在傳統應用如機械模擬中的強大能力。未來的工作將擴展這些系統,以應對更復雜和更高維度的挑戰。通過不斷的努力,本論文為開發更加可靠和強大的機器學習系統做出了貢獻。。
開發值得決策者信任的機器學習模型對于在實踐中使用這些模型至關重要。算法透明性工具,如可解釋性和不確定性估計,能夠向決策者展示模型的可信度。在本論文中,我們首先探討了從業者在工業界如何使用可解釋性。通過一項訪談研究,我們發現,盡管工程師們越來越多地使用可解釋性方法來測試開發過程中的模型行為,但這些方法在外部利益相關者中采用的情況卻有限。為此,我們為特定決策環境開發了新穎的算法透明性方法,并通過人類主體實驗與真實決策者一起測試這些方法。
我們首先提出DIVINE,一種基于示例的解釋方法,它不僅找到對模型參數有影響的訓練點,而且這些點在輸入空間中具有多樣性。我們展示了我們的解釋如何提高決策者模擬模型決策邊界的能力。接下來,我們討論反事實潛在不確定性解釋(CLUE),這是一種特征重要性解釋方法,識別出如果擾動輸入特征,將會減少模型在給定輸入上的不確定性。我們展示了決策者如何使用我們的解釋來識別模型在未見輸入上的不確定性。 盡管每種方法本身都是成功的,我們更感興趣的是,了解在決策者利用某種形式的決策支持后,結果在何種環境下會有所改善,無論是算法透明性還是模型預測。我們提出了學習決策支持策略的問題,該策略針對給定的輸入,選擇為沒有先驗信息的決策者提供何種形式的支持。利用隨機上下文多臂強盜問題的技術,我們引入THREAD,一種在線算法,用于個性化每個決策者的決策支持策略。我們與真實用戶一起部署THREAD,展示了在線學習個性化策略的過程,并說明了在實踐中學習決策支持策略的細微差別。 我們以個性化決策支持的前景作為本論文的結論,這種支持形式可以包括基于決策者需求的算法透明性。
在機器學習領域,我們致力于開發能夠學習的算法,即在沒有被特別編程完成某項任務的情況下,積累關于如何完成任務的知識。在這篇論文中,我們從兩個不同的角度來探討學習:我們可以應用高效機器學習者的領域以及我們可以通過更有效地解決底層優化問題來改進學習的方式。機器學習方法通常非常依賴數據。雖然現代機器學習在解決實際問題方面取得了巨大成功,但這些成功案例主要局限于有大量相關領域數據可用的設置。元學習領域旨在通過創建“學會如何學習”的模型(即能夠在給出相對較少的示例時迅速適應新任務的模型)來開發具有改進的樣本效率的模型。在本論文中,我們關注使用超網絡進行任務適應的攤銷元學習者,這些學習者成本非常有效,只需通過超網絡進行一次前向傳播即可學會如何執行新任務。我們展示了這些攤銷元學習者可以以超出其在小樣本學習設置中的典型用途的新方式來利用。
我們針對攤銷元學習者開發了一種基于集合的中毒攻擊,這種攻擊讓我們能夠定制一組協同作用的輸入,用作適應新任務的訓練數據(即作為支持集)時,這些輸入能夠欺騙系統的學習算法。這樣共同制作的對抗性輸入可以協同操縱分類器,對于具有可微適應機制的攤銷學習者來說,這種輸入尤其容易計算。我們還在可解釋性領域利用攤銷學習者進行“數據集調試”,在此過程中,我們開發了一種稱為Meta-LOO的數據價值或樣本重要性策略,可用于檢測噪聲或分布外數據;或者將一組示例提煉到其最有用的元素。
從我們的第二個角度看,機器學習和優化是密切相關的;實際上,學習可以被表述為以模型參數為目標的訓練損失最小化問題——盡管實際上我們還需要我們的算法具有泛化能力,這不是更廣泛優化的關注點。選擇的優化策略影響了算法學習的速度以及找到的解決方案(即模型參數)的質量。通過研究優化,我們可以改善我們的模型的學習效果和速度。
在這篇論文中,我們采取了雙管齊下的方法來實現這一目標。首先,我們開發了一種在線超梯度基礎的超參數優化策略,通過支持廣泛的超參數同時保持可擴展性,改進了現有的最佳技術。值得注意的是,我們的方法支持優化算法的超參數,如學習率和動量,這是文獻中類似方法不支持的。其次,我們開發了一種適用于深度學習的非凸損失景觀的二階優化策略。我們的算法近似了一個鞍點是排斥而非吸引的鞍點自由版本的Hessian,以一種適用于深度學習問題的方式。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
深度學習算法,比如那些用于圖像識別的算法,在自動化醫療診斷和指導臨床決策方面大有前途。與此同時,醫學深度學習系統的開發和臨床轉化還面臨著一些重要的挑戰。首先,開發大型且注釋良好的數據集成本很高。其次,醫學圖像判讀有必要識別病灶的微妙關鍵特征,盡管在人群中生理外觀有很大差異。第三,由于域轉移問題,將深度學習算法的性能從一種設置轉移到另一種設置具有挑戰性。第四,深度學習系統的輸出需要是可解釋的,以便臨床醫生能夠理解系統。本文研究了如何應對這些挑戰,從小型數據集構建可泛化和可解釋的深度學習模型。本文研究了將從非醫療源ImageNet學習到的先驗知識遷移到醫療應用對模型性能的影響,特別是當數據集大小不夠時。與直接從ImageNet轉移學習不同,GrayNet被提議作為一個橋梁數據集,在從ImageNet學習到的通用圖像特征上創建一個預先訓練的豐富醫學圖像表示的模型。分析了GrayNet的優點,包括總體性能和跨不同成像掃描儀的泛化,并與使用小數據從頭開始訓練和從ImageNet轉移學習進行了比較。受放射科醫生如何解釋診斷圖像的啟發,還介紹了特定領域的技術,包括窗口設置優化和切片插值,并展示了進一步增強模型性能的方法。引入了一個新的可視化模塊,能夠在訓練過程中生成一個圖像圖譜,并將其顯示為測試過程中所做的模型預測的基礎,以證明模型預測的合理性,并使臨床醫生更容易理解它們。本論文通過三種不同的應用展示了深度學習在醫學圖像判讀方面的潛力,包括人工智能輔助骨齡評估,以提高人類的準確性和可變性,發現以前未識別的模式,在手部x光片中進行骨性別分類,以及處理原始計算機斷層掃描數據,而不需要圖像重建。本論文的貢獻有望促進各種醫療應用中可推廣和可解釋的深度學習算法的發展,從而加速人工智能系統進入臨床實踐。