亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著人工智能越來越多地融入醫療實踐,數據高效模型的需求變得至關重要,尤其是在醫療領域獲取大型、標注數據集的高成本和復雜性下。本論文圍繞三個核心主題展開:

  1. 利用主動學習解決標簽稀缺問題:主動學習用于戰略性選擇最具信息量的數據點進行標注,從而最大化有限標注資源的效用。本研究引入了一種新穎的對抗表示主動學習框架,將對抗學習與主動學習相結合,在有限標注數據的情況下提升模型性能。此外,針對患者報告文本中的醫療癥狀識別的應用,展示了主動學習如何應對遠尾、多標簽分布的挑戰,尤其是在遠程醫療場景中。
  2. 通過半監督學習和領域自適應最大化未標注數據的利用:該論文通過開發利用大量未標注數據的方法推進了半監督學習的前沿研究。提出的AdaEmbed模型用于半監督領域自適應,解決了領域漂移問題,使得在一個臨床環境中訓練的AI模型能夠有效適應新的、未標注的領域。該主題進一步探討了跨不同手術室的手術活動識別模型的自適應,強調了在實現通用化AI解決方案中領域自適應的重要性。
  3. 通過預訓練基礎模型提升魯棒性和效率:為了克服數據有限的挑戰并提高模型的魯棒性,論文探討了在醫療應用中使用預訓練模型和基礎模型的可能性。這通過開發一個用于評估面癱的視頻AI系統得到體現,該系統使用預訓練組件提供準確和標準化的評估。此外,利用大型語言模型對創傷護理文檔進行結構化分析,展示了AI如何將非結構化的臨床筆記轉化為有組織的、可操作的見解,從而提高創傷護理的效率和有效性。

隨著人工智能(AI)在各個領域的廣泛應用,尤其是在醫療領域,AI在變革醫療診斷和治療方面展現出了巨大的潛力。然而,AI在醫學中的實際應用面臨著顯著的挑戰,特別是在數據可用性、質量以及在不同臨床環境中的通用性方面。本論文題為**《促進醫療人工智能發展的數據高效算法》**,旨在通過開發創新的、數據高效的算法來提高AI在醫療應用中的有效性和可靠性,從而應對這些挑戰。

本論文圍繞三個核心主題展開:利用主動學習解決標簽稀缺問題通過半監督學習和領域自適應最大化未標注數據的利用、以及通過預訓練基礎模型提升魯棒性和效率。這些主題共同構成了一個連貫的敘述,探討了如何克服標注數據有限、領域自適應以及在醫療背景中實現魯棒、可擴展的AI解決方案的難題。

1.1 利用主動學習解決標簽稀缺問題

在醫療領域部署AI模型時,最緊迫的問題之一是標注數據的稀缺性。在許多情況下,獲取大規模、高質量的標注數據集既昂貴又耗時,因為這需要醫療專業人員的專業知識。主動學習成為解決這一問題的關鍵,通過戰略性選擇最具信息量的數據點進行標注,最大化有限標注資源的影響。

本論文首先通過開發對抗表示主動學習框架探討了這一主題。該方法將對抗學習技術與主動學習相結合,創建了一個能夠高效利用標注和未標注數據的模型。通過學習數據的魯棒潛在表示,模型能夠識別并優先標注那些最有可能提高其性能的數據點。該方法的有效性通過標準圖像分類基準測試得到驗證,顯著優于傳統的主動學習方法。

基于此基礎,論文進一步探討了從患者文本中識別醫療癥狀的應用,該研究將主動學習應用于遠程醫療環境中從患者報告文本中識別癥狀的挑戰。該工作應對了長尾、多標簽分布的復雜性,其中一些癥狀較為常見,而另一些則較為罕見,并且患者使用的語言可能高度多樣化。通過利用主動學習,模型能夠重點獲取最關鍵和最具信息量的癥狀標簽,從而提高自動化醫療病史記錄系統的準確性和可靠性。

1.2 通過半監督學習和領域自適應最大化未標注數據的利用

盡管標注數據稀缺,但在醫療環境中通常有大量的未標注數據。論文的第二個主題集中于通過半監督學習和領域自適應最大化未標注數據的利用,旨在通過有效利用這些未標注數據來提高模型的性能。 在此背景下,提出了AdaEmbed:嵌入空間中的半監督領域自適應,作為一種新穎的方法,用于將AI模型從一個領域自適應到另一個領域。領域自適應在醫療中至關重要,因為在一個臨床環境中訓練的模型在另一個環境中部署時,由于數據分布的差異,通常表現不佳。AdaEmbed通過創建一個共享的嵌入空間來對齊來自源域和目標域的數據,生成目標未標注數據的偽標簽,并結合對比學習,確保自適應后的模型在不同領域中仍然保持準確性和可靠性。

該主題的另一個應用探討了跨手術室的手術活動識別模型的自適應。手術工作流程分析對于提高手術室效率和患者預后至關重要,但在一個手術室訓練的模型往往難以泛化到其他手術室。該工作應用半監督領域自適應技術,創建能夠以最少標注數據自適應到新手術室的模型,從而提高手術活動識別系統的通用性和魯棒性。

1.3 通過預訓練基礎模型提升魯棒性和效率

本論文的最后一個主題探討了通過預訓練基礎模型提升魯棒性和效率的需求。隨著AI模型變得越來越復雜,能夠重用和自適應預訓練模型以完成特定任務變得愈發重要。這一方法不僅提高了AI系統的魯棒性,還減少了訓練所需的計算資源和數據資源。 該主題通過開發基于視頻的面癱評估人工智能系統得到了體現。面癱是一種嚴重影響患者生活質量的疾病,準確評估對于有效治療至關重要。該工作利用預訓練模型來分析患者視頻,提供客觀和標準化的面癱評估。通過使用預訓練組件,該系統能夠在有限的數據下進行準確評估,展示了基礎模型在臨床應用中的強大能力。

進一步擴展這一主題,論文還提出了利用大型語言模型對創傷護理記錄進行結構化分析。創傷護理文檔通常是非結構化且不一致的,難以提取有意義的見解。該工作應用大型語言模型(如GPT-4),將非結構化的臨床筆記轉化為結構化的、按時間順序排列的格式。這種結構化分析增強了醫療記錄的可訪問性和實用性,促進了及時且有依據的臨床決策,提高了創傷護理的效率和效果。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。

首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。

接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。

最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。

付費5元查看完整內容

潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。

付費5元查看完整內容

風險模型對于護理計劃和疾病預防至關重要。已有的臨床模型表現不佳,引起了廣泛的關注和擔憂。一個準確、可解釋、可靠的風險模型將會帶來巨大的益處,但其仍是一項挑戰。本論文旨在開發深度學習模型,利用大規模且具有代表性的電子健康記錄(EHR)數據集,以提供更準確的風險預測,同時提供不確定性估計和醫學解釋的能力。 在這篇論文中,我們研究了三個方向:風險預測、解釋性以及不確定性估計。對于風險預測,我們研究了可以將最少處理的電子健康記錄(EHR)納入模型的深度學習工具,并與已建立的機器學習和臨床模型進行了全面比較。另外,我們將事后解釋應用于深度學習模型以獲取醫學信息,特別關注風險關聯和反事實推理的解釋。我們使用概率建模技術定性地研究了不確定性估計。我們的分析依賴于臨床實踐研究鏈接,該鏈接包含來自初級護理、二級護理和死亡登記的匿名化EHR,并代表了英國人口。

我們引入了一種名為BEHRT的深度學習模型,可以將最少處理的電子健康記錄(EHR)納入風險預測。在沒有專家參與的情況下,它學習了有意義的表示,可以自動聚類高度相關的疾病。與依賴于專家選擇的預測因子的已建立的機器學習和臨床模型相比,我們提出的深度學習模型在廣泛的風險預測任務中表現出優越的性能,并強調了當將風險模型應用于具有嚴重先前分布偏移的人群時,需要重新校準的必要性,以及定期更新模型以在時間數據偏移下保持模型的區分性能的重要性。此外,我們還顯示出深度學習模型解釋是發現風險因素的絕佳工具。通過解釋深度學習模型,我們不僅發現了與已有證據高度一致的因素,也發現了那些在專家驅動的研究中尚未考慮的因素。此外,深度學習模型還捕獲了風險和治療風險之間的相互作用,以及藥物在不同年份的差異性關聯,如果在建模中沒有包含時間背景,這將會很困難。除了關聯性解釋外,我們還引入了一個框架,可以在假設干預下實現準確的風險預測,同時進行反事實推理。這提供了反事實解釋,可以為臨床醫生選擇最能受益的人提供參考。我們使用兩個示例性的案例研究展示了所提出框架的益處。此外,將確定性深度學習模型轉換為概率模型可以帶有不確定性范圍的預測。我們表明,這樣的信息在實踐中有許多潛在的影響,如量化決策的信心,指示數據的不足,區分正確和錯誤的預測,以及指示風險關聯。 深度學習模型在風險預測方面的性能得到了大幅度的提升。不確定性估計的能力可以量化風險預測的信心,進一步指導臨床決策。深度學習模型的解釋可以產生假設以指導醫學研究,并提供反事實分析以協助臨床決策。這些鼓舞人心的證據支持將深度學習方法引入電子健康記錄的巨大潛力,以指導如護理計劃、疾病預防和醫學研究設計等廣泛的健康應用。

付費5元查看完整內容

機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。

然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。

作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。

付費5元查看完整內容

 醫學影像是醫療健康中的重要工具,放射科醫生經過高度培訓,能夠在醫學圖像中檢測和描述疾病。然而,僅依賴人類的分析有其局限性:它可能耗時、變化大且難以擴展。自動化部分醫學圖像分析流程可以克服這些局限性,以支持和擴展臨床醫生和放射科醫生的能力。在本文中,我們將重點研究深度學習在自動化醫學圖像分析中可能起到的轉變性角色。我們將分割視為基于深度學習的圖像分析的關鍵工具,并展示了如何在沒有大量手動注釋訓練數據集的情況下,分割神經網絡可以在許多醫學圖像分析任務上實現高性能。

我們首先描述了兩種在標簽數據有限的情況下訓練醫學圖像分割神經網絡的方法。在我們的第一種方法中,我們將弱監督適應于分割。在我們的第二種方法中,我們將數據增強、一致性正則化和偽標簽融合在一個統一的半監督流程中。這些方法將多種有限標簽訓練方法融入到同一框架中,利用每種方法的優點實現高性能,同時保持標簽負擔低。接下來,我們評估了在多機構、多掃描儀、多疾病數據集上使用有限標簽數據訓練的網絡在臨床相關指標上的表現。我們發現,我們的半監督網絡在某些泛化任務上比全監督網絡(訓練數據標簽多100倍以上)表現更好,與人類注釋者的一致性更強。然而,我們發現了標簽效率方法表現不佳的數據子集。我們提出了一種針對我們半監督流程的主動學習擴展,以解決這些錯誤模式,使困難數據切片上的半監督性能提高18.5%。通過這種評估,我們了解了如何使用有限標簽數據訓練的網絡在臨床任務上的表現,它們與使用豐富標簽數據訓練的網絡的比較,以及如何減輕錯誤模式。

最后,我們將標簽高效的分割模型應用到更廣泛的醫學圖像分析任務中。具體來說,我們展示了分割如何以及為什么可以使醫學圖像分類受益。我們首先分析了為什么在同一數據集和任務上,分割模型和分類模型可能達到不同的性能。然后,我們實現了使用分割模型對醫學圖像進行分類的方法,我們稱之為"以分割為分類",并將這些方法與三個回顧性數據集上的傳統分類進行比較。最后,我們利用我們的分析和實驗總結了與標準分類相比,使用"以分割為分類"的優點,包括:改善樣本效率,能夠在標簽圖像更少的情況下(少一個數量級)提高性能,在低發病率類別和某些罕見子組中(最高提高161.1%的召回率);提高對假相關的魯棒性(最高提高44.8%的魯棒AUROC);以及提高模型的可解釋性,評估和錯誤分析。這些結果表明,利用分割模型可以在常見設置中導致更高質量的醫學圖像分類器。總的來說,本文聚焦于將分割作為支持自動化醫學圖像分析的關鍵工具,并展示了如何訓練分割網絡,在沒有大量標簽負擔的情況下,在許多圖像分析任務上實現高性能。

付費5元查看完整內容

具有從過去的經驗中學習并根據環境或背景調整行為以實現特定目標的能力,是真正智能實體的特征。為了實現這一目標,開發高效、穩健和可靠的學習算法是研究的活躍領域,也是實現人工通用智能的重要步驟。在本論文中,我們研究了在兩種不同背景下進行最優決策的學習算法,第一部分是強化學習,第二部分是拍賣設計。

強化學習(RL)是機器學習的一個領域,關注的是智能體應該如何在環境中行動以最大化其隨時間累積的獎勵。在第二章中,受統計物理學的啟發,我們開發了一種新穎的強化學習方法,這種方法不僅學習具有增強期望屬性的最優策略,而且為最大熵強化學習帶來了新的見解。在第三章中,我們使用貝葉斯觀點來解決強化學習中的泛化問題。我們展示了環境動態的不完美知識實際上將一個完全觀察到的馬爾可夫決策過程(MDP)轉變為一個部分觀察到的馬爾可夫決策過程(POMDP),我們稱之為認知POMDP。根據這個觀察,我們開發了一種新的策略學習算法LEEP,它具有改進的泛化屬性。

拍賣是組織購買和銷售產品與服務的過程,具有很大的實際意義。設計一個激勵兼容、個體理性的拍賣以最大化收入是一個具有挑戰性且難以解決的問題。最近,有人提出了一種基于深度學習的方法,從數據中學習最優拍賣。盡管取得了成功,但這種方法存在一些局限性,包括樣本效率低、難以泛化到新的拍賣以及訓練困難。在第四章中,我們構建了一種保持對稱性的神經網絡結構,稱為EquivariantNet,適用于匿名拍賣。EquivariantNet不僅樣本效率更高,而且能夠學習到在其他設置中泛化性能良好的拍賣規則。在第五章中,我們將拍賣學習問題提出為一個雙人博弈的新穎表述。由此產生的學習算法ALGNet更容易訓練,更可靠,更適合非平穩設置。

付費5元查看完整內容

由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。

//dspace.mit.edu/handle/1721.1/144745

我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。

接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。

最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。

付費5元查看完整內容

機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。

//searchworks.stanford.edu/view/13874839

付費5元查看完整內容

在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。

//searchworks.stanford.edu/view/13883847

付費5元查看完整內容

在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。

//searchworks.stanford.edu/view/13876519

付費5元查看完整內容
北京阿比特科技有限公司