亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

互聯網擁有巨大的視頻庫,每秒鐘都有成千上萬的視頻上傳到YouTube等平臺。這些視頻代表了多模態信息的寶貴資源庫,為理解音頻-視覺-文本關系提供了寶貴的資源。此外,理解長視頻(比如2小時)的內容是一個開放性問題。本文研究了視頻中不同模態(音頻、視覺和文本)之間的錯綜復雜的相互作用,并利用它們的潛力來理解長視頻中的語義細微差別。我的研究探索了從這些模態中組合信息的多種策略,從而在視頻摘要和教學視頻分析方面取得了重大進展。

第一部分介紹了一種通過連貫地重新排列片段來從短片段合成長視頻紋理的方法,同時還考慮了音頻條件。第二部分討論了一種新的技術,用于在自然語言提示的指導下生成長視頻的簡明視覺摘要。此外,我們特別關注于總結教學視頻,利用視聽對齊和任務結構來生成信息摘要。為了進一步豐富對教學視頻的理解第一部分介紹了一種通過連貫地重新排列片段來從短片段合成長視頻紋理的方法,同時還考慮了音頻條件。第二部分討論了一種新的技術,用于在自然語言提示的指導下生成長視頻的簡明視覺摘要。此外,我們特別關注于總結教學視頻,利用視聽對齊和任務結構來生成信息摘要。為了進一步豐富對教學視頻的理解,本文介紹了一種前沿的方法,以促進教學內容中程序步驟的學習和驗證,使模型能夠掌握長而復雜的視頻序列,并確保程序準確性。最后,通過代碼生成探索了大型語言模型的潛力,以回答關于圖像的問題。通過全面的實驗,研究證明了所提出方法的有效性,并通過集成音頻、視覺和文本關系,展望了長視頻語義領域的美好前景。

付費5元查看完整內容

相關內容

 (University of California, Berkeley),是美國最負盛名且是最頂尖的一所公立研究型大學,位于舊金山東灣伯克利市的山丘上。創建于1868年,是加州大學十個分校中歷史最悠久的一所。加州大學伯克利分校在世界范圍內擁有崇高的學術聲譽,擁有豐富的教學資源,研究水平非常堅厚,與斯坦福大學、麻省理工學院等一同被譽為美國工程科技界的學術領袖。

深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。

首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。

接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。

最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。

付費5元查看完整內容

我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。

研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。

從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。

在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。

我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。

在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。

DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。

付費5元查看完整內容

在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。

在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。

在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。

基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。

付費5元查看完整內容

本文研究了超圖在捕獲多模態數據集中對象之間的高階關系方面的潛力。這些關系通常用圖中的成對連接來表示。因此,為了釋放多模態數據集中關系信息的全部潛力,本文提出了幾種用于捕獲和學習高階關系的幾何深度學習方法。從幼兒到老年,人類通過對對象的分析,通過對象之間形成的心理關系來推斷知識,從而獲得和修正對世界的認識。對象分析的基礎是感官輸入,而關系是通過將這些輸入上下文化而形成的。我們可以通過與之相關的原始感官數據(通常稱為其內容)對物體進行推理,并將其與預先存在的知識表示或其他感官輸入聯系起來。這樣做,我們創建了一個場景,一個活動或事件的理解。例如,一個從未見過“a house boat”或“a white peacock”的人,只要簡單地解釋每個單詞的內容并形成它們之間的關系,就可以很容易地想象出這些組合。因此,對于進行任何推理,結合原始感官數據及其關系的結構性理解是至關重要的。

**關聯對象的想法使我們通常假設關系是成對的,這就是我們在機器中通常表示關系的方式,即使用圖。**圖是一種數據結構,描述了一組對象(以節點表示)和它們的成對關系(以邊表示)。例如,兩個個體之間的簡單金融交易可以表示為代表這些個體的兩個節點之間的邊。圖已經成為最普遍的數據結構,用于表示關系并使用它們來發現數據集合中的相關信息。這是因為它們能夠將節點級別的信息與底層的節點間關系結合起來。然而,在現實世界中,僅使用成對關系進行推理通常是不夠的。考慮一個簡單的視覺場景,“一個由椅子、桌子、人和人體解剖圖組成的房間”。在這種情況下,利用人-椅子或人-辦公桌之間的成對關系準確地對人做出哪怕是簡單的推斷都是不太可能的。但是,如果我們把所有對象都納入其中,分析人-椅-桌與人體解剖圖的群體關系,就可以對人是醫生,房間是診所做出公正的判斷。這些群體關系被稱為高階關系——一次涉及兩個以上的對象——對人類獲得洞見至關重要。高階關系在許多領域都很常見,例如醫學(例如疾病/癥狀共存)、藥理學(例如化學反應)、文獻計量學(例如合作研究人員)、人員分析(例如一個團隊)和社交網絡(例如用戶群和其中的帖子)。這些關系捕獲了一組對象,其中每個對象可以表現出不同的屬性,并且高階關系可以隨時間動態變化。因此,使用圖將現實世界數據集中的關系表示為成對連接,在捕捉復雜信息方面不是最優的。使用高階關系可以增強數據結構的表示能力。

**就像人類利用高階關系來理解世界一樣,機器也應該能夠利用它們進行更好的推理。然而,如上所述,用圖來建模高階關系會導致信息丟失。**這種成對關系不能表示對象之間所有的高階關系,也不能正確地捕捉信息的集體流動。使用超圖可以更好地表示相交的高階關系集合。超圖是一種類似圖的結構,它允許邊(稱為“超邊”或“超鏈接”)跨越兩個以上的節點。在超圖中存在兩種關系:超邊內節點間的組內關系和超邊上節點間的組間關系。為了更好地理解、學習和推斷這種關系,本文提出了超圖表示學習的新方法。介紹了一系列用于在超圖上構造基于深度神經網絡模型的表示和計算的方法。所提出的超圖表示最終允許從由復雜高階關系組成的多模態數據中學習改進泛化。本文對超圖上的表示學習進行了廣泛的研究。試圖同時了解存儲在節點上作為特征的對象的內容,以及用超邊表示的對象之間的高階關系。重點是開發超圖學習框架,可以捕捉動態演變的真實世界數據集上的群體關系。

本文試圖回答以下主要研究問題:**如何使用超圖學習高階關系?**2007年Zhou等人開始致力于開發超圖的機器學習算法[206]。他們將最初在無向圖上操作的譜聚類方法推廣到超圖,并進一步發展了超圖嵌入和分類算法。幾何深度學習領域的最新進展[30]提出了基于圖結構數據的節點分類[91]、鏈路預測[200]或圖分類[202]任務的形式。大多數早期方法不能推廣到學習高階關系的概述問題。本文主張引入和設計深度學習模型,可以準確地學習超圖表示的數據集中的高階關系。設計這樣一種學習算法的一些主要挑戰包括從復雜的超圖結構中提取關系信息,將基于內容的信息與超圖結構相結合,多模態的可擴展性,對真實世界數據集動態特性的適應性,以及模型跨多個數據域的泛化能力。

付費5元查看完整內容

**近年來,具有復雜自主行為的智能體和系統的發展加快。**隨著這些智能體行動的后果開始在社會中顯現,對理解其決策的需求推動了對機制的研究,以獲得與人類推理兼容的解釋。然而,可解釋系統的設計往往沒有考慮解釋可能給機器和人類智能體帶來的影響。本文探討了這一挑戰。

**該方法首先著眼于具有復雜監管的分散環境,在這些環境中,必須交換解釋,以確保智能體之間的有序交互。**為將人類規則集轉換為機器兼容的推理機制,本文提出一種基于辯論的人-智能體架構,將人類規則映射到具有可解釋行為的人工智能體的文化中。在混合的、可解釋的人-智能體設置下的用戶研究表明,系統復雜性是解釋對人類有用的決定因素。對于自主智能體,隱私性和部分可觀察性會在分散系統中引入主觀不公平性的概念。本文表明,這種影響也可以通過使用有效的解釋來緩解。

**以類似的方式,研究了強化學習(RL)智能體,并研究了定向具有可解釋特征的學習機制的可能性。**將此過程稱為解釋感知經驗回放(XAER),并證明了解釋工程可以用來代替具有可解釋特征的環境的獎勵工程。進一步,將這一概念擴展到多智能體強化學習中,并展示了如何在具有部分可觀測性的環境中交換解釋,以獲得更魯棒和有效的集體行為。結論是,可解釋系統的設計不僅要考慮解釋的生成,還要考慮解釋的消耗。解釋可以作為交流精確和精煉信息的工具,人類智能體獲得的見解也可以由機器智能體獲得,特別是在具有分散智能體或部分知識的系統中。

付費5元查看完整內容

深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c

付費5元查看完整內容

由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。

//dspace.mit.edu/handle/1721.1/144745

我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。

接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。

最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。

付費5元查看完整內容

機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。

//searchworks.stanford.edu/view/13874839

付費5元查看完整內容

在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。

//searchworks.stanford.edu/view/13883847

付費5元查看完整內容

常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作

付費5元查看完整內容
北京阿比特科技有限公司