亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度神經網絡在學習豐富且結構化的潛在表征方面展現出強大能力,這推動了計算機視覺及更廣泛領域的顯著進展。它們在圖像分類、語義分割、自然語言處理和生成建模等任務中均取得了卓越的成果。其表達能力的關鍵因素在于對海量數據的訓練,使模型能夠捕捉復雜模式并實現跨任務的泛化。然而,當數據稀缺或難以獲取時,這種對大規模數據集的依賴便成為顯著的限制。由此,一個自然的問題隨之產生:如何在缺乏大規模配對數據的場景下,利用并適配那些在數據豐富領域中學到的表征?對此,通常有兩類通用方法:其一是分析并變換潛在特征空間,使其與新的目標對齊;其二是直接適配和操作輸入空間,以更好地契合模型已學習的先驗。 本論文在表征學習與生成建模的語境下探討了這兩類策略。對于第一類方法,我們將神經網絡中的編碼信息視為結構化的特征分布,并通過數學上有根基的技術實現這些分布的對齊。在神經風格遷移的場景中,我們首先基于該思路提出了一種理論基礎上的特征對齊方法。與現有方法相比,該方法能夠實現更一致的風格遷移,并且具備理論保證。此外,我們還通過建立一個嚴謹的框架來識別和評估學習到的表征,加深了對潛在空間的理解,特別是在深度學習模型的紋理偏差問題上,對現有解決方案的有效性提出了部分質疑。 第二類方法則聚焦于適配數據表征本身,既包括對輸入域的變換,也包括對模型架構的修改。這在傳統架構難以處理的領域尤為重要,例如缺乏規則或高效網格結構的場景。在本論文中,我們重點研究了針對三維和非歐幾里得數據的生成建模。為此,我們提出了一種基于擴散的生成模型,利用四面體表征實現高質量的三維形狀合成,同時保持幾何一致性。與現有方法相比,該方法能夠在前所未有的分辨率下生成三維網格,并兼顧計算效率。最后,我們提出了一種方法,將現有擴散模型擴展至全景圖像生成的任務,同時保留其互聯網規模的圖像先驗。該模型不僅提升了圖像質量,還實現了比已有工作更強的生成可控性。 總而言之,這些研究成果表明,通過理解并適配現有模型及表征,可以將深度學習拓展至新的輸入與輸出域。這些原則具有普適性,并能應用于廣泛的計算機視覺任務。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度神經網絡在學習豐富且結構化的潛在表示方面的能力,推動了計算機視覺及更廣泛領域的重大進展。這些模型在圖像分類、語義分割、自然語言處理和生成建模等任務中展現出卓越性能。其表達能力的關鍵因素之一,在于對海量數據的訓練,使得模型能夠捕捉復雜模式并具備跨任務的泛化能力。然而,當數據稀缺或難以獲取時,這種對大規模數據集的依賴便成為一大限制。因此,一個自然的問題便是:我們該如何利用并適配在數據豐富領域中所學到的表示,以應對那些難以收集大規模配對數據集的場景? 針對這一問題,通常有兩類通用的解決思路:第一,分析并變換潛在特征空間,使其對齊于新的任務目標;第二,調整和操控輸入空間,以更好地適應模型所學到的先驗知識。 本論文在表征學習與生成建模的背景下,系統探索了上述兩類策略。在第一類方法中,我們將神經網絡編碼的信息視為結構化的特征分布,并采用具有數學基礎的方法對其進行對齊。我們首先在神經風格遷移的任務中研究了這一問題,構建了特征對齊的理論基礎。相較于現有方法,我們的方案不僅具有理論保障,還實現了更一致的風格遷移效果。此外,我們還構建了一個嚴謹的框架,用于識別與評估神經網絡所學習到的潛在表示,尤其針對深度學習模型中的紋理偏置問題,部分質疑了當前主流解決方案的有效性,進一步加深了對潛在空間的理解。 第二類方法則側重于數據表示本身的適配,包括輸入域的變換或模型架構的調整。這類策略對于缺乏規則或高效網格結構的數據類型尤為關鍵。在本論文中,我們聚焦于面向3D與非歐幾里得數據的生成建模問題。為此,我們提出了一種基于擴散過程的生成模型,利用四面體表示實現高質量的三維形狀合成,同時保持幾何一致性。與現有方法相比,該方法在保持計算效率的同時,實現了前所未有分辨率的三維網格生成。最后,我們還提出了一種擴展現有擴散模型以支持全景圖像生成的方法,同時保留其在互聯網上訓練得到的圖像先驗。該模型不僅提高了生成圖像的質量,還比以往方法具備更強的可控性。 綜上所述,本論文的研究成果展示了如何通過理解與適配現有模型和表示,將深度學習技術推廣至新的輸入與輸出領域。這些方法的核心原理具有廣泛的通用性,可服務于多個計算機視覺任務。

付費5元查看完整內容

稀疏計算(如圖問題和稀疏矩陣算法中的計算)對于解決生物學、編譯器設計和機器學習等領域的復雜問題至關重要。然而,在現代異構計算環境中,高效處理大規模、不規則的稀疏數據結構提出了重大挑戰,必須在可擴展性和效率之間仔細權衡。現有的并行算法和計算模型通常未能充分利用稀疏數據中的固有結構,導致效率低下和可擴展性有限。這對于NP難問題尤其成問題,因為最壞情況下的解決方案速度較慢,而對于稀疏矩陣內核來說,它們是稀疏神經網絡和科學計算中的瓶頸。 本論文介紹了利用稀疏數據結構特性的新算法、框架和模型。我們的貢獻包括: 1. 固定參數可解算法:用于子圖同構和k-團列舉,利用平面性和缺乏密集子圖的特性減少計算深度或工作量,從而提高并行環境中的可擴展性和效率。 1. 參數化模板圖框架:高效處理執行圖中的重復結構,優化并行程序分析中的數據移動。 1. 空間計算機模型與競爭模型:針對空間數據流架構的挑戰,通過考慮空間局部性和競爭成本來優化稀疏通信模式。 1. 局部性優化的圖布局:最小化通信成本,使現代加速器和分布式系統上的稀疏矩陣操作具有可擴展性。 1. 模型引導的實驗評估:在最先進的數據流架構上對基本通信集體操作進行評估,強調了我們建模的影響。

這些貢獻共同推動了稀疏計算的最新技術發展,為高性能計算的未來進步奠定了基礎,可能對數據分析、科學計算和機器學習產生深遠影響。

付費5元查看完整內容

//pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf 深度神經網絡在人工智能各個領域取得了顯著的成功。其成功的關鍵因素之一是它們從數據中學習有效特征表示的能力,這使得它們與傳統的機器學習方法有所不同。本論文探討了特征學習在神經網絡訓練中的出現,并展示了其在基礎模型適應下游應用中的關鍵作用。

首先,我們提供了關于神經網絡中特征學習出現的理論見解。我們展示了網絡在早期訓練階段可以使用最小的參數有效地學習與類別相關的模式,從而避免了傳統方法中常見的維度災難。我們的分析揭示了這一能力來源于網絡能夠利用輸入數據的固有結構。我們為通過梯度下降訓練的兩層網絡開發了一個統一的分析框架,刻畫了特征學習如何超越核方法進行發生。我們將研究擴展到Transformer架構,分析了單層Transformer中的傅里葉特征,并揭示了模型規模與上下文學習行為之間的關系。我們的研究發現,較大的模型覆蓋了更多的隱藏特征,而較小的模型則強調重要特征,導致了不同的上下文學習行為。 基于這些理論見解,我們為基礎模型開發了實際應用。我們引入了核范數正則化以提高領域泛化能力,展示了在各種任務中一致的性能提升。我們通過一種新型正則化方法解決了對比學習中普適性和標簽效率之間的權衡問題。此外,我們提出了回環Transformer,用于實現多步梯度下降的上下文學習,并開發了GemFilter算法,利用早期層的注意力特征來加速大型語言模型推理。 本論文推動了我們對神經網絡中特征學習的理解,并提供了改善基礎模型性能的實際方法,從而開發出更高效、更有效的機器學習系統。**

付費5元查看完整內容

人類通過整合多種感官信息(包括視覺、語言和聽覺線索)來理解和與周圍環境互動。視覺-語言表示學習領域致力于使機器學習視覺和文本數據之間的多模態關聯與互動。本論文解決了三個關鍵問題:預訓練數據的可擴展性、預訓練目標的效率以及細粒度的視覺-語言對齊。 在數據可擴展性方面,我們關注利用未配對的圖像和文本進行可擴展的視覺-語言表示學習。為了增強模態之間的隱式對齊并增加數據的多樣性,我們引入了跨模態CutMix技術,該技術通過將視覺補丁與句子混合,創建多模態句子,即句子的多模態視圖。通過將多樣化的多模態句子融入對比學習,文本與多模態樣本之間的實例級對齊得到了有效利用。我們的方法繞過了配對數據集的限制,促進了基于更廣泛和更多樣的未配對數據的可擴展多模態表示學習。 在學習效率方面,我們研究了加速視覺-語言預訓練的方法。我們實證發現,訓練效率的一個重要障礙在于掩碼語言建模中的預測率(重建的令牌百分比)和破壞率(破壞的令牌百分比)交織在一起。具體來說,適當的破壞率是以大量輸出令牌被排除在預測損失之外為代價的。為了克服這一限制,我們提出了自由語言建模(FLM),這是一種新的預訓練目標,能夠將預測率與破壞率在掩碼語言建模中解耦。我們的方法通過允許為每個令牌自定義破壞范圍,從而實現了更快的收斂,同時在下游視覺-語言任務中保持了競爭力的表現。 關于跨模態對齊粒度,我們深入研究了未修剪視頻與自然語言之間的細粒度對齊。我們提出了一個針對未修剪視頻的基礎視覺-語言學習(GVL)框架,重點在于檢測有信息量的事件并將多句描述與相應的事件段對齊。我們引入了并行解碼范式(PDVC)用于密集視頻字幕生成,以有效地對視頻進行分段,從而提高生成的密集字幕的連貫性和可讀性。此外,我們提出了兩個雙重預文本任務以促進細粒度的段級對齊:文本到事件對比和事件到文本生成。該框架具有廣泛的適用性,可應用于視覺基礎的語言理解與生成任務。 我們進行了大量實驗以驗證我們提出的方法。這些工作不僅推動了多模態學習的前沿,也為機器智能系統中視覺與語言的更高效、更有效的整合鋪平了道路。

付費5元查看完整內容

本論文旨在推動計算機視覺領域中可解釋性技術的前沿發展,并開發相應的工具集,專注于增強我們對目前在視覺任務中使用的深度神經網絡特征的理解。可解釋性是改進人類與人工智能系統之間交互的關鍵領域,從科學角度來看,它也有助于解讀一種全新的智能形式:人工智能。更具體地說,這些模型的復雜性和缺乏透明性構成了它們在關鍵系統中應用的主要障礙,并提出了一些重要問題,如果其機制能夠被解碼,可能會在我們理解智能的過程中帶來顯著進展。通過本論文,我們探索了幾種可解釋性方法,它們各自有助于提高視覺模型的可解釋性,同時也承認其各自的局限性。 我們首先對歸因方法(又稱顯著性圖或熱力圖)進行了詳細分析。這些技術通過熱力圖揭示模型在做出決策時關注的區域。第一篇論文提出了一種受算法穩定性啟發的度量,該度量基于這些歸因來評估模型提供的解釋質量,從而識別出那些提供最佳解釋的模型。接下來,我們介紹了一種受全局敏感性分析(Global Sensitivity Analysis)啟發的新歸因方法,該方法基于Sobol指標。這個黑箱方法,憑借堅實的理論基礎,通過使用準蒙特卡羅序列,使得計算時間比現有方法減少了一半。然后,我們繼續介紹第一個具有正式保證的歸因方法——EVA,該方法依賴于已驗證的擾動分析。 令人驚訝的是,在與實際用戶進行的真實使用案例測試中,這些方法在幫助理解模型方面效果甚微。具體來說,在復雜場景中,這些技術表現不佳,而在簡單場景中,它們足以揭示偏差。于是,我們提出了兩個假設來應對這些挑戰:第一個假設認為需要將計算機視覺模型與人類推理對齊,從而對模型本身提出質疑;第二個假設認為現有的歸因方法不足,不能揭示足夠的信息。這些假設將在專門的章節中進行探討。 為了解決第一個假設,我們提出了一種新的訓練方法,該方法不僅旨在最小化常規的代價函數,還旨在模仿人類的解釋,換句話說,要求模型能做到“正確的原因,正確的結果”。令人驚訝的是,模型不僅成功地借鑒了人類的策略并進行泛化,而且它們的準確性也得到了提升。接著,我們探索了第二種方法,該方法通過約束而非正則化來對齊模型,通過在1-Lipschitz函數的限制功能空間中優化模型。分析表明,具有1-Lipschitz屬性的模型的魯棒性與它們提供與人類推理一致的解釋能力之間存在聯系。 接下來,我們探討了第二個假設,即現有的歸因方法不足,因為它們僅揭示了模型關注的“位置”,而沒有具體說明模型感知到了什么。我們采用了一種基于概念的可解釋性方法,從關注“何處”轉向理解模型感知的“何物”。這一轉變通過CRAFT方法得以實現,該方法自動提取模型使用的概念,然后評估每個提取概念的重要性。我們深入分析了當前概念提取方法的組成部分,并證明它們包括兩個階段:提取階段和重要性評估階段。隨后,我們通過展示提取階段可以被概念化為字典學習問題,并且重要性評估階段隱式地使用了歸因方法,統一了文獻中不同的方法。通過建立這一統一框架,我們介紹了MACO,一種特征可視化方法,我們將其應用于概念上,允許可視化提取的概念。最后,我們將這些方法整合到一個互動展示中,提供對ResNet模型的1000個ImageNet類別最重要概念的探索和理解。 論文最后對所開發的方法、取得的進展以及遇到的挑戰進行了深入反思,并為人工智能可解釋性領域的未來研究方向開辟了新視角。我們強調繼續尋找不同方法之間協同作用的重要性,并展望充分利用可解釋人工智能潛力的前景。

付費5元查看完整內容

自然語言處理(NLP)領域的最新進展顯著提升了語言模型的能力,吸引了學術界和工業界研究者的高度關注。這些模型在大量文本數據集上進行訓練,在各種語言任務中表現出色,如翻譯、摘要、問答和對話生成。支撐這些發展的核心是數據,作為NLP的命脈,尤其在當前的大型語言模型需要龐大的數據集才能有效學習和生成精確輸出的背景下,數據的作用更加至關重要。本論文聚焦于面向數據的優化方法,旨在提升語言模型在各種NLP應用中的性能。它提出了創新的方法,改進模型對數據的攝取和處理方式,從而在實際應用中取得了顯著的進展。 本研究通過深入探討NLP中數據驅動的各個方面,涵蓋數據的數量和質量。通過自上而下的方法,本研究跨越了數據生命周期的各個環節,涉及數據的利用、增強和構建。在數據利用方面,研究首先在有限數據下調整模型,然后利用無標簽數據的潛力,通過持續學習提升模型性能。轉向數據增強部分,研究通過提升合成生成數據的質量,以鞏固模型的知識,為持續學習提供支持。接著,設計了一種方法控制指令數據的復雜性,并研究其對大型語言模型性能的影響。在數據構建方面,研究首先開發了一個因果完備的大規模預訓練語料庫,專門針對文檔基礎的對話任務。除此之外,本研究還利用大型語言模型的能力,創建了多種工具的指令數據集,從而賦予模型工具使用的能力。 總之,本論文對數據驅動的NLP研究做出了貢獻,系統地涵蓋了數據處理的完整周期。本論文提出的創新方法旨在顯著提升語言模型的能力,并改善其在各種實際場景中的應用效果。

付費5元查看完整內容

//arxiv.org/pdf/2411.17992

機器學習,特別是神經網絡,現如今廣泛應用于許多領域,如貸款評估、搜索結果和招聘推薦。這些系統通常提供自動化決策,影響著大多數人的生活。近年來,自然語言處理(NLP)應用特別受到關注,尤其是非常高效的通用模型的出現,特別是聊天系統,這些系統現在被廣泛使用,甚至普通公眾也能直接使用它們。

不幸的是,這些系統并非沒有缺陷。僅在招聘系統中,就有性別歧視的案例,比如簡歷中“國際象棋俱樂部成員”受到青睞,而“女性國際象棋俱樂部成員”則被忽視,或者某些系統認為計算機科學學位是醫院打字員的必要資格。雖然前者可能通過分析模型的性別偏差并加以修正來緩解,但后者過于具體,可能只能通過解釋模型的預測來揭示。 可解釋性 是一個研究領域,致力于用人類可以理解的術語解釋模型和數據集。其目標通常是防止不良行為,正如上述例子所示。不幸的是,這個領域經常面臨提供錯誤解釋的問題,即解釋并未反映模型的真實情況。例如,解釋表明哪些輸入詞語很重要,可能并不比隨便指出隨機詞語更有價值。當解釋真實反映模型時,這種解釋被稱為“忠實解釋”。 不幸的是,衡量一個解釋是否忠實(忠實度指標)非常具有挑戰性,因為我們無法得到真實的標準答案。一個重要的原因是,模型通常太復雜,人類難以理解,因此無法判斷解釋是否忠實于模型。更糟糕的是,設計不當的忠實度指標可能會給出錯誤的信心,而錯誤的解釋則可能會給出對模型行為的虛假信心。因此,本論文的核心研究問題是:“如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋?” 在可解釋性領域,目前有兩種主要的范式來回答這個問題:內在范式和后驗范式。 內在范式認為“只有在架構上設計為可以解釋的模型才能被解釋”,而后驗范式認為“可以且應該在模型訓練完成后生成解釋,以避免任何性能影響”。 通過分析現有文獻并提出新的忠實度指標,本論文認為這兩種范式都未能取得有效的進展。后驗解釋的忠實度經常受到批評,而內在模型要么實際上并非內在的,要么由于過于受限,無法成為高性能的通用模型。 因此,本論文假設該領域應通過結合兩種現有范式的優點,發展出新的范式來回答核心研究問題。具體來說,本論文設計了無需架構約束的可解釋模型,這樣這些模型仍然是通用且高性能的。特別地,本文提出了兩種潛在的范式,即“忠實度可度量模型”(FMMs)和“自解釋”。FMMs直接回答核心研究問題,而自解釋目前尚未完全解答該問題,但可能在未來解決。 忠實度可度量模型(FMMs) 是本論文提出的新范式,它將內在范式的“設計可解釋的模型”重新表述為“設計能夠便捷且可靠地測量忠實度的模型”。如本論文所示,這比內在范式提出的目標要容易得多,因為它不要求架構約束。該范式的具體展示應用于重要性度量——即指出每個輸入特征在做出預測時的重要性。對于這類解釋,FMMs只需對訓練過程進行小幅修改,即在訓練時隨機屏蔽輸入標記。 這種訓練過程使得我們可以使用忠實度擦除指標:“如果一個特征確實重要,那么如果去掉該特征,模型的預測應該會發生顯著變化。” 這個指標不能應用于任何模型,因為去除特征(例如詞語或標記)會導致分布外問題。然而,這種FMM支持去除特征,因此使得該指標得以應用。由于現在忠實度測量變得既便宜又可靠,因此可以優化解釋,以達到最大的忠實度。因此,FMMs變得間接地內在可解釋,但無需架構約束,并且還回答了如何衡量忠實度,從而回答了核心研究問題。 自解釋 是另一種新興范式,這些解釋直接作為模型的輸出生成。這類解釋因聊天系統的興起而變得流行,這些系統通常會以自然語言的形式闡明它們發出的解釋。然而,由于自解釋的自由形式,評估其忠實度極為困難。此外,由于這些模型也存在幻覺問題,因此有充分的理由對此保持懷疑。盡管如此,這些解釋仍然非常普遍,并且常常被當作真理接受,包括研究人員在內。為了評估這一新范式的可行性,本文還提出并評估了自解釋的忠實度指標。研究結果表明,類似于后驗解釋,它們是模型和任務相關的。 本文還研究了后驗和內在解釋的忠實度,發現結論與模型和任務的依賴性相同。然而,當使用忠實度可度量模型時,即便使用相同的后驗解釋方法,且在相同的數據集和基礎模型上,也得出了不同的結論。 這得出一個總體結論:忠實度默認是依賴于模型和任務的。然而,即便是對模型進行簡單修改,如隨機屏蔽訓練數據集(如在忠實度可度量模型中所做的),也能極大地改變局面,從而得到一致忠實的解釋。我們提供了一些建議,說明如何也可以通過自解釋來實現這一點。此外,利用忠實度可度量模型,本文證明了有可能確定新的可解釋性范式,克服過去的局限,并回答如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋這一核心研究問題。

付費5元查看完整內容

在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。

在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。

我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。

直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。

最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。

新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。

本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。

第一部分:深度神經架構的高效訓練策略

在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。

**第二章

我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。

**第三章

我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。

第二部分:通過可微優化增強訓練

在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。

**第四章

我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。

**第五章

我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。

付費5元查看完整內容

計算機視覺系統自從分類手寫數字的時代以來取得了巨大的進步。特別是,監督學習已經成為解決科研之外任務的普遍方法。這些系統被部署在從自動駕駛汽車到自動醫療診斷和天氣預報等多個行業的眾多產品中。這些進步可以歸因于深度學習算法、專業庫和專用硬件的進步,以及用于模型訓練的大型標注數據集的增加。然而,仍然存在一些任務,其中僅僅捕獲和標注更多數據的標準范式并不是一個可行的解決方案。 在這篇論文中,我們調查如何最好地利用多模態數據來解決獲取足夠質量或完整性數據困難的計算機視覺任務。我們專注于兩個特定任務:引導式超分辨率和細粒度分類。引導式超分辨率涉及通過將低分辨率數據與輔助模態結合來進行放大,而細粒度分類需要利用邊際信息,使分類算法能夠捕捉到細粒度類別之間細微的外觀差異。最初,我們在缺乏地面真實數據的情況下為引導式超分辨率提供解決方案。首先,我們提出了一種將引導式超分辨率視為學習從引導到源域的像素到像素映射的新穎無監督公式。我們使用多層感知器參數化來保留高頻細節。其次,我們提出了一種新穎的混合模型,以在保持解決測試時優化問題的嚴謹性的同時,最好地利用深度學習方法。關鍵是一個可微分優化層,它作用于一個學習的親和圖,確保目標對源的高保真度,因此對未見域具有高泛化性。隨后,我們提出了一種自動識別社區科學家照片中細粒度植物標本的統一方法。該方法旨在利用社區科學家觀察中通常可用的各種先驗知識,包括地理和時間背景以及植物分類學,以學習跨類似物種的可轉移表示。最后,我們提出了2021年半地球植物標本館數據集,這是我們作為機器學習競賽的一部分創建的一個大型策劃和開放獲取的植物標本數據集,以鼓勵進一步研究從照片中自動識別細粒度植物物種。 近年來,計算機視覺領域取得了顯著進步。當然,這些進步可以歸因于深度學習研究、專業庫和專用硬件的進展,但最重要的是,這些進步得益于大量數據的可用性,例如像ChatGPT(OpenAI,2022年)和Stable Diffusion(Rombach等,2021年)這樣的生成模型分別在互聯網上爬取了數十億的文本和圖像進行訓練。 然而,并非所有任務都能使用現成的互聯網規模數據集來解決。許多重要問題,如自動檢測惡性腫瘤、評估自然災害造成的損害或繪制瀕危物種的地理分布,仍然是放大數據收集不是解決方案的挑戰。這些挑戰可以大致分為兩類。首先,由于傳感器捕獲它們的固有技術限制,感知特定模態存在困難,例如遙感器如航空或衛星成像或主動傳感器如激光掃描儀、ToF相機或MRI掃描儀。其次,觀察罕見事件或特定數據類型的多樣性困難,因為在現實世界的數據收集工作中不經常遇到某些場景或類別。例如,捕捉所有容易發生事故的駕駛場景,或收集所有生物物種的足夠數據就是這種情況。

為了解決數據收集質量挑戰性應用中傳感器可用性的限制,一個可行的解決方案是利用更常見的傳感器捕獲的數據來增強傳感器的輸出。這種設置在許多計算機視覺任務中都很常見,特別是在低分辨率傳感器與捕獲不同模態圖像的高分辨率傳感器配對時。這項任務,被稱為引導式超分辨率,涉及在高分辨率引導圖像的幫助下增加低分辨率源圖像的分辨率。一個常見的實際應用是在RGB圖像的指導下對深度圖進行超分辨率。這種配置在配備有深度傳感器和常規攝像機的各種設備上都能找到,如增強/虛擬現實頭戴式顯示器(AR,VR),現代手持設備,機器人和自動駕駛汽車。事實上,消費級深度攝像頭捕獲的深度圖分辨率較低;類似地,激光掃描儀獲得的稀疏深度測量可以在相對較大的印記上進行平均。相反,即使是入門級相機現在也能以非常高的分辨率捕獲圖像。這種設置也經常用于環境監測,例如樹高、生物量或物種分布概率等關鍵指標的地圖通常可用的分辨率遠低于現代遙感器的地面采樣距離(Keil和Jetz,2014年,Metzger等,2022年)。因此,一個自然的問題是如何利用這些系統捕獲的成對圖像來提高低分辨率傳感器的質量,從高分辨率傳感器傳輸細節。 獲取大量高質量注釋的挑戰甚至可能比數據收集過程本身更加困難。這是至關重要的,因為監督學習在計算機視覺的成功中發揮了核心作用,可以追溯到深度學習早期的開創性工作,如AlexNet(Krizhevsky等,2012年)贏得ImageNet ILSVRC-2012挑戰賽(Deng等,2009a)。事實上,全球數據標注市場預計到2028年將達到82.2億美元(Grand View Research),凸顯了其重要性。例如ImageNet這樣的基準通常為每個類提供大量的訓練圖像,在這種設置下,分類算法取得了令人印象深刻的結果。然而,一旦我們減少每個訓練類的圖像數量,它們的性能就會迅速下降。然而,由于各種原因,簡單地收集更多數據和注釋并不總是可行的。例如,自然界展示了物種的長尾分布,導致大量類別不平衡,某些物種罕見或難以觀察。此外,某些地區數據的可用性變化和觀察者偏見可能會進一步加劇獲取全面注釋的難度,如圖1.1所示。此外,標注這些數據集需要專業的分類學專業知識,因此許多這些觀察結果仍未標注。這是大多數描述生物多樣性的大型圖像集合的現實,例如那些從相機陷阱、社區科學家觀察、無人機調查或植物標本館(Tuia等,2022年,Bebber等,2010年)中獲得的。因此,我們認為自動物種識別工具的需求迫切。這項任務,通常被稱為細粒度分類,涉及將圖像分類為更廣泛類別內的子類別,例如物種,并且以區分基于微妙視覺線索的標本為特征。我們認為,僅憑外觀信息不足以區分細粒度類別,因為學習這種微妙模式的數據有限。幸運的是,物種觀察通常伴隨著側面信息,例如捕獲圖像的時空背景,這些信息可以與環境先驗結合使用。這個問題再次強調了開發利用多模態數據來增強自動識別標本的方法的需要。

付費5元查看完整內容

面向文本生成的深度序列模型研究

人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。

文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。

首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。

然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。

最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。

綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。

付費5元查看完整內容
北京阿比特科技有限公司