国产乱理伦片A级在线看-AV无码AV不卡一区二区

在大型標注數據集上訓練的強大機器學習(ML)模型，推動了自然語言處理和計算機視覺等領域的令人印象深刻的進步。反過來，這些發展導致了ML在醫療健康、電子商務和預測性維護等領域的有效應用。然而，獲得訓練高容量機器學習模型所需的標注數據集，往往是機器學習有前途應用的瓶頸。本文研究了獲取領域知識的替代途徑，并開發了從弱監督中學習的方法，即不完美的和間接的監督形式。我將介紹三種形式的弱監督:成對聯動反饋、程序化弱監督和成對多模態數據。這些形式的信息通常很容易大規模獲取，我開發的方法減少了——在某些情況下消除了——對點真實感注釋的需要。我首先研究了成對監督的效用。我介紹了一種新的約束聚類方法，它使用少量的成對約束來同時學習核和聚類數據。該方法在大量多樣的公開數據集上優于相關方法。接下來，將不完全成對監督引入程序化弱監督標簽模型。我根據經驗表明，僅一個弱成對反饋源就可以顯著提高下游性能。通過引入與弱標簽相協調的輸入分布建模方法，進一步研究了程序化數據標記方法。本文首先介紹了一個框架，在觀察到的弱標簽的基礎上聯合學習標簽和端模型，顯示了端模型在下游測試集上的性能比之前的工作有所改進。接下來，介紹一種融合生成式對抗網絡和程序化弱監督標簽模型的方法，以使兩者都受益，由標簽模型性能和數據生成質量衡量。在本文的最后一部分，我解決了程序性弱監督的一個核心挑戰:專家需要提供標簽規則。首先，介紹了一個交互式學習框架，幫助用戶發現弱監督源，以高效的方式捕獲應用領域領域專家的知識。然后，我通過直接從非結構化自然語言描述中學習來研究完全省去標記功能的機會。特別是，我研究了如何將生物醫學文本與圖像配對用于自監督視覺-語言處理，產生數據高效的表示并實現零樣本分類，而不需要專家定義文本或圖像的規則。這些工作提供了新的方法和框架，以在機器學習模型中更有效地編碼和使用專家領域知識，減少了因需要手工真實注釋而產生的瓶頸。

//www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/

付費5元查看完整內容

相關內容

博士論文

關注 119

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

卡內基梅隆大學 (Carnegie Mellon University) · 博士論文 · 自然語言生成 ·

2023 年 2 月 17 日

[付費5元查看完整內容]【CMU博士論文】高效自然語言生成，203頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

**自然語言生成(NLG)已經從深度學習技術的發展中取得了顯著的成功。隨著大規模的預訓練成為NLP中事實上的標準，大量的訓練數據和模型參數始終能夠在標準NLG任務中獲得最先進的性能。**雖然相當成功，但目前的NLG方法在幾個方面都是低效的，這阻礙了它們在更廣泛和實際的環境中的使用:(1)它們是標簽低效的-條件神經生成(例如機器翻譯)通常需要大量的注釋樣本來訓練，這限制了它們在低資源環境中的應用;(2)它們的參數效率不高——通常的做法是對預訓練的模型進行微調，使其適應下游任務，然而，這些模型可以擴展到數萬億的參數(Fedus等人，2021年)，這將在服務大量任務時造成大量的內存占用;(3)最后，我們重點研究了趨勢模型類——檢索增強NLG模型的計算效率低下問題。它們從外部數據存儲中檢索以輔助生成，由于額外的計算，添加的數據存儲和檢索過程會引起不小的空間和時間成本。

**本文旨在對高效NLG的研究問題有更深入的理解，并利用這些見解來設計更好的方法。**具體來說，(1)在標簽效率方面，研究了無監督和半監督的條件生成，利用豐富的無標簽文本數據，從而減輕了對大量標注樣本的需求。所提出的方法在各種NLG任務上進行了驗證;(2)在參數效率方面，本文提出了一個統一的框架來連接參數高效的遷移學習，其中只需要更新少數參數，就可以使大型預訓練模型適應下游任務。所提出框架為這一方向提供了新的理解，以及為參數高效的NLG實例化最先進的方法;(3)對于檢索增強NLG的計算效率，我們設計了新的模型或后適應檢索組件，以壓縮數據存儲，減少檢索計算，并加快推理。語言是人類交流的主要媒介。在人工智能中，語言是機器與人交流的主要接口之一，因此機器需要能夠理解并生成自然語言。本文重點研究后者，即自然語言生成。自然語言生成是最基本的范疇之一的任務在NLP,橫跨在機器翻譯(Bahdanau et al ., 2015),文本摘要(Rush et al ., 2015),對話生成(Sordoni et al ., 2015),數據描述(Novikova et al ., 2017),等等。隨著近年來深度學習在NLP領域的快速發展(Hochreiter and Schmidhuber, 1997;Bahdanau等人，2015;Vaswani et al.， 2017)，我們已經見證了這些任務的巨大進展。特別是大規模的自監督預訓練(Peters等人，2018;Devlin等人，2019a;)將NLG任務的性能提升到了一個新的水平(Lewis等人，2020a;Raffel等人，2020)。最近，越來越大的預訓練語言模型顯示出了將所有NLP任務作為生成任務處理的潛力，在適當的文本提示下實現有競爭力的零次或少次結果(Radford et al., 2019; Brown et al., 2020; Schick and Schütze, 2021c; Du et al., 2021; Liu et al., 2021a; Sanh et al., 2022)。盡管取得了巨大的成功，但目前的NLG方法在許多方面都是低效的，這阻止了它們在更廣泛的環境中使用。在本文中，我們考慮了以下三個方面的低效率。

標簽低效: 最先進的自然語言生成模型通常是深度編碼器-解碼器或僅解碼器的神經網絡，通常由自注意力transformer架構提供動力(Vaswani等人，2017)。這些模型以端到端的方式在具有交叉熵損失的并行示例上進行訓練。模型訓練需要大量的標注樣本才能達到合理的性能。例如，翻譯系統通常用數百萬個句子對進行訓練，以達到實際性能(Akhbardeh等人，2021);流行的文本摘要基準也由數十萬個并行示例組成(Hermann等人，2015;Narayan等人，2018)。然而，帶標簽的示例通常是稀缺資源——豐富的注釋只存在于某些領域。此外，目前大多數數據集都是以英語為中心的，而世界上有7000多種語言，這意味著大多數語言的任務標簽都不容易獲得。這對應用通用的深度NLG模型提出了挑戰。

**參數低效:**自監督預訓練技術已在各種NLP任務上取得了巨大成功(Peters等人，2018;Devlin等人，2019a;Liu等人，2019a;Yang等人，2019)。通常，模型首先只在自監督損失的情況下對原始文本進行預訓練，然后在帶有標記數據的下游任務上對預訓練模型進行微調。這樣的管道已經成為當今創建最先進的NLG系統的事實標準。在這個方向上，研究人員正在追求越來越強大的預訓練模型，這實際上在大多數情況下導致了更多的參數——越來越大的語言模型由數億到萬億參數組成(Brown et al.， 2020;Fedus等人，2021;Rae等人，2021)。這樣，每個單獨的微調過程都會獲得巨大模型的不同副本，導致微調和推理時的參數利用率低下。當服務于大量任務時，這種參數低效會導致大量內存占用。

本文提出了一系列方法來提高自然語言生成的效率，從而可以在不顯著增加資源需求的情況下創建更好的NLG系統。首先描述了如何利用無標記樣本來幫助改善無監督或半監督文本生成(第一部分)，然后提出了一個參數高效遷移學習(PETL)的統一框架和伴隨的最先進的PETL方法(第二部分)。PETL方法旨在微調凍結的大型模型的一小部分參數，以實現與完全微調相當的性能，從而提高參數效率。最后，我們關注通過減少數據存儲大小和加快檢索過程，在空間和時間上簡化檢索增強方法(第三部分)。

付費5元查看完整內容

卡內基·梅隆大學 · 博士論文 · 視覺表示學習 · 視覺識別 ·

2022 年 12 月 14 日

[付費5元查看完整內容]【CMU博士論文】無人工監督的視覺表示與識別，126頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據，為廣泛的視覺任務構建有監督的學習者。然而，對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為，為了構建更通用的學習者(類似于嬰兒)，開發在沒有人類監督的情況下學習的方法至關重要。在本文中，我們針對兩個關鍵問題:表征和識別，對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中，我們研究了這些方法，并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明，這些學習能力無法擴展到“野外”收集的數據，因此，在自監督學習中需要更好的基準。我們還提出了新的SSL方法，以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的，因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構，利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域，我們提出了一種“通過關聯理解”的范式，該范式將識別問題重新表述為對應的識別。我們將此應用于視頻，并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后，為了探索人類超越語義范疇的泛化能力，我們引入了“功能對應問題”，并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

牛津大學 (University of Oxford) · 博士論文 · 多模態數據 · 表示學習 ·

2022 年 10 月 30 日

[付費5元查看完整內容]【牛津大學博士論文】學習和解釋來自多模態數據的深度表示，267頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在多個領域都取得了突破性進展，從圖像、語言和視頻理解等核心機器學習任務，到醫療、自動駕駛和農業等現實行業。它的成功是通過為神經網絡提供人工監督，從大型標記數據集(如ImageNet)自動學習分層數據表示。然而，獲取大規模的標簽數據通常是一個非常耗時和昂貴的過程。為應對這一挑戰，本文挑戰多模態視頻數據的自監督極限。視頻數據通常包含多種形式，如圖像、音頻、轉錄語音和可免費獲得的文本標題。這些模態通常共享冗余語義信息，因此可以作為偽標簽來監督彼此進行表示學習，而不需要使用人工標簽。在不依賴標簽數據的情況下，我們能夠在從互聯網收集的數百萬個視頻剪輯的非常大規模的視頻數據上訓練這些深度表示。通過在各種領域建立新的最先進的性能，展示了多模態自監督的可擴展性好處:視頻動作識別、文本到視頻檢索、文本到圖像檢索和音頻分類。我們還引入了數據轉換、模型架構和損失函數方面的其他技術創新，以使用多模態自監督進一步改進對這些深度視頻表示的學習。本文的第二個貢獻是改進深度表示的可解釋性的新工具，因為要破譯這些深度表示中編碼的關鍵特征是非常困難的。對于圖像，我們展示了如何使用攝動分析來分析網絡的中間表示。對于視頻，我們提出了一種新的聚類方法，使用Sinkhorn-Knopp算法將深度視頻表示映射到人類可解釋的語義偽標簽。本論文的研究成果為進一步提高深度視頻表示學習的可擴展性和可解釋性做出了貢獻。

//ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

付費5元查看完整內容

聯合實體關系抽取 · 信息抽取 · 神經網絡 · 遠程監督 ·

2021 年 9 月 4 日

[付費5元查看完整內容]【博士論文】基于深度學習的聯合實體關系抽取

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著互聯網的興起，每天都有不同形式的大量的文本數據產生：新聞、研究文獻、博客、論壇文字以及社交媒體評論等。很多重要有用的信息隱藏在其中，如何從這些自由文本中自動抽取所需要的信息是一個關鍵并且重要的一步。信息抽取任務就是為此目標而誕生。本文主要研究信息抽取子任務之一的實體關系抽取任務。該任務旨在識別文本中出現的實體，并判斷出實體之間存在的關系。

傳統的有監督實體關系抽取通常采用基于流水線的方法，即實體模型和關系模型分開訓練。在測試階段，先用實體模型識別出實體，然后關系模型找出這些實體之間的關系。這種流水線的方法存在著錯誤傳播的缺點，前一個任務的錯誤會累積到后一個任務。為了緩解這一問題，研究人員提出了聯合模型。聯合模型將兩個子模型統一建模，可以進一步利用兩個任務之間的潛在信息，以緩解錯誤傳播的缺點。聯合模型的難點是如何加強實體模型和關系模型之間的交互，比如實體模型和關系模型的輸出之間存在著一定的約束，在建模的時候考慮到此類約束將有助于聯合模型的性能。

另一方面，為了解決實體關系抽取數據集難以獲得的問題，遠程監督的方法也被提出來。其主要思想是利用知識庫和大規模文本數據對齊，自動構建大規模的訓練集。然而，遠程監督方法的缺點是自動構建的訓練集中存在著很多的噪音數據，這些噪音數據的存在對遠程監督實體關系抽取有著很大的負面影響。此外，在有些應用場景中可能沒有現成的知識庫可以用來進行遠程監督，如何解決類似的數據噪音和數據缺失問題也是一大挑戰。

根據實體關系抽取方法的研究現狀，本文從數據和聯合模型兩個角度探索了幾種實體關系抽取聯合模型，并且探究了所提出模型的優勢和不足。具體來說，本文的主要貢獻有

1. 為了緩解遠程監督中的噪音樣本問題，本文提出利用少量高質量異構的人工標注數據集幫助遠程監督實體關系抽取任務。本文設計了一個基于多任務學習的融合框架，并且在融合過程中考慮到子模型之間的一致性約束，從而實現知識的遷移。本文提出的系統在標準遠程監督數據集能夠顯著的提高聯合抽取的性能（數據角度）。
1. 為了解決某些領域沒有現成知識庫無法進行遠程監督的問題，本文提出利用語言學規則進行遠程監督。首先應用領域無關的語言學規則自動構建訓練集，然后使用分類器在得到的訓練集上進行訓練，最后利用分類器進一步抽取語言學規則無法覆蓋的新的實體關系。本文提出的算法很快并且適用于大規模數據。在 Amazon 在 i 線評論數據集上的實驗表明了本文提出的算法明顯優于多個基準模型（數據角度）。
1. 為了加強實體模型和關系模型之間的交互，本文提出基于風險最小化訓練方法的聯合實體關系抽取模型，通過優化全局的損失函數以達到加強實體模型和關系模型之間聯系的目的。在 ACE05 數據集上的實驗證明了提出模型的有效性（聯合模型角度）。
1. 為了同時考慮到實體類型和關系類型的信息，本文提出一個基于圖卷積網絡的聯合模型用于實體關系抽取。我們構造了實體-關系二分圖，并在圖上運行圖卷積網絡，從而捕獲多個實體和多個關系之間的信息。在 ACE05 數據集上的實驗證明了提出模型的有效性（聯合模型角度）。

//www.czsun.site/

付費5元查看完整內容

深度學習 · 概率圖模型 ·

2021 年 4 月 27 日

[付費5元查看完整內容]【哥倫比亞大學博士論文】深度概率圖建模147頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

概率圖建模(PGM)提供了一個框架，以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內，PGM取得了巨大的成功，例如市場營銷、醫學、神經科學和社會科學。然而，PGM往往缺乏靈活性，這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。

深度學習(DL)是另一個從數據中建模和學習的框架，近年來取得了巨大的成功。DL功能強大，具有很大的靈活性，但缺乏PGM的可解釋性和校準性。

本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法，這些方法展示了PGM和DL的優點。

我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA)，使用神經網絡提高預測性能，同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系，這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后，DPGM成功地解決了概率主題模型的幾個突出問題。

在PGM中利用DL也帶來了學習復雜數據的新算法。例如，我們開發了熵正則化對抗學習，這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看，熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。

付費5元查看完整內容

對比學習 · 監督學習 · 深度學習 ·

2020 年 11 月 5 日

[付費5元查看完整內容]最新《對比監督學習》綜述論文，20頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督，并將學習到的表示用于幾個下游任務。具體來說，對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起，同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述，遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務，以及到目前為止提出的不同架構。接下來，我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后，我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述：

隨著深度學習技術的發展，它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式，這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而，由于手工標注數百萬個數據樣本的工作量很大，從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術，可以為模型所做的決策提供可視化的解釋，從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據，但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方，它不需要昂貴的標注，也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋，而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近，自監督學習方法集成了生成和對比方法，這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務，利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎，如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功，研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練，主要有兩個原因: (a)不收斂——模型參數發散很多，很少收斂; (b)鑒別器太過成功，導致生成網絡無法產生類似真實的假信號，導致學習無法繼續。此外，生成器和判別器之間需要適當的同步，以防止判別器收斂和生成器發散。

付費5元查看完整內容

自監督學習 ·

2020 年 5 月 29 日

[付費5元查看完整內容]【牛津大學&DeepMind】自監督學習教程，141頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

借助現代的高容量模型，大數據已經推動了機器學習的許多領域的革命，但標準方法——從標簽中進行監督學習，或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富，獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的，結構化輸出(場景解釋、交互、演示)要糟糕得多，尤其是當數據分布是非平穩的時候。

自監督學習是一個很有前途的替代方法，其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習，這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。

自監督學習(self-supervised learning, SSL)領域正在迅速發展，這些方法的性能逐漸接近完全監督方法。