亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目: Adversarial Training for Large Neural Language Models

簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利于推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。

付費5元查看完整內容

相關內容

微軟研究院(Microsoft Research,英文縮寫:MSR)是微軟在1991年創立硏究不同的電腦科學主題與問題的分部。微軟研究院其中一個固定的目標為「支持長期的電腦科學硏究而不受產品週期所限」。

微軟研究院是目前世界頂尖的研究中心之一,有很多在電腦科學、物理學、數學受到高度公認的專家及許多著名科學獎項得主在微軟研究院,包括圖靈獎得主東尼·霍爾、詹姆斯·尼古拉·格雷,菲爾茲獎得主Michael Freedman,沃爾夫獎得主Laszlo Lovasz,MacArthur Fellow獎金得主Jim Blinn與Dijkstra Prize獎得主Leslie Lamport。


微軟研究院於班加羅爾、北京、劍橋、矽谷、雷德蒙德與舊金山擁有實驗室。

題目: Smooth Adversarial Training

摘要:

人們通常認為,網絡不能兼具準確性和魯棒性,獲得魯棒性意味著失去準確性。還普遍認為,除非擴大網絡規模,否則網絡架構元素對提高對抗性的健壯性影響不大。本文通過對對抗訓練的仔細研究,提出了挑戰這些共同信念的證據。主要觀察結果是,廣泛使用的ReLU激活功能由于其不平滑的特性而大大削弱了對抗訓練。因此,提出了平滑對抗訓練(SAT),在其中我們用ReLU平滑近似代替了ReLU,以加強對抗訓練。SAT中平滑激活函數的目的是使它能夠找到更難的對抗示例,并在對抗訓練期間計算出更好的梯度更新。與標準的對抗訓練相比,SAT提高了“free”的對抗魯棒性,即準確性沒有降低,計算成本也沒有增加。例如,在不引入其他計算的情況下,SAT可將ResNet-50的魯棒性從33.0%提高到42.3%,同時還將ImageNet的準確性提高0.9%。SAT在較大的網絡上也能很好地工作:它可以幫助EfficientNet-L1在ImageNet上實現82.2%的準確性和58.6%的魯棒性,在準確性和魯棒性方面分別比以前的最新防御提高9.5%和11.6%。

付費5元查看完整內容

摘要

圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。

**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練

付費5元查看完整內容

自回歸文本生成模型通常側重于局部的流暢性,在長文本生成過程中可能導致語義不一致。此外,自動生成具有相似語義的單詞是具有挑戰性的,而且手工編寫的語言規則很難應用。我們考慮了一個文本規劃方案,并提出了一個基于模型的模仿學習方法來緩解上述問題。具體來說,我們提出了一種新的引導網絡來關注更長的生成過程,它可以幫助下一個單詞的預測,并為生成器的優化提供中間獎勵。大量的實驗表明,該方法具有較好的性能。

付費5元查看完整內容

最近,在自然語言處理(NLP)中構建通用語言模型(如谷歌的Bert和OpenAI的GPT-2)用于文本特征提取的新范式出現了。對于下游建模,已經出現并開始在各種下游NLP任務和現實世界系統(例如,谷歌的搜索引擎)中發現它的應用。為了獲得通用的文本嵌入,這些語言模型具有高度復雜的體系結構,具有數百萬個可學習的參數,通常在使用之前對數十億個句子進行預處理。眾所周知,這種做法確實提高了許多下游NLP任務的最新性能。但是,改進的實用程序不是免費的。我們發現,通用語言模型中的文本嵌入會從純文本中捕獲很多敏感信息。一旦被對手訪問,嵌入信息可以被反向設計,以披露受害者的敏感信息,以進行進一步的騷擾。盡管這樣的隱私風險可能會對這些有前途的NLP工具的未來影響造成真正的威脅,但是目前還沒有針對主流行業級語言模型的公開攻擊或系統評估。為了彌補這一差距,我們首次系統地研究了8種最先進的語言模型和4個不同的案例。通過構建兩個新的攻擊類,我們的研究表明上述隱私風險確實存在,并可能對通用語言模型在身份、基因組、醫療保健和位置等敏感數據上的應用造成實際威脅。例如,當我們從病人的醫療描述的Bert embeddings中推斷出精確的疾病位置時,我們向幾乎沒有先驗知識的對手展示了大約75%的準確性。作為可能的對策,我們提出了4種不同的防御(通過舍入、差異隱私、對抗性訓練和子空間投影)來混淆無保護的嵌入,以達到緩解的目的。在廣泛評估的基礎上,我們還對每一種防御所帶來的效用-隱私權衡進行了初步分析,希望能對未來的緩解研究有所幫助。

付費5元查看完整內容

最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。

付費5元查看完整內容

在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。

付費5元查看完整內容

題目: Data Augmentation using Pre-trained Transformer Models

簡介:

基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練變壓器模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。

付費5元查看完整內容

簡介:

作為面向任務的對話系統中的關鍵組件,自然語言生成(NLG)模塊將以語義形式表示的對話行為轉換為自然語言的響應。傳統的基于模板或統計模型的成功通常依賴于帶有大量注釋的數據,這對于新領域而言是不可行的。因此,對于NLG系統而言,在實際應用中使用有限的標記數據很好地泛化至關重要。為此,我們展示了FewShotWOZ,這是第一個NLG基準測試,用于模擬面向任務的對話系統中的少量學習設置。此外,我們開發了SC-GPT模型。它在大量帶注釋的NLG語料庫上進行了預訓練,以獲取可控的生成能力,并僅用少數幾個特定于域的標簽進行微調以適應新的域。在FewShotWOZ和大型Multi-Domain-WOZ數據集上進行的實驗表明,通過各種自動指標和人工評估,提出的SC-GPT明顯優于現有方法。

付費5元查看完整內容

題目: PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL

摘要: 預訓練語言模型的最新突破表明了自監督學習在廣泛的自然語言處理任務中的有效性。除了標準的句法和語義NLP任務外,預訓練模型在涉及真實世界知識的任務上也取得了很強的改進,這表明大規模語言建模可能是一種隱含的知識獲取方法。在這項工作中,我們進一步研究了BERT等預訓練模型使用零鏡頭事實完成任務捕獲知識的程度,此外,我們還提出了一個簡單而有效的弱監督預訓練目標,該目標明確地迫使模型包含關于真實世界實體的知識。用我們的新目標訓練的模型在事實完成任務上有顯著的改進。當應用于下游任務時,我們的模型在四個實體相關的問答數據集(即WebQuestions、TriviaQA、SearchQA和Quasar-T)上的平均F1改進為2.7,標準細粒度實體類型數據集(即FIGER)的平均精度提高為5.7。

作者簡介:

Wenhan Xiong,加州大學圣塔芭芭拉分校計算機科學博士,主要研究結構化和非結構化文本數據的信息提取、問答和推理。//xwhan.github.io/

William Yang Wang,加州大學圣塔芭芭拉分校自然語言處理小組和負責的機器學習中心的主任。他是加州大學圣塔芭芭拉分校計算機科學系的助理教授。他獲得了卡內基梅隆大學計算機科學學院的博士學位。他對數據科學的機器學習方法有著廣泛的興趣,包括統計關系學習、信息提取、計算社會科學、語音和視覺。

付費5元查看完整內容

論文題目: Unsupervised Pre-training for Natural Language Generation

論文摘要: 最近,由于無監督預訓練在促進自然語言理解(NLU)方面取得了令人驚訝的成功以及有效利用大規模未標記語料庫的潛力,因此在計算語言學領域正變得越來越受歡迎。但是,無論NLU是否成功,當涉及自然語言生成(NLG)時,無監督預訓練的功能只能被部分挖掘。 NLG特質的主要障礙是:文本通常是基于特定的上下文生成的,可能會因目標應用程序而異。結果,像在NLU場景中一樣,設計用于預訓練的通用體系結構是很難的。此外,在目標任務上學習時保留從預訓練中學到的知識也是不容置疑的。這篇綜述總結了近期在無監督的預訓練下增強NLG系統的工作,特別著重于催化將預訓練的模型集成到下游任務中的方法。根據它們處理上述障礙的方式,它們分為基于體系結構的方法和基于策略的方法。還提供了討論,以提供這兩種工作方式之間的進一步相互了解,一些有益的經驗現象以及未來工作可能涉及的一些方向。

付費5元查看完整內容
北京阿比特科技有限公司