亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近,NLP見證了大型預訓練模型使用的激增。用戶下載在大型數據集上預先訓練的模型的權重,然后在他們選擇的任務上微調權重。這就提出了一個問題:下載未經訓練的不可信的權重是否會造成安全威脅。在這篇論文中,我們證明了構造“權重中毒”攻擊是可能的,即預先訓練的權重被注入漏洞,在微調后暴露“后門”,使攻擊者能夠通過注入任意關鍵字來操縱模型預測。我們證明,通過應用正則化方法(我們稱之為RIPPLe)和初始化過程(我們稱之為嵌入手術),即使對數據集和微調過程的了解有限,這種攻擊也是可能的。我們在情感分類、毒性檢測、垃圾郵件檢測等方面的實驗表明,該攻擊具有廣泛的適用性和嚴重的威脅。最后,我們概述了針對此類攻擊的實際防御。復制我們實驗的代碼可以在//github.com/neulab/RIPPLe找到。

付費5元查看完整內容

相關內容

預訓練模型是深度學習架構,已經過訓練以執行大量數據上的特定任務(例如,識別圖片中的分類問題)。這種訓練不容易執行,并且通常需要大量資源,超出許多可用于深度學習模型的人可用的資源。

題目:

Con?dence-Aware Learning for Deep Neural Networks

簡介:

盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。

付費5元查看完整內容

主題: Imitation Attacks and Defenses for Black-box Machine Translation Systems

摘要: 我們考慮一個尋求竊取黑盒機器翻譯(MT)系統的對手,以獲取經濟利益或排除模型錯誤。我們首先表明,黑盒機器翻譯系統可以通過使用單語句子和訓練模型來模擬它們的輸出來竊取。通過模擬實驗,我們證明了即使模仿模型的輸入數據或架構與受害者不同,MTmodel的竊取也是可能的。應用這些思想,我們在高資源和低資源語言對上訓練了三個生產MT系統的0.6 BLEU以內的模仿模型。然后,我們利用模仿模型的相似性將對抗性示例轉移到生產系統。我們使用基于梯度的攻擊,這些攻擊會暴露輸入,從而導致語義錯誤的翻譯,內容丟失和庸俗的模型輸出。為了減少這些漏洞,我們提出了一種防御措施,該防御措施會修改翻譯輸出,從而誤導了模仿模型優化的防御措施。這種防御降低了仿真模型BLEU的性能,并降低了BLEU的攻擊傳輸速率和推理速度。

付費5元查看完整內容

題目: Adversarial Training for Large Neural Language Models

簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利于推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。

付費5元查看完整內容

Recently, NLP has seen a surge in the usage of large pre-trained models. Users download weights of models pre-trained on large datasets, then fine-tune the weights on a task of their choice. This raises the question of whether downloading untrusted pre-trained weights can pose a security threat. In this paper, we show that it is possible to construct ``weight poisoning'' attacks where pre-trained weights are injected with vulnerabilities that expose ``backdoors'' after fine-tuning, enabling the attacker to manipulate the model prediction simply by injecting an arbitrary keyword. We show that by applying a regularization method, which we call RIPPLe, and an initialization procedure, which we call Embedding Surgery, such attacks are possible even with limited knowledge of the dataset and fine-tuning procedure. Our experiments on sentiment classification, toxicity detection, and spam detection show that this attack is widely applicable and poses a serious threat. Finally, we outline practical defenses against such attacks. Code to reproduce our experiments is available at //github.com/neulab/RIPPLe.

在一個持續的循環,在這個循環中,對對抗攻擊更強的防御隨后被更高級的防御感知攻擊打破。我們提出了一種結束此循環的新方法,即通過使攻擊者生成語義上類似于攻擊目標類的輸入來“轉移”對抗攻擊。為此,我們首先提出一種基于膠囊網絡的更強大的防御,它結合了三種檢測機制來實現對標準攻擊和防御感知攻擊的最新檢測性能。然后,我們進行了一項人體研究,要求參與者對攻擊產生的圖像進行標記,結果表明,針對我們的防御系統的未檢測到的攻擊通常與對抗目標類相似。這些攻擊圖像不能再被稱為“對抗性的”,因為我們的網絡像人類一樣對它們進行分類。

付費5元查看完整內容

There has been an ongoing cycle where stronger defenses against adversarial attacks are subsequently broken by a more advanced defense-aware attack. We present a new approach towards ending this cycle where we "deflect'' adversarial attacks by causing the attacker to produce an input that semantically resembles the attack's target class. To this end, we first propose a stronger defense based on Capsule Networks that combines three detection mechanisms to achieve state-of-the-art detection performance on both standard and defense-aware attacks. We then show that undetected attacks against our defense often perceptually resemble the adversarial target class by performing a human study where participants are asked to label images produced by the attack. These attack images can no longer be called "adversarial'' because our network classifies them the same way as humans do.

論文題目: Unsupervised Pre-training for Natural Language Generation

論文摘要: 最近,由于無監督預訓練在促進自然語言理解(NLU)方面取得了令人驚訝的成功以及有效利用大規模未標記語料庫的潛力,因此在計算語言學領域正變得越來越受歡迎。但是,無論NLU是否成功,當涉及自然語言生成(NLG)時,無監督預訓練的功能只能被部分挖掘。 NLG特質的主要障礙是:文本通常是基于特定的上下文生成的,可能會因目標應用程序而異。結果,像在NLU場景中一樣,設計用于預訓練的通用體系結構是很難的。此外,在目標任務上學習時保留從預訓練中學到的知識也是不容置疑的。這篇綜述總結了近期在無監督的預訓練下增強NLG系統的工作,特別著重于催化將預訓練的模型集成到下游任務中的方法。根據它們處理上述障礙的方式,它們分為基于體系結構的方法和基于策略的方法。還提供了討論,以提供這兩種工作方式之間的進一步相互了解,一些有益的經驗現象以及未來工作可能涉及的一些方向。

付費5元查看完整內容
北京阿比特科技有限公司