機器學習(ML)的最新進展改變了世界。過去是人類主宰規則,現在是機器儲存數據并做出決定。雖然這一變化帶來了真正的好處,但它已經實現了大量基于人類的交互自動化,使其易于操作。研究已經確定,機器學習模型非常容易受到對抗性擾動,特別是對其輸入的更改,這些更改對人類來說是無法察覺的,但會迫使它們以意想不到的方式作業。在本文中,我們采取了一種相當非正統的方法來研究機器學習安全,并通過計算機安全的角度來研究機器學習的現狀。我們發現了大量潛伏在系統安全和機器學習交叉領域的新攻擊和問題。接下來,我們描述了文獻的現狀,強調了我們仍然缺少重要知識的地方,并描述了該領域的幾個新的貢獻。該領域的一些特征使當前的安全方法變得不太適用,使現代機器學習系統容易受到各種各樣的攻擊。我們的主要貢獻是對機器學習的可用性攻擊——針對推理或模型訓練延遲的攻擊。我們還解釋了攻擊者如何利用與模型環境的許多其他交集。一個重要的見解是,必須理解、承認機器學習模型的固有局限性,并通過在更大系統中使用組件來補償控制進行緩解。
機器學習(ML)徹底改變了現代計算機系統,因此,更多的任務現在是完全自動化和模型驅動的。盡管深度神經網絡的性能令人印象深刻,但人們很快發現,底層模型是極其敏感的,攻擊者可以找到微小的,有時甚至無法察覺的擾動,以控制底層模型的行為。圖1 - 1展示了這種對抗性示例的一個例子——一個輸入樣本,旨在迫使模型將鳥瞰圖視為一輛汽車。(每個像素顏色的微小擾動被放大,使它們在這些圖像中可見。)這一發現導致了對抗性機器學習領域的誕生,在那里我們研究如何攻擊和防御ML模型。起初,這主要是由對基礎數學的研究和構建不太敏感的函數(如對抗性訓練)驅動的。然而,令人驚訝的是,這對嵌入模型的大型系統的安全性影響甚微,因為相同的模型仍然容易受到其他攻擊者的攻擊,也容易受到減少效用的影響。在實踐中,使用不那么敏感的近似函數并不一定會提高或降低安全性。攻擊者很少受到擾動大小的限制,并且可能更喜歡獲得模型的控制權,而不是根據某些學術指標保持攻擊不可察覺。
//www.repository.cam.ac.uk/handle/1810/338197
這種認識導致了一個新領域的創建——機器學習的安全性——在這里,我們不是孤立地觀察ML,而是在其環境、依賴項和需求的上下文中分析它。我們在博士期間一直在做的工作對這一文獻做出了早期貢獻,特別是開創了三種新的攻擊和防御類型。
在過去的十年中,自然語言處理(NLP)系統幾乎完全建立在大型神經模型的基礎上。由于這些模型的能力,可行的任務范圍擴大了,應用的空間也擴大了,包括具有現實世界影響的子領域,如事實核查、假新聞檢測和醫療決策支持。這些模型的規模和非線性的增加導致了不透明,阻礙了機器學習從業者和外行用戶理解其內部原理并從其預測中獲得意義或信任的努力。可解釋人工智能(XAI)和更具體的可解釋NLP (ExNLP)領域通過提供對人類用戶有意義的文本解釋,已成為糾正這種不透明度并確保模型在高風險場景中的可靠性和可信性的活躍領域。可以檢查為其個人預測提供理由的模型,以調試、量化偏差和公平性、理解模型行為以及確定魯棒性和隱私(Molnar 2019)。無論任務模式如何,文本解釋是機器學習數據集中的主要解釋形式。因此,本文涵蓋了自然語言任務解釋和自然語言任務解釋兩個方面。本文提出了兩種語義定義下的模型解釋質量評估測試集:忠實度(faithfulness)和人類可接受性(human acceptability)。我使用這些評估方法來研究兩種解釋形式和三種模型架構的效用。最后,我提出了兩種方法來提高解釋質量——一種增加了忠實突出解釋的可能性,另一種提高了人類對自由文本解釋的可接受性。本文努力增加在實踐中部署人工智能系統時積極使用和產生結果的可能性。
**近年來,具有復雜自主行為的智能體和系統的發展加快。**隨著這些智能體行動的后果開始在社會中顯現,對理解其決策的需求推動了對機制的研究,以獲得與人類推理兼容的解釋。然而,可解釋系統的設計往往沒有考慮解釋可能給機器和人類智能體帶來的影響。本文探討了這一挑戰。
**該方法首先著眼于具有復雜監管的分散環境,在這些環境中,必須交換解釋,以確保智能體之間的有序交互。**為將人類規則集轉換為機器兼容的推理機制,本文提出一種基于辯論的人-智能體架構,將人類規則映射到具有可解釋行為的人工智能體的文化中。在混合的、可解釋的人-智能體設置下的用戶研究表明,系統復雜性是解釋對人類有用的決定因素。對于自主智能體,隱私性和部分可觀察性會在分散系統中引入主觀不公平性的概念。本文表明,這種影響也可以通過使用有效的解釋來緩解。
**以類似的方式,研究了強化學習(RL)智能體,并研究了定向具有可解釋特征的學習機制的可能性。**將此過程稱為解釋感知經驗回放(XAER),并證明了解釋工程可以用來代替具有可解釋特征的環境的獎勵工程。進一步,將這一概念擴展到多智能體強化學習中,并展示了如何在具有部分可觀測性的環境中交換解釋,以獲得更魯棒和有效的集體行為。結論是,可解釋系統的設計不僅要考慮解釋的生成,還要考慮解釋的消耗。解釋可以作為交流精確和精煉信息的工具,人類智能體獲得的見解也可以由機器智能體獲得,特別是在具有分散智能體或部分知識的系統中。
**近年來,深度學習在許多領域得到了快速發展。這些成功啟發了在安全領域使用深度學習。**然而,當深度學習遇到安全性時,至少有兩個主要挑戰。首先,攻擊數據的可用性是個問題。在有限的攻擊數據下構建一個良好的模型是具有挑戰性的。其次,深度學習系統本身容易受到各種攻擊,這在使用深度學習提高計算機系統安全性時帶來了新的問題。為了解決第一個挑戰,本文展示了如何使用深度學習技術來提高有限或沒有攻擊數據的計算機系統的安全性。為了解決第二個挑戰,我們展示了如何保護深度學習系統的安全性和隱私性。 **具體而言,在本文的第一部分中,我們考慮了一個沒有攻擊數據的實際場景,即異常檢測。**本文提出了一種新的方法——重構誤差分布(RED),用于實時異常檢測。本文的關鍵見解是,計算機系統的正常行為可以通過時間深度學習模型捕獲。偏離正常行為表示異常。實驗表明,所提方法可以在電網控制器系統和通用云計算服務器中實時、高精度地檢測攻擊。論文的第二部分主要研究深度學習的安全與隱私保護問題。在機器學習即服務(MLaaS)系統中,可以通過一種精心設計的輸入,即敏感樣本,動態檢查云中的深度學習模型的完整性。在另一個場景中,例如邊緣-云系統中的分布式學習,我們證明了云中的攻擊者可以在攻擊者能力不斷減弱的情況下高保真地重構邊緣設備的輸入數據。本文還提出了一種新的防御方法來應對這些攻擊。 綜上所述,我們希望本文的工作能為利用深度學習提高安全性提供啟發,并有助于提高深度學習系統的安全性。
**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作
機器學習的對抗性魯棒性綜述了該課題的最新進展,介紹了對抗性攻擊、防御和驗證的常用算法。章節涵蓋了對抗性攻擊、驗證和防御,主要關注圖像分類應用程序,這是對抗性魯棒性社區考慮的標準基準。其他部分討論了圖像分類以外的對抗例子,測試時間攻擊以外的其他威脅模型,以及對抗魯棒性的應用。對于研究人員,本書提供了一個全面的文獻綜述,總結了該領域的最新進展,可以作為一個很好的參考,進行未來的研究。此外,本書還可以作為研究生課程的教材,講授對抗魯棒性或可信賴機器學習。雖然機器學習(ML)算法在許多應用中取得了顯著的性能,但最近的研究表明,它們對對抗性擾動缺乏魯棒性。魯棒性的缺乏給實際應用(如自動駕駛汽車、機器人控制和醫療保健系統)的ML模型帶來了安全問題。
//www.elsevier.com/books/adversarial-robustness-for-machine-learning/chen/978-0-12-824020-5
隨著機器學習理論和算法的最新進展,高容量和可擴展模型的設計,如神經網絡、豐富的數據集和充足的計算資源,機器學習(ML),或更廣泛地說,人工智能(AI),已經以前所未有的速度改變了我們的行業和社會。當我們期待著機器學習技術帶來的積極影響時,我們往往會忽視潛在的負面影響,這可能會帶來相當大的道德擔憂,甚至由于法律法規和災難性的失敗而帶來挫折,特別是對于關鍵任務和高風險的決策任務。因此,除了準確性,值得信賴的機器學習是基于機器學習的技術實現和發展的最后一個里程碑。值得信賴的機器學習包含了一系列基本主題,如對抗魯棒性、公平性、可解釋性、問責性和倫理。
這本書的重點是實現對機器學習算法、模型和系統的評估、改進和利用對抗魯棒性的努力,以實現更好、更值得信任的版本。利用不受信任的機器學習作為漏洞,為有意的一方創造無人看管的入口,操縱機器預測,同時避開人類的注意,以獲得自己的利益。無論一個人在ML中的角色是什么,作為模型開發人員、利益相關者還是用戶,我們相信每個人都必須了解機器學習的對抗魯棒性,就像在開車前了解自己車輛的性能和限制一樣。對于模型開發人員,我們提倡對您自己的模型和系統進行主動的內部魯棒性測試,以進行錯誤檢查和降低風險。對于利益相關者,我們主張承認產品和服務可能存在的弱點,并以前瞻性的方式進行誠實和徹底的風險和威脅評估,以防止收入/聲譽損失和對社會和環境的災難性破壞。對于使用機器學習副產品的用戶,我們主張積極了解其安全使用的局限性,并了解可能的誤用。這些與對抗魯棒性相關的方面,以及可用的技術和工具,在本書中進行了闡述。
一般來說,對抗魯棒性集中在機器學習中最壞情況性能的研究,而標準機器學習實踐則關注平均性能,例如對測試數據集的預測精度。最壞情況分析的概念是由確保機器學習對訓練環境和部署場景的變化進行魯棒和準確預測的必要性激發的。具體來說,這種變化可能是由自然事件(例如,由于不同的光照條件導致的數據漂移)或惡意嘗試(例如,旨在妥協并獲得基于機器學習的系統/服務控制權的黑客)引起的。因此,與其問“機器學習在給定數據集/任務上的表現如何?”,在對抗性魯棒性中,我們問“如果數據集或模型可以經歷不同的可量化水平的變化,機器學習的魯棒性和準確性如何?”這種干預過程通常涉及在機器學習中引入虛擬對手以進行魯棒性評估和改進,這是對抗性機器學習的關鍵因素。
本書旨在提供對抗性魯棒性的整體概述,涵蓋機器學習的生命周期,從數據收集,模型開發,到系統集成和部署。內容為機器學習的對抗魯棒性研究提供了一套全面的研究技術和實用工具。本書涵蓋了以下四個研究重點在對抗魯棒性:(i)攻擊-尋找機器學習的失敗模式;(ii)防御——加強和保護機器學習;核證-制定可證明的穩健性業績保證;和(iv)應用——基于對抗性魯棒性研究發明新的用例。
我們將本書各部分的內容總結如下。在第1部分中,我們介紹了本書的初步內容,將對抗性魯棒性與對抗性機器學習聯系起來,并提供了有趣的發現來激勵對抗性魯棒性。在第2部分中,我們介紹了不同類型的對抗攻擊,對攻擊者在機器學習生命周期、目標機器學習系統知識、數字和物理空間的實現以及數據模態中的能力進行了不同的假設。在第3部分中,我們介紹了量化神經網絡可證明魯棒性水平的認證技術。在第4部分中,我們將介紹用于提高機器學習對對抗性攻擊的魯棒性的防御。最后,在第5部分中,我們介紹了幾個從機器學習的對抗魯棒性研究中獲得靈感的新應用。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html
在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。
在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。
在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。