這項工作包括在征求研究、設計和開發用于人工智能(AI)系統對抗性測試和評估的反人工智能工具的初步建議和結論。該報告包括對相關人工智能概念的文獻回顧和對抗性人工智能領域的廣泛研究。一項密集的利益相關者分析,包括從20多個政府和非政府組織中征集需求,協助確定哪些功能需求應包括在反人工智能工具的系統設計中。隨后的系統架構圖接受用戶輸入,測試各種類型的對抗性人工智能攻擊,并輸出人工智能模型的脆弱性。在這個工具投入使用之前,伙伴組織將進行迭代實驗,這是開發和部署這個反人工智能工具的下一個步驟。
美國國防部(DoD)對使用人工智能(AI)技術來提高軍事任務能力和日常工作越來越感興趣。美國防部將人工智能定義為 "旨在像人一樣思考或行動的人工系統,包括認知架構和神經網絡"(Sayler, 2020)。它將對抗性人工智能定義為 "對手可能針對人工智能系統部署的反措施,以及保障性能所需的評估步驟和防御措施"(美國防部,2018)。美國防部承諾研究新的理論、技術和工具,使人工智能系統更有彈性,表現出更少的意外行為。美國防部的戰略概述包括提供解決關鍵任務的人工智能能力,通過共同的基礎擴大人工智能在整個國防部的影響,培養領先的人工智能勞動力,與各種合作伙伴合作,并在軍事道德和人工智能安全方面引領世界(美國防部,2018)。
然而,隨著人工智能系統實施和采用的增加,對手已經威脅要攻擊和操縱這些系統;目前,沒有現成的工具來幫助對人工智能系統進行對抗性測試和評估(T&E),以便在其投入使用之前評估漏洞和失敗模型。在任務使用情況下,美國防部不應該在沒有事先評估安全或反人工智能措施的有效性的情況下部署這些人工智能系統。設計和建立有彈性的人工智能系統對人工智能防御至關重要,因為這些系統更容易解釋,更值得信賴,并能確保其免受各種已確定的對抗性攻擊方法的影響。
因此,美國防部旨在確保部署的人工智能系統更加安全,以防止對手的操縱。對手將基于三種訪問范式攻擊人工智能:白盒、黑盒、灰盒。白盒攻擊給予攻擊者最高的能力,這發生在對手可以訪問所有模型組件時(Kurakin,2018)。在黑箱攻擊中,對手對模型沒有完全透明的看法,但能夠探測模型以推斷其結構和組件(Kurakin,2018)。攻擊者能力的最后一個順序是灰盒(或隱盒)攻擊,這是指對手不能直接訪問模型,只能對模型的結構進行假設(Kurakin,2018)。
對人工智能系統的潛在威脅包括各種攻擊模式,如中毒、規避和模型反轉。中毒攻擊是指污染訓練數據以歪曲模型行為的攻擊,例如將用戶輸入的數據錯誤地分類到AI系統中(Bae,2021)。逃避攻擊并不直接影響訓練數據,但有效地掩蓋了它所提供的內容,使攻擊對人類觀察者、人工智能系統識別和分類都不可見(Bae,2021)。模型反轉(偷竊)攻擊發生在對手探測人工智能系統以提取有關模型配置或訓練數據的信息,從而有效地重建模型(Bae,2021)。所有這三種對抗性攻擊對已部署的人工智能系統構成了不同的后果,最明顯的是與用戶隱私和數據安全有關。
鑒于感知到的威脅和缺乏充分評估對抗性人工智能漏洞的工具,我們的工作旨在了解如何設計、開發和利用反人工智能工具,以幫助保護人工智能系統免受這些新發現的對抗性威脅載體。具體來說,我們的工作有助于并支持研究、設計和開發用于人工智能系統的對抗性T&E的反人工智能工具,供人工智能紅隊成員使用,以提高人工智能系統的復原力。
1.對機器學習系統如何學習一項任務給出一個概述。 2.識別對手攻擊ML系統的三種方式。 3.識別防御者可能需要解決的九個問題,以防御一個ML系統。
本資料是基于國防部根據FA8702-15-D-0002號合同與卡內基梅隆大學合作的軟件工程研究所的運作而資助和支持的工作,這是一個聯邦資助的研究和開發中心。