機器學習的對抗性魯棒性綜述了該課題的最新進展,介紹了對抗性攻擊、防御和驗證的常用算法。章節涵蓋了對抗性攻擊、驗證和防御,主要關注圖像分類應用程序,這是對抗性魯棒性社區考慮的標準基準。其他部分討論了圖像分類以外的對抗例子,測試時間攻擊以外的其他威脅模型,以及對抗魯棒性的應用。對于研究人員,本書提供了一個全面的文獻綜述,總結了該領域的最新進展,可以作為一個很好的參考,進行未來的研究。此外,本書還可以作為研究生課程的教材,講授對抗魯棒性或可信賴機器學習。雖然機器學習(ML)算法在許多應用中取得了顯著的性能,但最近的研究表明,它們對對抗性擾動缺乏魯棒性。魯棒性的缺乏給實際應用(如自動駕駛汽車、機器人控制和醫療保健系統)的ML模型帶來了安全問題。
//www.elsevier.com/books/adversarial-robustness-for-machine-learning/chen/978-0-12-824020-5
隨著機器學習理論和算法的最新進展,高容量和可擴展模型的設計,如神經網絡、豐富的數據集和充足的計算資源,機器學習(ML),或更廣泛地說,人工智能(AI),已經以前所未有的速度改變了我們的行業和社會。當我們期待著機器學習技術帶來的積極影響時,我們往往會忽視潛在的負面影響,這可能會帶來相當大的道德擔憂,甚至由于法律法規和災難性的失敗而帶來挫折,特別是對于關鍵任務和高風險的決策任務。因此,除了準確性,值得信賴的機器學習是基于機器學習的技術實現和發展的最后一個里程碑。值得信賴的機器學習包含了一系列基本主題,如對抗魯棒性、公平性、可解釋性、問責性和倫理。
這本書的重點是實現對機器學習算法、模型和系統的評估、改進和利用對抗魯棒性的努力,以實現更好、更值得信任的版本。利用不受信任的機器學習作為漏洞,為有意的一方創造無人看管的入口,操縱機器預測,同時避開人類的注意,以獲得自己的利益。無論一個人在ML中的角色是什么,作為模型開發人員、利益相關者還是用戶,我們相信每個人都必須了解機器學習的對抗魯棒性,就像在開車前了解自己車輛的性能和限制一樣。對于模型開發人員,我們提倡對您自己的模型和系統進行主動的內部魯棒性測試,以進行錯誤檢查和降低風險。對于利益相關者,我們主張承認產品和服務可能存在的弱點,并以前瞻性的方式進行誠實和徹底的風險和威脅評估,以防止收入/聲譽損失和對社會和環境的災難性破壞。對于使用機器學習副產品的用戶,我們主張積極了解其安全使用的局限性,并了解可能的誤用。這些與對抗魯棒性相關的方面,以及可用的技術和工具,在本書中進行了闡述。
一般來說,對抗魯棒性集中在機器學習中最壞情況性能的研究,而標準機器學習實踐則關注平均性能,例如對測試數據集的預測精度。最壞情況分析的概念是由確保機器學習對訓練環境和部署場景的變化進行魯棒和準確預測的必要性激發的。具體來說,這種變化可能是由自然事件(例如,由于不同的光照條件導致的數據漂移)或惡意嘗試(例如,旨在妥協并獲得基于機器學習的系統/服務控制權的黑客)引起的。因此,與其問“機器學習在給定數據集/任務上的表現如何?”,在對抗性魯棒性中,我們問“如果數據集或模型可以經歷不同的可量化水平的變化,機器學習的魯棒性和準確性如何?”這種干預過程通常涉及在機器學習中引入虛擬對手以進行魯棒性評估和改進,這是對抗性機器學習的關鍵因素。
本書旨在提供對抗性魯棒性的整體概述,涵蓋機器學習的生命周期,從數據收集,模型開發,到系統集成和部署。內容為機器學習的對抗魯棒性研究提供了一套全面的研究技術和實用工具。本書涵蓋了以下四個研究重點在對抗魯棒性:(i)攻擊-尋找機器學習的失敗模式;(ii)防御——加強和保護機器學習;核證-制定可證明的穩健性業績保證;和(iv)應用——基于對抗性魯棒性研究發明新的用例。
我們將本書各部分的內容總結如下。在第1部分中,我們介紹了本書的初步內容,將對抗性魯棒性與對抗性機器學習聯系起來,并提供了有趣的發現來激勵對抗性魯棒性。在第2部分中,我們介紹了不同類型的對抗攻擊,對攻擊者在機器學習生命周期、目標機器學習系統知識、數字和物理空間的實現以及數據模態中的能力進行了不同的假設。在第3部分中,我們介紹了量化神經網絡可證明魯棒性水平的認證技術。在第4部分中,我們將介紹用于提高機器學習對對抗性攻擊的魯棒性的防御。最后,在第5部分中,我們介紹了幾個從機器學習的對抗魯棒性研究中獲得靈感的新應用。
CMU最新《可信賴強化學習》綜述為可信的RL的魯棒性、安全性和可泛化性提供一個統一的框架。
一個可信的強化學習算法應該能夠解決具有挑戰性的現實世界問題,包括魯棒地處理不確定性,滿足安全約束以避免災難性故障,以及在部署過程中泛化到未見過的場景。考慮到可信強化學習在魯棒性、安全性和泛化性等方面的內在脆弱性,對可信強化學習的主要研究方向進行了綜述。特別地,我們給出了嚴格的公式,分類了相應的方法,并討論了每個視角的基準。此外,我們還提供了一個展望部分,通過對考慮到人類反饋的外部漏洞的簡要討論來促進有希望的未來方向。我們希望這項綜述能將不同的研究線索整合到一個統一的框架中,促進強化學習的可信性。
//www.zhuanzhi.ai/paper/03e8a85b822658f3d9de0c2b3d84d958
強化學習(RL)[173]具有解決世界上一些最緊迫問題的巨大潛力,被應用于交通[68]、制造[133]、安全[75]、醫療[211]和世界饑餓[44]。隨著RL開始轉向在現實問題上的部署,它的快速發展伴隨著風險和回報[3,42,161]。在消費者接受rl授權的服務之前,研究人員的任務是證明他們創新的可信性。
針對內在漏洞的可信RL概覽圖:魯棒性、安全性、泛化性
可信度是為了最大化人工智能系統的利益,同時最小化它們的風險[3]。它有超出其字面意義的豐富含義,并激發了一個包括多種原則、要求和標準[3]的綜合框架。最近,可信的RL領域取得了令人振奮的進展[2,5,48,107,108,121,129,137,140,145,148,165,171,201],這極大地促進了我們對可信的RL的內在漏洞和特定方面的潛在解決方案的理解。很明顯,邁向值得信賴的RL的下一個飛躍將需要對這些問題的挑戰、現有值得信賴的RL方法的弱點和優點進行全面和根本的理解,并在現有工作的基礎上對值得信賴的RL進行范式轉變。與傳統機器學習(ML)中的可信性問題相比,強化學習中的問題要復雜幾個數量級,因為強化學習是一個多方面的系統,包含多個馬爾可夫決策過程(MDP)組件(觀察、環境動態、行動和獎勵)[173]。值得注意的是,這些組件可能受到不同的魯棒性、安全性、泛化和安全方面的考慮,這些在傳統的ML中已經或沒有考慮過。比較靜態的部分(例如,觀察)中的考慮可以在ML研究中找到根源,而那些與系統交互特性更相關的部分(例如,動作)是RL所獨有的,研究較少。此外,當將RL看作兩個階段(模型訓練之后是模型部署)時,我們可以單獨研究兩個階段的漏洞以及它們之間的聯系。 為了促進該領域的發展,本文從MDP的四個要素和兩個階段三個方面對可信RL進行了全面的考察。
擾動和不確定性的魯棒性, RL的安全性,以限制破壞性成本,以及 泛化到域內和域外未見過的環境。
對于具有強互連的智能體來說,這些要求通常是同時需要的。以自動駕駛汽車為例,具體闡述了可信度的三個方面。首先,自動駕駛汽車的觀察結果容易受到對手干擾相機或激光雷達輸入的影響,在訓練自動駕駛汽車時,環境動力學和獎勵可能被毒化,執行部署的良性策略時,執行器也可能被對手操縱。關于兩個階段及其連接,在訓練過程中,希望安全探索,使汽車不會發生碰撞;在部署過程中,還應遵守安全約束,以避免危險后果。此外,還需要從自動駕駛汽車的訓練環境到測試環境進行良好的泛化。AV應該在不同的城市、不同的天氣和季節之間進行泛化。
盡管可信度存在這些相互關聯的方面,但現有的調查主要集中在有限的部分。García等[52]、Gu等[62]和Brunke等[25]研究安全RL,而Moos等[121]和Kirk等[88]分別關注魯棒性和泛化。它們通過提供值得信任的RL的一個方面的具體描述來推進該領域,但是缺乏我們前面所設想的對RL內在弱點的全面描述。在本次綜述中,我們希望為可信的RL的三個方面提供一個統一的框架。對于每個方面,我們將1)闡明術語,2)分析它們的內在漏洞,3)介紹解決這些漏洞的方法,4)總結流行的基準測試。如圖1所示,魯棒性、安全性和泛化性與智能體、環境、獎勵和成本有很強的相關性,這些與MDP的組成部分相對應。為了在讀者容易理解的范圍內,我們將綜述限制在MDP設置中。本文將該綜述視為RL固有的可信方面,因為我們假設人類的偏好和智能體和環境的設置是預定義的。在展望部分,我們將討論內在可信性和外在可信性之間的聯系。特別地,我們將對四個基本問題進行展望
如何認證和評估值得信賴的強化學習? 可信度的不同方面之間有什么關系? 如何與物理智能體和環境共同設計可信的RL ? 如何實現以人為本的值得信賴的RL設計?
我們希望這項綜述將把不同的研究線索匯集在一個統一的框架中,并激發新的研究,以全面了解值得信賴的強化學習的內在方面。調查的其余部分組織如下。從第2節到第4節,每一節都涉及可信性的一個方面。我們將在第5節解釋我們對調查之外的未來方向的關鍵挑戰的三個方面的展望。我們將在第6節中總結10個結論。
魯棒強化學習
魯棒強化學習旨在確定性地或統計地提高算法在面對不確定性和對抗性攻擊時的最差性能。訓練任務和測試任務之間的差異普遍存在。例如,在連續控制任務中,真實的物理參數可能與仿真中不同,而在自動駕駛場景中,周圍的智能體可能具有新穎的駕駛行為。這種差異促進了魯棒RL的發展。此外,現實世界應用程序的安全關鍵特性使得魯棒性成為幫助避免災難性故障的重要特性。研究RL中有效的攻擊和防御的興趣激增。這兩個領域的詳細綜述可在[28,76,121]中找到。在本節中,我們首先從不同MDP組件(包括觀察/狀態、操作、轉換和獎勵)對不確定性的魯棒性方面總結第2.2節中的魯棒性RL公式。然后,我們在第2.3節中提出了魯棒訓練和測試方法,以提高對每個組件的不確定性或人為設計的攻擊的魯棒性。我們在圖2中總結了魯棒RL方法。最后,我們在第2.4節中介紹了用于測試所提議的魯棒RL算法的魯棒性的應用程序和基準。
安全強化學習
在將它們部署到現實世界的安全關鍵應用程序(如自動駕駛汽車)時,安全性也是另一個主要問題。傳統的強化學習只關注從環境中獲得的任務獎勵最大化,缺乏滿足安全約束的保證。安全的策略應該明確考慮訓練期間的安全約束,并防止強化學習智能體造成破壞性成本或處于危險狀態。例如,如果將RL算法部署在真實的機器人手臂上,安全約束將是避免碰撞脆弱的物體和周圍的人,這可能會破壞寶貴的財產或造成傷害。類似地,自動駕駛應用中的RL智能體應該遵守交通規則,并避免與周圍障礙物的碰撞。因此,為現實世界的應用開發安全的強化學習算法是很重要的,這些算法允許它們在滿足一定的安全約束的情況下完成任務。安全強化學習又稱約束強化學習,其目的是在滿足安全約束條件的情況下,學習最大化預期任務獎勵的策略。根據安全要求和訓練要求,safe RL有不同的配方。在安全要求方面,有軌跡方面的安全約束和狀態方面的安全約束。從訓練需求的角度,我們可以將安全的RL分為兩類:安全部署和安全探索,安全部署的目的是在模型訓練結束后安全行動,但在訓練過程中可能會違反約束;安全部署是指在訓練過程中提供安全保障,使整個訓練過程能夠完成,而不會造成災難性的不安全行為。注意在RL設置中,智能體需要從故障中學習,在安全RL設置中類似。有人可能會說,我們應該始終使用領域知識而不是主動學習來避免任何安全關鍵故障。然而,在這項調查中,我們發現在許多情況下,對環境風險的精確描述是不可用的。這也是我們既要注意安全部署,又要注意安全探索,管理風險的原因。
強化學習泛化性
強化學習中的泛化側重于設計算法,以產生可以遷移或適應各種環境的策略,而不會對訓練環境過度擬合。這種能力對于現實生活中RL智能體的部署至關重要,因為測試時的環境通常不同于訓練環境,或者本質上是動態的。現有的一些調查根據他們的方法[88,188,225]對RL泛化研究進行了分類。然而,在本次調查中,我們采用了一種不同的方法,根據他們的評價變化進行分類。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html
在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。
在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。
在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。
隨著機器學習模型越來越多地用于做出涉及人類的重大決策,重要的是,這些模型不能因為種族和性別等受保護的屬性而歧視。然而,模型持有人并不是受到歧視性模型傷害的首當其沖的人,因此模型持有人修復歧視性模型的自然動機很少。因此,如果其他實體也能發現或減輕這些模型中的不公平行為,將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的,因為它們可以在不知道模型的全部細節的情況下執行。
在這篇論文中,我考慮了三種不同形式的不公平,并提出了解決它們的黑盒方法。第一個是代理使用,模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏,這使模型不應該做出任意決定的直覺觀念形式化。最后,模型的訓練集可能不具有代表性,這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個,我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問,即使模型持有者不合作,它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性,表明它們是有用的技術工具,可以支持對歧視的有效回應。
摘要
深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。
//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85
引言
深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。
計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。
由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。
Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。
由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。
自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。
本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。
摘要
在過去的幾十年里,人工智能技術迅猛發展,改變了每個人的日常生活,深刻改變了人類社會的進程。開發人工智能的目的是通過減少勞動、增加生活便利、促進社會公益來造福人類。然而,最近的研究和人工智能應用表明,人工智能可能會對人類造成意外傷害,例如,在安全關鍵的情況下做出不可靠的決定,或通過無意中歧視一個或多個群體而破壞公平。因此,值得信賴的人工智能最近受到越來越多的關注,人們需要避免人工智能可能給人們帶來的負面影響,以便人們能夠充分信任人工智能技術,與人工智能技術和諧相處。近年來,人們對可信人工智能進行了大量的研究。在本次綜述中,我們從計算的角度對值得信賴的人工智能進行了全面的評述,幫助讀者了解實現值得信賴的人工智能的最新技術。值得信賴的人工智能是一個大而復雜的課題,涉及方方面面。在這項工作中,我們關注實現值得信賴的人工智能的六個最關鍵方面: (i) 安全性和健壯性,(ii) 非歧視和公平,(iii) 可解釋性,(iv) 隱私,(v) 問責性和可審計性,和(vi) 環境福祉。對于每個維度,我們根據一個分類回顧了最近的相關技術,并總結了它們在真實系統中的應用。我們還討論了不同維度之間的協調和沖突互動,并討論了值得信賴的人工智能在未來研究的潛在方面。
引言
人工智能(AI)是一門研究和發展模擬、擴展和拓展人類智能的理論、方法、技術和應用系統的科學,為現代人類社會帶來了革命性的影響。從微觀角度來看,人工智能在我們生活的許多方面發揮著不可替代的作用。現代生活充滿了與人工智能應用的互動: 從用人臉識別解鎖手機,與語音助手交談,到購買電子商務平臺推薦的產品; 從宏觀角度看,人工智能創造了巨大的經濟成果。世界經濟論壇的《2020年就業前景報告》[136]預測,人工智能將在5年內創造5800萬個新就業崗位。到2030年,人工智能預計將產生13萬億美元的額外經濟利潤,對全球GDP的年增長率貢獻1.2%[54]。然而,隨著其快速而令人印象深刻的發展,人工智能系統也暴露了其不值得信任的一面。例如,安全至關重要的人工智能系統在對抗攻擊時很脆弱。無人駕駛汽車的深度圖像識別系統可能無法識別被惡意攻擊者修改的路標[345],對乘客安全構成極大威脅。此外,人工智能算法可能會導致偏見和不公平。在線人工智能聊天機器人可能會產生不雅、種族主義和性別歧視的內容[335],冒犯用戶,并產生負面社會影響。此外,人工智能系統還存在泄露用戶隱私和商業秘密的風險。黑客可以利用人工智能模型產生的特征向量來重構私人輸入數據,如指紋[25],從而泄露用戶的敏感信息。這些漏洞會使現有的人工智能系統無法使用,并可能造成嚴重的經濟和安全后果。對于人工智能來說,要想在一個領域取得進步、得到更廣泛的應用并創造更多的經濟價值,對誠信的擔憂已經成為一個巨大的障礙。因此,如何構建可信的人工智能系統成為學術界和業界關注的焦點。
近年來,出現了大量關于可信人工智能的文獻。隨著構建可信人工智能的需求日益增長,總結已有成果并探討未來可能的研究方向勢在必行。在本次綜述中,我們提供了值得信賴的人工智能的全面概述,以幫助新手對什么使人工智能系統值得信賴有一個基本的了解,并幫助老兵跟蹤該領域的最新進展。我們澄清了可信人工智能的定義,并介紹了可信人工智能的六個關鍵維度。對于每個維度,我們給出了它的概念和分類,并回顧了有代表性的算法。我們還介紹了不同維度之間可能的互動,并討論了值得信賴的人工智能尚未引起足夠關注的其他潛在問題。除了定義和概念,我們的綜述還關注實現可信人工智能每個維度的具體計算解決方案。這一視角有別于現有的一些相關工作,如政府指南[307],建議如何以法律法規的形式建立一個值得信賴的人工智能系統,或綜述[51,318],從高層次、非技術的角度討論值得信賴的人工智能的實現。
根據歐盟(EU)最近提供的人工智能倫理指南[307],一個值得信賴的人工智能系統應符合四項倫理原則: 尊重人類自主、防止傷害、公平和可解釋性。基于這四個原則,人工智能研究人員、實踐者和政府提出了值得信賴的人工智能的各個具體維度[51,307,318]。在這項調查中,我們重點關注已經被廣泛研究的六個重要和相關的維度。如圖1所示,它們是安全性和穩健性、非歧視性和公平性、可解釋性、隱私性、可審計性和可問責性,以及環境福祉。
余下論文綜述組織如下。在第2節中,我們明確了值得信賴的AI的定義,并提供了值得信賴的AI的各種定義,幫助讀者理解來自計算機科學、社會學、法律、商業等不同學科的研究人員是如何定義值得信賴的AI系統的。然后,我們將值得信賴的人工智能與倫理人工智能和負責任的人工智能等幾個相關概念區分開來。在第3節中,我們詳細介紹了安全性和穩健性的維度,這要求人工智能系統對輸入的噪聲擾動具有穩健性,并能夠做出安全的決策。近年來,大量研究表明,人工智能系統,尤其是那些采用深度學習模型的系統,可能對有意或無意的輸入擾動非常敏感,對安全至關重要的應用構成巨大風險。例如,如前所述,自動駕駛汽車可能會被改變的路標欺騙。此外,垃圾郵件檢測模型可能會被設計良好的文本[30]郵件欺騙。因此,垃圾郵件發送者可以利用這個弱點,使他們的電子郵件不受檢測系統的影響,這將導致糟糕的用戶體驗。已經證明,人工智能算法可以通過提供的訓練例子學習人類的歧視,并做出不公平的決定。例如,一些人臉識別算法難以識別非洲裔美國人的面孔[280]或將其誤分類為大猩猩[168]。此外,語音聽寫軟件在識別男性聲音時通常比識別女性聲音表現得更好[277]。
在第4節中,我們介紹了非歧視和公平的維度,在這個維度中,人工智能系統被期望避免對某些群體或個人的不公平偏見。在第5節中,我們討論了可解釋性的維度,這表明AI的決策機制系統應該能夠向利益相關者解釋(他們應該能夠理解解釋)。例如,人工智能技術已經被用于根據患者的癥狀和身體特征進行疾病診斷[289]。在這種情況下,黑箱決策是不可接受的。推理過程應該對醫生和患者透明,以確保診斷的每個細節都是準確的。
研究人員發現,一些人工智能算法可以存儲和暴露用戶的個人信息。例如,在人類會話語料庫上訓練的對話模型可以記住敏感信息,如信用卡號碼,這些信息可以通過與模型交互而得到[164]。在第6節中,我們提出了隱私的維度,這需要一個人工智能系統來避免泄露任何私人信息。在第7節中,我們描述了可審計性和問責性的維度,該維度期望人工智能系統由第三方評估,并在必要時為人工智能故障分配責任,特別是在關鍵應用中[307]。最近,人工智能系統對環境的影響引起了人們的關注,因為一些大型人工智能系統消耗了大量的能源。作為一項主流的人工智能技術,深度學習正在朝著追求更大的模型和更多的參數的方向發展。因此,會消耗更多的存儲和計算資源。一項研究[312]表明,訓練BERT模型[110]需要排放大約1400磅二氧化碳,這與跨美國的往返飛行相當。因此,人工智能系統應該是可持續的和環境友好的。
在第8節中,我們回顧了環境福利的維度。在第9節中,我們將討論不同維度之間的相互作用。最近的研究表明,值得信賴的AI的不同維度之間存在一致性和沖突[307,333]。例如,深度神經網絡的魯棒性和可解釋性緊密相連,魯棒模型往往更具有可解釋性[122,322],反之亦然[255]。此外,研究表明,在某些情況下,健壯性和隱私之間存在權衡。例如,對抗性防御方法會使模型更容易受到成員推理攻擊,增加了訓練數據泄漏的風險[308]。
除了上述六個維度,值得信賴的人工智能還有更多的維度,如人工代理和監督、可信性等。盡管這些額外的維度與本文中考慮的6個維度一樣重要,但它們還處于開發的早期階段,相關文獻非常有限,特別是對于計算方法而言。因此,在第10節中,我們將討論值得信賴的人工智能的這些方面,作為未來需要專門研究的方向。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
機器學習已經成為近年來最流行的話題之一。我們今天看到的機器學習的應用只是冰山一角。機器學習革命才剛剛開始。它正在成為所有現代電子設備不可分割的一部分。在自動化領域的應用,如汽車、安全和監視、增強現實、智能家居、零售自動化和醫療保健,還不多。機器人技術也正在崛起,主宰自動化世界。機器學習在機器人領域的未來應用仍未被普通讀者發現。因此,我們正在努力編寫這本關于機器學習在機器人技術上的未來應用的編輯書籍,其中幾個應用已經包含在單獨的章節中。這本書的內容是技術性的。它試圖覆蓋機器學習的所有可能的應用領域。這本書將提供未來的愿景在未探索的領域的應用機器人使用機器學習。本書中提出的觀點得到了原始研究結果的支持。本章在這里提供了所有必要的理論和數學計算的深入研究。對于外行人和開發人員來說,它將是完美的,因為它將結合高級材料和介紹性材料,形成一個論點,說明機器學習在未來可以實現什么。它將詳細介紹未來的應用領域及其方法。因此,本書將極大地有利于學術界、研究人員和行業項目管理者開發他們的新項目,從而造福人類。
深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。
簡介:
近年來,由于機器學習(ML)/深度學習(DL)技術使用多維醫學圖像,在從一維心臟信號的心臟驟停的預測到計算機輔助診斷(CADx)的各種醫療保健應用中的卓越性能,見證了機器學習(ML)/深度學習(DL)技術的廣泛采用。盡管ML / DL的性能令人印象深刻,但對于ML / DL在醫療機構中的健壯性仍然存有疑慮(由于涉及眾多安全性和隱私問題,傳統上認為ML / DL的挑戰性很大),尤其是鑒于最近的研究結果表明ML / DL容易受到對抗性攻擊。在本文中,我們概述了醫療保健中各個應用領域,這些領域從安全性和隱私性的角度利用了這些技術,并提出了相關的挑戰。此外,我們提出了潛在的方法來確保醫療保健應用程序的安全和隱私保護機器學習。最后,我們提供了有關當前研究挑戰的見解以及未來研究的有希望的方向。
內容大綱: