人工智能系統落地應用不僅需要考慮準確性,還需考慮其他維度,如魯棒性、可解釋性等,即要構建負責任的人工智能。CMU的Nicholas Gisolfi的博士論文《Model-Centric Verification of Artificial Intelligence》探究訓練模型的正式驗證是否可以回答關于真實世界系統的廣泛現實問題。提出方法適用于那些在特定環境中最終負責確保人工智能安全運行的人。值得關注!
摘要:
這項工作展示了如何在人工智能(AI)系統的背景下使用可證明的保證來補充概率估計。統計技術測量模型的預期性能,但低錯誤率并不能說明錯誤表現的方式。對模型是否符合設計規范的正式驗證可以生成證書,該證書明確地詳細說明了違規發生時的操作條件。這些證書使人工智能系統的開發人員和用戶能夠按照合同條款對其訓練的模型進行推理,消除了由于不可預見的故障導致模型失效而造成本可以很容易預防的傷害的機會。為了說明這個概念,我們展示了名為Tree Ensemble itor (TEA)的驗證流程。TEA利用我們的新布爾可滿足性(SAT)形式,為分類任務的投票樹集成模型提供支持。與相關的樹集合驗證技術相比,我們的形式化產生了顯著性的速度增益。TEA的效率允許我們在比文獻中報道的更大規模的模型上驗證更難的規范。
在安全背景下,我們展示了如何在驗證數據點上訓練模型的局部對抗魯棒性(LAR)可以納入模型選擇過程。我們探索了預測結果和模型魯棒性之間的關系,允許我們給出最能滿足工程需求的LAR定義,即只有當模型做出正確的預測時,它才應該是魯棒的。在算法公平的背景下,我們展示了如何測試全局個體公平(GIF),包括數據支持內和數據支持外。當模型違反GIF規范時,我們列舉了該公式的所有反例,以便揭示模型在訓練過程中所吸收的不公平結構。在臨床環境中,我們展示了如何簡單地通過調整樹集合的預測閾值來滿足安全優先工程約束(SPEC)。這促進了預測閾值的帕累托最優選擇,這樣就不能在不損害系統安全性的情況下進一步減少誤報。
本論文的目標是探究訓練模型的正式驗證是否可以回答關于真實世界系統的廣泛的現有問題。我們的方法適用于那些在特定環境中最終負責確保人工智能安全運行的人。通過對訓練過的樹集合進行驗證(V&V),我們希望促進AI系統在現實世界的落地應用。
//www.ri.cmu.edu/publications/model-centric-verification-of-artificial-intelligence/
動機
人工智能領域前景廣闊,我們的共同目標是確保盡可能多的人釋放其潛力,解決許多不同應用領域的新問題。我們發現有一個共同的障礙限制了AI系統的采用速度,這通常歸結為信任問題。許多最終負責AI系統輸出的人對他們的模型的信任程度不足以保證將AI部署到某個新領域。
考慮到艾薩克·阿西莫夫的機器人第一定律:機器人不能傷害人類,也不能坐視人類受到傷害。這是AI系統關鍵設計規范的一個很好的例子。一個人工智能系統并不局限于物理機器人,它也可以是一個黑盒子,機器學習(ML)模型。傷害不需要僅僅描述身體上的傷害,它也可能涉及由人工智能系統提出的違反人類直覺的建議所導致的混亂。這就是人們開始信任人工智能系統的地方。我們知道,人工智能有時會做一些與人類對模型應該如何運作的直覺相悖的事情。令人擔心的是,在這些情況下,人工智能系統可能會造成人類決策者永遠不會造成的容易預防的傷害。如果我們不確定AI系統是否遵守了關鍵的設計規范(如阿西莫夫第一定律),我們還能相信它嗎?
目前將人工智能系統視為用以數據為中心的統計方法來審問的黑匣子解決該問題。模型行為的概率估計需要一定的置信度,該置信度取決于應用領域中可接受的不確定性邊際。如果我們考慮一個電影推薦系統,可接受的不確定性是很高的,因為一部糟糕的電影最多會浪費一天中的幾個小時。如果我們考慮的是自動駕駛汽車環境或任何其他關鍵應用領域,可接受的不確定性幅度要低得多。即使統計方法反復檢驗模型以提高其估計的置信界限,也不可能提供真正全面的評估并實現絕對的確定性。我們所能說的是,在許多測試過程中,我們從未觀察到特定的故障,這使我們有理由相信,一旦部署模型,同樣的故障非常不可能發生。對于更長時間的任務,比如為深空棲息地開發半自主生命支持系統,即使是很小的模型失敗的機會也會有大量的機會出現。
Tree Ensemble itor (TEA),我們的認證流程
統計技術本身并不能很好地適應關鍵系統所需要的信任水平。這是因為低錯誤率只告訴我們關鍵錯誤發生的頻率很低;我們想知道這些關鍵的錯誤將如何表現。本文的研究范圍集中在容易造成可預防傷害的關鍵錯誤上。我們將在整個工作中探索的關鍵錯誤類型包括健壯性、公平性和安全性的概念。為了增強魯棒性(見第3章),我們測試了一個模型在特定輸入的屬性值存在難以察覺的擾動時輸出的一致性。為了公平起見(見第4章),我們測試了一個模型,以確定它是否總是以相似的方式對待相似的個體。為了安全起見(見第5章),我們測試了一個模型,以確保沒有從輸入到輸出的可理解映射代表人類永遠不會做出的違反直覺的、有害的建議。值得注意的是,這個列表中缺少分類錯誤,這在很多情況下并不一定是一個關鍵的錯誤。人類的決策在硬邊界情況下會產生錯誤,所以AI應該被允許犯同樣類型的錯誤。相反,我們關注的是人工智能表現出人類沒有表現出的不受歡迎的決策邏輯的情況,比如在兩個難以區分的輸入之間設置決策邊界,對兩個相似的輸入產生截然不同的輸出,以及在人類最容易判斷的情況下犯錯誤。
AI系統實際上并不是黑盒,我們也不需要這么對待它們。相反,它們是由一組離散的組件定義的,這些組件相互作用,以產生看似智能的模型行為。正是這些組件的行為決定了模型實現其預測的方式。解決詢問訓練模型內部組件的挑戰的一種方法涉及邏輯和統計技術的結合。統計機器學習擅長于從數據中學習有用的策略,而形式邏輯和自動推理則擅長于確定是否可以從一組前提條件中得出結論。
我們的工作彌合了人工智能領域歷史上兩大成功理念之間的鴻溝。在早期,人工智能系統由符號邏輯、規則和專家知識組成;專家系統很容易用形式邏輯進行測試。現代人工智能系統由組件和元結構組成,這些組件和元結構承擔優化過程,以使模型適合數據。目前流行的統計學ML易于用統計方法進行檢驗。人工智能領域焦點的轉變,在一定程度上是由于對人類大腦內部工作方式的不同看法。符號主義認為人類的智力是通過邏輯推理獲得的,這一觀點逐漸被連接主義的觀點所取代,連接主義認為,在人類大腦的相互連接的結構中,招募成群的神經元會產生智能行為。我們今天構建的人工智能系統反映了這種思維方式的轉變。這兩個框架各有優缺點;例如,統計模型可以更好地概括尚未見過的數據,但符號模型可能更易于解釋。我們將邏輯和統計方法的優勢結合起來,認為這是構建成功的、值得信賴的人工智能系統的最佳方法。如果用純邏輯檢驗統計技術產生的模型,那么我們就可以提供證據,證明模型確實符合設計規范、工程需求,甚至專家知識。這使得對于將在現實世界中部署的模型的契約推理和概率推理都成為可能。
雖然我們的方法是否會增加人類對人工智能系統的信任感的問題超出了本文的范圍,但我們確實聲稱,我們的工作增加了人工智能系統的可信度。一個正式的證明和伴隨的證書是一種解釋。它們描述了模型結構滿足或違反關鍵設計規范的操作條件。對模型結構的推理提供了當前實踐無法獲得的洞察力。這些關于模型的優勢和劣勢的附加信息使所有涉眾都更加了解情況。我們表明,模型符合關鍵設計規范的正式驗證補充了通常用于在構建AI系統時告知決策的概率估計。證書使AI系統的開發者和用戶能夠根據合同條款對他們的模型進行推理,從而實現AI系統的規格驅動設計。我們將展示如何結合這些信息來回答關于現實世界的AI系統的現有問題。
美政府問責局(GAO)日前發布報告《人工智能:國防部應改進策略和流程并加強協作指導》。該報告通過評估2018年《國防部人工智能戰略》,發現其存在片面性的一些特征,如九項人工智能相關戰略計劃“不包括與采用AI技術相關的資源、投資和風險的完整描述”等,呼吁國防部制定更全面的人工智能戰略,以使其更好地定位、問責和負責任地使用該技術。該報告還向國防部提出以下建議:發布含AI戰略所有特征的指南、建立定期審查國防部AI戰略的程序;開發含所有需求的高級計劃或路線圖;發布指南和協議,定義該機構在AI活動中的領導和參與者的責任等。
2018 年國防部 (DOD) 人工智能 (AI) 戰略將 AI 定義為機器執行通常需要人類智能的任務的能力。戰略和相關計劃包括綜合戰略的一些(但不是全部)特征。 例如,國防部的九項人工智能相關戰略和計劃不包括對資源和投資以及與采用人工智能技術相關風險的完整描述(見圖)。發布指南以在未來與人工智能相關的戰略中包含綜合戰略的所有特征,可以幫助國防部更好地幫助管理人員確保問責制和負責任地使用人工智能。
國防部人工智能相關戰略和計劃的評估
國防部已開始識別和報告其 AI 活動,但其 AI 基線清單存在限制,例如排除機密活動。國防部官員表示,這些限制將在人工智能活動識別過程的后續階段得到解決。然而,國防部還沒有制定一個涵蓋所有需求和里程碑的高級計劃或路線圖。這樣的計劃將為國防部提供實現該計劃目標所需的所有功能的高級、端到端視圖,以向國會和國防部決策者提供完整和準確的人工智能活動清單。
國防部組織在人工智能活動上進行協作,但可以更充分地整合領先的協作實踐。國防部使用 GAO 先前工作已經確定的各種正式和非正式協作機制,例如跨部門小組。國防部已部分納入領先的協作實踐,例如識別領導力。然而,國防部官員告訴我們,他們正在制定指南和協議,明確定義參與人工智能活動的國防部組件的角色和職責。通過最終確定和發布此類指南,國防部可以幫助確保所有參與者就整個部門的人工智能工作的責任和決策達成一致。
國防部戰略指出,人工智能將改變戰爭的性質,不采用人工智能技術可能會阻礙作戰人員保衛我們國家的能力。國防部正在進行組織變革并投資數十億美元來整合人工智能技術,例如建立聯合人工智能中心以加速在整個國防部提供人工智能能力。
伴隨 2021 財年國防授權法案的眾議院報告 116-442,以及讓 GAO 評估國防部的資源、能力和人工智能技術計劃的規定。本報告評估了 (1) 國防部的人工智能戰略和相關計劃,包括綜合戰略的特征;(2) 國防部已確定并報告了整個部門的人工智能活動情況;(3) 國防部在其人工智能活動上的合作情況。GAO 審查了相關法律和國防部戰略,概述了整個部門管理人工智能的計劃和流程,采訪了官員,并進行了全部門調查。這是 GAO 于 2022 年 2 月發布的敏感報告的公開版本。國防部認為敏感的信息已被省略。
使用軟件會暴露容易受到攻擊并造成嚴重后果的漏洞。雖然存在許多不同的漏洞,但其后果分為少數幾類。本文解釋了攻擊機器學習 (ML) 漏洞的后果如何歸入這些相同類別。然后將這些后果與特定于 ML 的攻擊、它們發生的上下文以及已建立的緩解它們的方法保持一致。這些防御性對策可以支持系統 ML 元素的安全性,并更大程度地保證使用 ML 的系統將按計劃運行。
本文提供了一種系統方法來解決使用 ML 的系統的攻擊、后果和緩解措施。它解釋了 ML 技術生命周期中的每一個問題,清楚地解釋了要擔心什么、何時擔心以及如何減輕它,同時假設對 ML 細節了解很少。
描述了軟件系統通常面臨的損害類型,并將它們與采用機器學習的系統所特有的公認后果類別聯系起來。然后,我們解釋導致這些后果的攻擊向量。然后,我們在最廣泛的類別中描述 ML 本身,包括從開始到部署和執行的生命周期。然后,我們確定生命周期中存在哪些漏洞,這些漏洞允許威脅對系統發起針對 ML 的攻擊。然后,我們通過不同的示例對 ML 漏洞、攻擊和緩解措施進行更深入的檢查。
了解 ML 系統的生命周期(其中漏洞存在于生命周期中)以及攻擊利用這些漏洞可能造成的損害,可以對采用 ML 所產生的風險進行明智的評估。我們對 ML 漏洞、攻擊和緩解措施的討論利用了 NISTIR 8269 文件中中開發的分類法。主要出發點在于將這些概念映射到我們在第 6 節中闡述的 ML 生命周期以及我們對 ML 安全性的系統方法的討論。
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。
本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分,我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后,為了說明這如何導致更好的泛化,我們將推導基于數據的一致收斂的泛化邊界,并改進參數計數的依賴性。由于其簡單性和通用性,一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行,在這篇論文中,我們也將后退一步,確定一致收斂的基本極限,作為解釋泛化的工具。特別地,我們將證明在一些過度參數化的設置的例子中,任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點,在論文的最后一部分,我們將改變航向,并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念,而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后,我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式),并探索其他工具來推導邊界,可能是通過修改統一收斂或開發完全新的工具。
隨著機器學習模型越來越多地用于做出涉及人類的重大決策,重要的是,這些模型不能因為種族和性別等受保護的屬性而歧視。然而,模型持有人并不是受到歧視性模型傷害的首當其沖的人,因此模型持有人修復歧視性模型的自然動機很少。因此,如果其他實體也能發現或減輕這些模型中的不公平行為,將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的,因為它們可以在不知道模型的全部細節的情況下執行。
在這篇論文中,我考慮了三種不同形式的不公平,并提出了解決它們的黑盒方法。第一個是代理使用,模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏,這使模型不應該做出任意決定的直覺觀念形式化。最后,模型的訓練集可能不具有代表性,這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個,我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問,即使模型持有者不合作,它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性,表明它們是有用的技術工具,可以支持對歧視的有效回應。
機器學習應用在高風險領域(如刑事判決、醫學測試、在線廣告等)的流行,至關重要的是要確保這些決策支持系統不會傳播歷史數據中可能存在的現有偏見或歧視。一般來說,在算法公平文獻中有兩個關于公平的中心概念。第一個是個體公平,它要求公平的算法以相似的方式對待相似的個體。然而,在實踐中,通常很難找到或設計一個社會可接受的距離度量來捕獲個體之間關于特定任務的相似性。相反,在這篇博客文章中,我們關注的是公平的第二個概念,群體公平,更具體地說是統計上的平等,這本質上要求預測器的結果在不同的子群體中是平等的。
雖然變分自編碼器(VAEs)代表了一個廣泛的有影響力的深度生成模型,但潛在的能量函數的許多方面仍然知之甚少。特別是,一般認為高斯編碼器/解碼器的假設降低了VAEs生成真實樣本的有效性。在這方面,我們嚴格地分析VAE目標,區分哪些情況下這個信念是真實的,哪些情況下不是真實的。然后我們利用相應的見解來開發一個簡單的VAE增強,不需要額外的hyperparameters或敏感的調優。在數量上,這個提議產生了清晰的樣本和穩定的FID分數,這些分數實際上與各種GAN模型相競爭,同時保留了原始VAE架構的理想屬性。這項工作的一個簡短版本將出現在ICLR 2019年會議記錄(Dai和Wipf, 2019)上。我們模型的代碼在這個https URL TwoStageVAE中可用。
論文題目: Definitions, methods, and applications in interpretable machine learning
論文摘要:
機器學習模型在學習復雜模式方面取得了巨大的成功,這些模式使機器能夠對未觀察到的數據做出預測。除了使用模型進行預測外,解釋模型所學內容的能力正受到越來越多的關注。然而,這種關注的增加導致了對可解釋性概念的相當大的混淆。特別是,目前還不清楚所提出的各種解釋方法是如何相互聯系的,以及可以用什么共同的概念來評價這些方法。我們的目標是通過定義機器學習環境中的可解釋性,并引入預測、描述和相關(PDR)框架來討論解釋性,從而解決這些問題。PDR框架為評估提供了3個主要的需求:預測準確性、描述準確性和相關性,以及相對于人類受眾判斷的相關性。此外,為了幫助管理大量的解釋方法,我們將現有的技術分為基于模型的和特定的類別,包括稀疏性、模塊化性和可模擬性。為了證明從業者如何使用PDR框架來評估和理解解釋,我們提供了大量的實際例子。這些例子突出了人類觀眾在討論可解釋性時常常被低估的作用。最后,基于我們的框架工作,我們討論了現有方法的局限性和未來工作的方向。我們希望這項工作將提供一個共同的詞匯,使從業者和研究人員更容易地討論和選擇全面的解釋方法。
論文作者:
W. James Murdoch是加州大學伯克利分校研究生,研究興趣為可解釋性,機器學習,自然語言處理和因果推理。
Chandan Singh在伯克利攻讀博士學位,研究計算系統,研究范圍是機器學習、可解釋性、計算神經科學。