在人工智能(Al)和機器學習(ML)的高節奏、高風險的軍事應用中,操作人員需要迅速了解他們的AI/ML輔助工具的優勢和局限性,以便人類+AI團隊的組合能夠提供決策優勢。隨著AI智能體變得越來越復雜,操作員需要這些先進系統的透明度,就像為他們的人類合作者建立心理模型的能力,以最終判斷他們的適當使用。
要讓不是計算機或數據科學家,也沒有時間或工具來理解AI系統的內部運作的人類能夠解釋人工智能,一個關鍵的挑戰是將機器推理的隱藏層映射到人類可以解釋的語義中,以獲得對AI建議的更多了解,這樣操作者就可以對AI的結果更有信心,或者知道何時推翻它。為了解決將機器生成的解釋的語義與人的解釋相一致的挑戰,我們首先描述了創建一個代用的白盒方法作,隨后描述了語義一致方法概念。我們描述了一個自動目標識別(ATR)的用例,并說明了為什么目前的解釋器方法不足以實現機器的透明度,并討論了研究需求。
**近年來,具有復雜自主行為的智能體和系統的發展加快。**隨著這些智能體行動的后果開始在社會中顯現,對理解其決策的需求推動了對機制的研究,以獲得與人類推理兼容的解釋。然而,可解釋系統的設計往往沒有考慮解釋可能給機器和人類智能體帶來的影響。本文探討了這一挑戰。
**該方法首先著眼于具有復雜監管的分散環境,在這些環境中,必須交換解釋,以確保智能體之間的有序交互。**為將人類規則集轉換為機器兼容的推理機制,本文提出一種基于辯論的人-智能體架構,將人類規則映射到具有可解釋行為的人工智能體的文化中。在混合的、可解釋的人-智能體設置下的用戶研究表明,系統復雜性是解釋對人類有用的決定因素。對于自主智能體,隱私性和部分可觀察性會在分散系統中引入主觀不公平性的概念。本文表明,這種影響也可以通過使用有效的解釋來緩解。
**以類似的方式,研究了強化學習(RL)智能體,并研究了定向具有可解釋特征的學習機制的可能性。**將此過程稱為解釋感知經驗回放(XAER),并證明了解釋工程可以用來代替具有可解釋特征的環境的獎勵工程。進一步,將這一概念擴展到多智能體強化學習中,并展示了如何在具有部分可觀測性的環境中交換解釋,以獲得更魯棒和有效的集體行為。結論是,可解釋系統的設計不僅要考慮解釋的生成,還要考慮解釋的消耗。解釋可以作為交流精確和精煉信息的工具,人類智能體獲得的見解也可以由機器智能體獲得,特別是在具有分散智能體或部分知識的系統中。
人工智能(AI)的最新進展引起了人們對人工智能系統需要被人類用戶理解的關注。可解釋人工智能(XAI)文獻旨在通過向用戶提供有關人工智能系統行為的必要信息來增強人類的理解和人類-人工智能團隊的表現。同時,人為因素文獻長期以來一直在解決有助于人類表現的重要考慮因素,包括如何確定人類的信息需求、人類負荷以及人類對自主系統的信任。從人類因素的文獻中,提出了可解釋人工智能的態勢感知框架(SAFE-AI),這是一個關于人工智能系統行為解釋的發展和評估的三級框架。提出的XAI級別是基于人類用戶的信息需求,這些需求可以用人因文獻中的態勢感知(SA)級別框架來確定。基于我們的XAI等級框架,我們還提出了一種評估XAI系統有效性的方法。進一步詳細說明了在確定解釋的內容和頻率時對人為負荷的考慮,以及可用于評估人為負荷的指標。最后,討論了通過解釋適當校準用戶對人工智能系統信任的重要性,以及XAI的其他與信任有關的考慮,還詳細介紹了可用于評估用戶對這些系統信任的指標。
隨著最近人工智能文獻中對可解釋人工智能(XAI)的關注,定義XAI系統應該傳達哪些信息以及如何衡量其有效性變得越來越重要。Gunning和Aha(2019)將XAI定義為 "能夠向人類用戶解釋其原理的人工智能系統,描述其優勢和劣勢,并傳達對其未來行為方式的理解"。我們采用了XAI的這一定義,并將解釋定義為支持人類推斷人工智能系統上述細節的必要信息,包括關于其輸入、模型和輸出的信息。開發XAI技術的動機經常被說成是需要在日益復雜的人工智能系統中實現透明化(Fox等人,2017;Lipton,2016),以及需要在日益不透明的系統中獲得用戶信任(Borgo等人,2018;Fox等人,2017;Lipton,2016)。提高人工智能系統的透明度和說明人類對這些系統的信任都有助于提高人類-人工智能團隊的績效;因此,支持人類-人工智能團隊的績效是XAI的主要目標之一。事實上,以前的研究已經證明了智能體的透明度對人類-AI團隊中人類隊友的任務表現的積極影響(Chen等人,2017,2018;Stowers等人,2016)。一些文獻認為,存在性能-可解釋性的交換,即更多可解釋的人工智能系統會以某種方式犧牲算法性能(Gunning & Aha,2019;Lipton,2016)。然而,如果缺乏系統的可解釋性抑制了團隊的整體表現,那么改進算法性能所提供的好處可能會喪失。例如,如果一個基于醫學機器學習的成像系統能夠在對某些醫療問題進行分類時取得更大的準確性,但它的方式使人類醫生更難注意到其判斷中的錯誤,醫生-AI團隊的績效可能會受到整體影響。因此,我們認為優化人類-AI團隊的表現,通過對系統行為的解釋來實現,是XAI的主要目標。
在人因方面存在著豐富的文獻,探討了人類與自動化系統互動的場景,以及在任務執行過程中影響人類表現的各種因素。態勢感知(SA)的概念,已經在人為因素領域和人類-自動化團隊的背景下進行了研究(Chen等人,2014;Endsley,1995),定義了人類在任何場景下操作的信息需求(Endsley,1995)。XAI系統,作為提供人工智能行為信息的系統,可以為人類用戶的SA子集做出貢獻,該子集與人工智能行為有關。通過XAI系統提供的支持人工智能的信息,可以提高人類-人工智能團隊的績效;然而,除了XAI支持的人工智能子集之外,整體的人工智能也是支持團隊績效的必要條件,但并不完全是充分條件(Endsley,1995)。
人為因素的文獻討論了其他的因素,這些因素對于人與AI團隊的表現同樣是必要的,并且也與XAI系統有關。首先,雖然SA定義了人類需要的信息,但工作負荷的考慮影響了如何以及何時提供這些信息(Parasuraman等人,2008)。其次,用戶對自動化系統的信任的重要性已經在之前的文獻中得到了明確的探討(Lee & See, 2004; Schaefer等人, 2014)。重點不是增加用戶的信任,這通常被作為XAI的動機(Borgo等人,2018;Fox等人,2017;Krarup等人,2019),而是適當地校準信任,導致人工智能系統的適當使用(Chen等人,2014;Ososky等人,2014;Schaefer等人,2014)。
除了討論SA、負荷和信任的概念以及對這些考慮因素的相關設計建議之外,文獻還將這些概念操作化,提供了評估的方法和指標(Parasuraman等人,2008)。正如SA支持但不等同于性能一樣,XAI系統提供的高質量解釋支持但不等同于SA、適當的人類工作負荷或對AI系統的充分信任。然而,根據與這些因素相關的方法和指標來評估XAI系統,有助于了解所提供的解釋是否實現了提高人與AI團隊績效的最終目標。除了團隊績效之外,將SA、工作負荷和信任作為XAI的中間目標來衡量,可以明確績效評估中存在的潛在混淆因素。
雖然之前已經提出了一些評估XAI系統不同方面的指標(Doshi-Velez和Kim,2017;Hoffman、Miller等人,2018;Hoffman、Mueller等人,2018;Lage等人,2019),但XAI文獻目前缺乏一套全面的評估解釋質量的合適指標。雖然可能無法明確和獨立地定義一個解釋的質量,但在許多情況下,一個解釋只有在它有助于實現SA、適當的信任和適當的工作負荷等中間目標以及提高績效的最終目標時才是 "好 "的。換句話說,在許多情況下,SA、信任和工作負荷以及團隊績效可以作為代理,表明XAI系統是否實現了它的預期目標,因為XAI系統的目標往往與這些概念有關。因此,XAI從業者可以利用現有的人類因素指標來評估他們所提出的技術。
在本文中,我們討論了與XAI相關的人類因素文獻(包括現有的XAI技術),并根據人類因素界的發現提出了一套XAI系統的設計考慮和評估指標。我們首先更詳細地討論了人的因素中的SA概念,并提出了可解釋人工智能的態勢感知框架(SAFE-AI),其中包括XAI的級別,定義了哪些關于人工智能算法和過程的信息應該由XAI系統來支持;這些級別與Endsley(1995)提出的SA級別緊密對應。我們進一步強調了一套現有的XAI技術如何適合我們的框架,以及用于評估現有技術的指標如何映射到SA的評估。SAFE-AI旨在為定義XAI系統的需求提供一個以人為本的結構化方法,為XAI技術的開發提供指導,并為XAI系統的評估提供指導。
SAFE-AI可以用來定義XAI系統的信息要求,但是信息要求本身并不能決定XAI系統的整個設計。同樣重要的是,要考慮在交互過程中的任何給定點向用戶展示多少信息,以及展示信息的頻率,以便用戶能夠實際處理這些信息。這些考慮與人類的工作負荷有關。此外,系統可能有必要向人類用戶提供額外的信息,以便適當地校準人類對系統的信任,這可能會影響到適當的使用和團隊表現。因此,在本文中,我們還討論了工作負荷和信任的人為因素概念,XAI中考慮過這些概念的現有工作,以及如何將與每個概念相關的指標應用于XAI系統的評估。理想情況下,SAFE-AI可以被應用于確定一套初始的交互信息要求,而信任和工作負荷的考慮可以被用來完善這套初始要求,并充實與XAI系統如何被整合到真實世界環境中有關的額外細節。這項工作的初步版本可以在Sanneman和Shah(2020)中找到。本文通過擴展與SAFE-AI框架相關的XAI技術的文獻回顧,以及包括對工作負荷和信任及其與XAI系統的關系的額外討論,對初步版本進行了擴展。
本文的其余部分組織如下:在第2節中,我們討論了態勢感知,包括來自人類因素的相關文獻,我們基于態勢感知的XAI框架,來自XAI文獻的相關例子,以及一個激勵性的例子來澄清對框架的討論。在第3節中,我們擴展了人類因素中人類工作負荷的概念,以及XAI的相關考慮和衡量標準。在第4節中,我們討論了XAI的信任相關考慮。在第5節中,我們根據人類因素文獻的結果和發現,列舉了未來可能的方向,在第6節中,我們總結了本文。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋人工智能(XAI)系統,自主無人機向山區的野外部隊運送物資。任務風險隨地形、飛行決定和任務目標而變化。這些任務由人類加人工智能團隊參與,用戶決定兩架人工智能控制的無人機中哪一架更適合執行任務。這篇文章報告了該項目的技術方法和發現,并反思了復雜的組合問題對用戶、機器學習、用戶研究和XAI系統的使用環境所帶來的挑戰。COGLE創建了多種模式的解釋。敘述性的 "What"解釋比較了每架無人機在任務中的表現,以及基于使用反事實實驗確定無人機能力的 "Why"。可視化的 "Where"解釋突出了地圖上的風險,以幫助用戶解釋飛行計劃。研究的一個分支是研究這些解釋是否有助于用戶預測無人機的性能。在這個分支中,一個模型歸納的用戶研究顯示,決策后的解釋在教用戶自己確定哪架無人機更適合執行任務方面只有很小的作用。隨后的思考表明,用決策前的解釋來支持人類加人工智能的決策是一個更好的背景,可以從組合任務的解釋中受益。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋的人工智能(XAI)系統,用于自主無人機向山區的野戰部隊運送物資。COGLE中的任務是在一個模擬的世界中進行的,其中有山區和森林環境、水體和結構。圖1顯示了一個任務地圖和人工智能控制的無人機的飛行計劃。黃色的棒狀圖顯示了徒步旅行者的位置。彎曲的箭頭顯示了無人機的飛行計劃。地圖下面的時間線顯示了無人機沿其飛行計劃的高度。地圖上的符號表示物體。尖尖的符號是太高的山,無法飛過。曲線頂的符號是低矮和高大的山麓。綠色區域是草地。樹木形狀的符號代表森林。
最初,我們使用ArduPilot SITL1,它可以高保真地模擬低空飛行器的動作。ArduPilot的詳細模擬所需的計算資源被證明是不方便的,對于任務的戰略規劃來說是不必要的。低空飛行控制在商業自動駕駛飛機和業余無人機中被廣泛實施。為了專注于任務規劃,我們開發了一個精度較低的模擬模型("ArduPilot Light"),在一個回合制的網格世界中,有五級高度和八個獨特方向。我們在ArduPilot SITL的API上模擬了ArduPilot Light的兼容編程接口(API)。圖2說明了COGLE的模擬網格世界的粗粒度,用于任務規劃。
圖 1 共同地面學習和解釋 (COgLE) 域中任務的示例地圖
圖 2 來自 COGLE 飛行學校的插圖展示了具有五個離散高度的模型以及當包裹從不同高度墜落時墜落區的擴大范圍
當無人機與處于同一高度或更高的障礙物飛得太近時,它們就會有墜毀的危險。如果無人機在森林、高山麓或水面上釋放其包裹,那么其包裹可能被損壞。包裹可能無法降落在河流、樹木或高山腳下。無人機飛得越高,其包裹在傘降過程中可能漂移得越遠。一個人工智能飛行員可能會在任務的開始、中間或結束時承擔風險。飛行員在任務中的早期決定會以微妙的方式與后來的決定產生互動。例如,在飛行計劃的早期,關于如何避開障礙物的選擇可能會導致在很晚的時候無法安全地接近選定的地點來投放包裹。
使用COGLE的早期版本,我們對用戶進行了自我解釋的研究,正如Gary Klein, Robert Hoffman, 和Shane Mueller等人所描述的。這樣的研究可以為參與者提供一個關于他們自己想要和使用的解釋種類的視角。用于無人機的人工智能飛行員是基于我們早期的深度強化學習者(RL)。他們在非常簡單的任務中表現出奇怪和次優的循環行為。研究參與者引用了無人機行為的觀察模式,指的是推斷的目標、效用和無人機的偏好。
在研究過程中,當被要求做出預測時,參與者經常的回答是 "我不知道"。研究參與者在自我解釋方面很有創意("它怕水!"),但他們沒有可靠的依據來確定他們的解釋是否正確。事實證明,我們早期的人工智能控制的無人機的奇怪行為是由于他們有限的訓練造成的。
決策算法正在被用于重要的決策中,例如誰應該被納入醫療保健計劃和被雇用。盡管這些系統目前被部署在高風險的場景中,但許多系統無法解釋其決策。這種局限性促使了可解釋人工智能(XAI)計劃的提出,該計劃旨在使算法可以解釋,以符合法律要求,促進信任,并保持問責制。本文質疑可解釋性是否以及在多大程度上可以幫助解決自主人工智能系統帶來的責任問題。我們認為,提供事后解釋的XAI系統可以被看作是可問責的智能體,掩蓋了開發者在決策過程中的責任。此外,我們認為XAI可能會導致對脆弱的利益相關者的不正確責任歸屬,比如那些受到算法決策影響的人(即病人),因為他們被誤導地認為對可解釋的算法有控制。如果設計者選擇將算法和病人作為道德和法律上的“替罪羊”,這種可解釋性和責任感之間的沖突就會加劇。我們最后提出了一系列關于如何處理算法決策的社會技術過程中的這種緊張關系的建議,以及為防止設計者逃避責任而進行的硬性監管辯護。
人工智能(AI)現在被廣泛用于各種情況,從娛樂等低風險的場景[90]到選擇誰應該優先獲得醫療幫助等高風險的生死決策[75]。廣泛的研究已經提出了算法決策是否會對社會產生負面影響。例如,研究發現,算法保釋決策有種族偏見[2],討論了用于招聘決策的人工智能系統如何嵌入偏見[8],并發現在線廣告對女性有歧視[27]。
大多數決策算法的一個主要問題是其不透明性。大多數算法都是黑盒的,不對其決策、建議或處理提供解釋[76]。這一局限性是開發可解釋人工智能(XAI)的核心動力,它提議通過 "使[其]功能清晰易懂 "來使算法變得可解釋[3]。在算法決策的背景下,XAI創建的模型的行為可以很容易理解(即那些透明的模型),或者可以在決策后解釋其行為(例如,通過提供事后的解釋)。對XAI的呼吁已經在工業界、學術界和政策制定中變得很普遍[48]。
XAI領域的目標是創建便于將責任歸于參與其開發和部署的人類智能體系統。由于責任差距的存在,分配算法決策的責任被廣泛認為是一項困難的任務[4, 69]。正如Robbins[81]所主張的,可解釋的系統將保持有意義的人類控制,允許將責任追溯到設計者、用戶和病人(即那些受算法決策影響的人)。這并不是說,XAI的提出只是為了處理責任問題。例如,解釋也可以用來遵守法律要求,促進對決策算法的信任,并評估其準確性[57]。
我們在本文中認為,XAI并不是解決自主決策算法所帶來的大量責任問題的萬能藥。我們將討論的重點放在那些被設計為做出后果性決定并能在事后提供解釋的人工智能系統上,也就是說,那些可以事后解釋的算法。雖然我們同意可解釋的系統對于負責任地部署算法決策是必要的,但我們表明XAI的事后解釋可能與公眾對AI系統的代理權和可問責性的理解不一致。此外,我們討論了那些受制于算法決策的人(即病人)如何可能被視為對XAI系統具有有意義的人類控制,并說明這種印象是錯誤的,不能轉化為對算法的真正授權。
考慮到問責是對代理人采取行動的原因的反應[86],事后可解釋的算法可能被視為可以解釋其決定背后原因的行為者,因此是可問責的。可解釋的人工智能系統也可能被視為比其不透明的同行更有能力和意圖,從而導致更高的問責水平[63, 64]。這種印象掩蓋了人類代理人在算法決策中的責任,并將普通人的道德判斷轉移到機器上,有可能影響政策制定者并阻礙有益的人工智能技術的采用[11, 19]。
出于對開發者可以為自主系統的部署洗白其代理權[82]并實施表面的道德措施以避免監管[38]的擔憂,我們展示了他們如何利用XAI為病人創造一種虛假的理解和控制感。我們用研究來說明這種誤導性的印象,研究表明,算法解釋往往是無意義的,讓個人無法真正控制[83]。XAI系統也可以被用來欺騙病人,甚至是那些在AI相關領域受過訓練的人[33],制造道德和法律上的替罪羊。
通過說明可解釋系統的責任是如何模糊的,我們以XAI領域的新穎和批判的視角分析了自主系統所帶來的責任差距,從而對文獻做出了貢獻。我們的結論是對可解釋系統的呼吁,這將強調開發者在整個決策算法的開發和部署過程中的責任。最后,我們討論了目前的監管方法如何未能解決可解釋性和責任之間的沖突,并提供了潛在的解決方案。
圖 1. 此圖中總結了要點。提供事后解釋的決策算法可以被視為應為自己的決策負責的應受指責的代理人;我們解釋了如何通過增加意向性和能力的歸因來解釋這種看法。可解釋的系統還可能導致將責任錯誤地歸因于受算法決策影響的人(即患者)。可解釋的系統給人以自信和授權的印象,暗示患者應該承擔一些責任。這個概念是不正確的,可能會被試圖逃避算法決策責任的設計師所利用。
可解釋的人工智能(XAI)提供了克服這一問題的手段,它基于有關深度學習(DL)算法結果的額外補充信息。雖然完全透明對于復雜的DL算法來說仍然是不可行的,但解釋有助于用戶在關鍵情況下對AI信息產品進行判斷。應該指出的是,XAI是透明度、因果關系、可信度、信心、公平、信心和隱私等方面的總稱。因此,基本的方法論是多方面的。一種已經流行的方法是局部可解釋模型-預知解釋(LIME)方法,因為它可以很好地應用于各種應用中的不同模型。在本文中,LIME算法是在戰略運營的決策建議背景下進行研究的。在簡單介紹了其概念后,介紹了文獻中的應用。然后,一個戰略博弈的場景被認為是軍事戰爭的替代環境。一個基于DL的國際象棋人工智能被做成 "可解釋的",以評估信息對人類決定者的價值。得出了與戰略混合行動有關的結論,這反映了所提出的方法的局限性。
根據設想,未來戰略戰爭的決策將在很大程度上受到基于人工智能(AI)方法的信息產品的影響。特別是混合作戰,是在一個高維和變異的環境中進行的,在這種環境中,對潛在的威脅和機會的評估是人類操作者難以掌握的,戰略規劃必須納入異質的、多功能的和高容量的數據源。因此,基于人工智能方法的算法產生的分類、預測和建議在這種復雜的場景中變得越來越重要。在過去的幾年里,人工智能的方法已經獲得了巨大的發展,有大量的創新和令人尊敬的成果,可以從大型數據集中獲得更高層次的信息。然而,深度學習(DL)方法的一個主要缺點是其固有的黑箱屬性,即由于計算模型的復雜性,其結果是不透明的。例如,后者可能有數百個層和數百萬個參數,這些參數是在訓練階段通過算法發現和優化的。因此,即使結果是準確的,用戶也沒有機會理解它或掌握輸入數據的因果部分。這反過來又會影響到用戶對輔助設備的信任,在兩個方向上都是如此。這個問題在某些民事應用中起著次要的作用,例如語音識別,它經常被應用于與設備的互動,因為除了體面的失望之外沒有潛在的風險。對于其他非常具體的任務,如手寫字符識別,DL算法的性能超出了人類的平均水平,這意味著失敗的可能性很小,因此關于因果關系的問題可能成為附屬品。然而,在許多軍事應用中,當涉及到與人工智能的互動時,人類的信任是一個關鍵問題,因為錯誤的決定可能會產生嚴重的后果,而用戶始終要負責任。這實際上是兩方面的。一方面,操作者往往需要了解人工智能產品的背景,特別是如果這些產品與他或她自己的本能相悖。另一方面,不可理解的技術會對算法信息產品產生偏見,因為很難確定在哪些條件下它會失敗。因此,適當的信任程度可能很難計算。
可解釋的人工智能(XAI)是向黑盒人工智能模型的用戶提供 "透明度"、"可解釋性 "或 "可解釋性 "的方法的集合。這些術語幾乎沒有一個共同的定義,但許多出版物提到了:
XAI不能完全 "解釋 "DL模型,然而,它為工程師或操作員提供了更好地理解特定AI產品背后的因果關系的手段。而且很多時候,這可以幫助看到,從合理的因果關系鏈暗示算法決策或預測的意義上來說,該模型是否是合理的(或不是)。因此,XAI可以成為人工智能模型工程的一個重要工具,用于安全方面的驗證,甚至用于認證過程,以及為操作員提供額外的信息,以支持明智的決策。
雖然關于XAI的大多數文獻都集中在圖像識別的方法上,但這些結果很難轉化為基于特定挑戰性競爭形勢的戰術和戰略決策領域。在本文中,我們研究了人工智能模型在棋盤評估中的可解釋性。對更復雜的軍事戰略模擬的一些影響進行了討論。
本文的結構如下。在下一節中,簡要介紹了選定的XAI方法。然后,這些方法之一(LIME)被應用于棋盤評估問題,以證明在支持信息方面的解釋的質量。在最后一節,得出了結論,并討論了對更復雜的戰爭博弈和模擬的概括。
幫助人類理解AI/ML模型及其預測的工具和方法集的高級指南。
機器學習的巨大成功導致了AI應用的新浪潮(例如,交通、安全、醫療、金融、國防),這些應用提供了巨大的好處,但無法向人類用戶解釋它們的決定和行動。DARPA的可解釋人工智能(XAI)項目致力于創建人工智能系統,其學習的模型和決策可以被最終用戶理解并適當信任。實現這一目標需要學習更多可解釋的模型、設計有效的解釋界面和理解有效解釋的心理要求的方法。XAI開發團隊正在通過創建ML技術和開發原理、策略和人機交互技術來解決前兩個挑戰,以生成有效的解釋。XAI的另一個團隊正在通過總結、擴展和應用心理解釋理論來解決第三個挑戰,以幫助XAI評估人員定義一個合適的評估框架,開發團隊將使用這個框架來測試他們的系統。XAI團隊于2018年5月完成了第一個為期4年的項目。在一系列正在進行的評估中,開發人員團隊正在評估他們的XAM系統的解釋在多大程度上改善了用戶理解、用戶信任和用戶任務性能。
主題: Directions for Explainable Knowledge-Enabled Systems
摘要: 數十年來,人們對可解釋人工智能領域的興趣不斷增長,并且近年來這種興趣正在加速增長。隨著人工智能模型變得更加復雜,并且通常更加不透明,并且隨著復雜的機器學習技術的結合,可解釋性變得越來越重要。最近,研究人員一直在研究和解決以用戶為中心的可解釋性,尋找解釋以考慮可信度,可理解性,顯性出處和上下文意識。在本章中,我們將利用對人工智能及其密切相關領域的解釋性文獻的調查,并利用過去的努力來生成一組解釋類型,我們認為這些類型反映了當今人工智能應用對解釋的擴展需求。我們定義每種類型,并提供一個示例問題,以激發對這種解釋方式的需求。我們認為,這組解釋類型將有助于未來的系統設計人員生成需求并確定其優先級,并進一步幫助生成更符合用戶和情況需求的解釋。
論文題目
Model Cards for Model Reporting
論文摘要
訓練有素的機器學習模式越來越多地用于執行執法、醫學、教育和就業等領域的高影響力任務。為了澄清機器學習模型的預期用例,并盡量減少它們在不太適合的上下文中的使用,我們建議發布的模型附帶詳細說明其性能特征的文檔。在本文中,我們提出了一個框架,我們稱之為模型卡,以鼓勵這種透明的模型報告。模型卡是經過培訓的機器學習模型附帶的簡短文檔,在各種條件下提供基準評估,例如跨不同文化、人口或表型群體(例如種族、地理位置、性別、Fitzpatrick皮膚類型)和跨部門群體(例如年齡和種族,或者性別和菲茨帕特里克皮膚類型)與預期應用領域相關。模型卡還披露了模型的使用環境、性能評估程序的細節以及其他相關信息。雖然我們主要關注以人為中心的機器學習模型在計算機視覺和自然語言處理領域的應用,但是這個框架可以用來記錄任何經過訓練的機器學習模型。為了鞏固這一概念,我們為兩種監督模式提供卡片:一種是訓練來檢測圖像中的笑臉,另一種是訓練來檢測文本中的有毒評論。我們建議將模型卡作為機器學習和相關人工智能技術負責任民主化的一個步驟,提高人工智能技術如何工作的透明度。我們希望這項工作能夠鼓勵那些發布經過培訓的機器學習模型的人在發布模型時附帶類似的詳細評估數字和其他相關文檔。
論文作者
瑪格麗特·米切爾、西蒙妮·吳、安德魯·扎爾迪瓦爾、帕克·巴恩斯、露西·瓦瑟曼、本·哈欽森、埃琳娜·斯皮策、伊諾魯瓦·德博拉·拉吉、蒂姆尼·格布魯,來自google人工智能團隊。