收購分析和政策辦公室是國防部負責收購和維持的副部長辦公室(OUSD(A&S))的一部分,該辦公室委托IDA評估使用機器精益分析主要國防收購項目(MDAPs)合同的可行性。分析的目的是從合同中提取數據,并預測項目績效。該研究分為三個階段:爬行、步行和跑步。
爬行階段包括建立一個數據集。在分析的這一階段,收集和處理合同。所選擇的合同在1997年12月至2018年12月期間被列入選定的采購報告(SARs),并且來自截至2019年11月不再報告的MDAPs。對這一時期的合同進行檢查,確保了每個項目都有90%以上的完整性。此外,數據集被限制在這一時期,因此計劃的績效結果是已知的,這在使用機器學習算法進行預測時是必要的。我們收集了24,364份PDF格式的合同文件,涉及149個合同號和34個MDAPs。(最后,我們使用國防分析研究所的文本分析(IDATA)功能,將收集到的文件變成機器可讀的數據集。
在步行階段,通過在我們的數據上訓練機器學習算法來評估合同數據,以回答相對簡單的問題。這項活動確保了數據集具有合理的質量,機器學習算法運行正常,并能產生合理的答案。在這個階段,每個程序都產生了詞云。下圖顯示了兩個程序的詞云,分別是CH-47F和ATACMS-APAM。
ATACMS-APAM計劃的詞云
字云顯示了每個計劃的合同中各種詞匯的頻率,去掉了 "和"、"的"等常見詞匯。這些圖形對于揭示每個項目的文件中最頻繁使用的詞語很有幫助,并有助于確保我們收集到合理的數據。
接下來,我們在這些數據的訓練集上訓練了一個天真貝葉斯分類器,并要求它將每份合同按五個類別之一進行區分:(1)研究、開發、測試和評估(RDT&E);(2)RDT&E修改;(3)采購;(4)采購修改;以及(5)采購運營和維護(O&M)修改。這些類別很容易由人類確定,預計機器學習也會產生同樣的結果。下表顯示了合同類別的分布和每種合同類型的數量。
該算法對80%的文件進行了訓練,然后用來預測其余20%的文件的類別。下面的混淆矩陣顯示了該算法預測合同類型的效果。
文件類型識別的混淆矩陣
對角線元素,也就是最大的數字,顯示了算法在測試樣本中正確識別合同類型的地方。總的來說,該算法對4872個文件中的4607個進行了正確分類,導致總體準確率為94.6%。準確率取決于樣本大小。例如,該算法預測測試數據中的52個文件是RDT&E合同,而95個文件是RDT&E合同,導致近55%的準確率,而3238個采購模式中的3080個,或剛剛超過95%,被正確分類。
后面描述的其他模型表明,合同被成功地轉化為數據。因此,這表明有可能將我們的算法應用于這個數據集,提出相對簡單的問題并獲得合乎邏輯的答案。
在跑步階段,我們提出了更難的預測問題,以測試機器學習算法使用合同數據集來預測項目績效的能力。我們使用Q-比率作為數量增長的衡量標準,使用數量調整后的項目采購單位成本作為成本增長的衡量標準,以及項目結束日期。使用70%的項目來訓練支持向量機(SVM)模型,并對其余30%的項目的績效指標進行預測。支持向量機無法比隨機猜測更好地預測績效。我們還研究了使用聚類來識別類似程序。盡管我們可以識別相似的程序,但很難確定這些程序為什么相似,這表明在這個領域還需要更多的研究。
我們發現,文本分析和機器學習算法很適合從合同中提取信息,并將這些信息轉化為結構化的數據集。盡管我們的分析使用了幾個不同的指標,表明提取的數據對描述性的目的是有用的,但我們無法確定機器學習算法是否能預測項目的表現。然而,這一結果并不意味著用合同數據集預測項目績效是不可行的。它可能意味著,更完整(或不同)的合同集、其他績效指標或替代算法將改善預測結果。此外,為了改善預測,可能有必要將合同數據與其他來源的數據相結合。
過去的決策是如何做出的,其驅動力、戰略和理由是什么?關于組織應該如何從過去的經驗中學習以幫助在未來做出更好的決策,這句老話是正確的。目前的第一階段研究著眼于美國防部(DOD)如何灌輸機構企業記憶。具體來說,該研究對如何開發一個透明的決策選項登記冊(DOR)綜合智能數據庫系統進行測試并提出建議,其中DOR有助于捕捉國防部(DOD)內部項目的所有歷史決策(假設、數據輸入、約束、限制、競爭目標和決策規則)。這個DOR中的信息將與元語義搜索和數據科學分析引擎兼容。DOR用于對未來的決策方案進行建模,以便在不確定的情況下做出決策,同時依靠過去的最佳實踐,使高級領導層能夠做出可辯護的、實用的決策。目前第一階段的研究使用程式化的數據和例子來說明推薦的方法。
這項研究采用先進的定量建模方法(隨機模擬、投資組合優化),加上人工智能(AI)和機器學習(ML)算法(數據搜刮、文本挖掘、情感分析)和企業風險管理(ERM)程序,實施行業最佳決策分析。DOR將部分基于使用風險登記冊的ERM方法,其中不同的風險元素被細分為不同的GOPAD組,或目標(軍事能力、成本節約、新技術、未來武器能力、公共安全、政府優先事項、指揮偏好,等等。 )、組織(空軍、陸軍、海軍、海軍陸戰隊)、計劃(采購、商業現貨、聯合產業、混合等)、活動(庫存、替換、新開發、研究和開發等)和領域(空中、海上、網絡等)類別。
多個相互競爭的利益相關者(例如,國防部長辦公室、海軍作戰部長辦公室、美國國會和平民)有其特定的目標(例如,能力、效率、成本效益、競爭力和殺傷力,以及替代方案和權衡)、約束(例如,時間、預算、進度和人力)和基于任務的領域需求(例如,平衡網絡安全、網絡反恐、反潛戰、反-飛機戰或導彈防御)。
這項研究采取了多學科的方法,來自先進分析、人工智能、計算機科學、決策分析、國防采購、經濟學、工程和物理學、金融學、期權理論、項目和計劃管理、隨機建模的模擬、應用數學和統計學的方法被應用。最終的目標是為決策者提供可操作的情報和對未來決策選項或靈活的真實選項的可見性,以及導致某些可比較決策的假設。
推薦的方法包括使用監督和無監督的AI/ML情感文本分析、AI/ML自然語言文本處理以及AI/ML邏輯分類和支持向量機(SVM)算法,再加上更傳統的高級分析和數據科學方法,如蒙特卡洛模擬、隨機組合優化和項目選擇、使用財務和經濟指標的資本預算,以及PROMETHEE和ELECTRE等詞匯學排名方法。
介紹了案例應用、代碼片段和模擬的DOR,并以典型的數據來說明其能力。目前的研究成果將為下一階段的多年研究提供基礎,將建立原型,實際數據可以通過規定的分析引擎運行。
這項擬議研究的目的是生成一個透明的決策選項登記冊(DOR)綜合智能數據庫系統,該系統有助于捕捉所有未來的歷史決策,包括其假設、數據輸入、約束、限制、競爭目標和國防部(DOD)的決策規則。該DOR中的信息將與元語義搜索和數據科學分析引擎兼容。DOR用于對未來的決策選項進行建模,以實施和實現在不確定的情況下做出決策,同時依靠過去的最佳實踐,并允許高級領導層做出可辯護的和實用的決策。
DOR是基于私營企業的企業風險管理(ERM)實踐,通常會列出過去、現在和未來擬議項目的風險和經驗教訓。建立一個決策歷史的文件數據庫是至關重要的。如果沒有曲線,就沒有學習曲線,而沒有任何數據或信息就不可能有曲線。有了目前這項研究中推薦的DOR和相關方法,我們可以通過觀察新項目的特點,以歷史數據為參考,計算出新項目的成功和失敗的概率,從而預測結果。當然,有必要對成功與失敗進行操作和定義。僅僅因為一個項目低于預算,按時完成,幾乎不需要返工,達到了所有要求的規格和技術發布水平,這是否意味著它是成功的?我們還可以用什么其他的指標來確定明確的成功或明確的失敗,以及在這兩者之間的所有其他層次呢?我們需要確定可用的數據以及差距,以使我們有一個堅實的決策選項登記冊。我們在操作上定義的成功和失敗的一些統計學上的重要預測因素是什么?另一個問題是減輕風險和戰略靈活性。
這項研究將展示業界最佳的決策分析和企業風險管理(ERM)程序。DOR將部分基于使用風險登記冊的ERM方法,其中不同的風險元素被細分為不同的GOPAD組,或目標(軍事能力、成本節約、新技術、未來武器能力、公共安全、政府優先事項、指揮偏好,等等。 )、組織(空軍、陸軍、海軍、海軍陸戰隊)、計劃(采購、商業現成的、聯合產業、混合等)、活動(庫存、替換、新開發、研究和開發等)和領域(空中、海上、網絡等)類別。
多個相互競爭的利益相關者(如國防部長辦公室、海軍作戰部長辦公室、美國國會和平民)有其特定的目標(如能力、效率、成本效益、競爭力和殺傷力,以及替代方案和權衡)、限制(如。時間、預算、時間表和人力),以及基于任務的領域要求(例如,平衡網絡安全、網絡反恐、反潛戰、防空戰或導彈防御中的數字化轉型需求)。當需要考慮新的決定時,這些因素是至關重要的。一個保存機構知識和記憶的DOR數據庫將有助于這種努力,并為決策注入信任。
這項研究將采取多學科的方法,我們將應用先進的分析方法、人工智能、計算機科學、決策分析、國防采購、經濟學、工程和物理學、金融、期權理論、項目和項目管理、隨機建模的模擬、應用數學和統計學。最終的目標是為決策者提供可操作的情報,以及對未來決策選項或靈活的真實選項的可見性,并提供導致某些可比決策的假設。
在法律糾紛中,法院在決定案件的結果時使用先例。先例的使用已經有200多年的歷史,通常是為了上訴或推翻以前的判決。然而,基于先例的決策是工業界和政府還沒有完全接受的東西。由于人力資本的波動和外流,以及雇員離開或被重新分配到其他地方時機構知識的流失,包括國防部在內的各組織往往記憶短暫。目前的研究旨在包括對基于先例的決策技術現狀的相關研究是如何進行的,什么可能被認為是技術現狀,以及其目前的局限性是什么。
該研究應用了多種新穎的方法,以提高其在生成一個強大的、可搜索的DOR數據庫方面的成功率。建議將包括關鍵參數、假設、輸入數據、保存的模型和計算、做出的決定、領導的輸入和重寫、約束和限制、最終目標和其他相關信息,然后可以使用機器學習的情感分析,加上刮削算法和自定義詞匯集的文本挖掘來挖掘。該系統的用戶將能夠把基于先例的洞察力應用于他們當前和未來的項目。此外,在可能的情況下,預測值將由隨著時間推移捕獲的實際值來補充。這允許對以前的項目進行事后分析,并提供一路走來的經驗教訓。掌握關鍵決策的歷史將有助于高級領導層做出更可信和可辯護的決定,這可能最終導致國防部的法律和法規變化。
擬議的方法將允許收集可應用于各種領域的數據,包括但不限于綜合風險管理?方法,其中可以運行蒙特卡洛模擬、隨機組合優化等隨機分析,以及高級數據分析方法、人工智能和數據科學方法。隨著時間的推移,可以應用回溯分析來更新DOR,使其更接近國防部的需求。該系統應該能夠收集不同類型的經濟數據(總生命周期成本、總擁有成本、采購成本、成本遞延、以及進度和風險成本);后勤數據(例如。固有可用性、有效可用性、任務可靠性、操作可靠性、平均停機時間、平均維護時間、后勤延遲時間、實現可用性、操作可用性、任務可用性、實戰能力、創造性和新穎技術的李克特水平以及其他指標);定性的主題專家估計(戰略價值、對社會的價值、指揮部優先事項、法律和監管影響得分等);以及市場可比性,以操作國防部利益的各種要素。在適當的時間間隔內,可以采用非線性判別分析、神經網絡、分布式擬合、有限因變量、路徑依賴的偏最小二乘法等反擬合分析,以找出導致一個項目或采購中某些決策成功或失敗的關鍵成功因素。
目前的研究是重要的,因為它將在國防部的決策過程中創造一個重大的差異。國防部一直在為決策分析、資本預算和投資組合優化尋找更好的、理論上合理的、定量上嚴格的分析方法。具體的興趣在于如何識別和量化每個項目對軍隊的價值,并優化選擇正確的項目、系統和能力組合,使一些軍事價值(戰略、作戰或經濟)最大化,同時受到預算、成本、進度和風險限制。這項研究應用了私營部門和行業的最佳實踐,再加上先進的分析方法和模型,以幫助創建這些方法來做到這一點。然而,國防部的獨特性要求我們做更多的工作,以確定對軍隊的價值概念,同時考慮競爭的利益相關者的需求。國防部在其投資回報中需要有可辯護的、量化的、強有力的軍事價值概念,以做出最佳的資金決策,如在哪里投資、投資多少、投資多長時間。在國防部的非經濟環境中進行替代方案分析和平衡成本效益權衡時,這些決策選擇(戰略順序復合實際選擇、最佳時機選擇、增長選擇和其他選擇,以擴大、收縮和放棄)是至關重要的。國防部將提供歷史上保存下來的關于假設的各種替代性未來、模擬的替代方案以及為什么做出某些決定的見解。
人工神經網絡(NN)是一個數據驅動的、無分布的非參數方法系列,可用于非線性模式識別、預測建模和預測。神經網絡經常被用來指代生物神經元的組合網絡電路。該術語的現代用法通常也指 "人工神經網絡",包括在軟件環境中重新創建的人工神經元,或節點。這種人工網絡試圖模仿人類大腦中的神經元或神經元節點的思維方式,識別模式,以及在我們的情況下,識別模式來預測時間序列數據。NN方法可用于行為良好的時間序列以及混亂的物理系統。當用于大數據(BD)并與機器學習(ML)方法結合使用時,它可以被視為半監督的人工智能(AI)系統的一個交叉點。NN仍然被認為是半監督的,因為神經網絡需要一個多層次的訓練過程作為激活函數的一部分。例如,一旦系統中的激活被觸發,神經節點的權重和交互式卷積就可以自主地運行。在多層神經元節點中,第一個節點層的結果將成為后續節點層的輸入。
本文提議增加一個內部優化過程,以迭代運行的方式不斷訓練節點,使其最小化一系列的誤差測量,如標準化的誤差平方和,同時平衡和約束Akaike信息準則、Bayes準則和Hannan-Quinn準則。此外,這里的建議是在組合中加入組合模糊邏輯方法,以產生盡可能好的預測。模糊邏輯一詞來自模糊集合理論,用于處理近似而非精確的推理。相對于脆性邏輯,二元集有二元邏輯,模糊邏輯變量可能有一個真值,范圍在0和1之間,不受經典命題邏輯的兩個真值的限制。這種模糊加權模式與組合方法一起使用,可以得到時間序列的預測結果。
Augur(2016)對數據科學的歷史做了一個很好的總結。根據他的研究,"數據科學 "一詞最早出現在1974年,當時Peter Naur發表了題為 "計算機方法簡明調查 "的文章,并將其定義為:"處理數據的科學,一旦它們被建立起來,而數據與它們所代表的關系被委托給其他領域和科學。" 這個詞花了一段時間才流行起來,直到2010年才完全融入白話。數據科學家 "一詞通常歸功于2008年Facebook和LinkedIn的Jeff Hammerbacher和D. J. Patil。在2011年和2012年之間,"數據科學家 "的職位列表增加了15,000%,重點是與大數據的工作。到2016年,數據科學開始在人工智能領域根深蒂固,特別是在機器學習和深度學習的子領域。
人工智能的空間是巨大的,復雜的,并不斷發展的。隨著計算能力的進步和越來越大的數據集,人工智能算法正在被探索和開發,以用于各種各樣的應用空間,人工智能算法有各種各樣的潛在用戶和相關風險。人工智能界正在追求可解釋性,作為可信人工智能系統的許多理想特征之一。通過與人工智能界的合作,美國國家標準與技術研究院(NIST)已經確定了其他的技術特征來培養人工智能的信任。除了可解釋性(explainability)和可詮釋性(interpretability)之外,為支持系統的可信賴性(trustworthiness)而提出的其他人工智能系統特征包括準確性、隱私性、可靠性、穩健性、安全性、保障性(彈性)、減少有害偏見、透明度、公平性和問責制。可解釋性和其他人工智能系統特征在人工智能生命周期的各個階段相互作用。雖然所有這些都是極其重要的,但這項工作只關注可解釋的人工智能系統的原則。
在本文中,我們介紹了四項原則,我們認為這些原則構成了可解釋人工智能系統的基本屬性。這些可解釋人工智能的原則是通過NIST的公共研討會和公眾評論期與更大的人工智能社區接觸后得出的。我們認識到,并非所有的人工智能系統都需要解釋。然而,對于那些打算或要求可解釋的人工智能系統,我們建議這些系統遵守以下四個原則:
解釋性:一個系統為產出和/或過程提供或包含附帶的證據或理由。
有意義:一個系統所提供的解釋對目標消費者來說是可以理解的。
解釋準確性:解釋正確地反映產生輸出的原因或準確地反映系統的過程。
知識局限性:系統僅在其設計條件下以及對其輸出達到足夠置信度時才能運行。
在這項工作中,我們認識到基于過程和基于結果的解釋的重要性,以及解釋目的和風格的重要性。例如,人工智能開發者和設計者的解釋需求可能與政策制定者和終端用戶的解釋需求截然不同。因此,為什么要求解釋以及如何提供解釋可能會因人工智能用戶的不同而不同。考慮到人工智能系統與信息的人類接收者的互動,這四項原則受到很大影響。給定情況的要求、手頭的任務和消費者都會影響被認為適合該情況的解釋的類型。這些情況可以包括,但不限于,監管機構和法律要求,人工智能系統的質量控制,以及客戶關系。我們的可解釋人工智能系統的四項原則旨在捕捉一系列廣泛的動機、理由和觀點。這些原則允許定義解釋所要考慮的背景因素,并為衡量解釋質量鋪平道路。
我們設想,鑒于人工智能領域的復雜性,這些原則將隨著時間的推移從更多的細化和社區投入中受益。我們充分認識到,除了可解釋性之外,還有許多其他社會技術因素影響著人工智能的可信度。這項關于可解釋人工智能系統原則的工作是NIST人工智能組合的一部分,該組合圍繞可信賴的人工智能數據、標準、評估、驗證和核實--所有這些都是人工智能測量所必需的。NIST是一個計量機構,因此,定義可解釋人工智能系統的初始原則是未來測量和評估活動的路線圖。該機構的人工智能目標和活動是根據其法定任務、白宮的指示以及美國工業界、其他聯邦機構和全球人工智能研究界的需求來確定優先次序的。目前的工作只是這個更大空間中的一步,我們認為這項工作將隨著時間的推移繼續發展和進步,就像更大的人工智能領域。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
本報告從技術角度關注人工智能(AI)系統在協助空軍C2方面的潛力。作者提出了一個分析框架,用于評估給定的人工智能系統對給定C2問題的適用性。該框架的目的是確定可滿足不同 C2 問題的不同需求的人工智能系統,并確定仍然存在的技術差距。盡管作者專注于 C2,但分析框架也適用于其它作戰功能和軍兵種。
C2 的目標是通過在時間和目的上規劃、同步和整合兵力來實現作戰上的可能性。作者首先提出了問題特征的分類方法,并將它們應用于眾多推演和 C2 流程。人工智能系統最近的商業應用強調人工智能提供了現實世界的價值,并且可以成功地作為更大的人-機團隊的組成部分。作者概述了解決方案能力的分類方法并將其應用于眾多的人工智能系統。
雖然主要側重于確定人工智能系統和 C2 流程之間的一致性,但本報告對 C2 流程的分析也為國防部人工智能系統所需的普遍技術能力提供了有關信息。最后,作者開發了基于性能、有效性和適用性的度量標準,一旦實施,可用于評估人工智能系統,并展示和社會化它們的效用。
在學術和商業背景下開發和部署的人工智能系統在軍事背景下是否有價值?
能否開發一個分析框架來理解不同人工智能系統對不同C2問題的適用性,并確定普遍存在的技術差距?
能否開發出足夠的衡量標準來評價人工智能系統在C2問題上的性能、有效性和適用性?
C2 流程與用于開發和演示人工智能系統的許多推演和環境有很大不同
C2 流程的獨特性質需要不同于推演優化所需的人工智能系統
需要新的指南、基礎設施和指標體系來評估人工智能在 C2 中的應用
需要混合方法來處理 C2 流程中存在的眾多問題特征
使用本報告描述的結構化方法系統地分析推演、問題和 C2 流程的特征,以確定現有人工智能測試平臺在哪些方面具有和不具有 C2 任務的代表性。
開發在種類和強度上代表C2 任務的問題特征的新人工智能測試平臺。
使用本報告描述的結構化方法來識別和投資高優先級解決方案能力,這些能力在廣泛的 C2 流程中需要,但目前不可用(例如,穩健性和可靠性)。
使用本報告描述的結構化方法來評估潛在人工智能系統特征與特定 C2 流程之間的一致性,以確定要開發的系統的優先級。
為人工智能解決方案制定指標體系,評估算法完整性和最優性之外的能力(例如,穩健性和可解釋性)。
使用本報告描述的結構化方法來確定給定 C2 流程的性能、有效性和適用性的關鍵度量。
根據確定的綜合性能評價指標體系,對給定 C2 流程的人工智能系統進行全面評估。
識別、重用和組合賦予關鍵人工智能系統能力的算法解決方案。
第一章 導言和項目概述
第二章 問題特征分類法
第三章 解決方案能力的分類法
第四章 將問題特征映射到解決方案能力上
第五章 評估人工智能解決方案的指標
第六章 結論和建議
圖S.1 人工智能系統能力圖和指揮與控制過程評估
布魯斯-納吉(Bruce Nagy)是海軍空戰中心武器部的研究工程師。他的研究重點是先進的博弈論技術、人工智能和機器學習在戰術決策輔助工具中的應用。納吉先生獲得了四個學位:一個是數學學位,兩個是電子工程學位,還有一個是來自城堡大學和海軍研究生院的生物學學位。他領導開發了先進的算法和衡量標準,為國防部解決了衛星通信方面的國防問題。在加州大學洛杉磯分校研究生工作期間,他與美國國立衛生研究院合作,研究了腦干與肌肉群在細胞水平上的通信模型。
在處理機器學習(ML)/人工智能(AI)部署的產品時,商業界和國防部(DoD)都面臨著系統安全問題的挑戰。國防部在部署可能存在傷害人群和財產的武器時,這個問題更為嚴重。商業制造商的動機是利潤,而國防部的動機是防御準備。兩者都在競賽中,可能會因為過于關注終點線而遭受不利后果。需要建立正式的監督以確保安全的算法性能。本文提出了一種測量方法,對開發ML/AI算法時使用的訓練數據的質量和數量進行仔細檢查。測量訓練數據的質量和數量可以增加對算法在 "現實 "操作環境中表現的可信度。將模式與測量相結合,可以確定:(1)如何策劃數據以支持現實的環境部署;(2)在訓練過程中,哪些屬性優先,以確保數據的穩健構成;以及(3)屬性優先如何反映在訓練集的大小上。測量結果使人們對操作環境有了更多的了解,考慮到了數據缺失或稀疏時產生的問題,以及數據源如何在部署期間向算法提供輸入。
相對于傳統的軟件開發技術,機器學習(ML)/人工智能(AI)創建的功能需要使用訓練數據集配置的模型。傳統的代碼被用來管理訓練過程。訓練集是由屬性組合組成的,有時稱為特征。當我們提到圖像內的一個特征時,我們是在描述圖像內容中包含的一段信息。在這種情況下,特征描述的是圖像的某個區域,它具有某些屬性,而不是另一個流行的定義,即特征是圖像中的單個像素。屬性的聚合可以包含在一個來源中,例如,拍攝面部照片的相機,或者各種傳感器的輸入,如雷達和通信鏈。在本文中,我們將根據屬性的模式來區分屬性是由一個還是多個來源產生的。正如將要描述的那樣,了解模式的類型并創建具有適當質量和數量的實例/樣本的訓練數據集,以復現部署期間經歷的變化、異常和噪音,是提高算法行為可信度的關鍵。
第一位被自動駕駛汽車殺死的女性(Schmelzer 2019)為人工智能在部署環境中的行為可靠性提出了質疑。另外,1896年出現第一個被人類司機殺死的人。誰犯了錯?它被確定是司機。當一個自主系統犯錯時,是汽車還是司機(Gurney 2013)有錯?有許多工廠對汽車中的故障機制進行召回,如剎車。這與人工智能軟件系統有什么不同嗎?許多汽車開發商的目標是,與其他制造商相比,他們使用自主權能使汽車多么安全(Griffith E 2016)。這是他們廣告的關鍵,以促進消費者的接受和采購。
埃隆-馬斯克表示,一個主要的擔憂是人工智能系統可能被秘密開發(Etherington 2012),從而限制了監督。例如,微軟對OpenAI的文本生成軟件擁有獨家權利(Hamilton 2020)。這違背了埃隆-馬斯克作為OpenAI創始人之一的最初策略,其目標是開發開源技術。在過去十年及以后,汽車公司的主要動機是收益。在20個月的時間里,一家生產無人駕駛汽車技術的公司涉及18起事故(Wiggers 2020)。這家公司拒絕支持一個專注于自動駕駛汽車 "安全第一 "指導原則(Wiggers 2019)。相反,該公司公開表示,他們支持法律和法規。從法律的角度來看,現有的法律是否適用是相當不確定的(Moses LB 2007)。正因為如此,汽車制造商可能沒有適當的激勵來開發安全系統(Cooter 2000)。即使這家公司的公眾反對主動關注安全,即使在20個月內發生了18起事故,他們仍然能夠籌集到超過30億美元的資金。一些法律思想支持有限的監管,但要注意激勵商業制造商只開發有益/有用的人工智能(McGinnis JO 2010)。無論好壞,關于經濟學、法律和哲學的討論(Russell 2015)正試圖形成什么是有益/有用的答案。如何內在地激勵(Baum 2017)開發者創造有益的人工智能?挑戰在于,人們基于需求來證明行動的合理性(Kunda 1990)。商業制造商必須支持他們的底線,而國防部則有一套不同的目標體系。
與商業需求相比,美國防部在什么是有益的方面有一套不同的標準。然而,我們可以從工業界學到很多東西。當然,國防部無法承擔有關自主系統的國際事件,特別是在20個月內發生的一系列事件。重大的挑戰是,國防部必須在一個隱蔽和隔離的環境中開發解決方案,甚至與其他機密項目隔離。即使是基于開放源碼的監督也是有限的。這就是系統安全組織在國防部如此重要的原因,必須有標準、測量、政策和程序來支持他們的工作。無論是在商業界還是在國防部,人工智能的功能都被認為是不可預測的、無法解釋的和目標不確定的(Yampolskiy,2020)。當我們談論海軍武器系統的AI安全問題時,這通常不包括可能影響功能性能的對抗性攻擊。鑒于這種觀點,使用DeepFakes等技術的AI對抗性網絡攻擊,將一個圖像/視頻放入另一個圖像/視頻中進行誤判(Chauhan 2018),并沒有包括在這項研究中,但可以考慮在未來進行調查。不可預測、無法解釋和目標不確定仍然是人工智能部署技術的一個重要問題,即使開發人員有動力并盡了最大努力(Deci 1971, Krantz 2008)。即使是最好的,也還是在20個月內造成了18起事件。
國防部和商業制造商都面臨的一個主要挑戰是爭分奪秒的開發方式(Armstrong 2016)。從核軍備競賽中是否可以學到一些東西?明顯的教訓是,我們需要在發展的早期階段進行監督(Borrie 2014)。人工智能可能會產生同樣的戲劇性效果,就像核軍備競賽一樣。考慮一下將軍用無人機和武器置于人工智能系統的完全控制之下的問題(Bohannon 2015)。考慮墨菲定律,"任何可能出錯的事情都會出錯"。當涉及到我們期望計算機做什么和它們實際會做什么時,特別是當開發變得更加復雜時,不想要的事件就更有可能發生(Joy 2000)。請注意,十多年前啟動的涉及機器人 "決定 "和行動的大部分研究都是由軍方資助的(Lin 2011)。
國防部必須問的是,"我們能否在安全關鍵功能中部署人工智能,即由人工智能驅動的武器自主行動?" 回答這個問題的挑戰在于確定人工智能系統是否可以被 "修復",變得更加可靠,以支持安全需求,就像汽車的剎車。
對于商業和政府的人工智能發展,安全標準的需求正變得越來越突出(Ozlati 2017)。聯邦政府已經采取了行動。國家標準與技術研究所(NIST)專注于創建標準,為人工智能發展提供監督。在他們52頁的報告(NIST 2019)中,九個重點領域之一是衡量標準。本文考慮納入NIST人工智能發展標準中,關于衡量訓練數據的數量/大小和質量/構成。
為了克服這些獨特的挑戰,確保海軍武器裝備有足夠的安全和保障,海軍軍械安全和安保活動(NOSSA)成立。NOSSA是這項研究的資助組織,它認識到人工智能系統的安全可能需要一套特殊的政策、指導方針和衡量標準。他們關注的是,ML/AI算法不能使用傳統的危險分析方法(MIL-STD 882E)進行分析,聯邦航空管理局的嚴格準則(DO-178C)也不充分。NOSSA希望調查軍事系統中人工智能發展的特殊分析要求(聯合SSSEH v1.0)。NOSSA還想調查是否需要任何新的方法來對人工智能部署的武器系統進行充分的危險分析(JS-SSA-IF Rev. A)。
這項研究的動機是基于以下六個關鍵原因,即海軍需要對部署在武器系統中的機器學習算法建立可衡量的可信度:
1.我們不能也不應該期望作戰人員接受并使用人工智能作為一種社會規范(Lapinski 2005),即使是在有最好的可解釋的人工智能技術的情況下,也不能首先讓我們的采購團體對機器學習算法在現實作戰環境中的部署建立可衡量的可信度。
2.如果對訓練數據質量不信任,包括訓練過程中可能產生的任何負面副作用(Everitt 2018),采辦界就無法確定和認證ML算法的部署操作限制。
3.國防部采購團體在遵循商業系統安全準則時受到限制,因為商業世界在確保AI功能行為方面沒有相同的嚴格要求。商業制造商受利潤驅動,可能會受到客觀推理(Lewandowsky 2015)的影響,與強調安全問題的動機沖突可能導致銷售量降低。
4.海軍記錄項目的AI升級,最初是按照傳統軟件開發的能力成熟度模型(Shneiderman 2020)開發的,目前不包括ML/AI開發差異。采購社區需要支持和監督來填補這一空白。
5.當務之急是,"Speed to the fleet "的人工智能系統的部署必須克服其動機限制,并考慮人工智能的安全影響,使用規劃、監督和審查委員會持續監測,包括對災難的回顧性分析(Shneiderman 2016)。
6.海軍武器系統爆炸物安全審查委員會(WSESRB)和其他審批監督機構在沒有足夠的指導和工具的情況下,其評估是有限的(Porter 2020, Jones 2019)。指導和工具需要成為國防部預算的一個優先事項。
人工智能具有創造技術飛躍的潛力(Eden 2013)。這種潛在的飛躍,特別是在處理武器系統時,需要仔細審查。這種審查的重點是訓練數據的組成和規模的特殊性。這項研究將描述監督小組所需的審查,可以用來提高部署人工智能功能的安全性和可信度。
機器學習是現代戰爭系統的關鍵組成部分。本文探討了人工智能的 7 個關鍵軍事應用。
機器學習已成為現代戰爭的重要組成部分,也是我(Nicholas Abell)作為陸軍退伍軍人和數據科學家的主要興趣點。與傳統系統相比,配備人工智能/機器學習的軍事系統能夠更有效地處理大量數據。此外,人工智能由于其固有的計算和決策能力,提高了作戰系統的自我控制、自我調節和自我驅動能力。
人工智能/機器學習幾乎被部署在所有軍事應用中,軍事研究機構增加研發資金有望進一步推動人工智能驅動系統在軍事領域的應用。
例如,美國國防部 (DoD) 的國防高級研究計劃局 (DARPA) 正在資助一種機器人潛艇系統的開發,該系統預計將用于從探測水下水雷到參與反潛行動的各種應用。此外,美國國防部在 2017 財年在人工智能、大數據和云計算方面的總體支出為 74 億美元。預計到 2025 年,軍事 ML 解決方案的市場規模將達到 190 億美元。
以下是機器學習將在未來幾年證明其重要性的七種主要軍事應用。
來自全球不同國家的國防軍隊正在將人工智能嵌入陸地、海軍、空中和太空平臺上使用的武器和其他系統中。
在基于這些平臺的系統中使用人工智能,可以開發出更少依賴人工輸入的高效作戰系統。它還增加了協同作用,提高了作戰系統的性能,同時需要更少的維護。人工智能還有望使自主和高速武器能夠進行協作攻擊。
軍事系統通常容易受到網絡攻擊,這可能導致機密軍事信息丟失和軍事系統損壞。然而,配備人工智能的系統可以自主保護網絡、計算機、程序和數據免受任何未經授權的訪問。
此外,支持人工智能的網絡安全系統可以記錄網絡攻擊的模式,并開發反擊工具來應對它們。
人工智能有望在軍事后勤和運輸中發揮關鍵作用。貨物、彈藥、武器和部隊的有效運輸是成功軍事行動的重要組成部分。
將人工智能與軍事運輸相結合可以降低運輸成本并減少人力工作負荷。它還使軍用艦隊能夠輕松檢測異常并快速預測組件故障。最近,美國陸軍與 IBM 合作,使用其 Watson 人工智能平臺來幫助預先識別 Stryker 戰車的維護問題。
正在開發人工智能技術以提高復雜戰斗環境中目標識別的準確性。這些技術使國防軍隊能夠通過分析報告、文檔、新聞提要和其他形式的非結構化信息來深入了解潛在的作戰領域。此外,目標識別系統中的人工智能提高了這些系統識別目標位置的能力。
支持人工智能的目標識別系統能力包括基于概率的敵人行為預測、天氣和環境條件匯總、潛在供應線瓶頸或漏洞的預測和標記、任務方法評估以及建議的緩解策略。機器學習還用于從獲得的數據中學習、跟蹤和發現目標。
例如,DARPA 的競爭環境中的目標識別和適應 (TRACE) 計劃使用機器學習技術在合成孔徑雷達 (SAR) 圖像的幫助下自動定位和識別目標。
在戰區,人工智能可以與機器人手術系統 (RSS) 和機器人地面平臺 (RGP) 集成,以提供遠程手術支持和疏散活動。美國尤其參與了 RSS、RGP 和其他各種用于戰場醫療保健的系統開發。在困難條件下,配備人工智能的系統可以挖掘士兵的病歷并協助進行復雜的診斷。
例如,IBM 的 Watson 研究團隊與美國退伍軍人管理局合作開發了一種稱為電子病歷分析器 (EMRA) 的臨床推理原型。這項初步技術旨在使用機器學習技術來處理患者的電子病歷,并自動識別和排列他們最嚴重的健康問題。
模擬與訓練是一個多學科領域,它將系統工程、軟件工程和計算機科學結合起來構建計算機模型,使士兵熟悉在軍事行動中部署的各種作戰系統。美國正在越來越多地投資于模擬和訓練應用。
美國海軍和陸軍都在進行戰爭分析,啟動了幾個傳感器模擬程序項目。美國海軍已經招募了 Leidos、SAIC、AECOM 和 Orbital ATK 等公司來支持他們的計劃,而美國陸軍的計劃得到了包括 SAIC、CACI、Torch Technologies 和 Millennium Engineering 在內的公司的支持。
威脅監控和態勢感知在很大程度上依賴于情報、監視和偵察 (ISR) 工作。ISR 行動用于獲取和處理信息以支持一系列軍事活動。
用于執行 ISR 任務的無人系統既可以遠程操作,也可以按照預先定義的路線發送。為這些系統配備人工智能有助于防御人員進行威脅監控,從而提高他們的態勢感知能力。
具有集成 AI 的無人駕駛飛行器 (UAV) - 也稱為無人機 - 可以巡邏邊境地區,識別潛在威脅,并將有關這些威脅的信息傳輸給響應團隊。因此,使用無人機可以加強軍事基地的安全,并提高軍事人員在戰斗中或偏遠地區的安全性和效率。
人工智能在軍事技術硬件和軟件的大規模采用,向我們展示了現代戰爭中令人難以置信和可怕的范式轉變。毫不奇怪,世界上最大的軍隊比其他任何事情都更加關注這項技術,而這場技術競賽的獲勝者可能會比美國在研制原子彈后擁有更多的全球影響力。 (作者:Nicholas Abell,美國陸軍退伍軍人)
在當今的訴訟環境中,人工智能驅動的商業決策必須不僅僅是可解釋的、合乎道德的和負責任的;我們需要可審計的人工智能。
隨著主流商業世界從人工智能的理論使用轉向生產規模的決策,可審計的人工智能是必不可少的,因為它包含的不僅僅是負責任的人工智能(強大、可解釋、合乎道德和高效的人工智能)的原則。可審計的 AI 還提供通過監管審查所需的文件和記錄,其中可能包括以下問題:
需要注意的是,盡管“審計”一詞具有事后的含義,但可審計的 AI 強調在模型構建期間和模型投入生產之前制定(和使用)明確規定的工作記錄。
可審計人工智能通過在模型生產過程中創建公司記錄的開發治理標準的審計跟蹤,使負責任的人工智能成為現實。這可以避免在模型開發完成后進行隨意的事后探測。還有額外的好處;通過盡早準確地了解模型何時出偏差,以便快速補救,公司可為自己省去無盡的痛苦,避免當人工智能在數據科學實驗室之外出現問題時發生的聲譽損害和訴訟。
法律成本、聲譽受損和客戶不滿只是受到 AI 倡導團體審查的沉重成本中的一小部分,而可審計的 AI 可以幫助防止所有這些成本。采用可審計人工智能將通過在整個模型開發過程中記錄關鍵決策和結果來確保公司的人工智能標準得到遵循和執行。
盡管建立必須衡量、審查和批準的精確信息并非易事,但這樣做會給公司帶來兩個寶貴的優勢:
如果沒有嚴格的模型開發標準和指導方針,公司就很難出具始終如一地跟蹤合規性的審計報告,以及用于確保投入生產的模型公平、公正和安全的關鍵數據。
在某些情況下,模型治理的關鍵部分簡單而令人不安地沒有得到解決。從研究模式到生產模式的轉變需要數據科學家和公司有一個明確的標準。創新應該由 Highlander Principal 推動(“只能有一個”),因此您的組織在開發可審計的 AI 時需要提出以下問題:
誠然,有無數問題需要回答,實現可審計 AI 似乎令人生畏。但是已經有可以很容易采用的最佳實踐框架和方法,提供關鍵的構建模塊。如今,大多數組織都在將 AI 部署到一個充滿風險的空白中,因此真正迫切需要實施可審計的 AI。人工智能的未來,以及我們所知道的商業世界,都取決于這種強大的技術以同樣強大的方式進行管理和監控。
人工智能 (AI) 系統作為決策和控制系統的一部分在各種應用中發揮著越來越大的作用,其中包括移動、生物識別和醫學等安全和安全關鍵應用領域。與傳統 IT 技術相比,深度神經網絡等 AI 技術的使用提供了新的機會,例如卓越的性能。同時,它們在 IT 安全性、魯棒性和可信賴性等方面提出了新的挑戰。為了應對這些挑戰,需要一個普遍認可的人工智能系統審計框架。這應該包括評估策略、工具和標準,但這些要么正在開發中,要么尚未準備好投入實際使用。
本白皮書首先總結了 AI 系統的機遇和挑戰,然后介紹了 AI 系統可審計性的最新技術,重點關注 AI 生命周期、在線學習和存在漂移、對抗,毒化攻擊、后門的模型維護等,和針對這些攻擊的防御、驗證、安全關鍵型 AI 系統可審計,黑盒 AI 模型可解釋和 AI 標準化。
盡管所有這些方面都取得了實質性進展,但一個首要的開放問題是(通常是多方面的)系統所需特性之間的權衡,例如一方面是魯棒性、安全性和可審計性,另一方面是 AI 模型、ML 算法、數據和進一步邊界條件的特征。這些權衡限制了當前 AI 系統的可擴展性和通用性。
為了最終以安全、可靠、穩健和可信賴的方式利用人工智能技術的機會,應結合兩種策略: 1. 考慮到上述權衡,應為給定任務選擇有利的邊界條件; 2. 應通過對研發的大量投資來推進現有技術,以最終在復雜的邊界條件下允許安全的人工智能系統,從而提高可擴展性和普遍性。第一步,應該關注選定的安全關鍵用例。應利用可用的標準、指南和工具,并進一步促進研究人員和行業之間的跨學科交流,以找到可用標準和工具的最佳組合,為每個特定用例實現可審計、安全和強大的人工智能系統。然后,在第二步中,應該使用來自這些用例的見解來概括結果并構建一個模塊化工具箱,該工具箱隨后可以應用于其他用例。在此基礎上,首先應制定技術指南和隨后的標準。在理想情況下,結果將是一套普遍適用的標準和工具,使人工智能系統具有足夠的可審計性、安全性和可靠性。
人工智能 (AI) 技術已經在許多應用中普遍存在,它正日益成為我們世界不可或缺的一部分,因為它是決策或控制系統無數應用的基礎(圖 1)。人工智能系統可能由多個子系統組成,每個子系統都可能使用不同的技術。技術可分為經典 IT (cIT)、符號 AI (sAI) 和連接主義 AI (cAI)。在這里,重點放在(深度)神經網絡和機器學習(ML)形式的 cAI 系統上,因為 cAI 系統在質量上表現出新的漏洞,并且到目前為止,還不能通過 cIT 的可用工具進行充分審計。
圖 1:人工智能系統已經成為各種應用中決策和控制系統的一部分,例如自動駕駛汽車、醫療保健和生物識別技術。 Connectionist AI(cAI,例如神經網絡)、符號 AI(sAI,例如決策樹)和經典 IT (cIT) 模塊通過傳感器和執行器相互交互并與環境交互,從而導致整體系統行為。在這里,我們只關注單個 cAI 模塊(粗體字)。
人工智能用于計算機游戲和語音助手系統等應用程序,以及駕駛員輔助系統、入侵檢測系統和醫療診斷等安全關鍵應用程序 [1-4]。后一個用例表明,責任和義務從人類轉移到了安全和安保關鍵系統中的人工智能系統。因此,出現故障的人工智能系統可能會導致嚴重后果,導致經濟損失甚至影響人類健康。在極端情況下,這可能包括因不適當或缺少醫療而導致車禍或嚴重醫療狀況的死亡。在許多應用中,當前的人工智能系統在性能、用戶體驗和成本方面都大大優于 cIT 技術。盡管人工智能技術提供了這些和其他巨大的機會,但它的應用也帶來了一些挑戰 [5-9]:例如,神經網絡 (NN) 的內部工作原理由于其高度互連的非線性而很難被人類解釋。處理元素及其巨大的輸入和狀態空間。此外,它們的性能高度依賴于數據的數量和質量,因為它們的參數必須通過 ML 算法進行訓練。 NN 訓練不遵循明確定義的設計流程,NN 具有質量上的新漏洞,用戶經常缺乏信任,并且 NN 可能被攻擊者用作攻擊工具。
因此,為了應對 AI 的這些安全和安保挑戰,必須深入了解 AI 系統的運作方式、為什么它們在某些情況下表現良好但在其他情況下失敗,以及它們如何受到攻擊和保護免受攻擊。為了獲得用戶的信任,必須在實際定義的邊界條件下保證人工智能系統的正常運行。對于“經典”技術,法律要求在飛機控制軟件等多個領域提供此類保證,并且需要定期進行審計。一個自然的問題是如何將傳統 IT 領域的概念和方法轉移到 AI 領域,在這還不夠的情況下,如何用新的 AI 特定概念和方法來補充它們。如果在 100% 的情況下無法保證正確操作,則應討論是否可以接受 AI 系統至少比最先進的非 AI 系統或人類執行得更好。因此,應采用基于風險的方法,量化系統故障的風險,即故障成本乘以故障概率。這在惡意攻擊的情況下也應該成立。更好的平均性能可能還不夠,因為人工智能系統的平均性能可能更好,但在亞組上更差(例如,黑人的皮膚癌檢測,[10; 11])。如果 AI 系統出現故障,其失敗的原因必須是可以解釋的。由于目前尚無普遍接受的審計人工智能系統的標準、評估標準、方法和工具(但有關當前舉措,請參見第 2.7 節),因此出現以下問題:如何審計人工智能系統?哪些邊界條件是最優的,哪些是可以接受的?除了經典的 IT 系統審計或安全評估之外,還需要哪些方法、工具和其他資源?審計 AI 系統的限制是什么?工作量和審計質量之間的權衡是什么?應該如何在研發中最好地利用可用資源,以實現在各種條件下仍然有效的 AI 系統審計結果?
根據 2020 年 10 月 6 日在柏林/互聯網舉行的為期一天的研討會“審計 AI 系統:從基礎到應用”的演示和討論,我們試圖通過回顧當前的技術水平來回答這些問題,通過總結開放性問題并確定最迫切需要的未來工作和最有希望的方法來評估 AI 系統的可審計性。在此過程中,1. 將考慮 AI 系統的整個生命周期; 2. 將重點關注當前最重要的 AI 技術,即機器學習 (ML) 訓練的深度神經網絡 (DNN),而 DNN 將在 IT 安全性和魯棒性方面予以考慮。在可能的情況下,將給出具體的用例作為示例。
在本節中,首先給出廣義 cAI 生命周期的概述(圖 2A),然后總結 cAI 系統可審計性的一些最重要方面的最新技術,即通過 ML 訓練 AI 系統數據、攻擊和防御、驗證、確認、可解釋性和標準化。
研討會期間沒有深入討論其他方面,因此,僅就它們對 AI 安全的可能影響進行了簡短總結:
1.足夠的質量和數量的訓練和測試數據適用于AI性能和魯棒性,也適用于 AI 系統的安全性 [12]。
2.數據預處理(或特征選擇)一方面可以被視為 AI 系統模塊化的一步,由于每個 AI 模塊的功能減少,可能會導致更好的可解釋性,但另一方面,可以認為開辟了一個新的攻擊目標(參見例如[13; 14])。因此,根據具體情況,它可能有利于提高安全性,也可能無益。
3.正則化,例如通過誤差函數對大權重進行懲罰,可能有助于防止過度擬合,并且可能在某些邊界條件下直接導致更高的魯棒性并間接提高安全性和保障性[15]。
cAI 系統的復雜生命周期至少在很大程度上是其應用面臨新挑戰的原因,尤其是與 cIT 和 sAI 系統相比。因此,它將成為本白皮書的重點。在這里,它分為以下 5 個階段(參見圖 2A):規劃、數據、訓練、評估和運營。在實踐中,這些階段不是按順序排列的,而是開發人員以高度迭代和敏捷的方式使用這些階段,例如在開發過程中經常使用評估。此外,運營階段還包括模型維護的挑戰,包括調整模型的必要性,以防已經使用的 cAI 系統出現新數據或要求。與生物神經網絡類似,cAI 系統通常由大量簡單但高度互連的處理元素(或神經元)組成,這些處理元素(或神經元)分層組織。最先進的 cAI 系統,例如深度神經網絡(DNN,深度 = 多層)由數百萬個處理元素和它們之間的突觸(= 連接)組成。假設一個固定的神經架構,這意味著 cAI 系統通常有超過 1 億個參數,即突觸權重和單位偏差值,必須適當調整。因此,幾乎在所有情況下都無法手動設置這些參數。相反,機器學習技術用于根據訓練數據、誤差函數和學習規則自動調整系統參數。與在訓練期間學習的 cAI 模型內部參數相比,影響學習過程和模型架構的外部參數稱為超參數,必須在訓練之前固定并在驗證集上進行調整。自動化訓練管道設置和訓練本身的方法稱為自動機器學習或 AutoML [16]。雖然許多 cIT 和 sAI 模型(例如決策樹或規則集)中的參數通常也由自動方法設置,但原則上,與大多數 cAI 模型相比,它們仍然可以直觀地檢查。
圖 2:A) 連接主義 AI (cAI) 系統的廣義生命周期示意圖,強調了對 AI 系統進行徹底審計時必須考慮許多方面。在這里,生命周期是從 IT 安全角度來看的,包括漏洞(紅色)、防御(藍色)和解釋(綠色 + “?”)。有監督的再訓練或在線學習可以選擇性地與運營并行,并在運營期間連續運行,從而導致評估應該何時以及多久進行一次評估的問題。評估、驗證、確認和標準化應考慮整個生命周期。 B) 一個 cAI 生命周期 (cAILC) 可以是例如嵌入到功能安全生命周期中(fSLC,參見例如 [17; 18])。后者可能包含幾個與安全相關的系統,例如還包括 sAI 和 cIT 系統(參見圖 1),包括在開發階段和最終退役階段之前的廣泛分析階段。請注意,cAILC 和 fSLC 通常都是高度迭代的。
因此,開發人員的角色是通過使用神經網絡、訓練數據、機器學習算法和相關超參數初始化訓練過程來設置必要的邊界條件。隨后,開發人員監督訓練過程,調整超參數,測試中間結果,并在必要時重新開始訓練,直到達到 AI 系統的預期性能。這不是一個標準化的程序,而是開發人員的直覺和經驗決定了訓練過程。由于獲得足夠數量的高質量數據和從頭開始訓練 DNN 需要大量資源,開發人員經常走捷徑,利用預先訓練的模型和從各種來源獲得的外部數據。一旦滿足開發標準(例如性能、魯棒性),人工智能系統就可以投入運行:在嵌入特定的硬件和軟件環境后,神經網絡會收到預處理的輸入數據并輸出其決策。盡管缺乏明確定義的設計流程(見上文),但能夠訪問必要資源(數據、模型、計算能力)的經驗豐富的開發人員可以快速為許多明顯優于 cIT 系統的用例開發決策系統。
由于 DNN 通常具有巨大的參數和輸入空間以及它們在結構和功能之間的非直觀關系,人類幾乎不可能解釋它們的功能。允許這樣做的專業解釋方法是當前研究的主題(詳情參見第 2.6 節)。目前通過觀察一組選定測試的輸入輸出關系來測試人工智能系統。即使是測試所有可能輸入的一小部分,也需要大量資源,并且必須系統地進行處理(參見 [19])。只有在非常有限的邊界條件下的特定情況下才能進行形式驗證,例如它不能擴展到大型網絡和任意輸入(參見第 2.4 節)。 cAI 系統的進一步缺點是它們在性質上的新漏洞,即在運行期間的對抗性攻擊(參見第 2.3.1 節)和信息竊取攻擊(參見第 2.3 節),以及在訓練期間的后門中毒和 DoS 攻擊(參見第 2.3.2 節) ,除了經典的社交攻擊、操作系統和硬件攻擊外,攻擊者還可能利用這些攻擊進行有針對性和無針對性的攻擊(詳見下文)。為了保護數據驅動的 AI 系統和機器學習免受此類攻擊,除了經典的 IT 安全措施外,還提出了許多解決方案:對抗性訓練、梯度掩蔽和特征壓縮(參見第 2.3.3 節了解更多詳細信息)。不幸的是,到目前為止,沒有一種單一的防御方法,也沒有多種防御方法的組合能夠可靠地防止自適應攻擊。此外,根據設置,改進的攻擊預防和魯棒性可能以降低準確性為代價 [20]。
在實際用例中,例如在自動駕駛汽車中,cAI 生命周期通常嵌入到更廣泛的生命周期中,包括多個 IT 和 AI 模塊的開發和交互。這描述了功能安全生命周期(圖 2B 中的 fSLC),其中 cAI 模塊只是可能的組件。對于這些 cAI 模塊,可以確定(汽車)安全完整性等級 ((A)SIL) [17; 18]。功能安全生命周期強調人工智能生命周期規劃階段之前的分析階段,目的是量化此類系統的故障概率,并通過包括風險分析在內的系統方法確定這些概率的可接受性。 fSLC 分析階段還包括概念化以及安全要求的推導和分配。作為分析的結果,出于安全的原因,甚至可能完全禁止在安全關鍵應用程序中使用人工智能技術。相比之下,人工智能可以很容易地在沒有發生嚴重后果的情況下使用,這必須得到風險分析的支持。在這種情況下,不需要在系統中實施 SIL 要求,也不需要進行安全評估。方法論和用例特定的標準、規范和技術指南應在適用于整個生命周期的任何地方使用。例如,功能安全生命周期存在一個廣泛的標準 [17],但它不包括具有 cAI 特定漏洞和挑戰的 cAI 生命周期。在世界各地,多項舉措都在努力縮小這一差距(參見第 2.7 節)。
為了通過從數據中學習來解決問題,可以根據問題的復雜性和可用數據量使用不同的范式。例如,當有大量訓練數據可用時,深度學習技術通常用于解決復雜問題,而統計學中的經典方法只能解決不太復雜的問題,但需要的數據更少。獨立于范式,手頭問題的環境可能不會隨著時間的推移而保持不變。為了獲得魯棒的結果,必須考慮和解決此類環境變化。
對于大多數經典機器學習 (ML) 技術,可以在標準假設下從統計學習理論推導出強大的魯棒性保證 [21]。面對環境變化和有限的數據可用性,保持預測準確性的另一種方法是允許 ML 模型拒絕與已知數據點相距太遠且模型確定性較低的輸入 [22]。需要注意的是,識別此類輸入本身可能是一個難題。這種方法也可以用于在線學習[23]。
遷移學習是一種通用技術,允許將先前學習的父模型調整到新的但相關的任務 [24]。利用這兩個任務的相似性并基于父模型中包含的信息,可以使用比從頭開始訓練所需的更少的數據點來訓練新模型。遷移學習和更一般形式的小樣本學習是目前使用深度學習的標準方式。例如,特定圖像分類任務的模型建立在 VGG [25] 等預訓練模型之上。遷移學習可用于應對環境變化。然而,為了在不使用大量數據的情況下獲得模型準確性的理論保證,需要對可能發生的變化做出強有力的假設。這樣的假設在實際用例中可能是有效的,例如,使假肢的控制單元適應傳感器位置的輕微變化[26]。
另一種訓練 ML 模型的方法稱為在線學習。在這種范式中,模型不會從離散的數據批次中學習,而是使用數據流并不斷更新以將每個新數據點考慮在內。然后環境變化表現為數據漂移,這可能會影響真實模型本身或僅影響觀察到的數據分布。在這種情況下,挑戰在于確定哪些信息與在給定時間點和未來做出正確預測相關,哪些信息應該被丟棄。在這樣做時,還必須考慮數據中毒攻擊和丟失數據標簽。因此,模型面臨可塑性之間的兩難境地,即能夠整合新信息,又保持穩定性,保持以前的正確知識。已經證明,對于簡單模型,這兩個屬性可以有效地平衡,以在存在漂移的情況下實現高性能 [27-30]。這種模型的挑戰在于元參數成為模型參數,因為模型復雜性可能會發生變化。因此,非參數模型以及集成方法通常特別適合。然而,獲得數學保證需要非常強的假設。作為在實踐中處理漂移的一步,檢測和理解漂移的第一種技術提供了有趣的方法來判斷這種在線適應技術的效果[31,32]。
人工智能在設計上并不安全,過去幾年已經記錄了無數欺騙人工智能系統的例子(概述參見 [33])。在本白皮書中,我們重點關注 AI 系統在信息安全目標完整性方面的兩個最重要漏洞,該漏洞致力于在整個 AI 生命周期中維護可信賴和一致的數據。在這種情況下,已經確定了對 cAI 系統的兩個主要和質量上的新威脅:操作階段的對抗性或逃避攻擊(參見第 2.3.1 節)和訓練階段的后門中毒攻擊(參見第 2.3.2 節)。這些攻擊和可用的防御將在以下部分中詳細討論。
其他兩個主要信息安全目標的機密性和可用性方面存在更多漏洞,但不在本白皮書的重點:機密性可能會通過探索性模型竊取 [34]、模型反轉 [35] 和成員推斷攻擊 [36] 受到損害,其中用于訓練的 AI 模型和數據可以從查詢到可操作的 AI 系統進行重構(在“模型和數據竊取攻擊”下總結在圖 2 中)。這些攻擊是在規避攻擊的上下文中提到的(見下文)。可用性可能會受到 DoS 中毒攻擊 [37],與后門攻擊相比,它的目標是最小化模型的性能。
在規避攻擊中,攻擊者計劃通過對模型輸入的細微修改來改變人工智能系統在其推理(或運行)階段的決策。這些修改通常對人眼來說是不可疑的,也被稱為對抗性示例 [38; 39]。因此,標準的 cAI 系統非常脆弱,模型訓練數據不能很好地表示的輸入特別容易受到錯誤分類的影響。眾所周知的例子包括通過在交通標志上放置貼紙來攻擊交通標志分類系統 [40],通過向惡意軟件 [41-43] 添加適當功能所不需要的代碼來攻擊惡意軟件檢測器,以及通過為人類配備特別印制的眼鏡架 [44] 或帽子上的補丁 [45]。如果攻擊者能夠控制人工智能系統的決策,則該攻擊稱為有針對性的攻擊,否則,如果攻擊者只是以任意方式更改決策,則該攻擊稱為無目標攻擊。
為了規避攻擊,可以將其形式化為一個優化問題,其目標是修改輸入,以使 AI 系統至少跨越一個決策邊界,例如。在惡意軟件檢測器中從良性區域到惡意區域 [38; 46]。在這樣做時,必須考慮幾個附帶條件,例如保持修改盡可能小或不明顯的要求。
如果攻擊者完全了解模型、特征和數據,這種攻擊稱為白盒攻擊。此外,如果輸出函數是可微的,這是大多數當前使用的學習算法的情況,那么可以計算梯度作為優化過程的先決條件。但是,在攻擊者對目標模型、特征和數據的了解有限的情況下,稱為灰盒或黑盒設置,攻擊者可能會通過替代模型繞過旁路來制造有效的攻擊。替代模型可以通過模型竊取攻擊或通過新訓練的模型,例如使用來自成員推理攻擊的數據,該攻擊模仿目標模型的功能。 cAI 系統具有這樣的特性,即為一個模型開發的攻擊在許多情況下可以毫不費力地轉移到不同的 cAI 模型(可轉移性),因此,這些攻擊也稱為黑盒轉移攻擊。根據邊界條件,即使是黑盒查詢攻擊也可以成功。它們不需要替代模型,而是使用對目標模型的查詢與無梯度優化方法(如遺傳算法或貝葉斯優化)相結合。由于這些黑盒攻擊,僅對網絡參數保密以有效保護人工智能系統免受對抗性攻擊是不夠的。
但是為什么 cAI 系統容易受到對抗性攻擊呢? cAI 系統建立在訓練數據代表未來數據的假設之上,即輸入數據是獨立同分布 (IID)。除非任務空間非常有限,否則 IID 假設 [47] 遲早會被違反,這意味著模型缺乏魯棒性。因此,模型在隨機輸入數據損壞(含噪的輸入數據分布)和特制的對抗性示例方面缺乏魯棒性是同一潛在現象的兩種表現形式 [48]。模型越復雜,出現的漏洞就越多,攻擊者就越容易和更快地找到對抗樣本。直觀地說,這可以通過以下事實來解釋:系統的輸入和狀態空間維度越大,從合法輸入到惡意輸入區域的路徑越短,攻擊者可能會利用這些路徑。此外,為了使魯棒性訓練適用于復雜的 cAI 系統,它需要大量適當的訓練數據,即隨著 cAI 系統的大小,防御變得越來越資源密集。解決這個問題的一種策略是從風險角度考慮,對于每種類型的攻擊,它發生的可能性被認為是決定單獨應該分配多少資源來防御它。
DNN 等 AI 模型需要大量數據進行訓練和測試,才能獲得良好的性能。出于這個原因,通常的做法是從多個來源收集數據而不執行高質量標準。事實上,從業者普遍認為,低質量的數據可能沒有什么價值,但不會顯著影響模型的性能。然而,大量研究結果表明,這種假設是不正確的。由于當前的 AI 模型本質上是純相關提取器,因此數據集的問題會導致它們以意想不到的方式表現。
后門投毒攻擊和 DoS 投毒攻擊 [49; 50] 有針對性地損壞部分訓練數據。一方面,DoS 中毒攻擊旨在通過插入錯誤的數據點來改變其決策邊界 [49],從而降低模型的泛化能力。雖然這些攻擊在經典 ML 方法中構成了一個大問題,但它們不會以相同的規模影響 DNN,并且通常可以很容易地檢測到 [51]。另一方面,后門中毒攻擊只會降低某些輸入的模型準確性[50]。為此,攻擊者通過添加特殊的觸發模式小心地操縱部分訓練數據,使他們能夠在推理過程中完全控制這些輸入上的模型行為。就經典的 IT 安全目標而言,DoS 中毒攻擊影響模型的可用性,而后門中毒攻擊則針對其完整性。此類攻擊的基本思想在于植入虛假的相關性,然后模型將其用于決策。例如,這通常涉及在分類任務中更改標簽。然而,更微妙的、所謂的標簽似是而非的攻擊可以避免這些相當明顯的變化[52]。
之后很難檢測到對 DNN 的后門攻擊。這既是因為模型只做它們應該做的事情,即學習相關性,也因為它們表現出缺乏人類可解釋性。發現后門攻擊的方法依賴于對模型學習的異常值的檢測[53]。這不適用于數據集本身,而是必須使用內部模型表示 [50; 54; 55],可能與 XAI 方法結合使用(參見第 2.6 節)。然而,現有的緩解技術并不完美,也可能沒有自動解決方案,因為可能需要人類先驗知識來正確區分損壞和良性數據點 [56]。
除了有針對性的攻擊之外,數據集可能包含虛假的相關性,這可能會以類似的方式影響模型,盡管針對性較低。這些相關性可能源于數據選擇以及預處理和訓練管道中的偏差。例如,在醫學圖像識別的各種任務中已經發現了這些問題 [57]。
解決這些問題需要消除訓練數據中的虛假相關性。 XAI 方法可能有助于做到這一點,以及在訓練期間隨機化管道偽影的技術。除了 AI 級別的技術措施外,還需要更通用的緩解技術來解決意外的虛假相關性,尤其是阻止后門攻擊。特別是,這包括在模型的整個生命周期內保護模型的完整性,并在訓練階段使用技術和組織措施來改變環境條件,例如對開發人員進行安全檢查以及限制對數據存儲和開發機器的訪問,使其攻擊者更難成功 [58]。
在最近,為了保護深度神經網絡免受攻擊[59]或檢測此類攻擊[60],已經提出了大量的方法。然而,事實證明,檢測對抗性攻擊并可靠地防御它們是非常困難的,因為已經證明自適應攻擊者可以繞過大多數提出的防御,與僅應用最強防御的系統相比,即使是并行應用的多個防御也可能并不總能增加對抗性的魯棒性[61-63]。盡管如此,防御可以增加攻擊者發起成功攻擊的努力。此外,最近關于對抗性攻擊的可驗證檢測的工作很有希望,因為它保證了對某些自適應攻擊者的魯棒性[64]。
許多防御方法的一個重要缺點是它們會顯著影響模型在良性輸入上的性能。出于這個原因,評估防御方法的合適指標應該同時考慮模型對 a) 良性輸入和 b) 對抗性輸入的性能。
在防御對抗性攻擊時,總是需要考慮 AI 系統的環境條件。例如,如果攻擊者只能將攻擊應用于物理世界而不能應用于數字領域(例如,在攻擊計算機視覺系統時,攻擊需要在不同視角、旋轉或類似變換下具有魯棒性),成功的標準攻擊要高很多。此外,需要牢記的是,這樣一個系統的魯棒性不僅取決于其 AI 相關部分的魯棒性,還取決于其他組件,例如 cIT,這既可以增加也可以降低系統的魯棒性和也構成了額外的攻擊目標。例如,可以通過包含基于非 cAI 技術的冗余方法來提高系統的魯棒性,該方法充當完整性檢查,或者通過 cIT 查詢限制對 cAI 組件的限制來阻礙對抗性示例的制作。
對抗性攻擊最有希望的防御方法之一是對抗性訓練 [59],其中對抗性示例被包含在訓練階段,以增加這種系統的對抗性魯棒性。這種方法的一個缺點是它會顯著影響訓練運行時間,尤其是在包含使用強攻擊構造的示例時。對抗性訓練只會賦予訓練期間出現的攻擊魯棒性,因此,如果出于性能原因只考慮弱攻擊,系統將仍然容易受到更強攻擊。因此,有必要提高對抗訓練的效率,特別是通過在訓練期間創建強大的對抗樣本的過程,如共享對抗訓練 [65] 和元對抗訓練 [66] 以及訓練策略的其他擴展是有希望的(參見例如 [67])。
對抗性訓練的另一個缺點是它沒有對模型的魯棒性提供任何正式的保證。因此,不能正式證明不存在繞過這種防御的攻擊。這個問題可能會在威脅模型(例如對抗性補丁 [68])中通過經過認證的防御(例如[69] 和 [70],這可以證明補丁威脅模型對對抗性攻擊的魯棒性。然而,對于其他威脅模型,這種經過認證的防御將嚴重影響模型在良性輸入上的性能。此外,其中一些防御措施對模型的架構施加了限制。
針對對抗性攻擊的其他類別的防御通常容易被攻擊者規避,并且根據用例和邊界條件,可能會產生錯誤的安全感。這是例如梯度混淆[71]的情況,一種梯度掩蔽,應該使攻擊優化步驟更難。
在防御后門攻擊方面,主要問題源于 AI 模型沒有其目標領域的先驗知識,而是從(可能是惡意的)訓練數據中學習這些知識。防御此類攻擊的一種有前途的方法是通過查看使用該數據訓練的深度神經網絡的內部工作原理來檢測惡意數據 [54],并識別網絡行為與同一類別的其他數據樣本不同的樣本。這可能表明與正常數據樣本相比,網絡使用不同的特征來進行預測。到目前為止,這種方法只適用于部分情況。為了解決模型缺失先驗的問題,可能有必要通過人類專家知識在也使用 XAI 方法的交互式過程中包含此先驗。
人工智能系統的驗證領域涉及在存在一系列輸入擾動的情況下證明不存在意外的輸出行為,這可能是由于自然變化或攻擊者故意引起的。因此,驗證可用于推理 AI 系統的安全性。然而,嚴格的證明面臨著重大障礙。由于輸入空間很大,要考慮的擾動數量可能是無限的,這使得蠻力方法不可行。此外,用于檢查邏輯約束的標準求解器(例如 SMT,[72;73])由于其非線性而不能很好地擴展到 DNN,盡管它們在某種程度上可能有用。
解決這些問題的一個突出方法是基于抽象解釋技術,該技術已廣泛用于自動推理多年 [74]。它的主要思想是以有界的、有限的方式表示可能無限數量的狀態,這允許將其存儲在內存中并執行符號計算。
更準確地說,抽象解釋可以通過符號約束對所有可能的輸入擾動進行編碼來應用于 DNN,例如產生多面體。隨后,可以計算網絡層對該多面體的抽象影響。生成的形狀對與輸入集對應的所有可能輸出進行編碼,并可用于檢查要驗證的保證。在實踐中,為了使計算可行,編碼輸入的符號約束是真實數據流形的近似值(凸松弛)。因此,在近似精度和計算復雜度之間存在權衡。
迄今為止開發的驗證技術有幾個缺點,因此需要提出以下改進建議:
1.驗證主要針對輸入向量的每個元素在給定范圍內的隨機變化進行,直到最近才有幾何擾動(例如旋轉、平移)研究。這個范圍需要擴展到更多的語義擾動。
2.使用的松弛需要改進,以在精度和復雜性之間取得更好的平衡。在擴展擾動和任務集時,可能需要自定義松弛。
3.這些技術主要應用于前饋神經網絡的分類任務,需要泛化以涵蓋其他模型類型(例如 RNN)和其他任務(例如分割)。
4.最大的問題是方法的可擴展性。如果一個目標是提供 100% 的確定性保證,那么這些技術僅適用于中小型網絡(就 ReLU 單元的數量而言),與實踐中使用的大規模網絡相去甚遠。
為了從這些技術的全部潛力中受益,它們還可以用于事后驗證。特別是,一種稱為可認證訓練的方法 [75] 將它們與訓練相結合,以獲得可認證的防御。這也有助于解決該技術的可擴展性問題,因為新的網絡架構可以通過認證。
還表明,對抗性訓練有助于驗證,對抗性訓練和可認證訓練可以相關,并且主要在它們用于提高模型穩健性的信息上有所不同。最近的研究提出了一種將這兩種方法結合起來的方法 [76; 77]。
安全關鍵型人工智能系統是其決策受人工智能子系統影響的系統,其故障可能導致以下結果:人員死亡或嚴重傷害、設備或財產損失或嚴重損壞以及環境危害。例如,安全關鍵系統可以在航空、核能、汽車和鐵路、醫療和自主系統領域找到。對于這些系統,有必要證明它們滿足所需的要求,例如某些可預測的魯棒性和可靠性,并且它們的保證通常依賴于基于標準的證明。不幸的是,對于基于 ML 的系統,這是一個嚴重的問題:缺乏針對此類新技術的經過驗證的標準、政策和指導,例如諸如 IEC 61508 [17] 等安全規范性軟件標準并不完全適用于 AI 系統。
與無法應用現有方法的其他系統一樣,基于論證的方法(使用正式的結構化論證來證明某些特定聲明的正當性)可用作 AI 系統保證的結構化方式 [78; 79]。基于論證的方法的主要優點是在如何證明安全聲明方面具有相當大的靈活性。在確定未知領域的差距和挑戰時,這種靈活的方法是必要的。其中一種方法是 CAE(聲明、論證、證據)框架,它基于應用的自然語言演繹方法。 CAE 框架由三個部分組成:
聲明是為獲得普遍接受而提出的聲明(例如,關于系統安全/安全的聲明)。
將證據與主張聯系起來的論點。
作為索賠理由的證據。例如,證據的來源可以包括開發過程、先前的經驗、測試和正式的方法。
使用 CAE 框架,可以使用經典的和 AI 特定的方法以結構化的方式檢查給定的聲明。例如,經典的軟件分析方法對于分析實現 AI 系統的軟件代碼是必要的。另一方面,當涉及到與人工智能相關的定性方面時,例如對抗性攻擊,經典方法無法應用。通過使用反訴和確認理論 [78],CAE 可以進一步擴展到包括基于論證的方法的一個有希望的變體,可廢止推理 [80]。它通過提示評估人員反復詢問為什么某物可能不安全的問題而不是僅僅尋找支持證據來減少確認偏差的可能性。
對于某些 AI 系統關鍵屬性,例如系統的魯棒性,缺少明確的正式定義作為任何形式驗證的先決條件。 CAE 可能有助于澄清這個開放的研究問題并努力定義這些屬性。
可以以某種方式證明,人工智能系統最常見的形式屬性是逐點魯棒性。然而,這個屬性的一個主要限制源于它并不暗示系統魯棒性屬性:逐點魯棒性僅證明特定數據樣本的給定屬性,但為了顯示系統魯棒性,有必要證明這一點對于所有未來的輸入,這在大多數使用 AI 系統的實際應用中是不可行的 [72]。
因此,目前無法在形式驗證級別上對 AI 系統進行全面審計。然而,靜態分析工具可用于防止錯誤從訓練代碼傳播到 ML 算法中,并有助于為系統的安全性提供基線。現有的 AI 審計良好實踐包括 [81-84]。
復雜的 AI 模型,例如深度神經網絡 (DNN),通過在大型數據集上進行訓練來學習功能(參見第 2.1 節)。這些模型的內部工作原理以數學方式對學習的函數進行編碼,通常不適合人類解釋[85]。然而,出于多種原因,能夠解釋AI 模型的決策可能很重要。這些原因包括發現模型(以及實施它的硬件/軟件平臺)的錯誤、弱點和限制,這可能有助于提高其性能和對攻擊的魯棒性,以及滿足透明度要求,例如由歐盟通用數據保護條例,并從科學和經濟中的大型數據集中獲得新的見解。因此,需要新的方法來解釋復雜的人工智能模型,如神經網絡。相應的研究領域稱為 XAI(可解釋 AI)[86; 87]。
文獻中提出了各種解釋方法,以提供對 AI 模型不同方面的見解。一類方法旨在對模型進行全局解釋,例如,通過構建最大激活輸入 [88] 或通過研究單個神經元在深度神經網絡中的作用來分析編碼函數的極值點 [89]。雖然這些解釋確實提供了關于模型及其學習表示的有價值的信息,但它們對于理解個體預測幾乎沒有用處,即識別對模型決策產生積極或消極影響的輸入特征。本地 XAI 方法通過將相關性分數歸因于輸入特征來填補這一空白。存在不同的方法,大致可分為三類:
1.基于擾動的方法在對輸入數據應用擾動后評估模型輸出,并從發生的變化中得出解釋。這些擾動可以是無窮小的(例如,梯度)或相當粗糙的[90],此外,它們可以表示為優化問題[91]。盡管應用起來很簡單,但這些方法有幾個缺點,例如在計算方面的要求很高(梯度不是這種情況),因為必須對模型輸出進行大量評估,并且可靠性有限,因為結果是對應用的擾動高度敏感(例如,擾動輸入可能不在輸入流形或梯度破碎問題上[92])。
2.基于智能體的方法(例如 LIME,[93])查詢相關模型以獲取大量輸入,并通過本質上可解釋的更簡單模型對其進行近似。然后可以推斷出對原始模型行為的解釋。這種方法帶來的問題是,一方面,解釋對輸入查詢的采樣方式和更簡單模型的擬合方式的依賴性,另一方面,查詢原始模型的計算工作量次數。
3.基于結構的方法(例如 LRP,[94])使用網絡的內部結構來傳播從輸出到輸入數據的網絡層之間相關性的信息。這些方法的主要特定缺點是它們需要訪問模型的內部結構,因此與模型無關。然而,它們的計算強度遠低于其他方法,并且它們提供的解釋在一系列標準下得分更高(參見 [95])。
為了更全面地了解模型實施的預測策略,可以聚合或聚類多個局部解釋[96]。其他方法作用于潛在空間而不是輸入特征,從而提供更高級概念的解釋,例如顏色、形狀和物體部分 [97]。
其中一些解釋方法,例如LRP 已被用于發現大型圖像數據集中的意外偏差。例如,他們揭開了所謂的 Clever Hans 分類器 [98] 的面紗,即(看似)做出正確決策但出于錯誤原因的模型,基于版權標簽識別馬匹或基于存在的肺炎 X 射線“便攜”標簽。在更一般的情況下,這種方法可用于檢測數據中的偏差并提高模型的泛化能力。
最近,XAI 方法已應用于 DNN 之外的其他模型結構,也用于可視化之外的目的(例如網絡修剪)。然而,要充分利用 XAI 的全部潛力來幫助研究人員獲得魯棒且值得信賴的模型,仍然存在許多挑戰。限制 XAI 在許多應用程序中的優勢的一個因素是,如果輸入特征本身不容易被人類解釋,則會出現解釋差距。上述解釋方法的另一個懸而未決的問題是,它們并非專門設計用于揭示多個輸入區域之間可能存在的相互作用,例如回答圖像中多個區域中的哪些像素組合有助于特定決策。最后,還不清楚如何在沒有人工干預的情況下將 XAI 最佳地集成到模型訓練中(例如,集成到損失函數中)以改進模型。
標準是描述人工智能系統統一技術要求和支持法律框架實施的一種行之有效的方法。它們還促進了人工智能創新的市場準入,并為人工智能系統營銷人員提供了一個用于人工智能系統開發和運營的清晰框架。例如,在德國,DIN 和 DKE 是主要的標準化機構,在 CEN、CENELEC 和 ETSI 等標準化組織中代表歐盟層面的國家利益,在 ISO、IEC 和 ITU 等組織中代表國際層面的國家利益。
關于本白皮書中討論的測試和審計人工智能系統的主題,出現了哪些人工智能質量標準需要獨立測試以及需要為此類測試程序本身開發哪些標準的問題。為了解決這種缺乏標準的問題,例如,在德國,以“Normungsroadmap KI”[99] 的形式提出了對人工智能領域現狀以及對標準和規范的需求的綜合分析。應該通過標準化解決的最重要的質量維度如圖 3 所示。
圖 3:將 AI 質量標準的類別分類到合規性測試中
表 1:本白皮書涵蓋的選定主題的人工智能領域的新興標準。有關更完整的概述,請參閱[99] 和 [117]。
然而,很明顯,技術測試(“產品測試”)領域仍有相當大的發展需求,特別是在神經網絡的驗證、安全關鍵系統的可靠安全論據以及進行這些測試的工具。因此,廣泛的標準化活動將在未來幾年繼續進行。德國項目“KI-Absicherung”[118]代表了如何解決自動駕駛主題的這種需求的一個突出例子。它由一個由研究機構、汽車制造商、供應商、標準化組織和相關公共機構(如德國 BSI)組成的聯盟管理,并正在就高度自動化的基于 AI 模塊的安全性驗證策略制定行業共識。
預計未來一段時間內將通過更多類似的燈塔項目和試點,出現更多的技術測試程序,并解決相應的標準化需求。
至少對于與安全相關的 cAI 應用程序,需要實現足夠水平的穩魯棒、安全性和可審計性,并且需要制定相應的技術指南和標準。當回顧該領域的最新技術時(參見白皮書的前幾節),很明顯,一方面,許多懸而未決的問題仍然存在,但另一方面,存在許多有希望的方案和方法解決或減少這些問題的影響。此后,將根據對 cAI 生命周期的修改描述來總結未解決的問題和有希望的方法(參見圖 4):
圖 4:cAI 生命周期(參見圖 2),重點關注可審計性、IT 安全性背景下的開放性問題。
cAI 生命周期通常嵌入在整個系統生命周期中,根據具體的用例,包括多個 cIT 和 sAI 系統以及硬件設備,例如傳感器和執行器。從這個角度來看,在復雜且不斷變化的環境(漂移)中自主運行的機器永遠不會完全和最終確定,因此,不確定性和錯誤風險仍然存在。處理嵌入式 cAI 生命周期風險評估的第一種方法來自功能安全領域([119; 120],參見第 2.1 和 2.7 節)。為了定義分析、驗證人工智能系統的合適方法,首先有必要識別和理解它們的預期用途、任務和它們運行的??環境。每個特定用例都具有許多基本屬性,這些屬性用戶或監管機構期望作為系統的基本特征來實施,例如:魯棒性、安全性。在大多數情況下,任務和環境的正式定義和相關指標缺失或不完整。這有幾個不良后果,例如可接受的風險必須考慮受影響用戶的看法和意見。反過來,用戶和開發人員需要在相互之間的教育、培訓和溝通方面擁有堅實的基礎,以便在使用特定AI模型、ML算法、數據集和分析方法以及針對特定用例的進一步邊界條件方面做出明智的決定。
一個首要的開放問題是(通常是多方面的)系統所需特性之間的權衡,例如魯棒性、安全性和可審計性,一方面是人工智能模型、機器學習算法、數據和邊界條件的特征,例如模型復雜性、任務空間、可塑性、成本和性能。這些權衡限制了當前 AI 系統的可擴展性和通用性。舉個例子:1.增加模型復雜性,例如可能會對可解釋性和防御產生負面影響; 2. 增加任務空間大小會導致需要更大的訓練和測試數據集,這將使驗證變得復雜,并且更難滿足 IID 要求,而 IID 要求是訓練魯棒 AI 系統的重要先決條件; 3.加強防御往往會導致性能下降; 4. 在存在漂移的情況下保持 AI 系統的不變特性需要頻繁的重新訓練和測試,因此會增加成本; 5. 白盒模型和生命周期訪問以提高可審計性與知識產權利益的沖突; 6. 使用外部數據集和預訓練模型降低了成本,但會帶來新的漏洞,特別是對于難以檢測的后門攻擊。
研究已經提出了許多有前途的方法來解決多個層面的開放問題,例如。 1. 通過使用遷移和少樣本學習,重新訓練更加高效的系統,并且通過使用非參數和集成方法,考慮到調整元參數的需要。因此,至少對于低復雜度的模型,可塑性和穩定性可以很好地平衡; 2. 針對考慮自然和對抗性輸入性能的適當指標優化防御方法,有助于減少采用強防御方法時通常的性能下降; 3. 共享和元對抗訓練降低了處理普遍擾動的成本; 4. 盡管任務空間很大,但系統地使用合成和/或增強數據和模擬可以識別故障模式并強化人工智能系統; 5.在一定程度上抽象解釋和可證明訓練允許驗證具有更大任務空間的人工智能系統; 6. CAE 和可廢止推理等基于論證的方法允許在現有方法無法應用的情況下審計 AI 系統; 7. 利用人類先驗可以提高人工智能系統的可解釋性,并通過混合模型使人工智能系統更加健壯; 8. 通過使用解釋方法檢測數據集中的異常值、拒絕訓練期間的負面影響和相關方法(RONI,[121])或使用 bagging 集成 [122],通過數據清理來防御后門攻擊; 9. 如果白盒訪問不可行,替代模型和替代數據集至少在某些情況下可用于提高審計質量,例如產生高質量的攻擊情況下; 10. 加密方法和信任鏈可用于確保供應鏈中數據和模型的完整性。此外,可以使用這些方法的組合。
盡管有所有這些和其他有前途的方法,但必須牢記,未來任務、模型和數據集的復雜性很可能會增加,需要更強大的方法。
迄今為止,還沒有一套普遍適用的標準和工具可用于保護 AI 系統,從而可以通過嚴格的方式證明足夠低的錯誤概率。本白皮書認為,存在兩種通用策略來獲得可審計、安全和安全的 AI 系統(參見圖 5):
圖 5:在嘗試達到可接受的 IT 安全性、審計質量、魯棒性和可驗證性水平時必須考慮的多方面權衡。可實現的水平取決于多個邊界條件,例如任務復雜性和模型復雜性。對于給定的邊界條件,通過研發的技術進步可能允許例如實現更高的 IT 安全級別和/或改進的可審計性,但到目前為止,這僅在有限的范圍內起作用。
1.為給定任務創建有利的邊界條件:對開發人員和用戶進行適當的培訓以及雙方之間充分的信息交流,可以明確定義任務和可接受的邊界條件。如果將 AI 系統嵌入更大的 IT 和/或機器人系統,這構成了在 AI 系統的開發過程以及部署和操運行期間進行明智選擇的基礎。在極端情況下,開發人員或用戶可能會得出結論,必須針對特定用例完全禁止使用 AI 技術,例如:出于安全考慮。否則,根據用例,限制任務空間和限制 AI 模型的復雜性可能會帶來更好的可審計性和更安全的 AI 系統 [123]。此外,多種技術和組織措施的結合,以及根據知識產權考慮,在整個生命周期內對 cAI 模型和數據進行白盒訪問以進行評估,很可能會提高可審計性并有助于安全性。
2.投資研發以推進可用技術,最終在復雜的邊界條件下實現安全可靠的人工智能系統,從而提高可擴展性和通用性。示例包括:a) 在 AI 系統的所有安全相關方面制定適當的指標。它們有助于最大限度地減少權衡的影響,例如性能和防御強度之間的權衡; b) 結合魯棒的模型和檢測算法,在保持高性能的同時拒絕可能的惡意輸入; c)通過例如包含人類先驗混合模型以提高可解釋性; d) 高效生成大量高質量攻擊,作為開發對抗性訓練等有效防御方法的基礎; e) 生成大量高質量的真實合成數據,為 IID 數據集做出貢獻,作為訓練魯棒 AI 系統的基礎; f) 真實模擬與真實世界評估的結合,以及 g) 使用多個冗余但質量不同的系統,例如cAI、cIT 和 sAI 系統的組合。
應高度重視這兩種策略,同時在第一步中,重點關注選定的安全關鍵用例。應利用可用的標準、指南和工具(參見本白皮書的其余部分),并應進一步促進研究人員和行業之間的跨學科交流 [124] 以找到可用標準和工具的最佳組合,以實現可審計、安全和針對特定用例的強大人工智能系統。必須根據它們在各自用例中的實際利益和可行性來評估這些標準和工具。然后,在第二步中,應該使用來自這些用例的見解來概括結果并構建一個模塊化工具箱,該工具箱隨后可以應用于其他用例。在此基礎上,首先應制定技術指南和隨后的標準。在理想情況下,結果將是一套普遍適用的標準和工具,使人工智能系統具有足夠的可審計性、安全性和可靠性。
我們要感謝 Aleksander M?dry(麻省理工學院)的精彩演講以及整個研討會期間的重要評論和推動。我們還要感謝在研討會之前、期間和之后為討論做出貢獻的所有研討會參與者。我們還要感謝 VdTüV 的 Maria Sürig 和弗勞恩霍夫 HHI CINQ 中心的 Jennifer Chyla 為研討會的組織做出的重要貢獻。
如今,隨著技術飛速發展和威脅環境變得更加復雜,在信息爆炸的局面下,作戰人員面臨著具有挑戰性的決策空間。人工智能(AI)和機器學習(ML)可以減輕作戰人員負荷。人工智能系統具有深遠的好處——提高態勢感知能力,檢測威脅,理解對手的能力和意圖;確定和評估可能的戰術行動方針;并提供方法來預測行動決策的結果和影響。人工智能系統是理解和解決高度復雜的戰術情況的關鍵。
人工智能系統為作戰人員提供了優勢,但前提是這些系統被正確設計和實施,并且以減輕作戰人員的認知負荷的方式。為國防應用實施人工智能系統帶來了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。本文通過國防采辦和系統工程計劃,為解決這些獨特的挑戰提供了解決方案。
Bonnie Johnson——在海軍工程研發方面擁有超過 25 年的領導和系統工程經驗。她曾是 SAIC 和諾斯羅普·格魯曼公司的高級系統工程師,研究用于海戰系統和導彈防御能力的自動決策輔助。她于 2011 年加入美國海軍研究生院 (NPS) 系統工程系。她擁有 NPS 系統工程博士學位、約翰霍普金斯大學系統工程碩士學位和弗吉尼亞理工大學物理學學士學位。
人工智能是一個包含許多不同方法的領域,其目標是創造具有智能的機器(Mitchell,2019)。圖 1 顯示了一個簡單的維恩圖,其中機器學習 (ML) 作為 AI 的子集,而 AI 作為更廣泛的自動化類別的子集。自動化系統以最少的人工輸入運行,并且經常根據命令和規則執行重復性任務。人工智能系統執行模仿人類智能的功能。他們將從過去的經驗中學到的知識與收到的新信息結合起來,以做出決策并得出結論。
圖 1. 自動化、人工智能和機器學習的維恩圖
如圖 2 所示,有兩種主要類型的 AI 系統。第一種類型是明確編程的,也稱為手工知識系統。 Allen (2020) 將手工知識系統描述為“使用傳統的、基于規則的軟件,將人類專家的主題知識編碼為一長串編程的‘如果給定 x 輸入,則提供 y 輸出’規則的人工智能”(第3頁)。這些系統使用傳統的或普通的編程語言。第二種類型是從大量數據集訓練而來的機器學習系統。 ML 系統從訓練過的數據集中“學習”,然后在操作上使用“訓練過的”系統在給定新的操作數據的情況下產生預測結果。
圖 2. 兩種類型的人工智能:顯式編程和學習系統
自動化、人工智能和機器學習系統,包括手工知識系統和學習系統,為美國國防部 (DoD) 提供了巨大的潛力,在大多數任務領域具有多種應用。這些智能系統可以擴展國防部理解復雜和不確定情況、制定和權衡選項、預測行動成功和評估后果的能力。它們提供了在戰略、規劃和戰術領域支持國防部的潛力。人工智能系統可以減輕作戰人員的負擔,但前提是這些系統的設計和實施正確,并且以減輕作戰人員認知負擔的方式。這為國防應用實施人工智能系統提出了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。
第一個為國防應用實施人工智能系統的獨特挑戰是戰術戰爭呈現高度復雜的情況。戰術復雜性可能涉及信息超載、需要處理的多個并發任務、具有可怕后果的時間關鍵決策、態勢感知的未知/不準確/不完整,以及因各種分布式戰爭能力所需的互操作性而產生的工程挑戰。將人工智能系統添加到這個已經很復雜的環境中是一項必要但極具挑戰性的工作。
第二個獨特的挑戰是人工智能系統需要大量數據來訓練。所開發的人工智能系統的質量很大程度上取決于訓練數據集的質量和數量。軍事領域的數據尤其難以獲得。軍事數據可能涉及分類問題、網絡漏洞、數據驗證挑戰,并且根據艦隊演習和兵棋推演的需要,收集起來可能非常昂貴且耗時。
第三個獨特的挑戰是人工智能系統為系統工程提出了一個新的前沿。在傳統系統中,行為是固定的,因此是可預測的:給定輸入和條件,系統將產生可預測的輸出。一些人工智能解決方案可能涉及本身就很復雜的系統——適應和學習——因此會產生無法預料的輸出和行為。事實上,一些人工智能系統的目的就是為了做到這一點——與人類決策者合作,承擔一些認知負荷并產生智能建議。需要系統工程方法來設計智能系統,并確保它們對人類操作員來說是可解釋的、可信賴的和安全的。
第四個獨特的挑戰是,對于國防應用,總是需要考慮潛在的對手。在人工智能系統方面,采購界必須注意同行競爭對手國家,他們在人工智能進步方面取得了自己的進步。美國國防系統也必須在這場人工智能競賽中取得進步。網絡攻擊在防御系統中總是有可能發生的。隨著防御能力增加對自動化和人工智能系統的依賴,這可能會造成更多的網絡漏洞。最后,技術正在迅速發展,對抗性威脅空間正在發生變化。國防采購和系統工程界必須確保人工智能系統不斷發展和適應,以應對威脅環境的變化,并以可信賴和安全的方式做到這一點。
第一個獨特的挑戰是許多防御領域呈現出復雜的決策空間。因此,設計和實施適當的人工智能系統來解決這種復雜性將是極具挑戰性的。圖 3 突出顯示了導致戰術領域決策復雜性的許多因素。例如,海軍打擊部隊的行動可以迅速從和平狀態轉變為一種巨大的危險——需要對威脅保持警惕并采取適當的反應行動——所有這些都在高度壓縮的決策時間線上。戰術威脅可能來自水下、水面、空中、陸地、太空,甚至是虛擬的,因此需要處理多個時間緊迫的任務。在船舶、潛艇、飛機、陸地和太空中擁有海軍和國防資產;戰術決策空間必須解決這些分散和多樣化資源的最佳協作使用問題。制定有效的戰術行動方案也必須發生在高度動態的作戰環境中,只有部分和不確定的態勢知識。決策空間還必須考慮指揮權、交戰規則和戰術條令施加的限制。人類作為戰術決策者的角色增加了決策空間的復雜性——面臨信息過載、操作員錯誤、人工智能信任以及人工智能模糊性和可解釋性問題等挑戰。最后,戰術決策及其可能后果的風險可能非常高。
圖 3. 導致戰術決策空間復雜性的因素
解決高度復雜的決策空間是美國國防部面臨的挑戰。人工智能提供了解決這種復雜性的潛在解決方案——通過處理大量數據、處理不確定性、理解復雜情況、開發和評估決策替代方案以及了解風險水平和決策后果。人工智能解決方案可以應用于國防部的戰略、規劃和戰術層面。海軍研究生院 (NPS) 開發了一種工程框架和理論,用于解決高度復雜的問題空間,這些問題空間需要使用智能和分布式 AI 系統來獲得態勢感知并做出適應動態情況的協作行動決策(Johnson, 2019)。模擬了一個復雜的戰術場景,以演示使用 AI 來驗證該方法(Johnson,2020a)。 NPS 已經開發了一種預測分析能力的概念設計,該設計將被實施為一個自動化的實時戰爭游戲系統,該系統探索不同的可能戰術行動方案及其預測效果和紅軍反應(Johnson,2020b)。 NPS 研究已經確定了在戰術行動中描述復雜性水平的必要性,并實施自適應人機協作安排以做出戰術決策,其中自動化水平根據情境復雜性水平進行調整。正在進行的 NPS 研究正在研究這些概念工程方法在各種防御用例應用中的應用,包括防空和導彈防御、超視距打擊、船舶自衛、無人機操作和激光武器系統。
復雜的決策空間為 AI 系統嘗試和解決創造了具有挑戰性的問題。表 1 根據決策空間的復雜性比較了不同的 AI 應用領域。該表包含 10 個表征決策空間復雜性的因素:認知不確定性(對情境知識的不確定性數量)、情境動態、決策時間線(做出決策的時間量)、決策的復雜性決策過程中的人機交互、資源復雜性(數量、類型、它們之間的距離以及它們的動態程度)、是否涉及多個任務、對手(競爭對手、黑客或打算摧毀的徹底敵人)的存在,允許誤差的幅度(多少決策錯誤是可以接受的),以及決策后果的嚴重性。
表 1. 不同 AI 應用的決策復雜度比較
人工智能應用程序涉及的決策空間用于廣告(根據特定用戶的購買習慣或互聯網搜索確定將哪些廣告流式傳輸)、貸款批準(根據貸款金額和信用評分確定貸款資格)和醫療(根據診斷確定關于患者癥狀)相對簡單。存在大量訓練數據,決策過程中的計算和人為交互簡單,情況相對穩定。不良廣告的后果是微乎其微的。可以審計不良貸款批準決定。糟糕的醫學診斷可能會產生更嚴重的后果,但通常有足夠的時間在治療前尋求更多的評估和意見。為自動駕駛汽車確定最佳運輸路線和工程 AI 系統是更復雜的工作。這些應用程序是動態變化的,需要更短的時間來做出決策。運輸路線在可能路線的數量上會很復雜——這可能會導致許多可能的選擇。但是,存在運輸錯誤的空間,并且后果通常不會太嚴重。對于自動駕駛汽車來說,決策錯誤的余地非常小。此應用程序中的錯誤決定可能導致嚴重事故。
然而,軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識/意識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴和困難- 獲取訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。
第二個獨特的挑戰是 AI/ML 系統需要大量相關且高質量的數據用于訓練和開發,而這些數據在軍事領域可能很難獲得。明確編程的手工知識系統在開發過程中需要數據進行評估和驗證。 ML 系統在開發過程中對數據的依賴性更大。如圖 4 所示,ML 系統從代表操作條件和事件的數據集中“學習”。 ML系統學習的過程也稱為被訓練,開發階段使用的數據稱為訓練數據集。有幾種類型的 ML 學習或訓練——它們是有監督的、無監督的和強化的。所有三種類型的 ML 學習都需要訓練數據集。 ML 系統在部署后或運營階段繼續需要數據。圖 4 顯示,在運營期間,ML 系統或“模型”接收運營實時數據,并通過使用其“訓練過的”算法處理運營數據來確定預測或決策結果。因此,在整個系統工程和采集生命周期中,ML 系統與數據密切相關。 ML 系統從訓練數據集的學習過程中“出現”。機器學習系統是數據質量、充分性和代表性的產物。他們完全依賴于他們的訓練數據集。
圖 4. 開發和實施機器學習系統
隨著許多領域(戰爭、供應鏈、安全、物流等)的更多 AI 開發人員正在了解 AI 解決方案的潛在優勢并開始著手 AI 系統開發,DoD 開始認識到對這些數據集的需求。在某些情況下,數據存在并準備好支持 AI 系統開發。在其他情況下,數據存在但不保存和存儲。最后,在其他情況下,數據不存在,需要模擬或在艦隊演習或戰爭游戲中收集。圖 5 說明了收集、獲取和在某些情況下開發用于開發和訓練 AI 和 ML 系統的數據時需要考慮的過程。
圖 5. 人工智能和機器學習系統訓練數據集的開發
軍事領域對開發訓練數據集提出了一些獨特的挑戰——數據可能被分類,數據可能存在網絡漏洞(它可能被攻擊并被對手故意破壞),如果數據不存在,它可能需要從軍事/艦隊演習或兵棋推演中獲得。數據驗證也是一項具有挑戰性的工作。
NPS 正在為海軍的數據管理系統執行需求分析和概念設計,該系統將收集數據并向海軍內部許多正在開發 AI/ML 系統的不同組織提供數據(French 等人,2021 年)。圖 6 是海軍中央人工智能庫 (CAIL) 的上下文圖,它被設想為一個數據管理系統和流程,用于識別數據集并提供索引、驗證、審計和對 AI 可以使用的數據的安全訪問。從事海軍應用的機器學習開發人員。 CAIL 將不是一個數據存儲庫或數據庫,而是一個中央組織,使 AI/ML 開發人員能夠訪問經過驗證和保護的海軍數據——以幫助識別數據集的存在,啟用授權訪問,并幫助支持開發人員所需的數據尚不存在,需要獲得——可能通過艦隊演習或兵棋推演。
圖 6. 概念性中央人工智能庫
第三個獨特的挑戰是開發人工智能系統為系統工程提出了一個新的前沿。系統工程方法已被開發用于設計可能非常復雜但也具有確定性的傳統系統(Calvano & John,2004)。傳統系統具有可預測的行為:對于給定的輸入和條件,它們將產生可預測的輸出。圖 7 說明了對傳統 SE 方法(如 SE Vee 過程)進行更改的必要性,以便設計復雜且不確定的 AI 系統。特別是,需要新的方法來定義隨時間適應的學習系統的要求,并且系統驗證過程可能需要在操作過程中不斷發展和繼續,以確保安全和期望的行為。對于具有高風險后果的軍事系統,幾乎沒有出錯的余地,因此需要實施一個可以確保 AI 系統安全和預期操作的系統工程流程。
圖7. 人工智能:系統工程的新前沿
國際系統工程師理事會 (INCOSE) 最近的一項倡議已經開始探索需要對系統工程方法進行哪些改變才能有效地開發人工智能系統。圖 8 是作為該計劃的一部分創建的,旨在強調在 SE 過程中需要考慮的 AI 系統的五個方面。除了不確定性和不斷發展的行為之外,人工智能系統可能會出現新類型的故障模式,這些故障模式可能會突然發生,并且可能難以辨別其根本原因。穩健的設計——或確保人工智能系統能夠處理和適應未來的場景——是另一個系統工程設計考慮因素。最后,對于涉及更多人機交互的 AI 系統,必須特別注意設計系統,使其值得信賴、可解釋并最終對人類決策者有用。
圖 8. 人工智能系統工程中的挑戰
NPS 正在研究可以支持復雜、自適應和智能 AI 系統的設計和開發的系統工程方法。已經開發了一個系統工程框架和方法來設計系統解決方案的復雜自適應系統(Johnson,2019)。該方法支持系統系統的開發,通過使用人工智能,可以協作以產生所需的緊急行為。當前的一個研究項目正在研究可以在設計過程中設計到 AI 系統中的安全措施,以確保操作期間的安全(Cruz 等人,2021 年)。 NPS 正在研究一種稱為元認知的設計解決方案,作為 AI 系統識別內部錯誤的一種方法(Johnson,2021 年)。當前的另一個 NPS 論文項目正在研究如何將“信任”設計到 AI 系統中,以確保有效的人機協作安排(Hui,2021)。幾個 NPS 項目研究使用稱為協同設計的 SE 設計方法,來確定人類操作員與 AI 系統之間的相互依賴關系(Blickley 等人,2021;Sanchez,2021)。
第四個獨特的挑戰是對手在防御應用中的存在和作用。國防部必須與對手競爭以提升人工智能能力,人工智能系統必須免受網絡攻擊,人工智能系統必須適應不斷變化的威脅環境演變。圖 9 突出顯示了對手的存在給國防部正在開發的 AI 系統帶來的一系列獨特挑戰。
圖9. 敵手的挑戰
競爭對手國家之間開發人工智能能力的競賽最終是為了進入對手的決策周期,以比對手更快的速度做出決定和采取行動(Rosenberg,2010 年)。人工智能系統提供了提高決策質量和速度的潛力,因此對于獲得決策優勢至關重要。隨著國防部探索人工智能解決方案,同行競爭對手國家也在做同樣的事情。最終,實現將 AI 用于 DoD 的目標不僅僅取決于 AI 研究。它需要適當的數據收集和管理、有效的系統工程和采集方法,以及仔細考慮人類與人工智能系統的交互。國防部必須確保它能夠應對實施人工智能系統所涉及的所有挑戰,才能贏得比賽。NPS 研究計劃正在研究如何應用 AI 和博弈論來進入對手的戰術決策周期(Johnson,2020b)。該項目正在開發一個概念,用于創建戰術態勢模型、對手的位置和能力,以及預測對手對形勢的了解。然后,概念系統將進行實時“兵棋推演”,根據預測的對抗反應和二階和三階效應分析戰術決策選項。這是一個研究未來戰術戰爭可能是什么樣子的一個例子,它為藍軍和紅軍提供了增強的知識和決策輔助。為 AI 競賽準備國防部的其他 NPS 舉措包括研究新的 SE 方法和獲取實踐以開發 AI 能力、研究海軍和國防部的數據管理需求(French 等人,2021 年)以及研究 AI 系統安全風險開發確保安全 AI 能力的工程實踐(Cruz 等人,2021 年;Johnson,2021 年)。
賽博戰是國防部必須成功參與的另一場競賽,以保持領先于黑客攻擊的持續攻擊。隨著國防部實施更多的自動化,它自然會導致更多的網絡漏洞。使用本質上依賴于訓練數據和操作數據的人工智能系統,為黑客在開發階段和操作階段用損壞的數據毒害系統提供了機會。如果對手控制了一個可操作的人工智能系統,他們可能造成的傷害將取決于應用程序領域。對于支持武器控制決策的自動化,后果可能是致命的。在最近一項關于汽車網絡安全的研究中,一家汽車公司在網上發布了一個假汽車電子控制單元,在不到 3 天的時間里,進行了 25,000 次違規嘗試(Taub,2021 年)。國防部必須注意人工智能系統開發過程中出現的特定網絡漏洞。必須為每個新的人工智能系統實施仔細的網絡風險分析和網絡防御策略。 NPS 正在研究數據安全要求,以確保 ML 訓練數據集不受黑客攻擊,并且需要安全授權才能訪問(French 等人,2021 年)。 NPS 正在研究使用元認知作為 AI 系統執行自我評估的一種方法,以識別網絡入侵、篡改或任何異常行為(Johnson,2020b)。 NPS 還在研究使用 ML 來識別惡意欺騙和篡改全球定位系統 (GPS; Kennedy, 2020)。
威脅環境的演變是國防部在開發人工智能系統時的第三次對抗性競賽。由于對抗性威脅空間隨著時間的推移而不斷變化,擁有更快、更致命的武器、更多的自主權、更大的監視資產、更先進的對抗措施和更多的隱身性,這對國防部能夠預測和識別新威脅并進行應對提出了挑戰戰場上的未知數。 NPS 研究的重點是在作戰過程中不斷適應和學習的工程系統,以檢測和識別戰場中的未知未知,并通過創新的行動方案快速響應新威脅(Grooms,2019;Jones 等人,2020;Wood,2019 )。 NPS 正在研究通過研究特定區域隨時間變化的數據來識別異常變化的機器學習方法(Zhao et al., 2016)。一個例子是研究商用飛機飛行模式并根據異常飛行模式識別可疑飛機。隨著時間的推移,可以監視地面行動,以識別可能意味著軍事行動的新的和不尋常的建設項目。
人工智能系統為國防部在實現和保持知識和決策優勢方面提供了重大進展。然而,為國防應用實施人工智能系統提出了獨特的挑戰。軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴且難以獲得訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。 AI 系統,尤其是 ML 系統,需要有代表性、足夠、安全和經過驗證的數據集來進行開發。為國防應用收集合適的數據具有處理分類數據集和確保數據安全和免受網絡攻擊的額外挑戰;這也將是收集代表戰術行動的真實數據的一項重大努力。將需要新的系統工程方法來有效地指定、設計和評估人工智能系統,這些系統通過其不確定性、新型人機協作挑戰以及難以預測和預防的新安全故障模式而呈現出新的復雜性.最后,軍事領域中對手的存在呈現出三種形式的 AI 競賽:與對手一樣快地開發 AI 系統的競賽、保持領先于可能的網絡攻擊的競賽以及訓練能夠應對的 AI/ML 系統的競賽隨著不斷發展的對抗性威脅空間。
NPS 正在通過一系列正在進行的研究計劃來解決四個獨特的挑戰領域。 NPS 研究人員正在研究人工智能系統在海軍戰術作戰領域的實施,對軍事數據集進行需求分析和需求開發,研究開發復雜人工智能系統的系統工程方法,以及開發安全、可信賴的人工智能系統工程方法,并注意潛在對手的作用。 NPS 正在為軍官和平民學生提供人工智能研究和教育機會。 NPS 歡迎與國防部和海軍組織合作,繼續研究用于國防應用的人工智能系統,并繼續探索解決方案戰略和方法,以克服開發和實施人工智能能力的挑戰。
機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。