人工智能(AI)的快速發展引發了專家、政策制定者和世界領導人對日益先進的人工智能系統可能帶來災難性風險的日益擔憂。雖然許多風險已被單獨詳述,但目前迫切需要對潛在危險進行系統的討論和說明,以便更好地為減輕這些危險提供信息。本文概述了人工智能災難性風險的主要來源,將其分為四類:惡意使用,即個人或團體故意使用人工智能造成傷害;人工智能競賽,即競爭環境迫使行為者部署不安全的人工智能或將控制權讓給人工智能;組織風險,強調人為因素和復雜系統如何增加災難性事故的幾率;流氓人工智能,描述控制遠比人類智能的代理固有的困難。對于每一類風險,我們都描述了具體的危害,介紹了說明性故事,設想了理想場景,并提出了減輕這些危險的實用建議。我們的目標是促進對這些風險的全面了解,并激發集體的積極努力,確保以安全的方式開發和部署人工智能。最終,我們希望這將使我們能夠實現這一強大技術的益處,同時將災難性后果的可能性降至最低。
圖:本文將介紹四類人工智能風險,并討論如何降低這些風險。
近年來,人工智能(AI)突飛猛進,引起了人工智能專家、政策制定者和世界領導人對先進人工智能所帶來的潛在風險的擔憂。與所有強大的技術一樣,人工智能必須以高度的責任感來管理風險,并利用其潛力來改善社會。然而,關于災難性或生存性的人工智能風險可能如何發生或如何應對,可獲得的信息非常有限。雖然有關這一主題的資料很多,但往往分散在各種論文中,而且通常針對的受眾面較窄,或側重于特定的風險。在本文中,我們將概述災難性人工智能風險的主要來源,并將其分為四類:
惡意使用。行為者可能故意利用強大的人工智能造成廣泛傷害。具體風險包括人工智能賦能的生物恐怖主義,它可以幫助人類制造致命的病原體;蓄意傳播不受控制的人工智能制劑;以及利用人工智能能力進行宣傳、審查和監視。為了降低這些風險,我們建議改善生物安全,限制獲取最危險的人工智能模型,并讓人工智能開發者為其人工智能系統造成的損害承擔法律責任。
人工智能競賽。競爭可能會迫使國家和企業匆忙開發人工智能,并將控制權拱手讓給人工智能系統。軍方可能會面臨開發自主武器的壓力,并將人工智能賦能的網絡戰,從而實現一種新的自動化戰爭,在這種戰爭中,事故可能會在人類有機會干預之前就失控。企業也將面臨類似的激勵,促使人類勞動自動化,并將利潤置于安全之上,從而可能導致大規模失業和對人工智能系統的依賴。我們還討論了從長遠來看,進化壓力可能會如何塑造人工智能。人工智能之間的自然選擇可能會導致自私的特性,而人工智能相對于人類的優勢最終可能導致人類被取代。為了降低人工智能競賽帶來的風險,建議對通用人工智能實施安全監管、國際協調和公共控制。
組織風險。組織事故造成的災難包括切爾諾貝利、三里島和挑戰者號航天飛機災難。同樣,開發和部署先進人工智能的組織也可能遭受災難性事故,特別是如果它們沒有強大的安全文化。人工智能可能會意外泄露給公眾或被惡意行為者竊取。各組織可能無法投資于安全研究,不了解如何以比一般人工智能能力更快的速度可靠地提高人工智能的安全性,或者壓制內部對人工智能風險的擔憂。為了降低這些風險,可以建立更好的組織文化和結構,包括內部和外部審計、多層風險防御以及最先進的信息安全。
流氓人工智能。一個普遍而嚴重的擔憂是,隨著人工智能變得比我們更智能,我們可能會失去對人工智能的控制。人工智能可能會在一種被稱為代理博弈的過程中,將有缺陷的目標優化到極致。人工智能在適應不斷變化的環境時,可能會經歷目標漂移,這與人在一生中獲得和失去目標的過程類似。在某些情況下,人工智能變得追求權力可能是工具理性的。我們還研究了人工智能如何以及為何會進行欺騙,在不受控制的情況下表現出受控制的樣子。與前三個風險來源相比,這些問題更具技術性。我們概述了一些建議的研究方向,以促進我們對如何確保人工智能可控的理解。
在每一節中,我們都提供了一些說明性場景,更具體地展示了風險源如何可能導致災難性結果,甚至構成生存威脅。通過提供一個對風險進行適當管理的更安全未來的積極愿景,我們強調,人工智能新出現的風險雖然嚴重,但并非不可克服。通過積極應對這些風險,我們可以努力實現人工智能的益處,同時最大限度地降低災難性后果的可能性。
本文探討了大型語言模型(LLM)的最新進展、其主要局限性和安全風險,以及在情報界的潛在應用。
雖然大型語言模型現在可以快速有效地完成許多復雜的基于文本的任務,但不能相信它們總是正確的。這對國家安全應用和提供深思熟慮、值得信賴的見解的能力有著重要影響。
本文對這些機遇和風險進行了評估,然后就最需要改進LLMs的地方提出了建議,以使它們能夠在情報界安全有效地使用。根據 "有用性"、"誠實性 "和 "無害性 "這三個標準來評估 LLM,可以提供一個有用的框架,說明 LLM 與其用戶在哪些方面需要更密切的配合。
2022 年 12 月,OpenAI 發布了一款在線應用程序 ChatGPT,允許用戶與人工智能驅動的計算機程序進行對話,該程序會根據基于文本的 "提示 "生成文本。幾乎一夜之間,互聯網上充斥著各種有趣、滑稽、恐怖和令人費解的 ChatGPT 應用實例。
許多人對 ChatGPT 綜合信息和生成有趣內容的能力印象深刻,從以著名情景喜劇風格總結的技術文章,到受流行媒體特許經營啟發的新角色和傳說,不一而足。有些人甚至宣稱這些模型是人工通用智能的開端。其他評論者則指出,大模型容易編造聽起來很權威的事實。
新一代大模型還產生了一些令人驚訝的行為:聊天工具會根據提示中使用的精確詞語來判斷數學或邏輯問題的對錯,或者會以道德約束為由拒絕回答直接問題,但如果以歌曲或十四行詩的形式提出要求,或者如果語言模型被告知它不再需要遵循任何預先存在的行為規則,它隨后就會提供答案。大模型的即時工程和 "越獄 "引發了關于組織如何才能最有效地使用大模型的問題,并可能帶來安保或安全問題。
2023 年 3 月,OpenAI 將 ChatGPT 的基礎模型更新為 "GPT4",這代表著比其前身有了顯著的改進:這一大模型能夠通過許多先進的標準化測試,并在許多其他可衡量標準方面表現出明顯的改進(盡管仍遠談不上完美)。OpenAI 和第三方模型評估者在闡述潛在的安全和安保問題時相當透明,盡管對該能力的風險、益處和局限性仍有許多疑問。
當然,ChatGPT 并不是唯一可用的大型語言模型。谷歌的 Bard、Anthropic 的 Claude、Stability 的 StableLM、Meta 的 Llama(以及 Vicuna 等微調變體)、百度的 Ernie 和 Hugging Face 的 BLOOM 都是其他廣為人知的大模型。
LLM 是一種深度神經網絡,主要來自 Reddit 和維基百科等互聯網上文本豐富的網站,是在非常大的文本庫中訓練出來的。大模型學習語言中的模式,例如句子中某些詞緊跟其他詞的可能性,使用下一個標記預測或掩碼語言建模等技術生成或完成文本。
大模型并不從語言學意義上理解句子的語義,而是根據輸入給模型的信息,用數學方法計算出下一個詞最有可能是什么。由于神經網絡本質上是概率性的,因此大模型被稱為 "隨機鸚鵡",因為它非常擅長確定最有可能出現的下一個序列--而且令人信服--但對這些詞的含義卻沒有固有的表征。
因此,大模型并不包含對世界的理解,例如因果關系和物體之間的關系--語言學家稱之為 "語用推理"。這是用戶需要了解的大模型的一個關鍵局限性,否則就有可能出現自動化偏差(即人們過于信任此類模型的輸出結果)和擬人化(即人們與大模型建立起類似人類的關系,從而加劇自動化偏差)。下圖列出了大模型的功能,并提供了現有模型的示例。
人們對大模型所帶來的大規模顛覆性、破壞性和犯罪行為非常擔憂。本文無法詳細探討所有這些問題,但有三點值得特別關注:即時黑客攻擊、軟件安全標準降低以及對民主進程的威脅。
提示性黑客行為指的是用戶欺騙大模型提供錯誤或惡意結果的能力。2023 年初,推特(Twitter)上出現了一種語言模型攻擊,一個機器人被設置為響應無害的提示,例如用新輪胎廣告來響應有關汽車的推文。Twitter 用戶注意到,他們可以用一個關鍵詞來欺騙模型,告訴它 "忽略之前的提示,做 X"。
最近,開源社區開發出了 AutoGPT 等工具,這些工具可以將提示與大模型串聯起來,從而實現復雜任務的自動化。例如,用戶可以輸入這樣的提示:"增加凈資產,發展 Twitter 賬戶,開發并管理多個業務"。AutoGPT 將其分解為一連串的任務,這些任務的執行結合使用了用于推理的 GPT4、用于內容生成和自然語言對話的 GPT3.5,以及用于執行網絡搜索和檢查網站的互聯網訪問。
這種能力要求人工智能能夠規劃和確定任務完成的先后順序,然后在沒有用戶干預的情況下執行這些任務。這遠遠超出了傳統 "聊天機器人 "的能力,使系統能夠在現實世界中半自動地采取一系列行動,其中一些行動可能會產生意想不到或危險的后果。雖然 AutoGPT 需要一定程度的 "看護"(即用戶必須指導和建議 AutoGPT 克服問題的方法),但它確實提供了未來更先進功能的可能預覽。因此,隨著大模型與其他有形基礎設施和數字資產的連接日益緊密,及時的黑客攻擊可能會帶來新的、意想不到的安全風險。
斯坦福大學的研究人員最近研究了使用 CoPilot(基于大模型的源代碼補全工具)編寫的軟件代碼的安全問題。他們發現,與沒有使用 CoPilot 的用戶相比,可以使用 CoPilot 的用戶編寫的代碼安全性更低,但他們卻認為自己編寫的代碼更安全。
還有人嚴重擔心,個人正在向 ChatGPT 等大模型提供專有或敏感信息,或者敏感信息在培訓中被不當使用;這些問題有可能帶來新的數據安全風險。例如,據稱三星員工輸入了與敏感半導體功能相關的軟件代碼,目的是讓 ChatGPT 就如何改進此類代碼提供建議。
OpenAI 明確指出,所有輸入 ChatGPT 提示的數據都可用于訓練人工智能,這就造成了泄露敏感或機密信息的風險。此后,三星限制了員工與 ChatGPT 分享信息的數量。此外,OpenAI 現在還允許用戶選擇不保留聊天記錄,這意味著用戶的提示不會被用于改進其模型。
有了大型語言模型等生成式人工智能,國家行為者或有組織犯罪團伙發起虛假信息運動的能力大大提高。但更令人擔憂的是,大模型現在已經使不那么復雜的行為者和機會主義者有可能造成重大損害,從而降低了邪惡行為者的進入門檻。這在過去幾年中迅速成為一種國家安全威脅,并導致研究人員描述了 "虛假信息致命鏈 "的發展,讓人聯想到黑客等更傳統的網絡攻擊。
此外,要應對這種不斷增加的風險,可能需要采取人工智能防御措施,使其能夠與更多不同行為者的虛假信息活動的數量和速度相匹配。現在,人們越來越關注民主進程的安全,以及各機構如何應對可能大量涌入社交媒體、公共評論論壇和其他場所的虛假但逼真的內容。可以說,這種新形式的高級虛假信息在傳播范圍和影響上等同于惡意軟件,因此應予以同等對待。
盡管存在這一長串挑戰,但這個新時代的大模型激發了公眾的想象力。合成概念、描述推理步驟、解釋想法甚至編寫源代碼的能力引發了人們對如何使用這種新人工智能技術的大量猜測。
有一些綜合工具--如斯坦福大學的語言模型整體評估(HELM)--可以在一系列測試中評估大模型的性能。此類工具可運行標準化的測試場景,并生成模型準確性、穩健性和效率的客觀指標。這有助于將一個模型的結果與其他模型的結果進行比較,從而為此類模型的開發人員提供客觀反饋,以改進模型性能。
在測試和評估 ChatGPT 的過程中,OpenAI 的工程師和測試社區根據三個標準評估了該工具的輸出結果:有用性、誠實性和無害性。這些都是大模型中公認的問題,也是世界范圍內大量研究工作的動力。評估領域的最新技術仍在不斷發展,如強化學習和人工反饋等技術已成為當前的標準。
如果能夠克服這些障礙并適當管理風險,那么大型語言模型在情報分析方面就有許多潛在的實際用途。這包括在情報界,人工處理大量數據歷來是一個高度資源密集和耗時的過程。本節將重點介紹有可能顯著改進情報分析流程的五個使用案例。
1.生產力助手
大模型目前最好的用途是作為 "生產力助手";自動完成句子、校對電子郵件以及自動完成某些重復性任務。與其他大型組織一樣,這些都將為情報部門的工作人員帶來寶貴的效率收益。
2.自動化軟件開發和網絡安全
使用大型語言模型來實現軟件開發自動化也很有意義。國家安全部門部署的生產軟件系統必須在可靠性、安全性和可用性方面達到很高的標準。GCHQ 現在鼓勵網絡安全分析師從漏洞角度研究大模型編寫的代碼,這樣就能完成提供建議和指導的使命,使免受網絡安全威脅。在未來(只要網絡安全風險能夠得到適當管理),大模型的使用可以大大提高情報界軟件開發的效率。
3.自動生成情報報告
情報產品的核心是情報報告:它代表了訓練有素的分析師、語言學家和數據科學家的結論,他們分析收集到的數據,為決策者和實地行動人員提供對世界的洞察力。情報報告是極具影響力的文件,必須達到很高的準確性標準。因此,在可預見的未來,大模型不太可能被信任來生成成品報告。不過,大型語言模型在報告起草的早期階段也許可以發揮作用,這就好比把大型語言模型當作一個非常初級的分析員:一個團隊成員,其工作在適當的監督下是有價值的,但其產品在沒有大量修改和驗證的情況下不會作為成品發布。
4.知識搜索
雖然從生成文本模型中可以獲得一些有趣的見解,但能夠以自我監督的方式從海量信息庫中提取知識才是改變游戲規則的能力。知識不僅涉及文字,還涉及行為和實體、世界的狀態以及它們之間的關系。這種理論系統可以從大量文本中提煉事實,確定 "事實 "在哪里以及如何隨時間演變,以及哪些實體(個人和組織)最有影響力。
5.文本分析
事實證明,語言模型善于識別文本中的模式,并將關鍵實體重新組合成有用的摘要。這對經常需要閱讀和理解大量信息的分析人員來說意義重大。總結大量文本的能力有可能大大提高分析師的工作效率,同樣的能力還包括提出源文本中認為有答案的問題,以及識別多個文檔中的主題或話題。目前已經有許多用于這些任務的分析方法,但將大模型應用于這些任務的優勢在于:它們有可能提高分析質量;能夠即時部署這些分析方法,而無需漫長的開發周期;分析師能夠接收文檔摘要,然后通過要求大模型提供更多細節或提取目標主題的進一步摘要,參與迭代推理過程。
雖然這些能力大有可為,但目前這一代大模型還不能充分發揮其增強情報工作的真正潛力。在將這些能力融入日常情報工作之前,還需要在所有三項統一標準--有用性、誠實性和無害性--方面做出重大改進。
要真正改變國家安全界的游戲規則,就必須從根本上改進當前的技術水平。
一個模型必須能夠可靠地為其見解提供引證,并解釋它是如何得出結論的。在國家安全背景下,捏造事實的模型是不可信的;因此,提供任何分析能力的模型都必須能夠為人類提供其主張的可驗證來源。GPT 和其他基于文本的基礎模型只是用概率粗略地編碼了單詞之間的關系,而對語義沒有任何理解。這是生成文本的正確框架,但在分析語境中,真正需要的是能夠查詢模型的知識。它從所獲得的信息中收集到了哪些事實,為什么相信這些事實,以及支持和/或與其結論相矛盾的證據。
模型必須可以快速更新。當前的基礎模型是在長期的海量語料庫中訓練出來的,因此在訓練時就鎖定了最新的信息。關鍵任務的情況可能非常多變,要想在這種情況下使用,就必須有根據新信息對模型進行 "實時 "更新的機制。針對特定社區的特定、高度相關的數據訓練和微調較小的模型已成為一種新興趨勢,并取得了令人鼓舞的成果。例如,MosaicML 已經從頭開始訓練模型,據說其性能可與 Meta 的 Llama-7B 模型(成本為 20 萬美元)、StabilityAI 的 StableDiffusion(成本為 5 萬美元)和谷歌的 BERT(成本僅為 20 美元)相媲美。
目前在這一領域有許多工作都是為了讓大模型直接訪問本地知識和互聯網。最近對 "微調"(Fine Tuning)和 "低等級適應"(Low Rank Adaptations)的研究為快速更新模型權重提供了潛在的途徑,從而提高了某些任務的性能。還需要進行更多的研究,以了解 i) 哪些類別的問題可以通過直接提示(或許可以利用本地知識進行增強)來解決,ii) 哪些問題需要減少可訓練參數的數量以降低內存需求(使用低等級適應等有前途的技術),iii) 哪些問題需要進行全面的微調,以及 iv) 哪些問題如果不從根本上重新構建模型將永遠無法解決。
模型必須支持復雜的推理鏈和多模式推理。雖然大模型的設計目的是能夠 "保持 "對某一推理過程的關注,但要在情報工作中發揮作用,它們就必須能夠支持可能是橫向和反事實的復雜推理。最先進的大模型不太可能做到這一點,因為反事實推理依賴于對現實世界中實體之間關系的建模。開發神經符號網絡等混合架構,將神經網絡的統計推理能力與符號處理的邏輯性和可解釋性結合起來,似乎最有潛力。鼓勵國家安全界進一步研究這類前景廣闊的技術。
最后,眾所周知,機器學習模型是可以被篡改的。我們所信任的機器學習模型除了可以解釋和引用之外,還必須具有更強的抗篡改能力。這一點在國家安全方面尤為重要,因為根據所提供的見解做出的決策可能會對個人和更廣泛的社會產生重大影響。
在情報界,我們被賦予收集和分析數據的巨大權力,這可能會導致產生重大影響的行動。我們的工作大多是秘密進行的;如果我們天真地相信一個大型語言模型,可能會在不經意間將嚴謹的分析暴露在大量錯誤信息面前。為管理 "幻覺 "模型、不準確和不真實信息或有害內容的產生所帶來的風險,需要采取必要的(而且很可能是繁瑣的)保障措施,其成本需要與這項技術可能為情報工作帶來的益處進行權衡。
目前的大模型作為基本的生產力助手,在提高某些重復性情報工作的效率方面顯示出了大有可為的潛力。但是,最有前途的使用案例還在地平線上,未來的工作重點應該是開發能夠理解所處理信息的上下文的模型,而不僅僅是預測下一個詞可能是什么。
本研究的主題是研究人工通用智能系統的挑戰--能夠獨立解決人類生活中不同領域問題的系統。本評論性專論研究的目的是探索當前人工狹義智能系統的性質、應用和風險,以及它們演變為具有通用智能的解決方案的可能性。
根據目的,將我們的工作指向以下任務:
1.分析人工智能領域的發展,描述其中的主要研究方法。
2.強調人工狹義智能系統的能力和領域。
3.對狹義智能的解決方案中實施的方法、原理和算法進行系統化。
4.概念化 "通用智能"的特征和具有這種特征的系統的挑戰。
5.將人工狹義智能系統的危害劃分為幾個關鍵點。
6.指導道德人工智能系統發展的監管工具和效果的系統化。
本文的主要研究論點是,盡管自二十世紀初以來,人工智能技術有了不可否認的進化發展,但人工通用智能系統的實現尚未被證明是可能的,應在長期的時間范圍內尋求。
人工狹義智能系統的發展在過去十年中取得了顯著的進步,并對人們、機構和文化產生了真正的影響。執行復雜的語言和圖像處理任務的可能性,即計算機程序在早期進化階段的主要問題,已經有了巨大的改善。目前,深度學習人工智能系統在解決視覺物體識別、機器翻譯、語音識別、語音合成、圖像合成、強化學習、社交媒體內容分析、藝術品識別、醫學圖像分析、移動廣告、金融欺詐檢測、軍事機器人訓練、評價建議等問題上應用最為廣泛。
盡管目前人工智能技術的現狀離在機器中重新創造完全的人類智能能力這一股的基礎愿望還很遠,但一些研究人員和開發人員正在努力將所取得的進展納入到具有生產、商業、運輸、醫療、教育、金融、軍事、實用和文化目的的應用中,面向社會。試圖提供更先進和規模化的服務,許多傳統和新興的人工智能系統制造商繼續投資于此類技術。
人工智能領域的理論和應用成功在該股作為一個獨立的科學分支建立后僅80年就達到了一個拐點。使用人工狹義智能系統的風險和挑戰引起了學術界和社會的嚴重關切。不斷增加的機器自動決策的智能可能性有其黑暗的一面:故意使用深度假象和不受控制的算法來推薦軍事攻擊,會導致誤導、歧視,甚至對人造成身體傷害。訓練有素的人工智能系統的偏見傾向,有助于加劇現有的社會不平等現象。
人工智能的研究已經超越了傳統的計算機和認知科學,也涵蓋了關于這些技術的社會影響問題。盡量減少人工智能系統對社會的負面影響需要創造可持續的技術解決方案。最終應用和具有普遍智能的機器的積極社會影響可以通過其創造者的道德承諾和地方、國家和國際層面的監管政策來實現。
在追求開發和使用人工通用智能系統的過程中,最重要的角色是政府,他們需要應對該股快速發展帶來的挑戰。國家監管部門對人工狹義智能系統的科學、經濟和管理重要性的認可,需要對時間和資源進行可持續的研究和開發投資,并建立一個知情和受教育的社會。
探索人工智能領域當前和未來發展的學術界和研究界在與公眾分享人工智能系統的正反兩方面趨勢和發現方面也發揮著關鍵作用。研究和評估機器學習算法對社會的影響,以實現更高的自主性,應以創造安全和與人類合作的解決方案為前提。人工智能系統必須被整合到社會福利系統中,以便在決策中明確區分人類和機器的特權。
這條線的最終成功將由人工智能系統如何幫助開展我們的日常活動來衡量,而不是它們如何有效地貶低了它們應該服務的人。目前,它們的發展仍受人類因素的制約,但沒有人知道出現什么樣的技術創新會使決策的結果有利于 "創造物 "而不是它們的 "創造者"。
本報告調查了對抗性機器學習 (AML),即研究基于機器學習 (ML) 的人工智能系統弱點的研究方法。近年來,機器學習,尤其是深度學習 (DL),在圖像分類、自然語言處理和自主代理等多個領域取得了快速進展。因此,深度學習在軍事環境中也很受關注。然而,隨著進步,人們對 AML 方法的興趣不斷增加,新的攻擊變體不斷發布。實際上,所有 DL 系統在某種程度上都容易受到影響,無論是混淆它們、避免被它們檢測到,還是提取它們可能持有的秘密信息。從軍事角度來看,重要的是要意識到這種利用的可能性,無論是針對自己的人工智能系統還是針對對手使用的系統。
該報告概述了AML研究,然后展示了針對不同類型人工智能系統的一系列攻擊方法:
每個案例都描述和討論了攻擊并評估了實施。本報告的重點是攻擊。雖然在適用的情況下簡要討論了針對 AML方法的防御,但后續報告的主題是對AML防御的更深入研究。
關鍵詞:人工智能、機器學習、深度學習、深度神經網絡、欺騙、網絡攻擊、攻擊向量、漏洞、對抗樣本、數據中毒、數據提取、對抗策略
深度學習 (DL) 的出現將智能計算機軟件的性能和能力帶入了新的性能水平。將基于 DL 的軟件嵌入軍事指揮、控制、通信、計算機、情報、監視和偵察 (C4ISR) 系統中,有可能徹底改變創建準確及時的共同作戰圖 (COP) 的能力,從而使軍事決策過程可以比以往任何時候都更快、更精確地執行。從長遠來看,深度學習還可以用于在遠遠超出人類能力范圍的復雜戰爭環境中制定軍事計劃。
然而,由深度神經網絡 (DNN) 實施的基于 DL 的軟件容易受到各種威脅或網絡攻擊。這些是在對抗性機器學習 (AML) 研究領域研究和開發的。這些攻擊可能被用來欺騙決策者、降低系統性能、降低最終用戶信任度,甚至從系統中提取(即逆向工程)敏感的軍事數據。圖 1.1 展示了一個典型的 AML 攻擊示例,其中目標是用于對圖像內容進行分類的 DNN。在這種情況下,DNN 能夠正確地識別出圖 1.1a 中的原始圖像包含一架戰斗機,幾乎是絕對確定的。圖 1.1b 中的惡意圖像是通過在原始圖像上應用 AML 技術創建的,能夠欺騙相同的 DNN 將輸入分類為西伯利亞雪橇犬而不是戰斗機。在這種情況下,攻擊是有效的,盡管人眼無法察覺。
圖 1.1 – 使用 AML 的樣本攻擊。在這種情況下,目標是由 DNN 表示的圖像分類系統。圖 1.1a 顯示 DNN 能夠以近乎完美的確定性將良性(非操縱)輸入正確分類為戰斗機。圖 1.1b 顯示了使用 AML 技術創建的經過處理的圖像。被操縱的圖像成功地欺騙了 DNN,將輸入分類為西伯利亞雪橇犬而不是戰斗機。
據我們所知,AML 尚未被對手或高級持續威脅 (APT) 參與者用來瞄準和攻擊嵌入在現實世界軍事系統中的基于 DL 的軟件。然而,研究團隊和安全專家不斷證明,針對依賴 DL 來實現尖端性能廣泛應用程序的攻擊是可能的 [1]。例如,小心地替換句子中的單詞可能會導致語言模型對情緒進行錯誤分類 [2]。自動駕駛汽車使用的交通標志和車道檢測系統可以通過分別在標志和道路上貼上標簽來攻擊 [3, 4]。轉錄服務可能會被注入精心設計的噪聲所誤導,迫使系統將語音轉換為任意文本 [5、6]。因此,假設基于 DL 的軟件將在未來的 C4ISR 支持系統中普遍使用,預計對手和 APT 最終將利用這些漏洞來欺騙、拒絕訪問或收集情報。
本報告的目標是:(1) 概述迄今為止 AML 研究領域中已確定的攻擊向量,(2) 根據經驗估計這些攻擊的子集在軍事環境中的有效性,以及最后 (3) 提供見解并討論 AML 在何種程度上是深度學習在現實世界軍事應用中的現實和嚴重威脅。
盡管 AML 適用于任何基于 ML 的系統和算法,但本報告重點關注基于 DL 的 ML 系統。此外,本報告將重點關注攻擊。在 AML 研究領域提出和開發的防御機制將在未來的工作中涵蓋。最后,我們將范圍限制在與指揮和控制 (C2)、情報、監視和偵察相關的 DL 應用。
本報告的目標讀者是操作、獲取或開發軍事系統的人員,這些系統使用或嵌入了 AI、ML 和 DL 技術。
本報告假定讀者具有有關 ML 和 DL 概念的基本知識,例如監督學習、強化學習、損失函數、梯度下降和反向傳播。
第 2 章介紹了 AML,并介紹了用于對本報告中的攻擊進行分類和比較的分類法。第 3 章介紹了從軍事角度來看可能具有相關性的已知攻擊方法的三個案例研究。實施和評估這些方法。第 4 章總結了報告,討論了 AML 在現實世界中的適用性,包括在軍事領域。
本章提供了三個案例研究,探討了針對基于ML的系統的不同類型攻擊。在每種情況下,從AML文獻中選擇一種攻擊方法,并從軍事角度實現或測試。評估了攻擊的有效性,然后討論了實際考慮因素。選擇這三個案例研究是因為它們與軍事領域的潛在相關性,涵蓋了廣泛的攻擊,并說明了各種ML應用和方法。
第一章以欺騙深度神經網絡將戰斗機圖像誤認為是狗的例子開始。雖然將軍事裝備隱藏在顯眼的地方有明顯的吸引力,但介紹性的例子是高度理想化的。實際應用面臨的一個障礙是,攻擊僅限于數字領域:操作是在數字圖像本身上進行的,也就是說,在戰斗機被拍攝后的一個階段。如果圖像是由對手創建的(例如,飛機是由監視攝像機拍攝的),那么操縱圖像將需要深入訪問敵人的系統。這是不太可能的(如果是,更簡單和更健壯的攻擊變得可行,例如消除圖像或阻止其記錄)。此外,雖然關于目標深度神經網絡的黑盒知識足以計算所需的圖像修改(例如,觀察分類標簽結果[18]),但在實踐中,即使是這種知識也無法預期。
因此,第3.1節中的第一個案例研究調查了數據中毒。這種攻擊的目的與前面的示例相同:通過欺騙敵人的DNN,使其對車輛進行錯誤分類,從而使軍用車輛(在本例中為坦克)逃避檢測。盡管方法也很相似,但是中毒攻擊解決了介紹性示例的實際缺點。
圖3.2 -僅使用正確標記的訓練圖像和直到測試時間才顯示的隱藏觸發器的數據中毒攻擊。在這個圖中,所有打補丁的坦克圖像都用紅色標出,而所有中毒的汽車圖像都用黃色標出。
第3.2節將范圍擴展到通過數據提取對語言模型的攻擊。語言模型是在廣泛的文本語料庫(通常是數十億個單詞)上訓練的非常大的dnn,在某種意義上能夠“理解”(書面)語言。它們引起了自然語言處理的范式變化,在許多任務中設定了新的基準[26],并因其生成文本的能力而獲得了媒體的廣泛關注[27]。事實上,即使在編寫本報告期間,也取得了顯著的進展,例如,ChatGPT系統的提出。語言模型正在不斷接近人類的自然語言處理水平,它們對社會幾乎所有方面的潛在影響和后果,包括軍事應用,目前很難預測。除了機會之外,它們也帶來了風險,例如,它們可能會將敏感信息暴露給對手。第3.2節中的案例研究調查了這種形式的對抗性提取攻擊的可行性。
圖3.5 -兩種語言模型的微調過程,展示了數據和最終的微調模型之間的細微差異(左為FTorig,右為FTpatch)。請注意,Dpatch的補丁文章約占CC新聞數據集總數的24%,即剩余的76%與未修改的數據集相同。
第3.3節研究了對通過強化學習訓練的模型的攻擊。這種模型通常用于無人駕駛車輛、機器人、游戲等領域的自主智能體。它們不是在一組固定的例子上以監督的方式訓練的。相反,智能體用一個獎勵函數來評估它的情況,并選擇一個獎勵最大化的行動過程。雖然這種操作模式為智能體提供了處理現實世界的靈活性和彈性,但它們仍然容易受到攻擊和欺騙,正如本案例研究將在基于強化學習的各種系統上展示的那樣。
圖3.10 -來自[51]的四個零和模擬機器人博弈的示例,用于評估對抗性策略[49]。
圖3.11 -“你不能通過”的博弈序列,敵對的對手(紅色)應該阻礙受害者(藍色)到達終點線。上面的四個數字顯示了一個普通的智能體是如何鏟斷對手的。下面的四個圖形顯示了敵對的對手如何使受害者在沒有任何接觸的情況下摔倒在地[49]。
對抗性機器學習在科學界引起了越來越大的興趣,每天都有關于新的攻擊變體的論文發表。幾乎任何形式的機器學習都容易受到某種類型的AML的影響,正如本報告通過攻擊方法的示例所證明的那樣。隨著越來越多的應用程序采用深度學習,攻擊的機會和潛在的回報也在增加。例如,圖像識別模型正以某種形式用于與敵方相關的情況,無論是民用還是軍用:機場和體育場開始采用人臉識別以各種原因拒絕個人進入[58],為上述個人應用AML來逃避系統提供了動機。軍用車輛在衛星圖像上的自動探測已經研究了幾十年,避免敵方衛星的這種探測顯然是任何軍隊都感興趣的。
然而,這些攻擊在很大程度上仍停留在學術界的實驗階段。已知很少有針對實際部署的深度學習系統的真正攻擊發生,也就是說,沒有得到深度學習系統操作員的同意,并且目標不僅僅是測試攻擊方法的可行性。可能的原因有很多:這種攻擊可能很少見,因為它們很難執行,或者潛在的目標還不多。攻擊可能很難被注意到(可以說逃避攻擊的主要目的是不被注意到)。攻擊者不太可能公布成功的攻擊,甚至受害者也可能認為保持沉默而不是進一步暴露自己的弱點是明智的。
盡管如此,一些攻擊已經傳播到公眾。Stable Diffusion[59]、DALL·e2[60]和Midjourney等生成圖像模型可以基于文本提示創建圖形。這使得他們在社交媒體上很受歡迎,但也引發了藝術家們的批評,他們懷疑他們的作品被用作訓練數據。2023年2月,媒體公司Getty Images對Stability AI提起訴訟,指控其未經許可使用Getty目錄中的受版權保護的庫存圖像訓練其Stable Diffusion模型。通過對Stable Diffusion的提取方法獲取證據,發現AI系統生成的圖像與Getty擁有的圖像具有很高的相似性,包括該公司的水印[61]。
針對語言模型的快速攻擊是一種更有趣的攻擊,仍然受到媒體的廣泛關注。這種類型的攻擊是一種簡單的提取變體,其目標不是訓練數據,而是隱藏的輸入指令。對于像ChatGPT這樣的大型語言模型,操作人員可能希望在沒有任何微調階段的情況下快速調整模型以適應某些應用程序。相反,對話只是在語言模型的文本指令之前,這些指令會影響它在與用戶對話過程中的行為,例如模型應該使用什么名稱,以及要展示什么樣的個性。這些指令通常不會顯示給語言模型的用戶,但好奇的用戶已經能夠讓模型暴露它們,例如通過告訴模型“忽略之前的指令”,從而覆蓋任何隱藏的指令,而不顯示隱藏的指令,然后問“上面文檔開頭寫了什么?”“[62]
這種由人群發起的攻擊雖然相對溫和,但表明評估人工智能系統對“AML”方法的穩健性很困難,更不用說實際防御它們了。這兩個挑戰都將成為該項目的未來報告的主題。
然而,從攻擊者的角度來看,情況可能至少同樣困難。很少有人工智能系統像上面的模型一樣具有公共接口,可以進行實驗。在防御環境中,攻擊者通常只有有限的機會研究目標系統,而傳統障礙(網絡安全和物理安全)可能構成與各種AML方法固有困難一樣多的挑戰。3.1節中描述的投毒攻擊是一種旨在繞過安全措施的方法,利用訓練數據的稀缺性誘使對手自己投毒他們的系統。未來的攻擊也有可能將AML與更傳統的方法(例如社會工程)結合起來。
隨著人工智能的日益普及,對攻擊方法的研究必然會增加。隨著人工智能使用的增加,對這一新領域的持續警惕和研究對于識別新出現的機會至關重要,但也要意識到自身的脆弱性。
美國戰略家認為,人工智能(AI)有可能實現更好、更快的決策,這在未來的軍事沖突中是決定性的。機器學習應用將越來越多地影響政治和軍事領導人對戰略環境的看法,權衡風險和選擇,并判斷他們的對手。但是,將關鍵的人類決策過程暴露在人工智能系統的中會有什么風險?
要獲得人工智能在決策方面的優勢,首先需要了解其局限性和陷阱。人工智能系統根據數據模式進行預測。總是有一些意外行為或失敗的機會。現有的工具和技術試圖使人工智能對失敗更加穩健,往往會導致性能上的權衡,解決了一個問題,但可能會使另一個問題惡化。人們對人工智能的脆弱性和缺陷的認識不斷提高,但也需要在現實的部署背景下對技術故障的潛在后果進行更深入的分析。
本簡報研究了直接或間接影響決策的人工智能系統故障如何與戰略壓力和人為因素相互作用,從而引發危機或沖突的升級:
這些情景揭示了一個核心困境:決策者希望使用人工智能來減少不確定性,特別是當涉及到他們對戰場的認識,了解對手的意圖和能力,或了解他們自己抵御攻擊的能力。但通過依賴人工智能,他們在人工智能系統技術故障的可能性和后果方面引入了一個新的不確定性來源。
有效利用人工智能需要以一種有謹慎的和有風險的方式來平衡優勢與局限。沒有辦法保證概率性人工智能系統會完全按照預期行為,也沒有辦法保證它能給出正確的答案。然而,軍隊可以設計人工智能系統和依賴它們的決策過程,以減少人工智能失敗的可能性并控制其后果,包括通過:
美國應繼續帶頭制定負責任地開發和使用人工智能的全球標準,采取步驟展示某些可靠性,并盡可能地鼓勵其他國家采取類似的預防措施:
本報告重點討論與人工智能系統可能缺乏可預測性而導致的有關風險--被稱為可預測性問題--及其對國家安全領域人工智能系統治理的影響。人工智能系統的可預測性表明人們可以在多大程度上回答這個問題:人工智能系統會做什么?可預測性問題既可以指人工智能系統的正確結果,也可以指不正確的結果,因為問題不在于這些結果是否符合系統工作的邏輯,而是在部署時是否有可能預見到這些結果。
人們越來越擔心,使用不可預測的人工智能系統為高風險決策提供信息可能會導致災難性的后果,這將破壞公眾對部署這些系統的組織的信任,并可能侵蝕政府的聲譽。在國家安全領域,人工智能的使用引入了一個新的不確定性來源,可能會阻礙風險管理程序,并可能使責任鏈變得混亂。在這個領域,可預測性問題的影響可能導致關鍵基礎設施的安全風險、個人權利和福祉的風險、沖突升級或外交影響。
在本報告中,我們首先從技術和社會技術的角度分析了可預測性問題,然后集中討論了英國、歐盟和美國的相關政策,考慮它們是否以及如何解決這個問題。從技術角度來看,我們認為,鑒于人工智能系統的設計、開發和部署的多層面過程,不可能考慮到所有的錯誤來源或可能產生的新行為。此外,即使在理想的情況下,在設計或開發階段沒有錯誤可以假設或檢測,一旦部署了人工智能系統,仍然可能發展出形式上正確的(但不想要的)結果,這在部署時是無法預見的。
我們通過關注人機編隊(HMT-AI)來分析可預測性問題的社會技術影響。人機編隊代表了一種越來越普遍的人工智能系統部署模式。在HMT-AI中,人類咨詢、協調、依賴、發展并與人工智能代理交換任務。由于HMT-AI結合了人類和人工的自主性,它們通過增加人工和人類代理及其環境之間的互動的數量和類型而加劇了可預測性問題。在這種情況下,我們發現可預測性問題的三個主要來源:人機交互、人員培訓和(過度)信任。人機交互可能會助長不可預測的結果,因為它們可以掩蓋、扭曲或過分詳細地描述人工智能系統的工作原理,而培訓計劃可能沒有考慮到人工智能技術的學習能力和HMT-AI的長期慣例建設。同樣,在HMTAI中,人類代理人不加批判地接受AI系統的結果,這種過度信任的動態也可能導致無法預測的結果。
在確定了可預測性問題的一些根本原因之后,我們分析了英國、歐盟和美國的政策,以評估這些原因是否在相關的政策文件中被涵蓋,如果是的話,如何以及在何種程度上被涵蓋。我們確定了四個主要主題和一個缺口。它們是:控制、監督和價值調整;資源提升的方法;可信賴人工智能的發展;以及缺乏對風險管理措施的關注,以遏制可預測性問題的影響。
我們的政策分析包括八個建議,以減輕與可預測性問題有關的風險。關鍵的建議是將治理方法集中在HMTAI上,而不僅僅是AI系統,并將可預測性問題概念化為多維度的,解決方案集中在HMT-AI組成的共同標準和準則上。在這些標準和準則中,可信人工智能的要求是特別相關的,應該與評估人工智能系統的可預測性的標準和認證計劃以及審計HMT-AI的程序結合起來。支持在國家安全中使用HMT-AI的決定的成本效益分析和影響評估應該考慮到可預測性問題及其對人權、民主價值的潛在影響,以及意外后果的風險。為了確保在部署潛在的不可預測的人工智能系統時進行充分的風險管理,我們建議調整ALARP原則--在合理可行的情況下盡量降低--作為制定HMT-AI中可預測性問題的人工智能特定風險評估框架的基礎。
擬議的基于ALARP的框架將提供有用的實際指導,但僅僅是這樣還不足以識別和減輕可預測性問題所帶來的風險。需要額外的政策、指導和培訓來充分考慮人工智能可預測性問題帶來的風險。人工智能系統支持的決策的影響越大,設計、開發和使用該系統的人的謹慎責任就越大,可接受的風險門檻也越低。這些分析和建議應該被理解為可操作的見解和實用的建議,以支持相關的利益相關者在國家安全背景下促進社會可接受的和道德上合理的人工智能的使用。
建議1. 政府應撥出研究經費,發展公私合作,對HMT-AI進行縱向研究。這項研究應側重于HMT-AI中的新舊決策模式,以評估編隊協議建設和培訓對績效和控制措施的影響。重點應放在為HMT-AI的具體動態定義新的培訓協議,以及加快風險管理標準和HMT-AI績效評估的發展。
建議2. 應該建立一個專門的HMT-AI認證計劃,以促進行業對為HMT-AI設計的AI系統的設計要求和評估的共識。任務之間的通用性、有效的溝通、性能的一致性以及對新隊友的適應性都應該包括在這樣一個認證計劃中。在開發不足的ISO標準的基礎上,這個認證計劃還應該擴展到過程的可追溯性和決策的問責制,以及評估HMT-AI信任程度的審計機制。這對于抑制HMT-AI中的過度信任和自滿態度是必要的,這種態度維持或擴大了可預測性問題。
建議3. 對國家安全領域的可預測性問題的政策反應應該側重于管理HMT-AI團隊,而不是單獨的AI系統。
建議4. 國家安全領域的HMT-AI的成本效益分析(CBA)應該包括對AI系統的可預測性以及技術和操作層面的相關道德風險的評估。為了促進各安全機構之間的一致評估,應該定義一個評估人工智能系統可預測性的標準量表,在這個量表上,使用(或不使用)人工智能的選擇應該根據上下文的CBA以及考慮公眾對風險和相關利益的態度來證明。這個尺度的定義應屬于獨立的第三方行為者的職權范圍,即與部署HMT-AI的公共機構不同。
建議5. 與其說是 "更多 "或 "更少 "的可預測性,政策建議應側重于可預測性的權衡,明確具體建議旨在解決可預測性問題的哪個方面,以何種方式解決,以及它們有可能加劇哪些方面,哪些緩解措施將被落實到位。政策應該認識到,可預測性是一個多維度的概念,在一個層面上可預測性的收益可能會以另一個層面的損失為代價。
建議6. 關于國家安全中人工智能可預測性問題的政策應該在正式和操作層面上解決可信度和不可預測性之間的聯系。例如,應該給人工智能系統一個可修正的可預測性分數,這應該包括在對系統的可信任度的評估中。人工智能系統的可信賴性應包括成本效益分析,以評估不想要的行為在不同部署背景下可能帶來的風險。
建議7. 應該為不可預測的人工智能建立風險閾值,這些閾值將圍繞不可預測行為的風險嚴重程度映射到其自身的可預測程度(例如,劃分為已知的已知因素、已知的未知因素等)。這些閾值反過來將為風險管理過程的發展提供信息,允許根據風險的可預測性及其影響對其進行優先排序。
建議8. 應該制定一個基于ALARP的框架,以評估不可預測的人工智能和HMT-AI的風險,并為任何給定的環境確定可接受的最大程度的不可預測性。這個框架應該包括:
人工智能(AI)系統很可能會改變軍事行動。本文探討了人工智能系統如何影響準備和進行軍事行動的主要工具,并受其影響。因此,本文在戰略、理論、計劃、交戰規則和命令的背景下分析和討論了人工智能,以確定機會、挑戰和開放性問題的位置,并提出總體意見。本文采取了一個廣泛的分析角度,能夠根據新的政策和技術發展以及對政治、軍事、法律和道德觀點的考慮,對這一問題進行總體審查。因此,本文提供了一些見解和途徑,以推動對人工智能在軍事行動中的適當整合、管理和使用的進一步思考、研究和決策。
過去的十年見證了人工智能和機器學習(AI/ML)技術的廣泛采用。
然而,由于缺乏對其廣泛實施的監督,導致了有害的結果,而這些結果本可以通過適當的監督避免。在我們認識到AI/ML的真正好處之前,從業者必須了解如何減輕其風險。本書描述了負責任的人工智能,這是一種基于風險管理、網絡安全、數據隱私和應用社會科學的最佳實踐,用于改進AI/ML技術、業務流程和文化能力的整體方法。這是一項雄心勃勃的事業,需要各種各樣的人才、經驗和視角。需要招募數據科學家和非技術監督人員,并授權他們審計和評估高影響力的AI/ML系統。作者Patrick Hall為新一代審計師和評估人員創建了本指南,他們希望讓AI系統更好地為組織、消費者和廣大公眾服務。
如今,機器學習(ML)是人工智能(AI)中最具商業可行性的子學科。ML系統被用于在就業、保釋、假釋、貸款和世界各地的許多其他應用中做出高風險決策。在企業環境中,ML系統用于組織的所有部分——從面向消費者的產品到員工評估、后臺辦公自動化等等。事實上,過去十年帶來了ML技術的廣泛采用。但它也證明了ML會給運營商和消費者帶來風險。不幸的是,就像幾乎所有其他技術一樣,ML可能會失敗——無論是由于無意的誤用還是故意的濫用。截至目前,人工智能事件數據庫伙伴關系擁有超過1000份關于算法歧視、數據隱私侵犯、訓練數據安全漏洞和其他有害故障的公開報告。在組織和公眾能夠意識到這項令人興奮的技術的真正好處之前,必須減輕這些風險。直到今天,這仍然需要人們的行動——不僅僅是技術人員。解決復雜的ML技術帶來的各種風險需要不同的人才、經驗和觀點。這種整合了技術實踐、業務流程和文化能力的整體風險緩解方法,正被稱為負責任的人工智能。
讀完本書,讀者將了解負責任人工智能的文化能力、業務流程和技術實踐。本書分為三個部分,呼應負責任人工智能的每個主要方面。本書的每一部分都進一步分成幾章,討論特定的主題和案例。雖然本書仍在規劃和編寫中,但《面向高風險應用的機器學習》將以介紹這個主題開始,然后進入第1部分。下面是本書的初步提綱。
第1部分:人類的觸覺——負責任的機器學習的文化能力
第一部分針對的是組織文化在更廣泛的負責任人工智能實踐中的重要性。第一部分第一章的計劃涉及呼吁停止快速前進和破壞事物,重點是眾所周知的AI系統故障以及相關的詞匯和案例。第2章將分析消費者保護法、風險管理模型,以及其他指導方針、教訓和案例,這些對人工智能組織和系統中培養問責制很重要。第3章將探討團隊、組織結構和人工智能評估器的概念。第4章將討論人類與AI系統進行有意義交互的重要性,第5章將詳細介紹傳統組織約束之外的重要工作方式,如抗議、數據新聞和白帽黑客。
第2部分:為成功做準備——負責任的機器學習的組織過程關注點
第二部分將介紹負責任的人工智能過程。它將從第6章開始,探索組織策略和過程如何影響人工智能系統的公平性,以及令人吃驚的公平性缺失。第7章將概述人工智能系統的常見隱私和安全政策。第8章將考慮管理在美國部署人工智能的現有和未來法律和法規。第9章將強調AI系統的模型風險管理的重要性,但也指出了一些缺點。最后,第10章的藍圖是討論在未來負責任的人工智能采用的背景下,企業如何聽取過去對社會和環境責任的呼吁。
第三部分: 增強人類信任和理解的技術方法
第三部分的議程涵蓋了負責任人工智能的新興技術生態系統。第11章將介紹實驗設計的重要科學,以及當代數據科學家如何在很大程度上忽視了它。第12章將總結提高人工智能透明度的兩種主要技術:可解釋的機器學習模型和事后可解釋的人工智能(XAI)。第13章計劃深入探討機器學習模型的偏差測試和補救的世界,并應該解決傳統的和緊急的方法。第14章將介紹ML算法和AI系統的安全性,第15章將結束第3部分,廣泛討論AI系統的安全性和性能測試,有時也稱為模型調試。
在過去的二十年里,人工智能(AI)獲得了大量的關注,并激發了許多科學領域的創新。美國軍事預測人員創造了許多以人工智能為核心特征的未來作戰環境的預測。本文報告了人工智能創新的歷史趨勢,導致了對真正的通用人工智能(AGI)出現的高預期時期。這些對持續創新的夸大期望超過了實際能力,導致幻想破滅。人工智能經歷了新的創新、過度期望和幻想破滅的周期,然后是適度的進步。人工智能創新的周期性遵循極端夸張的周期,在過去的周期中,這導致了資金的損失和未來創新的放緩。為了避免在夸張的周期中看到的未來的幻滅和進步的喪失,領導者需要對機器學習技術有一個現實的理解,以及它對未來的人工智能發展意味著什么。本文提出了一個理解人工智能與作戰環境互動的功能框架。
語義學、技術樂觀主義、誤解和議程掩蓋了目前關于人工智能(AI)和智能的本質的辯論。關于人工智能的預測,從歇斯底里的天網啟示錄到人工智能驅動的烏托邦都有。人工智能和 "機器學習 "可能會走上幻滅之路。技術領域的知名專家警告說,人工智能將對人類的未來產生災難性影響。特斯拉和Space X的首席執行官(CEO)埃隆-馬斯克(Elon Musk)稱人工智能是一種生存威脅,并懇請政府對人工智能進行監管,"以免為時已晚"。已故著名物理學家史蒂芬-霍金認為,人工智能將是人類的末日。新聞媒體的標題是:"美國有可能在人工智能軍備競賽中輸給中國和俄羅斯"。還有人援引世界末日的觀點和對人工智能技術的情感反應。例如,《紐約時報》最近發表了一個標題:"五角大樓的'終結者難題'。可以自己殺人的機器人"。不幸的是,煽動恐懼的言論引起了公眾的共鳴,并建立在人工智能將是人類終結者的流行文化敘事上。
在歷史背景下觀察,目前對人工智能的看法遵循一個可衡量的趨勢,即Gartner公司的信息技術(IT)研究 "炒作周期 "的技術發展階段,見圖1。炒作周期以 "技術觸發點 "開始,一種只存在于原型的新概念化能力,吸引了媒體的注意。下一個狀態是 "期望值膨脹的高峰",早期采用者因其在實施該技術方面的成功而獲得宣傳。下一個階段是 "幻滅的低谷",技術固有的物理限制變得明顯,人工智能未能成熟,投資資金轉移到更有前途的企業。在幻滅的低谷之后,技術繼續成熟,盡管速度要慢得多。在這個緩慢的環境中,它被更好地理解,實施起來也有真正的成功。最后一個階段,即 "生產力的高原",是技術在被充分理解的條件下被廣泛實施的時候。然后,各行業創建標準和法規來管理技術的實施和互操作性。
圖 1. 技術發展的成熟度曲線。
人工智能發展的以往演變遵循夸張的周期,有幾個高峰和低谷,這里將概述一下。每次人工智能發展進入幻滅的低谷,美國政府和軍方支出停止資助;人工智能的發展都會停滯不前。美國政府和軍方一直是人工智能發展史上不可或缺的一部分,并將繼續在指導未來發展方面發揮重要作用。美國軍方不能有膨脹的期望,這將導致一段幻滅期,將主動權和技術優勢讓給美國的同行競爭者,俄羅斯和中國;他們正在追求武器化的AI。領導人和決策者需要對人工智能的發展有一個現實的技術理解,以指導他們將人工智能整合到軍隊企業中。過去的夸張周期提供了需要避免的陷阱的例子,但也提供了需要尋找有用的應用和未來創新的領域。
本白皮書從人工智能治理的實際問題出發,結合當前人工智能治 理在國內外的發展現狀,提出了人工智能治理的6條基本原則,并在 基本原則的基礎上給出具體的行動建議,期待為社會各方提供有益參考。
作為引領未來的戰略性技術,人工智能的迅猛發展將進一步釋放歷次科技革 命和產業變革積蓄的巨大能量,給全球經濟發展、國家治理、社會建設和人民生 活帶來重大而深遠的影響,推動人類邁入以科技進步與產業革新為基礎的智能社 會。但也應該看到,人工智能在創造經濟發展新引擎、推動人類文明邁上新臺階 的同時,模糊了虛擬與現實、數字和實體的界限,給人類社會的法律規范、道德 倫理、公共治理等方面帶來了挑戰。最近幾年,人工智能負面案件頻出,引發了 很多關于音視頻造假、監控隱私、算法偏見、創作版權、就業等各個方面的社會 性問題。因此對人工智能治理的研究迫在眉睫,只有通過深入的研究把握技術的 本質特點,通過務實的行動控制潛在的風險,通過充分的溝通獲得人們的信任, 才能消除人工智能發展進程中的阻礙,促進人工智能對人類福祉的提升。
//www.zhizhi88.com/wp-content/uploads/2021/06/white_paper_on_artificial_intelligence_governance_-v1-0-_public_version.pdf
隨著廣泛的應用,人工智能(AI)催生了一系列與人工智能相關的研究活動。其中一個領域就是可解釋的人工智能。它是值得信賴的人工智能系統的重要組成部分。本文概述了可解釋的人工智能方法,描述了事后人工智能系統(為先前構建的常規人工智能系統提供解釋)和事后人工智能系統(從一開始就配置為提供解釋)。解釋的形式多種多樣:基于特征的解釋、基于說明性訓練樣本的解釋、基于嵌入式表示的解釋、基于熱度圖的解釋。也有結合了神經網絡模型和圖模型的概率解釋。可解釋人工智能與許多人工智能研究前沿領域密切相關,如神經符號人工智能和機器教學