在過去幾年里,對人工智能體的投資穩步增長,然而這些智能體的采用情況卻參差不齊。行業報告顯示,大多數人并不信任人工智能體來完成重要任務。雖然現有的 IS 理論可以解釋用戶對 IT 人工智能的信任,但一些新的研究對現有理論在AI智能體背景下的適用性提出了質疑。乍一看,智能體可能與其他技術人工制品無異。然而,更深入的評估揭示了人工智能體不同于以往信息技術人工制品的一些基本特征。因此,本文的目的是找出阻礙和促進信任與不信任的人工智能特有特征和行為,從而塑造用戶在人機交互中的行為。本論文使用定制開發的對話式人工智能體,通過引入并實證檢驗六個新的構造,即人工智能的不確定性、任務完成的不確定性、語言的不確定性、人工智能的可繼承性、人工智能的可訓練性和人工智能的自由意志,對人類-人工智能文獻進行了擴展。
當用戶向智能體提出請求時,設備就會接收到信息。然后,設備將信息發送到語音識別服務。接著,檢測到的文本被發送到自然語言理解(NLU)服務器。接著,來自 NLU 的響應代碼進入語音合成服務,生成語音響應。最后,響應代碼返回設備,設備根據響應代碼采取行動并發送響應信息。因此,在響應用戶請求時,人工智能既要傳遞語言信息,又要采取行動,這就可能產生兩種不確定性:語言不確定性和任務完成不確定性。
協作機器人(即 "cobots")和基于機器學習的智能體正越來越多地進入人類的工作空間,目的是提高生產率、增強安全性和改善生活質量[1, 2]。這些智能體將在動態和新穎的環境中與各種各樣的人進行動態交互,使人機團隊在醫療保健[3]、制造[4]和搜救[5]等領域更加普遍。在這些領域中,合作者必須目標一致,并保持對其他智能體行為的感知,以避免潛在事故的發生。至關重要的是,智能體必須能夠理解用戶之間的異同,并為用戶提供信息,支持心智模型的調整。
在文中,首先研究了模擬大規模多智能體系統中協作的本質。具體來說,探索了在部分可觀測環境中分散機器人之間利用基于上下文的通信技術,發現利用有針對性的通信(第4章)和考慮隊友異質性(第5章)有利于生成有效的協調策略[6, 7]。接下來,過渡到人機系統,并開發了一個數據高效、針對特定人員且可解釋的基于樹的學徒學習框架(第6章),使機器人能夠推斷并理解異構用戶的決策行為[8, 9]。在此基礎上,擴展了基于神經樹的架構,支持通過強化學習(reinforcement learning)為機器人學習可解釋的控制策略[10]。這一進步不僅允許終端用戶檢查學習到的行為模型,還為開發人員提供了驗證控制策略安全性的方法(第 7 章)。隨后,描述了可解釋人工智能(xAI)技術的實用性,該技術有望在人機協作中增強團隊態勢感知和共享心智模型開發[11](第8章)。最后,讓最終用戶能夠通過圖形用戶界面交互式修改可解釋的學習策略,以支持重復人機協作范例中的團隊發展(第9章)。
本文的貢獻如下:
創建基于通信的新型多智能體強化學習(MARL)架構: 開發了多智能體圖注意通信(MAGIC)[6],這是一種利用目標通信(智能體主動決定 "何時 "和 "與誰 "通信)的多智能體強化學習(MARL)架構,用于在部分可觀測環境中的分散智能體之間學習高性能團隊協調策略。團隊成員通過信息共享和與合作者的模擬體驗,開發出一種隱含的共享心智模型。
創建支持異構機器人團隊的 MARL 架構: 開發了異構策略網絡(HetNet)[7],這是一種 MARL 架構,可有效模擬異構機器人團隊(即由具有不同狀態、行動和觀察空間的智能體組成)。通過 HetNet,利用可變編碼器-解碼器通道來考慮類間信息的異質性,將編碼信息 "翻譯 "成異構機器人團隊中各智能體之間共享的中間語言,從而促進各智能體之間的通信。
開發可解釋的、針對個人的 "從異質演示中學習"(LfHD)框架: 提出了一種個性化的、可解釋的學徒調度算法,該算法通過提取決策標準,推斷出所有人類任務演示者的可解釋表征,推斷出的個性化嵌入與演示者類型的數量無關[8, 9]。通過這種技術,協作機器人可以自主地獲得對人類隊友決策行為的個性化、隱含的理解,從而使機器人同行的個性化程度更高。
開發基于樹的模型,該模型可通過基于梯度的現代強化學習方法進行優化,以產生高性能、可解釋的策略:介紹了可解釋的連續控制樹(ICCTs),這是一種可解釋的強化學習架構,允許在類似稀疏決策樹的表征中進行直接優化[10]。新架構在生產安全、可驗證、基于機器學習的自主系統方面邁出了堅實的一步,這些系統已準備好在現實世界中部署并與人類互動。
描述可解釋人工智能(xAI)在人機協作中的效用: 進行了兩項新穎的人類-受試者實驗,以量化在人機協作場景中部署 xAI 技術的益處。評估了人類隊友通過增強 xAI 技術獲得更好態勢感知的能力,并量化了 xAI 支持的 SA 對人機團隊流暢性的主觀和客觀影響[11]。重要的是,這些發現強調了為人機協作開發 "正確 "的 xAI 模型以及支持學習這些 xAI 模型的優化方法的重要性。
找出通過基于學習的技術產生的智能體在質量上的差距,并探索基于 xAI 的技術作為提高人機協作性能的潛在解決方案。人機協作領域中最先進的協作代理是僵化的,其重點是提高智能體的個性化貢獻,而不是人機團隊之間的有效協作。為了消除個性化協調與成功人機協作之間的性能差距,探索利用可解釋模型和圖形用戶界面,讓最終用戶與通過強化學習訓練的可解釋機器人策略進行交互。這種圖形用戶界面允許終端用戶 "深入 "機器學習模型,調整承受能力或交互式地迭代重新編程行為。重要的是,發現有證據表明,在交互式修改的支持下,用戶與白盒智能體組隊的效果優于單獨與白盒智能體組隊的效果。
圖 1.1: 該圖顯示了論文概覽。在第 4 章和第 5 章中,利用基于圖的架構來有效地模擬和促進多智能體系統中的通信。在第 6 章和第 9 章中,為機器人同行提供了更多個性化服務。在第7章和第8章中,通過使用可解釋人工智能技術來促進機器人與人類之間的定向交流。這些內容有助于促進團隊內共享心智模型的發展,從而實現高質量的人機協作。
近年來,對無人駕駛車輛等自主實體的研究開始給軍事和民用設備帶來革命性的變化。自主實體的一個重要研究重點是自主機器人群的協調問題。傳統上,機器人模型被用于考慮操作機器人群所需最低規格的算法。然而,這些理論模型也忽略了重要的實際細節。其中一些細節,如時間,以前也曾被考慮過(如執行的歷時)。在本論文中,將結合幾個問題來研究這些細節,并引入新的性能指標來捕捉實際細節。具體來說,我們引入了三個新指標:(1) 距離復雜度(反映機器人的耗電量和損耗),(2) 空間復雜度(反映算法運行所需的空間),(3) 局部計算復雜度(反映蜂群中每個機器人的計算要求)。
將這些指標應用于研究一些著名的重要問題,如完全可見性和任意模式形成。還引入并研究了一個新問題--"門道出口",它抓住了機器人群在受限空間中導航的本質。首先,研究了一類完全可見性算法所使用的距離和空間復雜性。其次,提供了整數平面上的完全可見性算法,包括一些在時間、距離復雜度和空間復雜度方面漸近最優的算法。第三,介紹了門道出口問題,并為各種機器人群模型提供了不同最優性的算法。最后,還提供了網格上任意圖案形成的最優算法。
近年來,計算機視覺和機器學習系統有了顯著改善,這主要是基于深度學習系統的發展,從而在目標檢測任務上取得了令人印象深刻的性能。理解圖像內容則要困難得多。即使是簡單的情況,如 "握手"、"遛狗"、"打乒乓球 "或 "人們在等公交車",也會帶來巨大的挑戰。每種情況都由共同的目標組成,但既不能作為單一實體進行可靠的檢測,也不能通過其各部分的簡單共同出現進行檢測。
這篇論文將描述一個用于進行視覺情境識別的新型系統,其目標是開發能夠展示與理解相關特性的機器學習系統。該系統被稱為 Situate,它能在給出情況描述和少量標注訓練集的情況下,學習目標外觀模型以及捕捉情況預期空間關系的概率模型。給定一張新圖片后,Situate 會利用其學習到的模型和一系列智能體對輸入內容進行主動搜索,以找到情況模型與圖片內容之間最一致的對應關系。每個智能體都會開發模型與輸入內容之間可能存在的對應關系,而 Situate 會為智能體分配計算資源,以便盡早開發出有希望的解決方案,但也不會忽略其他對應關系。
將把 Situate 與更傳統的計算機視覺方法(該方法依賴于檢測情境中的組成目標)以及基于 "場景圖 "的相關圖像檢索系統進行比較。將在情境識別任務和圖像檢索中對每種方法進行評估。結果表明了圖像內容和該內容模型之間的反饋系統的價值。
過去幾十年來,在安全、監視、情報收集和偵察等許多領域,對目標跟蹤(OT)應用的需求一直在增加。最近,對無人系統新定義的要求提高了人們對 OT 的興趣。機器學習、數據分析和深度學習的進步為識別和跟蹤感興趣的目標提供了便利;然而,持續跟蹤目前是許多研究項目感興趣的問題。本論文提出了一個系統,實現了一種持續跟蹤目標并根據其先前路徑預測其軌跡的方法,即使該目標在一段時間內被部分或完全隱藏。該系統分為兩個階段: 第一階段利用單個固定攝像機系統,第二階段由多個固定攝像機組成的網狀系統。第一階段系統由六個主要子系統組成:圖像處理、檢測算法、圖像減法器、圖像跟蹤、跟蹤預測器和反饋分析器。系統的第二階段增加了兩個主要子系統:協調管理器和相機控制器管理器。這些系統結合在一起,可以在目標隱藏的情況下實現合理的目標跟蹤連續性。
人工智能對齊 (AI Alignment) 旨在使人工智能系統的行為與人類的意圖和價值觀相一致。隨著 人工智能系統的能力日益增強,對齊失敗帶來的風險也在不斷增加。數百位人工智能專家和公眾人物已經 表達了對人工智能風險的擔憂,他們認為 “減輕人工智能帶來的滅絕風險應該成為全球優先考慮的問題,與 其他社會規模的風險如大流行病和核戰爭并列” [1]。為了提供對齊領域的全面和最新概述,本文在這份綜 述中深入探討了對齊的核心概念、方法和實踐。首先,本文確定了人工智能對齊的四個關鍵目標:魯棒性 (Robustness)、可解釋性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) (RICE)。在這 四個目標原則的指導下,本文概述了當前人工智能對齊研究的全貌,并將其分解為兩個關鍵組成部分:前 向對齊和后向對齊。前者旨在通過對齊訓練使人工智能系統對齊,而后者旨在檢驗系統的對齊性,并適當 地管理它們,以避免加劇對齊失敗帶來的風險。前向對齊和后向對齊形成了對齊循環,在這個循環過程中, 前向過程中人工智能系統的對齊度在后向過程中得到驗證,而這種驗證同時為下一輪的前向對齊提供更新 后的對齊需求。在前向對齊中,本文討論了從反饋中學習和在分布偏移下學習的技術。具體來說,本文調查 了傳統的偏好建模方法和從人類反饋中的強化學習 (RLHF),并進一步討論了對于難以獲得有效人類監督 的任務, 如何實現 “可擴展監督”。在分布偏移下學習中,本文涵蓋了數據分布干預方法,如對抗訓練,并介 紹了如何采取算法干預來實現分布外目標泛化。在后向對齊上,本文討論了對齊保證如何保證人工智能系 統在訓練后依然擁有對齊性,以及人工智能治理在對齊環節中的必要性。具體來說,本文調研了在人工智 能系統生命周期中的對齊保證,包括安全評估、可解釋性和人類價值契合性驗證。本文進一步討論了不同 政府、產業參與者和其他第三方當下采用的治理實踐方法,并探討建立一個包含國家、企業、學術界等多方 共同參與的人工智能監管體系,從而管理現有和未來的人工智能風險。 //alignmentsurvey.com/
1 引言
隨著人工智能系統愈發強大,它們被逐漸應用于不同領域 (§1.1.1),比如基于大語言模型 (Large Language Models, LLMs)[2-3]的智能體開發,以及應用深度強化學習 (Deep Reinforcement Learning, DRL) 控制核聚 變[4]。然而,這些人工智能系統能力的提升和在高風險領域的應用帶來了更高的潛在危險。先進人工智能 系統表現出的各種不良行為(例如,操縱[5-9] 和欺騙[10])引發了人們對人工智能系統可能帶來的倫理和安 全挑戰的擔憂。 這些擔憂進一步激發了對人工智能對齊 (AI Alignment)[11-14] 的研究努力。人工智能對齊旨在使人工 智能系統的行為與人類的意圖和價值觀一致[15] – 它更多關注的是人工智能系統的意圖和目標,而不是它們 的能力。對齊失敗 (即未對齊) 是人工智能可能造成危害的最突出的原因之一。這些失敗背后的機制包括獎 勵破解[16] 和目標錯誤泛化[17]等,而雙刃劍組件的存在又進一步放大對齊失敗可能帶來的危害,例如態勢 感知[18]、廣泛目標[19]、內優化目標[20]以及對資源訪問權限擴大[21] (§1.3)。 為解決對齊失敗,本文專注于實現對齊的四個關鍵目標(§1.1.2):魯棒性,可解釋性,可控性,和道德 性(RICE)。當前關于對齊的研究和實踐包括四個領域(§1.2):從反饋中學習(§2),在分布偏移下學習 (§3),對齊保證(§4),和人工智能治理(§5)。這四個目標 (RICE) 和四個領域并不是一一對應的。每個單 獨的領域通常服務于多個對齊目標,反之亦然(參見表 1)。同時,這四個領域和四個目標共同構成了對齊 循環 (參見圖2)。 在這份綜述中介紹了人工智能對齊的概念,方法和實踐,并討論了可能的未來研究方向。**1.1 對齊問題表征 **人工智能對齊的動機可以被闡述為三步論證,每一步都建立在前一步的基礎上: (1) 基于深度學習的系 統 (或應用) 對社會的影響越來越大,并可能會帶來重大風險 (§1.1.1);(2) 對齊失敗代表了重大風險的一個 主要來源 (§1.1.1); (3) 對齊的研究和實踐旨在解決來自不對齊系統的風險 (例如權力尋求的行為) (§1.1.2)。 **1.1.1 AGI 的前景和影響 在最近的十年中,深度學習領域取得了顯著的進步,其發展范圍從符號系統[22-23]擴展到基于自監督學 習的人工智能系統[24-25]。這一進展使得大型神經網絡在各種領域中都展現出了卓越的能力,特別是在游戲環 境[26-28]以及復雜且高風險的真實世界應用場景[29,4]中。大語言模型在多步推理[30-31]和跨任務泛化[32-33]方 面的能力也不斷增強。這些能力的提升與訓練時間的延長、訓練數據量的增加以及模型參數的擴大密切相 關[34-36]。 隨著人工智能系統能力的增強,其帶來的風險也隨之增加。大語言模型的一些不良行為 (例如,不真 實的回答[37]、諂媚[6,9]和欺騙[38,10] ) 也隨著模型規模的增加而惡化[6],引發人們對先進人工智能系統道德 性的擔憂。此外,如 基于大語言模型的智能體[2-3]等新興趨勢也激起人們對系統可控性的探討[39]。展望未 來,人工智能系統的日益強大為在可預見的未來實現通用人工智能 (AGI) 提供了可能性,即系統可以在所 有相關方面達到或超過人類智能[40]。這可能帶來廣泛的機會[41],如自動化[42]、效率提升[43]和快速的技術 進步[44],但也可能帶來嚴重的風險[1,45],如安全問題[46]、偏見和不平等[47],以及來自超人類能力人工智 能系統的大規模風險[48-49]。以偏見為例,最先進的大語言模型表現出對性別、性身份和移民身份等明顯的 偏見[6],這可能加劇社會現有的不平等現象。在超人類能力人工智能系統的大規模風險中[48],先進人工智能系統可能帶來的全球性災難性風險尤其 令人擔憂 (如全球范圍內的嚴重危害) [50-52] 和存在性風險 (即威脅到人類長期生存的潛在毀滅性風險) [12]。 這些擔憂在第一原理演繹論證[53,49],進化分析[54],和具體情境映射[55-56] 中得到了詳細闡述。在 CAIS[1] 中,人工智能科學家和其他知名人士表示,減輕人工智能引發的滅絕風險應與其他社會規模的風險如大流 行病和核戰爭一樣,成為全球優先考慮的問題。在 NeurIPS 2021 和 ICML 2021 上,Stein-Perlman et al.[57] 發布報告稱,有 50% 的研究者認為先進人工智能系統對人類的長期影響有 5% 的可能性會是極度糟糕的 (如人類滅絕),而 36% 的 NLP 研究者在 Michael et al.[58] 的調查中報告認為,人工智能有可能在本世紀內 產生災難性的結果,其級別相當于全面核戰爭。 人工智能的存在性風險還包括鎖定風險、停滯風險[11,46], 以及滅絕風險等。11 月初,英國舉辦了首屆全球人工智能安全峰會,匯集了國際政府、領先的人工智能 科技公司、民間社會團體和研究專家。峰會上發布了《布萊切利宣言》,宣言中強調共同識別人工智能安全 風險、提升透明度和公平性,建立科學和證據為基礎的共享理解。 具體來說,當前最先進的人工智能系統已經表現出多種與人類意圖相悖的不良或有害行為 (例如,權力 尋求和操縱用戶的行為) [59-60],并且一些論文也對更先進的人工智能系統提出了類似的擔憂[61,1]。這些不 符合人類意圖的不良或有害行為,被稱為人工智能系統的對齊失敗,這些對齊失敗行為即使沒有惡意行為 者的濫用,也可能自然發生,并代表了人工智能的重大風險來源,包括安全隱患[62]和潛在的生存風險[51]。 由于 (1) 構建超智能人工智能系統 (2) 這些人工智能系統追求大規模目標 (3) 這些目標與人類意圖和價值 觀不對齊 (4) 以及這種對齊失敗導致人類失去對未來軌跡控制的可能性非常大,因此這些風險的規模將相 當龐大[53]。 解決對齊失敗帶來的風險需要人工智能系統的對齊技術,以確保人工智能系統的目標與人類意圖和價 值觀一致,從而避免非預期的不利結果。更重要的是,本文期望對齊技術能夠應對更困難的任務,并且能夠 應用于比人類更智能的先進人工智能系統。一個可能的解決方案是超級對齊,其目標是構建一個大致與人 類水平相當的自動對齊研究器,從而使用大量的計算能力來迭代并擴增對齊超智能[63]。1.1.2 對齊的目標:RICE 原則我們如何構建與人類價值和意圖對齊的人工智能系統?**目前并沒有一個被普遍接受的用來衡量對齊的標準。在討論之前,我們必須明確本文所說的對齊目標 是什么。Leike et al.[15]提出智能體對齊問題,并指出了這樣的問題:“如何創建能夠按照用戶意圖行事的智 能體?” 進一步,其將問題擴展到了超級人工智能系統上[63]:“如何確保比人類更聰明的人工智能系統遵循 人類的意圖?” 在這些討論中,一個一致的主題是對人類意圖的關注。為了清楚地定義對齊目標,我們必須 準確地描述人類的意圖,正如 Kenton et al.[64]所指出的,這是一個具有挑戰性的任務。例如,人類可以代表從個體到人類群體的各種實體。Gabriel[65]將意圖分為幾個類別,如指令 (遵循用戶的直接命令)、表達的 意圖 (根據用戶的潛在愿望行事)、揭示的偏好 (反映用戶的基于行為的偏好) 等。 具體來說,我們用四個關鍵詞來描述對齊的目標:魯棒性,可解釋性,可控性,和道德性(RICE)。圖 1 總結了這些原則,表 1 給出了綜述中涵蓋的對齊研究方向與 RICE 原則之間的對應關系。以下是對四個 原則的詳細解釋。
魯棒性指人工智能系統在面對多樣化場景[66]或對抗壓力[67]時的抵抗力,特別是保證其目標的正確 性以及能力泛化性。魯棒的人工智能系統能夠應對黑天鵝事件[68]和長尾風險[62],以及各種對抗壓 力[69-70]。例如,一個初步對齊的大語言模型可以拒絕執行有害的請求,但用戶可以通過越獄提示和其 他對抗攻擊使得模型被迫執行有害的行為[71-73]。而一個能夠抵抗對抗攻擊的模型在面對誘發系統失敗 的輸入時仍能按照預期行事。隨著人工智能系統在軍事和經濟等高風險領域的應用越來越廣泛[74],我 們更要確保它能抵御意外中斷和對抗攻擊,因為即使是瞬間的失敗也可能帶來災難性的后果[75-76,67]。 一個對齊的系統應在其生命周期內始終保持魯棒性[77]。
可解釋性要求人類能理解人工智能系統的內在推理過程,特別是黑盒神經網絡的內部工作原理[78]。 直接的對齊評估方法,如行為評估,可能會受到人工智能系統不誠實行為的干擾[79,10,38]或欺騙性對 齊[80-81]的影響。解決這些問題的一種方法是在構建系統的過程中設計必要機制使人工智能系統誠實、 不隱藏、不操縱[82-84]。或者,我們可以構建可解釋性工具,深入了解神經網絡內部的概念和推理機 制[85-86]。除了使安全評估成為可能,可解釋性還使決策過程對于用戶和利益相關者透明和易于理解, 從而實現人類的有效監督。隨著人工智能系統在現實世界的決策過程和高風險環境中扮演越來越重要 的角色[87],揭示決策過程而不是讓它保持作為一個不透明的黑盒系統變得至關重要[88-89]。 * 可控性是一種必要的屬性,它確保系統的行動和決策過程始終受到人類監督和約束。它保證人類可以 及時糾正系統行為中的任何偏差或錯誤[90-91]。隨著人工智能技術的日益發展,越來越多的研究表達了 對這些強大系統的可控性的關注和擔憂[61,92-93]。當一個人工智能系統開始追求與其人類設計者相矛 盾的目標時,它可能表現出一些具有重大風險的能力,包括欺騙、操縱用戶和權力尋求的行為[21,93]。 可控性的目標主要集中在如何在訓練過程中實現可擴展的人類監督[94],以及人工智能系統的可糾正 性 (即在部署過程中不抵制關閉或目標修改) [90]。
道德性指一個系統在決策和行動中堅定不移地維護人類的規范和價值觀。在這里,規范和價值觀包括 道德指南和其他社會規范/價值觀。它確保系統避免采取違反道德規范或社會公約的行為,例如對特定 群體展示偏見[95-100],對個人造成傷害[101-102,60],以及在匯總偏好時缺乏多樣性或公平性[103]。有大 量的研究致力于為人工智能系統開發道德框架[104-105]。將道德原則融入人工智能系統是實現人機共生 社會的必經之路[106]。
與其他原則的比較探討 RICE 原則從人機對齊和人機共存的角度,簡潔地總結了人工智能對齊的目標。以 前的一些研究提出了關于人工智能系統建設的指導方針。例如,阿西莫夫法則可以被視為人機共存的最早 探索,它強調機器人應該造福人類并探討了實現這一目標的困難所在[107]。另一方面,FATE 原則 (公平性、 問責機制、透明性和倫理性) [108]傾向于定義人工智能系統在人機共存生態系統中應具備的高級品質。我們 希望從人類管理者和設計者的立場回答人機共存的問題,考慮確保人工智能系統符合人類意圖和價值的必 要步驟。此外,一些標準強調了狹義的人工智能安全,例如 3H 標準 (幫助性、誠實性和無害性) [33]和政府 機構的相關提案[109]。我們的目標是通過引入其他關鍵維度,包括可控性和魯棒性,來擴展這些狹義的安全 標準。
2 從反饋中學習
從反饋中學習旨在通過反饋將人類的意圖和價值觀傳達給人工智能系統,它是前向對齊的起點。在本 節中,我們將關注從反饋中學習的動態過程,并將其劃分為三個元素:(1) 人工智能系統:需要對齊的對象, 如對話系統、機器人系統等;(2) 反饋:這是用于調整人工智能系統的信息,由顧問集提供,顧問集可以由 人類、人工智能或由人工智能協助的人類組成;(3) 代理:用于建模反饋的系統,以使得算法學習更易訪問, 例如 RLHF 中的獎勵模型。基于這些元素,我們確定了人工智能系統從反饋中學習的兩種途徑:(1) 直接 從反饋本身學習 (2) 通過對反饋建模得到的代理進行間接學習。 基于這個過程,我們從對齊的角度討論反饋類型 §2.1,區分向人工智能系統提供信息的各種形式及其 特點。在隨后的部分中,我們介紹了一些最近為構建強大人工智能系統[113]和使它們與人類意圖對齊[273]提 供了深入見解的基本概念。偏好建模 §2.2強調了如何利用這一技術幫助構建代理,以協助人類向復雜或難 以評估的人工智能系統提供反饋。策略學習 §2.3關注那些使用反饋構建強大人工智能系統的主要研究方向。隨后,我們的討論將自然過渡到可擴展監督 §2.4,在這一部分,我們從更廣闊的對齊視角反思學習過程和 目標。
3 在分布偏移下學習
可靠的人工智能系統的構建在很大程度上依賴于它們適應多樣化數據分布的能力。訓練數據和訓練環 境往往是實際部署場景的不完美近似,這導致它們可能缺少某些關鍵元素,如對抗壓力[441] (例如,在監督 學習系統中的高斯噪聲[442],在自動駕駛系統中的影子攻擊[443] ),多智能體交互情景[61,131],人類監督者無 法有效評估的復雜任務[15],29以及可以被操控的獎勵機制[121]。從訓練分布到測試分布 (或環境) 的這種差 異轉變被稱為分布偏移[121-122]。 因此,在訓練分布下對齊的人工智能系統 (即追求與人類意圖一致的目標) 可能在部署 (或測試) 分布 下無法保持其對齊性,進而在部署后導致嚴重的對齊問題。這種可能的失敗引發了關于在數據分布之間保 持對齊屬性 (即遵守人類意圖和價值) 的研究。 從對齊的角度來看,我們更關心人工智能系統是否追求不對齊和有害的目標,而不是本身的能力強弱。 因此,強調對齊屬性意味著我們關注在分布之間的目標泛化,而不是能力泛化[124,19]。 本節主要討論在分布偏移下學習時保持對齊屬性的問題。我們首先介紹分布偏移帶來的對齊挑戰 (§3.1)。 然后,我們深入討論解決分布偏移的方法,并特別討論兩類路徑:(1) 算法干預 (§3.2):旨在在訓練過程中 引導優化;(2) 數據分布干預 (§3.3):旨在通過在訓練過程中引入特定元素或分布來擴展訓練分布,相關技 術包括對抗訓練[444,130,445]和合作訓練[131-132] (§3.3.2) 等。在分布偏移下學習的框架如圖6所示。
4 對齊保證
在人工智能系統實際訓練和部署之后,進行對齊保證是至關重要的。這一過程涉及到對人工智能系統 實用性的測量和評估,確保其能夠達到預期的效果[537]。對齊保證可以分為三個主要部分。首先,安全測評 是基礎,它涉及評估人工智能系統在執行任務時最小化事故的能力。其次,可解釋性是必要的,以確保人類 能夠理解人工智能系統的決策過程,這有助于保障系統的安全性和互操作性。最后,人類價值驗證對于確 保人工智能系統能夠符合人類的價值觀、道德和社會規范至關重要,這是人工智能融入人類社會的高級需 求(如圖9所示)。
5 人工智能治理
除了技術解決方案之外,人工智能治理,即規則的制定和執行,對確保人工智能系統的安全開發和部 署是必要的。本節通過探討人工智能治理的角色,治理人工智能的各方利益相關者的職能與相互關系,以 及有效人工智能治理面臨的一些開放性挑戰三方面,對人工智能治理進行文獻綜述。
6 結論
在這篇綜述中,本文對人工智能對齊進行了全面的介紹,人工智能對齊的目標是構建行為符合人類意 圖和價值觀的人工智能系統。本文將對齊的目標歸納為魯棒性、可解釋性、可控性和道德性 (RICE),并將 對齊方法的范圍劃分為前向對齊 (通過對齊訓練使人工智能系統對齊) 和后向對齊 (獲取人工智能系統對齊 的證據,并適當地對其進行管理,以避免加劇對齊風險)。目前,前向對齊的兩個顯著研究領域是從反饋中 學習和在分布偏移下學習,而后向對齊則包括對齊保證和人工智能治理。 與許多其他領域相比,人工智能對齊的一個特點是其多樣性[806] – 它是多個研究方向和方法的緊密組 合,通過共享的目標而非共享的方法論將其聯系在一起。這種多樣性帶來了好處。它通過讓不同的方向進 行競爭和沖突,促進了創新和思想的交叉傳播。它還允許不同的研究方向互相補充,共同服務于對齊的目 標;這體現在對齊循環 (見圖2),其中四個支柱被整合成一個自我改進的循環,不斷提高人工智能系統的對 齊性。同時,這種研究方向的多樣性提高了進入這個領域的門檻,這就需要編制組織良好的調查材料,既服 務于新人,也服務于有經驗的研究人員。在這篇綜述中,本文試圖通過提供全面和最新的對齊概述來解決 這個需求。 本文試圖通過采用廣泛且包容的對齊特征來考慮到該領域內的全部多樣性。本文的對齊綜述幾乎關注 了這個領域的所有主要研究議程,以及對齊保證和人工智能治理方面的實際實踐。本文認識到對齊的邊界 往往是模糊的,并且有待爭議。因此,在提出RICE原則時,本文用對齊的廣泛特征作為明確的分類標準。同 時,本文認識到維護這樣的全面性綜述需要長期的努力,并不斷地進行審查和更新。對齊的問題和方法都 緊密跟隨機器學習的發展。這種快速的發展意味著新的材料和框架在短短幾年后就可能過時。這就是為什 么本文撰寫這篇綜述以反映最新的發展,并且也需要持續的維護和更新。 本文通過展望未來并展示我們認為的人工智能對齊領域未來需要解決的關鍵問題來結束這篇綜述。
美國空軍越來越關注人工智能(AI)在增強作戰各方面能力方面的潛力。在這個項目中,空軍要求蘭德公司的研究人員考慮人工智能無法做到的事情,以了解人工智能在作戰應用中的局限性。
研究人員沒有試圖確定人工智能的一般限制,而是選擇并調查了四個具體的作戰應用作為潛在用例:網絡安全、預測性維護、兵棋推演和任務規劃。選擇這些應用是為了代表各種可能的用途,同時突出不同的限制因素。在可以獲得足夠數據的三個案例中進行了人工智能實驗;剩下的兵棋推演案例則廣泛探討了如何應用或不能應用人工智能。
本報告是五卷系列中的第一卷,總結了所有應用案例的研究結果和建議。報告面向政策制定者、采購專業人員以及對將人工智能應用于作戰普遍感興趣的人員。
生成式AI系統的快速發展和崛起正在重塑各行各業以及人類的創造力。雖然生成式AI提供了新的機會,但它也可能放大對個人和社會帶來的現有和新出現的傷害。例如,我們已經看到了聊天機器人對用戶提示提供不恰當和有害的反饋,生成式AI深度偽造的廣泛傳播,以及合成兒童性虐待材料的創建。平衡生成式AI的潛在利益和風險是至關重要的。
這份立場聲明檢查了生成式AI的不斷演變的景觀,提供了生成式AI生命周期的概述、其使用和誤用的例子,以及在線安全風險和機會的考慮。聲明還提出了一系列監管挑戰和方法。最后一部分強調了新興的良好實踐和新的“安全設計”措施,為行業提供有意義的、可操作的和可實現的指導,以最小化現有和新出現的生成式AI傷害。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。
在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。
本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。
人工智能(AI)的最新進展引起了人們對人工智能系統需要被人類用戶理解的關注。可解釋人工智能(XAI)文獻旨在通過向用戶提供有關人工智能系統行為的必要信息來增強人類的理解和人類-人工智能團隊的表現。同時,人為因素文獻長期以來一直在解決有助于人類表現的重要考慮因素,包括如何確定人類的信息需求、人類負荷以及人類對自主系統的信任。從人類因素的文獻中,提出了可解釋人工智能的態勢感知框架(SAFE-AI),這是一個關于人工智能系統行為解釋的發展和評估的三級框架。提出的XAI級別是基于人類用戶的信息需求,這些需求可以用人因文獻中的態勢感知(SA)級別框架來確定。基于我們的XAI等級框架,我們還提出了一種評估XAI系統有效性的方法。進一步詳細說明了在確定解釋的內容和頻率時對人為負荷的考慮,以及可用于評估人為負荷的指標。最后,討論了通過解釋適當校準用戶對人工智能系統信任的重要性,以及XAI的其他與信任有關的考慮,還詳細介紹了可用于評估用戶對這些系統信任的指標。
隨著最近人工智能文獻中對可解釋人工智能(XAI)的關注,定義XAI系統應該傳達哪些信息以及如何衡量其有效性變得越來越重要。Gunning和Aha(2019)將XAI定義為 "能夠向人類用戶解釋其原理的人工智能系統,描述其優勢和劣勢,并傳達對其未來行為方式的理解"。我們采用了XAI的這一定義,并將解釋定義為支持人類推斷人工智能系統上述細節的必要信息,包括關于其輸入、模型和輸出的信息。開發XAI技術的動機經常被說成是需要在日益復雜的人工智能系統中實現透明化(Fox等人,2017;Lipton,2016),以及需要在日益不透明的系統中獲得用戶信任(Borgo等人,2018;Fox等人,2017;Lipton,2016)。提高人工智能系統的透明度和說明人類對這些系統的信任都有助于提高人類-人工智能團隊的績效;因此,支持人類-人工智能團隊的績效是XAI的主要目標之一。事實上,以前的研究已經證明了智能體的透明度對人類-AI團隊中人類隊友的任務表現的積極影響(Chen等人,2017,2018;Stowers等人,2016)。一些文獻認為,存在性能-可解釋性的交換,即更多可解釋的人工智能系統會以某種方式犧牲算法性能(Gunning & Aha,2019;Lipton,2016)。然而,如果缺乏系統的可解釋性抑制了團隊的整體表現,那么改進算法性能所提供的好處可能會喪失。例如,如果一個基于醫學機器學習的成像系統能夠在對某些醫療問題進行分類時取得更大的準確性,但它的方式使人類醫生更難注意到其判斷中的錯誤,醫生-AI團隊的績效可能會受到整體影響。因此,我們認為優化人類-AI團隊的表現,通過對系統行為的解釋來實現,是XAI的主要目標。
在人因方面存在著豐富的文獻,探討了人類與自動化系統互動的場景,以及在任務執行過程中影響人類表現的各種因素。態勢感知(SA)的概念,已經在人為因素領域和人類-自動化團隊的背景下進行了研究(Chen等人,2014;Endsley,1995),定義了人類在任何場景下操作的信息需求(Endsley,1995)。XAI系統,作為提供人工智能行為信息的系統,可以為人類用戶的SA子集做出貢獻,該子集與人工智能行為有關。通過XAI系統提供的支持人工智能的信息,可以提高人類-人工智能團隊的績效;然而,除了XAI支持的人工智能子集之外,整體的人工智能也是支持團隊績效的必要條件,但并不完全是充分條件(Endsley,1995)。
人為因素的文獻討論了其他的因素,這些因素對于人與AI團隊的表現同樣是必要的,并且也與XAI系統有關。首先,雖然SA定義了人類需要的信息,但工作負荷的考慮影響了如何以及何時提供這些信息(Parasuraman等人,2008)。其次,用戶對自動化系統的信任的重要性已經在之前的文獻中得到了明確的探討(Lee & See, 2004; Schaefer等人, 2014)。重點不是增加用戶的信任,這通常被作為XAI的動機(Borgo等人,2018;Fox等人,2017;Krarup等人,2019),而是適當地校準信任,導致人工智能系統的適當使用(Chen等人,2014;Ososky等人,2014;Schaefer等人,2014)。
除了討論SA、負荷和信任的概念以及對這些考慮因素的相關設計建議之外,文獻還將這些概念操作化,提供了評估的方法和指標(Parasuraman等人,2008)。正如SA支持但不等同于性能一樣,XAI系統提供的高質量解釋支持但不等同于SA、適當的人類工作負荷或對AI系統的充分信任。然而,根據與這些因素相關的方法和指標來評估XAI系統,有助于了解所提供的解釋是否實現了提高人與AI團隊績效的最終目標。除了團隊績效之外,將SA、工作負荷和信任作為XAI的中間目標來衡量,可以明確績效評估中存在的潛在混淆因素。
雖然之前已經提出了一些評估XAI系統不同方面的指標(Doshi-Velez和Kim,2017;Hoffman、Miller等人,2018;Hoffman、Mueller等人,2018;Lage等人,2019),但XAI文獻目前缺乏一套全面的評估解釋質量的合適指標。雖然可能無法明確和獨立地定義一個解釋的質量,但在許多情況下,一個解釋只有在它有助于實現SA、適當的信任和適當的工作負荷等中間目標以及提高績效的最終目標時才是 "好 "的。換句話說,在許多情況下,SA、信任和工作負荷以及團隊績效可以作為代理,表明XAI系統是否實現了它的預期目標,因為XAI系統的目標往往與這些概念有關。因此,XAI從業者可以利用現有的人類因素指標來評估他們所提出的技術。
在本文中,我們討論了與XAI相關的人類因素文獻(包括現有的XAI技術),并根據人類因素界的發現提出了一套XAI系統的設計考慮和評估指標。我們首先更詳細地討論了人的因素中的SA概念,并提出了可解釋人工智能的態勢感知框架(SAFE-AI),其中包括XAI的級別,定義了哪些關于人工智能算法和過程的信息應該由XAI系統來支持;這些級別與Endsley(1995)提出的SA級別緊密對應。我們進一步強調了一套現有的XAI技術如何適合我們的框架,以及用于評估現有技術的指標如何映射到SA的評估。SAFE-AI旨在為定義XAI系統的需求提供一個以人為本的結構化方法,為XAI技術的開發提供指導,并為XAI系統的評估提供指導。
SAFE-AI可以用來定義XAI系統的信息要求,但是信息要求本身并不能決定XAI系統的整個設計。同樣重要的是,要考慮在交互過程中的任何給定點向用戶展示多少信息,以及展示信息的頻率,以便用戶能夠實際處理這些信息。這些考慮與人類的工作負荷有關。此外,系統可能有必要向人類用戶提供額外的信息,以便適當地校準人類對系統的信任,這可能會影響到適當的使用和團隊表現。因此,在本文中,我們還討論了工作負荷和信任的人為因素概念,XAI中考慮過這些概念的現有工作,以及如何將與每個概念相關的指標應用于XAI系統的評估。理想情況下,SAFE-AI可以被應用于確定一套初始的交互信息要求,而信任和工作負荷的考慮可以被用來完善這套初始要求,并充實與XAI系統如何被整合到真實世界環境中有關的額外細節。這項工作的初步版本可以在Sanneman和Shah(2020)中找到。本文通過擴展與SAFE-AI框架相關的XAI技術的文獻回顧,以及包括對工作負荷和信任及其與XAI系統的關系的額外討論,對初步版本進行了擴展。
本文的其余部分組織如下:在第2節中,我們討論了態勢感知,包括來自人類因素的相關文獻,我們基于態勢感知的XAI框架,來自XAI文獻的相關例子,以及一個激勵性的例子來澄清對框架的討論。在第3節中,我們擴展了人類因素中人類工作負荷的概念,以及XAI的相關考慮和衡量標準。在第4節中,我們討論了XAI的信任相關考慮。在第5節中,我們根據人類因素文獻的結果和發現,列舉了未來可能的方向,在第6節中,我們總結了本文。