近年來,機器學習模型,尤其是深度學習和變壓器模型的性能空前提高,因此被廣泛應用于金融、醫療保健和教育等各個領域。然而,這些模型容易出錯,無法自主使用,尤其是在決策場景中,從技術或道德角度講,出錯的代價很高。此外,由于這些模型的黑箱性質,最終用戶往往難以理解模型的結果和底層過程,無法信任并使用模型結果做出決策。可解釋人工智能(XAI)通過利用包括可視化技術在內的方法來解釋和詮釋模型的內部運作以及如何得出結果,從而幫助最終用戶理解模型。盡管最近開展了大量研究,重點關注模型和 XAI 方法的性能,但關于解釋對人類-人工智能團隊性能的影響的研究較少。本文調查了近期關于 XAI 對人類-人工智能決策影響的實證研究,確定了面臨的挑戰,并提出了未來的研究方向。
人工智能輔助決策研究領域正在飛速發展,研究和實驗的數量也在穩步增加。然而,由于實驗中的任務和設置各不相同,關于 XAI 對人類決策的影響的研究結果也不盡相同[81]。還需要進行實證研究,以形成對人類與人工智能之間互動的基本理解,從而做出決策[20]。此外,人類在模型可解釋性中的作用及其對帶有或不帶 XAI 組件的人工智能輔助決策的影響也未得到充分研究[62]。例如,認知科學、社會科學和心理學中存在大量關于人類如何形成解釋并相互解釋不同現象的研究[64],這些研究對 XAI 領域,尤其是人工智能輔助決策環境中的 XAI 領域大有裨益。
新興技術(如人工智能 (AI)、自動駕駛)和聯合全域指揮與控制 (JADC2) 測試與評估 (T&E) 等操作概念將要求系統進行持續測試并產生更多數據。在整個測試周期中使用人工智能將使測試人員能夠處理數據,并以更快的速度和規模做出更客觀的決策。由于被測系統非常復雜,因此并不存在放之四海而皆準的軟件應用程序。相反,如果以實用的方式使用各種軟件包,可以提高訓練有素的測試與評估專業人員的能力,以應對新興技術的挑戰。本文列出了一份人工智能軟件工具清單,并總結了它們在測試與評估中的潛在應用功能。向測試界提供這份清單,并在可能的情況下利用 DoDTechipedia 等合作網站,將提高人們對可用工具及其功能的認識,鼓勵交流與合作,并有助于當前和未來工具的使用。
人工智能工具的形式多種多樣,并采用不同的方法來滿足用戶的需求。當 T&E 專業人員在實踐中采用人工智能時,他們可以參考這份資源清單,為他們的軟件實施決策提供信息,以實現特定目標。本研究建立了一個包含七種工具功能的框架:計劃、存儲、運輸、準備、可視化、分析和監控。這七種功能的定義如下。
為計算機生成兵力(CGF)創建行為模型是一項具有挑戰性且耗時的任務,通常需要具備復雜人工智能算法編程方面的專業知識。因此,對于了解應用領域和培訓目標的主題專家來說,很難建立相關的場景并使培訓系統與培訓需求保持同步。近年來,機器學習作為一種為合成智能體建立高級決策模型的方法,已顯示出良好的前景。這類智能體已經能夠在撲克、圍棋和星際爭霸等復雜游戲中擊敗人類冠軍。我們有理由相信,軍事模擬領域也有可能取得類似的成就。然而,為了有效地應用這些技術,必須獲得正確的工具,并了解算法的能力和局限性。
本文討論了深度強化學習的高效應用,這是一種機器學習技術,可讓合成智能體學習如何通過與環境互動來實現目標。我們首先概述了現有的深度強化學習開源框架,以及最新算法的參考實現庫。然后,我們舉例說明如何利用這些資源為旨在支持戰斗機飛行員培訓的計算機生成兵力軟件構建強化學習環境。最后,基于我們在所介紹環境中進行的探索性實驗,我們討論了在空戰訓練系統領域應用強化學習技術的機遇和挑戰,目的是為計算機生成的兵力有效構建高質量的行為模型。
在實驗中,將強化學習環境構建為實現 OpenAI Gym 接口的 Python 模塊,因為許多現有的強化學習算法實現都支持該接口。環境的結構如圖 2 所示。環境的大部分功能都在 EnvironmentCore 類中實現。該類通過 SimulationInterface 與本地或遠程計算機上運行的仿真進程通信,在仿真中的實體和控制它們的強化學習智能體之間傳輸觀察結果和操作。SimulationInterface 還用于在計算機生成兵力軟件中加載模擬場景。
模擬與環境模塊之間的通信是通過 ZeroMQ 實現的,ZeroMQ 是一個開源、輕量級的消息傳遞中間件,可綁定多種編程語言,包括 C++ 和 Python。ZeroMQ 可以輕松實現幾種流行的消息傳遞模式,如請求-回復、發布-訂閱和推-拉。ZeroMQ使用谷歌協議緩沖區(Google protocol buffers)來指定消息,這是一種語言中立、平臺中立的結構化數據序列化機制。使用簡單的協議語言創建消息規范,然后將其編譯成各種編程語言(包括 C++ 和 Python)的源代碼。
要配置特定的環境,需要使用一些委托對象:
在空戰模擬領域的深度強化學習實驗中,我們發現了一些挑戰,這些挑戰通常不存在于許多強化學習的簡單基準環境中。狀態和行動空間的維度高且復雜,使得智能體難以學習重要的狀態特征和合適的決策策略。例如,在許多場景中,由于傳感器的限制或電子戰的影響,環境只能被部分觀測到。此外,在大多數場景中,智能體不會單獨行動,而是必須與盟友合作,同時與敵人競爭,以達到目標。為了處理長期和短期目標,可能需要在不同的時間尺度上進行決策。代表最重要目標的獎勵通常是延遲的、稀疏的,例如,如果智能體取得了勝利,就會在情景結束時給予獎勵,這樣就很難將功勞歸于正確的行動。此外,根據訓練需要,智能體的目標也有可能在不同的模擬運行中有所不同。例如,我們可能需要調整模擬的難度,以適應受訓者的熟練程度。最后,由于運行高保真模擬的計算成本很高,因此盡可能提高學習過程的樣本效率非常重要。在下面的章節中,我們將討論一些可以用來應對這些挑戰的技術。
機器學習模型最終用于在現實世界中做出決策,其中的錯誤可能代價極高。我們對神經網絡及其訓練過程的理解仍然出奇地少,結果是,我們的模型脆弱,經常依賴于虛假特征,在微小的分布變化下泛化能力差。此外,這些模型往往無法忠實地表示其預測中的不確定性,進一步限制了它們的適用性。在這篇論文中,我展示了關于神經網絡損失表面、概率深度學習、不確定性估計以及對分布變化的魯棒性的研究成果。在這些工作中,我們旨在構建對模型、訓練程序及其局限性的基礎理解,并利用這種理解來開發實際有影響力、可解釋性強、魯棒性好且廣泛適用的方法和模型。
在過去幾年中,我們見證了深度學習多個領域的顯著進步。我們現在擁有可以超越人類水平下國際象棋的深度學習模型 [Silver et al. 2016],推進蛋白質折疊領域的神經網絡 [Jumper et al. 2021],能根據文本描述創建逼真圖像和視頻的生成模型 [Ramesh et al. 2021; Saharia et al. 2022],以及展現出通用智能跡象的語言模型 [OpenAI 2023; Bubeck et al. 2023]。不可避免地,我們也看到越來越多的深度學習模型應用于現實世界,如自動駕駛汽車、用于自動診斷的醫學成像模型,以及圍繞語言模型構建的個人助理和其他系統。
然而,這些系統仍存在重大局限性,使得它們的廣泛采用面臨挑戰。特別是,量化深度學習模型預測中的不確定性仍然具有挑戰性 [Guo et al. 2017; Kadavath et al. 2022; Minderer et al. 2021]。結果是,我們往往很難知道何時可以信任這些模型,何時應該依賴人類專家。另一個主要問題是,神經網絡經常依賴于捷徑特征,并在測試數據分布與訓練分布不同時泛化能力差 [Geirhos et al. 2018; Hendrycks and Dietterich 2019],這在大多數實際應用中都是如此。
到目前為止,我的大部分研究都是從高層次上理解深度學習。我相信,通過解構我們的模型和方法并理解各個部分,我們可以建立更好的直覺和機械性理解,了解它們是如何工作的。最終,這種理解通常會轉化為更好的模型、方法和訓練程序。在整篇論文中,我展示了幾個這種類型的工作示例。
本論文的其余部分安排如下。在第2章中,我介紹了神經網絡損失表面中最優解集合的結構。我還提出了基于對損失表面的觀察而激發的深度神經網絡改進訓練和快速集成的實用方法。在第3章中,我展示了貝葉斯神經網絡的廣泛闡述以及對泛化的概率視角。我還提出了改進深度神經網絡不確定性估計的實用方法。在第4章中,我報告了對貝葉斯神經網絡后驗分布的詳細科學研究結果,提出了許多挑戰傳統智慧的驚人觀察。特別是,我描述了導致貝葉斯神經網絡在分布偏移下表現不佳的確切機制,并提出了部分解決方案。在第5章中,我描述了我們在存在捷徑特征的情況下神經網絡的特征學習工作,以及減少對這些特征依賴的方法。最后,在第6章中我總結了這篇論文。
人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。
為了充分測試 AIES,測試與評估界需要應對以下挑戰:
圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。
美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。
美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。
作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。
分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。
指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。
建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。
如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。
在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。
作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。
AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。
這個項目的目標是開發一個框架,在這個框架中,不同的認知技能和行為可以被結合起來,產生智能和安全的機器人行為。美國防部自主性委員會最近發現了自主性和人工智能研究中的一個問題;即正在產生的大多數人工智能行為基本上是獨立工作的,如果沒有重大的研究和開發努力,就無法與其他行為或技能相結合。
為了說明這一點,請考慮一個機器人,它的工作是在一個安全設施周圍巡邏,只需完成幾個簡單的任務:確保它看到的每個人都被授權在那里,并掃描大樓以確保實驗室和辦公室的門在沒有人的時候總是關閉和安全。現在,假設該設施的主管來到機器人身邊,與它并肩而行,要求它報告其一天的工作情況。機器人應該怎么做?機器人可以獲得相關的行為和知識(它知道如何巡邏,它知道如何和人類一起走過走廊,它的各個行為都知道它們當天做了什么),但它沒有被明確設計為一起做這些事情。
完全處理這種情況需要機器人超越執行孤立的、獨立的行為的模式,在任務執行和知識方面結合其組成行為。例如,它對做什么的推理,要求機器人考慮與主管交談或繼續執行其巡邏期限的相對效用。例如,最高效用的行動方案是同時追求兩個潛在的目標,在繼續沿著走廊巡邏時與主任交談;但這種交錯的行為引起了潛在的安全問題,在制定行動計劃時需要加以考慮(例如在轉身看門口時要確保不碰到人類)。它向主管報告當天的情況時,需要機器人將當天執行的行為的知識匯總到一個全面的知識庫中,以便提供一個智能的、有意義的報告。隨著我們朝著合格的戰術機器人在戰場上工作的目標邁進,這些問題將更加需要解決,以確保機器人能夠安全和智能地協助作戰人員。
在這項工作中,我們的目標是開發一個框架,通過研究這兩個重要的問題,采取步驟將單個行為和技能結合起來:(1)我們如何選擇在任何特定時間執行和交錯的行為和技能,同時考慮實用性和安全性? 2)在執行不相關的技能和行為時,如何有意義地結合知識,以支持智能行為?
圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。
開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。
這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。
當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。
只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。
實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。
但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。
在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。
盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。
作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。
深度學習正變得越來越普遍,由于它的成功,它很可能在未來幾年被應用到我們生活的幾乎每個方面。然而,它的成功故事掩蓋了在現實世界中不慎應用它所帶來的危險。事實上,即使深度學習模型在準確性(或任何其他選擇的指標)方面報告了驚人的高性能,它們也不能保證模型在實際使用時不會出現任何意外行為。這在安全關鍵型應用程序中尤其危險,在這種應用程序中,即使一個無法預見的錯誤也可能造成嚴重的后果。此外,每走錯一步,人類對這項技術的信心就會動搖,從而延緩了它的采用。因此,通過減少(如果不是完全排除)所有意想不到的行為來提高這些模型的可信性是極其重要的。
//ora.ox.ac.uk/objects/uuid:6a59319b-fe5e-44b8-875c-fa679e578f2e
在這篇論文中,我要解決的問題是,如何構建基于深度學習的模型能夠 (I)保證滿足給定的一組需求,這些需求陳述了模型的正確行為,(ii)從需求本身指定的背景知識中學習以提高性能。我特別關注(I)多標簽分類問題的深度學習模型,以及(ii)作為硬邏輯約束建模的需求。為了實現這一目標,我首先考慮具有層次約束的多標簽分類問題,然后逐步增加約束的表達能力。在項目的第一階段,專注于分層多標簽分類問題,這是在A1→A形式的輸出空間上有分層約束的多標簽分類問題,表示A1是A的子類。針對這類問題,我開發了一個新的模型C-HMCNN(h),對于底層的多標簽分類問題,給定網絡h,利用層次結構信息來產生預測,保證滿足層次結構約束并提高h的性能。在項目的第二階段,我考慮了用正常邏輯規則表示的約束,即A1,…, Ak, k+1,…, An→a這個表達式強制每當類A1,…, Ak為預測值,而Ak+1,…,則應預測A類。針對這個問題,我開發了CCN(h),它是C-HMCNN(h)的擴展。對于底層的多標簽分類問題,該模型給出了一個網絡h,它能夠(i)產生保證滿足約束的預測,并且(ii)利用約束中包含的信息來提高性能。最后,為了說明本文所處理問題的重要性,我創建了帶有邏輯需求的ROad事件感知數據集(ROad - r),這是第一個公開的自動駕駛數據集,其需求建模為輸出空間上的約束,并表示為命題邏輯公式。通過創建ROADR,我能夠表明當前最先進的模型不能僅從數據點了解需求。我的實驗結果表明,他們超過90%的預測違反了約束條件,并且有可能利用給定的需求來創建(i)具有更好的性能和(ii)保證符合給定的需求的模型。
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
數據作為深度學習的驅動力,對于模型的訓練至關重要。充足的訓練數據不僅可以緩解模型在訓練時的過擬合問題,而且可以進一步擴大參數搜索空間,幫助模型進一步朝著全局最優解優化。然而,在許多領域或任務中,獲取到充足訓練樣本的難度和代價非常高。因此,數據增廣成為一種常用的增加訓練樣本的手段。本文對目前深度學習中的圖像數據增廣方法進行研究綜述,梳理了目前深度學習領域為緩解模型過擬合問題而提出的各類數據增廣方法,按照方法本質原理的不同,將其分為單數據變形、多數據混合、學習數據分布和學習增廣策略等4類方法,并以圖像數據為主要研究對象,對各類算法進一步按照核心思想進行細分,并對方法的原理、適用場景和優缺點進行比較和分析,幫助研究者根據數據的特點選用合適的數據增廣方法,為后續國內外研究者應用和發展研究數據增廣方法提供基礎。針對圖像的數據增廣方法,單數據變形方法主要可以分為幾何變換、色域變換、清晰度變換、噪聲注入和局部擦除等5種;多數據混合可按照圖像維度的混合和特征空間下的混合進行劃分;學習數據分布的方法主要基于生成對抗網絡和圖像風格遷移的應用進行劃分;學習增廣策略的典型方法則可以按照基于元學習和基于強化學習進行分類。目前,數據增廣已然成為推進深度學習在各領域應用的一項重要技術,可以很有效地緩解訓練數據不足帶來的深度學習模型過擬合的問題,進一步提高模型的精度。在實際應用中可根據數據和任務的特點選擇和組合最合適的方法,形成一套有效的數據增廣方案,進而為深度學習方法的應用提供更強的動力。在未來,根據數據和任務基于強化學習探索最優的組合策略,基于元學習自適應地學習最優數據變形和混合方式,基于生成對抗網絡進一步擬合真實數據分布以采樣高質量的未知數據,基于風格遷移探索多模態數據互相轉換的應用,這些研究方向十分值得探索并且具有廣闊的發展前景。