人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。
為了充分測試 AIES,測試與評估界需要應對以下挑戰:
圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。
美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。
美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。
作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。
分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。
指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。
建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。
如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。
在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。
作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。
AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。
這個項目的目標是開發一個框架,在這個框架中,不同的認知技能和行為可以被結合起來,產生智能和安全的機器人行為。美國防部自主性委員會最近發現了自主性和人工智能研究中的一個問題;即正在產生的大多數人工智能行為基本上是獨立工作的,如果沒有重大的研究和開發努力,就無法與其他行為或技能相結合。
為了說明這一點,請考慮一個機器人,它的工作是在一個安全設施周圍巡邏,只需完成幾個簡單的任務:確保它看到的每個人都被授權在那里,并掃描大樓以確保實驗室和辦公室的門在沒有人的時候總是關閉和安全。現在,假設該設施的主管來到機器人身邊,與它并肩而行,要求它報告其一天的工作情況。機器人應該怎么做?機器人可以獲得相關的行為和知識(它知道如何巡邏,它知道如何和人類一起走過走廊,它的各個行為都知道它們當天做了什么),但它沒有被明確設計為一起做這些事情。
完全處理這種情況需要機器人超越執行孤立的、獨立的行為的模式,在任務執行和知識方面結合其組成行為。例如,它對做什么的推理,要求機器人考慮與主管交談或繼續執行其巡邏期限的相對效用。例如,最高效用的行動方案是同時追求兩個潛在的目標,在繼續沿著走廊巡邏時與主任交談;但這種交錯的行為引起了潛在的安全問題,在制定行動計劃時需要加以考慮(例如在轉身看門口時要確保不碰到人類)。它向主管報告當天的情況時,需要機器人將當天執行的行為的知識匯總到一個全面的知識庫中,以便提供一個智能的、有意義的報告。隨著我們朝著合格的戰術機器人在戰場上工作的目標邁進,這些問題將更加需要解決,以確保機器人能夠安全和智能地協助作戰人員。
在這項工作中,我們的目標是開發一個框架,通過研究這兩個重要的問題,采取步驟將單個行為和技能結合起來:(1)我們如何選擇在任何特定時間執行和交錯的行為和技能,同時考慮實用性和安全性? 2)在執行不相關的技能和行為時,如何有意義地結合知識,以支持智能行為?
圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。
開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。
這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。
當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。
只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。
實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。
但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。
在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。
盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。
作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。
在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。
在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。
本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。
隨著自動機器學習(AutoML)系統在復雜性和性能方面的不斷進步,了解這些框架內人機交互(HCI)的 "方式"和"原因"變得非常重要,包括當前和預期。這樣的討論對于優化系統設計、利用先進的數據處理能力來支持涉及人類的決策是必要的,但它也是確定不斷提高的機器自主性所帶來的機會和風險的關鍵。在此背景下,我們關注以下問題:(i) 對于最先進的AutoML算法,特別是在開發、部署和維護階段,人機交互目前是怎樣的?(ii) 不同類型的用戶和利益相關者對AutoML框架內的人機交互的期望是否不同?(iii) 如何管理人機交互以使AutoML解決方案獲得人類的信任和廣泛接受?(iv) 隨著AutoML系統變得更加自主并能夠從復雜的開放式環境中學習,人機交互的基本性質是否會發生變化?為了考慮這些問題,我們將人機交互的現有文獻投射到AutoML的空間中;到目前為止,這種聯系在很大程度上還沒有被探索過。在此過程中,我們回顧了包括用戶界面設計、減少人類偏見和人工智能(AI)的信任等主題。此外,為了嚴格衡量人機交互的未來,我們思考了AutoML如何在有效的開放式環境中表現出來。這場討論必然會回顧AutoML的預計發展路徑,例如推理的融入,盡管重點仍然是人機交互如何以及為什么會在這樣一個框架中發生,而不是任何實施細節。最終,這一回顧有助于確定關鍵的研究方向,以更好地促進人類與當前和未來的AutoML系統的互動作用和模式。
關鍵詞:人機交互, 自動機器學習(AutoML), 自主機器學習(AutonoML), 人類交互的角色和模式, 機器學習工作流程, 公平性, 可解釋性, 用戶界面, 用戶體驗, 利益相關者, 推理, 封閉世界的AutonoML系統, 開放世界的AutonoML系統, 數據驅動的機器學習, 知識驅動的機器學習, 工業4.0, 工業5.0
自20世紀50年代以來,人們對機器學習(ML)的廣泛興趣一直在起伏,但近年來可以說見證了該領域歷史上的一個新階段:主流社會對技術的吸收和參與達到了前所未有的水平。從模因的深度偽造到商業的推薦系統,ML已經成為更廣泛社會中的一個固定項目。不過,從純學術范圍內的持續過渡并不順利,這并不令人驚訝;一般公眾并不具備充分開發ML能力所需的數據科學方面的廣泛專業知識。
大眾化的理想解決方案是使ML的應用有選擇地獨立于人類的參與。這是自動/自主機器學習(AutoML/AutonoML)的主要目標,這項工作盡管有豐富的多方面的歷史[148],但只是在過去十年中才真正起飛。通過應用于模型選擇的重大優化進展[251, 284, 291],AutoML的范圍已經擴大到ML應用的所有方面的自動化。事實上,只要有意愿和方法,ML系統似乎不可避免地會越來越接近自主化。
截至2020年代初,圍繞著一般ML[148]和深度學習(DL)[70]自動化操作的機制和集成系統,已經寫了很多;后者的機械化主題被縮寫為AutoDL。這些討論大多注重"自動化"的概念,與計算機如何自己做出高級決策的挑戰作斗爭。然而,有一個重要的話題卻沒有得到充分的探討:人類是如何融入其中的?這是需要考慮的關鍵,因為無論其自主功能的能力發展到什么程度,AutoML系統的目的都是為了支持人類決策。因此,也許是反直覺的,互動不能是事后的考慮[6]。
即使學術界關注模型的準確性和算法的效率,如果系統不歡迎和利用人類的可選輸入,也不能被認為是最佳的。此外,在學術界之外,"高性能 "ML的概念變得更加復雜和以用戶為中心[258];最有前途的算法和架構可能是那些能夠靈活地定制輸出以滿足非常廣泛的要求的算法和架構。然后是關于ML系統應該被賦予多大的自主權的爭論。雖然人與系統的關系最終可能成為一種合作關系[311],但人類不可能放棄監督[81]。許多研究人員也表達了類似的觀點,指出人類的經驗是不可或缺的,不能指望人工智能以社會責任的方式自主運作[319]。由于這眾多的原因,對AutoML的整體理解需要對人機交互(HCI)進行相關研究。
這是一個豐富的話題;人類與AutoML互動的性質,無論是角色還是模式,都已經發生了變化,并將繼續隨著該領域的發展而發生變化。作為對這些發展的類比,考慮一下人工智能(AI)在國際象棋方面的歷史。在20世紀60年代末,Mac Hack成為第一個在人類比賽中下棋的國際象棋程序,甚至在比賽中取得了勝利[109]。Mac Hack是自動化的,但嚴重依賴領域知識--它包含了大約50個基于專家的啟發式方法--并且幾乎沒有對人類在國際象棋中的主導地位構成威脅,它可以被比作2010年代之前開發的原版AutoML模型推薦系統[259, 304]:在當時是新穎和令人印象深刻的,但有很大的局限。但最終,到1997年,計算資源的擴展和算法技術的進步使一臺被稱為 "深藍 "的國際象棋計算機擊敗了衛冕世界冠軍[45]。正如2010年代新一輪的超參數優化AutoML系統[251, 284, 291]一樣,深藍預示著一個時代,在執行特定任務方面,計算機的能力將遠遠超過人類。
值得注意的是,即使在1997年著名的比賽中,深藍也遠非自主,它利用了人類規定的開局和殘局元知識數據庫,同時也由大師們在比賽之間手動調整。只有在2017年,隨著AlphaZero[329]的首次發布,人類的輸入幾乎完全被移除,人工智能系統自主地學習通過自我發揮在國際象棋中支配人類。事實上,最新一代基于國際象棋的人工智能已經開始將人類的角色從導師轉變為學生,例如,人工智能的 "h-卒推力 "傾向讓高水平棋手陷入了思考[198]。AutoML領域還沒有達到同樣的自主水平,但還是值得一問:這就是未來要計劃的互動狀態嗎?AutoML最終會不會在如何解決一個ML任務方面產生比它目前收到的更多的洞察力?
圖 1. 機器學習 (ML) 工作流程的一般示意圖,即為 ML 應用程序生成和維護 ML 模型所涉及的操作。
對AutoML中的人機交互的全面概述,包括當前的和未來的,都需要仔細組織。例如,人類對ML應用的參與可以分為兩類:生產性和消費性。后者指的是終端用戶如何參與并受益于一個ML模型,而前者則與這樣一個模型的產生有關。這些 "生產性"實踐可以以多種方式編入 "ML工作流程"[53, 280],但圖1對其中一個特定的表述[70, 148, 258]進行了說明。
在ML工作流程的描述中,很明顯,在開發、部署和維護ML模型時,有幾個階段的操作。其中,模型開發階段在AutoML學術研究中受到最多關注,特別是在DL和神經結構搜索(NAS)的情況下[70],但也有許多自動化努力應用于典型的ML工作流程的其余部分。事實上,持續監測性能和適應數據環境的動態變化的能力先前已被強調為AutoML和AutonoML之間過渡的關鍵先決條件[148]。與此相關,存在許多支持在線學習的理論建議[162],并且最近在學術界進行了使AutoML系統 "持久化 "的初步實驗研究[14, 51]。同時,在工業界,"MLOps "的新興趨勢反映了自動部署對現實世界需求的重要性[258]。從本質上講,任何有興趣設計一個全面的AutoML/AutonoML系統的開發者都必須了解每一個工作流程階段的特異性,例如,人類輸入/指導的相關格式,基準操作的最低要求,額外的人類輔助學習的可能機會,等等。
另外,與其在AutoML中以交互發生的時間來劃分人機交互,有時考慮誰在進行交互更有意義。這種觀點在商業和工業中尤其自然[258],在那里,除了消費ML模型輸出的終端用戶,通常還有許多與模型生產相關的利益相關者。這些人可能包括數據科學家或軟件開發人員形式的技術人員,項目經理或領域專家形式的業務人員,第三方審計師或政府機構形式的監管團體,等等。
重要的是,不同利益相關者的義務和利益通常不能映射到圖1中描述的ML工作流程的各個階段。此外,他們的互動模式也可能有很大的不同。一些角色要求對AutoML過程進行精細控制,而另一些角色則只需要一個輸入的入口點。有些角色希望有一個了解相關機制的窗口,而另一些角色只希望在出錯時得到提醒。不管是什么情況,這些要求必須在算法和架構的基本層面上加以考慮。在系統設計過程中,僅僅關注預測器的準確性和效率,而只是通過匆忙的修補來滿足任何剩余的現實世界的期望,這并不是最佳選擇。
最重要的是,值得強調的是,"用戶 "的概念是AutoML的利益相關者觀點所固有的。對于那些只對改善ML算法的統計理論感興趣的人來說,這似乎是一個不必要的干擾,但這種態度忽略了ML運作的更大的生態系統:人類決策。例如,人類可能愿意容忍不喜歡40%的人工智能推薦的音樂,而人工智能推薦的定罪的20%的假陽性率可以說是糟糕透頂。簡單地說,人類環境比任何不可知的準確性指標更重要。因此,成功地將ML模型的性能轉化為現實世界的結果取決于一系列與參與有關的要求[12, 73, 76, 256, 264],我們在此將其捆綁在 "用戶體驗"(UX)標題下。這包括最近擴散到圍繞ML和AutoML的學術討論中的話題,如可及性、透明度、公平性、可靠性等等[319]。
因此,用戶交互(UI)的概念--實現不需要是單一的--在利益相關者的視角下對AutoML變得特別重要,因為這是可以最直接管理UX的地方。事實上,設計智能用戶界面對于支持人類引導的AutoML至關重要[105, 168],其中技術用戶可能作為一種理想,調整問題設置,探索數據特征,限制模型搜索空間等。這些互動也可能被其發生的方式所限制或促進,例如通過觸摸屏、語音命令、手勢識別,甚至是大腦信號[320]。簡而言之,圍繞接口的概念進行更多的討論將對AutoML領域大有裨益,這樣,除了簡單地實現對ML操作的控制外,用戶既可以注入領域知識,又可以輕松地提取可理解的信息。
談到影響用戶體驗的因素,可解釋性在列表中名列前茅。這對AutoML來說尤其是一個挑戰,因為自動化的核心原則是將人類與某些操作脫鉤。因此,花費研究精力使這些過程透明化,從而鼓勵人類重新參與,似乎是一種浪費,甚至是反作用。當然,目前許多AutoML工具都是堅定的黑箱系統[319],掩蓋了ML模型是如何建立的,以及預測/說明性輸出是如何產生的。但這里有一個細微的差別;AutoML的目的是要消除人類參與的必要性,而不是選擇。因此,如果用戶不能理解如何正確地插入對ML任務有益的領域知識,那么技術上的模糊性實際上會阻礙ML的性能[180]。這在目前的時間點上尤其是一個缺點,因為人在回路中的學習仍然常常比以機器為中心的ML更有優勢[285]。
無論如何,即使AutoML系統是完全自主的,其內部不受人類影響,可解釋性也是促進信任的必要條件[187]。調查顯示,如果沒有透明和可理解的機制,數據科學家往往對AutoML工具提供的ML模型持懷疑態度[73]。同樣地,如果系統能夠顯示其背后的推理,終端用戶才會遵循ML建議[302]。人們對使用他們無法理解或解釋的結果的這種緘默,對于簡單的商業應用來說可能是令人沮喪的,但在高風險的情況下,這完全是有道理的[244],包括醫療診斷、金融投資和刑事司法。否則可能是災難性的。例如,COMPAS累犯預測模型[66]、谷歌在2018年加州野火期間使用的BreezoMeter實時空氣質量預測模型[192],以及一般的黑盒醫療診斷模型[74],都與不良后果有關。
另一個影響用戶體驗的因素是公平性,即使是在利益相關者沒有直接意識到他們在 "使用 "ML的結果時也是如此。這一社會意識的要求最近被學術研究作為一個重要的問題[50, 193, 326],表明ML在多大程度上嵌入了主流,并認識到預測/說明的準確性和錯誤可能以不同的方式不成比例地影響不同的人。現在,當然,已經有努力將發現和防止ML模型中的歧視的機制自動化[116],但挑戰是有許多可能的公平的技術定義,往往是正交的,有時是矛盾的[254, 307]。再一次,人的背景很重要。因此,如何將人類的監督最好地整合到AutoML系統中,對機械化的過程執行道德要求,是一個開放的問題。
當然,雖然每個ML算法都會應用自己的假設,但許多 "不公平 "的偏見往往來自于生物神經元,即人類的大腦。這些可以通過數據和知識注入到學習系統中,表現在信息內容和采樣方面。因此,人類的認知偏差如果被內化,就會導致模型的可靠性下降,而且有許多引人注目的例子[131, 327]。這些影響的嚴重程度也會因環境而異。醫療保健就是一個高風險環境的例子,臨床實踐中的認知偏差會對醫療結果產生很大影響[228, 253]。事實上,預測系統的類似缺陷已被證明阻礙了社會少數群體接受額外的護理服務[214]。因此,當務之急是更徹底地考慮AutoML內偏見緩解策略的性質和實施。
從根本上說,所有這些討論的重點是,鑒于一個合適的概念框架,如ML操作的雙重工作流程/利益相關者的角度,有可能參與許多與人機交互相關的問題,這些問題如果不解決,將阻礙AutoML迄今為止的快速進展。此外,這種系統化的方法不僅僅是澄清AutoML中人機交互的現狀;它提供了一個鏡頭,通過它可以預測ML中這一趨勢的未來。這并不意味著推測人機交互相關機制的詳細實現,而是理解人類與系統互動的預計演變,特別是當算法和架構在其工作中變得更好。因此,前面提到的國際象棋的比喻仍然有助于說明這一進展,因為AutoML系統沿著自主性的頻譜進一步轉移[270]。
然而,再猜想一下還是很有價值的。AlphaGo[267]和AlphaZero[268]在他們各自的游戲中都非常有能力,但他們仍然在特定的環境中受到限制。一個相當的AutoML系統基本上可以自主地完成圖1中ML工作流程的每一個階段,除了一個例外:問題制定和上下文理解。這樣的限制并不意外,因為這個階段可能是ML中必要的人類參與的最后堡壘。不幸的是,它確實阻礙了許多人工智能的應用。例如,在自動駕駛汽車領域存在大量的研究和開發[122, 167],然而,在不可預測的和有效的無邊界的駕駛環境中操作的挑戰,到目前為止仍然是令人生畏的[119]。盡管如此,如果不深入到人工通用智能領域,這些限制最終會放松。新穎的MuZero系統[257]已經體現了一種新興的強化學習方法,它可以無意識地應用于具有不同規則的各種游戲,從第一原理中自主地建立合格的模型。在理論上,認知模型最終可能會進一步增強這一過程,使ML系統能夠通過實際理解上下文,而不是直接忽略它,有效地將知識從一個問題轉移到另一個問題。因此,當AutoML真正成為AutonoML,然后開始放松到開放世界的學習時:人與系統的互動將再次改變?
正如現在所看到的,在AutoML和人機交互的重疊部分有許多重要的問題需要考慮。這篇評論討論了這些話題,標志著一系列致力于系統性和概念性概述AutoML的專著的最后部分[70, 148, 258]。具體來說,由于該系列以前集中于計算機如何在沒有人類的情況下執行ML/DL[70, 148],這項工作旨在將AutoML/AutonoML重新納入人類決策的生態系統中。事實上,由于ML在現實世界中不是在真空中運行的,這種相互聯系的一些有機產生的后果已經被本系列中的前一個技術調查[258]所捕獲。然而,這篇評論在以下問題的驅動下,更深入地探討了AutoML中人機交互的基本原理。
目前最先進的AutoML算法的人機交互是怎樣的,特別是在開發、部署和維護階段?
不同類型的用戶和利益相關者對AutoML框架內的人機交互的期望是否不同?
如何管理人機交互,以使AutoML解決方案獲得人類的信任和廣泛接受?
隨著AutoML系統變得更加自主并能夠從復雜的開放式環境中學習,人機交互的基本性質是否會發生變化?
為了更好地解決這些問題,本專著的其余部分結構如下。
第2節研究了人機交互和截至2020年代初的最先進的AutoML。它是在AutoML的工作流程/利益相關者的觀點方面,在這些觀點被首次系統化之后進行的。此外,還調查了現代UI的方法和當前圍繞用戶體驗的關注,例如在可解釋性和公平性方面。
第3節推斷了AutoML的進展,即相關系統在所有高級別的ML操作中都能有效地自主,但不包括問題制定和上下文理解。我們考慮了人機交互在真正的高性能AutonoML方面的演變,盡管僅限于受限的環境。
第4節通過推動這一限制,放寬限制并考慮開放式環境中的ML。為了固定這樣一個場景,我們調查并討論了在ML系統中納入 "推理 "的現代理論。隨后,關于這些升級形式的AutonoML系統的人機交互性質的變化被理論化了。
第5節提出了一個綜合的討論,確定了現有的問題和潛在的研究方向,這些問題可能會阻礙或促進人機交互和AutoML的成功互動,無論是現在還是將來。
最后,第6節總結了這一回顧,總結了圍繞人類與AutoML/AutonoML系統互動的角色和模式的主要發現和觀點。
圖2. 描述 ML 工作流各個階段人機交互的角色和模式
圖6. 迭代式可解釋ML框架的示意圖,旨在理解、診斷和完善ML模型[274]。每個 "解釋者 "對象,擁有五個屬性,接受一個或多個模型狀態和數據特征作為輸入,然后部署解釋方法以產生解釋或過渡函數作為輸出。該框架還包括全局監控/指導機制,列在長青色塊中,用于管理解釋器。
圖 9. 人類自主系統監督 (HASO) 模型 [81]。該范式呈現了在與自主系統交互期間影響人類認知過程的主要系統設計特征,例如檢查、干預和一般互動。
隨著不同形式的世界模型的出現,“知識感知”學習正在成為語言學習的一個重要研究領域。?OOD泛化、ML安全性和數據效率是全面評估我們在ML管道中利用這些預先訓練模型的效果的關鍵軸。?當使用不同的“先驗”時,我們需要新的理論工具來精確地描述這些軸之間的權衡。?知識是“不完整的”——用我們的經驗適當地增強世界模型對實現閉環系統至關重要。?不確定性估計和模型可靠性描述是模型設計和優化的一個組成部分。
這本書描述了深度學習系統: 算法,編譯器和處理器組件,以有效地訓練和部署深度學習模型的商業應用。
當最先進的深度學習(DL)工作負載消耗的計算量快速增長時,計算能力的指數增長正在放緩。模型大小、服務延遲和功率限制是在許多應用程序中部署DL模型的一個重大挑戰。因此,協同設計算法、編譯器和硬件勢在必行,以提高性能、功率和效率的整體系統級和算法解決方案來加速這一領域的發展。
推進深度學習系統的工程師通常包括三類:(1)數據科學家,他們與領域專家(如醫學、經濟或氣候科學家)合作,利用和開發深度學習算法;(2)硬件設計師開發專門的硬件來加速DL模型中的組件;(3)性能和編譯工程師優化軟件,使其在給定的硬件上更有效地運行。硬件工程師應該了解產品和學術模型的特性和組成部分,這些特性和組成部分很可能被業界采用,以指導影響未來硬件的設計決策。數據科學家在設計模型時應該注意部署平臺的限制。性能工程師應該支持跨不同模型、庫和硬件目標的優化。
本書的目的是提供扎實的理解 (1)工業DL算法的設計、訓練和應用; (2) 將深度學習代碼映射到硬件目標的編譯技術; (3) 加速DL系統的關鍵硬件特性。本書旨在促進DL系統的發展的共同創新。它是為在一個或多個領域工作的工程師編寫的,他們試圖了解整個系統堆棧,以便更好地與在系統堆棧其他部分工作的工程師協作。
這本書詳細介紹了工業中DL模型的進步和采用,解釋了訓練和部署過程,描述了今天和未來模型所需的基本硬件架構特征,并詳細介紹了DL編譯器的進步,以有效地執行各種硬件目標的算法。
本書的獨特之處在于對整個DL系統堆棧的全面闡述,對商業應用的強調,以及設計模型和加速其性能的實用技術。作者有幸與許多擁有超大規模數據中心的高科技公司的硬件、軟件、數據科學家和研究團隊一起工作。這些公司采用了本書中提供的許多例子和方法。
隨著廣泛的應用,人工智能(AI)催生了一系列與人工智能相關的研究活動。其中一個領域就是可解釋的人工智能。它是值得信賴的人工智能系統的重要組成部分。本文概述了可解釋的人工智能方法,描述了事后人工智能系統(為先前構建的常規人工智能系統提供解釋)和事后人工智能系統(從一開始就配置為提供解釋)。解釋的形式多種多樣:基于特征的解釋、基于說明性訓練樣本的解釋、基于嵌入式表示的解釋、基于熱度圖的解釋。也有結合了神經網絡模型和圖模型的概率解釋。可解釋人工智能與許多人工智能研究前沿領域密切相關,如神經符號人工智能和機器教學
人工智能(AI)為改善私人和公共生活提供了很多機會,以自動化的方式在大型數據中發現模式和結構是數據科學的核心組件,目前驅動著計算生物學、法律和金融等不同領域的應用發展。然而,這種高度積極的影響也伴隨著重大的挑戰:我們如何理解這些系統所建議的決策,以便我們能夠信任它們?在這個報告中,我們特別關注數據驅動的方法——特別是機器學習(ML)和模式識別模型——以便調查和提取結果和文獻觀察。通過注意到ML模型越來越多地部署在廣泛的業務中,可以特別理解本報告的目的。然而,隨著方法的日益普及和復雜性,業務涉眾對模型的缺陷、特定數據的偏差等越來越關注。類似地,數據科學從業者通常不知道來自學術文獻的方法,或者可能很難理解不同方法之間的差異,所以最終使用行業標準,比如SHAP。在這里,我們進行了一項調查,以幫助行業從業者(以及更廣泛的數據科學家)更好地理解可解釋機器學習領域,并應用正確的工具。我們后面的章節將圍繞一位公認的數據科學家展開敘述,并討論她如何通過提出正確的問題來解釋模型。
可解釋人工智能(xAI)是近年來出現的一個有趣的問題。許多研究人員正試圖從不同的角度和有趣的結果來處理這個問題。然而,我們在理解這些類型的模型方面仍處于起步階段。在未來的幾年里,深度學習模型的開放性將被討論。在經典的人工智能方法中,我們經常遇到深度學習方法。這些深度學習方法可以根據數據集大小、數據集質量、用于特征提取的方法、用于深度學習模型的超參數集、激活函數和優化算法得出高效的結果。然而,目前的深度學習模型還存在一些重要的不足。這些基于人工神經網絡的模型是黑盒模型,它概括傳輸給它的數據并從數據中學習。因此,輸入和輸出之間的關系是不可觀察的。這是人工神經網絡和深度學習模型的一個重要開放點。由于這些原因,有必要認真研究黑盒模型的可解釋性和可解釋性。