本報告詳細介紹了用于標注文本中的錯誤信息指標、宣傳和邏輯謬誤的注釋指南,最終形成了新穎的錯誤信息、宣傳和謬誤的組合注釋,并以穩健和可解釋的方式加以識別(CAMPFIRE)語料庫。我們介紹了開發這一注釋模式的動機及其與其他并行注釋的關系。我們將介紹 COVID-19 相關文本語料庫的收集情況,并提供注釋示例。最后,我們將介紹如何利用該語料庫開發交互式問題解答和信息提取系統,該系統能夠自動檢測和解釋查詢文檔中潛在的錯誤信息。
本報告中對錯誤信息指標的探討與一個更廣泛的信息搜索系統開發研究項目相吻合,該系統有別于典型的問題解答系統,用戶可以提出一個完整的、不受限制的自然語言問題(而不是僅限于關鍵詞搜索)。其目標不是在一次性互動中返回單一答案,而是鼓勵用戶與系統之間進行持續互動,以尋找一系列相關答案,這些答案可能在側重點、體裁以及真實價值和錯誤或虛假信息狀態方面存在差異。在這種設想的交互中,系統檢測和識別潛在錯誤信息指標的能力變得至關重要,如圖 1 所示,系統在回答用戶的問題--"我是否需要對我的口罩進行消毒?"時,既可以給出文檔中確定的答案(即 "這里有一篇文章聲稱正確護理口罩的重要性"),也可以發出警告,提醒用戶注意潛在的指標,對檢索到的文檔中的句子進行補充。這一交流描繪了我們的長期愿景,即如何將問題解答、信息覓尋和錯誤或虛假信息檢測統一在一個框架下。
圖 1 通過對話回答用戶問題、檢索文檔并突出和標注錯誤信息標記的交流設想
為了支持錯誤信息檢測,我們首先對我們感興趣的領域中的錯誤信息指標進行了標注:科學論文、一般新聞和談話廣播,以及與 COVID-19 相關的醫療保健網站和社交媒體帖子。我們的注釋模式最初基于 Habernal 等人(2017 年)的注釋模式,該模式側重于五種邏輯謬誤: 謾罵、情感訴求、紅鯡魚、草率概括和無關權威。作為第一步,我們評估了現有的注釋模式,衡量了注釋者在對語料進行雙盲注釋時就類別達成一致的能力,并評估了注釋數據作為誤導自動檢測訓練數據的可行性(Bonial 等,2022a, 2022b)。我們的評估結果表明,模式類別不夠清晰,無法支持訓練有素的注釋者之間的高一致率,這導致自動系統性能不佳。因此,我們開始開發自己的模式,繼續借鑒現有的注釋資源,但反復評估以獲得令人滿意的一致率。盡管我們在將其應用于新數據并測量一致性的過程中仍在不斷完善該模式,但下文將對當前的模式進行描述。
本報告的以下部分介紹了錯誤信息、宣傳和謬誤的綜合注釋(CAMPFIRE)模式和語料庫。第 2 節介紹了注釋模式,并為注釋者提供了詳細說明。第 3 節介紹 CAMPFIRE 語料庫。第 4 節介紹相關工作。第 5 節是結論和未來工作的細節。第 6 節列出了參考文獻。附錄 A-C 分別介紹了如何應用注釋模式、模式的歷史以及本技術報告中使用的符號和記號。
傳感器信息推薦系統是一個概念驗證應用程序,用于測試強化學習算法在推薦軍事分析員當時可選擇的正確信息源方面的有效性。該系統有多種方式向用戶傳播數據并向推薦服務器提供反饋。本報告介紹了傳感器信息推薦系統,該系統由數據源、推薦服務器、戰術突擊工具包服務器和安卓團隊感知工具包實例組成。本報告介紹了在獨立環境中部署這些組件以進行測試和開發的步驟。
系統架構如圖 1 所示。推薦服務器從部署的傳感器接收數據,并通過 TAK 服務器將傳感器推薦的信息對象發送給 ATAK。
圖 1 傳感器信息推薦系統工作流程中的 TAK 服務器
本綜述旨在介紹統計和統計分析在軍事搜索探測技術評估和報告中的應用。目標受眾是參與軍事搜索能力開發的人員,他們以前可能沒有接受過統計分析方面的培訓,但其他需要做出以證據為基礎的能力開發決策的人員也可能會發現一些介紹性概念是適用的。本介紹旨在利用軍事搜索中使用的技術的技術評估中常見的例子,讓讀者熟悉統計分析的基本概念和語言,因此敘述直接指向具體的討論和概念,而繞過了在學術性更強的綜述中會考慮到的大型重要數學主題。因此,本導論并不力求詳盡,而是為感興趣的讀者提供參考,介紹業界使用的通用語言和概念,并就如何以合理的統計方式報告結果以及解釋他人提供的結果提出建議。
雖然承擔能力開發任務的軍事人員往往擁有多年的經驗和作戰洞察力,但并非所有人都接受過足夠的科學或技術培訓,使他們能夠在整個能力發展過程中從容應對要求他們進行的顯性或隱性風險效益評估中的統計和概率方面的問題。作為技術評估工作的一部分,他們需要將軍事要求轉化為技術要求,確定并分離出相關的物理參數進行測試,設計并執行實驗試驗,進行分析并解釋數據,最終做出以證據為基礎的能力發展決策,這些決策將在未來數年內影響國家能力。這可不是一項小任務。
面對預算和資源有限的壓力,同時又要負責以同樣不斷變化和改進的各種戰備等級的成套技術來應對快速發展的威脅,我們有強烈的動機來確保用于評估軍事技術有效性和局限性的資源能夠產生足夠高質量的證據,為投資和能力發展決策提供可靠的依據。此外,通過開發和應用完善的科學和統計方法,技術評估所投入的努力也能為更廣泛的盟軍能力發展社區提供支持。為確保分析的科學性、客觀性和統計有效性而付出的更多努力,將增加合作伙伴之間的信任,從而使報告的結果可以被有信心地接受,從而限制多余的工作,利用國家投資,促進相互依賴和互操作性的目標。
凝聚力是人類-自主性編隊功能和效率的一個重要方面,但目前還需要更有力的方法來充分衡量這一結構。本報告記錄了開發和驗證新團隊凝聚力量表的過程,該量表專門用于人類-自主團隊。我們在此描述了開發過程的各個階段,包括條目開發、量表條目評估、內容驗證以及在線量表驗證研究,以進一步減少條目數量。綜合來看,這些分析的結果凸顯了幾個具有非常好測量屬性的條目,尤其是用于評估互補性、士氣、領導方向和效能感的條目。然而,一些具有出色測量屬性的條目仍然屬于存在明顯問題的測量量表。總之,這些結果將有助于為未來人類自主團隊凝聚力的測量提供指導性建議。
由于人類-自主性團隊(HAT)文獻的基礎是建立在人際團隊或人類團隊的基礎之上(Morrow 和 Fiore,2012 年),因此我們在此將團隊的人際定義擴展到 HAT,即 "兩個或多個[團隊成員]朝著共同的、有價值的目標、目的或任務進行動態、相互依賴和適應性的互動,......各自被分配執行特定的角色或功能,并且成員的跨度有限"(Salas 等,1992 年,第 4 頁)。在本研究范圍內,HAT 由一個或多個人類隊友與一個或多個自主系統或智能體(IAs)組成,通過協作完成任務或目標(Demir 等人,2019 年)。
在這種新的團隊動態基礎上,人工智能的最新進展賦予了自主系統和其他 IAs 更強的獨立性和相互依存性,從而使技術從僅以有限的方式支持或增強人類表現的角色,轉變為作為真正的團隊成員,真正擴展整體團隊動態和能力的角色(Phillips 等人,2011 年;Demir 等人,2019 年)。在這種情況下,IAs 是自主實體,有能力觀察環境并采取行動,還能開展活動以實現個人和集體目標(Russell 和 Norvig,2010 年)。IAs 可以是基于計算機的實體(即嵌入式智能體),也可以是物理實體(即嵌入式智能體,又稱機器人)。在嵌入式和嵌入式智能體系統中,可以使用多種類型和級別的自主性執行多種任務,這使得人類隊友很難理解智能體的行動或決策過程。因此,作為團隊成員的人類和自主系統的成功融合需要雙方理解對方的推理、行動和意圖(Chen 等人,2018 年;Schaefer 等人,2017 年)。這種共同理解是團隊合作以及信任和凝聚力等關鍵團隊狀態發展的基礎。
團隊凝聚力被視為團隊成功的最重要決定因素(Carron 和 Brawley,2000 年)。研究表明,團隊凝聚力可通過提高績效來提高團隊的生產力,并對團隊成員產生積極的心理影響(Beal 等人,2003 年;Mathieu 等人,2015 年;Neubauer 等人,2016 年)。雖然對人類團隊進行了深入研究,但團隊凝聚力尚未在 HATs 中得到探索,盡管在過去的十年中,人們對人類與機器人或自主系統的團隊合作產生了濃厚的興趣,尤其是在軍事領域(Barnes 和 Evans,2010 年)。與人與人之間的團隊相比,在 HATs 中,溝通、組織層級和協作的方式有所不同(Lakhmani 等人,2022 年)。這可能會對有效合作以及開發關鍵團隊流程構成挑戰。因此,有必要了解團隊凝聚力的哪些方面與 HAT 有關,以及如何對其進行衡量。
凝聚力的實際定義是 "促使團隊成員待在一起并愿意一起工作的共同紐帶/吸引力"(Salas 等,2015 年)。了解凝聚力還要求我們 "了解信任的程度,從而提高使用率和人類與機器人的有效互動"(Schaefer,2016 年,第 216 頁)。作為一種建構,由于凝聚力的擴展性,將其分為因子和子維度是最有效的方法(Griffith 1988; Zaccaro 1991; Griffith and Vaitkus 1999; Dion 2000; Salas et al.) 因此,我們對人類團隊凝聚力進行了全面的文獻綜述,并將凝聚力分為幾個維度和子維度,這些維度和子維度在文獻中被普遍認為是凝聚力的因素(Lakhmani 等人,2022 年)。這些因素是主觀量表的基礎,專門用于測量 HAT 中凝聚力的獨特特征。
在 HATs 中,凝聚力的處理和定義應不同于人類團隊,因為人類與自主代理之間的社會互動是獨特的,并在團隊協調中發揮著重要作用(Walliser,2019 年)。因此,HAT 必須保持足夠水平的團隊凝聚力,才能使團隊在任務成功方面表現出色,并保持心理健康。團隊凝聚力和團結是使團隊能夠更好地執行任務的重要因素(Mudrack,1989 年;Beal 等人,2003 年;Chiocchio 和 Essiembre,2009 年)。當我們尋求將人類和自主系統 "組隊 "時,這些因素都是需要考慮的重要因素。隨著技術滲透到我們生活的方方面面,我們必須學會如何利用技術的優勢,同時盡量減少其弱點。在這一研究方向中,同樣重要的是要擴展以前開發的凝聚力衡量標準,以確定以前使用的人際團隊凝聚力衡量標準是否仍然適用,或者是否需要進行調整,以更好地適應 HAT 內不斷變化的動態。
關于凝聚力測量方法,雖然現有的方法可以評估團隊凝聚力,但目前還沒有專門針對 HAT 的自我報告量表。因此,當前工作的目標是開發一種新的主觀凝聚力量表,使我們能夠評估團隊凝聚力、團結以及其他有助于提高 HAT 效能的因素。本報告記錄了量表開發過程,該過程遵循 Boateng 等人(2018 年)概述的三階段方法。在第 1 階段的項目開發中,生成了量表項目,并由主題專家 (SME) 對內容進行了驗證。在第 2 階段,根據 SME 的反饋創建量表;在第 3 階段,開展在線研究以評估量表的信度和效度。我們評估的項目使我們能夠確定哪些因素在維持高功能團隊中發揮了最大作用。
量表開發過程可分為三個階段: 1)條目開發;2)量表開發;3)量表評估(見圖 1)。
條目開發包括兩個部分:初始條目庫生成和內容驗證。
條目生成是研究人員為初始條目庫建立理論支持的方式(Morgado 等人,2018 年)。使用的方法有演繹法和歸納法兩種。演繹法包括在廣泛的文獻回顧和已有量表的基礎上生成條目(Morgado 等人,2018 年)。歸納法包括根據從專家目標人群收集的意見中獲得的有關構建的定性信息進行條目開發(Morgado 等人,2018 年)。在這項工作中,最初開發的條目庫取自現有的人類凝聚力量表,共產生 134 個項目,用于內容驗證實驗。
圖 1 量表開發和驗證的三個階段和九個步驟概覽(Boateng 等人,2018 年)
為了更準確地理解團隊凝聚力這一概念,我們進行了一次全面的文獻綜述。經過這一努力,我們發現有些方法認為凝聚力由兩個維度組成:凝聚力的方向--縱向(上下級關系)或橫向(同伴關系);以及凝聚力的功能--工具性(基于任務)或情感性(與人際支持有關)(格里菲斯,1988 年;迪昂,2000 年)。另一種方法來自軍事凝聚力,它將凝聚力劃分為四個相關的組成部分,由主要(如縱向和橫向凝聚力)和次要(如組織和社會凝聚力)等級組成部分組成(Siebold,2006 年)。在對這些凝聚力模型進行匯總的基礎上(Lakhmani 等人,2022 年),我們設計了一個凝聚力框架來組織我們的條目庫(見圖 2)。
圖 2 當前 HAT 凝聚力量表所使用的凝聚力五維模型的可視化。凝聚力的每個維度下都列出了子維度。
根據這些多維表征,我們設計的量表包括以下五個凝聚力因素: 功能凝聚力、結構凝聚力、人際凝聚力、團隊互補感和團隊應變能力。這些因子及相關子因子或維度的描述如下:
工具或任務凝聚力以行動為導向或積極主動,被定義為一個團體對團體任務或目標的共同承諾或吸引力,或團體的團隊合作能力(Siebold,1999 年)。此外,它還是對團體任務和目標的共同理解和承諾(Beal 等人,2003 年)。這也許最直接適用于與智能代理的團隊合作,因為這種類型的團隊合作需要一定程度的共同任務參數和目標。
a. 排他性
根據自我歸類理論,排他性反映了個人(通過態度、行為)遵守群體規范的程度,這些規范是內群體的特征,并將個人與外群體區分開來(Hogg,1992 年)。不同群體的成員如果認為自己屬于一個上級群體,就會越來越多地把以前的外群體成員視為一個更大、更具包容性的群體的一部分(Gaertner 和 Dovidio,2009 年)。然而,如果上層群體不承認次群體的差異,次群體成員就會更加維護自己的群體,而犧牲其他群體的利益(Crisp 等,2006 年)。
b. 對團隊的吸引力/對離開團隊的抵觸情緒
人際吸引是指對群體成員的共同喜愛或依戀;但需要注意的是,喜歡群體成員與喜歡群體并不是一回事(Beale 等人,2003 年;Abrams 和 Rosenthal-von der putte,2020 年)。相反,喜歡群體與凝聚力的另一個組成部分:群體自豪感更密切相關。人際間的吸引力一直被認為是小群體凝聚力的核心,以至于一些單維度的凝聚力概念將兩者等同起來(Dion,2000 年;Lott 和 Lott,1965 年)。雖然這種方法已經過時,但人際吸引已被證明與績效有著重要的相關性(Beal 等人,2003 年)。
c. 規范
規范是評價一個團體中哪些行為可以接受、哪些行為不可以接受的標準,用以確定對團隊成員的期望(Forsyth,1999 年)。規范與任務凝聚力是相輔相成的,因為規范可用于集中團隊成員的力量完成小組任務(Carron 和 Spink,1993 年)。由于規范可用于提高(或降低)績效,因此它們在凝聚力與團體績效之間的關系中起著調節作用(Carron 和 Spink,1993 年;Langfred,1998 年)。
d. 凝聚力的領導方向
凝聚力的主要維度,即凝聚力的方向,強調等級制度在團隊凝聚力中的作用(格里菲斯,1988 年)。就目前的工作而言,這一維度是上下級關系的對比(Siebold 和 Kelly,1988 年;Dion,2000 年)。這種區分經常被納入對軍隊凝聚力的研究中(Siebold 和 Kelly,1988 年;Grossman,2014 年)。
a. 團隊自豪感
團隊榮譽感,即對團體信念和團體代表的支持,似乎是凝聚力中一個以情感為基礎的重要組成部分。它是指團體成員對團體所支持或代表的地位或意識形態的喜愛程度(Beal 等人,2003 年)。它也被定義為作為群體成員的共同重要性,在凝聚力文獻中長期占據重要地位(Mullen 和 Copper,1994 年)。在凝聚力與績效的關系中,群體成員會因為屬于一個地位高、成功的群體而更加努力地工作,但在凝聚力與績效的關系中,它并不是一個預測因素(Mullen 和 Copper,1994 年)。作為一個因素,群體自豪感在凝聚力文獻中的地位似乎不像以前那么突出了;因此,我們認為它與 HAT 的凝聚力并不特別相關,尤其是當自主性變得越來越普遍時(這就不再是一種潛在的地位象征)。
b. 社會凝聚力
社會凝聚力被認為是凝聚力的另一個主要功能(Griffith 和 Vaitkus,1999 年;Dion,2000 年)。社會凝聚力也被稱為人際凝聚力,是指群體成員對群體的吸引或喜愛以及對群體成員的信任(Evans 和 Jarvis,1980 年;Siebold,1999 年;Craig 和 Kelly,1999 年)。個人層面的社會凝聚力指標包括以下幾個方面: (a) 個人的成員態度(他們留在群體中的愿望或意圖,他們對群體的認同或忠誠,以及對群體或其成員的其他態度);(b) 個人的成員行為:他們決定斷絕、削弱、保持或加強其在群體中的成員身份或參與,他們對人際影響的敏感性,以及對群體的承諾和依戀的其他行為指標(Friedkin 2004: 410)。
社會凝聚力被認為是運作良好的群體不可或缺的一個方面(Ahronson 和 Cameron,2007 年)。然而,研究人員描述了凝聚力在功能或方向維度之外的其他組成部分,其要素可歸入社會凝聚力,如歸屬感或士氣(Dion,2000 年;Grossman,2014 年)。
c. 歸屬感
源于 Bollen 和 Hoyle(1990 年)的研究,歸屬感是指群體成員相互吸引的程度(Salas 等人,2015 年)。歸屬感基于群體成員對自己在群體中歸屬程度的認知評價以及對這種評價的情感反應(Bollen 和 Hoyle,1990 年;Grossman,2014 年)。凝聚力的這一方面被認為是群體存在的根本,因此,群體歸屬感是任何其他群體特征的先決條件(Bollen 和 Hoyle,1990 年)。對歸屬感的研究表明,它與社會結果和社會自尊相關(Dion,2000 年)。
d. 士氣
士氣與歸屬感都源于 Bollen 和 Hoyle(1990 年)關于感知凝聚力的研究。士氣是指與群體相關的積極或消極的整體情感反應(Bollen 和 Hoyle,1990 年)。士氣也可定義為個人對群體成員的忠誠度以及為群體承受挫折的意愿(Salas 等人,2015 年)。這一因素還具有時間性,因為它決定了群體成員對沖突或挫折的反應(Dion,2000 年;Grossman,2014 年)。雖然這一因素與歸屬感高度相關,但它實際上是有區別的;說明這一區別的一個例子是,自然災害襲擊一個城市,可能會增加人們對該城市的歸屬感,同時降低士氣(Bollen 和 Hoyle,1990 年)。
互補性 互補性是指小組成員為大團隊帶來的技能組合的多樣性,以及這些技能組合如何滿足環境需求(Muchinsky 和 Monahan,1987 年)。互補性是最近推測的凝聚力維度(Lakhmani 等人,2022 年),由一些社會凝聚力和任務凝聚力組成(例如,機器人/自主系統必須擁有能夠補充/增強團隊技能或能力的技能,以完成所需的任務)。假設當團隊成員表現出不同但互補的技能時,團隊就會變得有凝聚力,使一些團隊成員能夠彌補其他團隊成員的弱點。
當團隊遇到環境和團隊壓力時,恢復力是團隊凝聚力和后續成功的基礎(Berg 等人,2021 年)。團隊復原力被定義為 "一個多階段的過程,在這一過程中,團隊成員有意識地集體運用技能、能力和資源,通過計劃和預測不利事件,使團隊做好應對逆境的準備;通過承受或適應壓力源,成功應對挑戰性事件;以及在事件發生后進行恢復,這涉及到團隊通過事件后的學習和成長,恢復到平衡狀態(如反彈)或改善狀態"(Cato 等,2018 年,第 53 頁)。
此外,可以說復原力是發展高度凝聚和信任的人類團隊的一個關鍵特征(Gittell 等人,2006 年;Norris 等人,2008 年)。事實上,復原力有時被視為團隊狀態的組合,包括集體效能、共享心智模式和熟悉度(Bowers 等人,2017 年)。這一領域的工作與極端環境下的團隊尤為相關,在極端環境下,團隊凝聚力受到的影響不同于正常條件下的團隊(Salas 等人,2017 年)。例如,在極端環境中工作的個人傾向于夸大問題,這可能會導致團體受損,因為緊張加劇和對團隊問題的感知會對團隊凝聚力產生負面影響(Stuster,1996 年)。然而,軍事單位的凝聚力已被證明可以抵消這些極端環境壓力(Williams 等人,2016 年)。近年來,人們一直在推動將機器人系統作為團隊成員整合到軍事行動中,以提高效率并降低作戰人員的風險(Barnes 和 Evans,2010 年)。這些 HAT 對開放式的復雜條件尤其有效,因為在這種條件下,任務的各個方面并不總是有規劃或計劃(例如,作戰情況;Chen 和 Barnes,2014 年),HAT 可協助信息規劃、任務規劃和分配以及團隊運作(Sycara 和 Sukthankar,2006 年)。然而,最重要的是要了解將機器人系統融入人類團隊可能會如何破壞團隊的同質性以及隨后的凝聚力和復原力(O'Reilly III 等人,1989 年;Smith 等人,1994 年)。
為了開發本量表,我們對現有的團隊凝聚力量表進行了全面的文獻回顧,以調整最適合本框架的條目(Berg 等,2021 年)。我們的結果是建立了一個包含以下維度的 134 個條目的初始條目庫:基于功能的任務凝聚力、結構凝聚力(格里菲斯,1988 年)、人際凝聚力(薩拉斯等,2015 年)、感知團隊互補性(皮亞森汀和查普曼,2007 年)以及團隊復原力(卡托等,2018 年)。其中許多維度在人類團隊凝聚力文獻中都是眾所周知的;然而,在目前的量表開發工作中,還考慮增加兩個因素(即與互補性和恢復力維度相關的條目)。在這種情況下,有觀點認為,當 "個人擁有的獨特特征被認為與他人的特征不同,但又對組織有價值 "時,就會產生互補性(Piasentin 和 Chapman,2007 年,第 234 頁)。在感知互補性方面,我們采用了 Oosterhof 等人(2009 年)和 Piasentin 與 Chapman(2007 年)的 18 個條目。關于團隊復原力的子維度,我們改編了 Sharma 和 Sharma(2016 年)的 20 個量表項目(關于項目改編的更多信息,請參閱 Berg 等人,2021 年)。
內容驗證。條目開發的第二步包括理論分析。在這一步驟中,需要進行內容效度評估,因為推論是基于最終的量表條目做出的(Morgado 等人,2018 年)。這一評估包括主題專家或用戶群的意見。
我們的初始條目庫被發送給 11 位來自學術界和政府機構的主題專家,他們以研究團隊凝聚力和/或 HAT 而聞名。這些主題專家完成了內容驗證程序,使用 3 點順序量表對 134 個條目中的每個條目進行評分(0 ="不應納入量表";1 ="必須納入量表";2 ="必須納入量表")。此外,主題專家還為項目提供了定性的書面反饋和建議。條目分析采用了 Lawshe(1975 年)概述的內容效度比率和程序。條目級主題專家同意度的計算公式得出的數值從 +1 到 -1 不等;正值表示至少有一半的主題專家將該條目評為 "極其重要"。在有 11 位主題專家參與的情況下,條目刪除的臨界值被確定為 0.59,以確保主題專家的一致性不太可能是由于偶然因素造成的,這導致條目從 134 個減少到 82 個(附錄 A), 這些條目將在第二階段的在線研究中進行評估。
第二階段的目標是減少條目庫,并確定量表中的潛在因子。這一過程有四個步驟:預測試、量表管理和樣本量、條目縮減分析和因子提取(詳見 Boateng 等人,2018 年)。預測試通過剔除無關或措辭不當的條目,修改剩余條目使其易于被目標人群理解,從而確保條目對目標人群有意義。本量表的預試是在前面提到的主題專家審查期間進行的。部分定性反饋包括對原 134 個量表條目的修訂,以使其更好地符合 HAT 凝聚力的背景。
一旦主題專家的反饋意見得到落實,我們就開始進行數據收集,采取調查管理和建立足夠樣本量的步驟。第 2 節將介紹這一過程。這一數據收集也是測試-重測設置的初始基線,在評估階段需要進行有效的可靠性測試。
數據收集完成后,我們開始了條目還原分析步驟,在這一步驟中,我們結合使用了確認性和探索性因素分析方法。首先,我們使用確證分析法來檢驗為測量不同構念而設計的條目是否符合一系列單因素模型。如果模型擬合度不高,我們就會刪除條目,直到得到一個擬合度較高的模型,然后對模型進行縱向不變性測試。在進行不變量測試時,我們可以檢查條目反應在不同情境下是否具有相同的因子結構,我們還可以確定特定項目是否不具有不變量,是否應該刪除。第 3 節將詳細討論這一過程。最后,我們對縮減后的量表進行了探索性因子分析,以檢驗新項目是否加載到我們的團隊凝聚力標準測量中--如果項目與既定量表聚類,則考慮將其刪除;如果項目聚類到一個不同的因子上,則保留這些項目以測量該新的子維度。
最后一個階段是量表評估的心理測量分析。該分析評估量表是否具有建構效度(工具所測量的內容)和信度(得分一致性)(Morgado 等人,2018 年)。下一節將概述驗證研究,該研究用于量表評估過程。
近年來,支持人類工作的 "自動化 "系統正在向基本上能夠自我管理的 "自主 "系統轉變。由于人機之間的協作和相互依存性質,圍繞人機信任的問題變得比以往任何時候都更加重要。這項工作旨在探索與信任校準有關的問題,這些問題會影響操作員與系統互動的方式。本報告總結了與題為 "評估影響信任校準的因素:信任策略和風險的影響 "相關的主要研究活動、研究成果和研究成就。這也是最終報告。研究團隊就信任校準、特定情況下的信任和人機協作協調了幾個不同的研究方向。通過研究,我們發現:1)通過采用防止過度信任的緩解技術,我們可以改變信任分配的方式;2)在實驗室環境中,通過使用動態方法改變風險,可以獲得不同的信任效果;3)改善人類與自主性之間的社會關系,可以帶來卓越的人機績效成果。本文將詳細討論這三個研究方向中的每一個方向,以及補助金的主要成果。
二十世紀中葉,技術的進步促使人機交互實現自動化,而今天,隨著 "自主 "系統的爆炸式發展,也出現了類似的趨勢。自動化旨在支持決策并卸載原本由操作員執行的任務,而自主則是在程序約束下 "自我管理 "的一系列能力(國防科學委員會,2012 年)。眾所周知,在處理自動化問題時會產生意想不到的后果(參見 Parasuraman & Riley,1997 年的一篇綜述),但最近有一個因素越來越受到重視,那就是操作員信任的概念。
一段時間以來,人們一直認為信任是一個值得對高頻進行實證研究的概念(參見 Parasuraman 和 Riley,1997 年的早期綜述),但需要注意的是,并非所有研究人員都同意這一觀點(例如 Dekker 和 Woods,2002 年)。雖然信任在很大程度上是一個社會心理學概念,但在人為因素中,信任也被用于描述人機合作關系的部分特征。從形式上定義,信任是一種態度,即在不確定或脆弱的情況下,代理或系統會幫助操作者實現目標(Lee & See, 2004)。(人與人之間的信任與人與機器之間的信任在本質上是相似還是不同,這個問題仍在探索之中(如 Madhavan,2007 年),但迄今為止的實證工作表明,信任非常重要,因為它決定了與自動化和自主系統互動的特定策略。在這方面,信任是系統能力與性能之間的一個干預變量。
信任是人類性能的重要組成部分。信任通常是指對自動化或自主系統的依賴程度(例如 Lee & Moray, 1994; Parasuraman & Riley, 1997),適當的、良好的依賴程度有助于將性能保持在接近最佳水平。如果對并非百分之百可靠的自主系統的信任度過高,就會產生自滿情緒(Moray 和 Inagaki,2000 年)。低信任度可能會導致廢棄,這意味著自動化或自主代理本可以成功執行的功能被忽視了(Parasuraman 等人,1997 年)。
因此,信任校準,也就是將適當的操作員信任水平與適當的自主系統可靠性水平相匹配,近年來已成為一個重要的研究領域。人們認為,信任的校準將帶來更適當的依賴和更少的錯誤。操作員將在需要最少監督的界面上減少認知負荷。這樣,他們就可以騰出注意力來執行其他任務。有了經過校準的信任,操作員就能在瞬息萬變的環境中更快地感知和應對突發事件。這樣,就有可能通過減少操作員數量來有效管理更多的自主系統。
在過去 3 年中,我們開展了三項主要工作,包括
研究信任分配方式如何影響操作員與系統的交互方式。
探索信任的一個通常未被充分研究的方面,即操作員風險及其對信任策略的后續影響。
探討人機協作的潛在互動結構
報告的以下部分將詳細介紹每項研究。
美國陸軍最近強調了士兵小分隊的戰略重要性,并在此過程中強調了理解這些小分隊如何能最好地形成的重要性。本綜述總結了最近對團隊形成問題的計算方法,并確定了有希望進一步研究和潛在應用的領域。
本注釋書目提供了一個對當前團隊形成問題的計算方法的多學科回顧。我們圍繞兩個問題來組織回顧:(1)文獻中常見的決策類型、計算方法和優化約束是什么?(2) 心理學的理論貢獻如何能夠推動團隊形成的計算方法,使其既與心理學相關又適用于現實世界的問題?
首先發現,團隊組建的計算方法大致分為三種決策類型:團隊成員替換、多團隊組建和單一團隊組建。在每一類中,加入團隊的決定對團隊來說可以是外生的(即成員資格由外部顧問決定)或內生的(即個人自己決定是否加入團隊)。這些決策類型的計算方法往往各不相同,方法包括一般的算法模型和基于網絡的架構。雖然我們的目的不是審查這些解決方案本身的細節,但我們確實發現某些計算方法有可能在軍隊等組織的團隊人員配置決策中以一定的規模實施。我們發現,來自組織和心理科學的理論進展可以被用來告知如何利用這些模型中的輸入和約束來優化團隊組成。
這項工作相當于對當前團隊組成的計算和理論方法進行了總結和概述。在陸軍內部,本綜述中的發現將為正在進行的理解最佳團隊組成的基礎的工作提供信息。除了概念上的貢獻,這項工作還有可能幫助開發實用的工具,以支持將士兵分配到團隊中,并支持這些團隊本身的臨時生成。在軍隊外部,這項工作綜合了多個學科的團隊組成文獻。雖然在計算機科學和心理科學領域對團隊組建問題進行了很好的研究,但這些研究流在很大程度上仍然是不同的。我們的工作強調了對這一問題的心理學研究可以為計算機科學中的算法工具的發展做出貢獻。
本文總結了關于自主軍事系統的測試、評估、驗證和確認(TEV&V)的挑戰和建議的部分文獻。本文獻綜述僅用于提供信息,并不提出任何建議。
對文獻的綜合分析確定了以下幾類TEV&V挑戰:
1.自主系統的復雜性產生的問題。
2.當前采購系統的結構所帶來的挑戰。
3.缺少測試的方法、工具和基礎設施。
4.新的安全和保障問題。
5.在政策、標準和衡量標準方面缺乏共識。
6.圍繞如何將人類融入這些系統的操作和測試的問題。
關于如何測試自主軍事系統的建議可以分為五大類:
1.使用某些程序來編寫需求,或設計和開發系統。
2.進行有針對性的投資,以開發方法或工具,改善我們的測試基礎設施,或提高我們勞動力的人工智能技能組合。
3.使用特定的擬議測試框架。
4.采用新的方法來實現系統安全或網絡安全。
5.采用具體的建議政策、標準或衡量標準。
在過去的十年中,計算和機器學習的進步導致了工業、民用和學術應用中人工智能(AI)能力的激增(例如,Gil & Selman,2019;Narla, Kuprel, Sarin, Novoa, & Ko, 2018;Silver等人,2016;Templeton,2019)。由人工智能促成的系統往往在某種意義上表現得很自主:它們可能會接管傳統上由人類做出的決定,或者在較少的監督下執行任務。然而,與武裝沖突期間的錯誤決定相比,一個真空機器人、一個高頻股票交易系統,甚至一輛自主汽車做出錯誤的選擇是可以通過糾正措施相對恢復的。軍事系統將面臨與民用系統相同的大部分挑戰,但更多地是在結構化程度較低的環境中運作,所需的反應時間較短,而且是在對手積極尋求利用錯誤的情況下。人工智能和自主軍事系統將需要強有力的測試,以保證不理想的結果,如自相殘殺、附帶損害和糟糕的任務表現是不太可能的,并且在可接受的風險參數范圍內。
為了自信地投入使用自主軍事系統(AMS),必須相信它們會對設計時可預見的問題和它們必須適應的不可預見的情況做出適當的決定。簡而言之,這些系統必須是熟練的、靈活的和值得信賴的。 當AMS要在狹義的情況下運行時(例如,要求一個 "智能"地雷在一天中的特定時間內施加特定的壓力時爆炸),要保證系統的行為符合要求就容易多了。它能遇到的相關不同情況的數量和它的行為反應(即其決策的狀態空間)都是有限的。擴大這個狀態空間會使保證更加困難。例如,一個自主的基地防御系統旨在根據目前的ROE用適當的武力來應對任何可能的威脅,預計會遇到更多的情況,包括設計的和不可預見的。要在這種情況下適當地運作,需要更多的靈活性,這反過來又要求系統更加熟練,允許它運作的人類更加信任。這些需求的相互作用是這些系統的許多T&E困難的一個核心驅動因素。
人工智能技術為美國防部(DoD)內的采購項目的測試和評估過程帶來了一系列的挑戰。首先,這些系統純粹的技術復雜性和新穎性可能難以駕馭。此外,美國防部的采購流程是在假設的基礎上進行優化的,而自主權可能不再成立(Tate & Sparrow, 2018)。例如,將承包商、開發和操作測試分開,假設我們有離散的、相對線性的開發階段,導致系統的 "生產代表 "版本。對于AMS來說,這可能不是真的,特別是如果它們在整個生命周期中繼續學習。此外,在我們擁有一個系統之前就寫需求,是假設我們事先了解它將如何被使用。因為AMS的熟練度、靈活性和可信度會隨著時間的推移而發展,并會影響人類如何使用或與系統互動,所以與標準系統相比,作戰概念(CONOPS)和戰術、技術和程序(TTPs)將需要與系統共同開發,其程度更高(Haugh, Sparrow, & Tate, 2018; Hill & Thompson, 2016; Porter, McAnally, Bieber, & Wojton, 2020; Zacharias, 2019b)。
然而,即使美國防部的采購流程被更新,美國防部員工用于測試和評估(T&E)的具體方法、工具和基礎設施將無法保證系統的性能達到預期。開發和設計工作包含了測試,通過內部儀器建立可測試性;提高軟件的透明度、可追溯性或可解釋性;對培訓和其他數據進行良好的管理和驗證,可以改善開發過程,同時也為測試和評估鋪平道路,但它們沒有被普遍采用。此外,能夠幫助項目克服所有這些挑戰的政策和標準要么缺乏,要么不存在。
自主性的定義繁雜眾多,有些定義對美國防部來說不如其他定義有用。許多定義包含了獨立、不受外部控制或監督、或與其他實體分離的概念(例如,牛津英語詞典,2020年)。然而,假設任何參與者將在沒有控制或監督的情況下運作,甚至是人類作戰人員,這與美國防部的政策和指揮與控制(C2)的思想相悖。不希望自主系統擁有選擇行動路線的完全自由,而是在其分配的任務中擁有一些受約束的自由。
與作戰人員一樣,可能希望與自主系統有一個C2或智能體關系。希望:1. 明確具體任務和/或整體任務的目標或目的,可能還有這些目標的更大原因,如指揮官的意圖(即做什么和為什么)。2.明確與任務相關的約束,如交戰規則(ROE,即不能做什么)。3. 不指定使用的方法或對每一種情況給出明確的應急措施,如對對手的反應做出反應(即如何完成任務)。
一個系統是否被授權為一項任務做出這些 "如何 "的決定,是本文將區分自主系統和非自主系統的方法。
在 "是什么"、"不是什么 "和 "為什么 "的限制下,為 "如何 "做出有用的、理想的選擇,假定了某種程度的智能。因為這些是機器,這就意味著存在某種程度的人工智能。需要人工智能來實現對非瑣碎任務的有用的自主性,這可能解釋了為什么人工智能和自主性經常被混為一談。在本文件中,我們將自主性稱為系統在其操作環境中的行為,而人工智能則是與該環境進行有意義的互動的 "內在 "促成因素。
本報告總結了迄今為止在路線偵察領域的本體開發的進展,重點是空間抽象。我們的重點是一個簡單的機器人,一個能夠感知并在其環境中導航的自主系統。該機器人的任務是路線偵察:通過觀察和推理,獲得有關條件、障礙物、關鍵地形特征和指定路線上的敵人的必要信息。路線偵察通常是由一個排的騎兵和非騎兵進行的。這項研究探討了機器人執行部分或全部必要任務的合理性,包括與指揮官進行溝通。
這是一項具有挑戰性的對抗性任務,即地形穿越加上信息收集和解釋。偵察的解釋方面需要考慮語義學--確定相關的信息和確定它如何相關(即有意義)。語義信息在本質上是定性的:例如,危險是一個定性的概念。為了將危險與某些特定的區域聯系起來,我們需要一種方法來指代該區域。這意味著至少能夠給空間的某些部分附上定性的標簽。
Kuipers在他的空間語義層次的早期工作中指出了空間的定性表示對機器人探索的重要性。例如,層次結構的拓撲層次包含了 "地方、路徑和區域的本體",歸納產生了對較低層次的因果模式的解釋。
最近,Izmirlioglu和Erdem為定性空間概念在機器人技術中的應用提供了以下理由:
對于負責路線偵察的無人地面車輛(UGV)來說,其架構中的不同模塊將消費和產生語義信息:負責語義感知和目標識別、計劃和執行、自然語言對話等的模塊,加上主要負責維護信息的語義世界模型。例如,在美國陸軍作戰能力發展司令部陸軍研究實驗室的自主架構中,語義/符號世界模型被用來 "實現符號目標(例如,去接近一個特定的物體)",*其中接近是一個語義概念。
一個關鍵問題是如何在世界模型和其他模塊之間分配維護和處理不同類型語義信息的責任。從語義世界模型的角度來看,這取決于有多少符號推理是合適的。例如,假設要接近的物體位于一個給定區域的某個位置,而不是靠近該區域的外部邊界。一旦機器人靠近物體,就可以推斷出機器人在物體的位置附近,而且也在同一區域內。如果有公制信息,就可以用幾何例程得出這個結論。在沒有公制信息的情況下,是否會出現在純粹的定性空間中推斷有用的情況?
本報告不涉及這個問題。我們的目標是確定什么應該被代表,而把如何代表和在哪里代表留給未來的工作。
以下片段取自FM7-92中對路線偵察的描述。空間表達是彩色的,周圍有一些文字作為背景。
路線偵察的結果是一份報告,以圖表的形式,并附有文字說明。FM7-92給出了一個例子,我們可以從中提取一些更必要的概念:
讓我們把這段關于路線偵察的描述中提到的概念建立一個綜合清單,重點放在空間概念上,并盡可能地保留軍事術語:
1)必須指定環境中的位置、路線、區域和感興趣的物體。稱這些為 "實體"。
2)這些實體之間的空間關系是相關的(例如,一個地點在另一個地點的北邊)。值得注意的是,不同類型的實體之間的關系是被指定的。
a. 物體(例如,障礙物)在位置或區域。
b. 一些地點在空間上與路線有關(例如,沿著路線,毗鄰,或靠近道路)。
c. 地點可能代表更大的區域(例如,雷區的位置)。
d. 道路和小徑可以與路線相關:它們可能相交、重疊(部分疊加),或平行運行。
a. 一些地點相對于其他地點或區域有方向性的定位(例如,一個防御性的位置)。
b. 有些區域是由其與另一個區域或地點的關系來定義的,這可能不是一種局部的關系(例如,觀察和火力場是由一個潛在的遠程位置來定義的,該位置有一條通往路線上的一個區域的線路)。
4)路線可能被障礙物阻擋,障礙物可能是明確的物體或更大的區域(例如,一個障礙物與一個雷區)。
6)有時,描述物理基礎設施(如道路、橋梁)及其屬性是很重要的。
路線偵查收集和解釋不同種類和不同來源的信息:
背景知識。這包括關于環境特征的類型和預期成為任務一部分的物體的信息,包括道路、障礙物、溝壑、橋梁等等。
任務規范。確定偵查的區域和路線,以及當時可獲得的任何信息。
環境。通過空間分析(包括幾何學、拓撲學等)、感知、地圖衛星數據的離線圖像處理和其他類型的分析,確定環境的相關特征。
任務執行期間的通信。我們假設指揮官或人類操作員在偵察過程中可以向UGV提出詢問或命令,提供新信息或集中注意力。
如前所述,一份報告。
原則上,所有這些信息都以某種抽象的形式組合在一個語義世界模型中。我們把環境的物理屬性和特征稱為 "實體"。把我們用來表示這些實體和它們之間關系的抽象概念稱為 "概念"。
不同類型的實體的概念。層次結構在語義表征中很常見,用來捕捉關于世界上遇到的實體類型的一般知識。一個類型就是一個概念,類型被組織在一個層次中:MRZR是一種輕型的、戰術性的、全地形的車輛,它是一種輪式地面車輛,它是一種地面車輛的類型,等等。屬性和關系可以與一個給定的概念相關聯,而下級概念則繼承這些屬性。在路線偵察中,如果有信息說某一地區有一條道路,但沒有更多的細節,仍然可以從道路的概念中推斷出它的預期屬性:它比它的寬度長得多;它在人們感興趣的地點之間通向;在其他條件相同的情況下,它可能比周圍的地形行駛得快。從實用的角度來看,這意味著如果有可能將某物歸類為一個已知的概念,那么語義世界模型就不需要記錄關于該物的每一條相關信息。
用于實體的目的和用途的概念。一個代表道路典型用途的概念可以進一步區分其長度和寬度的語義,這反過來又導致了跨越和沿途、穿越和跟隨等概念之間的區別。這將使UGV能夠以不同的方式對待 "偵察道路對面的區域 "和 "偵察前方的道路 "的命令。前方的道路也是一個語義概念:它取決于對過去去過的地方的了解。
代表部分信息的概念。有時可能會有定性的信息。想象一下,任務規范的一部分是關于雷區在計劃路線上存在的信息,但不知道具體位置,或者知道雷區的位置,但不知道其范圍。這種無知可以很容易地在代表實體的概念中得到體現。
新概念適用于新環境。另一個交流的例子可能是信息性的。想象一下,當一輛UGV穿越一條東西走向的道路時,它與遠程指揮官進行交流,指揮官問道:"道路北側是什么?"* 需要識別的物體可能不在道路和地形的邊界上(與 "建筑物的一側 "形成對比),而是在以道路邊緣為界的某個感興趣的區域內,距離UGV的位置向北不遠,向東和向西也有一些距離。這個區域可能沒有事先作為一個概念被劃定;相反,它是在當前的背景下構建或推斷出來的。這是一個有趣的例子,一個概念不是從公制數據中抽象出來的,而是被強加在公制數據上的。
背景中的概念的適應和組合。想象一下,對一張地圖的分析產生了對代表區域、道路等等的概念的分解。這些概念可能直接適用于某些目的。例如,與道路相聯系的概念在推理兩點之間的導航時是有用的。然而,在其他情況下,這些概念可能需要調整或與其他概念相結合。例如,如果一條道路被指定為 "危險區域",那么這個區域的概念可能會超出道路的邊界,延伸到周圍的地形。
本文概述了一個認知維度框架,旨在指導課程開發人員和分析人員組織和評估學習活動,向美海軍陸戰隊員介紹任何行動區的人群認知維度。該框架包括一系列按主題組織的問題和議題,旨在提高海軍陸戰隊員預測和影響作戰環境中各種人群的行動和決策的能力,以實現預期的結果。本文還將該框架置于海軍陸戰隊對信息環境認知層面的理解中,并描述了先進作戰文化中心(CAOCL)如何支持這些行動。
在過去的二十年里,人工智能(AI)獲得了大量的關注,并激發了許多科學領域的創新。美國軍事預測人員創造了許多以人工智能為核心特征的未來作戰環境的預測。本文報告了人工智能創新的歷史趨勢,導致了對真正的通用人工智能(AGI)出現的高預期時期。這些對持續創新的夸大期望超過了實際能力,導致幻想破滅。人工智能經歷了新的創新、過度期望和幻想破滅的周期,然后是適度的進步。人工智能創新的周期性遵循極端夸張的周期,在過去的周期中,這導致了資金的損失和未來創新的放緩。為了避免在夸張的周期中看到的未來的幻滅和進步的喪失,領導者需要對機器學習技術有一個現實的理解,以及它對未來的人工智能發展意味著什么。本文提出了一個理解人工智能與作戰環境互動的功能框架。
語義學、技術樂觀主義、誤解和議程掩蓋了目前關于人工智能(AI)和智能的本質的辯論。關于人工智能的預測,從歇斯底里的天網啟示錄到人工智能驅動的烏托邦都有。人工智能和 "機器學習 "可能會走上幻滅之路。技術領域的知名專家警告說,人工智能將對人類的未來產生災難性影響。特斯拉和Space X的首席執行官(CEO)埃隆-馬斯克(Elon Musk)稱人工智能是一種生存威脅,并懇請政府對人工智能進行監管,"以免為時已晚"。已故著名物理學家史蒂芬-霍金認為,人工智能將是人類的末日。新聞媒體的標題是:"美國有可能在人工智能軍備競賽中輸給中國和俄羅斯"。還有人援引世界末日的觀點和對人工智能技術的情感反應。例如,《紐約時報》最近發表了一個標題:"五角大樓的'終結者難題'。可以自己殺人的機器人"。不幸的是,煽動恐懼的言論引起了公眾的共鳴,并建立在人工智能將是人類終結者的流行文化敘事上。
在歷史背景下觀察,目前對人工智能的看法遵循一個可衡量的趨勢,即Gartner公司的信息技術(IT)研究 "炒作周期 "的技術發展階段,見圖1。炒作周期以 "技術觸發點 "開始,一種只存在于原型的新概念化能力,吸引了媒體的注意。下一個狀態是 "期望值膨脹的高峰",早期采用者因其在實施該技術方面的成功而獲得宣傳。下一個階段是 "幻滅的低谷",技術固有的物理限制變得明顯,人工智能未能成熟,投資資金轉移到更有前途的企業。在幻滅的低谷之后,技術繼續成熟,盡管速度要慢得多。在這個緩慢的環境中,它被更好地理解,實施起來也有真正的成功。最后一個階段,即 "生產力的高原",是技術在被充分理解的條件下被廣泛實施的時候。然后,各行業創建標準和法規來管理技術的實施和互操作性。
圖 1. 技術發展的成熟度曲線。
人工智能發展的以往演變遵循夸張的周期,有幾個高峰和低谷,這里將概述一下。每次人工智能發展進入幻滅的低谷,美國政府和軍方支出停止資助;人工智能的發展都會停滯不前。美國政府和軍方一直是人工智能發展史上不可或缺的一部分,并將繼續在指導未來發展方面發揮重要作用。美國軍方不能有膨脹的期望,這將導致一段幻滅期,將主動權和技術優勢讓給美國的同行競爭者,俄羅斯和中國;他們正在追求武器化的AI。領導人和決策者需要對人工智能的發展有一個現實的技術理解,以指導他們將人工智能整合到軍隊企業中。過去的夸張周期提供了需要避免的陷阱的例子,但也提供了需要尋找有用的應用和未來創新的領域。
本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題,這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定,軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同,人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題,包括相互透明的模型、自然語言處理(NLP)、人工智能(AI)和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論,Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而,我們的結論是,在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前,NLP、可解釋人工智能和人類科學的進展將是必要的。
自主系統的前景和問題都將改變未來系統的動態,這不僅體現在自主系統對社會的影響上,也體現在它們與人類的互動上(《經濟學人》2016;Schaefer等人,2017)。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統,這種結合意味著所有的優勢和限制(Bradshaw等人,2009;Chen和Barnes,2014)。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統(Barnes等人,2017)。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent(IA);Russell和Norvig 2009)。在人類與IA的合作關系中,人類和IA共享決策空間的混合倡議能力,但人類擁有最終的權力,在危險的時間有限的情況下,允許靈活性,同時保持人類的責任(Chen和Barnes 2015;Barnes等人2017)。在大多數情況下,不可能先驗地將每個人分配到動態環境中的特定角色,因為他們的角色可以隨著情況的變化而改變。例如,自適應Agent可以在高工作負荷的任務段中掌握決策主動權,而不需要等待操作者的許可,但在正常的操作中會將決策主動權還給操作者(Chen和Barnes 2014)。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變(例如,在時間期限過后自主擊落來襲導彈[Barnes等人,2017;Parasuraman等人,2007])。然而,在動態環境中,溝通、對意圖的理解和共同的態勢感知(SA)是有效協作的必要條件(Barnes等人,2017;Evans等人,2017;Holder,2018;Chen等人,2018)。
隨著IA復雜性的增加,有效通信的必要性也隨之增加。Cooke(2015)認為,高效的團隊合作關系更多的是取決于有效的互動,而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架,每個團隊成員都必須知道什么時候向他們的伙伴推送信息,什么時候要求提供信息。因此,人類和IA不僅要有任務環境的SA,而且要有彼此角色的SA,以便在沒有公開交流的情況下回應伙伴的要求(Scherri等人,2003;Chen等人,2018)。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述,以及為什么它與人-人團隊不同,強調相互透明度的重要性。接下來,我們討論了人類與人工智能(AI)系統通信所涉及的技術問題,包括多模態交互、語言限制、AI的類型以及可解釋AI(XAI)的重要性,以確保相互理解。最后,我們討論了共享意圖的重要性,以促進操作者和人工智能之間信息交互的自然節奏。