亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

目前的測試和評估(T&E)方法包括以黑盒方式處理系統,即向系統提供樣本輸入,觀察相應的輸出,并將其與期望值進行比較。雖然這種方法對傳統的靜態系統很有效,但由于智能體的動態環境、單個智能體的適應性學習行為、智能體和操作環境之間的復雜互動、測試黑盒機器學習(ML)模型的困難,以及快速發展的ML模型和人工智能算法,自主智能系統的測試和評估提出了艱巨的挑戰[1, 2]。

這項研究的目的是開發設計測試和評估(T&E)計劃以及為基于學習的系統獲取數據/模型的方法。主要目標是了解增加政府對系統設計中使用的模型和學習代智能體(人工智能算法)的訪問可能會減少測試的需要和費用,并增加對結果的信心。在這個孵化器項目中研究的主要假設是,如果我們能夠獲得模型本身(數學或軟件),那么測試人工智能/ML模型達到可接受的可靠程度所需的樣本數量可以減少,如果我們也能獲得用于訓練模型的算法和數據,則可以進一步減少,如果我們也能獲得系統模型和數字工程過程的其他工件,則可以進一步減少。因此,如果T&E計劃是基于獲得人工智能/ML系統的技術數據/算法的成本和測試這些系統的成本之間的最佳平衡,那么采購的成本可以大大降低。

這個項目建立了理論和方法,以探索T&E要求如何能夠和應該作為測試團隊對人工智能系統的技術規格知識的功能而改變。項目開發了基于系統的理論,通過系統形態的概念來捕捉系統的變化和它所處的狀態空間。洋蔥模型描述了不同層次的系統知識和定義系統抽象的背景。該項目通過兩個試點場景進行實驗,以展示多個測試階段如何促進對人工智能系統的評估。最后,我們提出了貝葉斯的分析框架,用于結合多個測試階段的信息。這個分析框架也反映了不斷變化的系統配置和背景。總之,這項工作基本上構成了在未來階段調查現實系統的測試數據收集的成本效益的基石。

進行人工智能系統研究的一個主要挑戰是,在T&E研究中需要物理實現。未來的工作可以利用Silverfish測試平臺,該平臺是在SERC先前的任務下開發的,并將測試平臺擴展到物理實現。除了MBSE表示的物理實現,還可以在Silverfish測試平臺上直接執行一個T&E程序。未來的工作還應該包括有目的地改變系統知識(基于洋蔥模型),系統的復雜性和它的操作環境(形態的數量),并確定作為這些變量的函數的最小充分測試。

付費5元查看完整內容

相關內容

美國陸軍旋轉翼飛機的下一個機群除了擁有一套先進的技術和武器裝備外,還將允許在戰斗中使用更長的時間。這些飛機將可能是陸軍武庫中最先進和最復雜的系統。這意味著這些飛機可能需要飛行員在遠高于目前直升機的水平上進行多重任務。由于在駕駛這些飛行器時對飛行員的要求越來越高,實時監測飛行員的認知負荷、健康和福祉的需要已經成為完成任務的組成部分。有了實時的生理監測,就有可能跟蹤和了解任務認知需求的程度,以及在多域作戰(MDO)任務集的各個階段對飛行員的相關認知負荷(CWL)。然后,這些數據可以為領導層和團隊成員提供信息,并為操作人員提供關鍵的反饋。這些數據還將為駕駛艙布局的關鍵決策點提供信息,具體到人機互動。然而,仍有許多工作要做,因為在哪些措施能最有效地捕獲和量化CWL、如何最好地在駕駛艙內部署這些傳感器、以及如何量化數據以便于實時解釋結果以幫助決策方面還存在未知數。

為了支持擴大的未來垂直升降(FVL)任務,美國陸軍航空醫學研究實驗室(USAARL)正在進行研究。最終的目標是實施生理測量,作為在操作員狀態監測(OSM)驅動的適應性自動化環境中,評估CWL的一種手段。本報告對最近的CWL文獻進行了系統回顧,以確定哪些CWL評估技術在航空領域得到了最多的使用和成功,特別是在旋轉翼航空領域。首先,提供了CWL的正式定義,以及對CWL結構越來越感興趣的證據。隨后,對不同的CWL指標進行了簡要總結,并對使用多種指標,即綜合指標來評估CWL進行了考慮。

認知負荷定義

統一使用的CWL正式定義還沒有被整個研究界普遍接受。因此,人們經常發現,不同的研究人員使用不同的定義(Cain,2007)。為了保持一致性,我們采用了Van Acker等人(2018)的概念分析所提出的資源需求框架的定義: "心理負荷是一種主觀體驗的生理處理狀態,揭示了一個人有限的、多維的認知資源與所接觸的認知工作需求之間的相互作用。"

為了消除任何混淆點,請注意Van Acker等人(2018)使用了 "心理負荷"(MWL)一詞,而我們在本評論中使用的是 "認知負荷"。有關評估認知工作需求導致的認知資源支出的文獻,已經交替使用了這兩個術語(即心理和認知)(甚至有時在同一篇論文中交替使用)。圖1詳細說明了幾十年來每個術語的使用情況;"心理負荷 "一詞在文獻中出現的時間較早(Westbrook等人,1966年),比 "認知負荷 "使用的頻率更高。在USAARL進行的工作中,已經采用了 "認知負荷 "這一術語。

Van Acker等人(2018)的定義包括三個關鍵部分(關于這些要點的更廣泛討論,請參考Vogl等人,2020)。首先,CWL的發生是由于特定的人和特定的任務/環境(或任務+環境組合)的互動。這種應用認知資源來滿足任務需求的互動導致了對CWL的感知。這為資源需求框架奠定了基礎,該框架自卡尼曼(1973年)在其《注意力與努力》一書中首次提出以來,一直在不斷發展。第二,當認知資源被用于一項任務時,對于努力工作的人來說,他們的資源是有限的,如果一項任務對資源的需求超過了可用的限度,人的表現就會減弱。對內省的人來說,還可以觀察到,在某些情況下,可以比其他情況下更有效地滿足多種任務需求。Wickens(2008)通過多重資源理論澄清了這一看法,該理論指出,與其說有一個有限的資源庫可用于解決任務需求,不如用多重資源庫的模式來解釋多任務經驗。第三,Van Acker等人(2018)指出,CWL是一種主觀體驗的生理處理狀態;也就是說,人類理解并能夠溝通他們正在經歷CWL,他們的生理變化是CWL的一個功能。因此,評估CWL不僅可以通過任務本身的表現措施,還可以通過自我報告措施(即主觀措施)和監測生理信號的變化(即生理措施)。最后要說明的是,Van Acker等人(2018)的定義很適合于對這個概念的簡要介紹,但我們希望有一個更全面的定義,明確強調人類經驗的其他方面(如個體差異、情景因素、注意力等)以及CWL和績效的動態關系。關于CWL概念的更深入的定義和重新分析,見Longo等人(2022)。

自20世紀60年代首次正式提及CWL以來,它已成為一個越來越受歡迎的研究領域。在過去的十年里,根據谷歌學術搜索引擎的索引,CWL研究的出版物數量激增(圖1)。在過去的十年里,整個文章和標題中的精確短語匹配都遵循同樣的加速增長模式。這種加速增長的興趣說明了對更先進、更有效的生理指標、建模技術的調查,以及對改善航空和駕駛等安全關鍵領域性能的普遍重視。2015年,Young等人(2015)研究了CWL文獻,并確定了幾十年來的主要研究領域。在20世紀80年代,在CWL主要理論進展的持續發展中,軟件工程/計算機輔助設計(CAD)和自適應界面(即響應操作者CWL的自動化)等領域成為主要興趣。20世紀90年代,對CWL的研究在航空和駕駛領域繼續進行得最為頻繁。最終,在2000年代的前十年,駕駛領域將遠遠領先于其他領域,而鐵路領域的研究變得越來越有意義,航空和空中交通管制(ATC)保持穩定(圖5)。考慮到幾十年來的關注領域,很明顯,CWL評估是安全關鍵領域的一個重要組成部分,特別是在交通領域。

圖 1. 60 年來腦力負荷和認知負荷出版物的頻率。從谷歌學術搜索引擎獲得的頻率數據。

綜合認知負荷評估

正如所提出的CWL定義中所概述的那樣,CWL的概念在操作上是可以使用性能、生理學和主觀評價的措施進行量化的。這些測量類別在整個CWL文獻中被持續使用,每個類別都提供了一些不同評價標準的權衡(O'Donnell & Eggemeier, 1986)。快速的文獻搜索顯示,對這些測量技術已經進行了超過20,000次檢查(評論見Cain, 2007; Heard等人, 2018; Tao等人, 2019; Charles & Nixon, 2019; Vogl等人, 2020)。

表現和CWL是以一種反向的方式聯系在一起的,特別是在最佳的任務需求水平下,但這種關系并不簡單地歸結為一個上升,另一個下降。相反,通過自愿招募認知資源(即導致CWL增加的努力),性能可以保持在高水平而負荷增加。也就是說,人類可以付出更多的努力,調動更多的資源,或者隨著需求的增加而 "更努力地 "完成一項任務,以保持他們的表現。只有到了一定程度,也就是傳統上所說的 "紅線",績效才會開始動搖,從而與高水平的CWL形成反向關系。圖2詳細說明了作為任務需求增加的函數的績效-負荷關系(改編自De Waard, 1996和Young等人, 2015)。這個修改后的區域模型說明了績效和負荷在D、A2和C區域有一致的反向關系,而在A1、A2和B區域則有更多的動態變化。以這個模型為框架,我們很容易看到,除非在D或B區域內觀察,否則主要的任務績效測量可能缺乏敏感性。由于績效指標通常是對任務效率的全面調查,它們很少對不同資源的認知負荷進行診斷性描述。雖然這些類型的性能指標可能在一個相對粗略的尺度上發揮作用,但它們對整個任務性能的干擾是最小的,因為數據往往是現成的。在航空領域,標準偏差、輸入活動和教員飛行員評級的措施已被廣泛用于區分高和低水平的CWL。

圖 2. 績效-認知負荷關系的描述(改編自 De Waard,1997 年和 Young 等人,2015 年)。

已經觀察到可識別的生理信號在不同程度的有經驗的CWL下發生變化,一些生理指標已經發現成功地作為CWL的操作措施。心率、心率變異性、瞳孔直徑、腦電圖(EEG)信號帶、通過功能性近紅外光譜(fNIRS)測量的腦氧飽和度以及許多其他指標,都有大量文獻支持它們作為CWL的代理測量。與性能指標不同,生理學指標允許研究人員挖掘發生在性能保持穩定(即A1和A2區域)而CWL正在積極變化的區域的CWL變化。在某種程度上,生理指標允許研究人員看到隨著任務需求的增加,"引擎蓋 "下發生了什么。這種在接近紅線時觀察CWL變化的能力說明了測量類別的普遍高靈敏度。此外,它為應用領域的研究人員提供了一種手段,以預測性能故障的發生,并在性能開始受到影響之前補救任務要求。然而,其他生理現象,如疲勞、焦慮或身體運動,可以高度干擾這些指標的整體敏感性。生理指標在其診斷性方面可以有很大的不同。一些生理指標提供了一個更全面的有經驗的CWL尺度,如瞳孔直徑或心率變異性。其他指標通過確定大腦內的激活區域,如EEG或fNIRS指標,或由特定的任務要求(即眨眼動態)驅動,顯示出更高的CWL資源診斷能力。目前正在進行的工作是限制生理傳感器的整體侵入性,以便向現實世界的應用邁進。一些傳感器的侵入性很小(如心電圖[ECG]、遠程眼球追蹤器等),而另一些則會造成較高的侵入性(如頭戴式眼球追蹤器、fNIRS、皮膚電活動等)。在航空領域,心率和心率變異性指標是使用最廣泛的生理學指標之一,因為它在敏感性、診斷性和對操作環境的干擾性之間有一個公平的平衡(Backs,1995)。然而,最近的研究已經接近于優化瞳孔直徑、fNIRS和EEG等指標,作為額外的生理測量指標在航空領域使用。

CWL是一種獨特的體驗,人類可以通過自省來識別和描述。因此,可以通過使用結構化的、經過驗證的、采取主觀測量形式的問題來捕捉這種自我報告的體驗。多年來,許多不同的CWL主觀量表已經在各研究領域進行了測試,并表明人類可以可靠地指出他們在特定任務中體驗到的CWL水平。總的來說,主觀衡量標準對CWL的變化顯示出很大的敏感性。主觀評分允許研究人員對圖2中描述的所有區域的CWL進行采樣。主觀指標也可以通過使用單維和多維措施,分別從低到高的診斷性范圍。單維主觀指標要求操作者評估他們所經歷的CWL的單一方面,例如通過評價努力支出、資源能力或一般CWL本身。多維度的主觀衡量標準更具有診斷性,因為多個問題或子量表涉及到CWL體驗的許多相似但不同的元素。不幸的是,如果在任務執行過程中完成主觀測量,其干擾性通常很高。因此,大多數主觀測量是在任務執行后完成的,要求操作者在回答問題時反思他們之前的CWL體驗。當然,一些單維的主觀衡量標準試圖規避這一限制,提示受試者在任務執行期間表明他們的主觀CWL,從而與診斷性進行權衡。總的來說,主觀指標被用作驗證系統和其他CWL指標的手段。這個研究領域中最普遍的衡量標準是美國國家航空航天局的任務負荷指數(NASATLX),它至今仍被廣泛使用。 NASA-TLX經常被用作航空領域的多維CWL主觀衡量標準,但有些衡量標準,如貝德福德負荷表和修正的Cooper Harper處理質量評分表,是專門為航空領域設計的,如今也被普遍用作單維衡量標準。

由于每種類型的認知負荷評估技術都有其自身的優勢和缺點,因此,將表現、生理和主觀測量結合起來,形成認知負荷的綜合測量似乎是很自然的。其邏輯是,由于這些認知負荷的每個反應都是從同一個人身上測量出來的,因此這些反應會相互關聯,如果一個反應失敗,其他的反應可以作為一個冗余的備份。當綜合測量顯示每個單項測量中的認知負荷都在增加時,我們可以確信所研究的操作者正經歷著更高水平的認知負荷,反之亦然,認知負荷的反應也在不斷減少。如果每個認知負荷評估指標出現不同的反應,考慮到這些反應是從一個人身上收集的,被研究的操作者的經驗就變得不那么清晰了,而且更令人費解。例如,操作員可以在主觀測量中報告低水平的認知負荷,但他們的生理測量表明負荷水平在增加,而他們的性能指標卻保持穩定。同樣,同樣的不一致性可以在不同的認知負荷測量中建模,每個人的反應都表示高、低或穩定的認知負荷。Hancock和Matthews(2019)探討了認知負荷評估的關聯、不敏感和不一致(AID)的概念,以創建一個框架,用它來理解綜合負荷評估指標的可能狀態。定義這些可能的復合認知工作負荷評估狀態的三維矩陣可以在圖3中看到。

圖3. Hancock和Matthews(2019)的認知負荷評估技術的關聯、不敏感和分離(AID)框架矩陣。每項措施都可以表明認知負荷反應的增加(+)、減少(-)或穩定(O)。由于每個狀態都由矩陣中的一個立方體表示,跨越性能(主要任務)、生理學和主觀測量的27種結果組合是可能的。當測量結果相互一致時(即所有測量結果都顯示認知負荷減少或增加),就會出現雙重關聯(用A-表示減少,用A+表示增加)。

Hancock和Matthews(2019)的AIDs分類法為復合認知負荷評估狀態,沿立方體矩陣的軸線呈現了認知負荷評估的三種主要方法。每種方法允許三種反應中的一種: 增加的認知負荷反應(+),減少的認知負荷反應(-),以及穩定的(即不敏感的)認知負荷反應(o)。結合每個單獨的測量的反應結果,產生一個三維矩陣,定義復合認知負荷測量的27個獨特狀態。當不同類型的負荷測量的反應相互匹配時(例如,生理和主觀測量所顯示的負荷增加),兩個測量之間就會發生關聯。如果兩種測量方法的反應彼此不一致,就會發生分離。雙重關聯(如圖1中A+和A-狀態所表示的)發生在所有三種測量方法都報告了相同的反應的情況下(即所有測量方法都顯示了認知負荷增加、穩定或減少的匹配反應)。同樣,當這時所有的測量方法都彼此不一致時,就會發生雙重離析。雖然雙重關聯簡化了認知負荷數據的解釋問題,但認識到影響測量結果趨同的因素可以幫助理解為什么會發生離散。Hancock和Mathews(2019)詳細闡述了這些措施之間的銜接問題,并確定了可能影響措施之間反應不匹配的常見問題。諸如測量方法之間的顆粒度、不同測量方法之間的認知負荷反應的時間、自我調節策略和負荷歷史等因素都會導致不同測量技術之間的不一致。歸根結底,這些問題仍未解決,但認識到它們的存在可以幫助解釋即使是最不相關的數據集。

本報告的目標

本報告研究了過去十年(2010年代)的CWL文獻,以擴展Young等人(2015)報告的趨勢。為了指導USAARL正在進行的CWL研究的發展,對航空領域的復合CWL評估文獻進行了重點搜索。旋轉翼和固定翼航空平臺都包括在搜索范圍內。從這些航空文章中,報告了不同CWL指標的使用頻率和成功率。同時還研究了作為個體差異(即飛行經驗)和研究平臺(即模擬器或飛機)功能的CWL評估的差異數據。最后,通過CWL評估的AIDs模型對綜合CWL指標的結果進行了研究。

付費5元查看完整內容

在一個跨國威脅不斷增加、全球相互依存度空前提高、大國競爭重新抬頭的時代,美國正處于一個拐點。這是在技術革命的背景下發生的,技術革命加劇了面臨的挑戰,同時也提供了潛在的解決方案,在氣候、醫藥、通信、運輸、智能和許多其他領域提供了突破。其中許多突破將通過利用人工智能(AI)及其相關技術--其中主要是機器學習(ML)。這些進步可能會塑造國家之間的經濟和軍事力量平衡,以及國家內部的工作、財富和不平等的未來。

ML的創新有可能從根本上改變美國軍隊的戰斗方式,以及美國防部的運作方式。機器學習的應用可以提高人類在戰場上的決策速度和質量,使人機合作的性能最大化,并將士兵的風險降到最低,并極大地提高依賴非常大的數據集的分析的準確性和速度。ML還可以加強美國以機器速度防御網絡攻擊的能力,并有能力將勞動密集型企業功能的關鍵部分自動化,如預測性維護和人員管理。

然而,人工智能和機器學習的進步并不只是美國的專利。事實上,面對中國在該領域的挑戰,美國在人工智能領域的全球領導地位仍然受到懷疑。美國防部和學術界的許多報告反映了需要在人工智能研究和開發方面進行更多投資,培訓和招聘一支熟練的勞動力,并促進支持美國人工智能創新的國際環境--同時促進安全、安保、隱私和道德的發展和使用。然而,人們對信任問題,特別是對這些系統的測試、評估、驗證和確認(TEVV)的關注太少。建立一個強大的測試和評估生態系統是負責任地、可靠地和緊急地利用這一技術的一個關鍵組成部分。如果不這樣做,就意味著落后。

本報告將首先強調為人工智能系統調整美國防部現有的TEVV生態系統的技術和組織障礙,特別強調ML及其相關的深度學習(DL)技術,我們預測這對未來的威懾和作戰至關重要,同時在可解釋性、可治理性、可追溯性和信任方面帶來獨特的挑戰。其次,本報告將向國防部領導層提供具體的、可操作的建議,與情報界、國務院、國會、工業界和學術界合作,通過改革流程、政策和組織結構,同時投資于研究、基礎設施和人員,推進ML/DL的TEV系統。這些建議是基于作者幾十年來在美國政府從事國家安全工作的經驗,以及對從事ML/DL和測試與評估的政府、工業和學術界專家的數十次訪談。

付費5元查看完整內容

本文總結了關于自主軍事系統的測試、評估、驗證和確認(TEV&V)的挑戰和建議的部分文獻。本文獻綜述僅用于提供信息,并不提出任何建議。

對文獻的綜合分析確定了以下幾類TEV&V挑戰:

1.自主系統的復雜性產生的問題。

2.當前采購系統的結構所帶來的挑戰。

3.缺少測試的方法、工具和基礎設施。

4.新的安全和保障問題。

5.在政策、標準和衡量標準方面缺乏共識。

6.圍繞如何將人類融入這些系統的操作和測試的問題。

關于如何測試自主軍事系統的建議可以分為五大類:

1.使用某些程序來編寫需求,或設計和開發系統。

2.進行有針對性的投資,以開發方法或工具,改善我們的測試基礎設施,或提高我們勞動力的人工智能技能組合。

3.使用特定的擬議測試框架。

4.采用新的方法來實現系統安全或網絡安全。

5.采用具體的建議政策、標準或衡量標準。

在過去的十年中,計算和機器學習的進步導致了工業、民用和學術應用中人工智能(AI)能力的激增(例如,Gil & Selman,2019;Narla, Kuprel, Sarin, Novoa, & Ko, 2018;Silver等人,2016;Templeton,2019)。由人工智能促成的系統往往在某種意義上表現得很自主:它們可能會接管傳統上由人類做出的決定,或者在較少的監督下執行任務。然而,與武裝沖突期間的錯誤決定相比,一個真空機器人、一個高頻股票交易系統,甚至一輛自主汽車做出錯誤的選擇是可以通過糾正措施相對恢復的。軍事系統將面臨與民用系統相同的大部分挑戰,但更多地是在結構化程度較低的環境中運作,所需的反應時間較短,而且是在對手積極尋求利用錯誤的情況下。人工智能和自主軍事系統將需要強有力的測試,以保證不理想的結果,如自相殘殺、附帶損害和糟糕的任務表現是不太可能的,并且在可接受的風險參數范圍內。

為了自信地投入使用自主軍事系統(AMS),必須相信它們會對設計時可預見的問題和它們必須適應的不可預見的情況做出適當的決定。簡而言之,這些系統必須是熟練的、靈活的和值得信賴的。 當AMS要在狹義的情況下運行時(例如,要求一個 "智能"地雷在一天中的特定時間內施加特定的壓力時爆炸),要保證系統的行為符合要求就容易多了。它能遇到的相關不同情況的數量和它的行為反應(即其決策的狀態空間)都是有限的。擴大這個狀態空間會使保證更加困難。例如,一個自主的基地防御系統旨在根據目前的ROE用適當的武力來應對任何可能的威脅,預計會遇到更多的情況,包括設計的和不可預見的。要在這種情況下適當地運作,需要更多的靈活性,這反過來又要求系統更加熟練,允許它運作的人類更加信任。這些需求的相互作用是這些系統的許多T&E困難的一個核心驅動因素。

人工智能技術為美國防部(DoD)內的采購項目的測試和評估過程帶來了一系列的挑戰。首先,這些系統純粹的技術復雜性和新穎性可能難以駕馭。此外,美國防部的采購流程是在假設的基礎上進行優化的,而自主權可能不再成立(Tate & Sparrow, 2018)。例如,將承包商、開發和操作測試分開,假設我們有離散的、相對線性的開發階段,導致系統的 "生產代表 "版本。對于AMS來說,這可能不是真的,特別是如果它們在整個生命周期中繼續學習。此外,在我們擁有一個系統之前就寫需求,是假設我們事先了解它將如何被使用。因為AMS的熟練度、靈活性和可信度會隨著時間的推移而發展,并會影響人類如何使用或與系統互動,所以與標準系統相比,作戰概念(CONOPS)和戰術、技術和程序(TTPs)將需要與系統共同開發,其程度更高(Haugh, Sparrow, & Tate, 2018; Hill & Thompson, 2016; Porter, McAnally, Bieber, & Wojton, 2020; Zacharias, 2019b)。

然而,即使美國防部的采購流程被更新,美國防部員工用于測試和評估(T&E)的具體方法、工具和基礎設施將無法保證系統的性能達到預期。開發和設計工作包含了測試,通過內部儀器建立可測試性;提高軟件的透明度、可追溯性或可解釋性;對培訓和其他數據進行良好的管理和驗證,可以改善開發過程,同時也為測試和評估鋪平道路,但它們沒有被普遍采用。此外,能夠幫助項目克服所有這些挑戰的政策和標準要么缺乏,要么不存在。

什么是自主性?

自主性的定義繁雜眾多,有些定義對美國防部來說不如其他定義有用。許多定義包含了獨立、不受外部控制或監督、或與其他實體分離的概念(例如,牛津英語詞典,2020年)。然而,假設任何參與者將在沒有控制或監督的情況下運作,甚至是人類作戰人員,這與美國防部的政策和指揮與控制(C2)的思想相悖。不希望自主系統擁有選擇行動路線的完全自由,而是在其分配的任務中擁有一些受約束的自由。

與作戰人員一樣,可能希望與自主系統有一個C2或智能體關系。希望:1. 明確具體任務和/或整體任務的目標或目的,可能還有這些目標的更大原因,如指揮官的意圖(即做什么和為什么)。2.明確與任務相關的約束,如交戰規則(ROE,即不能做什么)。3. 不指定使用的方法或對每一種情況給出明確的應急措施,如對對手的反應做出反應(即如何完成任務)。

一個系統是否被授權為一項任務做出這些 "如何 "的決定,是本文將區分自主系統和非自主系統的方法。

在 "是什么"、"不是什么 "和 "為什么 "的限制下,為 "如何 "做出有用的、理想的選擇,假定了某種程度的智能。因為這些是機器,這就意味著存在某種程度的人工智能。需要人工智能來實現對非瑣碎任務的有用的自主性,這可能解釋了為什么人工智能和自主性經常被混為一談。在本文件中,我們將自主性稱為系統在其操作環境中的行為,而人工智能則是與該環境進行有意義的互動的 "內在 "促成因素。

付費5元查看完整內容

將分布式仿真和工具集成到可互操作的系統聯盟中是一項復雜而耗時的任務,需要對單個組件、接口和綜合解決方案進行廣泛測試。為了支持這項任務,北約依靠標準和協議以及它們的一致應用。在整合解決方案以支持北約和國家仿真和訓練時,提高建模和仿真(M&S)的互操作性、重用性和成本效益,是一個長期的目標,有幾個挑戰。需要采取漸進和迭代的方法來協調分布式仿真聯盟協議,以應對與遺留系統、多種架構、信息技術(IT)和軟件技術的新進展、行業標準的采用、新的商業模式以及開發開放標準的過程有關的問題。

標準、聯盟協議、符合性測試和認證是重要的工具,可以減少集成時間,降低風險,增加現有系統的重復使用,并支持采購新的可互操作的仿真組件。新的和更新的仿真互操作性標準,如高級架構(HLA),要求北約仿真認證服務持續維護和更新,以使用適用標準的最新版本管理更復雜的測試案例。仿真組件的認證需要在核心HLA服務接口之外進行額外的測試,還應該包括符合聯盟協議的測試。

在M&S界,人們普遍認為系統之間的技術互操作性不再是一個基本問題。然而,高水平的互操作性仍然被認為是建立可靠和可信的分布式仿真聯盟的一個主要挑戰。所需的互操作性程度不僅取決于仿真系統的目的和目標,而且還取決于聯盟設計和具體系統組件的互操作能力。早期識別互操作性問題可以降低風險,以及減少與互操作性系統組件相關的成本。高度的互操作性允許更靈活的聯合設計,以及仿真系統的可組合性,而不會大大增加與測試和集成有關的風險和成本。

根據參與的仿真組件之間的互操作性程度,將聯合體集成到復雜的聯合體中可能是一項耗時且雄心勃勃的任務。支持早期檢測互操作性問題的工具、流程和服務將大大減少集成時間和成本。符合標準和接口的驗證不僅與支持認證有關,而且對系統集成商和仿真系統開發商也有價值。

對系統組件進行符合互操作性標準和協議的測試是驗證互操作性的基礎。測試和驗證仿真組件的互操作能力是實現異構分布式仿真系統快速設計和集成的基礎。隨時可用的、最新的、可信賴的工具是支持合規性測試的關鍵。

認證服務可以根據一套基于一致性聲明的互操作性要求(IR),對被測系統(SuT)提供無偏見的符合性測試。證書由授權的認證機構(CE)提供,是符合互操作性要求的標志。根據STANAG 4603的規定,仿真組件必須擁有或獲得證書才能成為采購或驗收測試的候選者。

MSG-134的任務是根據現有的標準和使用以前的工具和認證程序的經驗,建立一個北約仿真互操作性測試和認證服務。MSG-134項目的重點和優先事項是提供基于HLA和北約教育和培訓網絡(NETN)聯邦架構和FOM設計(FAFD)的認證服務工具。該服務由工具、流程和組織組成,管理和提供仿真組件的測試、驗證和認證,以實現高效集成。

2016年,MSG-134建立了認證服務,并在CWIX 2017實驗中首次使用,證明了其功能能力。

付費5元查看完整內容

在未來的空戰中,無人協同系統的整合將是一個潛在的巨大力量倍增器。其成功的關鍵因素將是編隊情報、協調任務規劃和跨平臺任務管理。因此,構思下一代機載武器系統的任務需要一個整體的系統方法,考慮不同的航空飛行器、其航空電子任務系統和針對未來威脅的整體作戰概念。為了盡早驗證可能的解決方案概念并評估其作戰性能,在過去幾年中,在空中客車防務與航天公司未來項目中開發了一個動態多智能體戰斗仿真。除了比實時更快的工程功能外,該仿真還可以進行實時人機對話實驗,以促進工程師、操作員和客戶之間的合作。本文介紹了動態任務仿真方法,以及在未來戰斗航空系統(FCAS)研究中應用此工具所得到的啟示,在此期間,我們清楚地認識到什么是未來應用的一個關鍵挑戰。實施一個強大的高層規劃算法,為復雜的空中行動生成臨時任務計劃,同時考慮反應性的低層智能體行為、人類操作員和在線用戶輸入。

1 引言

每一代新的戰斗機都可以通過一個或多個技術飛躍來定義,這些技術飛躍使其與上一代的設計有很大區別。毫無疑問,自從大約15年前第一架第五代戰斗機投入使用以來,幾乎所有的設計學科都有了顯著的進步。不同的飛機制造商,包括空客,已經宣布他們目前正在構思或研究第六代戰斗機[1] [3]。與目前最先進的飛機相比,這些項目很可能在各個領域都有改進,如飛行性能、全方面和全模式隱身、低概率攔截雷達和通信或武器裝備。但問題仍然存在:什么將是這一代的決定性因素,一個真正改變未來戰斗空間的因素?

一個常見的假設是,未來的戰斗空間將是 "高度網絡化 "的,即所有參與的實體都可以交換他們的態勢視圖,并以近乎實時的方式創建一個共享的戰術畫面。一方面,這使得多個平臺在空間和時間上可靠同步達到了以前不可能達到的程度。許多算法,特別是發射器定位或目標測距的算法,如果能從多個位置產生測量結果,會產生明顯更好的效果。另一方面,高質量數據的可靠交換通過分配以前由單一平臺執行的任務,使戰術更加靈活。對作戰飛機的主要應用可能是所謂的合作交戰概念(CEC),這已經是美國海軍針對反介入/區域拒止(A2/AD)環境的海軍綜合火控-反空(NIFC-CA)理論的一部分[4],但其他應用也是可能的,例如合作電子攻擊。所提到的概念主要適用于任務期間單一情況的短期范圍,例如偵察或攻擊薩母基地、空對空(A2A)作戰等。然而,就整個任務而言,還有一個方面需要提及。鑒于所有參與實體之間的可靠通信,規劃算法可以交換任務計劃變更的建議,并根據其目標和當前的戰術情況自動接受或拒絕。這在一個或多個不可預見的事件使原來的任務計劃無效的情況下特別有用,盡管所有預先計算的余量。與其估計一個替代計劃是否可行,并通過語音通信與所有其他實體保持一致(考慮到船員在某些任務階段的高工作負荷和參與實體的數量,這是一項具有挑戰性和耗時的任務),一個跨平臺的任務管理系統可以快速計算出當前任務計劃的替代方案,并評估是否仍然可以滿足諸如開放走廊等時間限制。然后,一組替代方案被提交給機組人員,以支持他們決定是否以及如何繼續執行任務。

將上述想法與現在可用的機載計算能力結合起來,由于最近在硬件和軟件方面的進步,可以得出結論,未來一代戰斗機將很有可能在強大的航空電子系統和快速可靠數據交換的基礎上,采用卓越的戰術概念進行作戰。然而,這還不是我們正在尋找的明確游戲改變者--甚至現有的第五代戰斗機已經應用了一些提到的概念,例如,在NIFC-CA背景下的F-35[4]。因此,下一步不僅要改進飛機的航電系統,而且要在完全網絡化環境的前提下連貫地優化航電、戰術和平臺設計。這種方法允許思考這樣的概念:如果得到網絡內互補實體的支持,并非每個平臺都需要擁有完整的傳感器套件和完整的決策能力。因此,不同的平臺可以針對其特殊任務進行高度優化,從而與 "單一平臺做所有事情 "的方法相比,減少了設計過程中需要的權衡數量。很明顯,一個專門的傳感器平臺不需要或只需要非常有限的武器裝備,因此現在可用的空間可以用來建造更好的傳感器或更大的燃料箱。這已經可以使該平臺專門從事的任務性能得到顯著提高,但有一樣東西可以去掉,它的影響最大:飛行員。在這一點上,必須明確指出,目前沒有任何算法或人工智能能夠接近受過訓練的機組人員態勢感知和決策能力。這就是為什么在不久的將來,人類飛行員在執行戰斗任務時將始終是必要的。然而,如果飛行員(或更準確地說,決策者)被提供了指揮無人駕駛同伴的所有必要信息,那么就不需要在同一個平臺上了。因此,我們提出了一個概念,即一個或多個載人平臺由多個無人駕駛和專門的戰斗飛行器(UAV)支持。在下文中,我們將把至少一個載人平臺和一個或多個由載人平臺指揮的專用無人機組成的小組稱為包。我們聲稱,由于以下原因,無人平臺將作為有人平臺的力量倍增器發揮作用:

  • 無人機是可擴展的,而空勤人員是不可擴展的。因此,無人機可以執行高風險的任務,并允許采用只用載人平臺無法接受的戰術。

  • 無人機更便宜(即使不考慮機組人員的價值),因為它們可以在性能相同的情況下比載人平臺建造得更小。這意味著,在相同的成本下,更多的平臺可以執行任務,更多的平臺會導致更高的任務成功率。首先,因為有更多的冗余,其次,如果有更多的資產參與其中,一些任務可以更好地完成,例如發射器的定位。

  • 不同的無人機和載人平臺可以任意組合。在任務開始前,可以根據需要組成包。在任務期間,在某些限制條件下,也可以重新組合軟件包,例如,如果交戰規則禁止不受控制的飛行,則指揮平臺之間的最大距離。這使得任務規劃和執行有了更大的靈活性,預計也能保持較低的運行成本和材料損耗("只使用你需要的東西")。

像往常一樣,沒有免費的午餐這回事。在我們的案例中,所有上述優勢對飛機設計師來說都是有代價的。不是按照一組技術要求優化單一設計的性能,而是必須設計多個平臺及其子系統,使其在各種任務和組合配置中最大限度地提高整個系統的性能。在本文的其余部分,我們將介紹FCAS原型實驗室(FPL),這是一個在FCAS背景下開發的模擬環境,用于解決這一高度復雜的問題。在第2章中概述了它在概念設計和跨學科技術原型開發中的作用后,我們將在第3章中介紹底層動態多智能體任務仿真的概念和架構。在第4章中,我們將介紹選定項目的結果,以概述該工具的多功能性。本文最后將介紹可能是未來最大的挑戰之一,不僅對模擬,而且對一般的無人系統的引進。實施一個強大的高層規劃算法,為復雜的空中行動生成臨時任務計劃,同時考慮反應性的低層智能體行為、人類操作員和在線用戶輸入。

FCAS原型實驗室(FPL):動態多智能體任務仿真

FPL的核心是一個動態多智能體任務仿真,可以在一臺計算機上運行,也可以分布在多臺機器上,并使用不同的附加硬件組件。為了方便兵棋推演的進行,對人機界面技術進行原型測試,或用于一般的演示目的,模擬中的所有載人機載資產都可以選擇由硬件駕駛艙控制。如果沒有人類操作員參與,模擬必須能夠比實時運行更快。這對于在可能需要數小時的大規模任務中進行有效的開發和權衡分析尤為必要。為了以客觀和公正的方式評估概念和技術,每個模擬任務的過程都是由預先定義的系統屬性、物理效應的模擬和可配置的智能體行為和合作演變而來。不存在任何腳本事件,每一次新的模擬運行的結果都是完全開放的。藍軍和紅軍是在相同的假設下,以可比的抽象水平進行模擬。以下各章概述了如何在FPL中動態地模擬當前和未來機載系統的任務。介紹了我們的仿真結構,在對這類系統進行建模時最重要的設計權衡,以及行為建模的高層次規劃/低層次控制方法。

架構

FPL的仿真架構由三個邏輯部分組成:應用、仿真控制和通信中間件。該架構的一個核心特征是,模擬被分割成幾個應用程序。每個應用程序運行不同的模型,例如,有一個應用程序用于模擬自己的(藍色)航空器、敵方(紅色)航空器、綜合防空系統(IADS)以及更多的模型,如下所示。所有的應用程序共享相同的標準化接口,并且可以任意組合。這種模塊化允許只運行某個任務或項目所需的部分模型。所有的應用程序都是獨立的可執行文件,可以在同一臺計算機上以并行進程運行,也可以分布在幾臺機器上。通過交換編譯后的二進制文件,來自不同公司的模型的整合是可能的,而不會暴露詳細的基本功能。一般來說,不同公司之間的快速和容易的合作是FPL架構的一個主要驅動力。為此,提供了一個基礎應用類,它提供了所有與仿真有關的功能,如仿真控制狀態機、通信中間件接口和通用庫,例如用于不同坐標系的地理空間計算。通過簡單地實現一個新的基礎應用實例,新的模型可以被添加到仿真框架中。所有應用程序的執行都由一個中央仿真控制實例控制。它提供了一個圖形化的用戶界面,可以根據需要啟動、停止和加速模擬。在執行過程中,所有應用程序的運行時間被監控,仿真時間被動態地調整到最慢的模型。這使得分布式的比實時更快的模擬具有自適應的模擬時間加速。應用程序之間的通信是通過數據分配服務(DDS)標準[2]實現的。它使用發布-訂閱模式在網絡中實現了可靠和可擴展的數據交換。兩個不同的分區用于廣播仿真數據(如實體狀態、仿真控制命令等)和多播命令和控制數據(如通過BUS系統或數據鏈路實際發送的數據)。DDS標準的開放源碼實施被用來進一步方便與外部伙伴的合作。

圖1提供了我們的模擬架構的概況,包括大多數任務所需的應用程序。如前所述,這個架構并不固定,幾乎任何應用都可以根據需要刪除或交換。如黑色虛線箭頭所示,通過DDS中間件在仿真控制處注冊一個基本的應用實現,可以集成新的模型。藍色/紅色背景的方框描述了己方/敵方系統,混合顏色的方框可供雙方使用。仿真基礎設施組件的顏色為灰色,用戶界面的顏色為橙色。黑色箭頭表示模擬過程中的通信,灰色箭頭代表模擬運行前后的數據交換。

對于兵棋推演環節,不同的應用程序分布在FPL的多個房間內運行,以模仿真實的空中作業程序。在設置好一個場景后,藍方和紅方的操作人員使用任務配置工具,在不同的房間里計劃他們的任務。空中行動指揮官留在這些房間里,而飛行員則分成兩個房間,每個房間有兩個駕駛艙來執行任務。藍方和紅方空軍應用的任何飛機都可以從駕駛艙中控制,因此飛行員可以接管不同的角色,并相互對抗或作為一個團隊對抗計算機控制的部隊。所有房間都配備了語音通信模擬。任務結束后,各小組在簡報室一起評估任務,可以從記錄的模擬數據中回放。一個額外的房間配備了多個連接到模擬網絡的PC,可以選擇用于特定項目的任務,例如硬件在環實驗。

建模

為FPL選擇正確的建模范式事實上并不簡單,因為它涵蓋了操作分析工具(通常是隨機的)以及工程模擬(通常是確定性的或混合的)的各個方面。這個決定的影響可以用一個例子來說明,即如何確定一架飛機是否被導彈擊中。在隨機模型中,這個決定是基于可配置的概率,例如,被擊中的概率(導彈)和回避動作成功的概率(飛機)以及一個隨機數。為了使最終的任務結果對單一的隨機數不那么敏感,在實踐中經常用不同的隨機種子進行多次模擬運行。按照確定性的方法,導彈的飛出是根據導彈的發射方向、制導規律和固定的性能參數如推力、最大加速度等來模擬的。飛機在規避機動過程中的軌跡也是基于其初始狀態、空氣動力學、反應時間等。例如,當彈頭引爆時,如果導彈和飛機之間的距離低于某個閾值,那么飛機就會被認為被殺死。在一個確定性的模型中,在導彈發射時已經知道飛機是否會被擊中。確定性模型中必要的簡化通常是通過引入固定參數來完成的,比如導彈例子中的距離閾值。混合模型允許使用隨機數進行這種簡化,例如,作為失誤距離的函數的殺傷概率。

為了有效地測試和分析大規模的空中作業,在單臺機器上有幾十種藍色和紅色資產運行的情況下,模擬運行的速度至少要比實時快10倍(平均)。這對所用算法的時間離散性和運行時的復雜性提出了重大限制。為了保持快速原型設計能力,為新項目設置仿真或開發/集成新組件所需的時間應保持在較低水平。太過復雜的模型會帶來更多的限制,而不是顯著提高結果的質量。在這些方面,(更多的)隨機模型在運行時間和開發時間上都有優勢,更快。然而,在我們的案例中,有兩個主要因素限制了隨機模型的使用,使之達到最低限度。首先,模擬只有在給出他們的戰術和演習成功與否的確切原因時才會被操作者接受。此外,隨機模型是由數據驅動的,但對于未來自己和/或敵人的系統來說,所需的數據往往無法獲得。對于已經服役多年并在測試或實際作戰中多次射中的導彈,有可能估計其殺傷概率。然而,僅僅為未來的導彈增加這一概率是非常危險的,特別是因為隨機模型對這些參數非常敏感。從我們的觀點來看,通過將所有系統建模為基于技術系統參數的通用物理模型,可以實現對未來系統更健全的推斷。第一步,通過模擬已知技術和性能參數的現有系統,對模型本身進行驗證。對于未來的系統,技術參數會根據預期的技術進步、領域專家知識和他們的工具進行推斷。堅持最初的例子,未來戰斗機的回避機動性能的推斷,例如,基于從CAD和流體動力學模型計算出的更高的升力系數,或基于更高的導彈接近警告器的分辨率和靈敏度。

客觀評價未來概念在模擬中的表現的一個關鍵方面是環境和威脅的建模。必須考慮到,系統的方法在紅方和藍方都是有優勢的。現代國際防空系統的危險來自于結合不同的系統,從非常短的距離到遠距離。所有這些系統都有它們的長處和短處,但它們被組織起來,使個別的短處被其他系統所補償,并使整個系統的性能最大化。因此,第一個困難是必須對大量的系統進行模擬,并且必須確定這些系統的個別優勢和劣勢。通用物理模型的方法可用于這兩個方面。在通用防空系統模型被開發和驗證后,它可以迅速將新的系統整合到模擬中。根據模擬的物理效果,可以估計敵方系統的作戰優勢和弱點或未來可能的威脅概念。另一方面,使用通用模型的困難在于,必須將真實系統的功能映射到通用模型中,以便保留所有重要的單個系統屬性。這不可避免地導致了相當復雜和詳細的通用模型。我們將以地基雷達組件為例,概述我們平衡復雜性和保真度的方法。如圖2所示,IADS模擬中的一個實體由不同的組件組成。這些組件可以任意組合,以快速配置新系統。從功能角度看,地面雷達組件由控制器、探測模型和目標跟蹤器組成。根據實體的當前任務,控制器選擇所需的雷達模式,例如,360°搜索的監視或戰斗搜索,如果一個特定的部門必須優先考慮。為了對付干擾或地面雜波,可以使用不同的波形。根據雷達的類型,如機械或電子轉向的一維或二維,控制器有不同的可能性來適應搜索模式。在為一個波束位置選擇了波形的類型和數量后,探測模型根據目標、地面雜波、地形陰影、大氣衰減和電子對抗措施等方面的雷達截面模型,產生測量結果。測量誤差是由取決于隨機模型的信噪比引起的。由此產生的測量結果然后由目標跟蹤器處理,它執行測量-跟蹤關聯和跟蹤過濾。

這種詳細模型產生的另一個困難是必須估計的參數總數。在這一點上也要注意,模擬中的所有數據都是不受限制的。這一方面是由于大多數項目的限制,但另一方面,它在日常工作中也有實際優勢。我們必須牢記,模擬是用于概念驗證,而不是用于詳細的系統設計,所以在這個早期階段使用機密的威脅數據會對基礎設施和開發過程造成重大限制,而不會給結果帶來重大價值。基于此,所有的威脅數據都必須根據公開的來源或來自內部項目和外部合作伙伴的非限制性數據進行估算。這再次導致了大量的數據,而這些數據的詳細程度往往是非常不同的,或者是不一致的,例如,由于對限制性數據的去分類。隨著我們模型的不斷發展和多年來獲得的工程專業知識,我們有可能為不同的當前和推斷的未來威脅系統估計出一致的參數。這主要是在一個自下而上的迭代過程中完成的。根據現有的技術和性能參數,對缺失的模型參數進行估計以適應組件的性能。然后對單一系統的不同組件之間的行為和相互作用進行調整,以達到理想的系統性能。最后,在不同的情況下測試IADS內這些系統的協調,以使整個系統的性能最大化。

付費5元查看完整內容

這項工作包括在征求研究、設計和開發用于人工智能(AI)系統對抗性測試和評估的反人工智能工具的初步建議和結論。該報告包括對相關人工智能概念的文獻回顧和對抗性人工智能領域的廣泛研究。一項密集的利益相關者分析,包括從20多個政府和非政府組織中征集需求,協助確定哪些功能需求應包括在反人工智能工具的系統設計中。隨后的系統架構圖接受用戶輸入,測試各種類型的對抗性人工智能攻擊,并輸出人工智能模型的脆弱性。在這個工具投入使用之前,伙伴組織將進行迭代實驗,這是開發和部署這個反人工智能工具的下一個步驟。

美國國防部(DoD)對使用人工智能(AI)技術來提高軍事任務能力和日常工作越來越感興趣。美國防部將人工智能定義為 "旨在像人一樣思考或行動的人工系統,包括認知架構和神經網絡"(Sayler, 2020)。它將對抗性人工智能定義為 "對手可能針對人工智能系統部署的反措施,以及保障性能所需的評估步驟和防御措施"(美國防部,2018)。美國防部承諾研究新的理論、技術和工具,使人工智能系統更有彈性,表現出更少的意外行為。美國防部的戰略概述包括提供解決關鍵任務的人工智能能力,通過共同的基礎擴大人工智能在整個國防部的影響,培養領先的人工智能勞動力,與各種合作伙伴合作,并在軍事道德和人工智能安全方面引領世界(美國防部,2018)。

然而,隨著人工智能系統實施和采用的增加,對手已經威脅要攻擊和操縱這些系統;目前,沒有現成的工具來幫助對人工智能系統進行對抗性測試和評估(T&E),以便在其投入使用之前評估漏洞和失敗模型。在任務使用情況下,美國防部不應該在沒有事先評估安全或反人工智能措施的有效性的情況下部署這些人工智能系統。設計和建立有彈性的人工智能系統對人工智能防御至關重要,因為這些系統更容易解釋,更值得信賴,并能確保其免受各種已確定的對抗性攻擊方法的影響。

因此,美國防部旨在確保部署的人工智能系統更加安全,以防止對手的操縱。對手將基于三種訪問范式攻擊人工智能:白盒、黑盒、灰盒。白盒攻擊給予攻擊者最高的能力,這發生在對手可以訪問所有模型組件時(Kurakin,2018)。在黑箱攻擊中,對手對模型沒有完全透明的看法,但能夠探測模型以推斷其結構和組件(Kurakin,2018)。攻擊者能力的最后一個順序是灰盒(或隱盒)攻擊,這是指對手不能直接訪問模型,只能對模型的結構進行假設(Kurakin,2018)。

對人工智能系統的潛在威脅包括各種攻擊模式,如中毒、規避和模型反轉。中毒攻擊是指污染訓練數據以歪曲模型行為的攻擊,例如將用戶輸入的數據錯誤地分類到AI系統中(Bae,2021)。逃避攻擊并不直接影響訓練數據,但有效地掩蓋了它所提供的內容,使攻擊對人類觀察者、人工智能系統識別和分類都不可見(Bae,2021)。模型反轉(偷竊)攻擊發生在對手探測人工智能系統以提取有關模型配置或訓練數據的信息,從而有效地重建模型(Bae,2021)。所有這三種對抗性攻擊對已部署的人工智能系統構成了不同的后果,最明顯的是與用戶隱私和數據安全有關。

鑒于感知到的威脅和缺乏充分評估對抗性人工智能漏洞的工具,我們的工作旨在了解如何設計、開發和利用反人工智能工具,以幫助保護人工智能系統免受這些新發現的對抗性威脅載體。具體來說,我們的工作有助于并支持研究、設計和開發用于人工智能系統的對抗性T&E的反人工智能工具,供人工智能紅隊成員使用,以提高人工智能系統的復原力。

付費5元查看完整內容

認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。

CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。

這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。

第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。

付費5元查看完整內容

2018年美國國防戰略強調,有效實施自主性對于未來的交戰至關重要。這種實施的關鍵是測試和評估執行自主任務的系統的能力。本手冊的目的是為測試人員提供工具、方法和見解,以自信地對待空中平臺的自主性測試。選擇空中領域是由于其對空軍任務的適用性,并有助于確定本手冊的重點范圍。本手冊的目的不是要成為測試和評估自主性的詳盡參考資料;相反,本手冊的目標是為更多的調查提供一個啟動點。

本手冊首先概述了目的、關鍵定義和基本假設,以幫助澄清空軍測試中心的 "自主性 "含義。在建立了這種基礎性的理解后,介紹了自主性的測試方法。在機載平臺上測試自主性帶來了獨特的挑戰,因此,要想測試成功,應該利用以下五個原則。早期用戶參與、持續和累積反饋、簡化流程和產品、試點培訓方法和人機互動考慮。總體的測試方法分為兩個范式:測試的三個階段和敏捷開發與運營(DevOps)。

第二種范式的特點是,從目前的測試實踐到結合敏捷和DevOps的原則,有了更大的轉變。敏捷哲學強調個人和互動而不是流程和工具,強調工作產品而不是全面的文件,強調客戶合作而不是合同談判,強調響應變化而不是遵循計劃。它在現代軟件開發中發揮了重要作用,并且隨著自主性的發展,肯定會在未來發揮作用。此外,DevOps是一個革命性的概念,它整合了企業的開發和運營功能。這個過程依靠持續集成、持續交付、持續監控和記錄、微服務以及跨職能的協作團隊來快速實施高質量的產品。隨著空軍開始采用更多的敏捷和DevOps原則,它將能夠實現國防部 "以相關速度交付"、"組織創新 "和 "簡化從開發到實戰的快速、迭代方法 "的目標。

圖 自主性測試執行的四個組件

引言

為了最大限度地提高作戰人員的殺傷力,必須將自主性納入系統,但首先必須對其進行開發、測試和實戰化。2018年美國國防戰略摘要(參考文獻1)和2019年國防授權法案(參考文獻2)已經明確表示,將包含自主性的系統投入使用對于美國保持其競爭優勢至關重要。此外,這兩份文件都呼吁改革國防部的采購程序,以便 "以相關的速度 "產生結果。2019年,空軍首席科學家發布了《自主性:前進的道路》(參考3),該文件為推進自主技術水平建立了一個路線圖和框架,同時支持其向現有系統過渡。為了響應這一更高層次的指導,美空軍測試中心(AFTC)已經制定了一個戰略目標,即 "塑造未來的測試和評估能力,以最大限度地提高作戰人員的致命性"。這一戰略目標的一個關鍵原則是建立一種測試具有自主性和機器學習算法的系統的能力。本手冊支持AFTC的戰略目標,并為機載平臺上的自主性測試所應考慮的因素和方法提供參考。

本手冊的組織結構如下:首先,定義了本手冊的具體目的、關鍵術語和基本假設。此外,第一節概述了本手冊的范圍。下一節制定了在機載平臺上測試自主性的測試方法。本節首先詳細介紹了目前的測試范式應如何適應測試自主性。然后,它討論了應如何利用敏捷和開發與運營(DevOps)原則實施新的測試范式,以最大限度地提高自主性的有效性。最后,總結了測試自主性的要點,并強調了前進的道路。此外,還包括了包括當前自主性測試細節的附錄,以及其他一些有用的參考資料。

1.1 目的

本手冊的目的是為測試人員提供工具、方法和見解,以自信地測試空中平臺的自主性。由于自主性測試所面臨的挑戰的廣泛性和現有測試能力的整體不成熟性,本手冊的內容沒有明確定義具體的最佳實踐。相反,本手冊概述了自主性測試的注意事項,這些注意事項需要在測試過程的每個階段進行,以確保安全、可靠、有效的測試。本手冊旨在成為一個指南針,而不是一張地圖。

本手冊假設讀者有一些飛行測試經驗和/或技術背景。自主性的測試和評估從根本上說是一個多學科的冒險;因此,本手冊涉及一些成功所需的不同觀點。本手冊的目的不是要成為測試和評估自主性的詳盡參考資料;相反,本手冊的目標是為更多的調查提供一個啟動點。在整個國防部有許多研究,以及大量的學術研究,本手冊利用并試圖在此基礎上發展。此外,本手冊承認不能在真空中考慮自主性測試;它提出了自主性系統的開發者和獲取者需要與測試社區進行最佳整合的概念和框架。自主性測試的最終成功取決于未來的項目辦公室是否注意到這本手冊,并在項目的早期對測試進行適當的規劃。

1.2 關鍵定義

自主性:一套基于智能的能力,可以對部署前沒有預先編程或預期的情況作出反應,如《自主性利益共同體(COI)測試與評估》(參考文獻4)所定義。自主性構成了一定程度的自給自足和自主行為(由人類代理決策),如《自主系統的七個致命神話》(參考文獻5)所定義。

自主引擎:平臺或系統上的硬件,承載著自主軟件。

復雜系統:按照《復雜系統動力學》(參考文獻6)的定義,理解各部分之間的相互作用與理解各部分的功能同樣重要的一個系統。

服務:一個獨立的、封裝好的功能單元,通過一個定義好的接口(主要針對軟件)接收輸入并給出輸出,如《面向服務的建模》(參考文獻7)所定義。

任務:由一個或多個服務組成,在一個離散的、確定的時間段內完成一個特定的目標或行動。

信任:按照《組織信任的綜合模型》(參考文獻8)的定義,一方愿意在另一方的行動面前表現得很脆弱,因為他期望另一方會執行對信任者來說很重要的特定行動,而不考慮監督或控制該方的能力。信任主要建立在令人滿意的可靠性和準確性的組合上。

1.3 基本假設

盡管在上一節中對自主性進行了定義,但為了本手冊的目的,進一步澄清 "自主性 "的實際含義是很重要的。以下四個基本假設主要來自2012年國防科學委員會關于 "自主性在國防部系統中的作用 "的研究(參考文獻9),有助于磨練 "自主性 "的含義。

1."自主性 "從根本上說是基于軟件的。

2."自主性 "被認為是相對于特定的任務,在一個離散的時間間隔內,而不是針對整個系統。

3."完全自主 "系統是一個錯誤的說法。所有的自主性都必須在某些時候與人互動,因此被認為是一個人機聯合認知系統。

4.確定和爭論 "自主性水平 "對測試和評估系統是無益的,而且會產生反作用。

1.4 手冊范圍

本手冊著重于測試和評估空域的自主性。之所以選擇空域,是因為它與空軍的任務相關,也因為它給測試和評估企業帶來了獨特的挑戰,而這些挑戰在其他領域并不適用。雖然所介紹的是機載自主性應用的例子,但本手冊所介紹的大部分框架和工具都普遍適用于其他領域。

在本手冊中,被視為被測系統(SUT)的自主性類型是那些在物理世界中的實時應用,通常被稱為 "運動中的自主性",如國防科學委員會。關于自主性的夏季研究(參考文獻10)。這與 "靜止狀態下的自主性 "應用相對立,后者對于建立一支更具殺傷力的部隊至關重要,并將在 "運動中的自主性 "系統的測試和實戰中發揮重要作用。運動中的自主性 "的例子可以在智能炸彈、無人駕駛航空系統(UAS)中找到,甚至可以作為載人平臺上的一個子組件(即F-16上的地面防撞系統)。確定一個系統是否構成 "運動中的自主性 "的一個有用的方法是用約翰-博伊德的 "OODA "循環來思考,該循環來自《輸贏論》(參考文獻11)。運動中的自主性必須:

  • 觀察其周圍的環境,以建立一個世界觀。

  • 在世界觀中確定自己的方向。

  • 決定一個適當的反應。

  • 根據該決定采取行動。

圖1給出了一個層次化的視角,說明了自主性對一個平臺的作用。平臺執行的任務是由各種任務組成的,這些任務建立在較低層次的服務之上。當本手冊中使用 "自主性 "一詞時,它指的是在任務或任務層面采取的行動,這些行動是由服務促成的。在大多數情況下,這些行動目前是由人類操作員執行的。傳統上,測試界并不測試或評估人類操作員,因此必須擴大測試范式,以納入類似人類操作員的自主任務或任務的評估標準。

為了更好地理解圖1,我們以壓制敵方空中防御(SEAD)任務為例。對于執行SEAD的戰斗機平臺來說,干擾敵人的雷達是主要任務之一。此外,像空域整合、空中加油和編隊飛行等任務可能都需要成功完成。而這些任務又需要大量的服務,負責操作各種有效載荷、飛機本身以及指揮和控制功能。

本手冊有意避免使用機器學習(ML)和人工智能(AI)的字眼。ML和AI是實現自主性的工具;本手冊中提出的策略適用于自主系統的測試,無論自主是如何產生的,也無論它如何運作。

付費5元查看完整內容

在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?

我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。

這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?

這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。

有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。

  • 撞擊前5.6秒,受害者被列為車輛,由雷達識別
  • 撞擊前5.2秒,受害者被歸類為其他,通過激光雷達
  • 撞擊前4.2秒,根據激光雷達,受害者被歸類為車輛
  • 在撞擊前3.8秒和2.7秒之間,通過激光雷達,在車輛和其他之間交替進行分類
  • 撞擊前2.6秒,根據激光雷達,受害者被歸類為自行車
  • 撞擊前1.5秒,根據激光雷達,受害者被歸類為不知名。
  • 撞擊前1.2秒,根據激光雷達,受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。

請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。

圖 1:基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。

付費5元查看完整內容
北京阿比特科技有限公司