目前在合成生物學、材料和神經科學方面的科學模型未能代表一個復雜系統的所有突出特征及其隨時間的演變。科學家們傳統上使用歸納推理和有限的觀察變量來構建復雜系統的模型。通過圍繞觀察到的現象的合理解釋來設計實驗,他們可能會錯過屬性的相互聯系。此外,科學家們經常在一個數據孤島中進行實驗,關注系統的單一方面,而不考慮二階和三階的影響。這些方法導致了實驗的意外和缺乏可重復性,很少或沒有洞察到失敗的根源。
為了從根本上改變在缺乏完整模型的領域中設計和發現穩健的模型,二六科技、Netrias、雷神 BBN Technologies(BBN)、賓夕法尼亞大學(Penn)和James Yorke教授在四年時間里開展了 "來自模糊系統分析的因果假設(CHAOS)"工作。
CHAOS將通過有效利用高通量實驗產生的數據來加速科學發現,產生假設,并減少實驗意外,從而徹底改變當前復雜系統的模型并使其自動化。CHAOS是圍繞四個主要的互動模塊建立的:
圖2 概念圖
特征提取:自動編碼器能夠自動學習觀察到的變量之間的映射,并創建一個壓縮的特征表示,持續編碼系統的狀態。
狀態空間預測:一個深度神經網絡(DNN)通過捕捉系統的非線性動態來預測未來的狀態。
穩定性分析:通過動態系統分析提取穩定的運行區域,以減少實驗中的意外,并能發現故障的根本原因。
模型完善:一個終身學習引擎,可以有效地重新配置和更新深度網絡,實現跨領域的知識轉移和每天一兆字節的數據速率。
CHAOS是一種新穎的、革命性的科學發現方法,通過分析層自動生成因果和關聯假設,并利用實時實驗結果完善模型。CHAOS的分析技術可以自動識別跨時間和物理尺度的系統運行的穩定區域,其結果是為TA2表演者提供了一套強大的設計規則。完成這一挑戰是由一個多學科的合作團隊完成的,包括Two Six Technologies(prime)、Netrias、James York教授、Raytheon BBN和Eric Eaton博士。
圖 CHAOS三層結構
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。
最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。
快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。
RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。
RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。
比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。
在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。
我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。
美國防部負責研究和工程的副部長辦公室(Alexandria, VA)成立了美國防部健康和人類表現生物技術委員會(BHPC)研究小組,以持續評估生物技術的研究和發展。BHPC小組評估了具有潛在軍事用途的改善健康和性能的科學進展;確定了相應的風險和機會以及倫理、法律和社會影響;并向高級領導層提供了為未來美國部隊減輕對抗性威脅和最大化機會的建議。在BHPC執行委員會的指導下,BHPC研究小組進行了為期一年的評估,題為 "2050年的半機械士兵:人/機融合和對國防部未來的影響"。這項工作的主要目的是預測和評估在未來30年內與人體結合的機器對軍事的影響,以增強和提高人類的表現。本報告總結了這一評估和發現;確定了該領域新技術的四個潛在軍事用途;并評估了它們對美國防部組織結構、作戰人員的理論和戰術以及與美國盟友和民間社會的互操作性的影響。
美國防部健康和人類表現生物技術委員會(BHPC,弗吉尼亞州亞歷山大)研究小組調查了與協助和提高人類在許多領域的表現有關的廣泛的當前和新興技術。該小組利用這些信息開發了一系列小故事,作為討論和分析的案例,包括可行性;軍事應用;以及倫理、法律和社會影響(ELSI)的考慮。最終,該小組選擇了四個場景,認為它們在2050年或更早之前在技術上是可行的。以下是與軍事需求相關的場景,并提供了超越目前軍事系統的能力:
對成像、視覺和態勢感知的眼球增強。
通過光遺傳體衣傳感器網恢復和編程肌肉控制。
用于通信和保護的聽覺增強。
直接增強人腦的神經,實現雙向數據傳輸。
盡管這些技術中的每一項都有可能逐步提高超出正常人類基線的性能,但BHPC研究小組分析認為,開發直接增強人腦神經的雙向數據傳輸技術將為未來的軍事能力帶來革命性的進步。據預測,這項技術將促進人與機器之間以及人與人之間通過腦與腦之間的互動的讀/寫能力。這些互動將允許作戰人員與無人駕駛和自主系統以及其他人類直接溝通,以優化指揮和控制系統和行動。人類神經網絡和微電子系統之間直接交換數據的潛力可以徹底改變戰術戰士的通信,加快整個指揮系統的知識轉移,并最終驅散戰爭的 "迷霧"。通過神經硅接口對人腦進行直接的神經強化,可以改善目標的獲取和接觸,并加速防御和進攻系統。
盡管直接神經控制所帶來的軍事硬件控制、增強的態勢感知和更快的數據同化將從根本上改變2050年的戰場,但其他三種半機械人技術也可能以某種形式被作戰人員和民間社會采用。BHPC研究小組預測,人類/機器增強技術將在2050年之前廣泛使用,并將穩步成熟,這主要是由民用需求和強大的生物經濟推動的,而生物經濟在今天的全球市場上處于最早的發展階段。全球醫療保健市場將推動人類/機器增強技術,主要是為了增強因受傷或疾病而喪失的功能,國防應用可能不會在后期階段推動市場發展。BHPC研究小組預計,逐步引入有益的恢復性機械人技術將在一定程度上使人們適應其使用。
BHPC研究小組預測,在2050年之后的幾年里,將增強的人類引入普通人群、美國防部現役人員和近似的競爭對手,并將導致既定法律、安全和道德框架的不平衡、不平等和不公平。這些技術中的每一項都將為終端用戶提供某種程度的性能改進,這將擴大增強和未增強的個人和團隊之間的性能差距。BHPC研究小組分析了案例研究并提出了一系列問題,以推動其對國防部計劃、政策和行動的影響評估。以下是由此產生的建議(不按優先順序排列):
1.美國防部人員必須對社會對人/機增強技術的認識和看法進行全球評估。在美國存在一種普遍的看法,即我們的對手更有可能采用美國民眾因道德問題而不愿或不愿意使用的技術。然而,對手對這些技術的態度從未被證實過。引入新技術后的社會憂慮會導致意料之外的政治障礙,并減緩國內的采用,而不考慮價值或現實的風險。對全球態度的評估將預測在哪些地方可能因為社會政治障礙而難以引進新技術,以及在哪些地方對手采用抵消技術可能會更容易被接受。
2.美國領導層應利用現有的和新開發的論壇(如北約)來討論在接近2050年時對盟國伙伴互操作性的影響。這將有助于制定政策和實踐,使部隊的互操作性最大化。機械人技術的快速發展速度對軍隊的互操作性有影響。美國防部要求在北約和其他全球聯盟框架內與盟國伙伴保持互操作性,這就需要努力使半機械人資產與現有的盟國伙伴關系理論保持一致。
3.美國防部應投資發展其控制下的動態法律、安全和道德框架,以預測新興技術。由于這些技術在美國和世界其他國家(盟國和敵國)的發展速度,目前的法律、安全和道德框架是不夠的。因此,國防部應支持制定具有前瞻性的政策(內部和外部),以保護個人隱私,維持安全,并管理個人和組織的風險,同時使美國及其盟友和資產的明確利益最大化。由于國家安全技術的操作化是國防部任務的核心,這些框架的結構應該是靈活的,并對美國國內或其他地方開發的新技術做出反應。
4.應努力扭轉關于增強技術的負面文化敘述。在流行的社會和開源媒體、文學和電影中,使用機器來增強人類的身體狀況,在娛樂的名義下得到了扭曲的和反社會的敘述。一個更現實、更平衡(如果不是更積極)的敘述,以及政府對技術采用的透明度,將有助于更好地教育公眾,減輕社會的憂慮,并消除對這些新技術的有效采用的障礙。一個更加知情的公眾也將有助于闡明有效的社會關注,如那些圍繞隱私的關注,以便國防部人員可以盡可能地制定緩解策略。雖然這不是國防部的固有任務,但國防部領導層應該明白,如果這些技術要投入使用,需要克服公眾和社會的負面看法。
5.美國防部人員應進行桌面兵棋推演和有針對性的威脅評估,以確定盟軍和敵軍的理論和戰術。兵棋推演是衡量不對稱技術對戰術、技術和程序影響的既定機制。探討美國或其對手整合和使用人類/機器技術的各種場景的桌面演習將預測抵消優勢,確定北約和其他盟國組織的互操作性摩擦點,并告知高級軍事戰略家和科技投資者。國防部人員應利用對這一新興領域有針對性的情報評估來支持這些努力。
6.美國政府應支持努力建立一個全國性的人/機增強技術的方法,而不是整個政府的方法。聯邦和商業在這些領域的投資是不協調的,并且正在被中國的研究和開發努力所超越,這可能導致美國在本研究的預計時間框架內失去在人/機增強技術方面的主導地位。在商業領域接近同行的主導地位將使美國在國防領域的利益處于劣勢,并可能導致到2050年在人/機增強領域的劣勢被抵消。為保持美國在半機械人技術方面的主導地位而做出的國家努力符合國防部和國家的最佳利益。
7.美國防部應支持基礎研究,在投入使用前驗證人/機融合技術,并跟蹤其長期安全性和對個人和團體的影響。人機融合帶來的好處將是巨大的,通過恢復因疾病或受傷而喪失的任何功能,將對人類的生活質量產生積極影響。軍事界也將看到影響行動和訓練的能力機會。隨著這些技術的發展,科學和工程界必須謹慎行事,最大限度地發揮其潛力,并關注我們社會的安全。在這些領域的相應投資將致力于減少這些技術的誤用或意外后果。
數據高效的機器學習(DEML)對AF/DoD(美空軍/美國防部)的運作至關重要,原因如下:首先,訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程,尤其是在專家分析師隊伍有限的情況下。因此,機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外,任務環境和目標可能是多樣的、快速變化的,因此,機器學習模型必須能夠快速適應手頭的情況。機器學習系統(和人類分析員)可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是,并非所有用于預測和決策的理想特征都可用。因此,機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。
這項工作的范圍是在以下關鍵領域為DEML創造新工具:1)為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法;2)開發新的交互式工具,使人類分析者能夠快速和準確地標記大型數據集;3)開發一個新的框架,用于豐富的人類注釋,除標簽外還提供解釋和特征相關性反饋;4)在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計,以及用真實和合成數據集進行測試和實驗。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。
要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。
幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。
我們開發了一個深度學習框架來發現Koopman網絡模型,該模型映射了所有測量的生物電路輸出、實驗輸入參數和背景設計參數之間的因果關系。我們發現了測量(如多個熒光報告器)和監測的實驗參數(如光密度(OD)、溫度、誘導劑濃度、培養基的年齡)的因果關系的動態網絡模型,從而概括了任意非線性系統的動態結構函數(和傳遞函數)的概念。這些模型被用來確定具有類似行為的生物部分或生物電路的類別和關系,推斷潛在變量的狀態以產生實驗驚喜的假設,預測和評估穩定系統行為的操作包絡,并定量預測生物電路動態響應作為實驗參數的函數。我們項目中的方法結合了深度學習算法的表達能力、可擴展性和Koopman算子理論的嚴謹性,以發現數據驅動的動態系統模型,用于假設生成和生物電路表征。
最先進的模型發現方法通常利用關于模型結構的先驗信息。例如,貝葉斯分層模型識別方法基于模型先驗知識推斷出模型類別和參數。壓縮感應算法基于預先定義的基礎函數字典來識別輸入-輸出和動態模型。最先進的學習Koopman算子的方法依賴于動態模式分解(DMD),它利用線性模型來近似無窮大的Koopman算子。因此,這些方法依賴于科學家的創造力來提供先驗的典型模型。這限制了它們在缺乏規范模型的領域的適用性,如合成生物學、神經科學、人機系統或社會系統。
在合成生物電路設計方面,數據驅動的科學模型發現受到三個主要技術挑戰的阻礙。1)在未建模的動態情況下學習生物電路變量之間的定量關系,2)了解這些關系如何作為生物電路背景的函數而變化,以及3)在生物電路模型中轉換設計變量和背景之間的關系,以預測生物電路的穩定運行包絡。由于這些挑戰,科學發現通常依賴于手工或半自動的數據收集,然后由人類對數據進行解釋。模型被視為確認人類產生的假設的一種手段,而不是發現新的科學假設的一種手段。同樣,這是因為模型是圍繞科學家提供的第一原理而構建的,而不是來自數據驅動的算法。
我們開發了一種數據驅動的方法來學習網絡模型,其分辨率與數據中可用的空間和時間尺度相稱。我們沒有試圖為一個詳細的第一原理模型完全填充所有的動力學參數,而是開發了只描述測量的或已知的實驗變量之間因果關系的網絡模型。利用這個計算框架,我們項目的主要成果將在下面的章節中概述。
心智理論(ToM)和元推理,正如下文所討論的,已經成為人工智能(AI)和人-Agent團隊的關注領域。兩者都有希望通過從人類身上獲取靈感,開發出更強大、更有協作性、甚至更像人類的系統。ToM,通過關注他人的心理狀態(或其計算機類似物),以及元推理,作為對這些心理狀態的一種推理形式。以下兩節概述了心智理論(ToM)和元推理,包括在復雜環境中執行多域作戰的多人/Agent系統的過去和潛在應用。
心智理論(ToM)在心理學中描述了人類描繪和推理他人心理狀態的能力(Premack and Woodruff 1978)。這方面的一個標志是識別他人錯誤信念的能力,即一個人使用心智理論來識別世界的狀態與另一個人的信念不一致。Sally-Anne測試(Wimmer和Perner,1983年)是評估這種識別錯誤信念能力的經典任務。在這項任務中,如圖1所示,研究對象觀看了Sally和Anne的一個場景,Sally把一個物品放在一個地方,然后離開。當Sally離開時,Anne將物品移到一個新的地方。當Sally回來時,被問及她將在何處尋找該物品。如果受試者行使了ToM,他們應該認識到Sally的錯誤信念,即物品仍然在原來的位置。否則,他們很可能會表明Sally會在物品的實際移動位置上尋找。
圖1 通過錯誤信念任務評估ToM的Sally-Anne任務描述。(Baron-Cohen et al. 1985)。
像Sally-Anne任務這樣的任務已經被用來表明,在年幼的兒童(Wellman等人,2001年)、自閉癥患者(Baron-Cohen等人,1985年)和非人類動物中,ToM是不準確的或不可用的。然而,非陳述性任務(如Sally-Anne任務中不需要明確的答案,但可以測量,例如,看時間或第一次看場景中的位置)表明,這種類型的推理在較小的年齡,甚至在非人靈長類動物和鳥類中都是可用的(Baillargeon等人,2010;Horschler等人,2020;Hampton 2021)。研究人員還強調了測試中不確定性和互動性的重要性,在研究參與者和推理對象之間有更大的不確定性和知識不對稱的環境中,以及在參與者和推理對象之間有更多互動的測試中,ToM更可能得到鍛煉(Rusch等人,2020)。相反,如果ToM測試不包含足夠的不確定性或知識不對稱,則可能無法在其他環境中確實表現出ToM的參與者身上找到證據,大概是因為它們沒有充分促使參與者考慮另一個人的觀點。
最后,正如Blaha等人(2022)所強調的,那些能夠在測試中表現出ToM證據的人,在現實世界的互動中往往不會有同樣的表現。在一個交流游戲中,Keysar等人(2003)發現,神經正常的成年參與者在得到指導者的指示時,會表現得好像指導者擁有準確的知識,而他們(指導者)卻已知缺乏甚至持有錯誤的信念。同樣,Bryant等人(2013年)在一天中隨機抽樣評估了參與者在什么情況下考慮他人的心理狀態的頻率,他們發現參與者很少考慮心理狀態,在社會交往中比獨處時更少考慮心理狀態,此外,比起其他人,他們更可能考慮自己的心理狀態。這些結果表明,成年人可能會發現社會交往對認知的負擔太重,而無法在即時考慮他人的心理狀態時采用ToM。
對ToM進行計算建模通常是為了開發和測試ToM的認知理論,同時也是為了讓我們建立能夠與人類用戶進行更自然和有效的互動的技術。這一領域的許多研究表明,貝葉斯模型可以提供令人印象深刻的ToM近似值(Baker等人,2017年;Csibra,2017年;關于應用貝葉斯推理的博弈論和K級思維方法,也請參見Yoshida等人,2008年和Robalino和Robson,2012年)。
這種貝葉斯推斷通常是通過反強化學習(IRL)進行的。正如Jara-Ettinger(2019)所描述的,"預測其他人的行為是通過模擬具有假設的信念和欲望的RL模型來實現的,而心理狀態推斷則是通過反轉這個模型來實現的"(p. 105),研究發現,"在簡單的二維顯示中,通過貝葉斯推理的IRL在推斷人們的目標[Baker等人,2009]、信念[Baker等人,2017]、欲望[Jern等人,2017]和幫助性[Ullman等人,2009]時產生類似人類的判斷"(p.105)。然而,反向貝葉斯推理需要強大的先驗因素才能成功(Baker等人,2009)。雖然人類似乎也采用了強大的先驗,雖然這些先驗在新情況下可能并不總是很合理的,但它們至少在模型中是相當透明的。
作為IRL的一部分,部分可觀察的馬爾科夫決策過程(POMDPs)已被有效地用于模擬人類的ToM,其中Agent的行動在環境中是可觀察的,但他們的信念和目標必須通過近似理性假設的逆向規劃來推斷。如圖2所示,這種模型已被證明可以提供與人類相媲美的判斷(Baker,2012)。例如,在Baker(2012)的研究中,人類參與者+POMDP模型觀察了一個模擬的Agent在一個簡單的有遮擋的地形上導航,以選擇購買午餐的餐車,然后他們被要求對Agent的目標(即首選餐車)提供判斷。在這種情況下,允許改變目標的模型的判斷結果與人類的判斷密切相關,而且比不允許改變目標或允許目標包括子目標的類似模型更好。這些結果表明,這樣的模型可以人為地接近人類的判斷,甚至可以被人類推理者使用。
圖2 Baker(2012)假設的ToM因果圖,其中觀察到的(灰色)信息影響Agent的(未觀察到的)信念、欲望和最終的行動,并以理性為中介。(圖片經許可改編自Baker [2012]。)
類似的工作已經探索了更復雜的推理環境,例如使用元貝葉斯框架來模擬不同信任度條件下的人類ToM(Diaconescu等人,2014)。參與者玩了一個經濟游戲,他們得到了(真實的、非社會的)概率信息,以幫助他們在二元彩票中做出選擇,他們還得到了一個顧問的(社會的)信息,這個顧問幫助玩家的激勵是不同的。人類的結果最好由一個層次模型來模擬,該模型可以為社會和非社會信息分配不同的權重,并允許根據過去表現的動態估計來推斷顧問不斷變化的目標。雖然這項工作和其他(例如Meinhardt-Injac等人,2018年)工作已經探討了人類使用社會與非社會來源的線索進行推斷,但研究似乎沒有對涉及更多不確定信息來源的ToM以及人類如何優先考慮和納入決策過程進行建模。
這些類型的ToM模型表明,消減模型的部分內容是可能的,而且結果是可以預測的。例如,如果人類在推理他人時使用貝葉斯先驗,并且我們根據經驗更新這些先驗,可能有一些人無法有效地更新先驗。事實上,這可能是精神分裂癥的情況,人們對他人持有特別消極和懷疑的看法,而這些看法并沒有通過積極的互動得到改善。另一方面,自閉癥可能代表了整個ToM機制更普遍的消融(訪問),因為自閉癥患者在ToM的測試中往往表現不佳(TEDx Talks 2014;Prevost等人2015)。
計算性ToM也不是用來直接模擬人類的推理,而是作為一個框架,讓Agent對其他Agent進行推理。此外,這樣的Agent可能更容易解釋,并促使更好的人與Agent的互動。ToM可以讓Agent甚至在遇到其他Agent之前就持有關于他們適當的先驗,更新關于他們的信念,并識別他們的錯誤信念。
這在Rabinowitz等人(2018)中得到了說明,在那里,模型學會了通過根據它們過去的行為預測它們的未來行為來識別不同種類的Agent(例如,一個物種傾向于追求附近的物體而不是遙遠的物體)。值得注意的是,這項工作包括一項假想任務,即一個視力有限的Agent觀察其最終目標物體,當它首先追求一個子目標物體時,該物體在Agent的視線內或視線外概率性地改變位置。觀察到Agent在未觀察到移動時比在觀察到移動時更頻繁地在其原始位置追蹤最終目標對象。這表明,該模型學會了將其對環境的全部知識與Agent的有限知識分開,使其能夠識別Agent的錯誤信念。
當人類能夠對機器的 "思想狀態 "做出準確推斷時,很可能會提高信任度和性能。這已經成為可解釋人工智能領域內提高信任和性能的動力(Akula等人,2019)。同樣,隨著機器能夠更準確地推斷出人類的意圖,它們的效用會增加,并進一步獲得信任(Winfield 2018)。
元推理是一個通用的人工智能術語,指的是在計算系統中 "思考問題 "。推理算法被用來做決策,而元推理算法被用來控制推理算法或在一組推理算法中進行選擇,決定在不同情況下應該使用哪種決策方法(Cox and Raja 2011)。元推理的一個經典例子是確定推理算法在特定情況下應該停止還是繼續(例如,Carlin 2012)。
元推理可以被描述為圖3,其中推理發生在目標層,基于應用層的觀察,在目標層做出的決策在應用層被制定。例如,當目標層的算法從傳感器輸入中確定有入侵者存在時,感應式警報可能會在應用層響起(例如,當在10秒內檢測到兩個或多個運動事件時,該算法可能會響起警報)。當來自目標層的信息在元層被觀察和改變時,元推理就發生了。在前面的例子中,如果警報被頻繁觸發,元層的算法可能會調整警報的靈敏度,導致系列問題(例如,這個元層的算法可能會在目標層施加一個新的算法,只有在10秒內檢測到三個或更多的運動事件時才會發出警報)。
圖3 元推理的經典決策-行動循環圖,推理發生在目標層面,以選擇將發生在應用層的行動,而元推理發生在元層面,以控制發生在目標層面的行動。
元推理可以發生在一個單一的Agent中,如圖3所示,也可以發生在一個多Agent系統(MAS)中(圖4)。元推理經常被用于多Agent的環境中,以優化整個系統的性能,而且有許多選項可以選擇如何實現它,對時間和計算能力等資源產生不同的影響。例如,MAS中的Agent可以獨立地執行它們的元推理,并在目標層進行通信,當通信成本高且協調是低優先級時,這可能是一個好的解決方案。當協調更為重要時,獨立進行元推理的Agent可以在元層進行通信,以共同確定它們將如何獨立進行元推理(Langlois等人,2020)。
圖4(上圖)一個MAS系統,每個Agent的元推理都是獨立發生的。(下圖)一個MAS系統,每個Agent的元推理與其他Agent的元推理進行交流和協調。(圖示來自Langlois等人[2020],經許可。)
元推理也可以由獨立的元推理Agent以更集中的方式進行(圖5,頂部)。在通信資源允許的情況下,最好的協調和元推理預計將來自一個集中的元推理Agent(圖5,下)(Langlois等人,2020)。
圖5(上圖)一個有多個獨立的元推理Agent的MAS。(下圖)一個擁有單一集中式元推理Agent的MAS。(圖示來自Langlois等人[2020],經許可。)
系統在其元推理的目標上也有所不同。如本節開篇所述,單Agent元推理通常用于控制算法的停止或切換,并應用于各種領域,包括調度和規劃(如Lin等人,2015)、啟發式搜索(Gu 2021)和目標檢測(如Parashar和Goel 2021)。在MAS中,元推理經常被用來控制系統內的通信和資源,包括控制通信頻率或內容,或分配任務(Herrmann 2020)。
在元推理中的另一個問題是,有多少學習或元推理應該在線上與線下發生。因為在線元推理在時間和計算上可能是昂貴的,所以離線策略通常在不過度損害系統準確性的范圍內被最大化(例如,Carrillo等人,2020)。
廣義上講,ToM是一種元推理的形式,或者說是 "關于思考的思考"。然而,如圖3所述,元推理是通過監測和控制目標層來進行的,而ToM涉及從應用層發生的事情進行推理,而不直接進入目標層(例如,Agent的信念)。
雖然元推理已經被廣泛用于單實體和多實體系統以提高性能,但ToM方法可以說還沒有被作為一種提高人工智能Agent性能的方法進行深入探討。這幾乎可以肯定的是,部分原因是ToM與人類的認知有更緊密的聯系,這對合理的ToM模型有很強的限制,并使研究偏向于人類的應用。此外,ToM本身仍有一些爭議(例如,誰擁有它?它是什么時候獲得的?在什么條件下行使?)但它為創建更透明(如果不是真實的人類)的系統帶來了希望,特別是用多個信息源和不同的出處和確定性進行推理的系統。特別是最近的計算性ToM方法,它使用更簡單的、啟發式的ToM定義(例如,Rabinowitz等人,2018),可能是這個領域創新的最佳來源。
認知或完全自適應雷達(FAR)是一個受生物系統啟發的研究領域,其重點是開發一個能夠自主適應其特性的雷達系統,以實現各種不同的任務,如改進環境感知和光譜靈活性。FAR框架在一個軟件定義的雷達(SDR)系統和模擬感知行動周期(PAC)的環境中實現了一個動態反饋回路(感知、學習、適應)。FAR框架在SDRs上的實現依賴于基于求解器的優化技術,用于其行動選擇。然而,隨著優化復雜性的增加,對解決方案收斂的時間產生了嚴重影響,這限制了實時實驗。此外,許多 "認知雷達 "缺乏記憶組件,導致對類似/熟悉的感知進行重復的優化程序。
利用現有的FAR框架模型,在神經網絡的啟發下進行了完善。通過使用神經網絡、機器學習的一個子集和其他機器學習的概念,對應用于單一目標跟蹤的FAR框架基于求解器的優化組件進行了替換。靜態前饋神經網絡和動態神經網絡在模擬和實驗環境中被訓練和實施。神經網絡和基于求解器的優化方法之間的性能比較表明,基于靜態神經網絡的方法具有更快的運行時間,這導致了更多的感知,有時通過較低的資源消耗獲得更好的性能。還對靜態前饋神經網絡、動態遞歸神經網絡和求解器的模擬結果進行了比較。這些比較進一步支持了神經網絡能夠通過納入學習為認知雷達提供記憶組件的概念,從而走向真正的認知雷達。還進行了額外的研究,以進一步顯示神經網絡在雷達快速生成波形的應用中的優勢。
FAR框架也從單目標跟蹤FAR框架擴展到多目標跟蹤。FAR框架的多目標實現顯示了自適應雷達技術在多目標環境中的優勢,由于場景中存在的目標數量增加以及需要解決所有目標,復雜性也隨之增加。由于多目標環境,對現有的成本函數和探測/跟蹤框架進行了改進和補充。實驗和模擬結果證明了FAR框架的好處,它使一個穩健的自適應算法能夠在多目標環境下改善跟蹤和有效的資源管理。
除此之外,分層完全自適應雷達(HFAR)框架也被應用于需要執行多個任務系統的資源分配問題。分層完全自適應雷達的任務靈活性(HFAR-TF)/自主決策(ADM)工作將HFAR框架應用于一個需要參與平衡多項任務的系統:目標跟蹤、分類和目標意圖辨別("朋友"、"可能的敵人 "和 "敵人")。
本博士論文的目標是將這些目標結合起來,形成一個建立改進當前認知雷達系統的方法的基礎。這是通過融合機器學習概念和完全自適應雷達理論來實現的,以實現真正的認知雷達的實時操作,同時也將自適應雷達概念推進到新的應用中。
現代雷達系統的發展促進了軟件定義雷達(SDR)系統能夠實現動態反饋回路行為,與傳統雷達不同。傳統雷達的前饋性質依賴于感知環境的假設特性,產生固定的參數設置,以保證預定的信號干擾加噪聲比(SINR)或雷達任務性能。然而,動態/變化的環境會導致任務性能下降或系統資源的管理不善。缺乏對雷達前端特性的自適應控制會導致雷達后端的信號處理工作增加,嚴重依賴雷達操作員或根據最壞情況設置靜態的雷達系統參數。
完全自適應雷達(FAR)框架旨在利用現代SDR系統實現的傳感器參數多樣性,允許自主適應雷達波形特征,以實現更好的環境感知和雷達任務性能。FAR框架的自主性質也轉向將雷達操作員的角色轉變為咨詢角色,以及減少用于目標信息提取的額外信號處理負擔。
FAR框架通過試圖模仿動物和人類中存在的認知的神經科學概念來實現自主適應。正如[2,3,4,5]所討論的,認知過程必須包括五個主要元素:感知、注意和分析(智能)、行動和記憶。在[6]中,Haykin討論了傳統主動雷達、FAR和認知雷達之間的區別。 雖然FAR能夠通過反饋鏈路將接收機感知的環境與發射機的波形探測聯系起來,實現對環境的更好感知,但由于缺乏 "真正"學習所需的長期記憶,它的智能受到限制。
為了在認知雷達處理中進行優化,經常使用非線性函數。這些非線性函數在優化塊中實現,可以通過非線性約束目標函數的最小化進行雷達參數選擇和更新。對于FAR框架,這種 "執行優化"是在一個 "執行處理器塊 "中實現的,它試圖在服務質量(QoS)方法中平衡捕捉雷達系統基于任務的性能(性能成本)和傳感器資源消耗(測量成本)的成本函數。
在FAR框架中,執行優化被視為最關鍵的組成部分。在FAR框架中,通過結合注意力和分析,利用目標狀態的跟蹤和過去觀察的先驗知識(記憶)來選擇最佳參數指數選擇,執行處理器實現了"有限學習"。由于執行處理器中調用的傳感器參數選擇的性質,雷達波形參數被映射到雷達任務和目標性能上,給定的是先驗知識。此外,由于這種基于優化的適應性,隨著優化的復雜性增加,解決收斂的時間也在增加,因此限制了實時能力。
在概念上與FAR相似,機器學習是人工智能下的一個研究領域,它研究人類如何獲得知識,或學習,并在機器中表示這些概念。機器學習的一個子課題是神經網絡,通過它們的能力來模擬和實現學習過程,關聯、模式識別和關系建模都是神經網絡的有效任務,它可以用來提供對系統處理的較低影響,并通過識別/記憶開始學習。
學習被證明是認知系統中的一個關鍵組成部分,導致人們相信學習是認知雷達的一個主要組成部分。在[5]中,學習被定義為使用過去的信息來提高一個人的局部成功度。 然而,為了充分地從記憶和行動中學習,實時能力和性能必須是可行的。正如前面所討論的,由于用于行動選擇的優化,可以看出,隨著問題的復雜性增加,優化的計算成本也在增加。高計算成本和缺乏記憶對實現 "正式 "認知系統構成挑戰。
在FAR和認知雷達研究領域已經取得了許多進展:然而,大多數集中在缺乏長期記憶和聯想的自適應系統上。同樣,在基于神經網絡和機器學習的雷達研究方面也取得了許多進展,但大多數集中在基于分類和圖像識別的問題上。 本博士研究將著重于展示包括基于回歸的神經網絡如何通過降低對系統處理的影響來改善FAR的現有性能,并通過包括更強的記憶概念和將其擴展到展示學習來幫助認知雷達任務的執行,從而促成開發一個 "真正 "的認知系統。
這里討論的工作對認知雷達領域的貢獻如下:
通過用前饋神經網絡取代執行處理器中的優化組件,以降低對系統處理的影響并整合其固有的識別/記憶組件,開發了一個神經網絡啟發的FAR框架,即基于神經網絡控制的全適應雷達(FAR-NN)。
收集了不同參數適應情況下的模擬和實時實驗結果,并對局部解算器的實施和神經網絡進行了比較,結果表明靜態前饋神經網絡能夠實現較低的測量成本、更快的優化時間和類似的執行成本性能。
通過在每個傳感器感知行動周期(PAC)的 "執行處理器 "中模擬傳感器參數選擇,在分層全自適應雷達(HFAR)框架中實施靜態前饋神經網絡,以降低由于執行多個優化而對系統處理的影響。
通過對傳感器參數選擇的模擬,在FAR框架中實施了一個動態長短期記憶遞歸神經網絡(LSTM-RNN),將基于狀態的對不斷變化的環境的適應性和更強的記憶概念納入神經網絡激勵的FAR框架的優化部分,FAR-NN。
開發了一個LSTM-RNN,用于在動態頻譜擁擠的環境中生成低延遲、接近最佳的雷達頻率缺口波形。
將LSTM-RNN與現有的專門解算器 "減少誤差算法"(ERA)進行比較,其波形生成的仿真結果表明,網絡和算法的波形設計結果相似,LSTM-RNN生成波形的時間減少。
將現有的全適應雷達單目標跟蹤(FAR-STT)框架擴展到全適應雷達多目標跟蹤(FAR-MTT)的實現中,修改了目標函數和擴大了多目標環境的Fisher信息矩陣/Cramer Rao Bound度量。
收集了模擬和實驗結果,以證明將完全自適應雷達方法應用于多個目標跟蹤的好處,即能夠實現目標分離并保持單個目標的跟蹤,同時消耗較少的測量資源。
為一個需要執行多種任務[例如:目標跟蹤、分類和目標意圖辨別(朋友、可能的敵人和敵人)并自主分配雷達資源的雷達系統開發一個HFAR框架。
收集的模擬結果表明,通過使用自適應波形參數與固定參數集,將完全自適應的雷達方法應用于一個從事多種任務的系統的好處。
突出了使用完全自適應雷達概念的模擬和實驗演示,以證明認知雷達概念的可行實現。
本論文的其余部分組織如下。
第二章討論了基礎雷達、全自適應雷達、優化、神經網絡和統計學等與論文中提出的工作相關的背景。
第三章對認知雷達和神經網絡領域的類似工作進行了調查。
第四章討論了本工作中使用的全自適應雷達建模和模擬(FARMS)環境和算法,以及用于驗證模擬結果和實驗集合的實驗測試平臺的簡要概述。
第五章討論了神經網絡啟發的FAR框架的實現,以及與以前FAR和HFAR實現中使用的局部求解器的比較結果。
第六章回顧了一種用于快速生成缺口波形的神經網絡方法,并與現有的專門求解器進行了比較。
第七章討論了將FAR框架擴展到多目標環境中。模擬和實驗結果都被收集起來,以證明自適應雷達在多目標跟蹤環境中的優勢。
第八章討論了全適應性雷達的發展,即多功能雷達系統的問題,其中HFAR框架被應用于需要參與平衡多種任務的雷達系統:目標跟蹤、分類和目標意圖的辨別(朋友、可能的敵人或敵人)。
第九章總結了論文的結果,并給出了基于這項工作的未來研究領域。
附錄A介紹了FAR框架中使用的局部求解器與全局求解器程序的可靠性的進一步細節。
附錄B介紹了第七章介紹的FAR-MTT工作中使用的Fisher信息矩陣推導和預白化推導的進一步細節。
為了支持未來的多域作戰分析,美國DEVCOM分析中心(DAC)正在探索如何在陸軍的作戰模擬中體現天基情報、監視和偵察(ISR)資產的貢獻。DAC正在使用基于能力的戰術分析庫和模擬框架(FRACTALS)作為方法開發的試驗基礎。用于預測衛星軌道路徑簡化一般擾動的4種算法已經被納入FRACTALS。本報告的重點是來自商業衛星群的圖像產品,其分辨率為1米或更低。報告介紹了預測分辨率與傳感器特性、傾斜范圍(包括地球曲率)和觀察角度的關系的方法。還討論了在不同分辨率下可以感知的例子。
在2021年建模與仿真(M&S)論壇期間,空間情報、監視和偵察(ISR)建模被確定為當前/近期的建模差距。美國陸軍作戰能力發展司令部(DEVCOM)分析中心(DAC)提交了一份陸軍M&S企業能力差距白皮書(Harclerode, 2021),描述了幫助填補這一差距的行動方案。陸軍建模和仿真辦公室已經資助DAC開發方法,以代表商業、國家和軍事空間和低地球軌道資產的性能及其對聯合作戰的影響,并在基于能力的戰術分析庫和模擬框架(FRACTALS)內進行測試實施。
FRACTALS是DAC開發的一個仿真框架,它提供了通用的結構 "構件",用于模擬、仿真和評估ISR系統在戰術級任務和工作中的性能。FRACTALS作為DAC開發的各種ISR性能方法的測試平臺,將文件或數據被納入部隊的模擬中。FRACTALS還作為DAC的一個分析工具,在戰術環境中對ISR系統進行性能分析比較。
這項工作需要在一定程度上體現衛星飛行器(高度、軌跡和運動學)、傳感器有效載荷(光電[EO]、紅外、合成孔徑雷達和信號情報)、網絡、控制系統、地面站(時間線、通信、處理、利用和傳播)、終端用戶以及連接它們的過程和行為。本報告描述了DAC為支持這一工作所做的一些基礎工作,重點是可見光波段相機圖像。