基于深度神經網絡的機器學習方法已經取得了長足的進步,并在許多具有挑戰性的應用領域中表現出最先進的水平,包括計算機視覺、自然語言處理、語音識別和強化學習等等。這些結果通常是通過使用非常深入的神經網絡訓練的大型標記數據集獲得的,這些網絡以分層的方式學習原始數據特征的高度非線性抽象。此外,這些方法經常通過神經結構設計的方式納入歸納偏見,以限制可能的解決方案的集合。例如,卷積神經網絡(CNN)廣泛使用具有小感受野的卷積,在一定程度上模仿靈長類動物視覺系統的神經結構。事實上,已經證明,通過CNN學習的表征與從靈長類視覺系統學習的表征相比更有優勢。由于這些成功,神經網絡方法常常被視為在這些領域建立模型時的事實上的方法。
即使在多個應用領域取得了這些進展,神經網絡方法應用于表格數據的可行性仍有一些不確定性。表格數據包括以(行,列)表格式存儲的數據,其中行包含獨立的實例,列包含不同的特征。此外,表中的每一列/特征可能有不同的可能數據類型(例如,二進制與連續與分類),代表了一種高度異質的數據格式。麥肯錫公司最近的一項研究,調查了19個不同行業的400多個應用領域,顯示這種類型的表格數據是工業中最常用的數據格式之一。在表格數據上建立機器學習分類模型的標準方法一般是以決策樹(DTs)的形式出現,這是一個有監督的機器學習模型系列,它建立了一個樹狀圖,節點代表我們挑選特征子集的地方,并根據這些特征提出決策規則/閾值(例如。如果性別=男性和年齡>40歲,對于一個包含性別和年齡特征的表格數據集);邊代表這個決策規則的結果;葉子代表輸出,可以是另一個具有另一組輸入特征的決策節點,也可以是預測的感興趣的類別標簽。
基于DT的方法有很多好處,包括它們的基本形式具有很強的可解釋性(例如,通過跟蹤決策節點的層次流),這在許多現實世界的應用中是一個重要的關注點,而且它們的訓練計算速度很快。然而,DT方法也有幾個缺點:1)它們容易過度擬合,導致泛化效果差;2)它們對輸入數據的微小擾動非常敏感(在不同的數據子集上訓練時,可能會學到非常不同的樹);3)它們很難對非常復雜、高度非線性的決策規則建模。這些缺點開啟了使用神經網絡方法的可能性,因為它們有能力對高度非線性關系進行建模,并且對輸入數據的微小偏差具有更好的魯棒性,這一點在其他幾個應用領域中得到了證明。然而,由于之前提出的神經網絡架構并不適合于表格數據,缺乏適當的歸納偏差往往導致它們無法為表格數據找到最佳解決方案。
在過去的幾年里,人們對構建用于表格數據的神經網絡方法的興趣越來越濃厚。特別是,最近的一項研究比較了幾種不同的神經網絡架構和基于DT的方法,發現在對40個不同的表格式數據集進行評估時,神經網絡方法與基于DT的方法具有競爭力,這些數據集具有不同數量的實例(690-418,000)和特征(5-2000)。在許多情況下,這些神經網絡方法的表現超過了基于DT的方法,這表明現在有可行的神經網絡方法可以應用于表格數據。
在這份報告中,我們描述了我們對表格神經網絡方法進行評估的初步結果,該方法使用可穿戴生理傳感器技術,如心電圖(ECG)和皮膚電化學反應(GSR)進行人類情感狀態分類(如壓力、喚醒)。情感狀態分類是人機交互(HCI)界日益關注的領域,因為模擬和預測人類情感狀態的能力開辟了新的研究方向,側重于改善人類與自主智能系統的互動和團隊。
情感狀態分類的最大挑戰之一是跨個體的穩健表現,在這個領域之前沒有多少工作。然而,在這一領域,由于需要進行人體測試,以及個體間潛在的情感狀態存在很大程度的變異,所以很難收集大量的標記數據集。我們假設,在低標簽數據制度下,對預先提取的特征進行訓練的表格神經網絡方法可能是一種可行的替代方法,可以完全替代傳統上需要大量標簽數據集才能有效訓練的深度神經網絡的端到端訓練(即沒有任何先驗的特征處理)。為了測試這一假設,我們使用了模型框架AutoGluon-Tabular,它是一個易于使用且高度準確的Python庫,用于構建表格數據的神經網絡。本報告總結了我們使用三個公開可用數據集的發現。認知負荷、情感和壓力 認知負荷、情感和壓力(CLAS)、ASCERTAIN和AMIGOS。 我們最初的分析集中在這三個數據集內部和之間的主體間分類,因為這仍然是情感狀態分類的關鍵挑戰之一。
無人機蜂群來了!美國、中國和俄羅斯處于無人機群開發和利用的最前沿。然而,無人機的低成本和易得性使非國家行為者能夠以富有想象力和創造力的方式利用無人機,包括蜂群。本專著的目的是要解決以下問題:無人機群為軍隊提供什么效用?無人機群提供了許多優勢,包括持續的情報、監視、偵察和目標定位;對軍事人員和組織的低風險和低成本,以及癱瘓個體和組織決策的潛力。相比之下,無人機群有其脆弱性和挑戰。脆弱性包括從對手的黑客攻擊到反蜂群武器的存在,而一些挑戰包括組織上的抵制和國際法。無人機群就在這里,而且很快就會出現在戰場上,現在是解決如何最好地運用它們的時候了。在概述了無人機群的潛在好處和局限性之后,該專著最后提出了四項建議:需要敘述、建立無人機群理論、了解人機界面以及為無人機群的使用進行組織過渡。
在過去的幾十年里,人們對模糊邏輯及其應用表現出相當大的興趣。智能和深度學習系統在各行各業都獲得了突破性進展,以解決未來的實際問題。傳統的模糊有限制,只能在有限的規則維度下工作,而深度神經網絡則無法處理系統中隱含的不確定和不精確的數據。本文的目的是為智能系統開發一種能夠處理不確定性和不精確行為的通用算法,特別是用于處理大型圖像數據集。本文提出了分層模糊方法,因為它在解決現實生活中的大型問題方面越來越受到關注。所用的策略是將大的圖像數據集劃分為小的數據樣本,并以分層的方式連接所有的模糊子系統。在文獻中,據作者所知,沒有人開發出一種分層模糊方法來處理真實圖像的大型圖像數據集。已經討論了使用圖像閾值處理大型圖像數據的分層模糊邏輯的算法。為了進行評估,已經考慮了真實的圖像數據庫。圖像分類已經在國防和安全領域取得了潛在的應用,特別是在目標識別和分類方面。分層模糊系統的準確性和計算時間與現有方法如深度神經網絡的比較已經被討論。
Lotfi Zadeh在1965年提出了模糊邏輯[1], [2]的概念,處理信息的不確定性、不精確性或模糊性。模糊包括在數學和現實系統之間架起橋梁的語言參數。模糊邏輯起源于傳統邏輯的合理化。它通過在假和真之間的穩定過渡來運行。傳統邏輯將輸出顯示為 "0 "或 "1",而模糊邏輯將結果顯示為[0,1]范圍內的真實程度。模糊邏輯應用了部分真實的理論,輸出可能在完全真實和完全虛假之間搖擺。
模糊系統包括三個子系統:模糊器、推理系統和去模糊器。模糊化器將輸入轉換為語言值,這些語言值被視為模糊集的標簽。推理系統擁有一個包含輸入-輸出關系選擇的規則庫。規則的數據集包括成員函數和輸入與輸出組合的規范化。去模糊器合并了推理系統的輸出,并轉化為非語言術語。
隨著時間的推移,模糊系統的幾個分支已經被開發出來[1], [3], [4], [5],例如,神經模糊系統或模糊神經網絡、模糊聚類、模糊邏輯圖像處理等。隨著神經網絡的出現,模糊邏輯的概念已經擴展到神經模糊邏輯。模糊邏輯為包括人類評估的不確定性、不精確性和模糊性的計算問題提供了有效的解決方案和更好的評估。相反,其他方法如神經網絡有局限性,只能處理固定和精確的數據。
與模糊系統一樣,混合方法,如FNN(模糊神經網絡)或NFS(神經模糊系統)整合了神經網絡和模糊邏輯行為。這種混合方法增加了模糊邏輯的語言推理和神經網絡的認知連接。這種混合的結果是一個智能系統。這些系統接受了模糊集理論,其中系統包含各種規則,其語言信息集以IF - then - ELSE格式定義。神經-模糊系統的設計重點是可解釋性和準確性。因此,神經-模糊系統比模糊系統更受青睞。
模糊系統的一個主要限制是數據處理,模糊邏輯限制了系統中的數據大小。通過成熟的技術,神經模糊有能力管理具有大量規則的計算。然而,由于對某些維度的工作限制,在應用神經模糊系統解決復雜和高輸入輸出維度的問題時,一直存在著很大的挑戰。最近,一些作者[2],[6]致力于開發深度神經網絡技術,以處理智能系統的圖像分類問題,并且仍在進行這項工作。然而,神經網絡不能驅動不精確和不確定的數據,這在許多現實生活中是普遍存在的。為了處理任何不精確性和不確定性,神經模糊邏輯技術得到了推廣。
神經模糊邏輯堅持白盒系統[1], [4], [7]。該系統在語言形式和數學分析之間架起了解釋的橋梁,并提供透明度。這些系統已被普遍用于設計復雜的系統,但只在有限的規則和數據維度內工作。這些限制在一些高度復雜的現實生活場景中成為了瓶頸。這些限制降低了整個系統的通用性和透明度。影響模糊和神經模糊系統的輸入-輸出維度限制的主要因素可以簡單地定義為:隨著輸入參數、數據集或輸入-輸出組合和數學關系的增加,規則呈指數級增長。
為了克服概括性、透明度和維度的問題,各種研究人員點燃了將分層系統與模糊邏輯相結合的想法。與其設計具有高維度的傳統系統,系統將被劃分為具有低維度的子系統。這些子系統以分層結構的形式相互連接。分層系統被表示為一個多輸入單輸出的系統。在不失去概括性的情況下,多輸入多輸出系統被表示為幾個多輸入單輸出子系統。由于模糊邏輯規則庫對大數據集的限制,本文提出了一種利用圖像閾值設計分層模糊系統的方法,它將處理大的圖像數據集。這種方法將在不影響系統的有效性和效率的情況下最大限度地減少規則的總數。
系統的復雜性是與規則的總數相聯系的,并與之成正比。輸入數量的增加提高了規則的總數,這增加了整個系統的復雜性。有足夠的證據表明,傳統系統對規則的維度有限制。這種限制抑制了利用模糊系統來解決具有大尺寸的復雜的現實生活問題,特別是大圖像問題。
為了克服傳統模糊邏輯所擁有的限制,分層系統已經成為最合理的選擇之一。據作者所知,目前還沒有人開發并提出分層模糊系統,通過將數據集分割成小的數據樣本并進行合成來處理大型圖像數據集。一些作者[3], [4]已經證明,分層系統降低了系統的整體復雜性,因為與傳統的模糊邏輯相比,它的規則數量更少。除了復雜性,分層系統還通過校準分層結構中每個模糊邏輯單元所需的規則數量來減少計算時間。考慮到這些因素,我們傾向于將分層模糊用于大型圖像數據集問題。
在工程、技術、工業、科學、數學、商業分析、數據分析、國防和安全、物聯網、安全、電力工業、電子、天氣預報、商業等領域,模糊邏輯已經被不同的研究人員[1], [8]應用于多個實際生活中的應用。模糊在國防方面的重要應用之一是載人、機器人和可選的載人車輛的生存能力。本文展示了在分層模糊系統的幫助下設計一個系統來管理大型數據集的方法。
第2節討論了三種分層樹結構。這一節還包括分層系統的數學表示,并介紹了分層模糊系統在現實生活中的各種應用。第3節介紹了分層模糊邏輯的系統設計。討論了使用圖像閾值和概念流程圖設計算法的步驟,并介紹了在模糊的C-均值聚類的幫助下生成模糊邏輯系統的步驟。第4節展示了一個圖像數據庫的描述,如YaleB數據庫。第5節展示了分層系統的通用算法的結果以及與傳統系統如神經網絡的比較。
圖 4. 系統概念性層次模糊邏輯實現。
分類和回歸是監督機器學習處理的一些最重要的任務。過去已經針對這些任務提出了許多方法,例如前饋多層感知器、決策樹、支持向量機和極限學習機方法。最近,一種稱為子空間學習機/回歸器 (SLM/SLR) 的新方法已應用于低到中等維度的數據,并且顯示出優于其他類似方法的巨大優勢。本技術報告描述了 SLM/SLR 并追溯了其卓越性能背后的原因。
長期以來,基于特征的分類和回歸任務一直由基于深度學習(DL)的模型處理,如FF-MLP、DT、SVM和ELM。這類模型已被發現特別有效,但它們也存在缺乏可解釋性、模型復雜度高和計算成本高等問題。它們都以不同的方式處理特征空間劃分這一共同任務。
我們提出了一個新的面向分類的機器學習模型,名為子空間學習機(SLM)。它通過將輸入的特征空間以分層的方式劃分為多個判別子空間,在簡單性和有效性之間找到一個平衡點。SLM完全不改變特征空間。SLM中的概率投影只是用于特征空間的劃分,而不產生新的特征。每個樹節點的分割都對應著通過權重和偏置學習的超平面分割。因此,兩個半子空間都可以被保留下來。SLM以前饋和概率的方式學習分區參數,它是高效和透明的。
我們在下面的章節中解釋SLM和其他流行的分類方法之間的區別。
設計一個實用的MLP解決方案有兩種方法。
通過反向傳播,在每層對參數進行微調。MLP的結構包括Tabu搜索(一種解決組合優化問題的元啟發算法)和模擬退火。 在卷積神經網絡(CNNs)的變體MLP中,卷積層在不同的空間位置共享神經元權重和偏置。全連接層與傳統MLP中的保持一致。它也是轉化器模型中的構建模塊。
MLP層是逐層構建的。在一種優化方法中,新增加的隱藏層的參數沒有反向傳播。在一種使用CNN的方法中,卷積操作將輸入特征空間變為輸出特征空間,作為下一層的輸入。之后,神經元中的非線性激活對輸出特征空間進行分割。只選擇二分之一的子空間來解決由級聯卷積操作引起的符號混淆問題。
一個DT通過遞歸地一次選擇最具判別力的特征,將一個空間劃分為兩個子空間。在DT中選擇一個分區比較容易,因為它是在一個特征上進行的,但是它的判別能力很弱,所以它是一個弱分類器。對于高樹深,可以使用多個DT來避免對訓練數據的過度擬合。在這種情況下,它們中的每一個單獨都是一個弱的分類器,但它們的集合產生了一個強的分類器;例如,隨機森林(RF)分類器。
分類和回歸樹(CART)(以及類似的ID3)是經典的DT算法。它們是弱的分類器,但通過使用多個DT與自舉聚合和其他提升方法可以獲得更高的性能。它們仍然可能由于訓練和測試數據的分割不好以及訓練數據的過度擬合而失敗。與它們相比,一棵SLM樹(即SLM基線)可以利用通過概率投影獲得的判別特征,并在一個節點上實現多次分割。SLM一般會產生更寬更淺的樹。
一個RF由多個決策樹組成,其預測性能取決于:1)單個樹的強度;2)對它們的依賴性的衡量,應該是比較低的。RF訓練在建立樹的過程中只需要一部分訓練樣本和它們的特征。因此,它以每個DT的強度換取一般的集合性能,以實現更高的多樣性。為了實現不相關的個體樹,已經提出了幾種設計,如下所示。
套袋法通過在訓練集中隨機選擇并替換來建立每棵樹。
隨機分割選擇在最佳分割中隨機選擇一個節點的分割。
選擇一個隨機的特征子集來生長每棵樹。
RF使用分袋和特征隨機性,在森林中創建不相關的樹,它們的綜合預測比單個樹的預測更準確。相比之下,SLM森林構建過程使用所有訓練樣本和整個特征空間。它利用特征隨機性來實現每個SLM樹的多樣性(在第3.1節中描述)。在構建SLM森林時,單個SLM樹的有效多樣性和強度仍然不受影響。所以,SLM森林在樹的數量上實現了更好的預測性能和更快的收斂性。
SVM算法試圖在N維空間中找到一個超平面(N=特征的數量)。最佳的超平面具有最大的余量或與所有類別的數據點的距離。支持向量是更接近超平面的數據點,影響超平面的位置和方向。它們被用來最大化余量。
它將一個高維空間隨機投射到一個一維空間,以找到相關一維空間中的最佳分割點。隨機投影學習模型的理論及其特性(如插值和通用近似)已被研究。ELM在實踐中對于高特征維度來說并不高效,因為需要多次試驗才能找到好的投影。它采用了隨機權重來訓練前饋神經網絡。MLP可以通過添加具有隨機生成權重的新層來建立ELM。然而,由于需要較長的訓練時間和較大的搜索空間的模型大小,它在實踐中是低效的。
SLM Baseline確實考慮到了效率問題,它通過概率投影建立一個通用的DT,通過利用大多數具有幾個超參數的判別特征來減少搜索空間。我們使用 "概率投影 "而不是 "隨機投影 "來強調它們的區別。
梯度提升是另一種弱學習器的集合方法。它建立了一連串的弱預測模型。每個新的模型都試圖補償之前模型中留下的預測殘余。梯度提升決策樹(GBDT)方法包括:1)標準梯度提升;2)XGBoost。它在泰勒級數中擴展了一個一般的損失函數,并定義了一個增益來進行比標準DT更有效的節點分割。
SLM Boost模仿了XGBoost的提升過程,但用SLM樹代替了DT。與標準GBDT方法相比,SLM Boost實現了更快的收斂和更好的性能,因為SLM樹的性能更強。
在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?
我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。
我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。
這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?
這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。
有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。
純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。
這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。
這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。
預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。
請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。
在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。
人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。
圖 1:基于預測處理和雙過程理論的自主量化保障架構
圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。
第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。
爆炸超壓研究(BOS)工作試圖了解和減輕爆炸超壓事件對軍隊的影響,特別是解決與腦部創傷有關的問題。這個特殊項目的目標是更好地理解數據分析,以改善軍隊在BOS方面的作戰醫學。同樣令人感興趣的是如何對這些數據進行編目,并提供給追求這一主題的研究人員。評估的數據通常包括血液中生物標志物的濃度、國防自動神經行為評估指標和參與者自我報告的癥狀。幾個Python工具被用來重現文獻中存在的分析,包括Spearman等級相關、方差分析和四分位數范圍評估。還探索了機器學習中常見的其他分析方法,看是否能找到有用的關聯。這項工作顯示了擁有一個結構化的數據存儲和訪問方法的優勢,同時也強調了普通的開源工具,如Python和各種統計和機器學習軟件包,能夠產生有意義的分析結果。
超壓事件產生的壓力波超過大氣壓力。暴露在爆炸超壓下會對人和他們的認知健康產生嚴重的、累積的和長期的負面影響。例如,參與突破事件的士兵,如使用炸藥在墻壁或柵欄等結構上打洞的士兵,通常會暴露在超壓下。靠近武器系統的士兵也會遭遇超壓。暴露在超壓事件中往往會導致類似于腦震蕩或輕度創傷性腦損傷(mTBI)的癥狀。
首先,由于在報告輕度創傷性腦損傷或腦震蕩的癥狀以及診斷這種傷害時存在變異性和不確定性,有必要開發和探索分析,使這項任務更加容易。這個項目的第一個目標是創建一個用戶可以加載、編輯和分析數據的單一平臺。這樣一個可以作為真理來源參考的系統將通過減少使用多個平臺或在研究小組之間傳輸數據時可能發生的錯誤來提高研究的可重復性。此外,讓數據接近高性能的計算資源,并能夠輕松地將其用于大型分析工作流程,將促進以前不可行的新型研究。我們開發了一個軟件棧,其中包含一個攝取工作流程、數據存儲、數據處理引擎和一個用戶界面(UI),使用湖心島架構。一旦數據被攝取,以后就可以使用多種方式進行分析,包括基于標準查詢語言(SQL)的探索,基于Python的探索,以及人工智能(AI)/機器學習(ML)算法。此外,所有的迭代、變化和新得出的數據都記錄在資源庫中,因此很容易看到數據是如何被改變的。歸屬和數據出處在這個模型中得到了加強。
第二,在這個研究過程中,離群點檢測和移除的話題變得相當重要。多年來,有許多方法被研究和實施。在人類健康領域發表的許多論文都使用了一種自動方法,將人類對離群點識別的判斷從這個過程中剔除。這種方法可以在一個商業軟件包中找到,算法的作者在一篇論文中討論了整個方法。我們用Python實現了這個方法,因為我們的研究表明它還沒有在這種計算機語言中實現。有了這種方法,也就可以在大規模的超級計算機上對這種方法進行研究和應用的可重復性。
最后,這個項目的最后一個主要目標是表明Python和額外的統計和ML方法可以用來重現和擴展這個領域的常見分析。通過建立在數據科學界開發和測試的既定模型和程序上,解決問題的時間可以相對較快,而且可以沿途進行大量定制。
為了更好地了解這一研究領域所做的處理和分析類型,并確定應用和/或開發什么工具和程序來進行這種分析,我們專注于兩個不同的數據集。第一個包括總共29個受試者,有血液生物標志物數據、人類神經認知性能數據和爆炸壓力數據。這是我們使用mTBI社區的傳統技術進行分析和關注的第一個數據集。這個分析也突出了識別和去除離群點的重要性,這對小數據集來說更為關鍵。如前所述,這就需要一種專門的方法,這種方法在市場上可以買到,但據我們所知,還沒有一種更通用的軟件方法可以使用或實施。本報告對這種方法進行了描述。
在此之后,通過與沃爾特-里德陸軍研究所(WRAIR)的合作,我們獲得了更多的數據,包括來自8個隊列的218名受試者,這使我們能夠更加專注于新興的數據科學方法,如深度神經網絡,以尋找模式和因果關系。我們對這個數據集的經驗構成了本敘述的后半部分。這些方法的總和提供了一種使用開源工具和技術的方法,以便為創傷性腦損傷研究進行定制和深入的數據科學處理。
機器學習正在成為現代世界運行中不可或缺的一部分。隨著數字技術的進步,數據的收集量呈指數級增長,機器學習的力量也在不斷發展。機器學習模型從這些現在可用的巨大數據庫中學習和改進。模型變得越來越強大,在許多情況下,它們執行任務的效率和效率比人類同行更高。隨著越來越多的組織和企業采用機器學習技術,可解釋性變得越來越重要。
模型被用于自動化任務和發現數據中的新趨勢和模式。這些算法直接從數據中學習,而不是由人類開發人員創建。這意味著系統將在沒有直接人類互動的情況下進化和發展。因此,理解模型為什么會做出決策在最初可能是不清楚的,特別是對于沒有數據科學經驗的涉眾來說。對于深度學習等更復雜的機器學習技術來說,這可能尤其困難。深度學習模型的多層神經結構使得決策的透明度變得更加復雜。
與組織中的任何決策工具一樣,一定程度的問責制是必要的。機器學習模型已經被用于自動化資源密集型的管理工作和做出復雜的業務決策。在決策將受到審查的領域,解釋機器學習模型做出決策的原因的能力至關重要。例如,機器學習在金融領域的應用方式多種多樣。算法可以用來自動化和簡化貸款決策,甚至可以根據市場波動自動化股票訓練。在這兩個例子中,可解釋性都是整個過程的組成部分。
本指南探討了機器學習中的可解釋性主題,包括它是什么,為什么它是重要的,以及實現模型可解釋性的不同技術。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
基于機器學習系統的決策,特別是當這種決策可能影響到人類的生命時,是機器學習界最感興趣的一個話題。因此,有必要為這些系統配備一種估計其發出的預測的不確定性的方法,以幫助從業者做出更明智的決策。在本工作中,我們介紹了不確定性估計的主題,并分析了這種估計在應用于分類系統時的特殊性。我們分析了不同的方法,這些方法被設計用來為基于深度學習的分類系統提供測量其預測的不確定性的機制。我們將審視如何使用不同的方法對這種不確定性進行建模和測量,以及對不確定性的不同應用的實際考慮。此外,我們還回顧了一些在開發此類度量標準時應注意的屬性。總而言之,本調查旨在為分類系統中不確定性的估計提供一個務實的概述,這對學術研究和深度學習從業者都非常有用。
機器學習(ML)目前存在于各種應用和領域。目標識別、自動字幕和機器翻譯只是機器學習,特別是深度學習(DL)為競爭性業務服務的多個領域中的一部分。在某些應用領域,如自動駕駛或自動病人診斷支持系統,所需的性能水平非常高。預測的失敗會導致嚴重的經濟損失,甚至是人命的損失。因此,需要有管理自動決策所帶來的風險的方法,特別是對這些類型的應用。
在應用深度學習系統(機器學習的一個子領域)時,管理這種風險尤其重要。深度學習是基于使用豐富的人工神經網絡(ANN)的架構。它與傳統機器學習系統的主要區別之一是假設這些ANN可以捕捉到輸入數據的有意義的特征,并使其適應學習任務。通過委托這些模型中的特征工程,DL使得分類系統的設計更加簡單。
然而,這種將特征工程委托給模型的做法,以及許多現代DL架構中存在的大量模型參數,使得這些系統難以解釋。如果我們在獲得的預測中加入一個不確定性的度量,使我們能夠管理決策中使用的風險,那么這種缺乏可解釋性的問題就可以得到解決。然而,不確定性的概念不是單一的,甚至沒有一個公認的定義,因為它存在于機器學習過程的每個階段。不確定性的來源可以在數據采集和預處理、模型設計、選擇階段、甚至是訓練過程中找到。這就產生了許多不同的不確定性定義,取決于研究人員和從業者關注的具體方面。
根據機器學習文獻,Gal[28],理解不確定性的一種常見方式是依靠其來源。在這種情況下,我們可以考慮alleatoric不確定性--它與數據中固有的不確定性有關--和epistemic不確定性--它與模型的信心有關。[88]中提出的另一種方法是將其分為四種類型:隨機性--與隨機變量有關的一種客觀不確定性;模糊性--由于沒有嚴格或精確的概念界限而產生的一種認知不確定性;粗糙性--代表知識的準確程度;以及非特定性或模糊性--從兩個或多個不明確的對象中選擇一個而產生。此外,我們還可以考慮其他不同的類型,取決于不確定性是否可以減少。正如我們將看到的,并不總是能夠保持這些鮮明的劃分,因為同一個模型在其生命周期內可能遭受不同類型的不確定性。
鑒于上述情況,我們可以說,不確定性是一個復雜的概念,需要被表示、測量和應用。本工作的目標是調查文獻中存在的針對分類系統中采用的這三個階段的不同方法。盡管在深度學習分類模型中估計不確定性所遵循的程序與用于傳統分類模型的程序沒有根本的不同,但它確實有一些具體的特點。在深度學習中,最廣泛使用的損失函數是softmax交叉熵,這在傳統模型中從來沒有很受歡迎。這個函數在早期層的未標度輸出(logits)上運行,意味著理解單元的相對標度是線性的。這樣的方法提供了一個直接的概率解釋,即以類的分數作為定義不確定度的基礎。此外,神經網絡固有的靈活性可以用來豐富分類模型,增加一些組件來計算這些不確定性措施。例如,額外的層可以用來應用分層貝葉斯模型進行不確定性估計。關于認識上的不確定性度量,經典的方法是將每個模型參數視為一組定義隨機變量的參數估計,而不是一個點估計。在這種情況下,挑戰依賴于要估計的參數數量,可能是數以百萬計的。
本文的附加價值有三個方面。首先,與Gal[28]不同的是,他專注于回歸問題中的不確定性估計,我們處理分類問題,調查了一系列方法,從最早的基于Dropout的方法到更新穎的技術,如在單純線上建立連續分布模型。其次,我們通過統一的貝葉斯視角來介紹各種方法,以利于理解。最后,我們不僅介紹了估計技術的最新進展,而且還介紹了關于其特性和在實際場景中使用的一些考慮。
文章的以下兩節正式介紹了深度學習分類場景,這也是本次調查的重點,同時也回顧了不確定性的定義。
第4節調查了深度學習分類系統中的不確定性是如何表示的。在大多數情況下,這些系統產生的結果是以一組類的概率分布的形式出現的。表示系統預測中的不確定性的最基本方法之一是依靠這些概率來決定是否相信系統的結果。然而,正如文章所示,這些概率可能會導致錯誤,因為它們可能沒有被很好地校準,它們的解釋可能不直觀,或者更糟糕的是,它們可能被錯誤地認為是安全的預測。
與其依賴這些點估計,不確定性估計方法可以從分類器輸出的后驗分布的近似值產生不確定性度量。我們將看到各種工作如何通過使用不同的概率分布和關注其定義的不同術語來提出不同的方法來模擬這種后驗分布。
在回顧了估計分類器后驗分布的不同方法后,我們在第5節中介紹了測量不確定性的不同方法。如果我們要把不確定性的概念變成一個可操作的值,使風險在分類系統中得到管理,這是一個必要的步驟。在這一節中,我們將看到這些系統在試圖提取不確定性的單一度量時是如何帶來額外困難的。這是由于分類系統通常會返回多個值,以及每個類別的相應不確定性。因此,有必要建立一種機制,將這些多個輸出合并為一個單一的值。正如我們的回顧所顯示的,這種額外的復雜性導致了多種總結不確定性的方式,與回歸系統的不確定性度量形成對比,后者通常輸出一個單一的值。
第6節介紹了一些應用,說明了不確定性在與分類系統相關的不同方面的使用。
最后,第7節對本文進行了總結,并描述了不確定性估計方法面臨的一系列挑戰。這樣做的目的是為讀者提供一些標準和良好的實踐,幫助從業者在將不確定性納入分類系統的設計時選擇最適合他們問題的方法。