圖1：GAN Turk假標簽和GAN Turk合成系統圖

這份最終報告記錄了在DARPA的“少標簽學習” (LwLL)項目過程中進行的一系列調查。專注于圖像分類的領域適應和目標檢測的地理空間應用。探索了生成建模技術，包括新穎的GAN Turk方法，以及主動學習，以減少圖像分類的標簽要求。還研究了使用GAN Turk、一致性正則化和自我訓練來進行地理空間數據集的目標檢測。發現：

使用生成模型來進行圖像翻譯的領域適應性對領域配對和生成對抗網絡（GAN）模型訓練的不穩定性很敏感
理想的主動學習方法很難預先選擇，而且不同數據集的選擇也不同
自我訓練和一致性正則化是半監督學習的一對有希望的技術。

評估了幾種用于圖像分類和物體檢測的生成式建模技術。評估了CycleGAN、CUT和我們自己的GAN Turk方法的兩次迭代，該方法受到CycleGAN的啟發。

作為第一年評估的一部分，還考慮了主動學習，并提交了一個coreset主動學習組件作為評估的一部分。coreset方法是在與基于熵的選擇方法和其他抽樣方法進行比較后選擇的，除了其以特征距離為動機的設計外，還基于公開和內部結果。然而，內部結果和評估結果顯示它不是一個可靠的方法。

自我訓練和一致性正則化的結合是在這個項目中研究的最有希望的方法。研究了STAC方法作為第三年評估的目標檢測系統。內部結果顯示，這兩種技術的結合可以用于合成到真實領域的適應性，也可以更普遍地用于地理空間應用。此外，還表明，在地理空間數據集中，為一致性正則化而對空圖像進行偽標簽的做法對STAC產生了好處。在第三年的評估中，假標簽空圖像的顯著優勢未能得到測試，因為這些數據集不包含任何圖像，即所有的圖像至少包含一個感興趣的目標。

作為項目要求的一部分，參加了年度獨立的第三方評估，并在第3.6至3.8節中記錄了這些結果。在評估過程中，主要挑戰之一是計算預算。提交的GAN Turk和STAC系統需要比基線方法多得多的計算。因此，這些方法學在每個評估任務中只提交了幾個檢查點。

在第4節中，記錄了我們的軟件可交付成果，并對軟件架構進行了簡要概述。還提供了Docker鏡像的配置，以打包系統進行評估。

總的來說，團隊為政府的知識庫做出了貢獻，即哪些方法對少許標簽的學習有希望，哪些沒有。這種探索是使用合理的科學方法和精心控制的實驗進行的，旨在對各種方法進行無偏見的評估。本報告總結了在整個LwLL計劃中的主要發現，并強調了認為有希望的幾個領域，以及根據我們在這個基礎研究計劃中收集到的證據，不建議追求的其他領域。

付費5元查看完整內容

引言

這項研究的重點是通過采用對話作為交流模式，使士兵與智能體的互動，特別是與機器人等具身智能體的互動，既安全又更有效。對話，特別是使用自然語言的來回口頭對話，比傳統的圖形用戶界面有許多好處。其中，對話使智能體能夠在指令不明確時提示人類隊友進行澄清，并在任務完成后提供狀態更新。自然語言對話可以幫助實現智能智能體作為士兵身邊的隊友的愿景，提供士兵今天在完成任務時使用的直觀的無約束的交流模式。

以收集與智能體的自然對話為目標，我們希望采用一種實驗方法，使我們能夠解決以下問題： 1）智能體如何作為隊友與人類進行有效的交流，以完成共同的任務？ 2）當人類指導機器人等智能體時，交流的協議如何能以智能體可以使用的形式，從人類那里引出自然的多樣性交流策略？為了回答這些問題，我們與陸軍大學附屬研究中心南加州大學創意技術研究所（USC ICT）的研究人員合作，通過實驗確定如何將開發智能虛擬人的方法適應于機器人。雖然物理機器人平臺是我們的主要任務，但我們的目標是確定可以推廣到各種可以從對話中受益的軟件智能體的方法。

在南加州大學ICT的SimSensei項目中，研究人員使用了一種我們稱之為數據驅動的 "Wizard-of-Oz"（DWoZ）的方法來觀察人類如何與他們認為是自主的虛擬化身聊天。實際上，他們在屏幕上看到的頭像是由人類 "巫師 "實驗者控制的。在與南加州大學ICT的合作中，我們的目標是評估這些貢獻是否可以擴展到自主系統，即地面機器人，以支持與人類隊友的合作搜索和導航任務。該項目由美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的資助項目 "與智能系統共同理解和解釋的自然行為 "贊助，對外稱為 "機器人語言 "項目，由一系列實驗組成，執行多階段實驗的設想，其中向導代表人工智能（AI）組件，在后期階段 "自動消失"。操作上的假設是，像移動機器人這樣的物理智能體的對話系統可以通過基于DWoZ的對話收集來訓練。

這項研究對對話、人機交互、人類因素和自然語言處理領域的新貢獻如下：

一種多階段的、經驗性的方法來收集機器學習算法的訓練數據，以支持與指向物理世界的智能體（如移動機器人）的對話互動（第4和第5節）。
一個對話和機器人數據的語料庫（Situated Corpus of Understanding Transactions [SCOUT]），作為告知智能體在協作搜索和導航任務中如何回應人類隊友的基礎（6.1節）。
在研究過程中開發的一系列完全自動化、端到端的概念驗證系統，顯示了使用DWoZ方法與智能體進行自然對話互動的技術前景（第6.2節）。
作為項目的一部分而創建的算法，現在構成了陸軍聯合理解和對話界面（JUDI）能力的基礎，使士兵和自主系統之間的對話互動得以實現（第6.3節）。
一套新穎的注釋方案，對指導智能體和控制機器人行為的向導實驗者之間的對話交流的結構、內容和語義進行建模（第6.4節）。

本報告的其余部分組織如下。第2節提供了相關工作的基本概述。第3節將先前的研究和本項目之前進行的預試驗研究與DWoZ設計的選定配置聯系起來。第4節概述了任務和實驗設置。第5節對實驗及其結果進行了高水平的描述。最后，第6節討論了項目的影響，第7節是衡量標準，第8節是總結性意見。

付費5元查看完整內容

AI與軍事 · 技術成熟度評估 · 美國空軍研究實驗室（AFRL） ·

2023 年 2 月 27 日

[付費5元查看完整內容]《技術成熟度評估流程》美國空軍2022年53頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國空軍研究實驗室（AFRL）在技術開發方面的主要目標之一是將技術轉移給 "客戶"，以滿足能力需求。這種轉換可以是在AFRL內部，也可以是向工業界，向系統項目辦公室（SPO），或直接向作戰人員。每個 "客戶 "類別都描述了一個潛在的 "過渡伙伴"。技術開發可以發生在支持客戶要求的成熟期（"技術拉動"），即客戶提出他們的需求（"要求"），AFRL用為滿足該需求而定制的技術發展來回應。當AFRL開發新技術或根據其作為關鍵技術領域的科學和技術（S&T）領導者的角色為舊技術找到新用途時，技術發展也可以在沒有具體要求的情況下發生。這被稱為 "技術推動"，當AFRL科學家進行的基礎和/或應用科學研究發現了以前未知的軍事能力的潛力時，就會發生這種情況。技術拉動 "和 "技術推動 "項目都可以改變AFRL其他項目、工業、SPO或作戰人員的可能性，創造出潛在的破壞性能力，如果沒有相應的科技研究活動，對手是很難對付的。任何轉型所面臨的挑戰是，技術的價值可能沒有被更廣泛的社會所理解，在新技術的情況下，也沒有被進行研究的科學家所理解。

科學家和潛在的過渡伙伴之間的討論往往不能準確地確定一項技術的成熟度、潛在的軍事用途，以及一項技術的合理和可靠的使用時間表。在 "技術拉動 "和 "技術推動 "的情況下，對技術成熟度的準確描述是必要的，以告知科技領導層和潛在過渡伙伴開發的進展。成熟度，通常被稱為技術準備水平（TRL），是一個時間快照，它描述了演示或測試環境的特點，在該環境下，一項特定的技術被成功地測試。美國國防部（DoD）對TRL有一個標準的定義，從1到9，范圍從基本原理到實際任務操作中證明的實際系統。從歷史上看，官方的TRL評估只在正式的采購過程中被系統地分配，然而，在AFRL項目開發的各個層面，通常都會要求進行技術成熟度評估。

目前缺乏一種系統的方法來評估AFRL技術，也缺乏對任何評估的文件驗證。雖然這并不是轉型失敗的原因，但有條不紊、準確和可驗證的TRL評估過程有助于為其他多個過程奠定基礎；支持與其他科技專業人士、管理機構和潛在的轉型伙伴進行有意義的合作；并支持提高AFRL技術轉型的概率。這些其他過程包括技術成熟計劃（TMP）、推進難度（AD2）、制造準備水平（MRL）、集成準備水平（IRL）、系統準備評估和水平（SRA和SRL）、空軍未來（HAF/A57，正式的空軍作戰人員集成能力（AFWIC））。技術、任務、資源、組織（TMRO）方法，AFRL過渡指標（ATM）和項目管理審查（PMR）。

TRL可以通過各種方式得出，但通常是通過技術準備評估（TRA）來確定。技術準備評估是在對技術的形式、與系統其他部分的集成程度以及操作環境等方面的保真度逐步提高的基礎上確定TRL的。TRA是一個系統的、以證據為基礎的過程，評估關鍵技術要素（CTE）的成熟度，這些要素可以是硬件、軟件、過程或它們的組合。一個技術要素是 "關鍵 "的，如果被收購的系統依賴于這個技術要素來滿足操作要求（在可接受的成本和進度限制內），如果該技術要素或其應用是一項新技術，以一種新的方式使用舊的/更新的技術，或者該技術要素或其應用在詳細設計或演示期間被用于構成重大技術風險的領域。正式的TRA最常被用來支持一個采購項目的確定階段，如美國法典第10章第2366b條詳細規定的要求，即在里程碑B批準之前，一個項目必須在相關環境中進行演示；然而，非正式的，或 "知識建設TRA"，也可以用來評估技術成熟度，為開發人員、項目經理、管理機構和潛在的過渡伙伴提供有用的信息，以更有效地成熟關鍵技術，確定一個技術的準備程度，管理和解決當前和未來的發展風險。

今天，國防戰略和空軍參謀長和空間業務主管要求加速技術發展，并使能力更快地進入作戰人員手中。一個可靠的、可重復的技術成熟度評估是后續和同步進程和方法的關鍵，如TMPs、AD2、MRLs、IRLs、SRAs和SRLs、TMRO、ATM和PMRs，并為支持AFRL內部、工業、SPO或在技術被證明達到適當水平后直接向作戰人員的快速過渡活動建立了基礎。本研究提出了進行這些TRA的建議程序和工具。

研究目標

本研究的主要目的是確定和推薦一個嚴格的、標準化的、可重復的程序和支持工具，以進行TRA，從伙伴的角度增加現有技術解決方案的可信度，并支持增加成功技術的過渡概率。因此，本研究將：

確定一個量身定做的、嚴格的、標準化的、可重復的TRA流程，以進行可靠的TRA，同時提供支持流程執行的工具。
將評估何時進行TRA的過程系統化，如何處理結果，以及如何確定下一步。
詳細說明識別CTE的系統方法
制作一個可定制的TRA模板，包括對可信度和客觀性至關重要的特征
確定支持技術成熟和TRL評估的RY能力
將技術要素納入建模、模擬和分析（MS&A）的方法。
確定數據工件和儲存庫，以證明所分配的TRL。

付費5元查看完整內容

AI與軍事 · 導航信息 · 美國空軍研究實驗室（AFRL） · 機器學習 ·

2022 年 12 月 2 日

[付費5元查看完整內容]《通信導航中的優化算法設計》2022最新報告，美國空軍研究實驗室

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告是在 FA9453-19-1-0078 資助下編寫的。首先，提出了兩種數值方法來解決通信和導航中產生的非線性優化問題。其次，開發了兩個關于機器學習模型的解決方案質量和安全性的結果。

該研究項目的目標是開發高效的大規模非線性優化算法，以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性，并與空軍的利益直接相關。

在資助期間，我們成功研究了兩個研究方向。首先，我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上，我們提出了兩個一階方法，可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題，我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。

第二，我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上，我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下，從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明，當每個單獨的數據點被無限次復制時，來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題，我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。

付費5元查看完整內容

AI與軍事 · 性能保證 · 學習型系統 · 美國空軍研究實驗室（AFRL） ·

2022 年 11 月 22 日

[付費5元查看完整內容]《學習型系統的保證性》美國空軍研究實驗室2022最新56頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在學習型網絡物理系統（LE-CPS）中使用的機器學習模型，如自動駕駛汽車，需要能夠在可能的新環境中獨立決策，這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域，如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上，學習型組件（LEC），特別是深度神經網絡（DNN）的成功并不代表它們在開放世界中的表現，在那里輸入可能不屬于DNN被訓練的訓練分布。因此，這抑制了它們在安全關鍵系統中的部署，如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統（CPS）網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能（AI）系統的不信任，由于對DNN預測的高度信任而變得更加嚴重，甚至在預測通常不正確的情況下，對超出分布范圍（OOD）的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外（OOD）輸入的不正確預測的高信心，并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型，就必須檢測那些 DNN 不能被信任的輸入和場景，因此，必須放棄做出決定。那么問題來了：我們能不能把這些機器學習模型放在一個監測架構中，在那里它們的故障可以被檢測出來，并被掩蓋或容忍？

我們認為，我們已經確定了這樣一個用于高安全性學習的CPS的候選架構：在這個架構中，我們建立一個預測性的上下文模型，而不是直接使用深度學習模型的輸出，我們首先驗證并將其與上下文模型融合，以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋，這些解釋構成了模型的輸入，并隨著時間的推移進行整理--但我們認為，我們提出的監測架構相當于重點的轉移，并帶來了新的技術，正如我們將在本報告中說明的。我們建議，一個更好的方法是根據背景模型來評估輸入：模型是我們所學到的和所信任的一切的積累，根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎，但我們把它定位在一個被稱為預測處理（PP）的感知模型中[10]，并輔以推理的雙重過程理論[11]。在這份報告中，我們還提供了這個運行時監控架構的候選實現，使用基于歸一化流的特征密度建模來實現第一層監控，以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理，并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線，自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似，我們肯定應該利用這一點作為搜索的種子，而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到，而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型，通過預測車道的位置，用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性，因此發送給視覺系統的將是最好的猜測，或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子，并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型，旨在最小化未來的預測誤差，從而使其更接近現實。

這是一個 "綜合分析 "的例子，意味著我們提出假設（即候選世界模型），并偏向于那些預測與輸入數據相匹配的模型。在實際應用中，我們需要考慮有關 "預測 "的層次：我們是用世界模型來合成我們預測傳感器將檢測到的原始數據（如像素），還是針對其局部處理的某個更高層次（如物體）？

這種自上而下的方法的重要屬性是，它專注于世界模型（或模型：一個常見的安排有一個模型的層次）的構建和前利用，與更常見的自下而上的機器學習模型形成對比。我們將展開論證，自上而下的方法對于自主系統中感知的解釋和保證是有效的，但有趣的是，也許可以放心的是，人們普遍認為這是人類（和其他）大腦中感知的工作方式，這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13]，也被稱為預測編碼[14]和預測誤差最小化[15]，認為大腦建立了其環境的模型，并使用這些模型來預測其感覺輸入，因此，它的大部分活動可以被視為（近似于）迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官，貝葉斯的 "修正 "又流回來，使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論，包括行動：大腦 "預測 "手，比如說，在某個地方，為了盡量減少預測誤差，手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的：模型和預測是向下流動的，只有修正是向上流動的。

有趣的是，大腦似乎以這種方式工作，但有獨立的理由認為，PP是組織自主系統感知系統的好方法，而不是一個主要是自下而上的系統，其中傳感器的測量和輸入被解釋和融合以產生一個世界模型，很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數，這就排除了從位置計算速度的可能性。因此，感知系統通常保持一個簡單的模型，允許這樣做：林的視覺處理管道的物體跟蹤器[18]就是一個例子，Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型：攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個，其自身的物體檢測器都會指出每個檢測到的物體的位置，并試圖將其分類為，例如，車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入，該方案促進某些追蹤方法而不是其他方法，并且還取決于觀察的最近時間"[17，第8頁]。在亞利桑那車禍的案例中，這導致了對受害者的識別 "閃爍不定"，因為傳感器系統自己的分類器改變了它們的識別，而且物體追蹤器先是喜歡一個傳感器系統，然后是另一個，如下所示[17，表1]。

撞擊前5.6秒，受害者被列為車輛，由雷達識別
撞擊前5.2秒，受害者被歸類為其他，通過激光雷達
撞擊前4.2秒，根據激光雷達，受害者被歸類為車輛
在撞擊前3.8秒和2.7秒之間，通過激光雷達，在車輛和其他之間交替進行分類
撞擊前2.6秒，根據激光雷達，受害者被歸類為自行車
撞擊前1.5秒，根據激光雷達，受害者被歸類為不知名。
撞擊前1.2秒，根據激光雷達，受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是："如果感知模型改變了檢測到的物體的分類，在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17，第8頁]。因此，物體追蹤器從未為受害者建立軌跡，車輛與她相撞，盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題：一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型，另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型；因此，它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法；小的分歧應該表明世界的常規演變，并可以作為模型的更新納入；大的分歧需要更多的關注：它是否表明一個新的發展，或者它可能是對原始傳感器數據解釋的缺陷？在后面兩種情況中的任何一種，我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體，以及它們的屬性，如類型、軌跡、推斷的意圖等，并對其中的一些或全部進行概率分布函數（pdf s）。觀察更新這些先驗，以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分，因此預測處理采用了被稱為變異貝葉斯的方法，將問題轉化為后驗模型的迭代優化，以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此，像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法，但名稱不同，由不同的歷史派生。思考PP的一種方式是，它將卡爾曼濾波的思想從經典的狀態表征（即一組連續變量，如控制理論）擴展到更復雜的世界模型，其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是，它為我們提供了一種系統的方法來利用多個輸入和傳感器，并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型，并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么，這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了，那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器（如照相機、雷達、超聲波）具有完全不同的解釋功能，并在不同的數據集上進行訓練，這似乎是可信的，它們會有獨立的故障。在一個完全集成的預測處理監視器中，情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性，監測器將因此降低其對機器學習模型的信心，直到差異得到解決。

請注意，上下文模型可以是相當簡單粗暴的：我們不需要場景的照片，只需要知道我們附近的重要物體的足夠細節，以指導安全行動，所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異，例如，可能沒有什么意義，因為我們需要知道的是他們的存在，位置，類型和推斷的意圖。事實上，正如我們將在后面討論的那樣，我們可以在不同的細節層次上對上下文進行建模，自上而下的生成模型的目標是生成不同層次的感知輸入的抽象，而不是準確的傳感器值。在報告中討論的我們的實現中，我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征，第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器，感知的上層也將獲得關于世界的知識，可能還有人工智能對世界及其模型的推理能力。例如，它可能知道視線和被遮擋的視野，從而確定在我們附近的車輛可能無法看到我們，因為一輛卡車擋住了它的去路，這可以作為有關車輛的可能運動（"意圖"）的增加的不確定性納入世界模型中。同樣，推理系統可能能夠推斷出反事實，比如 "我們將無法看到可能在那輛卡車后面的任何車輛"，這些可以作為 "幽靈 "車輛納入世界模型，直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面，另一個關于人腦組織的理論很有意思；這就是 "雙過程 "模型[20, 21]，由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的；系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的，這就是我們所說的 "思考"。就像預測處理一樣，我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式，而是因為它似乎是獨立的，是一個好架構。在這里，我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1"，而更多的深思熟慮的神經符號模型構成一個 "系統2"，當系統1遇到大的預測錯誤時，該系統會主動參與。系統1維持一個單一的生成性世界模型，而系統2或者對其進行潤色，或者維持自己的更豐富的世界模型，具有對符號概念進行反事實的 "what-if "推理能力。人們認為，人類保持著一個模型的層次結構[20, 21, 22]，這似乎也是自主系統的一個好方法。我們的想法是，在每一對相鄰的模型（在層次結構中）之間都有一個預測處理的循環，因此，較低的層次就像上層的傳感器，其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式，或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用，以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷，例如，檢測到前面有許多剎車燈，就可以推斷出某種問題，這將被表示為世界模型中增加的不確定性。這樣一來，本來可能是意外情況的驚奇出現，反而會發展為不確定性的逐漸變化，或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制，既可以對這些關系和更豐富的背景進行建模，又可以通過反事實查詢和背景知情的預測進行審議。因此，雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知，但我們將這些作為運行時監控器來計算底層模型的驚喜，因此，當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時，就會被發現。

圖 1：基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示，該架構有兩個層次（由雙重過程理論激發）。在第一層，我們使用生成模型，學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層，我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系（更一般地說，輸入的組成部分）。在這兩層中，我們在本報告中的重點是運行時監測，而不是開發一個認知系統本身（而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步）。因此，由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構（低級別的自動化和高級別的審議），并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較，并提出了結論和額外研究的建議。

付費5元查看完整內容

AI與軍事 · 主動學習 · 美國空軍研究實驗室（AFRL） ·

2022 年 10 月 30 日

[付費5元查看完整內容]《數據高效的主動機器學習》美國空軍2022最新頁技術總結報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據高效的機器學習（DEML）對AF/DoD（美空軍/美國防部）的運作至關重要，原因如下：首先，訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程，尤其是在專家分析師隊伍有限的情況下。因此，機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外，任務環境和目標可能是多樣的、快速變化的，因此，機器學習模型必須能夠快速適應手頭的情況。機器學習系統（和人類分析員）可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是，并非所有用于預測和決策的理想特征都可用。因此，機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。

這項工作的范圍是在以下關鍵領域為DEML創造新工具：1）為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法；2）開發新的交互式工具，使人類分析者能夠快速和準確地標記大型數據集；3）開發一個新的框架，用于豐富的人類注釋，除標簽外還提供解釋和特征相關性反饋；4）在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計，以及用真實和合成數據集進行測試和實驗。

付費5元查看完整內容

AI與軍事 · 深度生成結構 · 概率標簽 · 美國空軍研究實驗室（AFRL） · 結構化深度概率模型 ·

2022 年 7 月 13 日

[付費5元查看完整內容]美國空軍研究實驗室《概率標簽高效的深度生成結構(PLEDGES)》71頁重點項目技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

1.0 總結

機器學習在商業領域的巨大成功未能轉化為高性能的軍事應用。盡管深度學習開始在一些特定的軍事任務中顯示出令人印象深刻的結果，但由于它們需要極其龐大的、有標簽的訓練集，目前的能力不能充分地發揮。軍方需要一支由人工智能和機器學習專家組成的世界級團隊，在標簽高效半監督學習、模型轉移和主動學習方面的進行必要創新，來解決實際的軍事學習問題。為了滿足這一需求，Charles River Analytics公司組建了一支由概率建模和機器學習相關領域的研究人員以及從業人員組成的優秀團隊，提供概率標簽高效的深度生成結構（PLEDGES）。

我們在概率建模和深度學習的結合點上進行了開創性的研究。概率模型有利于少標簽學習，因為與需要基于標簽的誤差函數的神經網絡不同，它們可以使用任何種類的觀察，其中可以包括標簽，但不依賴于標簽。因此，概率模型對半監督學習很有用，因為它們可以從無標簽的數據中學習盡可能多的知識，并使用少量的有標簽的數據對其進行擴充。它們對模型轉移也很有用，因為它們是用有語義的組件來構造的，這些組件可以被組合和重新應用，以便將模型有效地轉移到新領域。概率模型還通過提供精心校準的不確定性估計來直接支持主動學習，這些估計是對哪些實例進行標記的重要基礎。

為了確保概率模型的高性能，它們必須與深度學習表征相結合。我們研究了三個主要方向。首先，我們開發了結構化深層概率模型（SDPMs），它在無標簽的數據觀察上定義了結構化和無關聯的聯合概率分布。SDPMs提供了類似于神經的表征，在從少數標簽中學習的同時，具有與最先進的神經方法相媲美的性能。第二，我們致力于在大容量的概率模型實現高效和準確的算法，完成了對傳統概率模型的數量級改進，使我們能夠使用反映最先進神經網絡結構的模型。第三，我們開發了用于半監督和弱監督學習的深度學習模型的概率模型變體，包括用于少數鏡頭視覺分類和目標檢測的元學習方法，以及用于零鏡頭目標檢測的弱監督方法。

特別地，在PLEDGES項目中我們：

開發了概率模型和模型組件，以支持用較少的標簽學習。這些模型包括變異SDPMs和可操作的大容量模型
開發了從大量未標記的訓練數據和少量標記的訓練數據中學習模型的方法。
開發了將從通用數據集學習到的模型轉移到特定應用程序的方法，在新應用程序中使用很少的標簽。
開發了推薦專家標記實例的方法。

我們使用這些概率模型和方法來支持LwLL的關鍵成分：半監督學習、模型轉移和主動學習。我們能夠在SDPM和可操作的高容量模型上取得更大的進展，我們的工作表明，這兩種方法都有很好的前景，比以前的概率模型有更高的準確性和可擴展性。我們還發現，神經模型的概率公式可以帶來重大進展。我們的簡單CNAPS方法在幾張照片的視覺分類上取得了比最先進的方法（包括CNAPS）更大的進步。簡單的CNAP也構成了各種擴展的基礎，包括一個顯示出進一步改進的transductive版本。對于主動學習，我們的基礎工作產生了一套基于數據重要性的新方法，并且我們能夠展示對基于不確定性采樣的現有方法的改進。

關鍵詞：概率模型、Scruff、結構化深度概率模型、半監督學習、模型轉移、主動學習、變異方法、可分離信念傳播

2 引言

2.1 問題描述

機器學習的在商業領域的巨大成功未能轉化為高性能的軍事應用。盡管深度學習開始在一些特定的軍事任務中展現出令人印象深刻的成果，但目前由于需要極其龐大的、有標簽的訓練集，深度學習能力還未能充分發揮。與商業應用不同，大多數重要的軍事應用都有目標對象、事件或未翻譯的單詞，而這些目標對象、事件或單詞往往是新穎的，沒有大規模的真實標簽。另外，標簽的專業知識是有限的，這就禁止了從人群中創建標簽數據集。基于軍事學習的應用需要新的無監督和半監督學習方法，以實現深度學習系統的性能，但只需要10到100個標簽。此外，學習算法必須有效地利用有限的軍事專家和訓練數據，例如，通過主動識別最具代表性和最不自信的學習實例。最后，用于識別軍事目標和活動的學習模型必須具有新的組件重用級別，以通過模型重組進行適應。機器學習應用程序因其龐大的機制而臭名昭著，這些機制很難擴展，并且無法在任務和應用程序之間推廣。解決這些挑戰需要基本的新思維來超越當前機器學習的局限性，需要在標簽高效半監督學習、模型轉移和主動學習方面進行必要的創新，以解決現實世界中的軍事學習問題。

今天，基于深度神經網絡的方法在機器學習的研究中占主導地位。盡管取得了許多成功，但神經網絡有幾個關鍵的局限性，包括數據需求量大，渴望數據，需要大量的標記數據。兩相對比，這使得概率方法非常有吸引力，它需要的標記數據要少得多。概率模型有利于標簽效率的學習，因為與需要基于標簽的誤差函數的神經網絡不同，它們可以使用任何種類的觀察，其中可以包括標簽，但不依賴于標簽。因此，概率模型對半監督學習很有用，因為它們可以從無標簽的數據中學習盡可能多的知識，并使用少量的有標簽的數據對其進行擴充。它們對模型轉移也很有用，因為它們是用有語義的組件來構造的，這些組件可以被組合和重新應用，以便將模型有效地轉移到新領域。概率模型還通過提供精心校準的不確定性估計來直接支持主動學習，這是對哪些要進行標記的實例所做知情決策的基礎。

事實上，概率模型一直是無監督和半監督學習的主要方法之一，像k-means聚類這樣的方法使用得非常廣泛。然而，正如這個例子所示，用于無監督學習和半監督學習的概率模型往往很簡單；k-means本質上是就是高斯方法的混合物。過去，概率方法的性能落后于神經網絡，主要原因是難以將推理和學習的規模擴大到海量的模型中。因此，為了達到美國防部重大應用所需的實際效果，概率模型必須與深度學習方法相結合。

我們預計，我們的努力成果將在有效推斷和學習豐富概率模型的能力方面取得革命性進展，使深度概率方法最終成為在非概率深度學習在現實問題中的可行替代方法。這些進步將帶來比當前基于神經網絡的方法更好的半監督學習、模型轉移和主動學習方法。

2.2 技術方法

我們在團隊最近將概率模型與深度表示相結合的工作基礎上進行了改進。我們沿著三個平行的方向前進。

首先，我們為半監督和弱監督的學習開發了深度學習模型的概率模型變體。我們稱這些模型為結構化深度概率模型（SDPMs）。這項工作建立在最近的語言創新上，如Edward、Pyro和Probabilistic Torch，后者是由聯合創始人JanWillem van de Meent領導。這些框架使用變異方法來訓練概率模型，其中神經網絡定義了條件分布，將深度學習的靈活性與概率模型的數據效率相結合。使用這些方法的初步工作被證明是非常有效的。在每個類別只有10個標簽的情況下，我們使用概率Torch在數據集上取得了超過90%的分類準確率，例如使用美國國家標準與技術研究所（MNIST）的修改數據集進行測試。在此工程中，我們以各種方式擴展了這些方法，以獲得明顯高于其他概率變異方法的準確性。

對于第二個方向，我們為高容量概率模型尋求高效準確的算法，這些模型反映了最先進的神經網絡的結構，同時保持完全概率。該方法基于PI-Avi-Pfeffer最近的工作，該工作表明，通過使用稱為可分離信念傳播（SBP）的方法編碼有關聯合分布的信息，任何有向概率模型都可以轉換為二級模型，在該模型中，推理是按線性時間進行且準確的。深度學習的成功依賴于這樣一個事實，即大多數觀察到的數據都存在于一個可以稀疏表示的低維流形上，這為我們提供了強有力的理由，讓我們相信，對于現實世界的軍事應用來說，二級模型是很小的。因此，使用SBP的高容量概率模型可以實現與神經網絡方法類似的可操作性，同時在低標簽真實美國防部問題上擁有更好的性能。

對于第三個方向，我們對現有的非概率深度學習方法進行了概率性的重新解釋和變體。特別是，我們開發了簡單CNAPS算法，這是一種用于少數鏡頭視覺分類的元學習算法，該算法具有神經特征提取器和概率分類器，并且從具有有限標簽的數據中學習。我們還開發了一個簡單CNAPS的歸納版本，以及一個用于0-shot/any-shot物體檢測的弱監督學習方法。

我們使用在這兩個線程下開發的概率模型來提供LwLL的關鍵組成部分：半監督學習、模型轉移和主動學習。半監督學習的成功依賴于在沒有標簽的情況下學習有關領域的大部分知識，只剩下少量參數需要從標簽數據中學習。概率模型自然適合于半監督學習，因為豐富、高度結構化的模型可以單獨從未標記的數據中學習。該模型可以是一個具有多個參數的復雜網絡，這些參數可以從大量未標記數據中精確擬合，然后通過具有少量參數的薄標記層進行擴展，以從少數實例中學習。我們通過成對學習來增強這一洞察力，在這種學習中，我們比較和對比不同的數據實例，以了解它們的比較標簽，即使它們本身沒有標簽。與類標簽相比，成對比較噪音更小，信息更豐富，因此可以更好地利用稀疏標簽。在最初的工作中，我們確定，通過合并比較，我們可以在只有80個樣本的數據集上訓練和優化具有5974577個參數的神經網絡。

對于模型傳輸，概率方法允許我們組合語義上有意義的模型組件，并將其重新應用于新情況。我們在這一見解的基礎上提出了一些切實可行的想法。非參數方法通過識別不屬于任何已知類的相似實例簇，使我們能夠識別新的對象類，即使該類的標記實例為零。概率零點學習方法還使我們能夠使用輔助信息來識別沒有標記實例的類的實例。重新編程方法使我們能夠通過在應用程序之間映射概念，例如輸入、輸出和概念的內部表示，將原始模型轉移到新的應用程序。

對于主動學習，我們使用了一種基于概率模型的決策理論方法。現有的大多數主動學習工作有兩個目標：挑選最不自信的實例，以及挑選最有代表性的實例。雖然對于可以直接定義相似性度量的簡單任務，已經實現了將這些目標結合在一起，但對于大多數實際應用來說，相似性度量并不容易獲得。我們基于數據重要性的概念開發了一種新的主動學習方法，并將這些方法與SDPM相結合。

2.3 技術目標

查爾斯河分析公司（Charles River Analytics）與東北大學、不列顛哥倫比亞大學（UBC）和加利福尼亞大學歐文分校（UCI）的合作者一起，開發了概率標簽高效深度生成結構（PLEDGES），用于少標簽學習（LwLL）。我們在概率建模和深度學習的結合點上進行了開創性的研究。與需要使用基于標簽的誤差函數的神經網絡不同，概率模型可以使用任何種類的觀察，它可以包括標簽，但不依賴于標簽。我們開發了結構化深度概率模型（SDPMs），它在無標簽的數據觀測上定義了結構化和無聯系的聯合概率分布；開發了可操作的大容量概率模型，它能在大型網絡上進行快速和準確的推理；開發了概率的重新解釋和神經算法的變體。

我們對SDPMs的研究目標有三條線。首先，對于半監督學習來說，SDPM提供了類似于神經的表征，能夠在從少數標簽中學習的同時擁有與最先進的神經方法相媲美的性能。因此，SDPM是半監督學習的理想選擇，因為它們可以從未標記的數據中學習盡可能多的知識，并使用少量的標記數據來增強這些知識。第二，要把學到的知識從一個模型轉移到一個有少量標簽的新模型，SDPM也是模型轉移的理想選擇，因為它們的結構是使用有語義的組件，這些組件可以被組合和重新應用，把模型有效地轉移到新領域。第三，對于學習系統可以對數據提出問題的主動學習來說，概率模型也直接支持主動學習，因為它提供了經過良好校準的不確定性估計，這是決定對哪些實例進行標記的基礎。

2.4 相關工作

為了開發適用于大規模應用的實用概率模型，我們以最近的變異推理發展為基礎。在這一工作中，我們開發了新的攤銷變分推理方法，它訓練神經網絡使用隨機梯度下降進行推理。攤銷變分方法已經在Edward、Pyro和Probabilistic Torch等語言中得到了應用。Probabilistic Torch的設計從一開始就考慮到了半監督學習策略，并且已經被證明是非常有效的；每個類別只有10個標簽，我們在MNIST等數據集上的分類準確率已經超過90%。概率Torch還提供了一個高質量的組件庫，可以從組件中組裝出復雜的模型。例如，這使我們能夠將一個物體檢測模型嵌入到第二個識別圖像中感興趣區域的模型中，從而形成一個可以以端到端、半監督方式訓練的多目標檢測模型。我們在現有Probabilistic Torch工作的基礎上，取得了一些創新的進展，包括針對活動識別和機器翻譯等順序性問題的攤銷式順序推理，以及適應概率程序推理的技術來估計全局變量。

我們對高容量、完全概率模型的研究受到Wood開發的一種叫做推理編譯的方法的啟發，這種方法學習一個神經網絡來回答一個由概率程序定義的查詢。雖然有效，但學習的網絡不是一個聲明性的概率模型，只能回答單一種類的查詢，而不是為推理提供一個數據結構。我們的關鍵見解是，我們可以將原始的概率模型編譯成一個替代的概率模型，該模型支持原始模型的所有功能，但其中的推理是按照線性時間進行的。這使得概率模型的所有優勢都能被用于具有數百萬個參數的模型，如最先進的神經網絡。還有其他方法將概率模型編譯成支持線性時間推理的數據結構，如算術電路和和積網絡，但這些電路一般是指數級大小。相比之下，我們的數據結構在緊湊型網絡中捕捉潛在的復雜信息，類似于緊湊型神經網絡，后者代表了豐富的實際應用功能。使概率模型具有如同神經網絡一般的靈活性和性能將產生深遠的影響，這不僅關系到較少標簽的學習，同時也還包括其他很多方面。概率模型解決了神經網絡的一些基本局限，例如難以納入先驗知識，需要大量數據，以及因果關系建模困難。

付費5元查看完整內容

AI與軍事 · AutoML · 可視化 · 模型學習 · 模型比較 ·

2022 年 7 月 10 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：

我們的項目目標是創建可視化系統，使領域專家（SME）能夠構建、策劃、評估和評價以數據為中心的機器學習模型。我們的系統允許領域專家直觀地探索數據，通過界面構建目標函數，并將其提交給AutoML系統以生成機器學習模型。通過整合輸入數據、模型輸出和結果的可視化探索，系統支持模型的開發、調整，并以一種與底層建模技術相分離的直觀方式進行驗證。

關鍵詞：自動機器學習；可視化；模型學習；模型比較；數據增強

1.0引言

我們的項目是DARPA數據驅動模型開發（D3M）項目的一部分。我們項目的目標是創建可視化系統，使領域專家（SME）能夠構建、策劃、評估和評價以數據為中心的機器學習模型。領域專家擁有特定領域的專業知識，通常是通過多年的經驗獲得的。然而，他們往往不是計算和數據科學方面的專家，因此無法利用現代機器學習技術的力量。我們將構建一些系統，使領域專家能夠直觀地探索數據，通過直觀的界面構建目標函數并提交給AutoML系統，檢查和比較AutoML返回的模型，并為分析目標選擇最佳模型。通過整合輸入數據、模型輸出和驗證結果的可視化探索，我們的系統將允許以一種與底層建模技術脫鉤的方式進行模型開發、調整、形式化、驗證和記錄。

考慮了一個情報分析員的任務：使用我們的可視化系統，根據最近的新聞報道分析一個國家的政治風向。由于他可以通過可視化系統直接訪問一套機器學習模型，他能夠在可視化系統中打開一個預定義的高級分析任務列表，并選擇一個適合她的目標（例如，"發現不尋常的事件"），而不必直接選擇合適的機器學習算法或手動選擇其參數。通過AutoML，可以構建多個不同的模型和具有不同參數的模型，并將輸出結果可視化，從而可以對其進行評估、比較，并與原始數據連接起來。這有助于情報分析員專注于他們的任務和數據，而無需花費精力去了解機器學習建模和參數調整的細微差別。

此外，我們考慮通過用知識庫中的信息來增強領域專家的數據分析能力。知識庫能夠存儲大量的信息和數據。例如，WikiData是一個知識庫，它對維基百科的關系信息進行編碼。與供人類閱讀的維基百科不同，WikiData以結構化的格式存儲信息，從而可以通過SPARQL等正式的查詢語言來檢索數據。將豐富的知識庫整合到領域專家的分析過程中可以幫助領域專家探索新的假設，否則是不可能的做到的。

技術方法

我們提出的可視化系統有四個組成部分，將使領域專家（SME）通過使用AutoML來利用復雜的數據分析算法（見圖1）。我們系統的四個組成部分是 (1) 數據增強，(2) 數據和問題探索，(3) 模型生成，(4) 模型探索和選擇。

圖1：CAVA和Snowcat系統的工作流程

(1) 數據增強。機器學習模型只有在用數據去創建時才是準確和有用的。為此，建模過程的第一步是幫助領域專家搜索、識別并為他們的建模任務策劃必要的數據。需要一個交互式工具來幫助領域專家用從知識庫中獲得的額外特征來增加他們的初始數據集。 (2) 數據和問題探索。領域專家擁有領域專業知識，但缺乏數據科學技能。當他們不了解應該使用哪種算法時，系統如何支持他們創建查詢？我們的解決方案包括兩個步驟。(a) 提供一個探索性的可視化界面，允許領域專家檢查輸入的數據，以及(b) 在數據的基礎上自動生成一些合理的機器學習問題。在向AutoML系統發布任務之前，領域專家可以完善和更新相關的問題。 (3) 模型生成。我們將可視化界面與AutoML系統相結合。給出一個問題定義（由領域專家在上一步通過使用可視化界面生成），我們的系統要求AutoML系統執行該問題并生成一些可信的機器學習模型。 (4) 模型探索和選擇。由AutoML系統生成的模型會有類似的定量指標（如準確率、F1分數等）。然而，它們往往在與領域問題相關的定性指標上有所不同。例如，疾病傳播的增加是以片狀線性方式進行的，還是更有可能是二次性的增加？為了幫助領域專家做出這樣的判斷，我們的關鍵見解是，模型性能的標準評價所提供的豐富數據提供了一個豐富的數據集，對它的探索將使領域專家獲得對模型集合的洞察力，以執行諸如性能預測、模型選擇和信任特征等任務。由AutoML系統生成的模型對領域專家來說（在大多數情況下）是 "黑盒"。因此，我們專注于開發工具，讓領域專家只用這些黑盒產生的輸入/輸出對就能完成他們的任務。

與現有技術的比較

目前的模型構建和整理系統是為那些了解如何與模型直接互動的數據科學家設計的。數據專家必須將問題形式化，以確定一個合適的方法。他們選擇算法和處理通道，并手動調整參數。然后對結果進行評估，可能會導致進一步的調整。這種方法對領域專家來說是不合適的：

該方法需要具備建模工具（如R和Python）的專業知識，這些工具涉及編程和對算法參數的直接控制。
該方法需要了解特定的機器學習建模技術，隨著可用基元集合的增加，這很難維持不斷學習新的建模技術。
該方法要求具備建模過程的技能，包括如何以適當的形式表述問題，如何將問題映射到建模通道，如何比較許多可能的模型，如何通過設計驗證實驗評估結果，以及如何適當地記錄模型的出處。

雖然這些界面對數據科學家來說可能是可用的，但我們需要為領域專家提供新的用戶體驗。

結論

在項目實施過程中，我們重點研究了兩個領域：（1）設計和開發一個交互式可視化系統，幫助領域專家（SME）利用AutoML系統生成復雜的機器學習模型，而不需要編程或統計方面的專業知識；（2）開發一個數據增強工具，幫助SME用存儲在知識庫（如WikiData）中的額外信息豐富其數據。

我們在這兩方面都取得了成功。我們開發了Snowcat，作為一個完整的集成視覺分析系統與AutoML。在NIST進行的評估中，發現Snowcat幫助領域專家創建的機器學習模型比單獨由AutoML生成的模型和由領域專家策劃的模型（手動）更準確。對于數據增強，我們開發了CAVA1來幫助領域專家豐富他們的數據。該工具是在線部署的，MITRE的領域科學家發現它有能力幫助領域專家識別和整合來自知識庫的新數據，以回答新的分析問題。

2.0介紹

領域專家（SMEs）將從使用復雜的數據分析通道中受益，這些是實踐中的數據科學家的職權范圍。這個項目的首要目標是為領域專家提供數據驅動的自動協助，使他們能夠產生與數據科學家產生的模型一樣的性能。我們在這項研究中的作用是在人類用戶（領域專家）和產生數據分析通道的機器學習算法之間提供一個接口。在這個任務中，我們的目標是幫助領域專家定義他們的數據分析問題，而不需要描述正在使用的數據分析源語言。我們設計了交互式可視化系統，以溝通模型之間的差異，并幫助用戶為其任務選擇最佳模型。最后，我們提供互動的方法，允許領域專家使用他們的領域知識來更新和改進通過數據增強和模型完善產生的模型。

現有的商業可視化分析系統，如Tableau和Spotfire，允許領域專家（SMEs）將其數據可視化。然而，這些系統并不支持領域專家利用最新的機器學習和分析技術來進行數據分析。雖然原始數據的可視化是有幫助的，但如果沒有半自動化的分析，領域專家就不得不手動檢查他們的數據，隨著數據集變得更大、更復雜，這可能是乏味和容易出錯的。相反，諸如R、Python和Julia等編程語言為程序員提供了表達數據分析查詢的能力。然而，這些語言的學習曲線很高，可能需要多年的經驗才能使一個程序員熟練掌握。因此，對于不熟悉編程或數據科學的領域專家來說，它們很難被采用。

我們項目的目標是彌合領域專家的分析需求和目前可用的工具之間的這種差距。特別是，這個項目解決了數據分析通道自動化的任務，通過數據驅動的自動化過程，幫助用戶選擇復雜的模型通道。有了我們提出的系統，一個幾乎沒有數據科學背景的領域專家（SME）仍然能夠進行復雜的數據分析，而無需了解分析背后的數學。

我們的工具將為領域專家提供接口，以表達他們的分析意圖，增加他們的數據，探索解決方案模型（由AutoML系統提供），并以互動方式調整和完善模型，所有這些都不要求領域專家有編程技能或深厚的數據分析知識。結合AutoML的進展，所產生的系統將使領域專家能夠利用最先進的機器學習技術，開發出能夠準確分析大量復雜數據的模型。

我們設想模型開發是一個持續的、反復的過程，包括數據探索和增強、用戶互動、模型選擇和完善、模型驗證以及回到數據探索。在這個過程中，我們沒有明確區分原始數據和模型輸出，而是把它們當作領域專家檢查、探索和理解的互補元素。

通過這種概念性的表述，領域專家以一種流暢和直觀的方式參與到模型的結果中來--當領域專家看到模型如何影響原始數據時，他們可以通過可視化向系統提供直接反饋，以指導下一步的計算。由于預期的領域專家并不是數據科學和機器學習方面的專家，我們并不期望領域專家知道，例如，什么是 "必須鏈接 "的約束，或者如何選擇最好的內核，甚至是聚類是適合他們需求的模型。相反，我們的主要貢獻是利用交互式可視化為這些復雜的計算模型提供直觀的抽象的呈現和交互方式，通過它用戶可以有效地利用各種模型，而不必直接與數據模型互動。

在本報告的其余部分，我們描述了為實現這一目標而設計和開發的兩個系統：Snowcat和CAVA。Snowcat是一個端到端的可視化分析系統，幫助領域專家開發機器學習模型，而不需要領域專家直接與AutoML系統的不透明參數和編程互動（見圖1）。CAVA是一個輔助性的數據增強工具，可以為Snowcat產生豐富的數據集。CAVA允許領域專家用存儲在知識庫中的知識和信息來增強他們的數據，如WikiData--維基百科中的信息庫，可使用SPARQL等正式語言查詢。領域專家使用CAVA用額外的領域知識來充實他們的數據。由此產生的增量數據允許在機器學習模型中提出新的假設和更準確的預測。

3.0 方法、假設和程序

這個項目的目標是開發可視化界面，使領域專家（SME）能夠在不同的數據類型和任務中生成機器學習模型。在根本上，該可視化界面與AutoML系統連接，用于生成模型。通過使用可視化，領域專家可以避免直接寫代碼來利用AutoML，或者費力地調整不透明的參數來優化AutoML系統。

在本節中，我們描述了我們在開發這兩個可視化系統時的假設，以幫助領域專家生成機器學習模型：Snowcat和CAVA

3.1 關于AutoML系統和API的假設

AutoML是一個廣泛的術語，用來描述一些機器學習技術，這些技術可以在用戶指定的目標下自動生成或調整機器學習模型。例如，對于圖像的聚類，機器學習的傳統方法是由用戶來進行。(1)選擇一個聚類算法，(2)選擇一些參數值，(3)在訓練數據集上運行聚類算法，(4)檢查應用在測試數據集上的結果指標（準確性、精確性等），以及(5)重復這個過程直到產生的聚類令人滿意。在AutoML的情況下，用戶可以先給出不同的所需類別的圖像例子（即訓練數據），然后要求AutoML尋找合適的算法和相應的參數，以產生結果模型。

盡管AutoML系統有相同的目標，但它們的實現方式可能不同。除了使用不同的搜索算法外，一些AutoML系統可能會返回一個最優化的模型，而另一些則返回一些算法和參數各異的模型。在DARPA的D3M項目中，還有一個要求，即AutoML系統需要返回數據通道（即操作序列--被稱為原語--所產生的模型由其組成）。

為了支持領域專家探索數據、模型、參數，我們的可視化系統必須與AutoML系統密切溝通，并能進入其內部操作。這些AutoML系統應該產生多個不同的模型，這些模型有類似的定量指標供領域專家考慮。此外，AutoML系統應該能夠提供有關所生成模型的定量和定性信息。也就是說，除了關于模型性能的數字指標外，AutoML系統應該能夠描述模型是什么（例如，模型使用什么算法）以及用來構建模型的參數。

與AutoML系統進行通信的API是由D3M計劃指定的。值得注意的是，這個API只由D3M計劃的團隊開發的AutoML系統實現。據我們所知，它與其他開源的AutoML系統（如auto-sklearn、TPOT、hyperopt等）不兼容。

3.2 方法和程序：Snowcat

Snowcat是以模塊化的方式設計的，分為任務和子任務。每個模塊的具體細節將在第4節描述。在高層次上，Snowcat由五個工作部分組成。(1）任務分析：了解領域專家的需求，（2）問題發現和構建：給定一個數據集，生成合理的機器學習任務，（3）可視化和界面設計：設計和實現基于網絡的可視化界面，（4）模型評估、驗證和比較：設計和實現工具，幫助領域專家檢查和評估模型，最終選擇最佳模型，（5）系統架構和可擴展性：設計架構和開發服務器端系統，考慮到處理大型和復雜數據集的擴展性。

3.3 方法和程序：CAVA

CAVA是Snowcat的一個補充系統，幫助領域專家用從知識庫中提取的額外信息增強他們的數據。通過CAVA，我們的目標是為D3M生態系統開發一個交互式可視化工具，使領域專家能夠通過數據完善和增強來建立更好的模型。我們的前提是利用領域專家的領域知識，幫助他們從數據集的集合中策劃新的數據特征（如表格數據中的列），以解決建模或分析任務。

CAVA可以作為一個獨立的工具獨立使用，用于數據增強，也可以在最初的數據探索階段作為Snowcat的集成組件使用（見圖1）。CAVA的初始原型使用WikiData作為其知識庫，但WikiData可以被其他符合必要假設和標準的知識庫所取代（見下文第3.4節）。

CAVA的設計由四個部分組成，其細節將在第4.2節描述。這四個部分是 (1)知識庫集成：向知識庫發送查詢和解析結果的機制，(2)特征工程：將從知識庫檢索的數據轉換為表格形式，并將結果附加到領域專家的原始數據上，(3)可視化和界面設計：設計一個可視化，使領域專家無需編程即可生成SPARQL查詢，以及(4)與Snowcat的集成：與Snowcat系統以及DARPA的D3M基礎設施和生態系統的其他部分進行系統級集成。

3.4 關于CAVA和知識庫的假設

使用CAVA的前提是有一個現有的知識庫，其中包含與特定任務有關的信息。例如，預測埃塞俄比亞糧食短缺的任務應該有一個知識庫，其中可能包括關于埃塞俄比亞的地理、天氣、耕作、人口等。在沒有特定領域信息的情況下，我們發現WikiData可以作為一些任務的合理代理。雖然WikiData可能沒有所有任務的詳細特定領域信息，但它包含了許多主題的大量信息。WikiData所包含的信息范圍與維基百科相似。然而，與維基百科不同的是，WikiData被存儲在一個可查詢的知識庫中。

在CAVA中使用的WikiData的一個特殊功能是其 "實體匹配 "算法。WikiData的這一功能可以返回知識庫中最相似的節點，并給出一個字符串。例如，如果實體匹配算法的輸入是 "教父 "這個字符串，WikiData將返回一些可信的節點，包括電影 "教父"，或指孩子監護人的世俗術語。并非所有的知識庫都有實體匹配功能，但CAVA系統假定它是可用的。

CAVA對知識庫的另一個假設是元數據的可用性。例如，當查詢馬薩諸塞州的面積時，查詢結果是27,336。這個數字的單位（平方公里）通常只作為元數據提供。CAVA利用這種元數據來幫助用戶更好地理解可視化中呈現的數據。

4.0 結果和討論

在這一節中，我們描述了我們在Snowcat和CAVA這兩個系統上的工作。在Snowcat中，我們為非專業的領域專家（SME）開發了一個數據探索和分析的可視化系統。Snowcat與AutoML系統集成在一起，這兩個系統使數據科學技能有限的領域專家能夠利用機器學習技術來生成模型。因此，領域專家能夠做出更明智的決定，分析更大量的數據，并最終使人在環形數據分析以數據感應和存儲的速度擴展。在NIST獨立進行的一項評估中，使用Snowcat的領域專家被發現在未披露的預測任務中表現優于AutoML和人類專家。

在CAVA中，我們為D3M生態系統開發了一個交互式可視化分析工具，使領域專家能夠通過增強他們的數據建立更好的模型。我們的前提是，與其合并數據集進行數據增強，不如幫助領域專家從知識庫中提取和策劃一個新的數據集來解決建模或分析任務，這樣可以更好地利用領域專家的領域知識。我們對CAVA的評估發現，參與者和領域專家能夠使用CAVA從大型知識庫（WikiData）中找到相關的數據，而由此產生的增強數據在與Snowcat結合使用時產生的模型具有更高的準確性

4.1 Snowcat

Snowcat系統由5個工作模塊組成（任務分析，問題發現和構建，可視化和界面設計，模型評估、驗證和比較，以及系統結構和可擴展性）。我們介紹了每項工作的結果。請注意，每個工作模塊的研究和開發并不總是集成到Snowcat系統中。通常情況下，研究結果是作為一個獨立的原型發表的。只有當研究結果適合DARPA的目標時，研究原型才會被轉換成生產代碼，然后被整合到Snowcat中。

4.1.1任務分析

這項工作涉及到一項人類主體研究，以更好地了解領域專家通常執行的數據分析任務的范圍。這個工作模塊的目標是正式記錄領域專家在使用機器學習工具時的需求。其結果被用來指導Snowcat系統的設計和開發。為了完成這個工作模塊，我們進行了文獻調查、用戶研究和訪談，以制定一個與數據分析任務相對應的操作清單。

開展的工作

為了更好地了解數據科學家所采用的流程，以及他們在確定客戶需要什么分析時遇到的痛點，我們進行了結構化的文獻回顧，并對來自各種數據密集型領域的14名數據科學家進行了半結構化的訪談：市場研究、生物醫學研究、政策研究以及流行病學和健康研究。在每個領域，我們都尋找了直接與客戶對接的專業人士，他們或者自己進行數據分析，或者管理其他數據科學家的團隊。

成果

在對數據科學家的訪談進行分析后，我們發現了數據科學家為更好地理解客戶的需求而采用的三種常見方法，我們稱之為工作--倒退、探究和推薦。這些方法中的每一種都對應著客戶需求的不同清晰度。例如，逆向工作為具有高清晰度需求的客戶提供服務，他們可以準確地說明他們所期望的分析結果。從一個明確的預期結果出發，數據科學家可以 "倒退 "到適當的分析。另一方面，推薦服務于低清晰度需求的客戶，他們可能不知道自己在尋找什么。它包括數據科學家運行一些不同的分析，以了解哪些結果是客戶最感興趣的。

文獻綜述和訪談研究的綜合結果已被編入一篇論文，并在2019年的EuroVis上發表。這篇論文作為開發Snowcat系統的設計要求文件。

4.1.2 問題的發現與構建

我們開發了自動發現明確定義的 "問題 "的方法，這些問題被格式化，并由AutoML系統執行以生成機器學習模型。例如，一個 "問題 "可以是對一些數據點進行分類，目的是利用數據集中的一些用戶指定的屬性使F1分數最大化。

在Snowcat中，系統最初會研究給定的數據集，并發現所有可能的明確定義的問題。用戶互動有兩種方式：領域專家可以通過編輯由Snowcat自動發現的問題來完善一個問題。或者，領域專家可以在探索數據集后創建自己的問題集。創建問題的過程可以通過與可視化界面的互動來完成，而不需要領域專家的編程努力。

開展的工作

我們設計和開發了兩個軟件組件來完成這個工作模塊。首先，我們設計了一個算法來檢查一個領域專家的數據集，并列舉出所有可能的問題，這些問題可以在給定的數據屬性和數據特性下應用于該數據集。使用一個簡單的啟發式方法將這些問題從最相關到最不相關進行排序。

另外，我們還開發了一個交互式界面，以使領域專家能夠。(1) 檢查自動生成的問題，(2) 完善和編輯該問題，或(3) 從頭開始手動創建一個新的問題。在一個問題被策劃好之后，領域專家可以點擊界面上的一個按鈕來啟動由AutoML系統處理的模型學習過程。

成果

這兩個軟件組件已被整合到Snowcat中。參見圖1，了解這些組件如何在Snowcat工作流程中發揮作用。圖1中的面板2是可視化界面的圖示。

另外，我們研究了領域專家為給定任務生成 "目標函數 "的其他方法。例如，雖然最大化F1分數是一項合理的任務目標，但它可能沒有反映領域專家的其他考慮，如排除某些數據點，注釋數據點之間的相似性關系等。我們在生成目標函數方面的研究結果發表在EuroVis 2020上。這項工作沒有被整合到Snowcat系統中，因為該技術的使用需要一個特殊類型的AutoML系統，而D3M計劃中并不支持。

4.1.3 可視化和界面設計

在設計和開發Snowcat的可視化過程中，我們遵循了一個迭代的設計過程。其結果是根據領域專家的反饋進行了兩次重大的重新設計。最終的可視化界面由三個部分組成。(1）任務工作流程，（2）數據探索和可視化，以及（3）會話管理。

任務工作流程:修訂期間最重要的設計變化是加入了一個指導性的工作流程，以幫助領域專家在其建模任務中取得進展。使用 “卡片”設計，領域專家可以嚴格遵循 “數據探索、任務選擇、模型生成、模型評估和模型比較”的工作流程（如圖1所示），或者他們可以使用 “卡片”從默認的流程中進行分支。例如，在“任務選擇”階段，領域專家可以打開數據探索的卡片，用可視化的方式重新檢查數據。卡片的模塊化性質平衡了領域專家對指導的需求和對開放式探索的靈活性。

圖2：Snowcat支持的任務和數據類型。

數據探索和可視化：根據D3M指定的數據類型列表，我們設計和開發了一系列的可視化工具，以支持領域專家探索各種數據類型。我們開發的新的可視化工具包括：（1）文本數據，（2）表格數據，（3）時間序列數據，（4）圖形數據，（5）圖像，（6）視頻，（7）音頻，以及（8）語音的可視化。對于文本數據，我們顯示一個文件列表，可按內容搜索，包括高亮和過濾。對于表格數據，我們顯示一組協調的Barcharts，可以進行交叉過濾以進行數據探索。對于時間序列數據，我們為每個隨時間變化的屬性顯示小倍數的線形圖。對于圖形數據，我們顯示節點鏈接圖，并突出顯示預測的邊和節點。對于表格數據，我們使用特征直方圖。對于圖像，我們顯示按其屬性分組的圖像。用戶可以選擇任何一張圖片，將其放大以便進一步檢查。對于視頻、音頻和語音數據，我們使用時間序列可視化和用于觀看或收聽原始數據的播放器來顯示數據的并排面板。圖2顯示了Snowcat支持的數據類型列表。圖3顯示了這些可視化設計的例子。

會話管理：我們在Snowcat系統中增加了對會話的支持。在增加會話管理功能之前，Snowcat是 "無記憶 "的，即領域專家無法 "回去 "查看AutoML系統在同一數據集的不同變化下（例如，在數據增強后）或在不同的問題描述下（例如，將目標從最大化準確度改為最大化F1分數）生成的模型。目前，Snowcat提供兩種類型的會話：（1）跨越不同問題描述的會話（使用相同的數據），以及（2）跨越不同數據集的會話（例如，作為執行數據增強的結果）。我們在可視化中實施了一個工作流程，以支持這兩種類型的會議，使領域專家能夠比較不同會議產生的模型。

圖3：Snowcat中支持的可視化實例。

其他特點:Snowcat的其他功能包括。(1)模型通道可視化，(2) "數據事實 "可視化，以及(3)與D3M Datamarts和其他數據增強系統的集成。模型通道可視化指的是將D3M AutoML系統生成的機器學習模型的程序、超參數和參數可視化。"數據事實 "可視化是指將高層次的數據特征與自然語言中的特征描述一起可視化的組件（見圖4）。這項工作是基于開發團隊成員之前的出版物。它被用作領域專家的探索性工具，在進行數據分析和探索之前，他們更喜歡對一個不熟悉的數據集進行總結。最后，Snowcat被集成以支持數據的增強。這種整合可以是與D3M生態系統內開發的Datamarts系統或我們在第4.2節中描述的CAVA系統。

開展的工作

該可視化系統是使用VUE.js庫在Javascript中開發的，這樣它就可以在現代瀏覽器中運行。上面提到的四個組件被實現并集成到一個有凝聚力的可視化系統中，允許領域專家對使用AutoML生成機器學習模型的過程有充分的看法和控制。每個組件的設計都考慮到了可擴展性（例如，通過使用采樣技術），以確保領域專家在分析過程中的流暢性和互動性。

成果

基于網絡的可視化已經完成，并與Snowcat后臺服務器和D3M的AutoML系統集成。開發的可視化的某些方面是基于正在進行的研究。關于多類散點圖可視化設計的工作已經發表在arXiv。我們關于遞歸神經網絡可視化的工作，特別是消失的梯度，于2018年發表在IEEE CG&A雜志上。最后，團隊為評估Snowcat而開發的一種基于推理學習的技術于2019年發表在IEEE VIS研討會上。

圖4："數據事實"的可視化設計

4.1.4 模型評估、驗證和比較

我們采用 "引導式 "方法來設計模型評估、驗證和比較的過程，將任務分解成多個階段。系統引導領域專家用戶完成每個階段的任務。Snowcat系統支持一些機器學習建模問題的模型輸出，包括（1）分類，（2）回歸，（3）聚類，（4）鏈接預測，（5）頂點提名，（5）社區發現，（5）圖聚類，（6）圖匹配，（7）時間序列預測，以及（8）協同過濾。這些不同的可視化被整合到我們的網絡可視化框架中，該框架采用AutoML系統產生的預測并將其顯示給用戶。該可視化系統通過為領域專家的任務選擇一個最佳模型的過程來引導他們。與不同數據類型的可視化相似，我們投資了一個模塊化的、基于卡片的界面，幫助領域專家遵循一個默認的工作流程，同時提供靈活性以允許開放探索。所有的可視化都支持交叉過濾，例如，在表格數據和原始數據之間，以及在輸入數據和模型輸出之間，這樣，用戶可以檢查數據和機器學習模型之間的聯系。圖2顯示了Snowcat支持的機器學習任務（以及由此產生的模型）的清單。

開展的工作

已完成的工作 Snowcat的模型評估、驗證和比較組件是在Vue.js中實現的，使用的是與可視化組件類似的 "卡片 "隱喻。卡片的使用使得這兩個組件可以完全整合，當領域專家在檢查模型的時候，他們可以調出可視化卡片來檢查原始數據。此外，由于交叉過濾機制，領域專家可以選擇模型的一部分（例如，混淆矩陣中的一個數字）并觀察可視化卡片中突出顯示的相應數據點。

成果

模型評估、驗證和比較部分已經完成，并完全整合到Snowcat中。在這一過程中，我們進行了一系列的研究，導致了最終的設計。首先，我們完成了一個研究項目，使用交互式可視化界面幫助用戶理解和比較對象嵌入，這是一種重要的數據結構，經常在處理通道的中間步驟中被用作數據的模型。這種模型比較方法是允許用戶比較整個通道的一個步驟，這些通道導致了用于決策的最終模型。這項工作的成果發表在EuroVis 2018上，2020年在IEEE TVCG雜志上發表了一個擴展。

第二，我們研究了在神經架構搜索中發現的神經網絡。該團隊與卡內基梅隆大學和劍橋的IBM研究院的外部合作者合作，為卷積神經網絡（CNN）架構開發視覺編碼，以允許數百個架構同時被比較。我們使用這些新的視覺編碼，將神經結構搜索期間產生的大量數據可視化。這些可視化數據被用來比較多種元學習算法的發現過程。這項工作的成果發表在2019年的ICLR研討會和IEEE TVCG雜志上。

最后，我們開發了用于分析不同機器學習模型的方法。為了分析離散選擇分類器的結果，我們開發了一種方法，使用戶能夠互動地探索為測試不同分類器而進行的實驗。這些想法已經被建立在一個叫做 "Boxer "的原型系統中。這項工作的結果發表在EuroVis 2020。對于回歸模型，我們開發了一種用于交互式引導和檢查多元回歸模型的技術。這項工作發表在2019年的IEEE CG&A雜志上。

4.1.5 系統架構和可擴展性

為了實現可擴展性和模塊化的目標，在設計和開發Snowcat系統方面投入了大量的時間和精力。Snowcat架構的三個獨特方面是 (1) 它支持不同數據類型和任務類型的基于網絡的客戶端可視化，(2) 它通過中間件服務器與AutoML系統連接，以請求或獲得訓練和測試數據的結果，(3) 它允許來自不同領域專家用戶在不同數據集上的多個同步連接，(4) 它與數據增強模塊互操作，允許動態更新數據集。

開展的工作

Snowcat系統是采用客戶-服務器架構開發的。客戶端可視化是用Javascript開發的，在現代網絡瀏覽器中運行。服務器由多個相互連接的組件組成。與客戶端的主要接口是作為一個Node.js服務器實現的。用戶上傳的數據存儲在一個Redis數據庫中。AutoML被視為一個獨立的組件。這些不同組件之間的通信是通過谷歌的Protobuf消息傳遞協議完成的。

為了支持領域專家對不同類型的數據和任務類型的探索和分析，我們開發了一種方法，前端可視化中的每個 "卡片 "都由服務器中的相應進程支持。例如，用于可視化表格數據的卡片使用一些協調的Barcharts。將原始數據離散成bin（每個bin對應于barchart中的一個bar）的操作在服務器上由一個專門的進程執行。有了這種架構設計，大量的原始數據就不需要從服務器上不必要地發送到客戶端。這些卡的特定進程的實現是由Javascript和Python混合完成的。特別選擇Python是因為它有用于執行機器學習任務的廢棄庫（最明顯的是scikit-learn庫）。

最后，為了支持多個同時的客戶端連接，Snowcat使用Node.js線程。每個與Snowcat服務器的連接都由線程池中的一個空閑線程處理。每個連接的會話信息都存儲在Redis數據庫中（與用戶上傳的數據一起）。這些信息在需要時由線程檢索。

成果

最終的Snowcat系統滿足了所有D3M的要求。它可以與所有實現指定D3M API的AutoML系統集成。該系統已經被做成了Docker容器，因此它可以被部署在大多數系統上。Snowcat系統的描述，包括設計過程和評估，可以在我們發表于EuroVis 2019的論文中找到。

4.2 CAVA

我們對CAVA的目標是為D3M生態系統開發一個交互式可視化分析工具，使領域專家（SME）能夠通過增強他們的數據建立更好的模型。圖5說明了我們使用知識庫進行數據增強的概念框架。作為數據增強過程的結果，額外的數據列被添加到領域專家的原始數據集（在圖中被稱為 "種子數據"），并從知識庫中提取信息。

為了實現這一目標，我們利用其他D3M工作者的努力，他們已經開發了一個知識庫，由D3M項目的相關數據集組成。鑒于這樣一個知識庫，CAVA支持領域專家探索、搜索和組合知識庫中的信息，并將其轉化為新的數據特征，可以添加到領域專家的原始數據中，從而形成一個新的、增強的數據集。然后這個數據集可以被Snowcat攝取，用于生成機器學習模型，從而完成一個完整的數據工作流程。

圖5：使用知識庫進行數據增強的概念性框架

CAVA系統有四個要素：（1）知識庫整合，（2）將知識庫的功能工程轉化為表格形式，（3）設計交互式視覺界面，以及（4）與D3M生態系統整合。

4.2.1 知識庫整合

我們認為知識庫代表了一個數據的集合。知識庫的圖結構是至關重要的，因為它以結構化的形式捕獲數據，因此允許圖包括來自公共資源的數據以及D3M的特定數據集。知識庫中的圖可以通過關系進行探索和連接。它可以按照圖中的關系（即邊）進行探索、發現和提取。該結構強制執行實體間關系的語義和句法兼容性。挑戰在于，它需要將標準的數據操作，如查詢、總結和提取，轉換為圖的操作。

我們通過定義一套支持所需場景范圍的操作基元來克服這一挑戰。例如，我們創建了一些接口來列舉可能的查詢答案，建議可能導致成功提取的查詢，并評估從查詢中提取的數據。

開展的工作

我們將WikiData知識庫納入了CAVA系統。CAVA通過SPARQL查詢與WikiData進行交流。因此，CAVA并不拘泥于使用WikiData，而是可以與其他支持SPARQL查詢的知識庫相連接。正如第3.4節所述，CAVA對知識庫的能力做了一些假設。為了使CAVA能夠通用于各種知識庫，我們重新實現了CAVA廣泛使用的 "實體解析 "功能。

實體解析是將用戶上傳的數據文件中的元素映射到知識庫中的對象的過程（例如，將數據中的字符串 "Massachusetts "與WikiData中的對象Q771相匹配）。在CAVA中，我們最初利用WikiData的labelservice功能（通過WikiData的API）來執行這種匹配操作。當我們轉而使用其他知識庫時，我們實施了新的實體解析方法，利用了知識圖譜的拓撲結構。首先，我們在上傳的數據中找到條目中 "最常共享 "的節點。例如，我們發現MA、PA、NM等字符串都有相同的共同節點（如 "State"、"USA "等）。因此，當出現歧義時（如GA指的是格魯吉亞還是加蓬），我們會檢查這兩種可能性中哪一種最符合其他條目的拓撲結構。

成果

我們已經完成了CAVA與WikiData以及其他D3M團隊創建的知識庫的整合。我們的新實體匹配方案在大多數測試案例中都運行良好，但當上傳的數據本身比較混亂，或者WikiData中用于建立 "基線 "拓撲結構的數據有限（比如埃塞俄比亞的地區）時，就會失敗。

4.2.2 將知識庫的特征工程轉化為表格形式

一旦在知識庫中找到相關信息，CAVA就會進行必要的轉換，將信息轉換為與領域專家的輸入數據相匹配的表格形式。特別是，由于知識庫通常表示為語義圖，這一目標類似于將圖信息轉換為表格數據。

圖6：使用CAVA進行數據擴增的一個例子

考慮到圖6所示的情況，一個領域專家想用以下內容來增加他們的國家數據集。面積、人口和平均鄰國的國內生產總值（GDP）。首先，數據集的每一行（例如，"德國"）被映射到知識圖譜中的一個實體。領域專家可以使用知識圖譜來識別與 "德國 "節點相連的地區和人口信息。為了選擇平均鄰居GPD，領域專家需要執行一個嵌套操作，首先確定德國的所有鄰國（"丹麥"、"法國"、"奧地利 "等），遞歸檢索它們的每個GDP信息，然后計算這些GDP的平均值。

上面的例子說明了使用知識庫進行數據增強的力量。對圖的遞歸探索，結合代數運算符的使用，可以幫助領域專家產生復雜和細微的數據，并將其添加到領域專家的原始數據集中。如果沒有一個知識結構，這些操作對于一個領域專家來說將是乏味的，難以執行的。

開展的工作 我們成功地使用SPARQL在CAVA中生成遞歸的復雜查詢。通過使用可視化（詳見第4.2.3節），領域專家無需編程即可構建任意復雜的遞歸查詢。除了遞歸查詢外，CAVA還支持特征工程的兩種操作：代數操作和帶時間數據的操作。

首先，CAVA支持對一個元組的數值進行代數運算。這些操作包括最小、最大、計數、平均等，具體取決于數據類型。如圖6中的例子所示，這些操作可以與查詢一起使用，用于面向數據的任務。

第二, CAVA支持領域專家用時間性數據進行數據增強。當同一數據屬性有多個條目，但記錄的時間不同時，就需要策劃時間性查詢。例如，實體 "德國"的 "人口 "屬性有許多條目，因為德國的人口每年都在變化。為了幫助領域專家用最相關的條目來增加他們的數據，我們的系統支持領域專家從以下選項中進行選擇：（1）在所有的條目中選擇一個操作（如最大、最小、平均等），（2）選擇最近的條目，（3）匹配與給定日期（由用戶輸入）最接近的條目，以及（4）讓系統根據數據中的一欄自動推斷出適當的條目。選項（4）特別有意思，因為如果輸入的數據包含時間戳信息，我們的系統可以檢索出與給定時間戳最接近的條目。

成果

我們成功地實現了查詢引擎，包括生成包含代數運算和時間函數的SPARQL查詢，并對知識庫的結果進行解析。在我們的測試中，我們發現查詢的生成對各種復雜的、嵌套的和遞歸的查詢都很穩健。

4.2.3 可視化和交互式界面設計

我們把CAVA的界面設計成一個輕量級的基于網絡的互動可視化。可視化的目標是幫助領域專家表達和闡述上文所述的復雜查詢，但不要求領域專家明確地編寫SPARQL查詢。此外，可視化需要幫助領域專家在他們的數據增強過程中建立信心，例如通過顯示要增強的數據的質量和提供所產生的增強數據的預覽。

開展的工作

我們為領域專家開發了一個交互式視覺界面，以探索原始數據集及其關系數據集中的所有數據屬性。圖7顯示了CAVA界面的概況。該視圖首先在一列中列出原始數據集的所有屬性。對于每個數據屬性，該視圖提供了四個功能。"相關屬性"、"分布"、"添加 "和 "刪除"。領域專家可以點擊 "相關屬性 "按鈕來展開下一層次的數據集，并在新的一列中列出所有相關屬性。通過點擊 "分布 "按鈕，領域專家將能夠看到所選數據屬性的分布圖。如果領域專家對選定的屬性感到滿意，他們可以點擊 "添加 "按鈕，將該屬性添加到輸出數據集中，該數據集將被傳遞到下一個問題階段。另一方面，如果領域專家不想要以前選擇的屬性，他們可以使用 "刪除"按鈕將其從輸出數據集中刪除。

圖7：CAVA的界面

此外，我們還開發了三個可視化界面，以幫助領域專家進行數據增強: a) 基于抽樣的數據預覽。為了解決提高處理大型數據集的可擴展性，同時盡量減少用戶的等待時間的挑戰，我們開發了一種基于抽樣的方法，為用戶提供了用戶數據增強操作的近似預覽（見圖7的D面板）。這種 "基于抽樣的預覽"延伸到可視化中的許多地方，包括但不限于。(1)對將包括在增強中的數據屬性的質量的估計，(2)數據屬性的預期分布的可視化，(3)增強后數據中產生的行的例子。如果沒有基于抽樣的方法，完整的數據集（可能有數百萬行）的完整 "join"可能需要幾分鐘甚至幾個小時才能完成。基于抽樣的方法將等待時間減少到幾秒鐘，同時為用戶提供了對增強操作和過程進行決策所需的直覺。 b) 一個 "貫穿式連接 "的可視化解釋。由于數據增強可能很復雜，特別是當需要連接的數據在知識圖譜中存在3個或更多的 "hops"時，我們觀察到這些復雜的增強程序會讓那些可能不熟悉知識圖譜和數據增強過程的用戶不知所措。為了幫助緩解使用我們的數據增強工具的困難，我們開發了一個可視化的工具來解釋這些復雜的增強過程。通過使用這種可視化的方式，用戶可以預覽擴增操作，并在投入操作之前進行調整。 c) 對實時迭代建模的支持。由于D3M中數據增強的目的是為了提高所產生的機器學習模型的質量，我們在系統中增加了對建模工具直接整合的支持。具體來說，在我們的系統中，用戶可以快速檢查新增加的數據特征是否改善了模型（如果沒有，可以刪除該特征）。系統對模型的迭代（以及用于生成模型的數據特征）進行跟蹤，允許用戶看到進展情況，并跳回到之前的模型，嘗試不同的數據增強想法。

成果

我們成功地實現了基于網絡的可視化界面。在對佐治亞理工學院招募的參與者進行的評估中，參與者認為該可視化界面使用起來很直觀，尤其是在尋找相關數據進行擴增時。此外，與使用原始（未增強的）數據相比，所產生的增強數據被證明可以提高由AutoML系統生成的模型的準確性（見下一節，第4.2.4節）。

4.2.4 與 D3M 生態系統的整合

CAVA被設計為與現有的D3M生態系統（包括Snowcat）集成。CAVA的使用代表了圖1所示的數據工作流程中最左邊的一個面板。有了這個工作流程中的額外步驟，領域專家將首先增強數據，指定問題，并使用AutoML系統建立模型。如果領域專家對結果不滿意，領域專家將通過返回數據增強來迭代這個過程。

為了支持CAVA在D3M生態系統中的使用，我們對CAVA進行了設計，使其可以作為一個獨立的服務，支持同時連接多個系統，或者通過與Snowcat等系統完全集成，以專用方式使用。

開展的工作 CAVA最初開發時的假設是，它將被集成到類似于Snowcat的建模系統中。然而，在D3M項目的過程中，我們逐漸意識到這種整合是困難的，并且較難實現，原因是其他D3M建模系統對編程語言、數據工作流程等的假設不同。因此，CAVA的最終實現是作為一個獨立的系統，即CAVA輸出一個數據集，其他D3M建模系統會攝入該數據集。特別地是，為了使CAVA與D3M生態系統的其他部分相結合，我們開發了以下功能。

a) CSV文件的上傳和下載：CAVA的一個關鍵特征是領域專家能夠以CSV文件的形式上傳（和下載）自己的數據。盡管這一功能看起來微不足道，但我們為支持這一目標實施了一些重要的創新。首先，當用戶上傳他們自己的CSV文件時，我們的系統為用戶提供了 "糾正 "數據的機會。例如，如果數據中代表郵編的一列被錯誤地歸類為數字，用戶可以手動選擇將郵編作為一個獨特的標識符（或一個字符串）來處理。作為一個字符串，系統就可以在WikiData中找到該條目。相反，如果不加以糾正，像00155這樣的郵編將被視為數字155，這對于執行數據增強是沒有意義的。

第二，為了支持增強后的數據下載，CAVA包括一些系統優化，以提高速度和性能。如前所述，CAVA使用了一種基于 "抽樣 "的方法，以確保服務器的響應速度（尤其是當數據的規模可能很大，有數百萬條記錄時）。對于下載過程，CAVA只在領域專家要求下載完整數據集時，通過對數據中的所有行執行增強查詢來實現完整數據集。

b) 部署在D3M服務器上：目前，CAVA被部署在D3M服務器上。在沒有指定特定領域的知識庫的情況下，CAVA連接到公共WikiData.org網站來進行數據增強。使用公共WikiData.org知識庫的一個好處是，WikiData.org的規模持續增長（并且不斷維護和更新以糾正錯誤和誤差）。因此，領域專家可以利用 "更新到最新 "的信息。

c) 支持多個同時使用的用戶。CAVA的設計是為了支持多個領域專家用戶同時使用CAVA來增加他們自己的數據集。為了允許多個用戶同時使用，CAVA服務器采用Node.js構建，以提高效率，并使用多線程架構。此外，為了支持領域專家上傳他們自己的CSV文件，這些文件可能有數千兆字節大小，CAVA使用Redis作為數據管理引擎。

成果

完整的CAVA系統既部署在D3M的集群上，也部署在塔夫茨大學的服務器上。該系統在大學招募的參與者和MITRE的領域專家中都得到了評估。在這兩種情況下，CAVA都被認為是有用的，特別是當特定問題的知識庫可用于某項任務時。WikiData可以滿足領域專家的一些需求。然而，對于特定領域的數據集和任務，WikiData可能并不總是擁有領域專家所需的數據來進行所需的增強。CAVA的設計、實現和評估已于2020年發表在IEEE TVCG雜志上。

5.0 結論

作為D3M計劃的一部分，我們成功開發了兩個系統。首先，我們開發了Snowcat系統，允許領域專家（SME）利用自動機器學習（AutoML）系統來生成機器學習模型。Snowcat被設計成易于使用，不需要領域專家擁有機器學習、統計或編程方面的知識或技能。在NIST進行的一項獨立評估中，使用Snowcat的領域專家能夠創建機器學習模型，這些模型比AutoML自動生成的模型（沒有領域專家的干預）和由領域專家手動策劃的模型更準確。

第二，我們開發了CAVA系統來幫助領域專家增加他們的輸入數據。由于機器學習模型的準確度只能與用于訓練模型的數據一樣，適當的數據增強可以顯著提高機器學習模型的結果。CAVA使用知識庫作為增強的來源。通過與基于網絡的可視化界面的互動，領域專家可以執行復雜的數據增強操作，而無需編程或編寫明確的數據庫查詢。在對一所大學招募的參與者和來自MITRE的領域專家進行的評估中，發現CAVA在幫助領域專家識別相關數據進行擴增方面非常有用。此外，使用CAVA從增強的數據集生成的機器模型比從原始（未增強的）數據生成的模型更準確。

兩個系統的源代碼都可以在Github上作為開源項目使用。這兩個系統也可以作為Docker容器使用，以方便部署。

付費5元查看完整內容