亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

新興技術(如人工智能 (AI)、自動駕駛)和聯合全域指揮與控制 (JADC2) 測試與評估 (T&E) 等操作概念將要求系統進行持續測試并產生更多數據。在整個測試周期中使用人工智能將使測試人員能夠處理數據,并以更快的速度和規模做出更客觀的決策。由于被測系統非常復雜,因此并不存在放之四海而皆準的軟件應用程序。相反,如果以實用的方式使用各種軟件包,可以提高訓練有素的測試與評估專業人員的能力,以應對新興技術的挑戰。本文列出了一份人工智能軟件工具清單,并總結了它們在測試與評估中的潛在應用功能。向測試界提供這份清單,并在可能的情況下利用 DoDTechipedia 等合作網站,將提高人們對可用工具及其功能的認識,鼓勵交流與合作,并有助于當前和未來工具的使用。

測試與評估 (T&E)中人工智能評估框架

人工智能工具的形式多種多樣,并采用不同的方法來滿足用戶的需求。當 T&E 專業人員在實踐中采用人工智能時,他們可以參考這份資源清單,為他們的軟件實施決策提供信息,以實現特定目標。本研究建立了一個包含七種工具功能的框架:計劃、存儲、運輸、準備、可視化、分析和監控。這七種功能的定義如下。

  • 規劃(PL):計劃包括了解需求、篩選特征、設計因素、記錄條件、確定限制因素、創建測試矩陣以及確定假設檢驗的置信度和功率。
  • 存儲(S):可訪問、可靠且可擴展的大數據安全存儲。解決方案支持跨云環境和邊緣計算快速訪問數據。工作負載自動化配置文件管理、訪問控制以及路由和平衡工作負載。優化昂貴的硬件,如高性能計算(HPC)集群和圖形處理器(GPU)加速器,為數據處理做好準備。
  • 傳輸 (T):將數據從一個位置傳輸到另一個位置。特殊用例包括數據屏蔽和加密安全數據。出于可重現性的目的,對原始數據的任何操作都必須記錄在案。處理元數據的決策對保持數據質量非常重要,包括對無法加載到隨機存取存儲器(RAM)的過大數據進行處理、壓縮、稀疏性、分塊和散列等。
  • 準備 (PR):將數據轉換為干凈的格式,以便算法能成功使用其中包含的信息。這包括處理缺失值、特征工程、管理異常值,以及估算、轉換、歸一化和標準化過程。
  • 可視化 (V):以圖形表示任何格式的數據。通過可視化輸出探索數據有助于技術人員和非技術人員對數據有一個總體了解。圖形和圖表有助于評估數據的一致性。此外,通過可視化工具評估模型性能有助于向股東傳達結果。
  • 分析 (A):選擇建模技術來實現特定目標。這包括建立模型、調整參數、模型再訓練、從模型中獲得洞察力以及解釋結果。
  • 監控 (M):跟蹤模型版本歷史性能,以便進行驗證、評估和審計。對持續測試/持續實驗框架進行管理,并自動提醒用戶注意任何模型衰變。可重現的模型和通過管道創建標準使用戶能夠設計、部署和管理一致的工作流程。提供可擴展的運行時資源增加了管理和部署網絡應用程序的能力。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

近年來,機器學習模型,尤其是深度學習和變壓器模型的性能空前提高,因此被廣泛應用于金融、醫療保健和教育等各個領域。然而,這些模型容易出錯,無法自主使用,尤其是在決策場景中,從技術或道德角度講,出錯的代價很高。此外,由于這些模型的黑箱性質,最終用戶往往難以理解模型的結果和底層過程,無法信任并使用模型結果做出決策。可解釋人工智能(XAI)通過利用包括可視化技術在內的方法來解釋和詮釋模型的內部運作以及如何得出結果,從而幫助最終用戶理解模型。盡管最近開展了大量研究,重點關注模型和 XAI 方法的性能,但關于解釋對人類-人工智能團隊性能的影響的研究較少。本文調查了近期關于 XAI 對人類-人工智能決策影響的實證研究,確定了面臨的挑戰,并提出了未來的研究方向。

XAI與決策

人工智能輔助決策研究領域正在飛速發展,研究和實驗的數量也在穩步增加。然而,由于實驗中的任務和設置各不相同,關于 XAI 對人類決策的影響的研究結果也不盡相同[81]。還需要進行實證研究,以形成對人類與人工智能之間互動的基本理解,從而做出決策[20]。此外,人類在模型可解釋性中的作用及其對帶有或不帶 XAI 組件的人工智能輔助決策的影響也未得到充分研究[62]。例如,認知科學、社會科學和心理學中存在大量關于人類如何形成解釋并相互解釋不同現象的研究[64],這些研究對 XAI 領域,尤其是人工智能輔助決策環境中的 XAI 領域大有裨益。

付費5元查看完整內容

觀察、定位、決策和行動(OODA)概念有助于理解人類決策過程,從而對人類作戰人員和以人為中心的行動做出敏捷和有競爭力的決策。然而,未來基于人機協同的軍事決策依賴于支持人機聯合智能的技術和交互概念,而不僅僅是人的能力,這就需要修改新的 OODA 概念。根據認知科學的最新進展,本文提出了 "批判-探索-比較-適應"(CECA)循環,作為一種改進的描述模型。CECA 循環明確基于這樣一個前提,即以目標為導向的心智模型是人類決策的核心,是表征和理解世界的手段。該模型將兩個心智表征(通過作戰計劃建立的概念模型和代表作戰空間狀態的態勢模型)置于決策過程的中心。此外,CECA 循環的四個階段大致對應于信息需求的識別(批判)、主動和被動的數據收集和情況更新(探索)、當前情況與概念模型的比較(比較),以及對使概念模型失效或阻礙目標完成的作戰空間方面的適應(適應)。盡管如此,CECA 循環旨在作為研究指揮與控制 (C2) 決策的一個簡單但廣泛適用的框架。在 C2 中引入批判性思維元素并闡述計劃和作戰概念的心理表征的核心作用。

1 引言

由于應急管理所要解決的問題的性質,它對當代社會至關重要。當今世界的特點是大規模進程中的不確定性增加,這在很大程度上使全球格局變得不可預測。現代社會所面臨的威脅范圍十分廣泛,而且在過去幾年和幾十年中還在不斷擴大。有史以來,人類一直遭受著巨大的自然災害。盡管最近取得了進步,但技術手段仍然無法抵御各種因素的破壞潛力。

此外,技術本身也是造成災難性人為事件的重要因素,這些事件甚至威脅到最先進的國家。隨著架構和機制的規模和復雜性不斷增大,出現故障的可能性也隨之增大,這可能會帶來不良后果。最后,不確定性思想與威脅全世界臭名昭著的國際和國內恐怖主義威脅密切相關。

這些挑戰成為全球社會和決策者日益關注的領域。因此,大量資源和資產被用于解決這一問題。然而,盡管戰略決策仍然至關重要,但對這些挑戰的直接應對卻具有特別重要的地位。無論災難背后的深層問題是什么,都必須以應有的努力、效率和謹慎來應對災難的發生。應對規程由多個單元組成的不同團隊執行,這些團隊應本著跨專業合作和理解的精神開展工作。因此,組織這些單元極具挑戰性,需要強有力和受過教育的領導。應急管理人員必須表現出與災難規模相稱的果斷和內在力量。此外,這些危機往往發展迅速,給不可預測的情況增添了倉促因素。因此,高效而正確的決策是應急管理領域強有力領導者的基本特征。

雖然該領域顯示出一系列特殊性,使其與大多數行業充分不同,但在普遍接受的范例中對其進行審查仍然是可能的。然而,盡管有些理論和方法可能源自公共事業和領導力,但在執法、軍事行動和應急管理中,許多理論和方法卻以不同的形式出現。換句話說,只有經過某些必要的調整,才能將領導力和有效決策的普遍原則移植到應急管理領域。這些調整反映了災難和恐怖主義應對中的不確定性、多變性和持續風險。與此同時,隨著學科的不斷發展,應急領導哲學的研究也經歷著新時代本質所決定的類似變化。在新的國際挑戰時代,應急管理領域的領軍人物開始關注重新定義該領域的決策原則。本文旨在對比這方面的兩個頂級框架,即 OODA 循環和 CECA,以適應當前多變的環境。

2. 文獻綜述

要討論特定決策范式在應急響應框架內的適用性,必須查閱現有的學術資料。在壓力重重的應急響應環境中進行有效決策是專業領域的關鍵環節之一。當前的文獻綜述旨在就研究領域內應急管理和響應中的決策現狀及其基本原則提供臨時信息。首先,從任務的性質可以推斷,應急響應處理的是快速發生的事件,顯示出較高的損害風險(Glarum & Adrianopoli, 2019)。此外,雖然該領域一般都具有鮮明的特點,但一系列人為、自然和恐怖主義相關的威脅卻千變萬化。Glarum 和 Adrianopoli(2019 年)確認,在應急響應目標范圍內,沒有一種通用的解決方案能夠適應所有情況。因此,這一觀點意味著應急管理的最佳決策范式應具有足夠的多樣性。

與此同時,應急響應團隊往往由嚴格的結構化層級組織,這促進了單元聽從領導指揮的能力。雖然世界上大多數行業都傾向于采用更加松散的管理制度,但應急管理部門卻無法遵循這種普遍模式,因為在這種多變和充滿壓力的環境中,服從的價值是巨大的。盡管如此,雖然該行業的領導權威往往要高得多,但 "感知決策 "仍然至關重要(Glarum & Adrianopoli, 2019)。換句話說,雖然現場的應急響應人員要聽從控制中心的命令,但他們需要了解指定任務的背景和目的。根據 Schildt 等人(2019)的觀點,領導力與情境的感知潛力之間存在著聯系。系統化的行政管理會受到更高的尊重,從而促進單元內部的感性創造過程。相反,缺乏系統管理則會對團隊洞察全局的能力產生負面影響。

總之,在應急管理領域的行動中,經常會出現許多需要做出艱難決定的情況。例如,Hoekstra 和 Montz(2017 年)基于超級風暴桑迪的案例研究,回顧了災害響應中的決策過程。在這項深入研究中,重點放在了領導者在決策中經歷的內部過程。受訪者幾乎一致指出,人員傷亡的可能性是影響其決策的關鍵因素。換句話說,在實際環境中,與人的生命相關的風險最重要,優先于基礎設施破壞和經濟方面。Poggi 等人(2021 年)提供的數據同樣概述了在瞬息萬變的災難場景中,數據收集的延遲會給決策帶來的代價。同時,本文將決策視為社區復原力和恢復的關鍵因素之一。因此,應急管理的最佳決策范式必須考慮到當前文學空間中概述的基本概念。

3. OODA 循環

OODA 循環一直是人類活動各個領域所使用的重要決策技術之一。不過,其應用范圍主要包括軍事組織和類似機構。根據 Bryant(2006 年)的說法,OODA 是 Observe(觀察)、Orient(定位)、Decide(決策)、Act(行動)的縮寫,這種循環模式為軍事決策者提供指導。此外,"OODA 循環 "已被植入美國武裝部隊的理論體系。在如此高的國家安全層面使用該模式,往往被視為支持其無條件有效的主要論據之一。它由四個初步階段組成,這四個階段應在特定情況的廣泛概念框架和戰術環境之間架起橋梁(見附錄 A)。此外,布賴恩特(2006 年)指出,OODA 循環通常被認為是直觀準確的,這意味著其特征本質上符合軍事類機構所面臨任務的性質。

4. CECA 循環

歸根結底,當主要的決策范式通過研究和實踐暴露出其缺陷時,其他有前途的途徑的出現就成為了一個時間問題。CECA 是 Critique(批判)、Explore(探索)、Compare(比較)、Adapt(適應)的縮寫,是壓力環境下決策過程的替代循環。然而,專家們并沒有將 CECA 框架的適用范圍僅僅局限于類似軍事的結構,因為 "它旨在作為描述人類自然認知和討論支持指揮決策的規范性措施的框架"(Bryant, 2006: pp.191-192)。該模型依賴于由決策者完成的概念框架初始大綱(見附錄 B)。然后,根據當前觀察到的情況對該大綱進行批判性分析。一旦估算出偏離程度,就會決定如何影響問題,使其更接近先前的概念理解。因此,CECA 模式提倡積極的領導和決策方法。此外,它還具有高度的目標導向性,符合應急管理的要求。

感知建構(sensemaking)

前幾節中討論的決策框架已在多年的不同軍事行動中證明了其有效性。然而,正如應急管理領域的重點所表明的那樣,即使是廣泛應用于鄰近部門的原則,也可能只是部分符合其任務和目標。因此,根據文獻審查所確定的應急管理特點對這兩個框架進行比較,顯得既有意義又有價值。

首先,感知建構仍然是應急管理單元運作的重要組成部分。組成應急小組的人員都追求相似的目標,并被期望無條件地服從領導的命令。然而,確保每位成員都能理解每項命令或戰略的具體想法至關重要。以證據為基礎、謹慎執行的知情做法將使應對工作受益匪淺(Weick,1993 年)。本文討論的兩個框架都依賴于應急決策的這一方面。OODA 循環側重于觀察和定向,以保持實踐的知情性。然而,Rousseau 和 Breton(2004 年)指出,該方法缺乏 "有效模擬動態決策所需的反饋或前饋循環"(第 4 頁)。因此,OODA 循環在感知建構方面的有效性有所下降。另一方面,CECA 框架在這方面具有更大的潛力,因為該模型的自適應能力使其更接近當代要求。

應急管理領域的第二個基本概念包括單元內角色結構的組織。由于其規程具有嚴格的規范性,而且需要強有力的等級制度,因此這一行業可被視為類似于軍事行業。兩種決策范式都承認這種必要性,在理論上賦予領導者無條件下達命令的權力。因此,這兩種框架都希望追隨者接受并執行領導者的決策(Bryant,2006 年)。在這種情況下,錯誤決策的代價會變得更高,而在災難和恐怖主義應對中,這一參數是以人的生命來衡量的。

5. 影響

研究表明,CECA 循環展示了更好的決策靈活性,促使領導者通過比較概念框架及其當前的反映來考慮更多變量。OODA 循環已經過時,因為它缺乏靈活性,可能會因適應不足而帶來不良后果(Bryant,2006 年)。因此,CECA 模型在這方面似乎也很有利。

最后,決策層應在救災單元內部營造一種信任的氛圍,以應對全球性挑戰。這種感覺對于壓力增大、快速和多變的環境至關重要(Seddighi, 2020)。人們常常被迫將自己推向不可能的極限,而這只有在他們完全信任負責關鍵決策的領導者時才有可能。盡管某項決策看似有爭議,但更有可能遵循所提出的戰略(Weick,1993 年)。由于每個單元都有不同的價值觀、目標和個性,因此需要足夠的靈活性。CECA 框架一般與敏捷決策實踐相關聯,有助于建立團隊信任。

6. 結論

針對應急響應挑戰所采用的決策框架應反映該領域所要解決的尖銳問題。對兩種主要方法的對比分析表明,CECA 循環更適合當前環境。在討論決策范例時,布萊恩特(2006 年)提到了 OODA 模式這一過時的機制,該模式在軍事環境中盛行多年后最終失去了其地位。盡管陸軍與應急管理有潛在的相似之處,但后者對決策的敏捷性要求更高。全球恐怖主義威脅造成了當前相當大一部分的不確定性。由于應對措施能有效阻斷恐怖分子的活動,后者試圖設計新的技術并繞過全球安全系統。因此,國際和國內恐怖分子帶來的挑戰不斷演變,從不同角度攻擊社區的福祉和安全。因此,應對機制應采用靈活的決策模式,能夠針對特定威脅調整措施,以應對這種變化性。根據所討論的參數,CECA 循環是最佳選擇。

參考來源:American Journal of Industrial and Business Management

付費5元查看完整內容

人工智能推薦系統通過向負責做出最終決策的操作人員提供建議,從而為決策支持提供幫助。然而,這些系統通常被認為是黑盒,在展示時往往沒有任何背景或對底層算法的深入了解。因此,推薦系統可能會導致用戶依賴性誤判和態勢感知能力下降。近期的工作主要集中在通過各種方式提高推薦系統的透明度,如改進推薦器對優點數字的分析和可視化,提供推薦器決策的解釋,以及改進用戶培訓或校準用戶信任度。在本文中,引入了另一種透明度技術,即調整向人類操作員展示上下文信息和推薦決策的順序。這種技術旨在提高操作員的態勢感知,從而提高操作員與推薦系統之間的共享態勢感知。

本文介紹了一項分兩個階段進行的主體間研究的結果,在這項研究中,參與者和推薦系統共同做出了一項高風險決策。我們改變了參與者所掌握的情境信息量、優點數字的評估技術以及推薦系統的可靠性。我們發現,預先提供態勢信息可以提高人類決策者的初步判斷和最終判斷,以及辨別推薦者錯誤邊界的能力,從而提高團隊的共同態勢感知。此外,這項技術還準確地校準了人類操作員對推薦者的信任度。這項研究提出并驗證了一種為人工智能系統提供模式識別透明度的方法,它可以為人類決策者提供支持,從而提高團隊績效。

討論

本研究的基本前提是了解在設計推薦系統時,作為更全面認知過程的一部分,支持人類判斷的重要性。我們通過評估提供任務環境上下文信息的影響來測試這一點,我們認為這將提高人類決策者的態勢感知能力。此外,我們還專門調整了態勢信息,使其與人工智能推薦系統在該任務領域中使用的信息相匹配,從而消除兩個智能體之間的任何態勢感知差異。我們將這種判斷支持技術和共享態勢感知與更常用的增加互動的建議評估支持技術進行了比較,以確定其對整體任務性能的相對影響。我們還增加了最后一次機會,讓人類改變自己的評估,使之與人工智能推薦器的評估相一致,以了解提供判斷支持和共享態勢感知如何消除自動化偏差。最后,我們進一步評估了附加任務對腦力勞動負荷以及場景和學習信任的影響。

兩個階段的綜合結果表明,無論人工智能伙伴的準確性如何,向人類提供任務環境的上下文信息都能提高他們與人工智能伙伴的團隊表現。在第一實驗階段,人工智能任務計算機總是正確的,因此與人工智能達成一致等同于正確執行任務。第一階段的結果表明,提供世界狀態信息增強了共享態勢感知,提高了團隊表現。然而,我們從實驗第二階段(當人工智能任務計算機的準確率為 60%時)看到,當人工智能的建議不正確時,提供世界狀態信息有助于調整人類的態勢感知,從而調整團隊的 SSA。這表明,無論智能體的可靠性如何,提供情境信息都是校準團隊共享態勢感知的有效技術。

世界狀態感知似乎還能防止過度依賴自動化/人工智能隊友。基線條件的結果表明,那些無法獲得世界狀態條件的人傾向于過度依賴人工智能伙伴來做出正確的決定。這一發現至關重要,因為從客觀指標和主觀指標可以看出,看不到世界狀態信息可能會使人類的最終表現可以接受,并減少人類的努力、心理需求和挫敗感,但最終會導致人類對自己的表現缺乏信心,并盲目服從人類無法理解的人工智能模型,這可能會導致災難性的結果。相應地,提供任務環境的上下文信息有助于人類更好地理解其人工智能隊友何時出錯,該如何處理,并提高他們對自己任務表現的整體信心。

此外,將人類納入決策制定過程的觀察部分,為他們提供上下文信息也會增加他們的認知工作量。兩個實驗階段的 TLX 數據都表明,人類在獲得背景信息時需要付出更多的努力和心理需求。當與可靠的人工智能伙伴合作時,擁有上下文信息最終會減少任務的挫敗感,而當人類與不可靠的人工智能伙伴合作時,挫敗感則會增加。不過,在這兩個實驗階段,獲取世界狀態信息都提高了人類自身對完成任務能力的信心。從整體上看,這些工作量結果表明,雖然人類在獲得情境信息時需要付出更多,但這種技術最終會提高他們的客觀表現,以及他們在與人工智能伙伴共同完成任務時的自我評估。

人類對人工智能的信任并不會因為情境信息的存在而受到影響,但會受到人工智能伙伴可靠性的影響。在實驗階段 1,不同世界狀態認知水平的人對人工智能能力的信任度差異不大。然而,在實驗第二階段,隨著世界狀態意識的提高,對人工智能能力的信任度也在下降,盡管這種下降趨勢在統計上并不顯著。人類一旦發現人工智能的錯誤,就會降低對人工智能的信任度/寬容度,這一發現與目前的文獻相符。

根據總體結果,我們可以看出,向人類提供情境信息并讓他們參與決策過程的觀察階段,可以準確校準團隊共享的態勢感知,提高人類的整體任務績效和他們對人工智能隊友的心智模型,并在不增加太多工作量的情況下減少對自動化的過度依賴。

為了支持對建議行動方案的評估,我們在軌跡評估階段引入了交互組件。增加互動的目的是迫使人類主動處理每個信息源。在實驗階段 1,我們發現確保人類理解軌跡建議的 "好壞 "并沒有顯著提高人類的表現,也沒有提高隊友之間的共享態勢感知,這可能與現有文獻相矛盾。然而,在實驗階段 2 中,那些與建議軌跡的優點數字進行互動的人比那些僅僅觀察人工智能建議的人擁有更準確的團隊 SSA 和最終表現。此外,在這兩個實驗階段中,TLX 數據的總體趨勢表明,與僅僅觀察軌跡特征相比,交互部分往往會導致更差的用戶體驗。由于現實世界中的自動化系統都不可能完美無瑕、100% 準確地輸出結果,這一重要發現表明,在人工智能輸出/建議中加入交互是一種有效的技術,可以在人工智能團隊成員不可靠的現實世界中提高 SSA,盡管人類體驗較差。不過,需要注意的是,這種技術在提高團隊 SSA 和最終績效方面并不具有統計學意義,因此,僅靠支持對建議行動方案的評估還不足以抵消黑盒現象的隱患。

這項研究提供了一些證據,證明為人類決策者定位、調整人類對世界的理解以匹配其隊友(在本例中為人工智能隊友)的理解,以及不僅為決策而且為認知過程中的判斷要素提供支持的重要性。不過,這項研究因評估任務的簡單性而受到限制。它的局限性還在于,人工智能所犯的錯誤都是有風險的,是為了讓人類決策新手能夠發現。這里的參與者也都是新手,而且只在團隊中工作了很短的時間--這可能限制了信任度指標的發現。重要的是,盡管我們在設計實驗時認為,通過提供情境信息,態勢感知應該會增加,但我們無法明確驗證這一點,因為我們并沒有在不同處理中測量相同的指標(例如,我們沒有辦法明確測量那些沒有看到世界狀態也沒有與優點人物互動的人的態勢感知)。但根據最終做出的決定,我們知道,隨著世界狀態意識的提高,團隊的表現也會提高。由于我們從 SMM 文獻中了解到,高績效團隊會利用 SMM,因此我們可以將績效的提高歸因于 SSA 的提高,而 SSA 是我們通過添加上下文信息的技術實現的。最后,我們不能將 SSA 的影響與我們對人類心智模式的最佳猜測分開。

付費5元查看完整內容

人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。

為了充分測試 AIES,測試與評估界需要應對以下挑戰:

  • 當狀態空間的大小導致測試所有情況不可行,或開放世界問題導致無法枚舉所有情況時,確定測試要求;
  • 解決這些突發系統可以分解這一可能無效的假設;以及
  • 處理動態變化的系統,這些系統在部署過程中可能永遠不會處于 "最終 "狀態[1]。

圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。

付費5元查看完整內容

新興技術(如人工智能 (AI)、自動駕駛)和聯合全域指揮與控制 (JADC2) 測試與評估 (T&E) 等作戰概念將要求系統進行持續測試并產生更多數據。在整個測試周期中使用人工智能將使測試人員能夠處理數據,并以更快的速度和規模做出更客觀的決策。由于被測系統非常復雜,因此并不存在放之四海而皆準的軟件應用程序。相反,如果以實用的方式使用各種軟件包,可以提高訓練有素的測試與評估專業人員的能力,以應對新興技術的挑戰。本文列出了一份人工智能軟件工具清單,并總結了它們在測試與評估中的潛在應用功能。向測試界提供這份清單,并在可能的情況下利用 DoDTechipedia 等合作網站,將提高人們對可用工具及其功能的認識,鼓勵交流與合作,并有助于當前和未來工具的使用。

引言

由于測試與評估(T&E)中的數據量迅速增加,需要使用人工智能(AI)工具來快速、大規模地有效利用數據。人工智能工具的開發得益于對人類編碼知識的程序化編碼和機器學習技術的引入。測試與評估專業人員可能會發現,他們已經在實踐中使用了人工智能,因為許多人工智能應用程序可以通過規劃、可視化和分析等多種方式為測試人員提供支持。然而,為了跟上產生更多數據的技術發展步伐,用戶需要在整個測試與評估過程中進一步融入人工智能。在本文中,我們將從人工智能可以幫助 T&E 專業人員開展工作的七個功能領域,對人工智能工具在 T&E 中的應用進行回顧。這七個領域包括規劃、存儲、運輸、準備、可視化、分析和監控。這項工作的主要貢獻在于提供了一個框架和一份人工智能資源清單,用于分析人工智能在 T&E 中的作用。

本報告的組織結構如下。背景介紹了人工智能定義背后的復雜歷史,并確定了我們討論的依據。接下來,我們介紹了查找和評估人工智能資源的方法。最后,介紹并總結了主要發現。

背景

由于我們對智能的定義和衡量標準各不相同,因此對人工智能的定義沒有達成普遍一致也就不足為奇了。對人工智能定義的嘗試可以追溯到 20 世紀 50 年代的阿蘭-圖靈和 "圖靈測試"。1956 年,約翰-麥卡錫在達特茅斯人工智能夏季研究項目中創造了 "人工智能 "一詞。人工智能在流行文化中的想象力和期望角色進一步導致了人工智能定義的模糊。

聯合人工智能中心(JAIC)前戰略與交流主管格雷戈里-艾倫(Gregory Allen)解釋說,大多數人工智能分為兩個分支:人類編纂知識和機器學習(ML)。根據 Allen 先生的說法,目前運行的大多數人工智能都使用人工編纂的知識。在這種人工智能方法中,主題專家將他們的知識編成一長串可被計算機理解和執行的編程規則。報稅軟件、飛機自動駕駛儀、導彈制導系統和電磁信號處理系統都是基于人類編纂知識的人工智能的例子。

在過去十年中,人工智能的大部分焦點都集中在 ML 領域。人工智能的這一子領域涉及設計算法和統計模型,以分析數據中的潛在模式并從中得出推論。ML 使人工智能能夠適應原始開發者未曾預料到的新情況,檢測不同數據集和大數據中的模式,根據識別到的模式創建新行為,并根據這些行為的成敗做出決策。附錄 A 包含各種類型 ML 的進一步定義。

方法論

這項研究建立了一個人工智能功能評估工具框架,可以幫助讀者了解特定工具的目標。我們對現有工具的審查包括產品文檔、互聯網搜索和人工收集。

T&E中的人工智能評估框架

人工智能工具的形式多種多樣,并采用不同的方法來滿足用戶需求。當運輸和評價專業人員將人工智能應用到實踐中時,他們可以參考這份資源清單,為他們的軟件實施決策提供信息,以實現特定目標。本研究建立了一個包含七種工具功能的框架:計劃、存儲、傳輸、準備、可視化、分析和監控。這七種功能的定義如下。

  • 計劃(PL):計劃包括了解需求、篩選特征、設計因素、記錄條件、確定限制因素、創建測試矩陣以及確定假設檢驗的置信度和功率。

  • 存儲(S):可訪問、可靠且可擴展的大數據安全存儲。解決方案支持跨云環境和邊緣計算快速訪問數據。工作負載自動化配置文件管理、訪問控制以及路由和平衡工作負載。優化昂貴的硬件,如高性能計算(HPC)集群和圖形處理器(GPU)加速器,為數據處理做好準備。

  • 傳輸 (T):將數據從一個位置傳輸到另一個位置。特殊用例包括數據屏蔽和加密安全數據。出于可重現性的目的,對原始數據的任何操作都必須記錄在案。處理元數據的決策對保持數據質量非常重要,包括對無法加載到隨機存取存儲器(RAM)的過大數據進行處理、壓縮、稀疏性、分塊和散列等。

  • 準備 (PR):將數據轉換為干凈的格式,以便算法能成功使用其中包含的信息。這包括處理缺失值、特征工程、管理異常值,以及估算、轉換、歸一化和標準化過程。

  • 可視化 (V):以圖形表示任何格式的數據。通過可視化輸出探索數據有助于技術人員和非技術人員對數據有一個總體了解。圖形和圖表有助于評估數據的一致性。此外,通過可視化工具評估模型性能有助于向股東傳達結果。

  • 分析 (A):選擇建模技術來實現特定目標。這包括建立模型、調整參數、模型再訓練、從模型中獲得洞察力以及解釋結果。

  • 監控 (M):跟蹤模型版本歷史性能,以便進行驗證、評估和審計。對持續測試/持續實驗框架進行管理,并自動提醒用戶注意任何模型衰變。可重現的模型和通過管道創建標準使用戶能夠設計、部署和管理一致的工作流程。提供可擴展的運行時資源增加了管理和部署網絡應用程序的能力。

識別工具和標注功能的方法

我們利用產品文檔、網絡資源和人工評估中的信息,針對七個功能領域對每種工具進行了評估。下文將概述我們查閱了哪些產品文檔,以及如何進行網絡搜索和人工評估。

產品文檔

軟件文檔為部署和使用產品的用戶群提供描述產品的信息。文檔通常可在線獲取,而且在許多情況下是一種活文檔,會在產品的整個生命周期中不斷更新。軟件文檔主要有兩種類型:內部或系統文檔和外部文檔,后者包括最終用戶文檔和系統管理員文檔。最終用戶文檔是本研究的主要參考資料。

最終用戶文檔的重點是促進對產品、界面和功能的理解。不同產品的最終用戶文檔的質量、詳盡程度和易懂程度各不相同。通常情況下,最終用戶文檔包括用戶手冊、操作手冊和通用教程。

互聯網搜索

我們進行了網絡搜索,以獲取有關商業授權工具和文檔未公開的工具的知識。通過使用谷歌搜索引擎,我們在搜索查詢中輸入了工具名稱,并查看了排名前 25 位的結果。

資料收集

我們收集了一份在 "自主系統測試與評估進展"(ATEAS)22 財年研討會上介紹的工具清單。美國國防部負責研究與工程的副部長辦公室(OUSD(R&E))和發展測試、評估與評價主任(DTE&A)贊助科學測試與評估技術卓越中心(STAT COE)主辦了 ATEAS 22 財年研討會。ATEAS 研討會將自主性、機器人、計算機科學等領域的權威和專家聚集在一起,以加快自主性測試與評估方法的進展。自主領域雖然獨立于人工智能領域,但兩者之間存在有意義的重疊。在本次研討會上,多家機構展示了處于不同開發階段的工具。我們從簡報和錄音中手動收集了有關這些工具的信息。

下一節將提供一份人工智能工具、說明和功能的綜合清單。

結果

以下列出的人工智能工具、說明和功能可幫助讀者比較現有的人工智能工具,這些工具可用于計劃(PL)、存儲(S)、傳輸(T)、準備(PR)、可視化(V)、分析(A)和監測(M)。

T&E的AI工具列表

表1 包含描述和功能的AI工具列表

*局限性:這里提供的清單并不全面。不過,它確實提供了對目前存在的工具的調查。隨著人工智能領域的不斷發展和創新,預計還會有新的工具發布。本研究中缺少人工智能軟件測試工具。雖然人們已經意識到它們的存在,但這一領域超出了本文作者的專業范圍。我們需要進一步研究人工智能軟件測試工具。

結論與建議

未來,測試中產生的數據量將大幅增加。為了高效處理數據并做出客觀決策,測試人員將需要使用人工智能工具。本研究確定了人工智能可協助測試人員的七個功能領域,并為讀者提供了一份人工智能工具、說明和功能列表。然而,這份清單并不全面,而且人工智能領域也在不斷開發新的工具。

沒有一種工具能完全覆蓋所有用例。每個軟件包都有自己的優勢和劣勢,但并非所有劣勢都是眾所周知或顯而易見的。為了加強本產品并利用社區的集體知識,應在 DoDTechipedia 等合作網站上提供這項工作。在網站上發布后,用戶可以添加他們使用過的工具,并就評估標準提供意見。隨著新興技術開始出現在采購管道中,獲取集體知識是跟上不斷變化的測試環境的一種方法。

付費5元查看完整內容

在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。

在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。

本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。

付費5元查看完整內容

技術的進步為自主系統提供了希望,使其形成比其單個成員更有能力的人機編隊。了解自主系統的內部運作,特別是當機器學習(ML)方法被廣泛地應用于這些系統的設計時,對與它們一起工作的人來說已經變得越來越具有挑戰性。定量ML方法的 "黑箱"性質,對人們理解機器學習系統的態勢感知(SA)構成了阻礙,往往導致采用機器學習算法的自主系統被廢棄或過度依賴。人機互動的研究表明,透明通信可以提高隊友的安全意識,促進信任關系,并提高人機團隊的績效。本文中將研究智能體透明度模型對人類與使用自動解釋基于ML的智能體互動的影響。我們將討論一種特殊的ML方法--強化學習(RL)在基于部分可觀察馬爾可夫決策過程(POMDP)智能體中的應用,以及POMDP中RL的解釋算法設計。

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容
北京阿比特科技有限公司