亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最新《知識增強機器學習在自動駕駛中的應用》非常值得關注!

合適的數據集是許多成功的人工智能和機器學習模型的先決條件。然而,這些模型的后續應用通常涉及到訓練數據中沒有充分表達應用場景。原因是多方面的,從時間和成本的限制到倫理考慮。因此,這些模型的可靠使用,特別是在安全關鍵應用中,是一個巨大的挑戰。利用額外的、已經存在的知識來源是克服純數據驅動方法的局限性的關鍵,并最終提高這些模型的泛化能力。此外,即使在數據集不足的情況下,與知識相符的預測對于做出可靠和安全的決定也是至關重要的。這項工作提供了現有技術和方法在文獻中結合基于數據的模型與現有知識的概述。根據類別的嵌入、提取和整合對識別出的方法進行結構化。特別關注自動駕駛領域的應用。

//www.zhuanzhi.ai/paper/4f34bc805d3ecc878ef9dece3cff81c3

引言

數據驅動學習,首先是深度學習,已經成為當前絕大多數人工智能(AI)和機器學習(ML)應用的關鍵范式。許多以監督方式學習的模型的出色性能主要歸因于大量標記數據的可用性。突出的例子是圖像分類和目標檢測,順序數據處理以及決策。缺點是,這種前所未有的性能是以缺乏可解釋性和透明度為代價的,這導致了所謂的黑匣子模型無法進行簡單而直接的人工檢查。因此,將數據驅動的方法傳輸到安全關鍵的應用成為一個主要的挑戰。通常,在這些情況下,由于高昂的獲取成本或道德原因,標簽數據是稀缺的。此外,開發人員和用戶都假定需要能夠理解部署模型所做的決策。為了解決這兩個問題,以物理基本定律、事實的邏輯數據庫、特定場景下的共同行為或簡單的反事實樣例等形式來利用知識資源,是改進純數據化模型的關鍵,這些模型可以增強對擾動的魯棒性,更好地對不可見樣本進行泛化。并符合安全可靠行為的現有原則。

本綜述提供了一組不同的方法,這些方法適用于用知識增強數據驅動模型,從給定模型中提取信息概念和模式,并將觀察到的輸出和表示與現有的基本假設和對安全、可靠和直觀行為的共同理解進行比較。最后,本文對知識和數據集成的概述將為可靠的ML方法鋪平道路,這些方法可以在關鍵應用中安全地使用。本綜述的結構如下。在接下來的第二章中,我們將介紹自主智能體在與環境交互時遇到的三個主要任務。第3章討論了如何從不同的角度表示知識并使其具有機器可讀性,隨后,第4章討論了適合將知識與數據驅動方法結合的不同通用方法,以及針對自動駕駛用例的更具體的方法。第五章進一步介紹了知識遷移背景下的學習范式。

除了知識的整合,目前的方法集中于概念和結構的提取在后面的章節中進行了概述。第6章總結了提供符號化、部分自然語言解釋的方法,第7章強調了允許對決策過程進行視覺化的程序。我們將在第8章總結我們的綜述,并概述考慮與已經存在的以及新發現的知識組件的一致性的技術,這些技術最終完成了知識增強人工智能的流程。

用例概述

自動駕駛的任務可以細分為以下幾類:感知、情境解讀、計劃和控制[306]。自動駕駛的首要任務是理解和感知車輛周圍的環境。第2.1節介紹感知模塊,特別關注基于圖像的行人檢測。一旦目標被檢測和分割,自動駕駛的第二個任務就是隨著道路使用者了解環境。為了進行安全的機動,情況解釋是一個決定性的步驟。在本模塊中,目標是回答與對象的狀態和操作相關的重要問題,如對象下一步可以做什么。概述見第2.2節。在確定了這些情景場景后,自動駕駛的下一個任務就是規劃自動駕駛的運動。2.3節中描述的規劃模塊利用前兩個模塊的輸出,并進行高層次的路由和軌跡規劃決策。

知識表示

符號和連接方法代表了人工智能譜系的兩端。前者更多是由知識驅動,后者則是由數據驅動。在文獻中可以發現大量正在進行的研究,以開發利用彼此優勢的混合人工智能系統。然而,在符號空間中整合或增強數據驅動的次符號/統計世界的知識表示仍然存在一個核心挑戰。第3.1節概述了以事實、規則和結構化信息形式存在的象征知識的形式化和語言。此外,在第3.2節中對知識嵌入進行了概述,重點是將先驗知識從符號空間轉化為實向量空間,即嵌入。這些嵌入可以用于改進子符號方法(神經網絡(NN),深度學習(DL)),以進行有效的訓練和推理。此外,在第3.2.3節討論了硬規則和軟規則的注入以及嵌入的方法。本章中處理不同機制表示知識的每一節都以更適合自動駕駛領域的展望來結束。將感知到的信息映射到語義概念,并使用符號模型進行推理,可以提高對駕駛情況的理解。此外,使用形式化的交通規則和法律概念來推導以其法律后果為條件的可能駕駛行為。

知識嵌入

文獻中已經提出了大量的方法,這些方法專注于用額外的先驗知識增強數據驅動模型和算法。其中最突出的方法是通過定制的代價函數修改訓練目標,特別是知識影響的約束和懲罰。第4.1節概述了考慮各種特性的物理和領域知識的輔助損耗和約束。通常,這些方法伴隨著特定問題的架構設計,導致以邏輯表達式或知識圖譜的形式利用符號知識的混合模型。符號和數據方法的合并,也稱為神經-符號整合是第4.2節的重點。除了外部輸入,最近的方法更好地依賴于內部表示,以便將注意力集中在網絡本身的不同特征和概念上。第4.3節討論了關鍵權重和指導方法。最后但并非最不重要的是,數據增強技術形成了骨干,將額外的領域知識集成到數據中,從而間接地集成到模型中。第4.4節討論了從數據轉換到特征空間增強到模擬的方法。除了這些流行的通用方法,本章還總結了更適合自動駕駛領域的方法和范式,考慮到多個智能體與所研究的應用程序的特定環境進行交互。特別是在4.5節的狀態空間模型和4.6節的強化學習中,推理和預測agent的狀態起著至關重要的作用。位置信息和語義信息的參與是4.7節中概述的信息融合方法的重要組成部分。

知識遷移

在前一章中,知識集成主要是通過適當的建模方法來解決的,例如,修改體系結構和代價函數設計。本章從更多的算法角度來研究這項任務,從而得出能夠將隱性知識(通常由神經網絡的權值或表示法捕獲和表示)轉移到感興趣的目標領域的學習策略。這里的主要目標之一是在只從目標領域提供少量數據的情況下學習可靠的模型。預訓練的網絡的選定層的微調可歸因于遷移學習,如第5.1節所示。這個概念關注的是對單一目標任務的適應,而在持續學習中,目標是穩定地適應各種連續的目標,而不忘記之前的任務。概述見第5.2節。在元學習中也有類似的想法,即在一個情景訓練過程中收集來自多個任務的經驗,以改進關于即將到來的任務的學習策略。第5.3節對該主題進行了介紹。最后,從數據的目的性選擇和重新標注的角度考慮知識轉移。這種主動學習策略的當前范例見第5.4節。

知識提取-符號解釋

對數據驅動模型的功能進行解釋是通向可信系統的必要前提。對學習到的決策模式和概念的提取和考慮不僅促進了功能的最終驗證,而且在開發用于安全關鍵應用的方法方面也同樣有用。符號解釋在其中起著重要的作用,近年來得到了廣泛的研究。為了以更正式的方式檢查神經網絡的功能,規則學習已經成為這一背景下最突出的方法之一。第6.1節介紹的方法包括從關注神經元內部結構和相互作用的方法到嘗試以人類可理解的方式建模輸入輸出關系的方法。后者還與輸入數據的規則提取和模式挖掘有關。自然語言作為超越規則的另一種符號表現形式,將在接下來的兩節中討論。從法律領域的規則和規范中提取知識是章節6.3的重點,而自然語言作為對視覺刺激的伴隨解釋是視覺問題回答的目標,章節6.4將介紹。

知識提取-視覺解釋

視覺化是一種以令人印象深刻的形式表示抽象和復雜知識的好方法。因此,它也可以作為一個有效的工具來演示從機器學習模型中提取的知識。與文本、公式或其他符號解釋不同,視覺化可以為人類提供一些復雜信息的直觀印象。視覺化可以激發更好的理解,甚至是算法的改進。許多研究都集中在機器學習模型的視覺解釋上。其中一種被稱為視覺分析,旨在利用人類的視覺系統和人類知識來識別或假設通常隱藏在大型數據集中的模式。視覺分析的不同方法將在第7.1節中討論。第7.2節中的顯著圖方法強調了如何在計算機視覺任務的輸入圖像上生成熱圖。在7.3節中,可解釋特征學習演示了視覺化結果如何被用來生成特別的解釋或數字證據。這些視覺化解釋提供了語義級的知識提取方法,具有更好的可解釋性。

知識整合

**自動駕駛汽車是安全關鍵系統,這意味著它們的故障可能會帶來嚴重的后果,例如,當行人被檢測系統忽略時。因此,我們必須確保它們安全可靠地運行。特別是,它們應該符合現有的安全原則和知識。其中一個原則是識別和處理不確定性,即可能導致系統以不可預測的方式運行的因素。我們在第8.1節中概述了估計和評估不確定性的現有概念和方法。另一個原則是可解釋性,也就是說,理想情況下人類應該能夠理解為什么一個系統會做出特定的決定。為了改善這一點,DL系統的決策過程應該與以因果推理為核心組成部分的人類決策更加一致。因此,我們將在第8.2節討論將因果推理注入DL系統的方法。另一個方面是與現有的關于自動駕駛汽車環境的知識的一致性。特別是,環境受某些規則約束,例如交通規則、物理法律或人類常識,第8.3節討論了關于規則整合的概念和方法。

付費5元查看完整內容

相關內容

“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ ”的算法。機器學習算法是一類從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多 問題屬于 ,所以部分的機器學習研究是開發容易處理的近似算法。” ——中文維基百科

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

【導讀】中科大等發布最新《自動駕駛系統ADS測試綜述》論文,51頁pdf256篇文獻全面闡述ADS現狀與趨勢,對現有的ADS測試文獻進行了全面的調研,同時考慮了模塊級和系統級的測試。

近年來,在學術界和產業界的共同努力下,自動駕駛系統取得了巨大的成就。典型的ADS由感知、感知、規劃、控制等多個模塊組成,匯集了多個領域的最新進展。盡管取得了這些成就,系統的安全保障仍然具有重要意義,因為ADS的不安全行為會帶來災難性的后果和不可接受的經濟和社會損失。在實際部署中,測試是系統驗證的重要手段;在ADS環境下,由于系統的復雜性和多學科性,這是極具挑戰性的。已經有大量的文獻關注ADS的測試,也出現了一些綜述來總結技術進步。然而,這些綜述大多集中于在軟件模擬器中執行的系統級測試,因此忽略了單個模塊的不同特性。在本文中,我們對現有的ADS測試文獻進行了全面的調研,同時考慮了模塊級和系統級的測試。具體而言,我們的貢獻如下: (1) 我們建立了一個威脅模型,揭示了ADS每個模塊的潛在安全威脅; (2) 我們調研了ADS的模塊級測試技術,并強調了受模塊屬性影響的技術差異;(3)我們也對系統級測試技術進行了綜述,但主要集中在對系統、模塊間協作所帶來的問題以及模擬器與現實世界之間的差距進行了實證研究;(4)我們發現了ADS測試的挑戰和機遇,為該領域的未來研究提供了便利。

//www.zhuanzhi.ai/paper/408fd54966546d7541362eaf8b2a0cb0

自動駕駛系統(ADS)以帶來便捷的駕駛體驗、提高駕駛安全性和緩解交通擁堵為目標,引起了學術界和業界的高度關注。據《[1]》的統計,2021年自動駕駛汽車市場的規模為220億美元。然而,由于復雜的外部環境或來自各種來源的蓄意攻擊,實踐水平最高的ADS仍然容易受到許多安全和安全威脅。這些威脅可能導致系統故障,從而帶來災難性的后果和不可接受的損失。盡管目前已經取得了快速的進展,但ADS的安全保障仍然是其全面工業化的主要挑戰。最近的一些新聞,比如特斯拉致命事故[2]的報道,進一步凸顯了自動駕駛安全保障研究的重要性。

一般情況下,ADS由感知、感知、規劃和控制等功能模塊組成。傳感模塊利用相機、雷達、激光雷達等多個智能傳感器對環境數據進行采集和預處理。感知模塊從傳感器中提取信息,以了解環境狀況,如道路、障礙物、交通標志等。規劃模塊根據感知模塊的輸出,生成ADS期望遵循的最優行駛軌跡。最后,控制模塊發送橫向和縱向控制信號,驅動ADS沿規劃軌跡運動。特別是一些ADS采用了一種特殊的端到端設計,將感知、規劃和控制功能集成在一個模塊中。這些模塊相互協作,共同決定ADS的行為;任何一個模塊的功能異常都可能導致系統故障,嚴重威脅ADS的安全。

測試已被證明是揭示潛在問題和確保系統安全的有效方法。由于ADS的復雜性和多學科性,ADS的測試具有極大的挑戰性。近年來,針對ADS測試的研究激增。這些發表的論文跨越了不同領域的主流場所,如交通會議(如ITSC, IV),軟件工程會議(如ICSE, ASE, ISSTA),人工智能會議(如CVPR, AAAI),安全會議(如CCS, USENIX security)等,從不同的角度解決ADS測試的挑戰(見§8.1的詳細統計和分析)。針對不同的問題提出了許多測試方法,報告了大量的bug和漏洞,以促進系統再造,修復現有的問題,確保系統安全。

為了更好地理解ADS測試中的景觀,已經有一些綜述[3-5]總結了該領域的最新進展。在[3]中,Zhang等人對可能導致安全風險的情況識別技術進行了文獻綜述,將其定義為關鍵場景識別(Critical scenes Identification, CSI)方法,并指出了結合不同CSI方法對ADS安全保證的必要性。在[4]中,Zhong等人對高保真仿真中基于場景的測試工作進行了綜述,并討論了虛擬環境與現實世界的差距。在[5]中,Jahangirova等人提出了一套驅動ADS測試的質量指標和預言,并證明了將26個最佳指標組合為功能預測的有效性。

現有的綜述大多將系統作為一個整體,從系統的角度研究ADS測試的方法。在這種情況下,作為典型的問題設置,ADS測試包括生成導致系統故障的關鍵場景,如與障礙的碰撞;此外,由于在現實世界中測試ADS的成本較高,這些綜述中的研究大多采用軟件模擬器作為測試環境。雖然這些調研是有用的,但它們不足以顯示ADS測試的全面情況。事實上,由于ADS是復雜的,并且由多個在技術設計上彼此不同的模塊組成,它們的測試應該捕捉不同模塊的特性,并解決不同領域的挑戰。此外,在系統級別上,測試應該關注由于不同模塊之間的協作而產生的問題,并突出基于模擬的測試和真實測試之間的差距。

自動駕駛系統架構

為了彌補這一差距,我們對ADS測試進行了調研,重點是模塊級測試和系統級測試。具體而言,在模塊層面,我們揭示了不同模塊的測試技術因其不同的特性而存在的差異;在系統層面,我們重點討論了不同模塊之間的企業所帶來的挑戰,并討論了測試環境的不同現實級別。綜上所述,本文的主要貢獻如下:

  • 我們在文獻的基礎上建立了通用ADS的威脅模型,揭示了ADS每個模塊的潛在安全和安全威脅;

  • 我們調研了ADS不同模塊的測試技術,特別強調了這些測試技術的技術差異,這些測試技術受不同模塊特性的影響;

  • 我們也調研了系統級的測試技術,但我們的重點是:i)在不運行系統的情況下展示系統的全面視圖的實證研究;2)多個模塊共同工作導致的系統級問題;Iii)基于模擬器的測試與真實測試之間的差距;

  • 基于我們的調研,我們確定了ADS測試的挑戰和潛在的研究機會,這有助于該領域未來的調研,以加強系統的安全性和可靠性。

據我們所知,我們的工作是第一個揭示了ADS測試與不同模塊之間的內在差異和挑戰;同時,我們特別強調了當前流行的基于模擬的測試和真實世界的測試之間的比較。此外,我們對挑戰和機遇的分析和討論展示了景觀,并激發了這一重要領域的未來研究。

付費5元查看完整內容

半監督學習(Semi-supervised learning, SSL)是機器學習的一個分支,其目的是在標簽不足的情況下利用未標記的數據來提高學習性能。最近,具有深度模型的SSL已被證明在標準基準測試任務上是成功的。然而,在現實應用中,它們仍然容易受到各種健壯性威脅,因為這些基準提供了完美的無標簽數據,而在現實場景中,無標簽數據可能被破壞。許多研究人員指出,在利用被破壞的未標記數據后,SSL會遭受嚴重的性能退化問題。因此,迫切需要研發SSL算法,能夠穩健地處理損壞的未標記數據。為了充分理解健壯的SSL,我們進行了一項調查研究。我們首先從機器學習的角度闡明了健壯SSL的正式定義。然后,我們將魯棒性威脅分為三類: i) 分布損壞,即未標記數據分布與標記數據不匹配; ii) 特征損壞,即未標記例子的特征被敵方攻擊; iii) 標簽損壞,即未標簽數據的標簽分布不均衡。在這個統一的分類下,我們提供了一個全面的綜述和討論最近的工作,重點關注這些問題。最后,我們提出了在健壯SSL中可能的有前途的方向,為未來的研究提供了見解。

//arxiv.org/abs/2202.05975

引言

機器學習,特別是深度學習[1],在圖像分類[2]、物體檢測[3]、語音識別[4]、產品推薦[5]、自然語言處理[6]等任務上取得了令人印象深刻的性能和成功的應用。通常,機器學習模型是從包含大量訓練示例的訓練數據集中學習的。一個訓練示例由兩部分組成:描述示例所對應的事件/對象的特征向量,以及指示ground-truth輸出的標簽。例如,在圖像分類任務中,feature是圖像中的像素,label是圖像所屬的類別。大多數成功的機器學習技術都需要為大規模的訓練數據集提供ground-truth標簽,例如ImageNet數據集,該數據集包含數百萬張標簽圖像,用于圖像分類任務。然而,在許多現實世界的應用中,獲取如此多的帶標簽的數據可能是一個挑戰,因為帶標簽的示例獲取[7],[8],[9],[10]通常是困難的、昂貴的或耗時的。例如,在醫學圖像分析任務中,不可能期望醫學專家為所有醫學圖像標記病變。另一方面,無標簽數據通常是廉價和豐富的,我們可以從醫院收集大量的無標簽醫學圖像。因此,機器學習模型能夠處理無標記數據是非常理想的。

在標注數據不足的情況下,采用學習范式提高學習性能。SSL的研究可以追溯到20世紀90年代,當時在現實世界的應用中,對未標記數據的需求不斷上升,推動了這一領域的發展。據我們所知,SSL跨越了機器學習的兩個重要階段:統計學習(即淺學習)和深度學習。在統計學習階段,SSL方法可以分為四種代表性的學習范式: i)生成式SSL方法[11]、[12]、[13]、半監督支持向量機(S3VM)[14]、[15]、[16]、[17]、基于圖的SSL[18]、[19]、[20]、[21]和基于分歧的SSL[22]。我們推薦感興趣的讀者閱讀[23]和[7],它們提供了統計SSL方法的全面概述。2012年,Geoffrey Hinton的團隊利用深度神經網絡AlexNet[2]在ImageNet的比賽中以顯著優勢獲勝,從此深度學習在機器學習領域占據主導地位。因此,引入了深度模型對經典SSL框架的優勢的深度SSL引起了廣泛的關注,并提出了大量的深度SSL方法。深SSL方法可以分為五類,即一致性正則化方法[24],[25],[26],[27],[28],[29],[30],[31],[32],[33],pseudo-labeling方法[34],[35],[36],[37],[38],[39],[40],[41],[42],[43],[44],整體一致性正則化方法和pseudo-labeling [45], [46], [47], [48], [49],deep生成SSL方法[50]、[51]、[52]、[53]、[54]、[55]和deep graph-based SSL方法[56]、[57]、[58]、[59]、[60]。深度SSL方法已成功應用于圖像分類[49]、目標檢測[61]、語義分割[62]、文本分類[63]、問題回答[64]等任務。據報道,在某些情況下,比如圖像分類[49],深度SSL方法可以實現純監督學習的性能,即使在給定數據集中的大部分標簽已經被丟棄的情況下。

魯棒半監督學習

上述所有積極的結果都是基于一個條件,即無標簽數據是完美的,允許SSL利用它來提高性能。無標記數據的完善在于兩個方面: 首先,對于有標記數據和無標記數據之間的關系,SSL意味著有標記數據集和無標記數據集從同一個分布中獨立抽取,從而利用無標記數據提高學習性能。因此,完美的無標簽數據要求無標簽數據的分布與有標簽數據的分布一致。此外,對于無標簽數據本身,完美的無標簽數據要求數據的兩個基本組成部分——特征分布和標簽分布(未知)不被破壞。然而,在現實世界的應用中,期望一個完美的無標簽數據集是困難的,甚至是不可能的,因為沒有標簽的數據不能被手工驗證,否則它違背了SSL減少人工勞動的目的。因此,不可避免地會遇到不完美(或損壞)的未標記數據,例如對抗的未標記例子、分發外的未標記例子、類別不平衡的未標記數據等。許多研究人員已經指出,SSL的性能容易受到這些損壞的未標記數據[9],[65],[66],[67],[68],[69],[70],[71]的影響。例如,當未標記數據集包含分發外示例時,SSL算法會出現性能下降問題[66],[67];當未標記的例子被敵方攻擊時,SSL模型可能會做出錯誤的預測[63]、[71]、[72];當未標記的數據集是類不平衡時,SSL在少數類上表現很差[69],等等。

為了將SSL技術應用到更廣泛的應用,迫切需要研究健壯的SSL方法,也就是說,當未標記的數據被破壞時,確保SSL算法不會遭受嚴重的性能下降,如圖1所示。如上所述,通常有三種類型的未標記數據損壞。第一種是分布損壞,即,未標記數據的分布與標記數據的分布不同。這種情況發生在各種任務中。例如,在圖像分類中,從互聯網上收集的無標簽圖像通常包含非分布的圖像[66]。第二種是特征損壞,即未標記示例的特征被噪聲惡意干擾。再考慮圖像分類任務,很容易將對抗特征噪聲注入到無標簽圖像中[72],[73]。第三種類型是標簽損壞,即,未標簽數據的標簽分布(未知)是高度傾斜的。這種情況是自然發生的。例如,在圖像分類中,我們日常生活中視覺類目的頻率分布是長尾的[74],常見的標簽很少,罕見的標簽更多。SSL中健壯性威脅的總體分類如圖2所示。

健壯SSL是一個綜合性術語,涵蓋了各種試圖通過學習標記數據和損壞的未標記數據來構建健壯預測模型的研究。在本文中,我們將討論這一研究領域的一些進展,重點是學習分布損壞、特征損壞和標簽損壞的未標簽數據。為了清楚而具體地解釋健壯的SSL,我們將重點討論深層SSL方法。據我們所知,我們是第一個對健壯的深度SSL進行調研的人。目前已有一些關于淺SSL[7]、[23]和深SSL算法的研究[75],但不包括健壯SSL的研究。Li和Liang[76]對安全SSL進行了調研,但他們主要關注的是統計(即淺層)SSL方法。我們的主要貢獻可以總結如下。

我們瞄準了關鍵但卻被忽視的健壯SSL問題。從機器學習的角度,給出了健壯SSL的形式化定義。該定義不僅具有足夠的普遍性,可以包括現有的健壯SSL方法,而且具有足夠的特殊性,可以闡明健壯SSL的目標是什么。

我們指出,無標簽數據損壞是對SSL的健壯性威脅,并提供了一個完整的分類無標簽數據損壞類型,即分布損壞、特征損壞和標簽損壞。我們給出了每個問題的形式化定義和標準化描述。這有助于其他研究人員清楚地理解健壯的SSL。 對于每一種健壯性威脅,我們都對最近構建健壯SSL模型的工作進行了全面的回顧。他們的關系,pros, and cons也被討論。您可以很快掌握健壯SSL的前沿思想。 在現有的健壯SSL研究之外,我們提出了幾個有前景的未來方向,如健壯的通用數據類型,健壯的復合弱監督數據,健壯的SSL與領域知識,在動態環境中學習,以及構建真實的數據集。我們希望它們能夠為健壯的SSL研究提供一些見解

魯棒半監督學習

分布損壞

SSL通常假設所有標記和未標記的示例都是從相同的底層數據分布中采樣的IID。然而,在實際應用中,經常會發現未標記的數據分布與標記的數據分布不同。下圖提供了針對分布不匹配的健壯SSL方法的分類。解決SSL標簽分布不匹配問題的兩種主要策略是: 對未標記樣本分配不同權重的樣例調整權重和開放集檢測評分,旨在設計一種開放集檢測評分機制。樣例重權與開集檢測分值的區別在于,開集檢測分值可以看作是一個僅包含0和1的離散權值,它們簡單地舍棄開集樣本,對所有保留的樣本一視同仁。理想情況下,示例重新加權方法可以導致更好的性能,因為并非所有未標記的示例都是一樣的,即使是所有的內集示例[97]。但在實際中,最優權重的計算較為困難,需要開發高效、準確的優化方法。開放集檢測評分方法的性能取決于評分機制。學習如何設計一個更好的評分函數是提高模型性能的關鍵。

特征損壞 特性損壞是指給定示例的特性被惡意干擾,從而導致學習到的模型對目標示例進行錯誤分類。下圖提供了用于特性損壞的健壯SSL方法的分類。攻擊技術主要有兩種策略:誤導性的序列注入和對抗性的擾動生成。所有這些方法都可以欺騙SSL模型,使其做出任何預期的錯誤預測。不同的是,誤導序列注入在給定的訓練數據中增加了新的訓練樣本,而擾動生成方法直接對給定的訓練樣本進行擾動。在防御技術方面,主要有兩種策略:魯棒正則化和分布魯棒學習。由于魯棒正則化方法直接在原損失函數中加入可微正則化項,因此相對于DRL方法,魯棒正則化方法更易于優化。DRL的優點在于它具有良好的理論性質。

標簽損壞 SSL方法假設無標簽數據(未知)的標簽分布是平衡的,即每個類中的示例數量幾乎相等。然而,在許多現實場景中,訓練數據的底層類分布是高度不平衡的。下圖提供了用于標記損壞的健壯SSL方法的分類。如前所述,SSL中處理標簽損壞問題的策略可以分為偽標簽對齊方法、實例重權方法和實例重權方法。偽標簽對齊方法的優點是,改進后的偽標簽可以匹配到無標簽數據的類分布的ground-真值,缺點是需要知道無標簽數據類分布的ground-真值,這在實際任務中很難獲得。另外,分布估計的精度對方法的性能影響很大。重權法和重抽樣法是處理班級不平衡學習問題的經典方法。然而,在SSL任務中,由于它們不能直接根據標簽重新采樣或重新加權示例,因此它們需要比監督設置中更多的計算成本,原因是它們具有復雜的訓練過程或難以實現的優化目標。

付費5元查看完整內容

在過去十年中,自動駕駛在研發方面取得了重大的里程碑。人們有興趣在道路上部署自行操作車輛,這預示著交通系統將更加安全和生態友好。隨著計算能力強大的人工智能(AI)技術的興起,自動駕駛車輛可以高精度地感知環境,做出安全的實時決策,在沒有人為干預的情況下運行更加可靠。

然而,在目前的技術水平下,自動駕駛汽車中的智能決策通常不為人類所理解,這種缺陷阻礙了這項技術被社會接受。因此,除了做出安全的實時決策外,自動駕駛汽車的AI系統還需要解釋這些決策是如何構建的,以便在多個政府管轄區內符合監管要求。

該研究為開發自動駕駛車輛的可解釋人工智能(XAI)方法提供了全面的信息。首先,全面概述了目前最先進的自動駕駛汽車行業在可解釋方面存在的差距。然后,展示該領域中可解釋和可解釋受眾的分類。第三,提出了一個端到端自動駕駛系統體系結構的框架,并論證了XAI在調試和調控此類系統中的作用。最后,作為未來的研究方向,提供自主駕駛XAI方法的實地指南,提高操作安全性和透明度,公開獲得監管機構、制造商和所有密切參與者的批準。

//www.zhuanzhi.ai/paper/9810a4af041ac0189ca8750d0a25958c

付費5元查看完整內容

摘要

深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。

//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85

引言

深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。

計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。

由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。

Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。

由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。

自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。

本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。

付費5元查看完整內容

?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!

地址:

//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

1. 概述

深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。

圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。

深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。

對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。

大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。

2. 圖像分類技術

在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。

圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

遷移學習

監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。

2.2 分類技術集合

在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。

一致性正則化 Consistency regularization

一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。

虛擬對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。

互信息(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知數據標簽的簡單方法是偽標簽

3. 圖像分類模型

3.1 半監督學習

 四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。

3.2 自監督學習

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。

4. 實驗比較結果

報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。

5 結論

在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。

我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。

ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。

我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。

參考文獻:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

付費5元查看完整內容
北京阿比特科技有限公司