模型反演攻擊是一種隱私攻擊,它僅通過訪問模型來重構用于訓練機器學習模型的私有數據。近年來,利用生成對抗網絡(Generative Adversarial Networks, GANs)從公共數據集中提取知識的白盒模型反演攻擊因其出色的攻擊性能而受到廣泛關注。另一方面,目前利用GANs的黑盒模型反演攻擊存在一些問題,例如無法保證在預定數量的查詢訪問內完成攻擊過程,或實現與白盒攻擊相同的性能水平。為克服這些限制,本文提出一種基于強化學習的黑盒模型反演攻擊。本文將潛空間搜索表述為馬爾可夫決策過程(MDP)問題,并使用強化學習來解決它。該方法利用生成圖像的置信度分數為智能體提供獎勵。最后,利用在MDP中訓練的智能體找到的潛在向量來重構隱私數據。在多個數據集和模型上的實驗結果表明,該攻擊方法在取得最先進攻擊性能的同時,成功地恢復了目標模型的隱私信息。本文通過提出一種更先進的黑盒模型反演攻擊來強調隱私保護機器學習研究的重要性。
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
浙江大學最新《可解釋強化學習》綜述,37頁pdf1闡述XRL概念、算法、挑戰
強化學習(RL)是一種流行的機器學習范式,智能體與環境交互以實現長期目標。在深度學習復興的推動下,深度RL (DRL)在廣泛的復雜控制任務中取得了巨大成功。盡管取得了令人鼓舞的結果,但基于深度神經網絡的骨干網被廣泛認為是一個黑盒,它阻礙了從業者在高安全性和可靠性至關重要的現實場景中信任和使用經過訓練的智能體。為了緩解這個問題,通過構建內在解釋性或事后解釋性,大量的文獻致力于闡明智能智能體的內部工作方式。在本綜述中,我們對可解釋RL (XRL)的現有工作進行了全面的回顧,并引入了一種新的分類法,將先前的工作明確地分為模型解釋方法、獎勵解釋方法、狀態解釋方法和任務解釋方法。本文還回顧并強調了強化學習方法,這些方法反過來利用人類知識來提高智能體的學習效率和最終性能,而這種方法在XRL領域往往被忽略。討論了XRL中一些開放的挑戰和機遇。本綜述旨在對XRL進行高層次的總結和更好的理解,并推動未來對更有效的XRL解決方案的研究。相應的開放源代碼可以在//github.com/Plankson/awesome-explainable-reinforcement-learning上收集和分類。
概述
強化學習[193]受到人類試錯范式的啟發[143]。它基于這樣一個事實:與環境互動是人類在沒有他人指導的情況下學習的常見方式[98]。從互動中,人類獲得了關于因果關系、行動結果以及如何在環境中實現目標的信息。這類信息被隱式地用來構建我們的心智模型[155,218,225],而更多這類信息將使這個心智模型更加精確[22,171]。RL類似于目標導向的學習,通過與環境的交互,敏銳地意識到環境如何響應我們的行為,并有目的地影響未來的事件。更準確地說,RL學會從環境狀態映射到行動,從而最大化數值獎勵信號[189]。近年來,深度學習的快速發展[15,194]促進了深度學習與強化學習的融合。因此,深度強化學習(DRL)[44, 60, 134, 135, 177]作為一種新的RL范式出現。憑借深度神經網絡強大的表示能力[7,51,230],DRL在許多領域都取得了相當的性能[17,24,29,37,11,121,184],特別是在AlphaZero[184]和OpenAI Five[17]等游戲任務中,基于DRL的方法成功擊敗了人類職業選手。然而,對于現實場景中更復雜的任務,如自動駕駛[25,39,79,213,214]和電力系統調度[109,115,226,227,239],不僅要考慮高性能,還要考慮面向用戶的可解釋性,以考慮安全性和可靠性。這種可解釋性的要求是在真實世界而不是模擬環境中使用DRL的主要瓶頸。
由于深度神經網絡(DNN)的主干復雜,傳統的DRL方法的可解釋性較低[67,100,185,195]。追蹤和解釋一個神經系統中的每個參數,并將其擴展到整個網絡,這是非常棘手的。因此,我們不知道DNN考慮了哪些隱式特征,以及DNN如何處理這些特征。這個缺點導致DRL模型正在成為一個黑盒[84,232],專家無法理解智能體如何知道環境或智能體為什么選擇特定的行動。這種不透明性限制了DRL的應用,因為大多數人不會輕易信任智能體,特別是當智能體在沒有解釋決策過程的原因的情況下與他們的期望完全相反時。例如,在自動導航任務中[32,156],人們可能會對導航代理在沒有告訴他們原因的情況下進行的異常引導感到困惑,這可能只是為了避免交通堵塞。此外,可解釋性的缺乏也造成了在訓練過程中插入人類知識和指導的障礙[62,166]。盡管人類知識是以特定形式預先給定的[56,57,181,233,236],但智能體無法提取有效信息并從中受益。
為了解決可解釋性低的問題,在計算機視覺(CV)中的可解釋性人臉識別[43,85,165,219]和自然語言處理(NLP)中的可解釋性文本分類[8,119,186]等機器學習領域開展了許多可解釋性研究。可解釋機器學習的目標是生成不同形式的解釋,使模型對專家甚至外行人都是可解釋和透明的。它查看黑箱代理模型內部,自動提取或生成解釋,解釋為什么代理在每個時間步中選擇這個動作或給出這個結論。解釋的形式可以多種多樣,如自然語言[38,53,66]、顯著圖[54,83]或視頻[178]。通過可解釋的模型,智能體可以發現潛在的缺陷,并向專家解釋這些缺陷以進行進一步的改進。
對于可解釋強化學習(XRL)領域,人們在構建可解釋強化學習(XRL)模型方面做了許多初步的研究,并在解釋生成方面取得了一定的成果。為了對它們有一個完整的認識并總結當前的XRL技術,對XRL進行了幾次綜述[33,49,74,158,208,217]。Heuillet等人[74]回顧了關注解釋和用戶類型的方法。他們只是根據生成解釋的方式將方法分為兩類。這是一個初步的分類,需要進一步改進。Puiutta和Veith[158]遵循了基于解釋時間和范圍的傳統可解釋AI分類法。他們只是描述了一些有代表性的方法,并不是為了呈現對XRL的全面忽視。Wells和Bednarz[217]也列舉了各種XRL方法。但他們只關注可用于XRL領域的可視化技術。voros[208]將范圍限定在最先進的XRL方法中,并為XRL提供了一個架構符號范式,而解釋內容可分為代理偏好和目標的影響。Dazeley等人[33]提出了一個稱為因果XRL框架的概念架構,該框架解釋了XRL如何通過關注因果行為來生成對行為的解釋。該理論體系結構清晰而嚴謹,不僅考慮了感知、行動和事件,還考慮了目標、期望和處置。然而,現有的XRL框架只關注事件結果的感知和行動原因,這意味著現有的XRL技術只能用一種更簡單的因果XRL框架形式來表示。Glanois等人[49]明確界定了可解釋性和可解釋性之間的界限。他們將這些方法分為三種:可解釋輸入、過渡模型和偏好模型。它啟發我們關注RL的過程和結構。這些研究都提出了基于XRL的新分類法,但大多數都沒有基于RL范式。此外,從以上的綜述中我們可以發現,XRL領域仍然缺乏標準的標準,特別是在XRL的定義和評價方法方面,雖然許多人提出了自己的XRL標準[116,131,138,208],但沒有一個被整個DRL界所接受。目前的XRL框架大多沒有考慮人類參與的影響,只有少數論文試圖將基于人類知識的范式擴展到XRL領域,其研究結果有力地證明,這是一種既能獲得高解釋性又能獲得高性能的有效方法[237]。
為了使整個XRL體系結構得到進一步發展,系統地回顧了當前的XRL框架和綜述。明確了XRL模型可解釋性的概念,總結了模型可解釋性的評價指標。基于這些提出的XRL框架,我們提出了一種新的更適合于RL的XRL分類法。由于使整個RL范式可解釋目前是困難的,所有的工作都轉向對RL范式的組成部分可解釋。我們根據可解釋的目標部分對當前的XRL作品進行分類:模型、獎勵、狀態和任務。這四種部分解釋方法的目的是生成對主體行為的解釋。對于RL來說,這種分類法比一般的內在/事后/本地分類法要高級得多。考慮到基于人類知識的XRL工作的數量和它的重要性,我們將其分離出來,并試圖總結這些工作,并將它們組織到我們的分類法中。據我們所知,很少有研究者對這一領域進行了既包括人類知識又包括XRL的總結。我們的工作總結如下:
基于可解釋RL和可解釋機器學習的現有文獻,我們對XRL中的模型可解釋性進行了詳細的總結。當前的XRL評估指標也包含在這個總結中。
基于強化學習框架的不同部分(模型、獎勵、狀態和任務)的可解釋性,為當前的XRL作品引入了一種新的分類。可以在圖2中查看分類法。
注意到目前基于人類知識的XRL是一個不受歡迎的方向,只有少數作品和顯著的結果,我們將其作為論文的主要部分之一,對這些將XRL框架與人類知識相結合以獲得更高性能和更好解釋的方法進行了系統的綜述。
本次綜述的其余部分組織如下。在第二節中,我們回顧了強化學習的必要基礎知識。接下來,我們將討論XRL模型可解釋性的定義,并在第3節中給出解釋和XRL方法的一些可能的評估方面。在第4節中,我們描述了我們的分類,并詳細提供了每個類型和子類型的工作,我們分類法的抽象圖可以在圖2中看到。然后我們根據第5節的分類討論與人類知識相結合的XRL工作。在此之后,我們在第6節中總結了XRL當前的挑戰和未來的發展方向。最后,在第7部分對本文的工作進行了總結。本文的結構和我們的分類法工作如圖1所示。
圖1所示概述。本文概述了可解釋強化學習(XRL)。在我們的工作中,我們根據強化學習(RL)過程中不同部分的可解釋性將XRL分為四個部分:模型、獎勵、狀態和任務。這張圖用不同的顏色表示。圖中還展示了更具體的分類和作品,我們將在后面的部分中討論它們。
本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。
最近最優傳輸(OT)理論在機器學習中的幾個應用都依賴于正則化,尤其是熵和Sinkhorn算法。由于矩陣向量乘積在Sinkhorn算法中是普遍存在的,一些工作已經提出使用低秩因子來近似其迭代中出現的核矩陣。另一種方法是在OT問題中考慮的可行耦合集上施加低非負秩約束,不需要對代價或核矩陣進行逼近。這條路線首先由forrow2018探索,他提出了一種為平方歐氏地面成本量身定制的算法,使用了一個代理目標,可以通過正則化的Wasserstein重心機制來解決。在此基礎上,我們引入了一種通用方法,旨在完全通用性地解決具有任意代價的低非負秩約束下的OT問題。我們的算法依賴于低秩耦合的顯式分解,將其作為由公共邊際連接的子耦合因子的乘積; 與NMF方法類似,我們交替更新這些因素。證明了該算法的非漸近平穩收斂性,并通過基準實驗證明了該算法的有效性。
當測試數據和訓練數據的分布相似時,基于深度神經網絡的方法已經取得了驚人的性能,但如果沒有相似的分布,則性能可能表現很差。因此,消除訓練和測試數據之間分布變化的影響對于構建具有良好性能的深度模型至關重要。傳統的方法要么假設訓練數據已知的異質性(例如域標簽),要么假設不同域的容量近似相等。在本文中,我們考慮一個更具有挑戰性的情況,即上述兩種假設都不成立。為了解決這一問題,我們提出通過學習訓練樣本的權重來消除特征之間的依賴關系,這有助于深度模型擺脫虛假的相關性,從而更加關注區分性特征和標簽之間的真實聯系。大量的實驗清楚地證明了我們的方法在多個分布泛化基準上的有效性,與最先進的同行相比。通過大量的分布泛化基準實驗,包括PACS、VLCS、mist - m和NICO,我們證明了該方法的有效性,并與最新的同類方法進行了比較。
強化學習(RL)為基于學習的控制提供了一種數學形式,允許通過優化用戶指定的獎勵函數來獲得接近最優的行為。最近,由于在許多領域的出色應用,RL方法受到了相當多的關注,但事實上,RL需要一個基本的在線學習范式,這是其廣泛采用的最大障礙之一。在線交互通常是不切實際的,因為數據收集是昂貴的(例如,在機器人或教育代理中)或危險的(例如,在自動駕駛或醫療保健中)。另一種方法是利用RL算法,在不需要在線交互的情況下有效地利用以前收集的經驗。這被稱為批處理RL、脫機RL或數據驅動RL。這樣的算法對將數據集轉化為強大的決策引擎有著巨大的希望,類似于數據集在視覺和NLP中被證明是成功的關鍵。在本教程中,我們的目標是為讀者提供既可以利用離線RL作為工具,又可以在這個令人興奮的領域進行研究的概念性工具。我們的目標是提供對離線RL的挑戰的理解,特別是在現代深度RL方法的背景下,并描述一些潛在的解決方案。我們將以一種從業者易于理解的方式呈現經典和最新的方法,并討論在這一領域開展研究的理論基礎。我們將以討論待解問題來結束。
//sites.google.com/view/offlinerltutorial-neurips2020/home
由于計算和存儲效率的提高,哈希被廣泛應用于大規模數據庫檢索中的近似近鄰搜索。深度哈希技術是一種利用卷積神經網絡結構來挖掘和提取圖像語義信息或特征的技術,近年來受到越來越多的關注。在這個綜述中,我們對幾種圖像檢索的深度監督哈希方法進行了評估,總結出深度監督哈希方法的三個主要不同方向。最后提出了幾點意見。此外,為了突破現有哈希方法的瓶頸,我提出了一種影子周期性哈希(SRH)方法作為嘗試。具體來說,我設計了一個CNN架構來提取圖像的語義特征,并設計了一個loss function來鼓勵相似的圖像投影接近。為此,我提出了一個概念: CNN輸出的影子。在優化的過程中,CNN的輸出和它的shadow互相引導,盡可能的達到最優解。在數據集CIFAR-10上的實驗表明,該算法具有良好的性能。
在許多實際應用中,獲取足夠的大規模標記數據以充分訓練深度神經網絡通常是困難和昂貴的。因此,將學習到的知識從一個單獨的、標記過的源域轉移到一個未標記或標記稀疏的目標域成為一種有吸引力的選擇。然而,直接轉移常常由于域轉移而導致顯著的性能下降。域適應(DA)通過最小化源域和目標域之間域轉移的影響來解決這個問題。多源域自適應(Multi-source domain adaptation, MDA)是一種功能強大的擴展,可以從具有不同分布的多個源收集標記數據。由于DA方法的成功和多源數據的流行,MDA在學術界和工業界都受到越來越多的關注。在本次綜述中,我們定義了各種MDA策略,并總結了可供評估的可用數據集。我們還比較了深度學習時代的MDA方法,包括潛在空間轉換和中間域生成。最后,討論了未來MDA的研究方向。