現代建模和仿真環境(如商業游戲或軍事訓練系統)經常要求交互式智能體按照預先確定的規范(如故事板或軍事戰術文件)表現出逼真和反應靈敏的行為。創建智能體的傳統方法(如狀態機或行為樹)需要花費大量精力,通過人工知識工程來開發狀態表示和轉換過程。另一方面,較新的行為生成技術(如深度強化學習)需要大量的訓練數據(在許多情況下需要幾個世紀),而且無法保證生成的行為與預期目標和行動方案一致。本文研究了行為克隆方法在設計交互式智能體中的應用。在我們的方法中,用戶首先通過狀態機模型或行為樹等直接方法定義所需的行為。然后,使用行為克隆方法將從這些模型中采樣的真實軌跡數據轉化為可微分策略,并通過參與互動游戲環境進一步完善這些策略。通過對任務性能和訓練穩定性進行比較,這種方法可以改善訓練結果。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
最近,深度強化學習(RL)方法已被成功應用于多智能體場景。通常情況下,分布式決策的觀測向量是由一個智能體收集的關于其他智能體(局部)信息的串聯來表示。然而,串聯法在具有大量同質智能體的集群系統中的擴展性很差,因為它沒有利用這些系統固有的基本特性:(i)集群中的智能體是可以互換的;(ii)集群中智能體的確切數量是不相關的。因此,我們提出了一種新的基于分布式均值嵌入的深度多智能體RL狀態表示,我們將智能體視為樣本,并使用經驗的均值嵌入作為分布式策略的輸入。我們使用直方圖、徑向基函數和端到端訓練的神經網絡來定義均值嵌入的不同特征空間。我們對集群文獻中的兩個著名問題--交會和追趕逃避--在全局和局部可觀察的設置中評估了該表示。對于本地設置,我們進一步引入了簡單的通信協議。在所有的方法中,使用神經網絡特征的平均嵌入表示能夠在相鄰的智能體之間進行最豐富的信息交流,促進復雜的集體策略的開發。
技術的進步為自主系統提供了希望,使其形成比其單個成員更有能力的人機編隊。了解自主系統的內部運作,特別是當機器學習(ML)方法被廣泛地應用于這些系統的設計時,對與它們一起工作的人來說已經變得越來越具有挑戰性。定量ML方法的 "黑箱"性質,對人們理解機器學習系統的態勢感知(SA)構成了阻礙,往往導致采用機器學習算法的自主系統被廢棄或過度依賴。人機互動的研究表明,透明通信可以提高隊友的安全意識,促進信任關系,并提高人機團隊的績效。本文中將研究智能體透明度模型對人類與使用自動解釋基于ML的智能體互動的影響。我們將討論一種特殊的ML方法--強化學習(RL)在基于部分可觀察馬爾可夫決策過程(POMDP)智能體中的應用,以及POMDP中RL的解釋算法設計。
這項工作提出了一個支持決策過程的算法框架,其中終端用戶在領域專家的協助下解決一個問題。此外,終端用戶和領域專家之間的交流的特點是問題和答案的數量有限。開發的框架可以幫助領域專家向終端用戶精確定位少量的問題,以增加其見解正確的可能性。建議的框架是基于領域專家的知識,包括與領域專家和終端用戶的互動。領域專家的知識由知識圖譜表示,而終端用戶與問題相關的信息作為證據被輸入圖譜。這就觸發了圖中的推理算法,該算法向領域專家建議最終用戶的下一個問題。本文在醫學診斷領域提出了一個詳細的建議框架;然而,它也可以適應具有類似設置的其他領域。我們開發的軟件框架使決策過程以互動和可解釋的方式進行,這包括使用語義技術,因此是創新的。
近年來,"大數據 "世界獲得了巨大的發展動力,并不斷產生機遇和挑戰[1,2]。大數據的各種用途已經滲透到技術世界的幾乎每一個領域。我們對在處理決策過程的技術領域整合大數據的挑戰感興趣,以便利用這些過程。
這些過程可以在各種各樣的內容世界(醫學、商業、教育等)中找到,并且需要了解情況意識、數據建模以及提供智能見解的算法。然而,這些過程為不同的需求提供不同的答案;因此,有幾種類型的決策過程,每一種都有合適的設置[3,4]。
在這項工作中,我們專注于具有以下設置的決策過程:(a)該過程涉及兩個實體:一個最終用戶和一個領域專家,(b)最終用戶啟動該過程,(c)兩個實體之間存在互動,包括(領域專家的)問題和(最終用戶的)答案,(d)兩個實體之間的互動盡可能有限(在時間、問題數量、金錢等方面)。
鑒于上述情況,本報告的目的是提供一個基于語義技術的框架,該框架能夠整合大數據,在決策過程中協助領域專家,向他們建議一套針對最終用戶的問題(從數據中推斷出來的),這將減少問題和答案的循環。 考慮以下兩個領域的例子,其流程自然適合這樣的設置:醫療診斷[5]和家電維修[6](表1)。
如前所述,上述兩個領域包含了一個兩方面的有限互動。這種限制可以用時間、問題的數量等來表示。請注意,醫療和家電維修這兩個領域都是寬泛的領域,可以被專門化為特定的子領域。例如,家電維修領域可以被專業化為建筑服務、互聯網服務、家庭故障服務等。醫療領域也是如此。它也可以包含一些子域,如各領域的醫療咨詢(如心理學)、緊急醫療電話的處理等。
建議的框架包括兩個主要部分:(a) 使用語義技術對相關領域專家的知識進行正式表示,特別是知識圖譜,以及(b) 一套互動的算法,從一組初始領域值(即最終用戶的先驗知識)開始,然后,基于這些先驗知識和知識圖譜表示,它將向最終用戶提出具體問題。這些問題的答案將推動領域專家的決策過程,并成為下一次迭代的輸入。迭代將繼續進行,直到領域專家感到滿意并做出決定。
我們有動力通過知識圖譜來表示專家的知識,因為圖譜已經成為表示連接數據的一種自然方式[7]。在過去的十年中,人們努力將大量的數據組織成節點和邊的集合,特別是在推薦系統、搜索引擎優化和決策過程中[8,9,10]。由此產生的靈活結構,稱為知識圖譜,允許快速適應復雜的數據和通過關系的連接。它們固有的互連性使人們能夠使用圖算法來揭示隱藏的模式和推斷新的知識[11,12,13,14]。此外,知識圖譜在計算上是高效的,并且可以擴展到非常大的規模,社會圖譜分析就是一個例子[15,16]。
我們的框架受到了Musen和他的同事[17]的啟發,他們是生物醫學信息學領域的知名研究者,提出了關于協助臨床決策支持(CDS)的信息技術的看法。Musen等人[17]提出了提供CDS的系統的指導原則:他們的論述是關于交流而不是檢索信息,建議而不是產生報告,以及協助領域專家發展更多的知情判斷。分別來說,引導我們開發框架的概念是為領域專家提供從分析圖表示的相關數據中推斷出的建議,并使他能夠做出明智的決定。然而,另外一個領先的概念是以有限的迭代次數來進行。我們的框架可以擴展到其他領域。
在所提交的工作中,我們為一個交互式框架引入了一種新的方法,以支持以有限的交互次數為特征的決策過程。該框架通過使用圖數據模型、圖算法和語義技術,以通用的方式進行創新。我們在一個真實的數據集上運行我們的算法,并在一個可能的現實場景中展示框架的可行性。因此,我們為我們的框架提供了一個概念證明。
為了說明擬議的框架,我們首先回顧了知識圖譜和決策過程(第2節)。然后,我們定義了該框架的術語和算法(第3節)。隨后,我們在醫學診斷領域使用由疾病和病人癥狀組成的數據集來演示該框架(第4節)。最后,我們總結并考慮潛在的未來方向(第5節)。
這一節中介紹了所提出的框架,其中包括一個算法集合和它們之間的互動。
目標是基于互動的決策過程。互動是在領域專家和終端用戶之間進行的,結果是有限的迭代,由框架建議領域專家問終端用戶的問題組成。決策過程將根據終端用戶的回答而進行。
當分析這些類型的過程時,我們得出結論,它們可以被籠統地建模為一個癥狀和疾病的集合。最終,該過程的目標是協助領域專家決定診斷(即在分析現有數據的基礎上為一組給定的癥狀提供解釋)。Musen將診斷過程描述為決定要問哪些問題,要做哪些測試,或要執行哪些程序[7,17]。診斷過程中可能出現的問題有以下幾種類型。終端用戶是否有一個特定的癥狀?
上述術語(即癥狀、疾病、問題和診斷)產生的行話可以自然地用于醫學診斷領域,然而它也適用于其他領域,如家電維修:癥狀代表問題,疾病代表故障,診斷是一種故障識別,一個典型的問題可以是。終端用戶的電器有什么特別的問題嗎?
當在提議的框架中使用這個行話時,我們用假設一詞來代替診斷,因為該框架并不向領域專家提供診斷,而是提供可能的假設。每個假說實際上是一種潛在的疾病,它伴隨著一個問題,是表明疾病(假說)的癥狀。因此,我們在本文中用來描述框架及其各種算法的行話包括:癥狀、疾病、問題和假設。特別是,該框架推斷出假設及其相關的問題,并將它們提交給領域專家,后者決定是否使用(或不使用)這些問題來確認(或不確認)這些假設(疾病)。
在本節的其余部分,我們將描述該框架及其算法,首先是一般的,然后是詳細的。
一般來說,我們首先從原始數據建立一個知識圖譜,這將有助于探索疾病和癥狀之間的關系。在此之后,我們在KG上使用魯汶分層聚類法[21](算法1)來尋找社區(即具有類似癥狀的疾病群)。然后,給定最終用戶報告的癥狀(稱為證據癥狀),我們使用KG上的推理找到與證據癥狀相匹配的可能疾病(算法2)。在這一點上,我們推斷出最可能的社區,以包括最終用戶的疾病,并向領域專家建議一個表明這個社區的問題(癥狀)(算法3)。最后,我們找到最佳假設建議給領域專家(算法4),也就是說,我們向領域專家建議最終用戶可能有的疾病和癥狀,以解決診斷過程的改進。
整個框架分為兩個主要部分:第一部分,預處理部分,在框架啟動后進行;而第二部分,處理部分,在每次有新請求到達框架時進行。預處理部分包括兩個步驟和一個算法(算法1),而處理部分包括三個步驟和三個算法(算法2-4),正如我們在下面描述的那樣。
我們使用的數據結構包括代表KG的結構(默認是鄰接列表)和運行算法所需的額外結構。在下面描述算法的段落中,我們將詳細介紹這些結構和它們的用途。
預處理部分:
輸入:一個疾病及其癥狀的列表
第1步:構建一個疾病和癥狀的知識圖(KG)(見第3.1節)。
第2步:根據疾病的癥狀將其聚類為一組(稱為社區),即具有類似癥狀的疾病將在同一個社區中(算法1)。
輸出:(1)每一種疾病都與KG中的一個社區相關聯;(2)額外的數據結構,稱為癥狀社區矩陣(SCM),表示疾病組和各種癥狀之間的聯系 處理部分:
輸入:K證據癥狀
第一步:尋找最可能的疾病,即與證據癥狀相匹配的可能疾病(算法2)。
第2步:推斷并向領域專家建議(根據需要重復)一個問題(癥狀),表明最可能的社區包括最終用戶疾病(算法3)。
第3步:推斷并向領域專家建議一個假說(最終用戶可能患有的疾病)及其相關問題(癥狀)的列表,并按相關性排序(算法4)。
圖1顯示了整個建議框架的高級視圖。
海上作業航行安全是一個高度優先的問題。在新加坡高性能計算研究所 (IHPC)和新加坡理工學院(SP)最近的合作中,開發了一個基于人工智能的行為能力評估工具原型,以幫助教官評估值守人員進行導航的軟技能能力,并在SP的新加坡海事學院(SMA)培訓模擬器上進行了概念驗證演示。使用我們的工具可以通過提供詳細的特定行為分析來幫助教官進行評估,從而有助于消除人為偏見。
一個基于人工智能的行為能力評估工具原型被開發出來,它使用來自模擬器的視頻資料,自動生成對學生行為能力的評估,并以定量的方式進行客觀評估。生成的報告提供了培訓課程的摘要,其中有按時間索引的事件,教員可以用來向學生匯報,并允許教員輕松地放大特定事件,以進行更深入的審查和更有效的指導。
基于人工智能的行為能力評估工具原型(如圖1所示)是一個軟件,包括:
一個行為學習和理解模塊,它從訓練模擬器的攝像機中獲取視頻,并使用計算機視覺和機器學習從學生執行導航任務的行動中檢測和識別關鍵的行為指標。對識別的行為指標進行行為學習,以自動捕捉與每個行為能力相關的行為,并將其編碼為行為腳本。
能力評估模塊通過識別學生使用學習到的行為腳本表現出來的行為來進行績效分析,并生成一份學生績效報告,量化觀察到的關鍵行為指標和觀察到的行為的時間過程。根據國際海事組織和行業出版物[2][3]中頒布的行為能力評估和驗證(BCAV)指南中的一套行為指標,通過分析也為每個學生生成一個數字性能分數。
圖 1. 態勢感知能力評估工具原型示意圖
知識圖譜中的數據往往代表了現實世界的部分現狀。因此,為了保持最新的狀態,圖數據需要經常更新。為了利用知識圖譜中的信息,許多最先進的機器學習方法使用了嵌入技術。這些技術通常計算一個嵌入,即節點的向量表示,作為主要機器學習算法的輸入。如果后來發生了圖譜更新--特別是當節點被添加或刪除時--訓練就必須重新進行了。這是不可取的,因為它需要時間,也因為如果下游模型發生重大變化,用這些嵌入訓練的模型必須重新訓練。在本文中,我們研究了不需要完全重新訓練的嵌入更新,并在涵蓋多種用例的真實動態知識圖譜上結合各種嵌入模型對其進行評估。我們研究了根據本地信息優化放置新出現的節點的方法,但注意到這并不奏效。然而,我們發現,如果我們繼續訓練舊的嵌入,并在其間穿插一些歷時,只對新增和刪除的部分進行優化,那么在鏈接預測中使用的典型指標方面,我們可以獲得良好的結果。這種性能比完全重新訓練要快得多,因此有可能為動態知識圖譜保持嵌入。
目標檢測是計算機視覺和圖像處理中的一項基本任務。目前,基于深度學習的目標檢測器已經成功地獲得了大量的標記數據。但在現實生活中,并不能保證每個對象類別都有足夠的標記樣本進行訓練。這些大型目標檢測器在訓練數據有限的情況下容易出現過擬合。因此,有必要將少樣本學習和零樣本學習引入目標檢測中,兩者可以統稱為低樣本目標檢測。低樣本目標檢測(Low-Shot Object Detection, LSOD)旨在從少量甚至零標記數據中檢測目標,可分為少樣本目標檢測(few-shot Object Detection, FSOD)和零樣本目標檢測(zero-shot Object Detection, ZSD)。本文對基于FSOD和ZSD的深度學習進行了全面的研究。首先,本綜述將FSOD和ZSD的方法分為不同的類別,并討論了它們的優缺點。其次,本綜述回顧了FSOD和ZSD的數據集設置和評估指標,然后分析了不同方法在這些基準上的性能。最后,本綜述討論了FSOD和ZSD未來面臨的挑戰和發展方向。
引言
目標檢測是計算機視覺中一項基礎而又具有挑戰性的任務,它的目標是在圖像中定位特定類別的目標。目標檢測已廣泛應用于許多計算機視覺任務中,如目標跟蹤[88]、圖像標注[67]、場景圖生成[72]等。目標檢測的一般過程是為一組包圍框(圖像中參考的假想矩形)預測類別。大多數傳統方法通過在整個圖像中滑動一個窗口來生成這些邊界框。Viola-Jones (VJ)檢測器[74]首次采用積分圖像、特征選擇和檢測級聯三種加速技術實現了人臉的實時檢測。隨后提出了直方圖定向梯度(histogram of oriented gradient, HOG)[12],并被許多目標檢測器用于特征描述。在這些方法中,基于變形部件的模型[16]是一種典型的方法。DPM將一個對象檢測任務劃分為多個細粒度的檢測任務,然后使用多個部分過濾器檢測對象部件,并將其聚合起來進行最終預測。雖然人們已經做了很多改進,但傳統的方法受到速度慢、精度低的限制。
與傳統方法相比,深度方法能夠以更有效的圖像特征實現更強的性能。R-CNN[21]是基于深度學習方法的最具代表性的工作之一。它使用選擇性搜索獲得區域建議(即圖像中更可能包含目標的區域),然后使用預訓練好的CNN模型提取其特征,進行進一步的分類和定位。快速R-CNN[20]通過使用感興趣區域(RoI)池化層來從圖像的整個特征圖生成區域建議的特征圖來改進R-CNN。Faster R-CNN[64]進一步提出了一種區域提議網絡(region proposal network, RPN),取代了傳統的通過錨點(即預定義的一定高度和寬度的包圍盒)從整個圖像特征地圖生成區域提議的方法。R-CNN、Fast R-CNN和Faster R-CNN分為兩個階段模型,首先生成區域建議,然后進行預測。為了進一步加速,單階段模型將這兩個過程結合在一起。YOLOstyle目標檢測器[63][3][19]是單級檢測框架的代表模型。根據從原始圖像中提取的特征圖,yolo風格的檢測器直接在圖像的所有位置上預定義多個尺度的錨點,并預測每個錨點的類別概率、位置偏移量和目標置信度。單級檢波器的性能一般不如兩級檢波器,一些方法如焦損耗[47]被提出以減小單級和兩級檢波器之間的性能差距。最近,一種基于transformer的檢測器被提出,命名為DETR[4]。DETR直接將固定數量的目標查詢轉發到transformer中,并對它們進行預測。DETR實現端到端檢測,具有與許多經典探測器相當的性能。為了緩解檢測器收斂緩慢的問題,變形檢測器[103]提出了一個變形注意模塊,它只訪問一個參考點周圍的一小組關鍵采樣點,而UP-DETR[11]提出了一個名為隨機查詢補丁檢測的非監督任務來預訓練檢測器。
然而,這些目標檢測器依賴于大量的訓練數據。在訓練數據不足的情況下,現有的目標檢測器容易過擬合,不能泛化到測試數據。在現實生活中,由于某些目標類別的稀缺或特殊的標簽成本,很難收集到足夠的標簽數據。因此,現代目標檢測器需要具備從少量甚至零標記數據中檢測目標的能力,并將少樣本和零樣本學習引入到目標檢測中。少樣本學習的目的是從少量標記樣本中學習泛化模型。在過去的幾年里,針對少樣本學習提出了很多方法,大致可以分為數據增強方法、元學習方法和遷移學習方法。數據增強方法通過使用傳統的圖像變換方法或基于深度學習的方法(如GAN)生成新樣本,直接解決了數據稀缺問題。元學習方法采用學習到學習的機制,在另一個數據豐富的數據集上定義多個少次任務來訓練模型,使模型能夠快速適應當前的少次任務。與在元學習中使用多個片段進行訓練不同,遷移學習方法的目標是直接學習另一個數據集上的良好圖像表示,并將它們轉移到當前數據集。Work[73]研究了一些用于少量圖像分類的基線遷移學習方法,實驗證明它們優于許多經典的元學習方法。
圖1. 本次綜述的概述。本文對低樣本目標檢測進行了全面的介紹,并將低樣本目標檢測分為單樣本目標檢測、少樣本目標檢測和零樣本目標檢測三個領域。圖中還用三種顏色演示了這三個域的更細粒度的分類,后面的小節將詳細討論這些分類。然后總結了OSOD、FS和ZSD的基準,并比較分析了不同LSOD方法在這些基準上的性能。最后對LSOD的發展方向進行了展望。
以往的少樣本學習方法主要是針對圖像分類的任務進行探索。由于目標檢測需要額外的任務來定位目標,因此,少樣本目標檢測比少樣本圖像分類更具挑戰性。但是FSOD方法繼承了FSL方法的主要思想,FSL方法也可以分為兩種主流方法:元學習方法和遷移學習方法。早期的FSOD方法遵循少樣本學習的元學習方法,主要關注如何結合支持圖像和查詢圖像的特性。這些元學習方法可以分為特征向量聚合方法和特征地圖聚合方法。將遷移學習方法引入到少樣本目標檢測中,在另一個數據集中對檢測器進行預訓練,然后在當前的少樣本數據集中對檢測器進行微調。在遷移學習方法中引入了對比學習、度量學習、正則化等方法。除了原有的標準FSOD設置外,研究者還探索了半監督FSOD、弱監督FSOD和增量FSOD等其他設置。還有一個更有挑戰性的設置,即每個少數樣本類都有零標記樣本,這被稱為零樣本學習(ZSD)。在零概率學習中,每個類都有其語義屬性作為補償。實際上,FSOD和ZSD可以考慮在一個條件下,一些方法[60][33]提出了一個組合模型,同時處理FSOD和ZSD。因此,本次綜述將FSOD和ZSD表示為低樣本目標檢測(LSD)。低樣本目標檢測的層次結構分類法如圖1所示。
本文對現有的少樣本和零樣本目標檢測算法進行了全面的回顧和分析。本文總結了現有的少樣本和零樣本目標檢測算法的性能。本文討論了少樣本和零樣本目標檢測的主要挑戰和未來的發展方向。本文綜述的其余部分組織如下。第二節描述了對少樣本和零樣本目標檢測算法進行更細粒度的分類和分析。第八節描述了常用的少樣本和零樣本目標檢測數據集和評價標準。第九節總結了現有的少樣本和零樣本目標檢測算法的性能。最后,第十一節總結了本次綜述的內容,然后討論了當前方法面臨的主要挑戰和未來的發展方向的少樣本和零樣本目標檢測。
本文對低樣本目標檢測進行了深入的研究,根據每個新類是否使用少量標記樣本或語義屬性,將低樣本目標檢測分為少樣本目標檢測(FSOD)和零樣本目標檢測(ZSD)。首先對低目標檢測方法進行了概括介紹,然后對FSOD和ZSD方法進行了分類和分析。總結了FSOD和ZSD的主要基準,并對不同方法的性能進行了比較。最后討論了FSOD和ZSD的發展方向。
機器學習(ML)最近的快速進展提出了一些科學問題,挑戰了該領域長期存在的教條。最重要的謎題之一是過度參數化模型的良好經驗泛化。過度參數化的模型對于訓練數據集的大小來說過于復雜,這導致它們完美地擬合(即插值)訓練數據,而訓練數據通常是有噪聲的。這種對噪聲數據的插值傳統上與有害的過擬合有關,但最近觀察到,從簡單的線性模型到深度神經網絡的各種插值模型在新測試數據上都能很好地泛化。事實上,最近發現的雙下降現象表明,在測試性能上,高度過度參數化的模型往往比最好的欠參數化模型更好。理解這種過度參數化的學習需要新的理論和基礎的實證研究,即使是最簡單的線性模型。這種理解的基礎已經在最近對過度參數化線性回歸和相關統計學習任務的分析中奠定,這導致了雙下降的精確分析特征。本文簡要概述了這一新興的過度參數化ML理論(以下簡稱為TOPML),并從統計信號處理的角度解釋了這些最新發現。我們強調將TOPML研究領域定義為現代ML理論的一個子領域的獨特方面,并概述了仍然存在的有趣的未決問題。
//www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a
引言
深度學習技術已經徹底改變了許多工程和科學問題的解決方式,使數據驅動方法成為實踐成功的主要選擇。當前的深度學習方法是經典機器學習(ML)設置的極限開發版本,以前這些設置受到有限的計算資源和訓練數據可用性不足的限制。目前已建立的實踐是從一組訓練示例中學習高度復雜的深度神經網絡(DNN),這些示例雖然本身很大,但相對于DNN中的參數數量來說相當小。雖然這種過度參數化的DNN在ML實踐中是最先進的,但這種實際成功的根本原因仍不清楚。特別神秘的是兩個經驗觀察結果: 1) 模型中添加更多參數的明顯益處(在泛化方面),2) 這些模型即使完美地擬合了噪聲訓練數據,也能很好地泛化。這些觀察結果在現代ML的不同結構中都得到了體現——當它們首次被用于復雜的、最先進的DNN時(Neyshabur et al., 2014; Zhang et al., 2017)),它們已經在更簡單的模型家族中出土,包括寬神經網絡、核方法,甚至線性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。
在本文中,我們綜述了最近發展起來的過度參數化機器學習理論(簡稱TOPML),該理論建立了與訓練數據插值(即完美擬合)相關的現象相關的基本數學原理。我們很快將提供一個過度參數化ML的正式定義,但在這里描述一些模型必須滿足的顯著屬性,以合格為過度參數化。首先,這樣的模型必須是高度復雜的,因為它的獨立可調參數的數量要遠遠高于訓練數據集中的示例數量。其次,這樣的模型絕不能以任何方式被明確地規范化。DNN是過度參數化模型的常見實例,這些模型通常沒有明確的正則化訓練(參見,例如,Neyshabur et al., 2014; Zhang et al., 2017)。這種過度參數化和缺乏顯式正則化的組合產生了一個可插值訓練示例的學習模型,因此在任何訓練數據集上都實現了零訓練誤差。訓練數據通常被認為是來自底層數據類(即噪聲數據模型)的噪聲實現。因此,插值模型完美地擬合了基礎數據和訓練示例中的噪聲。傳統的統計學習總是將噪聲的完美擬合與較差的泛化性能聯系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,這些插值解決方案通常能很好地泛化到訓練數據集以外的新測試數據。
在本文中,我們回顧了TOPML研究的新興領域,主要關注在過去幾年發展的基本原理。與最近的其他綜述相比(Bartlett et al., 2021; Belkin, 2021),我們從更基本的信號處理角度來闡明這些原則。形式上,我們將TOPML研究領域定義為ML理論的子領域,其中1. 明確考慮訓練數據的精確或近似插值 2. 相對于訓練數據集的大小,學習模型的復雜性較高。
本文組織如下。在第2節中,我們介紹了過度參數化學習中插值解的基礎知識,作為一個機器學習領域,它超出了經典偏方差權衡的范圍。在第3節中,我們概述了最近關于過度參數化回歸的結果。在這里,我們從信號處理的角度直觀地解釋了過度參數化學習的基本原理。在第4節中,我們回顧了關于過度參數化分類的最新發現。在第5節中,我們概述了最近關于過度參數化子空間學習的工作。在第6節中,我們考察了最近關于回歸和分類以外的過度參數化學習問題的研究。在第7節中,我們討論了過度參數化ML理論中的主要開放問題。
由于神經網絡的日益普及,對神經網絡預測的信心變得越來越重要。然而,基本的神經網絡不會給出確定性估計,也不會受到信心過度或不足的影響。許多研究人員一直致力于理解和量化神經網絡預測中的不確定性。因此,不同類型和來源的不確定性已被識別,并提出了各種方法來測量和量化神經網絡中的不確定性。本工作對神經網絡中的不確定性估計進行了全面的概述,綜述了該領域的最新進展,突出了當前的挑戰,并確定了潛在的研究機會。它旨在給任何對神經網絡中的不確定性估計感興趣的人一個廣泛的概述和介紹,而不預設在這一領域有先驗知識。對不確定性的主要來源進行了全面的介紹,并將它們分為可約模型不確定性和不可約數據不確定性。本文介紹了基于確定性神經網絡、貝葉斯神經網絡、神經網絡集成和測試時間數據增強等方法對這些不確定性的建模,并討論了這些領域的不同分支和最新進展。對于實際應用,我們討論不確定性的不同措施,校準神經網絡的方法,并給出現有基線和實現的概述。來自不同領域廣泛挑戰的不同例子,提供了實際應用中有關不確定性的需求和挑戰的概念。此外,討論了當前用于任務和安全關鍵的現實世界應用的方法的實際限制,并展望了未來的步驟,以更廣泛地使用這些方法。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。