本文研究了無監督多類域適應的形式化,它是近年來一些學習目標僅由經驗驅動的算法的基礎。多類評分分歧(MCSD)是通過聚合多類分類中的絕對間隔偏離;所提出的MCSD能夠充分刻畫任意一對多類評分假設之間的關系。通過使用MCSD作為域距離的度量,我們為多類UDA開發了一個新的域適配邊界,以及它的依賴于數據的(可能是近似正確的)邊界,這自然地提出了對抗性的學習目標來對齊源域和目標域的條件特征分布。因此,一個多類領域對抗學習網絡(McDalNets)的算法框架被開發出來,它通過代理學習目標的不同實例與最近流行的一些方法相一致或相似,從而(部分地)強調了它們的實際有效性。在多類UDA理論的基礎上,提出了一種新的域對稱網絡(SymmNets)算法。symmnet提供了簡單的擴展,這些擴展在封閉集、部分集或開放集UDA的問題設置下都可以很好地工作。我們進行了仔細的實證研究,以比較不同的算法的McDalNets和我們的新推出的SymmNets。實驗結果驗證了理論分析的正確性和有效性。我們公開了我們的實現代碼。
所有著名的機器學習算法包括監督學習和半監督學習,只有在一個共同的假設下才能很好地有效: 訓練和測試數據遵循相同的分布。當分布發生變化時,大多數統計模型必須從新收集的數據中重新構建,對于某些應用程序,這些數據可能是昂貴的或不可能獲得的。因此,有必要開發一種方法,通過利用相關領域的可用數據并在類似領域進一步使用它來減少獲取新標記樣本的需要和工作量。這催生了一種新的機器學習框架,稱為“遷移學習”(transfer learning):這是一種學習環境,其靈感來自于人類在不同任務間推斷知識以提高學習效率的能力。盡管有大量不同的遷移學習場景,本綜述的主要目的是提供一個特定的、可以說是最流行的遷移學習子領域——領域自適應——最新理論結果的概述。在這個子領域中,假設在訓練和測試數據之間的數據分布是變化的,而學習任務是不變的。我們提供了一個關于領域適應問題的現有結果的最新描述,它涵蓋了基于不同統計學習框架的學習范圍。
概述
遷移學習背后的思想是由人類的學習能力所激發的,這種學習能力是在很少或沒有監督的情況下根據先前獲得的知識進行的。毫不奇怪,這個概念并沒有在機器學習領域中被發明出來,因為“學習的轉移”這個概念在第一臺計算機出現之前就已經被使用了,并且在20世紀早期的心理學領域的論文中也有出現。從統計的角度來看,這種學習場景不同于監督學習,因為前者不假設訓練和測試數據必須來自相同的概率分布。有人認為,這種假設在實踐中往往過于嚴格,因為在許多現實世界的應用中,假設是在不同的環境中學習和部署的,并顯示出一個重要的轉變。在遷移移學習中經常使用的一個典型例子是考慮一個垃圾郵件過濾任務,其中垃圾郵件過濾器是使用給定用戶的公司郵箱的任意分類算法來學習的。在這種情況下,由算法分析的絕大多數電子郵件很可能是專業性質的,其中很少涉及被考慮的人的私人生活。再進一步設想這樣一種情況:同一用戶在個人計算機上安裝了郵箱軟件,并導入其公司郵箱的設置,希望它也能在其上正常工作。然而,這是不可能的,因為許多個人電子郵件可能看起來像垃圾郵件的算法學習純粹的專業通信,由于他們的內容和附件文件的差異,以及電子郵件地址的不一致性。另一個說明性的例子是海洋學研究中的物種分類,在這種分類中,人們依靠對某一海域的視頻覆蓋來識別海洋棲息地的物種。例如,在地中海和印度洋,可以在錄像中找到的魚類很可能屬于同一科,盡管由于不同的氣候和進化背景,它們的實際外觀可能非常不同。在這種情況下,如果沒有專家的專門調整,在地中海視頻覆蓋上訓練的學習算法很可能無法提供印度洋物種的正確分類。
在這種應用中,我們可能希望找到一種學習范式,這種學習范式能夠保持對不斷變化的環境的魯棒性,并通過類比和利用最初學習領域的知識來適應手邊的新問題。為了解決這個問題,對新的算法的探索,能夠在一個訓練樣本上學習,然后在一個測試樣本上有一個良好的表現,來自一個不同但相關的概率分布,從而產生了一個新的學習范式,稱為遷移學習。
表1: 本綜述中關于領域適應的學習范圍的貢獻總結。(任務)是指所考慮的學習問題;(框架)指定分析中使用的統計學習框架;(散度)是用來比較源分布和目標分布的度量;(Link)表示源誤差與散度項之間的依賴關系;(Non-estim)表示在界限中存在一個不可估計的項。
在本篇綜述中,我們對領域自適應問題的現有理論進行了概述,這種學習設置擴展了傳統的學習范式,使模型可以在來自不同但相關的概率分布的樣本上學習和部署。所引用的理論結果通常采取一種學習邊界的形式,其目標是將一個模型在訓練(也稱為源)域上的錯誤與測試(也稱為目標)域上的錯誤聯系起來。為此,我們注意到所提供的結果是非常直觀的,因為它們明確地引入了上述兩個錯誤之間的關系與它們的數據生成概率分布和相應的標記函數的相似性的依賴關系。因此,這種源域和目標域之間的雙向關聯,通過比較兩個域的邊緣分布和樣本的可能標記來描述這兩個域的無監督鄰近性,通過尋找一個相對于它們具有低誤差的良好模型。在這一主題的大多數已發表的結果中,以這樣或那樣的方式保留了這種普遍的權衡,因此可以被視為現代領域適應理論的基石。
題目 Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings
摘要:
本文提出了一種新的基于流形的幾何學習方法來學習源語言和目標語言之間的無監督詞嵌入對齊。該方法將對列學習問題歸結為雙隨機矩陣流形上的域適應問題。這一觀點的提出是為了對齊兩個語言空間的二階信息。利用雙隨機流形的豐富幾何性質,提出了一種高效的黎曼流形的共軛梯度算法。從經驗上看,該方法在跨語言對的雙語詞匯歸納任務中表現優于基于最優遷移的方法。遠程語言對性能的提高更為顯著。
【導讀】現有的機器學習方法在很多場景下需要依賴大量的訓練樣本。但機器學習方法是否可以模仿人類,基于先驗知識等,只基于少量的樣本就可以進行學習。本文介紹34頁小樣本學習綜述《Generalizing from a Few Examples: A Survey on Few-Shot Learning》,包含166篇參考文獻,來自第四范式和香港科技大學習的研究學者。
小樣本學習綜述 Few-shot Learning: A Survey
【摘要】機器學習在數據密集型應用中非常成功,但當數據集很小時,它常常受到阻礙。為了解決這一問題,近年來提出了小樣本學習(FSL)。利用先驗知識,FSL可以快速地泛化到只包含少量有監督信息的樣本的新任務中。在這篇論文中,我們進行了一個徹底的調研,以充分了解FSL。從FSL的正式定義出發,我們將FSL與幾個相關的機器學習問題區分開來。然后指出了FSL的核心問題是經驗風險最小化是不可靠的。基于先驗知識如何處理這一核心問題,我們從三個角度對FSL方法進行了分類: (i) 數據,它使用先驗知識來增加監督經驗;(二) 利用先驗知識縮小假設空間大小的模型;(iii)算法,利用先驗知識在給定的假設空間中改變對最佳假設的搜索。有了這種分類法,我們就可以回顧和討論每個類別的優缺點。在FSL問題的設置、技術、應用和理論方面也提出了有前景的方向,為未來的研究提供了見解。
我們給出了FSL的形式化定義。它可以自然地鏈接到以往文獻中提出的經典機器學習定義。這個定義不僅足夠概括,包括所有現有的FSL -shot Learning: A Survey problems,而且足夠具體,明確了什么是FSL的目標,以及我們如何解決它。這一定義有助于確定未來FSL領域的研究目標。
指出了基于誤差分解的FSL在機器學習中的核心問題。我們發現,正是不可靠的經驗風險最小化使得FSL難以學習。這可以通過滿足或降低學習的樣本復雜度來緩解。理解核心問題有助于根據解決核心問題的方式將不同的工作分類為數據、模型和算法。更重要的是,這為更有組織和系統地改進FSL方法提供了見解。
我們對從FSL誕生到最近發表的文獻進行了廣泛的回顧,并將它們進行了統一的分類。對不同類別的優缺點進行了深入的討論。我們還對每個類別下的見解進行了總結。這對于初學者和有經驗的研究人員都是一個很好的指導方針。
我們在問題設置、技術、應用和理論方面展望了FSL未來的四個發展方向。這些見解都是基于當前FSL發展的不足之處,并有可能在未來進行探索。我們希望這部分能夠提供一些見解,為解決FSL問題做出貢獻,為真正的AI而努力。
與已有的關于小樣本概念學習和經驗學習的FSL相關調相比,我們給出了什么是FSL,為什么FSL很難,以及FSL如何將小樣本監督信息與先驗知識結合起來使學習成為可能的正式定義。我們進行了廣泛的文獻審查的基礎上提出的分類法與詳細討論的利弊,總結和見解。我們還討論了FSL與半監督學習、不平衡學習、遷移學習和元學習等相關話題之間的聯系和區別
元學習利用相關的源任務來學習初始化,可以通過有限的標記示例將初始化快速調整到目標任務。然而,許多流行的元學習算法,如模型無關元學習(MAML),都只假設可以訪問目標樣本進行微調。在這項工作中,我們提供了一個通用的元學習框架,該框架基于對不同源任務的損失進行加權,其中的權重允許依賴于目標樣本。在這個一般的設置中,我們提供了基于積分概率度量(IPM)和Rademacher復雜性的源任務加權經驗風險和預期目標風險之間距離的上限,該上限適用于包括MAML和加權MAML變體在內的許多元學習設置。然后開發一個基于最小化誤差學習算法對實證IPM,包括α-MAML加權MAML算法。最后,我們實證地證明了我們的加權元學習算法能夠比單加權元學習算法(如MAML)找到更好的初始化。
無監督域自適應(UDA)是在給定源域上有標記數據的情況下,對目標域上的無標記數據進行預測。主流的UDA方法學習這兩個域之間的對齊特征,這樣一個訓練在源特征上的分類器可以很容易地應用到目標特征上。但是,這種轉移策略有可能破壞目標數據的內在辨別能力。為了緩解這種風險,我們基于結構域相似度的假設,提出通過對目標數據進行判別聚類,直接發現目標的內在歧視。我們利用基于結構域相似性的結構源正則化約束聚類解。在技術上,我們使用了一個靈活的基于判別聚類的深度網絡框架,使網絡的預測標簽分布與引入的輔助標簽分布之間的KL分歧最小化;用源數據的基真標簽形成的輔助分布代替輔助分布,通過簡單的聯合網絡訓練策略實現了結構源的正則化。我們將提出的方法稱為結構正則化深度聚類(SRDC),其中我們還使用中間網絡特征的聚類來增強目標識別,并使用較少發散的源實例的軟選擇來增強結構正則化。仔細的消融研究顯示了我們提出的SRDC的療效。值得注意的是,在沒有顯式域對齊的情況下,SRDC在三個UDA基準上的性能優于所有現有方法。
題目: Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice
摘要:
本文研究了無監督多類域自適應理論,這是最近一些算法的基礎,這些算法的學習目標僅僅是由經驗驅動的。多類得分不一致(MCSD)分歧是通過聚合多類分類中的絕對裕度違規來表示的;所提出的MCSD能夠充分表征任何一對多類得分假設之間的關系。通過使用MCSD作為域距離的度量,我們為多類UDA開發了一個新的域適配邊界以及它的依賴于數據的(可能是近似正確的)邊界,這自然地提出了對抗性的學習目標來對齊源域和目標域的條件特征分布。因此,一個多類領域對抗學習網絡(McDalNets)的算法框架被開發出來,它通過學習目標的不同實例與最近流行的一些方法相一致或相似,從而(部分地)強調了它們的實際有效性。在多類UDA理論的基礎上,提出了一種新的域對稱網絡(SymmNets)算法。Symmnet提供了簡單的擴展,這些擴展在封閉集、部分集或開放集UDA的問題設置下都可以很好地工作。我們進行了仔細的實證研究,把不同的算法的McDalNets和我們的新推出的SymmNets相比較。實驗結果驗證了理論分析的正確性和有效性。
弱監督語義分割是一項具有挑戰性的任務,因為沒有提供像素級的標簽信息供訓練使用。最近的方法利用分類網絡,通過選擇具有強響應的區域來定位目標。然而,雖然這種響應映射提供了稀疏信息,但在自然圖像中像素之間存在很強的兩兩關系,可以利用這種兩兩關系將稀疏映射傳播到更密集的區域。本文提出了一種迭代算法來學習這種兩兩關系,它由兩個分支組成,一個是學習每個像素的標簽概率的一元分割網絡,另一個是學習親和矩陣并細化由一元網絡生成的概率圖的兩兩親和網絡。將兩兩網絡的細化結果作為監督,對一元網絡進行訓練,通過迭代的方法逐步獲得較好的分割效果。為了在不需要精確標注的情況下獲得可靠的像素親和力,我們還提出了可信區域的挖掘方法。我們證明了迭代訓練這個框架等價于優化一個收斂到局部最小值的能量函數。在PASCAL VOC 2012和COCO數據集上的實驗結果表明,所提出的算法在性能上優于目前最先進的方法。
論文摘要
多路網絡中的節點通過多種類型的關系進行連接。然而,大多數現有的網絡嵌入方法假定只有節點之間存在單一類型的關系。即使對于考慮網絡復用性的人,他們忽略節點屬性,求助于節點標簽進行訓練,并且無法對圖的全局屬性建模。我們提出了一種簡單而有效的無監督網絡嵌入方法,該方法是基于深部圖的自組織網絡,該方法最大限度地利用圖的局部斑塊之間的互信息,以及整個圖的全局表示。我們設計了一個系統的方法來聯合集成來自多個圖的節點嵌入,方法是:1)使用一致正則化框架來最小化關系類型特定的節點嵌入之間的分歧;2)使用通用鑒別器來區分真正的樣本,而不考慮關系類型。我們還表明,注意機制可以推斷每種關系類型的重要性,因此可以作為預處理步驟用于過濾不必要的關系類型。在各種下游任務上的大量實驗表明,盡管DMGI是完全無監督的,但DMGI仍然優于現有的方法。
論文作者
Chanyoung Park1, Donghyun Kim, Jiawei Han1, Hwanjo Yu,伊利諾伊大學香檳分校計算機科學系,韓國浦項科技大學計算機科學與工程系