吉大最新《小數據學習》綜述,26頁pdf涵蓋269頁文獻闡述小數據學習理論、方法與應用,非常值得關注!
對大數據的學習為人工智能(AI)帶來了成功,但注釋和訓練成本昂貴。未來,在小數據上學習是AI的最終目的之一,這需要機器像人類一樣識別依賴小數據的目標和場景。一系列的機器學習模型正在以這種方式進行,如主動學習、少樣本學習、深度聚類。然而,幾乎沒有理論保證它們的泛化性能。而且,它們的大多數設置都是被動的,即標簽分布是由一個指定的采樣場景顯式控制的。該調查遵循PAC (Probably Approximately Correct)框架下的不可知論主動抽樣,使用監督和非監督方式分析小數據學習的泛化誤差和標簽復雜性。通過這些理論分析,我們從兩個幾何角度對小數據學習模型進行了分類: 歐幾里得和非歐幾里得(雙曲)均值表示,并給出了它們的優化解**。隨后總結了一些可能受益于小數據學習的潛在學習場景,并對其潛在的學習場景進行了分析。最后,一些具有挑戰性的應用,如計算機視覺,自然語言處理,可能受益于學習小數據也被綜述**。
//www.zhuanzhi.ai/paper/b3a7fa03007ee5e7246b7b277e8b2912
“那是一只貓在床上睡覺,男孩在拍大象,那些是要坐飛機的人,那是一架大飛機……”李飛飛說:“這是一個三歲的孩子在描述她看到的圖片。”2015年1月,她在科技娛樂設計(TED)上發表了一篇著名的演講“我們如何教計算機理解圖片”。在現實世界中,人類可以根據自己的先驗知識,只依靠一張圖片來識別目標和場景。然而,機器可能需要更多。在過去的幾十年里,人工智能(AI)[1][2]技術通過學習大數據[3][4],幫助機器變得像人類一樣聰明。通過對人類大腦神經元的傳播進行建模,構建了一系列具有表現力的AI系統,如深藍[5],AlphaGo[6]。當然,人工智能的天賦不是天生的。大數據訓練有助于人工智能識別不同的目標和場景。在處理大數據方面,采用MapReduce[7]、Hadoop[8]等技術訪問大規模數據,提取對AI決策有用的信息。具體來說,MapReduce分布在多個異構集群上,Hadoop通過云提供商處理數據。然而,盡管我們采用了這些大數據處理技術,但對大規模數據進行訓練和注釋的成本相當高。
一種新穎的觀點認為,小數據革命正在進行,對小數據進行訓練,使其具有預期的性能是人工智能的最終目的之一。從技術上講,人類專家希望緩解對大數據的需求,為AI系統找到新的突破,特別是深度神經網絡[9]的配置。相關工作包括有限標簽[10][11]、較少標簽[12][13][14]、較少數據[15][16]等,已經被低資源深度學習研究者實現。在形式上,少樣本學習[17]被稱為低資源學習(low-resource learning),是一個以有限信息研究小數據的統一課題。基于Wang等人的綜述[18],少樣本學習的一個顯式場景是特征生成[19],即根據給定的有限或不足的信息生成人工特征。另一種具有隱式監督信息的場景更具挑戰性,它依賴于用那些高信息量的樣例(如私人數據)對學習模型[19][20]進行再訓練。理論上,大多數的少樣本學習場景是被動的,即標簽分布是由一個指定的抽樣場景顯式控制的。因此,主動學習[21]吸引了我們的眼睛,其中標簽獲取是由學習算法或人類控制的。
與少樣本學習不同,主動學習的注釋場景沒有那么有限。主動學習算法可以隨時停止迭代采樣,因為算法性能不理想,或者注釋預算耗盡。主動學習有兩類: 假設類[22]上的主動抽樣理論和實現場景[23]上的主動抽樣算法,其中理論研究給出了這些算法范式的標簽復雜性和收斂性保證。典型的理論分析來自PAC ((Probably Approximately Correct))[24]風格,它針對諸如[25]這樣的不可知論設置。為了控制主動采樣,存在一種搜索目標數據的誤差不一致系數,該系數能最大限度地提高假設更新,其中這些更新要求是積極的、有幫助的。因此,主動抽樣也是一個假設剪枝[26]的過程,它試圖從給定的假設類中找到最優假設,其中假設從版本空間[27][28]維持到類的決策邊界[29]。在幾何上,封閉類的版本空間通常嵌入在一個管狀結構[30][31]中,該管狀結構與球面類具有同胚拓撲。
對小數據的學習對于推進人工智能至關重要。少樣本學習作為一個先行課題,對有限數據訓練進行了探索。而少樣本學習的設置是一個被動的場景,任務本身規定的標簽信息不足。同時,它的泛化性能幾乎沒有理論保證。這促使我們對小數據的學習進行理論分析。利用主動抽樣理論,我們遵循PAC框架提出了一組用于小數據學習的誤差和標簽復雜性邊界。為了總結這些算法范式,我們然后將小數據學習模型分為:歐幾里得和雙曲(非歐幾里得)表示,包括它們的深度學習場景。具體地說,這項綜述的貢獻總結如下。
我們提出了小數據學習的形式化定義。該定義是一個模型無關的設置,從機器學習的角度派生出一個更一般化的概念。
從PAC的角度來看,我們首先提出了通過主動抽樣理論學習小數據的理論保證。給出了小數據學習的泛化誤差和標簽復雜度界。
從幾何的角度,我們將小數據學習模型分為兩類:歐幾里得表示和雙曲表示,其中它們的優化求解器進行了分析。
我們調研了一些學習小數據的新方向,為潛在的學習場景和現實世界的挑戰應用。
本綜述的其余部分安排如下。第2節介紹了小數據學習的相關文獻,包括少樣本學習和主動學習。第3節給出了關于小數據學習的正式定義,并給出了它的PAC分析,包括標簽復雜度和泛化誤差邊界。第4節從幾何角度介紹了學習小數據的歐幾里得和非歐幾里得范式,第5節介紹了相關的優化求解器。之后,第6節討論了學習小數據表示的潛在場景,第7節介紹了具有挑戰性的場景。然后,第8節介紹一些關于小數據的有趣應用。第9部分是本次綜述的最后結論。
小數據學習方法
隨著對小數據學習需求的不斷增加,我們探索在未來不同的方向上促進小數據表示的模型學習,包括遷移學習、元學習、強化學習、對比學習和圖表示學習等。在本節中,我們將介紹這些學習主題,并解釋在小數據上學習的潛力。
基于小數據的遷移學習
大多數機器學習理論都基于一個共同的假設:訓練數據和測試數據遵循相同的分布。然而,這種假設過于嚴格,無法滿足,或者在許多現實場景中可能不成立。遷移學習[116]擺脫了這一假設的約束(即訓練和測試數據可以來自不同的分布或域),其目的是挖掘不同域之間的域不變特征和結構,從而進行有效的數據和知識遷移。遷移學習是利用從源領域學習到的知識來提高模型在目標領域的能力,如將騎自行車的知識轉移到開車的知識。
基于小數據的元學習
傳統的機器學習模型通常是在特定任務的專屬數據集上進行訓練的,這就造成了泛化能力差的問題,即學習模型很難適應以前從未見過的任務。為了克服這一困難,元學習[121]利用廣泛的元知識,例如在各種學習任務中調整學習參數,來教學習模型學習看不見的任務。
小數據的強化學習
強化學習[135]是一種強調通過獎勵預期行為和/或懲罰意外行為來最大化預期收益的人工智能范式。在強化學習中,存在兩個相互作用的對象:Agent和Environment。Agent可以感知環境的狀態,并對環境的反饋進行獎勵,從而做出合理的決策。也就是說,Agent的決策函數根據環境的狀態采取不同的行動,而學習函數根據環境的獎勵來調整策略,環境可以在Agent的行為的影響下調整自己的狀態,并將相應的獎勵反饋給Agent。
小數據對比學習
自監督學習[153]由于能夠避免標注大規模數據集的成本而受到關注。它主要利用前置任務從無監督數據中挖掘監督信息。利用構建的監督信息,我們可以進行模型學習,獲得對下游任務有價值的表示。與此同時,對比學習[154]、[155]、[156]、[157]、[158]最近成為自監督學習中的一個重要子課題,其目的是學習一種表示法,該表示法可以將具有對比損失的正對組合得更近,并將負對推離潛在嵌入空間。圖4展示了對比學習中的一個學習步驟。
小數據的圖表示學習
圖是一種常用的數據結構,用于描述社交網絡、推薦系統等復雜系統。在過去的幾年中,由于圖的強大表達能力,圖表示學習[163]逐漸引起了機器學習界的關注,它旨在建立能夠從非歐幾里得數據中高效學習的模型。與此同時,各種圖神經網絡[164]應運而生,它們在結構化數據挖掘任務中顯示出巨大的潛力,如節點分類、鏈接預測或圖分類等。然而,當這些圖數據挖掘任務遇到許多無監督/有監督的場景,其中很少,甚至沒有有效的數據或標簽存在,如何提高這些任務在圖上的性能,并在這些情況下獲得一個魯棒的模型?同時,圖神經網絡的關系結構發現[165]、[166]、[167]、表征能力[168]等有意義的子主題也有待探索,從數據表示的角度來看,可能也需要有效的思路。針對上述問題,對小數據的學習可以提供必要和強大的支持,由于其可觀的數據發現效率和較強的表示能力,可以促進圖表示學習的發展。特別地,圖5給出了GNN的一般設計流程。在該設計流程的方案下,GNN可分為遞歸圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。分類的詳細描述如下[164]。
北京交通大學最新《深度因果模型》綜述論文,31頁pdf涵蓋216頁pdf詳述41個深度因果模型,值得關注!
因果關系概念在人類認知中起著重要作用。在過去的幾十年里,因果推理在計算機科學、醫學、經濟學和教育等許多領域都得到了很好的發展。隨著深度學習技術的發展,它越來越多地用于反事實數據的因果推理。通常,深度因果模型將協變量的特征映射到一個表示空間,然后根據不同的優化方法設計各種目標優化函數,無偏估計反事實數據。本文對深度因果模型進行了綜述,其核心貢獻如下: 1)提供了多劑量和連續劑量治療下的相關指標; 2)我們從時間發展和方法分類的角度整合了深度因果模型的全面概述; 3)我們協助對相關數據集和源代碼進行詳細和全面的分類和分析。
一般來說,因果關系指的是結果與產生結果的原因之間的聯系。這種現象的原因和影響很難定義,我們往往只能憑直覺意識到它們。因果推斷是一個根據因果關系發生的環境對因果關系作出結論的過程,在現實世界中有各種各樣的應用。例如,估計廣告中觀察數據的因果效應[3,4,5,6,7,8,9],開發與因果治療效果估計高度相關的推薦系統[10,11,12,13,14,15,16],學習醫學中患者的最佳治療規則[17,18,19],估計強化學習中的ITE[20,21,22,23,24,25,26,27,28],自然語言處理中的因果推理任務[29,30,31,32,33,34],新興的計算機視覺和語言交互任務[35,36,37,38,39],教育[40],政策決策[41,42,43,44,45]和改進的機器學習方法[46]等。
深度學習在應用于大數據時有助于人工智能的發展[47,48,49,50]。與傳統機器學習算法相比,深度學習模型計算效率更高,精度更高,在各個領域都有很好的表現。然而,許多深度學習模型是可解釋性較差的黑盒,因為它們更關心作為輸入和輸出的相關性,而不是因果關系[51,52,53]。近年來,深度學習模型被廣泛用于挖掘數據的因果關系而不是相關性[41,43]。因此,深度因果模型已成為基于無偏估計估計治療效果的核心方法[19,44,45,54]。目前,許多因果推理領域的研究都是利用深層因果模型來選擇合理的treatment 方案[55,56,57,58]。
在大數據中,所有趨勢變量都是相關的[59],因此發現因果關系是一個具有挑戰性的問題[60,61,62]。在統計學理論中,進行隨機對照試驗(randomized controlled trials, RCT)[63]是推斷因果關系最有效的方法。換句話說,樣本被隨機分配到處理組或對照組。盡管如此,現實世界的隨機對照試驗數據是稀疏的,有幾個嚴重的缺陷。涉及rct的研究需要大量特征變化不大的樣本,難以解釋,涉及倫理挑戰。事實上,選擇試驗對象來嘗試一種藥物或疫苗是不明智的[64,65]。因此,因果效應通常直接用觀察數據來衡量。獲取反事實結果的一個核心問題是如何處理觀測數據[66]。在分析觀察數據時,處理并不是隨機分配的,處理后的樣本的性能與普通樣本的性能有顯著差異[41,43]。不幸的是,我們無法在理論上觀察到其他結果,因為我們無法觀察到反事實結果[67]。主流研究的一個長期特征是使用潛在結果框架作為解決觀察數據因果推斷問題的手段[68]。潛在結果框架也被稱為Rubin因果模型[69]。因果推理與深度學習密切相關,因為它是使用Rubin因果模型概念化的。為了提高估計的準確性和無偏性,一些研究人員嘗試將深度網絡和因果模型結合起來。舉例來說,考慮分配平衡方法[41,43,44]的表示,協變量混雜學習方法[54,70,71]的效果,基于生成對抗網絡的方法[45,72,73]等[58,34,74]。由于深度學習方法促進了因果推理,因果推理也有助于深度學習方法的發展。除了提高因果效應估計的準確性,深度網絡的研究為開發深度學習算法提供了一個合理的基礎[75,76]。
近年來,人們對因果推理的各種觀點進行了討論[77,1,78,79,80,81,82,83,2]。表1列出了相關綜述的標題和要點。文獻[77]深入分析了因果推理的起源和變量發展,以及因果學習對因果推理發展的影響。此外,調查[1]對傳統和前沿的因果學習方法進行了概述,并對機器學習和因果學習進行了比較。許多學者討論了如何解釋機器學習。隨后,為了創建可解釋的人工智能算法,survey[79]結合了因果推理和機器學習。作為一種新穎的視角,因果表征學習正在蓬勃發展,綜述[80]利用它從低級觀察中發現高水平的因果變量,加強了機器學習和因果推理之間的聯系。由于近年來因果機器學習的流行,綜述[78]對圖因果推理與機器學習的相關性進行了詳細的討論。此外,在調查[81]中,作者考察了機器學習的最新進展如何應用于因果推理,并對因果機器學習如何有助于醫學科學的進步提供了全面的解釋。正如綜述[82]所認為的,基于深度學習可以改進和整理因果發現方法,可以探索可變范式來幫助思考和探索因果發現方法。推薦系統中的因果推理是調查的重點[83],它解釋了如何使用因果推理來提取因果關系,以增強推薦系統。長期以來,統計的潛在結果框架一直是連接因果推理和深度學習的橋梁,作為起點,綜述[2]檢查并比較了滿足這些假設的不同類別的傳統統計算法和機器學習算法。由于深度學習算法的快速發展,現有文獻在考察泛化時沒有考慮深度因果模型。因此,我們從深度網絡的角度,從時間和分類兩方面總結了深度因果模型。本綜述對近年來的深度因果模型進行了全面的回顧和分析。它有三個核心貢獻: 1)我們在多次treatments 和連續劑量treatments 的情況下納入了相關指標。2)我們從方法分類和時間發展的角度對深層因果模型進行了全面的概述。3)我們在相關數據集和源代碼的分析和分類方面提供詳細和全面的支持。
以下是論文其余部分的大綱。如第2節所述,本文將介紹深度因果模型以及定義和假設。在第3節中,介紹了適當的例子和度量,包括二元treatment、多重treatment和連續劑量treatment。第4節展示了一個深度因果模型,包括概述和分析。第5節討論了深度因果模型的方法,包括分布平衡方法、協變量混雜學習方法、基于生成對抗網絡的方法、基于文本輸入時間序列的方法以及基于多treatment和連續劑量treatment模型的方法。相關實驗指南的列表如下第6節。論文的摘要在第7節中給出。
深度因果模型
通過對背景和基本定義的深入理解,本節將進入深度因果模型的核心。本文概述了深度因果模型及其在過去六年間的發展,包括基于時間軸的41個深度因果模型的分析。
近年來,深入因果模型的研究越來越受歡迎。隨著深度學習的發展,各種深度因果模型在估計因果效應方面變得更加準確和有效。根據圖1,我們列出了2016年6月至2022年2月期間約40個經典的深度因果模型,包括它們的詳細名稱和提出時間。深度因果模型從2016年開始開發。Johansson等首次發表了反事實推理的學習表示[41],提出了算法框架BNN和BLR[41],將深度學習與因果效果估計問題相結合,將因果推理問題轉化為領域適應問題。從那時起,許多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在這方面,需要注意的是,Louizos等人在2017年12月提出的基于深度網絡經典結構參數自編碼器VAE的CEVAE[54]模型,主要關注混雜因素及其對因果效應估計的影響。
圖1: 深度因果模型的發展
在2018年以及2019年,人們對因果表征學習的興趣越來越濃厚。首先,我們聯合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成對抗模型[112]體系結構進行反事實估計成為因果推理領域的主流。根據前面的工作,對CFR-ISW[113]、CEGAN[72]、SITE[44]進行了優化。R-MSN[74]模型于2018年12月實現,利用循環神經網絡[114]解決多治療時間序列的連續劑量問題,開辟了深層因果模型。為了解決這一問題,2019年5月提出了PM[42]和TECE[104],用于與多個離散處理相關的因果效應估計。作為后續,CTAM[34]開始專注于估算文本數據的因果影響;Dragonnet[71]首次將正則化和傾向評分網絡引入因果模型;ACE[55]試圖從表示空間中提取細粒度的相似度信息。對于RSB的[115]2019年12月版,使用深度表示學習網絡和PCC[116]正則化來分解協變量,使用工具變量來控制選擇偏差,使用混雜和調節因素來預測。
深度因果模型在2020年蓬勃發展。首先,DKLITE[56]模型結合了深核模型和后驗方差正則化。然后,DR-CFR[117]應用三個表示網絡、兩個回歸網絡和一個預測網絡對協變量的選擇偏倚進行解耦;GAD[118]則關注持續劑量治療的因果效應;DRGAN[119]定義了一種用于擬合樣品劑量效應曲線的創新生成對抗網絡;CRN[120]通過結合反事實循環神經網絡來估計隨時間變化的治療效果。TSD[121]在估計了多原因混雜下的時間序列因果效應后,轉向估計時間序列因果效應。在潛在表征空間中,ABCEI[122]使用GAN平衡了治療組和對照組的協變量分布。在前人研究的基礎上,BWCFR[123]、LaCIM[124]對結構思想進行了優化。此外,SCIGAN[73]、DRNet[57]在2020年將連續劑量擴展到任意數量的treatment 問題,VSR[125]以重新加權的方式聚合深度神經網絡潛在變量。
從2021年到2022年,因果模型變得更加創新、開放和靈活。VCNet[58]模型實現了連續平均劑量-響應曲線的估計。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模來理解產生多種治療組合的潛在因果過程。之后,CETransformer[127]利用Transformer[128]對協變量進行表征,注意力機制集中在協變量之間的相關性上。在此基礎上,DONUT[129]和DeR-CFR[70]基于之前的工作進行優化。SCI[75]將子空間理論用于因果表征學習,拓寬了研究者的思路。FlexTENet[130]提出了一種多任務自適應學習架構。此外,SCP[131]采用兩步程序評估多因素治療效果。為了構建這種合成雙胞胎匹配表示,SyncTwin[132]利用了結果中的時間結構。最后,TransTEE[76]將表征分布平衡方法擴展到連續的、結構化的和劑量依賴的treatment,使其作為因果效應估計問題更加開放。下一節將分析同一類別的所有模型,并基于深度學習結構的使用和模型所使用的共同思想進行比較。
深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.
隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].
點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.
**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **
1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.
1 基本概念及應用情況
1.1 深度學習
機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.
1) 基礎概念
深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].
2) 框架平臺
為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.
1.2 點云處理任務
3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.
模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.
1.3 應用情況
3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.
1.3.1 機器人領域
機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.
1.3.2 自動駕駛領域
自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.
1.3.3 虛擬、增強現實領域
為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.
1.3.4 醫學領域
醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.
2 模型形狀結構
了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。
3 模型重建與變換
由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.
4 形狀分類與分割
基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.
5 目標檢測與跟蹤
自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.
5.1 3維目標跟蹤
目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.
5.2 3維場景流估計
機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.
5.3 3維目標檢測與識別
在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.
5.4 算法性能對比分析
跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.
表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).
表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.
6 姿態估計
3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.
6.1 位姿估計
解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.
6.2 手部姿態估計
點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.
**6.3 算法性能對比分析 **
位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:
7 總 結
本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.
1) 數據方面
大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.
2) 性質方面
點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.
3)網絡結構方面
① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.
4) 應用方面
室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.
人工智能(AI)系統可以被定義為像人類一樣理性思考和行動的系統(Bellman, 1978; Kurzweil et al., 1990; Schalkoff, 1991; Rich and Knight, 1992; Winston, 1992; Haugeland, 1997; Russell and Norvig, 2005)。雖然這個詞在1956年著名的達特茅斯會議上被正式創造出來(McCarthy et al., 2006; Woo, 2014),追溯到亞里士多德和柏拉圖的哲學家都在考慮制定法則來管理大腦的理性部分。創造智能系統的想法激發了神話的靈感,比如塔洛斯的故事,神創造了一個巨大的青銅機器人,它攜帶著神秘的生命來源,守護著克里特島(Shashkevich, 2019)。從那時起,心理學家、行為學家、認知科學家、語言學家和計算機科學家一直支持各種理解智能和開發人工智能系統的方法。
對當前機器學習系統的一個關鍵批評是,它們往往是數據饑渴的(Marcus, 2018;福特,2018)。以GPT-3模型(Brown et al., 2020)為例,這是一個大規模的語言模型,使用來自文本數據源的300B令牌進行訓練,這些文本數據源包括Common Crawl corpus (Raffel et al., 2019)(過濾和清洗后的570 GB數據)、WebText (Radford et al., 2019)、兩個基于互聯網的圖書語料庫和Wikipedia頁面。這些數據集必須經過管理和處理,才能為訓練模型提供有意義的學習信號。雖然最近在自監督學習方面的進展已經減少了對大規模、干凈和標記良好的數據集的依賴,但我們仍然需要考慮訓練前的大規模模型的時間和成本。例如,GPT-3模型使用的計算相當于3.14e 23 flops2,在單個NVIDIA Tesla V100 GPU上訓練GPT-3需要355年。ML系統的樣本效率明顯落后于人工,使得它們的開發和部署成本很高。
終身學習范式是人工智能的一個分支,它專注于開發終身學習系統——這種系統在一生中不斷積累新知識,而不忘記先前的知識,并使用這些積累的知識來提高他們在不同任務中的表現。我們要強調的是,終身學習模式不僅適用于多任務設置,也適用于單任務設置。終身學習是一種普遍的設置,因為它對任務(或任務)的假設較少。考慮一個標準的單任務監督學習設置,學習者可以在開始訓練之前訪問整個數據集。在這種情況下,學習者可以對數據集執行多個epoch,對每個epoch的數據進行變換,以保持數據分布i.i.d(獨立和同分布)。然而,在這個設置中有許多隱含的假設—因為我們事先可以訪問數據集,所以我們知道數據集中存在多少唯一的類。我們也可以訪問類的分布,并可以以不同的方式衡量類。我們還可以對數據進行多采樣/少采樣。雖然這些假設使訓練的設置變得可行,但它們也使更一般的開放式學習設置偏離了設置。如果我們不假設訪問數據集(甚至是獨特類的數量),人工智能系統將不得不應對挑戰,如在看到新類時修改網絡架構,在訓練新數據點時不忘記舊數據點,以及在新數據不斷輸入時潛在地增加系統的容量。所有這些挑戰都是在終身學習的范式下研究的。
本入門書試圖對終身學習的不同方面提供一個詳細的總結。我們從第2章開始,它提供了終身學習系統的高級概述。在本章中,我們討論了終身學習的主要場景(2.4節),介紹了不同終身學習方法的高層次組織(2.5節),列舉了理想的終身學習系統(2.6節),討論了終身學習與其他學習模式的關系(2.7節),描述了用于評估終身學習系統的常用指標(2.8節)。這一章對終身學習的新讀者更有用,并希望在不關注具體方法或基準的情況下了解該領域。
其余章節集中在特定方面(學習算法或基準),對于尋找特定方法或基準的讀者更有用。第3章主要討論基于正則化的方法,這種方法不需要從以前的任務中訪問任何數據。第四章討論了基于記憶的方法,通常使用重放緩沖區或情景內存來保存不同任務的數據子集。第5章集中討論了不同的體系結構家族(及其實例),這些體系結構家族被提議用于訓練終身學習系統。在這些不同類別的學習算法之后,我們討論了終身學習常用的評估基準和指標(第6章),并在第7章結束了對未來挑戰和重要研究方向的討論。
其余章節集中在特定方面(學習算法或基準),對于尋找特定方法或基準的讀者更有用。第3章主要討論基于正則化的方法,這種方法不需要從以前的任務中訪問任何數據。第四章討論了基于記憶的方法,通常使用重放緩沖區或情景內存來保存不同任務的數據子集。第五章集中討論了不同的體系結構家族(及其實例),這些體系結構家族被提議用于訓練終身學習系統。在這些不同類別的學習算法之后,我們討論了終身學習常用的評估基準和指標(第6章),并在第7章結束了對未來挑戰和重要研究方向的討論。
【導讀】Transformer是當下流行的模型。牛津大學等學者發布首篇《Transformer多模態學習》綜述論文,23頁pdf涵蓋310篇文獻全面闡述MMT的理論與應用。
Transformer是一種很有前途的神經網絡學習器,在各種機器學習任務中都取得了很大的成功。隨著近年來多模態應用和大數據的普及,基于Transformer 的多模態學習已成為人工智能研究的熱點。本文介紹了面向多模態數據的Transformer 技術的全面綜述。本次綜述的主要內容包括:(1)多模態學習、Transformer 生態系統和多模態大數據時代的背景,(2)從幾何拓撲的角度對Vanilla Transformer、Vision Transformer和多模態Transformer 進行理論回顧,(3)通過兩個重要的范式,即多模態預訓練和具體的多模態任務,對多模態Transformer 的應用進行回顧。(4)多模態Transformer 模型和應用共享的共同挑戰和設計的總結,以及(5)對社區的開放問題和潛在研究方向的討論。
//www.zhuanzhi.ai/paper/0da69832c8fd261e9badec8449f6fe80
人工智能(AI)的最初靈感是模仿人類的感知,如視覺、聽覺、觸覺、嗅覺。通常情況下,一個模態通常與創建獨特通信通道的特定傳感器相關聯,例如視覺和語言[1]。對于人類來說,我們感官感知的一個基本機制是,為了在動態的、不受約束的環境下恰當地參與世界,我們能夠共同利用多種感知數據模式,每一種模式都是具有不同統計特性的獨特信息源。例如,一幅圖像通過數千個像素給出了“大象在水中玩耍”場景的視覺外觀,而相應的文本則用一個使用離散單詞的句子描述了這一時刻。從根本上說,多模態人工智能系統需要攝取、解釋和推理多模態信息源,以實現類似人類水平的感知能力。多模態學習(MML)是一種構建人工智能模型的通用方法,可以從多模態數據[1]中提取和關聯信息。
本綜述聚焦于使用Transformers[2]進行多模態學習(如圖1所示),其靈感來自于它們在建模不同模態(例如,語言、視覺、聽覺)和任務(例如,語言翻譯、圖像識別、語音識別)方面的內在優勢和可擴展性,并且使用較少的模態特定架構假設(例如,翻譯不變性和視覺中的局部網格注意偏差)[3]。具體地說,Transformer的輸入可以包含一個或多個令牌序列,以及每個序列的屬性(例如,形態標簽、順序),自然地允許在不修改架構的情況下使用MML[4]。此外,學習每模態特異性和多模態相關性可以簡單地通過控制自注意力的輸入模式來實現。關鍵的是,最近在不同學科探索Transformer架構的研究嘗試和活動激增,導致近年來開發了大量新穎的MML方法,以及在[4]、[5]、[6]、[7]、[8]等不同領域取得了顯著和多樣的進展。這就需要對具有代表性的研究方法進行及時的回顧和總結,以使研究人員能夠理解MML領域各相關學科的全局圖景,更重要的是能夠獲得當前研究成果和主要挑戰的整體結構圖。
為了提高不同學科之間的可讀性和可達性,本文采用了一種兩層的結構化分類法,分別基于應用維度和挑戰維度。這有幾個好處:(1)在特定應用領域具有專長的研究人員可以在連接到其他相關領域之前找到適合自己研究領域的應用。(2)將不同領域發展的相似模型設計和體系結構歸納在一個抽象的、公式驅動的視角下,使不同應用中形成的各種模型的數學思想在共同點上相互關聯和對比,跨越特定領域的限制。至關重要的是,我們的分類法提供了一個有趣的立體視角,個人作品在應用特異性和配方普遍性的見解。希望這有助于打破領域界限,促進更有效的理念溝通和跨模式交流。通過使用提示建模策略[9]作為研究的基礎,我們還包括了經典的分類問題(例如圖像分類)——通常被認為是傳統MML綜述中的單一模態學習應用——[1],[10],[11]——作為特殊的MML應用。
本綜述將討論Transformer架構的多模態具體設計,包括但不限于以下幾種模態:RGB圖像[5],深度圖像[13],視頻[7],音頻/語音/音樂[13],[14],[15],表[16],場景圖/布局[17],[18],[19],姿勢骨架[20],SQL[21],[22],菜譜[23],編程語言[24],手語[25],[26],[27],點云[28],符號知識(圖)[29],[30],多模式知識圖譜[31],草圖繪制[32],[33],[34],[35],3D對象/場景[36],[37],[38],文檔[39],[40],[41],[42],編程代碼[43]和抽象語法樹(AST)——一類圖[44]、光流[45]、醫學知識(如診斷代碼本體[46])。注意,本綜述將不討論多模態論文,其中Transformer只是作為特征提取器使用,而沒有多模態設計。據我們所知,這是第一個全面回顧基于Transformer的多模態機器學習的狀態。
這項綜述的主要特點包括:(1)我們強調Transformer的優勢是它們可以以一種模式無關的方式工作。因此,它們與各種模態(以及模態的組合)兼容。為了支持這一觀點,我們首次從幾何拓撲的角度對多模態環境下Transformer的內在特征進行了理解。我們建議將自注意視為一種圖風格的建模,它將輸入序列(包括單模態和多模態)建模為一個全連接圖。具體地說,自注意模型將任意模態中的任意標記嵌入為一個圖節點。(2) 我們在多模態環境中盡可能以數學的方式討論Transformer的關鍵部件。(3)基于Transformer,跨模態交互(如融合、對齊)本質上是由自注意及其變體處理的。在本文中,我們從自注意力設計的角度,提取了基于MML實踐的Transformer的數學本質和公式。在介紹了我們對多模態學習、Transformer生態系統和多模態大數據時代的綜述之后,我們總結了我們的主要貢獻如下。(1)我們從幾何拓撲的角度對Vanilla Transformer、視覺Transformer和多模態Transformer進行了理論回顧。(2)我們從兩個互補的角度對基于Transformer的MML進行了分類,即基于應用和基于挑戰。在第4節中,我們通過兩個重要的范例,即多模態預訓練和具體的多模態任務,對多模態Transformer的應用進行了回顧。在第5節中,我們進行總結各種多模態Transformer 模型和應用所共享的共同挑戰和設計。(3)討論了基于Transformer 的MML技術目前的瓶頸、存在的問題和潛在的研究方向。
【導讀】推薦系統是現在習以為常的應用,如何融入元學習方法來解決推薦系統的冷啟動或小數據場景是個有趣的問題。上海交大最新《推薦系統中的深度元學習》綜述,有40頁pdf涵蓋135篇文獻,全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。值得關注!
作為信息過濾技術,基于深度神經網絡的推薦系統近年來取得了很大的成功。然而,由于從頭開始的模型訓練需要足夠的數據,基于深度學習的推薦方法仍然面臨數據不足和計算效率低下的瓶頸。元學習作為一種新興的學習模式,學習如何提高算法的學習效率和泛化能力,在解決數據稀疏問題方面顯示出了其優勢。最近,越來越多的基于深度元學習的推薦系統的研究出現了,以提高在可用數據有限的推薦場景下的性能,例如用戶冷啟動和項目冷啟動。因此,本研究及時全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。對于每個推薦場景,我們進一步討論了現有方法如何應用元學習來提高推薦模型的泛化能力的技術細節。最后,我們指出了當前研究的局限性,并指出了未來研究的方向。
//www.zhuanzhi.ai/paper/6cff1ae05b9c005089acf0838b5fa0a6
近年來,推薦系統作為緩解信息過載的過濾系統被廣泛應用于電子商務、娛樂服務、新聞等各種網絡應用。推薦系統通過在大量的候選物品中提出個性化的建議,在改善用戶體驗和增加在線平臺吸引力方面取得了巨大的成功。隨著數據驅動的機器學習算法[3,90],特別是基于深度學習的方法[9,32,121]的發展,該領域的學術和行業研究在準確性、多樣性、可解釋性等方面極大地提高了推薦系統的性能。
由于表達表示學習能力能夠從足夠的數據中發現隱藏的依賴關系,基于深度學習的方法在當代推薦模型中被大量引入[26,121]。通過利用大量具有不同數據結構的訓練實例(例如,交互對[121]、序列[20]和圖形[26]),具有深度神經結構的推薦模型通常被設計用于有效捕獲非線性和非微不足道的用戶/物品關系。然而,傳統的基于深度學習的推薦模型通常是基于預定義的學習算法,用足夠的數據從頭開始訓練。例如,常規監督學習范式通常使用從所有用戶收集的交互來訓練一個統一的推薦模型,并基于學習到的特征表示對未看到的交互進行推薦。這種基于深度學習的方法通常需要大量的數據和計算。換句話說,基于深度學習的推薦系統的性能很大程度上依賴于大量訓練數據的可用性和足夠的計算量。在實際的推薦應用中,數據的收集主要來源于用戶在訪問網絡平臺過程中觀察到的用戶互動。存在可用用戶交互數據稀疏(如冷啟動推薦)和模型訓練計算受限(如在線推薦)的推薦場景。因此,數據不足和計算效率低下的問題成為基于深度學習的推薦模型的瓶頸。
最近,元學習提供了一種很有吸引力的學習范式,它針對數據和計算的不足,著重加強機器學習方法的泛化能力[36,98]。元學習的核心思想是從先前的多任務學習過程中獲得關于高效任務學習的先驗知識(即元知識)。元知識可以促進新任務的快速學習,在看不見的任務上具有良好的泛化性能。在這里,任務通常指屬于同一類或具有相同屬性的一組實例,涉及其上的單個學習過程。與提高深度學習模型的表征學習能力不同,元學習側重于學習更好的學習策略來替代固定的學習算法,被稱為學習到學習的概念。由于元學習技術在對看不見的任務進行快速適應方面具有巨大的潛力,它被廣泛應用于圖像識別[4,130]、圖像分割[60]、自然語言處理[48]、強化學習[75,103]等研究領域。
元學習的好處與推薦模型在實例有限和計算效率低下的情況下的推廣需求是一致的。早期基于元學習的推薦方法主要分為個性化推薦算法選擇[13,78],提取元數據集的特征,針對不同的數據集(或任務)選擇合適的推薦算法。通過運用提取元知識和生成任務特定模型的思想,這種元學習的定義更接近自動化機器學習的研究[39,115]。**隨后,深度元學習[38]或神經網絡元學習[36]出現,并逐漸成為推薦模型中典型討論的元學習技術的主流[47,69]。如[36,38]所介紹的,深度元學習旨在提取元知識,以實現深度神經網絡的快速學習,這對目前流行的深度學習范式帶來了增強。2017年以來,深度元學習在推薦系統研究界受到關注。**在訓練傳統的深度推薦模型時,首先應用先進的元學習技術來緩解數據不足(即冷啟動問題)。例如,最成功的基于優化的元學習框架MAML,以神經網絡參數初始化的形式學習元知識,首先在冷啟動推薦場景[47]中表現出極大的有效性。此外,在元學習模式下還研究了點擊率預測[69]、在線推薦[123]、順序推薦[125]等多種推薦場景,以提高在數據不足和計算效率低下的情況下的學習能力。
在本文中,我們對快速增長的基于深度元學習的推薦系統的研究進行了及時和全面的綜述。在我們的研究中,雖然已經有一些關于元學習或深度元學習的研究綜述了通用元學習方法及其應用的細節[36,38,98],但對推薦系統的最新進展仍然缺乏關注。此外,在其他應用領域也有一些關于元學習方法的綜述,如自然語言處理[48,117],多模態[61]和圖像分割[60]。然而,目前還沒有關于深度元學習在推薦系統中的研究。與他們相比,我們的綜述是填補這一空白的第一次嘗試,系統地回顧了元學習和推薦系統相結合的最新論文。在我們的綜述中,我們的目的是全面回顧基于深度元學習的推薦系統的文獻,這將有助于讀者和研究人員對這一主題的全面理解。為了仔細定位該領域的工作,我們提供了一個從三個角度的分類,包括推薦場景、元學習技術和元知識表示。此外,我們還根據推薦場景討論了相關的方法,并介紹了不同的作品如何利用元學習技術提取特定的元知識,包括參數初始化、參數調制、超參數優化等多種形式。我們希望我們的分類可以為開發新的基于深度元學習的推薦方法提供設計空間。此外,我們還總結了構建元學習任務的常見方法,這是構建元學習范式的必要條件。 本次綜述的結構安排如下。在第2節中,我們介紹了元學習技術的共同基礎和典型的推薦場景,其中元學習方法已被研究,以緩解數據不足和計算效率低下。在第3節中,我們將介紹由三個獨立軸組成的分類法。在第4節中,我們總結了文獻中使用的元學習推薦任務構建的不同方法。然后,我們在第5節詳細闡述了在不同推薦場景下使用元學習技術的現有方法的方法論細節。最后,我們在第6部分討論了該領域未來的研究方向,并在第7部分總結了這一綜述。
基于深度元學習的推薦系統分類
在本節中,我們建立了基于深度元學習的推薦系統的分類,并根據分類總結了現有方法的特點。通常,我們根據三個獨立的軸來定義分類,包括推薦場景、元學習技術和元知識表示。圖1顯示了分類法。之前[38,98]對一般元學習方法的分類更多關注2.1節介紹的三種元學習框架,但對元學習技術的實際應用關注有限。此外,[36]提出了一個新的分類法,涉及元表示、元優化器和元目標三個方面。他們提供了一個更全面的分類,可以引導新的元學習方法的發展。但是,它側重于整個元學習領域,不適合反映基于深度元學習的推薦系統的研究現狀和應用場景。
經典機器學習算法假設訓練數據和測試數據具有相同的輸入特征空間和相同的數據分布。在諸多現實問題中,這一假設往往不能滿足,導致經典機器學習算法失效。領域自適應是一種新的學習范式,其關鍵技術在于通過學習新的特征表達來對齊源域和目標域的數據分布,使得在有標簽源域訓練的模型可以直接遷移到沒有標簽的目標域上,同時不會引起性能的明顯損失。本文介紹領域自適應的定義,分類和代表性算法,重點討論基于度量學習的領域自適應算法和基于對抗學習的領域自適應算法。最后,分析領域自適應的典型應用和存在挑戰,明確領域自適應的發展趨勢,并提出未來可能的研究方向。
在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。
【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述,共33頁pdf和172篇文獻,概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
?論文地址: //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?
摘要 在過去的十年里,對人工智能的需求顯著增長,而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而,為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練,但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習的工作負載分布到多臺機器上,并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
1. 引言
近年來,新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統,因為問題的復雜性,算法解決方案是不可行的。例如控制自動駕駛汽車[23],識別語音[8],或者預測消費者行為[82]。
在某些情況下,訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量,因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下,當數據本身就是分布式的,或者數據太大而不能存儲在一臺機器上時,集中式解決方案甚至都不是一個選項。例如,大型企業對存儲在不同位置的[19]的數據進行事務處理,或者對大到無法移動和集中的天文數據進行事務處理[125]。
為了使這些類型的數據集可作為機器學習問題的訓練數據,必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統,我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比,我們對該問題應用了一個整體的觀點,并從分布式系統的角度討論了最先進的機器學習的實踐方面。
第2節深入討論了機器學習的系統挑戰,以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構,涵蓋了從算法到網絡通信模式的整個堆棧,這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后,第5節討論了分布式機器學習的主要挑戰
2. 機器學習——高性能計算的挑戰?
近年來,機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法,但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此,一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時,HPC社區已經發現機器學習是一種新興的高價值工作負載,并開始將HPC方法應用于它們。Coates等人,[38]能夠在短短三天內,在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模,解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性,加速器通常部署在主要的高性能計算系統中。
與其他大規模計算挑戰一樣,加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。
3. 一個分布式機器學習的參考架構
圖1 機器學習的概述。在訓練階段,利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。
圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。
機器學習算法
機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:
反饋、在學習過程中給算法的反饋類型
目的、期望的算法最終結果
方法、給出反饋時模型演化的本質
反饋 訓練算法需要反饋,這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:
包括 監督學習、無監督學習、半監督學習與強化學習
目的 機器學習算法可用于各種各樣的目的,如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸
每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進,從而提高其準確性。通過算法的學習方式,我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。
圖3所示:基于分布程度的分布式機器學習拓撲
4. 分布式機器學習生態系統
圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。
5 結論和當前的挑戰
分布式機器學習是一個蓬勃發展的生態系統,它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的,必須克服一些基本的挑戰,例如,建立一種機制,使數據處理并行化,同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而,對于分布式機器學習的長期成功來說,仍然存在許多挑戰:性能、容錯、隱私、可移植性等。