亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著基礎模型的出現,基于深度學習的目標檢測器在封閉集場景中展現出了實際的可用性。然而,對于現實世界的任務而言,目標檢測器往往在開放環境中運作,其中影響模型學習的關鍵因素(例如,數據分布、目標)經常在變化。開放環境的動態復雜性給目標檢測器帶來了新穎而巨大的挑戰。不幸的是,當前對開放環境中目標檢測器的研究缺乏對它們獨特特性、挑戰及相應解決方案的全面分析,這阻礙了它們在關鍵的現實世界場景中的安全部署。本文旨在通過對開放環境中目標檢測器進行全面的綜述和分析來彌補這一差距我們最初識別了現有檢測管道內關鍵結構組件的局限性,并提出了包括四個象限(即,領域外、類別外、魯棒學習和增量學習)的開放環境目標檢測器挑戰框架,基于數據/目標變化的維度。對于提出框架中的每一個挑戰象限,我們提供了詳細的描述和系統的分析,概括了總體目標和核心難點,系統地回顧了相應的解決方案,并在多個廣泛采用的數據集上對它們的性能進行了基準測試。此外,我們還討論了開放問題和未來研究的潛在途徑。本文旨在提供一個新鮮的、全面的、系統的對開放環境目標檢測器的挑戰與解決方案的理解,從而催化更加堅固的應用在現實世界場景中的發展。與此綜述相關的項目可以在 //github.com/LiangSiyuan21/OEOD_Survey 找到。

目標檢測作為計算機視覺中的基礎任務之一,通過預測給定圖像中視覺對象的位置和類別來識別實例。隨著深度神經網絡的發展,尤其是基礎模型的出現,深度目標檢測[1]、[2]、[3]受到了廣泛關注,并成為自動駕駛[4]、醫療保健[5]、人臉檢測[6]、[7]等各個應用領域的基礎構件。特別是,深度目標檢測器的有效性主要依賴于閉集假設,即有限、已知和定義良好的結構[8]。例如,用于訓練和測試的數據滿足相同的分布,學習過程針對不變的目標任務(良性示例上的標簽分類和位置回歸)進行優化。由于日益具有挑戰性的任務的驅動,實際深度檢測器應用場景的環境從閉合逐漸演變為開放[8]。在開放環境中,模型學習過程的關鍵因素(例如,數據分布和目標任務)可能隨著時間和周圍環境發生動態變化。例如,開放環境可能在測試期間引入模型在訓練期間未遇到的新類別,甚至帶有可能干擾模型決策的噪聲。開放環境設置緊密地反映了現實世界情況,要求深度檢測器展現出增強的魯棒性和可擴展性,有效地應對未預見的變化和挑戰。

一些綜述專門關注了深度目標檢測器面臨開放環境中特定挑戰時的性能,如域適應問題[9]。更多相關綜述可以在附錄材料A中找到。然而,仍然不存在對開放環境中目標檢測器的獨特特性、挑戰及相應解決方案進行全面和整體分析的研究,這阻礙了它們在關鍵的現實世界場景中的安全部署。這篇綜述通過全面檢查開放環境中的目標檢測器,強調深度檢測模型對數據變異性和目標變化的韌性,彌補了這一差距。特別地,我們首先進行結構分析,以識別現有檢測管道內的脆弱性。隨后,我們提出了一個四象限分類框架,清晰地展示了這些挑戰在數據變化和目標變化兩個維度上的相互作用和區別,分別在水平軸和垂直軸上表示。通過界定每個象限,我們提供了對每個特定上下文中深度目標檢測器的公式、挑戰和潛在解決方案的詳細分析。我們還定量基準測試并討論了在多個廣泛采用的檢測數據集上回顧的方法。此外,我們強調了每個問題領域的前瞻性研究方向,并強調加強這些挑戰之間聯系的重要性。圖1中展示的研究趨勢突顯了研究者在這一領域的日益增長的興趣和積極參與。這強調了我們對開放環境中目標檢測的詳細回顧的重要性,旨在闡明和解決目標檢測器面臨的挑戰,并鼓勵在現實世界中的創新解決方案。我們的貢獻可以總結如下:

這項綜述首次開發了一個四象限分類法,涵蓋了開放環境中目標檢測器面臨的主要挑戰。此外,我們的分析深入探討了深度目標檢測架構的脆弱性,闡明了模塊之間與挑戰之間的關系。

基于挑戰框架,我們強調了開放環境目標檢測器的四個關鍵目標,并對特定問題及其相關解決方案進行了深入的審視

我們還定量基準測試了回顧的方法在多個廣泛采用的檢測數據集上,并探索了開放環境目標檢測未來發展的潛在方向

本文的其余部分組織如下。第2節描述了深度目標檢測器的發展趨勢并介紹了開放環境問題。第3節分析了現有檢測器每個組件的脆弱性以及在開放環境中的總體目標。第4、5、6和7節分別詳細介紹了領域外、類別外、魯棒學習和增量學習在開放環境中的挑戰、困難和解決方案。第8節總結并基準測試了現有方法在多個數據集上的性能。第9節總結了這項工作并討論了幾個潛在的研究方向。

付費5元查看完整內容

相關內容

目標檢測,也叫目標提取,是一種與計算機視覺和圖像處理有關的計算機技術,用于檢測數字圖像和視頻中特定類別的語義對象(例如人,建筑物或汽車)的實例。深入研究的對象檢測領域包括面部檢測和行人檢測。 對象檢測在計算機視覺的許多領域都有應用,包括圖像檢索和視頻監視。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

基礎模型通過在廣泛數據上預訓練并能夠適應多種任務,正在推動醫療保健領域的發展。它促進了醫療人工智能(AI)模型的發展,打破了有限AI模型與多樣化醫療實踐之間的矛盾。更廣泛的醫療場景將從醫療基礎模型(HFM)的發展中受益,提高其高級智能醫療服務。盡管HFM的廣泛部署即將到來,但目前對它們在醫療領域的工作方式、當前挑戰以及未來發展方向的理解還不清晰。為了回答這些問題,本綜述提供了對HFM挑戰、機遇和未來發展方向的全面而深入的考察。它首先進行了包括方法、數據和應用在內的HFM全面概述,以快速掌握當前進展。然后,它對構建和廣泛應用醫療基礎模型的數據、算法和計算基礎設施中存在的挑戰進行了深入探索。本綜述還識別了該領域中未來發展的新興和有前景的方向。我們相信,這份綜述將增強社區對HFM當前進展的理解,并為該領域未來的發展提供寶貴的指導。最新的HFM論文和相關資源將在我們的網站上維護。 在過去的十年里,隨著人工智能(AI)[1]特別是深度學習(DL)[2]的發展,醫療技術經歷了革命性的進步[3]-[5]。通過學習醫療數據,AI模型能夠解鎖數據內部的相關信息,從而協助醫療實踐。在一些影響力大的臨床疾病中,包括胰腺癌[6]、視網膜疾病[7]和皮膚癌[8]等,AI模型已經獲得了專家級的表現,顯示出光明的未來。然而,在此之前,針對特定醫療任務的專家AI模型與多樣化的醫療場景和需求之間仍存在很大的矛盾,這阻礙了它們在廣泛醫療實踐中的應用[5]。因此,存在一個開放性問題:“我們能否構建AI模型,以惠及各種醫療任務?”

如圖1所示,最近對基礎模型的研究使AI模型能夠學習通用能力,并應用于廣泛的醫療場景,對這一問題給出了有希望的答案[9]-[12]。在醫療AI相關的子領域中,包括語言、視覺、生物信息學和多模態,醫療基礎模型(HFM)已顯示出令人印象深刻的成功。a) 語言基礎模型(LFM)或稱為大型語言模型(LLM)[13]、[14],為患者和臨床醫生帶來了興奮和關注[13]。它學習了大規模的醫療語言數據,并在醫學文本處理[15]和對話[16]任務中表現出非凡的性能。b) 視覺基礎模型(VFM)在醫學圖像中展示了顯著的潛力。針對特定的模式[17]、[18]、器官[19]和任務[20]、[21]的VFM顯示了它們對潛在醫療場景的適應性和通用性能。c) 生物信息學基礎模型(BFM)幫助研究人員解鎖生命的秘密,為我們在蛋白質序列、DNA、RNA等場景提供了前景[22]-[26]。d) 多模態基礎模型(MFM)[27]-[29]為通用HFM[10]、[30]、[31]提供了一種有效的方式。它整合了來自多種模態的信息,從而實現了解釋各種醫學模態和執行多種模態依賴任務的能力[11]、[31]、[32]。因此,這些模型為解決復雜的臨床問題和提高醫療實踐的效率和效果提供了基礎,從而推動了醫療領域的發展[11]。

HFM的出現源于醫療數據的持續積累、AI算法的發展和計算基礎設施的改進[9]、[12]。然而,數據、算法和計算基礎設施的當前發展不足仍是HFM面臨的各種挑戰的根源。醫療數據的倫理、多樣性、異質性和成本使得構建足夠大的數據集以訓練廣泛醫療實踐中的通用HFM[12]、[33]變得極為困難。AI算法在適應性、容量、可靠性和責任性的需求進一步使其難以應用于真實場景[34]、[35]。由于醫療數據的高維度和大規模(例如,3D CT圖像、整張幻燈片圖像(WSI)等),計算基礎設施的需求遠大于其他領域,無論是在消耗[10]、[12]還是環境[36]方面都極為昂貴。

總的來說,推動醫療保健的基礎模型為我們展示了一個充滿機會和挑戰的新未來。在這篇綜述中,我們從一個全面的視角提出了當前HFM面臨的以下問題:1) 盡管基礎模型取得了顯著的成功,它們在醫療保健中的當前進展是什么?2) 隨著基礎模型的發展,它們面臨哪些挑戰?3) 對于HFM的進一步發展,哪些潛在的未來方向值得我們關注和探索?上述問題的答案將構建對HFM當前狀況的概覽,并為其未來的發展提供清晰的視角。由于HFM的出現,近年來已孵化出數百篇論文。因此,回顧所有這些論文和所有方面在有限的論文空間內是具有挑戰性的。在本文中,我們專注于從2018年(基礎模型時代的開始[9])到2024年醫療領域的語言、視覺、生物信息學和多模態基礎模型的當前進展,以及HFM的挑戰和未來方向。我們希望這篇綜述能幫助研究人員迅速掌握HFM的發展,并激發他們的創造力,以進一步推動醫療保健的邊界。 A. 醫療保健中基礎模型的簡史

根據Bommasani等人[9]的定義,在這篇綜述中,“基礎模型”是指在廣泛數據上預訓練并能夠適應廣泛任務的任何模型。基礎模型時代的另一個社會學特征[9]是廣泛接受將某一基礎AI模型應用于大量不同任務。基礎模型時代的代表性轉折點是2018年底自然語言處理(NLP)中的BERT模型[37],此后,預訓練模型成為NLP的基礎,然后擴散到其他領域。 在醫療保健領域的AI也在由特定目標逐漸轉向一般目標[10],這是由基礎模型的發展所驅動的。在BERT[37]之后的2019年初,BioBERT[38]公開發布,實現了醫療保健中的LFM。到2022年底,ChatGPT[39]憑借其強大的多功能性,使更多與醫療相關的從業者受益于基礎模型,從而吸引了他們的注意并進一步激發了HFM研究的熱潮。僅在2023年8月,就發布了200多項與ChatGPT相關的醫療研究[12]。對于VFMs,眾多初步工作[40]、[41]專注于獨立的預訓練或遷移學習。由于SAM[20]的廣泛影響,通用視覺模型[42]–[44]在醫療保健中引發了研究熱潮。在生物信息學方面,AlphaFold2[25]在2020年蛋白質結構預測的CASP14中獲得第一名,激發了對BFMs的興趣,并推動了RNA[45]、DNA[46]、蛋白質[25]等的研究。2021年初,OpenAI構建了CLIP[47],實現了視覺和語言的大規模學習,取得了顯著的表現。由于醫療數據的天然多模態屬性,這項技術迅速應用于醫療保健[48],并整合了來自圖像、組學、文本等的多模態數據。到2024年2月為止,所回顧的四個子領域中HFM的代表性論文數量呈指數增長(圖2),除了上述典型技術和事件外,一些新興的范式和技術在HFM中也在迅速發展。

B. 相關綜述比較及我們的貢獻

在我們廣泛的搜索中,我們發現了17項與醫療基礎模型相關的代表性綜述,應注意現有綜述在HFMs不同方面提供了有見地的想法[10]–[14]、[32]、[48]–[58]。與這些作品相比,本綜述進行了更全面的HFM概述和分析,包括方法、數據和應用,并對挑戰和未來方向進行了深入的討論和展望。具體來說,它具有以下獨特優勢:1) 系統的HFM子領域分類和研究。本綜述涵蓋了與HFM相關的四個子領域,包括語言、視覺、生物信息學和多模態。與現有的綜述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了對整個HFM領域更全面的視角。2) 對HFM方法的深入分析。本綜述深入分析了從預訓練到適應不同子領域的方法,貫穿了在醫療保健中構建通用AI模型的過程。與現有的綜述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系統總結。3) 對不同屬性HFMs的廣泛回顧。本綜述介紹了整個過程的技術和HFMs,并不局限于某些特殊屬性,如“大”[12]。與現有的綜述[12]、[56]相比,它提供了具有不同屬性HFMs的廣泛視角。4) 對HFM不同關注點的全面和更深入的探索。本綜述探討了包括方法、數據、應用、挑戰和未來方向在內的全面內容。與現有的綜述[10]、[56]、[57]相比,它為HFM提供了一個完整的視角,使讀者能夠獲得更深入的理解。

本綜述提供了對醫療基礎模型的洞察,我們的貢獻如下列出: 1. 方法的系統回顧(第二節):從2018年到2024年(1月-2月)涉及HFMs的200篇技術論文被納入本綜述。我們為這些論文提出了一個新的分類,并在語言、視覺、生物信息學和多模態子領域的預訓練和適應方面進行了回顧。它為醫療基礎模型的潛在技術創新提供了洞察。 1. 數據集的全面調查(第三節):我們調查了HFM培訓可能使用的四個子領域中的114個大規模數據集/數據庫。它識別了醫療數據集當前的限制,并為HFM研究人員提供了數據資源指導。 1. 應用的全面概述(第四節):我們概述了當前HFM作品中的16個潛在醫療應用。它展示了HFM技術在醫療實踐中的當前發展,為未來在更多場景中的應用提供了參考。 1. 關鍵挑戰的深入討論(第五節):我們討論了與數據、算法和計算基礎設施相關的關鍵挑戰。它指出了HFM當前的不足,為研究人員提供了新的機會。 1. 對新興未來方向的遠見探索(第六節):我們期待HFM在其角色、實施、應用和重點方面的未來方向。它顯示了醫療AI從傳統范式到基礎模型時代的轉變,突出了在推動該領域發展方面具有前景的未來觀點。

付費5元查看完整內容

個人數字數據是一項關鍵資產,全球各地的政府已經實施了法律和規章來保護數據隱私。數據使用者被賦予了其數據的“被遺忘權”。在機器學習(ML)過程中,被遺忘權要求模型提供者在用戶請求時刪除用戶數據及其對ML模型的后續影響。機器遺忘應運而生,以解決這一問題,它從業界和學術界獲得了越來越多的關注。雖然這一領域發展迅速,但缺乏全面的綜述來捕捉最新的進展。認識到這一缺口,我們進行了廣泛的探索,繪制了機器遺忘的全景,包括在集中式和分布式設置下遺忘算法的(細粒度)分類、關于近似遺忘的討論、驗證和評估指標、不同應用下遺忘的挑戰和解決方案,以及針對機器遺忘的攻擊。本綜述通過概述未來研究的潛在方向來結束,希望能為感興趣的學者們提供指導。

//www.zhuanzhi.ai/paper/0f1c229cadcb491e16dc9a452b6d7d91

在數據和計算能力的爆炸性增長驅動下,深度學習(DL)在各種應用中展現了驚人的性能,如自動駕駛[77, 130]、從氨基酸序列預測蛋白質的3D結構[51]、破譯遺傳密碼并揭示隱藏的DNA疾病的秘密[22],以及最近的人工智能生成內容(AIGC)浪潮,代表作有通過ChatGPT進行的文本生成[29, 97]、通過擴散模型進行的圖像和視頻生成[125]、以及通過Codex進行的代碼生成[19]。這些模型是在用戶貢獻的數據[70]上訓練的。無意中,這引發了隱私擔憂,因為模型永久記住了用戶的私人信息,這可能通過已知的例如成員推斷、屬性推斷和偏好分析攻擊以及尚未披露的隱私攻擊泄露。

通過認識到保護用戶數據隱私的重要性,國家政府已經發布了一系列規定,包括歐盟的一般數據保護條例(GDPR)[2]、加拿大的消費者隱私保護法(CPPA)和美國的加利福尼亞消費者隱私法(CCPA)[1]。這些規定規定了相關數據消費者或組織收集、存儲、分析和利用公民個人數據的強制手段。通過“被遺忘權”的執行,數據消費者必須迅速遵守用戶請求刪除其數據并消除任何相關影響。這賦予了數據貢獻者即使在數據發布后也能控制自己數據的能力,促進了分享和貢獻高質量數據的意愿。這反過來又通過提高服務利潤和降低法律風險,為(模型)服務提供者帶來了好處[11]。

值得注意的是,遺忘數據不僅符合法律要求以保護隱私,而且在其他場景中也是有益的。它可以遺忘由于有害數據(例如,對抗數據、投毒數據[134]、噪聲標簽[80])或過時數據造成的不利影響,從而提高模型的安全性、響應性和可靠性。此外,通過遺忘對手針對的受害者數據,它可以減輕多種隱私攻擊,如成員推斷攻擊和模型反轉攻擊,防止模型中敏感訓練數據的私人信息泄露。

在DL上下文中,僅從后端數據庫中刪除原始訓練數據相對無意義。因為DL模型仍然(顯式或非顯式地)記住了通常包含請求數據樣本的敏感細節的根深蒂固的模式和特征[4, 13]。因此,與DL模型直接相關的原始數據潛在表示似乎是一個挑戰,難以直接從DL模型中消除。現有的傳統隱私保護技術未能滿足這些要求,導致了機器學習中稱為機器遺忘(MU)的研究方向的出現。MU使數據貢獻者能夠主動撤回用于模型訓練的數據,旨在從訓練好的模型中擦除其影響,就好像它從未存在過一樣,而不損害模型的實用性(如圖1所示)。

鑒于賦予的“被遺忘權”,機器遺忘無疑變得更加相關。最直接的方法是定期從頭開始在剩余數據集上重新訓練一個新模型(不包括要遺忘的數據群)。不幸的是,這顯然會帶來昂貴的計算開銷以及響應延遲,尤其是對于不斷增加的數據集大小和模型復雜性。這種從頭開始的訓練更有可能對模型提供者和用戶來說是不可接受的,因此對于實際應用來說并不實用。機器遺忘試圖克服上述簡單方法的嚴重缺點。現有的MU方法可以根據是否需要對剩余數據集進行(重新)訓練操作分為兩大類,即精確遺忘和近似遺忘。精確遺忘旨在加速(重新)訓練過程,而近似遺忘通過直接更改模型參數,避免了重新訓練的需要,兩者都使得遺忘后的模型與采用簡單方法獲得的模型無法區分。

**機器遺忘正在經歷迅速的發展,但存在著顯著的全面總結和分析缺乏,以更好地描繪最新技術狀態。**例如,缺乏解決跨各種應用的機器遺忘挑戰的討論,以及缺少對機器遺忘安全性分析的討論。這些不足促使我們進行了徹底的調查。本綜述涵蓋了2015年至2024年機器遺忘領域的關鍵研究,包括集中式和分布式設置下遺忘算法的分類——后者經常被忽視,評估和驗證指標,啟用遺忘的應用,以及針對威脅MU的攻擊。本綜述的目的是提供一個知識庫,以促進該新興MU領域的進一步學術研究和創新。 本綜述的關鍵貢獻總結如下

我們對現有的機器遺忘算法進行了全面的回顧,這些算法適用于包括大型語言模型在內的多種任務,系統地將它們按遺忘機制進行分類,并對每個(子)類別固有的優點和限制進行了批判性分析。

我們提供了在分布式學習設置中面臨的機器遺忘挑戰的詳細分析,系統地對其方法進行了分類并比較了它們的優點和缺點。

我們為機器遺忘中現有的驗證和評估指標制定了一個分類體系。這個分類旨在協助數據所有者和模型所有者,強調每個指標的主要關注點。

我們強調了機器遺忘在各種場景中的多樣化應用,強調其在優化模型和防御安全與隱私攻擊方面的獨特優勢。這種靈活性允許在現實世界情況下根據特定需求進行快速部署和適應。

我們對與機器遺忘相關的挑戰進行了徹底的考察,概述了未來學者探索和參考的潛在研究方向。

本綜述的組織結構如下。第2節介紹機器遺忘的初步知識。第3節討論用于衡量機器遺忘質量的驗證和評估指標。第4節對現有的機器遺忘算法進行分類,深入探討每個細粒度類別并徹底分析其各自的優點和缺點。第5節研究分布式設置中出現的機器遺忘。第6節強調機器遺忘啟用的潛在應用,例如,擦除有害信息。第7節總結針對機器遺忘的現有隱私和安全攻擊。最后,第8節勾畫了機器遺忘當前面臨的挑戰,并提出了有希望的未來研究方向。

付費5元查看完整內容

隨著深度學習技術的發展與應用,特別是資源受限場景和數據安全場景對序列任務和數據進行快速學習需求的增多,持續學習逐漸成為機器學習領域關注的一個新熱點. 不同于人類所具備的持續學習和遷移知識的能力,現有深度學習模型在序列學習過程中容易遭受災難性遺忘的問題. 因此,如何在動態、非平穩的序列任務及流式數據中不斷學習新知識、同時保留舊知識是持續學習研究的核心. 首先,通過對近年來持續學習國內外相關工作的調研與總結,將持續學習方法分為基于回放、基于約束、基于結構3大類,并對這3類方法做進一步的細分. 具體而言,根據所使用的樣本來源將基于回放的方法細分為采樣回放、生成回放、偽樣本回放3類;根據訓練約束的來源將基于約束的方法細分為參數約束、梯度約束、數據約束3類;根據對于模型結構的使用方式將基于結構的方法細分為參數隔離、模型拓展2類. 通過對比相關工作的創新點,對各類方法的優缺點進行總結. 其次,對國內外研究現狀進行分析. 最后,針對持續學習與其他領域相結合的未來發展方向進行展望.

目前,深度學習算法和模型憑借其優異的性能在眾多任務和場景中取得巨大的成功,特別是在圖像識別[1-3]、自然語言處理[4-6]和視頻分析[7-9]等領域,甚至在具體圖像分類、實例分割任務上超越了人類的水平[10]. 然而,當面臨新任務,特別是分布差異大的序列任務學習時,深度學習模型的表現就難以達到預期,往往會出現迅速破壞之前學到的舊任務知識的現象,即災難性遺忘(catastrophic forgetting). 造成深度模型2種截然不同表現的原因在于,在傳統離線非序列任務場景下,深度模型可以重復不斷地交錯訪問和學習任務數據中的知識直到模型飽和,然而在真實序列或在線場景下,舊任務和數據無法被交錯訪問和讀取,導致舊任務的知識及其關聯的模型參數逐漸被新任務和數據擦除和覆蓋.

不同于深度模型,人類等高級動物雖然也會逐漸忘記以前學到的信息,但很少有新信息的學習會對鞏固的知識造成災難性的干擾,即人類天生具備序列學習和抵抗災難性遺忘的能力,并且能夠利用舊任務的知識幫助新任務的學習,同時將新任務知識整合進現有知識體系[11-12]. 例如,人類在小時候學會了騎自行車、游泳等技能,即便多年沒再實踐過,長大后在需要時仍然能夠輕易上手,進一步還能幫助其快速學習騎摩托車、其他水上運動等. 換言之,人類具有終生學習的能力,這是目前機器學習和深度學習算法所不具備的. 根據目前生物學和神經科學的發現,人類之所以能夠進行持續學習,是因為大腦中存在一套豐富的神經生理學機制能夠很好地調控不同腦區的穩定性-可塑性的平衡(stability-plasticity balance)[13-15] , 在早期發育的關鍵時期,大腦的可塑性特別強,隨著生物系統在一系列特定的發育階段穩定下來,可塑性變得不那么突出,在較小規模上保持一定程度的可塑性,以快速適應環境和重組知識. 此外,互補學習系統理論 (complementary learning systems theory)認為智能主體必須擁有2個學習系統,在哺乳動物的新皮質和海馬中實例化. 大腦海馬體系統具有短期適應性可以快速學習新的信息和知識,而大腦新皮層系統具有長期保持性,二者互補的特性使得人類認知系統可實現短期學習和長期記憶[16-19]. 因此,受人類認知系統的啟發,在機器學習領域,如何有效克服災難性遺忘,在記憶舊知識的同時通過遷移加快新任務的學習,使得深度模型在序列任務數據中持續不斷的學習,即持續學習(continual learning),得到廣泛關注和研究,具有重要科學研究價值和應用價值.

付費5元查看完整內容

自動駕駛領域近來見證了采用端到端算法框架方法的迅猛增長,這些方法利用原始傳感器輸入生成車輛運動規劃,而不是專注于諸如檢測和運動預測等單個任務。與模塊化流程相比,端到端系統從感知和規劃的聯合特征優化中受益。由于大規模數據集的可用性、閉環評估,以及自動駕駛算法在具有挑戰性的場景中有效執行的日益增長的需求,這一領域已經蓬勃發展。在本綜述中,我們提供了對250多篇論文的全面分析,涵蓋了端到端自動駕駛的動機、路線圖、方法、挑戰和未來趨勢。我們深入探討了幾個關鍵挑戰,包括多模態、可解釋性、因果混淆、健壯性和世界模型等。此外,我們還討論了基礎模型和視覺預訓練的當前進展,以及如何在端到端駕駛框架內整合這些技術。為了促進未來的研究,我們維護一個活躍的知識庫,其中包含與相關文獻和開源項目的最新鏈接,地址為 //github.com/OpenDriveLab/End-to-end-Autonomous-Driving。

1. 引言

傳統的自動駕駛系統采用模塊化部署策略,其中每個功能,如感知、預測和規劃,都是單獨開發并集成到車載系統中的。規劃或控制模塊負責生成轉向和加速輸出,在決定駕駛體驗方面起著至關重要的作用。在模塊化流程中,規劃的最常見方法是使用復雜的基于規則的設計,但這在應對駕駛過程中出現的大量情況時往往效果不佳。因此,利用大規模數據并使用基于學習的規劃作為一種可行的替代方案的趨勢正在增長。我們將端到端自動駕駛系統定義為完全可微的程序,它以原始傳感器數據為輸入,并生成規劃和/或低級控制動作作為輸出。圖1 (a)-(b) 說明了經典方法和端到端方法之間的區別。在傳統方法中,每個組件的輸出(如邊界框和車輛軌跡)直接饋送到后續單元(虛線箭頭)。相比之下,端到端范式跨組件傳播特征表示(灰色實線箭頭)。優化函數被設置為,例如,規劃性能,并通過反向傳播(紅箭頭)最小化損失。在此過程中,任務是聯合和全局優化的。

在這份綜述中,我們對這一新興主題進行了廣泛的回顧。圖1提供了我們工作的概述。我們首先討論端到端自動駕駛系統的動機和路線圖。端到端的方法可以大致分為模仿學習和強化學習,我們對這些方法進行了簡要回顧。我們介紹了用于閉環和開環評估的數據集和基準。我們總結了一系列關鍵挑戰,包括可解釋性、泛化、世界模型、因果混淆等。最后,我們討論了我們認為社區應該采納的未來趨勢,以整合來自數據引擎、大型基礎模型和車輛到一切等方面的最新發展。

1.1 端到端系統的動機

在經典的流程中,每個模型作為一個獨立的組件并對應于一個特定的任務(例如,交通燈檢測)。這樣的設計在可解釋性、可驗證性和調試的便捷性方面是有益的。然而,由于模塊間的優化目標不同,感知中的檢測追求平均精度(mAP),而規劃則以駕駛安全和舒適性為目標,整個系統可能無法與統一的目標保持一致,即最終的規劃/控制任務。隨著順序過程的進行,每個模塊的錯誤可能會累積并導致駕駛系統的信息損失。此外,多任務、多模型部署可能會增加計算負擔,并可能導致計算資源的使用不夠理想。與其經典的對應物相比,端到端的自動系統提供了幾個優點。(a) 最明顯的優點是它通過將感知、預測和規劃合并到一個可以聯合訓練的單一模型中,以其簡單性為特點。(b) 整個系統,包括其中間表示,都是針對最終任務進行優化的。(c) 共享基礎架構增加了計算效率。(d) 數據驅動的優化具有提供潛在能力的可能性,僅通過擴展訓練資源就能提高系統性能。請注意,端到端的范式不一定意味著一個只有規劃/控制輸出的黑箱。它可以像經典方法一樣具有模塊化設計,并具有中間表示和輸出(圖1(b))。實際上,一些最先進的系統[1, 2] 提出了模塊化設計,但將所有組件一起優化以實現卓越性能。

1.2 路線圖

圖2描繪了端到端自動駕駛中關鍵成就的時間順序路線圖,每個部分表示一個重大的范式轉變或性能提升。端到端自動駕駛的歷史可以追溯到1988年的ALVINN[3],其中輸入是來自攝像頭和激光測距儀的兩個“視網膜”,一個簡單的神經網絡生成轉向輸出。Bojarski等人[8]設計了一個原型端到端CNN系統,用于模擬和道路測試,這在GPU計算的新時代重新確立了這個想法。隨著深度神經網絡的發展,在模仿學習[15, 16]和強化學習[4, 17, 18, 19]方面取得了顯著進步。LBC[5]中提出的策略提煉范式以及相關方法[20, 21, 22, 23]通過模仿行為良好的專家的策略顯著提高了閉環性能。為了增強由于專家和學習策略之間的差異而產生的泛化能力,一些論文[10, 24, 25]提出在訓練期間聚合按策略數據[26]。

2021年對于端到端自動駕駛來說是一個重大的轉折點。由于在一個合理的計算預算內,有各種傳感器配置可用,人們開始關注將更多的模態和高級架構(如Transformers [27])整合進來,以捕捉全局上下文和代表性特征,正如TransFuser[6, 28]和許多變體[29, 30, 31]中所做的那樣。結合對模擬環境的更多洞察,這些先進的設計在閉環CARLA基準[13]上產生了顯著的性能提升。為了提高自動系統的可解釋性和安全性,像NEAT[11]、NMP[32]和BDD-X[33]這樣的方法顯式地整合各種輔助模塊以更好地監督學習過程或利用注意力可視化。最近的工作優先生成關鍵安全數據[7, 34, 35],預訓練一個(大型)為策略學習量身定制的基礎模型或基礎架構[12, 36, 37],并倡導一種模塊化端到端規劃哲學[1, 2, 38, 39]。同時,新的并且具有挑戰性的CARLA v2[13]和nuPlan[14]基準已經被引入以促進這一領域的研究。

1.3 貢獻

總結一下,本調查有三個關鍵貢獻:(a) 我們首次提供了對端到端自動駕駛的全面分析,包括高層次的動機、方法、基準等。我們提倡的哲學不是優化單個模塊,而是將算法框架作為一個整體來設計,其最終目標是實現安全舒適的駕駛。(b) 我們廣泛研究了當前方法面臨的關鍵挑戰。在調查的250多篇論文中,我們總結了主要方面,并提供了深入的分析,包括關于泛化能力、語言引導學習、因果混淆等話題。(c) 我們探討了如何采納大型基礎模型和數據引擎的更廣泛影響。我們相信,這一研究方向及其提供的大規模高質量數據可能會顯著推動這個領域的進步。為了方便未來的研究,我們維護一個活躍的知識庫,不斷更新新的文獻和開源項目。

2 方法

本節回顧了大多數現有端到端自駕車方法背后的基本原理。第2.1節討論使用模仿學習的方法,并詳細介紹兩個最流行的子類別,即行為克隆和逆向最優控制。第2.2節總結了遵循強化學習范式的方法。

3 基準測試

自動駕駛系統需要對其可靠性進行全面評估以確保安全性 [86, 87]。為了實現這一目標,研究人員必須使用適當的數據集、模擬器和指標對這些系統進行基準測試。本節描述了端到端自動駕駛系統大規模基準測試的兩種方法:(1) 在模擬環境中進行在線或閉環評估,以及 (2) 在人類駕駛數據集上進行離線或開環評估。我們特別關注更有原則的在線設置,并為了完整性提供了離線評估的簡要總結。

4 挑戰

對于圖1中描繪的每個主題/問題,我們現在討論相關的工作、當前的挑戰,以及有前景的未來趨勢和機會。我們從4.1節開始討論處理不同輸入模態和表達式的相關挑戰,然后在4.2節討論視覺抽象以提高策略學習的效率。接著,我們介紹學習范式,如世界模型學習(4.3節)、多任務框架(4.4節)和策略蒸餾(4.5節)。最后,我們討論阻礙端到端自動駕駛系統安全可靠的一般問題,包括4.6節的可解釋性,4.7節的因果混淆,以及4.8節的魯棒性和泛化能力。

5 結論

在這份綜述中,我們概述了基本方法并總結了模擬和基準測試的各個方面。我們徹底分析了迄今為止的廣泛文獻,并強調了一系列關鍵挑戰和有前途的解決方案。我們在最后討論了未來擁抱迅速發展的基礎模型和數據引擎的努力。端到端自動駕駛面臨著巨大的機遇和挑戰,其最終目標是構建通用智能體。在這個新興技術不斷涌現的時代,我們希望這份調查能作為一個起點,為這個領域帶來新的啟示。

付費5元查看完整內容

創新產品的要求正在迅速發展,反映了許多工程學科的技術進步。這種變化的加速性伴隨著產品性能、復雜性和成本的增長。為了滿足新出現的需求,需要更快的設計過程來:徹底和準確地探索更大的設計空間,利用潛在的復雜的物理相互作用來獲得性能上的好處,并避免有害的相互作用,這些相互作用可能會通過后期的缺陷發現而大大增加產品成本[1]。現在,在開發過程的早期,通過在更高的層次上耦合更多的學科來獲得設計上的好處。但是,沒有一個數學框架來確定哪些學科、耦合水平或保真度水平是需要的,以捕獲對特定系統設計最關鍵的物理學,在哪里收集設計空間數據是最好的,或者如何在有限的計算資源下做出最佳的設計決策。目前,這些決定完全是基于工程經驗的。這種方法對于那些與以前的設計相似的系統來說效果還不錯,但對于獨特和創新的車輛和技術來說可能會失敗。

在這方面,多學科設計優化(MDO)的長期挑戰之一是在需要時有效地提高建模delity,以捕捉制約或實現特定產品概念的關鍵物理。當物理學沒有得到充分的建模或解決時,在整個設計空間中依靠低延性模型進行分析可能會導致設計不可行,或明顯的次優。在優化過程中,簡單地用更高的fdelity模型替換這些模型往往不是一個實用的策略,因為這些信息量更大的技術會帶來更高的計算成本。多效性方法提供了一個概念框架,通過明智地使用有限的高效性分析,同時利用低效性模型提供的信息來有效地優化產品。在這里,多目標方法被認為是屬于一個更大的方法類別,它協調一組信息源以加速計算任務。這些信息源使用計算方法(即數學描述和隨之而來的數值分析)和/或非計算方法(如物理實驗、分析解決方案和專家分析)來量化系統響應。

盡管已經開發了相當多的多重保真度方法,但它們的能力仍在討論之中,其潛力仍未得到充分開發[2], [3]。這促使人們對可以支持這些方法的比較和嚴格評估的基準問題感興趣。Beran等人[1]提議將用例和測試問題分為三類。L1問題,具有精確解的計算便宜的分析函數;L2問題,簡化的工程應用問題,可以用減少的計算費用執行;L3問題,更復雜的工程用例,通常包括多物理場耦合。北約AVT-331研究任務組 "軍用車輛系統級設計的目標驅動、多變量方法",一直在進行協調活動,以收集和研究這三類問題的基準。本文提供了L1基準的概述,這些基準是分析性問題,與實際工程問題沒有明確的相似性,但支持跨領域的調查。文獻中提出了大量的L1基準問題,大多是與新型的多重保真度方法的介紹相結合的[4]-[23]。然而,目前還沒有一個全面的計算效率高的基準框架。

這項工作的目的是提出和討論一套具體制定和選擇的分析基準問題,以強調測試和評估廣泛的多德爾法的能力。該框架旨在提供一套標準問題、推薦的實驗設置和性能評估指標,以支持對不同計算方法的嚴格測試和比較。基準的選擇是為了體現在基于模擬的優化問題中經常遇到的數學特征和行為,這些特征和行為會對成功搜索和識別現實世界工程應用中的最優解提出挑戰。這些挑戰包括 (i) 解決維度詛咒[24]和與多維度方法相關的可擴展性;(ii) 處理目標函數的局部、多模態和不連續行為;以及(iii) 處理目標函數中可能存在的噪聲。基準的設計和選擇是為了簡單的實現,同時允許分離和研究不同的數學特征,以獲得關于不同的多德爾法的建模、設計和優化的性能的洞察力。所選的測試集包括:Forrester函數(連續和不連續)、Rosenbrock函數、Rastrigin函數(移位和旋轉)、Heterogeneous函數、一個耦合的彈簧-質量系統和Pacioreck函數(受噪聲影響)。

這套分析性L1基準的設計是為了評估多fdelity方法在面對所有這些數學特征時的弱點和優勢。本文還介紹了計算和比較這些方法的全局和優化精度的指標。全局精度指標提供了一個衡量近似最高fdelity函數的能力,也被認為是地面真實信息源。優化精度是一個以目標為導向的指標,衡量方法在搜索和找到全局最優時的效率和效果。

本文的其余部分組織如下。第2節說明了各個基準問題,包括它們的公式和它們的顯著數學特征。第3節介紹了關于建立基準實驗的建議,以便對各種方法進行公平和有意義的比較。第4節討論了不同的指標和標準,以評估和比較多重性建模和優化策略的性能。最后,第5節討論了結語。

付費5元查看完整內容

模仿學習是強化學習與監督學習的結合,目標是通過觀察專家演示,學習專家策略,從而加速強化學習。通過引入 任務相關的額外信息,模仿學習相較于強化學習,可以更快地實現策略優化,為緩解低樣本效率問題提供了解決方案。近年 來,模仿學習已成為解決強化學習問題的一種流行框架,涌現出多種提高學習性能的算法和技術。通過與圖形圖像學的最新 研究成果相結合,模仿學習已經在游戲 AI (artificial intelligence)、機器人控制、自動駕駛等領域發揮了重要作用。**本綜述圍 繞模仿學習的年度發展,從行為克隆、逆強化學習、對抗式模仿學習、基于觀察量的模仿學習和跨領域模仿學習等多個角度 進行了深入探討。**綜述介紹了模仿學習在實際應用上的最新情況,比較了國內外研究現狀,并展望了該領域未來的發展方向。 報告旨在為研究人員和從業人員提供模仿學習的最新進展,從而為開展工作提供參考與便利。//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202301140000005&journal_id=jig

1. 引言

深度強化學習(deep reinforcement learning,DRL) 有著樣本效率低的問題,通常情況下,智能體為了 解決一個并不復雜的任務,需要遠遠超越人類進行 學習所需的樣本數。人類和動物天生就有著模仿其 它同類個體的能力,研究表明人類嬰兒在觀察父母 完成一項任務之后,可以更快地學會該項任務 (Meltzoff 等,1999)。基于神經元的研究也表明,一 類被稱為鏡像神經元的神經元,在動物執行某一特 定任務和觀察另一個體執行該任務的時候都會被激 活(Ferrari 等,2005)。這些現象都啟發了研究者希望 智能體能通過模仿其它個體的行為來學習策略,因 此模仿學(imitation learning,IL)的概念被提出。模仿 學習通過引入額外的信息,使用帶有傾向性的專家 示范,更快地實現策略優化,為緩解樣本低效問題 提供了一種可行的解決途徑。

由于模仿學習較高的實用性,其從誕生以來一 直都是強化學習重要的研究方向。傳統模仿學習方 法主要包括行為克隆(Bain 和 Sammut,1995)、逆強 化學習(Ng 等,2000)、對抗式模仿學習(Ho 和 Ermon, 2016)等,這類方法技術路線相對簡單,框架相對單 一,通常在一些簡單任務上能取得較好效果 (Attia and Dayan,2018;Levine,2018)。隨著近年來計算 能力的大幅提高以及上游圖形圖像任務(如物體識 別、場景理解等)的快速發展,融合了多種技術的模 仿學習方法也不斷涌現,被廣泛應用到了復雜任務, 相關領域的新進展主要包括基于觀察量的模仿學習 (Kidambi 等,2021)、跨領域模仿學習(Raychaudhuri 等,2021;Fickinger 等,2021)等。

基于觀察量的模仿學習(imitation learning from observation,ILfO)放松了對專家示范數據的要求, 僅從可被觀察到的專家示范信息(如汽車行駛的視 頻信息)進行模仿學習,而不需要獲得專家的具體 動作數據(如人開車的方向盤、油門控制數據) (Torabi 等,2019)。這一設定使模仿學習更貼近現實 情況,使相關算法更具備實際運用價值。根據是否 需要建模任務的環境狀態轉移動力學(又稱為“模 型”),ILfO 類算法可以被分為有模型和無模型兩類。 其中,有模型方法依照對智能體與環境交互過程中 構建模型的方式,可以進一步被分為正向動態模型 (forward dynamics models)(Edwards 等 , 2019 ; Kidambi 等,2021)與逆向動態模型(inverse dynamics models)(Nair 等,2017;Torabi 等,2018;Guo 等,2019;Radosavovic 等,2021);無模型的方法主要包 括對抗式方法(Merel 等,2017;Stadie 等,2017; Henderson 等,2018) 與獎勵函數工程法(Gupta 等, 2017;Aytar 等,2018;Schmeckpeper 等,2021)。

跨領域模仿學習(cross domain imitation learning, CDIL)主要聚焦于研究智能體與專家處于不同領域 (例如不同的馬爾可夫決策過程)的模仿學習方法。 當前的 CDIL 研究主要聚焦于以下三個方面的領域 差異性(Kim 等,2020):1)狀態轉移差異(Liu 等, 2019),即環境的狀態轉移不同;2)形態學差異(Gupta 等,2017),即專家與智能體的狀態、動作空間不同; 3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020),即專家與智能體的觀察量不同。 根據算法依賴的主要技術路徑,其解決方案主要可 以分為:1)直接法(Taylor 等,2007),該類方法關注 形態學差異來進行跨領域模仿,通常使用簡單關系 函數(如線性函數)建立狀態到狀態之間的直接對 應關系;2)映射法(Gupta 等,2017;Sermanet 等, 2018;Liu 等,2018),該類方法尋求不同領域間的 深層相似性,利用復雜的非線性函數(如深度神經 網絡)完成不同任務空間中的信息轉移,實現跨領 域模仿;3)對抗式方法(Sharma 等,2019;Kim 等, 2020),該類方法通常包含專家行為判別器與跨領域 生成器,通過交替求解最小-最大化問題來訓練判別 器和生成器,實現領域信息傳遞;4)最優傳輸法 (Papagiannis 和 Li,2020;Dadashi 等,2021;Nguyen 等,2021;Fickinger 等,2021),該類方法聚焦專家 領域專家策略占用測度(occupancy measure)與目標 領域智能體策略占用測度間的跨領域信息轉移,通 過最優傳輸度量來構建策略遷移模型。

當前,模仿學習的應用主要集中在游戲 AI、機 器人控制、自動駕駛等智能體控制領域。圖形圖像 學方向的最新研究成果,如目標檢測(Feng 等,2021; Li 等,2022)、視頻理解(Lin 等,2019;Bertasius 等, 2021) 、視頻分類 (Tran 等 , 2019) 、視頻識別 (Feichtenhofer,2020)等,都極大地提升了智能體的 識別、感知能力,是模仿學習取得新進展與新應用 的重要基石。此外,近年來也有研究者開始探索直 接使用 IL 提高圖形/圖像任務的性能,如 3D/2D 模 型與圖像配準(Toth 等,2018)、醫學影像衰減校正 (Kl?ser 等,2021)、圖像顯著性預測(Xu 等,2021)等。 總體來說,模仿學習與圖像處理的有機結合,極大 地拓展了相關領域的科研范圍,為許多困難問題的 解決提供了全新的可能性。

本文的主要內容如下:首先簡要介紹模仿學習 概念,同時回顧必要的基礎知識;然后選取模仿學 習在國際上的主要成果,介紹傳統模仿學習與模仿 學習最新進展,同時也將展現國外最新的研究現狀; 接著選取國內高校與機構的研究成果,介紹模仿學 習的具體應用,同時也會比較國內外研究的現狀; 最后將總結本文,并展望模仿學習的未來發展方向 與趨勢,為研究者提供潛在的研究思路。本文是第 一個對模仿學習最新進展(即基于觀察量的模仿學 習與跨領域模仿學習)進行詳細調研的綜述,除本 文以外,(Ghavamzadeh 等,2015;Osa,2018;Attia 和 Dayan,2018;Levine,2018;Arora 和 Doshi, 2021)等文章也對模仿學習的其它細分領域進行了 調研。

**2 模仿學習新進展 **

隨著強化學習與模仿學習領域研究的不斷深入, 近些年模仿學習領域的研究取得了一些矚目的新進 展,相關的研究不再局限于理論分析與模擬環境, 而是轉向更貼近實際的方向,例如:基于觀察量的 模仿學習(2.1 節),跨領域模仿學習(2.2 節)。在 這些領域的許多工作,考慮了使用實際數據集進行 模仿學習訓練;同時其目標也并非局限于完成 Gym 等模擬環境上提供的標準任務,而是進一步轉向模 仿學習算法在機器人控制、自動駕駛等領域的實際 應用,為“模擬到現實”做出了堅實的推進。

**2.1 基于觀察量的模仿學習 **

當智能體試圖僅通過“觀察”來模仿專家的策略 時,就會出現基于觀察量的模仿學習(Imitation Learning from Observation,ILfO)這一任務(Torabi 等, 2019)。所謂的“觀察”,指的是僅包含狀態信息而不 包含動作信息的專家示范,它可以是僅包含狀態信 息的軌跡???????? = {????????}????=1 ???? ,也可以是單純的圖片或視頻。 相較于傳統模仿學習中既可以獲得專家所處的狀態, 又可以獲得專家在當前狀態下的策略(動作)的設 定,ILfO 放松了對專家示范數據的要求,從而成為 了一種更貼近現實情況、更具備實際運用價值的設 定。值得注意的是,ILfO 可以直接使用專家行為的 圖片數據作為輸入(Liu 等,2018;Torabi 等,2019; Karnan 等,2022),這在引入海量數據集的同時,也 將模仿學習與圖像圖形學、計算機視覺等領域有機 地結合起來,從而極大地拓展了相關領域的潛在研 究方向,為相關領域的進一步發展開辟了新的土壤。

IL 的目標類似,ILfO 的目標是讓智能體通 過模仿僅包含狀態信息的專家示范數據,輸出一個具有相同行為的策略。既然 ILfO 是一種更貼近現實 的設定,如何從現實的專家行為中獲得示范數據是 首先要解決的問題。一些早期的工作通過直接在專 家身上設置傳感器的方式記錄專家的行為數據 (Ijspeert 等,2001;Calinon 和 Billard,2007)。上述 方法的升級版本是采用動作捕捉技術,專家需要佩 戴專業的動作捕捉設備,這樣做的好處是計算機系 統可以直接對專家的行為進行 3 維建模,從而轉換 成模擬系統易于識別的輸入(Field 等,2009;Merel 等,2017)。隨著前些年卷積神經網絡在處理圖像數 據上大放異彩,現在較為常見的是直接使用攝像頭 拍攝專家行為,進而直接使用圖像、視頻數據作為 輸入(Liu 等,2018;Sharma 等,2019;orabi 等,2019; Karnan 等,2022)。 由于 ILfO 無法獲得專家動作,因此將專家動作 視為狀態標簽的方法將不再適用,這也使得 ILfO 變 成了更具挑戰的任務。一般來說,基于 ILfO 設定的 算法可以被分為有模型和無模型兩類。所謂的“模 型”,一般指的是環境的狀態轉移,通過對智能體與 環境交互過程中學習模型的方式作區分,可以進一 步將有模型的方法分為:正向動態模型(forward dynamics models)與逆向動態模型(inverse dynamics models);無模型的方法主要包括:對抗式方法與獎 勵函數工程法。

**2.2 跨領域模仿學習 **

跨領域模仿學習(cross domain imitation learning, CDIL)相關領域的研究最早可以追溯到機器人控制 領域通過觀察來讓機器人學習策略(Kuniyoshi 等, 1994;Argall 等,2009)。后來隨著對 ILfO(章節 2.1) 研究的深入,CDIL 的相關研究也越來越受重視。與 傳統設定下的 IL 相比,跨領域模仿學習與現實世界 中的學習過程兼容性更好(Raychaudhuri 等,2021)。 傳統的 IL 假設智能體和專家在完全相同的環境中 決策,而這一要求幾乎只可能在模擬系統(包括游戲) 中得到滿足。這一缺點嚴重地限制了傳統 IL 在現實 生活中可能的應用場景,并且將研究者的工作的重心轉移到對場景的準確建模,而并非算法本身的性 能上。CDIL 的產生打破了這一枷鎖,因為智能體可 以使用不同于自身領域的專家示范來學習策略。當 前 CDIL 所研究的領域差異主要集中在以下三個方 面(Kim 等,2020):1)狀態轉移差異(Liu 等,2019); 2)形態學差異(Gupta 等,2017);3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020)。 這些差異也對應第 2.1 章中提及的 ILfO 所面臨的挑 戰。

在模仿學習變得為人熟知之前,這一研究領域 更廣泛地被稱為遷移學習(Taylor 等,2008)。例如, Konidaris 等人(2006)通過在任務之間共享的狀態表 示子集上學習價值函數,來為目標任務提供塑性后 獎勵。Taylor 等人(2007)人工設計了一個可以將某一 MDP 對應的動作價值函數轉移到另一 MDP 中的映 射來實現知識遷移。直觀地說,為了克服智能體環 境和專家環境之間的差異,需要在它們之間建立一 個轉移或映射。Taylor 等人 (2008)介紹了一種“直接 映射”的方法,來直接學習狀態到狀態之間的映射關 系。然而,在不同領域中建立狀態之間的直接映射 只能提供有限的轉移,因為兩個形態學上不同的智 能體之間通常沒有完整的對應關系,但這種方法卻 不得不學習從一個狀態空間到另一個狀態空間的映 射(Gupta 等,2017),從而導致該映射關系是病態的。 早期的這些方法,大多都需要特定領域的知識,或 是人工構建不同空間之間的映射,這通常會使研究 變得繁瑣且泛化性較差,因此必須借助更為先進的 算法來提升性能。 隨著深度神經網絡的發展,更具表達性的神經 網絡被廣泛運用,CDIL 也迎來了較快的發展。 (Gupta 等,2017;Sermanet 等,2018;Liu 等,2018) 等文章研究機器人從視頻觀察中學習策略,為了解 決專家示范與智能體所處領域不同的問題,他們的 方法借助不同領域間成對的、時間對齊的示范來獲 得狀態之間對應關系,并且這些方法通常涉及與環 境進行交互的 RL 步驟。相較于“直接映射”的方法, 這些方法學習的映射并不是簡單的狀態對之間的關 系,而更多利用了神經網絡強大的表達性能,從而 取得更好的實驗效果。但不幸的是,成對且時間對 齊的數據集很難獲得,從而降低了該種方法的可實現性(Kim 等,2020)。

**3 模仿學習應用 **

隨著基于觀察量的模仿學習與跨領域模仿學習 的不斷發展,基于 IL 的算法也越來越符合現實場景 的應用要求,此外,圖形圖像學上的諸多最新研究 成果,也為 IL 的現實應用進一步賦能。模仿學習的 主要應用領域包括但不限于:1)游戲 AI;2)機器人 控制;3)自動駕駛;4)圖像圖形學等。本章節將列舉 有代表性的模仿學習應用類工作,同時由于現階段 國內關于模仿學習的研究主要集中在應用領域,因 此本章節將著重選取國內高校、機構的工作成果, 進而為國內該領域的研究者提供一些參考。 Gym(Brockman 等,2016)與 Mujoco(Todorov 等, 2012)是強化學習領域被最廣泛使用的訓練環境,其 為強化學習領域的研究提供了標準環境與基準任務, 使得不同的算法能在相同的設定下比較性能的優劣。 模仿學習作為強化學習最為熱門的分支領域,也廣 泛使用 Gym 與 Mujoco 作為訓練/測試環境。Gym 包 含多個基礎游戲環境以及雅達利游戲環境,Mujoco 包含多個智能體控制環境同時支持自建任務。值得 注意的是,Gym 與 Mujoco 都包含大量的圖像環境, 即以圖像的形式承載環境的全部信息,這就使得圖 像圖形學的眾多最新成果,直接推動了模仿學習的 應用。考慮到 Gym 與 Mujoco 的虛擬仿真特性,可 將其歸類為游戲環境。這些使用 Gym 與 Mujoco 進 行訓練或驗證的模仿學習算法,都能在一定程度上 推廣到其他游戲領域的應用。國內的諸多高校都在 該方面做出了自己的貢獻,包括 清華大學的 Yang 等人(2019)探究了基于逆向動態模型的 IL 算法性能, Jing 等人(2021)驗證了分層模仿學習的性能;上海交 通大學的 M.Liu 等人(2020)探究基于能量的模仿學 習算法性能,Liu 等人(2021)探究離線模仿學習算法 COIL(curriculum offline imitation learning)的性能, Liu等人(2022)探究通過解耦策略優化進行模仿學習。 南京大學的 Zhang 等人(2022)探究生成式對抗模仿 學習的性能,Xu 等人(2020) 探究模仿策略的誤差界 限,Jiang 等人(2020) 探究帶誤差的模擬器中的離線 模仿學習。

Gym 與 Mujoco 環境之外,模仿學習也被廣 泛用于訓練棋類與即時戰略類游戲 AI。這類游戲任 務的難度顯著增加,且通常包含較大信息量的圖像數據,因此也會更依賴于先進的圖像處理方法(例如 目標檢測)。對于這些復雜游戲環境,狀態動作空間 過于龐大,獎勵信息過于稀疏,智能體通常無法直 接通過強化學習獲得策略。進而,智能體首先通過 模仿人類選手的對局示范來學習較為基礎的策略, 然后使用強化學習與自我博弈等方式進一步提升策 略。其中最為代表的就是 Google 公司開發的圍棋游 戲 AI AlphaGo(Silver 等,2016)以及星際爭霸AI Alphastar(Vinyals 等,2019)。與國外的情況相似國內工業界也十分重視該類游戲 AI 的開發,包括 騰 訊公司開發的王者榮耀(復雜的多智能體對抗環境) 游戲 AI(Ye 等,2020);華為公司基于多模式對抗模 仿學習開發的即時戰略游戲 AI(Fei 等,2020),如圖 3 所示。考慮到該類游戲的超高復雜性,人工智能在 如此復雜的任務中完勝人類對手,可以預見人工智 能在游戲領域完全超越人類已經只是時間問題。 在機器人控制領域,由于機器人的價格昂貴, 部件易損且可能具備一定危險性,因此需要一種穩 定的方式獲得策略,模仿學習讓機器人直接模仿專 家的行為,可以快速、穩定地使其掌握技能,而不依 賴于過多的探索。斯坦福大學的 Abbeel 等人(2006), 早在 2006 年就將逆強化學習方法用在直升機控制 任務上(如圖 4 所示)。加州大學伯克利分校的 Nair 等人(2017),結合自監督學習與模仿學習的方法,讓 機器人通過模仿專家行為的視頻數據,學習完成簡 單的任務(如圖 5 所示)。國內高校也在該領域做出 了一定的貢獻,包括 清華大學的 Fang 等人(2019)調 研了模仿學習在機器人操控方面的研究。中國科學 院大學的 Jiayi Li 等人(2021)通過視頻數據進行元模 仿學習以控制機器(如圖 6 所示)。中科院自動化所 的 Y. Li 等人(2021)通過視頻數據進行模仿學習以精 確操控機器手臂的位置。 自動駕駛是當前人工智能最重要的應用領域 (Grigorescu 等,2020;Kiran 等,2021),模仿學習憑 借其優秀的性能也在該領域占據一席之地,特別是 基于觀察量的模仿學習與跨領域模仿學習兼容自動 駕駛的絕大部分現實需求,從而使得 IL 在該領域大 放異彩(Codevilla 等,2018;Bhattacharyya 等,2018Liang 等,2018;Chen 等,2019;Kebria 等,2019; Pan 等,2020)。國內的高校與企業也十分重視模仿 學習在自動駕駛領域的研究,包括 清華大學的 Wu 等人(2018)結合模仿學習進行水下無人設備訓練。浙 江大學的 Li 等人(2020)探究了用于視覺導航的基于 無監督強化學習的可轉移元技能;Wang 等人(2021) 探究從分層的駕駛模型中進行模仿學習(如圖 7 所 示);百度公司的 Zhou 等人(2021)使用模仿學習實現 自動駕駛。北京大學的 Zhu 等人(2021)關于深度強 化學習與模仿學習在自動駕駛領域的應用作了綜述。 事實上,近年來模仿學習也被直接用于圖像處 理上,在圖形圖像領域發揮出獨特的價值。Toth 等 人(2018)探究模仿學習在心臟手術的 3D/2D 模型與 圖像配準上的應用。Kl?ser 等人(2021)研究模仿學習 在改進3D PET/MR(positron emission tomography and magnetic resonance)衰減校正上的應用。北京航天航 空大學的Xu等人(2021)探究了生成對抗模仿學習在 全景圖像顯著性預測上的應用。 在其它領域,模仿學習也有著廣泛的應用,包 括電子有限集模型預測控制系統 (Novak 和 Dragicevic,2021)、云機器人系統(B. Liu 等,2020)、 異構移動平臺的動態資源管理(Mandal 等,2019)、 多智能體合作環境中的應用(Hao 等,2019)、信息檢 索(Dai 等,2021)、移動通信信息時效性(Wang 等, 2022)、黎曼流形(Zeestraten 等,2017)、運籌學 (Ingimundardottir 和 Runarsson,2018)、緩存替換(Liu 等,2020)等。

付費5元查看完整內容

以機器學習為代表的人工智能技術需要對海量數據進行處理,對底層算力要求極高。分布式機器學習通過將計算 任務分布式地部署到多個計算節點來加快模型的訓練速度,從而將訓練任務完成時間降低到可接受范圍。由于通信開銷對分 布式機器學習系統的擴展性具有重要影響,因此,分布式機器學習系統網絡性能優化受到各界研究者的廣泛關注。本文首先 分析了分布式機器學習系統擴展性不足的主要原因,并提出了改善其擴展性的關鍵思路,然后系統地綜述了分布式機器學習 系統網絡性能優化相關的研究工作,并對這些研究工作從多個角度進行了對比分析。最后,對分布式機器學習系統網絡性能 優化研究的未來發展趨勢進行了展望。

引言

近年來,以機器學習,尤其是深度學習,為 代表的人工智能技術在圖像識別[1]、語音識別[2]、 機器翻譯[3]和自動駕駛[4]等應用領域都取得了突 破性進展。其原因可以分為三個方面:首先,互 聯網、大數據技術的發展,積累了海量的訓練數 據,在這些數據中蘊含著豐富的信息;其次,機 器學習理論的發展使得機器學習算法和模型不斷 完善,為從訓練數據中挖掘有價值的信息創造可 能;最后,GPU 等加速器以及云計算等技術大幅 提升計算性能,大大加快了從數據中獲取信息的 速度,使得機器學習技術的應用成為現實。總之, 作為第三次人工智能浪潮的“催化劑”,算力的大 幅提升直接將人工智能再次推向新的繁榮期。高性能的機器學習算法往往具有更高的計算 需求。據 OpenAI 統計,人工智能訓練所需要的算 力呈指數級增長,每 3.5 個月翻一倍①。相比之下, 近年來計算引擎的發展速度則遠遠落后于模型計 算需求的增長。以 Nvidia GPU 發展為例,表 1 展 示了 2012 年以來 Nvidia 的多代 GPU 在訓練 ResNet 模型時的性能表現。可以看到近 8 年來, GPU 的計算性能只提高了 16 倍左右,遠低于同 期模型計算需求的增長。在“后摩爾定律”時代, 單個計算引擎的性能提升逐漸進入了瓶頸期。面 對日益復雜的計算任務,分布式機器學習被認為 是必然的發展趨勢,逐漸成為業界的研究熱點[5]。

在分布式機器學習訓練任務的迭代計算過程 中,不同計算節點間需要頻繁同步機器學習模型 參數,以使得該模型能夠遍歷完整的數據集,從 而保證最終得到的模型與使用單機訓練的模型一 致。然而,隨著計算節點數量的增多,一方面, 不同節點間進行參數同步的流量逐漸增加;另一 方面,為了避免單輪訓練過多數據(即批尺寸過 大)帶來的模型泛化能力下降問題[6],每個節點 所分配的計算任務會逐漸減少。因此,對于分布 式機器學習系統,通信開銷和計算開銷的比值會 隨著系統規模的增大而呈現冪增長趨勢。這導致 通信成為限制大規模分布式機器學習系統擴展效 率的主要瓶頸,甚至出現隨著節點數量增加,模 型訓練速度反而下降的情況[7-11]。并且,過多的通 信時間會導致 GPU 等昂貴的計算設備大部分時 間處于等待參數同步的狀態,造成計算資源的浪 費。因此,研究如何對分布式機器學習系統的網 絡性能進行優化,降低通信操作對分布式機器學 習系統擴展效率的影響,從而提高機器學習模型 的訓練速度,具有重要的研究意義和實用價值。 本文將首先介紹分布式機器學習系統的通信 特點,并分析網絡通信成為分布式機器學習系統 擴展性瓶頸的原因,然后提出三種優化網絡性能 的關鍵思路,并以這些思路為指導,從通信模式、 通信數據量、通信效率以及網絡拓撲等方面具體 地介紹分布式機器學習系統網絡性能優化研究的 最新進展,并從加速效果、優化機制、擴展性、 對模型收斂性的影響以及是否需要升級硬件設備 或更新互聯方式等多個角度對這些研究工作進行 對比分析,最后討論分布式機器學習系統中網絡 性能優化研究的未來發展趨勢2. 分布式機器學習

隨著信息技術快速發展,全球數據呈現爆發 式增長,推動人類社會邁入大數據時代。在大數 據時代,機器學習訓練任務往往需要對海量的訓 練數據進行大量的計算,以提高模型的準確度。在單機上執行這樣的訓練任務,無論是在計算速 度還是在數據存儲方面都顯得十分吃力。例如, 使用單塊 Nvidia Tesla V100 GPU 訓練自然語言處 理模型 BERT-large 需要耗時 78 天,這顯然是不可 接受的。分布式機器學習的目標則是將訓練任務 分布式地部署到多個計算節點,從而提高模型訓 練的速度,減少任務耗時。因此,分布式機器學 習已經成為機器學習最熱門的研究領域之一分布式機器學習的并行方式主要包括數據并 行(Data Parallelism)和模型并行(Model Parallelism)。如圖 3 所示,數據并行是指每個計算節 點上均具有同一機器學習模型的副本,但不同計 算節點分配到的訓練數據是不同的,不同計算節 點間需要將各自的模型更新進行同步,以保證機 器學習模型的全局一致性。模型并行則是將機器 學習模型劃分為多個子模型,并分別部署在不同 計算節點上,訓練數據統一輸入,前一節點完成 子模型計算后將計算結果傳遞給后一節點繼續對 該訓練樣本進行處理。數據并行由于操作簡單, 且不同節點的計算負載比較均衡,應用最為廣泛。目前,TensorFlow[13]、Pytorch[14]和 MXNet[15]等主 流機器學習框架均對數據并行提供了支持,并且 具有極好的易用性,但模型并行仍需要用戶手動 對模型進行劃分和分布式部署。

假設某分布式機器學習系統共有 m 個計算節 點,批尺寸為 n。當采用數據并行時,每個計算 節點每輪處理的樣本數量為 n/m。各計算節點基 于所分配到的訓練數據對模型進行更新,然后將 不同計算節點更新后的模型進行匯總。匯總后的 模型參數如下:

對比公式(2)和公式(3)可知,如果在每一輪訓 練結束時,將模型參數在所有計算節點間進行同 步,則分布式訓練時的模型參數變化和單機訓練 完全相同,即分布式訓練可以在不改變模型的收 斂性的前提下提高模型的收斂速度。需要說明的 是,在實際應用中,一般是對不同計算節點的梯 度進行匯總,然后使用匯總后的梯度來更新模型 參數,并將新的參數賦給各計算節點的模型副本。相比于單機訓練,分布式訓練額外引入了節 點之間的數據通信,從而導致分布式訓練的速度 無法隨著計算節點數量的增加而線性提高。衡量分布式機器學習訓練加速效果的指標主要包括加 速比(speedup)和擴展效率(scaling efficiency)。加速比是指同一機器學習訓練任務在單機訓練和 分布式訓練時所需時間的比值。加速比越大,分 布式訓練的加速效果越顯著,也就是說,可以更 快地完成訓練任務。需要注意的是,加速比有可 能出現小于 1 的情況,此時分布式訓練速度反而 不及單機訓練。擴展效率是指加速比和計算節點 數量的比值。擴展效率越高,各計算節點的計算 資源利用率也就越高。圖 4 展示了利用 Nvidia Tesla V100 GPU 訓練 BERT 模型時加速比和擴展 效率隨 GPU 數量的變化,可以看出加速比和擴展 效率的變化趨勢并不相同。一般來說,隨著節點 數量的增多,擴展效率呈下降趨勢,而加速比則 呈先升后降趨勢。加速比在節點數量增多時反而 下降,是由于參數同步引入的通信開銷抵消了新 增節點帶來的性能收益。

具體來說,網絡性能之所以會成為分布式機 器學習系統擴展性瓶頸的主要原因有以下三點:1) 機器學習模型越來越復雜,模型參數量 不斷增加。機器學習算法理論的快速發展催生出 各種各樣的機器學習模型。例如,OpenAI 最近提 出的自然語言處理模型 GPT-3 [16]具有 1750 億參 數,而 Krizhevsky 等 人 在 2012 年提出的 AlexNet[17]模型參數量僅為 0.45 億。這導致在相 同節點規模下,任意兩個計算節點間需要同步的 參數量隨之大幅增加,加劇了分布式機器學習系 統中網絡通信的壓力;2) 復雜的機器學習模型同時也意味著需要 更多的算力,導致分布式系統規模的增大。如前 所述,在機器學習模型不變的情況下,分布式系 統規模越大,每個節點所承擔的計算任務越少, 計算耗時越短;與之相反,分布式系統規模越大, 每個節點需要通信的對端節點數量越多,通信耗 時越長。因此,隨著分布式機器學習系統規模的 增大,通信開銷在整體模型訓練開銷中的占比越 來越高;3) GPU 等計算設備的性能提升速度快于網絡設備的升級。雖然計算設備的性能提升速度遠 不及模型算力需求的增長,但仍比網絡設備的升 級速度更快。計算性能和通信性能的差距越來越 大,即,計算資源在單位時間內處理的數據需要 更長的時間才能被網絡資源處理完。這意味著分 布式機器學習系統中的網絡瓶頸問題將會日益嚴重。

如圖 5 所示,為消除(或緩解)網絡性能對 分布式機器學習系統擴展性的限制,從本質上來 說,有以下三種根本性思路:

1) 降低通信需求。通信需求,即需要通信 的數據量和通信次數,對通信耗時具有根本性的 影響。顯然,數據量越大,或者通信越頻繁,通 信耗時越長。因此,為了減少通信耗時,可以從 機器學習算法層面構建低網絡通信需求的訓練模 型,或采用知識蒸餾和模型剪枝等方式對原模型 進行修改以減小模型尺寸。這些方法會造成訓練 模型的變化,超出了本文的討論范圍,故后文不 再作詳細描述。參數量化以及參數稀疏化保持訓 練模型不變,通過降低被傳輸的參數量來降低通 信需求。并行方式的優化通過權衡參數數據量和 激活值數據量的大小來切換不同的并行方式:當 參數數據量較少時,采用數據并行;反之,采用 模型并行。模型一致性協議通過控制參數同步的 頻率來調節通信需求。參數同步架構對通信次數 和每次通信的數據量均會產生影響,通過選取合 適的參數同步架構可以有效降低通信需求;

2) 提升通信能力。在通信需求一定時,分 布式系統的通信能力越高,通信耗時越短。通信 能力的提升主要有兩種方式。一種是利用 RDMA、NVLink 等高性能傳輸協議實現高帶寬、低時延的 網絡傳輸,或利用 MLT 等新型機器學習專用傳輸 協議降低丟包對傳輸性能的影響;另一種是采用 高帶寬的網絡互聯拓撲。例如,BCube 和 BiGraph 均采用多網卡服務器架構,不但大幅提高每個計 算節點對外通信的能力,甚至可將節點內的通信 流量導出到服務器外部,從而繞過 PCIe 瓶頸;

3) 提高通信效率。在通信需求和通信能力 均確定的情況下,還可以通過提高通信效率來加 速分布式機器學習訓練。例如,在 GPU 節點間進 行集合通信時,NCCL 通信庫由于針對 GPU 設備 采取了定制優化,因此具有比傳統集合通信庫 MPI 更高的性能。網內聚合通過逐跳匯聚參數, 增加了單位數據所蘊含的參數信息,從而提高了 通信效率。通信調度是在通信需求和通信能力固 定的情況下,高效利用網絡資源的一種方式,既 包括采用小尺寸梯度聚合來降低啟動開銷的方 案,也包括優先傳輸緊急參數來增加計算和通信 重疊程度的方式。

**3 參數同步模式優化 **

在大規模分布式機器學習訓練場景中,計算 節點間需要頻繁地進行參數同步,因此,參數同 步模式對整體訓練性能具有重要的影響。本節將 從模型一致性協議和參數同步架構這兩個方面詳 細介紹對參數同步模式進行優化的相關工作。

**3.1 模型一致性協議 **

在數據并行模式下,每個計算節點都需要保 存一份相同的模型副本,然后使用本地的訓練數 據對模型副本進行更新。因此,在訓練過程中, 不同計算節點所維護的模型副本會出現差異。為 了使得分布式訓練能夠取得與單機訓練相同的效 果,需要保證這些模型副本的一致性。

**3.2 參數同步架構 **

除模型一致性協議外,參數同步架構對大規 模分布式機器學習系統的性能也有至關重要的影 響。參數同步架構是指不同計算節點上的模型更 新進行匯總,并對模型副本進行更新的方式。按 每次模型更新是否推送給所有其他計算節點,參 數同步架構可以分為中心化架構和去中心化架 構;按模型更新是否在單一邏輯節點匯總,可以 分為集中式架構和分布式架構。一般來說,中心化架構既可以是集中式架構,也可以是分布式架 構;而去中心化架構一定是分布式架構。目前常 用的參數同步架構大多為中心化架構,因此,除 特別說明外,下文所提到的參數同步架構均為中 心化架構。

4. 優化方案

通信效率優化

在實際部署中,通信的性能和效率也會對參 數同步過程產生重要的影響。即使采用相同的參 數同步模式,不同的通信方式也會對整體的訓練 性能造成很大的差異。因此,為了提高分布式機 器學習訓練時的通信效率,研究人員在以下方面 進行了深入研究。

并行方式優化

如上文所述,數據并行和模型并行是兩種經 典的分布式機器學習訓練方式。對于數據并行來 說,通信開銷主要來自不同計算節點間的參數同 步;對于模型并行來說,當某個計算節點的輸入 來自另一個計算節點的輸出時,便會產生通信開 銷。當模型參數量小于中間計算結果的數據量時, 數據并行帶來的通信開銷較小;反之,模型并行 的通信開銷更小。然而,對模型整體使用某一種 并行方式,可能無法達到最優的訓練性能。因此, 一些工作[68-74]提出使用混合并行、流水并行等方 式,通過細粒度的并行優化來提升分布式訓練性 能。

**網絡拓撲優化 **

除以上優化方案外,分布式機器學習系統領 域的研究者也對分布式訓練集群所使用的底層物 理網絡拓撲提出了優化方案。

表 4 綜合對比了近年來研究人員所提出的分 布式機器學習系統網絡性能優化研究相關工作。 對比的主要指標包括優化機制、訓練加速效果、 節點擴展性、對模型收斂性的影響以及是否需要 更換硬件設備或者互聯方式等。這些工作從多個 層面對分布式機器學習系統的網絡性能進行優 化,不同機制之間各有優劣。 從訓練加速效果來看,ASP 這一模型一致性 協議將通信開銷從模型訓練的核心路徑上移除, 使得網絡通信不會阻塞訓練過程,加速效果非常 好;模型壓縮或并行方式優化等方案,有效地減 少了各計算節點通信的數據量,而網內聚合方案 則逐跳減少了網絡中的流量,因此,這些方案具 有非常好的加速效果;傳輸協議和通信庫優化類 方案提高了點到點通信性能,網絡拓撲優化類方 案提高了通信節點之間的互聯帶寬,這些方案的 加速效果也很好;雖然不同參數同步架構的理論 參數同步時間之間的差距主要來自于時延開銷, 但在實際中,負載均衡、多流競爭等都會影響不 同參數同步架構的實際參數同步時間,總體來說, 參數同步架構類方案的加速效果不如前面幾種方案;通信調度類方案的加速效果與訓練模型的通信/計算比高度相關,相比其他方案來說,加速效果 比較有限。 從節點擴展性來看,網內聚合類方案受限于交 換機硬件計算能力和存儲空間限制,通常應用于單 機架規模的訓練集群,擴展性較差;隨著計算節點 數量的增多,通信/計算比越來越高,導致通信調度 類方案在節點數量較多時的擴展性較差;由于交換 機端口數量、布線難度等因素的限制,底層物理網 絡拓撲的規模往往不能無限增大,如 BCube 適用于 集裝箱規模的數據中心,故網絡拓撲類方案的擴展 性一般;雖然傳輸協議和通信庫類方案可將通信性

能提高數倍,暫緩網絡瓶頸出現的時間,但隨著節 點數量的增多,通信操作又將成為系統瓶頸,故該 類方案的擴展性也一般;并行方式優化類方案的模 型并行粒度不能無限切分,因此在節點規模很大 時,仍會出現大量節點使用數據并行的情況,并且 對大量節點求解最優并行方式的算法復雜度也非 常高,如 PipeDream 的求解時間與計算節點數的二 次方和模型層數的三次方成正比,以上因素導致并 行方式優化類方案的擴展性也一般;節點規模很大 時,環規約架構的通信時間被時延開銷所主導,參 數服務器架構的連接數量也會大大增加,從而導致 傳輸性能的降低,故參數同步架構類方案的擴展性 一般;模型一致性協議從核心路徑上移除了通信, 模型壓縮類方案可將通信量降低數十乃至上百倍, 因此這兩類方案的擴展性較高。 從對模型收斂性的影響來看,模型壓縮會導致 參數同步時信息量的丟失,從而影響模型收斂性; SSP和ASP以及去中心化參數同步架構引入了陳舊 參數對全局模型的更新,也會對模型收斂性產生一 定影響;其他類方案不涉及通信內容的改變,故不 影響模型收斂性; 從對硬件的依賴性來看,RDMA 和 NVLink 需 要專用的硬件設備,故依賴于硬件設備的更新升 級;網內聚合類方案依賴于可編程交換機或專用交 換機來實現在網絡內部對參數進行聚合的目的,故 該類方案也需要底層硬件設備的支持;網絡拓撲類 方案涉及對整個集群互聯方式的修改,比較適用于 新訓練集群的搭建,在現有集群上的部署難度較 大;其他類方案均為軟件層方案,對底層硬件環境 無特殊要求,因此部署難度較低,具有非常好的通 用性。 2016 年,Google 提出了一種分布式機器學習 新形式—聯邦學習[85]。 本質上,聯邦學習是一種 加密的分布式機器學習框架,允許各參與方在不共 享本地數據的條件下與其他各方共建模型。不同于 傳統分布式機器學習,聯邦學習面臨四個新的問 題:客戶端中數據非獨立同分布問題、差分隱私問 題、通信開銷問題和客戶端無狀態問題。本文僅關 注聯邦學習中的通信開銷問題。在聯邦學習中,通 信開銷遠大于計算開銷,這主要是由于客戶端與中 央服務器之間的網絡帶寬有限,且連接質量較差, 同時不同客戶端的連接質量參差不齊造成的。 雖然聯邦學習是一種分布式機器學習框架,但 有些針對傳統分布式機器學習的網絡性能優化方 案卻不適用于聯邦學習。例如,客戶端可能通過無 線方式接入網絡,故無法對這些客戶端之間的互聯 方式進行改善;一般來說,聯邦學習的網絡瓶頸點 基本在客戶端側,因此,網內聚合的方式不能解決 聯邦學習場景下的網絡傳輸痛點;聯邦學習中各客 戶端均要使用本地數據進行訓練,并且不會將本地 數據傳輸給其他客戶端,因此聯邦學習只能使用數 據并行方式,無法通過并行方式優化的方式來提高 訓練速度。 聯邦學習場景下的網絡性能優化主要依賴對 通信內容的壓縮來實現。一般來說,客戶端上行鏈 路的帶寬比下行鏈路帶寬更小,因此,一些工作 [85-87]最早嘗試通過多種梯度壓縮方式,如量化、稀 疏化、下采樣、矩陣分解、計數草圖(count sketch) 和周期平均等,來減小客戶端的上行通信壓力。

隨 后,一些工作[88]通過壓縮參數的方式降低下行通信 成本。文獻[88]采用 Federated Dropout 的方式對神 經元進行隨機丟棄,這樣客戶端可以只訓練一個更 小的子模型,從而既減小了中央服務器到客戶端的 通信數據量,又能更加高效地完成本地計算。 雖然模型壓縮會減緩模型的收斂速度,但受限 于網絡連接質量,聯邦學習不得不通過壓縮通信內 容的方式來降低通信成本,提高訓練速度。相比之 下,傳統分布式機器學習訓練集群的互聯帶寬非常 高,并且連接可靠性極高,因此,模型壓縮在傳統 分布式機器學習訓練中往往作為可選方案,需要充 分權衡收斂性和訓練速度來決定是否需要對模型 進行壓縮,以及使用何種壓縮方式和壓縮比例。

5 研究趨勢展望

分布式機器學習系統性能優化作為分布式機 器學習領域最為熱門的研究方向之一,正在吸引越 來越多學術界和工業界研究人員的關注。由于分布 式機器學習系統網絡性能優化研究與工業界結合 緊密,具有重要的實踐價值,可以預計在未來數年 內相關研究還將持續成為焦點。 當前,國內學術界和工業界關于分布式機器學 習系統網絡性能優化的研究基本與國際水平處于 并跑狀態。因此,在國家大力發展新基建的背景下, 加強分布式機器學習系統網絡性能優化研究,不但 能夠為人工智能的發展提供內生動力,并且可以為 依托人工智能實現外部賦能創造條件,對于推動傳統行業信息化、數字化、智能化轉型升級具有非常 重要的意義。從網絡通信的角度看,我們認為未來的分布式 機器學習系統性能優化研究主要包括以下四個方 向

(1)模型的高質量壓縮。分布式機器學習訓 練的通信數據量對通信耗時具有決定性影響。從機 器學習算法的發展趨勢來看,越來越大的機器學習 模型已經成為必然[16][89]。因此,如何對訓練超大模 型時的通信數據進行高質量的壓縮,既能大幅降低 通信數據量,又不會造成訓練信息的大量丟失,是 未來緩解甚至徹底消除網絡瓶頸的重要方向。當 前,模型壓縮程度仍然受到相關理論發展的限制, 通信數據的壓縮是以更多的通信次數為代價的。除 相關壓縮理論的突破外,未來可能的發展方向還包 括細粒度的模型壓縮方式,如不同層乃至不同算子 采用不同的壓縮方式、壓縮比例,不同訓練輪數采 用不同的壓縮方式、壓縮比例,從而避免最差壓縮 比例限制整體的壓縮效果。另一個可能的方向是綜 合考慮時空相關性的模型壓縮方式,當前的壓縮算 法大多將每個參數值作為單獨個體來處理,部分算 法引入時間序列相關性以將相鄰兩輪訓練間的結 果相關聯,從而降低隨時間累積的壓縮誤差。然而, 參數張量的空間相關性尚未得到充分重視。視頻壓 縮領域中,基于時空相關性的視頻幀間壓縮方法已 得到廣泛應用。因此,模型壓縮可以借鑒視頻壓縮 領域的相關經驗,綜合考慮參數張量的時空相關性 對模型參數采取進一步的有效壓縮。

(2)并行方式優化。除壓縮通信內容外,改 進多節點之間的并行訓練方式也是降低通信開銷 的重要途徑。分布式機器學習訓練通過將訓練數 據、訓練模型分布到多個計算節點來達到并行訓練 的目的。即使對同一訓練模型和相同訓練數據而 言,不同的并行方式也會產生完全不同的流量模式 和通信數據量。現有方案大多在訓練數據、模型不 同層等維度對訓練任務進行并行化分解,最近一些 工作又引入了流水并行來提高計算資源利用率。但 這些方案仍遠未成熟。對流水并行來說,由于層間 計算依賴關系的存在,這些方案或者無法完全消除 “氣泡”,或者需要占用大量顯存來存儲多個模型 版本。如何提高流水并行的效率,同時最小化硬件 資源占用,對流水并行的應用前景至關重要。對模 型并行來說,更細粒度的操作符拆分,使其能夠并 行化計算,從而提高單個操作符的執行速度上限, 也是未來值得探索的重要方向。另外,在大規模分 布式機器學習訓練場景下,如何快速求解最優并行 化方式,將大量的計算節點合理地進行編排,也是 該類方案將來能否得到廣泛應用的重要基礎。

(3)多任務場景下的網絡資源復用。現有的 網絡性能優化方案仍主要針對單任務場景而設計, 對多任務之間的聯合優化方案仍有待研究。但在實 際訓練場景中,計算設備往往被單一訓練任務所獨 占,但網絡設備卻被很多訓練任務共享,導致不同 訓練任務由于彼此競爭網絡資源造成性能的互相 影響。對于分布式機器學習訓練任務來說,流量具 有明顯的周期特征,即,從宏觀結構來看,平均流 量并不高,但縮放到毫秒粒度,則會出現鏈路利用 率在滿載和空載之間頻繁切換的情況。當多個訓練 任務同時使用網絡資源時,所有訓練任務的通信時 間都會被拉長,導致訓練速度的下降。因此,未來 一個可能的發展方向便是通過使不同訓練任務分 時復用網絡資源,盡量減小每個訓練任務所花費的 通信時間,從而提升整體的訓練速度。

(4)專用網絡設備和架構。網絡硬件技術的 提升,對于分布式機器學習系統性能的提升具有顯 著的效果。當前,分布式機器學習訓練任務和其他 業務一樣運行在通用網絡硬件設備之上。但是分布 式機器學習訓練任務具有自己的特點,如流量矩陣 的確定性以及數據傳輸的周期性等。因此,針對分 布式機器學習業務設計專用的網絡設備和架構,如 超低轉發時延交換機、GPU 與網卡的一體化設計 等,也將成為未來的研究熱點。此外,光電互聯技 術的出現也使得數據中心網絡的帶寬和容量大幅 提高。可以預料,未來在如何合理地利用這些新型 網絡設備來提升網絡傳輸性能方面也將會產生更 多的研究成果。

付費5元查看完整內容

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。

付費5元查看完整內容

深度學習(DL)在我們的生活中扮演著越來越重要的角色。它已經在癌癥診斷、精準醫療、自動駕駛汽車、預測預測和語音識別等領域產生了巨大的影響。在傳統的學習、分類和模式識別系統中使用的人工制作的特征提取器對于大型數據集是不可擴展的。在許多情況下,根據問題的復雜性,DL還可以克服早期淺層網絡的限制,這些限制阻礙了有效的訓練和多維培訓數據分層表示的抽象。深度神經網絡(DNN)使用多個(深度)單元層,具有高度優化的算法和體系結構。來自美國AJAY SHRESTHA等學者撰寫了深度學習算法與架構回顧綜述論文,包括深度學習算法類型與訓練方法,深入研究了最近深度網絡中使用的訓練算法背后的數學原理。本文還介紹了深度卷積網絡、深度殘差網絡、遞歸神經網絡、增強學習、變分自編碼器等不同類型的深度結構。

付費5元查看完整內容
北京阿比特科技有限公司