亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自動駕駛領域近來見證了采用端到端算法框架方法的迅猛增長,這些方法利用原始傳感器輸入生成車輛運動規劃,而不是專注于諸如檢測和運動預測等單個任務。與模塊化流程相比,端到端系統從感知和規劃的聯合特征優化中受益。由于大規模數據集的可用性、閉環評估,以及自動駕駛算法在具有挑戰性的場景中有效執行的日益增長的需求,這一領域已經蓬勃發展。在本綜述中,我們提供了對250多篇論文的全面分析,涵蓋了端到端自動駕駛的動機、路線圖、方法、挑戰和未來趨勢。我們深入探討了幾個關鍵挑戰,包括多模態、可解釋性、因果混淆、健壯性和世界模型等。此外,我們還討論了基礎模型和視覺預訓練的當前進展,以及如何在端到端駕駛框架內整合這些技術。為了促進未來的研究,我們維護一個活躍的知識庫,其中包含與相關文獻和開源項目的最新鏈接,地址為 //github.com/OpenDriveLab/End-to-end-Autonomous-Driving。

1. 引言

傳統的自動駕駛系統采用模塊化部署策略,其中每個功能,如感知、預測和規劃,都是單獨開發并集成到車載系統中的。規劃或控制模塊負責生成轉向和加速輸出,在決定駕駛體驗方面起著至關重要的作用。在模塊化流程中,規劃的最常見方法是使用復雜的基于規則的設計,但這在應對駕駛過程中出現的大量情況時往往效果不佳。因此,利用大規模數據并使用基于學習的規劃作為一種可行的替代方案的趨勢正在增長。我們將端到端自動駕駛系統定義為完全可微的程序,它以原始傳感器數據為輸入,并生成規劃和/或低級控制動作作為輸出。圖1 (a)-(b) 說明了經典方法和端到端方法之間的區別。在傳統方法中,每個組件的輸出(如邊界框和車輛軌跡)直接饋送到后續單元(虛線箭頭)。相比之下,端到端范式跨組件傳播特征表示(灰色實線箭頭)。優化函數被設置為,例如,規劃性能,并通過反向傳播(紅箭頭)最小化損失。在此過程中,任務是聯合和全局優化的。

在這份綜述中,我們對這一新興主題進行了廣泛的回顧。圖1提供了我們工作的概述。我們首先討論端到端自動駕駛系統的動機和路線圖。端到端的方法可以大致分為模仿學習和強化學習,我們對這些方法進行了簡要回顧。我們介紹了用于閉環和開環評估的數據集和基準。我們總結了一系列關鍵挑戰,包括可解釋性、泛化、世界模型、因果混淆等。最后,我們討論了我們認為社區應該采納的未來趨勢,以整合來自數據引擎、大型基礎模型和車輛到一切等方面的最新發展。

1.1 端到端系統的動機

在經典的流程中,每個模型作為一個獨立的組件并對應于一個特定的任務(例如,交通燈檢測)。這樣的設計在可解釋性、可驗證性和調試的便捷性方面是有益的。然而,由于模塊間的優化目標不同,感知中的檢測追求平均精度(mAP),而規劃則以駕駛安全和舒適性為目標,整個系統可能無法與統一的目標保持一致,即最終的規劃/控制任務。隨著順序過程的進行,每個模塊的錯誤可能會累積并導致駕駛系統的信息損失。此外,多任務、多模型部署可能會增加計算負擔,并可能導致計算資源的使用不夠理想。與其經典的對應物相比,端到端的自動系統提供了幾個優點。(a) 最明顯的優點是它通過將感知、預測和規劃合并到一個可以聯合訓練的單一模型中,以其簡單性為特點。(b) 整個系統,包括其中間表示,都是針對最終任務進行優化的。(c) 共享基礎架構增加了計算效率。(d) 數據驅動的優化具有提供潛在能力的可能性,僅通過擴展訓練資源就能提高系統性能。請注意,端到端的范式不一定意味著一個只有規劃/控制輸出的黑箱。它可以像經典方法一樣具有模塊化設計,并具有中間表示和輸出(圖1(b))。實際上,一些最先進的系統[1, 2] 提出了模塊化設計,但將所有組件一起優化以實現卓越性能。

1.2 路線圖

圖2描繪了端到端自動駕駛中關鍵成就的時間順序路線圖,每個部分表示一個重大的范式轉變或性能提升。端到端自動駕駛的歷史可以追溯到1988年的ALVINN[3],其中輸入是來自攝像頭和激光測距儀的兩個“視網膜”,一個簡單的神經網絡生成轉向輸出。Bojarski等人[8]設計了一個原型端到端CNN系統,用于模擬和道路測試,這在GPU計算的新時代重新確立了這個想法。隨著深度神經網絡的發展,在模仿學習[15, 16]和強化學習[4, 17, 18, 19]方面取得了顯著進步。LBC[5]中提出的策略提煉范式以及相關方法[20, 21, 22, 23]通過模仿行為良好的專家的策略顯著提高了閉環性能。為了增強由于專家和學習策略之間的差異而產生的泛化能力,一些論文[10, 24, 25]提出在訓練期間聚合按策略數據[26]。

2021年對于端到端自動駕駛來說是一個重大的轉折點。由于在一個合理的計算預算內,有各種傳感器配置可用,人們開始關注將更多的模態和高級架構(如Transformers [27])整合進來,以捕捉全局上下文和代表性特征,正如TransFuser[6, 28]和許多變體[29, 30, 31]中所做的那樣。結合對模擬環境的更多洞察,這些先進的設計在閉環CARLA基準[13]上產生了顯著的性能提升。為了提高自動系統的可解釋性和安全性,像NEAT[11]、NMP[32]和BDD-X[33]這樣的方法顯式地整合各種輔助模塊以更好地監督學習過程或利用注意力可視化。最近的工作優先生成關鍵安全數據[7, 34, 35],預訓練一個(大型)為策略學習量身定制的基礎模型或基礎架構[12, 36, 37],并倡導一種模塊化端到端規劃哲學[1, 2, 38, 39]。同時,新的并且具有挑戰性的CARLA v2[13]和nuPlan[14]基準已經被引入以促進這一領域的研究。

1.3 貢獻

總結一下,本調查有三個關鍵貢獻:(a) 我們首次提供了對端到端自動駕駛的全面分析,包括高層次的動機、方法、基準等。我們提倡的哲學不是優化單個模塊,而是將算法框架作為一個整體來設計,其最終目標是實現安全舒適的駕駛。(b) 我們廣泛研究了當前方法面臨的關鍵挑戰。在調查的250多篇論文中,我們總結了主要方面,并提供了深入的分析,包括關于泛化能力、語言引導學習、因果混淆等話題。(c) 我們探討了如何采納大型基礎模型和數據引擎的更廣泛影響。我們相信,這一研究方向及其提供的大規模高質量數據可能會顯著推動這個領域的進步。為了方便未來的研究,我們維護一個活躍的知識庫,不斷更新新的文獻和開源項目。

2 方法

本節回顧了大多數現有端到端自駕車方法背后的基本原理。第2.1節討論使用模仿學習的方法,并詳細介紹兩個最流行的子類別,即行為克隆和逆向最優控制。第2.2節總結了遵循強化學習范式的方法。

3 基準測試

自動駕駛系統需要對其可靠性進行全面評估以確保安全性 [86, 87]。為了實現這一目標,研究人員必須使用適當的數據集、模擬器和指標對這些系統進行基準測試。本節描述了端到端自動駕駛系統大規模基準測試的兩種方法:(1) 在模擬環境中進行在線或閉環評估,以及 (2) 在人類駕駛數據集上進行離線或開環評估。我們特別關注更有原則的在線設置,并為了完整性提供了離線評估的簡要總結。

4 挑戰

對于圖1中描繪的每個主題/問題,我們現在討論相關的工作、當前的挑戰,以及有前景的未來趨勢和機會。我們從4.1節開始討論處理不同輸入模態和表達式的相關挑戰,然后在4.2節討論視覺抽象以提高策略學習的效率。接著,我們介紹學習范式,如世界模型學習(4.3節)、多任務框架(4.4節)和策略蒸餾(4.5節)。最后,我們討論阻礙端到端自動駕駛系統安全可靠的一般問題,包括4.6節的可解釋性,4.7節的因果混淆,以及4.8節的魯棒性和泛化能力。

5 結論

在這份綜述中,我們概述了基本方法并總結了模擬和基準測試的各個方面。我們徹底分析了迄今為止的廣泛文獻,并強調了一系列關鍵挑戰和有前途的解決方案。我們在最后討論了未來擁抱迅速發展的基礎模型和數據引擎的努力。端到端自動駕駛面臨著巨大的機遇和挑戰,其最終目標是構建通用智能體。在這個新興技術不斷涌現的時代,我們希望這份調查能作為一個起點,為這個領域帶來新的啟示。

付費5元查看完整內容

相關內容

 ,又稱為無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,是自動化載具的一種,具有傳統汽車的運輸能力。作為自動化載具,自動駕駛汽車不需要人為操作即能感測其環境及導航。完全的自動駕駛汽車仍未全面商用化,大多數均為原型機及展示系統,部分可靠技術才下放至商用車型,但有關于自駕車逐漸成為現實,已經引起了很多有關于道德的討論。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容

深度學習(DL)已經被證明是一種非常有效的方法,可以在不同的環境下開發模型,包括視覺感知、語音識別和機器翻譯。然而,應用DL的端到端過程并不簡單。它需要處理問題形式化和上下文理解、數據工程、模型開發、部署、持續監視和維護等等。此外,就知識和互動而言,每個步驟都嚴重依賴于人類,這阻礙了DL的進一步發展和普遍化。因此,為了應對這些問題,在過去幾年出現了一個新的領域: 自動深度學習(AutoDL)。這一努力尋求最小化人類參與的需要,并以其在神經架構搜索(NAS)方面的成就而聞名,這是幾個綜述的焦點話題。也就是說,NAS并不是AutoDL的全部和最終目標。因此,本文采用了一個全面的視角,在整個原型DL工作流中檢查自動化方面的研究工作。在這樣做的同時,這項工作還提出了一套全面的10個標準,通過這些標準來評估現在工作和更廣泛的研究領域的現有工作。這些標準是: 新穎性、解決方案質量、效率、穩定性、可解釋性、復現性、工程質量、可擴展性、通用性和生態友好性。因此,最終,本綜述提供了一個對本世紀20年代初AutoDL的評估概述,確定了未來可能存在的進步機會。

在對人工智能(AI)的追求中,歷史可能會將2010年代早期視為一個里程碑,以無與倫比的強度刺激研發的新時代。在這些改革的歲月里,機器學習(ML)領域目睹了優先級和方法的轉變。兩種方法脫穎而出:

深度學習(DL)——多層人工神經元網絡是推動ML能力的核心思想。

自動化機器學習(AutoML)——ML工作流的任何部分都不應該依賴于人類的參與。

這兩種方法最終將不可避免地融合在一起,融合到自動化深度學習(AutoDL)這一新穎的學科中。

端到端DL工作流示意圖,即應用DL解決問題所涉及的過程。傳統上,該工作流的每個部分都需要人工決策,例如分析問題上下文、定義ML任務、設計模型、手動調整超參數、選擇訓練策略等。

無可否認,雖然AutoDL在2021年是一個“熱門話題”,但這一熱潮背后的基礎可以追溯到幾十年前。ML本身的概念[187]建立于20世紀50年代,旨在通過自動數據驅動算法調整理想函數的數學模型。隨著時間的推移,到21世紀初,大量的ML模型和算法將在實際場景中得到應用,支持向量機和其他內核方法尤其受歡迎[113]。神經元與人類智能有著千絲萬縷的聯系,神經元的概念似乎一直是ML的一個顯而易見的基礎。早在20世紀40年代[185],它們在多層排列中的代表性就已經在20世紀60年代后期顯現出來,以protoDL“數據處理的群體方法”(GMDH)為例[125]。因此,隨著人工智能冬天的到來,各種類型的神經層和架構的變化被提出和采用。這些包括循環結構[114,166],卷積和下采樣層[85],自動編碼器層次[15],記憶機制[208]和門結構[111]。因此,歷史上人工神經網絡(ANN)的成功是不可否認的,包括手寫識別[154]、時間序列預測[269]、視頻檢索[131,289]、有絲分裂檢測[46]等。然而,深度神經網絡(DNN)的優勢,包括其作為通用逼近器的地位[115],被其復雜性的笨拙性質所抵消。例如,雖然BackPropagation在20世紀70年代被建立為反向自動微分[165],但這種DNN訓練技術直到最近才普遍可行。因此,DL在2010年代的主導地位上升[153,234],既是大數據基礎設施和硬件加速(特別是圖形處理器)的結果,也是任何一個理論進步的結果。

雖然在這個領域有許多綜述[70,79,219,274,298],大多數集中在AutoDL的一兩個子領域的深度分析。相比之下,我們研究了整個DL工作流(如果存在的話)的研究,并試圖評估到2021年,AutoDL目前的角色是什么,以及它的發展方向是什么。我們首先在第2節提供AutoDL的概述,介紹幾個基本概念。然后,根據DL工作流的啟發,將主要的AutoDL研究劃分為幾個部分,如圖2所示,我們探索自動化:任務管理(第3節)、數據準備(第4節)、神經架構設計(第5節)、超參數選擇(第6節)、模型部署(第7節)和在線維護(第8節)。

自動深度學習概述

AutoDL研究分解示意圖,將調研論文歸于DL工作流的不同階段,然后進一步細分。餅狀圖表示所有工作流階段中出版物的比例,而白色堆疊條形圖表示每個子類別中的比例。所有統計數據都來自Awesome-AutoDL項目://github.com/D-X-Y/Awesome-AutoDL。

DL任務通常從定義感興趣的問題開始。這主要涉及到將人類的需求轉化為計算機可操作的表示,例如,從像素映射到分類類的預測函數的搜索,其中稀疏標記可能需要半監督學習技術。一旦問題被定義,下一步通常是定義未來DNN模型的輸入空間。一般假設輸入數據應該是獨立的和相同分布的(i.i.d),數據收集和組織的策略需要仔細考慮。當對原始數據進行智能預處理時,神經網絡的訓練效果也會更好,而且有很多方法可以做到這一點。例如,主成分分析(PCA)可用于改變高維數據的基礎,即具有許多特征的實例,從而使數據方差沿著最小的維數最大化; 隨后的投影消除了這些所謂的主分量以外的軸,以最小的信息損失實現了降維[116,202]。預處理還可以包括將分類數據編碼為整數或一個熱門向量[3],以及通過標準化、標準化或冪變換[26]進行特征縮放。

最終,是時候構建DL模型了。在標準表述中,該模型是一個具有多個神經元層的DNN,并使用多種方式將這些神經元層連接在一起,例如使用全連接、局部卷積連接,甚至使用殘差神經網絡(ResNet)的直接層跳過[105]。因此,需要選擇神經結構和訓練算法;它們分別與通常所說的“模型/架構超參數”和“算法/訓練超參數”相關。然后,DL模型根據輸入數據進行訓練,從而調整DL模型的權重以最佳地表示理想的函數。從歷史上看,有很多關于如何做到這一點的方法,從GMDH[125]到無監督的贏家通吃方法[34,84,151]。然而,反向傳播已成為現代全連接多層神經網絡的主要訓練策略。最初的推導和實現[165]分別可以追溯到20世紀60年代和70年代,它在20世紀80年代得到普及[152,225,273],并有效地用于訓練多層感知器(MLPs),盡管在硬件的進步使大規模問題的普遍使用成為可能之前還需要幾十年。值得注意的是,通過反向傳播的梯度下降的普通形式在速度、收斂性、泛化等方面存在一些缺點。在過去幾十年里,已經提出了許多升級方法,如隨機梯度下降(SGD)、動量SGD[225]、彈性傳播[221]和自適應估計[141]。神經結構搜索(Neural Architecture Search, NAS)也成為DL模型構建的關鍵研究課題之一;見第五節。

一旦DL模型被選擇和訓練,在典型的DL工作流中還有更多的工作要做。在實際應用中,需要部署DL模型,有時在定制設備和硬件上。在大多數情況下,部署的DL模型在結構和網絡權值上都與訓練的DL模型相同。在某些資源受限的情況下,必須通過剪枝、量化或稀疏正則化對模型進行壓縮[59、100、101、167],然后才能將其投入實際生產。此外,還存在一個從不斷變化的環境中學習和適應的問題,即必須使用AutoDL方法來處理連續流、非平穩的數據。雖然這個問題已經在更廣泛的ML領域研究了很多年[86,136,311],甚至開始在完全自動化和自主ML系統的背景下考慮和解決[14,140],但它仍然是DL的一個主要挑戰。由于這個問題出現在許多現實世界的場景中,例如股票市場[7,292]和消費者推薦系統[106,220],在這些場景中,DNN是例行部署的,因此需要強大的適應性能力來保持這些模型更新。

付費5元查看完整內容

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。

//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c

引言

醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。

圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。

關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。

在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。

  1. 我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。

  2. 我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。

  3. 我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。

付費5元查看完整內容

邊緣計算在自動駕駛的環境感知和數據處理方面有著極其重要的應用。自動駕駛汽車可以通過從邊緣節點獲得環境信息來擴大自身的感知范圍,也可以向邊緣節點卸載計算任務以解決計算資源不足的問題。相比于云計算,邊緣計算避免了長距離數據傳輸所導致的高時延,能給自動駕駛車輛提供更快速的響應,并且降低了主干網絡的負載。基于此,首先介紹了基于邊緣計算的自動駕駛汽車協同感知和任務卸載技術及相關挑戰性問題,然后對協同感知和任務卸載技術的研究現狀進行了分析總結,最后討論了該領域有待進一步研究的問題。

付費5元查看完整內容

自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1

付費5元查看完整內容
北京阿比特科技有限公司