亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本綜述提供了在強化學習(RL)和機器人技術背景下,從視頻中學習(LfV)方法的概覽。我們關注那些能夠擴展到大規模互聯網視頻數據集的方法,并在此過程中提取關于世界動態和物理人類行為的基礎知識。這些方法對于開發通用機器人具有巨大的潛力。

我們從相關的基礎概念概述開始,這些概念與機器人學習的LfV設置相關。包括討論LfV方法可以提供的激動人心的好處(例如,超出可用機器人數據的泛化改進)和對LfV關鍵挑戰的評論(例如,視頻中缺失信息和LfV分布偏移的挑戰)。我們的文獻綜述從分析可以從大型、異質視頻數據集中提取知識的視頻基礎模型技術開始。接下來,我們回顧了專門利用視頻數據進行機器人學習的方法。在這里,我們根據哪種RL知識模式受益于視頻數據的使用來分類工作。我們還強調了緩解LfV挑戰的技術,包括回顧解決視頻中缺失動作標簽問題的動作表示法。

最后,我們審查LfV數據集和基準,然后通過討論LfV中的挑戰和機會來結束這篇綜述。在這里,我們倡導可擴展的方法,這些方法可以利用可用數據的全部范圍,并針對LfV的關鍵好處。總的來說,我們希望這篇綜述能夠成為LfV新興領域的全面參考資料,催化該領域的進一步研究,并最終有助于通用機器人的進展。

這項調查關注的目標是獲得通用型機器人。這些機器人能夠在非結構化的真實世界環境中執行多種物理任務。這樣的機器人將非常有用,并具有廣泛的商業應用(例如,家庭機器人、工廠機器人或自動駕駛)。然而,通用機器人設置面臨幾個挑戰。首先,通用機器人必須具備高水平的能力,這包括從高級能力(例如,推理和計劃)到基礎技能(例如,靈巧和技能)的維持。其次,為了在非結構化環境中操作,通用機器人必須依賴不完整的部分觀察(例如,視覺和觸覺感知)來感知世界。

我們如何獲得這樣的機器人?傳統的機器人技術不足以應對,因為它們通常依賴于手工制作的物理模型理想化,并且通常無法處理非結構化和未見過的場景[Krotkov et al., 2018]。相比之下,機器學習(ML)技術更具前景,并且在機器人學中的使用日益增多,從而引入了機器人學習這一術語[Argall et al., 2009; Peters et al., 2016; Kroemer et al., 2021; Ibarz et al., 2021]。現在,普遍認為機器學習的進步是由數據、算法和計算能力的提升驅動的。幸運的是,計算成本正在持續降低[Moore, 1998; Mack, 2011],且最近開發出了高效的算法——包括表現力強的深度學習架構,如變壓器[Vaswani et al., 2017]和擴散模型[Ho et al., 2020]——其性能隨著計算和數據的增加而持續和可預見地提高[Kaplan et al., 2020]。將這些算法與從互聯網抓取的大規模、多樣化數據集結合,已經在語言理解和生成[OpenAI, 2023]、圖像生成[Betker et al., 2023],以及最近的視頻生成[Brooks et al., 2024]方面取得了顯著的進步。

有希望的是,這些深度學習方法可以轉移到機器人學[Brohan et al., 2022; Team et al., 2023b]。然而,與其他領域不同的是,機器人學缺失了成功所需的關鍵成分:適當的大型多樣化數據集。實際上,機器人學面臨一個先有雞還是先有蛋的問題。首先,由于我們的機器人能力有限,我們無法輕易收集現實世界的機器人數據。這些有限的能力意味著部署機器人來收集數據可能是低效和危險的。隨后,由于缺乏數據,我們無法輕易改進我們的機器人。因此,可以說,數據目前是機器人學進步的關鍵瓶頸。 我們如何克服這個數據瓶頸?為了提供潛在解決方案的見解,我們現在簡要討論機器人學的主要數據來源。1)真實機器人數據:這是我們想要的確切數據。通過高質量的真實機器人數據,可以使用監督學習或離線強化學習(RL)來訓練我們的機器人控制策略。然而,無論是通過人類遠程操作還是自動策略,收集現實世界的機器人數據都是昂貴且困難的。2)模擬機器人數據:與現實世界數據收集相比,模擬收集的速度明顯更快、成本更低[Kaufmann et al., 2023a]。然而,模擬帶來了一些問題。模擬物理可能不準確。此外,創建適合訓練通用政策的多樣化模擬環境和任務并非易事。此外,我們仍然通常缺乏能夠收集模擬數據的自動策略。3)互聯網數據:互聯網是一個龐大而多樣化的數據來源。它為近期深度學習的進展奠定了基礎[OpenAI, 2023; Betker et al., 2023]。互聯網文本、圖像和視頻數據包含了大量與通用型機器人相關的信息。然而,互聯網數據并非直接或輕易適用于機器人學。這是由于互聯網數據與機器人領域之間的分布偏移,以及互聯網數據中關鍵信息的缺失(例如,文本不包含視覺信息,而視頻不包含動作標簽)。 鑒于其豐富的數量和相關內容,互聯網視頻數據有助于緩解機器人技術中的數據瓶頸問題,并推動創建通用型機器人的進程。更具體地說,我們希望從互聯網視頻中獲得以下好處:(1)提高超出可用機器人數據的泛化能力;(2)提高機器人數據的數據效率和分布內性能;(3)推測性地獲得僅憑機器人數據無法實現的新興能力。事實上,從視頻中學習(LfV)這一新興領域的最近進展令人鼓舞,證明了這些好處。這包括利用大規模視頻預測模型作為機器人動態模型的工作[Yang等人,2023c; Bruce等人,2024],或利用機器人數據和互聯網視頻訓練基礎機器人政策的工作[Sohn等人,2024]。 然而,將互聯網視頻用于機器人技術帶來了一些基本和實際挑戰。首先,一般來說,視頻是一個具有挑戰性的數據模式。視頻數據是高維的、噪音大的、隨機的,并且標記不佳。這些問題使得視頻基礎模型的進展落后于語言和圖像模型。其次,特別是為機器人技術使用視頻數據引入了自己的一套問題。視頻缺乏對機器人至關重要的信息,包括明確的動作信息和低級信息,如力和本體感知。此外,互聯網視頻與下游機器人設置之間可能存在各種分布偏移,包括環境、實體和視角的差異。鑒于這些挑戰,我們提出了兩個關鍵的LfV研究問題:

如何從互聯網視頻中提取相關知識?

如何將視頻提取的知識應用于機器人技術?在本綜述中(見圖1),我們回顧了試圖回答這些問題的現有文獻。對于第一個問題,我們調查了從大規模互聯網視頻中提取知識的視頻基礎建模技術,這些技術有望成為未來LfV進展的關鍵驅動力。對于第二個問題,我們進行了徹底的文獻分析,這些文獻利用視頻數據幫助機器人學習。我們根據強化學習知識模式(KM)(即哪些表示、政策、動態模型、獎勵函數或價值函數)直接受益于視頻數據的使用來分類這些文獻。此外,我們還回顧了用于緩解LfV挑戰的常見技術,如使用動作表示來解決視頻中缺失動作標簽的問題。

我們通過討論未來LfV研究的問題和機會來結束。這包括倡導可擴展的方法,這些方法可以最好地提供LfV的承諾好處。在此,我們建議針對政策和動態模型KM。此外,我們還討論了利用視頻基礎模型技術進行LfV的方向,然后觸及克服關鍵LfV挑戰的方向。

這些有前景的機會,加上近期在LfV方面的鼓舞人心的進展[Yang等人,2023c; Bruce等人,2024],強烈表明LfV的承諾好處是完全可以實現的。我們希望這份全面的綜述能鼓勵和通知未來的LfV研究,最終有助于加速我們創建通用型機器人的進程。

付費5元查看完整內容

相關內容

盡管人工智能已經取得了令人矚目的成就,但其正向通用人工智能的道路上前進。由OpenAI開發的Sora具備分鐘級的世界模擬能力,可被視為這一發展路徑上的一個里程碑。然而,盡管取得了顯著成功,Sora仍然面臨著需要解決的各種障礙。在本綜述中,我們從Sora在文本生成視頻方面的視角出發,進行文獻的全面回顧,試圖回答一個問題:我們能從Sora中看到什么。具體來說,在介紹了基本的通用算法之后,我們從三個相互垂直的維度對文獻進行了分類:進化生成器、卓越追求和現實全景。隨后,對廣泛使用的數據集和評估指標進行了詳細整理。最后但同樣重要的是,我們識別了該領域的若干挑戰和開放性問題,并提出了未來研究和發展的潛在方向。本綜述中的文本生成視頻研究的完整列表可在以下鏈接找到:

//github.com/soraw-ai/Awesome-Text-to-Video-Generation

近年來,AI生成內容(AIGC)領域的快速進展標志著實現通用人工智能(AGI)邁出了關鍵的一步,特別是在OpenAI于2023年初推出其大型語言模型(LLM)GPT-4之后。AIGC引起了學術界和工業界的極大關注,其中包括基于LLM的對話代理ChatGPT [1],以及文本生成圖像(T2I)模型如DALL·E [2]、Midjourney [3]和Stable Diffusion [4]。這些成就顯著影響了文本生成視頻(T2V)領域,并在OpenAI的Sora [5]中展示了非凡的能力,如圖1所示。 正如[5]中所闡明的那樣,Sora被設計為一個復雜的世界模擬器,能夠根據文本指令生成現實且富有想象力的場景。其卓越的擴展能力使其能夠高效地從互聯網規模的數據中學習,這得益于DiT模型 [6]的集成,該模型取代了傳統的U-Net架構 [7]。這一戰略性整合使Sora與GenTron [8]、W.A.L.T [9]和Latte [10]等類似的進展相一致,增強了其生成能力。Sora獨特地具備生成高質量的分鐘級視頻的能力,這是現有T2V研究尚未實現的 [11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]。它還在生成高分辨率和無縫質量的視頻方面表現出色,與現有T2V方法的進展相媲美 [27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。雖然Sora在生成復雜物體方面顯著提升,超越了以往的研究 [36]、[37]、[38]、[39],但在確保這些物體之間的連貫運動方面仍面臨挑戰。盡管如此,必須承認Sora在呈現具有復雜細節的場景(包括主體和背景)方面的卓越能力,超越了以往專注于復雜場景 [24]、[40]、[41]、[42] 和合理布局生成的研究 [42]、[44]、[45]。 據我們所知,有兩篇與我們研究相關的綜述:[46]和[47]。[46]涵蓋了從視頻生成到編輯的廣泛主題,提供了一個總體概述,但只關注了有限的基于擴散的文本生成視頻(T2V)技術。同時,[47]對Sora進行了詳細的技術分析,提供了相關技術的初步綜述,但在T2V領域缺乏深度和廣度。為此,我們的工作旨在填補這一空白,通過提供對T2V方法、基準數據集、相關挑戰和未解決問題的詳盡回顧,以及未來研究方向的前瞻性,貢獻一個更為細致和全面的視角。 貢獻:在本綜述中,我們通過對OpenAI的Sora的深入研究,對文本生成視頻(T2V)領域進行了全面的回顧。我們系統地追蹤并總結了最新的文獻,提煉了Sora的核心元素。本文還闡明了基礎概念,包括在該領域至關重要的生成模型和算法。我們深入探討了所調查文獻的具體內容,從所使用的算法和模型到用于生成高質量視頻的技術。此外,本綜述還對T2V數據集和相關評估指標進行了廣泛的調查。重要的是,我們揭示了T2V研究中的當前挑戰和未解決的問題,并根據我們的見解提出了未來的發展方向。 章節結構:本文的結構如下:第二部分提供了基礎概述,包括T2V生成的目標以及支撐這項技術的核心模型和算法。第三部分主要基于我們對Sora的觀察,提供了所有相關領域的廣泛概述。第四部分進行了詳細分析,強調了T2V研究中的挑戰和未解決的問題,特別關注從Sora中獲得的見解。第五部分專門用于概述未來的研究方向,這些方向是基于我們對現有研究的分析和Sora的關鍵方面所確定的。本文在第六部分總結了我們的結論,綜合了從全面回顧中得出的見解和影響。

隨著文本生成圖像技術的重大突破,人類開始探索更具挑戰性的文本生成視頻領域,該領域能夠傳達和封裝更豐富的視覺信息。盡管近年來這一領域的研究進展較為緩慢,但Sora的推出極大地重燃了希望,標志著一個重要的轉折點,為該領域注入了新的活力。

因此,在本節中,我們將從Sora尤其是T2V生成領域中獲得的關鍵見解系統地分類為三個主要類別,并對每個類別進行詳細回顧:進化生成器(見第3.1節)、卓越追求(見第3.2節)、現實全景(見第3.3節)以及數據集和評估指標(見第3.4節)。全面的結構如圖3所示。

結論 基于對Sora的分解,本綜述對當前文本生成視頻(T2V)工作進行了全面回顧。具體來說,我們從生成模型演變的角度組織了文獻,涵蓋了基于GAN/VAE、自回歸和擴散的框架。此外,我們深入審查了文獻,基于優秀視頻應具備的三種關鍵品質:延長的持續時間、卓越的分辨率和無縫的質量。此外,鑒于Sora被稱為真實世界模擬器,我們展示了一個包含動態運動、復雜場景、多物體和合理布局的現實全景。此外,常用的視頻生成數據集和評估指標根據其來源和應用領域進行了分類。最后,我們識別了一些T2V領域剩余的挑戰和問題,并提出了未來發展的潛在方向。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

在過去的十年中,深度學習在人工智能的各個領域,包括自然語言處理、計算機視覺和生物醫學信號處理中,顯示出了顯著的主導地位。盡管模型準確性有了顯著提高,但在移動電話和微控制器等輕量級設備上部署這些模型受到了有限資源的制約。在這篇綜述中,我們為這些設備提供了全面的設計指導,詳細介紹了輕量級模型的精細設計、壓縮方法和硬件加速策略。這項工作的主要目標是探索在不影響模型準確性的前提下,如何繞過硬件限制的方法和概念。此外,我們還探討了未來輕量級深度學習的兩條值得注意的路徑:TinyML 和大型語言模型的部署技術。盡管這些路徑無疑具有潛力,但它們也帶來了重大挑戰,鼓勵對未探索領域的研究。

近年來,神經網絡(NN)的重要性急劇上升,其應用已滲透到日常生活的各個方面,并擴展到支持復雜任務【18, 84, 222】。然而,自2012年AlexNet【110】發布以來,一直流行著創建更深、更復雜的網絡以提高準確性的趨勢。例如,Model Soups【215】在ImageNet數據集上取得了顯著的準確性,但代價是超過18.43億個參數。同樣,GPT-4【10】在自然語言處理(NLP)基準測試中表現出色,盡管其擁有驚人的1.76萬億參數。值得注意的是,Amodei等人【4】指出,從2012年到2018年,深度學習(DL)的計算需求急劇增加,大約增長了300,000倍。這種尺寸的急劇增加為本文探討的挑戰和發展奠定了舞臺。

同時,近幾年來Green AI【169, 188】已成為突出的關注點,因其對顯著的GPU和訓練時間需求標記出不適合使用的重量級DL模型,這可能導致環境退化。Strubell等人【178】對在多GPU上訓練的語言模型的碳足跡進行了廣泛分析。與此同時,輕量級設備因其多功能應用和便攜性而受到增加的關注。根據Sinha【174】的說法,2022年連接的IoT設備數量增長了18%,達到了144億,并預計到2027年將增長到290億。自2016年以來生產的超過2億部iPhone證明了這種需求的增長。另一方面,邊緣設備提供了比移動設備更優越的自動化和能效,特別是在如起搏器和額溫計等設備中部署的超低成本微控制器(MCU)【46】。

為了應對上述實際需求,近年來出現了大量研究,重點是輕量級建模、模型壓縮和加速技術。連續在CVPR 2021-2023年期間舉行的年度移動AI(MAI)研討會【139–141】,主要強調在ARM Mali GPU和Raspberry Pi 4等資源受限的設備上部署DL模型用于圖像處理。此外,在ICCV 2019、ICCV 2021和ECCV 2022【3】舉辦的圖像操作進步(AIM)研討會組織了圍繞在移動設備上進行圖像/視頻操作、恢復和增強的挑戰。

通過我們的研究,我們發現從設計階段到部署,分析高效輕量級模型發展的最有效方法涉及到將三個關鍵元素整合到流程中:NN架構設計、壓縮方法和輕量級DL模型的硬件加速。以前的綜述【11, 62, 69, 121, 165】通常只關注這一流程的特定方面,例如僅討論量化方法,提供那些部分的詳細見解。然而,這些綜述可能無法提供整個過程的全面視圖,可能忽視了重要的替代方法和技術。相比之下,我們的綜述涵蓋了輕量級架構、壓縮方法和硬件加速算法。

1.1 神經網絡設計

在本文的第一部分,第2節中,我們考察了經典的輕量級架構,將它們歸類為系列族以提高清晰度。其中一些架構通過引入創新的卷積塊取得了重大進展。例如,深度可分離卷積[35]優先考慮高精度和降低計算需求。Sandler等人[168]引入了反向殘差瓶頸來增強梯度傳播。其他架構,如ShuffleNet[248],能夠開發優化的卷積操作,該操作應用了群卷積[110]以實現并行設計,并通過洗牌操作進一步提高數據組間的轉移能力。ShiftNet[217]實現了與傳統卷積相等的效果,但不需要參數或浮點運算(FLOPs)。AdderNet[21]用加法操作取代乘法操作,大大降低了計算需求。

還需注意的是,參數和FLOPs與推理時間并不總是一致相關。早期的輕量級架構,如SqueezeNet[98]和MobileNet[89],旨在減少參數和FLOPs。然而,這種減少常常會增加內存訪問成本(MAC)[138],導致推理速度變慢。因此,我們旨在通過提供更全面和深入的綜述來促進輕量級模型的應用。

1.2 神經網絡壓縮

除了輕量級架構設計外,第3節還提到了可以應用于壓縮給定架構的各種高效算法。例如,量化方法[97, 132, 230]旨在減少數據存儲需求,常通過用8位或16位數字甚至使用二進制值代替32位浮點數來實現。最簡單的剪枝算法[54, 67, 114]從模型中移除參數,以消除網絡內不必要的冗余。更復雜的算法可能會從網絡中移除整個通道或濾波器[81, 135]。知識蒸餾(KD)技術[62, 85]探討了從一個模型(稱為“教師”)向另一個模型(稱為“學生”)轉移知識的概念。教師代表一個具有所需知識的大型預訓練模型,而學生則是一個未訓練的小型模型,負責從教師中提取知識。隨著方法的演進,一些算法[5, 239]通過使用相同的網絡兩次,消除了額外教師模型的需要。隨著這些各種壓縮方法的進展,常見的是采用兩種或更多技術的融合,例如在同一模型中結合剪枝和量化方法。

1.3 神經網絡部署

在第4節中,我們瀏覽了專用于DL應用的常見硬件加速器的概況,包括圖形處理單元(GPUs)、現場可編程門陣列(FPGAs)和張量處理單元(TPUs)。此外,我們描述了各種數據流類型[23, 65, 103, 128]并深入探討了數據局部性優化方法[146, 177, 241],探索支撐DL工作流中高效處理的復雜技術。本篇綜述還討論了加速DL過程的流行DL庫[1, 24, 153],這些庫和框架在優化硬件加速器的利用中發揮了關鍵作用。此外,我們還研究了共同設計的解決方案[32, 152, 212],在加速DL中實現優化和整體的成果需要仔細考慮硬件架構和壓縮方法。

1.4 挑戰與未來工作

最后,在第5節中,我們開始探索旨在在極低功耗設備上執行DL模型的新興TinyML技術,這些設備通常的功率消耗不到1毫瓦。此外,我們的論文還深入探討了大型語言模型(LLMs),這些模型在資源有限的設備上部署時面臨挑戰,因為它們的模型尺寸巨大。在計算機視覺領域,將這些方法部署在邊緣設備上對于廣泛應用至關重要。

1.5 貢獻

本文旨在簡單但準確地描述如何利用輕量級架構、壓縮方法和硬件技術在資源受限的設備上實現準確模型。我們的主要貢獻總結如下: (1) 以前的綜述僅簡要參考了少數關于輕量級架構的作品。我們將輕量級架構組織成系列,例如將MobileNetV1-V3和MobileNeXt歸類為MobileNet系列,并提供了從其開始到現在的輕量級架構的歷史。 (2) 為了全面覆蓋輕量級DL應用,我們還涵蓋了壓縮和硬件加速方法。與許多其他綜述不同,我們的綜述明確建立了這些技術之間的聯系,提供了每個領域的徹底概覽,以便全面了解它們的相互關系。 (3) 作為輕量級DL領域前沿進展的一部分,我們回顧了當前的挑戰并探索了未來的工作。首先,我們探討了TinyML,這是一種為在資源極其有限的設備上部署DL模型而設計的新興方法。隨后,我們調查了各種當代倡議,這些倡議在輕量級DL領域的邊緣設備上利用LLMs,這是一個有前景的方向。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

機器學習如何用于機器人?本篇論文最新闡述

自動化產業導致高質量的生產、更低的制造成本以及更好的人力資源利用。機器人操縱臂在自動化過程中發揮著主要作用。然而,對于復雜的操控任務,硬編碼有效且安全的軌跡是具有挑戰性且耗時的。機器學習方法有潛力基于專家演示來學習這樣的控制器。盡管有著有希望的進展,但是必須發展更好的方法,以提高機器學習方法在訓練和部署階段的安全性、可靠性和效率。這項調查旨在回顧應用于現實世界操控任務的機器學習方法的前沿技術和最近趨勢在回顧了機器學習的相關背景后,本文的其余部分致力于在不同領域如工業、醫療保健、農業、太空、軍事以及搜索和營救中的機器學習應用。本文最后將介紹未來工作的重要研究方向。

//www.zhuanzhi.ai/paper/dd776a97f2e0321b5a3f17c4c2a69700

對于人類來說,由于具有獨特的視覺能力和具有224個自由度(DoF)和大約630塊骨骼肌肉的高度靈活的身體結構,操控不同的物體是一項瑣碎的任務[1]。然而,機器人操控是一個復雜的問題,并且是一個活躍的研究領域。原因是,用相應的(可能是簡化的)機器人副本來復制自然生物(例如人類)的視覺和動作能力是一項非常具有挑戰性的任務。隨著機器人結構的復雜性從硬到軟的增加(第2節),為它們開發控制器變得更加困難,這是使用機器學習(ML)方法進行機器人控制開發背后的動機。機器人文獻包含了多項調查,以追蹤機器學習方法,特別是強化學習(RL)和深度學習(DL)在機器人問題中的迅速進展。Amarjyoti[2]專注于應用于學習機器人操控的RL和深度RL(DRL)方法,而沒有研究領域特定的應用。此外,Amarjyoti[2]僅考慮了離散機器人,忽略了軟性的。Thuruthel等人[3]和Kim等人[4]通過研究軟性操縱器的控制策略彌補了這一不足。考慮到機器人操控的復雜性,從頭開始學習控制器具有挑戰性且有時代價高昂。而且,適應突然的變化和執行多任務并非易事。模仿學習可以用來在機器人上復制專家的行為,并推廣到新的環境[5]。模仿學習的演示要么直接,要么間接。像肌肉教學[6]和遙操作教學[7]這樣的直接演示中的訓練數據是在機器人本身上完成的。間接演示是在沒有與機器人互動的單獨環境中收集的[8]。簡化學習過程的另一種方法是在模擬環境中進行訓練,并將學到的技能轉移到真實的機器人。這可以通過使用已經廣泛評估的模擬到真實方法來實現[9, 10, 11]。

走向魯棒的機器人操控的一個基石是環境感知。很明顯,如果不能確定物體相對于機器人末端執行器(EE)的位置,物體操控是不可行的。這一需求激發了Kleeberger等人[12]回顧了基于視覺的物體抓取方法的機器學習(ML)。基于視覺的機器人抓取方法要么是分析性的(也被稱為幾何的),要么是數據驅動的[12,13]。在分析方法中,多指機器人手執行有四個屬性的力閉合抓取,即靈巧性、平衡性、穩定性和某種動態行為[14]。當且僅當可以在不與物體失去接觸的情況下,用機器人的手指尖對物體施加任意的力和力矩時,抓取才被稱為力閉合[15]。為了執行這樣的抓取,解決一個約束優化問題以滿足這四個屬性的一個子集或全部。抓取方法的第二類是數據驅動的。這一類是基于根據特定度量對采樣的抓取候選進行排名。此外,候選的生成通常基于啟發式的抓取經驗,或者是使用模擬或實際的機器人生成的,并且使用ML學習抓取技能。Kleeberger等人[12]關注的是數據驅動方法。Newbury等人[16]也回顧了兩類抓取方法,特別關注DL解決方案。

發展學習復雜問題的最先進的ML方法是有價值的,試圖將它們應用于實踐同樣重要。這就是為什么Fabisch等人[17]不是關注ML方法本身,而是致力于一項完整的調查,探討了ML方法在機器人行為學習的實際應用。采用類似的方法,Benotsmane等人[18]研究了ML在工業領域的應用,而[19]研究了農業自動化的ML和DL方法。這些方法甚至已經用于空間應用[20]。

考慮到操控任務中學習問題的多樣性,Kroemer等人[21]提出了一個包含五個類別的形式化,覆蓋了大多數軟性和離散機器人的操控學習問題。這五個類別是狀態空間表示學習、動力學模型學習、運動技能學習、已學習技能的前提條件學習和層次學習。技能的前提條件是指執行該技能的環境。在層次RL文獻中,前提條件也被稱為稱為選項的時間擴展行動的啟動集[22]。

雖然上面列出的調查在各自的權利方面都是有用的,我們相信,仍然需要一項新的調查,涵蓋ML和DL在不同領域的實際應用。在本文中,我們努力回顧醫療、工業、農業、搜救、軍事和太空應用中的前沿ML/DL技術。表1展示了我們的論文與現有的調查論文相比的貢獻。

本文的其余部分如下**。第2和3節分別致力于機器人操縱器結構和控制**。第4節回顧了RL的基礎知識,第5節回顧了它們在機器人操控中的應用和挑戰。同樣,DL在操控器的應用在第6節中被提出。第7節回顧了與操控器相關的Sim-to-real方法。第8節回顧了操控器在各個領域的應用。結論性的意見和進一步研究的建議分別在第9和10節中提出。

我們正生活在一個技術飛速發展的特殊時代,在這個時代,機器人操控器在實現高效可靠的自動化方面發揮著重要作用。雖然傳統的手工編碼控制器已經存在了很長時間,但機器人日益增長的復雜性要求更好、更易于使用的控制器。機器學習(ML)可在一定程度上用于抽象開發手工編碼控制器的復雜性。這是通過利用領域知識,以專家演示的形式,和/或使用強化學習(RL)通過與機器人工作空間的交互來學習控制器來實現的。然而,基于ML開發可靠的控制器仍需進一步研究。深度學習(DL)基礎控制器對抗性攻擊的穩健性,加強機器人周圍的人類安全,以及實現成本效益的訓練,只是未來可以追求的一些因素。

在工業領域,輸入到DL模型的通常是各種類型的傳感器讀數。只要傳感器是功能性的,DL模型就會完成它們被設計來做的目標。現在假設一個或多個傳感器由于磨損而故障。從DL模型的角度來看,故障傳感器的無效讀數就像是OOD(Out Of Distribution,分布外)輸入,可能以不可預測的方式破壞DL模型的輸出。這種行為在安全關鍵應用中可能是災難性的。因此,開發能檢測到OOD輸入的DL模型至關重要。

在盈利性行業中,由于維護而使成本最小化和生產線停機時間最短是非常重要的,這可以通過預測性維護來實現。AI方法可以有效地實施預測性維護[311]。更一般地說,麥肯錫全球研究所在其2018年報告[312]中預測,到2030年,AI有潛力為全球經濟貢獻約13萬億美元。除了盈利,工業還必須是可持續的,即它們必須最小化對我們環境的影響。AI可以用于推動綠色技術。AI和機器人能夠大大幫助的一個關鍵領域是最優能源消耗。實際例子包括使用ML優化Google數據中心的能源消耗[313],以及通過用機器人取代人類實現綠色制造。后者導致了能源消耗[314]和碳排放[315]的顯著減少。此外,ML在大數據分析[316]和大規模系統的實時性能監控[317]方面也可以發揮重要作用,這對于工業4.0的競爭市場至關重要。本次調查試圖總結控制操控器的最先進的基于ML的方法。此外,還回顧了操控器在軍事、醫療、農業、航空航天和工業等不同領域的實際應用。

付費5元查看完整內容

在過去的幾年中,在自然語言處理(NLP)和計算機視覺(CV)中使用的方法取得了一些突破。除了這些對單模態模型的改進之外,大規模的多模態方法已經成為一個非常活躍的研究領域。

這本書是一個研討會的結果,在會上,我們回顧了多模態方法,并試圖創建一個該領域的堅實概述,從深度學習的兩個子領域的當前最先進的方法開始。此外,還討論了一種模態轉換為另一種模態的建模框架,以及利用一種模態來增強另一種模態的表示學習的模型。為總結第二部分,介紹了專注于同時處理兩種模態的架構。最后,還介紹了其他模態以及通用多模態模型,這些模型能夠在一個統一的架構內處理不同模態上的不同任務。

1. 引言

人類有五種基本的感官:聽覺、觸覺、嗅覺、味覺和視覺。擁有這五種模態,我們就能夠感知和理解周圍的世界。因此,“多模態”意味著同時結合不同的信息通道來理解我們的環境。例如,當幼兒學習單詞“cat”時,他們使用不同的模態,大聲說出這個單詞,指著貓,發出“喵”的聲音。利用人類的學習過程作為角色模型,人工智能(AI)研究人員還嘗試結合不同的模態來訓練深度學習模型。從表面上看,深度學習算法是基于一個神經網絡,該神經網絡被訓練來優化一些通過所謂的損失函數在數學上定義的目標。優化,即最小化損失,是通過稱為梯度下降的數值過程來完成的。因此,深度學習模型只能處理數值輸入,并且只能產生數值輸出。然而,在多模態任務中,我們經常面臨圖片或文本等非結構化數據。因此,第一個主要問題是如何用數字表示輸入。關于多模態任務的第二個問題是如何準確地結合不同的模態。例如,一個典型的任務可能是訓練一個深度學習模型來生成一張貓的圖片。首先,計算機需要理解輸入的文本“貓”,然后以某種方式將這些信息轉換為特定的圖像。因此,需要識別文本輸入中單詞之間的上下文關系和圖像輸出中像素之間的空間關系。對學齡前兒童來說可能很容易的事情,對電腦來說卻是一個巨大的挑戰。雙方都必須了解“貓”這個詞,它包含了動物的含義和外觀。現代深度學習中的一種常見方法是生成嵌入,將貓以數字形式表示為某些潛空間中的向量。然而,為了實現這一點,近年來開發了不同的方法和算法架構。本書概述了最先進的(SOTA)多模態深度學習中使用的不同方法,以克服來自非結構化數據和組合不同模態輸入的挑戰。

**由于多模態模型通常使用文本和圖像作為輸入或輸出,因此第2章將介紹自然語言處理(NLP)和計算機視覺(CV)方法作為基礎。**NLP領域的方法試圖處理文本數據,而CV處理的是圖像處理。關于NLP(第2.1節),一個重要的概念是所謂的詞嵌入,這是當今(幾乎)所有多模態深度學習架構的一個重要部分。這一概念也為基于transformer的模型奠定了基礎,如BERT (Devlin等人,2018a),它在幾個NLP任務中取得了巨大的改進。特別是transformer的(自)注意力機制(Vaswani et al., 2017a)徹底改變了NLP模型,這就是為什么大多數模型都依賴transformer作為骨干。在計算機視覺(第2.2小節)中,將介紹不同的網絡架構,即ResNet (He等人,2015)、EfficientNet (Tan和Le, 2019a)、SimCLR (Chen等人,2020a)和BYOL (Grill等人,2020b)。在這兩個領域,比較不同的方法及其在具有挑戰性的基準上的性能是非常有趣的。因此,第2章的最后2.3小節對CV和NLP的不同數據集、預訓練任務和基準進行了總體概述。 第二章(見3)側重于不同的多模態架構,涵蓋了文本和圖像如何結合的各種各樣。所提出的模型結合并改進了NLP和CV的不同方法。首先,查看Img2Text任務(第3.1小節),介紹用于物體識別的數據集Microsoft COCO (Lin等人,2014a)和用于圖像描述的網格記憶transformer (M2 transformer) (Cornia等人,2019)。相反,研究人員開發了基于短文本提示(第3.2節)的圖像生成方法。完成這項任務的第一個模型是生成對抗網絡(GANs) (Goodfellow等人,2014b)和變分自編碼器(vae) (Kingma和Welling, 2019)。這些方法是近年來改進的,今天的SOTA transformer架構和文本引導擴散模型,如DALL-E (Ramesh et al., 2021a)和GLIDE (Nichol et al., 2021a)取得了顯著的結果。另一個有趣的問題是如何利用圖像來支持語言模型(第3.3節)。這可以通過順序嵌入、更高級的接地嵌入或transformer內部來實現。另一方面,也可以查看支持CV模型的文本,如CLIP (Radford et al., 2021b)、ALIGN (Jia et al., 2021a)和Florence (Yuan et al., 2021)(第3.4小節)。他們使用基礎模型,這意味著重用模型(例如DALL-E 2中的CLIP)以及用于連接文本和圖像的對比損失。此外,零樣本使對新的和未見過的數據進行分類成為可能,而無需昂貴的微調。特別是用于圖像分類和生成的開源架構CLIP (Radford et al., 2021b)去年吸引了很多關注。在第二章的最后,我們會介紹一些可以同時處理文本和圖像的架構(第3.5節)。例如,Data2Vec對語音、視覺和語言使用相同的學習方法,以這種方式旨在找到一種通用方法來處理一個架構中的不同模態。此外,VilBert (Lu等人,2019a)擴展了流行的BERT架構,通過實現共同注意力(co-attention)來處理圖像和文本作為輸入。該方法也用于谷歌的Deepmind Flamingo (Alayrac等人,2022)。此外,Flamingo旨在通過少樣本學習和凍結預訓練的視覺和語言模型,用單個視覺語言模型解決多個任務。

在最后一章(見4)中,介紹了能夠處理文本和圖像以外的模態的方法,如視頻、語音或表格數據。這里的總體目標是基于挑戰而不是模態找到一個通用的多模態架構。因此,人們需要處理多模態融合和對齊的問題,并決定是使用連接表示還是協調表示(第4.1節)。此外,我們將更詳細地討論如何準確地組合結構化和非結構化數據(第4.2節)。因此,將提出近年來發展起來的不同融合策略。本書通過生存分析和經濟學中的兩個用例說明了這一點。除此之外,另一個有趣的研究問題是如何在一個所謂的多用途模型(第4.3小節)中解決不同的任務,就像谷歌研究人員(Barham et al., 2022)在他們的“路徑”模型中所打算創建的那樣。展示了多模態深度學習在藝術場景中的一個示例應用,其中DALL-E (Ramesh et al., 2021a)等圖像生成模型被用于生成藝術領域的藝術作品(第4.4節)。

付費5元查看完整內容

知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。

付費5元查看完整內容

持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。

付費5元查看完整內容

許多視覺和語言的研究集中在一組小而多樣的獨立任務和支持的數據集上,這些數據集通常是單獨研究的;然而,成功完成這些任務所需的視覺語言理解技能有很大的重疊。在這項工作中,我們通過開發一個大規模的、多任務的訓練機制來研究視覺和語言任務之間的關系。我們的方法最終在12個數據集上建立了一個模型,這些數據集來自4大類任務,包括可視化問題回答、基于標題的圖像檢索、基礎引用表達式和多模態驗證。與獨立訓練的單任務模型相比,這意味著從大約30億個參數減少到2.7億個參數,同時在各個任務中平均提高性能2.05個百分點。我們使用我們的多任務框架來深入分析聯合訓練不同任務的效果。此外,我們還展示了從單一的多任務模型中細化特定任務模型可以帶來進一步的改進,達到或超過最先進的性能。

付費5元查看完整內容
北京阿比特科技有限公司