亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容

相關內容

深度生成模型基本都是以某種方式尋找并表達(多變量)數據的概率分布。有基于無向圖模型(馬爾可夫模型)的聯合概率分布模型,另外就是基于有向圖模型(貝葉斯模型)的條件概率分布。前者的模型是構建隱含層(latent)和顯示層(visible)的聯合概率,然后去采樣。基于有向圖的則是尋找latent和visible之間的條件概率分布,也就是給定一個隨機采樣的隱含層,模型可以生成數據。 生成模型的訓練是一個非監督過程,輸入只需要無標簽的數據。除了可以生成數據,還可以用于半監督的學習。

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。

關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言

視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題

  1. 在工業機器視覺應用中使用了哪些GenAI模型架構?
  2. GenAI方法需要滿足哪些要求和特性才能適用于工業機器視覺領域?
  3. GenAI已成功應用于哪些工業機器視覺任務?

本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。

2 生成式人工智能

生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法

如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。

付費5元查看完整內容

強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能

大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發展,深度RL結合了RL和深度神經網絡的優勢,能夠抽象復雜的觀測并學習高效的特征表示【6】。在過去的代表性研究中,它在棋類游戲【7】【8】、電子游戲【9】【10】以及機器人控制【11】–【13】等領域表現出色,甚至在某些情況下超越了人類表現。對于自動駕駛而言,RL使端到端控制成為現實,即從車輛感知到車輛應該做什么的直接轉換,就像人類駕駛員一樣。盡管RL在自動駕駛車輛方面取得了許多顯著成就,大多數相關工作仍是從單個車輛的角度出發,這導致了以自我為中心并可能具有攻擊性的駕駛策略,可能會引發安全事故并降低交通系統的效率。

對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中,所有智能體在共享的環境中做出決策并進行交互。這意味著每個智能體的狀態不僅取決于其自身的行為,還取決于其他智能體的行為,使得環境動態呈現非靜態和時間變化性。此外,根據任務設置,智能體可能相互合作或競爭。在如此復雜的場景中,手動編程預先行動幾乎是不可能的【15】。得益于多智能體強化學習(MARL)的重大進展,交通控制【16】【17】、能源分配【18】【19】、大規模機器人控制【20】【21】以及經濟建模與預測【22】【23】領域均取得了實質性突破。圖1展示了這些相關研究主題的出版物數量。使用Dimensions數據庫進行AI搜索【14】,我們搜索了包括多智能體強化學習、自動駕駛和智能交通在內的關鍵詞。統計結果表明,學術界對這些問題高度關注,相關研究領域正處于快速增長階段。為了加速進一步研究并幫助新研究人員快速入門,我們審閱了200多篇出版物、開源軟件和代碼庫,然后系統地總結了現有成就和最新進展。

在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多綜述【28】–【30】介紹了RL的基本理論和應用,并分析了其發表時最先進的(SoTA)自動駕駛算法,但它們主要關注單智能體學習。綜述【31】的作者首次定義了分層結構的自動駕駛系統,并將其研究范圍限定在局部運動規劃。他們說明了車輛的動力學,并展示了采樣和基于搜索的方法如何在數學上工作。然而,他們忽略了基于學習的方法的貢獻。在最近的運動規劃綜述【2】中,研究人員全面調查了管道和學習方法,包括深度學習、逆向RL和模仿學習以及MARL。同樣,詳細的概述涵蓋了軌跡預測中最新的分類法和方法論【32】。還有一些優秀的綜述總結了AVs的MARL方法【1】【33】【34】。盡管如此,近年來研究人員在理論和應用方面取得了顯著進展,并且在高級機器人模擬器中也取得了進展。作為在線RL訓練的關鍵組成部分,模擬器決定了從模擬到現實的差距,即智能體學習的策略是否可以輕松地轉移到物理機器人上。因此,為了使工程師和研究人員能夠捕捉最新的進展并加速技術進步,我們全面總結了該領域的技術、挑戰和前景。

總體而言,本文的主要貢獻可總結如下

  • 我們提出了一系列基準的標準,詳細分析和總結了先進模擬器、數據集和大規模自動駕駛競賽的特征。
  • 我們對最先進的MARL方法進行了分類,全面回顧了它們在該領域的技術改進、見解和未解決的挑戰。
  • 我們從相關領域捕捉了最新進展,并從多個角度深入探討了基于MARL的自動駕駛的未來方向。
  • 我們發布并維護了GitHub倉庫1,以持續報告和更新MARL-based自動駕駛、智能交通系統和其他相關領域的最新研究。

在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總體來說,隨著大規模數據集和深度學習的發展,自動駕駛已從分層控制邁向數據驅動時代。隨著先進模擬器的出現,基于RL的方法登上了舞臺,隨后新技術如大語言模型帶來了更多的機遇。我們將在后文詳細分析,本文的其余部分組織如下:在第二節中,我們首先描述了基準的指標。我們還分析了最先進的自動駕駛模擬器和數據集的特征。在第三節中,我們回顧了RL和MARL的基本概念、定義和開放問題。在第四節中,我們詳盡介紹了自動駕駛領域最先進的MARL算法。具體而言,我們分析了它們的狀態和動作設置、方法論見解和應用。在第五節中,我們指出了現有挑戰并給出了可能的解決方案。在第六節中,我們捕捉了最新的進展,并提出了朝向更安全和智能的自動駕駛的有前途的方向。

II. 自動駕駛基準

強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。

最先進的方法論

本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習

在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化

考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習

盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習

安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結

如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。

付費5元查看完整內容

強化學習(RL),特別是與深度神經網絡結合的深度強化學習(DRL),在廣泛的應用中展現了巨大的前景,表明其有望推動復雜機器人行為的發展。然而,機器人問題為RL的應用帶來了根本性的挑戰,這些挑戰源于與物理世界交互的復雜性和成本。本文提供了關于DRL在機器人領域應用的現代綜述,特別關注DRL在實現幾項關鍵機器人能力方面取得的現實世界成功。我們的分析旨在識別這些令人興奮的成功背后的關鍵因素,揭示未充分探索的領域,并對DRL在機器人領域的現狀進行總體描述。我們強調了未來研究的幾個重要方向,包括需要穩定且樣本高效的現實世界RL范式,發現和整合各種能力以應對復雜的長期開放世界任務的整體方法,以及原則性的發展和評估程序。本綜述旨在為RL從業者和機器人學家提供見解,以利用RL的力量創建具有廣泛能力的現實世界機器人系統。

引言

強化學習(RL)(1) 是一類決策問題,其中代理必須通過試錯學習以最大化其累積回報,該回報由標量獎勵函數編碼,映射代理的狀態和行動到即時獎勵。特別是與深度神經網絡結合的深度強化學習(DRL)(2),在解決復雜決策問題方面顯示出卓越的能力,即使是在棋類游戲(3)、視頻游戲(4)、醫療保健(5)和推薦系統(6)等領域的高維觀察中也不例外。這些成功突顯了DRL在控制具有高維狀態或觀察空間和高度非線性動態的機器人系統以執行傳統決策、規劃和控制方法(如經典控制、最優控制、基于采樣的規劃)無法有效處理的挑戰性任務方面的潛力。然而,迄今為止,DRL最顯著的里程碑是在模擬或游戲環境中實現的,在這些環境中,RL代理可以從大量的經驗中學習。相比之下,機器人需要在物理世界中完成任務,這帶來了額外的挑戰。在物理世界中直接通過試錯收集樣本通常效率低下且/或不安全,而且通常不可能在模擬中創建復雜真實世界的精確副本。盡管存在這些挑戰,最近的進展使得DRL在一些現實世界的機器人任務中取得了成功。例如,DRL已實現冠軍級別的無人機競速(7)和集成到生產級四足機器人系統中的多功能四足機器人控制(如ANYbotics1、Swiss-Mile2和Boston Dynamics3)。然而,最先進的DRL解決方案在不同的機器人應用領域的成熟度差異顯著。在某些領域,如城市自動駕駛,基于DRL的解決方案仍然局限于模擬或嚴格限定的現場測試(8)。 本綜述旨在全面評估DRL在現實世界機器人應用中的當前進展,識別最令人興奮的成功背后的關鍵因素以及在較不成熟領域中仍然存在的開放挑戰。具體而言,我們評估了DRL在各種問題領域的成熟度,并對不同領域的DRL文獻進行對比,以確定廣泛適用的技術、未充分探索的領域以及需要解決的共同開放挑戰,以推進DRL在機器人中的應用。我們希望本綜述能為研究人員和從業者提供對DRL在機器人領域現狀的深入理解,提供有價值的見解,以指導未來的研究并促進現實世界機器人任務中廣泛可部署的DRL解決方案。

為什么要進行另一項關于機器人強化學習的綜述?

管之前的一些文章已經綜述了機器人強化學習,但我們在文獻中提供了獨特的視角并填補了知識空白,主要貢獻有三點。首先,我們專注于在現實世界中至少取得了一定成功的工作,旨在評估DRL在現實世界機器人應用中的當前狀態和開放挑戰。大多數現有的關于機器人強化學習的綜述并未明確討論這一主題,例如,Dulac-Arnold等(9)討論了現實世界RL的一般挑戰,但不針對機器人,Ibarz等(10)列出了基于他們自己研究的案例研究中現實世界機器人環境中特有的DRL開放挑戰。相比之下,我們的討論基于對DRL在機器人領域取得的現實世界成功的全面評估,其中一個方面是對現實世界部署水平的評價(見第3.4節)。

其次,我們提出了一個新穎且全面的分類法,從多個角度對DRL解決方案進行分類:通過DRL學習的機器人能力、問題的表述、解決方案的方法以及現實世界成功的水平。以往關于機器人強化學習和更廣泛的機器人學習的綜述通常集中在特定任務(11, 12)或特定技術(13, 14)上。相比之下,我們的分類法允許我們調查在機器人應用領域有效的DRL解決方案的完整圖景,此外,還分別回顧了每個應用領域的文獻。在此框架內,我們對解決方案進行比較和對比,識別共同模式、廣泛適用的方法、未充分探索的領域以及實現成功機器人系統的開放挑戰。

第三,盡管一些過去的綜述分享了我們對該領域進行廣泛分析的動機,但DRL快速而令人印象深刻的進展需要對該領域、其成功和局限性進行重新分析。Kober等(15)的開創性綜述是在深度學習時代之前撰寫的,而Sunderhauf等(16)關于機器人深度學習的一般綜述撰寫時,DRL的成就主要是在模擬中。我們通過專注于DRL提供了該領域的最新概述,DRL是機器人強化學習最顯著的現實世界成功背后的驅動力,特別關注過去五年中發表的論文,因為大多數成功都發生在這段時間內。

分類法

本節介紹我們用于分類深度強化學習(DRL)文獻的新分類法。由于我們對DRL在機器人領域現實世界成功的獨特關注,新的分類法可以對文獻進行分類和分析,從而評估DRL解決方案在各種機器人應用中的成熟度,并從成功與失敗中汲取寶貴的經驗教訓。具體而言,我們應識別每篇論文所解決的特定機器人問題,了解其如何抽象為強化學習問題,并總結為解決該問題所應用的DRL技術。更重要的是,我們應評估這些DRL解決方案在實驗中展示的成熟度。因此,我們引入了跨四個軸的分類法:通過DRL學習的機器人能力、問題表述、解決方案方法以及現實世界成功的水平。

**通過DRL學習的機器人能力

我們的主要軸側重于每篇論文研究的目標機器人任務。機器人任務,尤其是在開放的現實世界場景中,可能需要多種能力。可以應用DRL來綜合一個端到端系統以實現所有能力,或者學習子模塊來實現其中的一部分能力。由于我們專注于DRL,因此我們根據通過DRL學習和實現的具體機器人能力對論文進行分類。我們首先將這些能力分類為單機器人——機器人獨立完成任務所需的能力,以及多智能體——與共享工作空間并影響其任務完成的其他智能體交互所需的能力。

當單個機器人在工作空間中完成任務時,它所需的任何能力都可以被視為實現與物理世界交互和影響的具體方式,進一步分為移動性——在環境中移動——和操作性——移動或重新安排(例如抓取、旋轉)環境中的物體(17, 18, 19)。在機器人文獻中,移動性通常分為兩個問題:運動能力和導航能力(18, 20)。運動能力側重于使各種形態的機器人(例如四足機器人、人形機器人、輪式機器人、無人機)能夠穿越不同環境的運動技能,而導航能力側重于引導機器人高效且無碰撞地到達目的地的策略。典型的導航策略生成高層次運動命令,例如質心(CoM)的期望狀態,同時假設有效的運動控制來執行這些命令(18)。有些工作同時解決了運動和導航問題,這對于導航策略受到機器人穿越環境能力(由機器人動力學和運動控制決定)嚴重影響的任務特別有用,例如穿越困難地形(20)或競速(21)。我們將這些論文與其他導航論文一起審查,因為它們的最終目標是導航。

在機器人文獻中,操作性通常在桌面環境中研究,例如安裝在固定底座上的機器人手臂或手,固定傳感器觀察場景。一些其他現實世界任務進一步要求機器人在移動底座的同時與環境交互(例如家用和倉庫機器人),這需要操作性和移動能力的協同整合。我們在固定操作性類別下審查前一種情況,在移動操作性類別下審查后一種情況。

當任務完成受到工作空間內其他智能體影響時,機器人需要進一步具備與其他智能體交互的能力,我們將其歸入多智能體能力類別。需要注意的是,在機器人與其他智能體交互時,仍可能需要某些單機器人能力,例如人群導航或協作操作。在此類別中,我們重點關注在智能體交互層面進行DRL的論文,即在給定某些單機器人能力的情況下學習交互策略,或學習聯合優化交互和單機器人能力的策略。根據機器人交互的智能體類型,我們將這些工作進一步分為兩個子類別:1)人機交互,關注機器人與人類一起操作的能力。人類的存在帶來了額外的挑戰,因為他們行為復雜且對機器人在其周圍操作有嚴格的安全要求。2)多機器人交互,指機器人與一組機器人交互的能力。通常使用一類強化學習算法——多智能體強化學習(MARL)來解決此問題。在MARL中,每個機器人都是一個學習智能體,根據其與環境和其他機器人的交互來演變其策略,這使得學習機制更加復雜。根據機器人目標是否一致,它們的交互可能是合作的、對抗的或一般總和的。此外,實際場景通常需要在部分可觀測性和有限通信帶寬下進行分散決策。

**問題表述

分類法的第二個軸是強化學習問題的表述,這指定了針對目標機器人能力的最優控制策略。RL問題通常建模為單智能體RL的部分可觀測馬爾可夫決策過程(POMDP)和多智能體RL的分散POMDP(Dec-POMDP)。具體而言,我們根據以下問題表述元素對論文進行分類:1)動作空間:動作是低級別(即關節或電機命令)、中級別(即任務空間命令)還是高級別(即時間延伸的任務空間命令或子例程);2)觀測空間:觀測是高維傳感器輸入(例如圖像和/或LiDAR掃描)還是估計的低維狀態向量;3)獎勵函數:獎勵信號是稀疏的還是密集的。由于篇幅限制,這些術語的詳細定義見補充材料。

**解決方案方法

另一個與前一個軸密切相關的軸是用于解決RL問題的解決方案方法,它由RL算法和相關技術組成,能夠為目標機器人問題提供實際解決方案。具體而言,我們從以下角度對解決方案方法進行分類:1)模擬器使用:是否以及如何使用模擬器,分為零樣本、少量樣本模擬到現實轉移,或直接在現實世界中離線或無模擬器學習;2)模型學習:是否從機器人數據中學習(部分)過渡動態模型;3)專家使用:是否使用專家(例如人類或預言策略)數據來促進學習;4)策略優化:采用的策略優化算法,包括計劃或離線、離政策或在政策RL;5)策略/模型表示:用于表示策略或動態模型的神經網絡架構類別,包括MLP、CNN、RNN和Transformer。詳細術語定義見補充材料。

**現實世界成功水平

為了評估DRL在現實世界機器人任務中的實用性,我們根據其DRL方法的成熟度對論文進行分類。通過比較不同機器人任務中DRL的有效性,我們旨在識別研究原型與現實世界部署之間差距較大或較小的領域。這需要一個量化各任務現實世界成功水平的指標,據我們所知,這在DRL機器人文獻中尚未嘗試過。受自動駕駛等級(22)和機器學習技術成熟度等級(TRL)(23)的啟發,我們引入了現實世界成功等級的概念。我們將論文分為六個等級,基于所驗證方法的情境:1)等級0:僅在模擬中驗證;2)等級1:在有限的實驗室條件下驗證;3)等級2:在多樣的實驗室條件下驗證;4)等級3:在有限的現實世界操作條件下驗證;5)等級4:在多樣、具有代表性的現實世界操作條件下驗證;6)等級5:在商業化產品中部署。我們認為等級1-5至少在某種程度上實現了現實世界的成功。我們可以用來評估現實世界成功等級的唯一信息是作者報告的實驗。然而,許多論文僅描述了單次現實世界試驗。雖然我們努力提供準確的估計,但由于信息有限,這種評估可能具有主觀性。此外,我們使用現實世界成功等級來量化解決方案在其目標問題上的成熟度,而不考慮其復雜性。

結論

深度強化學習(Deep Reinforcement Learning)近年來在開發許多機器人能力方面發揮了重要作用,取得了許多現實世界的成功。在本文中,我們回顧并分類了這些成功案例,基于特定的機器人能力、問題表述和解決方案方法對其進行了描述。通過這些軸向的分析,我們揭示了普遍趨勢和未來工作的重要方向,包括算法和程序的改進、現實世界學習的要素,以及整合本文所討論的所有能力的整體方法。利用強化學習的力量來構建具有能力的現實世界機器人系統,需要解決其應用中的基本挑戰和創新;盡管如此,我們預計強化學習將在開發普遍智能機器人方面繼續發揮核心作用。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

隨著ChatGPT和Sora的卓越成就,生成式人工智能(GAI)受到了越來越多的關注。GAI的應用不僅限于內容生成領域,由于其強大的學習和泛化能力,它還廣泛用于解決無線通信場景中的問題。因此,本文討論了GAI在改善無人機(UAV)通信和網絡性能中的關鍵應用。具體來說,我們首先回顧了GAI的關鍵技術和UAV網絡的重要作用。然后,我們展示了GAI如何改善UAV系統的通信、網絡和安全性能。隨后,我們提出了一個用于先進UAV網絡的新型GAI框架,并基于該框架提出了一個UAV啟用的頻譜圖估計和傳輸率優化的案例研究,以驗證GAI啟用的UAV系統的有效性。最后,我們討論了一些重要的未解決方向。

從基于規則的算法到先進的學習模型,人工智能(AI)能夠解決的任務變得越來越復雜,這顯示了它在工業、商業和日常生活中解決問題的巨大潛力。傳統的AI方法,如判別式AI(DAI)或預測式AI(PAI),可以從大規模數據集中學習特定的范式,利用深度神經網絡處理分類和預測任務。雖然這些AI方法為現代數據驅動環境提供了基礎,并在處理動態需求中表現出良好的性能,但它們仍然面臨一些問題,例如依賴廣泛標注的數據集。 幸運的是,生成式AI(GAI)的出現緩解了DAI和PAI面臨的限制,標志著AI發展的新階段。具體來說,GAI可以從訓練數據中學習概率分布而不是類別邊界,然后基于學習到的分布生成可信的新樣本。與傳統AI方法相比,GAI的優勢可以總結如下:

  • 數據增強:GAI能夠基于學習到的分布生成新數據。這一過程可以擴展訓練集,有助于增強模型的泛化能力并解決數據集稀缺問題。
  • 潛在空間表征:GAI能夠在訓練過程中將輸入數據映射到潛在空間,有助于學習訓練樣本的潛在結構和特征。請注意,傳統AI方法通常缺乏這種精細控制。
  • 創造性:鑒于GAI強大的生成能力及其在無監督學習中的卓越表現,GAI在探索性數據分析和新領域應用中具有優勢。

得益于上述優勢,GAI在處理復雜任務中的重要性逐漸顯現。特別是ChatGPT和Sora的巨大成功激發了GAI研究,并催生了包括人機交互、圖像處理和視頻生成在內的多種應用。值得注意的是,除了在內容創作方面表現出色外,強大的生成和探索能力使其在處理復雜的通信和網絡優化問題上具有印象深刻的潛力,例如天線陣列優化[1]。 然而,對于無人機(UAV)通信和網絡的GAI研究還很少。目前,DAI、凸優化和博弈論常用于解決UAV優化問題。然而,這些傳統方法可能在處理UAV網絡問題時有限制,因為UAV的移動性和高度動態的環境。此外,如DAI等學習方法可能無法捕捉數據的潛在結構和特征,從而導致對問題的理解不全面,處理未知情況的能力弱。 GAI顯示出解決上述問題的巨大潛力。特別是,GAI所展示的強大學習和泛化能力可以用來優化UAV網絡的資源管理問題,以提高通信性能。例如,考慮到UAV的資源有限,GAI可以根據從目標區域部分收集的數據準確推斷整個目標區域的狀況,從而進行合理的資源分配和軌跡規劃。盡管將GAI整合到UAV通信和網絡中提供了顯著的優勢,但仍有一些問題需要進一步討論:

  • Q1:為什么GAI適合UAV通信和網絡?
  • Q2:GAI可以處理哪些UAV通信和網絡問題?
  • Q3:GAI如何處理這些問題?

因此,我們提供了一個系統的教程來回答上述問題。據我們所知,這是第一項系統展示采用GAI解決UAV通信和網絡優化問題的工作。我們的貢獻總結如下:

  • 我們首先介紹了GAI的一些具體技術和應用。隨后,展示了UAV的角色和特征。最后,我們簡要介紹了DAI的局限性并簡要介紹了用于UAV通信和網絡的GAI。
  • 我們從通信、網絡和安全的角度討論了GAI解決與UAV相關問題的潛力。
  • 我們提出了一個利用GAI的UAV通信和網絡的新框架。此外,我們構建了一個案例研究來展示基于所提框架的GAI增強UAV啟用的頻譜感知和通信的有效性。****

GAI與UAV網絡概述在本節中,我們首先介紹GAI的關鍵技術和應用。隨后,介紹了UAV在網絡中的角色。最后,我們在物理層、網絡層和應用層展示了UAV上的GAI應用。 A.** GAI及其應用GAI基于從大規模訓練數據集獲得的廣泛通用知識,能夠執行滿足用戶需求的任務**。此外,它主要依賴于以下關鍵AI技術:

  • 大型語言模型(LLM):LLM基于大量文本數據訓練,學習各種語言模式和結構,以理解和生成自然語言。基于出色的理解和推理生成能力,LLM廣泛應用于文本生成和人機交互等領域。
  • Transformer:Transformer是一種帶有自注意機制的序列到序列模型,能夠同時處理輸入序列中各個位置的信息。因此,Transformer在自然語言處理(NLP)中取得了巨大成功,如機器翻譯和文本摘要。
  • 生成對抗網絡(GAN):GAN包括一個生成模型和一個判別模型。具體來說,前者負責生成與原始數據相似的數據,后者則判斷數據的真實性。因此,GAN通過訓練對抗性神經網絡能生成復雜和逼真的數據。當前,GAN在視頻和網絡安全等領域有廣泛應用。
  • 變分自編碼器(VAE):VAE是一個由編碼器和解碼器組成的生成模型。具體來說,VAE的訓練過程依賴于一種特定的損失函數,該函數測量重建數據和原始數據之間的差異,同時考慮潛在空間的分布特性。因此,VAE能學習數據的潛在表示,并生成與訓練數據相似的新數據點,因此在處理信號處理和異常檢測等任務中具有顯著優勢。
  • 生成擴散模型(GDM):GDM通過一系列可逆轉換將簡單的噪聲分布轉換為目標數據分布。在GDM的訓練過程中,逐漸向原始數據添加噪聲,然后學習逆向擴散過程,以從噪聲中構建所需的數據樣本。由于生成過程的靈活性和生成數據的高質量,GDM常用于圖像處理、數據增強和恢復以及問題優化等領域。 目前,采用上述模型的GAI方法在各個領域催生了大量應用并取得了令人印象深刻的成果。接下來,我們將從人工智能生成內容(AIGC)和人工智能生成一切(AIGX)的角度簡要介紹一些GAI應用。
  • AIGC:AIGC指的是GAI生成滿足用戶需求的內容,主要包括文本、圖像、視頻和音頻等媒體內容的生成。例如,基于LLM的chatGPT可以與用戶互動,并根據用戶的提示生成相關文本內容,如翻譯、摘要和寫作文章。
  • AIGX:隨著GAI的發展,它已進化到一個新階段,在該階段,GAI被用來處理其他領域中更復雜的問題,并生成更復雜的數據類型,而不僅限于媒體內容。值得注意的是,GDM可以用于無線網絡優化,如最大化傳輸速率、通信容量和能效。

B. UAV通信和網絡UAV通信和網絡系統受到學術界越來越多的關注,并且已在實際應用中取得顯著成果。具體來說,UAV系統在通信和網絡領域的幾個主要角色如圖1所示,可以具體描述如下。

  • 中繼:UAV可用作移動中繼站,連接地面基站和遠程設備之間的通信鏈路。例如,在一些特殊區域,如山區,傳統基站難以覆蓋且成本高昂,UAV可被指派為中繼,以擴大覆蓋范圍并實現長距離信號傳輸。
  • 空中基站:UAV可用作空中基站,向地面用戶提供穩定高效的通信服務。例如,UAV可以在人口密集的地區臨時用作通信基站,以增強通信覆蓋和容量,滿足高峰通信需求。
  • 邊緣計算:UAV可以作為邊緣計算設備,收集用戶數據進行實時分析和處理。例如,在智能交通管理中,UAV可以根據獲得的交通流統計數據分析當前交通狀況,及時調整交通控制,以緩解交通壓力。
  • 攻擊檢測器:鑒于其多功能性,UAV可用于協助預防、檢測和恢復對5G和6G無線網絡的攻擊。 UAV通信和網絡系統的廣泛應用是不可避免的,因為它們相比傳統地面系統具有以下優勢。
  • 靈活性:由于其高度移動性和靈活的部署能力,UAV可以迅速移動到特定區域以滿足通信需求。
  • 適應性:UAV可以為一些意外情況建立臨時網絡,支持UAV節點的臨時增加或撤回,同時保持高可用性。
  • 高性價比:與地面固定系統相比,UAV可以攜帶多種設備提供靈活多樣的服務。此外,UAV系統的成本通常較低。 請注意,由于上述優勢和廣泛的應用范圍,UAV通信和網絡系統被認為在6G的空天地海一體化網絡中扮演重要角色。因此,高效解決UAV通信和網絡問題至關重要。

C. GAI在UAV通信和網絡中的應用請注意,DAI方法已廣泛用于解決UAV通信和網絡優化問題。例如,人工神經網絡被用來解決UAV通信的信道行為預測問題,支持向量機被用來解決超密集網絡中UAV輔助的資源分配問題。然而,采用DAI進行UAV網絡仍面臨以下限制:

  • 數據依賴性:DAI方法通常依賴廣泛注釋的數據集,并需要大量良好標注的數據來學習數據之間的關系。然而,在UAV通信和網絡領域,獲得大量良好標注的數據是困難的。特別是,UAV網絡的物理層數據通常很嘈雜,這對一些對噪聲敏感且易受數據不完整性影響的DAI模型構成挑戰。
  • 適應性不足:DAI更多地關注已知數據的模式和特征,這導致在處理未知情況時面臨挑戰。特別是,UAV所面對的網絡層環境通常非常動態,因此DAI可能難以提供靈活的解決方案。
  • 建模能力不足:DAI專注于學習數據的特征,對數據生成過程的理解有限。因此,DAI方法更適合建模明確且簡單的問題。對于通常涉及多種資源約束的UAV網絡應用層,數據通常龐大且復雜。在這種情況下,DAI可能無法完全理解數據所攜帶的信息,從而進行準確建模。

DAI方法在解決UAV通信和網絡問題中所面臨的限制促使GAI的出現。接下來,我們將從物理層、網絡層和應用層三個角度展示GAI可以為UAV提供的服務,并分析UAV系統與其他無線系統在這些服務中的差異。

  1. 物理層:與地面通信系統相比,UAV網絡的高度動態性和靈活性使得信道特性更為復雜。因此,信道估計需要實時考慮飛行狀態的變化,以維持穩定和高效的通信連接。在這種情況下,采用VAE模型的GAI可以通過生成更精確的信道參數來提高UAV通信的性能,根據預測的鏈路狀態進行調整。
  2. 網絡層:在傳統地面系統中,節點位置通常是固定的,通信路徑相對穩定。相比之下,由于UAV的移動性,UAV系統的網絡拓撲更為靈活和動態。在這種情況下,GAI能夠實時生成適應不同通信場景的自適應網絡拓撲管理方案,根據任務需求進行調整。例如,提出WaveGAN方法優化動態飛行自組織網絡中的網絡拓撲。
  3. 應用層:UAV在應用層的多樣化任務需求和實時數據處理能力使其與其他無線系統顯著不同。此外,由于UAV資源受限的特性,對資源分配過程以及多目標之間的權衡提出了更高要求。在這種情況下,GAI能夠根據當前任務和環境變化的實時需求生成智能資源分配和任務調度解決方案,確保UAV系統的各種性能。具體來說,一個典型的例子是基于GAN的方法,以最小化UAV的能耗和地面用戶的任務延遲。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。

1 引言

在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。

作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。

因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。

1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。

1.2 人類反饋強化學習的起源

作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。

盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。

從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。

由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。

盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。

1.3 綜述范圍

本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。

獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。

人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。

互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。

1.4 先前的綜述

根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。

付費5元查看完整內容

基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.

近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.

首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列

,預測隨后一段幀視頻序列

.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.

此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列

,以及機器人未來可能選取的動作序列

,以視頻幀

的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。

本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.

付費5元查看完整內容

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容
北京阿比特科技有限公司