摘 要 不同場景下時序數據的異質性極大地影響了智能決策中時序預測算法的泛化性和有效性,對其應用構成了重要阻礙。 時序預測大模型是解決這一挑戰的重要技術。綜合了時序預測領域的最新研究動態,從模態視角自上而下地探討了時序預測大 模型的4種實現思路:基于提示的方法、基于微調的方法、基于對齊的方法以及時序預測基礎模型。梳理了時序預測大模型構 建過程中的核心要素和可用技術。探討了未來的重要挑戰和研究方向。 關鍵詞 時間序列,大語言模型,基礎模型,預測時序預測技術在智能決策中扮演著重要角色: 通過分析和學習歷史數據的模式,準確預測時空系 統的未來態勢,可以為復雜系統調度優化和智能決 策提供關鍵支持。時間序列數據廣泛分布于交通、 電力、氣象等多種時空系統中,記錄了關鍵觀測點 或指標的狀態變化,是反映這些系統演變趨勢的關 鍵數據資源。時間序列預測技術致力于通過分析和 學習歷史數據的模式,準確預測未來趨勢。這種技 術在智能決策中扮演著至關重要的角色:能夠準確 預測時空系統的未來態勢,從而為有效的調度優化 和智能決策提供關鍵支持。因此,深入研究時序預 測技術對于戰場態勢感知、武器系統維護、戰場環 境監測等領域至關重要,可以顯著提高決策的準確 性和效率,為軍事行動提供精確而有力的支持。 長期以來,基于統計模型的時間序列預測算法, 如自回歸積分滑動平均(autoregressive integrated mov? ing average,ARIMA)[1] 和指數平滑狀態空間模型(ex? ponential smoothing state space model,ETS)[2] ,被廣泛 認為是可靠的工具,并在實際應用中得到了認可。 隨著深度學習技術的發展,研究者們開發了更為靈 活和強大的模型,這些模型能夠挖掘時間序列數據 中的深層價值模式,從而顯著提升預測的準確性, 成為學術研究的新趨勢。然而,基于深度學習的時 序預測模型通常要求訓練和推理階段使用相同的數 據集[3] ,這限制了它們的泛化能力。一方面,不同領 域的時序數據常常展現出不同的模式,導致模型難以 廣泛泛化;另一方面,不同領域數據的質量參差不 齊,如信噪比、歷史數據長度以及預測數據長度等, 進一步削弱了模型的跨領域可用性。在軍事領域,這 些問題尤為顯著,因為軍事應用涉及的場景多樣(例 如電力、氣象、交通等),且具有高對抗性,數據分布 漂移嚴重,這使得現有的時序預測算法面臨挑戰。 受到計算機視覺和自然語言處理領域中諸如視 覺 Transformer(vision Transformer,ViT)[4] 、雙向編碼器 表 示 Transformer(bidirectional encoder representa? tions from Transformers,BERT)[5] 、生成式預訓練Trans? former(generative pre-trained Transformer,GPT)[6] 等 預訓練大型模型的啟發,時序預測大模型日益受到 學術界的關注,并被認為是一個充滿潛力的研究方 向[7] 。這些模型的設計目標是解決數據模式異質、數 據質量不一等核心挑戰,從而開發出適用于所有領 域的時間序列預測任務的通用模型,處理零樣本或 少樣本情況下的預測,推動時序預測技術的更廣泛 應用和實踐。然而,作為一個新興領域,目前還缺 乏針對時序預測大模型研究思路和可用技術的系統 性分析。大多數現有的綜述[8-11] 主要關注于預訓練的 大語言模型(例如 GPT[6] 、LLaMA[12)] 在時序預測中的 應用。在其他研究中,文獻[13]通過“數據視角”對相 關工作進行了分類和梳理,而文獻[7]則通過“方法視 角”對相關工作進行了區分。此外,先前的研究通常 同時概述時間序列、空間數據(如軌跡)等多種類型 的數據,而沒有對時序預測任務進行深入挖掘。 本文專注于時序預測任務,全面分析了大量相 關研究,采用自上而下和自下而上兩種視角詳盡地 綜述了時序預測大模型的設計思路和具體技術:1) 自上而下的視角:采用“模態視角”來區分不同的研 究思路,即根據對自然語言和時間序列模態的利用方 式的不同對相關工作進行分類。2)自下而上的視 角:梳理了時序預測大模型構建流程中的共性關鍵技 術。兩個視角結合,既給出了實現時序預測大模型的 多種思路,也梳理了可選擇的具體技術。此外,本研 究還探討了未來可能的重要研究方向。
摘要—近年來,視覺識別方法取得了顯著進展,廣泛應用于各個領域。在研究者們探索這些模型成功背后的機制時,越來越多的動力推動著它們在關鍵領域,如自動駕駛和醫療診斷中的應用,以便更好地診斷故障,這促進了可解釋性研究的發展。本文系統回顧了現有的視覺識別模型可解釋性研究,并從以人為中心的視角提出了一種方法分類法。該分類法基于意圖、對象、展示和方法學,將可解釋的識別方法進行分類,從而為這些XAI方法建立了一套系統且連貫的分組標準。此外,我們總結了評估指標的需求,并探討了近期技術(如大規模多模態模型)帶來的新機遇。我們旨在組織現有領域的研究,并激發未來對視覺識別模型可解釋性進行的深入探索。
關鍵詞—XAI,解釋性人工智能,可解釋性,視覺識別。
1 引言
視覺識別方法經歷了廣泛的發展,并已成功應用于多個領域。此外,研究人員越來越多地探討這些系統有效性的潛在機制,這一領域被稱為可解釋性研究。本文系統回顧了可解釋視覺識別方法,旨在幫助研究人員和開發者,甚至是那些沒有可解釋性領域背景的人,直觀地理解各種可解釋視覺識別方法的特點。
1.1 背景
視覺識別模型的快速發展和應用徹底改變了多個領域,如醫療診斷、自動駕駛和監控系統。然而,盡管這些模型在實踐中取得了成功,它們通常作為“黑箱”運行,幾乎沒有提供任何關于如何從輸入推導出具體輸出的洞察。隨著這些模型在決策過程中扮演著越來越重要的角色,理解它們預測背后機制的需求變得至關重要。 這一需求促使了解釋性人工智能(XAI)這一領域的興起,XAI致力于解釋和闡明AI算法的內部工作機制,特別是那些驅動視覺識別技術的復雜深度學習模型。XAI通過揭示模型行為和決策邊界的可視化方法,旨在減少這些模型的“黑箱”效應。以往的研究表明,除了直接幫助診斷模型故障外,可解釋性顯著增強了終端用戶對AI模型的信任,并促進了更有效的人機交互。
具體而言,視覺識別是多模態系統中視覺組件的基礎任務,其準確性和魯棒性對于后續更高層任務的性能至關重要。如圖1所示,視覺識別模型采用相對標準化的處理流程,這使得它們與其他AI模型有所區別:它們接受視覺信號作為輸入,并生成概念或類別標簽作為輸出。在當今的應用中,開放詞匯識別已成為主流需求,這突顯了視覺識別與文本模態的結合,后者是主流人機交互的主要模態。輸入和輸出的多樣性顯著增加了視覺識別領域中XAI研究的復雜性。
例如,在圖1中,現有技術如激活映射、神經元可視化和概念瓶頸分別提供了區域、特征和語義重要性的分析,從而為用戶提供了一個可以理解的預測依據。然而,以前的研究指出,無論是提供解釋,還是提供何種解釋,都可能對人類信任產生正面或負面的影響。視覺識別模型中的可解釋性復雜性給研究人員帶來了巨大的挑戰,使他們難以全面理解這一領域的發展,這促使本文系統回顧了視覺識別的XAI的最新進展和持續研究。
1.2 術語和范圍
XAI是“解釋性人工智能”(eXplainable Artificial Intelligence)的常用縮寫,指的是一組用于使AI模型的輸出和操作對人類可理解的過程和方法。目前,研究XAI的動機在于,大多數未專門設計為具備可解釋性的AI模型都是黑箱模型;這些模型的結構過于復雜,使得人類難以理解它們的工作機制。因此,可解釋性研究可以分為兩種方法:一種是通過可視化、探測和擾動等技術,理解已訓練的黑箱模型的工作細節,而不對其進行修改;另一種是在模型架構設計中引入可解釋模塊,從而實現內在可解釋性。在一些研究中,前者被稱為“可解釋性”,后者被稱為“可解釋性”。然而,大多數XAI研究并未區分這兩個術語;因此,本文也將它們視為等同的。在強調它們的差異時,會使用更明確的術語,如前者的后驗方法和后者的自解釋模型。 本文主要研究視覺識別模型,特別是那些用于識別或理解圖像中的物體的AI模型。通常,這些模型接受圖像 x 作為輸入,通過骨干特征提取器 f 提取圖像特征 z,并使用分類器頭 g 生成識別結果 y?。目前,主流的視覺識別模型可解釋性研究主要集中在圖像特征 z 和分類器 g 上,而關于骨干 f 的研究仍處于早期階段,主要聚焦于其頂層,因為這些層更可能包含語義信息。對于后驗方法和自解釋模型,提供給研究人員、開發者或用戶的解釋通常呈現在識別流程之外,并且種類繁多。由于視覺任務之間的耦合性,基于定位的可解釋性研究經常擴展到檢測和分割領域,而面向語義和自然語言交互的目標本質上與多模態技術緊密相關。因此,本文也將簡要討論這些領域中的少數相關工作。
1.3 貢獻與局限性
本文與以往的工作相比,有兩個主要的不同點:它專注于針對視覺識別模型的XAI研究,并從多維、以人為中心的視角系統地組織相關的XAI方法。由于XAI是一個廣泛的研究領域,過于寬泛的綜述可能缺乏聚焦性和實際應用性。通過集中于視覺識別任務,本文以更詳細且面向任務的方式對相關方法進行分類,從而增加了綜述的實用性。此外,由于可解釋性本質上是為了服務于人類用戶,因此從人的角度組織方法既自然又合適。 本文提出的多維框架使得用戶能夠高效理解視覺識別XAI的最新進展,并能迅速定位適合特定應用的方法。然而,將這一分類法擴展到涵蓋更廣泛的視覺任務仍面臨若干挑戰,包括需要適應不同模態和多變的背景。解決這些復雜性需要進一步的研究,以有效地調整和擴展所提出的分類法。
摘要—注意力機制已成為擴散模型中的核心組成部分,對其在多種生成與判別任務中的表現起到了關鍵作用。本文對擴散模型中的注意力機制進行了全面綜述,從系統的角度分析其在不同模態與任務中的作用、設計模式與操作方式。我們提出了一套統一的分類體系,依據注意力機制所影響的結構組件,將現有的相關改進加以歸類,從而為理解其功能多樣性提供了清晰的視角。 除了回顧架構上的創新之外,本文還探討了注意力機制在各類應用中對性能提升的貢獻。我們進一步指出當前研究中存在的限制與尚未充分探索的方向,并提出未來可能的研究路徑。本綜述為理解擴散模型不斷演進的研究圖景提供了有價值的見解,尤其聚焦于注意力機制在其中所扮演的整合性與普適性角色。 關鍵詞—擴散模型;注意力機制;多模態生成;微調
擴散模型(Diffusion Models)[1]–[3] 近年來已成為深度學習中的一項強大工具,因其在建模復雜數據分布方面表現突出而受到廣泛關注。這類模型在生成任務和判別任務中均展現出良好效果,盡管其應用更多集中在生成領域。近年來,擴散模型已被廣泛應用于多個行業,從醫療健康到娛樂媒體,在數據合成、異常檢測與優化問題等方面均帶來了顯著進展。在學術研究領域,擴散模型在自然語言處理 [4] 和計算機視覺 [5] 等方向取得了突破性成果。其生成真實且連貫數據的能力,推動了多模態生成任務的發展,例如文本生成圖像 [2], [6]–[8]、風格遷移 [9], [10]、圖像編輯 [11]–[13]、文本生成視頻 [14]–[16] 以及三維生成 [17]–[21] 等。這些應用不僅拓展了人工智能的創造力邊界,也為深度學習方法論帶來了新的思路。 擴散模型的核心流程如圖 1 所示,其通過一系列迭代的去噪步驟,將噪聲逐步轉化為結構化數據 [1]–[3]。通常,這類模型依賴于如 UNet 等架構,在每個步驟中預測去噪后的數據。盡管擴散模型在多個任務中都取得了顯著成果,但其中一大挑戰在于如何捕捉并保持特征間復雜關系與相互作用。模型不僅需要學習隨時間演化的動態模式,還需確保生成結果的可控性與預測精度。要實現這一目標,就必須具備一種能夠動態加權并對齊特征的方法,無論是在圖像合成、圖像分割還是其他任務中,注意力機制在此過程中起到了不可或缺的作用 [1], [2]。 注意力機制使得模型能夠有選擇性地優先處理輸入中的關鍵部分,并動態調整其重要性,從而更專注于最相關的特征。在每一步中動態關注輸入的不同區域,能夠幫助模型學習特征之間更精細的依賴關系,從而提升結果的質量、精度與可解釋性。這種聚焦于數據關鍵部分的能力,使模型既能捕捉局部細節,也能理解更廣泛的上下文信息 [22], [23]。 在生成任務中,例如文本生成圖像,注意力機制對于對齊文本與視覺表示至關重要 [11], [13]。它使模型能夠聚焦于文本中的關鍵屬性,并將其動態匹配至相應的圖像特征。相比傳統特征提取方法,注意力機制在輸入特征加權方式上具有更高的靈活性,使得模型能更細致地理解文本語義,并確保生成圖像與輸入描述的一致性 [3]。 在判別任務中,如語義分割 [24],注意力機制則增強了模型對圖像關鍵區域的聚焦能力,從而提升分類的準確性。與生成任務不同,此類任務的目標不是生成內容,而是提升模型對輸入結構的理解 [25]。注意力機制通過聚焦于包含關鍵信息的區域,幫助模型更準確地完成逐像素分類任務。例如,在進行目標與背景的分割時,注意力能夠使邊界或紋理等細節更清晰地被識別 [26], [27],從而實現更精確、更具上下文感知的分割效果,增強模型的整體預測能力。 盡管注意力機制在擴散模型中已在多項任務上取得顯著成果,但在特征提取與跨模態對齊方面仍存在諸多挑戰,例如一致性問題 [11], [12], [28]、控制精度不足 [13], [29], [30]、時序特征整合難度大 [31], [32],以及計算效率偏低 [33]–[35] 等。鑒于注意力機制在擴散模型中的關鍵作用,眾多研究者已提出多種改進方法,以應對上述挑戰,推動該領域持續發展。然而,目前尚缺乏對這些重要研究成果的系統性綜述。 為填補這一空白,本文從兩個維度對現有方法進行了系統分類:一是它們所解決的具體子問題,二是其應用場景。我們深入分析了各類方法的異同、優劣與適用范圍,從而對擴散模型中注意力機制的發展圖景進行了結構化梳理,并提出未來研究的潛在方向。 不同于以往的綜述研究 [36]–[39],本研究深入拆解了擴散模型中注意力機制的組成部分,從而實現更合理的分類,并更深入理解注意力在不同階段與不同模態下的作用機制。基于是否對模型結構進行修改,我們將注意力機制的改進方法劃分為五個層級,其分類體系如圖 4 所示。 本文的主要貢獻包括: * 提出一套系統化的注意力機制分類體系,覆蓋多模態擴散模型中的不同階段,揭示了注意力機制在擴散流程中扮演的多樣化角色與調控策略; * 深入探討注意力機制在多模態擴散模型中的應用場景,為不同領域的實踐提供有價值的參考; * 全面識別當前注意力機制存在的挑戰與局限,并提出潛在的改進策略,為該快速發展的研究方向提供未來研究路徑。
本文其余部分組織如下:第 2 節介紹擴散模型與經典注意力機制的基礎知識;第 3 節對現有注意力方法進行歸類與評述;第 4 節總結多模態生成任務中注意力機制的應用;第 5 節討論當前方法的局限性與未來研究方向。
摘要
本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。
I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。
近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。
生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。
在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。
A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。
生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。
其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
摘要 規劃與調度問題是在一定周期內完成資源與任務最優配置的過程,人工智能技術在此領域取得許多重要進展。 大語言模型作為生成式人工智能的代表,在規劃與調度領域同樣展現出強大能力。將規劃與調度劃分為用戶需求分析、方案生成、場景建模、優化算法設計4個階段,探討了大語言模型技術在每個階段的應用,并構思一套完整的以大語言模型技術構建的求解框架,以及這些技術與框架如何在各階段發揮效用。這些技術在解決更大規模、更復雜的問題具有潛在發展空間,并展望了結合大語言模型的研究趨勢。 //www.jc2.org.cn/CN/abstract/abstract703.shtml
大模型在軍事指揮決策中存在巨大的潛在應用價值,需要明確大模型能力邊界,才能更好地推動應用落地。從國內外 大模型行業發展現狀、大模型的能力邊界、潛在的指揮控制應用3個方面進行了分析。分析最先新大模型能力邊界以及國內大 模型的相對水平,對大模型能力缺陷、能力擴展手段進行了總結。提出大模型在指揮控制應用方法以及帶來的智能化等級提 升。提出在指揮與控制應用領域應重點開展的工作建議。
摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml
人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。
行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。