亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—盡管視覺基礎模型(VFMs)的最新進展在2D視覺感知領域取得了革命性突破,但其在3D場景理解(尤其是自動駕駛應用)中的潛力仍未得到充分探索。本文提出了 LargeAD,這是一個多功能且可擴展的框架,專為跨多種真實世界駕駛數據集的大規模3D預訓練而設計。我們的框架利用VFMs從2D圖像中提取語義豐富的超像素,并將其與LiDAR點云對齊以生成高質量的對比樣本。這種對齊促進了跨模態表示學習,增強了2D與3D數據之間的語義一致性。我們提出了幾項關鍵創新:i) 基于VFM的超像素生成,用于詳細的語義表示;ii) 一種VFM輔助的對比學習策略,用于對齊多模態特征;iii) 超點時間一致性,以保持跨時間的穩定表示;iv) 多源數據預訓練,以泛化到不同的LiDAR配置。我們的方法在LiDAR分割和目標檢測的線性探測和微調任務中,均顯著優于現有最先進方法。在十一個大規模多模態數據集上的廣泛實驗證明了我們方法的優越性能,展示了其在真實世界自動駕駛場景中的適應性、高效性和魯棒性。項目頁面可訪問://ldkong.com/LargeAD。關鍵詞—自動駕駛;3D場景理解;LiDAR分割;表示學習;數據預訓練

1 引言

大型語言模型(LLMs)[1]–[5] 的出現徹底改變了自然語言處理領域,同時也為計算機視覺領域的類似突破鋪平了道路,例如視覺基礎模型(VFMs)中的 SAM [6]、X-Decoder [7] 和 SEEM [8]。這些模型在從2D圖像中提取豐富的像素級語義方面展現了卓越的能力。然而,將這些進展擴展到3D領域仍是一個未被充分探索的前沿。隨著自動駕駛應用越來越依賴來自LiDAR傳感器的3D數據,將VFMs在2D視覺中的成功遷移到3D場景理解中變得愈發重要 [9], [10]。LiDAR點云的精確分割和檢測對于安全的自動駕駛和高級駕駛輔助系統至關重要 [11]–[15]。傳統的LiDAR點云模型通常依賴于大規模標注數據集,而這些數據集的創建成本高昂且耗時 [16], [17]。為了緩解這一挑戰,研究探索了半監督 [18], [19] 和弱監督 [17], [20] 方法。然而,這些方法的泛化能力有限,尤其是在面對多樣化的傳感器配置時,例如不同的LiDAR光束數量、攝像頭位置、采樣率以及潛在的傳感器損壞 [11], [21]–[25]。這一限制對現實世界的可擴展性提出了重大挑戰。為此,我們提出了 LargeAD,這是一個新穎且可擴展的3D場景理解框架,利用跨多種傳感器的大規模數據預訓練。我們的方法基于跨模態表示學習的最新進展 [6], [7], [26],將VFMs引入3D領域以解決幾個關鍵目標:i) 利用原始點云作為輸入,避免對昂貴標簽的依賴;ii) 從駕駛場景中提取空間和時間線索以進行魯棒的表示學習;iii) 確保對預訓練數據之外的下游數據集的泛化能力。通過提取VFMs中編碼的語義知識,我們的方法促進了復雜3D點云的自監督學習,特別是在自動駕駛領域。我們框架的一個核心創新是利用VFMs從攝像頭圖像中生成語義豐富的超像素,然后將其與LiDAR數據對齊以構建高質量的對比樣本(見圖1)。這些語義超像素提供了增強的2D-3D對應關系,捕捉了對象級的一致性,減少了對比學習中常見的過分割和“自沖突”錯誤 [9]。這種對齊顯著提升了下游任務的性能,包括3D目標檢測和分割。此外,所提出的框架還引入了多項創新。首先,一種VFM輔助的對比學習策略將超像素和超點對齊到統一的嵌入空間中,解決了圖像和LiDAR特征之間的跨模態差異。其次,超點時間一致性機制增強了點云表示在時間上的魯棒性,緩解了LiDAR和攝像頭傳感器之間不完全同步帶來的誤差。最后,我們的多源數據預訓練策略利用多樣化的LiDAR數據集構建了一個能夠適應不同傳感器配置的通用模型,進一步提升了可擴展性。如圖2所示,與最先進的方法(如 SLidR [27] 和 ST-SLidR [28])相比,我們的框架引入了顯著改進:i) 使用語義豐富的超像素解決對比學習中的“自沖突”問題;ii) 創建高質量的對比樣本,從而實現了更快且更穩定的收斂;iii) 由于更高效的超像素生成過程,減少了計算開銷。總之,本文的主要貢獻如下: * 我們提出了 LargeAD,這是一個可擴展、一致且通用的框架,專為車載傳感器捕獲的大規模數據預訓練而設計,解決了多樣化LiDAR配置的挑戰并提升了表示學習能力。 * 據我們所知,這是首次全面探索跨多個大規模駕駛數據集的預訓練研究,利用跨數據集知識增強模型對不同傳感器設置和駕駛環境的泛化能力。 * 我們的框架包含多項關鍵創新:i) 基于VFM的超像素生成以豐富語義表示;ii) VFM輔助的對比學習以對齊2D-3D特征;iii) 超點時間一致性以穩定點云表示在時間上的表現;iv) 多源數據預訓練以確保跨領域的魯棒性。 * 我們的方法在11個多樣化點云數據集上的線性探測和微調任務中均展現了顯著的性能優勢,優于現有最先進方法,展示了其在現實應用中的適應性和高效性。

本文的其余部分組織如下。第2節回顧了自動駕駛數據感知與預訓練以及多數據集利用的相關文獻。第3節詳細介紹了圖像到LiDAR對比學習的基礎知識。第4節闡述了所提出的大規模跨傳感器預訓練框架的技術方法。第5節展示了我們方法的實驗驗證結果。最后,第6節總結了本文并討論了未來的研究方向。

付費5元查看完整內容

相關內容

 ,又稱為無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,是自動化載具的一種,具有傳統汽車的運輸能力。作為自動化載具,自動駕駛汽車不需要人為操作即能感測其環境及導航。完全的自動駕駛汽車仍未全面商用化,大多數均為原型機及展示系統,部分可靠技術才下放至商用車型,但有關于自駕車逐漸成為現實,已經引起了很多有關于道德的討論。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

在過去的一年中,基于大型語言模型(LLMs)的AI智能體迅速成為最令人興奮但也頗具爭議的話題之一。有人認為這是下一次技術革命的開端,而另一些人則認為這些智能體不過是LLMs的簡單包裝。在本教程中,我們希望認真審視并調和這些不同的觀點,同時將新一代AI智能體放在更廣泛的AI發展歷史中進行合理定位。我們認為,當代AI智能體與以往幾代(如邏輯智能體或神經網絡智能體)在質量上存在顯著差異。通過集成LLM,這些智能體獲得了一種全新的能力,即利用語言作為推理和交流的媒介,從而大幅提升了它們的表達能力和適應性。因此,我們認為它們最適合被稱為語言智能體,因為語言是它們最顯著的特性。 語言在推動人類認知進化中起到了關鍵作用,而AI似乎也在沿著類似的路徑前進。然而,目前針對語言智能體的定義、理論基礎、應用、風險及未來方向的系統性討論仍然較少。本前沿教程旨在填補這一空白,提供對語言智能體的全面探討。

需要注意的是,本教程并非相關工作的全面綜述,也不是專注于代碼框架的實踐指南。

付費5元查看完整內容

手術視頻-語言預訓練(VLP)由于知識領域的差異和多模態數據的稀缺,面臨獨特的挑戰。本研究旨在通過解決手術講解視頻中的文本信息丟失問題,以及手術VLP的時空挑戰,來縮小這一差距。我們提出了一種分層知識增強方法,并設計了一種新的流程編碼的手術知識增強視頻-語言預訓練框架(PeskaVLP)來應對這些問題。知識增強使用大型語言模型(LLM)來優化和豐富手術概念,從而提供全面的語言監督,降低過擬合的風險。PeskaVLP將語言監督與視覺自監督相結合,構建難負樣本,并采用基于動態時間規整(DTW)的損失函數,來有效理解跨模態的流程對齊。基于多個公開的手術場景理解和跨模態檢索數據集的大量實驗表明,我們提出的方法顯著提高了零樣本遷移性能,并為手術場景理解的進一步發展提供了通用的視覺表示。

付費5元查看完整內容

摘要—大型模型智能體(LM agents),由如 GPT-4 和 DALL-E 2 等大型基礎模型驅動,代表了實現人工通用智能(AGI)的重要一步。LM 智能體展示了自主性、具身性和連接性等關鍵特征,使其能夠在物理、虛擬和混合現實環境中無縫與人類、其他智能體及周圍環境互動。本文提供了對 LM 智能體最前沿技術的全面調查,重點討論其架構、合作范式、安全性、隱私和未來前景。具體而言,我們首先探討 LM 智能體的基礎原則,包括一般架構、關鍵組件、使能技術和現代應用。隨后,我們從數據、計算和知識的角度討論 LM 智能體的實際合作范式,以促進其連接智能。此外,我們系統分析了與 LM 智能體相關的安全漏洞和隱私泄露,特別是在多智能體環境中。我們還探討了其底層機制,并回顧現有和潛在的對策。最后,我們概述了構建穩健和安全的 LM 智能體生態系統的未來研究方向。 關鍵詞—大型模型、人工智能智能體、具身智能、多智能體合作、安全、隱私。

I. 引言 A. 大型模型智能體的背景 在1950年代,艾倫·圖靈提出了著名的圖靈測試,以評估機器是否能夠表現出與人類相當的智能,為人工智能(AI)的發展奠定了基礎。這些被稱為“智能體”的人工實體,是AI系統的核心組件。一般來說,AI智能體是能夠理解并響應人類輸入、感知環境、做出決策并在物理、虛擬或混合現實環境中采取行動以實現其目標的自主實體[1]。AI智能體的范圍從遵循預定義規則的簡單機器人到通過經驗學習和適應的復雜自主實體[2]。它們可以是基于軟件的或物理實體,能夠獨立運行或與人類或其他智能體合作。 自20世紀中葉以來,AI智能體的發展取得了顯著進展[3]–[5],如深藍、AlphaGo和AlphaZero,如圖1所示。盡管取得了這些進展,之前的研究主要集中在精細化專業能力上,如符號推理或在特定任務(如圍棋或國際象棋)中表現優異,往往忽視了在AI模型中培養通用能力,如長期規劃、多任務泛化和知識保留。創造能夠靈活適應廣泛任務和復雜環境的AI智能體的挑戰仍然在很大程度上未得到探索。為了進一步推動AI智能體的邊界,開發強大的基礎模型以整合這些關鍵屬性是至關重要的,為下一代AI智能體提供多功能的基礎。 隨著大型模型(LMs)的興起,也稱為大型基礎模型,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs為全面增強AI智能體的內在能力開辟了新可能性[6][7]。如圖2所示,一個LM智能體,無論是軟件形式還是具身形式,通常由四個關鍵組件組成:規劃、行動、記憶和互動。這些智能體能夠在物理、虛擬或混合現實環境中無縫操作[1][8]–[10]。特別是,LMs作為AI智能體的“大腦”,賦予它們在人機互動(HMI)、復雜模式識別、知識保留、推理、長期規劃、泛化和適應性方面強大的能力[9]。此外,通過先進的推理和少量/零樣本規劃技術,如思維鏈(CoT)[11]、思維樹(ToT)[12]和反思[13],LM智能體能夠形成復雜的邏輯連接,有效解決復雜的多面任務。例如,AutoGPT[14],一個有前途的LLM智能體原型,可以將復雜任務分解為幾個可管理的子任務,從而促進結構化和高效的問題解決。將LM與檢索增強生成(RAG)技術[15]結合,進一步使智能體能夠訪問外部知識源,并基于檢索的信息提高其響應的準確性。此外,LM智能體可以靈活集成多種LM,包括大型語言模型(LLM)和大型視覺模型(LVM),以實現多方面的能力。 LM智能體被視為實現人工通用智能(AGI)的一重要步驟,并廣泛應用于網絡搜索[16]、推薦系統[17]、虛擬助手[18][19]、元宇宙游戲[20]、機器人技術[21]、自動駕駛汽車[22]和電子設計自動化(EDA)[23]等領域。據MarketsandMarkets[24]報告,2023年全球自主AI和自主智能體市場的估值為480億美元,預計到2028年將以43%的年均增長率增長,達到285億美元。LM智能體引起了全球關注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等領先科技巨頭正在進入LM智能體行業。

B. LM智能體的路線圖和關鍵特征 圖3描繪了LM智能體的未來愿景,其特征為三個關鍵屬性:自主性、具身性和連接性,為實現AGI鋪平道路。

  1. 自主智能。LM智能體的自主智能指的是它們獨立運行的能力,能夠在沒有持續人類輸入的情況下主動做出決策。如圖2(a)所示,LM智能體可以維護一個內部記憶,隨著時間的推移積累知識,以指導未來的決策和行動,使其能夠在動態環境中持續學習和適應[25]。此外,LM智能體可以自主利用各種工具(例如,搜索引擎和外部API)收集信息或創建新工具來處理復雜任務[26]。通過與人類或其他智能體合作或競爭,LM智能體可以有效提升其決策能力[27]。
  2. 具身智能。盡管近年來取得了一些進展,LM通常被動地響應人類在文本、圖像或多模態領域的命令,而不直接與物理世界互動[7]。而具身智能體可以主動感知和作用于其環境,無論是數字、機器人還是物理環境,使用傳感器和執行器[21][25]。向LM賦能的智能體的轉變涉及創建能夠理解、學習和解決現實世界挑戰的具身AI系統。如圖2(b)所示,LM智能體主動與環境互動,并根據實時反饋調整行動。例如,一臺負責清潔的家庭機器人LM智能體可以通過分析房間布局、表面類型和障礙物來生成量身定制的策略,而不僅僅是遵循通用指令。
  3. 連接智能。連接的LM智能體超越了單個智能體的能力,在應對復雜的現實任務中發揮關鍵作用[28]。例如,在自動駕駛中,作為LM智能體的連接自動駕駛汽車共享實時傳感數據,協調運動,并在交叉路口協商通行,以優化交通流量并提高安全性。如圖3所示,通過將眾多LM智能體互聯成“LM智能體互聯網”,連接的LM智能體可以自由分享感知數據和任務導向知識。通過充分利用各種專業LM的計算能力,它促進了合作決策和集體智能。因此,跨數據、計算和知識領域的協作增強了各個智能體的性能和適應性。此外,這些互動使得LM智能體能夠形成社會聯系和屬性,助力智能體社會的發展[29][30]。

C. 保障連接LM智能體的動機 盡管LM智能體的未來光明,但安全和隱私問題仍然是其廣泛采用的重大障礙。在LM智能體的整個生命周期中,可能會出現多種漏洞,從對抗樣本[31]、智能體中毒[32]、LM幻覺[33]到普遍的數據收集和記憶[34]。

  1. 安全漏洞。LM智能體容易出現“幻覺”,即其基礎LM生成似是而非但不符合現實的輸出[33]。在多智能體環境中,幻覺現象可能傳播錯誤信息,損害決策,導致任務失敗,并對物理實體和人類構成風險。此外,維護用于訓練和推理的感知數據和提示的完整性和真實性至關重要,因為偏見或受損的輸入可能導致不準確或不公平的結果[35]。諸如對抗性操控[31]、中毒[36]和后門[37]等攻擊進一步威脅LM智能體,允許惡意行為者操控輸入并欺騙模型。在協作環境中,智能體中毒行為[32],即惡意智能體破壞其他智能體的行為,可能破壞協作系統。此外,將LM智能體集成到網絡物理社會系統(CPSS)中,擴大了攻擊面,使對手能夠利用互聯系統中的漏洞。
  2. 隱私泄露。LM智能體廣泛的數據收集和記憶過程帶來了嚴重的數據泄露和未經授權訪問的風險。這些智能體通常處理大量個人和敏感的商業信息,涉及面向消費者(ToC)和面向企業(ToB)應用,增加了對數據存儲、處理、共享和控制的擔憂[38]。此外,LMs可能無意中記住訓練數據中的敏感細節,可能在互動過程中暴露私人信息[34]。在多智能體合作中,隱私風險進一步加劇,LM智能體在通信和任務執行過程中可能無意中泄露有關用戶、其他智能體或其內部操作的敏感信息。

D. 相關調查與貢獻 近年來,LM智能體在學術界和工業界引起了廣泛關注,導致多角度探索其潛力的各種研究。該領域的一些重要綜述論文如下:Andreas等人[29]提出了AI智能體構建的玩具實驗和關于建模交流意圖、信念和愿望的案例研究。Wang等人[39]識別了基于LLM的自主智能體的關鍵組成部分(即,個人資料、記憶、規劃和行動)以及主觀和客觀評估指標。此外,他們討論了LLM智能體在工程、自然科學和社會科學中的應用。Xi等人[9]提出了一個LLM智能體的一般框架,包括大腦、行動和感知。此外,他們探討了在單智能體、多智能體和人機協作以及智能體社會中的應用。Zhao等人[2]提供了LLM的系統綜述,涵蓋了預訓練、適應調優、利用和能力評估。此外,介紹了背景信息、主流技術和LLM的關鍵應用。Xu等人[40]對移動網絡中的邊緣云AI生成內容(AIGC)服務的關鍵概念、架構和指標進行了教程,并識別了若干用例和實施挑戰。Huang等人[1]提供了虛擬/物理環境中AI智能體的分類,討論了AI智能體的認知方面,并調查了AI智能體在機器人、醫療保健和游戲中的應用。Cheng等人[10]回顧了LLM智能體的關鍵組成部分(包括規劃、記憶、行動、環境和反思)及其潛在應用。還回顧了多智能體系統中的規劃類型、多角色關系和溝通方法。Masterman等人[8]提供了工業項目中單智能體和多智能體架構的概述,并展示了現有研究的見解和局限性。Guo等人[41]討論了基于LLM的多智能體系統的四個組成部分(即接口、建模、通信和能力獲取),并在問題解決和世界模擬方面提出了兩條應用線。Durante等人[42]介紹了多模態LM智能體及其訓練框架,包括學習、行動、認知、記憶、行動和感知。他們還討論了智能體的不同角色(例如,具身、模擬和知識推斷),以及在游戲、機器人、醫療保健、多模態任務和自然語言處理(NLP)等不同應用中的潛力和實驗結果。Hu等人[20]概述了基于LLM的游戲智能體的六個關鍵組成部分(即感知、思維、記憶、學習、行動和角色扮演),并回顧了六種類型游戲中現有的基于LLM的游戲智能體。Xu等人[43]提供了關于游戲中LM智能體的啟用架構和挑戰的全面綜述。Qu等人[44]對將移動邊緣智能(MEI)與LLM整合進行了全面綜述,強調在網絡邊緣部署LLM的關鍵應用以及在邊緣LLM緩存、傳輸、訓練和推理中的最新技術。

  1. 現有的LM智能體調查主要集中在單個LLM智能體和多智能體系統的一般框架設計及其在特定應用中的潛力上。本綜述不同于上述現有調查,重點關注LM智能體的網絡方面,包括一般架構、啟用技術和合作范式,以構建在物理、虛擬或混合現實環境中聯網的LM智能體系統。此外,隨著LM智能體的進展,研究它們在未來AI智能體系統中的安全性和隱私性變得迫在眉睫。本研究全面回顧了LM智能體的安全和隱私問題,并討論了現有和潛在的防御機制,這些內容在現有調查中常被忽視。表I比較了本調查與LM智能體領域先前相關調查的貢獻。
  2. 在本文中,我們系統性地回顧了單個和連接的LM智能體的最新進展,重點關注安全和隱私威脅、現有和潛在的對策以及未來趨勢。我們的調查旨在:1)提供對LM智能體如何工作以及如何在多智能體場景中互動的更廣泛理解;2)審視與LM智能體及其互動相關的安全和隱私挑戰的范圍和影響;3)強調有效的策略和解決方案,以防御這些威脅,保護LM智能體在各種智能應用中的安全。該工作的主要貢獻有四個方面:
  3. 我們全面回顧了LM智能體構建的最新進展,包括一般架構、關鍵組件(即規劃、記憶、行動、互動和安全模塊)以及啟用技術。還討論了LM智能體的工業原型和潛在應用。
  4. 我們系統地對LM智能體的互動模式(即智能體-智能體、智能體-人類和智能體-環境互動)及其互動類型(即合作、部分合作和競爭)進行了分類。我們探討了LM智能體在數據合作、計算合作和知識合作方面的實際合作范式。
  5. 我們全面分析了現有和潛在的安全和隱私威脅、其基本機制、分類及單個和連接的LM智能體面臨的挑戰。我們還回顧了最新的對策,并檢驗其在保護LM智能體方面的可行性。
  6. 最后,我們討論了開放的研究問題,并從能源高效和綠色LM智能體、公平和可解釋的LM智能體、網絡物理社會安全智能體系統、智能體生態系統的價值網絡等角度指出未來的研究方向,旨在提升LM智能體的效率和安全性。

E. 論文組織 本文其余部分組織如下。第二節討論單個LM智能體的工作原理,第三節介紹連接LM智能體的合作范式。第四節和第五節分別介紹LM智能體的安全和隱私威脅的分類,以及最新的對策。第六節概述LM智能體領域的開放研究問題和未來方向。最后,第七節給出結論。圖4描繪了本綜述的組織結構。

II. 大型模型智能體:工作原理 在本節中,我們首先介紹現有的LM智能體標準。然后,討論連接LM智能體的一般架構,包括關鍵組件、通信模式、主要特征和啟用技術。接下來,介紹典型原型并討論LM智能體的現代應用。

  1. LM智能體的操作系統(OS):根據[45],[46],LM智能體的操作系統架構由三層組成:應用層、內核層和硬件層。
  • 應用層承載智能體應用(如旅行、編碼和機器人智能體),并提供抽象系統調用的SDK,簡化智能體開發。
  • 內核層包括普通的操作系統內核和額外的LM智能體內核,重點在于不改變原始操作系統結構。LM智能體內核中的關鍵模塊包括任務規劃和優先級調度的智能體調度器、LM狀態管理的上下文管理器、短期數據的記憶管理器、長期數據保留的存儲管理器、外部API交互的工具管理器,以及隱私控制的訪問管理器。
  • 硬件層包含物理資源(CPU、GPU、內存等),通過操作系統系統調用間接管理,因為LM內核不直接與硬件交互。
  1. LM智能體的構建模塊:根據[1],[8]–[10],LM智能體一般有五個構建模塊:規劃、行動、記憶、互動和安全模塊(詳細見節II-C)。這些模塊共同使LM智能體能夠高效、安全地感知、規劃、行動、學習和互動于復雜動態環境中。
  • 通過大型模型,規劃模塊利用記憶模塊生成策略和行動計劃,實現知情決策[7],[10]。
  • 行動模塊執行這些具體的行動,根據實時環境反饋調整行動,以確保上下文適當的響應[9],[42]。
  • 記憶模塊作為累積知識(如過去經驗和外部知識)的存儲庫,促進持續學習和改進[10]。
  • 互動模塊使智能體與人類、其他智能體和環境之間實現有效的溝通與協作。
  • 安全模塊貫穿于LM智能體的操作中,確保主動防護威脅并維護數據和過程的完整性和機密性。
  1. LM智能體的引擎:LM智能體的引擎由一系列前沿技術驅動,包括大型基礎模型、知識相關技術、互動、數字雙胞胎和多智能體協作(詳細見節II-D)。
  • 大型基礎模型如GPT-4和DALL-E 2作為LM智能體的大腦,使其具備高級模式識別、復雜推理和智能決策能力,提供認知能力[6],[7]。
  • 知識相關技術通過整合知識圖譜、知識庫和RAG系統增強LM智能體,使其能夠訪問、利用和管理大量外部知識源,確保知情和上下文相關的行動[47]。
  • HMI技術通過自然語言處理、多模態接口以及增強/虛擬/混合現實(AR/VR/MR)實現人類與智能體之間的無縫互動,促進動態和自適應的交互[48]。
  • 數字雙胞胎技術通過智能體內部的通信實現物理身體和數字大腦之間的數據和狀態的高效同步[49]。
  • 多智能體協作技術使LM智能體能夠高效協同工作,分享數據、資源和任務,通過智能體間的通信制定合作、競爭和合作競爭策略,解決復雜問題[28]。
  1. LM智能體的通信模式:每個LM智能體由兩個部分組成:(i)位于云端、邊緣服務器或終端設備的LM賦能大腦,以及(ii)相應的物理身體,如自主車輛。每個LM智能體可以主動與其他LM智能體、虛擬/現實環境和人類互動。對于連接的LM智能體,存在兩種典型的通信模式:內部通信用于智能體內大腦與物理身體之間的無縫數據/知識同步,外部通信則用于LM智能體之間的高效協調。表III總結了這兩種通信模式的比較。
  • 內部通信是指單個LM智能體內部的數據/知識交換。這種通信確保LM智能體的不同組件(包括規劃、行動、記憶、互動和安全模塊)協同工作。例如,LM智能體通過其物理身體收集多模態感知數據,然后將解釋的信息傳達給LM賦能的大腦。大腦中的規劃模塊制定響應或行動計劃,隨后由行動模塊執行。這種信息的無縫流動對于維持LM智能體在實時動態場景中的功能性、一致性和響應性至關重要。
  • 外部通信涉及多個LM智能體之間的信息和知識交換。它促進了智能體之間的協同任務分配、資源共享和協調行動,推動集體智能的發展。例如,在智能城市應用中,管理交通信號燈、公共交通和應急服務的各種LM智能體共享實時數據,以優化城市流動性和安全性。有效的外部通信依賴于標準化協議,以確保兼容性和互操作性,從而促進LM智能體網絡的高效和同步操作。
  1. 人類世界與LM智能體之間的信息流:人類通過自然語言、移動智能設備和可穿戴技術與LM智能體互動,使LM智能體能夠理解人類指令并有效解決現實問題。LM智能體反過來從人類輸入中獲取新知識和數據,幫助其持續改進和學習。這一持續更新和優化模型的過程,使LM智能體能夠提供越來越準確和有用的信息。在AR和VR環境中,LM智能體能夠在虛擬場景中與人類用戶協作,如建筑設計,提升整體效率和創造力[50]。
  2. 物理世界與LM智能體之間的信息流:得益于數字雙胞胎技術,LM智能體能夠在其物理身體和數字大腦之間同步數據和狀態,形成無縫互動循環。LM智能體還可以監控并對環境的實時輸入作出反應。這種雙向同步使LM智能體能夠以高精度和響應性感知和應對其周圍環境,無論是虛擬還是現實,從而彌合數字與物理領域之間的差距。通過不斷從環境反饋中學習,LM智能體能夠積累知識并理解物理法則,從而解決復雜的現實世界問題。這一迭代學習過程確保LM智能體不僅對即時刺激作出反應,還能隨著時間推移不斷優化其具體行動,達到更復雜和有效的解決方案。
  3. 網絡世界與LM智能體之間的信息流:在網絡世界中,LM智能體通過高效的云-邊緣網絡連接到LM智能體互聯網,促進無縫數據和知識共享,推動多智能體協作。通過在云和邊緣基礎設施中部署大型模型,LM智能體能夠利用云和邊緣計算的優勢,優化性能和響應能力[51]。云提供強大的計算能力和存儲,支持處理大量數據和訓練復雜模型。同時,邊緣提供接近數據源的實時數據處理能力,減少延遲,確保及時決策。在LM智能體互聯網中,LM智能體可以實時共享數據、知識和學習經驗,構建一個跨多個領域的強大自適應智能網絡。例如,在智能城市中,分布在不同位置的具身LM智能體可以通過共享實時數據和協調行動,協作優化交通流、管理能源資源并增強公共安全。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

ProcessGPT論文簡介

GPT 是一種先進的機器學習模型,能夠通過自然語言處理(NLP)生成類似人類的文本。GPT在大量文本數據上進行訓練,并使用深度學習技術來學習數據中的模式和關系,使其能夠生成連貫和情境適當的文本。本文提出了在需要時使用GPT技術生成新的流程模型,介紹了ProcessGPT作為一種新技術,它有潛力增強基于數據和知識的流程中的決策制定。ProcessGPT可以通過在大型業務流程數據集上對生成的預訓練變換器模型進行訓練來設計。然后可以在特定的流程領域對該模型進行微調,并根據上下文和用戶輸入來生成流程流程并做出決策。該模型可以與自然語言處理和機器學習技術結合,為流程改進提供洞見和建議。此外,該模型可以自動化重復性任務,提高流程效率,同時使知識工作者能夠溝通分析結果、支持證據并做出決策。ProcessGPT可以通過提供強大的工具來增強、自動化和改進流程,徹底改變業務流程管理。最后,作者展示了如何將ProcessGPT作為一種強大的工具,用于增強數據工程師在維護大型銀行組織內的數據生態系統流程方面。此場景突顯了這種方法改善效率、降低成本,并通過自動化數據中心和知識密集型流程來提升業務運營質量的潛力。這些結果強調了ProcessGPT作為一種變革性技術,適用于希望改進其流程工作流程的組織。

論文鏈接://www.computer.org/csdl/proceedings-article/icws/2023/048500a731/1QzhSwZJ8qI

ProcessGPT架構簡介 ProcessGPT的架構如圖所示,包括流程數據空間、流程數據湖、流程知識湖、流程知識、流程知識圖、Transformer模型和Process Co-pilot。

流程數據空間層指的是跨多個數據島生成的所有與流程相關的數據,包括流程日志、流程模型孤島、最佳實踐以及在開放、私有和社交數據等各種數據島上生成的與流程相關的數據。這些數據表現出大數據的典型特性,包括廣泛的物理分布、多樣的格式、非標準數據模型以及獨立管理和異構語義。為了管理這些龐大且多樣的與流程相關的數據,作者提出了流程數據湖層。該層利用作者先前的工作[1],對大型流程數據和元數據進行組織、索引和查詢。

ProcessGPT的架構如圖所示,包括流程數據空間、流程數據湖、流程知識湖、流程知識、流程知識圖、Transformer模型和Process Co-pilot。
流程數據空間層指的是跨多個數據島生成的所有與流程相關的數據,包括流程日志、流程模型孤島、最佳實踐以及在開放、私有和社交數據等各種數據島上生成的與流程相關的數據。這些數據表現出大數據的典型特性,包括廣泛的物理分布、多樣的格式、非標準數據模型以及獨立管理和異構語義。為了管理這些龐大且多樣的與流程相關的數據,作者提出了流程數據湖層。該層利用作者先前的工作[1],對大型流程數據和元數據進行組織、索引和查詢。
流程數據湖層有助于有效組織與流程相關的數據和元數據,以實現跨各種數據島的知識高效檢索、分析和共享。在將原始數據存儲在流程數據湖中之后,下一步是將這些數據轉化為上下文化的數據和知識。這一轉化是通過使用先前工作中[2]開發的知識湖即服務方法實現的。
為了促進這一轉化,提出的方法涉及創建一個流程知識湖層,該層利用策劃服務來清理、整合和轉換原始數據。此外,通過提取、豐富和鏈接信息項為這些數據增加了價值。上下文化數據在知識湖中進行預處理,形成一個稱為流程知識圖的大圖。這個圖是流程相關數據中各個實體之間關系的表示,提供了對流程知識的更完整和全面的視圖。流程知識圖作為后續分析的基礎,實現了有效的決策和流程改進。
流程知識圖是一個大型、語義豐富的圖數據庫,通過一組節點和邊來表示信息和知識。圖中的節點代表實體或概念,而邊代表這些實體之間的關系。流程知識圖作為上下文化流程數據、知識、任務和活動的存儲庫。知識圖是以結構化和相互連接的方式表示和組織知識的強大工具。它使系統能夠將相關概念和實體聯系在一起,促進在不同領域之間的推理和推斷。知識圖中各個實體之間的相互連接使系統能夠推理不同實體之間的關系和依賴性,從而實現更有效的決策和流程改進。知識圖代表了流程管理的重大進展,并為開發智能和自適應的流程管理系統提供了基礎。流程知識圖不包括領域專家的最佳實踐和知識。
為了彌補這一差距,利用了我們先前的工作[3]來模擬使用眾包服務的學科專家的知識。這些新知識用于注釋流程知識圖中的節點和關系,增強其完整性和準確性。在這個階段,知識圖成為AI引擎,特別是ProcessGPT Transformer模型的綜合數據源。Transformer是一種新型的神經架構,利用注意力機制將輸入數據編碼為強大的特征。ProcessGPT將使用Transformer-in-Transformer (TNT)模型 [4],該模型突出了在局部補丁中利用注意力的重要性,以開發性能卓越的變壓器。該模型采用了GPT類似的方法,例如chatGPT和Github Co-pilot。
 Process Co-pilot 利用了業務活動監控的最新進展,不斷監控當前流程實例中的活動,同時可以訪問knowledge worker’s persona和上下文窗口,即在生成輸出序列的下一個標記時考慮的前幾個標記數量。

AI@MQ簡介
本文作者均來自于澳大利亞麥考瑞大學人工智能中心(AI@MQ),此中心成立于2019年,是一個致力于推動人工智能(AI)和數據科學領域的研究與應用的機構。該中心的目標是將人工智能和數據科學技術置于企業和組織的核心,重新定義他們如何創造、捕獲和共享價值。AI@MQ的研究涵蓋了多個領域,包括但不限于人工智能、數據科學、大數據和過程自動化。該中心的研究項目由世界級的領導者和專家領導,涵蓋了從基礎研究到應用開發的全范圍。除了研究項目外,AI@MQ還支持數據科學實驗室和大數據學會等機構,以促進學術界和工業界之間的合作與交流。AI@MQ的目標是成為全球領先的人工智能研究中心之一,為企業、組織和社會提供創新的解決方案,并在人工智能和數據科學領域取得持續的進步和影響。在2024 QS世界大學學科排名中,麥考瑞大學的數據科學與人工智能首次上榜,并獲得世界排名48位的傲人成績!
 參考文獻: [1] A. Beheshti, B. Benatallah, R. Nouri, V. M. Chhieng, H. Xiong, and X. Zhao, “CoreDB: a data lake service,” in CIKM. ACM, 2017, pp. 2451–2454. [2] A. Beheshti, B. Benatallah, R. Nouri, and A. Tabebordbar, “CoreKG: a knowledge lake service,” Proc. VLDB Endow., vol. 11, no. 12, pp. 1942–1945, 2018. [3] A. Beheshti, “Knowledge base 4.0: Using crowdsourcing services for mimicking the knowledge of domain experts,” in IEEE International Conference on Web Services, ICWS 2022, Barcelona, Spain, July 10-16, 2022. IEEE, 2022, pp. 425–427. [4] K. Han, A. Xiao, E. Wu, J. Guo, C. Xu, and Y. Wang, “Transformer in transformer,” Advances in Neural Information Processing Systems, vol. 34, pp. 15 908–15 919, 2021.

付費5元查看完整內容

轉載機器之心

作者:孫澤華本文對當前基于深度學習的行為識別方法進行了全面的綜述。人類行為識別旨在了解人類的行為,并為行為指定標簽,例如,握手、吃東西、跑步等。它具有廣泛的應用前景,在計算機視覺領域受到越來越多的關注。人類行為可以使用各種數據模態來表示,如 RGB、骨架、深度、紅外序列、點云、事件流、音頻、加速信號、雷達和 WiFi,這些數據模態在不同的場景下具有不同的優勢。本文研究者基于主流深度學習,對當前基于深度學習的行為識別方法進行了全面的綜述,涉及多種數據模態。

論文鏈接:

具體而言: (1)該論文回顧了基于單模態的行為識別方法,這些模態包括 RGB、骨架、深度、紅外序列、點云、事件流、音頻、加速信號、雷達和 WiFi。(2)該論文回顧了基于多模態的行為識別方法,并將其分為多模態融合和跨模態協同學習兩種類型。(3)該論文回顧了最新和最先進的深度學習方法,包括 CNN、RNN、GCN 和 Transformer,并在幾個基準數據集上對現有方法及其性能進行了全面比較。

「數據模態」都有哪些?

本文主要回顧了基于 RGB、骨架、深度、紅外序列、點云、事件流、音頻、加速信號、雷達和 WiFi 模態的行為識別方法。此外,角速度、射頻、肌電圖等數據模態也可被用于行為識別。

(1)RGB 視頻:行為識別領域中最常見的數據模態,被廣泛地應用于視覺監視、自主導航等應用中。RGB 模態包含了豐富的場景上下文外觀信息,但易于受到背景、視角、人體尺度和照明條件變化的影響。對于 RGB 模態,最常見的四類深度學習網絡是雙流 2D CNN,RNN,3D CNN,和 Transformer。

(2)骨架序列:編碼人體關節的軌跡,當動作執行不涉及物體或場景上下文時簡潔高效,具有尺度不變性、對紋理和背景變化的魯棒性。對于骨架模態,最常見的四類深度學習網絡是 CNN,RNN,GCN,和 Transformer。

(3)深度圖:本質是將 3D 數據轉換為 2D 圖像,提供了可靠的人體三維結構和幾何形狀信息,對顏色和紋理的變化具有魯棒性。(4)紅外序列:不依賴外部環境光,適用于黑暗環境中的行為識別。(5)點云:獲取目標的三維結構和距離信息,在機器人導航和自動駕駛中得到廣泛應用。點云由大量的點集合組成,這些點代表了在空間參考系統下目標的空間分布和表面特征,具有很強的空間輪廓和三維幾何形狀表征能力,因此適用于行為識別研究。(6)事件流:事件相機,也被稱為神經形態相機或動態視覺傳感器,可以捕捉光照變化,并獨立地為每個像素產生異步事件輸出。因此,事件流數據保留了主體的運動信息,避免過多的背景視覺冗余。(7)音頻:是視頻數據任務十分流行的輔助模態。由于視覺和音頻流之間的同步,音頻數據可以提供額外信息,并且可以用于定位動作,以減少人類標記工作和減少計算成本。(8)加速信號:通常由 IMU 傳感器獲取,用于細粒度和多模態的行為識別。(9)雷達:雷達高頻率和短波長的信號使得其可用于細粒度的感知任務。雷達頻譜圖對光照和天氣條件變化具有魯棒性,保護隱私,可用于穿越墻壁的行為識別。(10)WiFi:最常見室內無線信號類型之一,主要利用信道狀態信息 (CSI) 的變化進行行為識別的感知任務。 「多模態」方法有哪些?

在現實生活中,人們往往以多種認知方式感知環境。同樣,多模態機器學習是一種旨在處理和關聯來自多個模態信息的建模方法。通過綜合各種數據模態的優勢和能力,多模態機器學習通常可以提供更健壯和更準確的行為識別結果。多模態學習方法主要分為兩種,即融合和協同學習。 融合是指將來自兩種或兩種以上模態的信息整合進行訓練和推理,例如,音頻數據可以作為骨架模態的補充信息來區分 “拍盤子” 和“拍袋子”動作。

協同學習是指不同數據模態之間的知識遷移,例如,骨架數據可以作為輔助模態,使模型能夠從 RGB 視頻中為行為識別提取更多的判別特征。同時,協同學習還適用于現實生活中某些模態缺失的情況。 「數據集」有哪些?

近些年來,大量的行為識別數據集被提出以訓練和評估各種方法,該論文總結了適用于不同模態的基準數據集,并提供了其相關屬性。

結語

行為識別是近些年來備受關注的重要研究領域,各種具有不同特征的數據模態被研究使用。雖然已有大量的行為識別工作被提出,但在(1)數據集、(2)多模態學習、(3)低成本計算、(4)動作預測、(5)小樣本學習、(6)非監督和半監督學習等方面仍需要進一步的探索,堅信行為識別將在未來發揮更加關鍵的作用。 作者擬對此論文的 arXiv 版本每年進行定期更新,以覆蓋人類行為識別領域的最新進展。

付費5元查看完整內容

摘要

本文討論了在指揮和控制(C2)過程中確定人工智能(AI)和機器學習(ML)算法的潛在應用問題。至少三十年來,具有弱智能行為的軟件組件一直是C2的一部分。這不僅仍有很大的改進和加速空間,而且由于混合戰爭的特點,面對臨近檢測到的威脅必須更快、更靈活地做出反應。

為了挖掘人工智能解決方案在C2領域的潛力,在軍事領導人和人工智能專家之間達成更好的相互交流是不可避免的。這種相互交流的一個基本要求是將共同的詞匯標準化,并將不同的人工智能方法的基本思想傳達給軍事人員。這兩點可以通過使用合適的人工智能方法抽象來實現。

在這里,我們提出了一個軟件項目,以討論三個層次的抽象,區分人工智能軟件解決方案的不同顆粒度的信息交流。雖然最低級別的抽象過于復雜,無法創建一個標準化的詞匯表,但最高級別的抽象對于許多問題案例來說過于粗糙,無法設計一個合適的算法。然而,正如我們將展示的那樣,這種最高級別的抽象是很重要的,因為它是軍事操作人員和人工智能專家之間信息交流的最佳級別。最高級別的抽象是由一個平滑的人工智能模式表示的,稱為人工智能的周期表(PTA)。我們提出了一個基于PTA的新型指導性工作流程,以支持軍事人員和人工智能專家之間的交流,從而利用自動化工作的成果。我們將表明,PTA非常適合作為軍事操作人員和機器學習專家之間的交流手段。在未來的工作中,我們可以研究現有的PTA是否應該被改進,特別是在安全部隊的要求方面。

概述

一個系統開發者面臨著確定客戶實際需求的問題。這在復雜的C2軍事過程中尤其困難,特別是在混合戰爭這個廣泛的領域。在這里,我們必須考慮到 "算法決策 "或 "部署新應用 "的速度。混合戰爭產生了新的挑戰,比如我們在這里所說的 "基于推特的態勢感知",它可以被看作是 "基于新聞的態度感知 "的一個組成部分。

在經典的客戶產品管理工作流程中,確定用戶需求的必要性是通過收集利益相關者的關注來達到的。但這種方法在有關場景中過于粗糙。為了設定一個足夠寬的時間框架,使人類的決策不至于減速,有必要對實際戰術任務的確定步驟有一個清晰的了解,貫穿于軍事等級制度觸及的所有層面。人工智能專家不具備這種軍事專業知識,而軍事領導人在大多數情況下沒有接受過足夠的人工智能培訓,無法識別使用人工智能軟件組件的機會。

第一步(第2.0節),我們將介紹必要的定義,包括我們對人工智能這一技術術語的使用(第2.1節),對C2過程的描述(第2.2.2節),對PTA的描述(第2.2.3節)以及我們對混合戰爭的理解(第2.4節)。在下一步(第3.0節),我們將介紹一個軟件項目,目前是我們軟件開發部門產品組合的一部分,其中包含重要的人工智能組件,并從不同的抽象層次的角度描述這個軟件項目。然后(第4.0節),我們將介紹一項用戶研究,并得出結論(第5.0節):PTA是表達使用人工智能所帶來機遇的一種合適的方式。

圖1-1:北約定義的指揮和控制流程。

付費5元查看完整內容

簡介

本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。

背景:預訓練

機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。

為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。

在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。

受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。

GPT-GNN模型

要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?

本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。

由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。

在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,

在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。

我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。

為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。

實驗

我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。

第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。

總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。

我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容
北京阿比特科技有限公司