亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

智能交通系統(ITS)對于改善交通擁堵、減少交通事故、優化城市規劃等方面至關重要。然而,由于交通網絡的復雜性,傳統機器學習和統計方法已經逐漸退居二線。隨著人工智能時代的到來,許多深度學習框架在各個領域取得了顯著進展,現在被認為是許多領域中有效的方法。作為一種深度學習方法,自2019年以來,圖神經網絡(GNNs)在ITS領域成為一種極具競爭力的方法,這得益于它們在處理圖相關問題上的強大能力。因此,越來越多的學者開始關注GNNs在交通領域的應用,這些應用已經顯示出卓越的性能。然而,這一領域的大多數研究仍然集中在交通預測上,而ITS的其他領域,如自動駕駛和城市規劃,仍需要更多關注。本文旨在綜述GNNs在六個代表性和新興的ITS領域的應用:交通預測、自動駕駛、交通信號控制、交通安全、需求預測和停車管理。我們回顧了2018至2023年的廣泛的圖相關研究,總結了它們的方法、特點和貢獻,并以信息豐富的表格或列表的形式呈現。最后,我們確定了將GNNs應用于ITS的挑戰,并提出了潛在的未來方向。 隨著城市的擴張和交通系統的發展,一些交通系統問題逐漸暴露出來,包括交通擁堵、環境污染和日益增加的交通事故數量。為了緩解上述問題,改善交通流量,規劃路線,提高交通安全,五十多年前美國提出了智能交通系統(ITS)。ITS是一個涵蓋許多領域的智能系統,包括交通預測、自動駕駛、交通信號控制等。值得注意的是,交通預測是吸引最多關注的最熱門研究領域之一,因為它在交通領域具有基礎應用,如優化路線規劃,促進道路交通,減少交通事故。然而,在這些ITS子領域中實現高精度和高置信度仍然是一大挑戰。根據Verses等人[147]的說法,處理大量嘈雜數據以及可擴展性和泛化方面存在許多實際挑戰。因此,應進一步開發高效的算法和可擴展的模型,以充分利用大數據的潛力,建立準確高效的ITS。 在過去三十年中,提出了統計方法,如簡單線性時間序列模型,包括自回歸積分移動平均(ARIMA)[84, 167],傳統機器學習方法,包括邏輯回歸(LR),支持向量回歸(SVR),k-最近鄰(KNN)[21, 68, 170]來解決這些問題。然而,數據的增長和復雜的道路條件使傳統方法逐漸退居二線。此外,計算技術的進步,如圖形處理單元(GPU),使得深度機器學習模型成為現象。根據[33]總結的深度學習驅動的交通預測的重要里程碑,自2015年以來,交通預測的深度學習模型蓬勃發展,2019年之后最受歡迎的模型是圖神經網絡(GNNs)。GNNs的優勢不僅在于能夠很好地建模基于圖的問題,還在于能夠捕捉時空依賴性并在非歐幾里得空間中表示關系[33, 69, 120]。

在對ITS領域的工作進行詳細調查后,我們發現大部分研究集中在交通預測上。然而,我們認為ITS的其他領域需要更多關注。此外,盡管最近的研究已轉向深度學習和強化學習等有前景的技術,但GNNs仍需要更多關注和應用。考慮到交通網絡的圖結構和上述GNNs的優勢,我們認為它們是ITS下一個新興且具有高度競爭力的解決方案。我們主要調查了2018年至2023年在ITS領域發表的基于GNNs的論文,并進行了詳細總結。我們還確定了ITS領域面臨的研究挑戰,并提出了一些潛在的未來發展方向。 根據以上討論,我們的主要貢獻可以總結如下: ? 綜合性綜述。對2018至2023年智能交通系統的廣泛研究工作或調查進行了詳細調研。這項研究不僅涵蓋了ITS的一般和典型研究領域,而且對所綜述的研究進行了詳細闡述,總結了它們的方法和挑戰,并形成了信息豐富的表格和列表。 ? 全面的分類法。我們根據研究領域相關性、使用的圖方法和遇到的特定領域挑戰仔細分類了研究學術文獻,幫助讀者從多維度充分理解ITS的每個領域。 ? 挑戰和未來方向。在進行全面綜述后,我們總結了將GNNs應用于ITS時面臨的重大挑戰,并提出了潛在的未來方向,這對于那些想要跟進并深入研究這一研究領域的人來說是有益的。

付費5元查看完整內容

相關內容

圖神經網絡 (GNN) 是一種連接模型,它通過圖的節點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,可以表示來自其鄰域的具有任意深度的信息。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統、問答系統甚至生命科學等各個領域得到了越來越廣泛的應用。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。

近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。

另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。

雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。

盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。

在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。

雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。

本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。

本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。

//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb

近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等

有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下

? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。

付費5元查看完整內容

機器學習是實現人工智能的重要技術手段之一,在計算機視覺、自然語言處理、搜索引擎與推薦系統等領域有著重要應用.現有的機器學習方法往往注重數據中的相關關系而忽視其中的因果關系,而隨著應用需求的提高,其弊端也逐漸開始顯現,在可解釋性、可遷移性、魯棒性和公平性等方面面臨一系列亟待解決的問題.為了解決這些問題,研究者們開始重新審視因果關系建模的必要性,相關方法也成為近期的研究熱點之一.在此對近年來在機器學習領域中應用因果技術和思想解決實際問題的工作進行整理和總結,梳理出這一新興研究方向的發展脈絡.首先對與機器學習緊密相關的因果理論做簡要介紹;然后以機器學習中的不同問題需求為劃分依據對各工作進行分類介紹,從求解思路和技術手段的視角闡釋其區別與聯系;最后對因果機器學習的現狀進行總結,并對未來發展趨勢做出預測和展望.

地址://crad.ict.ac.cn/CN/10.7544/issn1000-1239.202110780

0. 引言

機器學習是一門研究如何設計算法、利用數據 使機器在特定任務上取得更優表現的學科,其中以 深度學習[1] 為代表的相關技術已成為人們研究實現 人工智能方法的重要手段之一.至今機器學習研究已 經取得大量令人矚目的成就:在圖像分類任務上的 識別準確率超過人類水平[2] ;能夠生成人類無法輕易 識別的逼真圖像[3] 和文本[4] ;在圍棋項目中擊敗人類 頂尖棋手[5] ;蛋白質結構預測結果媲美真實實驗結 果 [6] 等.目前機器學習在計算機視覺、自然語言處理、 搜索引擎與推薦系統等領域發揮著不可替代的作用, 相關應用涉及互聯網、安防、醫療、交通和金融等眾 多行業,對社會發展起到了有力的促進作用. 盡管機器學習研究獲得了一系列豐碩的成果, 其自身的問題卻隨著應用需求的提高而日益凸顯.機 器學習模型往往在給出預測結果的同時不會解釋其 中的理由,以至于其行為難以被人理解[7] ;同時機器 學習模型還十分脆弱,在輸入數據受到擾動時可能 完全改變其預測結果,即使這些擾動在人看來是難以 察覺的[8] ;機器學習模型還容易產生歧視行為,對不 同性別或種族的人群給予不同的預測傾向,即使這 些敏感特征不應當成為決策的原因[9] .這些問題嚴重 限制了機器學習在實際應用中發揮進一步的作用.造成這一系列問題的一個關鍵原因是對因果關 系的忽視.因果關系,指的是 2 個事物之間,改變一 者將會影響另一者的關系.然而其與相關關系有所不 同,即使 2 個事物之間存在相關關系,也未必意味著 它們之間存在因果關系.例如圖像中草地與牛由于常 在一起出現而存在正相關關系,然而兩者之間卻沒 有必然的因果關系,單純將草地改為沙地并不會改 變圖像中物體為牛的本質.機器學習的問題在于其模 型的訓練過程僅僅是在建模輸入與輸出變量之間的 相關關系,例如一個識別圖像中物體類別的機器學 習模型容易將沙地上的牛識別為駱駝,是因為訓練 數據中的牛一般出現在草地上而沙地上更常見的是 駱駝.這種具備統計意義上的相關性卻不符合客觀的 因果規律的情況也被稱為偽相關(spurious correlation). 偽相關問題的存在對只考慮相關性的機器學習模型 帶來了災難性的影響:利用偽相關特征進行推斷的 過程與人的理解不相符,引發可解釋性問題;在偽相 關特征發生變化時模型預測結果會隨之改變從而導 致預測錯誤,引發可遷移性和魯棒性問題;如果偽相 關特征恰好是性別和膚色等敏感特征,則模型決策 還會受到敏感特征的影響,引發公平性問題.忽視因 果關系導致的這些問題限制了機器學習在高風險領 域及各類社會決策中的應用.圖靈獎得主 Bengio 指出, 除非機器學習能夠超越模式識別并對因果有更多的 認識,否則無法發揮全部的潛力,也不會帶來真正的 人工智能革命.因此,因果關系的建模對機器學習是 必要的,需求也是十分迫切的. **因果理論即是描述、判別和度量因果關系的理 論,由統計學發展而來.長期以來,由于缺乏描述因果 關系的數學語言,因果理論在統計學中的發展十分 緩慢.**直到 20 世紀末因果模型被提出后,相關研究才 開始蓬勃興起,為自然科學和社會科學領域提供了 重要的數據分析手段,同時也使得在機器學習中應 用因果相關的技術和思想成為可能.圖靈獎得 主 Pearl 將這一發展歷程稱為“因果革命” [10] ,并列舉了 因果革命將為機器學習帶來的 7 個方面的幫助[11] . 本文將在機器學習中引入因果技術和思想的研究方 向稱為因果機器學習(causal machine learning).目前機 器學習領域正處于因果革命的起步階段,研究者們 逐漸認識到了因果關系建模的必要性和緊迫性,而 因果機器學習的跨領域交叉特點卻限制了其自身的 前進步伐.本文希望通過對因果理論和因果機器學習 前沿進展的介紹,為相關研究者掃清障礙,促進因果 機器學習方向的快速發展.目前針對因果本身的研究 已有相關綜述文獻 [12?14],內容主要涵蓋因果發現 和因果效應估計的相關方法,但很少涉及在機器學習任務上的應用.綜述文獻 [15?16] 詳細地介紹了因 果理論對機器學習發展的指導作用,著重闡述現有 機器學習方法的缺陷和因果理論將如何發揮作用, 但缺少對這一方向最前沿工作進展的整理和介紹, 而這正是本文重點介紹的內容.

1 因果理論簡介

因果理論發展至今已成為統計學中的一個重要 分支,具有獨有的概念、描述語言和方法體系.對于 因果關系的理解也已經不再僅停留在哲學概念的層 面,而是有著明確的數學語言表述和清晰的判定準 則.當前廣泛被認可和使用的因果模型有 2 種:潛在 結果框架(potential outcome framework)和結構因果模 型(structural causal model, SCM).Splawa-Neyman 等 人 [17] 和 Rubin[18] 提出的潛在結果框架又被稱為魯賓 因果模型(Rubin causal model, RCM),主要研究 2 個 變量的平均因果效應問題;Pearl[19] 提出的結構因果 模型使用圖結構建模一組變量關系,除了效應估計 也會關注結構發現問題.RCM 與 SCM 對因果的理解 一致,均描述為改變一個變量是否能夠影響另一個 變量,這也是本文所考慮的因果范疇.兩者的主要區 別在于表述方法不同,RCM 更加簡潔直白,相關研究 更為豐富;而 SCM 表達能力更強,更擅長描述復雜 的問題.雖然目前依然存在對因果的其他不同理解, 這些理解通常不被視為真正的因果,例如格蘭杰因 果(Granger causality) [20] 描述的是引入一個變量是否 對另一個變量的預測有促進作用,本質上仍是一種 相關關系. 本節將對因果相關概念以及 RCM 與 SCM 的相 關理論和技術進行簡要介紹.由于本文關注的主要內 容是因果機器學習而不是因果本身,本節將側重于 介紹機器學習中所使用的因果的概念和思想,而不 會過多關注因果領域自身的前沿研究.

**2 因果機器學習相關工作介紹 **

近年來隨著因果理論和技術的成熟,機器學習 領域開始借助因果相關技術和思想解決自身的問題, 這一研究方向逐漸受到研究者越來越多的關注.至今,因果問題被認為是機器學習領域亟待解決的重要問 題,已成為當下研究的前沿熱點之一.機器學習可以 從因果技術和思想中獲得多個方面的益處.首先,因 果理論是一種針對數據中規律的普適分析工具,借 助因果圖等語言可以對研究的問題做出細致的分析, 有利于對機器學習模型的目標進行形式化以及對問 題假設的表述.其次,因果推斷提供了消除混雜因素 以及進行中介分析的手段,對于機器學習任務中需 要準確評估因果效應及區分直接與間接效應的場景 有十分重要的應用價值.再者,反事實作為因果中的 重要概念,也是人在思考求解問題時的常用手段,對 于機器學習模型的構建和問題的分析求解有一定的 指導意義. 本節將對近年來因果機器學習的相關工作進行 整理介紹,涉及應用領域包括計算機視覺、自然語言 處理、搜索引擎和推薦系統等.按照所解決問題的類 型進行劃分,因果機器學習主要包括以下內容:可解 釋性問題主要研究如何對已有機器學習模型的運作 機制進行解釋;可遷移性問題主要研究如何將模型 在特定訓練數據上學到的規律遷移到新的特定環境; 魯棒性問題主要研究尋找普適存在的規律使模型能 夠應對各種未知的環境;公平性問題主要研究公平 性度量指標并設計算法避免歧視;反事實評估問題 主要研究如何在存在數據缺失的場景中進行反事實 學習.這些問題與因果理論的關系如圖 4 所示,下面 針對這些問題分別展開介紹.

**2.1 可解釋性問題 **

機器學習模型會根據給定輸入計算得到對應的 輸出,但一般不會給出關于“為什么會得到此輸出” 的解釋.然而這種解釋有助于人們理解模型的運作機 制,合理的解釋能夠使結果更具有說服力.因此近年 來涌現出許多致力于為現有模型提供解釋方法的工 作,為模型的診斷分析提供了有效手段[39] .解釋的核 心在于“模型得到此輸出,是因為輸入具有什么樣的 特征”,這本質上是在探討在此模型參與過程中輸入 特征與輸出結果之間的因果關系,例如估計特征對 輸出變量的因果效應強度. 由于機器學習模型對輸入數據的處理過程是一 個獨立而完整的過程,輸入與輸出變量之間一般不 會受到混雜因素的影響,因此即使不使用因果術語 也可以對任務進行描述.這體現為早期的模型解釋方 法并不強調因果,少數強調因果的方法也并不一定依賴因果術語.因果理論的引入為可解釋性問題領域 帶來的貢獻主要有 2 個方面:一是在基于歸因分析 的解釋方法中建模特征內部的因果關系;二是引入 一類新的解釋方法即基于反事實的解釋.基于歸因分 析和基于反事實的解釋構成了當前最主要的 2 大類 模型解釋方法如表 1 所示,以下分別展開介紹.

2.2 可遷移性問題

機器學習研究通常會在一個給定的訓練數據集 上訓練模型,然后在同數據分布的驗證集或測試集 上進行測試,這種情況下模型的表現稱為分布內泛 化(in-distribution generalization).在一般的應用場景中, 機器學習模型會部署在特定數據環境中,并使用該 環境中產生的數據進行模型訓練,其性能表現可以用分布內泛化能力來度量.然而在一些場景中,目標 環境中的標注數據難以獲取,因此更多的訓練數據 只能由相似的替代環境提供.例如訓練自動駕駛的智 能體時由于風險過高不能直接在真實道路上行駛收 集數據,而只能以模擬系統中所獲取的數據為主進 行訓練.這種場景下的機器學習任務又稱為域適應 (domain adaptation),屬于遷移學習(transfer learning) 的范疇,即將源域(source domain)中所學到知識遷移 至目標域(target domain).這里的域(domain)和環境 (environment)的含義相同,可以由產生數據的不同概 率分布來描述,下文將沿用文獻中各自的習慣稱呼, 不再對這 2 個概念進行區分. 在可遷移性問題中,因果理論的主要價值在于 提供了清晰的描述語言和分析工具,使研究者能夠 更準確地判斷可遷移和不可遷移的成分,有助于設 計針對不同場景的解決方案.因果推斷中關注的效應 估計問題本質上是在研究改變特定環境作用機制而 保持其他機制不變的影響,這與遷移學習中域的改 變的假設相符,即目標域和源域相比繼承了部分不 變的機制可以直接遷移,而剩余部分改變的機制則 需要進行適應.因此在因果理論的指導下,遷移學習 中的關鍵問題就是建模并識別變與不變的機制.目前 因果遷移學習一般假設輸入 與輸出 之間有直接 因果關系,重點關注無混雜因素情況下變量的因果 方向和不變機制,如表 2 所示,以下介紹相關工作

2.3 魯棒性問題

遷移學習允許模型獲得目標環境的少量數據以 進行適應學習,然而在一些高風險場景中,可能需要 機器學習模型在完全陌生的環境中也能正常工作, 如醫療、法律、金融及交通等.以自動駕駛為例,即使 有大量的真實道路行駛數據,自動駕駛智能體仍會 面臨各種突發情況,這些情況可能無法被預見但仍 需要被正確處理.這類任務無法提供目標環境下的訓 練數據 ,此時模型的表現稱為分布外泛化(out-ofdistribution generalization).如果模型具有良好的分布 外泛化能力,則稱其具有魯棒性(robustness). X Y P ′ (X, Y) P(X, Y) Y X P ′ (X|Y) = P(X|Y) 這類問題在未引入因果術語的情況下就已經展 開了廣泛的研究.如分布魯棒性研究[79-81] 考慮當數據 分布改變在一定幅度之內時如何學習得到魯棒的模 型,常見思路是對訓練樣本做加權處理;對抗魯棒性 研究[8,82-83] 考慮當樣本受到小幅度擾動時模型不應當 改變輸出結果,常見思路是將對抗攻擊樣本加入訓 練.這類研究常常忽略變量間的因果結構,面臨的主 要問題是很難決定數據分布或者樣本的擾動幅度大 小和度量準則,這就使得研究中所做的假設很難符 合真實場景,極大地限制了在實際中的應用.因果理 論的引入為建模變量間的結構提供了可能,同時其 蘊含的“機制不變性”原理為魯棒性問題提供了更合 理的假設,因為真實數據往往是從遵循物理規律不 變的現實世界中采集獲得.例如針對輸入為 、輸出 為 的預測問題,不考慮結構的分布魯棒性方法會假 設未知環境 應當與真實環境 的差異較 小,如限制聯合分布的 KL 散度小于一定閾值;而考 慮結構的因果方法則通常會假設機制不變,例如當 是 的因時假設 ,在因果關系成立的 情況下后者通常是更合理的. 一些從偽相關特征入手研究魯棒性問題的工作 雖然未使用因果術語,實際上已經引入了因果結構 的假設.這些工作針對的往往是已知的偽相關特征, 如圖像分類任務中的背景、文本同義句判斷 SNLI 數 據集中的單條文本[84]、重復問題檢測 QuaraQP 數據 集中的樣本頻率[85] 等.在實際場景中針對這些偽相關 特征進行偏差去除(debias),以避免其分布發生變化 時影響模型表現.這類工作隱含的假設是偽相關特征 與目標預測變量沒有因果關系.一種直接的解決方法 是調整訓練數據的權重,使得偽相關特征不再與預 測變量相關[85] .還有一類方法會單獨訓練一個僅使用 偽相關特征預測的模型,然后將其與主模型融合在 一起再次訓練,完成后僅保留主模型[86-87] .然而由于實 際應用中通常很難預先確定偽相關特征,這類工作 在解決魯棒性問題上具有明顯的局限性. 因果理論的引入對于解決魯棒性問題提供了新 的思路,主要的優勢在于對變量結構的建模和更合 理的假設.這類方法包括反事實數據增強(counterfactual data augmentation)、因果效應校準和不變性學 習.如表 3 所示 ,反事實數據增強考慮從數據入手消 除偽相關關系,因果效應校準通過調整偏差特征的 作用來減輕偏差,不變性學習通過改變建模方式學 習不變的因果機制,以下分別展開介紹.

2.4 公平性問題

機器學習中的公平性(fairness)指的是,對于特 定的敏感特征如性別、年齡、種族等,不同的取值不 應該影響某些任務中機器學習模型的預測結果,如 貸款發放、法律判決、招生招聘等.公平性對于機器 學習在社會決策中的應用是十分重要的考慮因素, 與因果有密切的關系,直觀上體現為敏感特征不應 成為預測結果的因變量.模型中存在的不公平常常由 偽相關特征問題導致,因此公平性也可以視為針對 敏感特征的魯棒性,但有著自己獨有的術語和研究 體系.下面首先介紹一下公平性的基本概念,然后介 紹因果理論在公平性問題中的應用. A X Y f Y? = f(A, X) f(A, X) = f(X) 公平性的定義和度量指標目前十分多樣化,并 沒有完全統一確定,不同的定義所反映的問題也有 所不同,甚至可能是相互不兼容的[139] .為便于表述, 記敏感特征為 ,其他觀測特征為 ,真實輸出結果 為 ,模型為 ,模型預測結果為 (本節所用 符號與前文無關).早期公平性問題的相關工作并沒 有考慮因果,最簡單直白的方式是在決策時避免使 用敏感特征[140] ,即 .然而這一方案顯然 是不夠的,因為其他特征中也可能會包含敏感特征 的信息.因此一般會考慮個體級別的公平性或者群體 級別的公平性的度量,并設計方法實現.個體公平性 (individual fairness)通常會限制相似的個體之間應該 P(Y?|A = 0) = P(Y?|A = 1) P (Y?|A = 0, Y = 1) = P(Y?|A = 1, Y = 1) F P(Y?|A = 0, F) = P(Y?|A = 1, F) 有相似的預測結果[141] ,難點在于相似性指標的設計. 群體公平性(group fairness)會定義不同的群體并設置 度量指標使得各個群體之間差異盡可能小,一種思 路是人群平等(demographic parity) [142] ,希望在不同敏 感特征取值的群體中預測結果的分布一致 ,即 ; 另 一 種 思 路 是 機 會 均 等 (equality of opportunity) [143] ,希望在那些本該有機會 的人群所獲得的機會不受敏感特征的影響 ,即 ;還有一種思路是條件 公平(conditional fairness) [144] ,希望在任意公平變量 條 件下不同敏感特征群體的結果一致,即 .這些定義并不考慮特征內部的依賴關系, 對模型的決策機制也沒有區分性,在更細致的公平 性分析中難以滿足要求.因果理論的引入為公平性研 究起到了極大的推動作用,許多概念必須借助因果 的語言才能表達,如表 4 所示:

2.5 反事實評估問題

反事實評估(counterfactual evaluation)指的是機 器學習模型的優化目標本身是反事實的,這通常出 現在使用有偏差的標注數據訓練得到無偏模型的情 景,例如基于點擊數據的檢索和推薦系統學習任 務.由于任務本身需要反事實術語進行表述,因果理 論對這類問題的建模和研究起到了關鍵性的作用, 如表 5 所示:

3 總結與展望

本文介紹了因果相關的概念、模型和方法,并著 重對因果機器學習在各類問題上的前沿研究工作展 開詳細介紹,包括可解釋性問題、可遷移性問題、魯 棒性問題、公平性問題和反事實評估問題等.從現有 的應用方式來看,因果理論對于機器學習的幫助在 不同的問題上具有不同的表現,包括建模數據內部 結構、表達不變性假設、引入反事實概念和提供效 應估計手段等,這在缺少因果術語和方法的時代是 難以實現的.有了因果理論的幫助,機器學習甚至可 以探討過去無法討論的問題,如干預和反事實操作 下的預測問題. 對于可解釋性、公平性和反事實評估問題,因果 理論和方法已成為描述和求解問題所不可缺少的一 部分,且應用方式也漸趨成熟.這是由于對特征的重 要程度的估計、對模型公平性的度量和對反事實策 略效用的評估均屬于因果效應估計的范疇,問題本 身需要使用因果的術語才能得到清晰且完整的表達, 因果推斷的相關方法自然也可以用于問題的求解.可 以預見,未來這些問題將繼續作為因果理論和方法 的重要應用場景,伴隨因果推斷技術的發展,向著更 加準確和高效的目標前進. 對于可遷移性和魯棒性問題,目前所采用的因 果相關方法大多還處于較淺的層次,有待深入挖掘 探索.在這些問題上,因果推斷的相關技術不易直接 得到應用,這是由于這類問題的目標不再是單純估 計因果效應或者發現因果結構,而是需要識別跨環 境不變的機制.這對于因果而言是一項全新的任務, 需要研究新的方法來求解.在機器學習尤其是深度學 習中,這項任務的主要難點在于數據的高維復雜性. 對于圖像和文本等數據而言,其顯式特征高度耦合, 難以從中提取出有效的因果變量,阻礙了效應估計 和結構發現等后續分析手段.目前所采用的反因果遷 移、反事實數據增強和因果效應校準等手段大多只 能針對可觀測的已知變量進行處理,適用范圍受到 很大限制.相對地,不變性學習有能力處理未知的偽 相關特征并識別因果特征,具有良好的發展前景.然 而目前的不變性學習方法也存在局限性,主要在于 對數據做了較強的因果結構假設,一方面數據可能 無法滿足假設而又缺少驗證假設的手段,另一方面 需要為滿足不同假設的數據設計不同的方法而缺乏 通用性.因此,未來在這些方向上都值得開展研究.一 種思路是繼續針對具體任務做出不同的因果結構假 設,并設計對應的學習算法,這就需要構建成體系的 解決方案并配備驗證假設的手段;另一種思路是從 數據本身出發,推斷和發現潛在的因果結構,這就需要研究全新的方法來突破由數據的高維復雜性帶來 的障礙. 從因果機器學習的研究進展來看,機器學習領 域的因果革命將大有可為.不可否認,當前正處于因 果革命的起步階段,由于現實問題存在極高的復雜 性,這一革命的歷程也將曲折而艱辛,需要更多的研 究和支持.希望更多的研究者能夠加入到因果機器學 習的研究中來,共同創造和見證因果革命的新時代.

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容

社會化推薦系統(SocialRS)同時利用用戶到項目的交互和用戶到用戶的社會關系來為用戶生成項目推薦。此外,由于同質性和社會影響的作用,利用社會關系顯然可以有效地理解用戶的品味。因此,SocialRS越來越受到關注。特別是,隨著圖神經網絡(GNN)的發展,最近發展了許多基于GNN的社交方法。對基于GNN的SocialRS文獻進行了全面和系統的回顧。在遵循PRISMA框架(系統評審和元分析的首選報告項目)注釋了2151篇論文后,確定了80篇關于基于GNN的社交網絡的論文。然后,從輸入和體系結構兩個方面對它們進行了全面的綜述,提出了一個新的分類方法:(1)輸入分類方法包括5組輸入類型符號和7組輸入表示符號;(2)架構分類包括8組GNN編碼器符號,2組解碼器符號和12組損失函數符號。本文根據分類法將基于GNN的SocialRS方法分為幾個類別,并描述了它們的細節。總結了廣泛用于評估基于GNN的SocialRS方法的基準數據集和指標。最后,展望了未來的研究方向。 //www.zhuanzhi.ai/paper/19ce4b0c70cda5c6a61eeb8b8d8d6d1f

引言

隨著在線社交網絡平臺(如Facebook、Twitter、Instagram等)的出現,社交推薦系統(social recommender systems, SocialRS)得到了大量的研究,它同時利用用戶-用戶的社交關系和用戶-物品的交互關系向用戶推薦相關物品。利用社交關系進行推薦可以取得很好的效果,這是因為社交同質性[61]和社交影響力[60]的作用:(1)社交同質性表示用戶傾向于將自己與具有相似屬性和偏好的其他用戶聯系起來;(2)社交影響力表示具有直接或間接關系的用戶傾向于相互影響,使自己變得更加相似。因此,SocialRS通過利用社交鄰居來捕捉交互稀疏用戶的偏好,可以有效緩解數據稀疏問題

通過利用社交鄰居來捕獲交互稀疏的用戶的偏好問題。文獻表明,SocialRS可以成功地應用于各種推薦領域(例如,產品[101,103],音樂[116-118],位置[39,72,100]和圖像[86,99,102]),從而提高用戶滿意度。此外,社會學家探索的技術和見解也可以用于現實世界的應用,而不是推薦。例如,GarcíaSánchez等人[20]利用SocialRS設計了一個營銷決策系統(如廣告),而Gasparetti等人[21]從社區發現的角度分析了SocialRS。

在這種廣泛適用性的推動下,人們對開發精確社交模型的研究越來越感興趣。早期,研究集中在矩陣分解(MF)技術[28,54 - 57,84,112]。然而,基于MF的方法無法有效建模用戶-用戶社會關系和用戶-物品交互中固有的復雜(即非線性)關系[76]。受此啟發,最近的大多數工作都專注于將深度學習技術應用于社交網絡,例如自編碼器[11,115],生成對抗網絡(GAN)[35]和圖神經網絡(GNN)[16,102]

特別是,由于用戶-物品交互和用戶-用戶社會關系可以自然地表示為圖形數據,基于GNN的SocialRS在文獻中越來越受到關注。圖1顯示,自2019年以來,與基于GNN的SocialRS相關的論文數量持續增加。鑒于人們對這一領域的興趣日益增長和及時,我們在本次綜述中調查了基于GNN的SocialRS方法。

1.1 將GNN應用于SocialRS并非易事,面臨以下挑戰。

**輸入表示。**輸入數據應該適當地建模為異構圖結構。許多SocialRS方法構建兩個獨立的圖:其中一個圖的節點表示用戶和物品,邊表示用戶與物品的交互;另一種是節點代表用戶,邊代表用戶與用戶的社會關系。因此,用于SocialRS的GNN方法需要同時從兩個網絡中提取知識,以進行準確的推斷。這與大多數只考慮單個網絡的常規GNN形成對比。此外,我們注意到這兩個網絡中存在有價值的輸入特征,例如用戶/物品屬性,物品知識/關系,

此外,我們注意到兩個網絡中存在有價值的輸入特征,如用戶/項目屬性、項目知識/關系和組信息。因此,在基于GNN的社交網絡中,方法將特征和網絡信息融合在一起。本文討論了基于GNN的SocialRS方法中使用的輸入類型,以及它們表示為圖的不同方式。

**GNN編碼器的設計。**基于GNN的SocialRS方法的性能在很大程度上依賴于它們的GNN編碼器,這些編碼器旨在將用戶和項目表示為低維嵌入。因此,現有的SocialRS方法探索了關于GNN編碼器的各種設計選擇,并根據其目標采用了不同的架構。例如,許多SocialRS方法采用圖注意力神經網絡(GANN)[88]來區分每個用戶對項目的偏好或每個用戶對其社交朋友的影響。另一方面,一些方法[22,65,66,82,111]使用圖遞歸神經網絡(GRNN)[68, 120]對用戶的順序行為進行建模。需要注意的是,面向社交網絡的GNN編碼器需要同時考慮用戶-物品交互和用戶-用戶社會關系的特征。這與僅對用戶-項目交互建模的非社交者的GNN編碼器形成了對比。本文討論了SocialRS方法使用的不同類型的GNN編碼器。

**訓練。**基于GNN的社交網絡訓練應設計為在對應用戶和項目的嵌入中反映用戶的品味和項目的特征。為此,SocialRS方法采用眾所周知的損失函數,如均方誤差(MSE)、貝葉斯個性化排名(BPR)[70]和交叉熵(CE),來重構用戶行為。此外,為了緩解數據稀疏性問題,一些工作還采用了輔助損失函數,如自監督損失[49]和基于分組的損失[36,42]。值得一提的是,基于GNN的社交網絡使用的損失函數被設計為可以利用豐富的結構信息,如motifs和用戶屬性。非社會推薦系統的損失函數不考慮這些。本綜述討論了基于GNN的SocialRS方法的訓練補救措施,以學習用戶和項目嵌入。

圖2所示。基于GNN的SocialRS方法時間表。根據其GNN編碼器對方法進行分類:圖卷積網絡(GCN)、輕量級GCN (LightGCN)、圖注意力神經網絡(GANN)、異構GNN (HetGNN)、圖循環神經網絡(GRNN)、超圖神經網絡(HyperGNN)、圖自編碼器(GAE)和雙曲GNN。值得注意的是,一些方法在其架構中使用了兩個或更多的GNN編碼器。

本文的主要貢獻總結如下:

基于GNN的社交網絡的第一個綜述:據我們所知,我們是第一個系統地致力于回顧基于GNN的社交網絡方法的人。大多數現有綜述要么關注傳統方法7,14,67,75,85,109,114,要么關注特征信息77,要么關注特定應用21。其他相關的綜述[12,19,94,104]關注基于圖的推薦系統,但它們部分覆蓋了社交網絡。

綜合調研: 通過遵循系統評審和元分析(PRISMA框架)首選報告項目的指導方針,系統地確定了基于GNN的社會RS的相關論文[63]。然后,從它們的輸入和架構方面全面回顧了它們。圖2提供了基于GNN的SocialRS方法的簡要時間表。此外,圖3顯示了在相關期刊(如IEEE TKDE和ACM TOIS)和會議(如WWW、ACM SIGIR和ACM CIKM)上發表的相關論文數量。

輸入和架構的新分類:在基于GNN的SocialRS方法中提供了一種新的輸入和架構分類,使研究人員能夠輕松捕捉該領域的研究趨勢。輸入分類法包括5組輸入類型表示法和7組輸入表示表示法。另一方面,架構分類包括8組GNN編碼器符號、2組解碼器符號和12組損失函數符號(4組為主要損失,8組為輔助損失)。

基準數據集:回顧了17個基準數據集,用于評估基于GNN的SocialRS方法的性能。將數據集分為8個領域(即產品、位置、電影、圖像、音樂、書簽、微博和雜項)。此外,我們提供了每個數據集的一些統計數據和使用該數據集的論文列表。

未來方向: 討論了現有的基于GNN的社會RS方法的局限性,并提供了幾個未來的研究方向。

在本節中,我們將介紹基于GNN的SocialRS的架構分類。模型架構由三個關鍵組件組成,如圖6所示: (C1)編碼器;(C2)解碼器;(C3)損失函數。在(C1)中,編碼器將用戶和物品表示為低維向量(即嵌入)通過使用不同的GNN編碼器。在這里,一些作品利用了用戶和/或項目的附加信息(例如,他們的屬性和組;請參考第4節)以構建更準確的用戶和項目嵌入。在(C2)中,解碼器通過對(C1)中獲得的用戶和物品嵌入的不同操作來預測每個用戶對每個物品的偏好。最后,在(C3)中,不同的損失函數被優化,以端到端的方式學習嵌入。

付費5元查看完整內容

盡管有很多嘗試[1-6],深度學習的有效性到目前為止還沒有明確的解釋。考慮到神經網絡是一個非常簡單且定義良好的數學對象,這相當令人驚訝[7-9]。使分析變得困難的是深度神經網絡通常是用大量的參數來描述的,例如權重矩陣、偏差向量、訓練數據等。對于這樣的系統,大多數分析技術不是很有用,必須依賴于數字。這種情況與物理中發生的情況非常相似。物理系統(包括經典系統和量子系統)通常可以在自由度很小的時候被精確地解決,但是當自由度很大的時候,這個問題就變得棘手了。幸運的是,有一組思想被證明對于分析具有多個自由度的物理系統非常有用。它是統計力學。本文的重點是將統計力學的方法應用于機器學習。在本節的其余部分,我們將總結主要結果,因為它可能有助于讀者瀏覽本文。

付費5元查看完整內容
北京阿比特科技有限公司