亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

轉載集智俱樂部

導語

生成技術如大規模語言模型(LLMs)、擴散模型(Diffusion)、自監督學習(SSL)、序列到序列(Seq2Seq)模型和擴散模型的出現,為進一步增強時空數據挖掘開辟了新的可能性。本文詳盡地介紹了生成技術在時空數據挖掘中的應用,提出了一個標準的時空數據挖掘框架,并探討了未來的研究方向。通過結合生成技術和時空數據挖掘方法,我們能夠更好地理解和利用時空數據,提升數據挖掘的效果和效率。******

集智俱樂部聯合美國佐治亞理工學院博士&松鼠AI首席科學家文青松、香港科技大學(廣州)助理教授梁宇軒、中國科學院計算技術研究所副研究員姚迪、澳大利亞新南威爾士大學講師薛昊、莫納什大學博士生金明等五位發起人,共同發起「時序時空大模型」讀書會,鼓勵研究人員和實踐者認識到LLM在推進時序及時空數據挖掘方面的潛力,共學共研相關文獻。讀書會從5月8日(周三)開始,每周三19:00-21:00(北京時間)進行,預計持續10-12周。歡迎感興趣的朋友報名參與!****

**研究領域:時空數據挖掘,生成技術,大語言模型,擴散模型,自監督學習,序列到序列 Qianru Zhang(張倩茹), Haixin Wang(汪海昕), Cheng Long(龍程)等 | 作者

標題:A Survey of Generative Techniques for Spatial-Temporal Data Mining鏈接: Zhang(張倩茹), Haixin Wang(汪海昕), Cheng Long(龍程), Liangcai Su(蘇良才), Xingwei He(賀星偉), Jianlong Chang(常建龍), Tailin Wu(吳泰霖), Hongzhi Yin(尹洪志), Siu-Ming Yiu(姚兆明), Qi Tian(田奇), Christian S. Jensen

綜述摘要

本文聚焦于將生成技術整合到時空數據挖掘中,考慮到時空數據的顯著增長和多樣性。隨著RNN、CNN和其他非生成技術的進步,研究人員已經探索了它們在捕捉時空數據中的時間和空間依賴關系方面的應用。然而,生成技術如大規模語言模型(LLMs)、擴散模型(Diffusion)、自監督學習(SSL)、序列到序列(Seq2Seq)模型和擴散模型的出現,為進一步增強時空數據挖掘開辟了新的可能性。本文對基于生成技術的時空方法進行了全面分析,并引入了一個專門為時空數據挖掘流程設計的標準框架。通過提供詳盡的綜述和利用生成技術的時空方法的新分類,本文加深了對這一領域中各種技術的理解。此外,本文還強調了未來有前景的研究方向,敦促研究人員深入探索時空數據挖掘。本文強調需要探索尚未開發的機會,推動知識的邊界,以解鎖新的洞見并提高時空數據挖掘的效果和效率。通過整合生成技術并提供一個標準化的框架,推動了該領域的進步,鼓勵研究人員探索生成技術在時空數據挖掘中的巨大潛力。 **

**

一、引言

隨著GPS技術和移動設備的顯著進步,時空數據的量級大幅增長,涵蓋了人類軌跡數據、交通軌跡數據、犯罪數據、氣候數據和事件數據等多種類型。這些數據在城市管理、出租車調度優化、人類健康和天氣預報等領域具有重要意義。近年來,循環神經網絡(RNN)和卷積神經網絡(CNN)在捕捉時空數據的時間和空間依賴關系方面取得了巨大成功,促使研究人員進一步探索這些非生成技術在時空數據挖掘中的應用。這些努力已在交通預測和異常軌跡檢測等任務中取得了顯著進展。  現有生成式技術應用示意圖 然而,隨著大規模語言模型(LLMs)和擴散模型(DMs)等生成技術在計算機視覺和自然語言處理領域的成功,研究人員開始探索這些技術在時空數據挖掘中的潛力。這一新研究方向為時空數據挖掘帶來了新的見解,包括零樣本預測和跨任務的強泛化能力。生成技術如LLMs、DMs和自監督學習(SSL)在計算機視覺和自然語言處理領域的卓越表現,不僅激發了研究人員的興趣,還對該領域產生了深遠影響。近期的研究提供了將生成技術整合到時空數據挖掘方法中的有利證據,顯著提高了性能。這些發現激發了研究人員對生成技術在時空數據挖掘中潛在應用的深入探索,促使該領域涌現出大量基于生成技術的研究成果。 盡管已有許多研究集中于利用生成技術進行時空數據挖掘,但現有綜述缺乏對這一領域的全面分析和專門框架。因此,本文旨在提供基于生成技術的時空數據挖掘方法的全面分析,并引入一個標準化的框架。通過詳細的綜述和創新的分類方法,本文幫助讀者深入理解該領域中使用的各種技術。此外,本文還強調了未來的研究方向,鼓勵研究人員進一步探索未開發的機會,推動知識邊界,以解鎖新的洞見,提升時空數據挖掘的效果和效率。

二、時空數據挖掘的挑戰與機遇

時空數據具有兩個顯著的挑戰,這些挑戰同時也是時空數據挖掘算法的機遇。 **

**

1. 相關性:時空相關性指的是數據集中不同空間和時間方面之間的相互依賴關系和聯系。這些相關性在實際應用中會引發若干問題和復雜性。首先,在預測精度方面,時空相關性會在數據中引入復雜的模式和依賴關系。如果未能準確捕捉和建模這些相關性,會導致預測精度下降,從而削弱預測模型在交通預測、天氣預報和疾病爆發分析等領域的效果。其次,在數據預處理和融合方面,時空相關性常常需要將來自多個來源和模式的數據進行整合和融合。將異構數據類型在時空背景下進行對齊是一項挑戰,要求細致的數據預處理步驟和融合技術,以確保數據的準確性和一致性。 **

**

2. 異質性:時空異質性指的是數據集中空間和時間模式的固有變異性和多樣性。不同區域和時間段表現出不同的特征、趨勢和關系,這種異質性在數據分析中會引發若干問題,并對時空數據挖掘算法提出挑戰。主要問題包括:首先,泛化挑戰,時空異質性使得開發能夠有效捕捉和表示不同區域和時間段的多樣化模式和關系的通用模型和算法變得困難。在一個區域或時間段訓練的模型可能無法很好地泛化到其他區域或時間段。其次,偏差和不完整性,時空異質性可能導致數據收集和表示中的偏差和不完整性。數據在區域和時間上的分布可能不均衡,導致數據集不平衡,從而引入偏差并扭曲時空數據挖掘算法的分析和結果。

三、時空數據的類型與實例

時空數據結合了空間和時間的元素,可以揭示跨越時空現象的見解,廣泛應用于環境監測、交通分析、流行病學、社會科學和城市規劃等領域。這些數據通過地理坐標和時間戳表示,便于分析模式、趨勢和關系。時空數據可以分為事件數據、軌跡數據、點數據和柵格數據四類。

1. 事件數據:事件數據指的是在特定位置和時間發生的具體事件,例如犯罪數據或投票數據。這些數據通常使用歐幾里得坐標系表示,但在道路網絡中的事件(如事故),事件之間的距離則由沿路段的最短路徑決定。事件數據還可以包括附加變量,如犯罪類型或投票的政黨。

2. 軌跡數據:軌跡數據記錄了物體隨時間移動的空間路徑,例如飛行數據和出租車數據。軌跡數據通常通過在移動物體上安裝傳感器來收集,這些傳感器在不同時間間隔記錄GPS位置。時間間隔越小,軌跡的精度越高。

事件數據和軌跡數據示意圖**

  1. 點數據**:點數據是指從一組移動參考點收集的數據,例如氣象氣球在大氣中收集的數據或傳感器測量水體表面溫度的數據。每個氣象站代表一個特定的位置,定期記錄溫度讀數。點數據可以用于重建任意位置和時間的時空場。 不同時間步點數據示意圖**

4. 柵格數據:柵格數據中的參考點是靜態的,可以在空間上規則或不規則地分布。柵格數據的觀測值在固定時間間隔記錄,常見的類型包括衛星圖像,每個像素對應柵格網格中的一個單元,包含光譜特征信息;數字高程模型(DEM),表示海拔或地形;氣候變量,表示溫度、降水和風速;以及土地覆蓋或土地使用信息,每個單元表示特定位置的土地覆蓋類型,如森林、城市區域、水體或農業用地。 在固定時間和地點以及不固定時間和空間的柵格數據示意圖

**

四、生成技術在時空數據挖掘中的應用

  1. 大語言模型(LLMs)大規模語言模型(LLMs)在自然語言處理和計算機視覺領域表現出色。例如,ST-LLM模型通過將時間步驟作為token處理,從全局視角建模時空依賴關系,顯著提升了交通流量預測的準確性。
  2. 自監督學習(SSL)自監督學習(SSL)通過未標記數據中的替代任務來學習有用的表示。例如,TrajRCL模型利用對比學習技術,顯著提升了軌跡數據的表示學習效果。
  3. 擴散模型(Diffusion Models)擴散模型利用正向和逆向過程,模擬時空數據的生成過程。例如,DiffSTG模型將時空圖神經網絡與不確定性量化特性相結合,提高了預測的準確性和可靠性。
  4. 序列到序列模型(Seq2Seq)序列到序列模型(Seq2Seq)廣泛應用于處理序列數據的任務,如機器翻譯和文本摘要。基于Seq2Seq的時空數據挖掘方法,如Trafformer,通過自注意力機制,顯著提高了交通流量預測的精度。**

**

******五、時空數據挖掘的標準框架 ******

我們提出了一種利用生成技術解決時空數據挖掘挑戰的方法。首先討論數據預處理,然后介紹生成技術的適應性。我們還專門設置了一個小節來解決特定的時空數據挖掘問題。為提供結構化概述,我們展示了一個概述流程的框架。  框架示意圖 圖中展示了利用生成技術進行時空數據挖掘的一般流程。該流程涉及處理從各種位置傳感器收集的原始時空數據,包括事件數據、軌跡數據、點參考數據和柵格數據。首先,創建數據實例來存儲時空數據,這些實例可以是點、時間序列、空間地圖、軌跡或時空柵格。為了在不同的挖掘任務中應用生成技術,時空數據實例需要轉換為特定的數據格式,具體取決于所選擇的數據表示方式。這些時空數據實例可以表示為序列數據、矩陣、張量或圖。最后,選擇合適的生成技術來處理各種時空數據挖掘任務,如預測、分類和表示學習等。這些模型利用生成技術的獨特能力,從時空數據中提取有價值的見解,并解決復雜的時空數據挖掘挑戰。 **

**

六、生成技術在時空挖掘任務中的應用

我們展示了一種全面的分類法,將現有研究基于生成技術分為四大類:大規模語言模型(LLMs)、自監督學習(SSL)、擴散模型(Diffusion)和序列到序列模型(Seq2Seq)。每類技術提供了獨特的方法來解決時空分析中的挑戰。在每一類中,具體研究針對不同的時空任務,采用特定的生成技術進行研究。這一分類法為理解和組織時空分析領域的多樣研究提供了有價值的框架,促進了知識傳播和領域的進一步發展。相關研究的應用任務大致可分為時空表示學習時空預測時空推薦,如表所示。每個領域都有眾多研究專注于發展專門的方法和技術,以應對各自的挑戰和需求。通過探索這些領域中的研究廣度和深度,研究人員可以深入了解用于解決各種時空分析任務的多樣化方法和創新技術,從而推動整個領域的發展。

基于生成技術的現有研究分類,由四種技術組成,包括大規模語言模型(LLMs)、自監督學習(SSL)、擴散模型(Diffusion)和序列到序列(Seq2Seq)模型。這些技術涵蓋四種時空任務,每種任務都有基于特定生成技術的具體研究。  在不同應用任務中的相關工作,包括時空表示學習、時空預測和時空推薦。我們提供了詳細信息,包括期刊/會議名稱、使用的具體生成技術、涉及的特定應用子任務以及用于評估的數據集。

七、未來研究方向

此外,我們探討了時空數據挖掘未來的研究方向。我們提出了四個潛在方向,并進行了詳細描述:基準數據集的偏斜分布、大規模基礎模型、時空方法的泛化能力以及與外部知識的結合。 **

**

1. 基準數據集的偏斜分布:基準時空數據集中的偏斜分布指數據點在空間和時間維度上的不均衡分布。這意味著某些區域或時間段的數據點數量顯著多于或少于其他區域或時間段。這種不均衡可能導致數據集對特定位置或時間段產生偏向,進而影響分析或預測的準確性和可靠性。未來的研究應致力于解決這種分布偏差問題,以確保分析和模型的公平性和準確性。 **

**

2. 大規模基礎模型:目前,缺乏廣泛的高質量多模態數據集限制了大規模基礎模型的探索和發展。因此,迫切需要深入研究這些模型,以提升其在下游任務中的表現,特別是在時空預測領域。通過填補這一研究空白,開發和利用大規模基礎模型,可以顯著提高各種時空預測應用的準確性和有效性。 **

**

3. 時空方法的泛化能力:現有的時空分析方法在適應不同任務方面面臨挑戰,主要是由于其有限的泛化能力。這一限制妨礙了這些方法在各個領域和場景中的有效應用,因為它們難以捕捉不同任務中的復雜性和細微差別。因此,必須探索具有更強泛化能力的新方法,以實現對各種時空分析任務的無縫適應和改進表現。通過解決這一限制我們可以釋放時空方法的全部潛力,使研究人員和從業者能夠以更靈活和穩健的方式應對多樣化的挑戰。 **

**

4. 與外部知識的結合:隨著知識圖譜的不斷發展,探索將這些圖譜中衍生的外部知識整合到時空方法中變得越來越重要。外部知識的引入有望增強時空方法的分析能力,使其能夠利用更廣泛的背景信息和領域專業知識。通過有效利用這些圖譜中的豐富知識,研究人員和從業者可以開辟新的途徑,提高時空方法在不同應用和領域中的準確性、穩健性和整體表現。因此,探索促進外部知識與時空方法無縫集成的方法,對于推進時空分析領域具有重要意義。

八、總結

本文詳盡地介紹了生成技術在時空數據挖掘中的應用,提出了一個標準的時空數據挖掘框架,并探討了未來的研究方向。通過結合生成技術和時空數據挖掘方法,我們能夠更好地理解和利用時空數據,提升數據挖掘的效果和效率。希望這篇介紹能夠為從事時空數據研究的學者和工程師提供有價值的參考,推動這一領域的持續創新與發展。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

人工智能(AI)正在迅速改變社會的各個領域,軍事領域也不例外。隨著全球武裝部隊尋求保持技術優勢,人工智能已成為投資和發展的關鍵領域。本文探討了人工智能在不同軍種的多方面應用,研究了人工智能增強的特定武器系統,并分析了與軍事人工智能相關的優勢、劣勢和挑戰。此外,我們還將展望未來趨勢,討論在人工智能驅動的戰爭時代降低風險和維護全球安全的戰略。

人工智能在各軍種的應用

1.陸軍: 陸軍正在利用人工智能提高戰場意識、后勤保障和戰斗力。一些關鍵應用包括

a) 自主地面車輛: 人工智能驅動的無人地面車輛(UGV)可以執行偵察、運輸補給,甚至可以在極少人為干預的情況下參與作戰行動。

b) 預測性維護: 機器學習算法分析車輛和設備的傳感器數據,預測維護需求,從而減少停機時間,提高戰備狀態。

c) 優化士兵表現: 人工智能系統監控士兵的生理數據,優化訓練方案,提高戰斗表現。

2.海軍: 海軍部隊正在利用人工智能改善海上行動、水下作戰和艦隊管理:

a) 自主艦艇和潛艇: 人工智能使無人水面艦艇和水下艦艇能夠進行巡邏、收集情報,并有可能參與戰斗。

b) 反潛戰: 人工智能算法可以處理聲納數據,比人類操作員更有效地探測和跟蹤敵方潛艇。

c) 艦隊管理和后勤: 人工智能優化海軍后勤,預測維護需求,管理海上艦隊的供應鏈。

3.空軍: 人工智能正在徹底改變空戰、偵察和航空航天行動:

a) 自主無人機: 人工智能控制的無人機(UAV)可以執行偵察、攻擊目標,甚至可以成群行動。

b) 飛行員輔助系統: 人工智能副駕駛協助人類飛行員執行復雜任務,并有可能在緊急情況下接管任務。

c) 空中交通管制: 人工智能系統有助于管理日益擁擠的空域,既可用于軍事,也可用于民用。

4.太空部隊:隨著太空成為日益重要的軍事領域,人工智能正發揮著至關重要的作用:

a) 衛星管理:人工智能算法可優化衛星軌道、管理星座并預測與空間碎片的潛在碰撞。

b) 空間態勢感知: 機器學習增強了對在軌物體的跟蹤和識別,提高了空間領域的感知能力。

c) 自主太空飛行器: 人工智能驅動的航天器有可能在太空中開展維護、加油甚至進攻行動。

5.網絡指揮: 在網絡戰領域,人工智能正成為不可或缺的工具:

a)網絡防御: 人工智能系統可實時檢測和應對網絡威脅,保護軍事網絡免受攻擊。

b) 進攻性網絡行動: 人工智能可用于識別敵方系統的漏洞并自動發動網絡攻擊。

c) 信息戰: 機器學習算法可分析和生成心理戰和影響力活動的內容。

人工智能增強型武器系統

1.自主武器系統(AWS): 這些武器也被稱為 "殺手機器人",可以在不需要人工控制的情況下選擇并攻擊目標。例子包括

2.導彈防御系統: 人工智能提高了攔截來襲導彈的速度和準確性:

3.電子戰系統: 人工智能提高了干擾、欺騙和電子防護能力:

4.預測性維護系統: 人工智能可優化設備準備狀態,降低維護成本:

軍事人工智能的優勢

1.增強決策能力: 人工智能可以處理大量數據,并向指揮官提供快速、數據驅動的建議。

2.提高態勢感知能力: 人工智能驅動的傳感器和分析工具可提供更全面、更準確的戰場圖像。

3.降低人類風險: 自主系統可以執行危險任務,從而挽救士兵的生命。

4.提高效率: 人工智能可優化后勤、維護和資源分配,降低成本,提高作戰效率。

5.更快的反應時間: 人工智能增強型系統能比人類操作員更快地對威脅做出反應,可能在戰斗中提供關鍵優勢。

6.全天候運行: 與人類操作員不同,人工智能系統可以不疲勞地持續運行,保持警惕。

劣勢與挑戰

1.道德問題: 使用自主武器會引發有關人類決策在戰爭中的作用的重大道德問題。

2.可靠性和不可預測性: 人工智能系統在復雜的真實世界場景中可能會出現不可預測的行為,從而可能導致意想不到的后果。

3.易受黑客攻擊和欺騙: 由人工智能驅動的系統可能會被對手破壞,從而有可能將武器轉向操作者。

4.數據依賴性: 人工智能系統需要大量高質量的數據才能有效運作,而在作戰情況下,這些數據可能并不總是可用的。

5.缺乏人類判斷力: 人工智能可能難以應對需要換位思考、文化理解或復雜道德考量的細微決策。

6.升級風險: 人工智能戰爭的速度和效率可能會導致沖突迅速升級,潛在地增加大規模戰爭的風險。

7.擴散問題: 隨著人工智能技術越來越容易獲得,它有可能落入非國家行為者或流氓國家之手。

8.法律模糊性: 自主武器系統的使用會產生復雜的法律問題,涉及責任和遵守國際法。

軍事人工智能的未來趨勢

1.增強自主性: 未來的人工智能系統可能會擁有更強的決策能力,在運行過程中可能只需極少的人工監督。

2.人機協同: 先進的人工智能將與人類士兵并肩作戰,增強他們的能力和決策過程。

3.蜂群智能: 大批自主無人機或機器人將協調行動,以實現復雜的目標。

4.量子人工智能:量子計算與人工智能的結合將帶來前所未有的處理能力和解決問題的能力。

5.人工智能驅動的高超音速武器: 人工智能可能使高超音速導彈的研發更加精確、機動性更強。

6.認知電子戰: 人工智能將增強電子戰能力,使系統能夠實時適應和對抗敵方戰術。

7.地緣政治事件預測分析: 人工智能可用于預測潛在沖突,為戰略決策提供依據。

維護全球安全的戰略

1.國際法規和條約: 制定全面的國際協議來規范軍事人工智能的發展和使用至關重要。這可包括

a) 為自主武器系統制定明確的定義和類別。

b) 對武器系統所允許的自主水平設定限制。

c) 建立核查和合規機制,確保法規得到遵守。

2.倫理準則和人為控制: 實施強有力的倫理框架并保持人類對人工智能系統的有效控制至關重要:

a) 為軍用人工智能的設計和使用制定明確的道德準則。

b) 確保人類始終 "參與 "關鍵決策,尤其是涉及使用致命武力的決策。

c) 在自主系統中實施故障安全機制和人類控制能力。

3.透明度和建立信任措施: 促進各國在軍事人工智能發展方面的開放和信任:

a) 鼓勵分享有關人工智能能力和局限性的信息。

b) 建立有關軍事人工智能問題的國際對話論壇。

c) 進行聯合演習和模擬,以建立信任和理解。

4.人工智能安全研究: 投資研究以確保軍事人工智能系統的可靠性、穩健性和安全性:

a) 為人工智能系統開發嚴格的測試和驗證方法。

b) 研究使人工智能系統更具可解釋性和可解讀性的方法。

c) 探索使人工智能系統能夠抵御對抗性攻擊和操縱的技術。

5.防擴散工作: 防止先進的軍事人工智能技術擴散到可能破壞穩定的行為體:

a) 對敏感的人工智能技術和知識實施出口管制。

b) 加強國際合作,防止非法轉讓人工智能軍事能力。

c) 提供替代技術和發展援助,阻止一些國家追求軍事人工智能。

6.能力建設與教育: 確保軍事人員、決策者和公眾了解軍事人工智能的影響:

a) 為軍事領導人和軍事人員制定全面的人工智能教育計劃。

b) 促進公眾對軍事人工智能的倫理和安全影響的認識和討論。

c) 促進人工智能研究人員、倫理學家和軍事戰略家之間的跨學科合作。

7.危機溝通機制: 建立強大的溝通渠道,防止誤解和意外升級:

a) 專門為人工智能相關事件創建熱線和安全通信協議。

b) 在人工智能系統出現故障或意外行為時,制定共同的降級協議。

c) 進行定期演習,以測試和改進危機溝通程序。

將人工智能融入軍事系統既帶來了前所未有的機遇,也帶來了巨大的挑戰。雖然人工智能具有增強軍事能力、改善決策和減少人員傷亡的潛力,但它也引發了深刻的道德、法律和安全問題。人工智能在軍事領域的快速發展要求我們采取緊急行動,制定國際規范、法規和安全措施。在我們前進的道路上,必須在利用軍事人工智能的優勢和降低其風險之間取得平衡。這將需要持續的國際合作、強有力的治理框架,以及對保持人類對關鍵決策的控制的承諾。通過積極應對軍事人工智能帶來的挑戰,我們可以努力創造一個技術進步促進全球安全而不是破壞全球安全的未來。

參考來源:Ahmed Banafa's books

付費5元查看完整內容

導讀 創鄰科技是一家致力于分布式原生圖技術的公司,從 2016 年成立以來,一直在圖存儲和圖計算領域深耕。創鄰的圖數據庫產品 Galaxybase 已經為銀行、電力、公安、互聯網等行業的多家頭部客戶提供服務。本文將分享基于圖數據庫的知識圖譜存儲技術及實踐。

主要內容包括以下幾大部分:

  1. RDF 和屬性圖
  2. 圖數據庫存儲的核心目標
  3. 圖數據庫存儲的主流技術方案
  4. Galaxybase 圖數據庫應用實踐 分享嘉賓|周研 創鄰科技 CTO 編輯整理|Richard 江西財經大學 出品社區|DataFun

01****RDF 和屬性圖

首先來介紹 RDF 和屬性圖。大家知道世界萬物是普遍聯系的,Internet 帶來了信息的連通,IoT 帶來了設備的連通,像微信、微博、抖音、快手這些 APP 帶來了人際關系的連通。隨著社交、零售、金融、電信、物流等行業的快速發展,當今社會支起了一張龐大而復雜的關系網,在人們的生產和生活過程中,每時每刻都產生著大量的數據。隨著技術的發展,我們對這些數據的分析和使用也不再局限于從統計的角度進行一些相關性的分析,而是希望從關聯的角度揭示數據的一些因果聯系。這里的關聯,指的是相互連接的 connectivity,而不是統計意義上的 correlation。

關聯分析的場景也非常多,覆蓋我們生活的方方面面。比如從社交網絡分析里,我們可以做精準營銷、好友推薦、輿情追蹤等等;金融領域可以做信用卡反欺詐的分析,資金流向識別;零售領域,我們可以做用戶 360 畫像做商品實時推薦,返薅羊毛;電力領域,可以做電網的調度仿真、故障分析、電臺因子計算;電信領域,可以做電信防騷擾,電信防詐騙;政企領域,可以做道路規劃、智能交通,還有疫情精準防控;在制造業,我們可以做供應鏈管理、物流優化、產品溯源等;網絡安全行業,可以做攻擊溯源、調用鏈分析等等。

以上只是列舉了一些常見的分析場景。事實上,關聯分析的應用遠遠不止于這些場景,還有很多其它場景。比如企業的股權穿透分析,公安的安全案情分析,還有生物醫藥領域的基因分類和新藥研發等等,這里就不一一贅述了。在做關聯分析的時候,我們往往需要一個圖模型來描述。常見的圖模型分為 RDF 和屬性圖兩種。RDF 圖中用點來表示唯一標識的資源或者是字面量的值,邊則用來表示謂詞。點和邊之間組成一個 SPO 的三元組。屬性圖中,點表示實體,邊表示關系,屬性是點或邊上的一個鍵值對。相比之下,RDF 的優勢是可以支持多值屬性,因為它的屬性也是一個點,所以一個點連出去,可以有多值的屬性。也可以通過四元組的方式前面加上一個圖的描述,來實現動態圖。并且 RDF 開始的比較早,所以有一個比較統一的標準。屬性圖的優勢在于它兩點之間可以表示同類型的多條邊,因為它在邊上是可以有區分屬性的,邊上的屬性值也能讓邊上的表達能力更豐富。并且它支持復雜的屬性類型,比如 list、set、map 等。隨著行業的發展,我們看到越來越多的可能。知識圖譜的表示在逐漸用屬性圖來完成。今年將正式投票、明年發布的 GQL 標準,也是基于屬性圖的一個查詢語言標準。當然也有少量的圖數據庫是用 RDF 模型來做的,但是未來更多的新型圖數據庫都會用屬性圖模型。02****圖數據庫存儲的核心目標不論是用 RDF 還是用屬性圖,作為一個圖數據庫,它的核心目標是什么?或者說數據庫存儲需要解決的一個根本問題是什么呢?那些需要用關聯分析的圖場景,往往是一些數據規模大、關聯跳數深、實時要求高的場景。

完成一個圖查詢或者圖分析的核心操作,就是鄰居的迭代遍歷。單獨的訪問點或者邊,或者上面的屬性并不是這里的關鍵。僅僅是單獨訪問,使用傳統的數據庫也可以提供很好的性能。在關聯分析當中,不論是從一個起始點若干跳數內的鄰域網絡進行分析,還是對全圖進行一些完整的計算,最核心的操作都是迭代遍歷某個點的所有邊,也就是所謂鄰居的迭代遍歷。在關系型數據庫中是依賴外鍵,通過建立索引等方式來完成的。在圖數據庫中,會直接存儲邊數據,也就是所謂的實現 index-free adjacency。寫入的時候,保證一個點和它直接相連的邊總是存儲在一起。查詢的時候,迭代遍歷一個點的所有鄰居可以直接進行,不需要依賴于其它數據結構,從而可以大幅提升鄰居迭代遍歷的性能。

這里是跟關系型數據庫做的一個深點查詢的性能對比,用的是 who-trust-whom 的一個公開數據集,這個數據集也不是很大,約 7.5 萬點,50 萬邊。我們想知道一個信任的人這樣一個多跳關聯的查詢結果。使用關鍵性數據庫的時候,對比了加索引和不加索引的情況。可以看出 2 跳的時候加索引可以明顯提升關系型數據庫的查詢速度,到 3 跳的時候提升就不多了, 4 跳以上的時候加不加索引都會變得很慢。而使用圖數據庫,查詢性能一直會保持在一個非常快的水平。這就是圖數據庫的 index-free adjacency 的特性,能夠大幅提升鄰居查詢的速度。

根據實現免索引連接的方式,可以把圖數據庫分成三類。**第一類是使用原生圖存儲的方式,它的數據存儲層就直接實現了免索引連接。**上面的處理計算層和業務層都是以完全圖的結構來描述,并且也不依賴于第三方存儲組件,所以這種實現免索引連接的性能是最高效的。**第二種方式是非原生存儲,**數據存儲層使用的是一個第三方的開源存儲組件,但是它在處理過程中實現了近似免索引連接,在大多數情況下也能提供不錯的性能。它的問題是由于使用了第三方存儲組件,在某些場景下可能做得不是最優化。**第三種方式就是完全非原生的存儲,**底下可能是一個關系型數據庫,或者是一個文檔型或者其它類型的數據庫,它的存儲層其實并不是真正地實現了免索引連接,而是處理成通過索引或者一些其它技術手段,向上表達了一個圖模型的查詢接口。這種其實只是在接口層上實現了圖的一個語義,而底下的存儲和計算層都不是完全地使用免索引連接,所以它的性能也會相對低一些。03****圖數據庫存儲的主流技術方案前文中已經明確了數據庫存儲的核心目標就是實現免索引連接。那么接下來就來看一些具體實現免索引連接的主流技術方案。這里主要介紹不同方案的設計思路,并不局限于某個產品的具體實現細節。首先我們能想到的最直接的一個方案,就是用一個數組把每個點上的邊按照順序一起存儲。在這一存儲方案中,點文件就是由一系列的點數據組成的。每個點的存儲內容包括點的 ID、點的 Meta 信息,以及這個點的一系列屬性。在邊文件中,是按照起始點的順序存儲點上對應的邊,每條邊存儲的內容包括終止點 ID、邊的 Meta 信息、邊的一系列屬性。這里所謂的 Meta 信息包括點邊的類型、方向,還有一些為了實現事務的額外字段,這對于整體的存儲來說不是特別重要,在這里就不詳細展開了。在這個存儲方案中,可以直接從起始點開始遍歷相鄰邊的所有數據,讀取性能是非常高的。

這種存儲需要處理的一個比較棘手的問題,就是數組變長的情況。這里的變長是由很多因素導致,比如兩個點可能屬性數量不一樣,屬性本身如果是字符串,長度也會不一樣。屬性長度不一樣會導致每條邊的存儲空間也不一樣,這樣在邊文件中就不能用一個簡單的數組來進行尋址了。如果僅僅是屬性導致的變長,還是有比較簡單的解決方案的,比如可以把屬性單獨的再放到另一個存儲文件中,這樣點文件和邊文件里面的內容,是不是定長的呢?其實也不一定,因為每個點上邊的數量也是不一樣的,所以在邊文件里面,每個點觸發的邊序列的總長度也是不一樣的。所以還是要處理數組變長的問題。

解決思路一般是兩種,一種是使用額外的一個 offset 的記錄,相當于是用一個偏移量記錄,來記錄每一個點或者邊的起始位置。這個記錄本身就可以是定長的了,因為它是個 offset 值。或者是提前劃分好一些額外的區域,來預留給它增長的空間。為了解決這種數組存儲變長的問題,我們自然也可以想到用類似鏈表的方式來存儲。在鏈表方式的存儲模式中,點和邊全部存的都是 ID,包括點 ID、邊 ID、屬性 ID 等等。通過屬性 ID ,可以在另外一個屬性存儲里面找到它的位置以及具體的值。因為存的都是 ID,所以每個點和每條邊的數據長度就是固定的了。通過 ID 可以直接計算出偏移量,然后用偏移量的位置去讀取數據。所以每個數據本身也不需要保存自身的ID,因為偏移量的位置是能夠反推出來自身 ID 的。

這是一個鏈表存儲下進行邊迭代的例子。假設有一個起始點 A,需要迭代它的所有邊。首先在點文件中找到點 A 的首個邊,α。然后去邊文件中找到 α 對應偏移量的位置,就可以讀出這條邊的數據。可以看到,是一個從點 A 到點 B 的邊,A 是一個起始點,我們就去找起始點下一條邊的 ID,就找到邊 θ。然后去邊 θ 的位置,找到偏移量,就找到邊 θ。這里我們看到它是一個 C 到 A 的邊,A 是終止點。我們就去找終止點的下一條邊,是 ω。再去找到邊 ω 的位置,看到是起始點 A 終止點 D,通過這樣的方式就可以不斷地去迭代邊。

我們看到,用鏈表存儲的方式很好地解決了數組變長的問題,因為新增邊的時候,只需要新增固定長度的結構組成鏈表即可。每一次迭代也是在 O(1) 的時間內直接找到了下一條邊,也不依賴于外部的索引或者其它結構。這看似是一個比較好的方案,但實際的使用中,也存在著一些問題。不要忘記,現在討論的是一個存儲格式,而不是一個內存結構。存儲格式意味著最終是要在磁盤 IO 上進行讀寫的。在鏈表存儲方案下,每一次邊迭代的時候,由于邊 offset 的位置是隨機的,所以會有大量的隨機讀操作。而磁盤對于隨機讀操作并不是很友好。所以雖然這里理論上的迭代鄰居找到下一條邊的復雜度是 O(1),但 O(1) 的單位時間是磁盤隨機讀的時間,而不是順序讀的時間,這兩者在性能上是會有非常大的差別的。所以使用這種鏈表的存儲方式,通常來說會依賴一個非常高效實現的緩存機制,需要把大量的磁盤數據放到內存緩存中來讀,在內存中進行隨機訪問的性能就會提升很多。除了基于數組和鏈表的方法,還有其它一些格式可以實現 O(1) 時間的邊迭代。比如,使用 LSM-Tree 的存儲結構,這個結構是一種順序寫盤多層結構的 KV 存儲。這里只簡單介紹一下它的工作原理。

這個圖忽略了像寫 WAL 這樣的細節,是 LSM 樹讀寫的核心操作流程。LSM 樹是一種常用的鍵值存儲結構,處理寫請求的性能很高。它的讀寫操作流程如下:當一個請求進來的時候,直接寫入內存中的一個 MemTable,如果 MemTable 沒寫滿,就直接返回請求。因此它處理寫請求的性能是很高的。當 MemTable 滿的時候,會生成一個不可寫的、只讀的 Immutable MemTable,同時生成新的可寫的 MemTable,以供后續使用。然后 Immutable MemTable 就會寫到磁盤上,形成一個 SST 文件。SST 文件在寫盤的時候,會根據 Key 排序,從而實現順序的邊迭代。其落盤結構的 SST 文件也是分層來組織的。從內存中直接寫出來的第 0 層達到一定數據量大小的時候,或者觸發某種條件的時候,就會進行一個歸并排序,歸并排序就是一個 Compaction 的過程。合并出來的第一層的 SST 文件,都是按照 Key 的順序寫排的。讀取的時候是先去內存中的 MemTable 查找,找到了就返回,如果沒有找到就去第 0 層的 SST 文件中查找,找不到再去第 1 層,這樣逐層查找,一直到找到需要讀取的 Key 為止。使用 SST 文件進行存儲的一個關鍵就是設計邊的 Key。因為在 SST 文件中,Key 是有序排列的,所以我們需要通過 LSMTree 來實現免索引連接的能力。關鍵點就是合理地設計邊的 Key,使一個點所有邊在排序后是相鄰的。說起來比較拗口,其實實現起來并不難。我們看一下這個例子。只要把邊 Key 的最高位放起始點 ID,那么后面無論是邊的其它什么信息,都可以讓從起始點 ID 出發的邊自然地排序排在一起。這里也可以加入一個編號的字段,因為兩點之間,起始點和終止點 Meta 這些是固定的,編號字段加入之后,就可以支持在兩點之間同類型的多條邊共存。因為這是一個 KV 結構。如果只有起始點、終止點和 Meta,兩點之間同類型的邊只能存在一條。所以比如轉賬交易或者是訪問記錄這些具有事件性質的邊要存多條,可以加一個編號。當然也不一定都是必須從起始點開始來做邊的 Key。

比如在例 2 中,把 type 邊類型放在高位。它就可以先以 type 進行劃分,后面才是起始點。這種方法也比較適合在分布式場景下按類型做分片,這樣同一類型的邊就會排在相鄰的分片中,有利于提高分布式查詢的性能。使用這個方式,有非常高的寫入性能,并且讀取的時候也能提供免索引連接的能力。但是其實它也并不完美,也有很多問題需要克服。首先是讀性能,在讀的時候,如果內存沒有命中,下面是一個逐層的 SST 文件,去找 Key 的最壞情況,可能要把所有層的 SST 文件全部找完,才能找到合適的 Key。所以它的免索引連接是比較依賴于Compaction 操作的。只有在理想情況下,比如在一個完整的 Compaction 完成的情況下,它才能真正實現免索引連接,否則會在各個 SST 文件內部去查找。在整體上,它并沒有完整地達到不去利用其它結構就能夠進行快速的領域迭代。而做 Compaction 又是一個有比較大的磁盤 IO 的操作,并且如果使用的是第三方的存儲結構,那么做 Compaction 的操作是不受圖數據庫本身控制的,可能是由一些其它的機制觸發的,比如是在前臺負載壓力比較大的情況下觸發了 Compaction,這樣實際在使用的時候會出現一些瓶頸,所以必須要對第三方存儲進行比較深度的改動,才能夠更好地優化。

可以看到,各種實現免索引連接的存儲方式都不是一勞永逸的,而是有各自的優勢和短板。通過數組的方式讀取速度快,但是寫入因為涉及到變長的問題,可能會比較慢。通過 LSM 樹的方式寫入速度快,但是讀的時候又依賴于 Compaction 操作,在 Compaction 沒有完成的情況下,它的讀取速度也比較慢。通過鏈表的方式讀取和寫入速度都不占優,但是它的靈活性卻最高,因為它是以 offset 形式的指針來實現的。在實際商業圖數據庫的實現過程中,需要根據設計理念去做取舍。也可以結合兩種或者多種方案的優點,在不同的數據形式下,靈活地實現不同類型的存儲。還有一些其它的問題,比如分區分片、反向邊一致性、如何支持事務、數據索引怎么做、數據過期等等,都是要解決的問題,實現起來還是比較復雜的。04****Galaxybase 圖數據庫應用實踐接下來介紹 Galaxybase 圖數據庫的一些應用實踐。Galaxybase 是創鄰研發的國產高性能分布式圖平臺,它的特點是速度快、高擴展、實時計算,支持一個知識中臺,并且安全自主可控。

使用原生分布式并行圖存儲,實現了存儲層的免索引連接,可以毫秒級完成傳統方案無法完成的深鏈分析,較同類技術有數百倍的提升。使用完全分布式的架構,支持動態在線擴容,高效支持萬億級超級大圖。也內置了非常豐富的圖算法,包括分布式圖算法和單機圖算法,不需要 ETL 就能實現實時圖分析。底層存儲包含數據壓縮的能力,可以優化資源利用,節省硬件和維護成本。有一個可視化交互的知識中臺,便于業務理解和操作,幫助數據價值快速變現。同時也是完全自主可控的,全面兼容國產底層軟硬件。

這是 Galaxybase 的架構圖,中間部分是整體的核心部分。底層使用了數據分片動態壓縮的分布式存儲技術,支持屬性圖的存儲模型,并且實現了原生圖存儲。存儲層之上是計算層,實現了內置的圖計算引擎,包含了單機的圖算法和分布式圖算法,并且還可以由用戶來自定義一些定制化函數,來實現自己的高效算法。再往上是接口層,支持 Java、Python、Go、Rest 的 API。并且可視化的模塊也可以以接口的方式嵌入到其它第三方頁面中。左側可以看到,支持多源異構數據,比如傳統關系庫、CSV 文件、HDFS、實時流數據等等,都可以直接進行數據導入。底層適配了各種操作系統,支持各種國產和非國產的主流操作系統。也支持國產的各種 CPU。在上面可以構建一個圖智能中臺,包括圖工作流管理和可視化分析。在中臺之上,可以在各種的業務場景下提供不同的業務解決方案。Galaxybase 的一個性能優勢,是能夠高效地進行分布式圖計算,并且實現了當前最大規模的圖數據處理,實現了 5 萬億超大規模的分布式圖存儲。在線查詢僅使用了 50 臺機器的集群,出入度最大有 1000 萬的超級節點,6 跳的平均查詢時間僅為 6.7 秒。這是與中山大學攜手共建的一個圖計算項目。

Galaxybase 還具備非常高效的查詢性能。在 LDBC 的 SNB 測試里面,去年我們做了一個官方的 Audit,打破了一項世界記錄,較之前的吞吐量提升 70%,平均查詢性能有 6 倍以上的提升,最高的 95 分位查詢性能提升達到 72 倍。

Galaxybase 支持非常豐富的圖算法,包括 57 種圖算法,其中 28 種已經支持了分布式,其它一些分布式算法也正在實現中。我們也是首家完成信通院圖計算評測的一個圖計算平臺。

我們的產品里面還包括一個圖智能中臺,主要是通過可視化界面的方式來進行交互式的探索,完成圖的一些定性分析,包括搜索頂點、點邊位置擴展、查找路徑,還有各種混合的布局。布局模式有各種方式混合的搭配,還可以和自定義的地圖進行匹配,支持時序演進分析等功能。

Galaxybase 是一款完全國產自主可控的產品。內核的存儲、計算、查詢的代碼完全都是自研的,不依賴于其它第三方開源框架。也完成了各種操作系統和 CPU 的國產信創適配認證,并且獲得了信創的一些相關獎項。

我們提供各種圖場景的解決方案,有很多合作伙伴,有很多已經在金融、能源、教育、互聯網、政府多個行業中的頭部客戶落地的使用場景,并且已經服務了幾年時間。

05

問答環節

**Q1:針對大 value,比如大于 4K 的數據,隨機讀取的時候會非常耗 IO,這塊有什么優化嗎?**A1:一般來說,圖數據庫里如果是一個屬性值,單個屬性值大于 4K,其實我們不建議把它放到圖數據庫中來,因為圖數據庫主要是做點邊的關聯鄰居查找的。如果單個屬性大于 4K,可能是一個很長的文本。在這個上面做圖的分析,價值并不大。如果這個是要作為一個存儲放進來的話,最好是把它單獨放在一個另外的區域中,不要跟點邊正常的這些屬性來放在一起。如果指的是點邊的結構,可能某一個點的鄰居特別多,會就這種超級節點的情況把它存在一起。針對鄰居存儲的數量非常大的情況,涉及到一個圖切分的概念。通常情況下我們更多使用的是一個邊切割,所以所有點的鄰居都會存在一起,這樣能更高效地來訪問一個點的所有鄰居。當一個點的鄰居數量特別大的時候,這里可能都不只是 4K 量級,可能會有 400M 或者 4G 這樣的量級,這種情況下的切割就會形成單個非常大的文件。這種時候也可以考慮動態的點切割的方式,就是把一個點的鄰居,再切割成多個存儲文件,存儲文件可以在不同的分區里,可以在不同的分片下,這樣就可以實現并行迭代的方式。當然這里的技術會更復雜,需要首先有對邊進行唯一定位的能力,有這個能力之后,就可以在這一個點的所有鄰居邊上,再進行進一步的切割,然后把大文件再分成不同的小文件。這也是常見的處理超級節點的一個方式。**Q2:在查詢路徑時,如果有超級節點,返回所有的路徑會不會有問題?一般怎么處理?**A2:這要結合業務需求查詢所有路徑。比如有的圖很大的時候,全部路徑的數量會是一個天文數字,那么返回所有路徑可能就沒有意義了。這時候更好的方式是,要了解我們要路徑去做什么。在路徑上可能要做一些計算,或者做一些聚合,做一些其它的操作。在做這些計算的時候,就不是簡單地返回路徑,而是把路徑上面的計算也一起做了,得到一個最后的計算結果。如果是路徑數量沒有那么大的情況下,也是可以逐條返回的。通常我們可以用寫輸出一個文件或者其它的方式,來返回所有路徑。**Q3:底層數據壓縮對圖性能的影響有多大?**A3:肯定是有影響的,因為壓縮畢竟也要占 CPU,所以這其實是個可選項,要看我們的需求是對讀寫性能更敏感,還是對磁盤空間更敏感。因為也有一些應用,不是實時的情況下,其實對延遲沒有那么敏感,但它的數據量可能很大。這時候我們可以通過底層數據壓縮的方式來節省磁盤空間。當然,如果是對實時性能要求比較高的情況下,肯定是不壓縮,直接讀寫性能更高。因此可以根據場景來決定。**Q4:怎么做無 ETL 的實時圖計算?如果直接從存儲層迭代出來的數據怎么解決一致性的問題?如果用 snapshot 就會有 ETL。**A4:可能要這樣解釋一下我們這個產品,它是存儲、計算都包含的,它是自帶了存儲層和計算層,所以用 snapshot 不需要 ETL 過程,相當于我們自己的計算引擎可以去加載存儲里面的數據,也不需要再做一個數據清理或者是轉換的過程。可以選擇你需要用的一些點邊類型或者屬性類型做篩選,去生成一個圖計算引擎。一般我們在做一個圖計算的時候,其實都是在一個 snapshot 上做圖計算,不然整個計算結果也沒有一致性。所以我們會加載圖存儲的某一個時間切片的一個時間點的 snapshot 到圖計算引擎中,來做圖計算。以上就是本次分享的全部內容。歡迎大家關注我們,進行更深入的探討。謝謝大家。

分享嘉賓 INTRODUCTION

周研

創鄰科技

CTO

浙江創鄰科技有限公司聯合創始人。分布式數據處理領域技術專家、Apache 開源項目貢獻者、圖數據庫和圖計算領域專家、Galaxybase 圖數據庫產品研發負責人。

付費5元查看完整內容

可控文本生成是生成式AI的重要技術之一,在智能創作、自動客服、游戲制作和數字人等領域具有廣闊的應用前景。本報告將從三個部分進行介紹:可控文本生成的研究進展、瀾舟可控文本生成的應用、可控我文本生成未來發展方向。關于可控文本生成研究進展,我將綜述可控文本生成神經網絡模型、模型訓練與解碼、改進生成質量的若干關鍵技術。然后,我將介紹瀾舟可控文本生成的相關研究和應用,例如營銷文案生成、小說生成和續寫、ESG報告生成、科技文獻寫作、可控對話生成和插圖生成等。最后我將討論可控文本生成存在的問題,包括前后一致性問題、常識問題和多樣化生成問題,并探討未來的發展方向。

付費5元查看完整內容

摘要:近日,來自蒂賓根大學等機構的研究者進行了一項表格數據 SOTA 深度學習方法的調查研究。該研究首先將這些方法分為三組:數據轉換、專用架構和正則化模型,然后全面概述了每個組中的主要方法。

通過解釋表格數據上的深度學習模型,該研究對生成表格數據的深度學習方法展開了詳細的討論。該研究的主要貢獻是對領域內的主要研究流派和現有方法進行分類,同時突出相關挑戰和開放型研究問題。這是領域內首個深入研究基于表格數據的深度學習方法的工作,可作為表格數據深度學習研究者和從業者的寶貴指南。

該調查的目的是為了提供:

  1. 對現有關于表格數據深度學習的科學文獻的徹底審查;
  2. 對異構表格數據進行分類和回歸任務的可用方法的分類學分類;
  3. 最先進技術的介紹以及對生成表格數據的有希望的路徑的展望;
  4. 表格數據深層模型的現有解釋方法概述;
  5. 關于表格數據深度學習成功有限的主要原因的討論;
  6. 與表格數據深度學習相關的開放挑戰列表。

基于此,數據科學從業者和研究人員將能夠快速為用例或研究問題確定起點和指導。

付費5元查看完整內容

摘要: 隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別在卷積神 經網絡和循環神經網絡方面,出現了許多新穎且富有成效的分類方法。本文對基于深度神經網絡的文本分類問題進行分析。分類介紹基于深度學習的文本分類方法,研究卷積神經網絡、循環神經網絡、注意力機 制等方法在文本分類中的應用和發展,分析不同深度學習文本分類方法的特點和性能,從準確率和運行時 間方面對基礎網絡結構進行比較。已有研究和本文實驗結果表明,深度神經網絡方法的分類性能超過了傳 統的機器學習方法,卷積神經網絡具有良好的分類性能。分析當前深度文本分類模型的不足,并對未來的 研究方向進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0059099

文本分類技術經歷了從專家系統到機器學習再到深度學習的發展過程。上世紀 80 年代 以前,基于規則系統的文本分類方法需要領域專家定義一系列分類規則,通過規則匹配判斷 文本類別。基于規則的分類方法容易理解,但該方法依賴專家知識,構建成本高,系統可移 植性差。到上世紀 90 年代,機器學習技術逐漸走向成熟,出現了許多經典的文本分類算法, 如決策樹[1]、樸素貝葉斯[2]、支持向量機[3]、最大熵[4]、最近鄰方法[5]等,這些方法部分克服 了前述缺點,一定程度上實現了分類器的自動生成,被廣泛應用的各個領域,但其缺點是在 構建分類器之前,通常需要繁雜的人工特征工程。2012 年開始,深度學習算法引起了越來 越多人的關注,深度學習為機器學習建模提供了一種直接端到端的解決方案,避免了復雜的 特征工程。Golve[6]和 word2vec[7]等詞向量模型的提出,為深度學習算法應用到文本處理領域 上鋪平了道路,隨后出現了各種基于深度神經網絡的文本分類方法,這些方法主要采用了卷 積神經網絡(convolutional neural networks,CNN)、循環神經網絡(recurrent neural networks, RNN)、注意力機制(attention mechanism)等深度學習技術,并且取得了比傳統方法更為 出色的性能。近年來,圖卷積網絡(graph convolutional network,GCN)、區域嵌入(region embedding)、元學習(meta-learning)等一些新的深度學習方法也被應用到文本分類領域。本文對基于深度神經網絡的文本分類技術進行了介紹和分析,將詳細介紹卷積神經網 絡、循環神經網絡、組合模型、注意力機制等方法在文本分類中的應用和發展,分析各類方 法的特點以及之間的區別,對不同方法的性能表現和適用場景進行分析比較,討論在應用深度學習方法處理文本分類任務時應當注意的問題,最后指出未來的研究方向。

付費5元查看完整內容
北京阿比特科技有限公司