摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程
摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全
大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。
如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
摘要——水下目標跟蹤技術在海洋資源勘探、環境監測和國家安全等領域中發揮著關鍵作用。由于聲波在水域中具有良好的遠距離傳播能力,水聲目標跟蹤已成為水下通信與網絡研究中的重要方向。現有綜述文獻往往視角狹窄,或未能充分討論深度學習、強化學習等新興技術所帶來的范式變革。為填補這一空白,本文系統地回顧了該領域的發展,提出了一種基于目標尺度、傳感器感知模式和傳感器協同方式的多維度分類框架。在該框架下,我們系統梳理了2016年至2025年間的相關研究文獻(共180余篇),內容涵蓋水聲目標跟蹤的理論基礎與多種算法方法。特別地,本文強調了深度學習和強化學習等機器學習技術在提升水下跟蹤系統性能與適應性方面的變革潛力和最新進展。最后,本文總結了當前面臨的主要挑戰,并基于聯邦學習、區塊鏈、具身智能和大模型等新興技術,提出了未來研究的發展方向。 關鍵詞——水聲目標跟蹤,通信與網絡,狀態估計,深度學習,強化學習,數據融合。
一、引言
海洋蘊藏著豐富的資源與能源儲備,既是關鍵的資源寶庫,也是人類可持續發展的重要戰略空間,近年來受到了全球越來越多的關注。同時,海洋生態系統為人類提供了不可或缺的生態服務,如氣體調節、養分循環和廢棄物處理。此外,海洋控制權也是維護國家安全與主權的重要保障手段 [1]。因此,高效利用海洋資源、加強海洋生態保護、維護國家海洋權益,已成為國際社會的廣泛共識 [2]。 水下目標的精確有效跟蹤在海洋資源的勘探與保護以及海上安全的維護中均至關重要。作為海洋科技研究的核心方向之一,水下目標跟蹤技術受到了高度關注。近年來,傳感器性能的提升、多源信息融合技術的發展以及人工智能的快速進步,極大地推動了該技術的發展,使其在國防安全 [3]、環境監測 [4]、資源勘探 [5]等多個領域實現了廣泛應用。 然而,受海洋環境復雜性與目標多樣性的影響,水下目標跟蹤技術的發展仍面臨諸多挑戰 [6]。海洋環境會顯著影響信號傳播特性 [7],而水下目標往往具有高機動性和隱蔽性 [8]。常規的陸地跟蹤媒介,如電磁波和激光,在海水中存在嚴重的吸收與衰減,難以勝任水下應用 [9]。相比之下,聲波是唯一能夠實現遠距離水下傳播的介質,因此成為水下目標跟蹤的主要手段。 圖1展示了典型的水聲目標跟蹤場景,其中移動目標發出聲信號,通過水體介質傳播,被部署在特定海域的空間分布式傳感器陣列所接收。這些傳感器配備通信模塊,能夠周期性地采樣聲音信號,并共享測量數據與計算結果。該場景揭示了水聲目標跟蹤系統的三大核心組成部分:(1)兩個關鍵實體,即水聲目標與傳感器節點;(2)通過聲信號傳播與接收實現的目標-傳感器交互;(3)通過通信鏈路建立的傳感器間協同關系。
A. 建立多維分類框架的動機
水聲目標跟蹤在海洋探索中發揮著關鍵作用,因其在軍事與民用領域的廣泛應用,長期以來受到學術界的廣泛關注。已有的相關綜述對該技術進行了較為系統的總結 [10]–[14]。此外,人工智能、大數據分析與先進傳感技術的融合,為該領域帶來了前所未有的技術突破機遇,正成為推動未來海洋科技創新的重要驅動力。 然而,現有綜述文獻存在兩個顯著局限性 [15]: * 首先,盡管水聲目標跟蹤涉及多個研究維度,但現有綜述往往采用單一視角或狹隘場景框架,導致其難以適用于不同應用環境,也阻礙了讀者和研究者對問題場景的系統理解; * 其次,大多數綜述發表于深度學習等新興技術廣泛應用之前,未能涵蓋深度神經網絡在測量數據分析、深度強化學習在傳感器控制協調中的前沿成果。因此,它們未能反映正在發生的范式變革。
上述研究缺口表明,迫切需要一篇系統性綜述,能夠全面整合水聲目標跟蹤的基礎方法與最新進展。
B. 綜述范圍
如圖2所示,近年來水聲目標跟蹤技術的研究熱度持續上升,相關文獻數量迅速增長。本文系統分析水聲目標跟蹤的問題場景,梳理其關鍵組成要素,提出了一個三維分類框架,包括:(1)目標尺度,(2)傳感器感知方式,以及(3)傳感器協同模式。 此外,本文對深度學習、強化學習和數據處理技術與傳統跟蹤方法的融合進展進行了綜述,并在表1中對比了本綜述與已有相關綜述之間的差異。
C. 本文貢獻
據我們所知,本文是首個針對水聲目標跟蹤研究的系統性多維度綜述,全面總結了該領域的基礎方法與技術前沿成果,主要貢獻包括: * 提出全新的多維分類框架:與以往單一維度的分類方式不同,本文提出的框架結合了目標尺度、感知方式與協同模式三個關鍵維度,不僅揭示了水聲跟蹤系統的多樣性與復雜性,還建立了跨維度的映射機制,幫助研究者從多角度審視方法體系,克服傳統綜述的局限。 * 深入分析跟蹤算法中的新興技術:系統探討了深度學習與強化學習如何革新動態水下環境中的自適應算法設計,彌補了現有綜述對這些技術突破關注不足的問題,為研究者提供了先進方法的集成參考與未來研究的創新路線圖。 * 構建結構化的算法對比分析體系:通過詳實的對比表、技術路線圖與案例分析,提煉出各類跟蹤方法的基本原理、特色優勢與性能指標。這一結構化分析方法既有助于快速理解方法核心,又為實際應用中的技術選擇與優化提供了實用參考。 * 揭示關鍵挑戰并提出未來研究方向:通過系統評估,識別出海洋環境建模、低信噪比信號處理與數據共享等關鍵瓶頸。在此基礎上,提出涵蓋算法優化、技術融合、工程實施與數據協同的多維研究框架,為跨學科研究奠定理論基礎,也為后續工作提供了可操作的指導路徑。
本文結構安排如下:第二章介紹水聲目標跟蹤的基本理論;第三章從目標尺度、感知方式與協同模式三方面分類方法;第四章探討深度學習與強化學習在水聲目標跟蹤中的作用;第五章總結當前挑戰與未來發展方向;第六章為結論。圖3展示了本文如何基于上述分類與機器學習應用,系統整理2016至2025年間的180余篇文獻。
摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。
本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型
遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:
基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;
學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;
視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。
盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:
對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;
對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;
對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;
討論當前挑戰與未來可能的研究方向。
圖2展示了本文的整體框架。
基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。
1. 引言
隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。
近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。
本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。
**基于深度遷移學習的工業監控方法總結 **
在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。
海洋是高質量發展的要地,海洋科學大數據的發展為認知和經略海洋帶來機遇的同時也引入了新的挑戰。海洋科學大數據具有超多模態的顯著特征,目前尚未形成面向海洋領域特色的多模態智能計算理論體系和技術框架。因此,本文首次從多模態數據技術的視角,系統性介紹面向海洋現象/過程的智能感知、認知和預知的交叉研究進展。首先,通過梳理海洋科學大數據全生命周期的階段演進過程,明確海洋多模態智能計算的研究對象、科學問題和典型應用場景。其次,在海洋多模態大數據內容分析、推理預測和高性能計算三個典型應用場景中展開現有工作的系統性梳理和介紹。最后,針對海洋數據分布和計算模式的差異性,提出海洋多模態大數據表征建模、跨模態關聯、推理預測、高性能計算四個關鍵科學問題中的挑戰,并提出未來展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2029&journal_id=jig
海洋是高質量發展的要地,是人類社會的未來。但目前對海洋系統的精細認知不足 5%。 通過觀測、監測、調查、分析和統計獲取的海洋大數據是人類認識海洋的主要途徑。如圖 1, 隨著全球海洋立體“空-天-地-海-底”觀測系統的不斷發展(吳立新等, 2020),形成了面向海洋 的遙感圖像、時空序列數值、仿真數據、文獻資料、監控視音頻等大規模多模態數據。根據 當前關于海洋數據量的研究,2014 年全球各種海洋數據總量約為 25PB,預計 2030 年全球 海洋數據總量將達到 275PB。這表明海洋多模態數據的存量已經接近 EB 級,日增量也達到 TB 級。其中,海洋遙感圖像和時空序列數值是其主體,時空序列數值以矩陣形式呈現,通 常也作為圖像對待。所以,對以圖像為主的海洋多模態大數據的深入分析和挖掘,是認知海 洋動力過程、能量物質循環、藍色生命演變,實現科學重大發現、生態環境健康、應對極端 天氣和氣候變化的關鍵途徑,也是支撐人類社會可持續發展的重大戰略需求。
和傳統大數據相比,海洋多模態大數據具有超巨系統(占地表 71%面積,日增量 10TB)、 超多視角(“陸-海-氣-冰-地”耦合、“水文氣象聲光電磁”多態)、超跨尺度(“厘米至百公里” 空間尺度,“微秒至年代際”時間尺度)等顯著特征,導致現有的多模態智能計算技術難以應 對跨尺度多模態融合分析、多學科跨領域協同推理、大算力多架構兼容應用等難題。因此, 雖然我國對海觀測能力日益強大,但海洋多模態大數據價值挖掘的智能化水平不足,迫切需 要針對其差異化特點,構建面向海洋的多模態智能計算理論體系和技術框架。目前,海洋多 模態智能計算領域的研究剛剛起步,尚未形成體系化和差異化研究方向,現階段的工作大多 關注現有多模態數據挖掘技術在海洋場景下的應用優化,并未針對海洋領域數據的分布特點 開展深入研究。因此,本文通過梳理現階段海洋領域面向多模態智能計算中的內容分析、融 合推理、智能計算等方面的現有工作,結合領域場景需求,提出海洋多模態智能計算的主要 研究內容、現有進展、關鍵問題和未來展望
文 / 周明 轉載于“中國人工智能學會”
0 引言
人工智能(AI)從上世紀50年代達特茅斯會議發展到今天,經歷了多次起伏,圍繞著基于知識還是基于數據兩條線,先后發展出了基于知識的符號系統,以及基于數據的統計機器學習和神經網絡方法。目前基于神經網絡的深度學習方法,在大數據和大算力支持下,在感知智能方面,基于CNN、ResNet等技術,在圖像分類、人臉識別、語音識別等方面已達到與人相仿的水平,推動了AI在安防、質檢、醫療圖像識別和自動駕駛等領域的落地。最近三年,基于 RNN、Transformer、預訓練模型(Pre-trained models)和圖神經網絡(GNN)技術,AI正由感知智能快速向認知智能邁進。計算機正在從能說會看,向能思考、能回答問題、能決策等認知能力快速推進。計算機通過感知智能獲得的是對世界的感知,而從感知智能過渡到認知智能后,將使得計算機理解人類語言并推理解題的能力大幅度提升。認知智能提供了從數據獲取和分類到信息抽取和檢索、到知識推理,再到洞見發現、撰寫調研報告,最終形成決策的全方位的能力。它會同感知智能,將對提升各行各業的數智化產生深遠的影響。這其中最重要的一項突破是預訓練模型和微調技術。作為自然語言理解的新范式,它通過無監督學習方式從大規模無標注文本中學習語言模型,然后通過遷移學習對下游任務進行端對端的微調。這個新范式大幅度提升了各項NLP能力,包括機器翻譯、聊天、對話、搜索、摘要、問答,知識圖譜、推理和決策等;然而,這類模型的可解釋性比較差,對常識的建模能力,以及邏輯推理能力較弱,仍需大規模的帶標注的樣本。
為了推認知智能的發展,我們提出了新一代認知服務引擎的計劃,研制了輕量化預訓練模型(孟子模型)、支持語言和多模態,以及領域訂制;在此基礎上,開發了新型機器翻譯、文本生成和行業搜索引擎等核心技術;同時,通過司法考試(LSAT)利用規則和神經網絡的方法研究復雜推理。本文將介紹我們在這個過程中對認知智能三個比較重要方面的體會,包括預訓練模型、推理和小樣本學習,希望可以激發讀者更多的思考。
簡介
周明
創新工場首席科學家,瀾舟科技創始人。曾任微軟亞洲研究院副院長、國際計算語言學會主席(2019年)。CAAI Fellow
1 預訓練模型
當前大熱的預訓練模型BERT、GPT和T5及其之后的各種變種,使用自回歸的語言模型和自編碼技術等自監督學習方式進行;訓練單語言、多語言和多模態的模型支持分類、序列標記、結構預測和序列生成等各項技術,并構建文摘、機器翻譯、圖片檢索、視頻注釋等應用。
預訓練模型是一種遷移學習的應用,利用大規模的文本(譬如來自互聯網的文本數據),學習輸入句子每個詞匯的上下文相關表示。它隱式地學習到了一般性的語法語義知識。將這種從開放領域學到的語言知識遷移到下游任務,有利于改善低資源的任務,以及低資源語言(比如小語種和少數民族語言)的任務。在支持一個新任務時,只需要在通用預訓練模型支持下,利用該任務的標注數據進行微調即可。這種預訓練-微調機制有效提升了開發效率,同時標志著NLP進入到工業化實施階段。
一般而言,在相同網絡架構和訓練方法下,增加模型層次和模型參數得到的預訓練模型的能力就一定會提升。不過模型的規模到了一定程度后,增強幅度也會趨緩。我們注意到訓練一個大模型的代價很高,譬如GPT-3訓練以前需要460萬美金;大模型落地部署的代價也極大。隨著摩爾定律逐漸枯竭,計算機硬件能力的增加速度趕不上模型參數的增加速度,統計表明至少差一個數量級。這時不一定一味追求更大的模型,而應注重提升算法能力。
有鑒于此,我們比較關注輕量化的模型(這里指預訓練模型參數數目在10億以下),在訓練優化、知識增強和數據增強三個方面展開相關研究。在訓練優化方面,在不改變模型結構并保證通用性的基礎上,優化主流的自編碼和自回歸的訓練方式,使模型的訓練更快、性能更強;在知識方面,引入語言學知識和知識圖譜來增強模型的上下文感知和認知推理能力;在數據方面,使用領域數據和其他語言的數據增強模型訓練。因為是輕量化模型,所以模型的訓練、部署和維護的成本較低。針對新領域快速定制也容易實現。我們開源了三個孟子輕量化模型,用于文本分析、生成、圖片理解等應用,同時也開源了金融領域的預訓練模型。
我們認為以下10個研究方向值得關注,涵蓋了預訓練技術、模型架構設計、建模和表示方法、性能評價、模型應用等方面。
(1)輕量化模型的技術研究。平衡算力消耗和訓練效率,通過設計輕量化的預訓練策略,或從大模型提煉出輕量化模型,實現預訓練模型的規模化應用。
(2)大小語言模型協同應用。大模型側重通用能力,小模型側重特定任務和場景。結合大模型的性能和小模型的效率優勢并基于SaaS提供服務,以高效實現推理。
(3)神經-符號結合的架構。將符號知識與神經網絡結合,賦予預訓練語言模型強大的認知推理能力,增強求解過程的可解釋性。
(4)通用的語言表示范式。實現不同語言建模粒度(字、詞、短語、句子、篇章)、不同語言間的通用建模方法;對不同的語言處理任務(例如自然語言理解和自然語言生成),采用統一的序列建模方式;通過提示學習方法,將自然語言處理任務建模成統一形式求解。
(5)知識驅動的預訓練模型。設計面向知識推理的預訓練方法,包括常識、事件相關的正則項或預測任務;按需檢索,有效利用結構化知識,構建知識間的聯系,減少噪音,并與文本表示融合,強化知識推理能力。
(6)語言模型中的知識編輯。預訓練語言模型可視為一個巨大知識庫,根據應用需求,維持通用知識,更新任務相關知識,避免災難性遺忘,實現持續學習能力。
(7)模塊化的預訓練模型。不同任務通常需要不同的技能來求解。從細分技能的角度,利用混合專家 (Mixture of Experts,MoE),把多個技能導向的子模型合并為一個大模型,對不同任務按需裝配,選擇不同子模型進行處理。
(8)層次化的多模態建模。層次化的建模方式和細粒度的多模態信息融合,包括同一模態內、不同模態間的對象對齊與融合;新一代面向文檔理解的預訓練模型。
(9)預訓練模型的魯棒性。面向預訓練模型的對抗攻擊與防御,通過構造自然的對抗樣本和數據增強等手段,提升預訓練模型在現實應用中的魯棒性。
(10)多維度模型性能評價。客觀、綜合、均衡的評測基準對于分析預訓練模型能力、發掘問題、啟發新的研究課題具有重要意義。開發新型基準評價平臺,對預訓練模型做出全面、科學、有效的評測。
2 復雜推理
復雜推理問題是理解和分析已有的信息,應用推理機制期望得到推理結果。它有很多應用,譬如解數學題、談判和辯論、客服和醫學診斷等。相對于簡單推理(比如蘊含或者問答),“復雜”體現在依賴深度語言理解(語義解析、跨句理解等)、邏輯關系復雜(從屬關系、因果關系、否定關系等)、推理能力多樣(數值推理、邏輯推理、常識推理等)、推理過程復雜(多跳、推理方向不確定等)。除了這些問題之外,由于標注困難度和人工成本,普遍缺乏標注數據。我認為,推理問題是NLP皇冠上的明珠,如果突破了,則意味著AI的巨大進步。
我們選擇LSAT入學考試任務研究復雜推理問題,以期通過考試題推進AI在理解和推理上的發展。LSAT考察學生的綜合推理能力,被認為是最困難的入學考試之一。它有如圖1所示的三項任務。
圖1 LSAT三項任務
(1)分析推理(AR)。考察一個人分析推理的能力。跟定一個上下文,要針對問題判斷哪個解決方案正確,需滿足若干個約束條件才行。需要有能力判斷條件是否滿足了。
(2)邏輯推理(LR)。考察一個人邏輯推理的能力。根據上下文,選擇哪個邏輯推理是正確的。需要有邏輯推理能力才能做出來。
(3)閱讀理解(RC)。考察一個人的閱讀理解能力。給定一篇通常較長的文章,給幾個選擇,每個選擇是關于這篇文章的一個推論,問哪個選擇是正確的。需要對文章理解,并且具有常識才能做出判斷。
可見,這三項任務可以體現出一個學生的理解問題并通過推理解決問題的能力。對計算機推理是一個非常好的實驗。
LSAT的任務概括而言是一個多選QA問題。根據一個上下文,圍繞一個問題有幾個選擇,判斷最佳的選擇。如果做一個 baseline 的推理系統,可以把上下文c與問題q和一個選擇答案o拼起來,送到一個多層神經網絡(transformer 架構);然后把幾個候選答案的輸出,通過softmax得到每個選擇的概率(見圖2)。由于只有小數量的標注語料,所以這種簡單的方法結果不行。
圖2 baseline的推理系統
我們來看看數據集合,根據不同的推理任務對應三個數據集合。1991—2016年的考題,還有五個考題是印度考題,總共90場考試,一場考試100道題目左右。三類的問題,每類數據都可以劃分成訓練、驗證和測試三個部分。這就是可以獲得的全部數據。由于數據十分稀疏,如果只是用一個通常采用的基于預訓練的端對端學習,比如BERT、XLNet、RoBERTa、ALBERT,其結果與隨機猜測相仿。因此,我們需要更強的推理模型。
在分析推理方面,所做試驗表明,在現在階段符號的方法最佳。由于缺少數據,神經網絡無法訓練,而寫規則時,可以根據問題的特點寫一系列針對性的規則,所以規則的方法在這里有一定優勢。
在邏輯推理方面,符號方法和神經方法融合最好。對每道題用符號方法去理解邏輯,根據邏輯的等價規律進行延伸和推廣,然后對每個答案也進行邏輯抽取,利用推廣的這些邏輯對答案邏輯再進行推廣,把推廣的邏輯變換成文字,把文字加回到神經網絡中進行訓練,這個方法目前最優。它的好處就是把邏輯方法充分用到問題的實質中,然后用邏輯方法來擴展數據,而沒有直接用邏輯方法去推導,所以這個組合方法在這種題目上取得了最優結果。
在閱讀理解方面,神經網絡加預訓練的方法是最好的。它利用了端到端訓練,在SOTA的閱讀理解基礎上得到了不錯的分數。
LSAT的整體水平。LSAT的分數不是1~100分,是120~180;也就是說,什么也不做也是120分;滿分是180分。這里可以把我們的分數對應過來,然后根據歷年以來的一個統計,對應一下可以上前多少名的大學分數線,總分可以得到151分,大概可以上到前104名的學校;AR分數差一些,只能上200名之后的學校;LR分數大概可以上第58名的學校;RC分數大概可以上第30名的學校;結論是可以考上一個一般的法律學校(學院),100名左右。通過這個實驗得到了一些正面的發現,整體上,系統達到了一般學生的水準,說明機器復雜推理的潛力;RC和LR不錯,可以被第30名和58名學校錄取。這兩個方法都用到了預訓練,也用到了與任務相關的推理,說明這兩者有一定有效性。符號系統來解AR問題,問題很多,但是居然還是比神經網絡好。AR問題確實很難,要對上下文理解,然后建立推理鏈條。然而現在沒有多少數據可以用于訓練,所以現階段求解這類問題,符號知識和符號推理還是必須的。這個任務也說明,小樣本學習非常重要。
LSAT是一個研究復雜推理很好的數據集合。我們針對不同任務設計了在目前數據集合和技術手段下最佳方法;研究了規則方法、神經網絡方法、神經-規則方法,切身體會了各自方法的特點;針對小樣本問題,實驗了合成數據、遷移學習、元學習等方法;分析了目前復雜推理存在的問題,比如常識、可解釋性、小樣本、評測集合等;提出了未來的研究方向1。這件事情僅是開始,未來還需要很多工作。
3 小樣本學習
神經網絡用較大的標注數據做端到端訓練。真實場景下,很多任務都少有標注數據,所以小樣本學習是目前神經網絡的一個難題。但是人類可以通過少量樣本識別一個新物體。比如,小孩只需見幾次貓就可以識別幾乎所有的貓。研究人員希望機器學習模型在學習了一定類別的大量數據后,對新的類別只要少量的樣本就能快速學習。這就是Few-shot Learning要解決的問題。
人可能有一些基礎能力(Foundation Skills),這些基礎能力不用針對每個任務都像現在的神經網絡端對端的重新學一遍。與Foundation Skills相對,Foundation Models指的是支持各個任務能力的通用模型。但是人不管用什么Model,體現在外在功能都是一個個Foundation Skills。語言理解像分詞、句法分析、常識問題,每個Foundation Skill完成某個基本任務。每個人都有Foundation Skills,雖然能力各有不同,但是人在解決一個大問題時,調用了一組Foundation Skills形成一個序列執行具體任務。人可以針對任務目標,對每個Foundation Skills要快速做Domain-Adaptation。
對于很多實際場景,難以標注大量的語義解析數據,可以使用合成數據輔助訓練2,3。比如在上述LSAT的分析推理任務中的問題解析模塊中,為了擴充訓練語料,我們設計了同步上下文無關文法,用于生成大量的合成數據。在生成一個邏輯表達式的同時,生成其對應的文本。然而,這樣的合成文本多樣性較弱,因此考慮使用同義改寫模型,為合成文本生成同義句,增強合成數據的多樣性。
除了構造合成數據,還可以利用已有的數據資源。現有許多人工標注好的語義解析數據集,可以讓模型從中學習通用的語義解析知識,用以輔助新的語義解析任務。我們采取基礎模型 + 微調的思路。在基礎模型構建部分,基于T5,使用來自多個符號系統的多個數據集訓練一個神經解析器。不同符號系統之間的知識可以共享、互補,構成了語義解析的基礎能力。針對目標任務,例如LSAT的分析推理任務,可以使用合成數據對模型進行微調,使得模型具備文本到目標符號系統的映射能力。從實驗結果來看,針對語義解析構建基礎模型的方法,能在一定程度上提升LSAT分析推理任務的解析性能。
盡管我們可以采用多種方法提升合成數據的多樣性,但是由此訓練的模型依然欠缺泛化能力。在這里同義數據的定義,是指邏輯表達式相同但是輸入文本不同的數據。為了提升模型的泛化能力,我們提出了基于元學習的訓練方法,即learn-to-generalize。從實驗結果來看,元學習可以幫助模型有一定能力從合成數據泛化到真實數據。
4 結束語
目前神經網絡的方法依賴大規模的標注數據做端到端訓練。這種黑箱式系統缺乏解釋能力、也不具備常識推理能力。解決這個問題不是一件容易的事情,但是可以從如下三方面推進。
第一,人腦在處理熟悉的事情時,依賴數據和直覺,比較快,缺乏解釋性,這個能力通常被稱作系統2的能力;而在遇到不很熟悉的事情時,依賴規則、邏輯和推理,比較慢,但是具備可解釋性,這個能力通常被稱作系統2的能力。我們可以把前者類比于神經網絡方法,后者類比于符號系統。為了改進目前的神經網絡系統,應該把這兩個系統融合起來,也就是數據和知識融合起來尋找解決思路。
第二,現在的深度學習,依賴數據做端對端的訓練。這意味著針對一個新任務,要學習所有的能力。這就和假定人腦做任何事情時都是從空白開始學習。實際上,人具備很多基礎能力。這些基礎能力針對一個新任務時大部分的能力不動,只是小部分簡單調整。我們設想模擬人腦,設計一系列基礎能力和基礎能力的微調機制。為了能夠實現微調,需要每個基礎能力可微。如何把規則系統轉換為神經網絡系統從而實現可微,是一個挑戰性課題。
第三,常識問題。常識問題困擾NLP的發展,目前并沒有很好的方法。為了研究常識推理,ConceptNet建立了針對常識問答的數據集CommonsenseQA。最近有研究提出了用一種外部注意力機制增強Transformer和預訓練,把外部常識知識引入到預訓練的預測過程中。期待今后更多的研究。
總而言之,借助預訓練模型推進,認知智能正處在蓬勃發展的勢頭,取得了令人振奮的進步。但是,預訓練模型的訓練成本太高、效率低、推理能力差;由于數據的偏差,模型也存在著隱私和倫理問題。我們希望未來的認知模型能夠像人腦一樣具備可解釋性和小樣本學習能力,以及常識推理能力,在這些方面,需要不懈的努力。
(參考文獻略)
1 //xueshu.baidu.com/usercenter/paper/show?paperid=1t5006r05m4w0jn0mc1e0ms0e1656798 2 3