亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近期發布的 ChatGPT 和 GPT-4 等大型語言模型, 不僅能高質量完成自然語言生成任務, 生 成流暢通順, 貼合人類需求的語言, 而且具備以生成式框架完成各種開放域自然語言理解任務的能 力. 在少樣本, 零樣本場景下, 大模型可取得接近乃至達到傳統監督學習方法的性能, 且具有較強的 領域泛化性, 從而對傳統自然語言核心任務產生了巨大的沖擊和影響. 本文就大模型對自然語言處理的影響進行了詳細的調研和分析, 試圖探究大模型對自然語言處理核心任務帶來哪些挑戰和機遇, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術的未來 發展趨勢和應用. 分析結果表明, 大模型時代的自然語言處理依然大有可為. 我們不僅可以將大模 型作為研究方法和手段, 學習, 借鑒大型語言模型的特點和優勢, 變革自然語言處理的主流研究范式, 對分散獨立的自然語言處理任務進行整合, 進一步提升自然語言核心任務的能力; 還可就可解釋性, 公平性, 安全性, 信息準確性等共性問題開展深入研究, 促進大模型能力和服務質量的提升. 未來, 以 大模型作為基座, 拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通用人 工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務。

1 引言

2022 年 11 月 30 日, OpenAI 發布了對話式語言大模型 (ChatGPT1), Chat Generative Pretrained Transformer). 該模型允許用戶使用自然語言對話形式進行交互, 可實現包括自動問答, 文本 分類, 自動文摘, 機器翻譯, 聊天對話等各種自然語言理解和自然語言生成任務. ChatGPT 在開放域 自然語言理解上展現了出色的性能, 甚至無需調整模型參數, 僅使用極少數示例數據即可在某些任務 上超過了針對特定任務設計并且使用監督數據進行訓練的模型. 當面對用戶所提出的各種文本生成 任務時, ChatGPT 在多數情況下可以生成出通暢通順, 有邏輯性且多樣化的長文本.

ChatGPT 自發布以來引起了廣泛的關注, 僅在 5 天內注冊用戶就超過了 100 萬. 據雅虎財 經2)統計, 在 ChatGPT 推出僅兩個月后, 月活躍用戶已達 1 億, 相比之下, 之前一直被認為是用戶增 長速度最快的消費級應用程序 Tiktok 則花費了 9 個月的時間. 稍后不久, 微軟于 2023 年 2 月 8 日 推出了新一代 AI 驅動搜索引擎 New Bing3) , 該引擎將基于 ChatGPT 技術的生成模型與 Bing 搜 索深度集成, 創造了對話式搜索的新范式. 2023 年 3 月 14 日, OpenAI 發布了下一代生成式多模態 預訓練大模型 GPT-44) , 它不僅能夠理解自然語言文本, 還能夠對圖片內容進行深度理解, 并且具備 比 ChatGPT 更強的問題求解和推理能力, 在多種人類考試和自然語言理解任務中取得了更加優秀 的成績 [1].

長期以來, 自然語言處理任務主要采用監督學習范式, 即針對特定任務, 給定監督數據, 設計統 計學習模型, 通過最小化損失函數來學習模型參數, 并在新數據上進行模型推斷. 隨著深度神經網絡 的興起, 傳統的統計機器學習模型逐漸被神經網絡模型所替代, 但仍然遵循監督學習的范式. 2020 年 5 月 Open AI 發布的首個千億參數 GPT-3 模型初步展示了生成式模型的強大功能, 其具備流暢的 文本生成能力, 能夠撰寫新聞稿, 模仿人類敘事, 創作詩歌, 初步驗證了通過海量數據和大量參數訓 練出來的大模型能夠遷移到其他類型的任務 [2]. 然而, 直到 ChatGPT 的出現, 學術界才意識到大模 型對于傳統自然語言處理任務范式的潛在顛覆性.

以 ChatGPT 為代表的大型語言模型, 給自然語言處理帶來的是威脅, 挑戰還是新的機遇? 今后 的自然語言處理核心任務將采用何種主流范式實現語言理解和生成? 自然語言處理的研究領域將如 何延伸? 以大模型為代表的自然語言處理技術將如何引領通用人工智能的發展? 我們就大模型對自 然語言處理的影響進行了詳細的調研和思考, 試圖分析大模型對自然語言處理核心任務帶來的沖擊 和啟發, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術 的未來發展和應用, 以期回答上述問題.

2. 背景知識

在探討大模型給自然語言處理帶來的挑戰和機遇之前, 我們首先需要介紹相關的背景知識, 包括 自然語言處理的概念和研究歷史, 大規模預訓練語言模型從語言模型, 預訓練模型到大模型的技術發展歷程, 以及 ChatGPT 和 GPT-4 的基本技術與能力。

**3 大模型時代的自然語言處理核心任務 **

自然語言處理包含自然語言理解和自然語言生成兩個方面, 常見任務包括文本分類, 結構分析 (詞法分析, 分詞, 詞性標注, 句法分析, 篇章分析), 語義分析, 知識圖譜, 信息提取, 情感計算, 文本生 成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答等. 在神經網絡方法出現之前, 因為缺乏行 之有效的語義建模和語言生成手段, 自然語言處理的主流方法是基于機器學習的方法, 采用有監督分 類, 將自然語言處理任務轉化為某種分類任務. 在神經網絡時代, Word2Vec 詞嵌入模型, BERT 等 上下文相關語言模型為詞語, 句子乃至篇章的分布式語義提供了有效的建模手段; 編碼器-解碼器架 構和注意力機制提升了文本生成的能力; 相比傳統自然語言處理所遵循的詞法-句法-語義-語篇-語用 分析級聯式處理架構, 端到端的神經網絡訓練方法減少了錯誤傳播, 極大提升了下游任務的性能. 不 過, 神經網絡方法仍然遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計深度學習模型, 通 過最小化損失函數來學習模型參數. 由于深度學習也是一種機器學習方法, 因此從某種程度上, 基于 神經網絡的方法和基于機器學習的方法并無本質區別. 然而, 不同于通常的深度學習方法, 以 ChatGPT 為代表的生成式大模型, 除了能高質量完成自 然語言生成類任務之外, 還具備以生成式框架完成各種開放域自然語言理解任務的能力. 只需要將 模型輸出轉換為任務特定的輸出格式, 無需針對特定任務標注大量的訓練數據, ChatGPT 即可在少 樣本乃至零樣本上, 達到令人滿意的性能, 甚至可在某些任務上超過了特別設計并使用監督數據進行 訓練的模型. 因此, ChatGPT 對各種自然語言處理核心任務帶來了巨大的, 不可避免的沖擊和影響, 也醞釀著新的研究機遇. 接下來, 針對各種自然語言處理核心任務, 我們將首先介紹其任務需求和主 流方法, 然后分析大模型對其主流研究范式所帶來的影響, 并探討未來研究趨勢.

-本分類 * 結構化預測 * 語義分析 * 知識圖譜與文本信息抽取 * 情感計算 * 文本生成 * 自動文摘 * 機器翻譯 * 對話系統 * 信息檢索 * 自動問答

ChatGPT 等大型語言模型, 對文本分類, 結構分析, 語義分析, 信 息提取, 知識圖譜, 情感計算, 文本生成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答各種核 心的自然語言理解和生成任務均產生了巨大的沖擊和影響. ChatGPT 在大規模預訓練過程中習得廣泛的語言和世界知識, 處理自然語言任務時不僅能在少 樣本, 零樣本場景下接近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 這將激 勵, 促進研究者們打破固有思維方式的樊籬, 學習, 借鑒 ChatGPT 等大模型的特點和優勢, 對自然 語言處理的主流研究范式進行變革, 進一步提升自然語言核心任務的能力, 例如以生成式框架完成各 種開放域自然語言處理任務并減少級聯損失, 通過多任務學習促進知識共享, 通過擴展上下文窗口提 升理解能力, 通過指令遵循和上下文學習從大模型有效提取信息, 通過思維鏈提升問題拆解和推理能 力, 通過基于人類反饋的強化學習實現和人類意圖對齊等. 長期以來, 自然語言處理分為自然語言理解和自然語言生成兩個領域, 每個領域各有多種核心任 務, 每種任務又可根據任務形式, 目標, 數據等進一步細分, 今后在各種應用任務的主流架構和范式 逐漸統一的情況下, 有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作. 另一方面, 基于大模型的強大基座能力, 針對具體任務進行按需適配, 數據增強, 個性化, 擬人交互, 可 進一步拓展自然語言處理的應用場景, 為各行各業提供更好的服務.

**4 大模型時代的自然語言處理共性問題 **

在自然語言處理研究領域中, 除了各種核心任務之外, 還有可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質量和評價等一些共性問題. 這些問題不是某種任務所特有的, 而是廣泛存在于各種自然 語言理解和生成任務中. 圍繞這些共性問題進行針對性研究, 分析其成因和機理, 設計應對措施, 對 確保自然語言處理任務的性能, 效率, 穩定性和領域適用性至關重要. 大模型自身同樣存在著自然語言處理的共性問題, 如模型可控性, 多樣性, 魯棒性和可解釋性仍 需提升, 訓練和使用成本過高, 語言數據質量缺乏保障, 評價方法單一等. ChatGPT 的一項亮點技 術是 “與人類意圖對齊”, 其目的除了理解用戶意圖之外, 還需要拒絕不合理的請求, 給出負責的, 合 乎人類道德準則和倫理規范的答案. 由于大模型的結構復雜, 參數龐大, 生成過程難以解釋, 生成文 本時經常面臨幻覺生成, 錯誤知識, 前后不一致等問題, 人們對于從系統獲取信息的準確性無從感知, 給系統的廣泛實際應用帶來了極大的潛在風險. 因此, 如何提升模型的公平性, 無害性, 有益性和魯 棒性, 確保大模型擁有正確的價值觀, 保障大模型生成內容的信息準確性變得愈發重要. 隨著以 GPT-3 為代表的大模型技術逐漸發展, 模型的參數數量, 計算時延, 訓練所需的資源等 都在顯著增加. 在語言建模能力不斷增長的同時, 模型的計算成本與能耗指標也成為當前大模型成 功應用的一大門檻. 大規模高質量文本數據資源在模型的構建過程中扮演了極其重要的作用, 訓練數據規模越大, 種 類越豐富, 質量越高, 所得到的大規模語言模型的性能越好, 而訓練數據中的瑕疵數據, 可能會對模 型的表現產生負面影響; 相較于以前的單一類型或少數任務驅動的基準評測, 針對大規模語言模型的 評測需覆蓋的問題場景范圍更廣, 復雜度更高, 難度也更大, 需要探索更有效合理的任務評價指標. 總之, 這些由大模型所強化的真實需求, 將極大地加強模型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等各種共性問題的研究熱度.

**5 討論 **

**

**

前兩節我們探討了大模型對各種自然語言理解和生成核心任務將帶來哪些沖擊和影響, 分析了 大模型將如何加強自然語言處理共性問題的研究. 本節首先將聚焦大模型自身, 探究如何從模型規 模, 學習方法, 個性化等角度進一步提升大模型的內在能力; 其次, 從工具學習, 多模態, 具身智能的 角度, 討論如何進一步延伸和擴展大模型的感知, 計算, 推理, 交互和控制能力, 使大模型成為通用人 工智能的基座; 最后, 介紹 ChatGPT 等大型語言模型將催生哪些應用場景, 為各行各業帶來哪些自 然語言處理新應用.

**6 總結與展望 **

綜上所述, ChatGPT 等大型語言模型, 對傳統自然語言處理核心任務產生了巨大的沖擊和影響. 這些核心任務普遍遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計和定制機器學習和深 度學習模型. 相比之下, 利用 ChatGPT 完成自然語言處理任務, 不僅能在少樣本, 零樣本場景下接 近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 雖然如此, 面對大型語言模型所帶來的沖擊, 研究者們完全無需產生 “自然語言處理已經不存在 了” 等悲觀情緒. 首先, ChatGPT 等對話式大模型, 并非橫空出世, 而是沿著神經語言模型的發展路 線, 利用海量算力, 基于大規模高質量文本數據所實現的大型全注意力模型. 未來研究者們能夠將大 模型作為研究方法和手段, 更能夠學習, 借鑒生成式無監督預訓練, 多任務學習, 上下文學習, 指令遵 循, 思維鏈, 基于人類反饋的強化學習等大型語言模型的特點和優勢, 進一步提升自然語言核心任務 的能力.

大模型為自然語言處理帶來了架構通用化, 任務統一化, 能力按需化, 模型定制化等變化趨勢. 今后在各種自然語言理解和生成任務的主流架構和范式逐漸統一的情況下, 一方面,各種自然語言 處理任務有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作; 另一方面, 基 于大模型的強大基礎能力, 針對具體任務進行按需適配, 數據增強, 模型壓縮與輕量化, 跨模態和多 模態融合, 加強自然語言處理模型方法的可控性, 可配性, 領域適應性, 多樣性, 個性化和交互能力, 將進一步拓展自然語言處理的應用場景.

大模型時代的自然語言處理, 存在算法模型的可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質 量和評價等一些共性問題, 這些問題也是妨礙大模型能力提升和服務質量的主要因素. 未來, 針對模 型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等 各種自然語言處理共性問題的研究將越來越深入.

自然語言處理是人工智能的重要組成部分, 是人工智能從感知智能上升到認知智能的主要手段. ChatGPT 的出現, 已經打開了通向通用人工智能的大門. 未來, 以大模型作為基座, 利用工具學習, 多模態融合, 具身智能拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通 用人工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務.

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

 超維計算是一種受大腦工作機制啟發的新興認知模型, 使用信息的高維、隨機、全息分布式表示作為處理對象, 具有低運算成本、快速學習過程、高硬件友好性、強魯棒性、不依賴大數據和優異的模型可解釋性等優勢, 在分類識別、信號處理、多任務學習、信息融合、智能決策等領域有著良好的應用前景。近年來, 超維計算受到的關注量持續增加, 展現出巨大的發展潛力, 為研究人員提供了一種新選擇。本文詳細介紹了超維計算的發展歷史、基本原理和模型框架, 給出超維計算的典型應用實例, 并對超維計算現階段存在的問題和未來可能的發展方向進行了探討。

0 引言

如何使計算機具有和人腦類似甚至更好的記憶、學習、聯想、認知和思考能力, 是長期以來廣大研究人員共同希望解決的難題之一。神經科學在尋求解釋人類神智活動的同時, 也為機器學習領域提供了豐富的靈感來源, 并由此衍生出了一系列類人腦人工智能算法。例如, 從神經細胞間信息傳遞模型抽象出的單層感知機[1]和在其基礎上發展的深度神經網絡[2], 假定神經元突觸相互作用是線性累加的相關矩陣存儲器(correlation matrix memories, CMM)[3-4], 受視網膜神經元感受野啟發的卷積神經網絡[5], 借鑒大腦激活稀疏性的稀疏編碼[6], 以及模擬大腦如何在嘈雜環境中將注意力集中到某個特定聲音的獨立成分分析(independent component analysis, ICA)算法[7]等。其中, 神經網絡在被提出初期, 由于其較大的模型規模和當時有限的計算機算力, 模型訓練困難, 準確率有限。直到2012年基于深度卷積神經網絡的AlexNet模型[8]取得突破性進展后, 神經網絡的相關研究在圖像識別[9]、自然語言處理[10]、語音識別[11]等諸多領域得到了廣泛應用, 以神經網絡為代表的連接主義模型迅速成為了人工智能領域的研究熱點。 隨著需要處理的任務難度不斷上升, 神經網絡模型不斷向著更深、更廣、更復雜的趨勢發展。但是, 這一趨勢直接使神經網絡的模型規模越來越龐大。目前, 常用的神經網絡模型, 需要訓練的參數量一般都在百萬以上。巨大運算量帶來的漫長訓練時間對硬件設備的精度和性能要求較高, 也需要更多的能耗和更好的模型穩定性。較低的硬件友好性也使神經網絡很難在物聯網、嵌入式系統等小型平臺上完成實時片上訓練。此外, 神經網絡模型的訓練依賴大數據驅動、無指標調參和浮點數迭代運算, 而大腦產生認知并執行決策時所需樣本很少, 快速聯想能力強且容錯性高, 兩者存在著本質差異。雖然在很多實際應用中, 黑匣式神經網絡模型做出的決策判斷取得了良好的識別效果, 但目前神經網絡模型提取的特征和產生決策的具體邏輯仍然在語義層面難以理解, 并且缺乏標準的數學工具定量評估模型的泛化能力和實際學習能力, 其可信度和可解釋性有限。大量工作圍繞解決神經網絡算法存在的上述問題開展, 例如減少樣本需求并加速訓練過程的小樣本學習[12]、簡化模型結構的剪枝技術[13]、增加模型可解釋性的可視化技術[14-15]等。

然而, 這些在神經網絡模型中需要通過額外處理才能在特定情況下實現的特性, 直接且自然地存在于超維計算基本架構中[16]。因此, 雖然超維計算的理論雛形早在20世紀80年代就被提出[17], 在近年來也作為一種新興技術重新得到了全球范圍內的關注和系統性的研究。

超維計算[18]同樣是理論神經科學與計算機科學交叉領域的產物。與上文提到的神經網絡等人工智能算法相比, 相同之處在于其都將信息的高維分布式表示作為數據的表示方式或處理過程中的基本環節。生物學中的相關研究表明, 許多生物的感覺系統中都有一個將相對低維的感覺輸入信號轉化為高維稀疏表示的器官, 并使用此高維表示實現后續的認知行為[19-20], 此特點與這些算法中高維的概念相符。不同之處在于, 超維計算將記憶的產生和回憶看作是一種高維的全局隨機映射與相似度匹配, 類似大腦中海馬體將短時記憶信息經過加工轉化后形成大腦皮層長時記憶的方式[21], 將新信息通過聯想、篩選和整合, 添加至已有的信息編碼中, 這與神經網絡等連接主義模型中的多層復合數值運算不同。

在超維計算中, 每一個實體都被編碼映射為一個超維向量, 即一個維度為數千、數萬或更高的高維矢量。實體的信息被全息地分布在超維向量中的每個元素上, 每個元素之間幾乎是獨立的。在超維向量所在的超維空間中, 通過對向量進行加法、乘法和排列等簡單運算即可產生豐富且具有特殊性質的數學計算行為[16], 進而實現后續的高能效、高魯棒性認知操作[22-25]。在實際應用中, 超維向量的運算通常由簡單高效的逐位二進制整數運算實現。模型不依賴于大數據驅動, 對每個樣本通過一次編碼映射即可完成訓練, 使超維計算所需的運算成本和對硬件性能的要求極低, 具有超快速的訓練時間和數據刷新率。其硬件友好性使小成本片上訓練成為可能, 并且在獲得新樣本時, 已有模型可以實時更新與學習。同時, 由于超維計算中的運算都是可逆的, 模型也具有良好的可驗證性和可解釋性。

總的來說, 超維計算以其更快的學習過程、更低的延遲率、更高的能效、更貼合神經科學的魯棒性、更輕量的模型規模、更少的樣本需求和更多的可解釋特征, 成為一種極具前途的片上實時學習和識別方法[26], 從基本架構上直接解決了神經網絡等人工智能算法存在的問題, 作為一種新興輕量級分類器提供了輔助甚至取代現有傳統機器學習方法的可能性[27-28]。目前, 有關超維計算的系統理論、工程應用以及與其他算法配合使用的研究仍然處在快速發展階段。

超維計算已經在語音識別[29]、語言識別[30-31]、手寫數字識別[32]、合成孔徑雷達(synthetic aperture radar, SAR)圖像識別[33]、人體姿態識別[26]、生物信號處理[34-36]、脫氧核糖核酸(deoxyribonucleic acid, DNA)模式匹配[37]、多任務學習[38]、多傳感器信息融合[39-41]和腦機接口[42]等諸多領域得到了很好的應用。特別是在計算資源嚴格受限的設備上, 例如樹莓派[43](raspberry pi, RPi)、特定應用集成電路[44-45](application specific integrated circuit, ASIC)、現場可編程門陣列[46-47](field programmable gate array, FPGA)、可變電阻式存儲器[48-49](resistive random-access memory, ReRAM)和相變存儲器[50](phase change memory, PCM), 超維計算的優勢將更加突出。

然而, 目前國內文獻中暫時還沒有超維計算相關的研究內容, 對此算法進行相關研究的國內團隊也較少。因此, 本文將圍繞超維計算的發展歷史、基本原理、典型應用以及存在的問題和未來發展方向幾個方面, 對超維計算理論進行系統性地闡述、分析和研究, 基于其研究進展, 為超維計算在更多相關領域中的應用提供一定的可行性和可能性。

付費5元查看完整內容

仿真想定的開發, 存在著專業性強、定制要求高、遷移性差等問題. 針對這一系列問題, 設計并實現一種基于知識圖譜的 仿真想定智能生成方法. 通過基于強化學習的全局特征鏈接多源仿真模型實體, 構建了知識圖譜;基于該知識圖譜, 設計了適用 于仿真模型匹配的實體對齊算法和基于文檔對象模型(document object model,DOM)的腳本生成方法, 實現仿真想定的智能映射, 以 “立體投送”行動為實例展開實驗, 實驗結果表明:生成的仿真想定能夠驅動仿真系統按照預定行動時序運行, 方法有效。

隨著戰爭復雜性的不斷加劇, 模擬仿真系統已 被廣泛應用于作戰理論創新、作戰方案設計優化、 作戰能力評估, 以及各類演習演訓和裝備采辦活動 中[1-2] . 作為初始化并驅動模擬仿真系統運行的基礎 支撐, 仿真想定的質量直接影響系統運行效率和仿 真結果的真實可信[3] . 由于仿真系統存在仿真層級(平 臺級、聚合級)、仿真模式(人在回路、人不在回路)、 仿真模型等差異, 對仿真想定的需求、可驅動運行的 想定腳本的要求等并不完全一致. 因此, 仿真想定的 開發, 普遍存在專業性強、定制要求高、遷移性差的 問題. 針對這一系列問題, 提出了一種基于知識圖譜 的仿真想定智能生成方法. 該方法通過多源仿真模 型的實體鏈接, 構建支撐仿真想定生成的知識圖譜, 提升仿真系統模型的重用性[4];研究適用于仿真模型 匹配的實體對齊算法, 提高數據匹配度[5] . 方法中待 解決的核心關鍵技術包括:1)仿真想定的形式化描 述. 與軍事想定不同, 仿真想定用以驅動仿真系統運 行, 應表示為結構化、形式化的想定數據, 并確保其 能被仿真系統識別、理解和使用;2)知識圖譜的構 建. 為支撐仿真想定的映射匹配, 知識圖譜構建過程 中, 要按照仿真想定的要素需求, 搭建知識圖譜框架, 并有效鏈接主流仿真系統模型實體;3)實體對齊算 法的選擇. 在不同的仿真推演系統中, 相同實體可能 對應不同仿真模型, 或擁有不同模型屬性, 需要選擇 有效的實體對齊算法, 提高仿真想定與知識圖譜的 匹配速度和精度.

付費5元查看完整內容

以深度學習為代表的人工智能技術已被廣泛應用于遙感圖像解譯中. 相比自然場景圖像, 遙 感圖像具有載荷類型多、成像機理差異大等特點, 使得現有面向單傳感器、純數據驅動的智能解譯方 法應用到不同模態數據時, 性能上限難以突破. 尤其在面向多傳感獲取的、大范圍的、目標種類較多 的復雜應用場景時, 實際性能受限更為嚴重. 本文主要對遙感智能解譯結合多模態數據和多任務學習的研究工作進行綜述, 重點從基本概念、研究方法和應用場景三個方面進行展開. 并且介紹了基于 分域提取和跨域融合理念設計的模型架構, 通過從海量多模態數據中提取通用特征, 實現單個基礎模 型完成多類下游任務的泛化解譯, 在不同模態解譯任務中表現優異, 并實際應用推廣. 最后, 對遙感 多模態多任務學習未來技術發展方向進行展望.

**1 引言 **

衛星對地觀測系統具有全球覆蓋、全天候、全譜段探測能力, 在提升遙感信息獲取能力, 及時把 握全球經濟、資源、環境、社會發展等方面發揮了重要作用 [1]. 近年來, 全球遙感衛星發射數量整 體呈增長趨勢, 衛星數據源的極大豐富和新型載荷譜系的不斷拓展使得每天可獲取全球上千萬平方 公里數據. 然而, 現有的遙感解譯方法主要依靠人工目視判讀和半自動化方式進行, 通過積累的專家 知識進行判讀, 具有準確率高、可靠性強等特點, 但會導致時效性差、數據利用率低等問題, 無法滿 足從海量數據中進行遙感數據快速、準確解譯的發展需求. 以深度學習為代表的人工智能方法顯著 提升了遙感數據解譯的工作效率 [2~4], 目前大多采用深度神經網絡對輸入的遙感數據進行端到端的 特征提取, 能夠快速、準確地實現地物分類、變化檢測、三維重建等多種解譯任務. 然而, 現有的面 向單傳感器、純數據驅動的方法高度依賴模型的構建方式, 計算資源能耗大, 且自主學習、自適應能 力弱, 在應用于目標種類較多的復雜場景時, 實際性能嚴重受限。 相比單傳感器, 多分辨率、多傳感器、多時相的遙感數據可為地物提供“時-空-譜”的不同描述 信息, 進而為各類應用任務提供更豐富的信息 [5~7], 有助于突破單模態數據解譯的性能瓶頸. 此外, 為滿足遙感大范圍目標要素提取的應用需求, 實現上千種不同要素的快速并行提取, 開展多傳感器的 多任務處理分析具有重要研究意義. 因此, 面向大規模多傳感器數據, 使模型具有多任務泛化能力, 并能夠高效高精度推理和持續集 成擴展, 是當前遙感智能解譯領域重要的發展方向, 通過預訓練基礎模型 [9] 結合下游任務開展應用 的模式是一種行之有效的解決方案. 基礎模型通過從海量數據中學習數據的通用特征, 再根據下游 任務進行增量訓練, 有利于獲得良好的泛化性、通用性和魯棒性. 近些年基礎模型在自然場景領域受 到了廣泛的關注和研究. 例如, 文心視覺大模型 [10] 設計了新的預訓練框架, 在隱含的編碼表征空間 完成掩碼預測任務, 在圖像分類、語義分割等經典下游任務上取得突出成就. BEiT-3 模型 [11] 在單 模態和多模態數據上進行掩碼數據建模, 在目標檢測、視覺問答、跨模態檢索等多個任務上表現出色。

與自然場景圖像不同, 遙感圖像具有幅寬大、目標尺寸小等特性, 成像機理和應用場景方面也不 盡相同. 不同遙感數據的成像機理和目標特性復雜多變, 傳統跨模態解譯方式在同一特征空間降維 融合, 由于各模態數據特性與空間度量匹配性不一, 散射、輻射等非視覺特征信息損失大, 模型難以 突破單模態特征誤差上限; 且遙感場景更加復雜, 要素類別繁多, 導致解譯任務類型多, 自然場景的 基礎模型無法直接遷移與應用到遙感場景. 基于對以上難點問題的思考, 本文發現了在不同特征空 間中分別提取多模態數據特征穩定性強的規律, 創新性地提出了“分域提取、跨域融合”的思想, 并 基于此介紹了提出的遙感跨模態基礎模型, 通過在各自特征空間提取降維, 減少信息損失, 然后將異 構的輸出特征進行融合共享, 提升跨模態數據解譯精度, 進而實現單個基礎模型完成多類下游任務泛 化解譯, 已在多個國際標準數據集上進行實驗驗證, 并開展了應用示范, 證明了該方法的有效性. 本文總結了遙感領域多模態多任務學習方法的研究現狀, 分別闡述了遙感跨模態解譯和多任務 學習的基本概念、研究方法和應用場景. 然后, 針對基礎模型應用到遙感領域的難點, 介紹了遙感跨 模態基礎模型的網絡架構, 并進行實驗與結果分析. 最后, 展望了該方法的未來技術攻關方向.

2 遙感跨模態解譯的研究現狀

2.1 遙感多模態數據的基本概念

在遙感領域, 模態通常可以理解為同一場景和目標在不同傳感器下的成像結果 [13]. 由于成像 機理不同, 多源遙感數據通常具有對地物更豐富的表達信息, 綜合分析時能獲取更多的知識, 有效突 破單一傳感器數據解譯的瓶頸, 從而實現更加全面的對地觀測和分析工作 [14]. 因此, 遙感跨模態解 譯任務通常是基于多個傳感器數據, 結合不同空間、光譜和時間分辨率信息進行訓練學習, 進而提 升在實際應用中的解譯精度. 不同傳感器數據對采集方式、成像模式和目標特性的反映形式具有差 異 [16], 體現空間、時間和光譜分辨率等重要指標時也有不同的表現. 為了更全面地掌握典型遙感 模態所描述的目標特性, 對全色圖像、多光譜圖像、紅外圖像、合成孔徑雷達 (Synthetic Aperture Radar, SAR) 數據等模態進行介紹, 總結如表1所示。

2.2 遙感跨模態解譯的研究方法

遙感跨模態解譯涉及到廣泛的研究領域, 從不同的角度出發, 具有不同的分類結果. 本節從多模 態機器學習 [17,18] 的角度, 將遙感跨模態解譯分為模態的表征學習、模態的對齊映射和模態的協同 融合三個關鍵研究方向, 如圖1所示

模態的表征學習主要研究如何將不同模態數據中包含的語義信息抽象為實值向量. 通過將模態 轉化成向量表示, 有利于計算機識別處理和下游任務分析. 良好的模態表示往往有助于得到優異的 遙感圖像解譯效果, 所以模態的表征學習十分重要. 目前, 單個模態的特征提取發展比較成熟. 多個 模態的表示學習需要聯合多模態的數據, 如何利用模態間的互補性和去除模態間的冗余性是遙感跨 模態解譯研究的重點和難點. 模態的對齊映射方法通過研究兩種或者多種模態間元素的連接關系來進行對齊. 例如, 將來自不同傳感器的兩幅相同場景的遙感圖像進行對齊. 一般來說, 遙感跨模態將不同模態的連接關系分 為空間連接和時間連接, 對應空間對齊和時間對齊. 模態的協同融合旨在通過算法將不同模態的信息合并, 然后利用組合后的信息進行處理、分析 和決策. 和單個模態相比, 兩個或者多個模態信息融合利用了不同模態的互補信息, 得到的融合后的 數據質量更高、信息更豐富、可用性更強. 本節從兩個方面闡述遙感跨模態的融合策略, 根據模態融 合的階段可以分為數據級融合、特征級融合和決策級融合等; 根據數據融合的類型可以分為同質數 據融合、異質數據融合等.

2.3 遙感跨模態解譯的應用場景

在遙感領域, 跨模態解譯常見的應用場景主要有目標檢測、要素提取和預測估計. 為了克服單一 傳感器成像的局限性和智能解譯能力上的不足, 對具有不同成像機理的多模態遙感數據進行聯合分 析, 提取不同模態數據之間的互補信息, 有助于從多角度對目標特性進行理解和當前學習任務進行優 化. 由于遙感圖像通常具有尺度較大、待檢測目標小而密集、方向隨機等特點, 跨模態遙感目標檢 測通常面臨著小目標難以識別等挑戰. 同時, 受傳感器限制, 單模態遙感目標檢測的性能幾乎達到 瓶頸. Huang 等人 [81] 提出了一種基于橋接神經網絡的光學-SAR 圖像聯合智能解譯框架, 通過光 學-SAR 匹配優化多模態的特征相關性, 提升目標通用特征提取能力, 進而提高艦船檢測精度. Zhang 等人 [82] 提出一種快速準確的小目標檢測方法 SuperYOLO, 利用像素級多模態融合從紅外圖像和可見光圖像中提取信息, 以獲得更適合的小目標特征, 并在多尺度目標上進行高分辨率目標檢測, 提 升檢測精度的同時有效地降低了計算代價. 跨模態遙感解譯對要素提取任務也顯示出巨大的潛力. Audebert 等人 [83] 利用殘差校正對來 自光學和激光雷達的數據進行融合, 設計雙流模型對跨模態數據進行提取, 再對預測結果進行平均得 到最終的結果, 通過融合兩個模態的信息提升了語義分割的精度. Hong 等人 [84] 設計了由提取網絡 (Ex-Net)和融合網絡(Fu-Net)組成的雙流深度模型, 針對多光譜和 SAR 圖像的多模態數據集, 研 究如何訓練深度網絡和構建網絡架構, 并嘗試了五種不同的融合策略, 提出的融合模型有效提升了像 素級分類任務的精度. 利用多模態數據進行預測估計是遙感領域的熱門研究方向, 基于多模態圖像的單目深度估計作 為其中的一個重要研究任務, 該類方法旨在利用輸入圖像推測出具體的深度, 目前已應用于城市規 劃、三維重建等多個領域. Ghamisi 等人 [85] 首次在遙感領域使用條件生成對抗網絡模擬來自彩色 圖像的高程信息, 所研究的架構使用具有跳躍連接的編碼器-解碼器網絡, 建立了圖像到數字表面模 型(Digital Surface Model, DSM)的轉換規則, 生成合理的高程信息, 從而顯著提高分類精度.

3 遙感多任務學習的研究現狀

3.1 遙感多任務的基本概念

雖然深度學習技術極大地提升了遙感單任務解譯的性能, 但面對復雜遙感場景, 單任務學習往往 難以取得令人滿意的結果. 例如, 針對地物要素提取任務, 深度神經網絡在降采樣過程中, 往往會丟 失形狀細節, 從而導致邊界模糊; 大多數目標跟蹤算法都由檢測和重識別兩個獨立的階段組成, 這導 致網絡運行效率低下, 難以實現實時跟蹤. 此外, 單任務模型在實際應用時還存在效率低下的問題, 針對覆蓋范圍上萬平方公里的大范圍場景, 上千種目標要素快速分類提取的應用需求, 需要多個單任 務模型針對同樣的數據重復處理, 不僅需要龐大的計算、存儲等資源, 還要求較長的推理運行時間. 多任務學習 (Multi-Task Learning, MTL) 旨在利用不同任務之間的相似性, 通過決策并行的模式同 時解決多個不同任務. 各個任務在學習過程中共享知識, 能從相關聯的任務中獲得額外的有用信息, 從而學到的模型效果更好、更魯棒、泛化性能更好; 同時多任務學習在訓練過程中使用共享表示, 多 個任務同時預測, 減少了數據來源的數量以及整體模型參數的規模, 使預測更加高效. 表3總結展示 了遙感智能解譯領域的常見任務.

3.2 遙感多任務學習的研究方法

近年來, 對于遙感多任務的研究主要包括多任務共享機制、多任務學習優化和多任務增量學習 等方面, 如圖3所示. 多任務共享機制旨在為不同任務選擇合適的網絡共享機制進行學習, 主要包含 硬參數共享、軟參數共享、混合參數共享等模式. 多任務學習優化的目的是在訓練過程中平衡多個 任務使之達到最優, 一般包括多任務損失平衡、對抗訓練、預測蒸餾等優化策略. 此外, 多任務學習 通常假設所有任務數據可同時獲得并對網絡進行聯合訓練, 然而在現實場景中, 不同任務的數據通常 是按次序到來的, 模型在多個任務上依次訓練會面臨災難性遺忘問題. 多任務增量學習方法研究如 何在時序任務的學習過程中, 學習新任務的同時不會忘記先前任務的知識, 從而減輕或避免模型的災難性遺忘, 主要包括記憶重放、參數擴展與隔離、正則化等方法.

4 遙感基礎模型

4.1 背景介紹

盡管現有多模態多任務方法可初步幫助模型在不同數據源及任務上提升泛化性能, 但此類策略 仍存在一些亟待解決的問題. 首先, 部分方法為實現多源信息融合與交互, 將模型整體結構設計的相 對復雜, 導致難以泛化至其他領域. 其次, 模型的訓練普遍基于有監督范式, 需要有標注數據以學習與理解不同任務間的關聯關系. 模型的泛化能力很大程度上仍限制在標注信息內, 缺乏普適性. 最 后, 已有多模態多任務模型對于數據有更高的成像與標注要求, 增加了訓練成本. 基礎模型能夠以自監督的方式來幫助模型從海量的未標注樣本中學習到更通用的泛化特征. 相 比于現有多模態多任務方法, 基礎模型對于數據標注的要求更低, 卻可以極大地提升模型的泛化性. 因此, 多模態多任務基礎模型在近些年受到了更多的關注與研究.

本節關注于多模態遙感衛星觀測信息和多任務智能處理需求, 構建了基礎模型和下游任務結合 的解決方案. 目前, 雖然已有若干面向光學遙感數據解譯的單模態基礎模型被提出 [12, 170~172], 但 由于多模態遙感數據特性各異, 具有不同的傳感器、成像機制、分辨率和空間信息 [188], 導致現有 單模態方法直接應用于多模態數據無法穩定提取各模態特征, 難以突破解譯性能上限. 在基礎模型 構建方面, 針對跨模態遙感解譯領域的固有挑戰, 研究發現不同泛函空間中分別提取多模態數據特征 穩定性強的規律, 創新性地提出“分域提取、跨域融合”的思想, 基于此設計了遙感跨模態基礎模型, 將特征在各自特征空間提取降維, 減少信息損失, 然后將異構的輸出特征進行融合共享, 實現單個基 礎模型適配多類下游應用任務的泛化解譯。 如圖6所示, 該遙感跨模態基礎模型主要部件包括用于分域提取的多空間特征提取網絡和用于跨 域融合的多模態特征融合網絡. 具體而言, 對于輸入的多模態遙感數據, 多空間特征提取網絡首先學 習相應特征空間中的多類異構特征. 然后, 多模態特征融合網絡利用特征對齊和交互來實現跨模態 互補信息的學習, 并通過自監督預訓練提高多模態遙感數據基礎模型的解譯性能. 形式上, 給定具有 M 個遙感模態的無標簽數據集 D = {xm} M m=1, 該遙感跨模態基礎模型旨在以自監督的方式來學習 多模態遙感表示 fθ(xm). 假設利用 θ 參數化該模型表示為 fθ, 通過最小化 fθ 生成的特征和特定目 標 ym 之間的損失函數來更新:

其中 ym 在無標簽數據中未被顯式定義, 通過特定前置任務來進行自監督學習. 本節假設通過上述訓 練的模型可學到更通用的多模態遙感表示, 從而有利于多類下游解譯任務性能的提升.

5 下一步研究展望

遙感跨模態和多任務智能處理技術極大豐富了模型學習到的有用知識, 有助于提升模型在各項 任務中的準確性; 并保證了模型不局限于單一任務的優化, 增加模型的通用泛化性. 基礎模型其作為 遙感解譯領域的智能基座, 受到了學術界和工業界越來越多的關注. 目前該領域還有許多極具潛力 的研究方向有待進一步探索: (1)統一模型構建. 盡管預訓練大模型已經在多種下游任務上取得顯著成效, 但是目前仍局限于 特定的任務, 當面對數據采集困難、采集設備昂貴的任務, 預訓練大模型的泛化能力仍不足以支持其 實現良好效果. 通過構建統一模型和規范化接口, 僅使用一套模型參數即可支持多種模態的輸入數 據, 輸出多種任務及其組合, 拋棄針對固定任務訓練固定模型的訓練模式, 打破數據之間的界限, 實 現針對任一任務都可以進行效果良好的預測, 是有待研究的關鍵技術. (2)知識嵌入. 國內外基礎模型已經取得較大進展, 但是對于大部分基礎模型普遍認知能力有限 的問題仍然尚未解決. 例如, 基礎模型仍然不具備自動校驗能力和判斷能力, 在面對一些觀點時會陷 入矛盾和糾結. 為了進一步增強基礎模型的認知能力, 引入額外的先驗知識至關重要. 因此, 后續可 以嘗試將知識圖譜引入基礎模型, 使用專家知識對模型進行引導, 在加強感知能力的基礎上來提升認 知能力. (3)時空預測. 基礎模型目前主要針對圖像數據進行訓練, 并在識別任務上具有良好的泛化效果, 對其他計算機視覺任務同樣具有啟發意義. 視頻預測、目標跟蹤、時序圖像語義分割等任務是基礎 的計算機視覺任務, 對于軍事、國防等領域具有重要意義. 針對預測任務進行預訓練大模型的設計仍 然處于初級階段, 可以進一步考慮對時空預測大模型展開研究. 時空預測大模型通過使用統一的模 型架構, 輸入遙感時序數據對模型展開訓練, 分析時序數據中包含的動態時間信息, 在下游任務上進 行微調后, 實現良好的預測效果.

付費5元查看完整內容

 摘要: 基于因果建模的強化學習技術在智能控制領域越來越受歡迎. 因果技術可以挖掘控制系統中的結構性因果知識, 并提供了一個可解釋的框架, 允許人為對系統進行干預并對反饋進行分析. 量化干預的效果使智能體能夠在復雜的情況下 (例如存在混雜因子或非平穩環境) 評估策略的性能, 提升算法的泛化性. **本文旨在探討基于因果建模的強化學習控制技術 (以下簡稱因果強化學習) 的最新進展, 闡明其與控制系統各個模塊的聯系. 首先介紹了強化學習的基本概念和經典算法, 并討論強化學習算法在變量因果關系解釋和遷移場景下策略泛化性方面存在的缺陷. **其次, 回顧了因果理論的研究方向, 主要包括因果效應估計和因果關系發現, 這些內容為解決強化學習的缺陷提供了可行方案. 接下來, 闡釋了如何利用因果理論改善強化學習系統的控制與決策, 總結了因果強化學習的四類研究方向及進展, 并整理了實際應用場景. 最后, 對全文進行總結, 指出了因果強化學習的缺點和待解決問題, 并展望了未來的研究方 向.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220823

近年來, 人工智能的研究范圍不斷拓寬, 并在醫療健康、電力系統、智慧交通和機器人控制等多個重要領域取得了卓越的成就. 以強化學習為代表的行為決策和控制技術是人工智能驅動自動化技術的典型代表, 與深度學習相結合構成了機器智能決策的閉環[1]. 強化學習控制是指基于強化學習技術制定控制系統中行動策略的方法. 強化學習的主體, 即智能體, 通過交互的手段從環境中獲得反饋, 以試錯的方式優化行動策略. 由于擅長處理變量間復雜的非線性關系, 強化學習在面對高維和非結構化數據時展現出了極大的優勢. 隨著大數據時代的到來, 強化學習控制技術快速崛起, 在學術界和產業界獲得了廣泛關注, 并在博弈[2-5]、電力系統[6-7]、自動駕駛[8-9]和機器人系統[10]等領域取得了巨大突破. 在實際系統應用中, 強化學習被廣泛應用于路徑規劃和姿態控制等方面, 并在高層消防無人機路徑規劃[11]和多四旋翼無人機姿態控制[12]等實際任務中取得了良好的控制性能.盡管如此, 強化學習在處理控制任務時仍面臨一些缺陷, 主要體現在以下兩個方面. 一是難以在強化學習過程中進行因果推理. 大多數強化學習控制算法是基于采樣數據間的相關關系完成對模型的訓練, 缺少對變量間因果效應的判斷. 而在控制任務中, 任務的泛化和模型的預測通常建立在因果關系之上. 越來越多的證據表明, 只關注相關性而不考慮因果性, 可能會引入虛假相關性, 對控制任務造成災難性的影響[13]. 二是無法在遷移的場景下保證控制算法的泛化性. 泛化性是指強化學習模型遷移到新環境并做出適應性決策的能力, 要求學習的策略能夠在相似卻不同的環境中推廣. 然而在面臨環境改變或者任務遷移時, 智能體收集到的觀測數據表現出非平穩性或異構性, 訓練數據和測試數據的獨立同分布條件受到破壞. 在這種情況下, 強化學習算法常常表現不佳, 無法保證策略的泛化性[14-15], 難以直接推廣到更普遍的控制場景.為了解決上述問題, 目前研究人員嘗試在強化學習任務中引入因果理論, 提出了基于因果建模的強化學習控制算法. 因果強化學習的中心任務是在控制問題中建立具有因果理解能力的模型, 揭示系統變量之間的因果關系, 估計數據之間的因果效應, 進一步通過干預和推斷, 理解智能體的運行機理. 近年來, 包括ICLR, NeurIPS, ICML和AAAI在內的人工智能重要國際會議多次設立研討會, 探索因果理論在機器學習領域的發展和應用[16-19]. 越來越多控制性能優異的因果強化學習算法被陸續提出, 成為最新的研究熱點. 建立可解釋的因果模型并保證算法的合理決策, 是加速推廣強化學習控制算法落地的必要條件, 具有理論意義和應用價值. 本文的主旨是梳理目前因果強化學習的研究現狀, 討論因果理論如何提供變量間因果關系的解釋, 幫助改善非平穩或異構環境下的可遷移的決策, 提高數據利用率, 并對未來工作方向提供可借鑒的思路.本文內容安排如下: 第1節介紹強化學習的基本概念和經典算法, 并指出傳統強化學習算法的缺陷. 第2節介紹因果關系和因果模型的概念, 總結因果效應估計和因果關系發現的研究內容, 為解決強化學習的缺陷提供了可行方案. 第3節構建因果強化學習系統的抽象模型, 在此基礎上整理出四個研究方向, 綜述了因果強化學習的最新研究進展并總結了應用場景. 第4節總結全文, 指出了因果強化學習的缺點和待解決的問題, 并對未來的發展趨勢進行展望.

  1. 因果強化學習控制

在本節中, 我們將詳細闡述如何利用因果關系改善強化學習控制與決策. 強化學習的目標是最大化期望累積獎勵, 智能體本身不具備因果推理的能力. 如1.3節所述, 現有的強化學習算法存在兩類缺陷. 幸運的是, 這兩類缺陷恰好可以通過引入因果關系來解決. 與一般的強化學習控制不同, 因果強化學習可以區分系統變量之間的虛假相關性和因果關系. 接下來以倒立擺系統為例, 說明如何將因果分析融入強化學習系統, 辨別虛假相關性. 倒立擺系統是強化學習領域的基準測試環境. 智能體對小車施加動作a, 令其沿著無摩擦水平軌道左右移動, 控制目標是防止車上的桿跌落. 因此在桿保持直立的每個時刻, 智能體獲得獎勵rt=+1,. 狀態變量s分別為小車位置、小車速度、桿與車之間的角度和角速度. 因果強化學習的處理流程如下: 首先從控制任務 (如圖3(a)所示) 中采樣觀測數據, 具體包括狀態變量、動作變量和獎勵變量 (如圖3(b)所示); 然后利用因果理論, 從觀測數據中提取高層的因果特征, 并將其形式化表示成一個能夠反映數據生成過程的因果結構 (如圖3(c)所示). 通過這種方式直觀地展示虛假關系 (虛線) 和因果關系 (實線), 降低冗余信息的影響, 提高數據利用率. 此外, 強化學習數據采集過程中常常存在選擇偏倚問題. 在控制系統中引入因果分析有助于理解偏倚, 并利用do算子實現對干預效果的形式化推理. 例如, 在圖3(c)中對動作at進行干預do(A=a′t)(如綠線所示) 只會影響因果圖中的子代變量st+1,i 而對其他非因果變量st+1,j不產生影響, 從而可以進行有針對的干預.

圖 3 在倒立擺系統中提取系統變量之間的因果關系與一般機器學習算法不同, 在強化學習中, 智能體不僅能夠觀測環境, 還可以用行動 (或干預) 塑造環境. 因此與其他機器學習應用場景相比, 強化學習更易于融合因果理論. 目前, 因果理論在強化學習領域的研究已初現端倪. 因果強化學習的基本任務是將因果建模的思想融入強化學習過程中, 旨在解決強化學習的可解釋性問題和泛化性問題, 提高數據利用率. 研究的關鍵問題是如何利用因果知識顯式地提取系統的結構不變性, 同時提升控制性能.**2.1 學習算法的結構 **根據已有的研究成果, 我們在圖 4 中展示了如 何將因果技術集成到強化學習控制系統中, 并將因 果強化學習的研究方向分為兩大類: 1) 利用因果發 現構建因果模型, 即給定觀測數據 (尤其是高維和 非結構化數據), 提取系統的低維因果特征和因果關 系, 搭建系統的因果模型; 2) 利用因果推理實現策 略優化, 即給定因果模型, 分析系統對干預將作出 何種反應并進行策略規劃. 現有因果強化學習算法 總結在表 3 中.

  1. 利用因果發現構建因果模型. 如上文所述, 虛假的相關性和選擇偏倚會導致模型預測不可靠或不公平. 這類研究將因果發現的技術引入強化學習領域, 基于歷史數據推斷狀態、動作和獎勵信號之間的因果關系, 去除變量之間的虛假關聯, 指導構建因果模型. 基于有模型的強化學習框架, 提取系統中的結構不變性, 并去除模型中和因果鏈條無關的參數. 這樣不僅簡化了模型, 同時能夠識別出不同任務間發生改變的因果鏈條有哪些, 從而讓模型能夠更容易地遷移到新的任務, 提升模型的可解釋性和魯棒性. 該方法具體可以分為以下兩類.a) 因果表征提取. 人類擅長構造復雜世界的簡單藍圖, 對事物的理解往往是基于正確的因果結構并能自動忽略不相關的細節. 越來越多的證據表明, 使用恰當的結構化表征對于理解系統內部因果關系很有幫助. 良好的表征可以幫助智能體對其周圍環境進行簡潔的建模, 進而支持復雜環境下的有效決策. 以像素化游戲為例, 智能體可以根據對動作的共同反應, 對像素進行分組, 從而識別物體. 此時物體可視為允許單獨干預或操控的模塊化結構. 因果表征提取是基于獨立因果機制的結構化生成方法, 其目的是將環境相關的原始觀測數據轉化為因果模型的結構化變量. 關鍵問題在于如何從原始數據中抽取高級因果變量, 這不僅關乎系統的感知能力, 還涉及智能體與環境的交互方式.b) 建立可遷移的環境因果模型. 因果模型允許將環境建模為一組潛在的獨立因果機制. 在此情況下, 如果數據分布發生變化, 并非所有機制都需要重新學習. 此類方法致力于從數據中學習合理的因果模型, 構建對分布變化具有魯棒性的預測因子[79], 并找到一種恰當的方式將知識分解為能夠匹配微小變化的組件和機制. 因果模型不僅能幫助智能體更好地實現遷移學習, 還能啟發包括因果機制變化檢測、因果骨架估計、因果方向識別和非平穩機制估計的框架設計在內的多個研究領域[50,80]. 首先, 為了對強化學習環境進行因果建模, 智能體通過干預觀察變量間的因果影響, 進而發現因果結構. 此外, 不同于傳統的強化學習通常假設系統動態遵循固定的概率分布, 此類方法提供了處理非穩態和異構分布的解決方案. 假定系統的潛在因果結構是固定的, 但是與因果結構相關的機制或參數可能會隨任務或時間發生變化. 該類方法能夠將非穩態因素導致的分布變化轉換成訓練信號, 學習系統的不變性結構, 并基于獨立因果機制將知識分解為能夠匹配變化的組件, 顯式地展示哪些部分發生了變化, 遵從什么樣的規則在變, 以端到端的方式在任務間實現快速遷移. 智能體可以有針對性地重新訓練模型中因果關系改變的部分, 降低了采樣需求和模型復雜度.2) 利用因果推理實現策略優化. 強化學習的目標是生成最優策略, 構建因果模型只能展示變量間的因果關系, 還需要引入因果推理才能實現策略優化. 因果推理作為一種校正偏見的手段, 通過采取不同的策略(干預)觀察環境狀態的變化, 使任務中的規則更加清晰, 幫助智能體更高效地學習值函數或探索策略. 此外, 在因果結構已知的前提下, 不需要或只需要很少的實驗就可以回答大量的干預性問題和反事實性問題. 因此因果推理可以大幅減少算法對數據的依賴, 提高數據利用率. 具體來說, 我們可以通過在線學習(真正實施干預)和離線學習(想象中干預)兩種模式進行策略改進, 主要分為以下兩類.a) 動作效果估計. 人類可以通過干預獲得因果啟示. 例如在倒立擺實驗中, 在桿左傾的情況下向左移動小車, 可以維持桿的直立狀態; 向右移動則會導致桿失衡. 動作效果估計旨在對動作變量進行干預, 觀察智能體的行為對環境的影響. 通過對動作進行恰當的規劃, 智能體可以觀察到干預導致的聯合分布變化. 此外, 智能體還可以推斷不同動作帶來的效果, 進而了解何時或何種行為對狀態能夠產生何種影響, 有效地指導策略優化.b) 反事實動作推理. 在強化學習控制領域中, 擁有反事實推理的能力對于實驗成本高昂或存在安全隱患的任務至關重要. 在已有觀測數據的前提下, 反事實動作推理旨在推斷出采取不同的動作導致的結果. 智能體可以通過制定假想策略, 在想象空間中進行反事實干預, 驗證干預效果, 進而不斷優化策略[63]. 此外, 反事實動作推理可以在想象空間中產生新的數據, 智能體可以充分利用可用信息 (包括觀測數據和反事實數據) 進行推理, 從而提高算法的數據利用率[81].

**2.2 利用因果發現構建因果模型

2.2.1 因果表征提取在強化學習控制系統中, 系統的輸入狀態可能是高維或非結構化數據. 因此引入恰當的結構化表征可以對冗余的原始數據進行信息提取, 有助于解決強化學習的可解釋性問題. 總的來說, 和強化學習控制相關的因果表征提取主要分為基于POMDP的表征提取和存在混雜因子的表征提取.基于POMDP的表征提取通常假設觀測數據O(通常是高維或非結構化數據, 如像素輸入) 由潛在狀態S 生成, 智能體根據策略π(A|O)采取行動, 通過與環境交互獲得觀測數據, 并基于觀測數據恢復潛在狀態. 與顯式的MDP不同 (如圖5(a)所示), 基于POMDP的表征提取 (如圖5(b)所示) 的關鍵問題在于如何找到O→S的映射, 并根據過去的動作A≤t 和過去的潛在狀態S≤t預測未來的潛在狀態S>t, 學習底層因果圖結構. Yao和Sun等[82]指出潛在時序因果狀態在一定場景下是可識別的, 該研究為基于POMDP的表征提取提供了理論保證. 該類方法的代表性工作包括動作充分狀態表示ASR (Action-sufficient state representation)[83]和因果正確部分模型CCPM (Causally correct partial models)[84]. ASR以最大化累積獎勵為目標, 基于變量結構關系建立環境生成模型, 以因果結構為約束提取出足夠決策的最小狀態表示集. 在ASR的框架下, 策略學習與表征學習可以分開進行, 且策略函數只依賴于低維狀態表征, 從而提高了樣本利用率, 缺點是沒有擴展到可遷移的場景下. 為了在策略發生變化的情況下對模型進行修正, 解決部分模型中因果不正確的問題, CCPM結合概率模型和因果推理, 提出了因果正確的部分可觀模型, 提高了模型的魯棒性. 此外, 部分研究人員致力于將因果技術和POMDP融入一個框架內進行分析. Sontakke等[85]引入了因果好奇心 (Causal curiosity) 作為內在獎勵, 鼓勵智能體在探索性交互時, 通過自監督的方式發現環境中變化的因果機制. Gasse等[86]通過引入do算子, 將有模型的強化學習表示為因果推理問題, 并且使用觀測數據和干預數據共同推斷POMDP的狀態轉移方程. 由于假設觀測空間要小于離散狀態空間, 因此該方法的缺點是只能處理維數較低的觀測空間. 為了解決高維觀測空間問題, Zhang等[87]利用循環神經網絡從觀測數據中學習近似的因果狀態表示, 并在Lipschitz假設下為該表示連續版本的最優性提供了理論保證.

存在混雜因子的表征提取方法則考慮更一般的實際場景, 假設系統中存在未能直接觀測到的混雜因子. 此時, 系統的狀態轉移模型和獎勵模型將會受到影響, 阻礙行為策略的有效學習. 以自動駕駛場景為例, 智能體從不同場景中收集的離線數據可能依賴于某些未被觀測的因素 (如交通的復雜度或道路設計的合理性). 當訓練場景為行人過馬路時, 智能體可能會從觀測中錯誤地推斷出“只要踩下剎車, 就會有行人出現在汽車前面”這種結論, 從而引入虛假相關性. 這種由混雜因子導致的虛假相關性, 使得觀測數據無法提供有效信息, 甚至會誤導因果效應識別. 在此情況下, POMDP模型可能會被未能準確描述的觀測數據迷惑, 推導出錯誤的因果模型, 進而導致不正確的策略規劃. 因此存在混雜因子的表征提取方法的關鍵問題在于去除或估計混雜因子, 以減少虛假相關性對后續因果模型推導的影響. 在混雜因子建模上, 早期的工作包括存在未觀測混雜因子的多臂老虎機問題MABUC (Multi-armed bandit problem with unobserved confounders)[88]和Kullback-Leibler置信上限B-kl-UCB (B-Kullback–Leibler upper confidence bounds)[89]. MABUC通過引入結構因果模型, 將具有混雜因子的多臂老虎機問題表示為因果推理問題. MABUC首次將混雜因子和強化學習融入一個框架之中進行分析, 缺點是模型需要在線學習, 而且沒有考慮知識遷移的場景. 在MABUC的框架下, B-kl-UCB利用結構知識推導智能體分布的界限, 將工作拓展到離線且可遷移的場景下. 在混雜因子去除方面, Lu等[90]提出了去混雜強化學習框架, 使用自動變分編碼器估計潛在變量模型, 發現隱藏的混雜因子并推斷因果效應. 盡管該框架允許嵌入強化學習算法進行策略更新, 缺點是要求每一個混雜因子都需要體現在潛在變量模型中, 且無法給出明確的遺憾值③. 為了在有限遺憾值內識別最優治療方案, Zhang等[91]在觀測數據存在混雜因子的情況下, 利用結構因果模型和獨立性約束, 降低候選策略空間的維度, 簡化問題的復雜度, 缺點是模型需要在線學習. 為了充分利用離線數據提高樣本效率, Wang等[92]提出了一種去混雜的最優值迭代方法, 綜合考慮了部分可觀的混雜因子和完全不可觀的混雜因子兩種情況, 通過后門準則和前門準則顯式地調整觀測數據中的混雜偏差, 并且提供了遺憾值的表達.2.2.2 建立可遷移的環境因果模型強化學習問題通常假定訓練樣本和測試樣本滿足獨立同分布的條件. 在面臨環境改變或者任務遷移時, 獨立同分布的假設受到破壞, 在特定領域學習的最優策略無法推廣到其他領域, 導致控制性能下降[93]. 因此在面對非平穩或異構環境時, 智能體不僅需要識別變化, 更需要適應這些變化. 幸運的是, 非平穩或異構數據已被證明有助于識別因果特征. 可遷移的環境因果模型致力于實現可靠、低成本、可解釋的模型遷移, 關鍵問題在于提取正確的知識表示, 找出哪些因素發生了變化、在哪里變化、如何變化, 使得在源域訓練的模型能夠在新的場景下實現快速遷移. 可遷移的環境因果模型通常基于以下三個原則[94]: 1) 獨立因果機制. 系統變量的因果生成過程由互不影響的獨立模塊組成. 給定原因, 每個變量的條件分布不會影響其他模塊. 2) 最小變化原則[50]或稀疏機制遷移. 細微的分布變化往往以稀疏或局部的方式在因果分解P(X1,?,Xn)=∑ni=1P(Xi|Pa(Xi))中表現出來. 當數據分布發生變化時, 僅有少量的模塊和參數需要改變. 3) 相似因果動態. 該假設允許訓練數據和測試數據來自不同的分布, 但涉及 (大致) 相同的因果狀態轉移方程. 例如在機器人導航過程中, 房間內的光照條件可能會發生變化, 但環境的動力學模型仍然是相同的. 基于以上原則, 目前有三種研究方向用于構建可遷移的因果環境模型.1) 利用結構因果模型編碼變化模塊. 根據最小變化原則或稀疏機制遷移原則, 當因果模型得到恰當表示時, 僅需要更新少量的模塊和參數就可以實現分布遷移, 進而提高策略的魯棒性. 在強化學習框架下, 結構因果模型不僅能夠表征變量之間的結構關系, 還可以顯式地編碼跨域的變化模塊. 因此這類問題的研究重點在于如何編碼最小的可遷移模塊. 在MDP的框架下, Sun等[79]基于結構因果模型擬合環境的動態轉移方程, 并將跨域變化的模塊集成為一個外生變量λ, 通過更新λ實現環境分布的遷移. 在POMDP的框架下, Huang等[95]提出一種自適應強化學習算法AdaRL (Adaptive reinforcement learning). AdaRL利用圖模型實現最小狀態表征, 包括特定域的變化因素和共享域的狀態表示, 同時對狀態動態、觀察函數和獎勵函數的變化進行建模, 利用因子分解提高數據利用率, 只需要來自目標域的少量樣本就可以實現穩健有效的策略遷移.2) 尋找因果不變性. 得益于獨立因果機制, 我們可以將數據生成過程視為一些獨立模塊, 通過尋找因果不變性發現因果結構. 在這種情況下, 研究人員通常需要基于相似動態的多個環境挖掘環境的潛在結構, 進而實現良好的泛化. 對于觀測分布不同但是潛在因果結構相同的環境族, Zhang等[96]考慮區塊MDP的因果不變性預測, 其中不同場景下的觀測分布會發生變化, 但潛在狀態空間中環境動態和獎勵函數是相同的. 文章提出一種不變預測方法提取潛在狀態, 并將其遷移到多環境場景下, 解決了潛在空間動態結構的泛化問題. 遵循類似的思路, 因果情景強化學習算法CCRL (Causal contextual reinforcement learning)[97]假設情景變量的變化會導致狀態分布的變化. CCRL利用情景注意力模塊提取解耦特征, 并將其視為因果機制. 通過改變解耦特征, 提高智能體在新場景下的泛化性能. Zhu等[98]將不同狀態下的動作效果作為不變性來推斷因果關系, 提出了不變動作效果模型IAEM (Invariant action effect model). IAEM將相鄰狀態特征的殘差作為動作效果, 在不同場景下實現自適應遷移, 提高了樣本的利用率和策略的泛化性.3) 引入因果關系的模仿學習. 在模仿學習任務中, 智能體直接從專家提供的范例中學習控制策略. 由于傳統的模仿學習是非因果的, 智能體不知道專家與環境交互的因果結構. 忽略因果關系的盲目模仿會導致反直覺的因果錯誤識別現象[99], 進而導致模仿策略失效. Haan等[99]指出, 基于專家行為的真實因果模型可以減少因果錯誤識別的影響. 文章通過環境交互或專家查詢的方式對觀測數據進行有針對性的干預, 學習正確的因果模型. Etesami等[100]假定系統中某些模塊因果機制發生變化, 但動作效果機制保持不變, 并在此基礎上分析了因果機制的可識別情況, 解決了傳感器偏倚情況下的策略遷移問題. 盡管大多數模仿學習任務都假定專家變量可完全觀測, 但是實際系統中可能存在混雜因子, 對模仿學習造成不利影響. 針對存在未被觀測的混雜因子場景, Zhang等[101]利用結構因果模型學習專家范例的數據生成過程, 并利用觀測數據中包含的定量知識學習模仿策略. Park等[102]以提取語義對象的方式調整模仿策略, 提出了對象感知正則化算法OREO (Object-aware regularization). 為了防止策略學習到與專家行為密切相關的混雜因子, OREO鼓勵策略統一關注所有語義對象, 顯著提高了模仿學習的性能.

**2.3 利用因果推理實現策略優化

2.3.1 動作效果估計在強化學習的場景下, 動作效果估計的關鍵問題在于: 1) 量化智能體動作對環境造成的影響, 2) 獲得數據的無偏估計, 進而通過干預因果圖改變策略分布, 有效地指導策略更新.針對稀疏獎勵下的探索和信用分配問題, Corcoll等[103]提出了一種基于受控效果的分層強化學習結構CEHRL (Controlled effects for hierarchical reinforcement learning). CEHRL智能體基于隨機效應進行探索, 并依靠反事實推理識別動作對環境的因果影響. 分層式的結構允許高層策略設置跟時間有關的目標, 以此實現長期信用分配, 高效地學習特定任務的行為. Seitzer等[104]引入了基于條件互信息的情境相關因果影響度量SDCI (Situation-dependent causal influence), 用于衡量動作對環境的因果影響, 進而有效地指導學習. 通過將SDCI集成到強化學習算法中, 改進智能體探索能力和離線策略學習性能. 針對強化學習樣本效率不高的問題, Pitis等[105]定義了局部因果模型, 并提出了一種用于反事實數據增強的算法, 使用基于注意力的方法在解耦狀態空間中發現局部因果結構. 這種局部因果結構可用于提高模型的預測性能, 改善非策略強化學習的樣本效率. 為了構建與強化學習智能體相關的有效因果表示, Herlau等[106]以最大化自然間接效應為目標識別因果變量. 識別的因果變量可以集成環境的特征, 從而確保因果表征與智能體相關.此外, 雖然動作效果估計可以量化干預和結果之間的影響, 但是采集的觀測數據受現有的策略影響, 可能會間接造成選擇偏倚問題. 為了實現數據的無偏估計, 研究人員常常采用重要性采樣加權[107]進行離線策略評估, 但是該方法具有高方差和高度依賴權重的缺陷. 為了從觀測數據中選擇最佳策略, Atan等[108]考慮了觀測數據評估新策略時的產生的估計誤差, 提供了估計誤差的理論界限, 并提出了一種使用域對抗神經網絡選擇最優策略的方法, 結果表明估計誤差取決于觀測數據和隨機數據之間的H散度. 在批量學習的場景下, Swaminathan等[109]指出僅對離策略系統的性能進行無偏估計不足以實現穩健學習, 還需要在假設空間中推斷估計量的方差有何不同. 該項研究通過傾向性評分設計了反事實估計器, 提出了反事實風險最小化原則, 證明了傾向加權經驗風險估計計量方差的廣義誤差界限. 為了學習結構化輸出預測的隨機線性規則, 提出了指數模型策略優化器, 從而實現有效的隨機梯度優化. 為了消除由舊策略和新策略引起的分布偏倚, 精確評估新策略的效果, Zou等[110]提出了重點上下文平衡算法FCB (Focused context balancing), 用于學習上下文平衡的樣本權重.2.3.2 反事實動作推理利用因果框架, 智能體可以進一步回答與強化學習控制任務相關的反事實問題. 例如在已有觀測數據的前提下, “如果策略中的某些動作發生變化, 系統的控制性能能否提升”? 目前, 反事實動作推理已經被證明可以提高強化學習算法的樣本效率和可解釋性[81,111]. Madumal等[112]提出了一種基于結構因果模型的行為影響模型, 利用因果模型進行反事實分析, 提高了模型的可解釋性. 在非平穩數據的場景下, Lu等[81]提出了一種基于反事實的數據增強算法. 該算法利用結構因果模型對環境動態進行建模, 并基于多領域數據的的共性和差異進行因果模型估計. 智能體可以根據結構因果模型進行反事實推理, 解決了有限經驗導致策略偏倚的問題, 避免風險性探索. 同時利用反事實推理進行數據集擴充, 提高了數據利用率. 在POMDP的框架下, Buesing等[111]提出了反事實指導的策略搜索算法CF-GPS (Counterfactually-guided policy search), 基于結構因果模型對任意策略進行反事實評估, 改善策略性能, 消除模型預測的偏差.

**2.4 因果強化學習的應用

因果強化學習作為一種通用的學習算法, 目前在機器人控制[104,113]、醫療健康[91]、推薦系統[114]、金融投資[115]和游戲控制[116]等多個領域中有著廣泛的應用. 在機器人控制領域, Liang等[113]在仿真機械臂控制系統中, 將神經網絡與概率圖模型相結合, 構建了觀測數據的因果圖模型, 控制機械臂進行繪畫操作和輪胎拆卸, 提高了數據利用率和強化學習算法的可解釋性. 在醫療健康領域, Zhang等[91]基于因果強化學習在肺癌和呼吸困難數據集上設計了最佳動態治療方案, 提升了算法的在線性能和數據效率. 在推薦系統領域, Bottou等[114]基于Bing搜索引擎的廣告投放系統, 利用因果推理理解用戶與環境交互的行為, 致力于合理地使用因果推理和機器學習技術進行廣告投放. 在金融投資領域, Wang等[115]提出了一種優化投資策略的深度強化學習方法DeepTrader. 該方法將風險收益平衡問題構建為強化學習問題, 并利用分層圖結構建模資產的時空相關性. 其估計的因果結構能夠反映資產之間的相互關系, 有效平衡收益與風險. 在游戲控制領域, Shi等[116]針對Atari 2600游戲環境, 提出了時空因果解釋模型, 對觀測數據與智能體決策之間的時序因果關系進行建模, 并使用一個單獨的因果發現網絡來識別時空因果特征. Madumal等[112]在星際爭霸游戲環境中使用因果模型來推導無模型強化學習智能體行為的因果解釋. 利用結構因果模型對系統進行建模, 然后基于反事實推理生成對動作的解釋.

3. 總結與展望

由于在可解釋性以及跨域遷移等方面展現出優勢, 因果理論已經被廣泛應用于強化學習領域, 并且在控制系統中表現出了良好的性能. 本文致力于闡述因果強化學習算法如何探索數據之間的因果關系, 并在決策過程中提供因果解釋. 因果強化學習以無監督的的方式構建環境的因果模型, 實現跨域分布泛化, 并利用因果模型進行推理, 設計有效的干預措施進行策略更新. 本文首先概述了強化學習和因果理論的背景知識, 在此基礎上, 對因果強化學習的研究現狀進行闡述. 針對強化學習領域的兩類研究缺陷, 總結了四類研究方向, 具體包括: 1) 因果表征提取; 2) 可遷移的環境因果模型; 3) 動作效果估計和4) 反事實動作推理.雖然基于因果建模的強化學習控制可以解決強化學習可解釋性和可遷移性的問題, 提升數據利用率, 但是仍存在以下缺點: 1) 依賴不可測試假設. 盡管目前已有多項研究成果可以根據觀測數據估計因果結構, 但這些方法通常是不可擴展的, 依賴于不可測試的假設 (如因果忠誠性假設), 因此難以融入高維、復雜和非線性的強化學習系統. 2) 欠缺理論研究基礎. 目前針對因果強化學習理論層面上的研究還遠遠不夠. 例如在因果表征領域, 現有的可識別性理論研究大多基于非平穩或時序數據, 并且需要對模型類型做出較強的假設. 在更一般的場景下 (如因果關系發生變化或存在瞬時因果關系) 的可識別性理論研究目前還是空白. 3) 難以保證控制性能. 雖然利用因果理論, 動作策略能夠表現出良好的控制效果, 但是基于探索與試錯的方法并不能在理論上保證控制性能的收斂. 目前還沒有一套完善的框架能夠評估因果強化學習的控制策略是否穩定, 這可能阻礙因果理論在強化學習控制系統中的研究發展.綜上, 雖然因果強化學習展現出了具有潛力的應用前景, 但是目前研究成果相對較少, 研究的廣度和深度都略顯不足, 還存在以下待解決的問題.1) 探索歸納偏置對因果強化學習的影響. 歸納偏置指的是學習算法中假設的集合. 目前大多數因果遷移強化學習的研究都是基于獨立因果機制和最小變化原則. 當不滿足條件獨立性假設或沒有額外輔助信息的情況下, 如何選取歸納偏置, 使算法能夠自動檢測分布的變化并在有限時間內保證算法收斂是一個亟待解決的問題.2) 完善潛在因果變量的可識別性理論. 從因果表征的角度來說, 潛在因果變量的可識別性是因果變量提取和因果動態分析的理論基礎. 雖然已有研究表明在非參數非平穩模型或者線性高斯平穩模型的假設下, 潛在因果變量可識別性可以得到保證[82], 但是當變量間因果關系發生變化或存在瞬時因果關系時, 如何基于觀測數據恢復潛在因果變量是一個值得研究的問題.3) 構造因果強化學習框架的穩定性評估機制. 從策略學習的角度來說, 確保控制器的穩定是控制理論中首要考慮的問題. 雖然已有研究表明, 在反事實數據增強的場景下, Q學習可以收斂到最優值函數[81], 但是如何構造一套完整的因果強化學習框架以評估控制策略的穩定性是一個亟待解決的問題.解決上述問題并將因果強化學習推向更廣闊、更現實的應用場景將是未來的研究方向, 具體來說包括以下幾個方面.1) 合理利用觀測數據和干預數據. 在因果強化學習中, 根據有無人為干預可以將數據分為無人為干預的觀測數據和有人為干預的干預數據. 從數據分布上來看, 觀測數據可能受控制策略、混雜因子和潛在因果變量的影響, 干預數據受人為控制的影響, 由這些原因導致的分布不匹配會造成選擇偏倚的問題. 但是如果對選擇偏倚進行適當的修正, 則可以提高數據利用率, 增加模型的可解釋性. 因此在強化學習中合理地利用觀測數據和干預數據, 采取適當的方式將知識分解為獨立因果機制非常具有研究價值.2) 構建普適的基準測試環境. 在強化學習的應用背景下, 傳統的評估指標不足以判斷因果模型的好壞. 大多數研究成果都在不同的實驗場景下驗證算法性能, 無法橫向判斷模型結構的好壞, 也難以衡量因果模型和強化學習算法對控制性能的貢獻程度. 因此構建一個普適的因果強化學習基準數據集, 驗證和比較各類因果強化學習方法就顯得至關重要.3) 將因果強化學習拓展到多智能體場景. 目前針對因果強化學習的研究都是針對單智能體. 在多智能體場景下, 聯合狀態空間和聯合動作空間將隨著智能體個數的增加呈指數性擴大, 極大地加重了計算負擔. 考慮到使用恰當的結構化表征有利于提高系統控制性能, 如何在多智能體系統中構建可遷移的環境因果模型, 減輕計算負擔并提高系統的可解釋性, 將是非常有趣且可行的研究方向.

付費5元查看完整內容

近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.

尹奇躍, 趙美靜, 倪晚成, 張俊格, 黃凱奇, 兵棋推演的智能決策技術與挑戰. 自動化學報, 2022, 48(x): xx-xx //www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

人機對抗, 作為人工智能技術的試金石, 近年 來獲得了舉世矚目的進展. 隨著 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能體分別在 國際象棋、圍棋、二人無限注德州撲克以及星際爭 霸中戰勝頂尖職業人類選手, 其背后的智能決策技 術獲得了廣泛的關注, 也代表了智能決策技術在中 等復雜度完美信息博弈、高復雜度完美信息博弈再 到高復雜度不完美信息博弈中的技術突破.

國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由

, 后者更是被譽為人 工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有 , 但其為不完美信息博弈, 相比于國際象棋與 圍棋信息集大小僅為 1, 其信息集平均大小達到 . 而星際爭霸, 作為高復雜度不完美信息博弈的代 表, 因其相比于上述游戲的即時制、長時決策等特 性[4, 5] , 對智能決策技術提出了更高的要求. 星際爭霸突破之后, 研究人員迫切需要新的人 機對抗環境實現智能技術的前沿探索. 兵棋推演是 一款經典策略游戲[6?8] , 也被稱為戰爭游戲, 作為一 種人機對抗策略驗證環境, 由于其具有不對稱環境 決策、更接近真實環境的隨機性與高風險決策等特 點, 受到智能決策技術研究者的廣泛關注. 近些年 來, 研究者投入了大量的精力進行兵棋推演智能體 研發以及兵棋推演子問題求解, 試圖解決兵棋推演 的人機對抗挑戰[9?14] .

兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與 20 世紀 80 年代后期普 及的計算機兵棋[15?17] . 胡曉峰等人[6] 全面綜述了兵 棋推演的基本要素 (參演人員、兵棋系統模擬的戰 場環境和作戰部隊、導演部及導調機構), 指出 “兵 棋推演的難點在于模擬人的智能行為”, 進而得出 “兵 棋推演需要突破作戰態勢智能認知瓶頸”, 最后給 出了如何實現態勢理解與自主決策可能的路徑. 和 目前兵棋推演關注的重點不同, 本文關注的是兵棋 推演中的智能體研究, 針對通用性的智能決策技術 與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推 演, 如非特別闡述, 在不引起歧義的前提下統一指 雙方計算機兵棋推演 (紅藍兩方). 本文內容組織如下: 第二章將梳理兵棋推演與 目前主流人機對抗環境如星際爭霸等的區別, 以及 為什么其潛在是人機對抗的下一個挑戰; 第三章將 介紹兵棋推演智能技術的研究現狀; 之后在第四章 闡述當前主流技術的瓶頸; 第五章對兵棋推演的智 能決策技術進行展望與思考, 希望啟發新的研究方 向; 最后對全文進行總結.

**1 兵棋智能決策問題的挑戰 **

本章首先簡要介紹兵棋推演問題以及與手工兵 棋的比較. 在此基礎上, 以人機對抗發展脈絡為主 線, 以兵棋推演中的智能體研究為核心, 介紹兵棋 推演與其他主流策略游戲的通用挑戰, 之后重點闡 述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機 對抗的成功提供了技術基礎, 后者則對當下人機對 抗智能體決策技術提出了新的挑戰.

表1 對智能決策技術帶來挑戰的代表性因素

2 兵棋智能決策技術研究現狀

為應對兵棋推演的挑戰性問題, 研究者提出了 多種智能體研發與評測方法. 與圍棋、星際爭霸等 主流游戲人機對抗智能體研發脈絡類似 (如星際爭 霸從早期知識規則為主, 中期以數據學習為主, 后 期以聯合知識與強化學習完成突破), 兵棋推演也經 歷了以知識驅動為主、以數據驅動為主以及以知識 與數據混合驅動的研發歷程. 兵棋的評測技術包含 了智能體的定量與定性分析方法. 在本節中, 將重 點闡述兵棋智能體研發的技術與框架, 同時對智能 體的評估評測進行簡述.

當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的 兵棋推演智能體, 本節將分別闡述各個技術框架的 研究進展.

3. 兵棋推演智能體評估

正確評估智能體的策略對于智能體的能力迭代具有至關重要的作用。研究者提出了一系列算法(如ELO、多維ELO等)實現智能體能力的準確刻畫,但仍面臨復雜非傳遞性策略的綜合評估、協同智能體中單個智能體的能力評估、定性評估標準體系化等問題帶來的挑戰。近些年來,上述挑戰促進了智能體評估開放平臺的建設,例如,中科院自動化所開放了“圖靈網”人機對抗智能門戶網站(

4. 兵棋智能決策技術展望

博弈理論,作為研究多個利己個體之間的策略性交互而發展的數學理論,有望為兵棋推演人機對抗突破提供理論支撐,但是面臨著如何求解以及保證大規模博弈的近似納什均衡解的挑戰。大模型,近些年來在自然語言處理領域獲得了突飛猛進的發展,兵棋推演的大模型訓練有望實現類似的零樣本或小樣本遷移,但是面臨著如何進行優化目標設計、多智能體訓練以及不同規模任務訓練的挑戰。問題約簡,作為一種引導技術發展的有效手段,本文設計了“排兵布陣”、“算子異步協同對抗”等問題,以牽引算法研究,進而反哺解決兵棋推演人機對抗挑戰。

付費5元查看完整內容

目前,以深度學習為代表的人工智能算法憑借超大規模數據集以及強大的計算資源,在圖像分類、生物特征識別、醫療 輔助診斷等領域取得了優秀的成果并成功落地.然而,在許多實際的應用場景中,因諸多限制,研究人員無法獲取到大量樣本 或者獲取樣本的代價過高,因此研究圖像分類任務在小樣本情形下的學習算法成為了推動智能化進程的核心動力,同時也成為 了當下的研究熱點.小樣本學習指在監督信息數量有限的情況下進行學習并解決問題的算法.首先,從機器學習理論的角度 描述了小樣本學習困難的原因;其次,根據小樣本學習算法的設計動機將現有算法歸為表征學習、數據擴充、學習策略三大類, 并分析其優缺點;然后,總結了常用的小樣本學習評價方法以及現有模型在公用數據集上的表現;最后,討論了小樣本圖像分類 技術的難點及未來的研究趨勢,為今后的研究提供參考。

近年來,人工智能技術在大數據時代迎來了高速發展,從 早期的學術探索迅速轉變為實際應用.目前,以深度學習為 代表的人工智能算法憑借超大規模數據集以及強大的計算資 源,在圖像分類、生物特征識別、醫療輔助診斷等領域取得了優秀的成果并成功落地. 然而,當今現實場景中通常并不具備獲得大規模可訓練 數據的條件,這不利于許多傳統行業的智能化轉型.另一方 面,由于圖像分類算法在實際應用中起著關鍵性的作用,因此 面向圖像分類的小樣本學習的關鍵算法研究成為了產業智能 化轉型的驅動引擎之一.

深度學習以大規模數據集為前提,在圖像分類、目標檢 測、文本分析[1G3]等領域取得了顯著的成功.然而在實際場景 中,首先,由于成本、隱私、安全或道德問題,相關研究者很難 或不可能獲得大規模、高質量的數據及標注.例如,在醫療領 域,醫學影像的產生來源于病例,但少量的病例并不能夠輔助 機器對醫療影像進行分析.其次,在算法設計層面,研究者期 望機器學會以人類的方式進行學習,即在獲取少量樣本的情 況下,對樣本進行分類和識別,并且具有快速理解新概念并將 其泛化的能力. 為了能夠在監督信息數量有限的情況下進行學習,針對 小樣本學習(FewGshotLearning)[4G8]的研究應運而生.在小 樣本分類中,模型在一組具有豐富樣本的類別集上進行訓練, 這些類稱為基類,然后在類別不交叉的僅具有少量樣本的另 一組類別集(新類)上進行訓練與測試.

目前,針對小樣本學習的研究工作越來越豐富,隨著深度 學習的發展,涌現了很多新穎的小樣本學習方法[9G11].例如, 在模型表征階段采用自監督學習以更好地表征出圖像[12G15]; 在數據 擴 充 階 段,采 用 從 原 始 域 擴 充 或 從 語 義 空 間 擴 充 等[11,16G17]方式來處理小樣本學習任務;在學習階段,使用遷移 學習、度量學習、元學習等算法[18G24]以更好地尋找到一個有 良好泛化能力的模型.現有的小樣本綜述文獻[25G26]通常從 算法類別的角度進行歸納總結,而本文將從理論誤差分析以 及算法設計 動 機 的 角 度 來 進 行 綜 述,并 覆 蓋 近 年 來 取 得 的 成果. 本文首先從機器學習理論的角度描述了小樣本學習難以 泛化的原因;其次,依據小樣本學習算法的設計動機將現有算 法歸為表征學習、數據擴充、學習策略三大類,并評價其優缺 點;然后,總結了常用的小樣本學習評價方法以及現有模型在 公用數據集上的表現;最后,提出了一些有前景的研究方向, 為今后的研究提供參考。

付費5元查看完整內容

通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機(Restricted Boltzmann machine, RBM)和以受限玻爾茲曼機為基礎模塊的深度置信網絡(Deep belief network, DBN)、深度玻爾茲曼機(Deep Boltzmann machines, DBM)和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866

付費5元查看完整內容

摘要: 建模方法的可解釋性指其以可理解的方式表達實際系統行為的能力. 隨著實踐中對可靠性需求的不斷提高, 建立出可靠且可解釋的模型以增強人對實際系統的認知成為了建模的重要目標. 基于規則的建模方法可更直觀地描述系統機理, 并能有效融合定量信息和定性知識實現不確定信息的靈活處理, 具有較強的建模性能. 本文從基于規則的建模方法出發, 圍繞知識庫、推理機和模型優化梳理了其在可解釋性方面的研究, 最后進行了簡要的評述和展望.

付費5元查看完整內容

新一輪科技革命和產業變革正在萌發, 以深度學習和大數據為基礎, 以AlphaGo等為典型應用場景掀起了人工智能的第3次高潮. 傳統的基于統計線性化動態建模的人工智能, 在處理復雜對象時遇到了可解釋性、泛化性和可復現性等發展瓶頸, 迫切需要建立基于復雜性與多尺度分析的新一代人工智能理論, 我們稱之為精準智能. 針對復雜系統的非線性特征, 精準智能構建內嵌領域知識和數學物理機理的系統學習理論, 包括復雜數據科學感知、復雜系統精準構建、復雜行為智能分析3個層次. 具體而言, 通過復雜數據科學感知建立內嵌時空特征與數理規律等具有可解釋性的科學數據系統; 通過復雜系統精準構建反演具有非線性復雜邏輯關系的多層次、多尺度、可解釋的人工智能動態學習模型; 通過對系統復雜行為智能分析建立面向系統行為演進和全局動態分析的可解釋可調控人工智能新理論和新方法. 將上述精準智能理論應用于群體智能, 提出了群體熵方法, 實現了群體激發和匯聚行為復雜性度量與有效引導調控.

//www.sciengine.com/publisher/scp/journal/SSI/51/4/10.1360/SSI-2020-0158?slug=fulltext

付費5元查看完整內容

隨著大數據對全球生產、流通、分配、消費等國計民生領域產生重要影響, 事理作為認知智能 重要概念, 不僅幫助人們發現大數據所蘊含的國計民生的線索與發展規律, 而且幫助人們更好認知人 機物三元世界未來發展趨勢. 考慮到人機物事理動態演化是工業大數據有別于其他行業大數據處理 的本質區別, 本文從人機物事理動態演化特性智能認知著手, 結合傳統知識圖譜在互聯網領域取得的 成功經驗, 提出了面向大數據領域的事理認知圖譜構建與推斷分析. 首先論述了事理認知圖譜對推動 認知智能研究發展的貢獻, 剖析了它與知識圖譜異同之處, 深度理解人類社會發展變化規律的重要價 值. 其次闡述了事理抽取與泛化、多模態聯合網絡化合成表示、進化認知和推斷分析等關鍵技術研究 最新進展以及面臨的挑戰. 最后, 結合我們課題組在事理認知圖譜的研究進展情況, 歸納總結了事理 認知圖譜在預防網絡電話詐騙和安全生產管控等領域最新應用效果. 本文結尾總結和展望事理認知圖 譜的未來研究方向和發展前景.

//scis.scichina.com/cn/2020/SSI-2019-0273.pdf

付費5元查看完整內容
北京阿比特科技有限公司