從觀察視頻中重建動態三維人體表示是計算機視覺和圖形學領域的前沿熱點問題,是數字內容制作、遠程虛擬會議、影視制作等應用的重要技術。傳統的人體建模技術可以構建高精度的數字人體模型,但這些方法依賴于復雜的硬件設備,如深度相機、精密相機陣列,限制了這些工作的使用場景,并且提高了建模成本和用戶門檻。近年來,神經輻射場展現了從觀察圖片中重建高質量三維場景的能力。但此類方法需要觀測視圖的輸入,并且無法建模可驅動的動態人體模型。除此之外,此類方法的渲染速度較慢,無法滿足實時應用的需求。
基于多視圖幾何理論與深度學習方法相結合的思想,本文提出了一系列面向結構化建模與渲染的隱式神經表示方法,致力于解決稀疏視角視頻重建、可驅動人體模型、幾何表面重建、實時渲染等可入人體建模領域的關鍵問題,實現了從稀疏視角視頻中創建高質量的可驅動人體模型。本文主要的研究成果如下:
(1)針對從稀疏視角視頻重建動態三維人體模型的問題,本文提出了一種基于結構化偏差變量的人體神經輻射場表示,可以有效地整合輸入視頻中不同時刻的觀測信息。實驗結果表明本方法可以從稀疏視角視頻甚至單目視頻中重建高質量的三維人體。
(2)針對可驅動的數字人體建模問題,本文提出了一種基于骨骼蒙皮驅動的人體神經輻射場表示,將動態人體建模為空間變形場和標準空間下的神經輻射場。本文在 Human3.6M 和 ZJU-MoCap 數據集上驗證了該方法的有效性。
(3)針對從視頻中重建高質量人體幾何的問題,本文提出了一種基于符號距離場的動態人體幾何表示,利用稀疏方程對幾何優化過程施加正則化。在多個數據集上的實驗結果表明,本方法在人體幾何重建方面大幅度地超過了之前的方法。
(4)針對動態人體的實時渲染問題,本文提出了一種基于多層感知機的動態場景表示,通過一組少量多層感知機網絡建模全動態場景,從而降低了網絡的推理成本,提升了渲染速度。在 NHR 和 ZJU-MoCap 數據集上的實驗結果表明,本方法在渲染速度方面遠遠超過了之前的方法,并且在渲染質量上表現出了最好的效果。
關鍵詞:三維人體建模,隱式神經表示,神經渲染
當前的深度學習模型被訓練以適應訓練集的分布。盡管得益于前沿架構設計的顯著進展,這些模型仍無法對分布外(OOD)樣本進行推理——即那些與訓練集范圍不一致的實例。與人類不同,人類能夠自然地識別未知的事物,而當前的深度學習模型卻缺乏這一能力。由于很難將開放世界中的所有物體包含在訓練集中,設計一種開放集識別算法來檢測和拒絕OOD樣本變得至關重要。本論文聚焦于研究開放集識別及其在計算機視覺中的應用。首先,我們介紹了一個用于自動駕駛應用的開放集3D語義分割系統。我們的目標是檢測那些不常見的、未包含在訓練集中的異常物體,因為這些離群點對自動駕駛系統的安全至關重要。隨后,我們從信息瓶頸的角度分析開放集問題,并提出了一種原型相似度學習算法,以學習更多類別特定和實例特定的信息,從而提高開放集識別性能。最后,我們深入分析了一個新設定——統一開放集識別,在這一設定中,既要檢測OOD樣本,也要檢測那些被錯誤分類的訓練集內樣本,因為模型對這些樣本的預測是錯誤的。總的來說,我們的工作為開放集識別社區提供了新的理論分析視角、新的訓練與評估設定,以及新的應用方向。
隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。
神經網絡模型是機器學習中的熱點研究方向之一,其模型包括網絡架構和 神經元模型兩部分。在過去半個多世紀的研究中,出現了各種基于不同網絡架 構的學習模型與方法,但對基本的神經元模型研究相對較少。人工神經元模型 的建模通常參考生物神經細胞,當前最流行的模型仍是 1943 年提出的 MP 模 型[145] (第一代神經元模型)。七八十年來,學界對非 MP 的新型神經元模型僅有 一些探索,比如 60 年代提出的脈沖神經元模型 (第二代神經元模型)。脈沖神經 元模型在微觀尺度上建模了生物神經系統的短程突觸可塑性 (short-term synaptic plasticity),具有良好的神經學性質,但尚未在現實應用中展現出計算優勢。 本文首先對第二代脈沖神經元模型進行研究,指出該模型的重大缺陷—— 分岔 (bifurcation) 問題。這可能是制約脈沖神經元模型發展的關鍵因素之一,對 該問題進行修正將顯著提升脈沖神經元的計算潛力。然后,本文對第三代神經元 模型進行探索,通過建模生物神經系統中的長程突觸可塑性 (long-term synaptic plasticity),首次實現了中觀尺度 (mesoscopic scale) 的神經元建模。該探索將極 大地完善現有神經元模型體系。本文對第二代和第三代人工神經元模型展開了 系統研究,主要取得了如下五方面的創新結果:
關鍵詞:機器學習;神經網絡;突觸可塑性;MP 神經元模型;脈沖神經元模型; FT 神經元模型;機器學習理論;時間序列分析
圖能夠方便地表達事物之間的關聯關系,因而廣泛應用于現實生活中的諸多應 用場景,例如社交網絡圖、電路圖和電商交易圖,為圖計算賦能數據挖掘和分析提 供基礎。由于圖計算的重要性和普遍性,同一圖計算平臺上通常并行運行著大量圖 算法(以下簡稱并發圖計算任務),為不同的應用或者用戶提供高性能的圖計算能力 支撐。除了與傳統圖計算任務相同的計算特征外,并發圖計算任務還存在著嚴重的 資源競爭、數據競爭等新型挑戰,任務并發度和總體性能較低。為此,如何設計面 向并發圖計算任務的高性能執行環境,快速挖掘出海量圖數據中潛在的各種商業或 科學價值,已成為目前亟需解決的問題。為了高效支持圖計算任務的執行,目前國內外學者已經從面向圖計算的體系結 構和系統軟件等方面開展了廣泛的研究。然而,現有圖計算硬件加速器和軟件系統 無法充分感知不同圖計算任務之間的運行時特征,例如潛在的數據局部性和通信行 為相似性等。現有方案在支持并發圖計算任務時面臨著數據訪問行為不規則、冗余 訪存開銷大以及通信效率低等問題,導致嚴重的數據訪問瓶頸和底層硬件資源的低 效利用。為了解決并發圖計算任務面臨的挑戰,分別從體系結構層面和系統軟件層 面開展研究來實現高性能并發圖計算技術,有效支持并發圖計算任務的執行。針對并發圖計算任務數據訪問行為不規則問題,提出了以數據局部性為中心的 并發圖計算硬件加速技術,以提高并發圖計算任務的訪存效率。分析發現,由于不 同圖計算任務往往沿著同一圖拓撲來遍歷相同圖數據,這些任務之間存在極強的數 據局部性。基于此發現,該硬件加速技術首先動態探索并發圖計算任務活躍圖頂點 之間的依賴關系,使并發圖計算任務沿著圖拓撲遍歷和處理相同圖數據,以此來規 則化并發圖計算任務的圖遍歷行為。其次,該硬件加速技術對并發圖計算任務的圖 頂點訪問進行高效合并,從而提高頂點訪問的局部性。實驗結果表明,與現有圖計 算硬件加速技術 HATS、Minnow 和 PHI 相比,本設計能夠獲得最高 11.3 倍的加速比。針對并發圖計算任務冗余訪存開銷大問題,提出基于細粒度同步的核外并發圖 計算技術。該技術首先提出了一種面向并發圖計算任務的細粒度同步執行機制,使得只需在緩存和內存中加載和存儲相同圖結構數據的一個副本就能服務多個并發圖 計算任務,從而降低圖數據的冗余訪存成本,提高底層硬件資源的利用率。其次, 提出了圖結構感知的數據重劃分和緩存機制,通過自適應地加載并發圖計算任務所 需的圖數據,并將頻繁使用的圖數據緩存在主存中,提高加載圖數據利用率和最小 化 I/O 開銷。實驗結果表明,所提出的核外并發圖計算技術,能夠將現有圖計算系統 GridGraph、GraphChi 和 X-Stream 的并發圖計算任務吞吐率最高提升 13 倍。針對并發圖計算任務在分布式環境下擴展性差的問題,提出了相似性感知的分 布式并發圖計算技術。分析發現,并發圖計算任務之間的通信行為存在極強的相似 性。基于此發現,首先提出了相似性感知的分布式并發圖計算執行機制,其沿著圖 劃分塊之間的拓撲關系來加載圖數據,并以此高效驅動分布式平臺中每個計算節點 上的任務執行,從而使得加載的圖數據能夠被更多任務共享;通過高效的通信機制 來使得不同任務的通信行為以規則的方式批量進行,從而降低并發圖計算任務的通 信成本,提高通信效率。其次,提出了面向并發圖計算任務的增量負載均衡機制和 面向動態圖處理的數據存儲優化機制,以此來提高分布式計算資源利用率和保證在 支持動態圖處理時的執行效率。實驗結果表明,與分布式圖計算系統 Gemini 和 Seraph 相比,本設計在支持并發圖計算任務時能夠獲得最高 6 倍的加速比。總的來說,本文分別研究了并發圖計算任務不規則訪存行為與底層體系結構不 匹配問題、并發圖計算任務之間冗余數據訪存開銷高問題以及分布式并發圖計算擴 展性差問題,圍繞體系結構、單機和分布式系統軟件層面實現高性能并發圖計算技 術,顯著提升并發圖計算任務的執行性能。
傳統基于幀的相機由于其緊湊、低成本以及能夠提供豐富的外部感知測量能力,而已經成為基于計算機視覺的眾多應用中的首選傳感器。盡管這些傳感器在該領域占主導地位,但它們在普通的、真實的場景中表現出了局限性,在這些場景中普遍存在有害的影響,如高速運動中的運動模糊或在光照不足的場景中過度/不足的曝光。
如今多種新型技術在挑戰傳統相機的主導地位,最近出現的受生物啟發的事件相機由于其高速傳感、高動態范圍(HDR)能力和低功耗,為強大的感知能力開辟了令人興奮的研究可能性。盡管它們具有很好的特性,但由于其獨特的輸出,事件相機帶來了許多挑戰:稀疏和異步的事件流,只捕捉到單個像素的增量感知變化。這種截然不同的傳感方式使得大多數傳統的計算機視覺算法在沒有大量的事先調整的情況下無法兼容,因為它們最初是為處理以固定幀率捕獲的圖像序列而設計的。因此,文獻中大部分現有的基于事件的算法都選擇將事件流離散成批次,并按順序進行處理,有效地恢復到類似于幀的表示,以試圖模仿傳統傳感器的圖像序列的處理。在傳統強度圖像的質量受到嚴重影響的情況下,這種事件分批算法明顯優于其他基于框架的替代算法,揭示了這些新傳感器的內在潛力并使其得到普及。然而,迄今為止,許多新設計的基于事件的算法仍然依賴于對事件流的離散化處理,這表明事件相機的全部潛力有待于通過更自然地處理其輸出來加以利用。
這篇論文脫離了對傳統的基于幀的方法的簡單改編,而是主張開發新的算法,為事件相機綜合設計,以充分利用其有利的特性。特別是,本論文的重點在于描述一系列新穎的策略和算法,這些策略和算法以純粹的事件驅動方式進行操作,即在每個事件產生后立即進行處理,而不對事件進行任意批次的中間緩沖,從而避免了處理過程中的任何額外延遲。與較簡單的事件分批處理相比,這種事件驅動的過程帶來了額外的挑戰,而這些挑戰主要歸因于以事件速度產生可靠結果的要求,這對它們在現實世界的應用中的部署產生了重大的實際影響。
本論文的主要內容是設計事件驅動的算法,用于高效和異步的特征檢測和跟蹤事件相機,涵蓋了這種新興傳感方式的模式識別和數據關聯的關鍵因素。特別是,本論文的一個重要部分致力于研究事件相機的視覺角落,從而設計出創新的事件驅動方法,以檢測和跟蹤角落事件。此外,本論文還研究了基于補丁的通用特征的使用和它們的事件驅動跟蹤,以有效檢索高質量的特征軌跡。本論文中開發的所有算法都是邁向完全由事件驅動的、基于特征的同步定位與地圖構建(SLAM)管道的重要墊腳石。本論文擴展了最先進的事件驅動方法的既定概念,并進一步探索了事件驅動范式在現實單眼設置中的局限性。雖然所提出的方法僅依賴于事件數據,但所獲得的見解對于未來將基于事件的視覺與其他互補的傳感方式相結合的研究具有開創性意義。這里進行的研究為建立一個新的事件驅動算法系列鋪平了道路,該算法高效、穩健、可擴展地運行,設想了基于事件的計算機視覺的潛在范式轉變。
本博士論文的結構是由三章組成的累積性論文,而作為本研究一部分的所有出版物都在附錄中。具體來說,第1章提供了本論文在機器人學和計算機視覺領域的背景,介紹了傳統的和基于事件的視覺傳感器的基本原理,它們的優勢和局限。此外,第1章還介紹了所要解決的研究問題的范圍,以及相關主題的技術現狀概述。第2章總結了導致本論文結論的所有已發表的稿件的內容,將其置于各自的研究背景下,描述其貢獻,并建立它們之間的聯系。第3章概述了我們的研究結果,并在我們的工作基礎上提出了潛在的未來研究方向。
分形計算系統
在許多領域,編程成本已經成為阻礙計算機技術應用發展的主要瓶頸問 題:超級計算機性能走向百億億次級別,然而現代超級計算機發展趨勢是采用 異構運算部件,導致編程困難的問題越來越嚴峻;在物端邊緣計算領域,設備 數量和種類呈現爆炸式增長,而應用程序開發者不可能針對上百億種異構設 備進行編程,產生了“昆蟲綱悖論”;在機器學習領域,編程框架 TensorFlow 的代碼規模已經突破 400 萬行,為機器學習或深度學習開發領域特定加速器產 品的主要成本已經來源于配套軟件生態的研發。
編程難題包括并行編程難、異構編程難、大規模系統編程難、跨系統編程 難等諸多表現形式。學位論文擬提出分形計算概念,通過分形計算系統的研究 以回應編程難題;具體來說,分形計算系統針對來源于“編程-規模相關性”的 編程難題提供了解決方案。具體貢獻包括:
? 提出分形計算模型(FPM),一種采用了層次同性原理的通用并行計算 模型。分形計算模型具有編程-規模無關性,是一種串行編程、并行執 行的模型。使用者只需編寫串行的程序,該計算模型可以自動展開至任 意規模的系統上并行執行,因此可以在通用領域解決來源于編程-規模 相關性的編程難題。
? 提出分形馮·諾伊曼體系結構(FvNA),一種采用了層次同性原理的專 用并行體系結構。相同任務負載在不同規模的分形馮·諾依曼體系結構 計算機上可以分別自動展開、執行,因此可以做到對一系列不同規模的 計算機僅需進行一次編程。以機器學習領域專用體系結構為例,本文實 現了一系列分形機器學習計算機 Cambricon-F,以解決機器學習計算機 編程困難的問題。實驗結果表明,Cambricon-F 在改善了編程生產率的 同時,還能獲得不劣于 GPU 系統的性能和能效。
? 提出可重配分形指令集結構(FRISA),一種按照分形計算模型設計的 分形計算機指令集結構。分形可重配指令集結構能夠在分形馮·諾依曼 體系結構計算機上定義任意的分形運算,因此可以支持實現分形計算模型,形成通用分形馮·諾依曼體系結構計算機。以機器學習領域專用體 系結構為例,本文在 Cambricon-F 的基礎上實現了一系列可重配的分形 機器學習計算機 Cambricon-FR,以解決 Cambricon-F 在新興機器學習應 用上遇到的失效現象。實驗結果表明,Cambricon-FR 在解決了失效現 象、提高系統運行效率的同時,還能通過定義分形擴展指令縮短描述應 用所需的分形指令串的長度。
基于深度學習的單目場景深度估計方法研究
單目圖像的深度估計是計算機視覺研究的基礎性課題,由于其可以指導多種高 階視覺任務的學習,且具有良好的實際應用前景,近年來也成為計算機視覺領域的 熱門課題。單目深度估計旨在基于單張圖片或單目視頻信息,預測并恢復出場景像 素級別的深度信息。由于現實場景較為復雜,且單目圖像或視頻信息又缺乏魯棒的 幾何約束,現有的深度估計方法往往會丟失細節或無法預測正確的尺度信息,使得 其實際應用受到制約。本文通過設計有效的深度卷積網絡及其學習框架,提出了幾 種新的深度估計方法。主要研究成果概述如下:
(1)本文提出了一種新的多尺度端到端深度估計框架。先前的主流方法往往只 能預測超像素級別的深度信息,或基于多步非端到端的學習方法。這導致了算法預 測的深度圖像丟失細節,且不利于實際應用。為了端到端的預測精細的深度圖像, 本文從兩個方面整合了多尺度信息:(a)提出了一種新的多尺度網絡以學習多級深 度表征,并利用多尺度表征逐步地引導網絡的上采樣和預測過程;(b)提出了一種 細粒度正則化方法,使優化器引導網絡學習正確的深度結構信息。在不同數據集上 的大量實驗表明,本文的方法可以預測更完善的細節信息,且可以取得同期最佳的 預測效果。
(2)現有的基于深度神經網絡的方法缺少有效機制以恢復并保留深度圖像中的 邊緣細節信息,這使其預測效果受到影響。因此,本文提出了一種新的漸進困難挖 掘網絡以處理該問題。特別地,本文構建了困難挖掘目標函數,尺度內和尺度間子 網絡來精確地定位和修正預測困難的區域。尺度內修正模塊可以遞歸地從不同語義 特征中恢復深度細節,尺度間修正模塊可以利用不同尺度的深度信息進行互補交互。困難挖掘目標函數可以引導網絡的學習過程,使得網絡自適應地關注容易產生累計 預測誤差的區域。這三種模塊可以有效地協作,逐步地減少學習過程中的誤差傳播, 進一步地增強深度預測效果。大量的實驗分析表明,本文的方法可以有效恢復深度 圖像中的邊緣和細節信息,并取得同期最好的預測效果。
(3)本文提出了一種新的任務遞歸學習框架(Task-recursive Learning, TRL) 以同時處理語義分割,平面法向量預測和深度估計三個任務。TRL 通過一系列任務 層面的交互以遞歸地修正預測結果,其中位于每一個時間階段的網絡模塊可以封裝 每一個跨任務交互過程。在每一個時間階段內,TRL將多任務學習過程序列化,并 遞歸地進行交互。為了自適應地增強任務間的相似模式,本文將交互過程封裝在任 務注意力模塊(TAM)中,進而使任務的學習過程可以相互促進。在時間階段之間,通過使用特征選擇單元(FS-unit),網絡將先前獲得的經驗有選擇性地傳播至接下 來的時間節點,進而使任務間的互補信息更充分地被利用。同時,任務交互序列也 在由粗到細的尺度空間中得到延伸,使得細節信息可以被逐步地修正。最終,該多 任務序列化問題被統一地整合進遞歸網絡框架中。在公開數據集上的大量實驗表明, 本文的方法可以遞歸地修正三個任務的預測結果,并獲得同期最佳的數值效果。
(4)本文提出了一種新的模式相似性傳播框架以同時預測場景深度,法向量和 語義分割。其動機來自于相應的統計觀察,即模式相似像素對在同一任務內部和不 同任務之間均頻繁地出現。因此,可以進行兩種形式的傳播過程,即跨任務傳播和 任務特異傳播以自適應地擴散這些相似的模式。跨任務傳播通過計算非局部的關聯 性信息以整合跨任務的相似模式,使這些相似模式更好的適應每一個任務。任務特 異性傳播則是在特征空間進行迭代擴散過程,使跨任務的相似模式能夠被廣泛地應 用于任務內部。由此一來,這些任務層面的關聯性信息可以調整和促進每一個任務 的學習。在公開數據集上的大量實驗證明了本文方法的有效性,同時也在多個數據 集和三個任務上獲得了同期最佳的效果。
(5)在線的景深學習問題要求連續地調整深度估計模型使其適應于不斷變化的 場景。由于神經網絡往往容易過擬合至當前場景而遺忘之前學得的經驗,這類開放 世界問題十分具有挑戰性。為此,本文提出了一種新的抵抗遺忘的學習方法(LPF) 以處理無監督的在線單目景深學習。與以往更新模型中所有參數的方法不同的是, LPF學習適應器模塊以高效地調整特征表示和分布,從而避免在線場景下的知識丟 失問題。具體地,本文提出了一個新的元學習方法,通過將在線適應過程與目標函 數相結合,使學習到的適應器模塊可以適應于視頻中時間連續的景深模式。為了進 一步地避免過擬合,本文提出了一種新的時間連續正則化方法來調整每個在線學習 步驟的梯度下降過程。在現實場景數據庫上的大量實驗表明,本文的方法在僅增加 少量參數的情況下,明顯地提升了在線景深估計的質量。
機器學習中的標記增強理論與應用研究
標記端多義性是當今機器學習的熱點問題。多標記學習中,每個樣本都被賦予一組 標記子集來表示其多種語義信息。然而,標記強度差異現象在多義性機器學習任務中廣 泛存在,而既有多標記學習研究中普遍采用的相關/無關兩個子集的邏輯劃分法幾乎完 全忽視了這種現象,造成學習過程中不可避免的信息損失。針對這一突出問題,有必要 用一種稱為標記分布的標注結構來代替邏輯標記對示例的類別信息進行描述。標記分布 通過連續的描述度來顯式表達每個標記與數據對象的關聯強度,很自然地解決了標記強 度差異的問題,而在以標記分布標注的數據集上學習的過程就稱為標記分布學習。由于 描述度的標注成本更高且常常沒有客觀的量化標準,現實任務中大量的多義性數據仍然 是以簡單邏輯標記標注的,為此本文提出了標記增強這一概念。標記增強在不增加額外 數據標注負擔的前提下,挖掘訓練樣本中蘊含的標記重要性差異信息,將邏輯標記轉化 為標記分布。
本文對標記增強進行研究,主要工作包括:構建標記增強基礎理論框架。該理論框架回答了以下三個問題:第一,標記增強所 需的類別信息從何而來?即標記分布的內在生成機制;第二,標記增強的結果如何評價?即標記增強所得標記分布的質量評價機制;第三,標記增強為何有效?即標記增強對后 續分類器的泛化性能提升機制。理論分析和實驗結果驗證了標記增強的有效性。
提出一種面向標記分布學習的標記增強專用算法。以面向標記分布學習的標記增強 為目標專門設計的算法十分重要,其關鍵是如何設計能夠充分挖掘數據中隱藏的標記信 息的優化目標函數。因此,本文提出一種面向標記分布學習的標記增強方法 GLLE。該 方法利用訓練樣本特征空間的拓撲結構以及標記間相關性,挖掘了標記強度信息,從而 生成了標記分布。實驗結果驗證了 GLLE 對邏輯標記數據集進行標記增強處理后使用標 記分布學習的有效性。
標記增強在其他學習范式上的應用。本文提出了基于標記增強的多標記學習方法 LEMLL,該方法將標記增強與多標記預測模型統一到同一學習目標中,使得預測模型可 以在更為豐富的監督信息下進行訓練,有效地提升了學習效果。本文提出了基于標記增 強的偏標記學習方法 PLLE,該方法利用標記增強恢復候選標記的描述度,使得后續的 學習問題轉化為多輸出回歸問題。在多標記數據集和偏標記數據集上的實驗結果顯示, 相較于對比算法,基于標記增強方法取得了顯著更優的表現。
面向文本生成的深度序列模型研究
人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。
文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。
首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。
然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。
最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。
綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。