深度預測學習問題與方法研究
隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:
第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。
第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。
第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。
此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。
面向文本生成的深度序列模型研究
人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。
文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。
首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。
然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。
最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。
綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。
城市環境下的移動數據分析與行為建模研究
在全球城鎮化進程方興未艾、我國轉向高質量的新型城鎮化發展的背景下,深 入理解城市環境下的移動行為模式是提升城市在規劃、管理、交通等方面綜合能力 的重要研究課題。近年來,通過智能終端、移動互聯網和社交媒體等多種渠道采集 的移動數據日益豐富,為研究城市移動數據分析與行為建模問題提供了契機。該研 究課題存在以下挑戰:首先,移動數據體量大、質量低,現有數據挖掘算法難以直 接適應;其次,城市環境下的移動行為模式復雜多樣,且與城市結構緊密關聯,現 有移動模型難以刻畫;最后,移動數據極易泄漏用戶隱私,目前仍然缺乏有效的隱 私保護方案。針對以上挑戰,本文對多尺度復雜移動行為建模、結合城市結構的移 動行為建模和保護移動數據隱私安全三個關鍵問題展開研究,為系統認知城市環 境下的移動行為模式提供了理論模型與關鍵技術。論文的主要創新點與貢獻如下:
第一,在個體移動行為建模方面,本文重點研究了意圖感知的移動行為模式識 別問題。首先,通過大規模真實數據分析證明了已有工作基于社交媒體簽到數據推 斷用戶移動意圖的方法存在顯著誤差,43%的簽到數據與真實移動行為不符。其次, 提出了一種基于無標注移動數據的意圖感知的移動模式識別算法,在用戶職業推 斷和訪問地點類型推斷上較基線算法取得了 112.5%~126.4%的性能提升。
第二,在群體移動行為建模方面,本文通過建模用戶連接移動網絡的行為模式, 建立了基于移動網絡連接數據的高質量群體移動行為估計算法,其較基線算法降 低了 22.5%的誤差。在此基礎上,本文進一步研究了城市結構感知的群體移動模式 識別問題,并提出了一種基于頻譜分解的規律性和隨機性群體移動行為分解算法。
第三,在移動行為驅動的城市演化方面,研究了移動行為與城市演化的內在關 聯,提出了基于個體移動行為模式的城市演化模型,其在微觀層面建模了個體移動 的關鍵行為規律,并在宏觀層面準確預測了城市演化中形態、面積、人口的分布規 律,為關聯微觀層面的移動行為和宏觀層面的城市演化搭建了重要的理論橋梁。
最后,在移動數據隱私保護方面,揭示了移動數據中個體移動行為的高唯一性 和強規律性分別會對匿名個體移動數據和聚合群體移動數據帶來嚴重的去匿名攻 擊和軌跡恢復攻擊的隱私風險。基于分析所得的個體移動行為中導致隱私風險的 關鍵因素,提出了通過時空泛化和添加噪音來隱藏移動行為規律的隱私安全保護 算法,實現了高效、可靠的移動數據隱私保護。
組合優化問題廣泛存在于國防、交通、工業、生活等各個領域, 幾十年來, 傳統運籌優化方法是解決組合優化問題的主要手段, 但隨著實際應用中問題規模的不斷擴大、求解實時性的要求越來越高, 傳統運籌優化算法面臨著很大的計算壓力, 很難實現組合優化問題的在線求解. 近年來隨著深度學習技術的迅猛發展, 深度強化學習在圍棋、機器人等領域的矚目成果顯示了其強大的學習能力與序貫決策能力. 鑒于此, 近年來涌現出了多個利用深度強化學習方法解決組合優化問題的新方法, 具有求解速度快、模型泛化能力強的優勢, 為組合優化問題的求解提供了一種全新的思路. 因此本文總結回顧近些年利用深度強化學習方法解決組合優化問題的相關理論方法與應用研究, 對其基本原理、相關方法、應用研究進行總結和綜述, 并指出未來該方向亟待解決的若干問題.
基于深度學習的圖像處理算法研究
隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。
盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:
(1) 一種基于無監督學習的空間自適應圖像平滑算法
該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。
(2) 一種基于弱監督學習的圖像反光去除算法
該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。
(3) 一種基于多標簽聯合訓練的本征圖像分解算法
本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。
(4) 一種基于解耦學習的實時參數化圖像處理框架
傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。
新型深度學習模型的研究
深度學習是近年來機器學習領域中的熱點研究領域。深度森林模型是一 種新型深度學習模型,擴展了深度學習的內涵和適用范圍。本文開展深度森 林方面的相關研究工作,主要取得了以下創新結果:
1.基于森林的多層分布表示。多層分布式表示學習被認為是神經網絡獨有的 特性,本文提出了基于森林的多層模型 mGBDT,第一次顯示出多層分布 式表示通過森林模型也能進行。在表格數據和混合數據等各類建模任務 上,mGBDT 展示了其兼具表示學習和離散數據建模的能力。
2.基于森林的自編碼器模型。自編碼器被認為是只能通過神經網絡實現的獨 有模型,本文工作提出了第一個基于森林的自編碼器 eForest,在多類數 據上均取得了優異的性能體現。與此同時,還利用 Intel 眾核芯片 KNL, 通過多進程,向量化和編譯器優化等技術,獲得了近線性加速比,為大規 模應用提供了基礎。
盡管近年來計算機視覺技術已經取得了長足的進步,但是對于復雜視覺場景 的感知和理解,目前的計算機模型表現還遠遠沒有達到大規模普及和落地應用的 水平。為了充分地利用日常生活中海量的視覺媒體數據,復雜視覺場景的感知和理 解已經逐漸成為計算機視覺領域的一個研究熱點。
本文將針對四個不同層次的視覺場景理解(物體級別識別、場景級別識別、場 景級別理解和場景級別推理),逐步地對復雜視覺場景中視覺內容的識別、檢測和 推理進行研究。本文的關鍵技術線路主要聚焦于零樣本物體分類、圖像場景圖生 成、圖像描述生成、視頻片段檢索和視覺問答等具體視覺場景理解任務。在此研究 技術路線下,本文主要的研究內容和貢獻如下:
1)針對零樣本物體分類模型中普遍存在的語義丟失問題,本文提出一種全新 的零樣本學習網絡。該網絡首次引入兩個相互獨立的映射網絡分支,將圖像分類和 圖像重建兩個原本相互沖突的任務分離出來。同時借助對抗學習,實現重建網絡分 支和分類網絡分支之間的屬性遷移。
2)針對圖像場景圖生成模型中優化目標通常忽略不同物體的重要性差異的問 題,本文提出一種全新的訓練框架,首次將圖像場景圖生成任務轉化成一個多智能 體協同決策問題,從而可以直接將整個圖像場景圖質量作為模型的優化目標。同 時,本文還提出了一個反事實基準模型,可以有效地計算出每個物體類別預測對整 體場景圖生成質量的局部貢獻。
3)參考現有的空間注意力機制,本文首次提出通道注意力機制。同時,通過 充分挖掘卷積神經網絡的特征圖的三個不同維度(空間、通道和層級)之間的聯系, 提出一種全新的空間和通道注意力網絡。在圖像描述生成任務中,該網絡不僅極大 地提升了描述語句的生成質量,同時幫助人們理解在語句生成過程中特征圖的變 化過程。
4)針對目前視頻片段檢索任務中兩種主流框架(自頂向下和稀疏型自底向上) 的設計缺陷,本文提出了一種全新的密集型自底向上的框架。通過將動作邊界定位問題分解成相關性預測和邊界回歸兩個子問題,顯著地降低了動作邊界定位的難 度。同時,本文提出一個基于圖卷積的特征金字塔層,來進一步增強骨干網絡編碼 能力。
5)針對目前視覺問答模型忽略的兩個重要特性(視覺可解釋性和問題敏感性), 本文提出了一種通用的反事實樣本生成機制。通過遮蓋圖像中的重要區域或問題 中的重要單詞,同時更改標準答案,來合成全新的反事實訓練樣本。通過使用原始 訓練樣本和反事實訓練樣本一起對模型進行訓練,迫使視覺問答模型關注被遮蓋 的重要內容,提升模型的視覺可解釋性和問題敏感性。
地址:
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。
摘要:實際生活中有很多帶有季節特征的時空數據,在城市計算領域分布尤廣,例如交通流量數據便具有較為明顯的以天或周為周期的統計學特征。如何有效利用這種季節特征,如何捕捉歷史觀測與待預測數據之間的相關性,成為了預測此類時空數據未來變化趨勢的關鍵。傳統時序建模方法將時序數據分解為多個信號分量,并使用線性模型來進行預測。此類方法具有較強的理論基礎,但對于數據的平穩性要求過于嚴格,難以預測趨勢信息復雜的數據,更不適用于高維的時空數據。然而在真實場景下,季節性時空數據的周期長短可變,且不同周期的對應關系往往并不固定,存在時間、空間上的模式變化與偏移,很難作為理想的周期信號以傳統時序方法建模。相比之下,深度神經網絡建模能力更強,可擬合更為復雜的數據。近幾年有許多工作研究了如何利用卷積神經網絡和循環神經網絡來處理時空數據,也有一些工作討論了如何有效利用周期性信息提升預測的準確性。但深度神經網絡受困于梯度消失和誤差累積,難以捕捉時序數據中的長時間依賴,且少有方法討論如何在深度神經網絡中有效建模上述具有彈性周期對應關系的時空信號。本文針對真實場景下季節性時空數據的上述問題,給出具有彈性周期對應關系的時空數據預測問題的形式化定義,并提出了一種新的季節性時空數據預測模型。該模型包含季節網絡、趨勢網絡、時空注意力模塊三個部分,可捕捉短期數據中的臨近變化趨勢和長期數據中隱含的季節性趨勢,并廣泛考慮歷史周期中的每個時空元素對未來預測值的影響。為了解決深度循環網絡難以捕捉時序數據中的長時間依賴的問題,本文提出一種新的循環卷積記憶單元,該單元將上述模塊融合于一個可端到端訓練的神經網絡中,一方面實現了時間和空間信息統一建,另一方面實現了短期趨勢特征與歷史周期特征的統一建模。進一步地,為了解決季節性數據中的各周期時空元素對應關系不固定的問題,本文探討了多種基于注意力模塊的時空數據融合方式,創新性地提出一種級聯式的時空注意力模塊,并將其嵌入于上述循環卷積記憶單元內。該模塊建模記憶單元的隱藏狀態在不同周期內的彈性時空對應關系,自適應地選取相關度高的季節性特征輔助預測。實驗部分,我們選取了兩個時空數據預測在城市計算中最為典型的應用:交通流量預測和氣象數據預報。本文所提出的時空周期性循環神經網絡在北京、紐約的交通流量數據集、美國氣象數據集上均取得了目前最高的預測準確性。
CMU大神博士生Brandon Amos,馬上就要畢業了。博士期間,他在可微優化機器學習建模方向,發表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微優化機器學習建模的很多問題。近日,他將自己的博士論文也開放了出來,系統的講述了可微優化機器學習建模的方方面面。
博士論文簡介
我們提出了兩種基于優化建模的基本方法:
然后,我們將展示如何使用OptNet方法,1)將無模型和基于模型的強化學習與可微最優控制相結合,2)針對top-k學習問題,我們展示了如何將cvxpy領域特定的語言轉換為可微優化層,從而實現本文方法的快速原型化。