城市資源智能優化方法及應用研究
隨著城市化進程的加速,越來越多的人選擇到大城市中工作和生活。然而,相比于 城市居民的規模,城市中的各類資源是非常有限的,如何為更多的城市居民提供更好的 工作和生活服務已經成為許多城市面臨的一個巨大挑戰。城市資源智能優化是解決該挑 戰的一個有效方法,其通過對有限的城市資源進行智能優化來提升有限的城市資源的效 率,從而能夠為更多的城市居民提供更好的服務。因此,本文針對城市資源智能優化問 題,借助城市多源大數據的時空屬性,研究具有時空屬性的運籌優化、圖論方法、數據 挖掘、機器學習、強化學習等技術,設計城市資源智能優化方法,從而使有限的城市資 源的效率最大化。根據城市資源智能優化問題的內在屬性,本文將其分為兩大類:靜態 的城市資源智能優化和動態的城市資源智能優化,并將研究的城市資源智能優化方法成 功地應用到四個具體問題中。
面向移動群智感知問題的靜態城市資源智能優化方法:移動群智感知是城市數據收 集的重要方法之一,因此本文首先研究移動群智感知中的靜態城市資源優化問題, 即:給定一定的經費資源,基于用戶的移動信息,如何招募用戶以及如何為招募到 的用戶設計數據收集任務,使得收集到的數據質量最高?為此,本文提出一個基于 人群移動性的移動群智感知框架,能夠在城市人群移動不均勻的情況下收集到均 勻覆蓋的數據。該框架包含三個部分:基于層次信息熵的數據覆蓋率指標來評估 收集到的數據的質量、基于數據點圖的數據收集任務設計方法以及高效的用戶招 募算法。基于34個用戶的真實移動信息,通過北京市噪聲數據收集的移動群體感 知實驗,驗證了所提出的框架在有限的資源經費下能夠收集到更高質量的數據。
面向外賣配送任務分組問題的靜態城市資源智能優化方法:網上訂外賣已經城市 居民新的生活方式,對于外賣訂餐平臺來說,外賣配送任務分組是提升其有限外 賣送餐員整體送餐效率的重要方法。因此,本文基于真實的外賣訂單數據和地圖 數據,設計了高效的基于圖分割的外賣配送任務分組方法。首先,根據歷史的外 賣訂單配送數據構建外賣配送任務圖,外賣配送任務即為任務圖中的連邊,從而 將問題定義為圖分割問題;接著,設計外賣任務配送任務分組問題的評價指標, 用于指導外賣配送任務分組的進行;最后,提出了一個高效的圖分割算法對外賣 配送任務進行分組。基于外賣平臺真實數據的實驗結果顯示,所提出的方法能夠 將外賣配送所需要的平均時間降低16%,大幅提升了有限的外賣送餐員資源的整體 送餐效率。
面向救護車重新部署問題的動態城市資源智能優化方法:救護車是城市120急救系 統中的重要資源,其通過快速接送病人去醫院來保障城市居民的生命健康。對救護車的動態重新部署能夠提升其整體的救人效率。因此,針對動態救護車重新部 署問題,本文提出了一個能夠綜合考慮五種不同數據特征的動態救護車重新部署 方法。該方法首先設計了一個緊急度指標來評估每個救護車站點的緊急程度,即 對救護車的需求程度。接著,基于每個救護車站點的緊急度以及其他忙碌中的救 護車狀態,建立了一個兩階段的運籌優化模型來進行救護車的重新部署決策。基 于天津市120急救中心數據的實驗結果顯示,相比于現有的救護車動態重新部署方 法,本文的方法能夠將病人的平均上車時間降低35%,將10分鐘之內上車的病人比 例從68.4%提升到80.3%,驗證了該方案能夠大幅提升有限的救護車資源條件下的整 體救人效率。
面向出租車路徑推薦問題的動態城市資源智能優化方法:出租車是城市交通中最為 重要的資源之一,也是城市居民日常最常用的交通方式之一。動態出租車路徑推 薦旨在為空駛的出租車推薦行駛路徑使得其能夠快速地找到下一個乘客,從而提 升有限出租車的載客效率。因此,本文研究動態出租車路徑推薦問題,將其定義 為一個時序決策問題,并提出了一個高效的方法。該方法首先考慮和抽取了很多 實時的時空特征,用于反映出租車在每條路徑上找到新乘客的概率。接著,設計了一個深度強化學習方法來學習一個深度策略網絡,實現了對所抽取的時空特征 的有效融合,從而做出最優的推薦方案。基于美國舊金山市和紐約市數據的實驗 結果顯示,所提出的方法能夠提升出租車司機42.8%的平均收入,降低乘客44.4%的 平均等待時間,大幅提升了有限的出租車資源的載客效率。
多層圖分析技術研究
近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。
多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。
本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:
本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。
本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。
本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。
本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。
城市環境下的移動數據分析與行為建模研究
在全球城鎮化進程方興未艾、我國轉向高質量的新型城鎮化發展的背景下,深 入理解城市環境下的移動行為模式是提升城市在規劃、管理、交通等方面綜合能力 的重要研究課題。近年來,通過智能終端、移動互聯網和社交媒體等多種渠道采集 的移動數據日益豐富,為研究城市移動數據分析與行為建模問題提供了契機。該研 究課題存在以下挑戰:首先,移動數據體量大、質量低,現有數據挖掘算法難以直 接適應;其次,城市環境下的移動行為模式復雜多樣,且與城市結構緊密關聯,現 有移動模型難以刻畫;最后,移動數據極易泄漏用戶隱私,目前仍然缺乏有效的隱 私保護方案。針對以上挑戰,本文對多尺度復雜移動行為建模、結合城市結構的移 動行為建模和保護移動數據隱私安全三個關鍵問題展開研究,為系統認知城市環 境下的移動行為模式提供了理論模型與關鍵技術。論文的主要創新點與貢獻如下:
第一,在個體移動行為建模方面,本文重點研究了意圖感知的移動行為模式識 別問題。首先,通過大規模真實數據分析證明了已有工作基于社交媒體簽到數據推 斷用戶移動意圖的方法存在顯著誤差,43%的簽到數據與真實移動行為不符。其次, 提出了一種基于無標注移動數據的意圖感知的移動模式識別算法,在用戶職業推 斷和訪問地點類型推斷上較基線算法取得了 112.5%~126.4%的性能提升。
第二,在群體移動行為建模方面,本文通過建模用戶連接移動網絡的行為模式, 建立了基于移動網絡連接數據的高質量群體移動行為估計算法,其較基線算法降 低了 22.5%的誤差。在此基礎上,本文進一步研究了城市結構感知的群體移動模式 識別問題,并提出了一種基于頻譜分解的規律性和隨機性群體移動行為分解算法。
第三,在移動行為驅動的城市演化方面,研究了移動行為與城市演化的內在關 聯,提出了基于個體移動行為模式的城市演化模型,其在微觀層面建模了個體移動 的關鍵行為規律,并在宏觀層面準確預測了城市演化中形態、面積、人口的分布規 律,為關聯微觀層面的移動行為和宏觀層面的城市演化搭建了重要的理論橋梁。
最后,在移動數據隱私保護方面,揭示了移動數據中個體移動行為的高唯一性 和強規律性分別會對匿名個體移動數據和聚合群體移動數據帶來嚴重的去匿名攻 擊和軌跡恢復攻擊的隱私風險。基于分析所得的個體移動行為中導致隱私風險的 關鍵因素,提出了通過時空泛化和添加噪音來隱藏移動行為規律的隱私安全保護 算法,實現了高效、可靠的移動數據隱私保護。
深度預測學習問題與方法研究
隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:
第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。
第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。
第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。
此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。
眾包數據庫關鍵技術研究
眾包通過整合計算機和互聯??眾來完成機器難以單獨處理的任務,其主要 包含三部分,任務發布者、眾包平臺和眾包??。傳統眾包技術中,三者的交互流 程過于復雜,導致任務發布者?法很好地管理任務。因此,眾包數據庫應運??, 其從系統層?出發整合三者之間復雜的交互流程,使得任務發布者可以通過描述 性語?輕松利???操作數據,降低了眾包的使?門檻。本?主要的內容如下:
眾包數據庫 CDB:為解決眾包平臺難使?、眾包任務難優化、眾包?? 質量難控制等問題,需要通過數據庫的思想來封裝眾包任務處理的流程。與傳統 數據庫不同的是,眾包數據庫的難點不僅在于解決單??標優化問題 (僅優化代 價),更重要的是建?細粒度的查詢優化模型,實現代價、質量和延遲的多?標優 化。因此,本?提出了?種新型的眾包數據庫系統 CDB 。不同于傳統的樹優化模 型,CDB ?次提出利?圖模型來進?細粒度查詢優化。其次,CDB 在該模型上建 ?統?的框架來進?多?標優化。該系統致?于幫助用戶高效率、高質量、低成 本地利用眾包來處理數據, 構建了一個中文眾包平臺 ChinaCrowd, 在華為公司落地 應用,取得了較好的經濟收益。另外,為?持較復雜的連接操作(基于記錄或者? 連接)與收集操作,本?分別提出了以下兩種算法框架對它們進?步優化。
基于眾包的連接操作:為解決現實世界中臟數據的復雜連接問題,需要引 ?基于眾包的連接操作。其難點在于代價較?,?尋求低代價?案時往往帶來質 量的降低。為此,本?提出?種低代價的眾包實體匹配框架 Power,在保持?質量 的同時??降低代價。本??先在待連接的記錄對上定義了?種偏序關系,然后 基于該關系對眾包??的回答進?推理,接下來循環提問直到所有記錄對的答案 都被推理出來。該方法致力于從理論和實踐兩方面優化眾包成本,實驗表明相比 于其他方法,Power 可在節省高達 100 倍的成本下進行高質量的數據連接。
基于眾包的收集操作:為解決傳統數據庫不能處理數據庫以外數據的特點, 眾包數據庫需要引?收集操作,其旨在通過眾包收集數據庫中缺失的實體。其難 點在于如何保證收集實體的正確性;如何盡可能收集相關領域的全部實體;如何 減少重復實體的數量以減少代價。為此,本?提出了基于激勵機制的眾包實體收 集框架 CrowdEC,其采?激勵的?式?勵??提供不重復的實體以降低代價。該 方法致力于建立收集操作的質量評價體系,從理論上給出了收集代價的競爭比保 證,使得用戶可實現低成本、高質量、高覆蓋的收集。
近年來,深度學習技術在多個領域的應用中取得了令人難以置信的成功。然而,由于其復雜性與多樣性,深度學習模型通常被大家認為是黑箱模型。在許多學習任務當中,什么樣的深度學習模型以及相應的參數配置能夠取得優越的性能?為什么這些模型與配置會有其優越性?我們需要如何找到這樣的模型與配置等問題?以上這些未解之謎使得深度學習更像是一門隨性的藝術,而非嚴謹的科學。
為從科學的角度揭示深度學習的內在運作機制,為深度學習模型設計與參數配置提供客觀有效的指引,并提供相應的理論支撐與可解釋性,香港浸會大學計算機科學系劉際明教授課題組系統地創建與展示了一個深度學習模型設計和信息論分析的全面框架。針對給定的學習任務與相應數據集,該學習框架能夠構建合適的深度學習模型、從理論上對模型的學習行為進行嚴謹的分析、并從捕獲信息的角度定量的刻畫模型的學習能力(information capacity,簡稱i-CAP)、并據此判定模型的必要與充分配置(Necessary and Sufficient Configurations)。通過該框架,我們可以解決深度學習中一個懸而未決的問題,即如何針對給定的學習數據集確定所設計的深度學習模型及其正確的參數配置。該論文剛剛被人工智能/機器學習/神經網絡國際頂級期刊IEEE Transactions on Neural Networks and Learning Systems(TNNLS)所接收,目前已見刊并對公眾開放(Open Access: //ieeexplore.ieee.org/document/9185001)。
摘要:制造業是一個國家的支柱產業,能夠直接體現一個國家的生產力水平。按工藝 來分類,可分為“等材制造”,“減材制造”和“增材制造”。工業制造是一個典 型的多學科交叉的領域,涉及到材料,機械,控制,通訊等眾多方面。從前期的工 件模型的設計(CAD),力學模擬分析(CAE),及最終的加工過程規劃(CAM), 都涉及到大量的幾何問題。本學位論文面向增減材制造領域,對其中的部分過程規 劃和應用相關的幾何問題進行研究。 本學位論文面向智能制造中的幾何問題及其應用,具體研究了增減材制造路 徑規劃相關的空間填充曲線生成問題,自由曲面模型裝夾規劃相關的區域分割問 題;在應用方面研究了一種基于三維打印可定制化制造的創意投影燈罩幾何模型 生成方法。本文創新點和貢獻主要包括以下幾個方面:
(1)提出一種全局連續且平滑的增材制造路徑規劃方法 本文將費馬螺旋線引入到空間填充曲線的生成中,提出了一種新的空間填充曲 線——連通費馬螺旋線,并詳細闡述了其作為增材制造路徑規劃方法的優良特性。 與傳統的空間填充曲線不同,連通費馬螺旋線對任意拓撲連通的區域都可以生成 一條全局連續且平滑的空間填充曲線。將連通費馬螺旋線應用到三維打印的截面 填充路徑規劃中,并與現有的三維打印路徑進行比較,證明應用連通費馬螺旋線路 徑規劃算法,能夠顯著提升打印質量并降低打印時間。
(2)提出一種殘留分布均勻的減材制造路徑規劃方法 本文探索了連通費馬螺旋線的三維形式,提出了一種同時滿足全局連續,平滑 和等殘留三種特性的減材制造路徑規劃方法,該路徑的跟隨區域邊界生成,能夠顯 著提升銑削加工的表面質量和加工效率。為了使得殘留均勻分布,基于曲面方向曲 率本文提出了一種控制費馬螺旋線路徑間距的方法生成等殘留連通費馬螺旋線。 通過實際的加工實驗與已有的路徑規劃方法的對比,表明本文方法對加工效率和 質量的提升作用。
(3)提出一種封閉自由曲面數控加工的裝夾規劃方法 已有的裝夾規劃方法主要處理基本幾何圖元組成的 CAD 模型,本文提出了一 個針對封閉自由曲面模型數控加工的自動裝夾規劃方法。基于可達性分析,將裝夾規劃問題定義為一個帶方向標簽的區域分割問題。考慮定軸加工的約束,應用圖割 理論將輸入模型預分割為高度場子區域。之后通過求解一個可達性分析相關的最 小覆蓋問題,生成裝夾規劃的工件方向及其對應的加工范圍劃分。
(4)提出了一種投影半色調圖像的多孔結構燈罩模型生成方法 本文提出了一種基于光線投影的新的半色調成像技術,根據用戶給定的灰度圖 像和燈罩三維模型,通過在燈罩模型表面上設置微小孔洞調制投影圖像。對于模型 上的微孔優化其大小、位置和相對光源朝向角度,同時保證可打印性的結構約束, 使光源透過這些孔洞在投影面上形成一幅與給定圖像最相近的連續灰度圖像。
關鍵詞: 增材制造,減材制造,路徑規劃,裝夾規劃,空間填充曲線,半色調圖像
作者介紹:趙海森,山東大學交叉研究中心博士生,師從陳寶權教授。主要研究方向為計算機圖形學,智能制造。已在TOG,SIGGRAPH上發表4篇文章,在軟件學報和 Pacific Vis發表論文各1篇。曾榮獲“山東省優秀博士畢業生”,“山東大學校長獎學金”,“CAD&CG 2012優秀學生論文”等榮譽。
主題: Artificial Intelligence in Transportation
簡介:
交通是生活的基本必需品。在人類歷史上,探索更好的交通方式從來沒有停止過。近年來,拼車行業的革命和自動駕駛技術的創新每天都產生大量的交通數據。如此龐大的數據量開啟了現代智能交通的新時代。許多傳統的交通問題可以通過現代機器學習和數據挖掘方法找到更好的解決方案。本教程的目的是為參與者提供一個廣泛和全面的基礎,最近的發展和交通AI的開放問題。
交通運輸是一個非常廣泛的研究領域。本教程以全球最大的移動交通平臺滴滴出行的實際應用和需求為基礎,圍繞移動交通平臺的主題展開。我們將主題分為三類。首先是地圖服務,包括地圖匹配、交通預測、預計到達時間(ETA)和路線規劃等,為后續的決策過程提供準確的基礎信息。這些問題大多在純交通或地理信息系統的文獻中進行了研究。然而,這些都不能滿足實時移動交通平臺的準確性或效率要求。有必要以現代的觀點重新審視這些問題,并探索適應更嚴格要求的新解決方案。第二類是決策,構建核心共乘平臺。類似的問題在交通運輸以外的研究領域也得到了廣泛的研究。然而,隨著移動交通系統的新挑戰,它們被重新定義。最后一類是用戶體驗,如出行安全評估,這是移動交通平臺的獨特需求。
邀請嘉賓:
王征博士,滴滴AI實驗室研究員,滴滴智能地圖服務架構研究員。2011年獲得清華大學博士學位,2011-2014年在亞利桑那州立大學擔任研究員,2014-2016年在密歇根大學安娜堡分校擔任研究員。他獲得了多個獎項,包括KDD的最佳研究論文獎亞軍和IEEE國際社會計算會議(SocialCom)的最佳論文獎。曾擔任ICML、NIPS、SDM、IJCAI等重要會議PC委員,并在ICDM上做過輔導。他現在領導著研發團隊,致力于設計和開發新的機器學習系統和服務,用于滴滴地圖和滴滴能力預測平臺。他設計了滴滴ETA和路線規劃服務的新型機器學習和深度學習解決方案,每天服務超過200億次請求。
秦志偉博士在滴滴AI實驗室領導強化學習研究,致力于拼車市場優化的核心問題。他在哥倫比亞大學獲得運籌學博士學位,在溫哥華不列顛哥倫比亞大學獲得計算機科學和統計學學士學位。對優化和機器學習交叉領域的研究課題非常感興趣,最近的研究領域是強化學習及其在運營優化、數字營銷、交通信號控制和教育中的應用。曾在ICML、KDD、IEEE ICDM、WWW、JMLR和MPC等頂級會議和機器學習與優化期刊上發表文章。