亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

為了進一步推進深度學習技術驅動的視覺語音生成相關科學問題的研究進展,闡述了視覺語音生成的研究意義與基本定義,并深入剖析了該領域面臨的難點與挑戰;在此基礎上,介紹了目前視覺語音生成研究的現狀與發展水平,基于生成框架的區別對近期主流方法進行了梳理、歸類和評述;最后探討視覺語音生成研究潛在的問題和可能的研究方向。本質上是視覺和聽覺雙模態的。視覺語音是指 語音信號在視覺域的表現形式,即人在說話時 產生的嘴唇、舌頭、牙齒、下巴以及其他面部肌 肉的自發運動[1] ,而音頻語音則是指說話者所 發出的聲波波形。1976年,著名的“麥格克效 應”[2] 表明,人類的語音感知是一種感性認知現 象,不僅只取決于聽覺信息,還會受到嘴唇運動 等視覺線索的影響。因此,不可否認對視覺語 音的研究有助于提升人類對語音感知的主觀舒 適度,特別是對于遭受聽力受損或聽力障礙的 人群。 作為計算機視覺、計算機圖形學和多媒體 領域的一個基本且具有挑戰性的課題,視覺語 音生成(visualspeechgeneration,VSG)近年來受 到越來越多的關注,因為它在許多新興應用中 發揮著重要作用。其典型的學術和現實應用包 括說話人識別與驗證[3] 、醫療救助、公共安全、 視頻壓縮、影視娛樂、人機交互、情感理解[4-5] 等。例如:在公共安全領域,視覺語音可以應用 于人臉偽造檢測[6] 和活體檢測[7] 。在人機交互 中,視覺語音可以作為一種新型交互信息,提 高交互的多樣性和魯棒性[8-9] 。在影視娛樂 領域,VSG技術可以在虛擬游戲中生成語音驅 動的個性化 3D虛擬角色[10] ,以及為電影后期 制作(如視覺重配音)實現高保真度的視和序列建模。在傳統機器學習方法占主導地位的 時代,視覺語音的表征方法如視素[12-13] 、唇部幾 何描述符[14] 、線性變換特征[15] 、統計表示[16]等, 以及序列建模方法如高斯過程動力學模型[17] 、隱 馬爾可夫模型[18](hiddenMarkovmodel,HMM)、 決策樹模型[19] 等被廣泛應用于 VSG研究。自深 度神經網絡(deepneuralnetworks,DNNs)在圖像 分類任務中取得重大突破[20] 以來,絕大多數計算 機視覺和自然語言相關問題的研究熱點都聚焦在 深度學習方法上,包括 VSG問題。2016年,基于 深度學習的 VSG方法[21] 在性能上大幅度超越傳 統方法,引領 VSG進入深度學習時代。同時,大 規模音視數據集[22-25]的不斷涌現也進一步推動 了深度學習驅動的 VSG研究。因此,本文主要關 注基于深度學習的 VSG方法。視覺語音技術從 2016年至今的里程碑工作如圖 1所示,包括具有 代表性的深度 VSG方法以及相關的音視基準數據的進展,但不可否認 VSG的研究仍處于早期階 段,尚未達到滿足實際應用的水平,許多問題仍待 解決。因此,系統性地回顧該領域的最新進展,總 結阻礙其發展的主要挑戰和未解決的問題,并探 討和挖掘有潛力的發展方向是非常有價值的。 Mattheyses等[26] 廣泛而全面地對音視語音生成進 行了總結和討論。我們建議讀者參考該論文以了 解視覺語音生成在 2015年之前的詳細發展歷程。 本文在其基礎上,聚焦于深度學習驅動的 VSG研 究進展。Chen等[27] 對說話人身份獨立的 VSG方 法進行了綜述。以身份信息保留、音視同步以及 視覺質量三個核心需求為牽引,對相關方法進行 了討論分析,并為其設計了性能評估基準。他們 的核心貢獻在于提出并定義了明確的評估標準, 而非 VSG方法的全面討論和總結。總之,已有 VSG綜述調研性的工作在時效性、前瞻性、統籌 性等方面尚有不足。因此,本文旨在進一步填補 該領域綜述調研上的空白。 本文對當前 VSG的基本定義和研究意義、所 面臨的難點與挑戰、主流的深度學習驅動方法進 行了系統性的介紹、闡述和歸納。并于文末探討 了研究潛在的問題及未來可能的研究方向,以期 進一步推動與此相關問題的研究。

付費5元查看完整內容

相關內容

神經網絡架構搜索旨在針對不同任務,自動化地搜索得到性能最優的神經網絡結構,是深度學習、計算機視覺技術結合當前現實需求應運而生的一大重要科學問題。對近年來神經網絡架構搜索研究進行梳理、歸類和評述;闡述神經網絡架構搜索的定義和意義,全方位剖析當前研究所面臨的難點與挑戰;以此為基礎,對主流的搜索策略進行闡述和歸納;探討研究潛在的問題及未來頗具潛力的研究方向,以期推動該領域的進一步發展。

以深度神經網絡[1-2]為代表的人工智能技術 得以飛速發展,已從最初的計算機視覺[3-6]和語 音識別[7] 領域,飛速延伸到如今自動駕駛[8] 、癌 癥檢測[9] 、機器翻譯[10] 、虛擬游戲[11-14] 、人臉識 別[15] 、地震預測[16] 、藥物發現[17] 、推薦系統、機 器人等大量科學和技術領域。僅在過去十年間, 深度神經網絡相關技術在諸多應用領域便取得了 重大突破,在部分領域,深度神經網絡甚至達到超 越人類專家的水平。

付費5元查看完整內容

通過文獻梳理、專家訪談和試驗場景構建等方法,分析了道路指定斷面和區域路網宏觀交 通流預測的國內外研究現狀和發展趨勢,歸納了局部斷面交通流預測方法,包括傳統機器學習、遞 歸神經網絡和混合模型,分析了卷積神經網絡、圖神經網絡和融合多因素網絡的特點,闡述了方法 的原理、優勢、局限性和應用場景,總結了現有場景交通數據集類別,從采樣周期與采集方式角度歸 納了國內外主流交通數據集.分析結果表明:遞歸神經網絡可以有效獲取交通數據的歷史規律,但 存在梯度爆炸、計算復雜度高、長時預測準確度不佳等問題;圖神經網絡針對路網拓撲連接關系引 入了圖結構,在考慮路網和交通流數據的時空相關性上具有明顯優勢;融合多因素網絡充分考慮天 氣、道路、事故等內外部因素的影響,有效提升了交通流預測的實時性和魯棒性;由于交通數據采集 困難、外部因素影響難以量化、機器學習方法可解釋性差等原因,交通流預測方法的改進受到了限 制;未來應從交通信息有效挖掘和圖卷積方法完善兩方面入手,拓寬圖結構在交通領域的應用和考 慮非常態交通場景,進一步揭示交通數據的內在規律,開發更準確、高效的交通流預測方法,推動交 通流預測在工業界的落地應用.

隨著城市化進程的加快以及人均車輛保有率的不斷提升,交通堵塞和交通事故已成為全球性問題,無論是發達國家還是發展中國家,現有交通系統都不可避免地存在著交通擁堵頻繁、交通事故嚴重、交通環境污染等問題。為了應對這些挑戰,許多城市致力于研究更高效的交通管理策略、更合理的交通資源分配和更優質的交通服務,特別是更精細的交通控制與誘導系統是智能交通系統(Intelligent Transportation System, ITS)研究的關鍵環節。其中,實時準確的交通狀態感知和預測是實現智能交通系統的重要環節,提前預測未來交通狀態可以為交通系統管理和規劃提供科學依據[1],交通管理部門以此制定更加靈活的交通控制策略,提前部署交通資源和引導交通流量,從而減少大規模交通擁堵現象[2];交通規劃部門可以有科學根據地進行道路改造與匝道設計,合理地部署紅綠燈、交通監控、交通標志標牌等交通設施[3];出行者基于準確的交通狀態預測信息可進行最優出行路徑和出行方案的制定。

快速發展的機器學習技術在智能交通系統中的出色表現受到了研究人員的廣泛關注[4]。在交通流預測中,傳統方法主要基于數理統計分析交通狀況演化的周期性來處理交通流預測問題。然而,由于數據時間序列分布的隨機干擾波動,限制了非線性交通流的高度可表達性,無法直接建模時間序列中交通數據的各種依賴關系。基于機器學習的交通流預測方法可以有效處理流量數據的復雜非線性問題,并且綜合考慮交通流量數據的歷史規律性和路網的空間相關性,具有較好的預測性能。目前,基于機器學習的交通流預測已經成為該領域的研究熱點。

本文綜述了機器學習在交通流預測領域的研究進展與未來發展方向。以預測空間范圍為依據對目前的交通流預測方法進行分類,重點分析了單一道路斷面和區域路網交通流預測的國內外研究現狀,從原理、優勢、局限性、應用場景和后續應用多個角度進行了闡述;從采樣周期與采集方式角度歸納了國內外主流交通數據集,對自建數據集,按照異常數據處理、缺失數據處理、數據標準化順序對數據處理的主流方法進行了概括;針對當前相關論文同質化現象進行了解釋,討論了交通數據應用領域存在的困難和挑戰,展望了未來交通流預測的主流發展方向。

付費5元查看完整內容

集成學習是機器學習的重要研究內容. 集成學習通過集成組合已有的機器學習模型, 能夠使得集成模型的性能超過其中任何的單個模型. 從集成回歸和集成分類兩個方面, 總結分析了集成學習有效性的理論依據;分析了提升集成學習多樣性的方法;分析了bagging、boosting、stacking、多核學習、集成深度學習等集成學習方法的研究進展, 并討論了集成學習未來需要關注的重點問題. 當前人工智能技術在軍事領域的應用日趨廣泛, 在目標偵察、航路規劃、輔助決策等方面已經發揮 重要作用[1-2] . 以目標偵察為例, 無人機、偵察衛星獲 取地面圖像后, 傳統作業方式需要人工讀圖, 確定地 面目標的位置和類型. 人工讀圖費時費力, 使用智能 目標偵察手段后, 可以由機器進行判讀, 顯著提升作 業效率. 在指揮控制領域, 人工智能技術對威脅分 析、態勢感知、火力籌劃、方案推演、打擊效果評 估、物資調度、身份識別等方面也具有應用價值. 機器學習是人工智能技術的重要基礎, 也是學 術界和工業界的研究熱點. 常用的機器學習模型包 括邏輯回歸、樸素貝葉斯、決策樹、支持向量機、多 層感知器、深度神經網絡等. 單個機器學習模型用于 分類或回歸任務時, 由于模型復雜度或訓練數據的 限制, 其性能往往達不到要求. 集成學習則通過已有 機器學習模型的集成組合, 能夠進一步提升性能. 在 機器學習競賽平臺 Kaggle 上, 集成模型也是研究人 員最常用的競賽模型. 文獻[3]對傳統的集成學習方 法進行了總結. 隨著多核學習以及深度學習的發展, 集成學習的研究有了很大進步. 本文結合集成學習 的最新研究成果, 對集成學習的理論和方法進行了 全面總結分析, 并對技術發展趨勢進行了展望.

付費5元查看完整內容

計算成像是融合光學硬件、圖像傳感器和算法軟件于一體的新一代成像技術,突破了傳統成像技術信息獲取深度(高動態范圍、低照度)、廣度(光譜、光場、3維)的瓶頸。本文以計算成像的新設計方法、新算法和應用場景為主線,通過綜合國內外文獻和相關報道來梳理該領域的主要進展。從端到端光學算法聯合設計、高動態范圍成像、光場成像、光譜成像、無透鏡成像、低照度成像、3維成像和計算攝影等研究方向,重點論述計算成像領域的發展現狀、前沿動態、熱點問題和趨勢。端到端光學算法聯合設計包括了可微的衍射光學模型、折射光學模型以及基于可微光線追蹤的復雜透鏡的模型。高動態范圍光學成像從原理到光學調制、多次曝光、多傳感器融合以及算法等層面闡述不同方法的優點與缺點以及產業應用。光場成像闡述了基于光場的3維重建技術在超分辨、深度估計和3維尺寸測量等方面國內外的研究進展和產業應用,以及光場在粒子測速及3維火焰重構領域的研究進展。光譜成像闡述了當前多通道濾光片,基于深度學習和波長響應曲線求逆問題,以及衍射光柵、多路復用和超表面等優化實現高光譜的獲取。無透鏡成像包括平面光學元件的設計和優化,以及圖像的高質量重建算法。低照度成像包括低照度情況下基于單幀、多幀、閃光燈和新型傳感器的圖像噪聲去除等。3維成像主要包括針對基于主動方法的深度獲取的困難的最新的解決方案,這些困難包括強的環境光干擾(如太陽光)、強的非直接光干擾(如凹面的互反射、霧天的散射)等。計算攝影學是計算成像的一個分支學科,從傳統攝影學發展而來,更側重于使用數字計算的方式進行圖像拍攝。在光學鏡片的物理尺寸、圖像質量受限的情況下,如何使用合理的計算資源,繪制出用戶最滿意的圖像是其主要研究和應用方向。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220607&flag=1

付費5元查看完整內容

基于人工智能技術的人機對話系統在人機交互、智能助手、智能客服、問答咨詢等多個領域應用日益廣泛,這極大地促進了自然語言理解及生成、對話狀態追蹤和端到端的深度學習模型構建等相關理論與技術的發展,并成為目前工業界與學術界共同關注的研究熱點之一。該文聚焦特定場景下的任務型對話系統,在對其基本概念進行形式化定義的基礎上,圍繞著以最少的對話輪次來獲得最佳用戶需求相匹配的對話內容為目標,針對目前存在的復雜業務場景下基于自然語言的用戶意圖的準確理解和識別、針對訓練數據的標注依賴及模型結果的可解釋性不足,以及多模態條件下對話內容的個性化生成這三個重大的技術問題和挑戰,對當前的技術與研究進展進行系統地對比分析和綜述,為進一步的研究工作奠定基礎。同時,對新一代的面向任務型的人機對話系統未來的關鍵研究方向與任務進行總結。

//jcip.cipsc.org.cn/CN/abstract/abstract3199.shtml

付費5元查看完整內容

在自動駕駛、機器人、數字城市、以及虛擬/混合現實等應用的驅動下,三維視覺在近年來得到了廣泛的關注。三維視覺研究主要圍繞深度圖像獲取、視覺定位與制圖、三維建模及三維理解等任務而展開。本文圍繞上述三維視覺任務,對國內外研究進展進行了詳細地綜合評述和對比分析。首先,針對深度圖像獲取任務,本文從非端到端立體匹配、端到端立體匹配及無監督立體匹配三個方面對立體匹配研究進展進行了回顧,從深度回歸網絡和深度補全網絡兩個方面對單目深度估計研究進展進行了回顧。其次,針對視覺定位與制圖任務,本文從端到端視覺定位和非端到端視覺定位兩個方面對大場景下的視覺定位研究進展進行了回顧,并從視覺同步定位與地圖構建和融合其它傳感器的同步定位與地圖構建兩個方面對同步定位與地圖構建的研究進展進行了回顧。再次,針對三維建模任務,本文從深度三維表征學習、深度三維生成模型、結構化表征學習與生成模型、以及基于深度學習的三維重建等四個方面對三維幾何建模研究進展進行了回顧,并從多視RGB重建、單深度相機和多深度相機方法、以及單視圖RGB方法等三個方面對人體動態建模研究進展進行了回顧。最后,針對三維理解任務,本文從點云語義分割和點云實例分割兩個方面對點云語義理解研究進展進行了回顧。在此基礎上,本文給出了三維視覺研究的未來發展趨勢,旨在為相關研究者提供參考。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig

付費5元查看完整內容

摘要: 深度信念網絡(Deep belief network, DBN)是一種基于深度學習的生成模型, 克服了傳統梯度類學習算法在處理深層結構所面臨的梯度消失問題, 近幾年來已成為深度學習領域的研究熱點之一.基于分階段學習的思想, 人們設計了不同結構和學習算法的深度信念網絡模型.本文在回顧總結深度信念網絡的研究現狀基礎上, 給出了其發展趨勢.首先, 給出深度信念網絡的基本模型結構以及其標準的學習框架, 并分析了深度信念網絡與其他深度結構的關系與區別; 其次, 回顧總結深度信念網絡研究現狀, 基于標準模型分析不同深度信念網絡結構的性能; 第三, 給出深度信念網絡的不同無監督預訓練和有監督調優算法, 并分析其性能; 最后, 給出深度信念網絡今后的發展趨勢以及未來值得研究的方向.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190102

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容
北京阿比特科技有限公司