亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態人機交互旨在利用語音、圖像、文本、眼動和觸覺等多模態信息進行人與計算機之間的信息交換。在生理心理評估、辦公教育、軍事仿真和醫療康復等領域具有十分廣闊的應用前景。本文系統地綜述了多模態人機交互的發展現狀和新興方向,深入梳理了大數據可視化交互、基于聲場感知的交互、混合現實實物交互、可穿戴交互和人機對話交互的研究進展以及國內外研究進展比較。本文認為拓展新的交互方式、設計高效的各模態交互組合、構建小型化交互設備、跨設備分布式交互、提升開放環境下交互算法的魯棒性等是多模態人機交互的未來研究趨勢。

受益于物聯網的發展,人機交互設備在人們的 日常生活中得到了廣泛應用。 近年來,計算機視覺、 手勢識別和人工智能等技術蓬勃發展,頭戴式設備、 顯示屏和傳感器等硬件技術取得了明顯的進步,人 機交互不再局限于單一感知通道(視覺、觸覺、聽 覺、嗅覺和味覺)的輸入輸出模態(Bourguet,2003)。 多模態人機交互旨在利用語音、圖像、文本、眼 動和觸覺等多模態信息進行人與計算機之間的信息 交換。 其中包括人到計算機的多模態信息輸入與計 算機到人的多模態信息呈現,是與認知心理學、人機 工程學、多媒體技術和虛擬現實技術等密切相關的 綜合學科。 目前,多模態人機交互與圖像圖形領域 中的各類學術和技術聯合得越來越緊密。 多模態人 機交互技術作為人—機—物的技術載體,在大數據 與人工智能時代,其學術和技術發展前沿與圖像圖 形學、人工智能、情感計算、生理心理評估、互聯網大 數據、辦公教育和醫療康復等領域發展息息相關。 多模態人機交互研究最早出現在 20 世紀 90 年代, 多項工作提出了將語音和手勢融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近幾年,沉浸式可視化( Jansen 等,2014)的 出現為人機交互提供了一個新的多模態交互界面: 一個融合了視覺、聽覺和觸覺等多個感知通道的沉 浸式環境。

在學術 界, 多 模 態 人 機 交 互 的 學 術 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等國際 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會議呈現穩步增長,創新成果層 出不窮。 在產業界,語音、人臉和手勢等新型交互的應用 從噱頭轉趨理性,聚焦于車載、直播等特定場景。 觸 屏搭配一種新模態的交互方式,是當前多模態交互 產品落地的主要形態。 增強現實等新型輸出/ 顯示 模態的技術逐漸成為未來多模態人機交互產品新的 主要場景。 各國政府高度重視多模態人機交互。 在“十三 五”期間,我國設立多項重大重點項目支持多模態 人機交互方向的研究。 例如,國家重點研發計劃項 目“基于云計算的移動辦公智能交互技術與系統”、 “多模態自然交互的虛實融合開放式實驗教學環 境”等。 美國海軍開始構建下一代艦艇多模態人機 交互模式,采用全息化的指揮模式,通過佩戴視覺和 觸覺傳感器對艦船進行控制。 英國海軍公布的 T2050 未來水面艦艇概念,以多模態人機交互的方 式,有效提高工作效率。

本文旨在綜述多模態人機交互的最新進展,幫 助初學者快速了解和熟悉多模態人機交互領域;對 多模態人機交互方式進行分類整理,幫助該領域的 研究者更好地理解多模態人機交互中的各種技術; 對多模態人機交互領域面臨的機遇和挑戰進行梳 理,啟發相關研究者做出更有價值的多模態人機交 互工作。 本文將從多模態信息輸入與多模態信息輸出兩 方面對多模態交互技術進行綜述。 其中,多模態信 息輸入過程涉及可穿戴交互技術以及基于聲場感知 的輸入交互技術。 多模態信息呈現過程涉及大數據 可視化交互技術、混合現實交互技術以及人機對話 交互技術。 下面分別從大數據可視化交互、基于聲 場感知的交互、混合現實實物交互、可穿戴交互和人 機對話交互 5 個維度介紹多模態人機交互的研究進 展。 內容框架如圖 1 所示。

付費5元查看完整內容

相關內容

隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上都大幅提升。受人類感知方式的啟發,多種媒體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學、深度估計等方面有廣泛的應用。盡管多模態數據在描述事物特征時有著明顯的優勢,仍面臨著較大的挑戰。首先,受到不同成像設備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;其次,多模態數據需要匹配成對用于研究,任一模態的缺失都會造成可用數據的減少;同時,圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使得目前本領域的技術尚待攻關。本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息、樣本質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。并且,介紹了數據受限前提下的多模態學習方法使用的數據集(包括SUNRGB+D、SYSU-MM01 等)及其應用方向(包括人體姿態估計、行人重識別等),比對分析了現有算法的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。

模態是事物的一種表現形式,是對事物某特 定角度的描述。多模態通常包含兩個或者兩個以 上的模態形式,是指從多個視角出發對事物進行 描述。人們在感知世界時,多種感官總是同時接 收外在信息,如看見圖像、聽見聲音、聞到氣味 和觸摸感知等。隨著多媒體技術的發展,可獲取 的媒體數據在種類和量級上都大幅提升。例如, 傳感器不僅可以生成圖像或者視頻,還包含與之 匹配的深度、溫度信息等。為使人工智能技術更 好地解譯數據,必須使人工智能具有多模態學習 的能力。在人工智能技術的早期研究中,學者通常使 用單一模態的數據。受到人類感知方式的啟發, 研究認為每個模態對事物的描述具有相對獨立性, 使用多模態數據的互補表述能夠使事物呈現更立 體、表現更全面(Baltru?aitis 等,2019)。近年來,多模態數據的處理和應用成為重點研究方向,在情感分析、機器翻譯、自然語言處理和生物醫學等前沿方向取得了重要突破。計算機視覺是深度學習的重要應用領域和熱點研究問題,本文重點圍繞多模態在計算機視覺領域的發展進行介紹。如圖 1 所示,計算機視覺領域內的多模態學習主要是通過對圖像、視頻等多模態數據進行分析,學習并互補不同模態間的信息,實現圖像檢測識別、語義分割、視頻動作預測等任務(Liu等,2015a; Eigen 和R. Fergus, 2015),并廣泛應用于自動駕駛、農業監測、生物醫療、交通管理和災難預測等領域。如在醫學領域,醫學影像作為醫療診斷的重要依據,相較于單角度描述病灶特征的圖像,多模態醫療影像能有效輔助醫生從多個層面聯合判斷病灶及其周邊部分,加快診斷時間;在遙感領域,單傳感器依據設備特點從某種固定的角度描述地理目標,獨立分析時會受到成 像原理限制,而對不同成像方式、不同傳感器獲取 到的多模態遙感影像進行分析,可以有效提取地物 目標的綜合信息。

盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。首先,雖然成 像技術層出不窮,但其同步帶來的圖像、視頻數據 的處理和標注任務有著不容忽視的工作量,需要耗 費較多的時間成本和人力資源。其次,傳統深度學 習模型需要將多模態數據匹配成對用于研究,任一 模態的缺失都會造成可用數據的減少。同時,由于 使用目的是利用多模態互補的特性,因此對數據內 部的完整度要求較高,但受到不同成像設備和傳感 器的限制,數據量少、質量模糊和缺失現象嚴重, 這些現象都會對后續的研究造成不利影響。因此, 在數據受限的前提下進行的多模態處理研究具有重 要的現實意義。面對以上的難點問題,根據多模態樣本數量、 標注信息、樣本質量等不同的維度,目前處理多模 態數據受限的方法主要分為以下幾類:

  1. 小樣本學習方法。在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。
  2. 缺乏強監督標注信息的方法。由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。常見的非完全 監督的方法有基于弱監督、無監督、半監督、自監 督的學習方法,這些方法可以有效改善模態缺乏標 注信息的問題,大大減少人工標注成本。
  3. 主動學習方法。該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。
  4. 數據去噪方法。在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興 趣的信息。
  5. 數據增強。在樣本較少的前提下,為進行 有限多模態數據的充分利用,數據增強方法通過對 原始數據集進行一系列變換操作,擴張數據的可使用性。

本文主要對數據受限下的多模態數據處理方法進行綜述。在此之前,本文作者對相關領域進行了研究,在多模態學習、小樣本學習、弱監督學習、主動學習、數據去噪和增強等方面進行了深入調研。Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習的進展,并對多模態機器學習方法進行分類,但沒有介紹具體的應用場景。Wang 等人(2020b)從網絡架構的角度介紹了多模態模型,但沒有討論多模態數據本身的特點。Ramachandram等人(2017)對多模態深度學習現狀進行了總結,并提出網絡體系結構的設計應該考慮融合模式、模態信息和對缺失的數據或模態的處理,但沒有詳細綜述目前處理缺失數據以提高模型的魯棒性的方法。Gao等人(2020)總結了具有代表性的處理異構數據的深度學習網絡架構,并認為一些深度學習模型只關注單模態噪聲數據,未來迫切需要解決針對低質量多模態數據的深度學習模型。上述的綜述缺乏對數據受限條件下多模態數據發展的詳細介紹。Wang等人(2020a)綜述了近年來小樣本學習方法的進展,并進行統一分類。Zhou 等人(2018)綜述了弱監督學習的一些研究進展。Settles 等人(2011)回顧了將主動學習應用于實踐遇到的挑戰,并介紹為解決挑戰所做的工作。但上述文獻都僅基于單模態數據進行總結,并沒有關注多模態數據背景問題。針對在數據受限條件下多模態數據處理面臨的各種挑戰和難題,已有研究者提供了一些解決思路,但是尚未形成相關的綜述文獻。因此,本文總結了數據受限條件下多模態分析處理的研究方法和進展,以及多模態數據在不同領域的應用情況。首先闡述了多模態數據在計算機視覺方向的研究現狀與數據受限的難題挑戰,介紹了對不同數據受限情況的處理方法,幫助讀者熟悉和了解該研究的背景和目的。然后分類闡明不同數據受限處理方法的現狀與研究方法,區分不同的受限情況所面臨的困難和挑戰。最后對多模態數據的各個應用領域的典型數據集進行介紹,總結目前的研究成果,能夠啟發未來多模態的應用前景,展望下一步研究方向。

付費5元查看完整內容

近年來,手勢作為一種輸入通道,已在人機交互、虛擬現實等領域得到了廣泛的應用,引起了研究者的關注.特別是隨著先進人機交互技術的出現以及計算機技術(特別是深度學習、GPU并行計算等)的飛速發展,手勢理解和交互方法取得了突破性的成果,引發了研究的熱潮.綜述了動態手勢理解與交互的研究進展與典型應用:首先闡述手勢交互的核心概念,分析了動態手勢識別與檢測進展;而后闡述了動態手勢交互在人機交互中的代表性應用,并總結了手勢交互現狀,分析了下一步的發展趨勢.

//www.jos.org.cn/jos/article/abstract/6217

付費5元查看完整內容

本文針對多模態情緒識別這一新興領域進行綜述。首先從情緒描述模型及情緒誘發方式兩個方面對情緒識別的研究基礎進行了綜述。接著針對多模態情緒識別中的信息融合這一重難點問題,從數據級融合、特征級融合、決策級融合、模型級融合4種融合層次下的主流高效信息融合策略進行了介紹。然后從多種行為表現模態混合、多神經生理模態混合、神經生理與行為表現模態混合這3個角度分別列舉具有代表性的多模態混合實例,全面合理地論證了多模態相較于單模態更具情緒區分能力和情緒表征能力,同時對多模態情緒識別方法轉為工程技術應用提出了一些思考。最后立足于情緒識別研究現狀的分析和把握,對改善和提升情緒識別模型性能的方式和策略進行了深入的探討與展望。

//tis.hrbeu.edu.cn/oa/darticle.aspx?type=view&id=202001032

情緒,是一系列主觀認知經驗的高度概括,由多種感覺、思想和行為等產生的生理心理狀態。人們在交流過程中無時無刻不傳遞著大量的情緒信息。從認知神經科學角度來看,情緒也屬于經典認知的一種。情緒在人與人之間的溝通中意義重大,而在人機交互中,情緒識別是實現人性化必不可少的部分。

1995年,Picard等[1]提出了“情感計算”,情感計算要賦予計算機像人一樣的觀察理解和生成情感特征的能力,最終使得計算機像人一樣進行自然親近和生動交互。情感計算逐漸演變成高級人機交互的關鍵技術,而情感計算的子領域情緒識別更是人工智能領域中日益受到重點關注的研究方向。

情緒識別應用領域非常廣闊,涉及日常生活的方方面面。在醫學領域[2-3],情緒識別能為精神疾病的診斷治療提供依據。比如在意識障礙的診斷上,利用標準的行為量表不容易檢測患者的意識狀態,而計算機輔助評估意識障礙患者的情緒能幫助醫生更好地做出診斷和治療;在遠程教育領域[4-5],學生佩戴具有情緒識別功能的便攜設備,以便教師可以監控學生在遠程授課過程中的情緒狀態,從而調整授課的進度和方式。在交通領域中[6-7],對于那些需要高度集中注意力進行操作的工作人員,例如宇航員、長途旅行客車司機、飛行員等,他們的憤怒、焦慮、悲傷等負面情緒會嚴重影響他們的專注度,導致操作水平下降,造成交通事故的發生[8]。及時檢測這類人員的情緒狀態是避免事故發生的一種有效手段。

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司