亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在工業、研究和公共部門,信息通常存儲為已呈現的文檔(例如PDF文件、掃描件)。因此,為了實現下游任務,需要系統將這些呈現的文檔映射到具有層次結構的文本文檔上。用于此任務的現代光學字符識別(OCR)系統通常基于解析層次文檔結構和文本識別的兩個單獨階段。由于一系列的挑戰,之前缺少對文檔完整層次結構的整體、原則性的推斷方法。一個主要的挑戰是由結構解析任務的復雜性給出的,該任務包括檢測所有語義文檔實體(例如,表格、文本和圖形)以及描述它們的層次嵌套和閱讀順序的實體之間的關系。此外,系統組件中不連續的設置和使用啟發式方法妨礙了在實際場景中的訓練、應用和適應。另外,為基于學習的系統注解訓練樣本非常耗時且昂貴。在這篇論文中,我們通過構建可擴展的系統來解決這些問題,這些系統允許統一的端到端文檔解析和光學字符識別。具體來說,這篇論文提供了以下貢獻:

  1. DocParser:一個端到端的系統,用于解析文檔中的(i)實體(例如,圖形、文本塊、頁眉)和(ii)捕獲實體之間的序列和嵌套結構的關系。此外,我們提供了一個免費可訪問的數據集,用于評估層次文檔結構解析。最后,我們為域特定數據稀缺的設置提供了一個可擴展的學習框架。我們使用一種新的弱監督方法來解決這個問題,該方法顯著提高了文檔結構解析的性能。

  2. 文檔結構生成器(DSG):一個全新的文檔解析系統,可以完全從端到端訓練。之前的文檔結構解析系統受到啟發式方法的限制,不能從端到端訓練。DSG的端到端訓練使其對實際應用非常有效和靈活。此外,我們的DSG使用hOCR標記語言生成結構化的文檔輸出文件,允許無縫集成到現有的文檔存儲和處理工作流程中。我們還貢獻了一個新的、大規模的、公開可用的數據集,名為E-Periodica,其中包含具有復雜文檔結構的實際雜志,用于評估。我們的結果表明,我們的DSG在層次文檔解析任務上達到了最先進的性能。據我們所知,我們的DSG系統是第一個用于層次文檔解析的端到端可訓練系統。

  3. LayTr:一個基于transformer的系統,用于聯合結構解析和文本識別。現代最先進的OCR系統仍然在很大程度上依賴于解析文檔結構和識別文本的單獨處理階段。這在當前的端到端OCR系統中導致了幾個限制。必須單獨訓練和適應各個組件,端到端系統評估具有挑戰性,且在兩個階段都不能共同使用結構和語言信息進行有效的文本識別和錯誤緩解。LayTr可以完全從端到端訓練,直接從具有復雜布局的文檔圖像預測標記的文本。我們采用專門為端到端OCR任務量身定做的評估,并顯示我們的系統在基準數據集上超越了最先進的商業和開源系統的性能。

付費5元查看完整內容

相關內容

在自然語言處理(NLP)中,許多任務涉及結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對于人類和機器的下游任務和分析都有益處。為了獲得自動化模型,主要范式是以數據驅動的監督學習方式進行。在這個范式中,主要的瓶頸是手動注釋數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新場景,比如不同的領域或語言。如果訓練實例不足以涵蓋目標場景,模型性能可能會顯著下降,而在所有這些新情況下注釋大量數據實例是昂貴且低效的。 為了減輕這個問題并減少結構化預測模型對大量注釋的依賴,我們需要考慮模型和數據兩個方面,這是數據驅動機器學習的主要驅動力。與這些核心方面相關,我們探討了三個方向。首先,我們研究模型設計中的結構化建模,其中涉及如何對復雜的結構化輸出進行建模和預測。這對于結構化預測任務特別重要,因為這些任務通常具有大的輸出空間。此外,在模型和數據的交互方面,我們研究了遷移學習,其中利用相關數據來幫助低資源的目標任務。在這種情況下,如何設計更不受源數據和目標數據之間差異影響的模型對于遷移的成功也至關重要。最后,我們探討主動學習,重點關注數據本身。當資源有限時,很難獲得大量注釋的實例,但注釋一小部分實例是可行的。通過選擇信息量豐富的實例集的策略,可能只需要較少的手動注釋就可以實現令人滿意的性能。

這篇論文包括三個部分,對應這三個方向。在第一部分中,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級別的完全匹配和更高效的模型方面帶來了好處。我們進一步將分析擴展到低資源情景,并研究結構約束與訓練數據規模之間的交互作用。在第二部分中,我們研究了一系列相關的結構化任務,并發現來自相關數據的監督,例如來自相同任務但不同語言(跨語言學習)以及來自相關任務(多任務學習)的監督,可以是有益的,尤其是在利用那些對源數據和目標數據差異關注較少的模型時。最后,在第三部分中,我們對NLP中的結構化預測進行了系統的主動學習研究。特別是,我們分析了使用部分結構進行注釋和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與使用主動學習數據池中未標記實例的自訓練相結合,可以帶來進一步的改進。

付費5元查看完整內容

在自然語言處理(NLP)中,許多任務都涉及到結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對下游任務和人類與機器的分析都是有益的。為了獲得自動模型,主要范式是采用數據驅動的監督學習方式。在這種范式中,主要的瓶頸是手工標注數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新的場景,例如在不同的領域或語言中。如果訓練實例不足以覆蓋目標場景,模型的性能可能會大幅下降,而在所有這些新情境中標注大量的數據實例又是昂貴且低效的。

為了緩解這個問題并減少結構化預測模型對大量標注的依賴,我們需要考慮模型和數據的兩個方面,這些是數據驅動機器學習的主要動力。關于這兩個核心方面,我們研究了三個方向。首先,我們研究了模型設計中的結構化建模,這涉及到如何對復雜的結構化輸出進行建模和預測。這對于通常具有大輸出空間的結構化預測任務尤為重要。此外,在模型和數據的交互上,我們研究了遷移學習,其中相關數據被用來幫助低資源目標任務。 在這種情況下,如何設計對源數據和目標數據資源之間的差異更不敏感的模型對于轉移的成功也是至關重要的。最后,我們探索了有關數據本身的主動學習。當資源有限時,很難獲得大量的標注實例,但標注一小部分是可行的。通過選擇一個有信息量的實例集,可能需要更少的手工標注就能達到令人滿意的性能。這篇論文包括三部分,對應這三個方向。在第一部分,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級完全匹配上帶來了好處,并有更高效的模型。我們進一步擴展了對低資源場景的分析,并研究了結構約束和訓練數據大小的交互。在第二部分,我們研究了一系列相關的結構化任務,發現從相關數據(例如來自同一任務但在不同語言中的數據(跨語言學習)和來自相關任務的數據(多任務學習))得到的監督可以是有益的,特別是如果使用那些對源和目標差異關心較少的模型。最后,在第三部分,我們對NLP中的結構化預測的主動學習進行了系統性的調查。特別地,我們分析了使用部分結構進行標注和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與自學習結合,使用來自主動學習數據池的未標注實例可以帶來進一步的改進。

付費5元查看完整內容

異常檢測(AD)算法在需要量化風險的領域中被廣泛用于基于數據的決策支持,例如在公共健康保險中識別欺詐的醫療提供者、消費者貸款以及檢測人類腦電圖(EEG)記錄中的異常模式。然而,由于數據模態的多樣性(例如時間序列或結構數據)、數據規模、學習和評估的真實標簽不可用,以及為特定領域問題產生人類可解釋結果的難度,因此在決策支持中的AD具有挑戰性。本文提出了應對這些挑戰并構建具有以下期望屬性的智能檢測系統:無監督、可解釋、可擴展和公平。在整個過程中,我們提出了新穎的AD算法,通過解決特定領域的關鍵挑戰,如包括領域或專家知識、減少可能對少數群體產生不利影響的偏見,以及處理涉及一組行為者的異常行為,從而實現更好的決策支持。我們在公共醫療欺詐和健康監測方面展示了應用。

在這篇論文中,我研究了高風險領域(如公共健康和福祉、臨床決策支持、金融)基于數據的決策支持中的挑戰和機會。特別是,這篇論文重點研究了無監督和可解釋的異常檢測(AD)技術的開發,以增強人類的決策能力。無監督的AD技術識別罕見的事件和偏離描述正常行為的基礎數據分布的觀察。AD在需要量化風險的領域中有應用,例如在公共健康保險中識別欺詐的醫療提供者(Shekhar, Leder-Luis, and Akoglu, 2023)和檢測人類腦電圖(EEG)記錄中的異常模式(Lee, Shekhar, Faloutsos, Hutson, and Iasemidis, 2021)。然而,由于數據模態的多樣性(如時間序列或結構數據)和數據規模、學習和評估的真實標簽不可用,以及為特定領域問題產生人類可解釋結果的難度,因此在決策支持中的AD具有挑戰性。因此,論文的目標是建立具有以下有助于決策支持的期望屬性的智能檢測系統:1. 無監督檢測免除了人類專家費時的標記需求。2. 可解釋的工具對用戶友好,并幫助人類專家進行調查、驗證和決策。3. 公平的檢測避免了對邊緣化群體的不公正影響,因為AD的偏見可能導致因其作為統計上的少數群體而對社會少數群體(如種族、性別等)進行不公正的標記,而少數群體的身份并不代表風險。為了實現這一總體目標,論文工作分解為主要在異常檢測、可解釋的機器學習和決策支持的實際數據挖掘應用中作出貢獻的算法。

(A) 算法

第2章基于(Shekhar和Akoglu, 2018)提出了一個新穎的異常檢測方法,該方法利用特權信息來提高無監督學習方法的準確性。假設我們的目標是根據手術前可用的信息x估計手術三周后的風險性。經典的檢測器使用x學習標記風險病人的規則。但是,對于之前接受過手術的患者,存在關于手術期間的程序和并發癥的信息,或手術后的一兩周等。這種特定案例的知識的可用性相當普遍,而傳統的檢測器忽略了這些。由于這種領域知識只用于學習,而新的數據點(手術前的患者)不可用,所以它被稱為特權信息(PI)。我們分析了如何增加領域知識可以幫助異常檢測,不僅在測試時PI不可用(如傳統設置)時,而且當測試時策略性和自愿地避免使用PI時。我們展示了如何將PI整合到基于集成的檢測器中,并提出了SPI,它在特權空間構建知識框架/片段(特別是密度估計),并通過只使用測試示例可用的部分信息的“模仿”函數將它們轉移到異常評分空間。 第3章基于(Shekhar, Shah, 和 Akoglu, 2021)提出了一個框架,用于在確保數據集中的不同子組的公平性的同時檢測數據集中的異常。異常檢測器被設計成準確地發現數據中稀有、統計上的少數樣本,希望異常性反映風險性。對于一個由種族/民族/性別/年齡等定義的少數群體,樣本大小根據定義是小的,這與AD算法相矛盾。然而,當少數群體的身份(例如亞洲人)不反映正類的成員身份(例如欺詐)時,AD產生不公正的結果,過多地將來自少數群體的實例標記為異常。我們討論了AD中的偏見來源及其對少數群體的影響,以及哪些公平的概念適用于AD,這些概念可以減輕傳統AD中的偏見。公平AD的一個關鍵挑戰是缺乏評估的真實標簽。我們解決了公平AD的挑戰,并設計了FairOD,針對AD的公平標準,包括統計平等、治療平等和機會均等。

第4章基于(Lee, Shekhar, Faloutsos, Hutson, 和 Iasemidis, 2021)提出了一個新穎的、通用的框架GEN2OUT,用于發現和排名通用異常,以協助領域專家進行決策,例如,引起臨床醫生對癲癇患者的多變量EEG記錄中的奇異腦活動的注意。我們描述了在多變量時間序列數據中可能出現的通用(點和組)異常,例如在癲癇發作期間的EEG記錄,因為癲癇發作是一系列的時空活動爆發。本章設計了一個算法來分配和比較孤立尖峰和尖峰組的分數,允許檢測領域專家可能感興趣的可疑事件。

(B)應用

第5章基于(Shekhar, Leder-Luis和Akoglu, 2023)開發了檢測醫療過度開單或欺詐的新工具。美國聯邦政府每年在醫療保健上花費超過一萬億美元,這些主要由私人第三方提供并由政府報銷。在這一系統中,主要的關注點是供應商的過度開單、浪費和欺詐,因為他們面臨著為了獲得更高的支付而錯誤報告自己的索賠的激勵。我們開發了一個基于集成的無監督多視圖檢測器,使用大量的Medicare索賠數據,包括不同的模態 - 包括患者的醫療史、提供商的編碼模式和提供商的開銷 - 來檢測與欺詐一致的異常行為。我們結合了來自多個無監督異常檢測算法的證據,這些算法使用不同類型的全局和局部分析 - 估計醫院對患者支出的影響,識別醫院使用與常規不同的少數ICD代碼,以及比較醫院在DRGs上的分布與其同行 - 使用這些我們創建了一個最終的可疑性排名。第6章基于(Shekhar, Eswaran, Hooi, Elmer, Faloutsos和Akoglu, 2023),提出了一個可以幫助預測健康結果的框架。在醫療領域,描述ICU中患者的狀態可以幫助預測患者的健康結果,并允許醫院重新分配他們的資源給需要的患者,從而在相同的時間內總體上實現更好的健康結果。關鍵的因素是這種預測的準確性,因為錯誤地預測不利的健康結果(例如,撤回維持生命的治療)可能會妨礙ICU中的公平決策,并可能使醫院面臨非常昂貴的訴訟。我們與臨床醫生合作,更好地理解問題設置,并設計一個對專家做決策有用的解決方案。為此,本章引入了BENEFITTER,它通過成本/效益框架統一了早期和準確性 - 由于觀察更多的數據可以實現更好的預測準確性,這是相互競爭的目標 - 并共同優化預測的準確性和早期性。盡管事件檢測任務由于基礎應用數據的性質而受到監督,但重點是有效性和可解釋性。最終,我們不提議一個自主的算法,而是為專家提供比現在可能的更準確和更及時的信息,協助他們進行決策。

付費5元查看完整內容

從壓縮相機到弱光攝影,許多計算成像系統的一個關鍵方面是用于從編碼或噪聲測量中發現信號的算法。一些計算相機將高維信息(例如不同波長的光、3D、時間)編碼到二維傳感器上,然后使用算法解碼和恢復這種高維信息。另一些捕獲的測量值極具噪聲或退化,需要算法來提取信號并使圖像可供人們使用,或供更高級別的下游算法使用。在每種情況下,用于解碼和從原始測量中提取信息的算法對于使計算攝像機發揮作用至關重要和必要。多年來,從計算攝像機中恢復信息的主要方法,經典方法都是基于最小化由數據項和精心挑選的先驗項組成的優化問題。最近,深度學習已被應用于這些問題,但往往無法納入已知的光學特性,需要大型訓練數據集,并導致無法輕松解釋的黑盒模型。本文提出基于物理信息的機器學習的計算成像,這是一種將經典方法的元素與深度學習相結合的中間方法。本文展示了如何將成像系統物理學的知識納入神經網絡,以提高圖像質量和性能,超出幾個計算相機的經典或深度方法的可行性。本文展示了幾種將成像物理納入神經網絡的不同方法,包括算法展開、可微光學模型、無監督方法以及通過生成式對抗網絡。對于這些方法中的每一種,都專注于具有獨特挑戰和建模考慮的不同計算相機。引入了一個展開的、基于物理的網絡,提高了無鏡頭相機的質量和重建時間,改善了這些相機,并在各種場景中顯示出逼真的圖像質量。在此基礎上,本文展示了一種新的重建網絡,可以將具有空間變化模糊度的壓縮單次3D顯微鏡的重建時間提高1600倍,從而實現場景的交互式預覽。在難以獲得訓練數據的情況下,未經訓練的物理信息網絡可以提高壓縮單次視頻和高光譜成像的圖像質量,而不需要訓練數據。設計了一種物理信息噪聲發生器,可以在極高增益、低照度設置下真實地合成噪聲。使用這個學習到的噪聲模型,我們展示了如何推動相機超過其典型的極限,并首次在星光級別的照明下拍攝逼真的視頻。每個案例都強調了使用基于物理學的機器學習如何改善計算相機并將其推向極限。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

從社交網絡到Web和大腦結構,圖是各種系統的一種自然表示。即使當數據沒有顯式地相互連接時,將其轉換成圖表以便進一步分析通常也是很方便的。許多涉及圖的任務,如鏈接預測、社區檢測和分類,依賴于圖中節點或圖整體之間的各種相似度定義。然而,這種相似性大多是隱式的,這意味著物體在某些空間中不被特征向量表示。相比之下,現代機器學習方法要求明確表示歐幾里得空間中的對象。為了在圖數據上利用機器學習的能力,我們必須具有適當的圖的顯式表示。

本論文研究針對圖結構數據表示的有效的算法。我們關注的是算法的可擴展性,因為它們必須有能力處理Web大小的圖,以能夠應對實踐。局部圖算法具有這種能力; 我們引入可擴展的局部算法來表示節點,邊,和整個圖作為向量在歐氏空間。通過潛在相似性來研究表征,使我們能夠闡明以前的工作,并將非常理想的特性引入我們提出的模型。值得注意的是,我們介紹了第一個隨時表示圖節點的算法。對于整個圖的情況,我們提出了表示,它使圖的多尺度比較和其局部逼近的方法。我們通過實驗驗證了我們的方法并沒有為了算法的可擴展性而犧牲表示的表達性。我們介紹了圖分析的新應用,并在具有數十億節點的大規模圖上使用我們的方法。

//bonndoc.ulb.uni-bonn.de/xmlui/handle/20.500.11811/9119

付費5元查看完整內容

深度學習方法是最近計算機視覺快速發展的基礎。然而,這些方法往往需要昂貴的標記數據。特定于任務的模型,如分類器,并不是為了最大限度地學習一般的內部表示。此外,這些模型不能模擬數據生成過程來合成新樣本,也不能修改輸入樣本。無監督深度生成模型有可能避免這些問題。

然而,兩個主要的生成模型家族,生成對抗網絡(GAN)和變分自編碼器(VAE),都有各自的特點問題。基于GAN的模型在架構上相對復雜,有一個識別器網絡,但通常沒有編碼器來接受輸入。此外,GAN訓練通常是不穩定的,并且容易忽略訓練分配的部分(“模式崩潰”或“模式下降”)。另一方面,VAEs往往高估分布的某些區域的方差,導致生成的圖像模糊。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。

最后,使用高斯過程框架,圖像編碼器-解碼器設置從單個圖像擴展到圖像序列,包括視頻和攝像機運行。為此,輔助圖像元數據在生成模型的潛在空間中以非參數先驗的形式被利用。這允許平滑和自由插值圖像序列。在此過程中,高斯過程和計算機視覺方法之間提供了一個優雅的連接,這意味著將兩者結合起來具有深遠的意義。

//aaltodoc.aalto.fi/handle/123456789/101686

付費5元查看完整內容

隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。

付費5元查看完整內容
北京阿比特科技有限公司