亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于水下聲學的復雜性,水下模擬器并不常見。模擬是快速測試自主飛行器的有效工具,是測試和評估過程的補充。本論文的目標是為機器人應用提出一種計算效率高的前視聲納仿真模型。本論文使用點散射模型開發了單聲納波束模型,并應用了傅立葉合成和波束形成修正。將單個聲納波束連接起來,模擬前視聲納系統的視場。結果是一個聲納模擬模型,可用于已建立的 ROS Gazebo 機器人框架,作為有效測試自主水下航行器的工具。聲納模型聲學方面的未來改進包括增加混響、多路徑傳播和干擾。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

本論文旨在研究飛行員在不同模擬環境中的表現與認知、情緒、疲勞和生理的關系。本論文拓寬了對飛行員在作戰環境中非技術技能發展的理解并擴大了其可能性。論文在低保真和高保真兩種環境下對這些現象進行了研究。在研究 I 中,使用低保真模擬對商業飛行員的動態決策進行了調查。接下來,在研究二、三和四中,使用高仿真環境,重點調查了軍事背景下長時間飛行任務中的認知、情緒及其生理關聯。

研究 I 表明,低保真模擬有助于了解商業飛行員動態決策中的認知過程。使用此類模擬可幫助飛行員識別可用于不明確問題的有用信息,這對成功的決策過程至關重要。飛行員決策能力的培養可以通過使用低保真模擬來補充。這可能有利于整個決策過程,包括診斷、判斷、選擇、反饋提示和執行。

研究二、研究三和研究四表明,在評估個人心理方面的情況時,需要高保真環境,這就要求對自然環境有較高的再現水平。長時間單人駕駛飛機執行任務時,應考慮到飛行員在執行任務約 7 小時后可能會出現持續注意力下降、積極情緒減少和消極情緒增加的情況。然而,在 11 小時的飛行任務中,更復雜的認知任務的表現可能不會下降。心率變異性與情緒評級之間的關聯可能表明生理喚醒水平。這可能有助于評估飛行員在這種情況下的整體心理狀態。對飛行員在這種環境下的心理狀態進行全面評估,可能有助于飛行員做好準備,并有助于制定長時間飛行任務的計劃。

綜上所述,本論文的結論表明,適當使用低保真和高保真模擬可促進飛行員認識到適應環境變化的必要性。這促進了作為安全基本要素的應變能力。

付費5元查看完整內容

根據項目工作計劃,本進度報告概述了項目第二年開展的技術活動。更具體地說,它包括

  • 回顧全偏振三維InISAR 算法及其通過偽代碼的實現。

  • 3D InISAR 算法的性能分析。在這方面,提出并比較了兩種不同的方法,即基于相干的方法和基于跨度的方法。利用模擬數據和真實數據強調了這兩種方法的優缺點。事實上,模擬數據可以對三維重建精度進行數值量化,但也有一定的局限性,因為模擬數據無法忠實再現不同角度下的偏振目標散射機制。另一方面,真實數據是真實的(即使是在受控幾何條件下獲取的),但不能用于對重建精度進行數值量化。

  • 兩種 ATR 算法的設計和初步實施(用于初步驗證),將在項目的第三年進行全面測試。

圖 2.1: 使用基于 Pol-InISAR 的擬議方法進行三維目標形成的總體框圖。

該項目正在按照工作計劃進行。提出并比較了利用全偏振數據估算目標高度的兩種方法。通過定義合適的指標,對已實施的方法進行了仔細深入的分析。結果表明,與單偏振算法相比,在形成三維 InISAR 圖像時使用偏振信息非常有效。這些算法在模擬數據和真實數據上都進行了測試。通過模擬數據,我們可以對所建議方法的準確性進行數值量化。真實數據證明了算法在真實數據上的有效性,并證明了基于 SPAN 的算法相對于基于相干性的算法的局限性。最后,我們提出并初步實施了兩種 ATR 算法,以驗證其可行性。其中一個屬于模板匹配方法的分支,第二個屬于機器學習的分支。這項工作將繼續進行,最終實施和完善分類算法及其性能評估。

付費5元查看完整內容

計算機視覺與現有艦載飛機傳感器的集成為利用通常被忽視或丟棄的數據提供了機會。每天,旨在幫助機組人員導航或瞄準目標的傳感器都會收集數千小時的圖像,這些圖像可用于情報收集。在不影響飛機任務和機組人員程序的情況下,計算機視覺可作為附加功能安裝。

本論文提出了將計算機視覺集成到海軍戰術飛機上的基本概念(CONOPS)。論文探討了樣本飛機的能力,以檢驗基于航空計算機視覺的可行性。監視、持續觀察和目標識別(SPOTR)系統的程序和演示能力被用作 CONOPS 的起點。征求了主題專家對 CONOPS 草案的初步意見和反饋。基本工程流程被用作制定 CONOPS 的框架。

在飛機上增加計算機視覺功能的時間相對較短,而且成本較低,這使得 SPOTR 等系統成為為作戰人員提供新能力的可行選擇。

付費5元查看完整內容

許多武裝部隊正變得以網絡為中心并高度互聯。數字化戰場的技術進步促成了這一轉變和分散決策。隨著戰場的演變,任務要求部隊具有機動性并支持多種戰術能力,目前部署靜態無線電中繼節點以擴大通信范圍的概念可能不再適用。因此,本論文旨在設計一種使用無人機系統(如航空浮空器和戰術無人機)的作戰概念,為戰術部隊提供視距外通信,同時克服全球定位系統失效環境下的限制。鑒于聯邦通信委員會規定工業、科學和醫療頻段的最大有效各向同性輻射功率為 36 dBm,擬議的概念分為三個階段,以評估操作和通信系統需求。兩個節點之間的最大通信距離可使用 Friis 傳播方程進行研究。此外,還使用 Simulink 軟件研究了有效應用吞吐量與距離的關系。分析結果表明,IEEE 802.11ax 可提供更高的數據吞吐量,并支持 2.4 GHz 和 5.0 GHz 兩個頻段。通過模擬環境和運行場景,確定了在 50 千米乘 50 千米的區域內提供通信覆蓋所需的航空系統估計數量。

隨著數字化戰場的擴展,以及對可進行多域作戰的高度互聯部隊的需求日益增長,目前在戰區采用靜態中繼節點的通信概念可能不再可行。因此,本論文旨在設計一種作戰概念,利用無人機作為戰術部隊的通信中繼節點,同時克服全球定位系統(GPS)封閉環境的限制。具體來說,這項研究的主要重點是確定這一作戰概念的最大通信范圍,并研究兩個空中中繼節點之間的有效數據吞吐量。此外,研究還試圖確定提供 50 千米乘 50 千米或同等通信覆蓋所需的空中中繼節點數量。最終,本論文的研究結果旨在進一步提高作戰行動環境中的通信效率。

擬議的作戰通信框架將采用一種混合通信系統,同時使用航空浮空器系統和戰術無人機作為通信中繼節點。利用戰術無人機的靈活性,在需要時可以方便地增加網絡數據帶寬。為分析行動需求和可部署的通信系統類型,擬議的行動構想分為三個不同階段。

為了研究擬議概念的可行性,采用了 IEEE 802.11ax 和 IEEE 802.11n Wi-Fi 標準來檢查網絡性能,并確定估計的有效通信范圍。之所以采用這些 IEEE 標準,是因為它們可以在 2.4 GHz 和 5.0 GHz 頻段上運行。

根據美國聯邦通信委員會 (FCC) 的規定,在 2.4 GHz 頻段工作時,工業、科學和醫療 (ISM) 頻段的最大有效各向同性輻射功率 (EIRP) 規定為 36 dBm。通過限制輸出功率和有效輻射功率,可以確定在 2.4 GHz 和 5 GHz 頻段工作時的理論有效通信范圍。利用弗里斯傳播方程,計算出的范圍分別約為 5.5 千米和 2.6 千米。

通過修改 MATLAB Simulink 軟件中現有的 IEEE 802.11 MAC 和應用吞吐量測量模型,確定了使用 IEEE 802.11ax 和 IEEE 802.11n 標準的有效應用吞吐量。從仿真結果可以看出,隨著距離的增加,兩種工作頻率的應用吞吐量都會下降,這是由延遲和數據包丟失數量增加等因素造成的。此外,與 2.4 GHz 相比,5 GHz 頻段的傳輸距離較短。因此,為了彌補傳輸距離的限制并優化在 5 GHz 頻段工作時的數據吞吐量,建議使用比在 2.4 GHz 頻段工作時更高的信道帶寬。

從模擬結果來看,IEEE 802.11ax Wi-Fi 標準的數據吞吐量高于 IEEE 802.11n。這是因為 IEEE 802.11ax 采用了比 IEEE 802.11n 更有效的調制和編碼方案。因此,以 IEEE 802.11ax 作為推薦的 Wi-Fi 標準,在 2.4 GHz 和 5 GHz 上運行時的最大應用吞吐量分別約為 4.403 Mbps 和 4.488 Mbps。

為了估算在 50 千米乘 50 千米的作戰區域內提供通信覆蓋所需的空中中繼節點數量,使用了地圖規劃工具軟件 ArcGIS Pro 來模擬作戰區域并規劃通信網絡。根據計算得出的有效通信距離和地圖規劃,估計總共需要 23 個航空浮空器系統才能在 2.4 GHz 頻段上提供網絡覆蓋,另外還需要 24 架戰術無人機才能支持在 5 GHz 頻段上運行的更高數據帶寬網絡。

值得注意的是,本論文僅限于分析兩個空中中繼節點之間的性能,并使用了仿真模型。在現實世界中,有多種因素可能會影響室外環境中的網絡性能,例如地形影響造成的衰減。因此,為了更好地了解系統的性能,建議在實地進行深入的開發測試,并考慮環境造成的衰減和干擾。在這種情況下,提供通信覆蓋所需的空中中繼節點的估計數量可能會有所不同。此外,性能和有效通信距離也可能下降。

除中繼通信外,空中中繼節點的高度優勢還可提供額外服務,如執行監視和偵察任務。因此,為了最大限度地提高系統性能,建議未來的研究人員研究不同傳感器系統可能造成的干擾影響。為了最大限度地降低干擾幾率,可能有必要制定詳細的頻率分配計劃,以確保不同系統之間有足夠的頻率間隔。

付費5元查看完整內容

根據項目工作計劃,這份第二份進度報告包括項目第二年期間開展的技術活動的總結。更具體地說,它包括:

  • 對全偏振三維InISAR算法及其通過偽代碼實現的審查。

  • 三維InISAR算法的性能分析。在這方面,提出并比較了兩種不同的方法,即基于相干和基于跨度。這兩種方法的優點和缺點已經通過模擬和真實數據得到了強調。事實上,模擬數據提供了對三維重建精度進行數字量化的可能性,但有一些局限性,因為它們不能忠實地再現不同角度下的偏振目標散射機制。另一方面,真實的數據是真實的(即使是在受控的幾何形狀下獲得的),但不能用于數值量化重建的準確性。

  • 兩個ATR算法的設計和初步實施(為了初步驗證),將在項目的第三年進行全面測試。

圖2.1:使用基于Pol-InISAR擬議方法的3-D目標形成步驟的一般方框圖。

付費5元查看完整內容

圖像壓縮算法是圖像處理領域中媒體傳輸和壓縮的基礎。在其誕生的幾十年后,諸如JPEG圖像編解碼器等算法仍然是行業標準。在壓縮領域,一個值得注意的研究課題是深度學習(DL)。本文探討了理想圖像壓縮和物體檢測(OD)應用的DL模型的優化。

要優化的DL模型是基于一個現有的壓縮框架,即CONNECT模型。這個框架將傳統的JPEG圖像編解碼器包裹在兩個卷積神經網絡(CNNs)中。第一個網絡,ComCNN,專注于將輸入的圖像壓縮成一個緊湊的表示,以輸入到圖像編解碼器。第二個網絡,RecCNN,著重于從編解碼器中重建輸出圖像,使之與原始圖像盡可能相似。為了提高CONNECT模型的性能,一個名為Optuna的優化軟件包裹了該框架。從每個CNN中選擇超參數,由Optuna進行評估和優化。一旦CONNECT模型產生了理想的結果,輸出的圖像就被應用于YOLOv5 OD網絡。

本文探討了DL超參數對圖像質量和壓縮指標的影響。此外,檢測網絡將為圖像壓縮對計算機視覺應用的影響提供背景。

付費5元查看完整內容

高能激光(HEL)系統在對射程外的目標進行定位時,很容易受到大氣湍流的影響。目前的HEL系統使用波前傳感器和復雜的自適應光學系統來補償這些畸變。本論文的主要目的是研究使用機器學習算法的目標圖像像差補償技術,消除對復雜的波前傳感硬件的需要。目標圖像將從高能激光光束控制研究試驗臺(HBCRT)獲得,圖像像差將被模擬,以提供必要的數據集來訓練和驗證圖像像差補償方法。這些技術的性能將被評估為軍事成像應用。

高能激光(HEL)平臺可以證明是艦載防御無人駕駛飛行器的重要系統,因為HEL的彈倉深度大,成本低[1]。然而,HEL系統必須瞄準無人機的特定位置以達到最佳破壞效果。這一要求導致需要對目標進行精確成像以確定最佳瞄準點。圖像的清晰度會因為HEL系統和目標之間的大氣湍流而降低。為了補償這些大氣畸變,目前的HEL系統使用波前傳感器和自適應光學系統(AO)來測量大氣畸變并改變激光的聚焦方式。這些系統的制造成本很高,并增加了HEL系統的復雜性。人工神經網絡的發展為補償大氣像差提供了可能,而無需使用復雜的波前傳感器。

本論文的目的是研究如何使用深度學習模型來補償無人機圖像中的大氣像差。首先,將通過一種稱為盲去卷積的經典去模糊技術來設定性能基線。然后,基線性能將與兩個最先進的深度學習模型(U-Net和DeblurGAN)的性能進行比較。

本論文在第二章將首先概述HEL系統、AO和人工智能(AI)以及深度學習(DL)。第三章進一步介紹了DL模型如何應用于HEL系統的像差補償。第四章將介紹模型的訓練和實現過程,第五章將討論模型的性能結果。最后,第六章將總結已完成的研究,并提供未來工作的方向。

付費5元查看完整內容

本報告介紹了人工智能(AI)算法及其在人機交互(HRI)背景下的聽覺應用。為聽覺感知選擇的人工智能算法最終會對計算的透明度、系統行為的可解釋性以及最終的HRI的質量產生影響。應用于聽覺感知的人工智能算法包括由軟件系統感知和處理的聲音,以及由軟件系統發出的、旨在被人類聽眾識別的語音。一些主要的人工智能算法類別,特別是神經網絡、深度學習、隱馬爾科夫模型和混合模型,將在機器的語音處理方面進行審查。此外,每一類算法對透明度和HRI的影響也將被討論。最近在人工智能算法開發方面的工作表明,混合模型可能是語音處理的最佳方法,因為它們被推薦用于復雜的數據處理和決策。混合模型融合了各種方法,以最大限度地提高效益,同時盡量減少多種技術的局限性。報告的最后一節中包括了一系列的一般性建議。

付費5元查看完整內容

高動態范圍(HDR)成像是一種允許廣泛動態范圍的曝光的技術,這在圖像處理、計算機圖形學和計算機視覺中很重要。近年來,利用深度學習(deep learning, DL)進行HDR成像取得了顯著進展。本研究對深度HDR成像方法的最新發展進行了全面而有見地的調研和分析。我們根據(1) 輸入曝光的數量/領域、(2) 學習任務的數量、(3) 新的傳感器數據、(4) 新的學習策略和(5) 應用將現有的深度HDR成像方法分層和結構化地分為五類。重要的是,我們就每個類別的潛力和挑戰提供建設性的討論。此外,我們回顧了深度HDR成像的一些關鍵方面,如數據集和評估指標。最后,我們指出了一些有待解決的問題,并指出了未來的研究方向。

//www.zhuanzhi.ai/paper/21f0195fc7f10bbc05b66d88ada499d9

深度學習HDR成像

高動態范圍(HDR)成像是圖像處理、計算機圖形/視覺和攝影的一個重要領域,是一種比傳統成像技術允許更大的動態范圍曝光的技術。它的目標是準確地代表在真實場景中捕捉到的各種強度級別,從陽光到陰影[1],[2]。使用HDR成像,真實世界的照明可以被捕獲、存儲、傳輸,并在各種應用中充分使用,而不需要線性化信號和處理固定值[3]。傳統HDR成像主要采用專用HDR相機采集HDR圖像[4]、[5]、[6]; 然而,這些相機對于一般用戶來說是非常昂貴的。另一種方法是使用渲染工具從虛擬環境中創建HDR內容。然而,這種方法主要是在娛樂行業,如游戲和虛擬現實(VR)[3],[4],[7]。除了上述方法外,一種常見的方法是利用專門設計的算法,從低動態范圍(LDR)相機捕捉的視覺內容中重建HDR圖像。在這些算法中,有兩種常用的方法。第一種是通過融合同一場景不同曝光時間的多個LDR圖像[3],[8],[9]來生成HDR內容。然而,由于在不同曝光下捕捉LDR內容需要使用特定的軟件/硬件技術,因此通常很難創建數據集。因此,第二種方法是從單曝光圖像[10],[11],[12],[13],[14]生成HDR內容。

深度學習(Deep learning, DL)已被應用于HDR成像中。基于DL的HDR成像方法常常在各種基準數據集上實現最先進的(SOTA)性能。深度神經網絡(DNN)模型是基于多種架構開發的,從卷積神經網絡(CNNs)[9]、[10]、[16]到生成對抗網絡(GANs)[17]、[18]、[19]。一般來說,基于SOTA - DNN的方法有五個主要方面的不同: 考慮輸入LDR圖像的數量和域[9],[10],[14]的網絡設計,在多任務學習中HDR成像的目的[20],[21],不同的傳感器被用來獲得深度HDR成像[22],[23],[24],新穎的學習策略[17],[25],[26],和實際應用[27],[28],[29]。本研究對深部HDR成像方法的最新發展進行了全面和系統的綜述。先前的研究[4],[5],[6],[30],[31]主要集中在傳統的HDR成像算法上,特別是動態場景中的去重影方法[5],[31],圖像和亮度域中的多次曝光融合[4],[6],以及用于HDR重建的基于堆棧的算法[30]。與這些現有的調研不同,本研究強調了DL的重要性,并系統全面地調查了深HDR成像的最新進展。

圖1 基于深度學習的HDR成像的層次和結構分類

本研究的主要貢獻有三方面: (I)我們提供了深度HDR成像方法的全面概述,包括問題定義、數據集、評估指標、分類和應用。(II)我們對深度HDR成像的最新趨勢進行了層次和結構上的分析研究,并對每個類別的機遇和挑戰提出了見解。(III)從整體上討論HDR成像面臨的開放挑戰和問題,并明確未來的發展方向,為該領域的進一步研究提供指導。在接下來的章節中,我們將討論和分析深度HDR成像的各個方面的最新進展。圖1顯示了本研究使用的結構分類和層次分類。本文的其余部分組織如下。在第2節中,我們定義了HDR成像問題、數據集和評估指標。在第3節中,我們回顧和分析了SOTA監督下的方法,包括多次曝光和單次曝光HDR成像/視頻方法。第4節的重點是聯合HDR成像和其他學習任務,例如,圖像超分辨率。在第五節中,我們研究了使用新型相機傳感器的最新深度HDR成像方法。第6節介紹使用新穎學習范式的方法,例如元學習。第7節講述應用,接著是第8節,在那里我們討論開放的問題和未來的方向。

未來方向與結論

  • 基于DL的方法與現有技術的利弊。早期方法[34],[183],[184]的常用方法是通過優化對不同曝光的多個LDR圖像進行對齊,從而生成HDR圖像。然而,這些方法有兩個明顯的缺點。首先,他們未能處理復雜的背景和大的運動。其次,基于光流的對齊算法不能在飽和區域和遮擋區域生成新的內容。相比之下,基于dl的方法[9],[33],[49]更好地解決了大前景運動中產生的偽影。此外,基于DNN的光流算法可以更好地對齊LDR圖像,并在飽和和遮擋區域生成新的內容。總的來說,基于DL的方法表現出了顯著的性能提升。

  • 深度HDR成像的曝光支架選擇。曝光支架的選擇是深HDR成像的一個重要因素。這取決于幾個關鍵因素。第一個是場景的動態范圍。曝光值(EV)決定曝光補償,是一個用于括號的術語。

  • 網絡設計中的特征表示。在HDR成像中,特別是在多曝光HDR圖像重建中,特征表示是一個重要的因素。使用注意力機制從LDR圖像學習特征是常見的;然而,它需要更多的計算。

  • 數據高效學習。深度HDR成像的一個挑戰是需要大規模標記數據集來訓練DNN模型。

  • 計算高效的學習。根據我們的綜述,SoTA多曝光DHR圖像重建方法包括特征編碼、合并和重構。編碼階段依賴于學習,利用注意力或單應性來排除失調特征;合并階段還需要避免有害的特征。

  • 跨任務一致性的潛力。基于多任務學習的HDR成像研究變得更加實用。對于多任務學習,現有方法大多依賴于序列學習或聯合學習。然而,這些方法產生了相當大的計算成本和需要高質量的數據集。

  • 新型傳感器的潛力。在第五節中,我們回顧并分析了使用最近開發的傳感器(如事件攝像機和熱傳感器)的深度HDR成像技術。這些傳感器通常捕獲具有較高HDR的場景。

  • GNN在HDR成像中的潛力。注意力和非局部特征聚合[33],[75]已被證明對深度HDR成像有效。然而,這些方法僅利用相同尺度下的LDR圖像的相似斑塊。

  • 對現實世界的HDR。深度HDR成像是一種實用的技術,但它僅限于現實場景。

付費5元查看完整內容
北京阿比特科技有限公司