3D 感知在自動駕駛領域中起著至關重要的作用。基于視覺的 3D 感知方法依賴于僅使用相機輸入來重建 3D 環境,隨著深度學習技術的普及,這些方法取得了顯著進展。盡管取得了這些突破,現有的框架仍面臨性能瓶頸,并且通常需要大量的激光雷達(LiDAR)標注數據,這限制了它們在不同自動駕駛平臺上大規模應用的實際可行性。 本論文對基于視覺的 3D 感知技術的發展作出了多方面的貢獻。在第一部分,論文介紹了對單目和立體 3D 物體檢測算法的結構性改進。通過將地面參考幾何先驗信息融入單目檢測模型,本研究在單目 3D 檢測的基準評估中取得了前所未有的精度。與此同時,本文通過將單目網絡中的見解和推理結構融入立體 3D 檢測模型,進一步優化了立體檢測系統的操作效率。 第二部分專注于基于數據驅動的策略及其在 3D 視覺檢測中的實際應用。論文提出了一種新穎的訓練方案,結合了帶有 2D 或 3D 標簽的多種數據集。這種方法不僅通過使用大規模擴展的數據集增強了檢測模型,還在實際場景中通過利用僅具有 2D 注釋的數據集,使得模型部署更加經濟。 最后,論文展示了一個創新的管道,旨在實現自動駕駛場景中的無監督深度估計。大量的實證分析驗證了該新提出管道的魯棒性和有效性。綜合來看,這些貢獻為基于視覺的 3D 感知技術在自動駕駛應用中的廣泛采用奠定了堅實的基礎。
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
近年來,在計算攝影、虛擬現實、游戲和電影產業等領域,對視覺內容(如2D圖像和多幀視頻)的需求不斷增長。為了滿足這些需求,研究者們提出了多種生成模型,包括VQVAE、GAN和擴散模型(Diffusion Models),以促進從噪聲或文本生成視覺內容。然而,如何將這些模型應用于更實際的圖像到圖像生成任務(也稱為圖像處理與編輯)仍然是一個開放的挑戰。本論文探討了基于生成模型的圖像編輯范式,重點關注來自大規模預訓練的基礎模型。 我們首先探索了實時圖像縮放技術。現代相機拍攝的圖像可以達到6K分辨率,但這些圖像占用的存儲空間過大。為此,我們提出了一種量化自編碼器,通過優化熵損失將大型6K圖像壓縮為JPEG縮略圖,從而減小文件大小。隨后,一個高效的解碼器可以實時將低分辨率縮略圖還原為高分辨率圖像。 接著,我們轉向文本驅動的圖像修復技術。相機運動、數字電路噪聲以及惡劣天氣(如雨和霧)可能會降低攝影師拍攝的圖像質量。我們提出了一種基于擴散模型的圖像修復方法,該方法通過語義和修復指令進行引導。為了以較低的訓練成本實現這種多模態應用,我們使用合成退化圖像對預訓練的潛在擴散模型進行適配器微調。 最后,我們討論了文本驅動的視頻編輯方法。除了圖像層面的計算攝影外,創意特效也廣泛應用于游戲、電影和短視頻應用中。這些特效通常需要時間運動一致性和語義層面的編輯,例如身份和風格。由于目前沒有魯棒且開源的視頻生成模型可用,我們專注于以零樣本方式利用文本到圖像的潛在擴散模型。具體來說,我們將圖像生成模型轉換為視頻模型,并在DDIM反演過程中提取擴散Unet中的時空注意力圖,作為運動和幾何表示。然后,在DDIM去噪過程中,根據目標提示重新使用這些注意力圖。我們簡潔的框架能夠在保持顯著時間一致性的同時,實現形狀、屬性和全局風格的編輯。
專用硬件加速器已被開發用于提高深度神經網絡(DNN)應用的能效比。
在DNN加速器開發中,一個主要挑戰是對設計原型在真實世界應用中的早期階段評估。這種評估至關重要:現代DNN加速器配備了多種技術以提升能效,但這些技術可能引入數值誤差,例如通過定制化數值表示進行的數據量化或重新設計的運算符。鑒于DNN應用具有深度連接的分層特性,這些數值誤差可能積累并導致結果與參考結果產生顯著偏差。此外,主機機器與加速器片上存儲器之間的數據傳輸在能耗和性能方面的成本相當高,這使得減少數據傳輸成為將DNN應用映射到加速器時的關鍵優化重點。 為了解決這些挑戰,本論文提出了若干創新性解決方案。
首先,我們引入了“3LA”——一個端到端的編譯器流水線,用于在未經修改的DNN應用上進行硬件加速器原型的應用級測試。基于最近提出的名為指令級抽象(Instruction-Level Abstraction,ILA)的形式化硬件規范,3LA實現了自動化的應用級模擬,從而顯著減少了手動工程工作量,并提供了關鍵的開發反饋。 其次,我們提出了 Shoehorn,一種針對將DNN算子映射到硬件加速器的優化調度器,它協同優化循環分塊、循環排序以及片上存儲分區決策。此調度器為單個應用級算子生成針對特定加速器的最優映射計劃,最大限度地減少片外存儲訪問。 最后,本論文介紹了 COSMA,一個優化框架,旨在部署整個或部分DNN應用至目標加速器時,最小化總片外數據訪問量。COSMA通過集成優化算子調度、存儲分配和張量替換策略,提供了一種全面的數據移動最小化解決方案。 這些貢獻有望顯著簡化從早期設計到最終應用部署的DNN加速器開發過程,提升該領域的效率和效果。
隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。
衛星影像的廣泛可用性,例如在Google Earth等平臺上的應用,極大地增強了人們繪制和可視化地球表面的能力。盡管衛星影像具有廣覆蓋性和易獲取性,但其分辨率通常有限,缺乏探索感興趣環境(尤其是城市區域)所需的細節。街景圖像則在場景理解方面提供了重要的洞察力和實用性,從城市規劃到戶外導航,再到增強現實的多種應用都受益于街景圖像。然而,獲取街景圖像成本高昂,并且需要頻繁更新以保持準確性。相比之下,衛星影像更易獲取且無處不在,因此成為生成街景圖像的有前景替代方案。這一過程被稱為衛星到地面跨視圖合成(satellite-to-ground cross-view synthesis),因其廣泛的實際應用前景而受到廣泛關注。 從衛星圖像直接生成地面視圖需要克服顯著的技術挑戰,這主要是由于兩類圖像在視角和尺度上的巨大差異。本研究探討了創新方法,旨在生成幾何上一致且符合對應衛星圖像的3D城市場景和街景圖像,同時在不同視角之間保持強魯棒的多視圖一致性,并提升跨視圖合成和大規模3D城市場景的質量和真實感。 為實現這一目標,我們首先在生成管線中引入了一種地理變換層(geo-transformation layer)。該層通過估算的地面高度值構建密集體素網格,并將信息從俯視圖轉換為街景視圖,從而保留了物理的衛星到地面的關系,解決了幾何一致性問題。接著,通過在幾何中計算3D場景點云與幀像素之間的密集映射,我們提出了一種考慮點間空間關系的3D稀疏生成器,解決了在生成圖像序列時的多視圖一致性問題。此外,在隱式輻射場(implicit radiance field)爆炸性應用的背景下,我們進一步探索了神經場景表示在有限部分觀測下完成3D場景的潛在生成能力。我們提出了一種基于稀疏網格表示的可擴展新視圖合成管線,可以為大量不完整的場景數據填充合理的信息。
最后,我們不再僅局限于圖像或視頻生成,而是進一步提升到整個大規模場景的生成。我們的方法將擴散模型引入3D稀疏表示中,用于直接生成3D場景,并結合基于點的神經渲染技術,從任意視角生成一致且合理的圖像或視頻。
通過利用生成模型和神經渲染技術的最新進展,我們旨在提升場景級生成能力,彌合通過衛星圖像生成一致地面視圖的鴻溝,并釋放其在虛擬建模、地圖服務、3D城市設計、游戲、仿真以及跨視圖匹配等多樣化應用中的巨大潛力。本研究希望挖掘衛星影像的全部潛能,為理解我們所處的世界及其環境提供更深刻的洞察力。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。
為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。
我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。
弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。
引言
目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。
為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。
在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。
在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下: