亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 我們探討了大規模和長期神經地圖表示的問題。地圖為現代機器人應用提供了寶貴的信息,例如自動駕駛和 AR/VR。在這篇論文中,我們探索了地圖設計的兩個重要角度:大小和豐富度。首先,我們研究了圖像至激光雷達地圖、激光雷達至激光雷達地圖,以及圖像至SfM地圖注冊的地圖壓縮問題。對于圖像至激光雷達地圖注冊,我們提出了一種基于學習的技術,來在進行圖像注冊前預計算并壓縮體素化的激光雷達地圖。對于激光雷達至激光雷達地圖注冊,我們對現有基于深度學習和傳統方法進行了地圖壓縮基準測試。對于圖像至SfM地圖注冊,我們提出通過異構圖神經網絡從SfM地圖中選擇重要關鍵點。這三項工作的結果都顯著減小了地圖的大小,通過離線預處理減輕了在線圖像注冊的數據負擔。其次,受到最近NeRF工作的有希望結果的啟發,我們開發了一套激光雷達輔助的NeRF系統,該系統將戶外環境的豐富外觀和幾何細節編碼到基于點的神經表示中,并進行新穎的視圖合成。與大多數之前主要集中在室內或小場景的NeRF工作不同,我們的系統是為更具挑戰性的規范自動駕駛數據集(如Argoverse 2)而設計的,該數據集的訓練視圖更為稀疏,場景復雜性更大。我們使用了一個帶有條件GAN的基于點的NeRF框架,并成功超越了最先進的戶外NeRF基準。此外,我們還探索了戶外NeRF的幾個應用,包括數據增強、對象檢測和季節性視圖合成。我們的實驗顯示了在未來將神經表示應用于更實用的戶外應用的可預見潛力。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

連續性被廣泛認為是物質世界的基本特性。本論文重點研究3D視覺學習問題中的連續性概念。主要目標是探索3D視覺學習算法如何有效地利用(準)連續體的優勢。為了解決這一總體研究問題,我們的調查分為兩個主要方向。首先,我們深入探討3D數據表示中的連續性。近期在隱式神經表示的進步已經通過使用連續神經函數對3D信號進行編碼取得了令人印象深刻的成果。我們從泛化的角度檢查基于學習的隱式神經表示,特別關注如何潛在編碼的3D隱式函數在一系列形狀幾何中泛化。我們的分析涉及追蹤局部表面點軌跡以及全局潛在插值,使我們能夠深入了解隱式神經層中的層次功能。此外,我們擴展隱式神經表示以適應幾何變換的對稱性。其次,我們探索了在3D視覺任務的學習算法中利用連續性。我們研究了在點云分類和RGB-D分割任務的數據分布、標簽空間和架構設計中連續性的作用。我們的研究顯示了在這些學習算法中保持連續性的好處。通過檢查這兩個方面,我們的目標是揭示連續性提高3D視覺學習的性能和能力的潛力。這篇論文有助于更深入地了解如何在3D視覺學習中有效地利用連續性,為未來的進步鋪平道路。

連續性和離散性是對自然與工程系統并置時的有趣且長久的特性,包括人類的感知以及為底層三維自然世界的信號計算的系統。 我們能夠體驗到的尺度下,自然世界似乎是模擬的和連續的,物體和物質具有形狀、顏色和事件的流暢且不間斷的流動,盡管微觀層面的物質世界基本上由量子化的原子組成。量子力學告訴我們,粒子和場既有波狀特性也有粒子狀特性,而觀察一個系統的行為會影響其行為[15,110]。這種粒子-波二重性[180,45]來源于海森堡不確定性原理[69],它指出物理屬性的某些對,如位置和動量,不能同時被精確地知道。因此,可以認為粒子在可能的位置和動量上有一定的范圍,這導致了波狀的行為。粒子的這種波狀行為在宏觀層面上呈現為連續體,粒子的波函數擴散并與自身產生干涉,導致連續的光和聲波、運動、電磁場和其他宏觀現象的出現。 相比之下,現代計算系統基于信息處理的離散和量子化特性,這與自然界中發現的模擬和連續信號基本上是不同的。在數字計算機中,信息是使用二進制數字或比特來表示的,因此,自然信號的幅度使用浮點算術量化,而信號的空間和時間域(或坐標)被量化為2D、3D和時間網格,如像素、體素和時間序列。對于后一種類型的網格量化,Nyquist-Shannon采樣定理[130]是一個重要的概念,它指出為了使用離散的樣本序列精確捕獲連續信號,對于產生連續sinc函數的模擬計算機,采樣率必須至少是信號中的最高頻率分量(即Nyquist頻率)的兩倍。對于數字計算機,它們在實踐中使用有限數量的樣本來表示一個連續信號。這引入了采樣誤差,這可能導致在重構信號時產生失真。為了最大程度地減少這些誤差,通常需要使用高于Nyquist率的采樣率,大約是其5到10倍。這是因為從其樣本使用數字處理重構信號通常涉及使用低通濾波器,這可能由于濾波器系數的有限精度引入失真[165]。

對于這篇論文的主要關注點——三維數據和任務,傳統的量子化表示因此受到高采樣率的限制,從而導致高內存需求。另外,還有一些自適應網格方法,如八叉樹[122,86]和k-d樹[83],以及非歐幾里得表示,如點云[112,47]和網格[61],這些方法可以減少內存使用。但是,處理和參數化這些靈活的3D表示通常并非瑣碎,從這些不規則的數據中學習可能會導致層次結構的建模效果較差,以及對規模和采樣的隨機性敏感,這作為一個結果導致了困難和代價昂貴的優化。

付費5元查看完整內容

在這篇論文中,我們探討了一些快速、穩健和高效的方法,這些方法在許多領域都具有普遍的適用性。具體來說,我們探討了高斯表示在計算機視覺和機器人學的多個應用領域中的使用。 在第一部分,我們為經典的隱藏表面問題提供了一個替代方法。具體而言,我們為3D高斯設計了一個基于射線的可微渲染器,它可以用于以統一方式解決多個經典的計算機視覺問題。例如,我們可以僅基于梯度優化從顏色、輪廓或光流重建3D形狀;這些重建對輸入錯誤具有魯棒性,且相當快速(在筆記本電腦CPU上需要幾分鐘)。同樣地,我們可以求解已知對象的精確相機姿勢估計,與經典方法給出的質量相當。我們的貢獻包括隱藏表面問題的替代公式,犧牲了保真度以換取實用性,從而獲得了快速的運行時間和高質量的梯度信息。我們擴展了這個渲染器,加入了可微光流,并展示了如何從重建中導出彩色網格。我們展示了從日常物體的自然采集視頻上的示例。我們還將介紹我們如何直接從網格中獲得3D高斯表示,而不需要采樣點集的工作。 在我們的另一研究線中,我們展示了高斯表示如何為機器人學中的經典算法(如立體深度匹配、運動規劃、視覺測距和社交導航)的無梯度優化提供強大的基礎表示。我們開發了基于用戶偏好和數據集變化進行優化的技術。我們展示了如何直接根據用戶偏好調整高斯表示,而不需要進行真實數據收集或精細調整的度量設計。此外,我們展示了這些優化器可以僅基于算法響應采樣配置,發現多個可能用于不同環境的算法配置。 最后,我們將討論一個基于回歸的、不依賴引用的替代方案,用于分析學術貢獻,而不是傳統的引用指標。

付費5元查看完整內容

人工智能系統近年來已經展現出了顯著的進步。然而,擴展性和泛化到實際問題仍然是一個重大問題。在本論文中,我們探討了構建可擴展計算機視覺人工智能系統的三個關鍵組成部分,包括模型優化能力、學習目標和大規模數據集,并將這些成果應用于機器人技術。我們的工作從視覺變換器的優化性研究開始,提出了一組新的優化性度量標準和一種替代的片段化設計。接下來,我們引入了一種對比自監督學習目標,減少了自監督學習中的歸納偏見,導致在各種數據集上都有優越的性能。然后,我們展示了自監督視覺預訓練在真實世界圖像中學習運動控制任務的效果,從像素中學習,超越了有監督的基線,并與標準狀態性能相匹配。在此基礎上,我們探索了在野外多樣化視頻中對真實世界機器人任務的自監督視覺預訓練,展示了預訓練表示在一系列任務和實體中的有效性。此外,我們提出了一種基于因果變換器的仿真到真實學習方法,用于真實世界中全尺寸仿人機器人的行走,這標志著第一個完全基于學習的方法用于真實世界中全尺寸仿人機器人的行走。最后,我們總結了論文并討論了該領域進一步研究的可能未來方向。

付費5元查看完整內容

我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。

研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。

從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。

在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。

我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。

在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。

DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。

付費5元查看完整內容

在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。

在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。

在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。

基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。

付費5元查看完整內容

本文主要研究具有復雜時空結構的數據,以及以可解釋和可擴展的方式學習該結構的概率圖模型。**本文針對兩個感興趣的研究領域:張量變量數據的高斯圖模型,以及使用主題模型對復雜時變文本進行摘要。**這項工作在幾個方向上推進了最先進的技術。首先,通過Sylvester張量方程引入一類新的張量變量高斯圖模型;其次,開發了一種基于快速收斂的鄰近交替線性化最小化方法的優化技術,將張量變量高斯圖模型估計擴展到現代大數據設置。第三,將克羅內克結構(逆)協方差模型與時空偏微分方程(PDEs)連接起來,并引入一種新的能夠跟蹤混沌物理系統的集合卡爾曼濾波框架。提出了一種模塊化和可解釋的框架,用于時變數據的無監督和弱監督概率主題建模,將生成統計模型與計算幾何方法相結合。通過使用真實數據集來考慮該方法的實際應用。這包括使用腦電圖數據進行腦連接分析,使用太陽成像數據進行空間天氣預測,使用Twitter數據進行公眾意見的縱向分析,以及使用TalkLife數據進行心理健康相關問題的挖掘。在每種情況下,本文都表明本文介紹的圖建模框架可以提高可解釋性、準確性和可擴展性。

付費5元查看完整內容

圖是數據和系統表示的強大工具。許多類型的復雜和高度結構化的數據都可以用圖表示,比如社交網絡、計算機網絡和分子。圖還可以用來表示計算機系統,例如分布式存儲網絡和對等通信網絡。在本論文中,我們討論了處理大規模圖數據和使用圖來設計更好的系統的方法

我們首先討論兩種處理大規模圖數據的方法。雖然它們非常強大,但圖數據集對其處理和存儲提出了獨特的挑戰。圖神經網絡(GNNs)是將深度學習應用于圖結構數據的一種有效方法。但是,由于圖的互連和高度結構化的特性,訓練GNN的計算可能非常昂貴。研究了一種提高GNN訓練效率的分層聚合方法。另一種理解圖數據集的方法是檢查小的、重復的模式的頻率。我們提出了時間活動狀態塊模型(Temporal Activity State Block Model),這是一種用于計算時間圖中預期母題頻率的分析模型,它增加了邊在大時間跨度內到達的復雜性。

接下來我們將介紹兩種應用圖來設計更好系統的方法。在分布式存儲系統中,在服務器故障的情況下,通常需要使用冗余存儲數據,而在何處以及以何種頻率創建這種冗余的設計可以表示為一個圖問題。部分重復(FR)代碼是一種用于實現這一目的的方法,旨在最大化存儲容量,同時確保故障節點可以通過從幸存節點發送替換數據來替換。我們提出了負載平衡的分數重復碼,這是FR碼的加強,有額外的保證,如何迅速地更換失敗的節點。接下來我們考慮在對等網絡中發送消息的問題。這個問題可以用一個圖來表示哪個對等點擁有另一個對等點想要的數據。索引編碼是一種設計從中央服務器到一組接收器的客戶端通信的方法。我們將這種方法應用于點對點模型,并引入和研究了嵌入索引編碼。

//searchworks.stanford.edu/view/14230534

付費5元查看完整內容

在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。

//searchworks.stanford.edu/view/13876519

付費5元查看完整內容
北京阿比特科技有限公司