亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著我們開始與人工智能系統進行互動,我們需要它們能夠以 4D 視角解讀視覺世界——即感知世界中的幾何結構和運動。然而,圖像空間中的像素差異可能來自幾何結構(通過相機運動)或世界中的場景運動。要從單一視頻中解開這兩種來源是極度欠約束的。

在本論文中,我構建了多個系統,用于從有限的圖像觀測中恢復場景表示。具體來說,我研究了一系列問題,這些問題構建了通向 4D 單目恢復問題的路徑,每個問題都解決了該問題欠約束的不同方面。首先,我研究了在沒有場景運動的情況下從欠約束輸入中恢復形狀的問題。具體而言,我提出了 pixelNeRF,這是一種從單個或少數視圖合成靜態場景新視角的方法。我們通過在多個場景的圖像特征上訓練一個 3D 神經表示來學習場景先驗。這種學習到的場景先驗使得能夠從單一或少量圖像的欠約束輸入中完成 3D 場景。

接下來,我研究了在沒有 3D 形狀的情況下恢復運動的問題。特別地,我提出了 Deformable Sprites,一種從輸入視頻中提取動態場景中持久元素的方法。我們將每個元素表示為在視頻中變形的 2D 圖像層。 最后,我介紹了兩個關于從單一視頻中聯合恢復 4D 世界的形狀和運動的研究。我首先研究了動態人類的特例,并提出了 SLAHMR,其中我們從單個視頻中恢復了在世界坐標系中的所有人和相機的全局姿態。然后,我擴展到恢復單個視頻中的任何動態對象的一般情況,即 Shape of Motion,在其中我們將整個場景表示為 4D 高斯分布,這可以用于動態新視角合成和 3D 跟蹤。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

隨著我們開始與人工智能系統進行交互,這些系統需要能夠以四維(4D)的方式理解視覺世界——也就是說,感知世界中的幾何結構和運動。然而,圖像空間中像素的差異可能由幾何變化(如相機運動)或場景中的運動引起。要從單個視頻中分離這兩種來源是一項極具挑戰性的欠約束問題。在本文中,我構建了多個系統,用于從有限的圖像觀測中恢復場景表示。具體而言,我研究了一系列問題,逐步解決4D單目恢復問題中的不同方面,每個問題都針對該問題的欠約束特性提出解決方案。首先,我研究了在沒有場景運動的情況下,從欠約束輸入中恢復形狀的問題。具體來說,我提出了pixelNeRF,這是一種從單視圖或少量視圖合成靜態場景新視角的方法。通過在多個場景中訓練基于圖像特征的三維神經表示,我們學習了一個場景先驗。這種學習到的場景先驗使得可以從單個或少量圖像的欠約束輸入中完成三維場景重建。接著,我研究了在沒有三維形狀的情況下恢復運動的問題。特別是,我提出了Deformable Sprites,一種從輸入視頻中提取動態場景持久元素的方法。我們將每個元素表示為在視頻中變形的二維圖像層。最后,我提出了兩項關于從單個視頻中聯合恢復四維世界中形狀和運動的研究。首先,我研究了動態人類的特殊情況,并提出了SLAHMR,通過該方法,我們可以從單個視頻中恢復所有人的全局姿態以及世界坐標系中的相機位置。然后,我轉向從單個視頻中恢復任意動態對象的通用情況,在Shape of Motion中,我們將整個場景表示為四維高斯分布。這種表示可以用于動態新視角合成和三維跟蹤。

當我們拍攝視覺世界的視頻時,所得到的視頻是一系列時間切片中該世界的快照。當人們觀看此類視頻時,他們會感知到被捕捉的世界的四維(4D)特性。也就是說,觀眾能夠理解場景中的元素如何在三維空間和時間上相互關聯。 例如,考慮圖1.1中的視頻,展示了兩個人見面并擁抱的場景。觀眾可以看到穿白衣女子表面上各點在三維空間中的相互關系——這些關系形成了她表面幾何形狀的整體。觀眾還可以觀察到白衣女子和背橙色背包女子在擁抱時身體各部分的空間關系,這些關系定義了場景中實體的布局。此外,觀眾還可以看到所有這些關系——無論是她們各自身體表面點之間的關系,還是彼此之間的關系——在時間上的變化,隨著兩人在山間一座房子前見面并擁抱。 觀眾能夠從單個視頻中感知這些四維關系。然而,對于機器來說,視頻只是像素的流動。那么,我們是否可以讓機器也理解這些關系呢?

1.1 單目4D恢復問題

我們將恢復捕捉場景的時空關系的問題稱為4D重建問題。我們將一個四維場景概念化為由三個主要元素組成:靜態環境(例如建筑物、街道、田野)、運動的主體(例如人、動物、汽車)以及相機(可能也在移動)。這些元素各自具有其獨特的三維幾何和外觀。此外,由于場景中的元素在移動,每個時間點它們相對于場景中的其他元素都會處于不同的位置。 對于一個靜態場景來說,多個投影視角之間的二維像素變化可以用來通過三角測量方法恢復底層的三維形狀 [56]。對于一個動態變化的場景,可以在每個時間點應用同樣的關系,通過多個投影視角恢復三維形狀。這種方法中,同時視角之間的像素變化仍然僅與三維形狀相關。 然而,單個視頻僅在每個時間點捕捉到這個演變中的四維世界的二維投影視圖。這帶來了一個根本性挑戰:視角間的像素變化可能來自三維形狀(由于視角變化),也可能來自場景運動。那么,我們如何將形狀與運動分離? 盡管如此,視頻觀眾卻能夠在每個時間點僅通過單個觀測推斷出場景元素的形狀和運動。這種顯而易見的模糊性下,觀眾卻能輕松地理解這些四維關系。那么,我們如何設計系統,使其能夠做到同樣的事情?

1.2 研究貢獻

在本文中,我構建了多個系統,從有限的圖像觀測中恢復場景表示。具體來說,我研究了一系列逐步解決單目4D恢復問題的恢復問題,每個問題針對該問題的欠約束特性提出了不同的解決方案。 在第二章中,我研究了靜態場景的三維重建問題,即在沒有運動的情況下恢復形狀。具體而言,我們通過使用多視角數據訓練一個基于圖像條件的三維表示,學習如何合成靜態場景的新視角。在第三章中,我研究了動態場景中運動的恢復問題,即在沒有三維形狀的前提下,恢復單個視頻中的二維運動元素。我們將這些元素建模為隨時間變形的持久二維圖像層。 接下來,我重點研究從單個視頻中同時恢復形狀和運動的問題。在這一背景下,核心挑戰在于從視頻中觀察到的像素變化中分離幾何和運動的影響。在第四章中,我研究了動態人類這一特殊情況,以解決人類拍攝視頻中最常見的復雜運動來源。我們直接使用參數化的人體形狀和運動先驗來指導三維形狀和運動的恢復。在第五章中,我研究了從任意視頻中恢復任意動態對象的問題。在這里,我們用單幀的單目深度估計和二維對應關系代替參數化先驗,以指導形狀和運動的分離。在這兩個研究中,我們都通過全局優化恢復了場景的四維表示。

付費5元查看完整內容

生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。

我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。

作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。

接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。

然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。

付費5元查看完整內容

分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。

第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。

預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。

在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。

解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。

本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。

論文概述

**第一部分

本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。

**第二部分

第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。

**第三部分

論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。

付費5元查看完整內容

動物和人類在構建世界的內部表征并利用它們來模擬、評估和選擇不同可能的行動方面表現出非凡的能力。這種能力主要通過觀察且沒有任何監督地學習。賦予自主代理類似的能力是機器學習中的一個基本挑戰。在本論文中,我將探索新的算法,這些算法能夠通過預測從視頻中進行可擴展的表征學習、視覺數據的生成模型及其在機器人領域的應用。

首先,我將討論使用預測學習目標來學習視覺表征所面臨的挑戰。我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,以零樣本的方式解決各種視覺對應任務。隨后,我將提出一種基于變壓器的通過擴散建模進行照片級視頻生成的方法。我們的方法在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。最后,我將說明生成模型在機器人學習中的實際應用。我們非自回歸的、動作條件的視頻生成模型可以作為世界模型,使具身代理能夠使用視覺模型預測控制進行規劃。此外,我將展示一個通過下一個標記預測訓練的通用代理,該代理可以從各種機器人和任務中學習多樣的機器人經驗。

在過去五年里,機器學習領域取得了顯著進展。特別是,基于自監督任務的下一個標記預測訓練的大規模生成模型在自然語言處理方面展示了非凡的能力。這些大型語言模型(LLMs)已經改變了我們與數字世界的互動。從撰寫電子郵件等簡單任務到編寫代碼等復雜任務,LLMs 正日益融入我們的日常生活。

盡管大型語言模型取得了顯著進步并被廣泛應用,但這些系統仍存在顯著的局限性。具體而言,盡管它們在大量數據上進行了訓練,但缺乏快速獲取新技能和知識的能力。此外,當前的語言模型對物理世界僅有表面的理解,缺乏推理、常識和長期規劃的能力。這些能力對于開發自主視覺代理,如增強現實助手、自動駕駛汽車和通用機器人,都是至關重要的。

我們如何構建對物理世界有直觀理解的自主代理?我們可以從人類和動物的學習方式中汲取靈感。盡管缺乏語言,動物表現出高度的智能。它們能夠熟練處理高維視覺輸入,具備常識,并能在多個時間跨度上進行規劃和行動。動物通過無監督的方式發展這種對物理世界的直觀理解,主要通過觀察和相對較少的環境交互進行學習。1943 年 Kenneth Craik 提出的一種解釋已經激勵了長期以來的 AI 研究人員:“如果有機體在其頭腦中攜帶一個‘小規模模型’的外部現實及其自身可能的行動,它就能夠嘗試各種選擇,得出哪個是最好的,在未來情況發生之前做出反應,利用過去事件的知識處理現在和未來,并在每一種情況下以更充分、更安全和更能干的方式應對面臨的緊急情況。”

為實現這一目標,在本論文中,我將展示一些學習算法和神經網絡架構,使自主機器能夠以無監督的方式學習物理世界的小規模模型,并使用該模型在現實世界中進行規劃和行動。首先,我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,并以零樣本的方式解決各種視覺對應任務。接下來,我將提出一個可擴展的基于注意力的架構,用于學習圖像和視頻的生成模型。最后,我將描述一些用于構建機器人學習生成模型的算法。我將展示一種新穎的非自回歸、動作條件的視頻生成模型,該模型可以作為世界模型,使機器人能夠使用視覺模型預測控制進行規劃。此外,我還將介紹一個通過下一個標記預測訓練的通用代理,該代理能夠從各種機器人和任務中學習多樣的機器人經驗。

付費5元查看完整內容

**生成建模承諾為學習圖像和視頻等高維數據分布提供一種優雅的解決方案——但我們如何揭示和利用這些模型發現的豐富結構呢?**除了生成新樣本之外,智能體還能如何利用 p(x) 作為了解世界運作方式的知識來源呢?本論文探討了可擴展的歸納偏差,解鎖了生成模型對視覺數據的解耦理解,從而實現更豐富的交互和控制。 首先,我提出了一種將場景表示為特征“斑塊”集合的方案,在這種方案中,生成對抗網絡(GAN)無需任何標簽就能學會將每個斑塊綁定到其生成的圖像中的不同對象上。這使得GAN能夠更優雅地建模組合場景,而典型的無條件模型則受限于高度對齊的單對象數據。經過訓練的模型表示可以很容易地進行修改,以反事實地操縱生成和真實圖像中的對象。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-65.html

接下來,我考慮了在訓練期間不對架構施加瓶頸的方法,從而使這些方法能夠應用于更多樣化、未經過濾的數據。我展示了擴散模型的內部可以被用于有意義地引導新樣本的生成,而無需進一步的微調或監督。從去噪器激活的一小組原始屬性中得出的能量函數可以組合起來,對迭代擴散采樣過程施加任意復雜的條件。這使得能夠控制任何可以用文本描述的概念的屬性,例如位置、形狀、大小和外觀。 我還證明,文本到圖像模型學習到的分布可以被蒸餾以生成組合性3D場景。主流方法專注于孤立地創建3D對象,而不是包含多個實體交互的場景。我提出了一種架構,在對其進行優化使其輸出位于圖像生成器的流形上時,可以生成分解為其包含對象的3D場景。這為模型僅通過2D圖像觀察到的世界推斷實際3D結構提供了證據。最后,我以一個視角總結了涌現、控制、可解釋性和規模之間的相互作用,并嘗試將這些主題與對智能的追求聯系起來。

付費5元查看完整內容

如果讓一個人描述一幅圖片,他們可能會用一千種不同的方式來描述。每一種描述不僅取決于圖片本身,還取決于圍繞圖片的豐富的情境線索和提示(包括描述者本人)。到目前為止,條件自然語言生成的研究幾乎完全集中在任務的感知組成部分上:我們如何感知刺激物——無論是音頻、視覺還是文本——并將其傳達給用戶?在這篇論文中,我們認為僅關注刺激物(而非相關情境)的模型在生成與人類對質量和內容判斷一致的語言方面存在重大缺陷,同時減少了它們對下游任務的整體實用性。本論文聚焦于構建一個情境感知的條件自然語言生成(CNLG)模型的三個核心目標:(1)捕捉和理解在生成的條件文本中、之間及其之間的信息;(2)開發更好地整合情境信息的多模態模型;(3)設計與人類判斷更加一致的CNLG評估方法。通過這些目標,我們展示了情境在自然語言生成中的力量,并幫助回答這個問題:“我們如何理解、構建和評估情境感知的條件自然語言生成模型?”

迄今為止,條件自然語言生成領域幾乎完全專注于感知成分:我們如何感知刺激(無論是音頻、視覺還是文本)并將其傳達給用戶?在圖像描述的情況下,這意味著專注于理解圖像內容,而大量忽略任何情境線索。在自動語音識別的情況下,這意味著專注于音頻本身并忽略該音頻發生的情境。然而,在許多情況下,這種情境不僅有幫助,而且對模型的輸出是必需的。因此,為了應對這些挑戰,我們必須轉向對條件自然語言生成更細致的理解,認識到有效的溝通和信息交換不僅僅依賴于對刺激的字面解釋,還依賴于錯綜復雜的情境線索和環境因素。

在這篇論文中,我們提出了一個總體問題:我們如何理解、構建和評估情境感知的條件自然語言生成模型?為了探索這個問題,我們深入研究了幾個領域(見第1.1節),探索了文本周圍的情境如何影響其生成,以及我們如何利用情境線索(來自一些意外的來源)來理解、評估和構建更強大的多模態模型。總體上,這篇論文主要分為三個核心部分,每個部分處理情境感知條件自然語言生成(CNLG)問題的某些方面:

理解生成樣本內部、之間和之中的信息:首先,我們深入理解圖像/視頻和文本的聯合分布,以及可以在生成文本中捕獲的信息(即數據集中的語言分布)和生成文本之間/之中的信息(其中“之間”指的是單個圖像的多個樣本中存在的信息,“之中”指的是可以從樣本集中推斷出的更廣泛的語言分布)。在第3章中,我們研究圖像/文本聯合分布的行為,并揭示了我們用于圖像和視頻的數據集是如何結構化的有趣細節;在第4章中,我們探索如何利用數據集中的這些隱含特性在訓練期間選擇一個小而高效的樣本集。

構建CNLG的多模態模型:接下來,我們介紹了在幾個領域構建CNLG模型的幾種方法。在圖像字幕領域,我們在第6章討論了如何有效利用CNLG模型學習的完整分布來生成單個高質量的字幕。在自動語音識別領域,我們探討了如何利用包括視頻(第7章)、文本目錄(第8章)和對話(第9章)在內的不同類型的情境來提高生成自然語言的質量。

評估CNLG模型:最后,我們介紹了兩種新的評估CNLG能力模型的方法。第一種方法在第11章中介紹,通過查看學習的完整分布而不是僅僅模型的單個最佳樣本來評估模型。第二種方法在第12章中介紹,利用大型語言模型學習的人類偏好隱式分布來改善生成文本的評估。

付費5元查看完整內容

在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。

付費5元查看完整內容

我們正處于一個新技術時代的邊緣,技術無縫地融入我們的日常生活。進入這個勇敢的新世界需要始終在線的人工智能和增強現實的融合。然而,我們仍然需要克服許多挑戰才能實現這一愿景。這篇論文解決了仍然存在的三個關鍵挑戰:3D重建、3D場景理解和3D場景編輯。增強現實應用要求對世界進行重建,并不斷用新信息更新。因此,我們首先解決了在在線系統中逐步融合噪聲和異常數據的挑戰。我們從數據驅動的角度出發,利用學習到的場景表示,通過機器學習的力量提高現有方法的效率。然而,僅有空間意識是不夠的。因此,我們轉向3D場景理解,我們面對為3D語義分割模型注釋數據集的高成本挑戰。我們引入了一個自動化的語義注釋流程,達到人類注釋質量,將最先進模型的預測統一到一個共享的標簽空間中,并通過3D提升進一步改進。此外,我們將在線重建流程擴展到語義映射,通過一個時空注意力機制克服有限的接收字段問題,這個機制有效地結合了2D和3D以及過去的信息。在最后部分,我們探索了使用神經輻射場進行3D場景編輯。因此,我們提出了一種方法,利用在強大的2D修復方法中編碼的先驗知識來移除場景中的對象。這需要在優化階段設計一個基于信心的視圖選擇機制,以確保最終重建中的多視圖一致性。

付費5元查看完整內容

盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。

//dash.harvard.edu/handle/1/37372168

我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。

付費5元查看完整內容

近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html

付費5元查看完整內容
北京阿比特科技有限公司