亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視頻是訓練計算機視覺模型的吸引人的數據來源。在線上幾乎存在無限量的視頻,但是進行詳盡的手動標注是不可行的。本論文的目標是通過自監督學習高效地學習強大的視頻表示:這是一種從數據中學習而非人類標注的方法。本論文圍繞三個主題展開:(1)短期視頻的自監督學習,(2)高效的視頻表示學習,以及(3)長期視頻的自監督學習。對于僅持續幾秒鐘的短期視頻,我們展示了預測未來視頻在大規模上是一種強大的學習信號。我們進一步展示,通過采用兩種互補的模態,即 RGB 和光流,并使用它們相互教導,可以學習到強大的視頻表示。對于高效的視頻表示學習,我們展示了大規模預訓練的視覺-語言模型可以通過提示調整技術有效地進行調整。我們還展示,丟棄圖像塊可以加速分類任務的微調和視頻-語言模型的預訓練。對于持續時間超過幾分鐘的長期視頻,我們展示了時間對齊網絡可以通過教學視頻中的弱視覺-文本對應關系進行訓練。由此產生的網絡可以自動清理自然視頻,以進行有效的視覺-語言訓練。此外,我們還展示了可以通過利用預訓練的視覺語言模型來訓練電影描述模型。

視頻是一種通過比特鎖定空間和時間的媒介;它們包含了突出的人類感官信息,如視覺和音頻;同時也攜帶了豐富的關于人類認知的信息,如推理、知識和決策制定,這些反映了人類的智慧。因此,理解視頻是實現人工智能的一個重要里程碑。幸運的是,由于先進的網絡和存儲技術,視頻現在被大量地創建和分享在互聯網上,并且已經成為一個可以用來訓練計算機視覺系統的無限數據源。然而,視頻的巨大可用性排除了手動數據標注的可能性,并推動研究人員創建從原始數據本身學習的方法;這種方法被稱為“自監督學習”。與從“樣本 - 標簽”對(例如 [Krizhevsky等,2012])中學習的監督學習不同,自監督學習(SSL)從一個不涉及任何手動定義標簽的任務中學習。這個任務通常被稱為“代理任務”,它只提供學習信號,而不是學習的最終目標。在從代理任務學習之后,模型生成輸入樣本的表示。這意味著輸入樣本被表示為具有有限維度的向量。表示學習的質量通常通過將學到的表示適應到感興趣的下游任務來評估,如分類、分割和檢索。

受到心理學動機的啟發,以及受到硬件和實現等其他實際因素的影響,我們在本節介紹一些主導論文并指導方法設計的關鍵研究思想。

1.1 從海量視頻數據中學習

視頻是一種非常豐富的視覺數據,例如,每天有超過720,000小時的視頻被上傳到視頻平臺YouTube1,一個人需要82年的時間來觀看它們。我們對開發能夠從海量視頻數據中受益的學習方法感興趣,因為鑒于計算能力和數據處理的快速進步,這些方法在未來具有很高的潛力。因此,本論文的主要關注點是在自然視頻上的大規模訓練。盡管計算資源有限,但我們在大型視頻數據集上探索大規模訓練的極限,例如 Kinetics [Kay et al. 2017; Jo?o Carreira et al. 2018; Jo?o Carreira et al. 2019] 和 HowTo100M [Miech et al. 2019]。在方法設計上,我們從數據本身發現學習信號,這樣一旦有額外的計算資源,我們的方法可以輕松擴展。

1.2 從多模態學習 視頻自然地包含多種模態,如音頻(來自物體和環境的聲音,或人聲)和文本(視頻標題,字幕和觀眾的評論)。在視覺感官輸入中,外觀和運動(光流)也可以寬泛地被視為兩種模態。根據心理學研究,多種模態通常是冗余的,但彼此互補,即不同的模態代表同一觀察的不同方面。對于實際的自監督學習,模態之間的聯系可以用作強大的學習信號。在我們的工作中,我們使用運動模態來教導外觀模態,反之亦然。我們還依賴視覺和文本模態的共現來學習強大的表示。

1.3 高效學習 高效學習對于實現大規模的自監督學習非常重要,原因有兩個。首先,它使具有有限資源訪問的社區能夠進行SSL研究和應用。其次,它減少了大規模計算造成的能耗和對環境的負面影響 [Strubell et al. 2019]。因此,高效學習是本論文的另一個關鍵思想。我們主要采用三種策略來追求高效學習:(1)從預訓練模型學習以節省不必要的計算成本。(2)減少冗余或噪聲學習信號,如連續視頻幀中的圖像塊和無關的視頻字幕。(3)通過少量參數來引導大模型,如提示調整。

2. 論文大綱和貢獻

本節提供了后續論文章節的大綱,并總結了關鍵貢獻。論文分為三個主題:短期視頻的自監督學習,高效視頻表示學習,以及長期視頻的自監督學習。

第一部分:短期視頻的自監督學習

通過“短期”這個詞,我們指的是時長不超過10秒的視頻。10秒是一個大致的界限,源于開創性的Kinetics數據集[Kay et al. 2017],其中的視頻片段被剪輯到約10秒長。在這有限的時間內,短期視頻包含較簡單的語義信息,時間上的變化不大,通常只足以涵蓋一個動作。在這個主題中,我們展示了通過預測未來和從互補模態中學習可以學到強大的視頻表示。特別是在第2章中,我們的動機是預測像素空間是繁重且不必要的,對于學習更高級的語義而言,然后我們提出了一種在特征空間中預測未來視頻的方法。通過在時空特征上使用對比損失進行訓練,這樣的預測模型學習到了一個強大的視頻表示,用于動作分類任務。而且,預測未來的視頻是一個通用任務,適用于任何視頻數據,并且已經證明可以從大數據集訓練中受益。然而,我們注意到視頻預測中存在多個假設的屬性,即鑒于目前的觀察,可能發生多個合理的未來。因此,被訓練成做出單一預測的模型會收斂到在特征空間中對多個可能的未來預測一個平均值,這限制了學習的進步。為了解決多假設問題,在第3章中,我們通過一個外部記憶庫來增強未來預測模塊,該記憶庫包含可學習的特征向量,以便在結構上支持學習多個未來。在第4章中,利用視頻的多模態屬性,我們建議使用一種模態的最近鄰作為偽標簽來訓練另一種模態,反之亦然。特別是,我們使用RGB視頻流和光流流,我們展示了兩種模態的最終表示質量都得到了很大的提高。

第二部分:高效視頻表示學習

從第一部分的實踐經驗中,我們注意到,視頻的自監督學習受益于大量數據和長時間的訓練計劃。然而,考慮到SSL訓練的高資源需求和能耗,開發高效學習方法變得至關重要。在這個主題中,我們展示了兩種可以降低視頻表示學習的訓練成本的方法。在第5章中,我們將輕量級的prompttuning方法應用于工業級的預訓練視覺語言模型,以使用較小的計算成本實現各種下游視頻理解任務,同時保持可比較的性能。在第6章中,我們建議在視覺變換器 [Dosovitskiy et al. 2020] 的視頻-語言預訓練、視頻分類微調和長視頻分類任務中丟棄冗余的輸入視覺塊。這種技術可以加速訓練過程,達到最高4倍,并且使那些需要大量資源的訓練任務在有限的資源下成為可能。

第三部分:長期視頻的自監督學習

在線上的視頻數據絕大多數是未剪輯的長視頻,時長可能是幾分鐘或幾小時。與第一部分中的短期視頻不同,較長的時間軸包含豐富的信息,如復雜活動的程序或電影的故事情節。在這個主題中,展示了兩種針對長期視頻的方法,一種是從教學視頻中學習,另一種是從特色電影中學習。在第7章中,我們利用YouTube上自然教學視頻中的弱文本-視覺對應關系,并提出一種方法來自動將演示者的字幕與視頻中的視覺內容對齊。因此,我們獲得了一個時間對齊網絡,它可以通過執行自動文本-視覺對齊來清理自然教學視頻。在第8章中,我們關注可能持續幾個小時的特色電影。受益于預訓練的視覺-語言模型,我們開發了一種方法,沿著時間軸密集地為電影生成音頻描述。

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

基礎模型正在迅速從實驗室起源轉向現實世界的部署和使用。在這篇論文中,我討論了兩個相互關聯的研究線,它們致力于彌合這個鴻溝,以便基礎模型能夠在現實世界的環境中,如工程、醫學或科學等領域中,得到有效的應用。第一種研究是使模型更加領域無關:盡管訓練基礎模型的技術是為語言和視覺領域開發的,但我們證明了簡單的技術可以將這些方法推廣到至少十二個不同的領域。第二個研究是使模型在任務模糊性的情況下更有用,也就是說用戶希望完成的任務可能模糊或未完全明確,這在現實世界環境中往往是常態。在這里,我們展示了如何衡量和提高基礎模型在任務模糊性下的性能,并探索了模型本身如何幫助澄清用戶意圖的過程。我們在討論未來的方向和更廣闊的挑戰及機遇前景時結束。

通用機器學習模型已經到來。盡管它們常常不完美、不可靠、不值得信賴或存在偏見,但現在存在的機器學習模型能夠通過自然語言或圖像示例快速學習一系列新任務。使用這些模型的一般公式有兩個步驟。首先,對模型進行大量廣泛的數據訓練,如從互聯網上策略性地抓取的圖像或文本,然后將其適應于所需的任務,例如,通過一組輸入輸出示例的自然語言指令。對于這種范例,已經創造了基礎模型這個術語,因為第一階段的訓練產生了一個模型,可以作為這些許多下游用例的集中基礎[Bommasani等人,2021]。

支撐這些模型的進步源自于各大研究實驗室的廣泛進展——太多以至于無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如,C4 [Raffel et al., 2020],ImageNet [Deng et al., 2009a]),為評估模型構建下游任務和基準測試(例如,GLUE [Wang et al., 2018a],SQuAD [Rajpurkar et al., 2016],ImageNet [Deng et al., 2009a]),為專用機器學習加速器開發硬件和軟件堆棧(例如,CUDA [Catanzaro et al., 2008, Garland et al., 2008],AlexNet [Krizhevsky, 2009a],TPUs [Jouppi et al., 2017]),訓練神經網絡的編程抽象(例如,Torch [Collobert et al., 2011],Theano [Team et al., 2016],TensorFlow [Abadi et al., 2016],PyTorch [Paszke et al., 2019],JAX [Frostig et al., 2018]),可擴展的機器學習架構(例如,ResNets [He et al., 2016],Transformers [Vaswani et al., 2017b]),優化器和分布式訓練的改進(例如,Adam [Kingma and Ba, 2014],Megatron [Shoeybi et al., 2019]),當然還有大規模無監督預訓練和遷移學習(例如,BERT [Devlin et al., 2018],GPT-3 [Brown et al., 2020])。

付費5元查看完整內容

在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。

在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。

在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。

基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。

付費5元查看完整內容

這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。

在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。

第二章:增強大型語言模型的魯棒性

在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。

第三章:解決大型語言模型的可擴展性挑戰

在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。

第四章:大型預訓練數據集的管理

在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0

付費5元查看完整內容

**本文研究了因果表示學習問題,即從高維的低維觀測中發現低維的高層次因果變量及其因果關系,以實現機器學習中的泛化和自適應。**考慮在監督學習中為泛化學習因果表示。由于虛假的相關性,預測模型往往無法泛化到與訓練時使用的分布不同的環境。本文提出一個框架,在基本因果圖的相當一般的假設下有理論保證,首先從觀察中確定給定目標的直接原因,然后用這些原因來構建不變的預測器,這些預測器能夠泛化到未見過的測試環境。

**其次,我們考慮在模仿和強化學習中學習因果表示的泛化。**其中一個基本的挑戰是學習策略、表示或動態,這些策略、表示或動態不會建立在虛假的相關性之上,并且不會泛化到它們所訓練的特定環境之外。我們從一個統一的觀點來研究這些泛化問題。為此,我們提出了一個框架來解決它們,在溫和的環境變化假設下,理論保證了可識別性和可泛化性。關鍵思想是,通過利用環境變量之間的結構關系(即,觀察、狀態、行動和獎勵),我們首先構建一個忽略虛假特征的數據表示,然后在策略、表示和動態方面構建不變預測因子。我們從理論上證明,所得到的策略、表示和動態可以很好地泛化到未見的環境。

**最后,我們考慮了強化學習中適應的學習因果表示。**除了泛化之外,強化學習的另一個基本挑戰是如何在只提供少量樣本的情況下快速使策略適應新環境。通過利用環境變量的結構關系,我們構建了一個簡約的圖表示,它分別編碼了用于策略適應的最小和充分的環境特定因素集和環境共享因素集的內容和位置。我們表明,這樣的表示允許我們以一種只需要少量樣本的有效方式使策略適應目標環境,而不需要進一步的策略優化。

付費5元查看完整內容

在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。

//searchworks.stanford.edu/view/13876519

付費5元查看完整內容

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。

付費5元查看完整內容
北京阿比特科技有限公司