亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

擴散生成模型最近已成為一種用于生成和修改連貫、高質量視頻的強大技術。本綜述提供了視頻生成擴散模型關鍵元素的系統概覽,涵蓋應用、架構選擇以及時間動態的建模。領域中的最新進展被總結并歸類為發展趨勢。綜述以剩余挑戰的概覽和對該領域未來的展望結束。網站://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models。

擴散生成模型(Sohl-Dickstein等,2015年;Song & Ermon,2019年;Ho等,2020年;Song等,2021年;Ruiz等,2024年)已經展示了學習多樣化視覺概念和基于文本描述創建高質量圖像的顯著能力(Rombach等,2022年;Ramesh等,2022年)。最近的發展還將擴散模型擴展到了視頻領域(Ho等,2022c),具有徹底革新娛樂內容生成或為智能決策模擬世界的潛力(Yang等,2023a)。例如,文本到視頻的SORA模型(Brooks等,2024年)已能夠根據用戶的提示生成長達一分鐘的高質量視頻。將擴散模型適應視頻生成帶來了獨特的挑戰,這些挑戰仍需克服,包括維持時間一致性、生成長視頻和計算成本。

在本綜述中,我們提供了視頻擴散模型的關鍵方面概覽,包括可能的應用、架構選擇、時間動態建模機制和訓練模式(見圖1以獲取概覽)。隨后,我們將簡要總結一些值得注意的論文,以勾勒出到目前為止該領域的發展。最后,我們總結討論持續存在的挑戰,并識別未來改進的潛在領域。

應用分類

視頻擴散模型的可能應用可以根據輸入方式大致分類。這包括文本提示、圖像、視頻和聽覺信號。許多模型也接受這些模態的某些組合作為輸入。圖2展示了不同的應用。我們從第7.1.3節開始,總結了每個應用領域中的重要論文。為此,我們根據一個主要任務對每個模型進行了分類。

在我們的分類中,文本條件生成(第7.1.3節)指的是完全基于文本描述生成視頻的任務。不同模型在如何模擬對象特定運動方面表現出不同程度的成功。因此,我們將模型分為兩類:一類能夠產生簡單運動,如輕微的攝像機平移或流動的頭發;另一類能夠表現出更復雜的隨時間變化的運動,如融入物理推理的模型(Melnik等,2023年)。

在圖像條件視頻生成(第7.4節)任務中,一個現有的參考圖像被賦予動畫效果。有時,提供文本提示或其他指導信息。由于其對生成視頻內容的高度可控性,圖像條件視頻生成近期已被廣泛研究。對于在其他章節中介紹的模型,我們在適用的情況下提及它們的圖像到視頻生成能力。

我們將視頻補全模型(第8節)視為一個獨立的組,這些模型接受現有視頻并在時間域中進行擴展,盡管它們與前面的應用有交集。視頻擴散模型通常由于架構和硬件限制而具有固定的輸入和輸出幀數。為了擴展這些模型生成任意長度的視頻,已探索了自回歸和分層方法。

音頻條件模型(第9節)接受聲音片段作為輸入,有時與文本或圖像等其他模態結合。然后它們可以合成與聲源一致的視頻。典型應用包括生成說話的面孔、音樂視頻以及更一般的場景。 視頻編輯模型(第10節)使用現有視頻作為基線,從中生成新視頻。典型任務包括風格編輯(在保持對象身份的同時改變視頻的外觀)、對象/背景替換、深度偽造以及恢復舊視頻素材(包括去噪、上色或擴展寬高比等任務)。

最后,我們考慮將視頻擴散模型應用于智能決策(第11節)。視頻擴散模型可以用作基于代理當前狀態或高級文本任務描述的現實世界模擬器。這可以使在模擬世界中進行規劃成為可能,同時也可以在生成性世界模型內完全訓練強化學習策略。

付費5元查看完整內容

相關內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。

由于其強大的生成能力,深度生成模型在低層視覺任務領域引起了廣泛關注。其中,以擴散模型為基礎的解決方案,因其通過正向擴散過程破壞圖像和逆向去噪過程生成圖像的特點,而廣受贊譽。這些模型能夠生成質量高且多樣性豐富的樣本,確保生成具有復雜紋理信息的視覺效果。盡管它們在低層視覺中的成功和廣泛應用顯著,但缺乏一篇全面且有啟發性的綜述來整合這些開創性的擴散模型研究并組織相關內容。為填補這一空白,本文提出了首個聚焦于低層視覺任務中去噪擴散模型技術的全面綜述,涵蓋了該領域的理論和實踐貢獻。我們展示了三種通用的擴散建模框架,并探討了它們與其他常用深度生成模型的關系,從而為后續分析奠定理論基礎。隨后,我們從多角度對低層視覺任務中使用的擴散模型進行了分類,考慮了基礎框架和目標任務。此外,除了自然圖像處理方法外,我們還總結了在其他低層視覺任務中應用的擴展擴散模型,包括醫學、遙感和視頻場景。我們概述了低層視覺任務中常用的基準測試和評估指標,并對三項主要任務中的擴散模型技術進行了全面評估,涵蓋了性能和效率。最后,我們闡明了當前擴散模型的局限性,并提出了七個未來研究的有趣方向。本綜述旨在促進對低層視覺任務中去噪擴散模型的深刻理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision找到一份包含超過20個低層視覺任務的擴散模型技術、數據集及其他相關信息的精選列表。

作為計算機視覺的一個重要組成部分,低層視覺任務旨在改善由于復雜場景導致的低質量數據,并在圖像超分辨率[1]、去模糊[2]、去霧[3]、圖像修復[4]、融合[5]、壓縮感知[6]、低光增強[7]和遙感云去除[8]等方面有著廣泛且實際的應用。請參見圖1中的視覺結果。

傳統方法[13], [14]將問題表述為變分優化挑戰,并采用手工設計的算法來解決與特定圖像屬性或降解先驗相關的近似約束[15], [16]。然而,這些方法由于缺乏通用性,無法應對復雜的降解問題。隨著深度學習的出現,卷積神經網絡(CNN)[17]和Transformers[18]因其強大的特征提取能力被廣泛應用于低層視覺任務。此外,豐富數據集的收集,如超分辨率中的DIV2K[19]和去雨中的Rain800[20],進一步促進了其通用性。盡管這些技術在PSNR和SSIM等基于失真的指標上取得了可喜的結果,但它們在紋理生成方面表現不佳,限制了其在現實場景中的應用。

為應對此局限,深度生成模型,尤其是生成對抗網絡(GANs)[21],被引入到低層視覺領域。得益于其強大的生成能力,這些網絡有望合成真實的紋理細節,從而擴展到現實世界的應用。然而,這些策略仍面臨幾個關鍵挑戰:(1) 訓練過程容易受到模式崩潰和不穩定優化的影響,需要在訓練期間進行復雜的超參數調優。(2) 生成的結果仍可能出現偽影和反事實細節,破壞全局一致性,限制了其適用范圍。

一種新型深度生成模型,稱為擴散模型(DMs)[22]-[30],最近因其卓越的生成能力和訓練穩定性成為計算機視覺領域的熱門話題。擴散模型的特點在于正向擴散階段和逆向擴散階段,通過引入噪聲系統性地擾動數據,然后學習逆轉這一過程以生成樣本。作為基于似然的模型,擴散模型將其訓練目標表述為重加權變分下界,以其廣泛的分布覆蓋、穩定的訓練目標和簡單的可擴展性而受到好評。

利用上述優勢,擴散模型在多個領域中取得了顯著成功,包括數據生成、圖像內容理解和低層視覺。在低層視覺領域,擴散模型[9], [10], [31], [32]主要集中于低質量數據的恢復,確保重建的高質量數據具有精確的語義信息和逼真的紋理細節,即使在復雜且嚴重降解的現實場景中也是如此。如圖1所示,許多基于擴散模型的算法在各種低層視覺任務中表現出色。然而,不同任務中使用的技術表現出顯著的多樣性和復雜性,使其難以理解和改進,從而對未來發展和通用重建模型的引入構成了障礙。因此,迫切需要一篇結構良好且全面的低層視覺任務中基于擴散模型的綜述。然而,大多數現有的基于擴散模型的綜述[33]-[36]側重于基礎理論模型和生成技術的發展。只有少數綜述[37]-[39]集中于自然圖像場景中的某一特定問題或少數有限任務。

為滿足領域需求并彌補上述缺陷,我們提出了首個針對低層視覺任務的基于擴散模型的綜述(見圖2和圖3)。本綜述包括詳細的理論介紹、廣泛的應用范圍、全面的實驗分析和廣泛的未來展望。具體來說,我們在第2節全面介紹了擴散模型的基本原理,闡明了擴散模型與其他深度生成模型之間的聯系和相互關系。然后,我們在第3節總結了現有的前沿基于擴散模型的自然低層視覺方法,基于基礎框架和目標任務對其進行分類,包括六個廣泛使用的任務。接著,我們在第4節擴展到更廣泛的場景,包括醫學、遙感和視頻場景,旨在提供應用范圍廣泛的綜合概述。此外,第5節匯編了30多個常用基準測試和10多個基本評估指標。在三個主要任務(超分辨率、圖像去模糊和低光圖像增強)的相關設置中,我們提供了基于擴散模型方法的豐富實驗。最后,我們在第6節中指出了現有低層視覺任務中基于擴散模型方法的局限性,并提出了未來研究和改進的三個主要潛力方向,并在第7節總結了本綜述。

我們希望這篇基于擴散模型的綜述,旨在促進對低層視覺領域的理解,能夠激發計算機視覺社區的進一步興趣并促進相關研究工作。

付費5元查看完整內容

本綜述提供了在強化學習(RL)和機器人技術背景下,從視頻中學習(LfV)方法的概覽。我們關注那些能夠擴展到大規模互聯網視頻數據集的方法,并在此過程中提取關于世界動態和物理人類行為的基礎知識。這些方法對于開發通用機器人具有巨大的潛力。

我們從相關的基礎概念概述開始,這些概念與機器人學習的LfV設置相關。包括討論LfV方法可以提供的激動人心的好處(例如,超出可用機器人數據的泛化改進)和對LfV關鍵挑戰的評論(例如,視頻中缺失信息和LfV分布偏移的挑戰)。我們的文獻綜述從分析可以從大型、異質視頻數據集中提取知識的視頻基礎模型技術開始。接下來,我們回顧了專門利用視頻數據進行機器人學習的方法。在這里,我們根據哪種RL知識模式受益于視頻數據的使用來分類工作。我們還強調了緩解LfV挑戰的技術,包括回顧解決視頻中缺失動作標簽問題的動作表示法。

最后,我們審查LfV數據集和基準,然后通過討論LfV中的挑戰和機會來結束這篇綜述。在這里,我們倡導可擴展的方法,這些方法可以利用可用數據的全部范圍,并針對LfV的關鍵好處。總的來說,我們希望這篇綜述能夠成為LfV新興領域的全面參考資料,催化該領域的進一步研究,并最終有助于通用機器人的進展。

這項調查關注的目標是獲得通用型機器人。這些機器人能夠在非結構化的真實世界環境中執行多種物理任務。這樣的機器人將非常有用,并具有廣泛的商業應用(例如,家庭機器人、工廠機器人或自動駕駛)。然而,通用機器人設置面臨幾個挑戰。首先,通用機器人必須具備高水平的能力,這包括從高級能力(例如,推理和計劃)到基礎技能(例如,靈巧和技能)的維持。其次,為了在非結構化環境中操作,通用機器人必須依賴不完整的部分觀察(例如,視覺和觸覺感知)來感知世界。

我們如何獲得這樣的機器人?傳統的機器人技術不足以應對,因為它們通常依賴于手工制作的物理模型理想化,并且通常無法處理非結構化和未見過的場景[Krotkov et al., 2018]。相比之下,機器學習(ML)技術更具前景,并且在機器人學中的使用日益增多,從而引入了機器人學習這一術語[Argall et al., 2009; Peters et al., 2016; Kroemer et al., 2021; Ibarz et al., 2021]。現在,普遍認為機器學習的進步是由數據、算法和計算能力的提升驅動的。幸運的是,計算成本正在持續降低[Moore, 1998; Mack, 2011],且最近開發出了高效的算法——包括表現力強的深度學習架構,如變壓器[Vaswani et al., 2017]和擴散模型[Ho et al., 2020]——其性能隨著計算和數據的增加而持續和可預見地提高[Kaplan et al., 2020]。將這些算法與從互聯網抓取的大規模、多樣化數據集結合,已經在語言理解和生成[OpenAI, 2023]、圖像生成[Betker et al., 2023],以及最近的視頻生成[Brooks et al., 2024]方面取得了顯著的進步。

有希望的是,這些深度學習方法可以轉移到機器人學[Brohan et al., 2022; Team et al., 2023b]。然而,與其他領域不同的是,機器人學缺失了成功所需的關鍵成分:適當的大型多樣化數據集。實際上,機器人學面臨一個先有雞還是先有蛋的問題。首先,由于我們的機器人能力有限,我們無法輕易收集現實世界的機器人數據。這些有限的能力意味著部署機器人來收集數據可能是低效和危險的。隨后,由于缺乏數據,我們無法輕易改進我們的機器人。因此,可以說,數據目前是機器人學進步的關鍵瓶頸。 我們如何克服這個數據瓶頸?為了提供潛在解決方案的見解,我們現在簡要討論機器人學的主要數據來源。1)真實機器人數據:這是我們想要的確切數據。通過高質量的真實機器人數據,可以使用監督學習或離線強化學習(RL)來訓練我們的機器人控制策略。然而,無論是通過人類遠程操作還是自動策略,收集現實世界的機器人數據都是昂貴且困難的。2)模擬機器人數據:與現實世界數據收集相比,模擬收集的速度明顯更快、成本更低[Kaufmann et al., 2023a]。然而,模擬帶來了一些問題。模擬物理可能不準確。此外,創建適合訓練通用政策的多樣化模擬環境和任務并非易事。此外,我們仍然通常缺乏能夠收集模擬數據的自動策略。3)互聯網數據:互聯網是一個龐大而多樣化的數據來源。它為近期深度學習的進展奠定了基礎[OpenAI, 2023; Betker et al., 2023]。互聯網文本、圖像和視頻數據包含了大量與通用型機器人相關的信息。然而,互聯網數據并非直接或輕易適用于機器人學。這是由于互聯網數據與機器人領域之間的分布偏移,以及互聯網數據中關鍵信息的缺失(例如,文本不包含視覺信息,而視頻不包含動作標簽)。 鑒于其豐富的數量和相關內容,互聯網視頻數據有助于緩解機器人技術中的數據瓶頸問題,并推動創建通用型機器人的進程。更具體地說,我們希望從互聯網視頻中獲得以下好處:(1)提高超出可用機器人數據的泛化能力;(2)提高機器人數據的數據效率和分布內性能;(3)推測性地獲得僅憑機器人數據無法實現的新興能力。事實上,從視頻中學習(LfV)這一新興領域的最近進展令人鼓舞,證明了這些好處。這包括利用大規模視頻預測模型作為機器人動態模型的工作[Yang等人,2023c; Bruce等人,2024],或利用機器人數據和互聯網視頻訓練基礎機器人政策的工作[Sohn等人,2024]。 然而,將互聯網視頻用于機器人技術帶來了一些基本和實際挑戰。首先,一般來說,視頻是一個具有挑戰性的數據模式。視頻數據是高維的、噪音大的、隨機的,并且標記不佳。這些問題使得視頻基礎模型的進展落后于語言和圖像模型。其次,特別是為機器人技術使用視頻數據引入了自己的一套問題。視頻缺乏對機器人至關重要的信息,包括明確的動作信息和低級信息,如力和本體感知。此外,互聯網視頻與下游機器人設置之間可能存在各種分布偏移,包括環境、實體和視角的差異。鑒于這些挑戰,我們提出了兩個關鍵的LfV研究問題:

如何從互聯網視頻中提取相關知識?

如何將視頻提取的知識應用于機器人技術?在本綜述中(見圖1),我們回顧了試圖回答這些問題的現有文獻。對于第一個問題,我們調查了從大規模互聯網視頻中提取知識的視頻基礎建模技術,這些技術有望成為未來LfV進展的關鍵驅動力。對于第二個問題,我們進行了徹底的文獻分析,這些文獻利用視頻數據幫助機器人學習。我們根據強化學習知識模式(KM)(即哪些表示、政策、動態模型、獎勵函數或價值函數)直接受益于視頻數據的使用來分類這些文獻。此外,我們還回顧了用于緩解LfV挑戰的常見技術,如使用動作表示來解決視頻中缺失動作標簽的問題。

我們通過討論未來LfV研究的問題和機會來結束。這包括倡導可擴展的方法,這些方法可以最好地提供LfV的承諾好處。在此,我們建議針對政策和動態模型KM。此外,我們還討論了利用視頻基礎模型技術進行LfV的方向,然后觸及克服關鍵LfV挑戰的方向。

這些有前景的機會,加上近期在LfV方面的鼓舞人心的進展[Yang等人,2023c; Bruce等人,2024],強烈表明LfV的承諾好處是完全可以實現的。我們希望這份全面的綜述能鼓勵和通知未來的LfV研究,最終有助于加速我們創建通用型機器人的進程。

付費5元查看完整內容

文本到視頻生成標志著在快速發展的生成式人工智能領域中的一個重要前沿,融合了文本到圖像合成、視頻字幕生成和文本引導編輯的進展。本綜述批判性地考察了文本到視頻技術的進展,聚焦于從傳統生成模型到尖端的Sora模型的轉變,強調了在可擴展性和泛化性方面的發展。區別于以往的分析,我們提供了對這些模型的技術框架和演進路徑的深入探討。此外,我們深入****研究了實際應用,并討論了倫理和技術挑戰,如無法處理多實體操作、理解因果效應學習、理解物理交互、感知對象縮放和比例調整,以及對抗對象幻覺,這也是生成模型中一個長期存在的問題。我們的綜合討論涵蓋了使文本到視頻生成模型作為人類輔助工具和世界模型的主題,以及引出模型的不足和總結未來的改進方向,主要集中在訓練數據集和評估指標(自動的和以人為中心的)上。本綜述旨在針對新手和資深研究者,尋求在不斷增長的文本到視頻生成領域催化更多的創新和討論,為更可靠和實用的生成式人工智能技術鋪平道路

2024年2月15日,OpenAI介紹了一種新的基礎模型,能夠根據用戶的文本提示生成視頻。這個被命名為Sora的模型,人們稱其為ChatGPT的視頻版本,主要從市場營銷[36, 134]、教育[14]和電影制作[127]等行業引發了興奮,因為它促進了通常需要大量資源才能創造的高質量內容創作的民主化。OpenAI聲稱,由于Sora在大規模文本-視頻對數據集上進行了訓練,它具有令人印象深刻的近乎現實世界的生成能力。這包括生動角色的創造、平滑動作的模擬、情緒的描述,以及顯著對象和背景的詳細提供。

鑒于這些聲明,我們對從技術角度探索文本到視頻生成模型是如何演進的感興趣。為此,我們對文本到視頻生成模型的研究進行了全面回顧,并推斷出它們遵循的某些機制的通用框架。因此,本綜述主要收集了IEEE Xplorer和ACM圖書館的會議和期刊論文,例如IEEE CVPR、ECCV、NIPS、ICML和ACM Multimedia,以及來自arXiv的一些最新研究。收集的大部分論文范圍從近年到十年前,以簡化領域背景的討論。結果,使用文本到視頻、生成式AI、視覺解釋、對象檢測等關鍵詞,通過滾雪球抽樣技術收集了不少于140篇文章。基于這個技術總結,我們探討了各種相關方面,以支持對文本到視頻生成研究日益增長的全面理解。這使我們的工作區別于先前關于類似主題的綜述[118, 162],因為我們進一步超越了這個生成模型的外表。此外,我們還補充了現有的生成模型綜述工作,包括文本到文本[154]、文本到圖像[155]、文本到3D[73]和文本到語音[157]。通過這種構想,我們希望我們的工作可以成為新研究人員在文本到視頻生成領域的可理解的學習基礎。此外,鑒于我們的多方面討論,我們希望激發這些模型的潛在改進,使它們對最終用戶更加可靠和值得信賴。我們綜述文章的另一個重要目標是為任何對探索文本到視頻方法感興趣的人提供簡明的課程,并進一步強調這一領域的幾個研究前景。我們期望我們的讀者可以輕松理解這一動態領域內的障礙和潛力。 為了呈現關于文本到視頻生成模型的全面綜述,我們首先簡要介紹其核心技術,包括視覺建模和語言解釋的基本原理和骨干(§ 2)。然后,我們以時間順序開始探索文本到視頻生成模型,從它們如何源于文本到圖像生成模型,到最近嘗試擴展視頻生成模型Sora(§ 3)。此外,我們探索了另一個領域,其目的是使用用戶的文本提示編輯視頻(§ 4)。注意,對于每項探索,我們都提供了模型用來生成或編輯視頻的通用框架的概述。我們還簡要介紹了文本到視頻生成模型常用的評估指標(§ 5)。為了與從業者互動,我們還介紹了文本到視頻生成技術可能在行業中扮演重要角色的幾個實際應用(§ 6)。盡管文本到視頻生成模型具有獨特性,我們列出了可能阻礙潛在用戶完全信任模型的合理限制和顧慮(§ 7)。最后,我們在討論中總結了文本到視頻生成模型如何激發社會思考,以及未來研究如何通過改善模型性能來改善這一點(§ 8)。

文本引導的視頻生成: Sora

視頻生成模型源自圖像生成模型,因為視頻本質上是遵循一定時間一致性規則的圖像序列。在這一部分中,我們首先簡要介紹文本到圖像生成模型是如何演變成文本到視頻生成模型的。我們進一步討論了每種特定架構背后的基礎框架,如基于GAN的、基于自回歸的和基于擴散的模型。

在第3.4節中,我們討論了幾個帶有擴散模型架構的文本到視頻生成模型的例子。盡管如此,這些模型中的大多數采用了帶有U-Net骨架的潛在DDPM,該骨架由卷積層組成。從這一發展中更進一步的是,用變換器(Transformer)骨架替換基于ConvNet的DDPM,使視頻生成模型更具可擴展性。這正是由OpenAI的大型視覺模型(LVMs)的新成員Sora[96]實現的,它是視頻生成模型的一部分。Sora的核心視覺處理能力基于擴散變換器(DiT)[97]。擴散變換器繼承了類似于ViT的結構,通過替換標準層歸一化為自適應層歸一化以納入條件項,進行了輕微修改。其余的工作原則繼承了ViT,其中視覺輸入被打成補丁并線性投影,然后送入變換器編碼器。

尤其對于視頻生成而言,該機制在圖5中進行了說明。請注意,由于OpenAI沒有披露Sora的模型架構,我們是基于技術報告中描述的內容進行近似。首先,由f序列的大小為H X W X C的圖像組成的視頻被編碼成潛在表示Z,以將高分辨率輸入壓縮成低分辨率特征,以節省生成過程的計算成本。具有I x I x C形狀的Z被分解成每個形狀為p x p的補丁。補丁被線性投影成長度為(I/p)2 x f的向量。然后將噪聲線性向量連同其他條件一起輸入到DiT中,如步長t和文本嵌入y。擴散過程產生一個新的潛在表示??t,其形狀與Z相同。然后,通過解碼器對結果潛在表示進行上采樣,以生成視頻輸出。Sora的強大視覺處理器與異常的文本生成模型,GPT-4,相結合。最重要的是,Sora遵循DALL·E-3[12]中使用的重新描述策略,自動將簡單用戶標題轉換成高度描述性的文本以供DiT編碼。利用生成式語言模型使Sora能夠更好地理解用戶指令中的上下文,從而使其能夠創建具有令人印象深刻的文本-視覺一致性的視頻。

正如前一節中詳細闡述的那樣,OpenAI聲稱Sora是一個能夠理解并因此模擬物理世界的AI模型,這一點是可以理解的。這一聲明確實為Sora與現有的文本到圖像模型(如DALL·E)之間劃定了界限,后者被創造出來以視覺方式表達文本概念。雖然后者被部署以更加“創造性”的目標,前者則被開發用于現實地模擬或模型化物理世界。然而,要將Sora標記為一個世界模型,首先必須理解像Sora這樣的AGI承擔這樣的標識需要什么。

世界模型的概念。世界建模的概念已經存在了四十多年。它最初源于純科學,如物理學、數學和經濟學。通常,世界建模的過程相當啟發式的,因為模型制作者往往缺乏一個全面的計劃或理論來支撐他們的思考,類似于沒有食譜就試圖烘焙蛋糕,需要經歷幾次試驗和錯誤[13]。因此,模型制作者只能依賴現有的作品或與他們的構想緊密相關的可用信息來近似他們心中設想的世界[39]。一般而言,世界建模的主要組成部分包括理論、隱喻、類比、政策、經驗數據、風格化事實以及數學概念和技術(圖15),這些必須包含在建模“食譜”中[13]。將這些方面總結為實踐,今天的世界模型似乎被三種能力所代表,即視覺、記憶和控制器,分別由Ha和Schmidhuber展示為VAE、RNN和控制器[45]。這樣的概念適用于任何模態,因為視覺、記憶和控制器可以分別指數據、架構和目標函數(圖15)。

通過AGI建模世界。作為人工智能快速發展領域的革命性前沿,AGI旨在實現一種認知性能,這種性能在廣泛的任務和領域內可與人類智能相媲美或超越,超越人工窄智能(ANI)系統的能力[83]。其目標是構建能夠進行人類能夠進行的任何智力工作的機器,包括理解、學習和靈活自主地應用信息。與定制的專門任務的AI應用相比,如圖像識別、下棋或語言翻譯,AGI旨在將這些不同的技能結合到一個展示出通用智能的單一系統中。對智能基礎更深層次理解的追求激發了這種全面的AI研究和開發方法,為可能徹底改變我們與技術互動、處理挑戰性問題和理解人類心智功能的創新打開了大門。鑒于這些規格,AGI確實有資格被稱為世界模型。然而,基于我們在前幾節的討論,我們可以推斷AGI模型是純數學的,沒有考慮手動控制在“真實”世界中固有存在的內在方面。例如,像ChatGPT這樣的LLM完全是基于執行純矩陣操作的變換器構建的。這反映了研究人員嘗試通過NLP建模世界的方式,在1990年,當他們認識到世界建模的難度超出了將實體和屬性作為語言中的基本本體論連接起來時[15]。盡管存在這些情況,科學家們仍在不斷前進,以實現在完美適合用戶理解的模型中建模浩瀚宇宙的夢想。憑借這些屬性,研究人員一直在創新各種方式,讓模型看到真實世界的環境。通過游戲[76]、虛擬化身[142]和帶有人類反饋的強化學習[23]等方法進行的代理建模,是挖掘真實世界經驗的方法之一。

付費5元查看完整內容

本教程將概述在序列決策設置中的對抗性學習的最新研究。特別地,本教程將側重于基于多臂賭博機、強化學習和多智能體交互的對抗性攻擊和防御機制。本教程將暫時涵蓋以下列出的內容。

//adversarial-rl.org/ijcai2022/index.html

介紹 序列決策入門: 多臂賭博機,強化學習,多智能體交互,和博弈。 對抗性序列決策如何不同于對抗性監督學習的高級概述。 攻擊策略和防御機制的高級概述。

多臂賭博機

不同反饋破壞模型和目標下的最優攻擊策略。 最近在設計魯棒算法、關鍵挑戰和開放問題方面的工作。

強化學習 討論不同的學習范式(例如,模仿學習、離線學習和在線學習),以及它們在對抗性攻擊中是如何區別的。 測試時間、訓練時間和后門攻擊的最優攻擊策略。 不同數據破壞模型和攻擊目標下的最優攻擊策略。 最近在設計魯棒算法、關鍵挑戰和開放問題方面的工作。

多智能體相互作用和博弈論考慮 多智能體系統中通過控制其他智能體的攻擊和非健忘攻擊。 利用博弈論工具防御攻擊。

實際考慮和討論 針對學習代理的安全威脅案例研究。 在對抗性序列決策中開發基準工具和數據集。 與觀眾公開討論,促進跨社區合作。

付費5元查看完整內容

本報告的主要目標是發展一個全面深度學習理論基礎。方案內的研究將按照三個相互補充的觀點進行,即 將神經網絡訓練視為統計學習問題并研究表達性、學習、優化和泛化的統計學觀點,

應用觀點關注于安全性、健壯性、可解釋性和公平性

采用數學方法論的觀點發展和理論性分析新的基于深度學習的方法來解決逆問題問題和偏微分方程。

//www.spp2298.de/

付費5元查看完整內容

基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。

目前代碼已開源:

//github.com/Panxjia/SPA_CVPR2021

弱監督目標檢測近年來逐漸受到國內外研究機構以及工業界關注。基于全監督的目標檢測方法需要耗費大量的人力、物力獲取大量準確的標注信息,對于任務更新以及遷移極其不友好。近年來,全世界范圍內的研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架

弱監督定位研究如何僅利用圖像的類別標簽對圖像中目標進行定位。

2014年MIT提出的類別響應圖CAM,得到目標的響應掩模,之后通過最小包圍框得到目標的定位結果。CAM得到的類別響應掩模只能覆蓋目標最具判別性的局部區域,如圖1第二行所示。后續的研究工作多通過空間正則技術,如通過擦除、多分支補充等方法試圖擴大類別響應區域。雖然在響應區域上有一定的改善,但是現有的工作均忽略了保持目標結構特性的重要性,無法刻畫目標的邊緣、形狀等特性。另外,現有方法的分類網絡均采用Global Average Pooling(GAP)結構對特征進行聚合,這在一定程度上損失了目標的結構信息。

本文提出了一種兩階段的弱監督目標定位方法(SPA),從模型結構與類別響應圖兩個方面優化定位結果,提高響應掩模的準確度。整體方法框架如圖2所示。

具體地,從模型結構方面,我們提出了受限激活模塊。

現有方法中往往采用Global Average Pooling (GAP)+Softmax的分類結構,這種結構導致模型丟失目標結構信息,主要原因包括:

一,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力;

二,無限制的類別響應特征圖往往出現局部極高響應誤導模型分類的現象,不利于模型準確定位到目標的位置。

因此,我們設計了一個簡單有效的受限激活模塊,主要包括兩個部分:

一,我們首先通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽mask, 用以區分前背景;

二,我們利用Sigmoid操作對類別響應特征圖進行歸一化,之后利用提出的受限激活損失函數引導模型關注目標前景區域。

付費5元查看完整內容

本教程將概述最近機器學習對組合優化的影響,特別是在混合整數規劃(MIP)框架下。涵蓋的主題將包括用于預測可行解決方案的ML和強化學習,使用ML改進精確求解器,在精確MIP求解器中學習的軟件框架,以及新興的以決策為中心的學習范式。

//sites.google.com/view/ml-co-aaai-21/

組合優化(CO)是計算機科學、人工智能(AI)和運籌學的基石。它在從機組人員規劃到運動日程安排和的工業應用中取得了廣泛的成功。雖然CO過去是大多數人工智能研究的基礎,通過可滿足性問題(SAT),現代人工智能研究已經轉向更多的概率方法,并且這兩個領域之間的聯系已經減弱。然而,在過去的五到十年里,人們對使用機器學習方法改進組合優化的興趣又強烈起來。

本教程旨在向觀眾介紹這一令人興奮的不斷發展的領域。我們相信,聽眾將從提出的教程中獲益良多,因為它將布局這個研究空間的視角,不同的ML技術在CO設置中的優點,以及各種受益于ML使用的CO任務。我們還將引入一個新的開源庫,Ecole,旨在方便該領域的新人訪問。雖然本教程將主要關注作為CO的具體數學框架的混合整數規劃,我們也將接觸到MIP和其他約束推理框架之間的關系,如可滿足性(SAT)和約束滿足性(CSP),因為將提出的大多數思想都將適用于這些框架。

內容目錄:

Part I by Elias B. Khalil:

  • 組合優化導論 Introduction to combinatorial optimization & Tutorial overview.
    • Modeling decision-making problems with Mixed Integer Programming (MIP);
    • Complexity and solution approaches (exact and heuristic);
    • Real-world applications;
    • Data-driven algorithm design.

Part 2 by Elias B. Khalil

  • 機器學習方法 The pure ML approach: predicting feasible solutions.
    • Reinforcement learning for combinatorial optimization;
    • Neural network architectures for representing graph problems;
    • Limitations: lack of guarantees, scalability challenges.

Part 3 by Didier Chételat & Maxime Gasse: [slides]

  • 混合方法 The hybrid approach: improving exact solvers with ML.
    • The branch-and-bound framework for mixed-integer linear programs (MIP);
    • Standard approaches to solver engineering;
    • Learning solver search policies: a Markov decision process (MDP) perspective;
    • Overview of tasks of interest;
    • Open challenges for ML/RL.

Part 4 by Giulia Zarpellon & Laurent Charlin

  • 機器學習MIP解決 Machine learning for MIP solving: challenges & literature.
    • Hands-on ML-for-MIP with a focus on the Branching problem;
    • Representations & Features;
    • Generalization notions;
    • Data & Metrics.

Part 5 by Antoine Prouvost

  • Ecole: A python framework for learning in exact MIP solvers.
    • A streamlined interface for doing ML in the open-source MIP solver SCIP, based on OpenAI Gym;
    • Example: "learning to branch'' using Ecole;
    • Easily extending predefined environments for your own research; Performance evaluation and analysis.

Part 6 by Bistra Dilkina 決策 Decision-focused Learning. Integrating LP/MIP combinatorial downstream tasks end-to-end in learning; Integrating graph optimization tasks end-to-end in learning.

Part 7 by Andrea Lodi: [slides]

  • Concluding remarks and new frontiers.
    • Business applications;
    • Recap of various contributions in this area;
    • Evaluation and Challenges going forward.
付費5元查看完整內容

為了解圖像分割領域的研究現狀,對圖像分割方法進行了系統性梳理,首先按照基于閾值、邊緣、區域、聚類、圖論及特定理論等6類方法介紹傳統圖像分割方法;然后介紹基于深度學習的分割方法,并探討了幾種常用的分割網絡模型,包括全卷積網絡(full convolutional network,FCN)、金字塔場景解析網絡(pyramid scene parsing network,PSPNet)、DeepLab、Mask R-CNN;最后在圖像分割的常用數據集上對同類方法進行了性能比較和分析。

付費5元查看完整內容
北京阿比特科技有限公司