亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近在計算機視覺領域的突破為用戶解鎖了許多以前無法使用的應用程序。諸如檢測、分割、姿態和深度估計等區分性任務取得了令人難以置信的準確性。對抗網絡、自編碼器、擴散模型、圖像到圖像轉換、視頻合成和動畫方法的生成應用展示了其輸入的高保真度,使其難以被人類觀察者與真實區分。神經輻射場 (Neural Radiance Fields) 承諾為各種應用提供民主化的對象重建和渲染。

然而,這些突破以這些模型的高計算需求為代價。例如,根據Token長度,具有二次復雜性的變換模型,圖像到圖像轉換需要大量的FLOPs,而神經渲染方法需要復雜的渲染管道。這轉化為在服務器端運行這些模型的需求,提高服務成本,并且由于傳輸數據和接收結果所產生的延遲,用戶體驗不是最佳。 將這些方法帶到邊緣設備上是出了名的困難。現有的工作目標是壓縮大型模型,但這不一定會導致設備上的加速,因為它不僅需要神經網絡壓縮的背景知識,還需要特定領域的背景知識。例如,要在設備上運行神經渲染,就需要在圖形方面有經驗;要運行生成模型,就需要知道如何在不犧牲輸出質量的情況下減小大小。加速服務器端推理的神經網絡不一定會提高邊緣推理的效率,因為在邊緣設備上部署它們需要大幅度減小模型的大小,有時達到幾個數量級。

另一方面,邊緣推斷的好處是顯而易見的:1. 服務成本大大降低。2. 通過設計提高用戶隱私,因為所有處理都在設備上運行,而不需要在服務器和設備之間傳輸數據。3. 它便于用戶交互,因為沒有傳輸可以減少延遲。4. 減少構建許多新的基于計算機視覺的應用程序的周期時間,因為不需要昂貴的基礎設施。

這個教程將介紹重新設計算法的有效方法,以實現高效的內容理解、圖像生成和神經渲染。最重要的是,我們將展示如何將算法有效地部署在移動設備上,最終實現用戶與移動設備之間的實時互動。

//snap-research.github.io/efficient-nn-tutorial/

講者:

Jian Ren是Snap Research的創意愿景團隊的首席研究科學家。他的研究重點是內容理解,圖像和視頻的生成和操作,以及為前兩個領域設計高效神經網絡的方法。他的工作成果包括20多篇在頂級會議(CVPR, ICCV, ECCV, ICLR, NeurIPs, ICML)上發表的論文,以及為多個產品貢獻的專利。2019年,他從美國羅格斯大學獲得計算機工程博士學位;2014年,他從中國科學技術大學獲得學士學位。在加入Snap Inc之前,Jian曾在Adobe,Snap和字節跳動公司實習。

Sergey Tulyakov是Snap Inc的首席研究科學家,領導創意愿景團隊。他的工作專注于通過計算機視覺和機器學習創建操縱世界的方法。這包括對人類和物體的理解,逼真的操作和動畫,視頻合成,預測和重定向。他開創了無監督圖像動畫領域,并通過MonkeyNet和一階運動模型激發了該領域的許多初創公司。他在交互式視頻風格化方面的工作在SIGGRAPH Real-Time Live! 2020上獲得了最佳展示獎。他發表了30多篇頂級會議論文、期刊和專利,并開發了多個創新產品,包括Snapchat寵物跟蹤、OurBaby、實時神經鏡頭(性別互換、嬰兒臉、老化鏡頭、臉部動畫)等。在加入Snap Inc.之前,Sergey曾在卡內基梅隆大學、微軟和英偉達工作。他擁有意大利特倫托大學的博士學位。

Ju (Eric) Hu是Snap Inc.的機器學習工程師。他的工作主要集中在支持和優化Snap內部的機器學習框架SnapML。SnapML旨在通過利用不同的硬件在移動設備上實現實時性能,提供快速有效的推理。在加入Snap之前,他在一家醫療成像初創公司工作,專注于皮膚病變檢測和分類。他畢業于加州大學洛杉磯分校,獲得數學學士學位。

付費5元查看完整內容

相關內容

CVPR 2023大會將于 6 月 18 日至 22 日在溫哥華會議中心舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,創下新紀錄,今年接收了 2360 篇論文,接收率為 25.78%。作為對比,去年有 8100 多篇有效投稿,大會接收了 2067 篇,接收率為 25%。

近年來,圖神經網絡的先進技術已經擴展了它們的能力和表現力。此外,實際應用也開始在多個領域出現,包括推薦系統、假新聞檢測、交通預測、化學的分子結構、抗菌發現物理模擬等。因此,圖論和深度學習交匯處的研究繁榮起來,革命性地改變了許多研究領域。然而,盡管圖神經網絡受到了廣泛關注,但在將它們應用到其他領域時仍然面臨許多挑戰,從方法論的概念性理解到實際系統中的可擴展性和可解釋性。 《圖神經網絡的概念與技術》提供了逐步的討論、詳盡的文獻回顧、詳細的分析和討論、嚴格的實驗結果,以及針對圖神經網絡應用的實用導向方法。本書還發展了對圖神經網絡的概念和技術的理解,并建立了對各種領域中圖神經網絡的不同實際應用的熟悉度。覆蓋了圖數據、社交網絡、深度學習和圖聚類等關鍵主題,這本首屈一指的參考來源非常適合行業專家、研究員、學者、學者、實踐者、講師和學生。

涵蓋范圍: 本出版物涵蓋的許多學術領域包括但不限于: * 對抗性攻擊 * 計算機網絡 * 計算機視覺 * 深度學習 * 圖聚類 * 圖數據 * 圖神經網絡 * 知識圖譜 * 自然語言處理 * 社交網絡

付費5元查看完整內容

源自自然語言處理的新范式——提示法,近來在計算機視覺領域掀起一股浪潮,為各種計算機視覺應用,如圖像識別和圖像生成,帶來顛覆性的變革。與傳統的一次確定、持續學習的架構(如針對特定類別集進行訓練的線性分類器)相比,提示法提供了更大的靈活性和更多用于創新應用的機會。它允許模型通過調整文本指令或修改模型輸入空間中少量參數(同時保持預訓練參數的大部分不變)來執行新任務,如識別新類別。這一范式顯著地推動了人工智能與人類對話交互達到前所未有的水平。在短時間內,提示法在廣泛的問題領域中展示了其有效性,包括圖像分類、物體檢測、圖像生成和編輯、視頻分析和機器人控制。在本教程中,我們的目標是通過建立計算機視覺與自然語言處理研究之間的聯系,為提示法提供全面的背景知識。我們還將回顧使用提示法解決計算機視覺問題的最新進展。

構建最先進的視覺識別系統的常見方法是使用離散標簽來訓練視覺模型,以預測固定的對象類別集合(He et al., 2016; Dosovitskiy et al., 2021)。從技術角度看,這是通過將視覺模型(如ResNet(He et al., 2016)或ViT(Dosovitskiy et al., 2021))生成的圖像特征與被視為視覺概念的固定權重集合相匹配來實現的,這些權重是隨機初始化的。雖然訓練類別通常具有文本形式,如“金魚”或“衛生紙”,但為了簡化交叉熵損失的計算,它們會被轉換為離散標簽,這使得文本中包含的語義在很大程度上未被利用。這種學習范式限制了視覺識別系統僅能處理封閉集的視覺概念,使它們無法處理新的類別,因為學習新的分類器需要額外的數據。

最近,像CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)這樣的視覺-語言預訓練方法作為視覺表示學習的有前景的替代方案而出現。其主要思想是使用兩個單獨的編碼器(每種模態一個)來對齊圖像和原始文本。例如,CLIP和ALIGN都將學習目標制定為對比損失,這種損失會在特征空間中拉近圖像及其文本描述,同時推離不匹配的配對。通過大規模的預訓練,模型可以學習多樣化的視覺概念,并且可以通過提示輕松地轉移到任何下游任務(Radford et al., 2021; Jia et al., 2021; F¨urst et al., 2021; Li et al., 2021; Singh et al., 2021; Yuan et al., 2021)。特別是,對于任何新的分類任務,人們可以首先通過給文本編碼器提供描述任務相關類別的句子來合成分類權重,然后與圖像編碼器生成的圖像特征進行比較。

我們觀察到,對于預訓練的視覺-語言模型,文本輸入(稱為提示)在下游數據集中起著關鍵作用。然而,確定正確的提示是一項不簡單的任務,通常需要花費大量時間來調整詞語——詞語的微小變化可能會對性能產生巨大影響。例如,對于Caltech101(圖1(a),第2個與第3個提示),在類別標記前加上“a”可以提高超過5%的準確度。此外,提示工程還需要對任務以及理想情況下語言模型的底層機制有先驗知識。圖1(b-d)中的例子說明,添加與任務相關的上下文可以帶來顯著的改進,即,對于Flowers102添加“flower”,對于DTD添加“texture”,對于EuroSAT添加“satellite”。調整句子結構可以進一步提高性能,例如,對于Flowers102,在類別標記后放置“a type of flower”,對于DTD,只保留上下文中的“texture”,并且對于EuroSAT,在“satellite photo”前加上“centered”。然而,即使進行了大量調整,也無法保證所得到的提示對這些下游任務來說是最優的。

受到自然語言處理(NLP)中最近的提示學習研究的啟發(Shin et al., 2020; Jiang et al., 2020; Zhong et al., 2021),我們提出了一種簡單的方法,稱為上下文優化(Context Optimization,CoOp)1,用于自動化提示工程,特別是針對預訓練的視覺-語言模型。具體來說,CoOp使用可學習的向量來對提示的上下文詞進行建模,這些向量可以用隨機值或預訓練的詞嵌入進行初始化(參見圖2)。我們提供了兩種實現,以處理不同性質的任務:一種是基于統一上下文的,它與所有類別共享相同的上下文,并且在大多數類別上表現良好;而另一種是基于類別特定上下文的,它為每個類別學習一組特定的上下文標記,發現這對一些細粒度類別更加適用。在訓練期間,我們只需使用交叉熵損失來最小化預測誤差,對可學習的上下文向量進行優化,同時保持整個預訓練參數不變。梯度可以通過文本編碼器進行反向傳播,將參數中編碼的豐富知識提煉出來,用于學習與任務相關的上下文。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。

**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

兩年前在ECCV 2020上提出的神經輻射場(NeRFs)展示了從一組校準圖像重建照片逼真和沉浸式3D場景的令人興奮的潛力。接下來是大量的作品,探索使用神經體渲染作為一種技術的潛力,以實現許多令人興奮的應用程序,并解決計算機視覺、圖形學、機器人等領域的基本問題。在本教程中,我們將介紹一個簡短的課程,從基本原理開始接近神經體渲染,包括它與基于圖像的繪制和反向圖的歷史的關系,它的核心組件及其派生,常見的實踐,未來的挑戰,以及實際的編碼示例。這個半天的教程的目標不是提供一系列關于該領域最近論文的演講,而是通過抽象神經體渲染領域的最新發展,為新手和中級研究人員提供教學構建模塊,以深入理解材料。//sites.google.com/berkeley.edu/nerf-tutorial/home

付費5元查看完整內容

深度學習模型在從計算機視覺、自然語言處理到圖形挖掘等各種任務中都取得了卓越的預測性能。許多不同領域的企業和組織正在構建基于深度學習的大規模應用程序。然而,人們越來越關注這些模型的公平性、安全性和可信性,這主要是由于其決策過程的不透明性質。最近,人們對可解釋深度學習越來越感興趣,它旨在通過解釋模型的行為、預測或兩者都解釋來減少模型的不透明度,從而在人類和復雜深度學習模型之間建立信任。近年來,針對模型的低可解釋性和不透明性問題,提出了一系列的解釋方法。在本教程中,我們將從數據的角度介紹最近的解釋方法,針對分別處理圖像數據、文本數據和圖形數據的模型。我們將比較它們的優勢和局限性,并提供實際應用。

//sites.google.com/gwmail.gwu.edu/tutorial-proposal-cikm-2022/home?authuser=0

深度學習模型在各種各樣的任務中取得了卓越的預測性能,如計算機視覺(CV)、自然語言處理(NLP)、圖挖掘和強化學習[11,14,20,22,38,41]。許多跨不同領域的企業和組織正在構建基于深度學習模型的大規模應用程序,但人們越來越關注這些模型的公平性、安全性和可信性[12],這主要是由于它們的決策過程的不透明性質。例如,面部識別的深度學習模型在面對皮膚較黑的女性圖像[3]時表現非常糟糕,自動駕駛系統在檢測與行人互動的人群分組時識別精度低得令人無法接受,為STEM工作招聘新員工的NLP系統有很強的偏見,認為男性比女性更合格[16]。由于缺乏令人信服的可解釋性模型,深度學習在高風險預測應用(如醫療保健、刑事司法和金融服務)中廣泛采用還不可能。

盡管其他類型的模型(如線性回歸或基于樹的方法)也存在潛在風險,但通過檢查模型使用的節點的權重或拆分并選擇那些產生最佳性能的節點,可以很容易地理解它們的決策[13,18]。不像其他經典的機器學習模型,檢查模型使用的節點的權重或分割,并選擇一個具有最佳性能的[13]是不可能的,因為它們的過度參數化,實際上可以超過數百萬個參數,以及分層非線性的性質。最近,人們提出了一系列方法來解釋深度學習模型的行為或預測。這些方法可以根據:** (a)這些方法是否假定可以訪問模型的內部結構(模型相關),或者是否可以應用于任何黑盒模型(模型無關)。(b)模型是解釋單個實例(局部解釋)還是解釋模型的整體行為(全局解釋)。(c)可解釋性是通過梯度(基于梯度的)還是通過非梯度的分析(非基于梯度的)實現的。與此同時,現實應用中的數據可能具有不同的格式,如圖像、文本和圖表,顯示出不同的特征。因此,它激發了從數據角度對解釋方法的研究**。

在本教程中,將介紹深度學習解釋的基本定義和術語。我們的教程分為四個部分:(i)圖像分類的解釋; 對文本的解釋;(iii)圖的解釋,(IV)解釋深度強化學習。我們還將詳細介紹目前流行的可解釋模型,并強調它們的優點和局限性。本教程的學習成果如下:(1)了解主流可解釋模型的理論動機、分類和理論表述。(2)比較目前流行的可解釋模型的優點和局限性,并提出推廣這些方法的可能機會。(3)通過編碼、訓練和可視化指導原則,介紹在解釋圖像、NLP、圖表和深度強化學習的預測DNN方面的實際應用。 講者:

付費5元查看完整內容

生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。

//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f

概述

深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。

在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。

2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。

鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。

本綜述范圍

在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。

基礎模型

生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。

計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。

三維形狀生成

目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。

三維感知圖像生成

三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。

6 應用

3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。

7 未來的工作

3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。

通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。

可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。

效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。

訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。

付費5元查看完整內容

在過去的幾年里,深度學習方法在從計算機視覺到語音識別的各個領域的廣泛問題上取得了前所未有的成績。目前的研究主要集中在開發網格結構數據的深度學習方法,而許多重要的應用都需要處理圖結構數據。這些幾何數據在計算機圖形學和三維視覺、傳感器網絡、藥物設計、生物醫學、推薦系統、NLP和帶有知識圖的計算機視覺、web應用等領域越來越重要。本次演講的目的是介紹圖上的卷積神經網絡,以及這些新的學習技術的應用。

人類從端粒到端粒的DNA全序列測定始于30年前,最終于2021年完成。這一成就是眾多專家的巨大努力的結果,他們設計了各種工具,并進行了艱苦的手工檢查,以實現第一個無間隙基因組序列。然而,這種方法很難作為一種組裝不同基因組的通用方法,尤其是在數據量大、組裝速度快的情況下。在這項工作中,我們探索了一種不同的方法來解決基因組組裝任務的中心部分,包括解開一個大的組裝圖,從中需要重建基因組序列。我們的主要動機是減少人類工程啟發式,并使用深度學習開發更通用的重建技術。準確地說,我們引入了一種新的學習框架來訓練圖卷積網絡通過找到正確的路徑來解析組裝圖。訓練使用從解析CHM13人類序列生成的數據集進行監督,并在使用真實人類PacBio HiFi讀取數據構建的組裝圖上進行測試。實驗結果表明,在單個染色體生成的模擬圖形上訓練的模型能夠顯著地解析所有其他染色體。此外,該模型在相同的圖表上優于從最先進的\textit{de novo}匯編器手工制作的啟發式。利用圖網絡重建的染色體在核苷酸水平上更準確,報告的contig數量更少,基因組重建分數更高,NG50/NGA50評估指標更高。

付費5元查看完整內容

近年來,圖表示學習的研究激增,包括深度圖嵌入(deep graph embeddings)技術、卷積神經網絡對圖結構數據的泛化以及受置信傳播啟發的神經信息傳遞方法。與此同時,圖表示學習的這些進步促成了許多領域的最新成果,包括化學合成、3D 視覺、推薦系統、問題解答和社交網絡分析等。

加拿大麥吉爾大學計算機科學助理教授 William Hamilton 的新書《圖表示學習》(Graph Representation Learning)。

據 William 介紹,這本書全面概述了圖神經網絡、節點嵌入、圖卷積、圖的深度生成模型以及相關的歷史背景和傳統方法。

有網友在閱讀前兩章內容后認為,書中的解釋非常清晰和直觀,值得與同事分享!

另有網友表示,這本書特別適用于圖學習初學者。

章節介紹

該書首先討論了圖表示學習的目標以及圖理論和網絡分析的主要方法論基礎。之后,作者介紹并回顧了學習節點嵌入的方法,包括基于隨機游走(random-walk)的方法和知識圖譜的應用。

接下來,作者對圖神經網絡形式(formalism)進行了綜合介紹,該形式已經成為使用圖數據進行深度學習的主要且快速增長的模型范式。

最后,書中總結了深度生成模型的最新進展,這些模型雖然提出的時間不久,但在圖表示學習領域發展迅速。

引言

本章首先介紹了圖這種數據結構,然后介紹了基于圖的機器學習。

背景和傳統方法

本章提供了一些方法論背景,介紹了在現代深度學習方法問世以前,基于圖的機器學習使用了哪些方法。作者首先介紹了基本的圖統計、核心方法以及它們在節點和圖分類任務中的使用。然后作者在書中介紹并探討了用于測量節點鄰域之間重疊的方法,最后簡要介紹了使用拉普拉斯(Laplacians)進行譜聚類。

節點嵌入

本書第一部分主要介紹了節點嵌入的內容。

  • 第三章:鄰域重建方法

在本章中,作者概述了簡單圖和加權圖的節點嵌入方法。

  • 第四章:多關系數據和知識圖譜

在本章中,作者介紹了用于多關系圖的類比嵌入方法,同時還簡要介紹了知識圖譜的相關內容。

圖神經網絡

本書第一部分探討了學習圖中節點的低維嵌入的方法,第二部分則重點介紹了更加復雜的編碼器模型。

  • 第五章:圖神經網絡模型

在本章中,作者看到開發用于圖結構數據的復雜編碼器的主要挑戰在于,通常的深度學習工具并不適用。圖神經網絡(GNN)作為在圖數據上定義深度神經網絡的通用框架,作者對其基本內容展開了詳細介紹。

  • 第六章:實踐中的圖神經網絡

本章將探索 GNN 在實踐中的應用。具體而言,作者將討論 GNN 的一些典型應用以及實踐中通常如何實現 GNN 的優化,其中重點探討了特別有效的無監督預訓練方法。此外,作者還將介紹一些用以正則化和提升 GNN 效率的常用技術。

  • 第七章:理論依據

本章講述了圖神經網絡的一些理論依據,旨在向讀者介紹不同理論依據背后的核心思想,這樣感興趣的讀者就可以自由地探索和結合他們認為合適的直覺知識和動機。

生成圖模型

本書第三部分主要介紹了生成圖模型的相關內容。

  • 第八章:傳統圖生成方法

本章首先討論圖生成的傳統方法,并且這些傳統方法早于大多數圖表示學習研究,甚至是通常的機器學習研究。此外,本章討論的方法為之后出現的基于深度學習的方法奠定了基礎。

  • 第九章:深度生成模型

本章介紹了一系列基礎的圖的深度生成模型,這些模型在創建通用深度生成模型過程中通常采用三種最流行的方法,分別為變分自編碼器(VAE)、生成對抗網絡(GAN)和自回歸模型。作者將重點介紹這些深度生成模型的簡單和通用變體,提供了詳細的細節解讀以及必要的參考文獻。

作者介紹

William Hamilton 于 2018 年取得斯坦福大學計算機科學博士學位,現為加拿大麥吉爾大學計算機科學助理教授,同時還擔任加拿大高等研究院(CIFAR)人工智能主席以及 Mila 魁北克 AI 研究所(Mila AI Institute of Quebec)成員。 William 在學生時代取得了諸多榮譽,他曾先后榮獲 2013 年度 ACM 本科生研究者榮譽提名、2014 年度加拿大 AI 協會(CAIAC)最佳 AI 主題碩士論文獎,以及 2018 年度斯坦福大學 Arthur Samuel 最佳計算機科學博士論文獎。

他的研究興趣主要是機器學習、網絡科學和自然語言處理的結合應用,目前專注于圖表示學習領域的快速發展項目。目前他在 Google Scholar 上的論文總引用量在 5000 以上。

付費5元查看完整內容
北京阿比特科技有限公司