亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

源自自然語言處理的新范式——提示法,近來在計算機視覺領域掀起一股浪潮,為各種計算機視覺應用,如圖像識別和圖像生成,帶來顛覆性的變革。與傳統的一次確定、持續學習的架構(如針對特定類別集進行訓練的線性分類器)相比,提示法提供了更大的靈活性和更多用于創新應用的機會。它允許模型通過調整文本指令或修改模型輸入空間中少量參數(同時保持預訓練參數的大部分不變)來執行新任務,如識別新類別。這一范式顯著地推動了人工智能與人類對話交互達到前所未有的水平。在短時間內,提示法在廣泛的問題領域中展示了其有效性,包括圖像分類、物體檢測、圖像生成和編輯、視頻分析和機器人控制。在本教程中,我們的目標是通過建立計算機視覺與自然語言處理研究之間的聯系,為提示法提供全面的背景知識。我們還將回顧使用提示法解決計算機視覺問題的最新進展。

構建最先進的視覺識別系統的常見方法是使用離散標簽來訓練視覺模型,以預測固定的對象類別集合(He et al., 2016; Dosovitskiy et al., 2021)。從技術角度看,這是通過將視覺模型(如ResNet(He et al., 2016)或ViT(Dosovitskiy et al., 2021))生成的圖像特征與被視為視覺概念的固定權重集合相匹配來實現的,這些權重是隨機初始化的。雖然訓練類別通常具有文本形式,如“金魚”或“衛生紙”,但為了簡化交叉熵損失的計算,它們會被轉換為離散標簽,這使得文本中包含的語義在很大程度上未被利用。這種學習范式限制了視覺識別系統僅能處理封閉集的視覺概念,使它們無法處理新的類別,因為學習新的分類器需要額外的數據。

最近,像CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)這樣的視覺-語言預訓練方法作為視覺表示學習的有前景的替代方案而出現。其主要思想是使用兩個單獨的編碼器(每種模態一個)來對齊圖像和原始文本。例如,CLIP和ALIGN都將學習目標制定為對比損失,這種損失會在特征空間中拉近圖像及其文本描述,同時推離不匹配的配對。通過大規模的預訓練,模型可以學習多樣化的視覺概念,并且可以通過提示輕松地轉移到任何下游任務(Radford et al., 2021; Jia et al., 2021; F¨urst et al., 2021; Li et al., 2021; Singh et al., 2021; Yuan et al., 2021)。特別是,對于任何新的分類任務,人們可以首先通過給文本編碼器提供描述任務相關類別的句子來合成分類權重,然后與圖像編碼器生成的圖像特征進行比較。

我們觀察到,對于預訓練的視覺-語言模型,文本輸入(稱為提示)在下游數據集中起著關鍵作用。然而,確定正確的提示是一項不簡單的任務,通常需要花費大量時間來調整詞語——詞語的微小變化可能會對性能產生巨大影響。例如,對于Caltech101(圖1(a),第2個與第3個提示),在類別標記前加上“a”可以提高超過5%的準確度。此外,提示工程還需要對任務以及理想情況下語言模型的底層機制有先驗知識。圖1(b-d)中的例子說明,添加與任務相關的上下文可以帶來顯著的改進,即,對于Flowers102添加“flower”,對于DTD添加“texture”,對于EuroSAT添加“satellite”。調整句子結構可以進一步提高性能,例如,對于Flowers102,在類別標記后放置“a type of flower”,對于DTD,只保留上下文中的“texture”,并且對于EuroSAT,在“satellite photo”前加上“centered”。然而,即使進行了大量調整,也無法保證所得到的提示對這些下游任務來說是最優的。

受到自然語言處理(NLP)中最近的提示學習研究的啟發(Shin et al., 2020; Jiang et al., 2020; Zhong et al., 2021),我們提出了一種簡單的方法,稱為上下文優化(Context Optimization,CoOp)1,用于自動化提示工程,特別是針對預訓練的視覺-語言模型。具體來說,CoOp使用可學習的向量來對提示的上下文詞進行建模,這些向量可以用隨機值或預訓練的詞嵌入進行初始化(參見圖2)。我們提供了兩種實現,以處理不同性質的任務:一種是基于統一上下文的,它與所有類別共享相同的上下文,并且在大多數類別上表現良好;而另一種是基于類別特定上下文的,它為每個類別學習一組特定的上下文標記,發現這對一些細粒度類別更加適用。在訓練期間,我們只需使用交叉熵損失來最小化預測誤差,對可學習的上下文向量進行優化,同時保持整個預訓練參數不變。梯度可以通過文本編碼器進行反向傳播,將參數中編碼的豐富知識提煉出來,用于學習與任務相關的上下文。

付費5元查看完整內容

相關內容

計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能系統。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

最近在計算機視覺領域的突破為用戶解鎖了許多以前無法使用的應用程序。諸如檢測、分割、姿態和深度估計等區分性任務取得了令人難以置信的準確性。對抗網絡、自編碼器、擴散模型、圖像到圖像轉換、視頻合成和動畫方法的生成應用展示了其輸入的高保真度,使其難以被人類觀察者與真實區分。神經輻射場 (Neural Radiance Fields) 承諾為各種應用提供民主化的對象重建和渲染。

然而,這些突破以這些模型的高計算需求為代價。例如,根據Token長度,具有二次復雜性的變換模型,圖像到圖像轉換需要大量的FLOPs,而神經渲染方法需要復雜的渲染管道。這轉化為在服務器端運行這些模型的需求,提高服務成本,并且由于傳輸數據和接收結果所產生的延遲,用戶體驗不是最佳。 將這些方法帶到邊緣設備上是出了名的困難。現有的工作目標是壓縮大型模型,但這不一定會導致設備上的加速,因為它不僅需要神經網絡壓縮的背景知識,還需要特定領域的背景知識。例如,要在設備上運行神經渲染,就需要在圖形方面有經驗;要運行生成模型,就需要知道如何在不犧牲輸出質量的情況下減小大小。加速服務器端推理的神經網絡不一定會提高邊緣推理的效率,因為在邊緣設備上部署它們需要大幅度減小模型的大小,有時達到幾個數量級。

另一方面,邊緣推斷的好處是顯而易見的:1. 服務成本大大降低。2. 通過設計提高用戶隱私,因為所有處理都在設備上運行,而不需要在服務器和設備之間傳輸數據。3. 它便于用戶交互,因為沒有傳輸可以減少延遲。4. 減少構建許多新的基于計算機視覺的應用程序的周期時間,因為不需要昂貴的基礎設施。

這個教程將介紹重新設計算法的有效方法,以實現高效的內容理解、圖像生成和神經渲染。最重要的是,我們將展示如何將算法有效地部署在移動設備上,最終實現用戶與移動設備之間的實時互動。

//snap-research.github.io/efficient-nn-tutorial/

講者:

Jian Ren是Snap Research的創意愿景團隊的首席研究科學家。他的研究重點是內容理解,圖像和視頻的生成和操作,以及為前兩個領域設計高效神經網絡的方法。他的工作成果包括20多篇在頂級會議(CVPR, ICCV, ECCV, ICLR, NeurIPs, ICML)上發表的論文,以及為多個產品貢獻的專利。2019年,他從美國羅格斯大學獲得計算機工程博士學位;2014年,他從中國科學技術大學獲得學士學位。在加入Snap Inc之前,Jian曾在Adobe,Snap和字節跳動公司實習。

Sergey Tulyakov是Snap Inc的首席研究科學家,領導創意愿景團隊。他的工作專注于通過計算機視覺和機器學習創建操縱世界的方法。這包括對人類和物體的理解,逼真的操作和動畫,視頻合成,預測和重定向。他開創了無監督圖像動畫領域,并通過MonkeyNet和一階運動模型激發了該領域的許多初創公司。他在交互式視頻風格化方面的工作在SIGGRAPH Real-Time Live! 2020上獲得了最佳展示獎。他發表了30多篇頂級會議論文、期刊和專利,并開發了多個創新產品,包括Snapchat寵物跟蹤、OurBaby、實時神經鏡頭(性別互換、嬰兒臉、老化鏡頭、臉部動畫)等。在加入Snap Inc.之前,Sergey曾在卡內基梅隆大學、微軟和英偉達工作。他擁有意大利特倫托大學的博士學位。

Ju (Eric) Hu是Snap Inc.的機器學習工程師。他的工作主要集中在支持和優化Snap內部的機器學習框架SnapML。SnapML旨在通過利用不同的硬件在移動設備上實現實時性能,提供快速有效的推理。在加入Snap之前,他在一家醫療成像初創公司工作,專注于皮膚病變檢測和分類。他畢業于加州大學洛杉磯分校,獲得數學學士學位。

付費5元查看完整內容

從與上下文無關的詞嵌入到與上下文相關的語言模型,預訓練的文本表示將文本挖掘帶入了一個新的時代: 通過在大規模文本語料庫上對神經模型進行預處理,然后將其適應于特定任務的數據,可以有效地將通用語言特征和知識轉移到目標應用中,并在許多文本挖掘任務中取得了顯著的性能。不幸的是,在這種突出的預訓練微調范式中存在著一個巨大的挑戰:大型的預訓練語言模型(PLM)通常需要大量的訓練數據來對下游任務進行穩定的微調,而大量的人工注釋的獲取成本很高。

在本教程中,我們將介紹預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。我們專注于不需要大量人工標注的最小監督方法,包括**(1)作為下游任務基礎的自監督文本嵌入和預訓練語言模型,(2)用于基本文本挖掘應用的無監督和遠程監督方法,(3)用于從大量文本語料庫中發現主題的無監督和種子引導方法,以及(4)用于文本分類和高級文本挖掘任務的弱監督方法**。

介紹 第一部分: 科學信息提取與分析 第二部分: 科學信息搜索和證據挖掘 第三部分: 主題發現、文本分類和多維文本分析 摘要及未來方向

付費5元查看完整內容

人類通過多種渠道感知世界,如眼睛看到的圖像或耳朵聽到的聲音。盡管任何一個單獨的通道可能是不完整的或有噪聲的,但人類可以自然地將從多個通道收集的信息進行排列和融合,以便掌握更好地理解世界所需的關鍵概念。人工智能的核心愿望之一是開發算法,使計算機具有從多模態(或多通道)數據中有效學習的能力。這些數據類似于通過視覺和語言獲得的視覺和聲音,幫助人類理解周圍的世界。例如,計算機可以通過搜索最相似的圖像來進行文本查詢(反之亦然),并通過使用自然語言描述圖像的內容來模擬這種能力。

視覺與語言(VL),一個位于計算機視覺和自然語言處理(NLP)之間的熱門研究領域,旨在實現這一目標。視覺與語言預訓練(vision and language pre-training, VLP)受到語言模型預訓練在NLP中的巨大成功的啟發,近年來迅速引起了兩方面的關注。在本教程中,我們將涵蓋VLP前沿的最新方法和原則,包括(1) 基于區域特征和端到端圖像文本訓練前;(2) 統一的視覺語言建模;(3) 延伸到視頻語言預訓練; (4) 從語言監督中學習視覺模型;(5) 視覺合成。

//dvsml2022-tutorial.github.io/index.html/

付費5元查看完整內容

學習視覺相似度對于各種視覺任務至關重要,如圖像聚類、人臉檢測或圖像檢索,從而為日常應用奠定基礎,如智能手機上的圖像集合的智能排列、瀏覽器中的網絡規模的圖像搜索或在線購物時推薦產品。今天,學習捕捉相似度的視覺表示的主要方法是深度度量學習,它專門針對從新穎的、看不見的類中檢索對象和圖像。此外,相似性學習與對比學習密切相關,對比學習是自監督學習的主導方法,分別是遷移學習。

在本教程中,我們將深入介紹深度度量學習(DML)的領先學習范式,以及如何實際評估其(超出分布)泛化的未來方向。具體來說,本教程將涵蓋以下主題: (i) DML目標函數的概況,(ii)先進的和上下文相關的DML公式,(iii) DML中數據采樣的重要性,(iv)公平和現實地評估DML方法的最佳實踐,最后,(v)我們將DML與計算機視覺和模式識別的相關領域聯系起來,如對比學習,少樣本學習,遷移學習和人臉識別。

付費5元查看完整內容

網絡(或可互換的圖表)在全球范圍內以及科學和工程領域中已經無處不在:社會網絡、協作網絡、蛋白質-蛋白質相互作用網絡、基礎設施網絡等等。圖上的機器學習,特別是網絡表示學習,在與圖相關的任務中表現出了卓越的性能,如節點/圖分類、圖聚類和鏈接預測。這些任務與Web應用程序密切相關,尤其是社交網絡分析和推薦系統。例如,節點分類和圖聚類被廣泛應用于社區檢測的研究中,而鏈接預測在朋友或物品推薦中起著至關重要的作用。與性能一樣,理解機器學習模型的行為,并能夠解釋這些模型是如何做出某個決定的,對個人來說也是至關重要的。這種需求激發了許多關于機器學習可解釋性的研究。具體來說,對于社交網絡分析,我們可能需要知道為什么某些用戶(或群體)被機器學習模型分類或聚在一起,或者為什么一個朋友推薦系統認為一些用戶相似,從而推薦他們相互聯系。在這種情況下,一種可解釋的網絡表示是必要的,它應該把圖信息帶到人類可以理解的水平。

在本教程中,我們將 (1) 定義可解釋性,并在網絡研究的不同背景下回顧其定義; (2) 回顧總結各種可解釋網絡表征; (3) 討論與網絡嵌入、圖摘要和網絡可視化方法的聯系; (4) 討論圖神經網絡的可解釋性,因為這類技術通常被認為具有有限的可解釋性; (5) 指出有待解決的研究問題和未來的研究方向。本教程是為研究人員、研究生和從業人員設計的,這些領域包括圖挖掘、圖機器學習和機器學習可解釋性。

//shengminjin.github.io/tutorials/www2022

目錄內容:

引言 Introduction 網絡設置可解釋性 Interpretability in Network Settings Network Properties Spectral Properties Relationship Between a Network and its Subgraphs 可解釋網絡表示 Interpretable Network Representations Graph Summarization Methods Network Embedding Methods Network Visualization Demo 圖神經網絡及可解釋性 Graph Neural Network and its Explainability Q & A

付費5元查看完整內容

隨著功能強大的預訓練視覺語言模型(如CLIP)的興起,研究如何使這些模型適應下游數據集變得非常必要。最近提出的一種名為上下文優化(CoOp)的方法將提示學習的概念引入視覺領域,以適應預訓練的視覺語言模型。具體來說,CoOp將提示中的上下文單詞轉換為一組可學習的向量,并且僅使用少量標記的圖像進行學習,可以在經過大量調整的手動提示中實現巨大的改進。在我們的研究中,我們確定了CoOp的一個關鍵問題: 學習的上下文不能泛化到同一數據集內更廣泛的不可見類,這表明在訓練期間觀察到的CoOp基類過擬合。 為了解決這個問題,我們提出了條件上下文優化(CoCoOp),它通過進一步學習一個輕量級神經網絡來為每幅圖像生成一個輸入條件標記(向量)來擴展CoCoOp。與CoOp的靜態提示相比,我們的動態提示適應每個實例,因此對類遷移不那么敏感。大量的實驗表明,對于不可見的類,CoCoOp的泛化效果要比CoOp好得多,甚至在單個數據集之外還顯示出很好的可遷移性; 具有較強的域泛化性能。代碼可在//github.com/ KaiyangZhou/CoOp

付費5元查看完整內容

本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。

在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。

在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。

//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。

然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。

在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。

最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。

根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。

在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。

為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:

  • 我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。

  • 我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。

  • 我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。

  • 我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。

  • 我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。

付費5元查看完整內容

近年來,圖表示學習的研究激增,包括深度圖嵌入(deep graph embeddings)技術、卷積神經網絡對圖結構數據的泛化以及受置信傳播啟發的神經信息傳遞方法。

與此同時,圖表示學習的這些進步促成了許多領域的最新成果,包括化學合成、3D 視覺、推薦系統、問題解答和社交網絡分析等。

加拿大麥吉爾大學計算機科學助理教授 William Hamilton 的《圖表示學習》(Graph Representation Learning)報告系統性介紹最新圖表示學習的進展。

  • 圖表示學習的簡史
  • 兩個理論范式
  • 三個未決問題和一個重大挑戰

付費5元查看完整內容
北京阿比特科技有限公司