亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。

Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

相關內容

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

解耦表征學習(Disentangled Representation Learning,DRL)旨在學習一種能夠識別并解耦蘊含在可觀察數據中的潛在生成因子(underlying factors)的模型。將數據生成的潛在因子解耦出來獲得具有語義意義的解耦表征的過程,有利于學習數據的可解釋表示,它模仿了人類在觀察和理解事物的過程。作為一種通用的學習策略,解耦表征學習在大量的場景中,比如計算機視覺、自然語言處理、數據挖掘,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。**本文從動機、定義、方法、評價、應用等方面對解耦表征學習進行了全面的綜述。本文還對解耦模型的設計進行了探討,分析了不同場景下設計解耦表征學習模型的原則。**最后,本文討論了當前解耦表征學習所面臨的挑戰以及未來可能的研究方向。我們希望這篇文章能夠促進解耦表征學習相關研究。

//www.zhuanzhi.ai/paper/2eba883e987ada96eb625dfdeabe8e02

1. 引言

當人類觀察一個物體時,我們試圖在一定先驗知識的基礎上理解這個物體的各種屬性(如形狀、大小和顏色等)。然而,現有的端到端的、黑盒的深度學習模型采用了直接學習對象的表征,來擬合數據分布和判別標準的捷徑策略,而無法類人地提取數據生成的潛在因子。為了填補這一空白,一種重要的表征學習范式——解耦表征學習被提出,并繼而引發了學術界的廣泛關注。

**作為一種通用的學習范式,解耦表征學習泛指能夠識別和解耦觀察數據的潛在生成因子的機器學習模型。**現有文獻證明了解耦表征學習能夠像人類一樣學習和理解世界的潛力。解耦表征學習也在計算機視覺、自然語言處理和數據挖掘等領域得到了廣泛得到應用,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。

解耦表征學習旨在學習數據的潛在生成因子,并在表征空間為每個生成因子學習到互相解耦的隱變量,即為潛在生成因子學習到解耦的表征。以Shape3D數據集上的解耦為例,如下圖,對于觀察到的3D圖形組合,我們需要識別并解耦物體大小、物體形狀、物體顏色以及墻的背景色、地板顏色、觀察角度這6個生成因子。 本文從動機、定義、方法、評價、應用等方面對解耦表征學習(DRL)進行了全面的綜述。我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法;我們討論了解耦表征學習在計算機視覺、自然語言處理和推薦系統等方面的應用;我們還為在不同場景下如何設計解耦模型提供了一些思考和見解;最后我們探討了解耦表征學習未來的研究方向。

2. 定義

直觀的定義。根據Bengio在提出解耦表征學習時給出的定義以及學術界廣泛使用的定義,我們將常用的定義總結為:解耦表征學習應該分離數據中不同的、獨立的和信息豐富的生成因子。單個隱變量對單個潛在生成因子的變化敏感,而對其他因子的變化保持不變。

除了直觀的定義,也有人從群論和因果推斷的角度給出了更為形式化的定義。

3. 方法

我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法,對每一種方法我們都闡述了其中的一些代表性工作。方法的分類如下圖所示。

傳統統計方法

傳統的統計方法雖然沒有深度架構,但一直以來都能有效地解耦向量空間中的潛在因子,其中以主成分分析和獨立成分分析最具代表性。雖然這些淺層模型不是本文的重點,但我們仍然提供了簡要的描述,以確保完整性。有興趣的讀者可以參考更多的統計文獻。

基于變分自編碼器(VAE)的方法

變分自動編碼器(VAE)[16]是自動編碼器的一個變種,它采用了變分推理的思想。VAE最初是作為圖像生成的深度生成概率模型提出的。后來的研究人員發現VAE還具有學習簡單數據集上解糾纏表示的潛在能力(例如,FreyFaces [16], MNIST[49])。為了獲得更好的解糾纏性能,研究人員設計了各種額外的正則化子與原有的VAE損失函數相結合,形成了基于VAE的方法族。通用VAE模型結構如下圖所示。

基于生成對抗網絡(GAN)的方法

GAN (Generative Adversarial Nets)[17]作為Goodfellow等人提出的另一種重要的生成模型,引起了研究人員的廣泛關注。GAN沒有采用傳統的貝葉斯統計方法,而是直接從先驗分布p(z)中采樣潛表示z。具體來說,GAN有一個生成網絡(生成器)G和一個判別網絡(鑒別器)D,其中生成器G模擬一個復雜的未知生成系統,將潛表示z轉換為生成的圖像,而鑒別器D接收一個圖像(真實的或由G生成的)作為輸入,然后輸出輸入圖像為真實的概率。在訓練過程中,生成器G的目標是生成可以欺騙鑒別器D的圖像,使其相信生成的圖像是真實的。同時,鑒別器D的目標是區分生成器G生成的圖像與真實圖像。因此,生成器G和鑒別器D構成了一個動態對抗性極大極小博弈。理想情況下,生成器G最終可以生成一個看起來像真實圖像的圖像,因此鑒別器D無法確定生成器G生成的圖像是否是真實的。

層次方法

在實踐中,許多生成過程自然涉及分層結構[70],其中變異因素具有不同層次的語義抽象,或跨層次依賴或獨立。例如,在CelebA數據集[50]中,控制性別的因子比控制眼影的獨立因子具有更高的抽象程度,而在Spaceshapes數據集[70]中,控制形狀的因子和控制相位的因子之間存在依賴關系,例如,只有當物體形狀等于“月亮”時,“相位”的維度才是活躍的。為了捕獲這些層次結構,人們提出了一系列工作來實現層次解纏

4. 應用

**

**

鑒于解耦表征學習能夠高效地學習可解釋性、可控性和魯棒性的表征,其被廣泛運用于各類機器學習任務。 在圖像和視覺領域,DRL往往被用于實現語義可控的圖像生成及圖像翻譯。解耦的潛在生成因子有助于實現圖像生成場景的連貫和穩健性,并進一步增強和圖像生成的可控性和可用性。此外,DRL也被用于圖像分類、圖像檢索、圖像分割、事件檢測、特征學習等任務。 除了靜態圖像,DRL也有助于視頻分析任務,包括視頻預測、視頻檢索和動作重定向(Motion Retargeting)等。 在自然語言處理領域,DRL被廣泛地應用于文本表征學習、文本風格遷移。在此類任務中,解耦的對象往往是特定語義的、粗粒度的表征,例如解耦文本的詞法和語義表征、語句的風格和內容表征等。此外,DRL也在文本語義匹配、社交文本分析、大語言模型分析中起到了有效的作用。 在推薦領域和圖學習領域,DRL往往能夠捕捉不同抽象層次的特征、學習不同領域的信息,并從錯綜復雜的關聯關系中學習潛在因子,得到更本質的表征,因此也得到了極大的研究應用。 另外,在多模態場景下,DRL有助于實現不同模態表征的分離、對齊和泛化,因此被應用于跨模態表征學習、跨模態情感分析、文本驅動圖像生成等多模態任務中。

5. 設計

基于對實際應用中普遍采用的解耦表征學習策略的討論,我們提出了針對特定任務設計各種DRL模型的策略。我們總結了設計DRL模型的兩個關鍵因素: 1)根據具體的任務設計恰當的表征結構,通常根據解耦的表征形式分為dimension-wise或vector-wise的表征結構; 2)設計相應的損失函數,鼓勵表征被解耦,同時不損失特定任務的信息。對于損失函數的設計,我們將DRL模型分為生成式模型(generative model)和鑒別式模型(discriminative model)。簡而言之,生成式模型注重學習過程中的解耦和重建,而鑒別式模型注重在解耦表征的基礎上完成特定的下游任務。

6. 未來方向

最后,我們提出了一些解耦表征學習的潛在研究方向,包括: 1)多樣化場景。在更多樣化的場景和更復雜的數據集上對DRL進行理論性分析和評估。 2)多樣的學習范式。除了基于VAE和GAN的范式外,使用更多的學習范式實現DRL模型。 3)可解釋性和泛化性。繼續在不同學習形式、不同任務上探究DRL的可解釋性和泛化性。

付費5元查看完整內容

多模態表示學習是一種學習從不同模態及其相關性中嵌入信息的技術,已經在視覺問答(Visual Question Answering, VQA)、視覺推理自然語言(Natural Language for Visual Reasoning, NLVR)和視覺語言檢索(Vision Language Retrieval, VLR)等領域取得了顯著的成功。在這些應用中,來自不同模態的跨模態交互和互補信息對于高級模型執行任何多模態任務至關重要,如理解、識別、檢索或優化生成。研究人員提出了不同的方法來解決這些任務。

//www.zhuanzhi.ai/paper/e354713123ff3c4d72713e37300d0784

**基于transformer的架構的不同變體在多種模態上表現出色。本綜述介紹了關于深度學習多模態架構的進化和增強,以處理各種跨模態和現代多模態任務的文本、視覺和音頻特征的全面文獻。**本文總結了(i)最近任務特定的深度學習方法,(ii)預訓練類型和多模態預訓練目標,(iii)從最先進的預訓練多模態方法到統一架構,以及(iv)多模態任務類別和未來可能的改進,可以設計出更好的多模態學習。為新研究人員準備了一個數據集部分,涵蓋了預訓練和微調的大多數基準。最后,探討了面臨的主要挑戰、差距和潛在的研究方向。與我們的綜述相關的不斷更新的論文列表保存在

1. 引言

**多模態系統利用兩個或多個輸入模態,如音頻、文本、圖像或視頻,來產生與輸入不同的輸出模態。**跨模態系統是多模態系統的一個分支,它利用一種模態的信息來增強另一種模態的性能。例如,多模態系統將使用圖像和文本模態來評估情況并執行任務,而跨模態系統將使用圖像模態來輸出文本模態[1,2]。視聽語音識別(AVSR)[3]、檢測模因[4]中的宣傳和視覺問答(VQA)[5]都是多模態系統的例子。多模態表示學習技術通過分層處理原始異構數據來縮小不同模態之間的異構鴻溝。來自不同模態的異構特征以上下文信息[6]的形式提供額外的語義。因此,互補信息可以通過多種模態學習到。例如,視覺模態可以通過在AVSR中提供[7]唇動來幫助語音識別。最近的深度學習方法的高級變體通過在表示空間中映射不同的模態,解決了經典的多模態挑戰(相關性、翻譯、對齊、融合)。

近年來,大量針對特定任務的深度學習方法提升了不同多模態任務的性能[8]。最近,由于語義豐富的表示和大規模公開可用模型[9],自然語言處理(NLP)和計算機視覺(CV)的預訓練和微調的實現得到了最大的關注。**本文回顧了深度多模態學習方法的演變,并討論了使主干對各種下游任務具有魯棒性所需的預訓練的類型和目標。**大多數預訓練方法都基于Transformer,這提出了統一架構的想法,以處理所有下游任務的所有模態[10]。本綜述全面介紹了最近幾種預訓練和統一架構的方法,以及它們在基準、應用和下游任務評估上的性能。

**去年,已經發表了一些關于視覺語言預訓練的研究[11,12]。相比之下,我們涵蓋了在最近的工作[13]中展示的視覺、語言和音頻預訓練模型的架構細節。**除了討論預訓練類型外,我們還回顧了預訓練目標的通用和多模態版本。此外,我們總結了最近的統一架構(通用模型),這些架構消除了對不同下游任務的微調,最終減少了時間和計算復雜性。與最近的調研相反,我們更關注由視覺和音頻模式增強的NLP應用,例如情感分析、文檔理解、假新聞檢測、檢索、翻譯和其他推理應用。圖1展示了本次調研中包含的深度學習多模態論文的分類百分比。該柱狀圖顯示了每年互聯網上深度學習多模態方法的發展和可用性。本次調研的貢獻如下: 我們對多模態表示學習技術進行了全面的調研,以有效的方式彌合語言、視覺和音頻輸入之間的差距。

解決多模態的特定任務和基于transformer的預訓練架構的發展。 * 詳細闡述了預訓練類型、多模態學習的高級預訓練目標、詳細的架構討論和比較。 * 統一架構的開發,以解決所有下游任務的多種模式進行調研。 * 我們開發了深度多模態架構和復雜多模態應用的分類。 * 數據集部分描述了用于預訓練、微調和評估多模態方法的所有基準的綜合信息,為初學者提供了現成的詳細信息。 * 最后,闡述了該領域的主要挑戰、開放缺口和可能的未來預測。

2. 多模態深度學習方法

本節介紹了多模態架構的眾多變體,主要分為特定任務架構和預訓練-微調架構(管道如圖2所示)。圖3展示了第3節的分類。第3.1節是本研究中提到的任務的首字母縮略詞。第3.2節全面總結了特定任務的方法,這些方法是近年來轉變為大規模預訓練方法的先進多模態方法的基礎。第3.3節演示了在多模態數據集上訓練的預訓練過程、類型、目標和SOTA框架,以執行增強的NLP和跨模態任務。此外,本文最后還詳細介紹了最近獲得關注的統一體系結構。第3.4小節對SOTA方法在各種多模態任務上產生的結果進行了比較討論。

3. 多模態應用

本節展示了由深度學習架構增強的多模態應用程序的分類細節,如圖4所示。多模態任務分為主要類別:理解、分類、檢索和生成。針對每個多模態應用,討論了最佳性能架構的基準、評估指標、描述和比較。

付費5元查看完整內容

雖然深度強化學習(RL)在機器學習領域取得了多項引人注目的成功,但由于其通常較差的數據效率和所產生的策略的有限通用性,它未能得到更廣泛的采用。緩解這些限制的一個有希望的方法是,在稱為元強化學習的過程中,將更好的強化學習算法的開發本身視為一個機器學習問題。元強化學習最常在問題環境中進行研究,在給定任務分布的情況下,目標是學習一種策略,該策略能夠從盡可能少的數據的任務分布中適應任何新任務。**本文詳細描述了元強化學習問題的設置及其主要變化。**本文討論了如何在高層次上基于任務分布的存在和每個單獨任務的可用學習預算對元強化學習研究進行聚類。使用這些聚類,綜述了元強化學習算法和應用。最后,提出了使元強化學習成為深度強化學習從業者標準工具箱一部分的道路上的開放問題。

//www.zhuanzhi.ai/paper/bbd26798bcb89638b3308c8dfc2a8e20

**1. 引言****元強化學習(Meta-reinforcement learning, meta-RL)是一種學習強化學習的機器學習(machine learning, ML)方法。**也就是說,元強化學習使用樣本效率低的機器學習來學習樣本效率高的強化學習算法或其組件。因此,元強化學習是元學習[225,91,94]的特殊情況,其學習算法是強化學習算法。元強化學習作為一個機器學習問題已經被研究了很長一段時間[197,199,224,198]。有趣的是,研究也顯示大腦中存在meta-RL的類似物[238]。Meta-RL有潛力克服現有人類設計的RL算法的一些限制。雖然在過去幾年中,深度強化學習取得了重大進展,例如掌握圍棋游戲[209]、平流層氣球導航[21]或機器人在挑戰性地形中的運動[148]等成功故事。RL的采樣效率仍然很低,這限制了它的實際應用。元強化學習可以產生比現有強化學習方法更有效的強化學習算法(組件),甚至可以為以前難以解決的問題提供解決方案。與此同時,提高樣本效率的承諾伴隨著兩個成本。首先,元學習需要比標準學習多得多的數據,因為它訓練整個學習算法(通常跨多個任務)。其次,元學習使學習算法適應元訓練數據,這可能會降低其對其他數據的泛化能力。因此,元學習提供的權衡是提高測試時的樣本效率,代價是訓練時的樣本效率和測試時的通用性。示例應用程序考慮使用機器人廚師進行自動化烹飪的任務。當這樣的機器人部署在某人的廚房時,它必須學習一個特定于廚房的策略,因為每個廚房都有不同的布局和設備。由于在訓練早期的隨機行為,直接在一個新的廚房中從頭開始訓練機器人太耗時,并且有潛在的危險。一種選擇是在單個訓練廚房中對機器人進行預訓練,然后在新的廚房中對其進行微調。然而,這種方法沒有考慮到后續的微調過程。相比之下,元強化學習將在訓練廚房的分布上訓練機器人,以便它可以適應該分布中的任何新廚房。這可能需要學習一些參數以實現更好的微調,或者學習將部署在新廚房中的整個強化學習算法。通過這種方式訓練的機器人既可以更好地利用收集的數據,也可以收集更好的數據,例如,通過關注新廚房的不尋常或具有挑戰性的特征。這種元學習過程需要比簡單的微調方法更多的樣本,但它只需要發生一次,當部署在新的測試廚房時,由此產生的適應過程可以顯著提高樣本效率。這個例子說明,通常情況下,當需要頻繁地進行有效的自適應時,元強化學習可能特別有用,因此元訓練的成本相對較小。這包括但不限于安全關鍵的強化學習領域,在這些領域中,有效的數據收集是必要的,探索新行為的成本過高或危險。在許多情況下,大量的樣本投資低效的前期學習(在監督下,在實驗室中,或在模擬中)是值得的,以實現后續改進的適應行為。

本綜述的目的是提供一個元強化學習的入口,以及對該領域和開放研究領域的現狀的反思。在第2節中,我們定義了元強化學習和它可以應用的不同問題設置,以及兩個示例算法。在第3節中,我們考慮了元強化學習中最普遍的問題設置:少樣本元強化學習。本文的目標是學習能夠快速自適應的RL算法,即在少量的情節中學習任務。這些算法通常是在給定的任務分布上進行訓練的,并且元學習如何有效地適應該分布中的任何任務。圖1展示了一個簡單的例子來說明這個設置。在這里,智能體經過元訓練,以學習如何導航到2D平面上不同的(最初未知的)目標位置。在元測試時,該智能體能夠有效地適應目標位置未知的新任務。在第4節中,我們考慮多樣本的設置。這里的目標是學習通用的RL算法,而不是特定于狹窄的任務分布,類似于目前在實踐中使用的算法。有兩種方式:如上所述的對任務分布進行訓練,或者對單個任務進行訓練,但同時進行元學習和標準強化學習訓練。接下來,第5節介紹了元強化學習的一些應用,如機器人。最后,我們在第6節討論開放問題。這些包括對少樣本元強化學習的更廣泛任務分布的泛化,多樣本元強化學習中的優化挑戰,以及元訓練成本的減少。

付費5元查看完整內容

深度監督學習算法通常需要大量的標記樣本才能達到令人滿意的性能。為避免收集和標記過多樣本帶來的昂貴成本,提出自監督學習(SSL)作為無監督學習的一個子集,在沒有任何人工標注標簽的情況下,從大量未標記樣本中學習良好的特征。SSL是近年來的研究熱點,相關算法層出不窮。然而,很少有全面的研究解釋不同SSL變體之間的聯系以及它們是如何演變的。**文中試圖從算法、理論、應用、3個主要趨勢和開放問題等方面對SSL的各種方法進行綜述。**首先,詳細介紹了大多數SSL算法的動機,并比較了它們的共性和差異;其次,研究了與SSL相關的理論問題。討論了SSL在圖像處理、計算機視覺(CV)以及自然語言處理(NLP)等領域的典型應用;最后討論了SSL的3個主要發展趨勢和有待進一步研究的問題。在//github.com/guijiejie/SSL上可以找到一些有用的材料。

1. 引言深度監督學習算法在計算機視覺(computer vision, CV)和自然語言處理(natural language processing, NLP)等領域取得了令人滿意的性能。監督學習算法通常需要大量的標記樣本才能獲得更好的性能。由于以下兩個主要原因,在ImageNet等大規模數據庫上訓練的模型被廣泛用作預訓練模型,然后進行微調以用于其他任務(表1)。首先,在不同的大規模數據庫上學習到的參數提供了一個很好的起點。因此,在其他任務上訓練的網絡可以更快地收斂。其次,在大規模數據庫上訓練的網絡已經學習到相關的層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務中的示例數量較少或訓練標簽有限時。**不幸的是,在許多真實的數據挖掘和機器學習應用中,雖然可以找到許多未標記的訓練樣本,但通常只有有限的標記樣本。**標記的示例通常是昂貴、困難或耗時的,因為它們需要有經驗的人類注釋人員的努力。例如,在web用戶特征分析中,可以很容易地收集到大量的web用戶特征,但標注這些數據中的非盈利用戶或盈利用戶需要檢查、判斷,甚至是耗時的跟蹤任務,需要有經驗的人工評估人員執行,成本非常高。另一方面,在醫療領域,無標簽樣本可以很容易地從常規體檢中獲得。然而,對如此多的病例進行逐一診斷,給醫學專家帶來了沉重的負擔。例如,為了進行乳腺癌診斷,放射科醫生必須為大量容易獲得的高分辨率乳房x光片中的每個焦點分配標簽。這個過程通常非常低效和耗時。此外,監督學習方法存在虛假關聯和泛化誤差,容易受到對抗攻擊。為了緩解監督學習的兩個局限性,許多機器學習范式被提出,如主動學習、半監督學習和自監督學習(SSL)。本文主要討論SSL。SSL算法被提出,用于從大量未標記的實例中學習良好的特征,而無需使用任何人工標注。SSL的一般流程如圖1所示。在自監督預訓練階段,設計預定義的前置任務供深度學習算法求解,并根據輸入數據的某些屬性自動生成用于前置任務的偽標簽。然后,訓練深度學習算法來學習解決前置任務;在自監督預訓練過程完成后,學習到的模型可以作為預訓練模型進一步遷移到下游任務(特別是當只有相對較少的樣本可用時),以提高性能并克服過擬合問題。

由于在自監督訓練期間不需要人工標注來生成偽標簽,SSL算法的一個主要優點是它們可以充分利用大規模未標記數據。使用這些偽標簽進行訓練的自監督算法取得了有希望的結果,自監督和監督算法在下游任務中的性能差距縮小了。Asano et al.[1]表明,即使在單一圖像上,SSL也可以令人驚訝地產生泛化良好的低級特征。SSL[2] -[19]最近受到越來越多的關注(圖2)圖靈獎獲得者,在第八屆國際學習表征會議(ICLR 2020)上做了主題演講,他的演講題目是“the future is self - supervised”。Yann LeCun和Yoshua Bengio都獲得了圖靈獎,他們說SSL是人類級別的智能[20]的關鍵。谷歌學者表示,目前已經發表了大量與SSL相關的論文。例如,2021年發表了大約18,900篇與SSL相關的論文,每天大約有52篇論文,或每小時超過兩篇論文(圖2)。為了防止研究人員迷失在如此多的SSL論文中,并整理最新的研究成果,我們試圖及時提供這一主題的調研。

本文的其余部分組織如下。第2-7節從算法、理論、應用、三個主要趨勢、開放問題和性能比較的角度介紹SSL,如表2所示。最后,第8節對調研進行了總結。

付費5元查看完整內容

目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。

在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。

本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。

//contrastive-nlp-tutorial.github.io/

對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability

經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions

講者:

付費5元查看完整內容

深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容
北京阿比特科技有限公司