亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

圖神經網絡(GNNs)是許多與圖相關的應用的有效機器學習模型。盡管它們在實際應用中取得了成功,但仍有許多研究努力專注于GNNs的理論局限性,即GNNs的表達能力

這個領域的早期工作主要集中在研究GNNs的圖同構識別能力,而近期的工作試圖利用諸如子圖計數和連接學習等屬性來描述GNNs的表達能力,這些都更加實用并且更接近實際應用。

然而,還沒有綜述論文和開源代碼庫能夠全面地總結和討論這個重要方向的模型。為了填補這個空白,我們進行了第一次關于增強不同定義形式下表達能力的模型的調查。

具體來說,這些模型基于三個類別進行了綜述,即,圖特征增強、圖拓撲結構增強以及GNNs架構增強

圖神經網絡表達能力

圖神經網絡(GNNs)已經成為深度學習領域的一個突出模型,吸引了大量的研究興趣[1]–[3]。GNNs已經顯示出了在學習圖數據方面的卓越能力,它們的各種變體已經被廣泛地應用于眾多真實世界的場景,包括推薦系統[4]、計算機視覺[5]、自然語言處理[6]、分子分析[7]、數據挖掘[8]和異常檢測[9]。關于GNNs的基礎和應用的更多介紹,請參考文獻[10]–[12]以獲取更多詳細信息。

與結構良好的文本和圖像相比,圖是不規則的。在圖上進行機器學習的一個基本假設是,預測的目標應該與圖上節點的順序無關。為了滿足這個假設,GNNs引入了一個稱為排列不變性的歸納偏見[13]。具體地說,GNNs的輸出與圖的節點索引如何分配以及它們的處理順序無關,即,模型參數與節點順序無關,并在整個圖中共享。由于這種新的參數共享機制,我們需要新的理論工具來研究它們的表達能力。然而,研究GNNs的表達性面臨許多挑戰。首先,大多數GNNs通常被用作圖的黑盒特征提取器,我們不清楚它們能夠多好地捕獲不同的圖特征和拓撲。其次,由于引入了排列不變性,神經網絡(NNs)的經典通用逼近定理的結果[14]、[15]不能直接推廣到GNNs[16]–[18]。此外,在實踐中,表達能力的研究與圖論中一些長期存在的困難問題有關[19]、[20]。例如,在預測化學分子的性質時,需要判斷分子結構是否與已知性質的分子相同或相似,這涉及到圖/子圖同構判斷的問題[19]、[21]和圖匹配[22]、[23]等問題[24]。

已有一些關于GNNs表達能力的開創性研究。Morris等人[25]、[26]以及Xu等人[27]提出使用圖同構識別來解釋GNNs的表達能力,從而引領了分析GNNs的分離能力的趨勢。Maron等人[16]和Chen等人[28]提出使用GNNs來近似圖函數的能力來解釋它們的表達能力,并進一步給出了可以由GNNs近似的不變圖函數的集合表示,從而引領了分析GNNs的近似能力的趨勢。盡管近年來已經出現了多項描述和增強GNNs表達能力的研究,但在這個方向上仍然缺乏全面的評論。Sato[29]探討了圖同構測試與表達能力之間的關系,并總結了克服GNNs表達能力局限性的策略。然而,他們只描述了GNNs的分離能力和近似能力來描述GNNs的表達能力,而還存在其他能力,包括子圖計數能力、譜分解能力[30]–[32]、邏輯能力[33]–[39]等,這些也被認為是GNNs表達能力的主要類別。因此,澄清GNNs表達能力的定義和范圍是至關重要的,這也是促使這項工作的動機。 在這項工作中,我們認為GNNs的表達能力包括兩個方面,即特征嵌入能力和拓撲表示能力。作為神經網絡的一員,GNNs具有強大的特征嵌入能力。拓撲表示能力是GNNs的獨特能力,這使GNNs與其他機器學習模型有所不同。基于這兩個組件,我們進一步分析了GNNs表達能力的邊界及其影響因素。研究發現,影響GNNs表達能力的因素也包括特征和拓撲,其中GNNs在學習和保持圖拓撲方面的缺陷是限制其表達能力的主要因素。 基于對影響GNNs表達能力因素的分析,本文將改進GNNs表達能力的現有工作總結為三個類別,即圖特性增強、圖拓撲增強和GNNs架構增強。圖特性增強旨在通過增強特征嵌入效果來提高表達能力。圖拓撲增強旨在更有效地表示圖拓撲,以幫助GNNs捕獲更復雜的圖拓撲信息。GNNs架構增強涉及改進限制GNNs表達能力的排列不變的聚合函數。我們還指出了這一方向現有基準和評估指標中的一些不足,并強調確定GNNs表達能力的挑戰。此外,我們提出了幾個有前景的未來研究方向,包括一個為設計更強大的GNNs而提出的受物理啟發的方法論,以及利用圖神經架構搜索。本文的結構組織如下:第2節介紹初步知識,包括圖神經網絡的基礎和圖同構。第3節給出了GNNs表達能力的統一定義。第4節分析了影響因素以及旨在提高GNNs表達能力的現有工作。第5節指出了這一研究方向中的幾個挑戰和機會。最后,我們在第6節結束。

GNNs的表達能力

表達能力。所有的機器學習問題都可以被抽象為從特征空間X到目標空間Y的映射f?。f?通常使用模型fθ來近似,通過優化一些參數θ。在實踐中,f?通常是事先未知的,所以人們希望fθ能盡可能地近似一大范圍的f?。估計這個范圍有多寬被稱為模型的表達能力,它為模型的潛力提供了一個重要的度量[69],如圖3(a)所示。

神經網絡(NNs)強大的表達能力體現在它們可以近似所有連續函數[70]的能力上,特別是將特征空間X中的數據嵌入到由任何連續函數生成的目標空間Y的能力,這實際上是特征嵌入能力,如圖3(b)所示。由于NNs的強大表達能力,很少有工作懷疑在各種應用任務中展現出明顯優越性能的GNNs的表達能力,因為它們天然地將GNNs的優越性能歸因于它們出色的特征嵌入能力。然而,一些增強的多層感知器(MLP)模型[71]、[72]在多個節點分類問題[73]中的性能超過了GNNs,盡管前者的表達能力比后者少,其中MLPs[74]僅使用每個節點的信息來計算節點的特征嵌入,而GNNs在每一層迭代地聚合鄰近節點的特征,從而允許使用全局信息來計算節點的特征嵌入。這一事實導致了我們對表達能力的直觀理解之間的矛盾,但同時也說明特征嵌入能力并不能很好地描述GNNs的表達能力。與NNs相比,GNNs增加了排列不變性的歸納偏見,使得它們可以在圖的拓撲結構上傳播和聚合信息。[48]、[75]證明,如果GNNs只有特征嵌入能力,但缺乏保持圖拓撲的能力,那么它們的性能可能不如MLP。此外,我們知道前饋神經網絡的表達能力通常受到它們寬度的限制,而GNNs的表達能力不僅受到它們的寬度的限制,還受到它們如何使用圖拓撲進行消息傳播和節點更新的限制。由此可見,GNNs的拓撲表示能力,即保持圖拓撲的能力,成為了它們優越性能的關鍵。為了使用它們的拓撲表示能力來描述GNNs的表達能力,則需要一套新的理論工具。

提高GNNs表達能力的現有研究

為了提高GNNs的表達能力,我們可以從兩個方面來考慮:一是提高特征嵌入效果,二是提高拓撲表示效果。特征嵌入效果的增強依賴于特征本身的增強,包括提取特征之間的依賴性和添加相關特征。增強拓撲表示效果有兩種有效的方法。一種方法是為GNNs學習直接編碼相關的拓撲信息,另一種方法是優化GNNs模型架構,以消除由排列不變聚合函數引起的保持拓撲的障礙。在本文中,我們總結了這三種方法為:圖特征增強(增強特征嵌入效果)、圖拓撲增強(直接編碼拓撲信息)和GNNs架構增強(減輕排列不變聚合函數的缺陷)。符合我們的預期,目前已知的用于提高表達能力的更強大的GNNs模型設計都可以歸入我們總結的這三種方法。表2根據它們采用的設計方法檢查并系統地分類了近年來更具表達能力的GNNs的設計。

結論

關于GNNs表達能力的研究已經相當成熟,越來越多的改進模型不斷出現。然而,這些研究并沒有為深入了解GNNs的表達能力作出顯著的貢獻。因此,我們提出了一個統一的理論框架,用于描述GNNs的表達能力,包括定義、局限性和分析影響表達的因素。此外,我們利用這個框架來總結和分類目前用于增強GNNs表達能力的方法。總的來說,作為圖形學習模型的一個范例,GNNs的表達能力既涉及到圖的特征,也涉及到拓撲。因此,設計方法應該同時考慮這兩個方面。我們的統一框架為在這個背景下研究GNNs的表達能力提供了一個新穎的、標準化的路徑。

付費5元查看完整內容

Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。

Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標

在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199

付費5元查看完整內容

解耦表征學習(Disentangled Representation Learning,DRL)旨在學習一種能夠識別并解耦蘊含在可觀察數據中的潛在生成因子(underlying factors)的模型。將數據生成的潛在因子解耦出來獲得具有語義意義的解耦表征的過程,有利于學習數據的可解釋表示,它模仿了人類在觀察和理解事物的過程。作為一種通用的學習策略,解耦表征學習在大量的場景中,比如計算機視覺、自然語言處理、數據挖掘,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。**本文從動機、定義、方法、評價、應用等方面對解耦表征學習進行了全面的綜述。本文還對解耦模型的設計進行了探討,分析了不同場景下設計解耦表征學習模型的原則。**最后,本文討論了當前解耦表征學習所面臨的挑戰以及未來可能的研究方向。我們希望這篇文章能夠促進解耦表征學習相關研究。

//www.zhuanzhi.ai/paper/2eba883e987ada96eb625dfdeabe8e02

1. 引言

當人類觀察一個物體時,我們試圖在一定先驗知識的基礎上理解這個物體的各種屬性(如形狀、大小和顏色等)。然而,現有的端到端的、黑盒的深度學習模型采用了直接學習對象的表征,來擬合數據分布和判別標準的捷徑策略,而無法類人地提取數據生成的潛在因子。為了填補這一空白,一種重要的表征學習范式——解耦表征學習被提出,并繼而引發了學術界的廣泛關注。

**作為一種通用的學習范式,解耦表征學習泛指能夠識別和解耦觀察數據的潛在生成因子的機器學習模型。**現有文獻證明了解耦表征學習能夠像人類一樣學習和理解世界的潛力。解耦表征學習也在計算機視覺、自然語言處理和數據挖掘等領域得到了廣泛得到應用,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。

解耦表征學習旨在學習數據的潛在生成因子,并在表征空間為每個生成因子學習到互相解耦的隱變量,即為潛在生成因子學習到解耦的表征。以Shape3D數據集上的解耦為例,如下圖,對于觀察到的3D圖形組合,我們需要識別并解耦物體大小、物體形狀、物體顏色以及墻的背景色、地板顏色、觀察角度這6個生成因子。 本文從動機、定義、方法、評價、應用等方面對解耦表征學習(DRL)進行了全面的綜述。我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法;我們討論了解耦表征學習在計算機視覺、自然語言處理和推薦系統等方面的應用;我們還為在不同場景下如何設計解耦模型提供了一些思考和見解;最后我們探討了解耦表征學習未來的研究方向。

2. 定義

直觀的定義。根據Bengio在提出解耦表征學習時給出的定義以及學術界廣泛使用的定義,我們將常用的定義總結為:解耦表征學習應該分離數據中不同的、獨立的和信息豐富的生成因子。單個隱變量對單個潛在生成因子的變化敏感,而對其他因子的變化保持不變。

除了直觀的定義,也有人從群論和因果推斷的角度給出了更為形式化的定義。

3. 方法

我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法,對每一種方法我們都闡述了其中的一些代表性工作。方法的分類如下圖所示。

傳統統計方法

傳統的統計方法雖然沒有深度架構,但一直以來都能有效地解耦向量空間中的潛在因子,其中以主成分分析和獨立成分分析最具代表性。雖然這些淺層模型不是本文的重點,但我們仍然提供了簡要的描述,以確保完整性。有興趣的讀者可以參考更多的統計文獻。

基于變分自編碼器(VAE)的方法

變分自動編碼器(VAE)[16]是自動編碼器的一個變種,它采用了變分推理的思想。VAE最初是作為圖像生成的深度生成概率模型提出的。后來的研究人員發現VAE還具有學習簡單數據集上解糾纏表示的潛在能力(例如,FreyFaces [16], MNIST[49])。為了獲得更好的解糾纏性能,研究人員設計了各種額外的正則化子與原有的VAE損失函數相結合,形成了基于VAE的方法族。通用VAE模型結構如下圖所示。

基于生成對抗網絡(GAN)的方法

GAN (Generative Adversarial Nets)[17]作為Goodfellow等人提出的另一種重要的生成模型,引起了研究人員的廣泛關注。GAN沒有采用傳統的貝葉斯統計方法,而是直接從先驗分布p(z)中采樣潛表示z。具體來說,GAN有一個生成網絡(生成器)G和一個判別網絡(鑒別器)D,其中生成器G模擬一個復雜的未知生成系統,將潛表示z轉換為生成的圖像,而鑒別器D接收一個圖像(真實的或由G生成的)作為輸入,然后輸出輸入圖像為真實的概率。在訓練過程中,生成器G的目標是生成可以欺騙鑒別器D的圖像,使其相信生成的圖像是真實的。同時,鑒別器D的目標是區分生成器G生成的圖像與真實圖像。因此,生成器G和鑒別器D構成了一個動態對抗性極大極小博弈。理想情況下,生成器G最終可以生成一個看起來像真實圖像的圖像,因此鑒別器D無法確定生成器G生成的圖像是否是真實的。

層次方法

在實踐中,許多生成過程自然涉及分層結構[70],其中變異因素具有不同層次的語義抽象,或跨層次依賴或獨立。例如,在CelebA數據集[50]中,控制性別的因子比控制眼影的獨立因子具有更高的抽象程度,而在Spaceshapes數據集[70]中,控制形狀的因子和控制相位的因子之間存在依賴關系,例如,只有當物體形狀等于“月亮”時,“相位”的維度才是活躍的。為了捕獲這些層次結構,人們提出了一系列工作來實現層次解纏

4. 應用

**

**

鑒于解耦表征學習能夠高效地學習可解釋性、可控性和魯棒性的表征,其被廣泛運用于各類機器學習任務。 在圖像和視覺領域,DRL往往被用于實現語義可控的圖像生成及圖像翻譯。解耦的潛在生成因子有助于實現圖像生成場景的連貫和穩健性,并進一步增強和圖像生成的可控性和可用性。此外,DRL也被用于圖像分類、圖像檢索、圖像分割、事件檢測、特征學習等任務。 除了靜態圖像,DRL也有助于視頻分析任務,包括視頻預測、視頻檢索和動作重定向(Motion Retargeting)等。 在自然語言處理領域,DRL被廣泛地應用于文本表征學習、文本風格遷移。在此類任務中,解耦的對象往往是特定語義的、粗粒度的表征,例如解耦文本的詞法和語義表征、語句的風格和內容表征等。此外,DRL也在文本語義匹配、社交文本分析、大語言模型分析中起到了有效的作用。 在推薦領域和圖學習領域,DRL往往能夠捕捉不同抽象層次的特征、學習不同領域的信息,并從錯綜復雜的關聯關系中學習潛在因子,得到更本質的表征,因此也得到了極大的研究應用。 另外,在多模態場景下,DRL有助于實現不同模態表征的分離、對齊和泛化,因此被應用于跨模態表征學習、跨模態情感分析、文本驅動圖像生成等多模態任務中。

5. 設計

基于對實際應用中普遍采用的解耦表征學習策略的討論,我們提出了針對特定任務設計各種DRL模型的策略。我們總結了設計DRL模型的兩個關鍵因素: 1)根據具體的任務設計恰當的表征結構,通常根據解耦的表征形式分為dimension-wise或vector-wise的表征結構; 2)設計相應的損失函數,鼓勵表征被解耦,同時不損失特定任務的信息。對于損失函數的設計,我們將DRL模型分為生成式模型(generative model)和鑒別式模型(discriminative model)。簡而言之,生成式模型注重學習過程中的解耦和重建,而鑒別式模型注重在解耦表征的基礎上完成特定的下游任務。

6. 未來方向

最后,我們提出了一些解耦表征學習的潛在研究方向,包括: 1)多樣化場景。在更多樣化的場景和更復雜的數據集上對DRL進行理論性分析和評估。 2)多樣的學習范式。除了基于VAE和GAN的范式外,使用更多的學習范式實現DRL模型。 3)可解釋性和泛化性。繼續在不同學習形式、不同任務上探究DRL的可解釋性和泛化性。

付費5元查看完整內容

圖神經網絡在過去幾年中獲得了巨大的興趣。這些強大的算法將深度學習模型擴展到非歐氏空間,并能夠在包括推薦系統和社交網絡在內的各種應用中實現最先進的性能。然而,這種性能是基于靜態圖結構假設的,這限制了圖神經網絡在數據隨時間變化時的性能。時序圖神經網絡是考慮時間因素的圖神經網絡的擴展。近年來,各種時序圖神經網絡算法被提出,并在多個時間相關應用中取得了優于其他深度學習算法的性能。本綜述討論了與時空圖神經網絡相關的有趣主題,包括算法、應用和開放挑戰。

1. 引言

圖神經網絡(GNN)是一類深度學習模型,專門設計用于處理圖結構數據。這些模型利用圖拓撲來學習圖的節點和邊的有意義表示。圖神經網絡是傳統卷積神經網絡的擴展,在圖分類、節點分類和鏈接預測等任務中被證明是有效的。GNNs的關鍵優勢之一是,即使在基礎圖的規模增長時,它們也能保持良好的性能,這是因為可學習參數的數量獨立于圖中節點的數量。圖神經網絡(GNN)已被廣泛應用于各種領域,如推薦系統、藥物發現和生物學以及自治系統中的資源分配。然而,這些模型僅限于靜態圖數據,其中圖結構是固定的。近年來,時變圖數據引起了人們越來越多的關注,它出現在各種系統中并攜帶有價值的時間信息。時變圖數據的應用包括多元時間序列數據、社交網絡、視聽系統等。

為了滿足這一需求,出現了一種新的GNN族:時空GNN,通過學習圖結構的時間表示,同時考慮了數據的空間和時間維度。本文對最先進的時空圖神經網絡進行了全面的回顧。本文首先簡要概述不同類型的時空圖神經網絡及其基本假設。更詳細地研究了時空GNN中使用的特定算法,同時也為這些模型的分組提供了有用的分類法。本文還概述了時空GNN的各種應用,強調了這些模型已被用于取得最先進結果的關鍵領域。最后,討論了該領域面臨的挑戰和未來的研究方向。總之,本綜述旨在對時空圖神經網絡進行全面和深入的研究,強調該領域的現狀、仍然需要解決的關鍵挑戰,以及這些模型令人興奮的未來可能性。

2. 算法

時空圖神經網絡從算法角度可分為基于譜的和基于空間的兩類。另一個分類類別是引入時變的方法:另一個機器學習算法或在圖結構中定義時間。

2.1 混合時空圖神經網絡

混合時空圖神經網絡由兩個主要組件組成:空間組件和時間組件。在混合時空圖神經網絡中,利用圖神經網絡算法對數據中的空間依賴關系進行建模。

2.2 Solo-Graph神經網絡

在時空圖神經網絡中建模時間的另一種方法是在GNN本身中定義時間框架。提出了多種方法,包括:將時間定義為邊,將時間作為信號輸入到GNN,將時間建模為子圖,以及將其他機器學習架構夾在GNN中(圖2)。

3. 應用

3.1 多變量時間序列預測受圖神經網絡處理關系依賴[10]能力的啟發,時空圖神經網絡被廣泛應用于多變量時間序列預測。應用包括流量預測,Covid預測,光伏電力消耗,RSU通信和地震應用。

3.2人物交互

在機器學習和計算機視覺中,時空域學習仍然是一個非常具有挑戰性的問題。主要的挑戰是如何在大的時空上下文[18]中建模對象和更高層次的概念之間的交互。在這樣一個困難的學習任務中,有效地對空間關系、局部外觀以及隨著時間發生的復雜交互和變化進行建模是至關重要的。[18]引入了一種時空圖神經網絡模型,在空間和時間上循環,適合捕捉不斷變化的世界場景[18]中不同實體和物體的局部外觀和復雜的高層交互。

3.3 動態圖表示

時序圖表示學習一直被認為是圖機器學習中一個非常重要的方面[15,31]。針對現有方法依賴時序圖的離散快照而不能捕獲強大表示的局限性,[3]提出了一種基于時空圖神經網絡的動態圖表示學習方法。此外,[15]如今使用時空GNN動態表示腦圖。多目標跟蹤視頻中的多目標跟蹤嚴重依賴于對目標之間的時空交互進行建模[16]。[16]提出了一種時空圖神經網絡算法,對對象之間的空間和時間交互進行建模。 3.4 手語翻譯

手語采用視覺-手動方式來傳達含義,是聾人和重聽群體的主要交流工具。為了縮小口語用戶和手語用戶之間的交流鴻溝,機器學習技術被引入其中。傳統上,神經機器翻譯被廣泛采用,但需要更先進的方法來捕捉手語的空間屬性。[13]提出了一種基于時空圖神經網絡的手語翻譯系統,該系統在捕捉手語的時空結構方面具有強大的能力,與傳統的神經機器翻譯方法[13]相比,取得了最好的性能。

3.5 技術增長排名

了解技術的增長率是技術部門業務戰略的核心關鍵。此外,預測技術的增長速度和相互之間的關系,有助于在產品定義、營銷策略和研發方面的商業決策。[32]提出了一種基于時空圖神經網絡的社交網絡技術增長排名預測方法。

4. 結論

圖神經網絡在過去幾年中獲得了巨大的興趣。這些強大的算法將深度學習模型擴展到非歐氏空間。然而,圖神經網絡限于靜態圖結構假設,限制了圖神經網絡在數據隨時間變化時的性能。時序圖神經網絡是考慮時間因素的圖神經網絡的擴展。本文對時空圖神經網絡進行了全面的概述。本文提出了一種分類法,基于時變方法將時空圖神經網絡分為兩類。還討論了時空圖神經網絡的廣泛應用。最后,根據當前時空圖神經網絡面臨的公開挑戰,提出了未來的研究方向。

付費5元查看完整內容

深度監督學習算法通常需要大量的標記樣本才能達到令人滿意的性能。為避免收集和標記過多樣本帶來的昂貴成本,提出自監督學習(SSL)作為無監督學習的一個子集,在沒有任何人工標注標簽的情況下,從大量未標記樣本中學習良好的特征。SSL是近年來的研究熱點,相關算法層出不窮。然而,很少有全面的研究解釋不同SSL變體之間的聯系以及它們是如何演變的。**文中試圖從算法、理論、應用、3個主要趨勢和開放問題等方面對SSL的各種方法進行綜述。**首先,詳細介紹了大多數SSL算法的動機,并比較了它們的共性和差異;其次,研究了與SSL相關的理論問題。討論了SSL在圖像處理、計算機視覺(CV)以及自然語言處理(NLP)等領域的典型應用;最后討論了SSL的3個主要發展趨勢和有待進一步研究的問題。在//github.com/guijiejie/SSL上可以找到一些有用的材料。

1. 引言深度監督學習算法在計算機視覺(computer vision, CV)和自然語言處理(natural language processing, NLP)等領域取得了令人滿意的性能。監督學習算法通常需要大量的標記樣本才能獲得更好的性能。由于以下兩個主要原因,在ImageNet等大規模數據庫上訓練的模型被廣泛用作預訓練模型,然后進行微調以用于其他任務(表1)。首先,在不同的大規模數據庫上學習到的參數提供了一個很好的起點。因此,在其他任務上訓練的網絡可以更快地收斂。其次,在大規模數據庫上訓練的網絡已經學習到相關的層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務中的示例數量較少或訓練標簽有限時。**不幸的是,在許多真實的數據挖掘和機器學習應用中,雖然可以找到許多未標記的訓練樣本,但通常只有有限的標記樣本。**標記的示例通常是昂貴、困難或耗時的,因為它們需要有經驗的人類注釋人員的努力。例如,在web用戶特征分析中,可以很容易地收集到大量的web用戶特征,但標注這些數據中的非盈利用戶或盈利用戶需要檢查、判斷,甚至是耗時的跟蹤任務,需要有經驗的人工評估人員執行,成本非常高。另一方面,在醫療領域,無標簽樣本可以很容易地從常規體檢中獲得。然而,對如此多的病例進行逐一診斷,給醫學專家帶來了沉重的負擔。例如,為了進行乳腺癌診斷,放射科醫生必須為大量容易獲得的高分辨率乳房x光片中的每個焦點分配標簽。這個過程通常非常低效和耗時。此外,監督學習方法存在虛假關聯和泛化誤差,容易受到對抗攻擊。為了緩解監督學習的兩個局限性,許多機器學習范式被提出,如主動學習、半監督學習和自監督學習(SSL)。本文主要討論SSL。SSL算法被提出,用于從大量未標記的實例中學習良好的特征,而無需使用任何人工標注。SSL的一般流程如圖1所示。在自監督預訓練階段,設計預定義的前置任務供深度學習算法求解,并根據輸入數據的某些屬性自動生成用于前置任務的偽標簽。然后,訓練深度學習算法來學習解決前置任務;在自監督預訓練過程完成后,學習到的模型可以作為預訓練模型進一步遷移到下游任務(特別是當只有相對較少的樣本可用時),以提高性能并克服過擬合問題。

由于在自監督訓練期間不需要人工標注來生成偽標簽,SSL算法的一個主要優點是它們可以充分利用大規模未標記數據。使用這些偽標簽進行訓練的自監督算法取得了有希望的結果,自監督和監督算法在下游任務中的性能差距縮小了。Asano et al.[1]表明,即使在單一圖像上,SSL也可以令人驚訝地產生泛化良好的低級特征。SSL[2] -[19]最近受到越來越多的關注(圖2)圖靈獎獲得者,在第八屆國際學習表征會議(ICLR 2020)上做了主題演講,他的演講題目是“the future is self - supervised”。Yann LeCun和Yoshua Bengio都獲得了圖靈獎,他們說SSL是人類級別的智能[20]的關鍵。谷歌學者表示,目前已經發表了大量與SSL相關的論文。例如,2021年發表了大約18,900篇與SSL相關的論文,每天大約有52篇論文,或每小時超過兩篇論文(圖2)。為了防止研究人員迷失在如此多的SSL論文中,并整理最新的研究成果,我們試圖及時提供這一主題的調研。

本文的其余部分組織如下。第2-7節從算法、理論、應用、三個主要趨勢、開放問題和性能比較的角度介紹SSL,如表2所示。最后,第8節對調研進行了總結。

付費5元查看完整內容

經典算法和神經網絡等機器學習系統在日常生活中都很豐富。經典的計算機科學算法適合精確地執行精確定義的任務,例如在一個大圖中找到最短路徑,而神經網絡允許從數據中學習,以預測更復雜的任務,如圖像分類中最可能的答案,這不能簡化為一個精確的算法。為了更好地利用這兩個世界,本文探索了將這兩個概念結合起來,從而得到更健壯、更好的性能、更可解釋、更高效的計算和更高效的數據架構。本文提出了算法監督的概念,使神經網絡能夠從算法中學習或與算法結合。當將算法集成到神經體系結構時,重要的是算法是可微的,這樣的體系結構可以端到端訓練,梯度可以通過算法以有意義的方式傳播回來。為了使算法具有可微性,本文提出了一種通過擾動變量和封閉逼近期望值來連續松弛算法的通用方法,即:,不需要采樣。此外,本文還提出了可微算法,如可微排序網絡、可微呈現器和可微邏輯門網絡。最后,本文提出了用算法學習的其他訓練策略。h微ttps://www.zhuanzhi.ai/paper/8c415ddbac1f3d1c24e4bb5436caf786

Felix Petersen 研究興趣是具有可微算法的機器學習。例如,我已經做了一個使算法可微的通用框架,并且也關注了可微排序和可微渲染。雖然通過傳播分布來使算法可微分非常有趣,但我也喜歡通過神經網絡傳播分布,這可以提高不確定性估計、魯棒性和公平性。 我在康斯坦茨大學的視覺計算小組(Oliver Deussen教授)工作,并與Christian Borgelt, Hilde Kuehne, Mikhail Yurochkin等人合作。

四千年前,埃及人發明了兩個數字相乘的算法,這是[21]算法的最早記錄。1843年,Ada Lovelace發布了第一個算法計算機程序,并設想了計算機在藝術和音樂等方面的現代應用,而當時這樣的計算機甚至還沒有制造出來[22,23]。一個世紀后的1943年,麥卡洛克和皮茨根據對大腦生物過程的觀察,設計了第一個神經網絡的數學模型。近十年來,基于人工神經網絡的方法在研究中受到了廣泛關注。這種復蘇可以歸因于硬件[25]、軟件[26-29]、卷積網絡[30,31]的發展以及深度學習在許多任務(如圖像分類[32,33])上的優勢。 如今,經典算法和神經網絡等機器學習系統在日常生活中都很豐富。雖然經典的計算機科學算法適合精確執行精確的任務,如在一個大圖中找到最短路徑,但神經網絡允許從數據中學習,以預測更復雜的任務(如圖像分類)中最可能的答案,這不能簡化為一個精確的算法。為了達到這兩個世界的最佳效果,在這篇論文中,我們探索了將經典計算機科學算法和神經網絡,或者更一般地說,機器學習相結合。這將導致更魯棒、更好的性能、更可解釋、更高效的計算和更高效的數據架構。文中提出了一種可證明正確的嵌入算法,實現了模型的魯棒性。用一種快速算法代替神經網絡的一部分,降低神經網絡的計算復雜度,可以提高模型的計算性能。此外,在精確度方面,性能可以提高,因為有更小的潛在錯誤,并且領域知識支持網絡。相應地,這些模型也可以更容易解釋,因為算法的輸入通常(根據定義)是可解釋的。最后,由于算法監督是一種典型的弱監督學習,監督水平降低,模型的數據/標簽效率更高。通常,神經網絡使用隨機梯度下降(SGD)或預處理SGD方法進行訓練,如Adam優化器[34]。這些方法基于計算損失函數相對于模型參數的梯度(即導數)。這個梯度表示損失的最陡上升方向。由于最小化損失改進了模型,我們可以(在模型的參數空間中)沿著梯度相反的方向進行優化,即梯度下降。使用反向傳播算法[35]可以有效地計算損失相對于模型參數的導數,在當今的深度學習框架[26,29]中,該算法被實現為向后模式自動微分。 基于梯度的學習要求所有涉及的操作都是可微分的; 然而,許多有趣的操作,如排序算法是不可微的。這是因為像if這樣的條件語句是分段不變的,也就是說,它們的導數為0,除了在真和假之間的轉換(即“跳轉”)之外,它們的導數是未定義的。因此,使用(不可微分)算法進行基于梯度的學習通常是不可能的。因此,在這項工作中,我們專注于通過連續松弛使算法可微。連續松弛的基本思想是在算法中引入一定程度的不確定性,例如,它可以使if語句中的真和假平滑過渡,使算法完全可微。我們注意到,當超越反向傳播時,例如,通過RESGRO損失,如第七章所介紹的,可微性和平滑性不是嚴格必要的,但仍然是可取的。我們還注意到,在這項工作中,將無梯度優化算法與基于梯度的神經網絡學習結合在一起,可微分算法通常優于無梯度方法。

可微算法學習可以分為2個學科: I可微算法,即研究如何通過算法反向傳播并獲得有意義的梯度。I算法監督(Algorithmic Supervision),將算法知識融入到神經網絡模型的訓練中。可微算法學習是機器學習中一個相對較新的領域。具體來說,除了一些個人早期的作品外,可微算法和算法監督領域在2018年取得了進展。我們已經在圖1.1的調查直方圖中可視化了這一點。在這里,我們將所有關于可微算法的相關工作分為應用算法監督的和不應用算法監督的(左)。進一步,我們將它們分類為wrt。他們提出或應用的可微算法。我們注意到,作者在2018年提出并開始了可微算法的研究,即在該領域形成之初。我們還注意到,該領域正在發展,最近才看到對現實問題的直接應用。

本論文共分為8章:各章按時間順序依次展開,具體來說,第2章介紹了3-6章構建的核心思想和方法。第7章介紹了備選的優化方法,因此在很大程度上獨立于第2 - 6章的時間流程,但建議從第2章和第3章中獲取知識,以便深入理解應用程序。 第一章介紹了可微算法學習的核心思想,并涵蓋了重要的相關工作和應用。 第二章詳細介紹了可微算法和算法監督的一般方法。為此,這一章給出了可微算法的一般概述,并可以視為引言的延伸。接下來的章節以本章的思想為基礎,每一章都更深入地討論了一類特定的可微算法。 第三章研究了可微排序和排序方法,重點研究了可微排序網絡。我們首先介紹可微排序方法,并通過仔細的理論分析,得出改進的可微排序算子。 第四章介紹了可微top-k方法,在概念上建立了可微排序和排序方法。特別地,我們引入了可微top-k網絡,這是對top-k算子可微排序網絡的改進。在可微top-k的基礎上,我們提出了top-k分類學習,并在ImageNet分類任務上取得了優異的性能。 第五章介紹了可微呈現。我們介紹了可微渲染的各種方法,并提出了廣義可微渲染器GenDR,它(至少近似地)包含了大多數現有的可微渲染器,還可以推廣到新的可微渲染器。本章附有圖書館。 第六章提出了可微邏輯門網絡,它是邏輯門網絡的一種松弛,因此可以訓練。這允許極快的推理速度,因為由此產生的邏輯門網絡可以在普通硬件上本機執行,因為這種硬件首先在邏輯門上操作。這是一個可微分算法的例子,它可以被訓練,并不一定與算法監督有關。 第七章討論了備選的優化策略。具體來說,它討論了分裂反向傳播,一種基于正則化的通用兩階段優化算法,它允許使用不同于用于優化神經網絡的優化器來優化算法損失。分裂反向傳播還允許將神經網絡本身分裂為多個部分,并可以擴展到多個分裂,然后所有的訓練都可以端到端,即使子部分是用替代優化器訓練的,甚至是不可微的。 在第八章,我們總結了本文的主要貢獻,并討論了未來的研究方向。

付費5元查看完整內容

深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司