亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

神經序列標記被廣泛應用于許多自然語言處理(NLP)任務,如命名實體識別(NER)和用于對話系統和語義分析的槽標記。最近,大規模的預訓練語言模型在這些任務中顯示出了顯著的成功,只要對大量特定任務的標記數據進行微調。然而,獲取這樣大規模的標記訓練數據不僅代價昂貴,而且由于數據訪問和隱私限制,在許多敏感用戶應用中可能不可行。如果序列標記任務需要在標記級進行這樣的注釋,這種情況就會加劇。在這項工作中,我們提出以解決標簽短缺的神經序列標記模型。具體來說,我們提出了一個元自訓練框架,它利用很少的手工標注標簽來訓練神經序列模型。自訓練是一種通過迭代知識交換從大量無標記數據中學習的有效機制,而元學習有助于自適應樣本重加權,以減少噪聲偽標記帶來的誤差傳播。在6個基準數據集上的大量實驗表明了該方法的有效性,其中包括2個用于大規模多語言NER的基準數據集和4個用于面向任務的對話系統的槽標記數據集。在每個任務中,每個類別只有10個標注的例子,該方法比目前最先進的方法提高了10%,證明了其在有限的訓練標簽體系中的有效性。

//www.microsoft.com/en-us/research/uploads/prod/2020/10/MetaST_Few_shot_KDD_2021.pdf

付費5元查看完整內容

相關內容

在許多數據科學應用中,如推薦系統、在線廣告、醫療等,對表格數據進行預測是一項重要的任務。表格數據被結構成行和列,每一行作為數據樣本,每一列作為特性屬性。表格數據的列和行都帶有可以提高模型預測性能的有用模式。然而,大多數現有模型關注的是跨列模式,而忽略了跨行模式,因為它們獨立處理單個樣本。在這項工作中,我們提出了一個通用的學習框架,名為檢索與交互機(RIM),它充分利用表格數據中的橫行和橫列模式。具體來說,RIM首先利用搜索引擎技術高效地檢索表中有用的行來輔助目標行標簽預測,然后利用特征交互網絡捕捉目標行與被檢索行之間的跨列模式,從而做出最終的標簽預測。我們對三個重要任務的11個數據集進行了廣泛的實驗,即CTR預測(分類)、top-n推薦(排名)和評分預測(回歸)。實驗結果表明,RIM在不同的基準上取得了顯著的改進,證明了RIM的優越性和有效性。

//www.zhuanzhi.ai/paper/753ed3f1b041ebbb1c804ed9f67590dd

付費5元查看完整內容

圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。

//www.zhuanzhi.ai/paper/852db932624d6feeb7bbd32e67772b27

付費5元查看完整內容

論文針對現有跨語言命名實體識別方法主要使用源語言數據和翻譯數據的局限性,提出充分利用目標語言的大規模無標簽數據提升遷移性能。作者基于半監督學習和強化學習方法,提出RIKD模型,首先通過在目標語言無標簽數據上迭代知識蒸餾,不斷獲得更高效的學生模型。其次,為了降低蒸餾過程中教師模型的推理錯誤和低質量數據帶來的噪聲,設計了一個基于強化學習的樣本選擇器,動態選擇信息量更大的樣本進行蒸餾。實驗結果表明,RIKD在基準數據集和內部數據集上顯著優于現有最優模型。

//www.zhuanzhi.ai/paper/18a3b87ee49058589b9acb0098a3ab42

付費5元查看完整內容

異構圖神經網絡(HGNN)作為一種新興的技術,在處理異構信息網絡(HIN)方面表現出優越的能力。然而,大多數HGNN遵循半監督學習方式,這明顯限制了它們在現實中的廣泛使用,因為標簽在實際應用中通常很少。近年來,對比學習,一種自監督的學習方法,成為最令人興奮的學習模式之一,在沒有標簽的情況下顯示出巨大的潛力。在本文中,我們研究了自監督HGNN的問題,并提出了一種新的HGNN的共同對比學習機制,名為HeCo。不同于傳統的對比學習只關注于對正樣本和負樣本的對比,HeCo采用了跨視角對比機制。具體來說,我們提出了HIN的兩種視圖(網絡模式視圖和元路徑視圖)來學習節點嵌入,從而同時捕獲局部和高階結構。在此基礎上,提出了一種跨視圖對比學習方法,并提出了一種視圖掩碼機制,能夠從兩個視圖中提取正面和負面的嵌入信息。這使得兩個視圖能夠相互協作監督,并最終學習高級節點嵌入。此外,設計了兩個擴展的HeCo,以產生高質量的硬負樣本,進一步提高了HeCo的性能。在各種真實網絡上進行的大量實驗表明,所提出的方法的性能優于最新的技術。

//www.zhuanzhi.ai/paper/9af678b0d09538b9cc18ef07a10d9560

付費5元查看完整內容

少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。

//arxiv.org/abs/2105.07029

付費5元查看完整內容

圖神經網絡最近的成功極大地促進了分子性質的預測,促進了藥物發現等活動。現有的深度神經網絡方法通常對每個屬性都需要大量的訓練數據集,在實驗數據量有限的情況下(特別是新的分子屬性)會影響其性能,這在實際情況中是常見的。為此,我們提出了Meta-MGNN,一種新穎的預測少樣本分子性質的模型。Meta-MGNN應用分子圖神經網絡學習分子表示,建立元學習框架優化模型。為了挖掘未標記的分子信息,解決不同分子屬性的任務異質性,Meta-MGNN進一步將分子結構、基于屬性的自監督模塊和自關注任務權重整合到Meta-MGNN框架中,強化了整個學習模型。在兩個公共多屬性數據集上進行的大量實驗表明,Meta-MGNN優于各種最先進的方法。

//arxiv.org/abs/2102.07916

付費5元查看完整內容

圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:

在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。

在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。

總體來說,本文的貢獻如下:

  • 首次探索學習預訓練 GNNs,緩解了預訓練與微調目標之間的差異,并為預訓練 GNN 提供了新的研究思路。
  • 針對節點與圖級表示,該研究提出完全自監督的 GNN 預訓練策略。
  • 針對預訓練 GNN,該研究建立了一個新型大規模書目圖數據,并且在兩個不同領域的數據集上進行了大量實驗。實驗表明,該研究提出的方法顯著優于 SOTA 方法。

付費5元查看完整內容

利用弱監督或有噪聲的監督來構建有效的機器學習模型一直是一個重要的研究問題。由于訓練深度學習模型對大規模數據集的需求越來越大,其重要性最近進一步增加。弱或嘈雜的監督可能來自多種來源,包括非專業的注釋者或基于啟發式或用戶交互信號的自動標記。有大量的前期工作集中在利用嘈雜的標簽。最值得注意的是,最近的研究顯示,使用元學習實例重加權方法取得了令人印象深刻的成果,在這種方法中,元學習框架用于為嘈雜標簽分配實例權重。在本文中,我們將此方法擴展為元學習框架內的標簽校正問題。我們將標簽校正過程視為一個元過程,并提出了一個新的基于元學習的框架,稱為MLC(元標簽校正),用于有噪聲標簽的學習。具體來說,采用標簽校正網絡作為元模型,對有噪聲的標簽進行校正,同時對主模型進行訓練,以充分利用校正后的標簽。兩個模型通過求解一個雙層優化問題來聯合訓練。在圖像識別和文本分類任務中,我們使用不同的標簽噪聲水平和類型進行了廣泛的實驗。我們比較重加權和修正的方法表明,修正框架解決了一些限制重加權。我們還表明,提出的MLC方法在圖像和語言任務上都優于以前的方法。

//www.microsoft.com/en-us/research/uploads/prod/2020/12/aaai2021_mlc_zheng.pdf

付費5元查看完整內容

Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。

//arxiv.org/abs/2009.08445

付費5元查看完整內容

圖分類的目的是對圖結構數據進行準確的信息提取和分類。在過去的幾年里,圖神經網絡(GNNs)在圖分類任務上取得了令人滿意的成績。然而,大多數基于GNNs的方法側重于設計圖卷積操作和圖池操作,忽略了收集或標記圖結構數據比基于網格的數據更困難。我們利用元學習來進行小樣本圖分類,以減少訓練新任務時標記圖樣本的不足。更具體地說,為了促進圖分類任務的學習,我們利用GNNs作為圖嵌入主干,利用元學習作為訓練范式,在圖分類任務中快速捕獲特定任務的知識并將其轉移到新的任務中。為了提高元學習器的魯棒性,我們設計了一種新的基于強化學習的步進控制器。實驗表明,與基線相比,我們的框架運行良好。

付費5元查看完整內容
北京阿比特科技有限公司