亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文鏈接://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466

端到端語音識別(Speech Recognition, SR)系統的訓練需要大量的標注數據,這對低資源場景來說是一個挑戰。為此,微軟亞洲研究院的研究員們提出了一種名為 UniSpeech 的方法,能夠同時利用監督數據和無監督數據來學習統一的上下文表示。

圖9:UniSpeech 方法示意圖

如圖9所示,研究員們的模型包含了基于卷積神經網絡(Convolution Neural Network,CNN)的特征提取網絡,基于 Transformer 的上下文網絡和一個特征量化模塊用于學習離散的向量。對于預訓練,研究員們采用了多任務學習的方式;對于標記數據,則指定了兩個訓練目標:第一個是音素級別的 CTC 損失函數,該函數作用于 Transformer 的輸出;第二個是在掩碼上下文表示和離散潛在表示上定義的對比任務,該任務與 wav2vec2.0 相同。CTC 將每個上下文表示與音素標簽對齊,同時,對比損失縮小了離散表示和上下文表示之間的距離。為了進一步明確指導量化器學習 SR 的特定信息,在計算 CTC 損失時,研究員們隨機將一部分 Transformer 輸出,替換為相應時間的離散表示。

在實驗中,研究員們發現這種方法可以激活量化器碼本中的更多碼字。對于那些未標記數據,研究員們只進行了對比學習。在預訓練之后,研究員們固定了特征提取器,并在少量標記的低資源數據上微調了 Transformer 部分。論文在 CommonVoice 數據集上驗證了該方法,如表2-表4所示,UniSpeech 在以下三種設置中,均明顯優于監督遷移學習和無監督對比學習:(1)單一高資源語言設置到單一低資源語言設置(One-to-One)(2)多語言高資源語言到單一低資源語言設置(Many-to-One)(3)多語言高資源語言到多語言低資源語言設置(Many-to-Many)。

付費5元查看完整內容

相關內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

深度域自適應(DDA)方法在復雜域(如圖像、結構數據和順序數據)上具有更好的建模能力,其性能優于淺層模型。其基本思想是在一個潛在空間上學習領域不變表示,它可以在源域和目標域之間架起橋梁。一些理論研究建立了深刻的理解和學習領域不變特征的好處; 然而,它們通常僅限于沒有標簽遷移的情況,因此阻礙了它的適用性。在本文中,我們提出并研究了一種新的挑戰性設置,該設置允許我們使用Wasserstein距離(WS)不僅量化數據偏移,而且直接定義標簽偏移。我們進一步發展理論表明,減少數據的WS轉變導致關閉之間的差距的源和目標數據分布的空間(例如,中間的一層深網),同時仍然能夠量化的標簽對這個潛在的空間轉移。有趣的是,我們的理論可以解釋學習領域不變特征在潛在空間上的某些缺陷。最后,基于已有理論的結果和指導,我們提出了標簽匹配深度域自適應(LAMDA)方法,該方法在實際數據集上優于基準方法。

付費5元查看完整內容

預訓練跨語言語言模型(Pretrained Cross-Lingual Language Model)在自然語言推斷、問答、序列標注等諸多任務上展現了強大的跨語言遷移能力。例如,僅用英語的問答訓練數據來微調預訓練跨語言語言模型,得到的模型就可以直接在多個語言上實現問答任務。以往的跨語言預訓練任務更關注句子級別的對齊,隱式地鼓勵跨語言對齊,而忽略了顯示的詞級別的細粒度的對齊。

在本文中,微軟亞洲研究院的研究員們將詞級別的跨語言對齊引入預訓練,并提出了一個新的跨語言預訓練任務:去噪聲詞對齊(Denoising word alignment),來訓練 XLM-Align 模型。

在訓練過程中,對翻譯句對交替進行詞對齊自標注和去噪聲詞對齊。詞對齊自標注(Word alignment self-labeling)是指將輸入的翻譯句對的詞對齊問題轉化為最優傳輸問題,并在訓練過程中在線得到輸入句對的詞對齊標注;去噪聲詞對齊則是指隨機地將輸入句對中的詞進行掩蓋,然后使用指針網絡預測翻譯句對原始的詞對齊關系。

研究員們在 XTREME 多語言理解評價基準上進行了驗證,包括序列標注、問答、句子分類等。實驗使用“跨語言遷移”(Cross-lingual transfer)的實驗設置——模型用英文的訓練數據微調,但在多種語言的測試集上進行測試。如表13所示,XLM-Align 在7項任務上都超越了 XLM-R_base,且取得了最好的平均分數。

付費5元查看完整內容

學生作者:王希梅,高敬涵

//www.zhuanzhi.ai/paper/2d828976f615c8c8bf691f9235b05fc1

摘要:大規模標記數據集推動深度學習獲得廣泛應用,但在現實場景中收集足量的標記數據往往耗時耗力。為了降低對標記數據的需求,半監督學習側重于同時探索標記和未標記數據,而遷移學習旨在將預訓練模型微調到目標數據中。然而,從頭訓練的半監督自訓練模型容易被錯誤的偽標簽所誤導,而僅僅挖掘有限標記數據的遷移學習方法則面臨模型漂移的挑戰。為了實現數據高效的深度學習,本文提出的Self-Tuning方法設計了一種新的“偽標簽組對比”機制,將標記和未標記數據的探索與預訓練模型的遷移統一起來。在多個基準數據集中,Self-Tuning的性能取得大幅提升,例如,在標簽比例為15%的Stanford Cars中,Self-Tuning相較標準fine-tuning獲得了翻倍的準確率。

arxiv鏈接:

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

以往的人臉圖像質量評估研究大多以樣本層面不確定性或配對相似度作為質量評分標準,而且只考慮部分類內信息。這些方法忽略了來自類間有價值的信息。在本研究中,對于人臉識別系統,我們認為一個高質量的人臉圖像應該與其類內樣本相似,而與其類間樣本不相似,如圖1所示。為此,我們提出了一種基于類內-類間相似度分布距離的無監督人臉質量評估方法(SDD-FIQA)。

//www.zhuanzhi.ai/paper/b51b03b10fb5b413e14282835e0e8a6a

該方法從人臉識別的性能影響因子出發,從理論上推導出人臉樣本類間相似度分布與人臉圖像質量高度相關,利用類內相似度分布和類間相似度分布之間的Wasserstein距離生成人臉圖像質量偽標簽。然后,利用這些質量偽標簽進行無監督訓練一個人臉質量回歸網絡,從而獲得一個質量評估模型。大量實驗表明,在各大人臉識別的基準數據集上,提出的SDD-FIQA方法在不同的人臉識別系統下,精度和泛化能力都達到國際最先進水平。

主要創新點:1)發現了人臉樣本類間相似度分布與人臉圖像質量高度相關;2)提出了類內-類間相似度分布距離的概念;3)從理論上導出了人臉圖像質量與類內-類間相似度分布距離直接相關;4)提出了利用Wasserstein準則度量類內-類間相似度分布距離,并用于人臉圖像質量評分;5)實現了一種完全無監督的人臉圖像質量評估算法,性能最優。

付費5元查看完整內容

在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。

在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。

在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。

//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。

然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。

在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。

最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。

根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。

在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。

為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:

  • 我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。

  • 我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。

  • 我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。

  • 我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。

  • 我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。

付費5元查看完整內容

目前的深度神經網絡需要為每個新任務收集大量帶標簽的訓練數據,在一定程度上限制了其實用性。給定來自一組源任務的數據,可以使用兩種遷移學習方法來克服此限制:小樣本學習(FSL)和自監督學習(SSL)。前者旨在通過使用源任務設計學習場景來學習“如何學習”,以模擬用很少的帶標簽樣本來解決目標新任務的挑戰。相反,后者利用所有源任務中的無注釋預定義任務來學習可泛化的特征表示。本文提出了一個創新的實例級和場景級的預定義任務(IEPT)框架,該框架無縫地將SSL集成到FSL中。具體來說,給定FSL場景,我們首先將幾何變換應用于每個實例以生成擴展場景。在實例級別,按照標準的SSL執行轉換識別。重要的是,在場景級別中我們設計了兩個SSL-FSL混合學習目標:(1)場景級別的預定義任務,會最大限度地提高來自不同擴展場景的FSL分類預測結果之間的一致性;(2)將從每個實例中跨不同場景提取的特征進行集成,以構建用于元學習的單個FSL分類器。大量實驗表明,我們提出的模型(即帶有IEPT的FSL)達到了最新的技術水平。

付費5元查看完整內容

基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。

付費5元查看完整內容

目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。

//www.zhuanzhi.ai/paper/26fe94a8c64fbb5140619ab72ed036d1

付費5元查看完整內容
北京阿比特科技有限公司