亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

半監督學習(SSL)由于成功地使用了未標記數據,在許多機器學習任務中受到了極大的關注,而現有的SSL算法在訓練過程中要么使用所有未標記的示例,要么使用具有固定高置信度預測的未標記示例。然而,可能會有太多正確/錯誤的偽標簽示例被刪除/選擇。在本工作中,我們提出一個簡單但強大的訓練示例子集,以便只使用與已標記數據相關的偽標簽的未標記示例來訓練模型。在每次更新迭代中,只保留損失小于給定閾值(通過迭代動態調整)的示例,從而執行選擇。我們提出的Dash方法在無標記數據選擇方面具有自適應性,并具有理論保障。具體地,我們從非凸優化的角度從理論上建立了Dash的收斂速度。最后,我們通過與最先進的基準比較,證明了該方法的有效性。

//proceedings.mlr.press/v139/xu21e.html

付費5元查看完整內容

相關內容

半監督學習(Semi-Supervised Learning,SSL)是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。半監督學習使用大量的未標記數據,以及同時使用標記數據,來進行模式識別工作。當使用半監督學習時,將會要求盡量少的人員來從事工作,同時,又能夠帶來比較高的準確性,因此,半監督學習目前正越來越受到人們的重視。

本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。

付費5元查看完整內容

我們提出了一種新的在線元學習算法,在有限的監督下順序揭示任務實例,并期望學習器在每一輪中對它們進行元學習,從而允許學習器在很少的任務級監督下快速定制特定任務模型。在線元學習中出現的一個基本問題是,隨著時間的推移,學習任務越來越多,記憶的可擴展性也越來越強。到目前為止,之前的工作都允許完美的回憶,導致記憶隨時間線性增加。與之前的工作不同,在我們的方法中,先前的任務實例是允許被刪除的。我們建議通過固定大小的狀態向量來利用之前的任務實例,狀態向量是按順序更新的。我們的理論分析表明,我們提出的記憶高效在線學習(MOML)方法具有凸損失函數的次線性遺憾和非凸損失的次線性局部遺憾。在基準數據集上,我們證明了我們的方法可以超越之前的方法,即使它們允許完美的回憶。

//proceedings.mlr.press/v139/acar21b.html

付費5元查看完整內容

在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。

//proceedings.mlr.press/v139/chen21a.html

付費5元查看完整內容

我們提出了圖神經擴散(GRAND),它將圖的深度學習視為一個連續的擴散過程,并將圖神經網絡(GNN)視為一個潛在的PDE的離散化。在我們的模型中,層結構和拓撲對應于時間和空間算子的離散化選擇。我們的方法允許有原則地開發一大類新的GNN,這些GNN能夠解決圖學習模型的常見困境,如深度、過平滑和瓶頸。我們的模型成功的關鍵是相對于數據攝動的穩定性,這在隱式和顯式離散化方案中都得到了解決。我們開發了線性和非線性版本的GRAND,在許多標準圖基準上實現了有競爭性的結果。

//proceedings.mlr.press/v139/chamberlain21a/chamberlain21a.pdf

付費5元查看完整內容

神經序列標記被廣泛應用于許多自然語言處理(NLP)任務,如命名實體識別(NER)和用于對話系統和語義分析的槽標記。最近,大規模的預訓練語言模型在這些任務中顯示出了顯著的成功,只要對大量特定任務的標記數據進行微調。然而,獲取這樣大規模的標記訓練數據不僅代價昂貴,而且由于數據訪問和隱私限制,在許多敏感用戶應用中可能不可行。如果序列標記任務需要在標記級進行這樣的注釋,這種情況就會加劇。在這項工作中,我們提出以解決標簽短缺的神經序列標記模型。具體來說,我們提出了一個元自訓練框架,它利用很少的手工標注標簽來訓練神經序列模型。自訓練是一種通過迭代知識交換從大量無標記數據中學習的有效機制,而元學習有助于自適應樣本重加權,以減少噪聲偽標記帶來的誤差傳播。在6個基準數據集上的大量實驗表明了該方法的有效性,其中包括2個用于大規模多語言NER的基準數據集和4個用于面向任務的對話系統的槽標記數據集。在每個任務中,每個類別只有10個標注的例子,該方法比目前最先進的方法提高了10%,證明了其在有限的訓練標簽體系中的有效性。

//www.microsoft.com/en-us/research/uploads/prod/2020/10/MetaST_Few_shot_KDD_2021.pdf

付費5元查看完整內容

Adaptive Methods for Real-World Domain Generalization

不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。

//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b

付費5元查看完整內容

類不平衡數據的半監督學習雖然是一個現實的問題,但已經得到了研究。雖然現有的半監督學習(SSL)方法在少數類上表現不佳,但我們發現它們仍然在少數類上生成高精度的偽標簽。通過利用這一特性,在這項工作中,我們提出了類再平衡自我訓練(CReST),這是一個簡單而有效的框架,用于改進現有的對類不平衡數據的SSL方法。CReST通過從一個未標記集中添加偽標記樣本擴展了一個標記集,迭代地重新訓練一個基線SSL模型,在該模型中,根據估計的類分布,從少數類中更頻繁地選擇偽標記樣本。我們還提出了一種漸進式分布對齊,以適應調整CReST+的再平衡強度。我們展示了CReST和CReST+在各種類不平衡的數據集上改進了最先進的SSL算法,并始終優于其他流行的再平衡方法。

//www.zhuanzhi.ai/paper/fdb3245caf8bded4d2ba340c2a9c64cc

付費5元查看完整內容

自訓練算法訓練模型以適應另一個先前學習的模型預測的偽標簽,對于使用神經網絡對未標記的數據進行學習非常成功。但是,當前對自訓練的理論理解僅適用于線性模型。這項工作為半監督學習,無監督領域適應和無監督學習提供了深度網絡自訓練的統一理論分析。我們分析的核心是一個簡單但現實的“擴展”假設,該假設指出,數據的低概率子集必須擴展到相對于子集而言具有較大概率的鄰域。我們還假設不同類別中的示例鄰域具有最小的重疊。我們證明在這些假設下,基于自訓練和輸入一致性正則化的人口目標最小化方法將在地面真相標簽方面實現高精度。通過使用現成的泛化邊界,我們立即將此結果轉換為在邊際和Lipschitzness中為多項式的神經網絡的樣本復雜度保證。我們的結果有助于解釋最近提出的使用輸入一致性正則化的自訓練算法的經驗成功。

//www.zhuanzhi.ai/paper/dd480967a4fbca4c6cc92

付費5元查看完整內容

利用弱監督或有噪聲的監督來構建有效的機器學習模型一直是一個重要的研究問題。由于訓練深度學習模型對大規模數據集的需求越來越大,其重要性最近進一步增加。弱或嘈雜的監督可能來自多種來源,包括非專業的注釋者或基于啟發式或用戶交互信號的自動標記。有大量的前期工作集中在利用嘈雜的標簽。最值得注意的是,最近的研究顯示,使用元學習實例重加權方法取得了令人印象深刻的成果,在這種方法中,元學習框架用于為嘈雜標簽分配實例權重。在本文中,我們將此方法擴展為元學習框架內的標簽校正問題。我們將標簽校正過程視為一個元過程,并提出了一個新的基于元學習的框架,稱為MLC(元標簽校正),用于有噪聲標簽的學習。具體來說,采用標簽校正網絡作為元模型,對有噪聲的標簽進行校正,同時對主模型進行訓練,以充分利用校正后的標簽。兩個模型通過求解一個雙層優化問題來聯合訓練。在圖像識別和文本分類任務中,我們使用不同的標簽噪聲水平和類型進行了廣泛的實驗。我們比較重加權和修正的方法表明,修正框架解決了一些限制重加權。我們還表明,提出的MLC方法在圖像和語言任務上都優于以前的方法。

//www.microsoft.com/en-us/research/uploads/prod/2020/12/aaai2021_mlc_zheng.pdf

付費5元查看完整內容

在本文中,我們提出了一種端到端的圖學習框架,即迭代深度圖學習(IDGL),用于共同迭代地學習圖結構和圖嵌入。IDGL的關鍵原理是學習基于更好的節點嵌入的更好的圖結構,反之亦然(即基于更好的圖結構的更好的節點嵌入)。我們的迭代方法動態停止時,學習圖接近足夠優化的圖預測任務。此外,我們將圖學習問題轉換為一個相似度量學習問題,并利用自適應圖正則化來控制學習圖的質量。最后,結合基于錨點的近似技術,我們進一步提出了一個可擴展的IDGL版本,即IDGL- anch,在不影響性能的前提下,顯著降低了IDGL的時間和空間復雜度。我們在9個基準上進行的廣泛實驗表明,我們提出的IDGL模型始終能夠優于或匹配最先進的基線。此外,IDGL還能更魯棒地處理對抗圖,并能同時處理傳導學習和歸納學習。

//arxiv.org/abs/2006.13009

付費5元查看完整內容
北京阿比特科技有限公司