亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在大規模語料庫上進行預訓練已經成為構建通用語言模型(LMs)的標準方法。適應新的數據分布以針對不同的下游任務是一項重大挑戰。簡單的微調可能會導致災難性的遺忘,當超參數化的LMs過度擬合新數據但無法保留預訓練特征時。終身學習(LLL)的目標是使信息系統能夠在時間跨度上從連續數據流中學習。然而,大部分先前的工作都是修改訓練策略,假定網絡架構是靜態固定的。我們發現額外的模型容量和適當的正則化是實現強大LLL性能的關鍵元素。因此,我們提出了Lifelong-MoE,這是一個可擴展的MoE(專家混合)架構,通過添加帶有正則化預訓練的專家動態增加模型容量。我們的結果表明,只引入有限數量的額外專家同時保持計算成本恒定,我們的模型可以穩定地適應數據分布的變化同時保留先前的知識。與現有的終身學習方法相比,LifelongMoE在19個下游NLP任務上實現了更好的少樣本性能。

//arxiv.org/abs/2305.12281

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議。 2023年7月23日至29日周六在夏威夷會議中心舉行。

預訓練語言模型(PLMs)在理解通用領域的文本方面表現出了卓越的能力,然而在特定領域的理解方面卻面臨挑戰。盡管在大型特定領域語料庫上進行連續預訓練是有效的,但在該領域上調整所有參數的成本非常高。在本文中,我們研究了我們是否能夠通過僅調整少數參數來有效且高效地適應 PLMs。具體而言,我們將 Transformer 架構的前饋網絡(FFNs)解耦為兩部分:原始預訓練的 FFNs 用于保留舊領域知識,而我們創新的領域特定適配器則并行注入領域特定知識。然后,我們采用了一種混合適配器門來動態地融合來自不同領域適配器的知識。我們提出的領域適配器混合(MixDA)采用了兩階段適配器調優策略,利用無標簽數據和有標簽數據來幫助領域適應:i)在無標簽數據上的領域特定適配器;接著是 ii)在有標簽數據上的任務特定適配器。MixDA 可以無縫地插入預訓練-微調范例,我們的實驗表明,MixDA 在領域內任務(GLUE),領域外任務(ChemProt,RCT,IMDB,Amazon)以及知識密集型任務(KILT)上都實現了卓越的性能。進一步的分析證明了我們方法的可靠性,可擴展性和效率。

//www.zhuanzhi.ai/paper/20a33c2a350833619d3fb41eef0ce624

付費5元查看完整內容

從噪聲數據中學習是一項具有挑戰性的任務,會顯著降低模型的性能。**本文提出TCL,一種新的孿生對比學習模型,用于學習魯棒表示并處理用于分類的噪聲標簽。**通過將監督模型預測注入到高斯混合模型中,在表示上構建高斯混合模型(GMM),將GMM中的無標簽潛變量與標簽噪聲注釋聯系起來。然后,TCL在考慮數據分布的情況下,利用另一個雙分量GMM將標簽錯誤的樣本檢測為分布外樣本;本文進一步提出一種具有熵正則化損失的交叉監督,從模型預測中引導出真實目標,以處理噪聲標簽。因此,TCL可以通過混合學習和對比學習來學習與估計標簽相一致的判別性表示。在多個標準測試集和真實數據集上的大量實驗結果表明,TCL具有優越的性能。特別是,TCL在CIFAR-10上實現了7.5%的改進,其中90%的標簽是噪聲非常大的場景。源代碼可以在//github.com/Hzzone/TCL上找到。

付費5元查看完整內容

**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。

付費5元查看完整內容

現有的知識圖譜(KG)嵌入模型主要關注靜態知識圖譜,然而,現實世界的知識圖譜并不是靜態的,而是隨著知識圖譜應用程序的發展而發展和增長的。因此,新的事實和以前看不到的實體和關系不斷出現,需要一個嵌入模型,可以通過增長快速學習和轉移新知識。基于此,本文對KG嵌入的一個擴展領域進行了研究,即終身KG嵌入。我們考慮了知識的轉移和對一個KG的不斷增長的快照的學習的保留,而不必從頭開始學習嵌入。該模型包括一個用于嵌入學習和更新的掩碼KG自編碼器,一個將學習到的知識注入到新的實體和關系嵌入中的嵌入轉移策略,以及一個避免災難性遺忘的嵌入正則化方法。為了研究KG生長的不同方面的影響,我們構建了四個數據集來評估終身KG嵌入的性能。實驗結果表明,該模型優于現有的歸納和終身嵌入基線。

//www.zhuanzhi.ai/paper/de7061bb76e5ed6f72e8d7100bd41ae8

付費5元查看完整內容

視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。

//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

現有的推理任務通常有一個重要的假設,即在推理時總是可以訪問輸入內容,這需要無限的存儲資源,并且在長序列上存在嚴重的時間延遲。為了在有限的存儲資源下對長序列進行有效的推理,記憶增強神經網絡引入了一種類似人類的寫-讀存儲器,以一次壓縮和記憶長輸入序列,嘗試只基于該存儲器回答后續的查詢。但它們有兩個嚴重的缺點: 1)不斷地根據當前的信息更新記憶,不可避免地忘記早期的內容; 2)他們不區分什么信息是重要的,平等對待所有內容。在本文中,我們提出了一種基于歷史采樣器的自監督復述來增強長序列記憶的復述記憶方法。為了緩解早期信息的逐漸遺忘,我們設計了回憶和熟悉任務的自監督預演訓練。此外,我們設計了一個歷史采樣器來選擇有信息的片段進行排練訓練,使記憶集中在關鍵信息上。我們通過綜合bAbI任務和幾個下游任務(包括文本/視頻問答和長序列推薦)來評估我們的排練記憶性能。

//www.zhuanzhi.ai/paper/a9ef9bbbf67e6d52ee9fd6a085a6071e

付費5元查看完整內容

Adaptive Methods for Real-World Domain Generalization

不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。

//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b

付費5元查看完整內容
北京阿比特科技有限公司