亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,語言模型(Language Models, LMs)在多種自然語言處理(NLP)任務中取得了顯著進展。然而,這些模型的學習能力與人類之間仍存在明顯差距。其中一個主要區別在于學習的效率與靈活性。人類可以通過少量帶標簽的樣本迅速掌握新概念,并能在一生中持續學習新任務而不會遺忘先前獲得的知識。相比之下,語言模型通常需要大量數據才能實現有效泛化,并在適應新任務或不同數據分布時容易出現災難性遺忘(catastrophic forgetting)的問題,即忘記之前已學到的知識。

本論文聚焦于解決這些挑戰,圍繞人類類學習(human-like learning)的兩個核心方面展開研究:(1) 小樣本學習(few-shot learning),即語言模型需能從有限的標簽數據中有效泛化;(2) 持續(終身)學習(continual/lifelong learning),即模型在連續任務中學習時能夠保留并積累知識。圍繞這兩個目標,我們提出了一系列新穎的框架與學習算法,旨在使語言模型成為更高效、類人化的學習者,能夠從少量樣本中學習并適應不斷變化的數據分布,同時避免災難性遺忘。

首先,我們提出了**元提示調優(Meta Prompt Tuning, MPT)**方法,該方法通過從相關任務中學習提示向量的初始化,系統探索了元學習(meta-learning)在提升跨任務小樣本泛化中的潛力。通過大量實驗與分析,我們驗證了MPT在多種源任務/目標任務配置下的有效性與局限性。

接下來,我們研究了**終身序列生成(Lifelong Sequence Generation, LSG)問題,即在一系列生成任務中持續訓練模型,使其能夠不斷學習新模式的同時保留先前任務中的知識。受人類學習過程啟發,我們提出了動態模塊擴展與自適應(Dynamic Module Expansion and Adaptation, DMEA)**框架,使模型能夠根據任務間相關性動態調整結構,并選擇最相關的先前任務以輔助新任務的適應。

在此基礎上,我們進一步挑戰更復雜且更現實的學習場景:持續小樣本學習(Continual Few-Shot Learning)。在該場景下,模型不僅需從少量樣本中學習新任務,還需適應任務序列的不斷演化,貼近人類增量式學習過程。鑒于關系抽取(relation extraction)是眾多NLP下游任務的基礎,我們提出了**持續小樣本關系學習(Continual Few-shot Relation Learning, CFRL)問題,并通過嵌入空間正則化與數據增強(Embedding space Regularization and Data Augmentation, ERDA)**方法進行解決。

最后,考慮到當前語言模型在處理多種任務方面已具備強大能力,我們提出了一種新的學習范式:終身小樣本語言學習(Lifelong Few-shot Language Learning, LFLL),并構建了統一框架LFPT5,該框架基于提示調優(prompt tuning),能夠靈活適應新類型任務或新領域,同時保留已學知識。

本論文在提升語言模型學習效率、靈活性與適應性方面做出重要貢獻,使其更適用于數據稀缺、不斷演化的現實應用環境。通過融合小樣本學習與持續學習的研究進展,我們朝著構建不僅性能優異且認知能力更接近人類的語言模型邁出了堅實一步。最終,本研究表明,語言模型可以成為更穩健、多能、適應性更強的學習體,不再依賴大規模標注數據,而是邁向一種更類人、更智能的學習范式。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

現代強化學習(Reinforcement Learning, RL)系統揭示了有關人類通用問題求解的一些深層規律。在那些能夠低成本模擬新數據的領域,這些系統能夠學習到遠超人類能力的序列決策策略。現實社會中存在許多問題,其解決同樣依賴這種能力,但這些問題往往處于無法低成本生成新數據的領域。在這種情境下,我們可以基于已有數據構建模擬器,但這些模擬器始終只能近似正確,并且在被查詢到其訓練分布之外時可能會出現嚴重錯誤。因此,我們訓練智能體所處的環境與希望其最終部署的真實世界環境之間必然會存在失配(misalignment)。應對這種失配正是零樣本強化學習(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心關注點——在這一問題設定中,智能體必須在完全沒有實踐機會的前提下,能夠泛化到一個新任務或新領域。 盡管在理想化場景下實現零樣本強化學習的方法已經取得了令人矚目的進展,但若要在真實世界中復現這些成果,仍需新的研究。本文認為,要實現這一目標,至少需要應對三類約束:其一是數據質量約束:真實世界的數據集往往規模有限且同質化嚴重;其二是可觀測性約束:在真實世界中,狀態、動態和獎勵通常只能被部分觀測到;其三是數據可用性約束:事先獲得數據的假設并不總是成立。 本文提出了一系列能夠在這些約束下執行零樣本強化學習的方法。通過一系列實證研究,我們揭示了現有方法的不足,并論證了所提出技術在彌補這些缺陷方面的合理性。我們相信,這些設計使我們更接近于能夠部署到現實世界、解決實際問題的強化學習方法。

付費5元查看完整內容

自2012年AlexNet贏得ImageNet挑戰賽以來,深度神經網絡(DNN)在能力方面實現了數量級的飛躍。這一成功的主要推動力之一是大規模、高質量的精心構建的數據集的可用性。這類數據集(如ImageNet、MSCOCO等)通常通過人工方式在各類別之間進行均衡,以便模型能更好地學習所有類別。然而,這種構建過程代價高昂,往往需要舍棄寶貴的已標注樣本,以平衡類別分布。現實世界中的數據(如來自互聯網)分布與這些精心構建的數據集顯著不同,往往集中于常見類別,導致類別嚴重不平衡。

因此,專為理想數據設計的算法在處理這類“長尾不平衡”與分布偏移的現實數據時性能明顯下降。要拓展深度模型在現實中的應用,就必須擺脫依賴大量人工數據篩選的瓶頸,發展出能夠從真實世界的有限與不完美數據中學習的魯棒算法。

為達此目標,本論文提出了一系列實用的深度學習算法,使模型能夠從現實中的有限與不完美數據中學習。論文分為四個部分,分別對應四類典型的學習場景:


一、從長尾數據中學習生成模型

首先,我們評估了生成對抗網絡(GAN)在長尾數據集上的表現,發現現有GAN變體普遍存在模式崩潰(mode collapse)或類別生成遺漏的問題。為緩解這一現象,我們提出Class Balancing GAN with a Classifier in the Loop,通過引入分類器評估生成圖像的模式分布,并反饋引導GAN均衡地生成各類樣本。 進一步,我們發現GAN中的BatchNorm參數的譜范數爆炸與模式崩潰高度相關。于是提出Group Spectral Regularizer(gSR),一種低成本的正則化方法,有效抑制譜崩潰,并顯著提升SNGAN和BigGAN等主流條件GAN在長尾數據上的性能。但在大規模數據集上,gSR可能引入類別混淆。 為解決此問題,我們在最新工作NoisyTwins中設計了一種顯式建模的潛空間結構:為每個類別設定獨立的高斯分布,通過對比學習方法(BarlowTwins)同時增強類別一致性與類內多樣性,從而將高分辨率的StyleGAN成功擴展到ImageNet-LT和iNaturalist2019等千類長尾數據集上,并取得了SOTA表現。


二、長尾數據中的歸納式正則化

雖然基于圖像生成可提升對尾類的分類性能,但訓練額外的生成模型成本較高。為此,我們探索了更輕量的手段,如對尾類加大損失權重(loss re-weighting)。但該策略易導致模型陷入鞍點(saddle point)而非收斂到最優點,從而影響泛化能力。 我們引入Sharpness-Aware Minimization(SAM)以誘導模型逃離鞍點,促使尾類也能如頭類一樣有效泛化。此外,訓練視覺Transformer(ViTs)在長尾分類任務中仍具挑戰,因其缺乏如局部感知等歸納偏置,訓練數據需求高。我們提出DeiT-LT,結合來自CNN的OOD蒸餾與低秩特征蒸餾,將CNN的魯棒性引入可擴展的ViT模型中。


三、面向非可加性指標的半監督學習

上述方法均在監督學習框架下,避免丟棄已標注數據。而現實中,大量未標注數據的有效利用是關鍵。為此,我們構建了一種針對非可加性指標(如worst-case recall、H-mean recall)進行反饋學習的半監督學習框架。 我們提出Cost-Sensitive Self-Training(CSST),將傳統的自訓練方法(如FixMatch)推廣至長尾數據下,并具備理論保證與良好實證表現。在主流的“自監督預訓練 + 微調”范式中,我們還提出了SelMix,一種高效的微調方法,可用來優化非可加指標。SelMix放寬了“未標注數據分布與標注數據一致”的假設,增強模型對分布偏移的魯棒性。


四、高效的領域自適應學習

長尾學習方法主要提升的是受限數據下的“內分布”泛化能力,但實際應用中,模型還需能在跨領域的場景下泛化。為此,我們提出子模集選擇的對抗性領域自適應方法,通過精挑細選少量目標域樣本用于標注,最大化模型性能提升。 進一步,為提高適應效率,我們引入Smooth Domain Adversarial Training(SDAT),該方法使模型收斂到更具泛化能力的“平滑最小值”,從而實現跨任務、跨領域的高效模型遷移。


總結:本論文系統探索了在真實世界中如何從有限與不完美數據中訓練深度神經網絡模型,涵蓋生成學習、判別學習、半監督學習與跨域遷移四大子方向,為深度模型的大規模實際部署提供了堅實算法基礎與方法論支撐。

付費5元查看完整內容

大型語言模型(LLM)展現出了卓越的能力,且越來越多的研究者開始關注將其作為智能體——能夠將復雜的用自然語言表達的人類目標轉換為在數字環境中(如網頁瀏覽器)執行的一系列動作的系統。實現這一目標需要兩個核心能力:首先是理解任意且組合性的語言輸入的能力;其次是學習未知環境的能力,使得語言目標能夠在有效的多步驟決策中得到實現。本論文解決了這兩個挑戰。

在第一部分,我介紹了樹投影(Tree Projections)這一框架,用于理解變換器(transformer)如何構建組合結構。接著,我展示了一系列基于樹投影的結果,闡明了組合泛化、深刻理解(grokking)和樣本高效學習在變換器中的機制。雖然樹投影有助于解釋成功的泛化,但先前的研究表明,標準的變換器在處理深度遞歸時存在困難,因為它們缺乏應對無界層次深度的機制。為了解決這個問題,我提出了推送層(Pushdown Layers),這是一種通過向變換器中添加基于棧的記憶來進行架構增強的方法。推送層在需要嵌套或遞歸推理的任務上提升了樣本效率和泛化能力。

在第二部分,我介紹了NNetNav和BAGEL,這兩種方法支持在網頁環境中的無監督、開放式探索,使模型能夠在沒有人工監督的情況下自動為新網站收集訓練數據。我們最好的結果來自于使用NNetNav收集的示范對大型語言模型進行微調,NNetNav利用語言的層次結構來引導探索策略。使用NNetNav,我們從20個真實網站收集了10,000個示范,并對一個8B模型進行了微調,創下了無監督方法的新最佳成績,并在多個瀏覽器基準測試中超越了零-shot的GPT-4。

綜合來看,這些貢獻使我們更接近于開發能夠處理語言指令復雜性并能通過與環境互動自主學習的數字語言智能體。

//searchworks.stanford.edu/view/in00000451497

付費5元查看完整內容

語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。

然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。

付費5元查看完整內容

Transformer 模型的崛起顯著推動了機器學習模型的發展。大規模語言模型(LLMs)通過對海量數據進行訓練,并依托強大的計算資源,統一了傳統的自然語言處理(NLP)范式,能夠通過將多種下游任務整合到生成工作流中,來有效處理這些任務。在現實世界的影響方面,LLMs 已經徹底改變了研究人員、開發人員和用戶的可訪問性和可用性。此外,LLMs 極大地降低了人工智能的應用門檻,為應用程序和用戶提供了預訓練的語言理解與指令跟隨能力。因此,強大的 LLMs 為各個領域帶來了新的可能性,包括智能體、智能助手、聊天機器人和搜索引擎。然而,這些模型的廣泛可用性和可訪問性也帶來了潛在的風險,包括惡意使用和隱私問題。使 LLMs 具有價值的自由生成工作流也可能被濫用,從而危及隱私或用于有害目的。盡管已經做出了大量努力以提升 LLMs 的可信度,解決其安全性和隱私問題,但新型攻擊經常被提出,旨在繞過現有的防御機制,并將 LLMs 用于惡意用途。因此,針對 LLMs 的可信度,惡意攻擊者和防御者之間存在持續的博弈,許多重大挑戰仍未被發現。為了全面研究 LLMs 的可信度問題,我們識別了新型的攻擊,集中于信息泄露問題,改進了防御機制以應對各種攻擊,并通過實證評估攻擊在有無防御的情況下的效果。對于已識別的攻擊,我們重點關注向量數據庫中的信息泄露問題,研究嵌入的隱私泄露。除了嵌入信息泄露外,我們還演示了如何通過越獄提示詞攻擊 LLMs,進而恢復私密的訓練數據。在討論了攻擊后,我們提出了新的防御方法,以防止嵌入中的信息泄露。最后,我們實現了一個基準測試,用于實證評估攻擊在有無防御情況下的表現。我們進行了大量實驗,以驗證我們發現的攻擊與防御的有效性。我們的評估基準結果揭示了攻擊假設與防御假設之間未曾察覺的差距。

預訓練語言模型(LMs)基于 Transformer 架構,標志著自然語言處理(NLP)領域變革時代的開始。通過在特定任務數據上微調預訓練的 LMs,可以在廣泛的任務上實現無與倫比的性能[98]。目前,生成式大規模語言模型(LLMs)通過將多種自然語言處理任務整合到一個全面的文本生成框架中,展現了卓越的能力。這些 LLMs,包括 OpenAI 的 GPT-4 [112]、Anthropic 的 Claude 3 和 Meta 的 Llama 3 [3],在理解和生成自然語言方面展現了最先進的表現。因此,盡管沒有額外的微調,這些 LLMs 在預定義任務和現實世界挑戰中依然占據主導地位[129, 33, 12, 112, 113, 68, 21]。除了生成可讀文本,LLMs 還能夠自動化許多跨領域的任務,使其成為編程和藝術設計等應用中不可或缺的工具。此外,LLMs 展現了令人印象深刻的泛化能力,能夠處理未見過的任務。在適當的指令(提示)和示范下,LLMs 甚至能夠理解特定的上下文或處理新任務,而無需進一步的微調[30, 200, 75, 169, 134]。因此,將 LLMs 融入各種應用場景,從科學研究到智能助手,具有廣闊的前景。然而,LLMs 的開放式生成也帶來了內容安全和數據隱私方面的固有脆弱性。在內容安全方面,惡意攻擊者可能會操控 LLMs 的指令,使其輸出有害的響應。提示注入攻擊[160, 121, 97, 144, 96, 52]和越獄攻擊[84, 36, 141, 167]能夠引導 LLMs 輸出攻擊者希望的任何內容。在數據隱私方面,LLMs 可能會泄露其敏感的訓練數據。在提高性能的背后,LLMs 以巨大的模型規模吞噬了海量的訓練數據。即便是 API 級別訪問 LLMs,也可能導致個人身份信息(PII)的意外泄露[84, 99, 60, 19, 202, 163]。安全性和隱私風險引發了廣泛的討論和批評,關于如何合理使用人工智能的議題已成為焦點。作為回應,政府已更新或提出新的關于生成式人工智能的法規。這些新法規,如《歐盟人工智能法案》、通用數據保護條例(GDPR)和《加利福尼亞消費者隱私法案(CCPA)》都強調了人工智能模型的合理使用,以實現社會公益。盡管存在風險,將多種應用整合到 LLMs 中已成為日益增長的趨勢。這些整合賦予 LLMs 有效解決數學問題的工具(如 ChatGPT + Wolfram Alpha)、解釋格式化文件的能力(如 ChatPDF),并通過使用搜索引擎響應用戶查詢以減少幻覺(如新 Bing)。然而,當 LLMs 與外部工具(如搜索引擎)結合時,領域特定的隱私和安全風險也隨之而來。例如,正如[84]中討論的,惡意攻擊者可能會利用新 Bing 將受害者的個人身份信息(PII)與部分數據關聯起來。因此,LLMs 中存在的完整安全性和隱私問題仍然不明確。本論文的最終目標是提升 LLMs 在內容安全和數據隱私方面的可信度。因此,本文的重點集中在以下幾個方面的攻擊、防御和評估:

  1. 我們提出了新類型的攻擊,包括向量數據庫嵌入中的信息泄露和通過越獄提取訓練數據的攻擊。
  2. 我們升級了現有的防御機制,以防止信息泄露問題。
  3. 我們通過實證方法評估現有攻擊在有無防御機制情況下的性能,并討論它們的權衡和局限性。
付費5元查看完整內容

強化學習是一種優化決策的框架,考慮到行動的長期后果。

強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。

在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。

首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。

付費5元查看完整內容

語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。

在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。

在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。

接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。

雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。

聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。

本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

自然語言理解是機器對人類語言進行語義解碼的任務。NLU允許用戶使用自然句子與機器進行交互,是任何自然語言處理(NLP)系統的基礎組件。盡管機器學習方法(尤其是深度學習)在NLU任務上取得了顯著的成就,但它們仍然嚴重依賴于大量的訓練數據來確保良好的性能,不能很好地泛化到訓練數據很少的語言和領域。對于互聯網上具有大量文本數據的高資源語言(如英語、中文),獲取或收集海量數據樣本相對容易。然而,許多其他語言的在線足跡很小(例如,互聯網上不到0.1%的數據資源是泰米爾語或烏爾都語)。這使得收集這些低資源語言的數據集變得更加困難。同樣,低資源領域(如罕見疾病)的數據集也比高資源領域(如新聞)的數據集更具有挑戰性,因為這些領域的數據資源和領域專家很少。為了讓機器更好地理解低資源語言和領域中的自然句子,有必要克服數據稀缺的挑戰,因為只有很少甚至沒有訓練樣本可用

跨語言和跨領域遷移學習方法已經被提出,從高資源語言和領域的大型訓練樣本中學習任務知識,并將其遷移到低資源語言和領域。然而,以往的方法未能有效地解決開發跨語言和跨領域系統的兩個主要挑戰,即:1)難以從低資源的目標語言(域)中學習良好的表示;2)由于語言(領域)之間的差異,任務知識很難從高資源源語言(領域)轉移到低資源目標語言(領域)。如何在深度學習框架下應對這些挑戰,需要進行新的研究。

在這篇論文中,我們專注于在深度學習框架中解決上述挑戰。首先,我們提出進一步細化跨語言的任務相關關鍵詞的表示。我們發現,通過只關注關鍵詞,低資源語言的表示可以很容易地得到很大的改進。其次,我們提出了一個用于跨語言自適應的Transformer ,發現建模部分語序而不是整個語序可以提高模型對語言語序差異和任務知識向低資源語言遷移的魯棒性。第三,我們提出在訓練前利用不同層次的領域相關語料庫和額外的數據掩蔽來進行跨領域適應,并發現更具挑戰性的訓練前可以更好地解決任務知識轉移中的領域差異問題。最后,我們引入了一個從粗到細的框架Coach,以及一個跨語言和跨領域的解析框架X2Parser。Coach將表示學習過程分解為粗粒度和細粒度特征學習,X2Parser將分層任務結構簡化為扁平化。我們觀察到,簡化任務結構使表示學習對于低資源語言和領域更有效。

總之,我們通過改進低資源表示學習和增強任務知識遷移中拓撲距離較遠的語言和領域的模型魯棒性,解決了自然語言學習中的數據稀缺問題。實驗表明,我們的模型能夠有效地適應低資源的目標語言和領域,并顯著優于之前的最先進的模型。

付費5元查看完整內容
北京阿比特科技有限公司