亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。

在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。

在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。

接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。

雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。

聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。

本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度學習已經徹底改變了科學研究,并被用于在越來越復雜的場景中做出決策。隨著強大的能力的增長,對透明度和可解釋性的需求也在增長。可解釋人工智能領域旨在為AI系統的預測提供解釋。然而,AI可解釋性的最新進展遠未令人滿意。

例如,在計算機視覺中,最著名的事后解釋方法生成像素級的熱圖,覆蓋在輸入域上,旨在可視化圖像或視頻的單個像素的重要性。我們認為,這種密集的歸因圖對非專家用戶來說解釋性較差,因為解釋形成的領域——我們可能在熱圖中識別出形狀,但它們只是像素的斑點。事實上,輸入域更接近于數碼相機的原始數據,而不是人類用來交流的可解釋結構,例如物體或概念。

在這篇論文中,我們提出超越密集特征歸因,通過采用結構化內部表示作為更可解釋的解釋域。從概念上講,我們的方法將深度學習模型分為兩部分:感知步驟,輸入密集表示;推理步驟,學習執行手頭任務。兩者之間的接口是對應于明確定義的物體、實體和概念的結構化表示。這些表示作為解釋模型預測的可解釋域,使我們能夠朝著更有意義和信息豐富的解釋邁進。

提出的方法引入了幾個挑戰,比如如何獲得結構化表示,如何將它們用于下游任務,以及如何評估結果解釋。本論文包含的工作解決了這些問題,驗證了方法并為該領域提供了具體貢獻。在感知步驟中,我們探討了如何從密集表示中獲得結構化表示,無論是通過使用領域知識手動設計它們,還是通過無監督地從數據中學習它們。在推理步驟中,我們探討了如何將結構化表示用于從生物學到計算機視覺的下游任務,以及如何評估學到的表示。在解釋步驟中,我們探討了如何解釋在結構化域中運作的模型的預測,以及如何評估結果解釋。總的來說,我們希望這項工作能激發對可解釋AI的進一步研究,并幫助彌合高性能深度學習模型與現實世界應用中對透明度和可解釋性需求之間的差距。

人工智能系統在商業、科學和社會的各個領域得到了廣泛應用。特別是由于性能的快速提升,深度學習模型現在能夠在復雜場景中支持甚至取代人類專家。然而,強大的能力伴隨著巨大的責任,人工智能(AI)的日益普及引發了對透明度和可解釋性的增長需求。確實,使用高精度檢測癌癥很有用,但AI醫生必須能夠向患者解釋其診斷,并與其他醫生合作。同樣,一家公司可能開發了一個用于自動駕駛的杰出系統,但在公共道路上部署之前,需要說服監管機構其行為是安全且可預測的。 透明度、解釋和可解釋性是可解釋人工智能(XAI)的重點。盡管在理解深度學習模型和解釋其決策方面取得了重大進展,但XAI的最新狀態遠未令人滿意。例如,計算機視覺中最著名的解釋方法產生的熱圖被疊加到圖像或視頻上,以突出重要區域。我們稱之為密集特征歸因的這種可視化類型,對模型識別什么(紋理、部分、物體等)和如何推理(屬性、關系等)提供的洞察很少。我們將這種局限性歸因于解釋形成的領域。實際上,對于大多數深度學習模型,解釋域與輸入域相對應,它更接近于感官數據(例如原始像素),而不是人類用于推理和交流的可解釋結構(例如物體或概念)。 本論文的目標是超越密集特征歸因,轉而采用結構化表示作為更可解釋的解釋域。我們通過分離感知步驟(將密集輸入轉換為結構化表示)和推理步驟(使用結構化表示進行預測)來實現這一目標。這種分離使我們能夠就結構化表示解釋預測,這比密集輸入更具可解釋性。 在這個引言章節中,我們對我們的方法進行了背景闡述:第1.1節提供了可解釋人工智能的介紹,包括其概念和需求;第1.2節描述了表示方法,無論是密集的還是結構化的,在解釋深度學習模型中的作用。最后,第1.3節對提出的方法進行了正式闡述,并概述了本論文各章節中的發展情況。

付費5元查看完整內容

在機器學習(ML)中,一個關鍵的挑戰是設計能夠從圖中高效學習的模型。這些圖由帶有屬性的節點組成,并具有一個編碼它們關系的預定結構。圖表示學習(GRL)旨在將這兩個異質性源編碼為一個向量圖嵌入,以便進行下游任務。在這個領域,最優傳輸(OT)在將圖視為離散概率分布的意義上提供了有意義的比較。本論文通過OT的視角關注GRL,兩個概念都在專門章節中介紹。現代的有監督GRL主要依賴圖神經網絡(GNN),它通過兩個主要元素隱式地編碼圖拓撲:通過消息傳遞的節點特征嵌入和通過專門形式的池化的聚合。在這篇論文中,我們介紹了一個新的觀點,將距離一些可學習的圖模板的距離置于圖表示的核心。這種距離嵌入是通過OT距離構建的:融合Gromov-Wasserstein(FGW)距離,它通過解決一個軟圖匹配問題同時處理特征和結構的不相似性。我們假設FGW距離到一組模板圖的向量具有強大的區分能力,然后將其提供給一個非線性分類器進行最終預測。這種距離嵌入作為一個新的池化層,稱為TFGW,并可以利用現有的消息傳遞技術來促進有意義的特征表示,這是端到端學習的。我們在幾個圖分類任務上實證驗證了我們的說法,其中我們的方法在表達性和泛化能力方面都優于內核和GNN方法。本論文的另一個貢獻旨在使詞典學習(DL)適用于圖數據集分析,這是無監督表示學習的關鍵工具。DL解釋向量數據為幾個基本元素的線性組合,通過與單一環境空間相關的不相似性來評估學到的表示的質量。由于圖描述了它們自己的空間,我們提出了第一個適應于圖詞典學習(GDL)的線性方法,使用(F)GW作為數據擬合項。在我們的工作中,圖被建模為圖原子的凸組合,通過在線隨機算法估算。GDL通過一個新的上界完成,該上界可以用作FGW在嵌入空間中的快速近似。我們實證地顯示了我們的方法對于圖聚類、分類、完成以及在線圖子空間估計和跟蹤的興趣。最終,位于OT核心的質量保守性,在對比兩個圖的所有節點時強加了一個耦合,這在GRL中有特定的含義。通過FGW學習結構和特征表示對于由將圖建模為概率分布所誘導的節點相對重要性非常敏感。管理這一額外的自由度,正如我們所做的,通過在TFGW中增加最小的計算成本但對GDL增加顯著的模型復雜性來改進基于(F)GW的模型。因此,我們建議通過引入一種新的基于OT的差異,稱為半松弛(融合)Gromov-Wasserstein差異(sr(F)GW),來解決(F)GW中質量保守性約束的限制。srFGW提供了兩個圖之間的對應關系,同時在目標圖中尋找一個重新加權的子圖,與輸入的(F)GW距離最小。后者可以比(F)GW更有效地估計,并與專門用于圖分割的方法競爭,同時更具通用性。此外,估計一個srFGW“重心”引入了一個新的DL,其中圖被嵌入為單個圖原子的重新加權子圖。與其他基于DL的競爭者在各種無監督任務上競爭有利,同時計算速度明顯更快。

付費5元查看完整內容

決策制定無處不在,一些問題由于其序列性質變得特別具有挑戰性,即后續決策取決于早期決策。雖然人類一直在努力解決順序決策問題,但現代計算和機器學習技術是需要找到最優決策規則。一種流行的方法是強化學習(RL)視角,其中,代理通過基于其行動接收獎勵來學習最優決策規則。在存在多個學習代理的情況下,順序決策制定問題變成順序博弈。在這種設置下,學習目標從找到最優決策規則轉變為找到納什均衡,即沒有代理可以通過單方面切換到另一決策規則來增加他們的獎勵。為了處理問題的順序性質和其他學習代理的存在,多代理RL任務需要的數據比監督學習和單一代理RL任務更多。因此,樣本效率對多代理RL的成功至關重要。

在這篇論文中,我研究了序列博弈中學習的最基本問題:1.(下界)在序列博弈中找到納什均衡需要多少樣本,無論使用什么學習算法?2.(上界)如何設計具有嚴格樣本復雜性保證的(計算上)高效學習算法?當上界和下界相互匹配時,實現了(極小極大)最優學習。結果顯示,利用序列博弈的結構是實現最優學習的關鍵。在這篇論文中,我們研究了兩種類型的序列博弈的近乎最優學習:1.(馬爾科夫博弈)所有代理可以觀察到潛在的狀態(第2章),2.(廣泛形式博弈)不同的代理可以在給定相同狀態的情況下具有不同的觀察結果(第5章)。為了實現近乎最優學習,將引入一系列新穎的算法思想和分析工具,例如1.(自適應不確定性量化)對值函數估計進行尖銳的不確定性量化,以設計近乎最優的探索獎勵(第3章),2.(認證策略)對歷史策略進行非均勻和分階段的重新加權,以產生近似納什均衡策略(第4章),3.(平衡探索)根據子樹的大小實現博弈樹的最優探索(第6章),4.(對數分區函數重表述)將經典算法重新解釋為計算對數分區函數的梯度(第7章),這可能具有獨立的興趣。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

強化學習(RL)是一種有希望的訓練智能體的框架,這些代理通過直接與環境互動來學習優化長期效用。創建可擴展到大規模狀態-行動空間的RL方法是確保RL系統在現實世界中部署的關鍵問題。然而,幾個挑戰限制了RL在大規模設置中的適用性。這些包括與探索、低樣本效率、計算不可行性、任務約束(如去中心化)有關的困難,以及關于在可能未見過的情況下的表現、泛化和穩健性等重要屬性的保證的缺乏。

這篇論文的動機是為了彌合上述的差距。我們提出了幾種原則性的算法和框架來研究和解決RL中的上述挑戰。所提出的方法覆蓋了廣泛的RL設置(單一和多代理系統(MAS),后者中的所有變化,預測和控制,基于模型和無模型的方法,基于價值和基于策略的方法)。在這項工作中,我們針對幾個不同的問題提出了首次的結果:例如,Bellman方程的張量化,這允許指數樣本效率的增益(第4章),MAS中由結構約束導致的可證明的次優性(第3章),合作MAS中的組合泛化結果(第5章),關于觀察偏移的泛化結果(第7章),在概率RL框架中學習確定性策略(第6章)。我們的算法明顯地提高了性能和樣本效率,并提高了可擴展性。此外,我們還闡述了在不同框架下代理的泛化方面。這些屬性都是通過使用幾種高級工具(例如,統計機器學習,狀態抽象,變分推斷,張量理論)來驅動的。總的來說,這篇論文的貢獻顯著推動了使RL代理準備好應用于大規模,真實世界應用的進程

付費5元查看完整內容

最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。

這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。

付費5元查看完整內容

盡管深度學習取得了理論成就和令人鼓舞的實踐結果,但在推理、因果推理、可解釋性和可解釋性等許多領域仍然存在局限性。從應用程序的角度來看,最有效的限制之一與這些系統的魯棒性有關。事實上,目前的深度學習解決方案都沒有告知它們是否能夠在推理過程中對一個例子進行可靠的分類。現代神經網絡通常過于自信,即使它們是錯誤的。因此,構建魯棒的深度學習應用是當前計算機視覺、自然語言處理和許多其他領域的前沿研究課題。構建更可靠的深度學習解決方案最有效的方法之一是提高它們在所謂分布外檢測任務中的性能,所謂分布外檢測任務本質上是由“知道你不知道”或“知道未知”組成的。換句話說,當提交神經網絡未訓練的類實例時,具有分布外檢測能力的系統可能會拒絕執行無意義的分類。本文通過提出新的損失函數和檢測分數來解決目標性分布不均檢測任務。不確定性估計也是構建更魯棒的深度學習系統的關鍵輔助任務。因此,我們也處理這個與魯棒性相關的任務,它評估由深度神經網絡呈現的概率有多真實。為了證明我們的方法的有效性,除了大量的實驗,其中包括最新的結果,我們使用基于最大熵原理的論點來建立所提出的方法的理論基礎。與大多數當前的方法不同,我們的損失和得分是無縫的和有原則的解決方案,除了快速和有效的推斷,還能產生準確的預測。此外,我們的方法可以并入到當前和未來的項目中,只需替換用于訓練深度神經網絡的損失,并計算一個快速的檢測評分。

付費5元查看完整內容

自然語言理解是機器對人類語言進行語義解碼的任務。NLU允許用戶使用自然句子與機器進行交互,是任何自然語言處理(NLP)系統的基礎組件。盡管機器學習方法(尤其是深度學習)在NLU任務上取得了顯著的成就,但它們仍然嚴重依賴于大量的訓練數據來確保良好的性能,不能很好地泛化到訓練數據很少的語言和領域。對于互聯網上具有大量文本數據的高資源語言(如英語、中文),獲取或收集海量數據樣本相對容易。然而,許多其他語言的在線足跡很小(例如,互聯網上不到0.1%的數據資源是泰米爾語或烏爾都語)。這使得收集這些低資源語言的數據集變得更加困難。同樣,低資源領域(如罕見疾病)的數據集也比高資源領域(如新聞)的數據集更具有挑戰性,因為這些領域的數據資源和領域專家很少。為了讓機器更好地理解低資源語言和領域中的自然句子,有必要克服數據稀缺的挑戰,因為只有很少甚至沒有訓練樣本可用

跨語言和跨領域遷移學習方法已經被提出,從高資源語言和領域的大型訓練樣本中學習任務知識,并將其遷移到低資源語言和領域。然而,以往的方法未能有效地解決開發跨語言和跨領域系統的兩個主要挑戰,即:1)難以從低資源的目標語言(域)中學習良好的表示;2)由于語言(領域)之間的差異,任務知識很難從高資源源語言(領域)轉移到低資源目標語言(領域)。如何在深度學習框架下應對這些挑戰,需要進行新的研究。

在這篇論文中,我們專注于在深度學習框架中解決上述挑戰。首先,我們提出進一步細化跨語言的任務相關關鍵詞的表示。我們發現,通過只關注關鍵詞,低資源語言的表示可以很容易地得到很大的改進。其次,我們提出了一個用于跨語言自適應的Transformer ,發現建模部分語序而不是整個語序可以提高模型對語言語序差異和任務知識向低資源語言遷移的魯棒性。第三,我們提出在訓練前利用不同層次的領域相關語料庫和額外的數據掩蔽來進行跨領域適應,并發現更具挑戰性的訓練前可以更好地解決任務知識轉移中的領域差異問題。最后,我們引入了一個從粗到細的框架Coach,以及一個跨語言和跨領域的解析框架X2Parser。Coach將表示學習過程分解為粗粒度和細粒度特征學習,X2Parser將分層任務結構簡化為扁平化。我們觀察到,簡化任務結構使表示學習對于低資源語言和領域更有效。

總之,我們通過改進低資源表示學習和增強任務知識遷移中拓撲距離較遠的語言和領域的模型魯棒性,解決了自然語言學習中的數據稀缺問題。實驗表明,我們的模型能夠有效地適應低資源的目標語言和領域,并顯著優于之前的最先進的模型。

付費5元查看完整內容

盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司