亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于圖的學習側重于圖形結構數據的建模。其重要應用包括基于分子結構分析化學化合物、基于輻射傳感器網絡數據預測太陽能農場的產出、根據城市間的地理關系和社交網絡互動預測流行病爆發等。基于圖的學習算法已經迅速發展,解決了以下基本挑戰:

? 編碼圖中每個單獨節點和節點組合的豐富信息,也被稱為圖表示學習挑戰; ? 在圖只部分可觀察時恢復缺失的邊,也被稱為圖完成挑戰; ? 在標記節點非常稀疏的圖形設置中利用主動學習,也被稱為標簽稀疏挑戰; ? 提高在非常大的圖上進行訓練和推斷的可行性,也被稱為擴展挑戰。

本論文旨在通過以下主要貢獻從上述各個方面增強基于圖的機器學習:

  • 用于二分圖邊緣預測的圖卷積矩陣分解:對于一類特定的圖,即二分圖,傳統的矩陣分解方法不能有效地利用節點兩組內的相似度測量等邊信息。因此,我們建議使用圖卷積來增強學習到的分解表示與結構化的邊信息,以獲得更好的預測精度。

  • 使用圖神經網絡(GNNs)進行通用邊緣預測:雖然GNNs在節點分類中取得了很大成功,但在邊緣預測方面并沒有達到相匹配的性能水平。這種現象的一個可能解釋是GNNs中的潛在嵌入嚴重依賴于輸入節點特征,如果這些輸入特征質量不高,或者對于手頭的預測任務而言噪聲較大,那么就無法避免次優性能。我們建議通過結合使用傳統的GNN和Transformer模型來解決這個問題,這可以通過Transformer模型中的靈活位置嵌入來改進節點的嵌入。

  • 用于節點分類的圖增強主動學習(Graph-AL):主動學習已被深入研究,以解決標簽稀疏問題,并已成功應用于文本/視頻/音頻數據,但沒有應用于圖。流行的主動學習策略可能不適用于圖。例如,基于密度的文檔選擇將所有候選文檔視為不相關的實例,忽略了輸入圖中節點之間的依賴結構。我們提出了第一個專為圖神經網絡量身定制的基于圖的主動學習方法,它同時考慮節點內部特征和節點間連接,以便在主動學習中進行節點選擇。

大規模基于圖的學習的各種實際應用:我們已將基于圖的學習應用于各種實際問題,包括基于多圖的協同過濾,跨語言的基于圖的遷移學習,基于圖的深度學習用于流行病學預測,圖增強節點分類,邊緣檢測和知識庫完成;在這些領域我們分別獲得了最先進的結果(Chang等,2017; Liu等,2017a; Wu等,2018b, c; Xu等,2018b)。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。

時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?

付費5元查看完整內容

機器學習算法廣泛應用于具有社會高風險的決策環境中,如兒童福利、刑事司法、醫療保健、招聘和消費者貸款。近期的歷史已經揭示出許多這些算法證明不可靠或不公平的例子。本論文提出了一種遵循原則的方法,用于在社會高風險環境中使用機器學習,該方法由三大支柱引導:有效性、公平性和監管。我們借鑒了包括統計學、機器學習和社會科學在內的各個領域的方法,開發出處理數據挑戰和復雜偏見的新方法,這些偏見嵌入在社會技術系統中。我們通過開發考慮到選擇偏差、混淆和bandit反饋的算法風險評估方法,解決了挑戰算法決策支持系統有效性的數據問題。我們對整個系統中使用算法進行決策的偏見進行了因果審計。在整個過程中,我們提出了使用雙重穩健技術進行偏差修正的新方法。我們使用來自阿利根尼縣人力服務部、澳大利亞聯邦銀行和斯坦福公開警察項目的數據,展示了在兒童福利、消費者信貸和刑事司法環境中的實證結果。 機器學習越來越多地被用于做出高風險決策,例如兒童福利、刑事司法、消費者貸款、教育和醫療保健(Saxena等人,2020;Vaithianathan等人,2017;Raghavan等人,2020a;Chouldechova,2017;Cattell等人,2021)。這些決策影響未來的健康和經濟機會,總的來說,它們塑造了我們的社會結構。通常,這類任務可用的數據豐富,但往往噪音大,存在偏見或不完整。如果不能妥善處理這些數據問題,可能會對弱勢和歷史上邊緣化的群體造成不成比例的傷害(Barocas和Selbst,2016b;Obermeyer等人,2019a;Coston等人,2020b, 2021a)。在這篇論文中,我們開發了統計方法和一個審議框架,用來識別并解決挑戰機器學習在重要環境中負責任使用的數據問題。當機器學習被用于高風險決策時,一個常見的方法是應用標準的監督學習范式。在這種方法下,人們識別出一個感興趣的結果(通常是實際感興趣的結果的代理),然后使用其他變量作為預測因子,構建一個對這個結果的預測模型。當數據集并不代表機器學習工具將要部署的目標人群,且預測結果與決策任務相關的結果可能大相徑庭時,這種標準方法通常并不適合,這在現實世界的應用中是常見的(Mullainathan和Obermeyer,2021;Coston等人,2020b;Fogliato等人,2021;Wang等人,2022)。此外,計算在保留的集合上的測試指標的標準性能評估方法,往往不能對目標人口的性能提供有效的評估(Kallus和Zhou,2018b;Coston等人,2021b)。

這篇論文的一個核心原則是,我們必須確保我們打算測量的內容(例如,我們希望機器學習工具預測的內容,或者我們希望評估衡量的內容)與方法實際測量的內容保持一致。這種屬性被稱為有效性(Coston等人,2023)。未處理的數據問題,如選擇偏見或缺失數據,可能導致不一致,使機器學習工具無效。我們討論了在兒童福利、刑事司法和消費者貸款環境中這些問題的例子,并提出了解決方法。我們展示了有效性和我們的第二個原則,公平性,之間的關系,公平性要求機器學習工具不無理由地使某些人口群體比其他群體獲得優勢。我們表明,通常是弱勢或歷史上處于劣勢的人群最有可能在可用數據中被忽視或被誤解。我們提出了可靠評估算法中人口偏見的方法,以及在算法工具部署的更廣泛環境中審查有效性和公平性的方法。在實踐中有效地分析有效性和公平性需要治理工具,提供保護和結構化流程,以謹慎設計和評估機器學習工具。我們開發了一個框架,指導圍繞威脅預測算法的有效性和合法性的常見問題進行審議。本文提出的方法構成了對于重大決策的標準機器學習范式的一種替代方法。我們的原則性方法明確了目標人口和目標結果,調整了數據樣本和目標人口之間的任何差異,做出了合理的假設以確定目標結果和評估指標。我們開發了高效的方法,使用來自因果推斷的影響函數技術來估計這些量,這是一種適用于決策可以改變下游結果的決策環境的學科。我們為我們的方法提供了理論分析,說明如何適當地量化不確定性。本論文提出的方法套件組成了一套用于模型構建、評估和公平性評估的負責任使用的工具包。

我們在§ 0.1中描述了問題設定和符號。接下來的三個部分考慮在缺失數據的性質不同假設下如何獲得有效的預測、評估和公平性評估。§ 1描述了當我們已經測量了所有共同影響決策和感興趣結果的混淆因素時的方法。在許多決策支持環境中,混淆因素可能難以在運行時測量并輸入到預測模型中,但在離線數據集中可能仍然可用于訓練和評估。§ 2為這種“運行時混淆”設置提供了方法。§ 3通過拉舍蒙效應的視角深入研究公平和公正的問題,拉舍蒙效應是一種實證現象,即多種模型在總體上達到可比較的好的表現,但在個別預測上卻明顯不同。§ 4描述了一個框架,用于在算法設計中審查有效性,并最終決定是否在高風險環境中部署一個工具。擴大我們的范圍到算法被訓練和使用的更廣泛的背景中,§ 5提出了一個對刑事司法系統中人類決策的種族偏見進行回顧性統計審計的方法。我們在本節提出的方法也展示了如何在對社會有重大影響的領域使用機器學習來評估這些系統以及在其中行使權力的行動者。我們將本論文中提出的工作與我們的三個指導原則:有效性、公平性和治理,聯系起來。

付費5元查看完整內容

我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。

1. 引言

近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。

然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。

因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):

準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。

能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。

存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。

吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。

要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。

本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?

除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。

付費5元查看完整內容

**在機器學習技術不斷加速發展的今天,數據在構建智能模型、模擬現象、預測值、做出決策等方面起著至關重要的作用。**在越來越多的應用中,數據以網絡的形式出現。網絡數據固有的圖結構推動了圖表示學習領域的發展。它的作用范圍包括為圖及其組件(即節點和邊)生成有意義的表示。隨著消息傳遞框架在圖上的成功應用,即圖神經網絡,加速了圖表示學習的研究。學習圖上的信息和表達性表示在廣泛的現實世界應用中發揮著關鍵作用,從電信和社會網絡、城市設計、化學和生物學。本文研究了圖神經網絡更具表現力的各個方面,提出了新的方法來提高它們在標準圖學習任務中的性能。本論文的主要分支包括:圖表示的普適性,圖神經網絡感受野的增加,穩定的更深層次圖學習模型的設計,以及標準消息傳遞框架的替代方案。進行了理論和實驗研究,展示了所提出的方法如何成為設計更強大的圖學習模型的有價值和有效的工具。 **在論文的第一部分中,我們研究了圖表示質量作為辨別能力的函數,即,我們如何容易地區分非同構的圖。**首先,我們證明了標準的消息傳遞方案是不通用的,因為簡單的聚合器無法分離具有歧義的節點(相似的屬性向量和鄰域結構)。基于發現的局限性,我們提出了一個簡單的著色方案,可以提供普遍的表示,理論保證和實驗驗證的性能優勢。其次,超越了標準的消息傳遞范式,我們提出了一種將圖語料庫作為一個整體來處理的方法,而不是檢查圖對。為此,我們學習了每個圖的軟排列矩陣,并將所有圖投影到公共向量空間中,在圖分類任務中實現了穩定的性能。

//hal.inria.fr/tel-03666690/ **在論文的第二部分中,我們主要關注的是圖神經網絡的感受野,即一個節點有多少信息來更新其表示。**首先,研究了編碼鄰接信息的標準算子的譜特性,即圖移位算子。本文提出一種新的參數算子族,可以在整個訓練過程中自適應,并為依賴數據的鄰域表示提供一個靈活的框架。這種方法的合并對節點分類和圖分類任務都有很大的影響。研究了如何在節點表示中考慮k跳鄰域信息以輸出更強大的圖神經網絡模型。結果證明,該模型能夠識別結構特性,如連通性和無三角形性。在論文的第三部分,我們解決了長程交互的問題,即位于圖中較遠部分的節點可以相互影響。在這樣的問題中,我們要么需要設計更深層次的模型,要么需要重新表述圖中如何定義鄰近度。首先,研究了更深層次的注意力模型設計,以圖注意力為重點;通過引入一種新的歸一化來校準模型的梯度流,該歸一化可實現Lipschitz連續性。其次,提出一種基于局部熵測度的數據增強方法,利用包含結構信息的信息來豐富節點屬性;

付費5元查看完整內容

利用有限的數據進行學習是深度學習的最大問題之一。目前,解決這個問題的流行方法是在大量數據上訓練模型,無論是否標記,然后在同一模態的感興趣的較小數據集上重新訓練模型。直觀地說,這種技術允許模型首先學習某種數據(如圖像)的一般表示。然后,學習這種特定模態的特定任務應該需要更少的數據。雖然這種被稱為“遷移學習”的方法在計算機視覺或自然語言處理等領域非常有效,但它不能解決深度學習的常見問題,如模型可解釋性或對數據的總體需求。本文探索了在數據約束設置中學習表達模型問題的不同答案。我們不再依賴大數據集來學習神經網絡的參數,而是用反映數據結構的已知函數來代替其中的一些參數。這些函數通常都是從內核方法的豐富文獻中提取出來的。實際上,許多核函數都可以解釋,并且/或允許使用少量數據進行學習。所提出方法屬于"歸納偏差"的范疇,可以定義為對手頭數據的假設,限制了學習過程中模型探索的空間。在本文的前兩章中,我們在序列(如自然語言中的句子或蛋白質序列)和圖(如分子)的上下文中證明了該方法的有效性。本文還強調了工作與深度學習最新進展之間的關系。本文的最后一章重點研究凸機器學習模型。這里,我們不是提出新的模型,而是想知道學習一個“好的”模型真正需要數據集中的哪些樣本比例。更準確地說,研究了安全樣本篩選的問題,即在擬合機器學習模型之前,執行簡單測試以丟棄數據集中沒有信息的樣本,而不影響最優模型。此類技術可用于壓縮數據集或挖掘稀有樣本。

付費5元查看完整內容

近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。

具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。

我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。

//www.research-collection.ethz.ch/handle/20.500.11850/523269

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容
北京阿比特科技有限公司