自然語言處理(NLP)的目標是促進計算機與人類語言之間的通信,使計算機能夠處理和分析大量的自然語言數據。語言的層次結構長期以來一直是語義分析的關鍵方面,并被認為是可以增強NLP任務結果的基礎知識。納入層次結構可以幫助NLP模型理解語言組件之間的關系并有效傳達意義。 本論文旨在增強語言模型對文本層次結構的理解。為此,我們建議使用一個深層次的RNN模型,該模型考慮到層次信息并使用潛在指標來表示層次結構。此外,采用了一個層次注意機制來提高模型的性能和可解釋性。
為了解決計算復雜性并優化潛在指標,我們提出了各種統計訓練方法。我們進一步研究了如何將模型擴展到一個序列到序列的模型,并提供了一個預訓練模型的實用方法和一個層次解碼方法,以增強其在文本生成任務(如翻譯)中的性能。 具體來說,我們的方法包括以下步驟:首先,我們區分顯式和隱式的層次信息,并通過使用多尺度RNN和層次注意機制創建一個納入這兩種信息的層次RNN模型。其次,為了進一步改進模型,我們通過期望最大化(EM)算法整合潛在指標,使用Bootstrap抽樣方法減少計算復雜性,并實施分層訓練以進行更深層次的RNN。第三,我們將層次語言模型擴展到翻譯任務的層次序列到序列模型。為了克服在生成過程中潛在指標的不穩定性,我們使用遮罩訓練來預訓練序列到序列模型,并提議一個結合遮罩預測和層次信息的層次解碼方法。
此外,我們通過在各種NLP任務中的表現展示了我們方法的優越性。我們的方法達到了與大型語言模型相當的結果,同時提供了更高的可解釋性。
新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。
在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。
接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。
最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。
概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。
主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。
除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。
在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。
建模的一個核心目標是幫助我們理解周圍的世界,但通常我們希望建模的現象只能間接觀察到。例如,我們經常通過它們對周圍物體產生的引力效應來檢測黑洞。未觀察到的現象通常使用與觀察到的變量存在統計關系但從未直接觀察到的潛變量來建模。這些潛變量模型是一種強大的形式主義,可以實現數據的簡潔和可解釋表示,但在變量之間的關系復雜時很難使用。 本論文開發了一種適用于具有非線性函數參數化變量之間依賴關系的潛變量模型的擬合技術,例如深度神經網絡或非線性微分方程。非線性依賴關系使得解析方法變得不可行,本論文的主要重點是將蒙特卡羅文獻中的抽樣算法擴展到深度生成模型中的工作。
具體來說,本論文側重于對順序數據進行建模,如神經電壓跟蹤或語音音頻。首先,我介紹了一種名為FIVO的方法,用于使用濾波順序蒙特卡羅來擬合非線性順序潛變量模型,并使用它來改進語音音頻和鋼琴譜的模型。然后,我開發了一種名為SIXO的基于平滑的FIVO擴展,成功地擬合了神經膜電位的生物物理模型。接下來,我介紹了NAS-X,這是SIXO的擴展,適用于離散潛變量。最后,我開發了用于嵌入式抽樣算法的擬合模型的方法,并與基于能量的建模建立了聯系。
這些方法為非線性潛變量模型中的推斷和學習建立了新的標準。例如,在霍奇金-赫胥黎神經膜電位模型中,NAS-X和SIXO相對于以前的方法實現了32倍的推斷對數似然度的改進。改進的推斷性能導致了參數學習方面的下游收益,并且能夠擬合基于具有數百個參數的非線性微分方程的潛變量模型。總的來說,本論文擴展了蒙特卡羅算法,以解決序列建模中的難題。
盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。
首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。
概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。
然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。
在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。
在自然語言處理(NLP)中,許多任務涉及結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對于人類和機器的下游任務和分析都有益處。為了獲得自動化模型,主要范式是以數據驅動的監督學習方式進行。在這個范式中,主要的瓶頸是手動注釋數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新場景,比如不同的領域或語言。如果訓練實例不足以涵蓋目標場景,模型性能可能會顯著下降,而在所有這些新情況下注釋大量數據實例是昂貴且低效的。 為了減輕這個問題并減少結構化預測模型對大量注釋的依賴,我們需要考慮模型和數據兩個方面,這是數據驅動機器學習的主要驅動力。與這些核心方面相關,我們探討了三個方向。首先,我們研究模型設計中的結構化建模,其中涉及如何對復雜的結構化輸出進行建模和預測。這對于結構化預測任務特別重要,因為這些任務通常具有大的輸出空間。此外,在模型和數據的交互方面,我們研究了遷移學習,其中利用相關數據來幫助低資源的目標任務。在這種情況下,如何設計更不受源數據和目標數據之間差異影響的模型對于遷移的成功也至關重要。最后,我們探討主動學習,重點關注數據本身。當資源有限時,很難獲得大量注釋的實例,但注釋一小部分實例是可行的。通過選擇信息量豐富的實例集的策略,可能只需要較少的手動注釋就可以實現令人滿意的性能。
這篇論文包括三個部分,對應這三個方向。在第一部分中,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級別的完全匹配和更高效的模型方面帶來了好處。我們進一步將分析擴展到低資源情景,并研究結構約束與訓練數據規模之間的交互作用。在第二部分中,我們研究了一系列相關的結構化任務,并發現來自相關數據的監督,例如來自相同任務但不同語言(跨語言學習)以及來自相關任務(多任務學習)的監督,可以是有益的,尤其是在利用那些對源數據和目標數據差異關注較少的模型時。最后,在第三部分中,我們對NLP中的結構化預測進行了系統的主動學習研究。特別是,我們分析了使用部分結構進行注釋和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與使用主動學習數據池中未標記實例的自訓練相結合,可以帶來進一步的改進。
在自然語言處理(NLP)中,許多任務都涉及到結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對下游任務和人類與機器的分析都是有益的。為了獲得自動模型,主要范式是采用數據驅動的監督學習方式。在這種范式中,主要的瓶頸是手工標注數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新的場景,例如在不同的領域或語言中。如果訓練實例不足以覆蓋目標場景,模型的性能可能會大幅下降,而在所有這些新情境中標注大量的數據實例又是昂貴且低效的。
為了緩解這個問題并減少結構化預測模型對大量標注的依賴,我們需要考慮模型和數據的兩個方面,這些是數據驅動機器學習的主要動力。關于這兩個核心方面,我們研究了三個方向。首先,我們研究了模型設計中的結構化建模,這涉及到如何對復雜的結構化輸出進行建模和預測。這對于通常具有大輸出空間的結構化預測任務尤為重要。此外,在模型和數據的交互上,我們研究了遷移學習,其中相關數據被用來幫助低資源目標任務。 在這種情況下,如何設計對源數據和目標數據資源之間的差異更不敏感的模型對于轉移的成功也是至關重要的。最后,我們探索了有關數據本身的主動學習。當資源有限時,很難獲得大量的標注實例,但標注一小部分是可行的。通過選擇一個有信息量的實例集,可能需要更少的手工標注就能達到令人滿意的性能。這篇論文包括三部分,對應這三個方向。在第一部分,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級完全匹配上帶來了好處,并有更高效的模型。我們進一步擴展了對低資源場景的分析,并研究了結構約束和訓練數據大小的交互。在第二部分,我們研究了一系列相關的結構化任務,發現從相關數據(例如來自同一任務但在不同語言中的數據(跨語言學習)和來自相關任務的數據(多任務學習))得到的監督可以是有益的,特別是如果使用那些對源和目標差異關心較少的模型。最后,在第三部分,我們對NLP中的結構化預測的主動學習進行了系統性的調查。特別地,我們分析了使用部分結構進行標注和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與自學習結合,使用來自主動學習數據池的未標注實例可以帶來進一步的改進。
機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。
在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。
在自然語言處理(NLP)領域的最新進展中,大規模預訓練語言模型(PLMs)發揮了重要作用,這些模型基于深度 Transformer 神經網絡。這些PLMs通過在大量無標簽文本上使用自監督學習技術進行模型的整體訓練,同時學習上下文化的單詞表示和語言建模,引發了一種范式轉變,將我們的焦點從為不同任務定制不同模型轉向將一個PLM適應所有任務。研究如何將通用PLM適應到特定的感興趣領域對于PLMs的部署具有重大意義。主流做法是在目標領域的標注數據集上對PLM進行微調,并使用特定任務的頭部。然而,對于大多數目標應用,標注數據有限,甚至在許多資源稀缺的場景中十分稀缺。PLM中的大量參數常常使這些小數據集難以利用語言先驗的力量。因此,即使在同一任務下,當一個在一個數據集上微調的PLM應用到具有一些領域間隙的另一個數據集時,由于過度擬合之前的訓練集,它有時會遇到性能下降。這種現象阻礙了PLMs在實踐中的廣泛應用,尤其是在面對新領域時,需要增強PLMs在適應過程中的泛化性能的方法,而無需請求更多的標注數據。
早期的領域適應方法,利用類似的源領域來提高目標領域上的模型性能,是基于使用傳統神經網絡(如LSTMs)的定制模型開發的。這些模型較淺,需要更長的訓練時間才能收斂,并且與PLMs相比沒有先驗知識。研究表明,一些流行的領域適應方法甚至可能損害PLMs在目標領域上的泛化性能。PLMs的獨特特性,如前所未有的規模、豐富的語言先驗和許多迄今為止未被深入探索的技能,可能成為無法控制的因素,使它們表現出與傳統模型不同的學習行為。為此,需要開發PLMs的算法,以提高它們的領域適應性能,從而加速它們在實際場景中的廣泛應用。
本論文的目標是探索可以高效利用目標領域標簽數據的技術,通過有效地從類似的源領域向目標領域轉移知識,更好地將給定的PLM適應到感興趣的目標領域。為了實現這個目標,我從機器學習流程中的三個角度進行研究,每個角度都假定只有特定的位置可以用可用的計算資源進行更新。也就是說,我們保持所有其他條件不變,只對輸入數據、模型表示和輸出預測分別進行更新。我們展示了如何在每個場景下用目標領域的有限標注數據獲得更好的泛化性能。總的來說,我們提出了一個新的算法,使用領域適應目標生成對抗性擾動,以增強在低資源場景下軟提示調優的可轉移性,一個新的模型優化算法,當優化任務分類器以適應競爭損失時,考慮對抗性領域判別器的下一步梯度,以及一個新的聯邦學習框架,校準條件概率分布,以在不同標簽分布下將同一PLM適應到多個領域。我們在以下章節中詳細介紹了具體問題、相關工作、詳細方法、廣泛實驗和深入討論,并闡明了如何在迎合新興學習范式的同時,依據傳統的機器學習方法。
長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。
//www.repository.cam.ac.uk/handle/1810/304385
其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。
自然語言文本以非結構化的形式存在,它擁有大量關于我們所生活的世界的知識。隨著自然語言文獻數量的不斷增加,分析文本并從中提取重要知識已成為一項非常耗時的工作。這導致了信息提取(IE)和自然語言處理(NLP)方法和工具的出現。IE專注于從文本中自動提取結構化語義信息。對這些清晰概念和關系的提取和附加分析有助于發現文本中包含的各種見解。本文的研究重點是開放信息提取(OIE)這一新型信息提取方法。與傳統IE不同的是,OIE不局限于預先確定的一組特定于領域的關系,而是期望提取自然語言文本中發現的所有關系。已經提出了幾種神經OIE算法,將OIE作為序列標記或序列生成問題來處理。序列標記方法將輸入文本中的每個標記標識為屬于主題、謂詞或對象的,而序列生成方法在給定的輸入文本中每次生成一個單詞的元組。提出的方法有一定的局限性,這啟發了本研究。
首先,由于OIE數據集中標簽頻率不等,序列標記技術往往過于強調出現頻率較高的標簽。第二,序列生成系統不僅容易多次產生相同的事實,而且還容易第二,序列生成系統不僅容易多次產生相同的事實,而且容易在事實中產生重復的標記。第三,盡管序列生成系統在構建隱含事實時使用詞匯表中的詞匯,但它們缺乏明確鼓勵它們使用詞匯表中的詞匯或輸入文本的功能。第四,通過在實際輸入文本之外使用詞性(PoS)和依賴標記來合并語法信息的技術沒有充分利用大量的語法信息,特別是在依賴樹結構中反映出來的信息。
本文旨在解決OIE早期方法的上述缺點。在這項研究中,我只研究了神經OIE方法,因為它們優于先前的基于規則的系統,并解決了基于規則的系統中的錯誤傳播問題。在利用最先進的(SOTA)深度學習方法的同時,我給出了解決早期方法局限性的新方法。此外,我還研究了將知識圖(KGs)中的事實知識合并到神經OIE模型中是否可以提高OIE方法的性能。首先,我提出了三種用于OIE方法序列標簽的創新訓練程序,以消除模型上OIE數據集中標簽頻率不均勻造成的模型偏差。其次,我避免了在事實中創建多余的標記,并通過提供方法顯式地指導模型使用詞匯表或輸入文本中的術語,提高了模型創建隱式事實的能力。這種策略實際上大大減少了重復出現的令牌的數量。此外,當使用這種策略時,模型從原始短語中重復較少的標記,而從詞匯表中引入更多的標記,這意味著具有更好的生成隱含事實的能力。第三,我提出了一種最大化依賴樹拓撲提供的語法信息的方法。使用依賴樹的結構,我計算了輸入文本標記的語法豐富的向量表示。第四,我提出了一個用于序列標記和序列生成OIE技術的知識增強OIE框架,該框架基于在預訓練語言模型(PLMs)中嵌入知識的最新成果。經過徹底的測試,我確認知識增強的OIE框架提高了OIE模型的性能。最后,為神經OIE模型訓練提供了一種獨特的判別策略。
//ora.ox.ac.uk/objects/uuid:dea203ca-c183-4d25-9237-057abe0224dd
在生態學、流行病學和天文學等許多應用領域中,仿真模型被用來研究發生在自然界中的復雜現象。通常,這些模型的似然函數的分析形式要么是不可用的,要么是太昂貴而無法評估,從而使統計推斷復雜化。無概率推理(LFI)方法,如近似貝葉斯計算(ABC),基于用模型的正演模擬代替難以處理的似然評估,已成為對仿真模型進行推理的一種流行方法。然而,當前的LFI方法在計算和統計方面存在一些挑戰。特別是,標準的ABC算法需要大量的仿真,這使得它們在前向仿真代價昂貴的情況下不可行。
本文討論了計算代價高的模型的無概率推理。主要貢獻是基于高斯過程代理模型的LFI一致性框架。GP模型允許對仿真模型輸出的平滑假設進行編碼,以減少所需的仿真量。此外,由于模擬預算有限,所產生的基于模型的后驗逼近的不確定性可以被量化。我們提出貝葉斯實驗設計策略來選擇評估地點,以使計算成本最小化。順序設計(每次選擇一個模擬)和批處理策略(允許利用并行計算)都是推導出來的。除了LFI場景外,本文提出的方法也適用于可能性可以評估但代價昂貴的情況。
本質上,所提出的框架可以被視為概率數值方法的LFI對等物,如貝葉斯優化,用于優化昂貴的目標函數,貝葉斯求積,用于計算昂貴函數的積分。我們通過大量的經驗模擬證明了所提出的LFI方法的優點。文中還對所提算法進行了理論分析,并討論了它們與其他GP代理方法的關系。