亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**自然語言生成(NLG)已經從深度學習技術的發展中取得了顯著的成功。隨著大規模的預訓練成為NLP中事實上的標準,大量的訓練數據和模型參數始終能夠在標準NLG任務中獲得最先進的性能。**雖然相當成功,但目前的NLG方法在幾個方面都是低效的,這阻礙了它們在更廣泛和實際的環境中的使用:(1)它們是標簽低效的-條件神經生成(例如機器翻譯)通常需要大量的注釋樣本來訓練,這限制了它們在低資源環境中的應用;(2)它們的參數效率不高——通常的做法是對預訓練的模型進行微調,使其適應下游任務,然而,這些模型可以擴展到數萬億的參數(Fedus等人,2021年),這將在服務大量任務時造成大量的內存占用;(3)最后,我們重點研究了趨勢模型類——檢索增強NLG模型的計算效率低下問題。它們從外部數據存儲中檢索以輔助生成,由于額外的計算,添加的數據存儲和檢索過程會引起不小的空間和時間成本。

**本文旨在對高效NLG的研究問題有更深入的理解,并利用這些見解來設計更好的方法。**具體來說,(1)在標簽效率方面,研究了無監督和半監督的條件生成,利用豐富的無標簽文本數據,從而減輕了對大量標注樣本的需求。所提出的方法在各種NLG任務上進行了驗證;(2)在參數效率方面,本文提出了一個統一的框架來連接參數高效的遷移學習,其中只需要更新少數參數,就可以使大型預訓練模型適應下游任務。所提出框架為這一方向提供了新的理解,以及為參數高效的NLG實例化最先進的方法;(3)對于檢索增強NLG的計算效率,我們設計了新的模型或后適應檢索組件,以壓縮數據存儲,減少檢索計算,并加快推理。 語言是人類交流的主要媒介。在人工智能中,語言是機器與人交流的主要接口之一,因此機器需要能夠理解并生成自然語言。本文重點研究后者,即自然語言生成。自然語言生成是最基本的范疇之一的任務在NLP,橫跨在機器翻譯(Bahdanau et al ., 2015),文本摘要(Rush et al ., 2015),對話生成(Sordoni et al ., 2015),數據描述(Novikova et al ., 2017),等等。隨著近年來深度學習在NLP領域的快速發展(Hochreiter and Schmidhuber, 1997;Bahdanau等人,2015;Vaswani et al., 2017),我們已經見證了這些任務的巨大進展。特別是大規模的自監督預訓練(Peters等人,2018;Devlin等人,2019a;)將NLG任務的性能提升到了一個新的水平(Lewis等人,2020a;Raffel等人,2020)。最近,越來越大的預訓練語言模型顯示出了將所有NLP任務作為生成任務處理的潛力,在適當的文本提示下實現有競爭力的零次或少次結果(Radford et al., 2019; Brown et al., 2020; Schick and Schütze, 2021c; Du et al., 2021; Liu et al., 2021a; Sanh et al., 2022)。盡管取得了巨大的成功,但目前的NLG方法在許多方面都是低效的,這阻止了它們在更廣泛的環境中使用。在本文中,我們考慮了以下三個方面的低效率。

標簽低效: 最先進的自然語言生成模型通常是深度編碼器-解碼器或僅解碼器的神經網絡,通常由自注意力transformer架構提供動力(Vaswani等人,2017)。這些模型以端到端的方式在具有交叉熵損失的并行示例上進行訓練。模型訓練需要大量的標注樣本才能達到合理的性能。例如,翻譯系統通常用數百萬個句子對進行訓練,以達到實際性能(Akhbardeh等人,2021);流行的文本摘要基準也由數十萬個并行示例組成(Hermann等人,2015;Narayan等人,2018)。然而,帶標簽的示例通常是稀缺資源——豐富的注釋只存在于某些領域。此外,目前大多數數據集都是以英語為中心的,而世界上有7000多種語言,這意味著大多數語言的任務標簽都不容易獲得。這對應用通用的深度NLG模型提出了挑戰。

**參數低效:**自監督預訓練技術已在各種NLP任務上取得了巨大成功(Peters等人,2018;Devlin等人,2019a;Liu等人,2019a;Yang等人,2019)。通常,模型首先只在自監督損失的情況下對原始文本進行預訓練,然后在帶有標記數據的下游任務上對預訓練模型進行微調。這樣的管道已經成為當今創建最先進的NLG系統的事實標準。在這個方向上,研究人員正在追求越來越強大的預訓練模型,這實際上在大多數情況下導致了更多的參數——越來越大的語言模型由數億到萬億參數組成(Brown et al., 2020;Fedus等人,2021;Rae等人,2021)。這樣,每個單獨的微調過程都會獲得巨大模型的不同副本,導致微調和推理時的參數利用率低下。當服務于大量任務時,這種參數低效會導致大量內存占用。

本文提出了一系列方法來提高自然語言生成的效率,從而可以在不顯著增加資源需求的情況下創建更好的NLG系統。首先描述了如何利用無標記樣本來幫助改善無監督或半監督文本生成(第一部分),然后提出了一個參數高效遷移學習(PETL)的統一框架和伴隨的最先進的PETL方法(第二部分)。PETL方法旨在微調凍結的大型模型的一小部分參數,以實現與完全微調相當的性能,從而提高參數效率。最后,我們關注通過減少數據存儲大小和加快檢索過程,在空間和時間上簡化檢索增強方法(第三部分)。

付費5元查看完整內容

相關內容

 (Carnegie Mellon University)坐落在賓夕法尼亞州的匹茲堡,是一所享譽世界的私立頂級研究型大學,學校面積不大,學科門類不多,但在其所設立的幾乎所有專業都居于世界領先水平。卡內基梅隆大學享譽全國的認知心理學、管理和公共關系學、寫作和修辭學、應用歷史學、哲學和生物科學專業。它的計算機、機器人科學、理學、美術及工業管理都是舉世公認的一流專業。

**訓練基于深度神經網絡的自動語音識別(ASR)模型通常需要數千小時的轉錄數據,將其限制在少數語言中。此外,目前最先進的聲學模型基于Transformer架構,該架構隨著序列長度的二次增長,阻礙了其對長序列的使用。本文旨在減少(a)數據和(b)開發最先進的ASR系統的計算需求,只有幾百小時或更少的轉錄數據。本文的第一部分著重于減少訓練這些模型所需的轉錄數據量。本文提出一種使用dropout進行不確定性感知半監督學習的方法。該方法為未標記數據的訓練產生了更好的假設。研究了兩種流行的自監督預訓練方法的域外和跨語言泛化:掩碼聲學建模和wav2vec 2.0。兩種預訓練方法都可以泛化到未見過的域,并明顯優于僅用監督數據訓練的模型。//infoscience.epfl.ch/record/297304?ln=en在第二部分中,專注于減少Transformer模型的計算需求,(a)通過設計高效的注意力計算形式,(b)通過減少注意力計算的輸入上下文長度。**本文首次提出"線性"注意力,使用注意力的核公式將自回歸transformer表示為遞歸神經網絡,并將序列長度的計算復雜度從二次降低到線性。提出"聚類"注意力,通過對輸入序列進行聚類并使用質心進行計算來近似自注意力。在給定的計算預算下,聚類注意力優于普通注意力。對于ASR,我們發現線性注意力導致詞錯誤率下降,而聚類在處理較短序列時引入了開銷。為解決這一限制,本文開發了一種方法,用均值池化對輸入進行隨機下采樣,以實現高效的wav2vec 2.0訓練。這使得在推理過程中可以在不同的壓縮因子下使用相同的模型。對wav2vec 2.0預訓練的隨機壓縮,能夠為轉錄數據有限的語言建立計算高效的ASR模型。

付費5元查看完整內容

**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。

付費5元查看完整內容

**隨著大型模型的發展以及數據的爆炸性增長和可用性,深度學習在眾多現實應用中取得了巨大而廣泛的突破。**然而,深度學習模型通常具有過高的計算和內存成本,不適合在移動設備或邊緣設備上進行實際部署。此外,深度學習模型面臨著學習和快速適應的挑戰,從只有幾個例子來解決新的任務。因此,本文提出了學習計算效率高的模型架構的技術和提高少樣本學習能力的方法。**我們從子空間分析方法及其在特征選擇問題中的應用開始。然后將這些方法擴展到深度神經網絡結構學習(deep neural network structural learning, SL)中,目的是減少冗余參數,以獲得能夠保持甚至提高精度的最優降維模型。**還介紹了基于混合剪枝-再生長技術的更高效的SL方法和可以跨更多維度降低模型的更通用的SL方法。除了靜態模型設計之外,本文還提出了動態神經網絡方法,可以在推理過程中根據不同的輸入動態調整模型權重和結構,以控制計算效率并提高表示能力。除了模型效率外,還提出了訓練模型的技術,可以從幾個例子中快速泛化。本文提出一種少樣本架構自適應方法,通過元學習一個任務感知架構控制器,為不同的少樣本任務定制特定于任務的模型結構。與傳統的NAS方法需要對每個新任務進行單獨的搜索成本不同,所提出方法在一次性元訓練成本后,在幾分鐘內從GPU數據集中直接生成特定于任務的模型結構。最后,提出了一種基于語言輔助表示的掩碼圖像預訓練的跨模態自監督學習框架。由此產生的模型產生了高質量的可遷移表示,提高了許多計算機視覺任務的準確性,并對對抗性/分布外樣本表現出強大的魯棒性。所產生的模型適用于結構學習以獲得更大的計算效率,也適用于低資源任務適應以獲得更好的數據效率。

//dataspace.princeton.edu/handle/88435/dsp01p8418r442

付費5元查看完整內容

機器學習在過去十年取得了重大進展。其最成功的范式是深度神經網絡,由連續表示層組成,其參數通過梯度下降在大規模數據集上進行優化。

深度神經網絡在許多任務上取得了卓越的性能,如物體識別、語言理解和自動駕駛。然而,他們仍然在推理任務中掙扎,這些任務通常需要操作符號并將多個步驟組合起來,例如,求解數學方程或編寫計算機程序。在這篇論文中,我們的目標是彌合這一差距,并教機器以精確、系統、可解釋和魯棒的方式進行推理,以應對現實環境中的模糊性。**本文采用神經符號方法,結合機器學習和符號推理的互補優勢。符號推理具有精確性和系統性。**但它已被限制在可嚴格形式化的領域。相比之下,主要的機器學習方法很靈活,但眾所周知難以解釋,需要大量數據,并且無法在訓練分布之外進行泛化。集成兩種方法的優勢對于構建具有精確和系統泛化能力的靈活推理機至關重要。具體而言,本文從兩個角度研究了神經符號推理。首先,將機器學習應用于與符號推理相關的任務,如自動定理證明(第2章)。其次,將符號推理啟發的歸納偏差引入機器學習模型,以提高其可解釋性、泛化性和數據效率(第3章和第4章)。結果強調了(1)神經符號模型架構,(2)在適當的抽象水平上進行推理,以及(3)明確的、推理的組合表示,如符號證明。 //dataspace.princeton.edu/handle/88435/dsp015q47rr958

付費5元查看完整內容

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。

深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。

我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。

付費5元查看完整內容

在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。

與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761

如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。

上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。

自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。

論文貢獻:

1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。

2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。

3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。

4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。

5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。

付費5元查看完整內容

百度聯合北京大學發布首篇《自然語言生成保真性》的綜述論文,非常值得關注!

由于預訓練語言模型等深度學習技術的發展,自然語言生成(NLG)近年來取得了很大的進展。這一進步導致了更流暢、連貫甚至屬性可控(例如,文體、情感、長度等)的生成,自然地導致了下游任務的發展,如抽象摘要、對話生成、機器翻譯和數據到文本的生成。然而,生成的文本通常包含不真實的信息,這一問題已經成為文本生成的最大挑戰,使得文本生成的性能在許多現實場景的實際應用中不能令人滿意。針對不同的任務提出了許多關于保真性問題的分析、評價和優化方法的研究,但并沒有結合起來進行組織、比較和討論本文從問題分析、評價指標和優化方法三個方面,系統地綜述了近年來NLG保真性問題的研究進展。我們將不同任務的評估和優化方法組織成一個統一的分類,以便于任務之間的比較和學習。并進一步討論了今后的研究方向。

引言

自然語言生成(NLG)是從文本或非文本輸入中生成自然語言文本的過程,以滿足特定的交流目標(Gatt和Krahmer, 2018)。NLG的輸入隨著任務設置的不同而不同,但是輸出總是可讀的自然語言文本。根據輸入類型,NLG的任務主要可以分為: 文本到文本的生成、數據到文本的生成和多模態到文本的生成。文本到文本的生成任務將現有文本作為輸入,并自動生成新的、連貫的文本作為輸出。最常見的應用包括:文本摘要(Allahyari et al., 2017)、對話生成(Li et al., 2016b)、機器翻譯(Koehn, 2009)、問題生成(Du et al., 2017)、釋義生成(Li et al., 2017)等。數據到文本的生成任務從數字數據或結構化數據(如表、鍵值列表和元組)自動生成文本。示例應用包括:表格到文本的生成(Liuet al.,,2018b)、kg到文本的生成(Ke et al.,,2021)、意義到文本的生成(Song et al.,2018)等。多模態到文本的生成任務將多模態輸入(如圖像或視頻)中的語義轉換為自然語言文本。典型任務包括圖像字幕(Vinyals等人,2015年)、視覺敘事(Huang et al.,2016年)和視頻摘要(Ma et al.,2002年)。

圖1 NLG面臨的挑戰有四個方面。保真性已成為現代自然語言時代最大的挑戰。

從輸入-輸出信息轉換的角度來看,自然語言學習的任務可分為開放式語言生成和非開放式語言生成。開放式語言生成任務是指輸入不完整且輸入不包含輸出語義的任務。例如,故事生成是一種經典的開放式語言生成任務,它傾向于基于一些引導句或關鍵詞生成一個完整的故事。顯然,模型需要創建新的信息來完成故事情節規劃和生成有意義的故事。開放式語言生成任務的最大特征之一是輸入和輸出之間的信息映射通常是一對多的。相同的輸入可以產生許多具有不同含義的輸出。相比之下,對于非開放式語言生成任務,輸入通常為輸出提供完整甚至更多的信息。機器翻譯是一種典型的非開放式語言生成任務,輸入為輸出提供完整的語義。釋義生成可以看作是一種等價的信息轉換,其中輸入和輸出語義完全相同,但語言表達不同。在文本摘要中,輸入通常比輸出提供更多的信息,因此摘要模型需要選擇顯著性信息來產生摘要輸出。

自然語言生成發展

NLG的研究歷史悠久,始于20世紀50年代。NLG方法的發展主要可分為基于模板、基于統計、基于神經網絡和基于訓練前的四個階段,如表2所示。

  • 基于模板的。最早的自然語言生成系統采用規則和模板的方法來設計不同的文本生成模塊,反映了許多專家設計的詞匯、語法、句法甚至語用方面的語言知識。它們通常由幾個不同的組件組成,包括內容規劃、句子規劃和文本實現,每個組件都執行特定的功能。

  • Statistical-based。統計語言模型進一步從概率和統計的角度提出了一種新的語言建模思想,將詞匯和上下文之間的依賴關系編碼在條件概率中。N-gram語言模型是目前最流行的統計語言模型,通常會結合基于模板的方法對生成的流暢文本進行重新排序和選擇。

  • Neural-based。 隨著深度學習的發展,基于神經網絡的端到端方法逐漸占據主導地位,通過端到端訓練可以更好地建模詞匯與上下文之間的統計共現關系,從而顯著提高文本生成性能。NLG已經探索了各種神經結構,如循環神經網絡(RNN) (Graves, 2013; Zaremba et al., 2014),卷積神經網絡(CNN) (Kalchbrenner et al., 2014)和自注意力Transformer網絡(Vaswani et al., 2017)。

  • Pretraining-based。 最近,基于Transformer架構的預訓練語言生成模型能夠更好地捕捉詞匯、語法和語義等語言知識,極大地促進了自然語言生成的發展。預訓練語言模型的興起(Brown et al., 2020; Devlin et al., 2018; Liu et al., 2019c)已經導致了包括文本摘要在內的應用程序的強文本生成模型(Dong et al., 2019; Liu and Lapata, 2019; Zhang et al., 2020b),對話生成(Bao et al., 2020; Zhang et al., 2019)、數據到文本的生成(Chen et al 2020b)和機器翻譯(Liu et al,2020)。然而,盡管這些模型生成了流暢的語法文本,但它們容易產生與輸入文本相矛盾的事實錯誤(Cao et al., 2017)。

傳統的基于模板的文本生成方法通常能夠生成可靠、保真性的文本,但由于規則的多樣性和通用性的限制,生成的文本往往存在流暢性和信息量大的問題。該方法通過對大型語料庫的端到端訓練,可以生成流暢、信息豐富的文本。但由于概率抽樣機制的引入,他們每次都需要從模型估計的概率分布中進行抽樣。考慮到詞匯量非常大,一般在1000 ~ 50000個數量級,概率分布不可避免地包含大量出現概率低的長尾詞,再加上概率抽樣本身的隨機性,基于神經網絡的NLG模型的可控性和保真性尤為嚴重。在預訓練時代,通過對大規模無標記語料庫進行自監督訓練,模型生成的文本在流暢性、信息量甚至可控性方面都表現突出,但仍不能解決保真性問題。

本文結構

該綜述的內容類型如圖3所示。在第二節中,我們系統地分析了NLG中的保真性問題,包括不保真誤的分類、人工標注、保真度評估和優化面臨的挑戰、原因分析以及與其他方面的關系。在第三節中,我們將提出的各種保真度評價指標進行組織,并將這些指標的元評價相結合,以促進未來保真度評價的研究。在第4節中,我們從任務和方法論的角度總結了不同的優化方法,并詳細說明了它們的相對優勢

付費5元查看完整內容

本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》,是信息檢索領域值得關注的最新工作。

作者介紹:

Zhuyun Dai

卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力,構建下一代信息助理系統,幫助人們無縫地獲取世界上的知識。

//www.cs.cmu.edu/~zhuyund/index.html

信息檢索中的神經匹配與重要性學習

地址:

在50-60年的時間里,信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制,但解決這些問題的嘗試大多是不成功的。最近,神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢,以帶來更深入的語言理解IR。

本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配,這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示,我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲,本文提出了一種新的核池技術,該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域,以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。

本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重,但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡,以估計詞的重要性,基于如何相互作用的語言語境。開發了一種弱監督方法,允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行,在不影響效率的前提下顯著提高了第一階段的檢索。

總之,本文提出了一種新的神經檢索范式,克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。

付費5元查看完整內容
北京阿比特科技有限公司