亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

可控文本生成是生成式AI的重要技術之一,在智能創作、自動客服、游戲制作和數字人等領域具有廣闊的應用前景。本報告將從三個部分進行介紹:可控文本生成的研究進展、瀾舟可控文本生成的應用、可控我文本生成未來發展方向。關于可控文本生成研究進展,我將綜述可控文本生成神經網絡模型、模型訓練與解碼、改進生成質量的若干關鍵技術。然后,我將介紹瀾舟可控文本生成的相關研究和應用,例如營銷文案生成、小說生成和續寫、ESG報告生成、科技文獻寫作、可控對話生成和插圖生成等。最后我將討論可控文本生成存在的問題,包括前后一致性問題、常識問題和多樣化生成問題,并探討未來的發展方向。

付費5元查看完整內容

相關內容

近年來,預訓練模型在自然語言處理領域蓬勃發展,旨在對自然語言隱含的知識進行建模和表示,但主流預訓練模型大多針對英文領域。中文領域起步相對較晚,鑒于其在自然語言處理過程中的重要性,學術界和工業界都開展了廣泛的研究,提出了眾多的中文預訓練模型。文中對中文預訓練模型的相關研究成果進行了較為全面的回顧,首先介紹預訓練模型的基本概況及其發展歷史,對中文預訓練模型主要使用的兩種經典模型Transformer和BERT進行了梳理,然后根據不同模型所屬類別提出了中文預訓練模型的分類方法,并總結了中文領域的不同評測基準,最后對中文預訓練模型未來的發展趨勢進行了展望。旨在幫助科研工作者更全面地了解中文預訓練模型的發展歷程,繼而為新模型的提出提供思路。

1 引言

自然語言處理(NaturalLanguageProcessing,NLP)是計 算機利用人類定義的算法對自然語言形式的輸入進行加工處 理的過程,旨在讓計算機可以像人類一樣理解和生成語言,具 備如人類一樣的聽、說、讀、寫、問、答、對話、聊天等的能力,并 利用已有知識和常識進行推理分析.自然語言處理技術的發 展經歷了從基于規則到基于統計的過程.隨著深度學習的發 展,圖像、文本、聲音、視頻等不同形式的信息載體被自然語言 處理技術突破,大量的神經網絡被引入自然語言理解任務中, 如循環神經網絡、卷積神經網絡、注意力 機制等.在特定的自然語言處理任 務中,神經網絡可以隱性地學習到序列的語義表示與內在特 征,因此,神經網絡成為了解決復雜自然語言處理任務最有效 的方法.隨著計算力的不斷增強,深度學習在自然語言處理 領域中不斷發展,分布式表示占據了主導地位,不僅在指定任 務中可以端到端地學習語義表示,而且可以在大規模無標注 的文本上進行自主學習,能更靈活地運用在各種下游任務中. 然而,早期在有監督數據上訓練淺層模型往往存在過擬合和 標注數據不足等問題,在訓練深層模型參數時,為了防止過擬 合,通常需 要 大 量 的 標 注 數 據,但 有 監 督 的 標 注 數 據 成 本較高,因此模型主要利用網絡中現存的大量無監督數據進行 訓練.在此背景下,預訓練技術被廣泛地應用在自然語言處 理領域.其中,最經典的預訓練模型是 BERT [4]模型,在多個 自然語言處理任務中取得了最好結果(StateoftheArt,SOG TA).此后出現了一系列基于 BERT 的預訓練模型,掀起了 深度學習與預訓練技術的發展浪潮。

隨著國內外研究者在預訓練模型方面的深入研究,目前 已有很多關于預訓練模型的綜述,但缺少專門針對中文領域 的相關綜述.當前,中文預訓練模型蓬勃發展并取得一定的 成績,因此,對現有研究成果進行全面的分析和總結非常必 要.本文期望能為中文預訓練相關領域的學者提供參考,幫 助科研工作者了解目前的研究現狀和未來的發展趨勢.本文 第2節概述預訓練模型的基本情況;第3節主要介紹兩種基 本模型,即 Transformer和 BERT;第4節根據不同模型的所 屬類別提出典型的中文預訓練模型的分類方法,并匯總了中 文預訓練模型的相關資源;第5節梳理了中文領域的不同評 測基準;最后總結全文并展望未來.

2 預訓練模型

2.1 預訓練模型發展史

從預訓練語言模型的發展時間來看,可以將其分為靜態 預訓練模型和動態預訓練模型.2013年,Mikolov等[5]在神 經網絡語言模型(NeuralNetworkLanguageModel,NNLM) 思想的基礎上提出 Word2Vec,并引入大規模預訓練的思路, 旨在訓練具有特征表示的詞向量,其中包括 CBOW 和 SkipG Gram 兩種訓練方式.相比 NNLM 模型,Word2Vec可以更 全面地捕捉上下文信息,彌補 NNLM 模型只能看到上文信息 的不足,提高模型的預測準確性,Word2Vec極大地促進了深 度學習在 NLP中的發展.自 Word2Vec模型被提出以來,一 批訓練詞向量的模型相繼涌現,例如,Glove [6]和 FastText [7] 等模型均考慮如何得到文本單詞較好的詞向量表示,雖然對 下游任務性能有所提升,但其本質上仍是一種靜態的預訓練 模型.

2018年,Peters等[8]提出的 ELMo模型將語言模型帶入 動態的預訓練時代.ELMo模型采用雙層雙向的 LSTM [9]編 碼器進行預訓練,提取上下文信息,并將各層詞嵌入輸入特定 下游任務中進行微調.該模型不僅可以學習到底層單詞的基 礎特征,而且可以學到高層的句法和語義信息.然而,ELMo 模型只能進行串行計算,無法并行計算,模型訓練的效率較 低;此外,該模型無法對長序列文本進行建模,常出現梯度消 失等問題.而 后,OpenAI提 出 了 GPT(GenerativePreGtraiG ning)[10]模 型.與 ELMo模 型 不 同,GPT 采 用 Transformer 深度神經網絡,其處理長文本建模的能力強于 LSTM,僅使用 Transformer解碼器進行特征提取,在機器翻譯等生成式任務 上表現驚人,但這一特點也導致 GPT 只利用到了當前詞前面 的文本信息,并沒有考慮到后文信息,其本質上依舊是一種單 向語言模型.為了解決 GPT等模型單向建模的問題,2018年, Devlin等[4]提出了 BERT 模型,該模型是第一個基于 Transformer的 雙 向 自 監 督 學 習 的 預 訓 練 模 型,在 英 文 語 言 理解評測基準[11]榜單中的多個任務上達到了SOTA 結果,此 后出現了一大批基于 BERT的預訓練模型,大幅提升了下游 自然語言處理任務的性能.中文預訓練模型雖然起步較晚, 但發展迅速,已經取得了一定成果,本文第4節將對其進行重 點介紹.

**2.2 研究中文預訓練模型的原因 **

首先,中文和英文分別是世界上使用人數最多和范圍最 廣的兩種語言,然而在自然語言處理領域,英文預訓練模型較 為普遍,例如,以 BERT 為首及其后出現的大量預訓練模型 均是在單一語料英文數據集上進行訓練,此外模型的設計理 念也更適用于英文,比如分詞方式及掩碼方式等.其次,中文 和英文語言本質上存在差異,它們的主要區別是,中文文本通 常由多個連續的字符組成,詞與詞之間沒有明顯的分隔符. 如果使用英文預訓練模型去處理常見的中文任務,效果往往 不佳.因此,為了推動中文領域自然語言處理技術和預訓練 模型在多語言任務方面的發展,構建以中文為核心的預訓練 模型勢在必行.

3 Transformer和 BERT

自2021年以來,中文預訓練模型進入井噴式的發展階 段,其架構主要基于 Transformer和 BERT 兩種基礎模型,本 節主要介紹這兩種模型. 圖1為典型的 Transformer架構,該架構由6個結構相 同的編碼器和解碼器堆疊而成.單個編碼器由堆疊的自注意 力層和前饋神經網絡組成,解碼器由堆疊的自注意力層、掩碼 注意力層 和 前 饋 神 經 網 絡 組 成.有 關 Transformer的 詳 細 細節介紹請參考文獻[14].

BERT

BERT [4] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一種面向自然語言處理任務 的無監督預訓練語言模型,由 Transformer的雙向編碼器表 示.BERT的架構如圖2所示.

圖2 BERT示意圖[4]

4 中文預訓練模型分類

**在自然語言處理領域,繼 Transformer和 BERT 出現之 后,涌現出大量的預訓練模型,這些模型主要針對英文領域, 中文領域的研究起步較晚.但在近兩年,中文預訓練模型受 到廣大學者的關注并取得了一定的研究成果.為了闡明現有 的中文預訓練模型,本節主要從以下6個方面對現有的預訓練 模型進行分類,圖3展示了典型的中文預訓練模型的分類圖. (1) 預訓練模型的方法改進,主要包括掩碼方式的轉變、 位置編碼的轉變、LN 層的位置變化、MoE 層的使用、多粒度訓練和其他改進. (2) 融入外部信息的預訓練,主要包括命名實體、知識圖 譜、語言學知識和特定知識.(3) 關于多模態融合的預訓練模型. (4) 側重于高效計算的預訓練,主要包括數據處理階段、 預訓練階段以及技術優化. (5) 指特定領域的預訓練,主要包括對話系統和其他領域 的預訓練模型. (6) 介紹一些其他變體,主要側重于典型的英文預訓練模 型開源的中文版本.

圖3 中文預訓練模型分類圖

5. 中文領域的評測基準

5.1 為什么建立中文領域的評測基準

首先,從使用人數上看,中國人口占世界人口的五分之 一,人數龐大,因此中文是世界上使用人數最多的語言;其次, 從語言體系上看,中文與英文差異較大;最后,從數據集角度 出發,中文領域公開可用的數據集較少,此前提出的中文預訓 練模型在英文評測基準上評估,無法完全體現出模型性能. 當下預訓練模型的發展極其迅速,英文領域的評測基準已步 入成熟階段,而中文領域的缺失必然會導致技術落后,因此中 文領域的評測基準必不可少.本節主要介紹4種不同的評測 基準.

6 研究趨勢與展望

中文預訓練模型已在多個領域實現商業化落地,并展現出一定的市場潛力,取得了長足發展,但也存在較多挑戰,例 如預訓練模型規模和性能之間的平衡問題;如何構建更加通 用型的預訓練模型;如何突破現有多模態和輕量化模型的瓶 頸;如何構建融入更多中文特色的預訓練模型等.本文主要 從以下幾個方面對未來進行展望.

6.1 規模隨著以 BERT和 GPT等為代表的大規模預訓練模型的 出現,逐漸掀起了預訓練模型朝大規模方向發展的浪潮.大 量的研究表明,模型參數量越大,訓練數據量越多的預訓練模 型表現更出色.中文領域存在眾多大規模預訓練模型,如源 1.0參數 2457億,訓練數據集達5000GB;ERNIE3.0Titan 參數2600億;中文多模態模型 M6參數量已經擴展至十萬億 級別.目前預訓練模型還未達到模型的性能極限,增大模型 參數量和訓練數據仍是提高模型性能最有效的手段,探索超 大規模預訓練模型的道路還將繼續,也需要更加注重模型的 創新性、訓練的低碳化和應用的高效性. 然而,訓練超大規模的模型仍存在很大挑戰.首先,使用 最大 GPU 也不可能在內存中擬合所有參數;其次,算法優化 不足會耗費極長的訓練時間;最后,搭建超大規模模型會帶來 巨大的成本,讓學術界和小型科技公司望而卻步.如何在模 型性能和成本之間取得平衡也是當前學者探索的另外一條道 路,如探索輕量化的預訓練模型.近期騰訊提出的“神農”、瀾 舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等輕量 化模型,僅以十億左右的參數量就在部分任務上達到了 SOG TA 結果,因此探索輕量化模型勢在必行.

6.2 融入外部信息預訓練模型在部分任務上已無限接近人類,甚至超越人 類,然而,其對知識的掌握依舊不足,如何讓預訓練模型真正 理解并運用知識是一個值得長期研究的課題,尤其是中華民 族上下五千年形成的文化知識頗多,比如“常識性知識”和“特 定領域的知識”等.特定領域的知識可以幫助模型挖掘不同 領域特有的知識,如果能夠將特定領域的行業知識與模型結 合起來訓練,不僅可以將預訓練模型更廣泛地應用到不同的 下游任務,在各行各業中實現良好的產業落地,而且可以與腦 科學、心理學、神經學等其他學科融合,更好地發展人工智能, 服務人類生活. 除了融入知識信息之外,還可以從中文字形和字音等方 面考慮.因為中文語言的特殊性,其字符的符號也包含一些額外信息,這些額外信息能增強中文自然語言的表現力,如 ChineseBERT [46]模型中提出將中文字形和拼音信息融入預 訓練模型中,以此增強模型對中文語料的建模能力,但這一方 向的研究還相對較少,仍有待完善.

6.3 多模態領域現實世界離不開語言,語言離不開語音和視覺信息,類似 于人的感覺器官:眼、耳、嘴,任何一樣的缺失都會影響生活. 當前,互聯網音視頻資源占比較大,純文本信息只能覆蓋互聯 網資源的一小部分,更加豐富的音視頻信息并沒有被充分利 用,因此預訓練模型必然朝著多模態的趨勢發展.目前,多模 態預訓練模型的研究大多只考慮了兩種模態,圖像文本或者 視頻文本,而音頻信息大多被忽視.中文預訓練模型起步雖 晚,但成績斐然.中科院自動化所提出了全球首個圖文音(視 覺G文本G語音)三模態的預訓練模型 OPT [51],該模型同時具 備跨模態理解與生成的能力.通過上述分析可知,多模態的 研究擁有很大的發展空間.

本文主要圍繞中文預訓練模型的研究現狀進行概述.從模型規模上看,中文預訓練模型的發展正處于兩條 道路上.一是朝著超大規模預訓練模型的方向發展;二是尋 求輕量化模型的發展.從外部信息來看,大多數的預訓練模 型都融入了各種知識,預訓練與先驗知識的深度融合刻不容 緩.從高效訓練上看,現有模型都在不斷地探索更加高效的 訓練方式.從多模態的角度上看,中文多模態預訓練模型的 發展正處于上升階段,正朝著更多模態、更加通用的方向發 展.從特定領域的模型來看,預訓練模型可應用于多種領域, 具有較大的發展潛力.綜上所述,中文預訓練模型雖然取得 了不可忽視的成績,但還有更大的發展空間,未來將朝著更大 規模、更加高效、適用更多領域的方向發展.

付費5元查看完整內容

本篇綜述“A Survey of Pretrained Language Models Based Text Generation”的第一作者李軍毅來自中國人民大學和加拿大蒙特利爾大學,指導教師為趙鑫教授(通訊作者)和聶建云教授。作者從數據、模型和優化方法三個角度切入,主要介紹了近年來預訓練語言模型技術在文本生成領域的研究進展,以及相應的挑戰和解決方案;然后陸續介紹了預訓練語言模型在三個代表性的文本生成任務中的應用,包括機器翻譯、文本摘要和對話系統,以及廣泛采用的評測基準和評價指標;最后討論提出了若干個未來的研究方向。本文梳理了2018年至今總計200余篇預訓練語言模型研究工作,為后續研究者了解熟悉此領域提供巨大幫助。

預訓練語言模型技術解決文本生成任務主要考慮三個方面的挑戰:1)如何有效地編碼輸入表示并保留其語義?本文第三章對輸入數據的形態進行了劃分,包括非結構化文本、結構化數據和多媒體數據,梳理了預訓練語言模型針對不同類型輸入的表示學習方法;2)如何設計有效的預訓練語言模型作為生成函數?本文第四章介紹了四種預訓練語言模型模式,包括Masked LM,Causal LM, Prefix LM和Encoder-Decoder LM,并在此基礎上作出的拓展,例如增加額外的輸入Embedding和Attention機制的創新;3)如何有效地優化預訓練語言模型并保證輸出文本滿足某些語言屬性?本文第五章介紹了三種針對文本生成任務的優化策略,包括傳統的Fine-Tuning技術,新興的Prompt-Tuning技術,以及針對特殊屬性設計的Property-Tuning技術。

"妙筆"生花:一個易用、高效的文本生成開源庫

關于預訓練語言模型在文本生成任務上的應用,不得不提我們AI Box團隊開發的文本生成工具包——TextBox,中文名“妙筆”。到目前為止,妙筆總共支持四個大類總計21個文本生成模型,其中就包括相關的預訓練語言模型,比如GPT-2, BART, T5和ProphetNet等;同時我們也支持機器翻譯、文本摘要、對話系統、data-to-text等主流生成任務和相應的測試。研究者可以方便地使用TextBox進行一站式訓練,數據處理、數據加載、模型訓練和測試等環節均可以由TextBox自動完成。

參考文獻: [1] Li, J., Tang, T., Zhao, W.X., Nie, J. Y., & Wen, J. R. (2022). A Survey of Pretrained Language Models Based Text Generation. arXiv preprint arXiv:2201.05273.

[2] Li, J., Tang, T., He, G., Jiang, J., Hu, X.,Xie, P., ... & Wen, J. R. (2021). Textbox: A unified, modularized, and extensible framework for text generation. arXiv preprint arXiv:2101.02046.

付費5元查看完整內容

自然語言處理是人工智能的核心技術, 文本表示是自然語言處理的基礎性和必要性工作, 影響甚至決定著自然語言處理系統的質量和性能. 探討了文本表示的基本原理、自然語言的形式化、語言模型以及文本表示的內涵和外延. 宏觀上分析了文本表示的技術分類, 對主流技術和方法, 包括基于向量空間、基于主題模型、基于圖、基于神經網絡、基于表示學習的文本表示, 進行了分析、歸納和總結, 對基于事件、基于語義和基于知識的文本表示也進行了介紹. 對文本表示技術的發展趨勢和方向進行了預測和進一步討論. 以神經網絡為基礎的深度學習以及表示學習在文本表示中將發揮重要作用, 預訓練加調優的策略將逐漸成為主流, 文本表示需要具體問題具體分析, 技術和應用融合是推動力.

//www.jos.org.cn/jos/article/abstract/6304

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容

題目: 基于深度學習的主題模型研究

摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。

付費5元查看完整內容

人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。

付費5元查看完整內容
北京阿比特科技有限公司