苹果电影在线观看免费高清,影888午夜理论不卡

Text to SQL( 以下簡稱Text2SQL)，是將自然語言文本（Text）轉換成結構化查詢語言SQL的過程，屬于自然語言處理-語義分析（Semantic Parsing）領域中的子任務。在大模型時代怎么做？這篇綜述調研了最新進展。

自然語言處理的出現徹底改變了用戶與表格數據的交互方式，實現了從傳統查詢語言和手動繪圖到更直觀的基于語言的接口的轉變。大型語言模型（LLMs），如ChatGPT及其后繼者的崛起，進一步推進了這一領域，為自然語言處理技術開辟了新的途徑。這份綜述為我們提供了關于表格數據的自然語言接口查詢與可視化的全面概覽，它允許用戶使用自然語言查詢與數據進行交互。我們介紹了這些接口背后的基本概念和技術，特別強調了語義解析，這是從自然語言到SQL查詢或數據可視化命令的關鍵技術。接下來，我們深入探討了從數據集、方法、指標和系統設計的角度看Text-to-SQL和Text-to-Vis問題的最新進展。這包括對LLMs的影響的深入分析，強調它們的優勢、局限性和未來改進的潛力。通過這份綜述，我們希望為那些對在大型語言模型時代的數據交互感興趣的研究者和從業者提供一個發展與應用自然語言接口的路線圖。

表格數據或結構化數據在今天的數字時代構成了許多領域的基石，包括商業、醫療健康和科學研究[57]，[81]。然而，有效且高效地與大量的結構化數據互動以提取有價值的見解仍然是一個關鍵挑戰。傳統的交互方法，如使用結構化查詢語言進行查詢或手動繪制可視化，通常需要相當高的技術專長，從而限制了它們對更廣泛用戶群的可訪問性[2]。

隨著自然語言處理技術的出現，我們與結構化數據的交互方式開始發生變化。這些技術促進了自然語言接口的開發，使表格數據查詢和可視化變得更加直觀和易于訪問。通過這些接口，用戶可以使用自然語言查詢和命令從數據庫中提取信息或生成數據的視覺表示[47]，[93]。這種轉向基于語言的接口的變化標志著簡化數據交互的重大進步，使其更加用戶友好，對非技術用戶更加可訪問。

支撐這些基于語言的接口的基礎技術根植于語義解析任務，它將自然語言查詢轉化為為在結構化數據庫上執行而定制的正式表示形式[50]。盡管為此目的已經引入了各種正式語言和功能表示，例如Prolog、Datalog和FunQL，但在表格數據交互中，有兩種尤為主導：用于數據查詢的SQL和用于數據可視化的可視化規范。SQL已經成為查詢關系數據庫的事實標準，提供了全面的操作來檢索和操作數據。可視化規范提供了一種結構化的方式來表示復雜的可視化，使其成為數據可視化過程的一個組成部分。考慮到它們的重要性和廣泛的使用，這次綜述將主要關注這兩種表示，深入探討將自然語言轉化為SQL和可視化規范的任務的挑戰和進展。在這種情境下，Text-to-SQL任務[133]充當將用戶查詢轉化為SQL指令的橋梁，而Text-to-Vis任務[71]則促進了從用戶可視化請求到可視化規范的轉化。

這兩個語義解析任務的發展多年來已經發生了顯著的演變，受到機器學習和自然語言處理技術的推動。早期的方法通常依賴于基于規則或基于模板[1]，[50]的系統和淺層解析技術。然而，這些方法在處理復雜的查詢和可視化方面都存在困難，并對用戶輸入的特定措辭敏感。引入神經網絡和深度學習方法帶來了性能的重大飛躍。這些方法，通常基于序列到序列的模型[53]，能夠捕獲數據中更復雜的模式，并對輸入的變化更加穩健。然而，它們仍然需要大量的訓練數據，并且在處理領域外的查詢時會遇到困難。像BERT[16]、T5[85]、GPT[79]這樣的預訓練語言模型(PLMs)的崛起標志著該領域的一個轉折點。憑借其在大量文本數據上進行預訓練的能力，PLMs在包括Text-to-SQL和Text-to-Vis在內的一系列自然語言處理任務中都取得了顯著的成功。最近，像ChatGPT這樣的大型語言模型(LLMs)的出現以及提示工程技術的探索為開發更有效且用戶友好的自然語言數據交互接口打開了新的途徑。

對于表格數據查詢和可視化的自然語言界面的跨學科研究融合了多個研究方面，如自然語言處理和數據挖掘，進展經常沿著多樣且不同的軌跡進行。盡管其重要性逐漸增加，但尚未有單一的研究全面回顧了查詢和可視化任務的語義解析問題的系統和統一方式。隨著這個領域的不斷發展和增長，有越來越大的需求來組織研究景觀，分類當前的工作，并識別知識空白。雖然之前已經有一些努力總結了這個領域的進展，但它們主要關注了查詢和可視化的早期方法以及后續的深度學習發展[1]、[14]、[47]、[53]、[93]，但并沒有提供這些相互關聯領域的綜合視圖。此外，據我們所知，沒有現有的調查涵蓋了大型語言模型（LLMs）在這些領域的最近進展。像ChatGPT及其后續版本等LLMs的深遠影響在數據查詢和可視化的自然語言界面上是一個迅速增長的領域，需要更多的關注和探索。本次調查旨在通過提供表格數據查詢和可視化的自然語言界面的詳細概述來填補這些空白。我們從過去二十年的關鍵期刊和會議中收集參考文獻，涵蓋了自然語言處理、人機交互、數據挖掘和可視化。我們的搜索受到諸如“自然語言界面”、“可視化”和“文本到SQL”等術語的指引，我們還探討了被引用的出版物以捕獲基礎性的貢獻。我們旨在解決一系列關鍵的研究問題，可以指導我們對表格數據和可視化的自然語言界面的理解：

**? 自然語言界面隨著時間的推移是如何發展的？ **

**? 最近的進展，特別是LLMs，是如何影響這個領域的？ **

**? 現有方法的固有優點和缺點是什么？ **

通過這次綜素，我們希望通過廣泛的文獻綜述和分析為這些問題提供有見地的答案。我們將深入研究功能表示、數據集、評估指標和系統架構，特別強調LLMs的影響。我們的目標是呈現一個關于現有技術狀態的清晰簡潔的概述，強調現有方法的優點和局限性，同時探索未來增強的可能途徑。

表格數據查詢和可視化的自然語言界面包括多種組件，每個組件在技術框架中都起到關鍵作用，如圖3所示。

? 數據集。數據集在訓練和評估這些界面的性能中起到至關重要的作用。數據集可以是單輪的，即提出一個沒有任何先前上下文的查詢，或者是多輪的，其中一系列查詢以會話方式提出。還有各種類型的數據集旨在評估系統的不同方面，如處理復雜查詢、領域外查詢的能力等。 ? 方法。構建自然語言界面的方法隨著時間的推移而演變。早期的方法是基于規則的，使用預定義的規則將自然語言查詢轉化為功能表示。隨著神經網絡的出現，序列到序列模型變得受歡迎，提供了更多的靈活性來處理各種查詢。像BERT[16]和GPT[79]這樣的預訓練語言模型的崛起標志著這個領域的重大進展。最近，像ChatGPT這樣的大型語言模型的出現，以及對提示工程技術的探索，為開發更有效的數據交互自然語言界面打開了新的途徑。 ?** 評估指標**。評估指標用于衡量這些界面的性能。這些可以是基于字符串的，將生成的功能表示與基準真相進行比較，或基于執行的，將在數據庫上執行生成的表示的結果與預期結果進行比較。有時也使用手動評估來評估像系統的可用性這樣的方面。 ? 系統設計。系統架構是自然語言界面的關鍵組成部分，涉及將用戶查詢轉化為可操作輸出的基礎機制。從基于規則到端到端的設計范式提供了各種解決方案和權衡，就靈活性、可解釋性和準確性而言。這些組件中的每一個都為表格數據查詢和可視化的自然語言界面的有效性和可用性作出貢獻。

本綜述的后續部分將更詳細地深入這些組件，討論它們的角色，使用的各種方法和技術以及每個領域的最新進展。

**結論 **

在這次綜述中，我們深入探討了表格數據查詢和可視化的自然語言界面，深入了解這一領域的復雜性、其演變和它所解決的挑戰。我們從基礎問題定義追蹤到最新的方法。我們強調了推動這些界面的多樣數據集的重要性，并討論了衡量其效果的指標。通過探索系統架構，我們檢查了不同系統設計的差異。最后，我們的目光轉向未來，指向大型語言模型時代的有前途的研究方向。隨著這個動態領域的演變，我們的探索為其當前的狀態、挑戰和潛力提供了一個簡潔的快照。

付費5元查看完整內容

相關內容

[付費5元查看完整內容]大型語言模型在軟件工程：調查與待解決的問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提供了一個關于大型語言模型（LLMs）在軟件工程（SE）中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力，其應用覆蓋了軟件工程活動的全譜，包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而，這些同樣的新興屬性也帶來了重大的技術挑戰；我們需要能夠可靠地剔除錯誤的解決方案，如幻覺。我們的調查揭示了混合技術（傳統的SE與LLMs相結合）在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果；即大型語言模型（LLMs）在軟件工程（SE）應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會，我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的，但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中，但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是，我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接（和共鳴）。盡管總的來說，我們找到了很多樂觀的理由，但仍然存在重要的技術挑戰，這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出，LLMs普遍存在幻覺問題[1]，而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣，幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下，這意味著創造的工程制品可能是錯誤的，但看起來是合理的；LLMs可能引入錯誤。然而，與LLMs的許多其他應用不同，軟件工程師通常有可自動化的真實依據（軟件執行），大部分軟件工程制品都可以基于此進行評估。此外，軟件工程研究社區已經花了很多時間開發自動化和半自動化技術，以檢查人類可能產生的錯誤結果。這意味著，對于這個學科和研究社區，當面對像幻覺這樣的問題所帶來的挑戰時，有大量的經驗和專業知識可以借鑒。

顯然，自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用，就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時，由于缺乏可自動化的oracle [6]（一種自動技術，用于確定給定輸入刺激的輸出行為是否正確），自動測試數據生成受到限制。考慮到LLMs的幻覺傾向，Oracle問題仍然非常相關，對它的解決方案將變得更加有影響力。但是，一些SE應用關心現有軟件系統的適應、改進和開發，對于這些應用，有一個現成的可自動化的oracle：原始系統的功能行為。在本文中，我們稱其為“自動回歸Oracle”，這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考，以對任何后續的適應和更改的輸出進行基準測試。當然，有“烘焙”功能錯誤的風險，因為自動回歸Oracle無法檢測系統應該做什么，只能捕捉它當前做什么。因此，自動回歸Oracle只能測試功能退化，所以它最適合于需要保持現有功能的用例。例如，對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點，我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中，我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼，還可以包括其他軟件工程制品，如需求、測試用例、設計圖和文檔。總的來說，LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出，但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求，不僅要優化prompt工程（專注于LLM的輸入），還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的：相同的prompt在不同的推斷執行中產生不同的答案（除非溫度設為零，這在多次執行中經常被發現是次優的）[9]。此外，無論溫度設置如何，prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理，這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰：如果每次我們運行整個工程過程時結果都會變化，我們如何確定所提議的技術是否超越了現有的技術？這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是，SBSE與基于LLM的軟件工程有很多相似之處，在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此，已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如，參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文，我們過濾了出版物，將其細分為以下子類別：人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選（我們手動排除了重載縮寫，例如將GPT誤認為是通用規劃工具），結果是L列。最后，我們使用相同的查詢來識別基于LLM的軟件工程論文，這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的，因此我們只局限于基于總體趨勢得出的結論，而這些總體趨勢有強有力的證據支持，而不是觀察到的數字的具體細節。盡管如此，我們報告了觀察到的原始數字，以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量（|A|，以藍色表示）和LLM相關論文的數量（|L|，以橙色表示）的增長。特別是與軟件工程和LLM相關的論文以綠色表示（|L ∩ S|）。考慮到總體發表量的快速增長，我們為縱軸使用了對數刻度。不出所料，我們看到了計算機科學出版物數量的整體增長。同時，鑒于LLM最近受到的關注增多，LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納，如圖中的綠色所示。為了更詳細地檢查這一趨勢，我們在圖3中畫出了LLM出版物（L）與所有計算機科學出版物（A）的比例（以藍色表示），以及基于LLM的軟件工程出版物（L ∩ S）與所有LLM出版物的比例（以橙色表示）。如圖所示，自2019年以來，基于LLM的軟件工程論文的比例已經急劇上升。目前，所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長，我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制，但我們可以預期會有許多關于感興趣的子領域的全面調查，以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧（SLRs）。例如，Hou等人[14]提供了一個出色的最新SLR，涵蓋了2017年至2023年的229篇研究論文，報告了所處理的軟件工程任務、數據收集和預處理技術，以及優化LLM性能的策略（例如提示工程）。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大型語言模型 · KnowledGPT ·

2023 年 8 月 31 日

[付費5元查看完整內容]KnowledGPT:基于知識庫的檢索和存儲訪問增強大型語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響，但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上，但知識庫(KBs)的集成仍未得到充分研究，并面臨一些挑戰。本文介紹了KnowledGPT，一個將LLMs與各種知識庫連接起來的綜合框架，促進知識的檢索和存儲。檢索過程采用思維提示程序，該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外，KnowledGPT還提供了將知識存儲在個性化KB中的能力，以滿足個人用戶的需求。通過廣泛的實驗，我們表明，通過將LLMs與KBs集成，KnowledGPT與普通LLMs相比，能夠適當地回答更廣泛的需要世界知識的問題，利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容

AI與軍事 · 代碼弱點 · 機器學習 · 中間表示 · CMU ·

2022 年 12 月 12 日

[付費5元查看完整內容]《用于代碼弱點識別的 LLVM 中間表示》CMU

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近在代碼弱點識別方面的努力，除了抽象語法樹等更多的結構性特征外，還注重在源代碼文本上訓練統計機器學習（ML）模型，作為特征空間。LLVM中間表示法（IR）可以通過標準化代碼、減少詞匯量以及消除關于語法和內存的一些上下文敏感性來幫助ML模型。我們研究了LLVM IR對訓練統計和機器學習模型的好處，包括詞包模型、BiLSTM和一些品種的轉換模型。我們將這些基于LLVM IR的模型與基于源代碼C的模型在兩組不同的數據上進行了比較：合成數據和更自然的數據。我們發現，雖然使用LLVM IR特征并不能產生比基于C語言的模型更準確的模型，但我們能夠識別出上下文特定的LLVM IR和C語言標記，這些標記有助于表明存在的弱點。此外，對于一個給定的數據集，我們發現在使用更復雜、更耗時的模型之前，任何統計或ML模型是否有利于代碼弱點的識別，詞包模型可以成為強有力的指標。

付費5元查看完整內容

強化學習 · 基于模型的強化學習 · 綜述 ·

2022 年 7 月 13 日

[付費5元查看完整內容]基于模型的強化學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

南京大學最新《基于模型的強化學習》綜述論文，值得關注！

強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功，但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差，基于模型的強化學習(MBRL)被認為是一個有前途的方向，它建立的環境模型中可以進行試錯，而不需要實際成本。本文對MBRL的研究現狀進行了綜述，并著重介紹了近年來研究的進展。對于非表格環境，學習到的環境模型與實際環境之間存在泛化誤差。因此，分析環境模型中策略訓練與實際環境中策略訓練的差異，對算法設計、模型使用和策略訓練具有重要的指導意義。此外，我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外，我們還討論了MBRL在實際任務中的適用性和優勢。最后，我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢，但這些優勢往往被忽視，希望本文的綜述能夠吸引更多關于MBRL的研究。

強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力，因此將其應用范圍擴展到現實任務中是非常有意義的。通常，深度RL算法需要大量的訓練樣本，導致樣本復雜度很高。在一般的RL任務中，特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地，與監督學習范式從歷史標記數據中學習不同，典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新，基礎數據分布(正式的入住率測量[Syed et al.， 2008])就會發生變化，必須通過運行策略再次收集數據。因此，具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中，因為在這些任務中，試錯代價很高。

因此，近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中，基于模型的強化學習(MBRL)是最重要的方向之一，人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al.， 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界，在這個世界中，隨著不同的行動，事情會如何發生可以被預測。通過這種方式，可以根據想象選擇適當的行動，這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。

在MBRL中，環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP)，用元組（S, A, M, R, γ）表示，其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子，M: S × A→S表示狀態轉移動力學，R: S × A→R表示獎勵函數。通常情況下，給定狀態和行為空間以及折扣因子，環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此，學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下，獎勵函數也被明確定義，因此模型學習的主要任務是學習狀態轉移動力學[Luo et al.， 2018, Janner et al.， 2019]。

有了環境模型，智能體就有了想象的能力。它可以與模型進行交互，以便對交互數據進行采樣，也稱為仿真數據。理想情況下，如果模型足夠準確，可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比，智能體只能使用從與真實環境的交互中采樣的數據，稱為經驗數據，MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是，除了MBRL，還有其他一些方法試圖更好地利用經驗數據，如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL，其中智能體使用最新的數據來更新策略。在off-policy中，如圖1(b)所示，代理在重放緩沖區中收集歷史數據，在重放緩沖區中學習策略。在行動者-評論者RL中，如1(c)所示，智能體學習評論者，其是長期回報的價值函數，然后學習批評者輔助的策略(行動者)。如圖1(d)所示，MBRL顯式地學習一個模型。與策略外RL相比，MBRL重構了狀態轉移的動態過程，而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息，但MBRL中的學習模型與策略解耦，因此可以用于評估其他策略，而價值函數與抽樣策略綁定。此外，請注意，非策略、演員-評論者和基于模型是三個并行的結構，圖1(e)顯示了它們的可能組合。

RL算法的體系結構。圖中顯示了RL的訓練迭代，重點是如何利用交互數據。

通過足夠準確的模型，可以直觀地看到MBRL比MFRL產生更高的樣本效率，這一點在最近的理論研究[Sun el.，2019年]和經驗研究[Janner et al.，2019年，Wang et al.，2019年]的視角都表明了這一點。然而，在大量具有相對復雜環境的DRL任務中，要學習一個理想的模型并非易事。因此，我們需要仔細考慮模型學習和模型使用的方法。

在這一綜述中，我們對基于模型的強化學習方法進行了全面的綜述。首先，我們關注模型是如何在基本設置中學習和使用的，如第3節的模型學習和第4節的模型使用。對于模型學習，我們從經典的表格表示模型開始，然后使用神經網絡等近似模型，我們回顧了在面對復雜環境時的理論和關鍵挑戰，以及減少模型誤差的進展。對于模型的使用，我們將文獻分為兩部分，即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務，我們還討論了在模型學習和模型使用之間建立橋梁的嘗試，即價值感知模型學習和策略感知模型學習。此外，我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合，包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后，我們對MBRL的研究前景和未來發展趨勢進行了展望。

付費5元查看完整內容

AAAI 2022 · 對比學習 · 文本摘要 · 論文 ·

2022 年 1 月 11 日

[付費5元查看完整內容]【AAAI 2022】用于文本摘要任務的序列級對比學習模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

用于文本摘要任務的序列級對比學習模型 Sequence Level Contrastive Learning for Text Summarization

論文摘要：自動摘要的目的是把一篇長的文檔重寫成一段簡短的摘要保留原始文本最關鍵的信息。這個任務有一個特性即摘要是原始文檔的一個短的版本并且跟原始文檔有相近的意思。基于這個觀察，我們提出了序列級別的對比學習模型 SeqCo（Sequence-level Contrastive Learning）；具體來說，我們把原始文檔、人工標注的摘要及模型生成的摘要看作同一個語義表示的三個不同視角并在訓練過程中最大化這三者表示之間的相似性。自動評測和人工評測實驗表明 SeqCo 在多個摘要數據集上可以進一步提升基線模型 BART 的效果及提升摘要的原文忠誠度。

//www.zhuanzhi.ai/paper/5514ef03144cc74a32c7fe4af3e1908f

付費5元查看完整內容

文本風格遷移 · 自然語言處理 · 對抗學習 · 強化學習 · 機器翻譯 ·

2022 年 1 月 1 日

[付費5元查看完整內容]文本風格遷移研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

文本風格遷移是近年來自然語言處理領域的熱點問題之一，旨在保留文本內容的基礎上通過編輯或生成的方式更改文本的特定風格或屬性（如情感、時態和性別等）.文章旨在梳理已有的技術，以推進該方向的研究.首先，給出文本風格遷移問題的定義及其面臨的挑戰；然后，對已有方法進行分類綜述，重點介紹基于無監督學習的文本風格遷移方法并將其進一步分為隱式和顯式兩類方法，對各類方法在實現機制、優勢、局限性和性能等方面進行分析和比較；同時，還通過實驗比較了幾種代表性方法在風格遷移準確率、文本內容保留和困惑度等自動化評價指標上的性能；最后，對文本風格遷移研究進行總結和展望.

//www.jos.org.cn/jos/article/abstract/6544

付費5元查看完整內容

自然語言處理 · 預訓練模型 ·

2020 年 12 月 9 日

[付費5元查看完整內容]自然語言處理預訓練模型的研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來，深度學習技術被廣泛應用于各個領域，基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態，在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹，并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述；簡要分析傳統預訓練模型的特點及局限性，重點介紹基于深度學習的預訓練模型，并針對它們在下游任務的表現進行對比評估；梳理出具有啟發意義的新式預訓練模型，簡述這些模型的改進機制以及在下游任務中取得的性能提升；總結目前預訓練的模型所面臨的問題，并對后續發展趨勢進行展望。

付費5元查看完整內容

元學習 · NeurIPS 2020 ·

2020 年 10 月 22 日

[付費5元查看完整內容]「NeurIPS 2020」基于局部子圖的圖元學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目前流行的圖學習方法需要豐富的標簽和邊信息進行學習。「當新任務的數據稀缺時，元學習允許我們從以前的經驗中學習」，并形成急需的歸納偏見，以便快速適應新任務。

此文介紹了「G-META，一種新的圖的元學習方法：」

G-META 使用局部子圖傳遞特定于子圖的信息，并通過元梯度使模型更快地學習基本知識。 G-META 學習如何僅使用新任務中的少數節點或邊來快速適應新任務，并通過學習其他圖或相關圖(盡管是不相交的標簽集)中的數據點來做到這一點。 G-META 在理論上是合理的，因為「特定預測的證據可以在目標節點或邊周圍的局部子圖中找到。」

現有方法是專門為特定的圖元學習問題和特定的任務設計的專門技術。雖然這些方法為 GNN 中的元學習提供了一種很有前途的方法，但它們的特定策略沒有很好的伸縮性，也不能擴展到其他圖的元學習問題（圖1）。

付費5元查看完整內容