亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

文本生成已經變得比以往任何時候都更容易接觸,并且對這些系統,特別是使用大型語言模型的系統的興趣日益增加,這也促使了相關出版物數量的不斷增加。我們提供了一份系統文獻綜述,涵蓋了2017年至2024年間精選的244篇論文。該綜述將文本生成的研究工作分為五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰(例如,多文檔摘要的缺失數據集、故事生成中的連貫性以及問答中的復雜推理)。此外,我們評估了當前用于評估文本生成系統的方法,并確定了現有指標的問題。我們的研究表明,最近文本生成出版物中所有任務和子任務普遍存在的九個主要挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算。我們對這些挑戰、潛在解決方案以及仍需社區進一步參與的空白進行了詳細分析。該系統文獻綜述面向兩個主要受眾:希望了解該領域概況和有前景的研究方向的初級自然語言處理研究人員,以及尋求任務、評估方法、開放挑戰和最新緩解策略的詳細視圖的資深研究人員。

當模型具備了對自然語言進行建模的能力,特別是使用大型語言模型生成與人類寫作水平相當的文本時,AI領域取得了重大突破【38, 186, 197】。結合先進的深度學習架構、大規模數據和日益廉價的計算基礎設施,這揭示了大規模訓練AI助手的新范式。現在,任何人只要能夠訪問互聯網,就可以擁有自己的AI助手,以自動化諸如起草電子郵件、填寫表格或開發軟件等繁瑣且耗時的任務。雖然這種烏托邦式的情景會讓大多數人感到意外,但這不過是多年來來自AI、工程、統計、語言學和自然語言處理(NLP)等領域的研究人員和實踐者之間不斷、協作和逐步努力的結果。

從早期的分布式語義學【71】、基于規則的問答系統【130】、第一個神經概率語言模型(LM)【16】到GPT-4【3】、LLaMA【185】和Gemini【182】,NLP一直是推動AI快速進步的關鍵角色。如今,語言模型以文本到文本的方式解決問題,以可信且令人信服的自然語言進行接收和回應。這種問題解決方法的靈感來自于人類通過將答案表述為一系列具有特定意義的詞來解決各種問題的方式,這一過程被稱為文本生成。一般而言,文本生成是創建自然語言文本的過程。在文本生成的早期階段,模型會使用結構化數據、語法規則和模板來構建文本【130, 209】。如今,大多數方法使用神經網絡來估計詞序列中下一個詞的概率【16】。

文本生成解決方案高度多樣且強大,能夠執行多種任務,例如生成故事【19】或執行類似人類的推理【99】。廣泛的應用范圍和顯著的研究與開發興趣使得那些參與資金、研究和產品開發的人們對其全面理解有所減弱,這些人直接或間接地影響社會。對提出的研究模型、任務、數據集和開放挑戰的持續反思和評估是實現可持續發展和負責任地造福人類的方法的關鍵。因此,系統文獻綜述和綜述對于根據特殊興趣濃縮和組織現有相關工作,回顧性地討論這些機會和風險,并為未來研究提出建議至關重要。

在本文中,我們概述了2017年1月至2023年8月期間的最新文本生成研究,因為它滲透了NLP中與文本生產相關的大多數活動(例如翻譯【92】、摘要【108】)。我們的系統文獻綜述主要關注三個方面:任務和子任務(第3節)、評估指標(第4節)和挑戰(第5節)。具體而言,我們提出了以下關鍵問題來組織我們的研究:

1. 什么構成了文本生成任務?主要的子任務是什么?

2. 如何評估文本生成系統?其伴隨的局限性是什么?

3. 文本生成中有哪些開放挑戰?

4. 文本生成中的重要研究方向是什么?

圖1概述了文本生成中最突出的任務及相關挑戰。我們確定了五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答(第3節)。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰。接下來,我們評估了該領域中常用的評估方法(即無模型和基于模型的指標),并討論了它們的局限性(第4節)。此外,我們還識別了最近文本生成出版物中所有任務和子任務共有的九個突出挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算(第5節)。最后,我們重新審視、總結并回答了我們的研究問題(第6節)。為了重現性,我們公開分享我們方法的詳細信息(例如,關鍵詞、主觀決策、排除標準、代碼)以及在開放獲取倉庫中所考慮出版物的元數據。

付費5元查看完整內容

相關內容

生成式檢索(GR)是一種新興的信息檢索范式,利用生成模型直接將查詢映射到相關的文檔標識符(DocIDs),無需傳統的查詢處理或文檔重排序。本綜述提供了對GR的全面概述,重點介紹了關鍵發展、索引和檢索策略以及面臨的挑戰。我們討論了各種文檔標識符策略,包括數字和基于字符串的標識符,并探索了不同的文檔表示方法。我們的主要貢獻在于概述未來可能對該領域產生深遠影響的研究方向:改進查詢生成的質量、探索可學習的文檔標識符、增強可擴展性以及將GR與多任務學習框架集成。通過研究最先進的GR技術及其應用,本綜述旨在提供對GR的基礎性理解,并激發在這種變革性信息檢索方法上的進一步創新。我們還將諸如論文集等補充材料公開。

信息檢索(IR)的歷史經歷了顯著的演變,從基于統計詞關系的初步方法發展到利用先進深度學習技術的復雜系統。這一進程主要圍繞兩個主要訓練目標,如圖1所示:

目標1:向量相似度

最初,IR系統依賴于稀疏檢索技術,通過諸如詞袋模型和向量空間模型(VSM)(Salton, 1983)等方法利用詞之間的統計關系。在這些模型中,文檔被表示為稀疏向量,每個維度指示詞的存在或頻率。二元獨立模型(BIM)(Robertson和Jones, 1976)的發展和詞頻-逆文檔頻率(TF-IDF)的實現是這種方法的典型代表,強調了詞出現的獨立性和頻率。

隨著技術進步,重點轉向了稠密檢索。在這一階段,詞嵌入將詞轉化為稠密向量表示,捕捉到比單純關鍵詞匹配更深層次的語義相似性和上下文關系。在這一領域的重要發展包括Word2Vec(Mikolov et al., 2013)、GloVe(Pennington et al., 2014)以及變壓器網絡的進步如BERT(Devlin et al., 2018)。這些創新最終催生了如DPR(Dense Passage Retrieval)(Karpukhin et al., 2020)等復雜模型,通過采用稠密向量嵌入來理解復雜的查詢和文檔,顯著提高了信息檢索的精度和有效性。在DPR的基礎上,REALM(Guu et al., 2020)和RAG(Lewis et al., 2020)等模型將檢索與語言模型集成,進一步優化了相關性。ColBERT-QA(Khattab et al., 2021)通過上下文化嵌入進行精確答案檢索,提升了問答能力。

目標2:直接文檔映射

隨著信息檢索從向量相似度方法轉變,它采用了生成式檢索,這是一種利用生成模型直接生成與用戶查詢相關的文本響應或文檔標識符的方法。這標志著從匹配預先存在的向量表示到動態生成直接滿足用戶需求的文本輸出的重大轉變。在預檢索階段,生成模型通過諸如Xiao等人(2022)所示的使用掩碼自編碼器(MAE)的檢索導向預訓練范式等創新方法來提高稠密檢索的效率。該模型訓練從嵌入和掩碼輸入中重建句子,在各種基準測試中表現優異。在檢索階段,Lewis等人(2020)的檢索增強生成模型通過稠密段落檢索器選擇文檔并為復雜的自然語言處理任務生成答案,取得了頂級性能。此外,Tay等人(2022)的可微搜索索引(DSI)通過將查詢直接映射到相關文檔,顯著超越了傳統方法,并在零樣本設置中表現出強大的泛化能力。在后檢索階段,深度學習技術被應用于重新排序檢索到的文檔,如Guo等人(2016)通過分析查詢和文檔之間的復雜匹配模式來優化文檔排名。類似地,Mitra等人(2017)通過融合局部和分布式文本表示,利用局部和全局上下文來提高搜索結果質量,增強了網頁搜索重排序。通過這些創新,包括雙塔模型架構和可微搜索索引(DSI)(Tay等人,2022),生成式檢索不僅有效地響應查詢,還能在語料庫中識別相關信息,利用端到端訓練架構整合深度學習過程來簡化檢索體驗。

## 2 生成式檢索簡介

### 2.1 生成式檢索的定義

前一節展示了在各種信息檢索階段應用生成模型以促進任務執行。在本綜述論文中,我們旨在定義“生成式檢索”(GR),其背景是在Tay等人(2022)的可微搜索索引架構中,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。本質上,端到端架構足以完成信息檢索任務。我們正式定義GR為一個系統,其中,給定用戶查詢q作為輸入,seq2seq學習模型直接輸出若干文檔標識符(docids)。每個標識符j對應于語料庫D中的特定文檔dj,表明該文檔與查詢q相關(見圖2)。要實現這一點,GR需要兩個關鍵組件:索引和檢索。

#### 2.1.1 索引

在GR索引策略中,關鍵考慮因素是索引方法和索引目標。索引方法研究的是將文檔內容與其唯一標識符建立聯系的技術,基本上掌握了將每個文檔的文本與一個獨特的docid相關聯的過程。相反,索引目標關注文檔表示策略。這涉及有關索引細節級別的決策、索引特定文檔部分的重要性、處理重復信息的方式,以及語義理解在描繪文檔內容本質中的重要性。 在GR的索引方法中,重點是簡化將文檔內容與其唯一標識符連接的過程。我們可以將索引方法的過程公式化為對兩種類型的示例進行訓練。第一個是(dj, j),其中dj ∈ D表示語料庫D中的第j個文檔,j表示對應的標識符。構建索引時,對文檔-docid配對進行訓練是至關重要的。這種配對過程是創建每個文檔內容與其在數據庫中的位置之間的可檢索鏈接的第一步,從而實現高效的存儲和檢索。 第二個訓練示例是(qi, j),在這里我們將查詢qi與其相關的docid j鏈接。通過將查詢與相關的docid配對,系統學習定義用戶搜索意圖(通過查詢表達)和文檔內容(通過docid表示)之間相關性的上下文細微差別。這種訓練有助于模型理解哪些文檔與給定查詢最相關,這種理解僅通過索引是無法實現的。這些方法包括序列到序列轉換和雙向訓練的創新方法,以及基于跨度的去噪高級技術。第二個訓練示例的詳細信息將在第3節中討論。 對于索引目標,重點轉向系統中文檔的表示方式。由于模型容量和計算資源的限制,生成式檢索模型通常不可能以整個文檔作為直接輸入進行訓練。因此,有必要考慮其他有效表示文檔的方法,包括:

  1. 直接索引:取文檔的前L個標記。
  2. 集合索引:取前L個不重復的標記。
  3. 倒排索引:從文檔中隨機開始取連續的k個標記。
  4. 查詢作為表示:Zhuang等人(2022)提出了一種方法,使用生成的查詢來表示文檔,同時以DocID進行訓練。他們建議在訓練中使用查詢而不是整個文檔更符合檢索過程,因為檢索通常涉及使用查詢來查找相關文檔。 通過采用這些多樣化的索引方法,我們旨在提高生成式檢索系統的效率和準確性。直接索引和集合索引提供了簡單但有效的手段來捕獲重要的文檔內容,同時減少冗余。倒排索引提供了一種隨機但系統的方法來表示文檔,確保內容覆蓋多樣化。同時,利用查詢作為文檔表示將訓練階段與檢索階段對齊,促進更直觀和上下文感知的檢索過程。 最終,這些索引策略趨向于一個統一的目標:優化生成式檢索系統理解、索引和檢索文檔的能力,以高精度響應用戶查詢。通過平衡細節、相關性和全面性,我們可以確保系統不僅高效地存儲文檔內容,還能在用戶查詢時準確地檢索最相關的信息。這種平衡對于開發一個能夠處理多樣化和復雜信息需求的強大和可擴展的生成式檢索框架至關重要。

#### 2.1.2 檢索

完成索引階段后,我們將注意力轉向檢索階段。經典的GR模型采用seq2seq方法自回歸地解碼候選docids,其中這些docids的表示選擇對檢索效率至關重要。 在生成式檢索的開創性工作中,Tay等人(2022)引入了非結構化原子標識符方法,為每個文檔分配唯一整數。這一基礎方法得到了結構化標識符方法的補充,包括簡單結構的字符串標識符和語義結構的標識符,為細致的文檔表示鋪平了道路。隨著該領域的發展,后續工作在標識符表示上進行了多樣化探索,探索了字符串子集、文章標題等替代方案。第3節將詳細探討和比較這些擴展及其系列中的更廣泛工作,突出它們在生成式檢索背景下的貢獻和創新。

本文對生成式檢索(GR)進行了全面的綜述和分析,探討了其發展歷史、關鍵技術、挑戰和未來方向。以下是對信息檢索領域的五項重要貢獻

  • 信息檢索的發展歷程從稀疏檢索方法到稠密檢索技術,最終發展到生成式檢索,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。
  • 解釋了GR的核心概念,詳細說明了端到端的檢索過程、索引和檢索技術,包括文檔標識符策略和seq2seq模型。
  • 比較了各種文檔標識符類型,顯示具有語義信息的標識符通常表現更好,并探討了創建這些標識符的不同方法。
  • 討論了GR中的評估指標和常用數據集,強調它們在評估檢索性能和比較不同標識符策略中的作用。
  • 識別了諸如可擴展性和動態語料庫管理等挑戰。提出了未來的研究方向,如優化訓練方法、提高系統可擴展性以及整合多任務學習技術。

總之,這項研究提供了一個詳細的綜述,幫助讀者深入了解生成式檢索技術。它旨在激發該領域的進一步研究,并推動信息檢索技術的發展。

付費5元查看完整內容

視頻基礎模型(ViFMs)旨在為各種視頻理解任務學習通用表示。通過利用大規模數據集和強大的模型,ViFMs通過從視頻數據中提取穩健且通用的特征來實現這一目標。這篇綜述分析了超過200個視頻基礎模型,提供了針對14種不同視頻任務的基準和評估指標的全面概覽,并將其分為3個主要類別。此外,我們還對最常見的6種視頻任務的這些模型進行了深入的性能分析。我們將ViFMs分為三類:1)基于圖像的ViFMs,將現有的圖像模型應用于視頻任務;2)基于視頻的ViFMs,采用特定于視頻的編碼方法;3)通用基礎模型(UFMs),在單一框架內結合多種模態(圖像、視頻、音頻和文本等)。通過比較各種ViFMs在不同任務上的性能,這篇綜述提供了有關它們優缺點的寶貴見解,為視頻理解的未來進展提供指導。我們的分析結果令人驚訝地發現,基于圖像的基礎模型在大多數視頻理解任務上始終優于基于視頻的模型。此外,利用多模態的UFMs在視頻任務上表現出色。我們在以下地址分享了這項研究中所分析的ViFMs完整列表://github.com/NeeluMadan/ViFM_Survey.git

強大的計算資源的日益普及和不斷增長的數據集推動了基礎模型的發展[10, 24]。這些多功能的AI模型使用自監督學習或半監督學習在海量數據上進行訓練,可以通過微調用于各種下游任務。最初的成功集中在靜態圖像上[123, 238],例如CLIP[238]和SAM[139]等模型都取得了令人印象深刻的成果。最近的研究[322, 352]已將這一成果擴展到視頻領域,開發出了幾種針對視頻基礎模型(ViFMs)的預訓練策略。 盡管視頻分析和生成數十年來一直是計算機視覺社區關注的焦點[19, 30, 134, 142, 278, 281],但由于任務的復雜性、額外的時間維度以及數據量龐大,這一問題在很大程度上一直具有挑戰性。最初開發的方法主要基于使用標準圖像分析技術處理各個幀并在其上加入時間維度[30, 80]。或者,專為視頻設計的更高級技術也被開發出來,例如3D卷積[338]、循環網絡、光流的使用以及Transformers[7, 19],直接作用于視頻,從而提供更好的時間建模。此外,針對增強視頻理解的多模態角色的研究也有顯著發展[111, 245]。 我們在ViFMs的發展中也看到了類似的趨勢,延續了圖像(基于圖像的ViFMs)、獨立的視頻建模(基于視頻的ViFMs)以及結合額外模態(例如自動語音識別(ASR))(通用基礎模型,Universal FMs)的路徑。 動機和貢獻:視頻理解領域正在經歷顯著的進步,這可以從日益增長的專注于各類視頻理解任務的研究論文數量中看出(圖1)。這種增長與大規模預訓練技術的發展相吻合。這些技術在適應不同任務方面表現出非凡的能力,只需最少的額外訓練即可實現強大的泛化。因此,研究人員正在積極探索這些基礎模型在解決各種視頻理解挑戰中的作用。為了在這個快速發展的研究領域中導航(見圖2),對視頻理解模型進行系統的綜述是必要的。我們試圖通過對用于視頻理解任務的基礎模型進行全面分析來填補這一關鍵空白。我們希望這篇綜述能夠為視頻理解相關的未來研究方向提供路線圖。

我們綜述的主要貢獻: * 本文首次對部署于各種視頻理解任務的基礎模型(ViFMs)進行了全面的綜述。我們將ViFMs分為三類:1)基于圖像的ViFMs:僅在圖像數據上進行訓練。2)基于視頻的ViFMs:在訓練期間利用視頻數據。3)通用基礎模型(UFMs):在預訓練期間結合多種模態(圖像、視頻、音頻、文本)。 * 我們獨特地根據視頻理解任務中對時間維度的涉入程度對其進行了分類。此外,還提供了與每個分類任務相關的數據集和評估指標的詳細列表。 * 我們對每個類別的ViFMs進行了全面的比較,分析了各種研究成果。這一分析揭示了有關最有效的ViFMs在不同視頻理解任務中的寶貴見解。 * 本綜述進一步指出了ViFMs面臨的關鍵挑戰,強調了需要進一步研究關注的開放性問題。此外,我們討論了ViFM開發的有前景的未來方向,為視頻理解的進步鋪平道路。

相關綜述:盡管一些綜述深入探討了特定的視頻理解任務[353, 366]或圖像的基礎模型[10],如Shiappa等人[252]提供了關于自監督視頻理解方法的詳盡綜述,但近年來這一領域已經發生了顯著變化。隨著大規模基礎模型的興起,需要對這些模型在視頻理解背景下進行全面的綜述。據我們所知,我們的綜述是第一個提供用于視頻理解的基礎模型的全面概述。 論文組織結構:在論文的第一部分(第2節),我們涵蓋了從視頻分類到生成的各種視頻分析任務。我們討論了廣泛使用的架構和損失函數,以及與大規模預訓練相關的數據集。接下來,我們解釋了ViFMs的主要類別,即:基于圖像的ViFMs(第3節)、基于視頻的ViFMs(第4節)和通用基礎模型(UFMs)(第5節)(有關分類法請參見圖5)。最后(第6-7節),我們比較并討論了所介紹模型的性能,并展示了該領域的挑戰和未來方向。

付費5元查看完整內容

在過去的十年中,深度學習在人工智能的各個領域,包括自然語言處理、計算機視覺和生物醫學信號處理中,顯示出了顯著的主導地位。盡管模型準確性有了顯著提高,但在移動電話和微控制器等輕量級設備上部署這些模型受到了有限資源的制約。在這篇綜述中,我們為這些設備提供了全面的設計指導,詳細介紹了輕量級模型的精細設計、壓縮方法和硬件加速策略。這項工作的主要目標是探索在不影響模型準確性的前提下,如何繞過硬件限制的方法和概念。此外,我們還探討了未來輕量級深度學習的兩條值得注意的路徑:TinyML 和大型語言模型的部署技術。盡管這些路徑無疑具有潛力,但它們也帶來了重大挑戰,鼓勵對未探索領域的研究。

近年來,神經網絡(NN)的重要性急劇上升,其應用已滲透到日常生活的各個方面,并擴展到支持復雜任務【18, 84, 222】。然而,自2012年AlexNet【110】發布以來,一直流行著創建更深、更復雜的網絡以提高準確性的趨勢。例如,Model Soups【215】在ImageNet數據集上取得了顯著的準確性,但代價是超過18.43億個參數。同樣,GPT-4【10】在自然語言處理(NLP)基準測試中表現出色,盡管其擁有驚人的1.76萬億參數。值得注意的是,Amodei等人【4】指出,從2012年到2018年,深度學習(DL)的計算需求急劇增加,大約增長了300,000倍。這種尺寸的急劇增加為本文探討的挑戰和發展奠定了舞臺。

同時,近幾年來Green AI【169, 188】已成為突出的關注點,因其對顯著的GPU和訓練時間需求標記出不適合使用的重量級DL模型,這可能導致環境退化。Strubell等人【178】對在多GPU上訓練的語言模型的碳足跡進行了廣泛分析。與此同時,輕量級設備因其多功能應用和便攜性而受到增加的關注。根據Sinha【174】的說法,2022年連接的IoT設備數量增長了18%,達到了144億,并預計到2027年將增長到290億。自2016年以來生產的超過2億部iPhone證明了這種需求的增長。另一方面,邊緣設備提供了比移動設備更優越的自動化和能效,特別是在如起搏器和額溫計等設備中部署的超低成本微控制器(MCU)【46】。

為了應對上述實際需求,近年來出現了大量研究,重點是輕量級建模、模型壓縮和加速技術。連續在CVPR 2021-2023年期間舉行的年度移動AI(MAI)研討會【139–141】,主要強調在ARM Mali GPU和Raspberry Pi 4等資源受限的設備上部署DL模型用于圖像處理。此外,在ICCV 2019、ICCV 2021和ECCV 2022【3】舉辦的圖像操作進步(AIM)研討會組織了圍繞在移動設備上進行圖像/視頻操作、恢復和增強的挑戰。

通過我們的研究,我們發現從設計階段到部署,分析高效輕量級模型發展的最有效方法涉及到將三個關鍵元素整合到流程中:NN架構設計、壓縮方法和輕量級DL模型的硬件加速。以前的綜述【11, 62, 69, 121, 165】通常只關注這一流程的特定方面,例如僅討論量化方法,提供那些部分的詳細見解。然而,這些綜述可能無法提供整個過程的全面視圖,可能忽視了重要的替代方法和技術。相比之下,我們的綜述涵蓋了輕量級架構、壓縮方法和硬件加速算法。

1.1 神經網絡設計

在本文的第一部分,第2節中,我們考察了經典的輕量級架構,將它們歸類為系列族以提高清晰度。其中一些架構通過引入創新的卷積塊取得了重大進展。例如,深度可分離卷積[35]優先考慮高精度和降低計算需求。Sandler等人[168]引入了反向殘差瓶頸來增強梯度傳播。其他架構,如ShuffleNet[248],能夠開發優化的卷積操作,該操作應用了群卷積[110]以實現并行設計,并通過洗牌操作進一步提高數據組間的轉移能力。ShiftNet[217]實現了與傳統卷積相等的效果,但不需要參數或浮點運算(FLOPs)。AdderNet[21]用加法操作取代乘法操作,大大降低了計算需求。

還需注意的是,參數和FLOPs與推理時間并不總是一致相關。早期的輕量級架構,如SqueezeNet[98]和MobileNet[89],旨在減少參數和FLOPs。然而,這種減少常常會增加內存訪問成本(MAC)[138],導致推理速度變慢。因此,我們旨在通過提供更全面和深入的綜述來促進輕量級模型的應用。

1.2 神經網絡壓縮

除了輕量級架構設計外,第3節還提到了可以應用于壓縮給定架構的各種高效算法。例如,量化方法[97, 132, 230]旨在減少數據存儲需求,常通過用8位或16位數字甚至使用二進制值代替32位浮點數來實現。最簡單的剪枝算法[54, 67, 114]從模型中移除參數,以消除網絡內不必要的冗余。更復雜的算法可能會從網絡中移除整個通道或濾波器[81, 135]。知識蒸餾(KD)技術[62, 85]探討了從一個模型(稱為“教師”)向另一個模型(稱為“學生”)轉移知識的概念。教師代表一個具有所需知識的大型預訓練模型,而學生則是一個未訓練的小型模型,負責從教師中提取知識。隨著方法的演進,一些算法[5, 239]通過使用相同的網絡兩次,消除了額外教師模型的需要。隨著這些各種壓縮方法的進展,常見的是采用兩種或更多技術的融合,例如在同一模型中結合剪枝和量化方法。

1.3 神經網絡部署

在第4節中,我們瀏覽了專用于DL應用的常見硬件加速器的概況,包括圖形處理單元(GPUs)、現場可編程門陣列(FPGAs)和張量處理單元(TPUs)。此外,我們描述了各種數據流類型[23, 65, 103, 128]并深入探討了數據局部性優化方法[146, 177, 241],探索支撐DL工作流中高效處理的復雜技術。本篇綜述還討論了加速DL過程的流行DL庫[1, 24, 153],這些庫和框架在優化硬件加速器的利用中發揮了關鍵作用。此外,我們還研究了共同設計的解決方案[32, 152, 212],在加速DL中實現優化和整體的成果需要仔細考慮硬件架構和壓縮方法。

1.4 挑戰與未來工作

最后,在第5節中,我們開始探索旨在在極低功耗設備上執行DL模型的新興TinyML技術,這些設備通常的功率消耗不到1毫瓦。此外,我們的論文還深入探討了大型語言模型(LLMs),這些模型在資源有限的設備上部署時面臨挑戰,因為它們的模型尺寸巨大。在計算機視覺領域,將這些方法部署在邊緣設備上對于廣泛應用至關重要。

1.5 貢獻

本文旨在簡單但準確地描述如何利用輕量級架構、壓縮方法和硬件技術在資源受限的設備上實現準確模型。我們的主要貢獻總結如下: (1) 以前的綜述僅簡要參考了少數關于輕量級架構的作品。我們將輕量級架構組織成系列,例如將MobileNetV1-V3和MobileNeXt歸類為MobileNet系列,并提供了從其開始到現在的輕量級架構的歷史。 (2) 為了全面覆蓋輕量級DL應用,我們還涵蓋了壓縮和硬件加速方法。與許多其他綜述不同,我們的綜述明確建立了這些技術之間的聯系,提供了每個領域的徹底概覽,以便全面了解它們的相互關系。 (3) 作為輕量級DL領域前沿進展的一部分,我們回顧了當前的挑戰并探索了未來的工作。首先,我們探討了TinyML,這是一種為在資源極其有限的設備上部署DL模型而設計的新興方法。隨后,我們調查了各種當代倡議,這些倡議在輕量級DL領域的邊緣設備上利用LLMs,這是一個有前景的方向。

付費5元查看完整內容

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。

實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。

本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。

如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。

付費5元查看完整內容

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容

我們從跨模態生成的角度回顧了從文本生成視覺數據的研究。這種觀點讓我們能夠在不將分析局限于狹窄的子領域的情況下,對各種旨在處理輸入文本并產生視覺輸出的方法進行比較。這也導致了在該領域內識別出共同的模板,這些模板隨后在類似方法池中以及跨越研究線索進行了比較和對比。我們將文本到圖像的生成分解為各種形式的從文本到圖像的方法、從文本到視頻的方法、圖像編輯、自監督學習和基于圖的方法。在這次討論中,我們關注的是2016-2022年間在8個領先的機器學習會議上發表的研究論文,同時也包括了一些不符合概述搜索標準的相關論文。進行的綜述表明該領域發表的論文數量顯著增加,并強調了研究空白和潛在的研究方向。據我們所知,這是第一次從跨模態生成的視角系統性地審視文本到圖像的生成

**1 引言 **

自2012年ImageNet大規模視覺識別挑戰(ILSVRC)以來,當AlexNet [70] 顯著超越了所有先前方法后,深度學習成為了圖像分類的事實標準,因為它能夠比其他方法實現顯著更高的準確度。卷積神經網絡(CNNs)已成為視覺領域進步的主要動力,首先是使用反向傳播 [74] 的基本形式,隨后引入了殘差連接 [46]。這被自然語言處理(NLP)領域的進步所仿效,后者依賴于循環神經網絡(RNNs),其中長短期記憶(LSTM)[53] 架構成為一種特別成功的方法。隨后,注意力機制 [7] 的設計導致了基于注意力的架構,如Transformer [148],以及針對Transformers的預訓練(BERT)[29]。Transformer架構的進步已進入視覺領域,表現在Vision Transformer(ViT)[33]的設計上。 CNN/ViT在視覺領域和RNN在NLP領域的方法共同依賴于分類任務。這在視覺領域更為明顯,其中手頭的問題通常本身就是分類任務。NLP架構可能以更隱性的方式使用分類,例如在機器翻譯中,問題形式可允許多步驟分類作為可行的任務形式。 然而,必須指出,基于分類的問題并不是深度學習取得顯著進步的唯一領域。新技術成功引入的一個廣泛研究領域是生成模型領域。使用編碼器/解碼器架構 [1] 的想法為生成建模找到了新的相關性,隨著變分自編碼器(VAEs)[67] 和生成對抗網絡(GANs)[42] 的出現,以及后來的擴散模型 [134]。這些模型最初有限的能力被擴展,例如通過引入穩定GAN訓練的措施,形成了DCGAN模型 [113]。隨后進行了更多擴展基本方法的工作。對于VAEs的顯著例子包括量化的VAE(VQ-VAE)[147] 及其第二代 [117]。對于GANs,通過像StackGAN [168] 及其擴展 [169] 這樣的模型進行了改進。在擴散方面,通過去噪擴散概率模型(DDPMs)[50],[104],[30] 的出現取得了進展。 聚焦于VAEs、GANs和擴散,所有這些方法都依賴于隨機輸入作為數據生成過程的種子。這種隨機性是生成樣本多樣性的來源。也已經實驗性地顯示,輸入可能還攜帶了關于生成樣本的某種語義信息。對于視覺而言,這可能意味著輸入到系統中的隨機數據決定了在生成圖像中可見的選定特征 [113],而這些特征可能與人類對描述性屬性的理解相關聯。 這不僅適用于隨機輸入,還適用于提供給架構的特定定制信息。原則上,VAEs、GANs和擴散模型并不嚴格要求所有輸入數據都是隨機的,因此可以向模型展示額外信息。在這種情況下,生成過程取決于輸入數據,架構可以被認為是條件生成模型。條件信息的確切形式可能有所不同。在相對簡單的設置中,它可能是我們希望生成的實例所屬類的標簽。然而,情況可能并不那么簡單。 如果我們考慮條件信息編碼了所需生成圖像的一部分特征,那么就有可能使用由單獨訓練的模型或聯合訓練架構的上游部分提取的實際特征。一個相關的例子可能是使用CNN或ViT特征提取器(圖像編碼器)處理輸入圖像,并得到這個圖像的特征表示。然后,這個表示可以輸入到基于VAE、GAN或擴散的模型中。原則上,這個過程可以針對多個數據源重復進行,無論是否包括隨機數據。一個具體的例子可能涉及圖像編輯任務,其中輸入圖像由CNN/ViT圖像編碼器處理,所需最終圖像的文本描述由RNN文本編碼器處理。然后將這些表示融合為一個,傳遞給轉置卷積(TCNN)[35] 圖像解碼器、Transformer圖像解碼器 [148],可能以自回歸方式 [146],或擴散圖像解碼器 [134] 來生成與輸入圖像特征相符但符合提供描述的圖像。這一過程的概述可見于圖1。

這個例子展示了條件數據生成的一個重要原則。即,沒有明確的假設條件數據來自于與輸出數據相同的分布,或實際上是相同的模態。所需圖像的描述來自文本模態,而生成的輸出來自圖像模態。因此,有可能根據另一模態的輸入生成一個模態的數據。這個一般過程可以被描述為跨模態生成。可以考慮各種可能的跨模態設置,其中包含一個或多個輸入模態,類似地,一個或多個輸出模態,每個輸入和輸出模態都可能不同。例如,可以根據圖像生成音頻,或相反地,根據音頻輸入生成圖像。 在眾多可能的模態中,文本和視覺模態是顯著研究努力的對象。這部分可以歸因于圖像和文本模態都已經分別在視覺和NLP領域進行了相對密集的研究。此外,文本或語言領域由于大多數語言問題依賴于有限的詞匯量,從而允許使用多步驟分類方法處理文本,因此具有固有的結構。例如,從輸入圖像生成文本描述,即圖像字幕,可能使用多步驟分類程序來選擇字幕中的后續詞語。這里的一個重要點是,在這種設置中,圖像編碼器和文本解碼器可以像在視覺和NLP中一樣使用,無需顯著修改,這使得將這些方法移植到生成設置中變得更容易。由于上述原因,圖像字幕,作為圖像到文本生成的子領域 [166],可能是跨模態文本和視覺生成中探索最多的領域。 另一方面,從文本領域到視覺領域(例如圖像、視頻等)在研究產出方面受到的關注明顯較少。這背后的一個重要原因可以追溯到數據的固有結構。雖然文本到圖像生成可能在輸入端獲得類似于圖像到文本問題的好處,其中可以利用文本的結構化特性,但在輸出端的情況完全不同,那里涉及圖像。與文本描述不同,圖像沒有有限的詞匯量,至少在傳統意義上是這樣的,因此,潛在圖像的空間顯著大于文本生成問題。這是因為對于給定大小的圖像,原始像素輸出可以在圖像的每個點上設置,從而導致可能組合的數量爆炸性增長,問題的維度非常高。如果我們考慮所有有效圖像的空間,其中有效圖像我們理解為按照某種相似度度量看起來像數據集中的實際圖像,那么隨機生成有效圖像的可能性可能比隨機生成有效句子(對于圖像字幕問題)要小得多。因此,雖然使用非隨機方法生成有效圖像高度依賴于方法,但可能仍然比基于圖像生成有效句子要求更高。所有這些使得這個問題對多步驟分類方法的適應性大大降低。這些困難導致文本到圖像生成的研究領域相對于圖像到文本問題明顯被低估。盡管研究產出有限,但最近在這個領域取得了顯著進展。 圖像到文本和文本到圖像的問題已經得到了顯著的擴展,都處于跨模態生成研究的前沿。它們還吸納了深度學習其他領域的研究線索。 在這項工作中,我們特別關注文本到圖像問題及其派生任務。隨著對這一領域的興趣和研究成果不斷增加,有必要對各種研究方向進行全面的回顧。據我們所知,現有的文本到圖像生成研究缺乏這樣的回顧,這也是本工作的主要貢獻所在。我們的目標是建立文本到圖像生成內部各個領域以及與深度學習其他領域的聯系,將分散的研究線索匯聚起來。我們的意圖是從跨模態生成的全局視角統一討論。本次回顧的起點是發表在8個機器學習會議上的研究論文: ? 神經信息處理系統會議(NeurIPS) ? 國際機器學習會議(ICML) ? 國際學習表示會議(ICLR) ? AAAI人工智能會議(AAAI) ? 國際人工智能聯合大會(IJCAI) ? 計算機視覺國際會議(ICCV) ? 歐洲計算機視覺大會(ECCV) ? 計算機視覺與模式識別會議(CVPR)。

更具體地說,我們考慮了2016年至2022年的時間段內發表的論文 - 在撰寫時刻的最新出版年份。我們已經在會議論文集中搜索了以下術語:跨模態,多模態,生成和擴散。根據符合這些標準的論文,我們選擇了那些實際涵蓋文本到圖像生成的論文。我們還添加了一些不符合概述搜索標準但仍然與文本到圖像生成相關的論文,特別是關于文本到圖像擴散模型的工作。我們努力提供對跨模態文本到圖像生成的全面回顧,重點關注各種方法的共同要素以及它們的獨特特性。涵蓋的主題概述如圖2所示。 本次回顧的流程結構如下。在第2節中,描述了文本到圖像生成問題,詳細討論了與此任務相關的子領域。特別是,第2.1節涵蓋了從文本生成圖像,第2.2節討論了標準方法的迭代擴展,第2.3節聚焦于基于Transformer的變種,第2.4節描述了自監督方法,第2.5節強調了從文本輸入生成視頻的可能性,第2.6節處理了根據描述編輯圖像的任務,第2.7節考慮了圖方法,而第2.8節回顧了剩余的特殊方法。在第3節中,討論了未來研究的潛在方向。第4節總結。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。

//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c

擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。

強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。

近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。

本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。

擴散模型的基礎

本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。

**在RL中擴散模型的角色 **

擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。

規劃器

在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。

策略

與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。

**數據合成器 **

除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。

結論

本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。

付費5元查看完整內容

知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。

付費5元查看完整內容

持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司