亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自然語言處理(NLP)領域的最新進展顯著提升了語言模型的能力,吸引了學術界和工業界研究者的高度關注。這些模型在大量文本數據集上進行訓練,在各種語言任務中表現出色,如翻譯、摘要、問答和對話生成。支撐這些發展的核心是數據,作為NLP的命脈,尤其在當前的大型語言模型需要龐大的數據集才能有效學習和生成精確輸出的背景下,數據的作用更加至關重要。本論文聚焦于面向數據的優化方法,旨在提升語言模型在各種NLP應用中的性能。它提出了創新的方法,改進模型對數據的攝取和處理方式,從而在實際應用中取得了顯著的進展。 本研究通過深入探討NLP中數據驅動的各個方面,涵蓋數據的數量和質量。通過自上而下的方法,本研究跨越了數據生命周期的各個環節,涉及數據的利用、增強和構建。在數據利用方面,研究首先在有限數據下調整模型,然后利用無標簽數據的潛力,通過持續學習提升模型性能。轉向數據增強部分,研究通過提升合成生成數據的質量,以鞏固模型的知識,為持續學習提供支持。接著,設計了一種方法控制指令數據的復雜性,并研究其對大型語言模型性能的影響。在數據構建方面,研究首先開發了一個因果完備的大規模預訓練語料庫,專門針對文檔基礎的對話任務。除此之外,本研究還利用大型語言模型的能力,創建了多種工具的指令數據集,從而賦予模型工具使用的能力。 總之,本論文對數據驅動的NLP研究做出了貢獻,系統地涵蓋了數據處理的完整周期。本論文提出的創新方法旨在顯著提升語言模型的能力,并改善其在各種實際場景中的應用效果。

付費5元查看完整內容

相關內容

自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

人類通過整合多種感官信息(包括視覺、語言和聽覺線索)來理解和與周圍環境互動。視覺-語言表示學習領域致力于使機器學習視覺和文本數據之間的多模態關聯與互動。本論文解決了三個關鍵問題:預訓練數據的可擴展性、預訓練目標的效率以及細粒度的視覺-語言對齊。 在數據可擴展性方面,我們關注利用未配對的圖像和文本進行可擴展的視覺-語言表示學習。為了增強模態之間的隱式對齊并增加數據的多樣性,我們引入了跨模態CutMix技術,該技術通過將視覺補丁與句子混合,創建多模態句子,即句子的多模態視圖。通過將多樣化的多模態句子融入對比學習,文本與多模態樣本之間的實例級對齊得到了有效利用。我們的方法繞過了配對數據集的限制,促進了基于更廣泛和更多樣的未配對數據的可擴展多模態表示學習。 在學習效率方面,我們研究了加速視覺-語言預訓練的方法。我們實證發現,訓練效率的一個重要障礙在于掩碼語言建模中的預測率(重建的令牌百分比)和破壞率(破壞的令牌百分比)交織在一起。具體來說,適當的破壞率是以大量輸出令牌被排除在預測損失之外為代價的。為了克服這一限制,我們提出了自由語言建模(FLM),這是一種新的預訓練目標,能夠將預測率與破壞率在掩碼語言建模中解耦。我們的方法通過允許為每個令牌自定義破壞范圍,從而實現了更快的收斂,同時在下游視覺-語言任務中保持了競爭力的表現。 關于跨模態對齊粒度,我們深入研究了未修剪視頻與自然語言之間的細粒度對齊。我們提出了一個針對未修剪視頻的基礎視覺-語言學習(GVL)框架,重點在于檢測有信息量的事件并將多句描述與相應的事件段對齊。我們引入了并行解碼范式(PDVC)用于密集視頻字幕生成,以有效地對視頻進行分段,從而提高生成的密集字幕的連貫性和可讀性。此外,我們提出了兩個雙重預文本任務以促進細粒度的段級對齊:文本到事件對比和事件到文本生成。該框架具有廣泛的適用性,可應用于視覺基礎的語言理解與生成任務。 我們進行了大量實驗以驗證我們提出的方法。這些工作不僅推動了多模態學習的前沿,也為機器智能系統中視覺與語言的更高效、更有效的整合鋪平了道路。

付費5元查看完整內容

深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。

付費5元查看完整內容

當前的深度學習模型被訓練以適應訓練集的分布。盡管得益于前沿架構設計的顯著進展,這些模型仍無法對分布外(OOD)樣本進行推理——即那些與訓練集范圍不一致的實例。與人類不同,人類能夠自然地識別未知的事物,而當前的深度學習模型卻缺乏這一能力。由于很難將開放世界中的所有物體包含在訓練集中,設計一種開放集識別算法來檢測和拒絕OOD樣本變得至關重要。本論文聚焦于研究開放集識別及其在計算機視覺中的應用。首先,我們介紹了一個用于自動駕駛應用的開放集3D語義分割系統。我們的目標是檢測那些不常見的、未包含在訓練集中的異常物體,因為這些離群點對自動駕駛系統的安全至關重要。隨后,我們從信息瓶頸的角度分析開放集問題,并提出了一種原型相似度學習算法,以學習更多類別特定和實例特定的信息,從而提高開放集識別性能。最后,我們深入分析了一個新設定——統一開放集識別,在這一設定中,既要檢測OOD樣本,也要檢測那些被錯誤分類的訓練集內樣本,因為模型對這些樣本的預測是錯誤的。總的來說,我們的工作為開放集識別社區提供了新的理論分析視角、新的訓練與評估設定,以及新的應用方向。

付費5元查看完整內容

//arxiv.org/pdf/2411.17992

機器學習,特別是神經網絡,現如今廣泛應用于許多領域,如貸款評估、搜索結果和招聘推薦。這些系統通常提供自動化決策,影響著大多數人的生活。近年來,自然語言處理(NLP)應用特別受到關注,尤其是非常高效的通用模型的出現,特別是聊天系統,這些系統現在被廣泛使用,甚至普通公眾也能直接使用它們。

不幸的是,這些系統并非沒有缺陷。僅在招聘系統中,就有性別歧視的案例,比如簡歷中“國際象棋俱樂部成員”受到青睞,而“女性國際象棋俱樂部成員”則被忽視,或者某些系統認為計算機科學學位是醫院打字員的必要資格。雖然前者可能通過分析模型的性別偏差并加以修正來緩解,但后者過于具體,可能只能通過解釋模型的預測來揭示。 可解釋性 是一個研究領域,致力于用人類可以理解的術語解釋模型和數據集。其目標通常是防止不良行為,正如上述例子所示。不幸的是,這個領域經常面臨提供錯誤解釋的問題,即解釋并未反映模型的真實情況。例如,解釋表明哪些輸入詞語很重要,可能并不比隨便指出隨機詞語更有價值。當解釋真實反映模型時,這種解釋被稱為“忠實解釋”。 不幸的是,衡量一個解釋是否忠實(忠實度指標)非常具有挑戰性,因為我們無法得到真實的標準答案。一個重要的原因是,模型通常太復雜,人類難以理解,因此無法判斷解釋是否忠實于模型。更糟糕的是,設計不當的忠實度指標可能會給出錯誤的信心,而錯誤的解釋則可能會給出對模型行為的虛假信心。因此,本論文的核心研究問題是:“如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋?” 在可解釋性領域,目前有兩種主要的范式來回答這個問題:內在范式和后驗范式。 內在范式認為“只有在架構上設計為可以解釋的模型才能被解釋”,而后驗范式認為“可以且應該在模型訓練完成后生成解釋,以避免任何性能影響”。 通過分析現有文獻并提出新的忠實度指標,本論文認為這兩種范式都未能取得有效的進展。后驗解釋的忠實度經常受到批評,而內在模型要么實際上并非內在的,要么由于過于受限,無法成為高性能的通用模型。 因此,本論文假設該領域應通過結合兩種現有范式的優點,發展出新的范式來回答核心研究問題。具體來說,本論文設計了無需架構約束的可解釋模型,這樣這些模型仍然是通用且高性能的。特別地,本文提出了兩種潛在的范式,即“忠實度可度量模型”(FMMs)和“自解釋”。FMMs直接回答核心研究問題,而自解釋目前尚未完全解答該問題,但可能在未來解決。 忠實度可度量模型(FMMs) 是本論文提出的新范式,它將內在范式的“設計可解釋的模型”重新表述為“設計能夠便捷且可靠地測量忠實度的模型”。如本論文所示,這比內在范式提出的目標要容易得多,因為它不要求架構約束。該范式的具體展示應用于重要性度量——即指出每個輸入特征在做出預測時的重要性。對于這類解釋,FMMs只需對訓練過程進行小幅修改,即在訓練時隨機屏蔽輸入標記。 這種訓練過程使得我們可以使用忠實度擦除指標:“如果一個特征確實重要,那么如果去掉該特征,模型的預測應該會發生顯著變化。” 這個指標不能應用于任何模型,因為去除特征(例如詞語或標記)會導致分布外問題。然而,這種FMM支持去除特征,因此使得該指標得以應用。由于現在忠實度測量變得既便宜又可靠,因此可以優化解釋,以達到最大的忠實度。因此,FMMs變得間接地內在可解釋,但無需架構約束,并且還回答了如何衡量忠實度,從而回答了核心研究問題。 自解釋 是另一種新興范式,這些解釋直接作為模型的輸出生成。這類解釋因聊天系統的興起而變得流行,這些系統通常會以自然語言的形式闡明它們發出的解釋。然而,由于自解釋的自由形式,評估其忠實度極為困難。此外,由于這些模型也存在幻覺問題,因此有充分的理由對此保持懷疑。盡管如此,這些解釋仍然非常普遍,并且常常被當作真理接受,包括研究人員在內。為了評估這一新范式的可行性,本文還提出并評估了自解釋的忠實度指標。研究結果表明,類似于后驗解釋,它們是模型和任務相關的。 本文還研究了后驗和內在解釋的忠實度,發現結論與模型和任務的依賴性相同。然而,當使用忠實度可度量模型時,即便使用相同的后驗解釋方法,且在相同的數據集和基礎模型上,也得出了不同的結論。 這得出一個總體結論:忠實度默認是依賴于模型和任務的。然而,即便是對模型進行簡單修改,如隨機屏蔽訓練數據集(如在忠實度可度量模型中所做的),也能極大地改變局面,從而得到一致忠實的解釋。我們提供了一些建議,說明如何也可以通過自解釋來實現這一點。此外,利用忠實度可度量模型,本文證明了有可能確定新的可解釋性范式,克服過去的局限,并回答如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋這一核心研究問題。

付費5元查看完整內容

基于車載3D LiDAR的幾何與語義場景理解深度學習研究

3D LiDAR點云數據在計算機視覺、機器人學和自動駕駛中的場景感知中起著至關重要的作用。涉及3D點云的幾何與語義場景理解是推動自動駕駛技術發展的關鍵。然而,仍然存在許多挑戰,特別是在提高這些系統的整體準確性(如分割精度、深度估計精度等)和效率方面。

為了解決與LiDAR任務相關的準確性問題,我們提出了DurLAR,這是首個高保真128通道3D LiDAR數據集,具有全景環境(近紅外)和反射率圖像。利用DurLAR,超越了先前基準的數據集分辨率,我們著手解決單目深度估計任務。利用這種高分辨率但稀疏的真實場景深度信息,我們提出了一種新型的聯合監督/自監督損失函數,大大提高了深度估計的精度。

為了在確保精度的同時提高3D分割的效率,我們提出了一種新穎的管道,采用更小的架構,所需的真實標簽注釋更少,同時在分割精度上超越了現有方法。這一創新通過一種新型的稀疏深度可分卷積(SDSC)模塊得以實現,該模塊顯著減少了網絡的參數量,同時保持了任務的整體性能。此外,我們還引入了一種新的時空冗余幀下采樣(ST-RFD)方法,該方法利用傳感器運動知識提取多樣化的訓練數據幀樣本,從而提高計算效率。

此外,近年來在3D LiDAR分割方面的進展重點關注點云的空間定位和分布,以提高分割精度。然而,坐標和點強度的依賴性導致了性能的亞優表現和較差的等距不變性。為了提高分割精度,我們引入了基于距離感知的點距離分布特征(RAPiD)及其相關的RAPiD-Seg架構。這些特征展示了剛性變換不變性,并能適應點密度變化,專注于鄰近結構的局部幾何。利用LiDAR的各向同性輻射和語義分類,它們增強了局部表示和計算效率。 通過廣泛的實驗和定性分析,我們驗證了方法的有效性。我們的方法在語義分割的mIoU和深度估計的RMSE上超越了現有的最先進技術(SoTA)。所有貢獻已被同行評審的會議接受,進一步證明了我們在自動駕駛中3D LiDAR應用的準確性和效率方面的進展。

付費5元查看完整內容

大型語言模型(LLMs),如ChatGPT,憑借其出色的對話能力和智能性,在過去幾年中迅速滲透到人們的工作和日常生活中。ChatGPT已經成為人類歷史上用戶增長最快的軟件,并成為下一代人工智能應用的重要基礎模型。然而,LLMs的生成內容并非完全可靠,它們經常產生包含事實錯誤、偏見和有害性的內容。鑒于其龐大的用戶群體和廣泛的應用場景,這些不可靠的回應可能帶來許多嚴重的負面影響。本文介紹了我在博士研究期間對語言模型可靠性領域的探索性工作,從自動化軟件測試和自然語言處理的角度研究LLMs的準確性、無害性和公平性。首先,為了衡量LLMs的準確性,我們提出了兩個新的測試框架:FactChecker和LogicAsker,分別用于評估事實知識和邏輯推理的準確性。FactChecker通過從大規模知識庫中檢索事實三元組來構建知識圖譜,進而生成各種類型的問題及預期答案,作為測試用例。LogicAsker是一個最小功能測試框架,它通過收集邏輯學中的所有基本原理和定律來構建原子技能集,并將標準的邏輯表達式轉換為自然語言生成推理問題作為測試用例。我們的測試框架可以自動且全面地生成測試用例,并有效揭示最先進的LLMs(如ChatGPT和LLaMa)的缺陷。此外,我們證明了生成的測試用例可以提高LLMs的事實準確性和邏輯推理能力。其次,針對LLMs的無害性,我們介紹了兩項針對LLMs的紅隊測試工作。首先,我們發現LLMs的文本內容審查機制在面對用戶故意擾亂時不夠健全,難以通過審查。為此,我們引入了MTTM,一個用于文本內容審查軟件的變異測試框架,其變異關系是有害句子在經過語義保持的擾動后仍應被識別為有害。實驗結果表明,MTTM可以發現商業內容審查軟件中的漏洞,并提高其可靠性。其次,我們發現現有的安全基準和對齊工作通常僅限于一種語言,如英語。為此,我們建立了第一個多語言安全基準XSafety,涵蓋了10種語言中14個常見的安全問題,跨越了多個語系,并發現所有LLMs在處理非英語查詢時產生的不安全響應顯著多于英語查詢。此外,我們提出了一種簡單有效的提示方法,通過增強跨語言的安全對齊來提高LLMs的多語言安全性。第三,為了評估LLMs的公平性,我們提出了兩個評估框架:BiasAsker和XCulturalBench,分別用于衡量LLMs的社會偏見和文化偏見。首先,我們介紹了BiasAsker,這是一個用于識別和衡量對話式AI系統中社會偏見的自動化框架。BiasAsker可以生成不同類型的問題,從5,021個帶有偏見的屬性角度評估對841個群體的偏見態度。我們在10個商業系統和模型上的實驗表明了BiasAsker的有效性。接著,我們確定了LLMs中的文化偏見問題,主要由于模型訓練和對齊時使用了英語數據,并引入了XCulturalBench,這是一個多語言文化基準,包含具體的文化對象(如節日和歌曲)和抽象的文化對象(如價值觀和觀念)。實驗證據表明,代表性的GPT模型存在嚴重的文化偏見問題。我們還表明,在模型開發和部署中使用兩種直接方法可以顯著緩解LLMs中的文化偏見問題。

付費5元查看完整內容

文本在我們的日常生活中扮演著至關重要的角色,涵蓋了各種形式,如社交媒體帖子、新聞文章、書籍、報告等。因此,自然語言處理(NLP)受到了廣泛關注。這項技術使我們能夠執行諸如文本分類、實體識別,甚至在對話上下文中生成回復等任務。然而,盡管NLP的應用非常廣泛,它經常需要做出一個關鍵決策:是否信任模型的預測。例如,一個最先進的模型被用來診斷疾病或評估謠言的真實性。在這種情況下,錯誤的預測可能會帶來嚴重的后果,影響個人的健康或損害其聲譽。因此,建立一種可靠的方法來評估NLP模型預測的可信度顯得尤為重要,這也是我們關注的重點——NLP中的不確定性估計。盡管有許多研究涉及不確定性估計或NLP,但這兩個領域的結合卻較為罕見。這是因為大多數NLP研究側重于模型預測性能,而往往忽略了NLP模型預測的可靠性。此外,當前的不確定性估計模型可能并不適用于NLP,因為NLP任務具有獨特的特點,如命名實體識別中需要更細粒度的信息。因此,本論文提出了針對不同NLP任務的不確定性估計新方法,考慮了NLP任務的獨特特點。NLP任務可以分為自然語言理解(NLU)和自然語言生成(NLG,如文本摘要)。在NLU任務中,理解可以從兩個視角進行:全局視角(如文檔級別的文本分類)和局部視角(如句子級別的自然語言推理和標記級別的命名實體識別)。因此,我們研究了三個任務的不確定性估計:文本分類、命名實體識別和文本摘要。此外,由于少樣本文本分類最近備受關注,我們還研究了少樣本文本分類中的不確定性估計。第一個主題是文本分類中的不確定性估計,少有的不確定性模型關注在人力資源參與的情況下提高文本分類的性能。為了填補這一空白,我們的研究重點是通過增強勝出分數的置信度來提高不確定性分數的準確性。我們引入了MSD,一種由三個不同組件組成的新模型:“混合增強”(mix-up)、“自集成”(self-ensembling)和“獨特性分數”(distinctiveness score)。MSD的主要目標是通過減少勝出分數的過度自信問題,同時考慮各種類別的不確定性,來優化不確定性分數的準確性。該模型可以無縫集成到不同的深度神經網絡中。我們在四個真實世界數據集上進行了廣泛的消融實驗,結果顯示出持續的競爭性改進。我們的第二個主題是少樣本文本分類中的不確定性估計(UEFTC),該領域中每個類別只有少數甚至只有一個可用的支持樣本。UEFTC代表了一個未充分研究的領域,由于數據樣本有限,UEFTC模型預測不確定性分數以評估分類錯誤的可能性。然而,傳統的文本分類不確定性估計模型不適用于UEFTC,因為它們需要大量的訓練數據,而UEFTC通常每個類別只有少量支持樣本,甚至只有一個。為了應對這一挑戰,我們提出了基于不確定性關系的對比學習(CLUR)作為UEFTC的解決方案。CLUR展示了在每個類別只有一個支持樣本的情況下有效訓練的獨特能力,通過偽不確定性分數的輔助。CLUR的一個顯著特點是其自動學習這些偽不確定性分數,與之前依賴手動指定的方法不同。我們對CLUR的四種模型結構進行了研究,評估了三種常用對比學習組件在UEFTC中的表現,結果顯示其中兩種組件的效果顯著。我們的第三個主題是序列標注中的不確定性估計。序列標注任務包括對序列中的各個標記進行標注,以命名實體識別(NER)為例。盡管先前的研究在提高NER性能方面取得了顯著進展,但NER中的不確定性估計(UE-NER)領域仍相對未知,但卻至關重要。這個主題關注UE-NER,旨在評估NER預測的不確定性分數。以往的不確定性估計模型往往忽視了NER的兩個獨特屬性:實體之間的相互關系(一個實體的嵌入學習依賴于其他實體)以及實體提取中錯誤跨度預測帶來的挑戰。為了解決這些問題,我們引入了序列標注后驗網絡(SLPN),設計用于在考慮其他標記的不確定性傳播的同時,評估提取實體的不確定性分數。此外,我們制定了一種評價方法,以應對錯誤跨度案例的具體細微差別。我們的第四個主題是關于文本摘要中不確定性估計(UE-TS)的評估可靠性的一個被忽視的問題。文本摘要是自然語言生成(NLG)的一個關鍵任務,特別是在錯誤摘要可能帶來嚴重后果的領域,如醫療保健中。由于錯誤摘要帶來的潛在風險,UE-TS引起了關注。然而,評估UE-TS方法的可靠性引發了關注,因為不確定性模型指標與廣泛的NLG指標之間存在相互依賴關系。為了解決這些問題,我們引入了一個綜合性的UE-TS基準,涵蓋了四個維度的26個NLG指標。該基準評估了兩個大型語言模型和一個預訓練語言模型在兩個數據集上的不確定性估計能力。此外,它還評估了14種常見不確定性估計方法的有效性。我們的研究強調了使用多樣的、不相關的NLG指標和不確定性估計技術以對UE-TS方法進行穩健評估的必要性。

付費5元查看完整內容

本論文探索了使用人工神經網絡作為人類語言使用模型的新方法,目的是為各種語言科學家建立新方法并啟動新的研究方向:從歷史語言學家、社會語言學家和詞典編纂者到認知科學家和神經科學家。它包含了一系列關于語言理解和語言產出的研究,強調在適當考慮語言語境時,它們的建模是如何受到影響的。論文分為三個部分。

第一部分介紹了兩種研究單詞使用方式的新方法,這些方式是根據單詞在句子中出現的語境:第一種方法包括從語言模型中提取、分組及分析語境化的神經表示;第二種方法使用語言模型生成的人類可讀單詞定義,這些定義是根據單詞使用示例提示生成的。以詞匯語義變化分析為例應用,因為它需要動態捕捉單詞意義及其細微的語境決定的調整。 第二部分專注于作為語境感知模擬的神經模型語言理解者。我從神經語言模型獲得信息率的驚奇估計,并使用這些來測試話語產出的心理語言學理論,這些理論假設說話者監控信息率,進而監控理解成本。研究結果挑戰了合理使用通信渠道的既定假設,特別是在對話環境中——但總的來說,它們確認話語產出策略可以描述為有效地包含對話者的理解努力。 第三部分探討了神經文本生成器作為語言產出模型的潛力。我測試了生成器產生的語言是否具有與人類產出相一致的統計特性,然后使用它們獲得信息率的可解釋度量,這些度量與第二部分使用的度量互補。我總結了論文其他部分的見解,形成了一個關于人類式——高效、交流有效且有觀眾意識——語言產出行為的人工模擬的正式框架。

付費5元查看完整內容

圖像和視頻生成的目的是從隨機噪聲或基于特定條件合成高保真度的視覺數據。尤其是生成對抗網絡(GANs)的最新進展,在各種圖像和視頻生成任務中取得了顯著的成功,展現了深度神經網絡捕捉視覺數據的高維分布的強大能力。這方面的進展顯著推動了生成人工智能(AI)的發展,受到了廣泛的公眾關注。盡管在圖像和視頻合成方面取得了巨大的成功,但仍存在一些問題需要仔細探索。本論文旨在找出這一領域的剩余挑戰,并通過先進的深度學習技術提出解決方案。這構成了四個主要研究內容。

數據是深度學習的本質。對于圖像和視頻生成及其下游應用而言,高質量的數據集是非常可取的。此外,研究人員通常非常關注提高生成質量,卻忽略了對由生成數據引起的問題(如“Deepfakes”)的防范。與其他研究不同,本論文的第一項嘗試是構建一個有用的面部視頻數據集,以促進后續研究,并通過設計更好的視頻操縱方法來防止生成數據的負面影響。介紹了DeeperForensics-1.0,這是一個用于現實世界面部偽造檢測的大規模視頻數據集。正在進行的努力是應對“Deepfakes”,它引發了合法的擔憂,尤其是在可能被濫用和誤用方面。它代表了同類中最廣泛的數據集之一,由總共1760萬幀構成的60,000個視頻組成。應用了廣泛的現實世界擾動,以獲得更具挑戰性、規模更大、多樣性更高的基準。DeeperForensics-1.0中的所有源視頻都是精心收集的,假視頻是由新提出的端到端面部交換框架生成的。生成視頻的質量超過了現有數據集中的視頻,經用戶研究驗證。基準特點是一個隱藏的測試集,其中包含高欺騙性分數的操縱視頻。進行了全面研究,評估了五個代表性的檢測基線,并對不同設置進行了徹底的分析。這項工作驗證了設計更好的視頻操縱方法可以協助面部取證。

在確保了潛在的對策之后,興趣轉移到提出一個對各種生成任務幾乎沒有質量犧牲的統一框架,這對現實世界應用具有很高的實用價值。鑒于不同任務的不同性質,實現這一目標并非易事。因此,之前的研究通常針對特定形式的應用開發定制模塊。本論文設計了一個簡潔但容易適應各種任務的雙流圖像到圖像轉換(TSIT)框架。論文揭示了規范化層的重要性,并精心設計了一個帶有新提出的特征變換的雙流生成模型,以粗到細的方式。這允許網絡有效捕獲和融合多尺度語義結構信息和風格表達,使TSIT能夠適應無監督和監督設置下的各種任務。不需要額外的約束(例如,循環一致性),從而貢獻了一種非常干凈簡單的方法。使得具有任意風格控制的多模態圖像合成成為可能。系統研究將TSIT與最先進的任務特定基線進行了比較,驗證了其在感知質量和量化評估中的有效性。

除了圖像和視頻生成的實踐角度上的進展外,本論文進一步希望通過更基礎和理論的研究解決剩余問題。本論文的第三項工作是焦頻損失(FFL),這是一種新穎的頻率級損失函數,直接在頻率域優化生成模型。該損失與不同類別、網絡結構和任務的多樣化基線的現有空間損失相輔相成。盡管得益于生成模型的發展,圖像重建和合成取得了顯著的成功,但在真實和生成圖像之間,尤其是在頻率域,仍可能存在差距。論文表明,縮小頻率域中的差距可以進一步提高圖像重建和合成質量。所提出的FFL允許模型適應性地關注難以合成的頻率分量,降低容易合成的分量的權重。這一目標函數為抵抗神經網絡固有偏見導致的重要頻率信息丟失提供了很大的阻力。論文證明了FFL在提高VAE、pix2pix和SPADE等流行模型的感知質量和量化性能方面的多功能性和有效性。其在StyleGAN2上的潛力進一步展示。

通過實踐和理論方面的努力,已經嘗試提高合成數據的保真度和多樣性。然而,當前的生成模型,如GANs,通常需要大量的訓練數據才能充分發揮其能力,而有時收集足夠的數據樣本是不可行的。在保留合成質量的同時,使用較少的數據訓練生成模型仍然未被充分探索。論文進一步介紹了適應性偽增強(APA),這是一種用于有限數據下GAN訓練的簡單而有效的策略。最近的研究表明,由于鑒別器過擬合,這是阻礙生成器收斂的根本原因,因此在有限數據下訓練GANs仍然是一項艱巨的任務。所引入的APA通過使用生成器本身來增強真實數據分布,用生成的圖像適應性地欺騙鑒別器,鼓勵生成器和鑒別器之間的健康競爭。作為一種替代依賴于標準數據增強或模型規范化的現有方法,APA通過減輕過擬合來提高訓練效果。廣泛的實驗展示了APA在低數據環境下的有效性。提供了理論分析,以檢驗這種新訓練策略的收斂性和合理性。APA簡單有效。它可以無縫添加到強大的當代GANs,如StyleGAN2,且計算成本可忽略不計。

這篇論文最后還討論了其他相關話題,并展望了圖像和視頻生成領域的潛在未來工作,例如視頻生成的更高級話題、現有和未來對新型強大擴散模型(DM)的努力,為這一研究領域提供了更多見解。

付費5元查看完整內容

面向文本生成的深度序列模型研究

人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。

文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。

首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。

然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。

最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。

綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。

付費5元查看完整內容
北京阿比特科技有限公司