亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

檢測人工智能生成的文本(AIGT)主要有三種方法:水印、統計和文體分析以及使用預訓練的語言模型(LM)。檢測水印需要了解水印提取算法;除此之外,不需要額外的數據。不過,其他兩種廣泛的檢測方法需要數據集,以便學習將 AIGT 與人類撰寫的文本區分開來的模式--最好是由我們希望檢測的人工智能模型生成的數據集,而且數據集的設置要盡可能接近我們在現實世界中遇到這些文本的方式。以往的研究表明,最有效的檢測器是在與測試數據相同的領域(新聞文章、社交媒體帖子、學術論文等)、語言(英語、中文、法語等)和模型設置(解碼算法、提示、輸出長度等)的數據上訓練出來的。同時,研究還表明,為了獲得最大的通用性和魯棒性,必須在各種數據上訓練檢測器,使其不局限于(或者用機器學習的術語來說,是overft)一個非常狹窄的數據樣本范圍。因此,對于任何給定的應用,選擇適當的數據來訓練檢測器以及測試檢測器的準確性都是非常重要的。

在本報告中,列舉了在進行文獻綜述時遇到的數據集。將提供每個數據集的詳細摘要,解釋其創建過程和訪問方法。不過,在此首先介紹一些可用數據集的簡要統計數據。從圖 1.1 中可以看出,絕大多數可用的數據集都是英文版的,還有相當大的一部分是多語種的(包括英語和其他語言)。在自然語言處理(NLP)領域有一個眾所周知的偏見,即大部分研究都集中在英語上,而忽略了其他語言。

圖 1.1: 英語與其他語言數據集的比例。

毫無疑問,用于生成這些數據集的許多大型語言模型(LLMs)至少在一開始只有英語版本,這加劇了這種偏差。不過,隨著越來越多的多語種 LLM 可用,我們預計情況會繼續發生變化。

圖 1.2 顯示了除英語以外的其他語言在數據集中所占的比例。中文在其中所占比例最大,其次是阿拉伯語。在本報告總結的數據集中,許多其他語言只出現在其中的一個或兩個數據集中。

圖 1.2:非英語數據集的語言比例。

如上所述,另一個重要因素是數據集的領域。圖 1.3 顯示了數據集中的不同領域。錯誤信息是最常見的,這無疑是由于我們將重點放在了錯誤信息這一感興趣的領域。我們還注意到,在這個大類別中,還有多個子類別(如假新聞、社交媒體錯誤信息等)。相當大比例的數據集也包含多個域(因此也包含子域)。除了這些類別外,我們還觀察到新聞、學術寫作和論文等領域的受歡迎程度。社交媒體雖然從實用的角度來看非常有趣,但卻沒有得到很好的體現,這可能是由于在短文中檢測 AIGT 的困難,或者在創建數據集時模擬真實的社交媒體帖子的困難。

圖 1.3:不同文本領域數據集的比例。

在圖 1.4 中,探討了數據集規模的分布情況,數據集規模分為四個等級,從小型(少于 50,000 個樣本)到超大型(超過 500,000 個樣本)。這只是一個粗略的描述,因為我們是通過將人類生成的示例和人工智能生成的示例結合起來計算總規模的,而某些數據集可能會偏重于其中的一個或另一個。此外,有些數據集包含來自單一模型或語言的大量樣本,而有些數據集則包含來自大量不同模型的少量樣本。不過,我們看到一個總體趨勢,即由少于 50,000 個樣本組成的數據集,同時也有相當大比例的 “大型 ”數據集(樣本數在 100,000 到 500,000 之間)。雖然有些檢測方法聲稱自己是零樣本或少樣本方法,需要較少的數據樣本來校準算法,但一般認為盡可能多的數據是有益的。

圖 1.4 不同規模數據集的比例 不同規模數據集的比例,其中 “小 ”表示少于 50,000 個樣本,“中 ”表示介于 50,000 至 100,000 個樣本之間,“大 ”表示介于 100,000 至 500,000 個樣本之間,“特大 ”表示超過 500,000 個樣本。.

值得注意的是,除了極少數例外,所有這些數據集都是為研究目的而生成的,而不是從網上收集的。這樣做的原因不言自明:如果我們一開始就沒有一個準確的 AIGT 檢測器,我們就無法確定互聯網上的任何特定文本是由人類還是由人工智能撰寫的。通過自己生成 AIGT,研究人員可以保證它確實是 AIGT,而且通過將人類數據樣本限制在 2020 年之前的文本,他們可以合理地確信這些文本確實是由人類撰寫的。一個值得注意的例外是 TweepFake 數據集(見第 2.5.2 節),該數據集的 AIGT 部分包含了從 Twitter 上已知機器人賬戶中抓取的數據。其他工作也嘗試通過自動技術識別被偽裝成僵尸的賬戶,從而從社交媒體中收集數據(Cui 等,2023 年),但我們在此不包括該工作,因為其方法似乎是相當循環的(通過依賴算法來檢測僵尸賬戶,隨后在數據上訓練的任何系統的實用性都會與初始算法一樣,出現假陽性和假陰性錯誤)。

相反,大多數數據集都是先定義一個人類生成文本的 “parent”或 “anchor”數據集,然后再人工生成平行的 AIGT 文本。例如,在新聞領域,研究人員可以從新聞故事語料庫開始。然后,他們將標題(或標題加首句)輸入 LLM,并要求 LLM 撰寫文章的其余部分。這樣,他們就能為同一組標題生成一個由人類和人工智能撰寫文章的并行數據集。同樣,在問題解答領域,如果研究人員有一個由人類撰寫答案的問題數據集,他們就可以要求人工智能回答同樣的問題。正如數據集摘要中詳細介紹的那樣,有些生成方法包括更具體的風格提示,以模仿人類數據集,如 “以《紐約時報》的風格寫一篇新聞文章”,還有一些數據集包括人工智能對人類文本的轉述以及人類-人工智能協作文本。所有這些生成文本的方法都允許對檢測 AIGT 進行精確、受控的研究實驗;但是,目前還不清楚這些方法在多大程度上代表了互聯網上實際存在的人工生成文本。

另一個需要考慮的相關因素是,檢測器不僅要從訓練數據中學習 AIGT 模型,還要學習人類寫作的模型。因此,舉例來說,如果訓練數據只包括來自專業記者的樣本(許多新聞數據集就是這種情況),我們就不能指望檢測器能準確識別普通非專業人士撰寫的文本。人類生成的樣本缺乏多樣性很可能是造成偏差的原因,例如 AIGT 檢測器會將英語學習者的文章誤判為 AIGT。因此,訓練數據最好能代表來自人工智能和人類的各種文本。

本報告中的大多數數據集要么是公開的,要么是用于研究目的的。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

大型語言模型 (LLMs) 近期因其文本交互能力而受到廣泛關注。然而,自然的人類互動通常依賴語音,這促使人們向語音模型轉變。一種實現這一目標的直接方法是使用“自動語音識別 (ASR) + LLM + 語音合成 (TTS)”的流水線,即將輸入語音轉錄為文本,經由 LLM 處理后再轉換回語音。盡管此方法直觀簡單,但它存在固有的局限性,如在模式轉換過程中信息丟失,以及在三個階段中累積的誤差。為了解決這些問題,語音語言模型 (SpeechLMs) 應運而生。這些端到端模型無需文本轉換,直接生成語音,成為一種有前景的替代方案。本綜述論文首次全面概述了構建 SpeechLMs 的最新方法,詳細介紹了其架構的關鍵組成部分以及其開發中的各種訓練方法。此外,我們系統地考察了 SpeechLMs 的多種能力,分類了對 SpeechLMs 的評估指標,并討論了該快速發展的領域中的挑戰與未來研究方向。

1 引言大型語言模型(LLMs)在文本生成和自然語言處理任務中展現出顯著的能力,成為推動 AI 驅動語言理解和生成的強大基礎模型 [Achiam 等, 2023; Dubey 等, 2024a; Zhang 等, 2022b]。它們的成功還推動了其他領域的眾多應用,然而,僅依賴文本模式存在明顯的局限性。這促使人們發展基于語音的生成模型,使人與模型之間的互動更加自然和直觀。引入語音不僅有助于實現實時語音互動,還能通過結合文本和語音信息豐富交流內容 [Nguyen 等, 2023b; Nguyen 等, 2024]。鑒于文本與語音之間存在大量的互信息,對現有的 LLM 進行修改以支持語音互動功能是一項自然的選擇。一種直接的方法是采用“自動語音識別(ASR)+ LLM + 語音合成(TTS)”框架(圖1a)[Huang 等, 2024]。在該設置中,用戶的語音輸入首先由 ASR 模塊處理,將其轉換為文本。然后,LLM 基于該轉錄文本生成響應,最后由 TTS 模塊將該文本響應轉換回語音并播放給用戶。然而,這種簡單方案主要面臨以下兩個問題:1)信息丟失。語音信號不僅包含語義信息(即語音的意義),還包含副語言信息(例如音調、音色、語調等)。在處理中使用純文本 LLM 會導致輸入語音中的副語言信息完全丟失 [Zhang 等, 2023a]。2)累積誤差。此種分階段的方法容易在整個流程中產生累積誤差,特別是在 ASR 到 LLM 階段 [Fathullah 等, 2024]。特別是在 ASR 模塊將語音轉換為文本時發生的轉錄錯誤會對 LLM 的語言生成性能產生負面影響。由于 ASR + LLM + TTS 框架的局限性,語音語言模型(SpeechLMs,圖1b)被開發出來。與簡單的框架不同,SpeechLMs 直接將語音波形編碼為離散的 token,從音頻中捕獲重要特征和信息(第 3.1 節)。盡管單個語音 token 可能不具備詞匯層面的語義意義,但它們捕捉到語音話語的語義信息并保留寶貴的副語言信息,從而避免信息丟失。SpeechLMs 自回歸地建模這些 token,無需完全依賴文本輸入,使其能夠利用附加的副語言信息生成更具表現力和細膩的語音(第 3.2 節)。最終,這些生成的 token 被合成回語音(第 3.3 節)。通過直接處理編碼后的語音 token,SpeechLMs 有效地減輕了累積誤差,因為其訓練與語音編碼一體化進行,而簡單框架中 LLM 的語言建模訓練則完全獨立于 ASR(語音識別)模塊。除基礎對話能力外,SpeechLMs 還具備執行更復雜任務的潛力,如編碼特定說話者信息和情感細微差別(圖2)。這種能力使 SpeechLMs 能夠在對話中區分不同說話者,并理解和生成帶有特定情感語調的語音。這些進展對個性化助手、情感感知系統以及更細致的人機交互場景等領域尤為重要。此外,SpeechLMs 可以設計為支持實時語音互動,即模型可在用戶講話時被打斷,或選擇在用戶尚未結束講話時進行響應,更接近人類對話的模式。在本綜述中,我們首次全面概述了構建 SpeechLMs 的最新研究成果。我們探討了構成其架構的各種組件(第 3 節)及其開發中的訓練方法(第 4 節),并從以上視角分析這些模型,旨在闡明該領域的當前狀態。此外,我們考察了 SpeechLMs 的下游應用(第 5 節)、分類評估 SpeechLMs 的指標(第 6 節)、討論了該領域快速發展中遇到的挑戰,并提出了可能推動 SpeechLM 技術進一步發展的未來研究方向(第 7 節)。我們的貢獻總結如下:

  • 我們呈現了 SpeechLMs 領域的首次綜述。
  • 我們提出了一個基于底層組件和訓練方法的 SpeechLMs 分類新體系(圖3)。
  • 我們提出了 SpeechLMs 評估方法的新分類系統。
  • 我們識別出構建 SpeechLMs 的若干挑戰。


2 問題定義

在此部分中,我們將正式定義語音語言模型(Speech Language Models,簡稱SpeechLMs)。語音語言模型是一種自回歸基礎模型,能夠處理并生成語音數據,通過上下文理解生成連貫的語音序列。SpeechLMs 支持多種模式,包括語音到文本、文本到語音,甚至是語音到語音,具備上下文感知能力,從而能夠執行廣泛的任務。與傳統的文本語言模型(如 LLM)不同,SpeechLMs 處理的是語音和文本兩種模式。這使得 SpeechLMs 能夠進行更自然的多模態交互,在同一模型框架內處理多種輸入和輸出模式,具有更高的應用潛力。


3 SpeechLM的組件

語音語言模型主要包括三個組件:語音分詞器、語言模型和語音合成器(聲碼器),這種三階段的設計模式的主要原因是使語言模型架構(如僅解碼器的 transformer)能夠以音頻波形的形式自回歸地建模語音。由于語言模型的輸入和輸出都是離散 tokens,因此需要附加模塊來處理輸入輸出格式。下面將詳細介紹各個組件:

**3.1 語音分詞器

語音分詞器是 SpeechLM 的第一個組件,它將連續的音頻信號(波形)編碼為潛在表示,再將其轉換為離散 tokens,使其能夠被語言模型有效處理,用于諸如語音識別或合成等任務。語音分詞器的核心目標是捕捉音頻中的關鍵特征,同時降低其維度,便于后續對語音模式的建模和分析。 語義理解目標: 設計語義理解目標的語音分詞器旨在將語音波形轉化為能夠準確捕捉語音內容和意義的 tokens。通常情況下,這些分詞器包含一個語音編碼器和一個量化器,語音編碼器對波形的關鍵信息進行編碼,而量化器則將連續表示離散化為離散 tokens。 聲學生成目標: 具有聲學生成目標的語音分詞器注重捕捉生成高質量語音波形所需的聲學特征,優先保留關鍵信號,而非語義內容。為生成高質量的語音波形,這些分詞器通常采用包含編碼器、量化器和解碼器的架構,將原始波形轉換為離散 tokens,再通過解碼器將其重構回語音波形。 混合目標: 混合目標的語音分詞器平衡語義理解和聲學生成任務。大部分混合分詞器采用聲學生成分詞器的架構,并側重于將語義信息從語義分詞器提取到聲學分詞器中。某些系統還利用單獨的向量量化器來從語音模型(如 WavLM)提取信息,并結合聲學特征模塊以提升性能。

**3.2 語言模型

由于文本語言模型的成功,大部分 SpeechLMs 采用了類似的架構,主要使用 transformer 或僅解碼器的架構進行自回歸語音生成。為適應語音生成,原文本分詞器被替換為語音分詞器,使模型能夠聯合建模文本和語音兩種模態。通常做法是擴展原文本模型的詞匯量以容納文本和語音 tokens,形成一個更大的嵌入矩陣,從而使模型在單一序列中生成文本和語音。

**3.3 聲碼器

聲碼器在語言模型生成 tokens 后將其合成為語音波形,這一過程涉及將生成的語音 tokens 所代表的語言和副語言信息轉換為音頻波形。聲碼器通常包括直接合成和輸入增強合成兩種流程。直接合成方式較為簡單,適用于包含足夠聲學信息的 tokens;輸入增強合成則在 tokens 進入聲碼器之前將其轉換為包含豐富聲學特征的表示,以生成更高質量的語音波形。


4 訓練策略

SpeechLMs 的訓練過程分為三個主要階段:預訓練、指令微調和對齊。這一節將主要回顧語言模型組件的主要訓練技術。

**4.1 預訓練

預訓練階段對語言模型的影響至關重要,因為它能夠幫助模型學習語音數據中的統計模式和依賴關系,以便在上下文中預測下一個 token。SpeechLMs 預訓練通常使用大規模的開放語音數據集,包括用于 ASR、TTS 和多模態任務的數據集。為了增強語音和文本模態的對齊,部分模型從預訓練的文本模型開始進行預訓練,并調整以支持語音 tokens,從而加速收斂并提升語音理解性能。

**4.2 指令微調

指令微調通過特定的任務指令來提升模型的泛化能力,使其適應更多樣的應用場景。常見的指令微調方法包括多模態指令微調和模態鏈微調。SpeechGPT 使用指令微調來處理 ASR、TTS 等任務,通過生成包括語音輸入、文本輸出在內的數據集,進一步提高模型的適用性。

**4.3 對齊階段

對齊階段指的是通過特定方法來增強文本與語音模態間的表示對齊。通過交替輸入文本和語音 tokens 的方法,可以顯著提高模型在語音理解和生成方面的性能。此外,通過將文本和語音版本的提示都用于訓練,確保模型能夠為兩種輸入模態生成一致的輸出。這樣,模型既可以在純文本環境中運行,也可以在語音模式下自然地響應。


**

**

5 下游應用

SpeechLMs 可處理多種下游任務,遠超傳統的ASR 和TTS系統,它們不僅支持文本與語音的多模態任務,還能處理復雜的語音和文本組合任務。下游應用可分為以下幾類:

**5.1 語義相關應用

口語對話:SpeechLMs 可用于口語對話系統,使系統能夠在上下文中理解用戶意圖并生成語音響應。 * 語音翻譯:支持語音到文本或語音到語音的翻譯任務,SpeechLMs 能夠根據不同語言生成對應翻譯。 * 自動語音識別:通過ASR將語音轉換為文本,是SpeechLMs 最基本的功能之一。 * 關鍵字檢測:用于語音激活的場景,SpeechLMs 可識別并提取特定關鍵字,從而觸發特定操作。 * 文本到語音合成:與ASR相反,TTS從文本生成對應的語音輸出,以實現從文本指令到語音的轉換。

**5.2 說話人相關應用

說話人識別:能夠識別語音中的說話人身份,是一種多類分類任務。 * 說話人驗證:判定兩段語音是否來自同一說話人,為二分類任務。 * 說話人分離:將音頻流分割為不同說話人片段,從而標識出誰在什么時間說話。

**5.3 副語言應用

SpeechLMs 還可以處理語音中的副語言信息,如情感識別、語音分離等任務。通過捕捉音高、音色、說話速度等信息,SpeechLMs 能夠識別語音中的情感和態度,使得語音系統能夠生成更具情感化的響應。


6 評價與未來研究方向

本綜述概述了語音語言模型的關鍵組成部分、訓練方法、下游應用及其在語音生成中的不同表現。未來,SpeechLMs 的研究可以朝以下方向發展: * 增強多模態對齊:進一步提高語音與文本模式的對齊能力,使SpeechLMs 更加適應多種任務。 * 提高實時交互性能:開發具有更高響應速度的模型,支持用戶打斷等更自然的交互方式。 * 擴展評估指標:目前大多使用傳統的語音合成和語音識別指標,對這些模型進行更全面的評估需要結合新指標。

付費5元查看完整內容

在人工智能(AI)研究領域,制造人工通用智能(AGI)一直是一個難以實現的目標。AGI 將像人類一樣,有能力接觸新的問題領域,學習相關知識,然后使用推理過程做出決策。雖然人工智能技術已被廣泛應用于各種問題領域,但 AGI 要求人工智能能夠在編程和訓練之外進行推理。本文向制造 AGI 邁出了一小步。它描述了一種人工智能學習和開發推理路徑的機制,以便在先驗未知領域做出決策。它結合了一種經典的人工智能技術--專家系統和一種現代的改良技術--梯度下降訓練專家系統(GDTES),并利用生成式人工智能(GAI)為該系統創建網絡和訓練數據集。這些數據集可以從現有資源中創建,也可以借鑒 GAI 自己的預訓練模型中的知識。GDTES 中的學習過程用于優化人工智能的決策。雖然這種方法并不符合許多人對人工智能所定義的標準,但它提供了某種類似的能力,盡管在使用前需要一個學習過程。

自適應多域人工智能技術

本節介紹并描述 AMAIT 的設計,如圖 3 所示。首先,將提供一個概覽。然后,第 3.1 至 3.5 小節將更詳細地介紹 AMIT 系統的關鍵組成部分。

AMAIT 系統結合了 GAI、GDTES 和專家系統技術。為此,AMAIT 系統采用了 GDTES 形式的規則-事實專家系統,該系統利用小數/分數值(DFV)來表示規則。根據特定的應用領域和網絡設計,這些值可以代表部分成員資格、模糊性、置信度或其他類似內容。每種技術都發揮著關鍵作用。從根本上說,AMAIT 的長期目標是建立一個 DFV 專家系統,該系統可以對問題領域進行推理,除了設置所需的初始參數和幫助系統獲取相關數據外,無需人工干預。不過,可以在多個地方加入人工審核,以幫助學習過程并確保準確性和合規性。

系統首先要有一個 GAI 模型,能夠生成與問題領域相關的內容。這可以是一個預先訓練好的通用模型,也可以是一個為特定用途或應用領域創建的模型。該模型向翻譯/轉換器模塊提供內容,該模塊采用良好的數據格式、人類可讀的英語文本,并將其翻譯/轉換為專家系統網絡。

接下來,GAI 可用于以數據格式良好、人類可讀的英文文本形式創建訓練數據集。該數據集將提供給監督學習集創建者翻譯/轉換模塊,該模塊將為所有系統輸入生成輸入值,并為監督學習生成目標輸出。最初,該模塊用于優化應用于 GDTES 系統內規則的權重。

值得注意的是,如果有人工收集的數據,也可用于這一步驟。此外,也可以使用其他合成數據生成技術。

第三個主要步驟是利用 GAI 創建訓練數據集(同樣是格式化良好、人類可讀的英文文本),并將其提供給監督學習集創建翻譯器/轉換器模塊。在這種情況下,它被用來生成用于優化網絡本身的數據(如 [29] 中所述)。值得注意的是,在進行網絡優化后,應再次執行優化權重的過程,以最大限度地提高系統性能。為簡潔起見,圖中沒有單獨描述這一步驟。

如上所述,人工收集的數據或其他合成生成技術也可用于這一步驟。

最后,對 GDTES 模型進行測試,以確保其在投入使用前適合使用。首先,使用 GAI 提供的新數據(或人工收集的數據或以其他方式合成的數據)對其進行測試。然后,使用真實世界的數據(如果有的話)進行測試。如果適用于問題領域,還可在系統運行期間利用反饋機制對系統進行改進。

付費5元查看完整內容

計算力(或稱 "計算")對于開發和部署人工智能(AI)能力至關重要。因此,政府和公司開始利用計算作為管理人工智能的手段。例如,政府正在投資國內計算能力,控制計算向競爭國家的流動,并對某些行業的計算訪問提供補貼。然而,這些工作只是從表面上了解了如何利用計算來管理人工智能的開發和部署。與人工智能的其他關鍵投入(數據和算法)相比,人工智能相關計算是一個特別有效的干預點:它是可檢測、可排除、可量化的,并且是通過極其集中的供應鏈生產出來的。這些特點,加上計算對尖端人工智能模型的獨特重要性,表明對計算的管理有助于實現共同的政策目標,如確保人工智能的安全和有益使用。更確切地說,政策制定者可以利用計算促進人工智能的監管可見性,分配資源以促進有益的結果,并對不負責任或惡意的人工智能開發和使用實施限制。然而,雖然基于計算的政策和技術有可能在這些領域提供幫助,但其實施的準備程度卻存在很大差異。一些想法目前正在試行,而另一些則因需要進行基礎研究而受到阻礙。此外,在隱私、經濟影響和權力集中等領域,樸素或范圍不清的計算治理方法會帶來巨大風險。最后,我們將提出一些建議,以最大限度地降低計算治理的這些風險。

圖 1:報告中的核心概念摘要。計算因其四種特性而對政策制定具有吸引力。可以利用這些特性來設計和實施政策,從而實現人工智能治理的三種關鍵能力。

在第 2 節 "人工智能能力、人工智能治理和計算概述 "中,我們提供了幾個主題的基本背景,作為后面章節的基礎。我們討論了作為人工智能發展關鍵投入的人力資本、數據、算法和計算。然后,我們描述了人工智能生命周期的各個步驟(包括設計、培訓、增強和部署)--其中每個步驟都是可能的干預點(并具有獨特的計算足跡)。我們接著討論了人工智能可能對社會產生的影響,以說明負責任治理的重要性。隨后,我們將回顧目前在治理計算方面所做的努力,以便為后面的章節提供背景資料。

在第 3 節 "為什么計算治理對決策具有吸引力 "中,將解釋計算的特點,這些特點使其成為人工智能治理的一個有吸引力的工具。這源于計算對前沿模型的獨特重要性,以及計算作為一種治理策略所具有的增強功效的若干特性。

讀者如果已經確信計算的重要性和特殊屬性,但又想知道如何將計算治理擴展到現有工作之外,可以考慮跳到第 4 節 "計算可以增強三種人工智能治理能力",在這一節中,我們將探討如何利用計算來增強關鍵的治理能力:(a)通過監控計算來提高人工智能發展的可見性;(b)改變計算的分配以實現有益的發展;以及(c)利用計算來執行人工智能相關規范和法規。

在第 5 節 "計算治理的風險與可能的緩解措施 "中,我們總結了之前關于計算治理可能存在的局限性的討論。

付費5元查看完整內容

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

強化學習(RL)和人在回路(HitL)學習方面的最新進展使人類與人工智能體的合作變得更加容易。在智能系統中利用人類與人工智能的專業知識和經驗,既高效又有益。不過,人類與人工智能的協作能在多大程度上取得成功,以及這種組隊與僅有人類或人工智能體的組隊相比表現如何,目前仍不清楚。在這項工作中,我們證明了向人類學習是有效的,而且在復雜的模擬環境中,人類-人工智能協作的表現優于人類控制的和完全自主的人工智能體。此外,我們還開發了一種新的關鍵基礎設施保護模擬器,重點關注人工智能驅動的無人機和人類團隊合作抵御敵方無人機攻擊機場的場景。我們開發了一個用戶界面,讓人類能夠有效地協助人工智能體。我們證明,與向人類或智能體學習相比,智能體在向政策校正學習時學習速度更快。此外,與人類直接控制所有智能體相比,人類與人工智能的協作需要更低的精神和時間要求,減少了人類的努力,并產生了更高的性能。總之,我們的研究表明,人類可以為 RL 智能體提供有益的建議,讓它們在多智能體環境中提高學習能力。

保護機場等關鍵基礎設施免受安全威脅是一項復雜、敏感和昂貴的任務,因此人們一直在探索自動和自主解決方案[1]。然而,由于目前技術成熟度和訓練有素的操作員方面的限制,在關鍵應用中采用全自動和自主解決方案并不可取。這可能會導致性能低下、基礎設施嚴重受損以及其他附帶損害風險增加。此外,培訓人類如何有效地使用這些解決方案仍然是一個相當大的挑戰。另一方面,對此類系統的持續監控、快速評估和處理潛在威脅將受益于人工智能能力。在許多情況下,由于系統的復雜性或數據的稀缺性,人工智能體需要在合理的時間范圍內實現完全自主的協助[2]。另一個重大挑戰是人工智能體捕捉上下文理解的能力。例如,考慮一個機場安防場景,隸屬于機場當局的人工智能系統在夜間通過監控攝像頭或無人機檢測到快速移動。該系統可能會將這一移動歸類為入侵者,但由于缺乏上下文的細微差別,無法將其識別為當地警察在機場周邊的例行巡邏。

人類通常擁有解決復雜問題的領域專長、經驗和對上下文的理解,而這些是智能體難以學習或復制的。例如,考慮到上述例子,人類操作員可能會根據無人機出現和行為的相關情況,將無人機識別為例行巡邏。與此同時,智能體缺乏做出適當反應的知識。在安全關鍵型應用中,人的決策變得至關重要,因為在這種應用中,可能會出現部分預料不到的情況。考慮到人類專業知識的價值,有必要在協作環境中有效利用人類知識和態勢感知,尤其是在國防或安全等關鍵應用中。結合人類操作員和自主系統優勢的系統可能會使這些應用受益。這種整合旨在降低系統成本,提高任務性能,同時在危險或關鍵操作中保持有意義的人工控制。這種混合方法對于降低這些高風險環境中的潛在風險至關重要[3]。

最近,強化學習(RL)成功地解決了許多復雜的決策問題,例如掌握圍棋[4]、在平流層部署超壓氣球[5]和生成合成藥物[6, 7]。雖然 Atari 和 Mujoco 等成熟領域已成為前沿 RL 研究的基準[8, 9],但針對復雜領域引入模擬器以促進人類人工智能協作的探索還較少[10, 11]。然而,深度 RL 面臨的一個顯著挑戰是樣本效率低下 [12],需要與環境進行數百萬次交互,因此難以適應現實世界的問題。為了緩解這一問題,示范[13-15]、行動建議[16-18]、偏好[19-21]和獎勵塑造[22-25]等給出建議的技術已被用于引導 RL 智能體進入狀態空間的相關部分。然而,這些工作大多局限于游戲領域和由訓練有素的智能體提供建議。一個重要且相對尚未探索的方面是,在復雜的真實世界環境中,通過人類示范來提高人類與智能體協作的潛力。此外,目前有關人類與智能體協作的文獻顯示,在為人類提供有效建議而進行的智能用戶界面設計和集成方面存在明顯的不足。這種稀缺性經常導致人類與智能體之間的誤解,阻礙了人類操作員專業知識的使用。

為了應對復雜現實世界領域的挑戰,我們針對機場禁區保護系統這一特定問題開發了一種新型模擬器和用戶界面。使用案例包括一個由盟友無人機組成的機群,試圖保護限制空域免受多架無人機的入侵。根據防空領域專家的建議,模擬器的設計模擬了真實世界的動態場景。這包括無人機的速度、飛行動態、地面雷達傳感器的規格、傳感有效載荷(雷達和光電),以及嵌入 "藍色 "無人機的中和有效載荷。這種真實世界的動態變化使得環境變得復雜。環境的復雜性意味著一個天真的 RL 智能體需要多次環境交互才能學習到最優策略。考慮到在指定領域中這些交互所帶來的成本和風險,經過訓練的智能體需要具有樣本效率。我們證明,對于所提到的復雜環境,從人類或智能體演示中學習可以最大限度地減少所需的環境交互次數。一些研究[26-28]表明,當一個人監督復雜系統中的多個智能體時,監控需求的增加會對他們的工作量和認知負荷產生負面影響--這最終會阻礙工作表現。

我們證明,訓練有素的智能體具有更好的決策能力,可以減少人類操作員的工作量,提高人類-智能體團隊的績效。創建人類-智能體協作的主要目標是利用智能體和人類的優勢,同時減輕它們的劣勢。例如,智能體擅長分析龐大的數據集和根據特定模式快速做出決策等任務,表現優于人類[29]。相反,與智能體相比,人類則表現出植根于道德價值觀和語境理解的卓越決策能力 [30]。特定國防領域用例的一個特點是,作戰行動是多變的,往往極難預測,而且道德風險可能極高。為了保持人類行使權力和指揮權,我們還使用人類策略修正來糾正受訓智能體的策略。我們的研究表明,在線策略修正是提高智能體學習效果、實現最佳性能的最有效建議形式。此外,我們還證明,與人類控制未經訓練的智能體(本領域中的無人機)相比,人類在進行策略修正時的認知工作量更低。我們使用非專家人類和智能體演示,以展示我們的方法在解決人類專家有限可用性方面的穩健性。

貢獻 本文有以下貢獻:

1.介紹了一種新型多智能體模擬器,用于國防特定機場保護用例建模,模擬多個盟友和敵方無人機智能體的真實世界動態。

2.使用最先進的深度 RL 算法在新型模擬器內訓練多個智能體。

3.在模擬器內開發用戶界面,使人類操作員能夠動態控制單個或多個智能體,進行情境演示,從而實現人機協作。

4.通過經驗證明,訓練有素的智能體演示或人類與智能體的混合演示有助于智能體更快地學習。

5.比較和評估多種建議提供技術,即從演示中學習和策略修正。

6.通過一項用戶研究,比較各種建議提供技術的人類認知工作量,證明與人類完全控制智能體相比,策略修正所需的工作量更少。

付費5元查看完整內容

無線電隱蔽通信涉及發送不易被第三方觀察者發現或截獲的信號。目前有多種低檢測概率(LPD)策略,如擴頻(SS)、碼分多址(CDMA)和混沌 CDMA。機器學習(ML)為實現 LPD 提供了一種新策略。具體來說,隨著包括生成對抗網絡(GANs)在內的深度學習(DL)技術的最新進展,我們假設 ML 可用于開發難以與自然噪聲區分開來的編碼方案--自然噪聲既存在于射頻環境中,也表現在無線電接收機的電子電路中。

最早記錄在案的隱形無線電通信形式是 SS 技術,即通過偽隨機選擇的信道傳輸部分信號,這樣竊聽者可能對任何單個頻段的信息知之甚少。CDMA 是這一策略的現代替代方案,可產生低于噪聲底限(即信噪比 [SNR] 低于 0 dB)的信號。除非竊聽者知道要尋找的代碼(如用于手機的商業標準 CDMA),否則他們可能無法識別射頻背景中是否存在人工信號。混沌生成的芯片序列或長序列偽隨機生成的密鑰可以進一步防止竊聽者識別射頻活動。多年來,人們還提出了其他 LPD 通信方法,包括不精確的同相/正交相位 (I/Q) 星群和多天線。此外,還分析了在信道條件下通信的隱蔽性和內容豐富程度的問題。

GANs 是 ML 領域相對較新的發展,它允許模型合成與訓練集相似的真實數據。GANs 還可用于生成能夠騙過同時訓練的判別器的數據。在本報告中,我們探討了是否有可能生成一種既能冒充隨機高斯白噪聲(GWN),又能向知情接收者準確傳達英文文本序列的代碼。我們訓練了一個判別神經網絡模型,以區分偽隨機高斯白噪聲和編碼信息。我們還同時訓練編碼器和解碼器網絡,以便在純文本信息和 8 位類噪聲代碼之間進行轉換,這大致相當于典型的低成本軟件定義無線電的 I/Q 輸入和輸出精度。

我們在此不討論隱身無線通信中的一個基本挑戰,即在傳輸頻段中存在可探測到的多余能量。但我們知道,信噪比遠低于 0 dB 也能用于信息通信,這在全球導航衛星系統 (GNSS) 和 CDMA 應用中都能看到。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

序列標記是一個基礎性研究問題,涉及詞性標記、命名實體識別、文本分塊等多種任務。盡管在許多下游應用(如信息檢索、問題回答和知識圖譜嵌入)中普遍和有效,傳統的序列標記方法嚴重依賴于手工制作或特定語言的特征。最近,深度學習已經被用于序列標記任務,因為它在自動學習實例的復雜特征和有效地產生藝術表現的強大能力。在本文中,我們旨在全面回顧現有的基于深度學習的序列標記模型,這些模型包括三個相關的任務,如詞性標記、命名實體識別和文本組塊。然后,在科學分類的基礎上,結合SL領域中廣泛使用的實驗數據集和常用的評價指標,系統地介紹了現有的方法。此外,我們還對不同的SL模型進行了深入分析,分析了可能影響SL領域性能和未來發展方向的因素。

//arxiv.org/abs/2011.06727

序列標記是自然語言處理(NLP)中重要的一種模式識別任務。從語言學的角度來看,語言中最小的意義單位通常被認為是語素,因此每句話都可以看作是語素構成的序列。相應的,NLP領域中的序列標記問題可以將其表述為一種任務,目的是為一類在句子語法結構中通常具有相似角色和相似語法屬性的語素分配標簽,所分配標簽的意義通常取決于特定任務的類型,經典任務的例子有詞性標注[71]、命名實體識別(NER)[52]、文本分塊[65]等,在自然語言理解中起著至關重要的作用,有利于各種下游應用,如句法解析[81]、關系提取[64]和實體共指解析[78]等,并因此迅速得到廣泛關注。

通常,傳統的序列標記方法通常基于經典的機器學習技術,如隱馬爾科夫模型(HMM)[3]和條件隨機字段(CRFs)[51],這些技術通常嚴重依賴于手工制作的特征(如一個單詞是否大寫)或特定于語言的資源(如地名詞典)。盡管實現了卓越的性能,但對大量領域知識的需求和對特征工程的努力使得它們極難擴展到新的領域。在過去的十年中,深度學習(DL)由于其在自動學習復雜數據特征方面的強大能力而取得了巨大的成功。因此,對于如何利用深度神經網絡的表示學習能力來增強序列標記任務的研究已經有了很多,其中很多方法已經陸續取得了[8],[1],[19]的先進性能。這一趨勢促使我們對深度學習技術在序列標記領域的現狀進行了全面的綜述。通過比較不同深度學習架構的選擇,我們的目標是識別對模型性能的影響,以便后續研究人員更好地了解這些模型的優缺點。

本綜述的目的是全面回顧深度學習在序列標記(SL)領域的最新應用技術,并提供一個全景,以啟發和指導SL研究社區的研究人員和從業者快速理解和進入該領域。具體來說,我們對基于深度學習的SL技術進行了全面的調研,并按照嵌入模塊、上下文編碼器模塊和推理模塊三個軸進行了科學的分類,系統地總結了目前的研究現狀。此外,我們還概述了序列標記領域中常用任務的實驗設置(即數據集或評價指標)。此外,我們討論和比較了最具代表性的模型給出的結果,以分析不同因素和建筑的影響。最后,我們向讀者展示了當前基于dll的序列標記方法所面臨的挑戰和開放問題,并概述了該領域的未來發展方向。

本綜述旨在全面回顧深度學習技術在序列標注中的應用,并提供一個全景視圖,以便讀者對這一領域有一個全面的了解。我們以科學的分類學對文獻進行了總結。此外,我們提供了一般研究的序列標記問題的數據集和評價指標的概述。此外,我們還討論和比較了不同模型的結果,并分析了影響性能的因素和不同架構。最后,我們向讀者展示了當前方法面臨的挑戰和開放問題,并確定了該領域的未來方向。我們希望這項調查能對序列標記感興趣的研究者、從業者和教育者有所啟發和指導。

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****

付費5元查看完整內容

對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。

付費5元查看完整內容
北京阿比特科技有限公司