亚洲精品无码国产爽快A片百度,在线看片日中文福利免费,男人的又粗又长又硬视频,在线精品国产国产综合,成人精品一二二视频在线观看

生成式人工智能（GAI）和大語言模型（LLM）是以無監督或半監督方式運行的機器學習算法。這些算法利用現有內容，如文本、照片、音頻、視頻和代碼，生成新內容。其主要目標是生成真實且新穎的材料。此外，它們在生成新材料的數量上沒有限制。新材料可以通過應用程序接口（APIs）或自然語言接口生成，例如OpenAI開發的ChatGPT和Google開發的Bard。生成式人工智能（AI）領域的獨特之處在于其發展和成熟過程極為透明，公眾可以廣泛觀察其進展。目前的人工智能時代受到有效利用其能力以提升企業運營的要求影響。具體而言，屬于生成式AI范疇的大語言模型（LLM）能力，具有重新定義創新和生產力極限的潛力。然而，企業在努力引入新技術的同時，可能會危及數據隱私、長期競爭力和環境可持續性。本書深入探討生成式人工智能（GAI）和LLM。它考察了生成AI模型的歷史與演變發展，以及由這些模型和LLM產生的挑戰和問題。本書還討論了基于生成AI的系統的必要性，并探討了為生成AI模型開發的各種訓練方法，包括LLM預訓練、LLM微調和基于人類反饋的強化學習。此外，它探討了與這些模型相關的潛在用例、應用和倫理考慮。本書最后討論了生成AI的未來方向，并呈現了多項案例研究，突顯生成AI和LLM的應用。

付費5元查看完整內容

2 問題定義

在此部分中，我們將正式定義語音語言模型（Speech Language Models，簡稱SpeechLMs）。語音語言模型是一種自回歸基礎模型，能夠處理并生成語音數據，通過上下文理解生成連貫的語音序列。SpeechLMs 支持多種模式，包括語音到文本、文本到語音，甚至是語音到語音，具備上下文感知能力，從而能夠執行廣泛的任務。與傳統的文本語言模型（如 LLM）不同，SpeechLMs 處理的是語音和文本兩種模式。這使得 SpeechLMs 能夠進行更自然的多模態交互，在同一模型框架內處理多種輸入和輸出模式，具有更高的應用潛力。

3 SpeechLM的組件

語音語言模型主要包括三個組件：語音分詞器、語言模型和語音合成器（聲碼器），這種三階段的設計模式的主要原因是使語言模型架構（如僅解碼器的 transformer）能夠以音頻波形的形式自回歸地建模語音。由于語言模型的輸入和輸出都是離散 tokens，因此需要附加模塊來處理輸入輸出格式。下面將詳細介紹各個組件：

**3.1 語音分詞器

語音分詞器是 SpeechLM 的第一個組件，它將連續的音頻信號（波形）編碼為潛在表示，再將其轉換為離散 tokens，使其能夠被語言模型有效處理，用于諸如語音識別或合成等任務。語音分詞器的核心目標是捕捉音頻中的關鍵特征，同時降低其維度，便于后續對語音模式的建模和分析。語義理解目標：設計語義理解目標的語音分詞器旨在將語音波形轉化為能夠準確捕捉語音內容和意義的 tokens。通常情況下，這些分詞器包含一個語音編碼器和一個量化器，語音編碼器對波形的關鍵信息進行編碼，而量化器則將連續表示離散化為離散 tokens。聲學生成目標：具有聲學生成目標的語音分詞器注重捕捉生成高質量語音波形所需的聲學特征，優先保留關鍵信號，而非語義內容。為生成高質量的語音波形，這些分詞器通常采用包含編碼器、量化器和解碼器的架構，將原始波形轉換為離散 tokens，再通過解碼器將其重構回語音波形。混合目標：混合目標的語音分詞器平衡語義理解和聲學生成任務。大部分混合分詞器采用聲學生成分詞器的架構，并側重于將語義信息從語義分詞器提取到聲學分詞器中。某些系統還利用單獨的向量量化器來從語音模型（如 WavLM）提取信息，并結合聲學特征模塊以提升性能。

**3.2 語言模型

由于文本語言模型的成功，大部分 SpeechLMs 采用了類似的架構，主要使用 transformer 或僅解碼器的架構進行自回歸語音生成。為適應語音生成，原文本分詞器被替換為語音分詞器，使模型能夠聯合建模文本和語音兩種模態。通常做法是擴展原文本模型的詞匯量以容納文本和語音 tokens，形成一個更大的嵌入矩陣，從而使模型在單一序列中生成文本和語音。

**3.3 聲碼器

聲碼器在語言模型生成 tokens 后將其合成為語音波形，這一過程涉及將生成的語音 tokens 所代表的語言和副語言信息轉換為音頻波形。聲碼器通常包括直接合成和輸入增強合成兩種流程。直接合成方式較為簡單，適用于包含足夠聲學信息的 tokens；輸入增強合成則在 tokens 進入聲碼器之前將其轉換為包含豐富聲學特征的表示，以生成更高質量的語音波形。

4 訓練策略

SpeechLMs 的訓練過程分為三個主要階段：預訓練、指令微調和對齊。這一節將主要回顧語言模型組件的主要訓練技術。

**4.1 預訓練

預訓練階段對語言模型的影響至關重要，因為它能夠幫助模型學習語音數據中的統計模式和依賴關系，以便在上下文中預測下一個 token。SpeechLMs 預訓練通常使用大規模的開放語音數據集，包括用于 ASR、TTS 和多模態任務的數據集。為了增強語音和文本模態的對齊，部分模型從預訓練的文本模型開始進行預訓練，并調整以支持語音 tokens，從而加速收斂并提升語音理解性能。

**4.2 指令微調

指令微調通過特定的任務指令來提升模型的泛化能力，使其適應更多樣的應用場景。常見的指令微調方法包括多模態指令微調和模態鏈微調。SpeechGPT 使用指令微調來處理 ASR、TTS 等任務，通過生成包括語音輸入、文本輸出在內的數據集，進一步提高模型的適用性。

**4.3 對齊階段

對齊階段指的是通過特定方法來增強文本與語音模態間的表示對齊。通過交替輸入文本和語音 tokens 的方法，可以顯著提高模型在語音理解和生成方面的性能。此外，通過將文本和語音版本的提示都用于訓練，確保模型能夠為兩種輸入模態生成一致的輸出。這樣，模型既可以在純文本環境中運行，也可以在語音模式下自然地響應。

**

5 下游應用

SpeechLMs 可處理多種下游任務，遠超傳統的ASR 和TTS系統，它們不僅支持文本與語音的多模態任務，還能處理復雜的語音和文本組合任務。下游應用可分為以下幾類：

**5.1 語義相關應用

口語對話：SpeechLMs 可用于口語對話系統，使系統能夠在上下文中理解用戶意圖并生成語音響應。 * 語音翻譯：支持語音到文本或語音到語音的翻譯任務，SpeechLMs 能夠根據不同語言生成對應翻譯。 * 自動語音識別：通過ASR將語音轉換為文本，是SpeechLMs 最基本的功能之一。 * 關鍵字檢測：用于語音激活的場景，SpeechLMs 可識別并提取特定關鍵字，從而觸發特定操作。 * 文本到語音合成：與ASR相反，TTS從文本生成對應的語音輸出，以實現從文本指令到語音的轉換。

**5.2 說話人相關應用

說話人識別：能夠識別語音中的說話人身份，是一種多類分類任務。 * 說話人驗證：判定兩段語音是否來自同一說話人，為二分類任務。 * 說話人分離：將音頻流分割為不同說話人片段，從而標識出誰在什么時間說話。

**5.3 副語言應用

SpeechLMs 還可以處理語音中的副語言信息，如情感識別、語音分離等任務。通過捕捉音高、音色、說話速度等信息，SpeechLMs 能夠識別語音中的情感和態度，使得語音系統能夠生成更具情感化的響應。

6 評價與未來研究方向

本綜述概述了語音語言模型的關鍵組成部分、訓練方法、下游應用及其在語音生成中的不同表現。未來，SpeechLMs 的研究可以朝以下方向發展： * 增強多模態對齊：進一步提高語音與文本模式的對齊能力，使SpeechLMs 更加適應多種任務。 * 提高實時交互性能：開發具有更高響應速度的模型，支持用戶打斷等更自然的交互方式。 * 擴展評估指標：目前大多使用傳統的語音合成和語音識別指標，對這些模型進行更全面的評估需要結合新指標。

付費5元查看完整內容

博士論文 · 最大似然估計 · 分布式機器學習 ·

2024 年 9 月 21 日

[付費5元查看完整內容]【斯坦福博士論文】超越最大似然估計：分布感知的機器學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

傳統的機器學習方法通常依賴于最大似然估計（MLE），因為它易于實現并且與KL散度最小化等價。然而，僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性，例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署，這些重要特性比以往任何時候都更加必要。不幸的是，能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中，我們提出了幾項貢獻，以提高超越最大似然方法的可行性。首先，我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布，而不僅僅是最大似然方法提供的點估計。其次，我們在序列任務中實現了新的訓練方案：強化學習和序列建模。在強化學習的情況下，這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下，我們實現了新的散度方法，從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域，并實現最先進的結果，包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法，以及使用具有數十億參數的語言模型生成類人文本。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 分布式機器學習 ·

2024 年 9 月 7 日

[付費5元查看完整內容]【斯坦福博士論文】超越最大似然估計：分布感知機器學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

傳統的機器學習方法通常依賴于最大似然估計（MLE），因為其實現簡單且等價于最小化KL散度。然而，僅通過最大化似然進行訓練的模型往往缺乏在實際應用中所期望的某些特性，如不確定性的量化、對分布外輸入的魯棒性，或遵守隱私約束。隨著機器學習模型被越來越廣泛地部署，這些重要特性變得比以往任何時候都更加必要。不幸的是，能夠提供這些特性的方法在當今的大模型和大數據集下通常難以實現。

在本論文中，我們提出了若干貢獻，以提高超越最大似然方法的可操作性。首先，我們在多個領域改進了貝葉斯機器學習。這使得我們能夠恢復感興趣參數的完整后驗分布，而不是最大似然方法所給出的點估計。其次，我們在順序任務中實現了新穎的訓練方案，包括強化學習和序列建模。在強化學習的案例中，這使我們能夠開發不會泄露私人信息的獎勵最大化策略。在序列建模的案例中，我們實現了新的散度函數，從而改進了文本生成。

我們的貢獻使得分布感知方法能夠擴展到多個領域，取得了最新的研究成果，包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私保護算法，以及使用數十億參數的語言模型生成類似人類的文本。

在我的博士學習期間，機器學習領域取得了巨大的進展。然而，隨著這些模型在越來越廣泛和重要的應用中部署，越來越多的關注點集中在它們的局限性上。盡管許多當前的模型在某些領域可以實現超越人類的表現 [SHM+16]，它們仍然存在一些人類不會表現出的缺陷。這些問題包括缺乏對分布外數據的魯棒性 [SZS+14]、缺乏對不確定性的考慮 [GPSW17]，以及私人信息的泄露 [KR19]。

在本論文中，我們的目標是開發解決這些缺陷的方法，涵蓋多種機器學習問題和應用領域。特別是，我們首先專注于改進貝葉斯機器學習，這是一種在參數估計中超越最大似然估計的傳統方法。在后續部分中，我們在強化學習和序列建模中引入了替代的訓練方法。正如下文所討論的，這些方法也可以看作是超越最大似然的訓練方法。

1.1 最大似然目標

最大似然目標無疑是今天機器學習中最常用的目標函數，是分類、參數估計和生成建模中占主導地位的方法。簡單來說，給定一個數據集 DDD 和一個由參數 θ\thetaθ 參數化的概率模型 PθP_\thetaPθ，為數據集中的元素分配概率，最大似然目標尋找： θ?=arg?max?θEx～D[log?Pθ(x)]. 然而，最大似然目標并不總是機器學習從業者的顯而易見的選擇。在早期的分類研究中 [LeBB+98]，非基于似然的目標函數常常被使用。在早期關于神經網絡機器學習的教材中 [Bis95]，提出了幾種損失函數，包括平方和目標。實際上，在2010年代中期，生成對抗網絡 [GPM+14] 開始采用非似然損失。然而，最大似然目標逐漸成為今天機器學習中的主要目標函數。其原因有很多。首先，MLE方法在概率論上非常有依據，因為它與最小化KL散度是等價的。

DKL(PD∥Pθ) = Ex～D [log PD(x) ? log Pθ(x)] = ?Ex～D [log Pθ(x)] + C，其中PD是數據集D的經驗分布函數（或基礎的群體分布），C是一個不依賴于θ的常數。因此，最大化似然等價于最小化數據分布與由θ參數化的分布之間的KL散度。其次，MLE方法通常非常容易優化。最大化似然只需要從數據集中采樣并計算對數似然的梯度，而這通常可以通過現代自動微分工具包輕松實現 [BFH+20, PGM+19]。相比之下，最小化數據分布與參數化分布之間的其他散度（例如χ2散度）通常要求對數據分布的密度有詳細了解。這種情況通常是未知的，而通過學習分類器近似這種密度的方法（如生成對抗網絡）則需要與θ一起對分類器參數進行對抗性訓練，導致訓練不穩定。

最后，最大似然通常與下游任務目標高度一致。例如，在ImageNet發布后變得流行的分類任務中 [DDS+09]，最大化正確標簽的概率正是訓練分類模型的目標。然而，最大似然目標并不總是最合適的選擇。不幸的是，采用非基于似然的目標通常是具有挑戰性的。在現代機器學習中，方法的可擴展性和優化的便捷性是所有方法的重要考慮因素。我們面臨的挑戰是：找到超越最大似然方法的技術，同時保持數據效率、易于通過梯度下降優化，并具備計算擴展性。為了解決這個問題，我們利用了一些在本論文中提出的關鍵技術：變分推理用于神經函數逼近下的貝葉斯推斷，連續松弛和路徑梯度估計器用于減少優化中的方差，以及將問題重新參數化為更易處理的等價形式。本論文分為兩部分，但有一個共同的目標：開發超越典型MLE方法的技術。在第一部分中，我們研究了貝葉斯機器學習的改進，尤其在數據較少的情況下，由于數據集的有限性，關于θ的值可能存在相當大的不確定性。首先，我們開發了一種使用正則化流計算高維積分的新方法，并將其應用于計算貝葉斯定理中的歸一化函數。然后，我們將變分推理應用于因果發現問題，解決了在復雜有向無環因果圖集中構建后驗分布的挑戰。在第二部分中，我們研究了在序列任務中超越最大似然的替代訓練方法。首先，我們研究了在強化學習中執行隱私約束的問題。這需要控制策略生成的軌跡分布，以確保它們不會泄露有關私有狀態變量的信息。最后，我們解決了基于序列數據的自回歸模型訓練問題。我們將任務重新表述為模仿學習任務，從而可以有效地最小化與數據分布的不同散度。超越MLE方法還為生成過程提供了額外的靈活性，我們通過允許回溯來增強生成過程。

1.1.1 改進貝葉斯機器學習

在參數估計的設定中，我們有一個數據集D，并希望推斷感興趣的參數θ。例如，我們可能有一組(x, y)對，并希望推斷可能的線性關系的斜率，在假設數據生成y = θx + ?（其中? ～ N(0, σ)）的情況下。最大似然估計給出了使Ex～D [Pθ(x)]最大的θ值，也可以寫作P(D|θ)。實際上，我們通常想要得到的是P(θ|D)，即在給定數據集的情況下θ的后驗概率。根據貝葉斯定理，我們知道P(θ|D) = P(D|θ)P(θ)/P(D)，其中P(θ)是θ的先驗分布，P(D)是歸一化常數。只要θ可以從數據中識別，并且先驗分布對θ的真實值有密度，那么在足夠的數據情況下，最大似然解將收斂于后驗分布的眾數。然而，在數據有限的情況下，得到完整的后驗分布通常非常重要，而不僅僅是最大似然值。后驗分布可以指示對θ估計的不確定性，這在做出最優決策時非常有用。然而，精確計算后驗分布通常是不可行的，因為它需要計算歸一化常數P(D) = ∫ΘP(D|θ)P(θ)dθ。當θ的維度超出適度范圍時，由于維度詛咒，進行這種積分變得極其困難。在論文的第一個貢獻中，我們通過隨機采樣域的子集并估計每個子集的積分值來解決這個問題。雖然這是無偏的，但這種方法在典型目標函數下具有極高的方差，因為它們集中在域的一個小體積內。我們通過使用正則化流解決這個問題，正則化流是一種靈活的變換家族，可以在保持體積的同時在空間之間映射。這使我們能夠學習一個可逆映射，將[0, 1]d映射到積分域上，構造該映射，使得在[0, 1]d上的均勻分區通過正則化流映射后在積分域上生成具有大致相等積分量的（非均勻）分區。這大大降低了估計器的方差。通過改變分區的數量，我們可以在重要性采樣估計器（在無限多的小分區的極限下）和變分下界（在單個分區的極限下）之間平滑插值。

在這一部分的第二個重點中，我們將變分推理應用于從數據中推斷線性高斯結構方程模型（SEM）的問題。結構方程模型是一種特定類型的因果圖，配備了因果解釋的有向邊。在線性高斯SEM中，條件概率分布是高斯分布，均值由圖中變量的父節點的線性函數給出。盡管這個設定受到了限制，但在這種設定中進行變分推理仍然具有挑戰性。主要問題是網絡必須是一個有向無環圖（DAG），這是在鄰接矩陣空間中的一個復雜約束。我們通過將DAG權重矩陣重新參數化為P LP?來解決這個問題，其中L是下三角矩陣，P是置換矩陣。這使我們能夠應用關于置換的松弛的最新研究 [MBLS18]。我們發現我們的方法能夠恢復與真實數據生成圖非常相似的圖，并且表現優于基線方法。

1.1.2 在序列任務中超越KL散度

在論文的第二部分中，我們從序列建模和強化學習（RL）設定的角度，探索了超越最大似然的訓練方法。如上所述，最大似然等價于KL散度最小化。實際上，正如 [Lev18] 中所描述的，我們可以將傳統的強化學習目標視為在熵獎勵的條件下最大化回報的過程，這等價于最小化由策略引發的分布與按軌跡獎勵加權的分布之間的KL散度。

在這一部分的第一個章節中，我們研究了在滿足信息披露約束的情況下最大化回報的任務。例如，參與管理CEO日程的算法可能擁有私人信息，在安排會議時不應泄露這些信息，或者游戲策略可能包含一些應該保密的有用信息。這表現為對對手從策略行動中推斷私有信息的能力的約束——為了隱藏私有信息，可能有必要采取次優行動（從減少回報的角度）。我們將其表述為對私有狀態變量與策略行動之間互信息的約束，并使用對抗訓練的批評者來試圖發現這些私有信息。我們進一步通過引入可微分模擬器擴展了這一方法，使我們首次能夠將私有強化學習擴展到高維模擬機器人任務。

在這一部分的最后一章中，我們解決了自回歸序列建模的傳統問題。通常這被表述為最大似然問題：對于由一系列標記構建的序列x1，目標是最大化似然PL1 log Pθ(xi|x<i)。這等價于最小化數據的經驗分布與由自回歸模型Pθ引發的分布之間的KL散度。然而，越來越多的模型用于生成任務，即自回歸地采樣一系列標記，如x1 ～ Pθ(·)，x2 ～ Pθ(·|x1)，依此類推。如果模型Pθ與基礎數據分布完全匹配，這將導致從真實的序列分布中采樣。然而，對于不能完全匹配數據分布的有限容量模型，最大化似然不一定會導致最理想的自回歸序列分布。我們將任務重新表述為模仿學習任務，從而能夠有效地最小化與數據分布的不同散度。此外，超越MLE方法為生成過程提供了額外的靈活性，我們通過允許回溯來增強生成過程。我們將該方法擴展到具有超過70億參數的Llama-2-7B語言模型 [TMS+23]，并且性能優于可比方法。

付費5元查看完整內容

多模態大模型 · 大型語言模型 ·

2024 年 2 月 23 日

[付費5元查看完整內容]《多模態大型語言模型進化》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此，受到大型語言模型成功的啟發，大量研究努力正被投入到多模態大型語言模型（MLLMs）的開發中。這些模型能夠無縫整合視覺和文本模態，無論是作為輸入還是輸出，同時提供基于對話的界面和遵循指令的能力。在這篇論文中，我們提供了近期基于視覺的MLLMs的全面回顧，分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析，包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外，我們編制并描述了訓練數據集和評估基準，就性能和計算需求在現有模型之間進行了比較。總的來說，這篇綜述提供了當前藝術狀態的全面概述，為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構（Vaswani et al., 2017）的引入，使得創建能夠處理各種模態的模型成為可能，并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初，這一突破被用于語言特定模型（Devlin et al., 2018; Brown et al., 2020），但很快擴展到支持視覺處理骨干（Dosovitskiy et al., 2021），最終用于集成多種模態的模型（Radford et al., 2021）。復雜大型語言模型（LLMs）的涌現，特別是它們進行上下文學習的能力，鼓勵研究人員將這些模型的應用范圍拓寬到多模態，包括作為輸入和輸出。這一擴展導致了如GPT-4V（Achiam et al., 2023）和Gemini（Anil et al., 2023）等尖端模型的開發，展示了最先進的性能。多模態大型語言模型（MLLMs）的開發涉及將視覺和語言的單模態架構合并，通過視覺到語言的適配器建立它們之間的有效連接，并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下，我們的目標是提供關于MLLM領域的全面概述，重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新，也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面：它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著，我們深入訓練過程和使用的數據。然后，我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人（2020）發現上下文學習，即在提示前附加一些示例以演示大型語言模型（LLM）的期望輸出（Chowdhery等人，2023；Hoffmann等人，2022；Tay等人，2022），可以提高其性能，特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述，可以進一步提高泛化能力。這種技術，稱為指令調優（Chung等人，2022；Wang等人，2022b,a；Jiang等人，2024），對于使LLM的行為與人類的行為對齊至關重要，目前賦能了最先進的LLM，最終通過來自人類反饋的強化學習（RLHF）（Ouyang等人，2022；Achiam等人，2023；Chen等人，2023j；Bai等人，2023a）得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時，參數高效微調（PEFT）方案代表了訓練整個LLM的一個重要替代方案，因為這些策略只引入少量新參數。其中，提示調優（Hambardzumyan等人，2021；Lester等人，2021；Li和Liang，2021；Liu等人，2023j）學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是，LoRA（Hu等人，2021）通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA（Dettmers等人，2023）等量化方法正交，進一步減少了LLM的內存占用，與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似，Flamingo（Alayrac等人，2022）是首個在視覺-語言領域探索大規模上下文學習的模型。然后，視覺指令調優（Liu等人，2023e）迅速成為多模態領域中最突出的訓練范式，以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件（圖1）：作為與用戶接口的LLM主干，一個（或多個）視覺編碼器，以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族（Touvron等人，2023a,b），鑒于它們的權重是自由可獲取的，它們僅在公開數據上進行了訓練，并且它們擁有不同的大小以適應各種用例。此外，它們的衍生版本也很受歡迎，例如Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。前者在GPT-3編寫的指令上微調LLaMA，而后者利用用戶與ChatGPT（OpenAI，2022）的共享對話。其他選擇包括OPT（Zhang等人，2022b），Magneto（Wang等人，2023b），MPT（MosaicML，2023），以及經過指令調優（Chung等人，2022）或多語言（Xue等人，2020）版本的T5（Raffel等人，2020），一種為多個任務預訓練的編解碼器語言模型。本調查中涵蓋的MLLM的總結報告在表1中，指出每個模型基于哪個LLM，視覺編碼器，用于連接視覺和語言組件的適配器，MLLM是否經過視覺指令調優訓練，以及主要任務和能力的簡短列表。視覺編碼器在MLLM中，一個關鍵組件是視覺編碼器，它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器，同時只訓練一個可學習的接口，將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer（ViT）模型，具有CLIP-based目標，以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP（Radford等人，2021）的ViT-L模型，OpenCLIP（Wortsman等人，2022）的ViT-H主干，以及EVA-CLIP（Fang等人，2023）的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練，采用對比方法對正確的圖像-文本對進行對齊。相反，EVA-CLIP是一系列模型，提供了訓練CLIP模型的實用有效解決方案。特別是，EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征，條件是可見的圖像塊。正如（Li等人，2023f）所示，更強大的圖像編碼器導致更好的性能。基于這一見解，Lin等人（2023b）和Gao等人（2024）提出了一個凍結視覺主干的集合，以捕獲魯棒的視覺表示和不同級別的信息粒度。同時，PaLI模型（Chen等人，2023i,g），注意到語言和視覺參數之間的不平衡，分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的，如（Li等人，2023f；Huang等人，2023a；Gao等人，2023；Chen等人，2023f）中所觀察到的。然而，使用凍結的視覺編碼器有一些局限性，主要是由于參數數量有限，導致視覺和語言模態之間對齊不足。具體來說，從視覺模型提取的密集特征可能會碎片化細粒度圖像信息，并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題，其他方法（Ye等人，2023c,d）采用兩階段訓練范式。在第一階段，他們結合了可訓練的視覺主干，同時保持預訓練的LLM凍結。根據他們的發現，使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而，它可能導致其他任務的性能下降，表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊，稱為“適配器”，旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍，從基本架構（如線性層或MLP）到高級方法（如基于Transformer的解決方案），如Q-Former模型，以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射，將視覺特征轉換為與文本對應部分相同的維度。一些方法，如LLaMA-Adapter（Gao等人，2023）和FROMAGe（Koh等人，2023b）只使用單個線性層來執行多模態連接，而LLaVA-1.5（Liu等人，2023d）采用了兩層MLP，顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影，但即使在對視覺輸入有更深入理解的最新方法中，線性投影的使用也被證明非常有效（Chen等人，2023f；Lin等人，2023a；Wang等人，2023c；You等人，2023；Zhao等人，2023a）。因此，它是一種簡單而有效的技術，用于將視覺特征與文本對應部分對齊。不同的方法（Cha等人，2023）提議用卷積層替換線性層，顯示出適度的改進。 Q-Former。它是BLIP-2（Li等人，2023f）中提出的基于Transformer的模型，然后在幾種其他方法（Chen等人，2023d；Dai等人，2023；Hu等人，2024）中使用。它的特點是具有可適應的架構，由兩個共享相互注意力層的Transformer塊組成，促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢，在自注意力層內部交互，并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感，引入了各種修改版本。在這方面，mPLUG-Owl模型（Ye等人，2023c,d）簡化了Q-Former架構，并提出了一個視覺抽象器組件，通過將視覺信息壓縮為不同的可學習令牌來操作，以獲得更富語義的視覺表示。同一線上，Qwen-VL（Bai等人，2023b）使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征，還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo（Alayrac等人，2022）中被提出，通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用，以確保在初始化時，條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們，與其他替代方案相比，增加了可訓練參數的數量。為了減少計算復雜性，這種策略通常與基于Perceiver的組件（Jaegle等人，2021）配對使用，該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來，幾個模型（Awadalla等人，2023；Chen等人，2023b；Lauren?on等人，2023；Li等人，2023a）采用這種技術將視覺模態與底層LLM連接起來，顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始，MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下，都使用標準的交叉熵損失來預測下一個令牌，作為自回歸目標。單階段訓練。這種可能性由LLaMA-Adapter（Gao等人，2023）探索，它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點，模型使用圖像-文本對和指令進行聯合訓練，操作獨立的參數。同時，（Koh等人，2023b）中提出的模型通過整合兩個對比損失來適應最終損失函數，用于圖像-文本檢索。在訓練期間，只更新三個線性層。另一方面，Kosmos-1（Huang等人，2023a）考慮了一個凍結的視覺主干，并從頭開始訓練1.3B參數的語言模型。 Flamingo（Alayrac等人，2022）及其開源變體（Awadalla等人，2023；Lauren?on等人，2023），相反，訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外，Otter（Li等人，2023a）擴展了Flamingo的訓練以增加其上下文能力。鑒于目前可用的訓練數據量，像SPHINX-X（Gao等人，2024）這樣的方法選擇執行單一的一體化訓練階段，在此階段更新所有模型組件，可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個，目標是將圖像特征與文本嵌入空間對齊。經過這一階段后，輸出往往是碎片化的且不連貫的。因此，進行第二步以提高多模態對話能力。LLaVA（Liu等人，2023e,d）是首批引入視覺指令遵循訓練方案的方法之一，作為第二訓練階段執行，更新多模態適配器和LLM的參數。在第一階段，相反，只有多模態適配器是可訓練的。不同的是，MiniGPT4（Zhu等人，2023a）值得注意的是，在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段，它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法，如InstructBLIP（Dai等人，2023）所示，涉及凍結視覺編碼器和LLM。在兩個訓練階段中，只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比，mPLUG-Owl（Ye等人，2023c,d）在初始階段更新它，便于捕獲低層次和高層次的視覺信息。此外，在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地，Shikra（Chen等人，2023f）在兩個階段中更新所有權重，唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段（或單一階段）訓練中，通常使用來自不同來源的圖像-文本對，使用的數據集包括LAION-2B（Schuhmann等人，2022）、LAION-400M（Schuhmann等人，2021）、Conceptual Captions（Sharma等人，2018）、COYO-700M（Byeon等人，2022）和DataComp（Gadre等人，2023）。一些方法（Lin等人，2023a）將這些與一個或多個數據集結合使用，這些數據集的特點是文本與圖像交錯，通常從網絡上抓取，如WebLI（Chen等人，2023i）、MMC4（Zhu等人，2023d）、MMDialog（Feng等人，2023b）和OBELICS（Lauren?on等人，2023）。

為了解決以前數據集中的偏差和噪聲問題，StableLLaVA（Li等人，2023h）引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據，并使用Stable Diffusion（Rombach等人，2022）生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中，常用的LLaVA-Instruct（Liu等人，2023e）擴展了COCO（Lin等人，2014）并加入了由GPT-4生成的指令。遵循這一趨勢，Zhao等人（2023a）通過結合手動生成的數據和高質量多樣性的數據，擴大了尺寸。此外，還提出了其他多輪對話數據集，如（Dai等人，2023）中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集，LRV-Instruction（Liu等人，2023c）旨在通過更穩健的指令減少幻覺，而LLaVAR（Zhang等人，2023h）則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務，例如視覺問答（VQA）、圖像描述和多輪對話。然而，最近對處理更細粒度的視覺任務，如視覺定位和圖像生成，有了更大的興趣。

結論與未來方向

在本綜述中，我們提供了最近多模態大型語言模型（MLLMs）進化的全面概述，首先關注如何為LLMs裝備多模態能力，然后探討這些模型處理的主要任務。基于所呈現的分析，以下我們概述了重要的開放挑戰和有前景的未來研究方向，以進一步增強MLLMs的能力。修正幻覺現象。幾項研究（Liu等人，2023b；Zhu等人，2023a）表明MLLMs傾向于展現高幻覺率，特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題（Liu等人，2023b；Wang等人，2023a；Wu等人，2023c；Yin等人，2023a），但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰，值得解決，以允許這些模型在更關鍵的背景中（例如，醫學）應用，并保證它們的準確性和可信度。預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明，基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象（Schramowski等人，2023；Friedrich等人，2023），但需要進一步探索以防止MLLMs中出現相同的行為（Pi等人，2024）。減少計算負荷。如補充材料所示，MLLMs高度依賴于計算。需要有效的策略（Chu等人，2024）來減少計算需求，使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求，無論是在模型規模還是數據量方面，以及優化推理階段。

付費5元查看完整內容

強化學習 · 書籍 ·

2023 年 7 月 13 日

[付費5元查看完整內容]【2023新書】強化學習導論(自適應計算與機器學習)

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

李察·薩頓和安德魯·巴托以清晰簡明的方式闡述了強化學習的關鍵思想和算法。他們的討論范圍從該領域的知識基礎歷史到最近的發展和應用。

強化學習是人工智能中最活躍的研究領域之一，是一種計算學習方法，其中一個代理試圖在與復雜、不確定的環境交互時最大化其獲得的總獎勵。在《強化學習》這本書中，李察·薩頓和安德魯·巴托以清晰簡明的方式闡述了強化學習的關鍵思想和算法。他們的討論范圍從該領域的知識基礎歷史到最近的發展和應用。所需的數學背景僅是對基本概率概念的熟悉。

該書分為三部分。第一部分用馬爾可夫決策過程來定義強化學習問題。第二部分提供基本解決方法：動態規劃，蒙特卡洛方法，和時差學習。第三部分提供了一個關于解決方法的統一視角，并融入了人工神經網絡，資格痕跡和規劃；最后兩章提供了案例研究，并考慮了強化學習的未來。

付費5元查看完整內容

機器學習 · 書籍 ·

2023 年 2 月 24 日

[付費5元查看完整內容]【干貨書】機器學習—工程師和科學家的第一課，348頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習是關于基于數據學習、推理和行動的。這是通過構建計算機程序來完成的，這些程序處理數據，提取有用的信息，對未知屬性進行預測，并建議采取行動或做出決定。將數據分析轉化為機器學習的原因是，這個過程是自動化的，計算機程序是從數據中學習的。這意味著使用通用的計算機程序，這些程序根據觀察到的所謂的訓練數據自動調整程序的設置，以適應應用程序特定的情況。因此，可以說機器學習是一種示例編程方式。機器學習的美妙之處在于數據表示的是非常任意的，我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。本書旨在傳達監督式機器學習的精神，而不要求讀者具備該領域的任何經驗。我們的重點是基礎數學和實踐方面。這本書是教科書;它不是參考工作或編程手冊。因此，它只包含仔細(但全面)選擇的有監督機器學習方法，而沒有編程代碼。到目前為止，已經有許多編寫良好、文檔齊全的代碼包可用。我們堅信，只要讀者對數學及其方法的內部工作有很好的理解，就能將本書與他/她最喜歡的編程語言中的代碼包聯系起來。本書從統計學的角度出發，從統計特性的角度來討論方法。因此，它需要一些統計學和概率論的知識，以及微積分和線性代數。我們希望從頭到尾閱讀本書，能讓讀者成為機器學習工程師和/或在該主題中進行進一步研究的良好起點。這本書是這樣寫的，可以連續讀。然而，本書還有多種可能的閱讀路徑，根據讀者的興趣有更多的選擇。圖1 - 6說明了這兩章之間的主要依賴關系。特別是，第2章、第3章和第4章討論了最基本的主題。我們建議讀者在閱讀后續章節(第5章至第9章)之前，先閱讀這些章節。第10章將超越機器學習的監督式設置，第11章將重點放在設計一個成功的機器學習解決方案的一些更實際的方面，與前幾章相比技術性較低。最后，第12章(由David Sumpter撰寫)討論了現代機器學習中的一些倫理問題。

付費5元查看完整內容

NAACL 2022 · 自然語言處理 · 對比學習 ·

2022 年 7 月 10 日

[付費5元查看完整內容]【NAACL2022】自然語言處理的對比數據與學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術，它使相似的數據樣本對具有相近的表示，而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置，使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能，但近年來，關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進，而且還提供了所需的特性，如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。

在本教程中，我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后，我們調研了對比學習對各種下游NLP應用的好處和最佳實踐，包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。

本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題，并推動將對比學習用于自然語言處理應用的未來研究方向。

//contrastive-nlp-tutorial.github.io/

對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability

經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions

講者:

付費5元查看完整內容

基于模型的深度學習 · 斯坦福大學 (Stanford University) ·

2022 年 5 月 10 日

[付費5元查看完整內容]【斯坦福】基于模型的深度學習:論深度學習與優化的交集

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模，在此基礎上，人們可以通過易于處理的優化來確定決策。最近，深度學習方法正在變得越來越流行，這種方法使用從數據調整的高度參數架構，而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里，我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣，并為位于這個光譜中間的方法提供一個教程式的展示，稱為基于模型的深度學習。在我們的演示中，我們還附帶了超分辨率和隨機控制方面的運行示例，并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起，在生物醫學成像和數字通信等各種應用中使用實驗結果，證明了這種結合的好處。

付費5元查看完整內容

機器學習 ·

2021 年 8 月 15 日

[付費5元查看完整內容]【干貨書】機器學習-為工程師和科學家的專門課，275頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習是關于基于數據的學習、推理和行動。這是通過構建計算機程序來完成的，這些程序可以處理數據，提取有用的信息，對未知屬性做出預測，并建議采取的行動或做出的決定。將數據分析變成機器學習的原因是，這個過程是自動化的，計算機程序是從數據中學習的。這意味著使用通用計算機程序，這些程序根據觀察到的所謂訓練數據自動調整程序的設置，以適應特定的應用程序環境。因此可以說，機器學習是一種通過實例編程的方式。機器學習的美妙之處在于，數據所代表的內容是非常隨意的，我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。上述“通用計算機程序”是指數據的數學模型。也就是說，當我們開發和描述不同的機器學習方法時，我們使用的是數學語言。數學模型描述了與觀測數據對應的相關數量或變量與感興趣的屬性(如預測、動作等)之間的關系。因此，模型是數據的緊湊表示，以精確的數學形式捕捉我們正在研究的現象的關鍵屬性。使用哪個模型通常由機器學習工程師在查看可用數據時產生的見解和從業者對問題的總體理解來指導。在實踐中實現該方法時，將該數學模型轉換為可在計算機上執行的代碼。然而，要理解計算機程序的實際作用，了解其基礎數學也很重要。

這本書的目的是介紹監督機器學習，而不需要在該領域的任何經驗。我們既關注基礎的數學，也關注實踐方面。本書是教科書，不是參考書，也不是編程手冊。因此，它只包含一個仔細(但全面)的監督機器學習方法的選擇，而沒有編程代碼。現在有許多精彩和證據確鑿的代碼包可用,我們深信,在很好地理解數學和內部運行的方法。在這本書中，我們從統計學的角度來討論方法的統計特性。因此，它需要一些統計和概率論的知識，以及微積分和線性代數。我們希望，從頭到尾閱讀這本書將給讀者一個良好的起點，作為一個機器學習工程師工作和/或繼續在該學科的進一步研究。下圖說明了章節之間的主要依賴關系。特別是在第二、三、四章中討論了最基本的主題，我們建議讀者先閱讀這些章節，然后再閱讀后面包含更高級的主題的章節(第5-9章)。第10章超越了機器學習的監督設置，第11章關注于設計一個成功的機器學習解決方案的一些更實際的方面，比前幾章的技術性更少。最后，第十二章(由David Sumpter撰寫)討論了現代機器學習的某些倫理方面。

付費5元查看完整內容