擴散模型是一種通過模擬擴散過程的概率模型,逐步向數據中添加和去除噪聲,從而生成逼真的樣本。這些模型由于能夠生成高質量的樣本,已經在圖像處理、語音合成和自然語言處理等領域中獲得了廣泛的關注。隨著擴散模型在各個領域的廣泛應用,現有的文獻綜述往往集中在特定領域,如計算機視覺或醫學影像,因此可能無法滿足跨多個領域的更廣泛受眾。因此,本綜述對擴散模型進行了全面概述,涵蓋了其理論基礎和算法創新。我們重點介紹了它們在媒體質量、真實性、合成、圖像轉換、醫療保健等各個領域的應用。通過整合當前的知識并識別新興趨勢,本綜述旨在促進對擴散模型的更深入理解和更廣泛的應用,并為來自不同學科的未來研究人員和實踐者提供指導。
關鍵詞:擴散模型 · 生成建模 · 合成數據生成 · 圖像合成 · 圖像到圖像轉換 · 文本到圖像生成 · 音頻合成 · 時間序列預測 · 異常檢測 · 醫學影像 · 數據增強 · 計算效率 · 不確定性量化 · 黎曼流形 · 分子動力學 · 超分辨率 · 語義圖像合成 · 零樣本分類 · 大氣湍流校正
擴散模型(Diffusion Model,DM)是一類通過逆向擴散過程生成數據的生成模型,該過程逐步向數據中添加噪聲,直至其變為高斯分布。這些模型首次由Sohl-Dickstein等人于2015年提出,已在圖像、音頻和視頻合成等多個領域展示了出色的性能,能夠生成高質量的樣本 [1, 2]。該過程涉及一個迭代程序,模型在每一步訓練時預測已添加到樣本中的噪聲,實質上是在學習對數據進行去噪。這種方法顯著推動了生成細致且連貫輸出的能力,使得DM成為諸如文本到圖像合成和提高低分辨率圖像等任務的強大工具 [3]。圖1展示了用于高分辨率圖像合成的擴散模型。
擴散模型(DM)已在多個領域中變得流行,尤其是在圖像生成領域,它們能夠基于文本描述創建逼真的圖像、藝術作品和編輯內容 [3, 5]。在自然語言處理(NLP)中,DM也逐漸流行,用于文本生成和增強,展現了生成連貫且上下文相關文本的能力 [6]。在音頻合成中,DM被用于生成逼真的聲景、音樂和擬人化的語音,推動了創意和交流人工智能(AI)應用的邊界 [7]。此外,它們的應用還擴展到分子和材料科學領域,用于設計新的化學化合物和材料,展示了其多樣性。DM的流行源于其穩健性、靈活性和生成高保真度輸出的能力,使其成為AI驅動的創意和科學領域中的突破性工具 [8]。
圖2提供了過去五年在各種學科中發表的關于DM的論文的統計概覽。從圖2(a)中可以看出,自2020年以來,發表的論文數量一直在不斷增長。圖2(b)顯示,醫學領域的論文占比29%,居首位,其次是計算機科學,占17%,以及工程學,占14%。化學和材料科學等領域的論文較少,分別占總量的4%和6%。這些趨勢突顯了DM在醫學和計算機科學中的廣泛應用,而在其他領域的潛力尚未得到充分探索。
本綜述旨在為DM在各個領域的應用提供全面概述,幫助廣泛受眾理解其能力和多樣性。通過展示多樣的應用,本綜述鼓勵跨學科合作和創新,潛在地解決超出傳統應用如計算機視覺領域的未探索領域中的開放挑戰。
DM在各個領域的快速進展展示了其潛力和多樣性。盡管相關出版物數量不斷增加,但現有的綜述通常集中于特定應用或狹窄領域,未能涵蓋DM應用的廣泛范圍。考慮到這一機會,本綜述旨在通過提供DM的全面概述來填補現有文獻中的空白。
我們的貢獻總結如下: ? 本綜述涵蓋了DM的多個關鍵方面,包括理論、算法、創新、媒體質量、圖像轉換、醫療應用等。我們概述了截至2024年3月的相關文獻,突出最新的技術和進展。 ? 我們將DM分為三大類:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSN)和隨機微分方程(SDE),有助于理解其理論基礎和算法變種。 ? 我們重點介紹了與DM應用相關的創新方法和實驗方法,涵蓋數據類型、算法、應用、數據集、評估和限制。 ? 最后,我們討論了研究結果,識別了未解決的問題,并提出了關于DM未來研究方向的疑問,旨在為研究人員和實踐者提供指導。 圖3基于本研究中引用的文獻展示了DM的框架,在第2至第8節中進行了討論。
數據來源于Scopus,初步通過標題、摘要和關鍵詞使用搜索詞“Diffusion Model” AND (“image” OR “audio” OR “text” OR “speech”)篩選出3746篇文章。將搜索范圍限制為2020年至2024年間發表的英文、同行評審和開放獲取的論文后,數量減少至473篇。進一步過濾排除了“human”(人類)、“controlled study”(對照研究)、“job analysis”(工作分析)、“quantitative analysis”(定量分析)、“comparative study”(比較研究)、“specificity”(特異性)等無關的關鍵詞,最終篩選出326篇文章。
一位研究人員(Y.L.)將這326篇期刊文章導入Excel CSV文件以供詳細分析。隨后,利用Excel的重復檢測工具識別并刪除重復項。兩位獨立評審者(M.A.和Z.S.)評估了剩余論文的標題和摘要,確定了65篇相關文獻。此外,還納入了另外20篇相關文獻,最終涵蓋了來自各個領域的85篇論文。
** **擴散模型(DM)是一類通過模擬擴散過程來構建或重建數據分布的生成模型,這一過程通過隨機過程實現。這包括一個雙階段操作,在該操作中逐步添加噪聲,并隨后進行反向操作 [9]。DM的算法骨干包含幾個關鍵階段 [1, 9]:
初始化:從原始數據形式x0x_0x0 開始。
前向過程(噪聲添加):在TTT 個時間步內逐漸添加噪聲,根據預定義的噪聲計劃β\betaβ,將數據從x0x_0x0 轉化為xTx_TxT。
反向過程(去噪):利用學習到的參數θ\thetaθ 從xtx_txt 順序估計xt?1x_{t-1}xt?1,有效地逆轉噪聲添加,以重建原始數據或生成新的數據樣本。
輸入:原始數據X={x1,x2,…,xn}X = {x_1, x_2, \dots, x_n}X={x1,x2,…,xn}、總時間步數TTT、噪聲計劃β\betaβ。
輸出:去噪或合成的數據X′X'X′。
訓練:通過學習條件分布pθ(xt?1∣xt)p_\theta(x_{t-1}|x_t)pθ(xt?1∣xt) 來訓練模型,以近似逆向噪聲添加過程,對每個時間步ttt 從TTT 到 1 進行訓練。 * 數據合成:從一個隨機噪聲樣本xTx_TxT 開始,迭代地應用學習到的逆向過程:xt?1′=從pθ(xt?1∣xt)中采樣x'{t-1} = 從 p\theta(x_{t-1}|x_t) 中采樣xt?1′=從pθ(xt?1∣xt)中采樣最終得到x0′x'_0x0′,即最終的合成或重建數據。
多年來,已經提出了幾種基于擴散的模型,每一種都在生成建模的進步中作出了獨特貢獻。圖4展示了一些重要和有影響力的擴散模型及其時間線。其中,有三種擴散模型因其對各種應用的影響而非常流行并廣泛采用:去噪擴散概率模型(DDPMs)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。
近年來,由于擴散模型(DM)能夠生成高質量、逼真且多樣化的數據樣本,其受到了極大的關注,使得它們在多個前沿應用領域中得到了廣泛部署。DM廣泛應用于以下幾個最受歡迎的領域: ? 圖像合成:DM用于從噪聲分布中創建詳細的高分辨率圖像。它們可以生成新圖像或通過提高清晰度和分辨率來改善現有圖像,使其在數字藝術和圖形設計等領域中尤為有用 [13]。 ? 文本生成:DM能夠生成連貫且上下文相關的文本序列。這使其適用于諸如創作文學內容、在虛擬助手中生成逼真的對話以及自動生成新聞文章或創意寫作的內容 [14]。 ? 音頻合成:DM能夠從噪聲信號中生成清晰且逼真的音頻。這在音樂制作中非常有價值,因為需要創建新的聲音或改善錄制音頻的清晰度,還包括在各種輔助設備中使用的語音合成技術 [7]。 ? 醫療保健應用:盡管不限于醫學影像,DM在合成醫療數據方面發揮了重要作用,包括磁共振成像(MRI)、計算機斷層掃描(CT)以及其他影像模態。這種能力對于培訓醫療專業人員、改進診斷工具以及開發更精確的治療策略至關重要,同時不會影響患者隱私 [15]。
表1總結了2020年至2023年間一些著名的DM論文,提出的算法、使用的數據集和應用。不同顏色用于區分各種算法和應用類型。從表1中可以看出,大多數論文主要集中在基于圖像的應用上,如圖像生成、分割和重建。
結論
擴散模型(DM)通過生成逼真的樣本來解決數據生成和處理中的挑戰,有望在許多領域帶來變革。因此,解決當前的局限性并在DM的優勢基礎上進行改進,將使其在未來各個領域得到更廣泛的應用并產生更大的影響。我們的研究發現,DM生成高質量合成數據的能力提高了應用中的表現,如文本到圖像生成,其中像Diffusion Transformers(DT)用于穩定擴散的模型在數據隱私方面展示了進展 [35]。在網絡物理系統安全中,時序和特征TFDPM通過使用圖注意網絡(Graph Attention Networks)關聯通道數據來幫助檢測攻擊 [36]。此外,在云服務異常檢測中,像Maat這樣的模型通過結合度量預測和異常檢測來實現更高的準確性 [37]。 在圖像處理方面,基于擴散的技術在圖像去模糊和超分辨率等任務中表現出色。例如,使用DM進行的隨機圖像去模糊在感知圖像塊相似性和結構相似性指數測量上取得了高分 [31]。此外,用于MRI重建的加速CMD在提高圖像質量方面展現了潛力 [32]。此外,選擇性擴散蒸餾方法在平衡圖像保真度和可編輯性方面表現出色,適用于各種圖像操作任務 [33]。 然而,盡管DM可以生成逼真的數據,它們也引發了倫理問題。一個主要問題是潛在的濫用,例如創建深度偽造和合成媒體,可能會傳播虛假信息或侵犯隱私。為了降低這一風險,建立強大的檢測機制至關重要。確保模型保持公正性也同樣重要,這可以通過引入公平性算法和多樣化的訓練數據來實現。此外,DM的透明度和可解釋性至關重要,LIME和SHAP等技術可以提供模型生成結果的洞見。除此之外,還需要確保數據符合GDPR和健康隱私保護法(HIPAA)等法規的要求 [99, 100, 98]。 高計算需求和對更好采樣或網絡架構的需求是DM中反復出現的問題。模型通常需要廣泛的超參數調優,并且可能在離散信號建模或在不同上下文中泛化方面遇到困難 [36, 37]。此外,對某些模型而言,為語義引導選擇正確的時間步可能會限制其靈活性 [33]。較慢的推理速度和高資源需求阻礙了實時部署和可擴展性 [32, 31]。 因此,未來的研究應通過開發更高效的算法和利用計算技術的進步來解決這些局限性。探索半監督或無監督學習方法,并結合預訓練模型的遷移學習,可以幫助克服數據稀缺問題。提高DM對噪聲的魯棒性及其處理不同數據類型的能力至關重要。此外,持續的跨學科合作和明確的倫理準則對于在各個領域中負責任且有效地使用DM至關重要。
大模型(LLM)的興起在自然語言處理領域引起了廣泛關注,其涌現能力在各個垂直領域(如金融、醫療、教育等)也取 得一定進展。然而,大模型自身面臨解釋性不足、知識實時性差、生成結果存在虛假信息等諸多挑戰。為了應對這些問題,知 識圖譜與大模型的融合逐漸成為了研究熱點。知識圖譜作為一種結構化的知識模型,其真實性和可靠性,成為提高大模型解 釋和推理能力的有力工具。同時大模型具備語義理解能力,為知識圖譜的構建和更新提供了有力支持。因此,知識圖譜和大 模型是互補的(本文稱為圖模互補)。本文系統性地介紹知識圖譜與大模型融合的方法,分別從 1)大模型增強知識圖譜,2)知 識圖譜增強大模型,兩個角度進行全面的回顧和分析。最后,本文從醫學診斷預測和時間知識圖譜出發,介紹圖模互補的領域 應用,并討論圖模互補未來發展的方向,為知識圖譜與大模型的進一步研究提供幫助。 近年來,自然語言領域出現了一項令人矚目的 技術:大模型。大模型(LLM)是指通過超大規模文 本數據訓練出來的神經網絡模型,由預訓練語言模 型(PLM)發 展 而 來,其 特 點 是 模 型 規 模 較 大,參 數 通 常 在 數 十 億 乃 至 萬 億 級 別。相 較 于 傳 統 的 預 訓 練語言模型,大模型在處理復雜任務時表現出特殊 的 能 力(涌 現 能 力[1] 、推 理 能 力[2] )。相 關 研 究 表 明, 大 模 型 不 僅 能 夠 理 解 和 處 理 大 規 模 的 文 本 數 據[3] , 同時還具備上下文學習能力[4] 和領域泛化能力。這 使得它們成為各種自然語言下游任務的通用選擇, 能夠輕松進行少樣本遷移學習[5] 。如今,AI 領域中 涌現出許多具有代表性的大模型,例如對話式語言 大 模 型 ChatGPT[6] 、增 強 推 理 能 力 的 多 模 態 大 模 型 GPT-4[7] 等等。這些模型不僅在傳統的自然語言處 理領域(如搜索引擎[8] 和機器翻譯[9] )取得一定進展, 還在金融[10] 、醫療[11] 、教育[12] 等各種領域提供有效幫 助。大模型對傳統的自然語言處理領域帶來沖擊, 促使學者重新思考通用人工智能的可能性[13] 。 目 前,雖 然 大 模 型 引 起 了 廣 泛 的 關 注,但 它 仍 然 面 臨 著 諸 多 挑 戰,包 括 模 型 內 部 的 不 可 控 性,缺 乏解釋性[14] 、無法保證知識實時性[5] 、語言數據質量 的 不 確 定 性,以 及 產 生 幻 覺 和 有 毒 信 息 的 潛 在 風 險[15] 。為了應對這些挑戰,學者們開始思考將知識 圖譜與大模型融合[5] 。知識圖譜是一種用于表示和 存 儲 知 識 的 網 絡 圖 形 結 構,其 中 節 點 表 示 實 體,邊 表示實體之間的關系[16] 。知識圖譜以其數據的真實 性而著稱,這一特點可以有效地減輕大模型產生幻 覺 的 問 題 。 例 如 KELM 語 料 庫[17] 、通 用 模 型 KG? PT[18] 為大模型提供基于知識圖譜轉化的真實文本 信 息。大 模 型 作 為 一 個“黑 盒 模 型”其 輸 出 結 果 通 常難以解釋,而知識圖譜內部的結構知識更接近人 類認知。因此,知識圖譜可以提供一種解釋和推理 知識的手段,探究大模型內部復雜的工作步驟和推 理 過 程。例 如 個 性 化 知 識 庫 與 大 模 型 集 成 的 檢 索 框 架 KnowledGPT[19] ,提 高 處 理 復 雜 搜 索 和 歧 義 的 能 力。此 外,知 識 圖 譜 還 可 以 作 為 外 部 檢 索 工 具, 幫助大模型解決公平、隱私和安全等問題[20] 。 如今知識圖譜的規模越來越大,傳統的圖譜構 建、補全技術也面臨許多難題,如數據獲取、實體識 別、知識抽取和實體消歧等[21] 。大規模知識圖譜的 構 建 往 往 需 要 投 入 大 量 的 人 力、物 力 和 時 間 成 本, 且 依 舊 無 法 保 證 知 識 圖 譜 質 量 和 可 用 性。而 大 模 型 能 有 效 解 決 這 些 問 題。大 模 型 內 部 存 在 海 量 的 知 識 信 息,在 處 理 復 雜 的 文 本 數 據 信 息 時,能 夠 迅 速地進行實體識別與抽取,有效應對知識構建和補 全的挑戰[22] 。此外,鏈接預測是知識圖譜推理和問 答 的 關 鍵 步 驟,在 零 樣 本 和 少 樣 本 學 習 中,大 模 型 同 樣 能 夠 有 效 地 挖 掘 實 體 間 的 邏 輯 關 系。根 據 知 識圖譜和大模型的上述特點,本文認為知識圖譜和 大模型是相互補充的,稱為“圖模互補”,圖 1 為知識 圖譜與大模型的優缺點總結。 知 識 圖 譜 與 大 模 型 融 合 是 一 個 熱 門 研 究 領 域[23~25] 。文獻[25]提出了統一大模型與知識圖譜的 前瞻性路線圖,總結了現有的大模型與知識圖譜的 先進技術,并討論大模型與知識圖譜融合的相關挑 戰和發展方向。其整體路線劃分與本文有所差異, 本文從作用功能角度進行劃分,根據知識圖譜和大 模型在領域中的地位,將其融合劃分為兩個不同的 類 別:大 模 型 增 強 知 識 圖 譜 和 知 識 圖 譜 增 強 大 模 型。并從增益的效果出發,將每個大類別細分為不 同的小類別,最后探究圖模互補的領域應用。
圖像編輯旨在編輯給定的合成或真實圖像以滿足用戶的特定需求。近年來,圖像編輯作為一個前景廣闊且充滿挑戰的人工智能生成內容(AIGC)領域被廣泛研究。該領域最近的顯著進展基于文本到圖像(T2I)擴散模型的發展,這些模型根據文本提示生成圖像。T2I模型展現了非凡的生成能力,已成為圖像編輯的廣泛使用工具。基于T2I的圖像編輯方法顯著提升了編輯性能,并提供了一個用戶友好的界面,通過多模態輸入引導內容修改。在本綜述中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面回顧。首先,我們從整體角度定義了圖像編輯的范圍,并詳細說明了各種控制信號和編輯場景。然后,我們提出了一個統一的框架來形式化編輯過程,將其分類為兩大主要算法家族。該框架為用戶提供了一個設計空間以實現特定目標。隨后,我們對該框架內的每個組件進行了深入分析,考察了不同組合的特征及其適用場景。鑒于基于訓練的方法在用戶引導下學習直接將源圖像映射到目標圖像,我們將其單獨討論,并介紹了在不同場景中源圖像的注入方案。此外,我們回顧了2D技術在視頻編輯中的應用,重點解決幀間不一致的問題。最后,我們討論了該領域的開放挑戰,并提出了潛在的未來研究方向。我們在//github.com/xinchengshuai/Awesome-Image-Editing持續追蹤相關工作。
隨著跨模態數據集[1], [2], [3], [4], [5], [6], [7]和生成框架[8], [9], [10], [11], [12]的發展,新興的大規模文本到圖像(T2I)模型[13], [14], [15]使人們能夠創建所需的圖像,開啟了計算機視覺中的人工智能生成內容(AIGC)時代。大多數這些工作基于擴散模型[12],這是一個廣泛研究的流行生成框架。最近,許多工作探索了這些基于擴散的模型在其他領域的應用,如圖像編輯[16], [17], [18], [19], [20], [21],3D生成/編輯[22], [23], [24],視頻生成/編輯[25], [26], [27], [28]等。與圖像生成不同,編輯旨在進行二次創作,即修改源圖像中的所需元素并保留與語義無關的內容。質量和適用性方面仍有進一步改進的空間,使得編輯仍然是一個有前景且充滿挑戰的任務。在這項工作中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面綜述。
已有一些綜述[174], [175], [176], [177], [178]從不同角度回顧了最先進的基于擴散的方法,如圖像修復[179],超分辨率[176],醫學圖像分析[177]等。與這些綜述相比,我們專注于圖像編輯領域的技術。有兩個相關的并行工作[175], [178]與我們的綜述相關。其中,[178]介紹了擴散模型在圖像編輯中的應用,并根據其學習策略對相關論文進行了分類。與之相比,我們從一個新穎而全面的角度討論了這一主題,并提出了一個統一的框架來形式化編輯過程。我們發現,之前文獻[16], [32], [66], [178]對編輯的解釋是有限和不完整的。這些工作限制了保留概念的范圍,并傾向于從源圖像中重建最大量的細節。然而,這種常見設置排除了某些高層語義(如身份、風格等)的維護。為了解決這個問題,我們首先提供了嚴格而全面的編輯定義,并在本綜述中納入了更多相關研究,如[37], [38], [61], [146]。圖1展示了符合我們定義的各種場景。值得注意的是,一些生成任務如定制化[41], [54]和帶圖像引導的條件生成[37], [134]都符合我們的討論范圍。這些任務在另一項關注可控生成的并行工作[175]中有所討論。其次,我們將審查的方法整合到一個統一的框架中,將編輯過程分為兩大算法家族,即反演和編輯算法。在[178]中,引入了一個類似的框架來統一那些不需要訓練或測試時微調的方法。不同的是,我們的框架在討論的廣義編輯場景中更為多樣化。同時,該框架為用戶提供了一個設計空間,以根據其具體目的結合適當的技術。綜述中的實驗展示了不同組合的特征及其適用場景。此外,我們還調查了2D方法[32], [180]在視頻編輯[165], [173]中的擴展,并集中討論了它們解決時間一致性問題的方法,補充了研究領域的缺失部分。
我們對三百多篇論文進行了廣泛的綜述,審查了現有方法的本質和內部邏輯。本綜述主要關注基于T2I擴散模型的研究[13], [14], [181]。在第二部分中,介紹了擴散模型和T2I生成中的技術,提供了基本的理論背景。在第三部分中,我們給出了圖像編輯的定義,并討論了幾個重要方面,如不同模態的用戶引導、編輯場景以及一些定性和定量評估指標。同時,我們形式化了提出的統一框架以整合現有方法。接下來,在第四和第五部分中分別討論了我們框架的主要組成部分。反演算法從源圖像中捕捉要保留的概念,而編輯算法則旨在在用戶引導下再現視覺元素,實現內容一致性和語義保真度。在第六部分中,我們檢查了反演和編輯算法的不同組合,并探討了它們的特征和適用場景,從而指導用戶為不同目標選擇適當的方法。由于基于訓練的方法[20], [119], [122], [182]學習直接將源圖像轉化為目標圖像,我們在第七部分中討論了這些工作,并詳細介紹了源圖像在不同任務中的注入方案。第八部分介紹了圖像編輯在視頻領域的擴展。由于視頻數據的稀缺,直接應用圖像域方法通常會導致幀間不一致。該部分討論了現有工作[158], [164], [166], [171]中的幾種解決方案。最后,在第九部分中,我們討論了未解決的挑戰,并提出了潛在的未來研究方向。圖2展示了我們工作的組織,并分類了每部分中審查的論文。
視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:
//github.com/zytx121/Awesome-VLGFM。
在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。
例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。
為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。
近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。
隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。
貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。
綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。
圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。
近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。
本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。
本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。
圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。
在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。
在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。
本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。
在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展。我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。
擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。
雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。
總結來說,我們的貢獻包括:
我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。
我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。
我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。
我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。
本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。
分類法
利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件
在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。
在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。
通用可控文本到圖像生成
除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論
在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。
深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。
//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb
近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等。
有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下:
模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。
對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。
權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。
集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。
作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。
本工作的主要貢獻總結如下:
? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。
? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。
? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。
生成對抗網絡(GAN)是無監督學習領域最近幾年快速發展的一個研究方向,其主要特點是能夠以一種間接的方 式對一個未知分布進行建模。在計算機視覺研究領域中,生成對抗網絡有著廣泛的應用,特別是在圖像生成方面,與其他的 生成模型相比,生成對抗網絡不僅可以避免復雜的計算,而且生成的圖像質量也更好。因此,本文將對生成對抗網絡及其在 圖像生成中的研究進展做一個小結和分析;本文首先從模型的架構、目標函數的設計、生成對抗網絡在訓練中存在的問題, 以及如何處理模式崩潰問題等角度對生成對抗網絡進行一個詳細的總結和歸納;其次介紹生成對抗網絡在圖像生成中的兩 種方法;隨后對一些典型的、用來評估生成圖像質量和多樣性的方法進行小結;并且對基于圖像生成的應用進行詳細分析;最后對生成對抗網絡和圖像生成進行總結,同時對其發展趨勢進行一個展望。
盡管有很多嘗試[1-6],深度學習的有效性到目前為止還沒有明確的解釋。考慮到神經網絡是一個非常簡單且定義良好的數學對象,這相當令人驚訝[7-9]。使分析變得困難的是深度神經網絡通常是用大量的參數來描述的,例如權重矩陣、偏差向量、訓練數據等。對于這樣的系統,大多數分析技術不是很有用,必須依賴于數字。這種情況與物理中發生的情況非常相似。物理系統(包括經典系統和量子系統)通常可以在自由度很小的時候被精確地解決,但是當自由度很大的時候,這個問題就變得棘手了。幸運的是,有一組思想被證明對于分析具有多個自由度的物理系統非常有用。它是統計力學。本文的重點是將統計力學的方法應用于機器學習。在本節的其余部分,我們將總結主要結果,因為它可能有助于讀者瀏覽本文。