亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著人工智能系統日益融入日常生活,可解釋性領域受到了極大的關注。這一趨勢尤其受到現代AI模型及其決策過程復雜性的驅動。基礎模型的出現,以其廣泛的泛化能力和新興應用,進一步加劇了這一領域的復雜性。基礎模型在可解釋性領域占據著模糊的位置:它們的復雜性使得這些模型天生難以解釋,但它們也越來越多地被用作構建可解釋模型的工具。在這篇綜述中,我們探討了基礎模型與可解釋AI(XAI)在視覺領域的交集。我們首先編制了一份全面的文獻合集,涵蓋了這些領域的交叉研究。接下來,我們根據模型的架構特征對這些研究進行了分類。然后,我們討論了當前研究在將XAI整合進基礎模型時所面臨的挑戰。此外,我們還回顧了這些結合方法的常見評估方法。最后,我們提出了本次綜述的關鍵觀察和見解,并為這一快速發展的領域提供了未來研究的方向。 關鍵詞: 可解釋性, 可解釋AI, XAI, 基礎模型, 視覺, 綜述

1. 引言

深度神經網絡(DNNs),即具有大量可訓練參數的網絡,近年來對計算機視覺領域產生了重大影響【1】。它們在語義分割【2】、分類【3】和圖像生成【4】等各種任務中取得了最先進的性能。然而,DNN的深度和復雜性也導致了決策過程和預測可解釋性的缺乏透明度【5】【6】。在那些性能和可解釋性都至關重要的高風險環境中,對透明度的需求日益增加【7】。為了增強透明度和可解釋性,廣泛采用的各種方法被統稱為可解釋人工智能(XAI)【8】(見圖1)。 XAI方法為自動化系統與人類用戶之間搭建了橋梁,因為人類的感知和解釋本質上是主觀的。滿足一個用戶需求的解釋可能并不一定能滿足另一個用戶【9】。因此,為了提高有效性,XAI方法應確保不同用戶之間的解釋一致性【10】。XAI引起了越來越多的關注,尤其是在倫理問題至關重要的領域,例如醫療診斷【11】和自動駕駛【12】。因為不透明的模型可能隱藏與道德原則相悖的功能。例如,在【13】中觀察到的性別偏見結果。 在文獻中,已經識別出一些XAI的關鍵屬性【14】【6】,例如可信性、復雜性、魯棒性、泛化能力和客觀性。我們將在4.1節進一步探討這些問題。 深度學習中的一個顯著趨勢是模型規模越來越大(見圖2)。這一趨勢始于1998年的LeNet(60,000個參數),然后是2014年的InceptionV3(6.23M參數),2016年的ResNet(42.70M參數)。隨后,2017年自然語言處理領域采用了Transformers(65M參數),2018年的BERT(340M參數),2019年的GPT-2(1.5T參數),2023年的QWEN(72B參數)。這些“大型語言模型”的成功激發了將高參數量和大量訓練數據的優勢應用到其他領域的興趣,例如視覺問答【15】和目標檢測【16】。這促使了這些架構在更廣泛的分類下被統稱為“基礎模型”。 基礎模型在XAI領域處于一個模糊的位置。一方面,基礎模型的復雜性使其特別難以解釋;另一方面,文獻中越來越多地將其作為構建可解釋模型的工具。這篇綜述提供了計算機視覺領域基礎模型中可解釋性技術的全景,特別是預訓練基礎模型(PFM)。結構安排如下:第2節提供了基礎模型和XAI方法的背景,回顧現有的綜述,并提出XAI方法的分類法;第3節定義了識別的XAI方法類別,描述了它們的背景、它們如何使用PFM、它們的應用以及評估方法;第4節討論了評估生成的解釋質量所采用的不同方法;第5節介紹了我們綜述中的一些觀察結果;第6節描述了XAI方法面臨的不同挑戰,包括仍未解決的問題;最后,第7節總結了我們的結論,并提出了進一步研究的潛在方向。

付費5元查看完整內容

相關內容

推薦系統仍然是一個重要的研究領域,因其在多個領域的廣泛應用以及背后的商業潛力。隨著深度學習的興起,常見的解決方案已利用神經網絡來促進協同過濾,并且有些方法通過生成對抗網絡(GANs)來增強數據集并解決數據稀疏問題。然而,這些方法在學習復雜的用戶和物品分布時仍然存在局限性,且常常面臨模型崩潰的問題。近期,擴散模型在計算機視覺領域展現了強大的生成能力,因此許多推薦系統已開始采用擴散模型,并在多個任務上取得了性能提升。擴散模型在推薦系統中能夠有效管理復雜的用戶和物品分布,并且不容易出現模式崩潰。憑借這些優勢,相關研究的數量迅速增長,迫切需要進行系統性的綜述。 在本綜述論文中,我們提出并構建了基于擴散模型在推薦系統中的應用的分類方法,回顧了過去的研究工作。與先前基于擴散模型角色進行分類的綜述不同,我們的分類是基于推薦任務本身。這個決定源自于這樣的邏輯:采用擴散模型的最終目的是提升推薦性能,而非反過來將推薦任務調整為適應擴散模型。然而,我們也為擴散模型在推薦系統中的應用提供了一個獨特的視角,作為現有綜述的補充。我們介紹了擴散模型的基礎算法及其在推薦系統中的應用,以總結這一領域的快速發展。最后,我們討論了開放的研究方向,以促進和鼓勵進一步推動該領域的努力。相關論文已整理并發布在一個公共的GitHub倉庫中。1 引言推薦系統旨在為用戶推薦所需的項目,隨著萬維網的興起,它們已經獲得了廣泛的關注。互聯網聚集了大量的用戶,并促進了電子商務等消費領域的發展。優化推薦系統不僅能為公司帶來巨大的利潤,也能提升用戶的生活質量。作為優化推薦系統的常見方法之一,協同過濾通過考慮用戶和物品之間的相似性,為目標用戶提供推薦。然而,鑒于用戶和物品的龐大數量,用戶通常只與少部分物品進行互動,導致數據集的稀疏性[19]。稀疏數據集常常給推薦系統帶來顯著挑戰,阻礙其提供有信心的推薦。為了解決這一問題,一些系統引入了生成對抗網絡(GAN)[42]來增強數據集并增加其密度[41]。然而,生成對抗網絡通常會面臨訓練不穩定和模式崩潰的問題。此外,推薦系統中龐大且復雜的用戶和物品集合,也為捕捉復雜模式帶來了額外的挑戰。鑒于這些挑戰,探索更合適的替代方法仍然是研究的重點,例如擴散模型[57, 132],它能夠更好地建模復雜模式而沒有這些缺點。最近,擴散模型在計算機視覺領域展現了這些優勢。它們具有建模復雜分布和估計噪聲的能力。該概念最初源自非平衡熱力學[129],旨在通過計算上可處理的概率分布來建模復雜的數據分布。該模型通過迭代的前向擴散過程逐漸破壞數據分布,并生成一個生成模型,通過反向過程學習恢復該分布。隨后,NCSN[132]提出了專門使用高斯噪聲擾動數據,并估計在各個噪聲層級下擾動分布的梯度。通過朗之萬動力學采樣,生成的圖像與生成對抗網絡所產生的圖像可媲美。在此基礎上,Ho等人[57]開發了去噪擴散概率模型(DDPM),作為另一類生成模型,依賴于固定的噪聲調度。結合這些研究,推動了近年來圖像生成領域的突破性模型,包括穩定擴散(Stable Diffusion)[120]、DaLLE[118]和DreamBooth[122]。通常,擴散模型在前向過程中向數據添加噪聲,并訓練神經網絡模型來估計添加的噪聲量。在推理階段,訓練好的模型通過迭代過程預測并去除從隨機噪聲中加入的噪聲,生成最終的去噪輸出。盡管這些模型在圖像生成任務中展現了引人注目的能力,其根本原因來自于它們在處理像素的復雜分布方面的優勢。鑒于數據分布,擴散模型展現了捕捉底層分布并據此生成數據的能力。通過將輸入(例如圖像)視為一種表示,擴散模型擅長學習表示。擴散模型的另一個優勢在于其去噪網絡的靈活性。盡管U-Net模型[121]在圖像生成任務中很常見,它們可以被其他模型替代,如多層感知機(MLP)或變壓器模型[140]。該網絡的目標是作為近似器,識別擴散過程中添加的噪聲量。此外,由于擴散模型專注于優化噪聲的估計,它們不會經歷生成對抗網絡常見的訓練不穩定問題。此外,迭代的去噪過程,在每一步中都包括從標準正態分布中進行隨機采樣,引入了最終生成樣本的變異性和多樣性。這種固有的隨機性幫助擴散模型避免了模式崩潰問題,這是生成對抗網絡常見的另一個挑戰。考慮到推薦系統中的挑戰以及擴散模型的優勢,它們在提升推薦系統性能方面展現了巨大的潛力。通過近年來的相關出版物,我們可以看到擴散模型在推薦系統中的應用呈現上升趨勢,如圖1所示。盡管NCSN[132]和DDPM[57]分別于2019年和2020年提出,但直到2022年才有研究將其應用于推薦系統。從那時起,相關出版物數量逐漸增加,代表了該領域日益增長的興趣,這也促使我們開展此項綜述工作。我們旨在提供一份全面的擴散模型在推薦系統中的應用方法列表,并描述該領域的現狀,識別研究空白并鼓勵進一步的研究努力。鑒于該領域發展迅速,我們旨在為研究人員提供全面的知識,幫助他們迅速把握該領域的整體格局,同時為希望進入該領域的研究生提供指導。我們的貢獻總結如下:提供一份全面的綜述,涵蓋擴散模型在推薦系統中的廣泛應用,包括協同過濾、序列推薦、多領域推薦和負責任的推薦。詳細介紹擴散模型的技術知識,包括從原始框架和技術的改進,以提高效率。總結擴散模型在推薦系統中的應用趨勢,概括并比較其在各自應用中的算法。提供對未來研究問題和視角的展望,識別當前研究現狀中的空白。 調研方法本綜述關注的是涉及擴散模型的推薦系統,我們通過使用Google Scholar檢索相關論文,關鍵詞包括“推薦系統中的擴散模型”和“推薦中的擴散模型”。為了與圖擴散和信息擴散區分開,我們手動檢查每篇論文中的擴散定義,確保只包含那些使用與NCSN[132]或DDPM[57]相同的擴散模型的論文。此外,我們在Google Scholar中深入挖掘,直到沒有相關論文為止,并通過手動檢查每篇相關論文的相關工作部分,確保收錄所有相關文獻。最終,我們收錄了70篇涉及擴散模型在推薦系統中的應用的論文,納入本綜述中。圖2展示了按照我們的分類法對一些相關論文的時間線進行分類。相關工作在推薦系統領域,已有多項綜述涉及諸如強化學習[1]、對話式推薦系統[66]、圖神經網絡[40, 154]、自監督學習[171]、多媒體內容[29, 89]以及基于會話的推薦系統[143]等子領域。這些綜述聚焦于推薦系統的特定子集,并未涵蓋擴散模型。[28]參考文獻專注于生成模型在推薦系統中的應用,包括擴散模型。然而,只有一小部分([28]中的第2.4節)涉及擴散模型,且引用較少,仍有很大的改進空間。另一方面,專注于擴散模型的幾篇綜述則涵蓋了通用方法和應用[166]、視覺[24]、視頻[160]、醫學影像[73]以及生物信息學和計算生物學[46]等領域。Lin等人[84]對擴散模型在推薦系統中的應用進行了綜述,基于擴散模型的作用將其分為三類:數據工程與編碼、推薦模型和內容呈現。在擴散模型和推薦系統的交集處,這一分類是從擴散模型的角度出發的。盡管這些見解有其價值,但我們認為,最終推薦任務仍然是最重要的關注點,因為采用擴散模型的目的是提升推薦性能,而不是反過來調整推薦任務以適應擴散模型。因此,我們提出了一個相反且互補的視角,專注于推薦任務的分類。我們將其分為四個主要類別:協同過濾、序列推薦、多領域推薦和負責任推薦。對于協同過濾,我們進一步根據輔助信息的類型劃分子類別,包括隱式反饋、顯式評分、物品圖和用戶圖。對于序列推薦,我們將興趣點推薦(POI)視為特殊情況,并劃分為三個子類別:序列作為擴散目標和引導、序列作為擴散目標、序列作為擴散引導。對于多領域推薦,我們將多模態屬性和跨域推薦歸為一類,還包括圖像生成和文本到推薦。對于負責任推薦,我們識別了公平性、問責制、透明度和分布外(OOD)四個方面。通過這種方式,讀者可以輕松識別他們感興趣的推薦領域,并了解擴散模型在其中的多樣化應用。此外,我們還介紹了各篇論文中使用的數據集,并描述了它們各自的屬性,增強了綜述的全面性。 本文其余部分的組織結構如下:第二節介紹擴散模型的基礎知識,第三節對相關文獻進行分類并突出其特點,第四節討論用于訓練和評估相關論文的數據集,第五節揭示開放的研究方向以鼓勵未來的研究,第六節對本綜述進行總結。

付費5元查看完整內容

生成方法(生成式人工智能,Gen-AI)在解決機器學習和貝葉斯推斷任務中的應用進行了綜述。生成模型需要模擬一個大規模的訓練數據集,并使用深度神經網絡來解決監督學習問題。為了實現這一目標,我們需要高維回歸方法和用于降維的工具(即特征選擇)。生成式人工智能方法的主要優勢在于它們能夠不依賴具體模型,并利用深度神經網絡來估計條件密度或感興趣的后驗分位數。為了說明生成方法的應用,我們分析了著名的埃博拉數據集。最后,我們總結了未來研究的方向。

關鍵詞:生成式人工智能,神經網絡,深度學習,ABC,INN,歸一化流,擴散模型,分位貝葉斯,擬似推斷,埃博拉

1 引言

機器學習中的一個重要任務是:給定輸入-輸出對,其中輸入是高維的,構建一個“查找”表(即字典)來存儲輸入-輸出示例。這是一個編碼(即數據壓縮問題),用于快速搜索和檢索。另一個常見問題是找到一個簡單的預測規則(即算法),即:我們能否找到一個好的預測函數f(x)f(x)f(x),用來在給定xxx 的情況下預測輸出yyy?給定一個訓練數據集(yi,xi)i=1N(y_i, x_i)_{i=1}^{N}(yi,xi)i=1N 的輸入-輸出對,我們能否訓練一個模型,即找到函數fff?從計算角度來看,我們有一個高維的多變量函數f(x)f(x)f(x),其中x=(x1,…,xd)x = (x_1, \dots, x_d)x=(x1,…,xd)。 給定(y,x)(y, x)(y,x)-輸入-輸出對,我們有一個模式匹配(即監督學習)非參數回歸形式:

為了實現良好的泛化能力,我們需要能夠進行非線性降維,并找到一組合適的特征/因素。關鍵問題是:我們如何表示一個多變量函數,以便使訓練過程高效?許多高維統計模型需要數據降維方法。根據 Breiman(2001),我們將數據表示為由一個黑箱生成,其中輸入向量xxx 被黑箱轉化為輸出yyy,或生成一個描述從xxx 預測yyy 的不確定性的預測分布p(Y∣X)p(Y | X)p(Y∣X)。Fisher(1922)和Cook(2007)清楚地描述了降維問題。雖然通過篩選和將預測值與輸出變量繪制來尋找預測器是典型的做法。 統計推斷中的一個核心問題是計算一個感興趣的后驗分布。給定似然函數p(y∣θ)p(y | \theta)p(y∣θ) 或前向模型y=f(θ)y = f(\theta)y=f(θ),以及先驗分布π(θ)\pi(\theta)π(θ),目標是進行逆概率計算,即計算后驗分布p(θ∣y)p(\theta | y)p(θ∣y)。對于高維模型來說,這一任務非常困難。馬爾科夫鏈蒙特卡羅(MCMC)方法通過生成后驗樣本來解決這個問題,使用密度評估。 另一方面,生成式人工智能技術直接學習從均勻分布到目標分布的映射。生成式人工智能的主要優勢是它是無模型的,并且不需要使用迭代密度方法。逆貝葉斯映射被通過深度學習的輸入輸出映射的模式識別所替代。深度分位神經網絡(Deep Quantile NNs)提供了一個用于推斷決策的通用框架。分位神經網絡提供了一種替代不可逆神經網絡(如歸一化流)的方式。 生成方法通過以下方式解決這兩個問題。設Z~PZZ \sim P_ZZ~PZ 是潛變量ZZZ 的基礎度量,通常是標準多變量正態分布或均勻分布的向量。生成方法的目標是從訓練數據(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y 中表征后驗度量PX∣YP_{X|Y}PX∣Y,其中NNN 被選擇為適當的大值。使用深度學習器來估計f^\hat{f}f^,通過非參數回歸X=f(Y,Z)X = f(Y, Z)X=f(Y,Z)。深度學習器通過從三元組(Xi,Yi,Zi)i=1N~PX,Y×PZ(X_i, Y_i, Z_i){i=1}^{N} \sim P{X,Y} \times P_Z(Xi,Yi,Zi)i=1N~PX,Y×PZ 中學習來估計。隨后的估計器H^N\hat{H}NH^N 可以看作是從基礎分布到所需后驗分布的傳輸映射。在ZZZ 為均勻分布的情況下,這相當于逆累積分布函數(CDF)采樣,即X=FX∣Y?1(U)X = F{X|Y}^{-1}(U)X=FX∣Y?1(U)。 設(X,Y)~PX,Y(X, Y) \sim P_{X,Y}(X,Y)~PX,Y 是輸入-輸出對,且PX,YP_{X,Y}PX,Y 是聯合度量,我們可以從中模擬一個訓練數據集(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y。標準的預測技術是條件后驗均值X^(Y)=E(X∣Y)=f(Y)\hat{X}(Y) = E(X|Y) = f(Y)X^(Y)=E(X∣Y)=f(Y),即給定輸出YYY 時預測輸入XXX。為此,考慮多變量非參數回歸X=f(Y)+?X = f(Y) + \epsilonX=f(Y)+?,并提供估計條件均值的方法。通常的估計器f^\hat{f}f^ 包括 KNN 和核方法。最近,提出了深度學習器,并提供了關于仿射函數疊加(即嶺函數)的理論屬性(見 Montanelli 和 Yang(2020),Schmidt-Hieber(2020),Polson 和 Rockova(2018))。一般來說,我們可以為任何輸出YYY 表征后驗映射。只需通過使用傳輸映射:

從新的基礎抽樣ZZZ 中評估網絡。這里,ψ\psiψ 表示余弦嵌入,因此潛變量的架構對應于離散傅里葉近似。另一方面,生成方法通過構建訓練數據的“查找”表,并將深度神經網絡擬合到該表上,來解決監督學習問題。這提供了一種傳輸映射到基礎分布,基礎分布由潛變量zzz 的已知分布p(z)p(z)p(z) 給出。由于我們可以選擇樣本大小NNN,因此理解這些深度學習估計器的貝葉斯風險屬性及其插值屬性(稱為雙重下降)非常重要。 本文的其余部分安排如下:第 1.1 節描述了降維技術;第 2 節介紹了架構設計的多種選擇。例如,自動編碼器(Albert et al. 2022;Akesson et al. 2021)或隱式模型(參見 Diggle 和 Gratton 1984;Baker et al. 2022;Schultz et al. 2022);它還與間接推斷方法相關(參見 Pastorello et al. 2003;Stroud et al. 2003;Drovandi et al. 2011, 2015)。常用的生成方法包括:變分自動編碼器(VAE)、獨立成分分析(ICA)、非線性獨立成分估計(NICE)、歸一化流(NF)、可逆神經網絡(INN)、生成對抗網絡(GAN)、條件生成對抗網絡、近似貝葉斯計算(ABC)和深度擬似推斷(DFI)。第 3 節回顧了使用無密度深度分位 ReLU 網絡的生成貝葉斯計算(GBC);第 4 節提供了經典埃博拉數據集的應用。最后,第 5 節總結了未來研究的方向。 深度學習的民間傳說:淺層深度學習器能夠很好地表示多變量函數,并且在外推時表現良好。因此,我們可以在任何新的輸入上評估網絡并預測輸出,同時我們仍然可以學習感興趣的后驗映射。 雙重下降:關于深度神經網絡的逼近和插值屬性的問題依然存在。最近關于分位神經網絡插值屬性的研究,參見 Padilla 等(2022)和 Shen 等(2021),Schmidt-Hieber(2020)。另見 Bach(2024);Belkin 等(2019)。 **

**

付費5元查看完整內容

自回歸模型(Autoregressive Models)在自然語言處理(NLP)領域中展現了卓越的性能,具有令人印象深刻的可擴展性、適應性和泛化能力。受其在NLP領域顯著成功的啟發,自回歸模型近年來在計算機視覺領域得到了廣泛研究。這些模型通過將視覺數據表示為視覺標記并執行下一個標記預測,為圖像生成、視覺理解以及最近將視覺生成與理解統一為單一自回歸模型的多模態生成等多種視覺任務提供了支持。 本文對視覺自回歸模型進行了系統綜述,包括對現有方法的發展分類,并突出了它們的主要貢獻、優勢與局限性,涵蓋了圖像生成、視頻生成、圖像編輯、動作生成、醫學圖像分析、三維生成、機器人操作、統一多模態生成等多種視覺任務。此外,我們調查并分析了自回歸模型的最新進展,包括在各種評估數據集上的方法基準測試和深入討論。最后,我們總結了關鍵挑戰和未來研究的潛在方向,為視覺自回歸模型的進一步發展提供了路線圖。

1 引言

自回歸(AR)模型近年來在人工智能領域取得了顯著進展,尤其是在像GPT系列 [1][2][3][4][5] 及其他大語言模型(LLMs) [6][7][8] 中表現突出,這些模型在解決各種自然語言處理任務上表現出色。它們采用簡單而強大的“下一個詞預測”策略,通過預測序列中的下一個單詞生成連貫且上下文相關的文本。AR模型的成功主要歸因于兩個關鍵特性:(1)可擴展性,擴展法則 [9][10] 使研究人員能夠基于小模型預測大模型的性能,從而優化資源分配并指導模型開發;(2)泛化能力,AR模型無需任務特定的訓練即可適應新任務和未見任務 [1][3]。這些特點使AR模型在語言任務中表現出前所未有的效果,并展現出朝著通用人工智能(AGI)系統發展的潛力。

受AR模型在自然語言處理領域成功的啟發,近年來的研究將AR模型擴展到了視覺生成任務。典型示例包括VQVAE [11]、VQGAN [12]、DALL-E [13] 和Parti [14] 等模型,這些模型通過圖像標記器將連續圖像轉換為離散標記,從而使AR模型能夠像處理語言一樣,通過“下一個標記預測”方法生成圖像。視覺標記化通過將文本和圖像都視為離散標記序列,統一了它們的表示方式,使其適配序列到序列(sequence-to-sequence)建模技術。因此,這些模型能夠利用類似于GPT系列 [1][2][3] 的架構,從大規模文本-圖像對中高效學習。

除了視覺生成,AR模型還推動了視覺理解的發展,尤其是在多模態理解領域 [15][16][17][18][19],它們可以感知并整合多種模態信息。在多模態任務中,AR模型通過訓練解讀視覺輸入并生成連貫的文本序列,成為在視覺和文本信息結合方面極具潛力的工具。例如,多模態大語言模型(MLLM)如LLaVA [15],利用LLMs同時解讀視覺和文本輸入,從而實現對圖像的問答、生成描述性字幕以及在詳細視覺上下文中進行對話。通過這一設計,基于AR的MLLM在推動AI應用中的多樣化視覺理解能力方面表現出色。

鑒于AR模型在視覺生成和理解方面的成就,近期的研究嘗試將這兩種能力整合到一個統一的AR模型中,使其能夠同時處理視覺生成和理解任務。例如,Transfusion [20] 通過結合語言建模中常用的“下一個標記預測”目標與圖像生成中的擴散過程,實現了這一整合。通過對文本和圖像數據進行聯合訓練,Transfusion [20] 在單一Transformer架構中處理離散文本標記和連續圖像數據,從而能夠執行廣泛的多模態任務,并彌合視覺理解與生成之間的差距。此外,AR模型在視頻等其他領域也表現出強大的理解與生成能力 [21],如視頻字幕生成、視頻生成及場景解讀等任務。

盡管AR模型在視覺研究中取得了顯著進展并吸引了越來越多的關注,但目前缺乏系統的綜述來全面概述現有方法、挑戰以及未來可能的研究方向。本文旨在填補這一空白,全面綜述AR模型在各種視覺任務中的應用,并按任務類型進行分類,包括圖像生成、圖像理解及其他領域。我們從多個角度展開綜述,包括AR模型的背景、相關數據集、方法論、基準測試,以及當前的研究挑戰與未解難題。我們的目標是為學術界和工業界提供清晰的現狀概覽,展示已經取得的成果、面臨的挑戰以及未來研究的潛力方向。

主要貢獻

本文的主要貢獻總結如下:

  1. 系統全面地回顧了AR模型在視覺領域的應用,建立了現有方法的分類體系,突出了它們的主要貢獻、優勢和局限性。
  2. 深入分析了AR模型的最新進展,包括跨各種評估數據集的方法性能基準測試和討論。
  3. 闡明了AR模型領域的若干挑戰和未來研究的潛力方向,旨在幫助學術界解決開放性問題并推動該領域的發展。

付費5元查看完整內容

算法設計(AD)在各個領域的高效問題解決中至關重要。大型語言模型(LLM)的出現顯著提升了該領域的自動化和創新,提供了新的視角和優越的解決方案。在過去的三年中,LLM在算法設計(LLM4AD)中的應用取得了顯著進展,應用領域廣泛,包括優化、機器學習、數學推理和科學探索。鑒于該領域的快速發展和應用范圍的擴展,進行系統性的綜述已成為必要。本論文對LLM4AD領域的研究工作進行了系統性綜述。首先,我們概述并總結了現有研究成果。接著,我們從四個維度——LLM的作用、搜索技術、提示策略和應用領域——對現有研究進行了系統分類和評審。此外,我們討論了各個領域的成就與挑戰,以及LLM4AD在應對這些挑戰方面的能力。最后,我們探討了當前的局限性,并提出了若干開放性問題和未來研究的潛在方向。

附加關鍵詞和短語:算法設計、大型語言模型、學習優化、優化、啟發式方法、超啟發式方法、進化計算。

1 引言

算法在解決工業、經濟、醫療和技術等多個領域的各種問題中發揮著關鍵作用[32, 82]。傳統的手工算法設計方法需要大量的專家知識和時間,過程繁瑣且耗時。因此,越來越多的研究者關注將學習和計算智能技術整合到算法開發過程中,以簡化并優化算法的設計[12, 154]。近年來,大型語言模型(LLMs)作為生成式人工智能的重大突破,因其龐大的模型規模、海量的訓練數據及其在數學推理[5]、代碼生成[80]和科學發現[163]等多個研究領域中的出色表現而備受矚目。

在過去三年中,將大型語言模型應用于算法設計(LLM4AD)逐漸成為一個新興的研究領域,有望徹底改變算法的構思、優化和實施方式。LLM的強大性能和適應性在提高和轉變算法設計過程方面展現出了巨大的潛力,包括啟發式生成[98]、代碼優化[109],甚至為特定問題定制新算法的創建[54]。這種方法不僅減少了設計階段所需的人力,還提升了解決方案的創造性和效率[98, 139]。

盡管LLM4AD備受關注,但這一新興領域內的系統綜述仍然稀缺。現有文獻主要關注LLM在特定算法上下文中的單一應用,缺乏對方法、應用、挑戰和未來方向的系統概覽。已有的綜述主要集中在LLM用于特定優化主題[66, 72, 177],或LLM在電子設計自動化[205]、規劃[129]、軟件工程[69]、推薦系統[176]和智能代理[165]等特定問題上的應用。本論文旨在彌補這一空白,提供對LLM在算法設計領域的系統性綜述,探索其應用、討論關鍵挑戰,并提出未來的研究方向。通過整合這些見解,本文將加深對LLM在算法設計中潛力的理解,并為該領域進一步創新奠定基礎。

本論文的貢獻如下

  • LLM4AD的系統性綜述:我們對最近三年內發表的180余篇研究論文進行了系統綜述,不僅匯總了該領域的現狀,還對研究成果進行了分類,深入分析了方法、結果和算法設計的進展。該綜述可為新入門的研究人員和尋求最新進展的資深專家提供寶貴的資源。

  • 多維分類法的開發:我們引入了一個多維分類法,將LLM4AD的研究工作和功能分為四個不同的維度:1) LLM在算法設計中的角色,包括作為優化器、預測器、信息提取器和設計者,闡明了LLM在算法設計中的具體貢獻;2) 搜索方法,分析了LLM在算法設計中用于導航和優化搜索空間的各種方法;3) 提示方法,探討了多樣化的提示策略;4) 應用領域,確定了LLM在解決復雜算法問題時所應用的關鍵領域和行業。此分類法不僅澄清了LLM4AD的研究現狀,還有助于識別未來研究的空白和機會。

  • 關于局限性和未來方向的討論:我們不僅對現有文獻進行總結,還深入分析了LLM用于算法設計研究中的局限性,討論了可擴展性、可解釋性、高成本和安全性等挑戰。此外,我們提出了若干潛在的未來研究方向,以應對這些限制,包括開發特定領域的LLM、探索多模態LLM、實現與人類專家交互的系統、使用LLM進行算法評估、理解LLM行為、推動完全自動化的算法設計,以及為LLM在算法設計中的系統評估建立基準標準。這些討論旨在激發新的研究方法,推動該領域的進一步發展。

2 方法和分類法

2.1 綜述范圍

本文旨在對算法設計的大型語言模型(LLM4AD)這一新興領域的現有研究工作進行系統性綜述和分類。我們進一步明確了本文綜述的范圍如下:

  • 我們不打算涵蓋所有關于LLM和算法的文獻。具體而言,我們排除了其他分支的工作,如針對LLM優化的算法(例如提示工程算法[141])和LLM訓練算法[1]。

  • “大型語言模型”指的是具有足夠規模,以實現各種任務的強大零樣本性能的語言模型,包括語言理解、代碼生成和數學推理等。這些模型通常采用變換器架構并以自回歸的方式運行[204]。

  • 我們排除了使用較小模型進行算法設計的研究,例如傳統模型算法和機器學習輔助算法[12]。盡管“大型”模型的定義存在挑戰,但目前大多數前沿的LLM包含超過十億個參數[119, 204]。

  • 僅具備視覺處理功能的其他大型模型不在我們的考慮范圍內,但包含語言處理功能的多模態LLM屬于我們的范圍。

  • 在此背景下,算法指的是一組設計用于解決問題的數學指令或規則,特別是在計算機上執行時[32]。該廣義定義涵蓋了傳統數學算法[5]、大多數啟發式方法[113, 117]以及某些可以解釋為算法的智能體或策略[179]。

2.2 統計

我們介紹了論文收集和篩選的詳細流程,分為四個階段:

  • 第一階段:數據提取和收集:我們通過Google Scholar、Web of Science和Scopus收集相關論文。我們的搜索邏輯是標題必須包含以下兩個組中的至少一個詞的組合:“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”(例如,LLM和優化、LLMs和算法)。作為一個快速發展的研究領域,大多數關于LLM4AD的論文以Arxiv等預印本形式在線發表,因此從Google Scholar收集的論文數量顯著多于Web of Science和Scopus(超過800篇)。去重后,截至2024年7月1日,我們最終收集了850篇論文。

  • 第二階段:摘要篩選:我們首先檢查每篇論文的標題和摘要,以高效排除無關的論文。排除標準包括非英語論文、非算法設計領域及不使用大型語言模型的論文。篩選后,剩余260篇論文。

  • 第三階段:全文篩選:在此階段,我們仔細閱讀每篇論文的全文,剔除未包含相關內容的論文。篩選后,剩余160篇論文。

  • 第四階段:補充:為了避免遺漏重要研究,我們根據領域內的相關知識手動搜索相關文獻。整合額外的論文后,最終收集了180余篇。

我們將首先概述LLM4AD的論文列表,并呈現一個分類法來系統地審視進展。除了整理好的論文列表外,本綜述還包含一些在2024年7月1日之后發布的出版物,統計數據將根據需要更新。 2.3 概述

圖2a展示了按月劃分的論文發表趨勢。圖中顯示了與LLM4AD相關的研究活動顯著增加,尤其是大多數研究集中在過去一年內進行。這表明LLM4AD是一個新興領域,隨著不同領域學者逐漸意識到其巨大的潛力,未來研究成果的數量將顯著增加。值得注意的是,作為快速擴展的領域,大部分研究首先以Arxiv預印本的形式發表,其中許多隨后被頂級會議(如ICML和NeurIPS)接收。 圖2c和圖2b展示了主要貢獻機構及其所屬國家在LLM4AD領域的研究分布。美國位居首位,中國緊隨其后,兩國的論文數量占總數的50%。接下來的八個國家(包括新加坡、加拿大和日本)共同貢獻了總出版量的三分之一。主要參與該領域研究的機構包括著名大學如清華大學、南洋理工大學、多倫多大學,以及大型企業如華為、微軟和谷歌。此分布表明了該研究主題的廣泛關注及其在實際應用中的巨大潛力。 在圖3中,我們基于所有被審查論文的標題和摘要生成了詞云,其中每個詞至少出現五次。該詞云展示了前80個關鍵詞,分為四個顏色編碼的集群,分別為“語言”、“GPT”、“搜索與優化”和“科學發現”。幾個關鍵字如“演化”、“策略”、“優化器”和“智能體”也被重點標出。

付費5元查看完整內容

大型視覺語言模型(LVLMs)通過在大型語言模型(LLMs)的基礎上整合視覺模態,增強了用戶交互并豐富了用戶體驗。它展現了強大的信息處理和生成能力。然而,幻覺現象的存在限制了LVLMs在各個領域的潛力和實際效用。盡管已有大量工作致力于幻覺的減緩與糾正,但針對這一問題的綜述性研究卻較為少見。在本次綜述中,我們首先介紹了LVLMs和幻覺現象的背景。隨后,介紹了LVLMs的結構以及幻覺生成的主要原因。接著,我們總結了近期在幻覺糾正和減緩方面的相關工作。此外,我們還從判斷性和生成性角度介紹了LVLMs幻覺評估的可用基準。最后,我們提出了一些未來的研究方向,以增強LVLMs的可靠性和實用性。

近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了優異的成績。基于Transformer的LLMs通過在大規模語料庫上學習語言模式和知識,獲得了理解和生成自然語言的能力。許多LLMs在NLP領域中涌現,如GPT-4 [1]、Llama [2]、InstructGPT [3]、PaLM [4]和Vicuna [5]。在大規模語料庫和大量參數的支持下,這些LLMs能夠完成廣泛的任務,并展示出強大的零樣本能力。盡管LLMs具有令人興奮且穩健的特性,但它們僅限于文本領域。越來越多的研究提出將視覺信息融入LLMs中,這些新模型稱為大型視覺語言模型(LVLMs),可應用于多種場景,如醫療診斷與輔助[6]、[7],藝術與娛樂[8],自動駕駛[9],虛擬助手和聊天機器人[10]、[11]。憑借其出色的性能,LVLM吸引了眾多用戶。然而,一些用戶發現,LVLM生成的信息在事實層面上是錯誤的,但看似合理,例如錯誤地報告不存在的物體、物體屬性、行為和物體間關系。上述現象被稱為幻覺,這使得LVLM難以應用于對準確性和可靠性要求較高的場景中。例如,幻覺可能會誤導用戶,提供錯誤或不準確的信息,甚至在內容摘要或信息檢索中導致錯誤信息的傳播。如果LVLM頻繁生成幻覺,可能會影響其發展。因此,糾正或減緩幻覺對于LVLMs來說是必要的。

為了構建一個可信賴的LVLM,幻覺是必須克服的障礙。因此,出現了大量關于減緩或糾正LVLM幻覺的研究工作。目前,已有幾篇綜述總結了LLMs中的幻覺糾正工作[12]、[13]。在多模態領域,也有部分工作[14]、[15]致力于總結多模態大型語言模型中的幻覺現象。然而,我們的綜述采用了明顯不同的分類策略。我們根據不同幻覺糾正工作的核心思想以及幻覺評估基準進行了分類。

在本文中,我們對LVLM幻覺現象的最新進展進行了綜述。首先,我們介紹了與LVLM和幻覺相關的背景知識。在第二節中,我們提供了LVLM的結構及其產生幻覺的主要原因。第三節總結了幻覺的糾正和減緩工作。接下來,第四節中我們介紹了用于評估LVLM幻覺的基準。最后,在第五節中,我們對LVLM幻覺糾正的未來前景提供了一些見解,并描繪了潛在的研究方向。

II. LVLM的背景

**A. LVLM的結構

LVLMs可以分為三個模塊:感知模塊、跨模態模塊和響應模塊,如圖1(A)所示。通過這三個模塊,視覺信息被提取并映射到文本空間。進一步地,視覺信息和文本信息結合以生成最終的響應。 感知模塊通常使用視覺Transformer(ViT)[16]或其變體[17]將圖像轉換為高維向量。在輸入ViT之前,圖像被分割成若干patch,并添加位置信息。如圖1(A)所示,ViT是一個僅包含編碼器的模型,由N個編碼器組成。編碼器的多頭注意力機制是Transformer模型的核心組件,具有強大的并行計算能力,能夠在序列的不同部分之間建立聯系。 跨模態模塊旨在彌合視覺和語言之間的模態差距[18]。近年來,LVLMs中的跨模態模塊采用了可學習接口[10]、[19]、Q-former[20]和pereceiver resampler[21]等結構。可學習接口基于投影矩陣將視覺信息映射到文本空間。Q-former通過與文本交互視覺信息來彌合模態間的差距。pereceiver resampler通過使用交叉注意力將視覺特征編碼到文本中。 響應模塊充當LVLMs的大腦。因此,它需要強大的能力來處理和分析視覺和文本的輸入,以生成最終答案。響應模塊通常采用LLMs,如Vicuna [5]、Llama [2]、Flan-PaLM [22]和Llama2 [23]。ViT和LLM都是基于Transformer的,但LLM是僅包含解碼器的結構。解碼器的掩碼多頭注意力機制增加了掩碼操作。因此,LLM在文本生成過程中無法利用“未來”信息,確保了生成內容的真實性。

**B. 幻覺的成因

有幾個因素導致LVLM產生幻覺。幻覺的發生可能與LVLM的多個部分有關,包括感知模塊、跨模態模塊和響應模塊。因此,為了更好地糾正和減緩幻覺,我們將幻覺現象的主要原因歸納如下:

模態差距:每種模態都有其獨特的特性和表達方式,這導致了不同模態數據在分布、特征和語義上的顯著差異。模態差距的存在使響應模塊在理解圖像輸入時產生偏差,導致錯誤的響應生成。例如,如圖1(B)所示,紅白相間的物體實際上是一個標志,而不是中文字符。由于模態差距的存在,響應模塊錯誤地將其描述為“紅白相間的中文字符”。

數據集中的有害信息:交叉熵損失的本質是模仿。因此,LVLMs從數據集中學習模式以生成與訓練數據相似的響應。由于LVLMs需要大量數據進行訓練,大多數數據集是通過LVLMs或LLMs生成的。盡管這些數據在生成后經過人工清理,仍有一定比例的誤導性樣本保留在數據集中。當LVLM從這些帶有幻覺的數據中學習時,必然會生成幻覺。

LLM的幻覺:LVLMs的優異表現主要歸功于其將LLMs作為“大腦”。然而,LLMs很容易產生幻覺。此外,LLMs已經積累了豐富的參數化知識。當這些參數化知識錯誤或與接收到的視覺信息沖突時,會導致幻覺。此外,可用解碼策略的隨機性也可能是幻覺的誘因。許多特殊現象通常在解碼過程中發生,并且與幻覺密切相關。

III. 幻覺的糾正 在本部分中,我們將回顧和總結近年來與LVLM(大型視覺語言模型)中幻覺現象相關的糾正與減緩工作。隨著LVLM在各個領域的廣泛應用,如何有效地減少其生成不準確或錯誤的內容(即幻覺)成為了一個重要的研究方向。幻覺的產生與數據集、模態差距以及輸出響應的生成機制密切相關,因此幻覺糾正的方法主要集中在以下三類:數據集去幻覺、模態差距補償以及輸出糾正。我們將對這三類方法進行詳細介紹,分析各自的工作原理和應用場景。

**A. 數據集去幻覺

數據集去幻覺是通過改進或清理訓練數據集,以減少或避免模型在推理過程中生成幻覺內容的一種有效方法。LVLM通常通過指令調優來增強推理性能,而這一過程對高質量、大規模的指令數據集有高度依賴。然而,現實中構建這樣的數據集并不容易,即便有LLMs或LVLMs的幫助也很難確保數據完全無誤。因此,通過對現有數據集進行改寫、去除過度自信樣本和打破不當共現現象成為解決這一問題的重要策略。

數據重寫 數據重寫是指對訓練數據中的錯誤信息或潛在誤導性樣本進行修改,以確保模型學到的信息更加準確。例如,針對某些數據中由于標注錯誤或不準確導致的幻覺現象,可以通過自動化工具或人工驗證的方式,識別并糾正這些問題。數據重寫的方法可以幫助LVLM在訓練時避免學習到有害的或不準確的信息,從而減小幻覺的生成概率。

去除過度自信 在LVLM的訓練過程中,有些數據會使模型對某些錯誤的或不確定的輸出表現出過度的自信。這種過度自信會使模型在推理階段產生幻覺。為了解決這一問題,研究者提出了一些方法來降低模型在面對不確定輸入時的自信水平。例如,通過調整損失函數,使模型在訓練過程中對不確定的樣本保持一定程度的懷疑,從而避免模型生成看似合理但實際上錯誤的響應。

打破共現現象 共現現象是指在訓練數據中,某些視覺元素和文本描述頻繁一起出現,導致模型在推理時不加區分地將這些元素聯系在一起。例如,某些物體和某些動作在數據集中經常共現,但在實際場景中這些組合并不總是正確的。為了解決這一問題,可以通過打亂數據集中這些元素的組合,或引入新的樣本,以減少這種共現現象對模型產生的負面影響。

**B. 模態差距補償

模態差距是LVLM中幻覺產生的一個重要原因。由于視覺信息和文本信息之間的特性差異,模型在融合這些多模態數據時,可能會產生錯誤的推斷。通過有效的跨模態模塊設計,可以彌合視覺和語言之間的差距,減少因模態不匹配導致的幻覺現象。

可學習接口的應用 可學習接口是一種基于投影矩陣的方法,它將視覺信息映射到文本空間。這種方法通過學習視覺和語言之間的對應關系,使模型能夠更好地理解視覺信息并將其與文本結合。通過這種方式,模型能夠在視覺和語言之間建立更加緊密的聯系,從而減少幻覺的產生。

Q-former的引入 Q-former是一種通過交互方式將視覺信息與文本信息連接起來的技術。它通過設計一種特殊的查詢機制,使視覺信息在跨模態過程中與文本信息進行交互。這種方法能夠更好地處理模態之間的差異,尤其是在復雜的視覺場景中,幫助模型準確地生成文本描述。

pereceiver resampler的使用 pereceiver resampler是一種使用交叉注意力機制的技術,旨在將視覺特征編碼到文本中。通過這種方法,視覺特征被轉換為與文本相匹配的表征,從而減少模態差距導致的幻覺現象。

**C. 輸出糾正

除了通過改進數據集和跨模態機制來減少幻覺,研究人員還致力于直接糾正模型輸出的幻覺內容。輸出糾正方法通過后處理技術或改進解碼策略,來確保模型生成的最終響應更加準確。

后處理機制 后處理機制是一種在模型生成響應之后對其進行檢查和修正的技術。例如,通過引入額外的驗證模塊,檢查生成的文本是否與視覺信息一致。如果發現生成內容存在邏輯或事實錯誤,可以通過該模塊進行修正。這樣的后處理機制可以有效減少模型生成幻覺的可能性。

解碼策略的優化 解碼策略對生成式模型的輸出有很大的影響。研究發現,某些解碼策略(如貪婪搜索或隨機采樣)容易引發幻覺現象。為了解決這一問題,研究人員提出了一些新的解碼策略,例如基于約束的采樣方法或對抗性解碼策略。這些方法通過更好地平衡生成的多樣性和準確性,減少了模型生成幻覺的概率。


IV. 幻覺的評估基準

在減緩和糾正LVLM幻覺的過程中,建立有效的評估基準是至關重要的。評估基準用于衡量模型在生成過程中出現幻覺的頻率和嚴重程度,同時也為模型改進提供反饋。我們從判斷性和生成性兩個角度總結了現有的幻覺評估基準。

判斷性基準 判斷性基準主要通過分析模型生成的響應是否符合事實或是否與視覺輸入一致來評估幻覺。例如,通過引入人工評估或使用預定義的規則來判斷模型生成的內容是否準確。這類基準側重于定量地評估幻覺現象,幫助研究人員了解幻覺在不同場景中的發生頻率。

生成性基準 生成性基準則側重于評估模型在生成過程中所表現出的創造性和合理性。盡管模型可能生成出具有一定創新性的內容,但這些內容不一定符合事實或邏輯。因此,生成性基準的評估主要關注模型是否能夠在保持生成多樣性的同時,減少幻覺的產生。


V. 未來研究方向

盡管當前LVLM在減少幻覺方面取得了一定進展,未來仍有很多值得探索的方向。以下是一些可能的研究方向: 1. 多模態融合的優化 進一步優化視覺與語言之間的融合機制,特別是在復雜場景中的跨模態理解和表達。 1. 數據集構建的改進 通過新的數據增強和數據清洗技術,構建更高質量、更具代表性的大規模數據集,以減少訓練數據中的幻覺樣本。 1. 模型透明性的提高 提高LVLM的透明性和可解釋性,使得用戶可以更清楚地理解模型生成幻覺的原因,從而對其進行有效的糾正。 1. 動態學習機制的引入 引入動態學習機制,使模型能夠在運行過程中不斷調整和修正自身,避免幻覺的累積效應。

付費5元查看完整內容

大模型(LLM)的興起在自然語言處理領域引起了廣泛關注,其涌現能力在各個垂直領域(如金融、醫療、教育等)也取 得一定進展。然而,大模型自身面臨解釋性不足、知識實時性差、生成結果存在虛假信息等諸多挑戰。為了應對這些問題,知 識圖譜與大模型的融合逐漸成為了研究熱點。知識圖譜作為一種結構化的知識模型,其真實性和可靠性,成為提高大模型解 釋和推理能力的有力工具。同時大模型具備語義理解能力,為知識圖譜的構建和更新提供了有力支持。因此,知識圖譜和大 模型是互補的(本文稱為圖模互補)。本文系統性地介紹知識圖譜與大模型融合的方法,分別從 1)大模型增強知識圖譜,2)知 識圖譜增強大模型,兩個角度進行全面的回顧和分析。最后,本文從醫學診斷預測和時間知識圖譜出發,介紹圖模互補的領域 應用,并討論圖模互補未來發展的方向,為知識圖譜與大模型的進一步研究提供幫助。 近年來,自然語言領域出現了一項令人矚目的 技術:大模型。大模型(LLM)是指通過超大規模文 本數據訓練出來的神經網絡模型,由預訓練語言模 型(PLM)發 展 而 來,其 特 點 是 模 型 規 模 較 大,參 數 通 常 在 數 十 億 乃 至 萬 億 級 別。相 較 于 傳 統 的 預 訓 練語言模型,大模型在處理復雜任務時表現出特殊 的 能 力(涌 現 能 力[1] 、推 理 能 力[2] )。相 關 研 究 表 明, 大 模 型 不 僅 能 夠 理 解 和 處 理 大 規 模 的 文 本 數 據[3] , 同時還具備上下文學習能力[4] 和領域泛化能力。這 使得它們成為各種自然語言下游任務的通用選擇, 能夠輕松進行少樣本遷移學習[5] 。如今,AI 領域中 涌現出許多具有代表性的大模型,例如對話式語言 大 模 型 ChatGPT[6] 、增 強 推 理 能 力 的 多 模 態 大 模 型 GPT-4[7] 等等。這些模型不僅在傳統的自然語言處 理領域(如搜索引擎[8] 和機器翻譯[9] )取得一定進展, 還在金融[10] 、醫療[11] 、教育[12] 等各種領域提供有效幫 助。大模型對傳統的自然語言處理領域帶來沖擊, 促使學者重新思考通用人工智能的可能性[13] 。 目 前,雖 然 大 模 型 引 起 了 廣 泛 的 關 注,但 它 仍 然 面 臨 著 諸 多 挑 戰,包 括 模 型 內 部 的 不 可 控 性,缺 乏解釋性[14] 、無法保證知識實時性[5] 、語言數據質量 的 不 確 定 性,以 及 產 生 幻 覺 和 有 毒 信 息 的 潛 在 風 險[15] 。為了應對這些挑戰,學者們開始思考將知識 圖譜與大模型融合[5] 。知識圖譜是一種用于表示和 存 儲 知 識 的 網 絡 圖 形 結 構,其 中 節 點 表 示 實 體,邊 表示實體之間的關系[16] 。知識圖譜以其數據的真實 性而著稱,這一特點可以有效地減輕大模型產生幻 覺 的 問 題 。 例 如 KELM 語 料 庫[17] 、通 用 模 型 KG? PT[18] 為大模型提供基于知識圖譜轉化的真實文本 信 息。大 模 型 作 為 一 個“黑 盒 模 型”其 輸 出 結 果 通 常難以解釋,而知識圖譜內部的結構知識更接近人 類認知。因此,知識圖譜可以提供一種解釋和推理 知識的手段,探究大模型內部復雜的工作步驟和推 理 過 程。例 如 個 性 化 知 識 庫 與 大 模 型 集 成 的 檢 索 框 架 KnowledGPT[19] ,提 高 處 理 復 雜 搜 索 和 歧 義 的 能 力。此 外,知 識 圖 譜 還 可 以 作 為 外 部 檢 索 工 具, 幫助大模型解決公平、隱私和安全等問題[20] 。 如今知識圖譜的規模越來越大,傳統的圖譜構 建、補全技術也面臨許多難題,如數據獲取、實體識 別、知識抽取和實體消歧等[21] 。大規模知識圖譜的 構 建 往 往 需 要 投 入 大 量 的 人 力、物 力 和 時 間 成 本, 且 依 舊 無 法 保 證 知 識 圖 譜 質 量 和 可 用 性。而 大 模 型 能 有 效 解 決 這 些 問 題。大 模 型 內 部 存 在 海 量 的 知 識 信 息,在 處 理 復 雜 的 文 本 數 據 信 息 時,能 夠 迅 速地進行實體識別與抽取,有效應對知識構建和補 全的挑戰[22] 。此外,鏈接預測是知識圖譜推理和問 答 的 關 鍵 步 驟,在 零 樣 本 和 少 樣 本 學 習 中,大 模 型 同 樣 能 夠 有 效 地 挖 掘 實 體 間 的 邏 輯 關 系。根 據 知 識圖譜和大模型的上述特點,本文認為知識圖譜和 大模型是相互補充的,稱為“圖模互補”,圖 1 為知識 圖譜與大模型的優缺點總結。 知 識 圖 譜 與 大 模 型 融 合 是 一 個 熱 門 研 究 領 域[23~25] 。文獻[25]提出了統一大模型與知識圖譜的 前瞻性路線圖,總結了現有的大模型與知識圖譜的 先進技術,并討論大模型與知識圖譜融合的相關挑 戰和發展方向。其整體路線劃分與本文有所差異, 本文從作用功能角度進行劃分,根據知識圖譜和大 模型在領域中的地位,將其融合劃分為兩個不同的 類 別:大 模 型 增 強 知 識 圖 譜 和 知 識 圖 譜 增 強 大 模 型。并從增益的效果出發,將每個大類別細分為不 同的小類別,最后探究圖模互補的領域應用。

付費5元查看完整內容

由于其強大的生成能力,深度生成模型在低層視覺任務領域引起了廣泛關注。其中,以擴散模型為基礎的解決方案,因其通過正向擴散過程破壞圖像和逆向去噪過程生成圖像的特點,而廣受贊譽。這些模型能夠生成質量高且多樣性豐富的樣本,確保生成具有復雜紋理信息的視覺效果。盡管它們在低層視覺中的成功和廣泛應用顯著,但缺乏一篇全面且有啟發性的綜述來整合這些開創性的擴散模型研究并組織相關內容。為填補這一空白,本文提出了首個聚焦于低層視覺任務中去噪擴散模型技術的全面綜述,涵蓋了該領域的理論和實踐貢獻。我們展示了三種通用的擴散建模框架,并探討了它們與其他常用深度生成模型的關系,從而為后續分析奠定理論基礎。隨后,我們從多角度對低層視覺任務中使用的擴散模型進行了分類,考慮了基礎框架和目標任務。此外,除了自然圖像處理方法外,我們還總結了在其他低層視覺任務中應用的擴展擴散模型,包括醫學、遙感和視頻場景。我們概述了低層視覺任務中常用的基準測試和評估指標,并對三項主要任務中的擴散模型技術進行了全面評估,涵蓋了性能和效率。最后,我們闡明了當前擴散模型的局限性,并提出了七個未來研究的有趣方向。本綜述旨在促進對低層視覺任務中去噪擴散模型的深刻理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision找到一份包含超過20個低層視覺任務的擴散模型技術、數據集及其他相關信息的精選列表。

作為計算機視覺的一個重要組成部分,低層視覺任務旨在改善由于復雜場景導致的低質量數據,并在圖像超分辨率[1]、去模糊[2]、去霧[3]、圖像修復[4]、融合[5]、壓縮感知[6]、低光增強[7]和遙感云去除[8]等方面有著廣泛且實際的應用。請參見圖1中的視覺結果。

傳統方法[13], [14]將問題表述為變分優化挑戰,并采用手工設計的算法來解決與特定圖像屬性或降解先驗相關的近似約束[15], [16]。然而,這些方法由于缺乏通用性,無法應對復雜的降解問題。隨著深度學習的出現,卷積神經網絡(CNN)[17]和Transformers[18]因其強大的特征提取能力被廣泛應用于低層視覺任務。此外,豐富數據集的收集,如超分辨率中的DIV2K[19]和去雨中的Rain800[20],進一步促進了其通用性。盡管這些技術在PSNR和SSIM等基于失真的指標上取得了可喜的結果,但它們在紋理生成方面表現不佳,限制了其在現實場景中的應用。

為應對此局限,深度生成模型,尤其是生成對抗網絡(GANs)[21],被引入到低層視覺領域。得益于其強大的生成能力,這些網絡有望合成真實的紋理細節,從而擴展到現實世界的應用。然而,這些策略仍面臨幾個關鍵挑戰:(1) 訓練過程容易受到模式崩潰和不穩定優化的影響,需要在訓練期間進行復雜的超參數調優。(2) 生成的結果仍可能出現偽影和反事實細節,破壞全局一致性,限制了其適用范圍。

一種新型深度生成模型,稱為擴散模型(DMs)[22]-[30],最近因其卓越的生成能力和訓練穩定性成為計算機視覺領域的熱門話題。擴散模型的特點在于正向擴散階段和逆向擴散階段,通過引入噪聲系統性地擾動數據,然后學習逆轉這一過程以生成樣本。作為基于似然的模型,擴散模型將其訓練目標表述為重加權變分下界,以其廣泛的分布覆蓋、穩定的訓練目標和簡單的可擴展性而受到好評。

利用上述優勢,擴散模型在多個領域中取得了顯著成功,包括數據生成、圖像內容理解和低層視覺。在低層視覺領域,擴散模型[9], [10], [31], [32]主要集中于低質量數據的恢復,確保重建的高質量數據具有精確的語義信息和逼真的紋理細節,即使在復雜且嚴重降解的現實場景中也是如此。如圖1所示,許多基于擴散模型的算法在各種低層視覺任務中表現出色。然而,不同任務中使用的技術表現出顯著的多樣性和復雜性,使其難以理解和改進,從而對未來發展和通用重建模型的引入構成了障礙。因此,迫切需要一篇結構良好且全面的低層視覺任務中基于擴散模型的綜述。然而,大多數現有的基于擴散模型的綜述[33]-[36]側重于基礎理論模型和生成技術的發展。只有少數綜述[37]-[39]集中于自然圖像場景中的某一特定問題或少數有限任務。

為滿足領域需求并彌補上述缺陷,我們提出了首個針對低層視覺任務的基于擴散模型的綜述(見圖2和圖3)。本綜述包括詳細的理論介紹、廣泛的應用范圍、全面的實驗分析和廣泛的未來展望。具體來說,我們在第2節全面介紹了擴散模型的基本原理,闡明了擴散模型與其他深度生成模型之間的聯系和相互關系。然后,我們在第3節總結了現有的前沿基于擴散模型的自然低層視覺方法,基于基礎框架和目標任務對其進行分類,包括六個廣泛使用的任務。接著,我們在第4節擴展到更廣泛的場景,包括醫學、遙感和視頻場景,旨在提供應用范圍廣泛的綜合概述。此外,第5節匯編了30多個常用基準測試和10多個基本評估指標。在三個主要任務(超分辨率、圖像去模糊和低光圖像增強)的相關設置中,我們提供了基于擴散模型方法的豐富實驗。最后,我們在第6節中指出了現有低層視覺任務中基于擴散模型方法的局限性,并提出了未來研究和改進的三個主要潛力方向,并在第7節總結了本綜述。

我們希望這篇基于擴散模型的綜述,旨在促進對低層視覺領域的理解,能夠激發計算機視覺社區的進一步興趣并促進相關研究工作。

付費5元查看完整內容

時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。

1 引言

時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。

盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。

為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。

本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。

論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

結構化數據在網絡應用中很好地存在,如社交媒體中的社交網絡、學術網站中的引文網絡、在線論壇中的線程數據。由于拓撲結構的復雜性,這些數據中的豐富信息難以處理和利用。圖神經網絡(GNN)在結構化數據的學習表示方面顯示出極大的優勢。然而,深度學習模型的不透明性使得解釋GNN的預測變得非常重要。同時,GNN解釋的評價也是一個巨大的挑戰,因為在很多情況下,基準真相解釋是不可用的。在本文中,我們從因果推理理論中借鑒反事實和事實推理(CF^2)的觀點,來解決可解釋GNN中的學習和評價問題。為了生成解釋,我們提出了一個模型無關的框架,通過建立一個優化問題的基礎上,這兩個隨意的觀點。這將CF^2與之前只考慮其中一個的可解釋GNN區分開來。這項工作的另一個貢獻是對GNN解釋的評價。為了在不要求基本事實的情況下定量地評估生成的解釋,我們設計了基于反事實和事實推理的度量標準,以評估解釋的必要性和充分性。實驗表明,無論基準真相解釋是否可用,CF^2在真實數據集上都比以前的最先進的方法產生了更好的解釋。此外,統計分析證明了基準真相評估和我們提出的指標之間的相關性。

//www.zhuanzhi.ai/paper/3b2867aa0d96b5b6a4993c1affa0e534

付費5元查看完整內容
北京阿比特科技有限公司