亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

相關內容

盡管人工智能,特別是深度學習在智能制造的各個方面都有顯著的改進,但由于泛化能力差、建立高質量訓練數據集的困難以及深度學習方法的不盡人意的性能,這些技術在廣泛應用方面仍面臨挑戰。大規模基礎模型(LSFMs)的出現在人工智能領域引發了一波浪潮,使深度學習模型從單任務、單模態、有限數據模式轉變為涵蓋多種任務、多模態并在大量數據集上進行預訓練的范式。盡管LSFMs已經展示出強大的泛化能力、自動高質量訓練數據集生成能力以及在各個領域的卓越性能,但LSFMs在智能制造領域的應用仍處于起步階段。對這個主題的系統性概述尚缺乏,尤其是關于深度學習的哪些挑戰可以通過LSFMs解決,以及如何系統地應對這些挑戰。為了填補這一空白,本文系統地闡述了LSFMs當前的狀況及其在智能制造背景下的優勢,并與當前深度學習模型在各種智能制造應用中面臨的挑戰進行了全面比較。我們還概述了利用LSFMs解決這些挑戰的路線圖。最后,通過在真實世界智能制造場景中應用LSFMs的案例研究來說明LSFMs如何幫助行業提高效率。

制造業是國家經濟的支柱之一,幾個國家已經宣布了戰略路線圖,以促進新制造技術的應用,確保在這一領域的領導地位,例如德國的工業4.0 [1]、美國的智能制造領導聯盟(SMLC) [2] 和中國制造2025 [3]。在過去的幾十年里,通過部署新技術如傳感器、物聯網(loT)、機器人、數字孿生以及網絡物理系統(CPSs) [4]–[15],制造業變得更加智能,其中在制造過程的所有階段持續生成并捕獲前所未有的數據量。因此,高效的數據處理算法被極為渴求,以實現有效的故障診斷和預測性維護、質量控制、人類操作、流程優化以及智能制造所需的許多其他智能決策 [16]–[20]。統計數據顯示,82% 使用智能制造技術的工業活動獲得了效率和性能的提升 [16], [21]。智能制造的這些改進主要歸功于各種機器學習算法的實施,這些算法隨著制造數據的規模和復雜性的增加,其中許多先進的數據驅動方法已被研究和采用,以實現大規模數據處理能力,高效率和強大的決策制定能力,這兩者通常是復雜制造活動所共同需要的。表1列出了這一領域的一些綜述文章 [22]–[88]。 傳統機器學習方法,如支持向量機、K最近鄰、樸素貝葉斯等,在一定程度上可以提高制造業的決策性能 [89]–[91]、生產線調度 [92], [93]、機器維護安排 [94], [95]、故障預測 [96]–[98]、質量評估 [99], [100] 和缺陷檢測 [101], [102]。然而,它們過分依賴于手工特征工程以用領域知識表示數據,并且缺乏處理大規模數據中高度非線性關系的能力,限制了它們在智能制造中的應用 [103], [104]。 深度學習作為一種先進的機器學習方法,能夠通過采用多層神經網絡架構,從高維非線性原始數據中自動提取特征和識別模式,使其更適應智能制造的復雜數據處理。在過去的十年里,深度學習方法是智能制造各個領域中主流的數據驅動方法,例如健康管理(PHM) [105]–[125]、質量控制 [126]–[142]、機器人 [143]–[149] 和人類活動識別 [66], [150]–[165]。 盡管深度學習展示了高層次的特征學習抽象表達能力,具有出色的端到端決策模型能力并且顯著減少了對人力的需求,從而大大推動了智能制造的發展,但在應用時仍面臨重大困難 [45], [166]–[169]。首先,為特定模式和目標定制的小型深度學習模型的性能受限。這些模型存在泛化能力有限、可解釋性差、易受攻擊等問題,無法滿足企業在智能生產和管理方面的需求,尤其是在數據多樣的復雜任務中 [170]–[175]。此外,它們只能以分散、松散耦合的方式處理個別任務 [176]–[178]。其次,數據規模增長和數據集建立成本的要求限制了深度學習模型的性能。作為一種數據驅動的方法,深度學習模型依賴于擬合輸入和輸出之間的關系,其中訓練數據集的數量和質量起著關鍵作用 [166]。盡管新技術如傳感器和物聯網使得高效收集大量數據成為可能 [179]–[184],但這些數據通常分布不均、噪聲多、缺乏標簽,并包含大量非結構化數據。因此,這些數據不足以訓練出好的深度學習模型。與此同時,深度學習模型處理大規模數據的效率不足。最近出現的大規模基礎模型 [185]–[189] 通常通過廣泛的自監著學習進行訓練,并展示了強大的泛化能力、卓越的零樣本性能和令人印象深刻的多模態融合能力,這在自然語言處理、計算機視覺等多種下游任務中取得的成功中得到了證明 [190]–[197]。盡管利用LSFMs應對智能制造中的挑戰的努力才剛剛開始,但已有一些進展被嘗試。[198], [199] 討論了LSFMs在工業制造中的潛在應用,但僅限于特定的工業任務或特定LSFM。Ji等人 [200] 提出了對比視覺基礎模型在隱蔽場景中的性能與最新深度學習模型的定量比較。Ogundare等人 [201] 提出了一項關于大型語言模型(LLMs)生成的工業自動化和控制系統的彈性和效率的研究。

盡管LSFMs在智能制造中展現出巨大潛力,其中強大的泛化能力、自動高質量訓練數據集生成和卓越性能非常受歡迎,但這一領域的研究仍處于早期階段,且關于智能制造應用中LSFMs的系統性綜述尚未出現。本文提出了在智能制造中使用LSFMs的技術路線圖,特別是在深度學習方法遇到重大障礙的地方。我們的工作旨在提供指導方向和討論,幫助理解LSFMs如何能夠惠及智能制造

本文的其余部分組織如下。第二部分描述了深度學習模型在智能制造中遇到的挑戰。在第三部分,我們首先提供了LSFMs當前進展的簡要概述,隨后我們討論了LSFMs在智能制造中的技術優勢,這些優勢解決了深度學習所面臨的挑戰。第四部分闡述了在智能制造中應用LSFMs的路線圖。最后,在第五部分,我們通過幾個我們在實際制造場景中應用的案例來說明LSFMs如何在智能制造中取得進展。

大規模基礎模型(LSFMs)的進展

基礎模型旨在通過大規模數據集進行訓練,即擁有數十億至數千億的參數,并在近期首次被命名 [185]。這些模型在預訓練后可以固定大部分參數,并通過微調適應廣泛的下游應用。事實上,大規模基礎模型(LSFMs)在自然語言處理 [292]、計算機視覺 [293] 等領域取得了革命性的進展。

如圖2所示,大型語言模型(LLMs)領域見證了眾多令人印象深刻的進展 [294]–[297]。其中,GPT系列 [292], [294], [298], [299] 無疑是LLMs中最著名和最具標桿性的。GPT系列的最新版本,GPT-4 [292],支持多模態輸入,接受圖像和文本,并生成文本輸出。它是一個基于Transformer的模型,預訓練用于預測文檔中的下一個詞。后續的微調過程可以增強其事實準確性,并確保其性能與期望的行為一致。在各種專業和學術基準測試中,GPT-4展示了與人類水平相當的性能,尤其是在人機交互、教育、醫療和法律等領域。LlaMA模型 [300] 目前是最受歡迎的開源LLM,提供四種規模:7B、13B、30B和65B。由于LlaMA是在英文語料庫上進行預訓練的,因此在使用時通常需要用目標語言的指令或數據進行微調,從而產生了一系列擴展模型 [301]–[303],構成了LlaMA家族。

LSFMs在智能制造應用中的路線圖

A. 提升泛化能力的路線圖

預訓練與微調相結合:當模型參數和大小超過一定閾值時,這些模型不僅展示了突現的性能提升,還獲得了小規模模型所缺乏的功能,如邏輯推理能力 [294], [340]。在智能制造中,LSFMs結合預訓練和微調的方式提供了多種可能性,用以解決傳統小規模深度學習方法所遇到的問題。LSFMs在多樣化的通用數據集上進行預訓練,減少了對有限的、特定任務的數據集的依賴,因此盡管模型的參數量很大,也減輕了過擬合的風險。Kahatapitiya等人 [341],考慮到視頻-文本匹配數據的有限可用性,應用了一個預訓練的圖像-文本模型到視頻領域,用于視頻-文本匹配,而不是從頭開始訓練。此外,特定的微調策略可以增強模型的泛化能力,以進一步避免在小樣本學習中微調過程中可能出現的模型過擬合。Song等人 [342] 提出了一種稱為特征判別對齊(FD Align)的微調方法,通過保持偽特征的一致性來增強模型泛化能力,在分布內(ID)和分布外(OOD)任務中展示了有效性。

通過LSFMs構建結構化數據:LSFMs可用于提取和理解復雜的非結構化數據,并將其編碼為可管理的結構化格式,例如,處理工單中的非結構化文本數據 [343]。深度生成模型(DGM)和諸如VIT [304]之類的模型旨在從非結構化數據中發現復雜的高維概率分布,以提取更抽象、更復雜的特征。Oliveira等人 [344] 概述了四種類型的DGM:基于能量的模型(EBM)、生成對抗網絡(GAN)、變分自編碼器(VAE)和自回歸模型,以及它們如何應用于供應鏈管理(SCM)優化。

通過提示嵌入知識:一旦專家知識被編碼,它可以與輸入文本或圖像特征融合,從而提高輸出的準確性 [345]。許多LSMFs,如ChatGPT和SAM,固有地包含了手動提示編碼,允許通過提示融合領域知識,而無需修改模型。例如,對于抽象的人類行為活動,模型可能難以一次性描述它們。因此,可以引導它首先生成與對象相關的活動描述,強調區分相似活動的關鍵對象。隨后,它可以識別人類活動的活動類別并幫助解釋上下文 [346]。此外,LSFMs甚至可以在訓練過程中通過收集案例研究來收集相關的領域知識 [347]。

使用多模態LSFMs:智能制造通常產生多種形式的數據,包括自由文本維護日志、圖像、音頻和視頻記錄。這些數據的固有多樣性對深度學習模型中的單一模態構成了巨大的挑戰。諸如Visual-GPT [348] 和ImageBind [318] 之類的LSFMs已成為可行的解決方案。這些模型擅長于同時編碼一系列數據,包括圖像、文本、音頻、深度、熱能、IMU數據和時間序列信號數據 [349], [350]。這種擴展的能力不僅可以豐富智能制造中捕獲的數據范圍,還可以賦予LSFMs獨特的功能,如跨模態檢索、通過算術運算進行模態融合以及跨模態檢測和生成。利用這些廣泛的LSFMs有助于精確處理非結構化數據和綜合多樣化的結構化數據來源。在多種干擾特征的復雜工業環境中,LSFMs與傳統單模態深度學習方法相比展示了更強的魯棒性。

正則化和集成學習:LSFMs可以通過正則化和集成學習等方法解決過擬合問題。正則化可以限制模型的復雜性,修剪可以移除不必要的節點和連接,集成學習可以結合多個模型的預測結果以提高模型的泛化能力。盡管許多LSFMs,如GPT-3和PaLM在訓練期間沒有使用dropout [351],但它仍對LSFMs有重要影響。例如,通過在訓練過程中使用dropout,Galactica [296] 實現了一個1200億參數的模型而沒有過擬合。此外,為了緩解由于dropout導致的LSFMs訓練速度降低,逐漸在訓練過程中引入dropout可以產生與始終使用dropout相當的性能 [352]。

持續學習/終身學習:大多數當前在智能制造中的深度學習模型假設正常模式保持不變。然而,制造環境中的變化頻繁發生。持續學習/終身學習涉及在保留以前學到的知識的同時獲取和識別新知識。LSFMs具有通過收集過去任務結果作為經驗來進行持續學習的強大能力。通過這個過程,LSFMs利用以前的知識不斷提升自己 [347], [353]。LSFMs的持續學習特性使它們能夠在實際生產過程中不斷積累新知識,以適應復雜實際環境中的潛在變化 [347], [353]。這一能力有助于防止在固定模式上訓練的模型出現過擬合。對這個過程施加特定約束可以進一步提高模型的性能和穩定性 [354]。

LSFM輔助的知識圖譜構建:知識圖譜是通過理解圖結構獲取知識的表達形式 [355]。然而,知識圖譜工程(KGE)需要對圖結構、邏輯和知識內容有深入理解,因此工作量巨大。深度學習方法的上下文理解和表示能力不盡人意,特別是在遇到全新或罕見的知識時。利用LLMs的知識理解能力和高級推理技能,可以自動生成專業領域的知識圖譜 [356],并預計通過將知識圖譜與預訓練的語言模型相結合,增強模型對特定領域知識的理解 [357]。

B. 自動高質量訓練數據集生成的路線圖

生成更高質量的數據集:生成模型如擴散模型可以較傳統數據合成方法更有效地促進高質量合成數據的生成 [315]。使用文本到圖像的擴散模型可以生成真實的圖像變化以進行數據增強。與簡單的增強方法如拼接、旋轉、翻轉不同,基于擴散模型的增強可以改變更高層次的語義屬性,例如卡車上的油漆工作 [358]。為了解決訓練擴散模型本身需要大量數據的問題,Wang及其同事將二維擴散模型轉換為三維,使用鏈式規則,使得生成三維對象數據成為可能 [359]。此外,轉換可以用于加權平均或評分多個預測模型的結果,并學習和模擬歷史數據以獲得更強大的預測結果。 在第五部分,我們展示了如何使用LSFMs在工業生產線上實現低成本、自動化的動作識別數據注釋。

提高數據質量:高質量數據對模型訓練和智能制造中的決策至關重要,原始數據通常存在缺失值、異常值和重復值等問題。LSFMs可用于自動去除雜質數據,減少預測錯誤,提高數據質量。例如,BLIP [309] 依賴于中間訓練模型在訓練期間自動從數據集中移除匹配不良的圖像-文本對,并改進某些圖像的文本注釋。Lin等人 [360] 提出了一種基于條件生成對抗網絡(CGANs)的動態供應鏈成員選擇算法。為確保分類性能不會降低,鏈上的成員分類方法能成功降低分類過程中的數據維度和復雜性。

零樣本和少樣本:工業缺陷檢測的一個主要挑戰是缺乏異常樣本,工業產品的異常情況通常多樣且不可預測。LSFM可以有效地實現零樣本檢測或少樣本檢測。Gu等人 [324] 探索了使用大型視覺-語言模型(LVLMs)解決工業異常檢測問題,并提出了一種基于LVLM的工業異常檢測新方法,AnomalyGPT。在MVTec異常檢測數據集上,AnomalyGPT僅使用一個正常樣本就能實現86.1%的準確率,94.1%的圖像級AUC和95.3%的像素級AUC。這種應用方法不再需要收集異常樣本或為每個任務創建數據集來訓練特定模型,只需要少量數據的微調就能實現良好的檢測結果。例如,在預測性維護中,Leite等人 [361] 使用LLMs對可信度信號進行分類,這些信號通常用于評估預測內容的真實性。基于LLM的方法在兩個虛假信息數據集上的表現優于最先進的分類器,無需任何真實標簽。

預訓練與微調相結合:盡管一些初步工作為智能制造場景提供了數據集,如HAR [362]–[364]、質量控制 [365]–[367] 和PHM [368], [369],但這些數據集的特點是規模小、覆蓋范圍狹窄、場景單一、操作條件簡單、數據分布不均。LSFMs在廣泛數據上進行預訓練,可以識別真實世界實體的一般特征,為數據有限環境中實現精準靈活的智能制造提供有效解決方案 [294]。在大規模數據上訓練的預訓練模型隨后在小規模數據上進行微調,以提高模型的準確性和泛化能力。例如,Sun等人 [370] 在醫學文本中使用了BERT,并僅使用小數據集進行微調就取得了良好的性能。同樣,Radford等人 [299] 展示了GPT在不同任務中的遷移學習能力。

C. 卓越性能的路線圖

通過提示改進:通常情況下,訓練完成后,深度學習模型不再接受“指導”,而是基于訓練的參數進行推理。然而,LSFMs具有卓越的數據整合能力,可以通過利用各種形式的提示來提高輸出性能。Ji等人 [321] 發現提示的質量對LSFMs的準確性有重要影響。為了解決SAM在小尺度和不規則邊界上的次優分割性能,可以使用多個提示從分布中導出更精確的分割結果 [371]。特別是,Deng等人 [372] 使用先前分布參數的蒙特卡羅模擬來估計SAM的預測分布。這種方法允許通過考慮單個圖像的多個預測來估計任意不確定性。另外,也可以使用網絡來獲取增強的線索,通過輸入原始線索生成增強線索以產生遮罩,然后輸出增強線索。通過將這些線索合并為新的提示,可以提高分割性能 [373]。還應該謹慎處理解耦遮罩生成和提示嵌入,以防止誤導性提示對遮罩生成產生不利影響 [370]。

增強輸入數據:在LSFMs中,“基礎”一詞表明LSFMs可以輕松地作為與其他算法結合的基礎。這確保了即使LSFMs單獨使用時表現不佳,通過與其他算法結合仍能保證良好的性能。例如,視覺語言模型(VLM)表現出對各種損壞的強大魯棒性,但某些損壞如模糊相關的損壞會導致模型性能下降 [374]。此外,SAM在隱蔽和偽裝場景中的性能被證明是不足的 [200], [375]。幸運的是,已有大量關于去模糊 [376]–[378] 和檢測隱蔽和偽裝場景中目標的技術研究 [379], [380]。作為LSFMs的特點和優勢之一,VLM可以輕松地與其他模型結合,使用預處理數據作為輸入或將其他對象檢測器的檢測框作為提示。

跨模態預訓練:LSMFs克服了深度學習中單一任務和單一模態的限制,能夠在跨模態預訓練后通過統一模型實現多任務和多模態應用 [381]。通過在訓練中利用對比損失建立圖像和文本特征之間的關聯,可以實現開放集對象識別和檢測 [310]–[312]。這可以防止任務受到訓練中預定義類別的限制。為了達到令人滿意的預訓練性能,成功依賴于跨模態數據集的規模 [381], [382] 和模型利用弱對齊數據的能力 [383]。李等人 [384] 使用預訓練模型進行工業系統中視頻的弱監督標簽分類,以衡量視頻中的語義相似性。通過加入增強的跨模態Transformer模塊,他們最大限度地利用了視頻和紋理特征之間的交互信息。

預訓練結合微調:與深度學習在數據有限和流程復雜的情況下所達到的不令人滿意的準確度相比,大規模預訓練不僅賦予LSFMs強大的泛化能力,還賦予了它們更高準確度的潛力 [294], [340]。雖然直接使用預訓練的LSFMs可能并不總是優于特別設計的深度神經網絡 [321],但用特定智能制造領域的數據集數據有效地微調它們可以提高它們的準確度 [385], [386],潛在地超越現有的深度學習模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技術促進了LSFMs的微調過程。

此外,在集成數據集上訓練深度學習模型增加了數據泄露的隱私風險。使用預訓練的LSFMs作為解決方案可以提高數據安全性,減少從零開始訓練模型所需的大量數據帶來的隱私風險。這些預訓練模型能夠在最小化微調的情況下實現有效的結果,從而減少對敏感數據的暴露。在微調階段,LSFM網絡的有限部分需要調整,引入差分隱私技術。具體來說,Abadi等人 [390] 提出的技術在微調過程中得到了應用。這些措施可以保持微調LSFM過程中涉及數據的隱私,確保更安全的訓練環境。

采用分布式學習:制造業中的數據不像自然語言和其他領域那樣容易獲得,因此采用分布式學習方法 [391] 對于在智能制造中使用的LSFMs在訓練和安全方面可能都有益處,其中訓練數據可以從不同的生產線、工廠甚至國家獲得。分布式學習方法,如聯邦學習,涉及每個方的本地數據處理,只有中間結果(如梯度)被聚合用于模型更新。這使得客戶端(設備或組織)能夠協作訓練機器學習模型,而不暴露其數據,大大提高了數據使用效率 [392], [393]。與這些技術結合可以使LSFMs不僅在性能上超越傳統方法,而且在處理敏感工業信息時提供更安全的數據處理框架。

使用LSFM自身的輸出進行解釋:由于其決策過程高度抽象和非直觀,深度學習模型通常被認為是“黑箱”。LSFMs,特別是LLMs,在任務中展示了卓越的上下文理解能力,因此嘗試使用LLMs來解釋模型是潛在可行的。在Bubeck等人的一項研究中 [274],發現LLMs在其輸出中展現了強大的結果一致性,這意味著模型遵循了固定的“思考”模式。因此,向chat-GPT提出類似“請解釋你預測背后的原因”的問題被證明是有效的,尤其是在合理的先前問題之后。這個想法也可以應用于基于編碼器結構的模型 [394],通過對重構輸入特征進行偏差分析來解決AE的局限性,以獲得解釋 [395]。

使用LLM解釋其他模型:LLMs具有強大的文本能力,可以利用從LLMs獲得的知識來解釋其他神經網絡。為了實現這一點,LLMs被用來總結和評分待分析模型的輸出 [396]。此外,LLMs可用于生成或匹配反事實,模擬或估計事件或行為中的不同選擇,以更好地理解模型的預測結果 [397]。或者,將LLMs直接嵌入到模型訓練中,可以實現高效推理的同時獲得良好的可解釋性 [398]。

可視化運行過程:從神經網絡輸出中提取中間特征圖可以幫助理解模型關注的特征,即使這些特征圖可能仍然高度抽象。通過使用其架構中的自注意機制和令牌鏈接,可視化注意力可以提供比特征圖更直觀的解釋。注意力鏈接的強度直觀上可以被認為是每個令牌對分類的貢獻的指示器。可視化注意力有助于理解模型感興趣的部分 [399]。考慮到LSFMs大多基于transformer結構,可視化注意力輸出以提高LSFMs的可解釋性是有前景的。

結論

LSFMs表現出強大的泛化能力、自動生成高質量訓練數據集的能力和優越的性能,能夠將人工智能從單一模態、單任務、有限數據訓練的范式轉變為多模態、多任務、海量數據預訓練然后微調的模式,必將帶來智能制造的新一波變革。針對將LSFMs應用于智能制造的研究尚處于起步階段,缺乏系統的方向性指導的問題,總結了深度學習在智能制造中的進展與挑戰,以及LSFMs在智能制造應用中的進展及其潛在優勢。在此基礎上,從通用性、數據性和性能等角度全面探討了如何構建適用于智能制造領域的LSFM系統,并以美的集團生產線的實際應用為例,說明了LSFMs的應用如何幫助企業提高效率、降低成本。

付費5元查看完整內容

對話系統(DS),包括面向任務的對話系統(TOD)和開放領域對話系統(ODD),一直是自然語言處理(NLP)中的基礎任務,實際應用廣泛。由于復雜的訓練和精心設計的模型架構,語言模型(LM)通常被作為構建對話系統的必要支撐。因此,LM中的每一個突破都會引起對話系統學習范式和研究重點的轉變,尤其是預訓練語言模型(PLMs)和大型語言模型(LLMs)的出現。在這篇論文中,我們深入探討對話系統的歷史,特別是其與語言模型進步的特殊關系。具體來說,我們描述了基于LM的對話系統的演化軌跡,將其分為四個獨特階段,每個階段都由語言模型的關鍵突破標志:1)早期階段,以統計LM為主,導致基于規則或機器學習驅動的DS;2)基于神經語言模型(NLM;如LSTM和GRU)的TOD和ODD的獨立發展,因為NLM在其參數中缺乏內在知識;3)隨著預訓練語言模型(PLMs)的出現,不同類型對話系統的融合,從TOD內部四個子任務的融合開始,然后是TOD與ODD的融合;4)當前基于LLM的對話系統,其中LLMs可以無縫地進行TOD和ODD。通過這種方式,我們的綜述提供了一個系統的視角,按照LM突破的時間順序對階段進行分類,全面回顧了最新研究成果。此外,我們關注新興話題并討論開放性挑戰,為基于LLM的對話系統的未來方向提供有價值的見解。總之,這篇綜述深入探討了語言模型和對話系統之間的動態相互作用,揭示了這一重要關系的演化路徑。通過這種探索,我們為該領域的更深入理解鋪平了道路,指導基于LM的對話系統的未來發展。

構建一個具有會話能力的智能系統一直是自然語言處理領域的基本目標[1, 2]。與機器自然而無縫地交互的能力已經為人機通信開辟了新的途徑,從Siri、小冰[3]到最新的新必應1和谷歌巴德2,引領著不同行業的變革應用。這一演進的核心是對話系統發揮的關鍵作用,這些系統旨在促進交互,其特點包括無害性[4]、有幫助性[5]、可信度[6]和個性化[7]。這些系統旨在模仿人與人之間的對話,從而提供增強用戶體驗、簡化任務并根據對話上下文提供個性化幫助的潛力,涵蓋了不同領域,如客戶支持、虛擬助手、醫療保健、教育等,具體取決于表1中所示的對話上下文類型[8]。

具體而言,實際中有兩種主要類型的對話:任務導向對話和閑聊對話。任務導向對話圍繞著幫助用戶實現特定任務或目標,例如預訂或購票。在這種情況下,對話系統更像是一個有益的助手,為用戶提供相關信息和指導[2, 9]。相反,閑聊對話涉及到隨意和非正式的對話,主要旨在建立和維護社交聯系。在這里,對話系統扮演友好的聊天機器人的角色,以更輕松和對話的方式與用戶互動[1]。基于它們的不同角色,提出了兩種類型的對話系統:任務導向對話系統(TOD)和開放領域對話系統(ODD)。TOD旨在高效處理任務導向的對話,通過檢測用戶意圖、跟蹤對話狀態、執行適當的操作并做出相應的回應,引導用戶實現特定目標。相反,ODD旨在進行開放領域的互動,通過將對話上下文直接映射到回應,而不需要預定義的任務或目標,在各種主題上進行自由流動的對話。這兩種類型滿足不同的用例和用戶需求,展示了對話系統在各種場景中的多功能性和適用性。因此,在2020年前的大部分早期研究(圖2之前)旨在獨立設計和構建這些對話系統,使用不同的基礎結構考慮了它們的不同角色[1, 2]。

然而,語言模型(LM)方面的革命性進展已經引發了對話系統的深刻演變,重新塑造了它們的根基。LM的核心目標是預測單詞序列的概率,這對對話系統產生了深刻的影響[10, 11],賦予它們從預訓練語料庫[12]中學習世界知識并生成更具上下文相關性和有幫助性的響應的能力[13]。同時,LM發展中的每個里程碑都在對話系統中引發了變革性的變化,在它們的快速演變和持續趨勢中發揮了關鍵作用,尤其是最新的大型語言模型(LLMs),如ChatGPT的出現。與其深入研究語言模型的發展,我們的重點在于對話系統經歷這一變革過程的迷人之旅,可以分為四個主要發展階段,對應于圖1中所示的LM的四個階段[14]:

?** 早期階段 - 統計語言模型(SLMs)**。第一個對話系統 - Eliza,由麻省理工學院于1966年提出,早于20世紀90年代SLMs的興起,允許人與機器之間進行似是而非的對話。隨后,構建了一系列對話系統,包括協助客戶制定前往加利福尼亞州一個城市的簡單往返行程的旅行代理商[15],以及配置了個性化的基于規則的聊天機器人,采用啟發式模式匹配規則來回答有關年齡、愛好、興趣等方面的詢問[16] 3。除了學術工作之外,越來越多的公司關注對話系統領域,并開發了自己的產品。例如,IBM開發了WATSON,蘋果擁有Siri,微軟有小冰。這些早期虛擬助手功能有限,遵循嚴格的流程,主要幫助用戶執行單一而簡單的任務,如安排約會、設置提醒以及提供基本答案。在這個階段,大多數對話系統都是任務導向的,這些對話系統的主導性質主要是任務導向的,采用了模塊化的方法或基于SLMs的機器學習方法。

? TOD和ODD的獨立發展 - 神經語言模型(NLMs)。大約在2015年,有一個巨大的變革,當提出了序列到序列(seq2seq)框架時,其中顯著的特征與模型培訓一起學習 - NLM[17, 18]。具體而言,NLM通過神經網絡表征了單詞序列的概率,例如,兩種典型的循環神經網絡(RNNs),如長短時記憶網絡(LSTM)[19]和門控循環單元(GRU)[20]。這些NLM作為將可變長度的輸入序列映射到可變長度的輸出序列的骨干,通過使用兩個主要組件實現:編碼器和解碼器。這種范式轉變促使了開放領域對話(ODD)系統的出現(~2015年,圖2),因其seq2seq網絡啟用的明確定義的端到端框架而引起關注。與此同時,NLM也應用于TOD,目標是在多個領域中實現更好的性能并執行復雜的任務[21, 22, 23]。

?** 對話系統的融合 - 預訓練語言模型 (PLMs)**。傳統的NLM需要大量手工選擇特征和領域特定知識,使其在每個任務中開發變得繁瑣和耗時。然而,隨著深度學習和大規模語言語料庫的出現,預訓練語言模型(PLMs)出現,成為一種突破性的解決方案。這些模型在大量未標記的文本數據上進行了預訓練,捕捉了豐富的語義和句法模式[11, 24, 25]。通過利用預訓練,隨后對特定任務的微調變得更加可行,使模型能夠迅速適應并以最少的任務特定數據取得卓越的結果。在對話系統領域,DialoGPT通過在Reddit評論鏈中提取的1.47億個類似對話的交換進行預訓練,然后通過幾個訓練示例進行微調,以生成更相關、信息更多且上下文一致的響應[13],這是這種方法的典型示例,通常被稱為預訓練和微調[26],導致最終模型成為預訓練對話模型(PDM),通過對話語料庫進行微調。值得注意的是,PDM之間的主要區別在于用于訓練的語料庫和采用的骨干語言模型,例如PLATO [27, 28]、BlenderBot [29]、Meena [30]、Pangu-bot [31]、PLUG [32]等等。此外,在TOD內部(例如,端到端TOD)、TOD與ODD之間融合,以及在此期間提出統一對話系統(UniDS)等方面,人們越來越關注不同任務的融合(圖2)。

?** 基于LLM的對話系統 - 大型語言模型 (LLM)**。認識到預訓練語料庫規模和模型大小與不同NLP任務的性能提高之間的相關性[33],研究人員嘗試同時擴展模型大小和預訓練語料庫的大小,以提高樣本效率,使模型能夠從數據中學到更復雜的模式和表示。因此,PLMs變成了大型語言模型(LLMs),如GLM [34]、LLaMA [35]和InstructGPT [4]。由于較大的模型大小和使用大規模高質量的預訓練語料庫,這些LLMs在許多語言理解和生成任務方面提供了前所未有的能力,包括但不限于問答和命名實體識別,從而重塑了對話系統的格局。通過使用數據進行進一步的指導調整,這些LLMs能夠回答各種問題并遵循各種指令,例如撰寫電子郵件和講笑話。此時,LLMs可以直接用作對話系統。此外,通過使用領域內數據,即對話/會話語料庫,對LLM進行微調,可以進一步增強其對話能力。例如,GPT-3.5演變為InstructGPT,然后演變為ChatGPT,恰好遵循這一路徑。同樣,ChatGLM [36]也是使用基于相應LLM - GLM的公開可用的中文對話數據集進行微調的。為了增強與人類偏好和價值觀的一致性,引入強化學習變得至關重要,尤其是在模型精煉的最后階段。這涉及利用來自人類評估員[4]或自動化系統[37]的反饋,以迭代改進模型的性能并確保其符合期望的標準。畢竟,這種基于LLM的對話系統(LLM-based DS)在任務導向對話和閑聊方面表現出色,使其成為通用會話AI的理想基礎。

值得注意的是,基于LM的對話系統的發展是一個持續不斷的演進過程,各個階段之間并沒有被具體的轉折點劃分得嚴格。相反,在這些階段之間存在重疊和不斷的進展,尤其是在后期階段。一般來說,隨著LM的進步,TOD與ODD之間的邊界和DM與LM之間的邊界變得日益模糊,開啟了基于LLM的對話系統的新時代。盡管現有的研究已經徹底研究了不同類型的對話系統的發展和挑戰,例如TOD [2]和ODD [1],但在提供對話系統的演進軌跡的整體視角方面,特別是在考慮到LM的進展時,仍然存在明顯的文獻差距。通過批判性地分析和理解關鍵里程碑的影響,我們可以獲得有關未來可能出現的可能性以及對各種領域和應用產生變革性影響的對話系統的有價值見解。本綜述旨在提供關于LM基礎對話系統領域的全面概述[4],為當前領域正在前進的重要方向提供光明。這包括對現有文獻的細致審查,旨在闡明在LM基礎對話系統的不同階段觀察到的范式轉變。這些轉變涵蓋了各種層面的整合,尤其是任務、數據和框架維度。

本綜述的其余部分組織如下:第2節描述了不同類型的對話,并以統一的方式定義了問題,隨后在第3節中介紹了兩種類型的LM基礎對話系統的早期發展:TOD和ODD。第4節回顧和總結了當PLMs擴展到LLMs時不同對話系統的演變。然后,我們在第5節中調查了LLM-based DS中新興的趨勢和開放性挑戰。然后,第6節討論了LLM-based對話系統的開放問題。最后,在第7節中,我們通過總結主要發現并討論未來工作的未解決問題來總結綜述。

付費5元查看完整內容

這篇綜述論文探討了多模態大型語言模型(MLLMs),它們集成了像GPT-4這樣的大型語言模型(LLMs),以處理多模態數據,如文本和視覺。MLLMs展示了如生成圖像敘事和回答基于圖像的問題等能力,為實現現實世界中的人機交互架起了橋梁,并暗示了通往人工通用智能的潛在路徑。然而,MLLMs在處理多模態的語義差距時仍面臨挑戰,這可能導致錯誤的生成,對社會構成潛在風險。選擇合適的模態對齊方法至關重要,因為不當的方法可能需要更多的參數,而性能提升有限。本文旨在探索LLMs的模態對齊方法及其現有能力。實施模態對齊使LLMs能夠解決環境問題并增強可訪問性本研究將MLLMs中現有的模態對齊方法分為四組:(1)多模態轉換器,將數據轉換成LLMs能理解的形式;(2)多模態感知器,提高LLMs感知不同類型數據的能力;(3)工具輔助,將數據轉換成一種通用格式,通常是文本;以及(4)數據驅動方法,教授LLMs理解數據集中特定類型的數據。這一領域仍處于探索和實驗階段,我們將組織并更新多模態信息對齊的各種現有研究方法。

//www.zhuanzhi.ai/paper/aca24bad3f6b66886c4586eb24df3602

大型語言模型(LLM)通常在大量數據上進行預訓練,并包含大量參數。這些模型不僅在各種任務上表現出顯著提升的性能,還展示了較小模型所缺乏的新興能力。LLMs[1]由于其理解、推理及生成人類語言的卓越能力,在人工智能領域內獲得了極大關注。為了提升LLM回應的豐富性和說服力,最近的研究[2, 3, 4]探討了將LLM轉化為遵循指令的模型。例如,斯坦福Alpaca[2]通過利用OpenAI的InstructGPT模型[6]生成的指令示例,對Llama[5]進行微調,使其成為一個遵循指令的模型。與Alpaca和Vicuna[2]采用的完全微調方法不同,Llama-Adapter[7]在凍結的Llama中引入了零初始化注意力的輕量級適配器,實現了參數高效的微調并注入了多模態知識。盡管取得了重大進步,但上述方法在處理更高級的多模態信息時仍面臨挑戰,例如GPT-4[8]中所涉及的視覺理解任務。實際上,我們對世界的感知是通過視覺、聲音、觸覺和味覺等多樣化感官豐富的。這些感官經常相互作用,視覺使用文本,文本使用視覺來增強理解。隨著社交媒體的發展,人們表達觀點的方式經常涉及多種模態。這就要求LLMs能夠理解多模態數據,這就是所謂的多模態大型語言模型(MLLM)。它們利用大型語言模型(LLM)的強大能力作為核心組件,來處理多種多模態任務。MLLM的顯著新興能力,如從圖像生成敘事和無需OCR進行數學推理,是傳統方法中罕見的。這表明了實現人工通用智能的潛在路徑。隨著多模態模型的迅速發展,它們更適合具有多模態信息交互的真實世界場景,擴大了大型多模態模型的應用前景,并產生了更迫切的研究需求

然而,當MLLM在處理多模態間的語義差距時表現不佳,可能會導致錯誤的生成,包括錯覺,對社會構成潛在風險甚至可能造成傷害。不當的模態對齊方法可能需要更多參數,但性能提升有限,導致高昂的計算和使用成本。因此,選擇合適的模態對齊方法很重要。本綜述旨在探索為LLM設計的模態對齊方法及其在該領域內的現有能力。實施模態對齊使LLM能夠解決環境問題,提高可訪問性,并在部署中促進包容性。然而,將大型模型的能力轉移到多模態場景的方法尚不明確。盡管Yin等人[10]專注于將多模態信息融入到LLM的微調技術中,如指令學習或思維鏈,但在調查數據中不同模態間的差異方面缺乏關注。另一方面,已有許多努力將LLM與人類行為和價值觀進行對齊。然而,“與什么對齊”的根本問題仍然沒有得到充分解決。因此,[11]和Shen等人[12]提出了一項關于LLM對齊目標的綜述。不過,這些努力更傾向于對齊技術,確保這些模型展示與人類價值觀一致的行為。由于LLM和MLLM都處于發展的初期階段,現有的多模態對齊方法呈現出廣泛的差異,研究方向目前處于探索和實驗階段。因此,需要組織關于多模態信息對齊的各種現有研究方法。在MLLM時代仍處于萌芽階段,我們旨在不斷更新本綜述,以激發更多研究興趣。

從互補性角度來看,單模態LLM和視覺模型同時相互邁進,最終催生了MLLM這一新領域。本質上,MLLM指的是具備接收和推理多模態信息能力的基于LLM的模型。總之,探索單模態LLM如何適應多模態數據,以及如何有效地將視覺模型與單模態LLM集成,具有重要價值。具體來說,我們將MLLM分為四種結構類型,每種類型從不同角度解決模態間的差異。(1)多模態轉換器。轉換器促進將多模態信息轉化為LLM能理解或學習的對象,利用LLM的能力學習這些轉換后的對象。(2)多模態感知器。這些方法專注于設計與LLM接口的多模態感知器,主要是為了增強對多模態信息的感知能力。(3)工具輔助。鼓勵使用工具將不同模態轉換為統一的模態,主要是文本,最終完成多模態任務。(4)數據驅動。數據驅動方法旨在通過讓LLM在特定數據集上學習,賦予它與特定數據集相關的能力。例如,在點云數據集上學習使模型能夠理解點云。

我們的主要貢獻如下

? 我們強調了在多模態大型語言模型中彌合模態差距的方法的重要性,并提供了第一個關于多模態信息對齊的綜合性綜述。 ? 我們涵蓋了彌合模態差距的四種方法:多模態轉換器、多模態感知器、工具輔助和數據驅動方法,并為每種方法提供定義,并追蹤它們的發展路徑。 ? 通過闡明MLLM中多模態信息對齊的不同方法,我們討論了主要挑戰和可能的未來研究方向。

概述****我們根據處理多模態特征的方法將這些方法分為四組。因此,本文將最近的代表性MLLM分為四類: (1)將LLM作為多模態特征的直接處理器; (2)利用多模態感知器的MLLM來處理多模態特征; (3)將LLM作為處理多模態特征的工具; (4)在特定格式的數據上學習,賦予LLM適應額外模態的能力。請注意,這四種技術相對獨立,可以組合使用。因此,我們對一個概念的闡述也可能涉及其他概念。

我們根據這四個主要類別組織了綜述,并依次介紹它們。我們首先詳細介紹將LLM作為多模態特征的直接處理器的MLLM,以揭示當LLM作為直接處理器時如何適應多模態性。接著,我們介紹利用多模態感知器處理多模態特征的MLLM,主要關注如何創新多模態感知機制,使LLM能夠理解多模態信息。另一項重要技術是輔助LLM,這通常涉及四種輔助技術。最后,我們以總結和潛在的研究方向結束我們的綜述。

多模態轉換器

鑒于語言模型(LLM)的顯著能力,處理多模態任務最直接的方法是將多模態特征直接輸入到LLM中,讓它學習和理解這些多模態特征。然而,由于LLM主要在通用文本上進行訓練和學習,因此在處理多模態特征時存在不可避免的語義差距。直接注入這些特征可能導致嚴重的幻覺和偏離事實的答案生成。因此,當代研究人員通常努力將多模態特征,如圖像特征,映射到與語言相一致的特征空間中,旨在提高多模態語言模型(MLLM)的性能。 多模態感知器 類似于完全依賴純文本LLM進行語言理解,利用多模態感知器的LLM旨在通過引入特殊的多模態感知模塊來最小化圖像和文本之間的語義差距。感知模型是一個多模態感知器,它通過將多模態特征轉換為與LLM的嵌入表示空間一致的多模態標記,從而彌合文本模態與其他模態之間的差距。這一過程在圖3中進行了抽象表示。也可以考慮更復雜(但成本更高)的方案來連接圖像和語言表示,例如Flamingo[41]中的門控交叉注意力和BLIP-2[34]中的Q-former,或者其他提供對象級特征的視覺編碼器,如SAM[68]。[13]**工具輔助 **基于人類善于使用工具解決各種問題的深厚能力,許多當代研究努力旨在賦予LLM使用各種工具的能力[49, 50, 52, 54, 55, 61, 80],例如基礎模型和API。在MLLM領域中,鼓勵LLM利用工具將不同模態轉換為統一的模態,主要是文本,以最終完成多模態任務。原生LLM本質上只裝備了處理文本輸入的能力。因此,研究人員尋求通過構建文本格式(包括自然語言、代碼和結構化文本)來指導LLM獲得使用工具的技能。這一系列努力可以分為三個主要方法:1) 自然語言輔助;2) 代碼輔助;和3) 代碼與自然語言同時輔助。這些研究工作通過工具整合擴展了LLM的功能能力,為人工通用智能(AGI)和人工智能代理的未來發展鋪平了道路。盡管如此,這些舉措取決于LLM的情境學習(ICL)能力,這意味著LLM需要達到一定的模型參數閾值才能有效地獲得使用工具的熟練度。

**數據驅動的MLLM **大規模模型的快速發展在很大程度上依賴于使用廣泛的數據集進行訓練。包括多模態模型在內的傳統大型模型主要建立在通用數據集之上,這些數據集通常來源于互聯網上的未標注文本[82]。雖然這些數據集涵蓋了廣泛的領域,但這些模型更傾向于通用能力。然而,當面對更復雜的多模態信息時,如醫學圖像[64]或生物分子的結構[83],與這些模態相關的數據較少。因此,模型缺乏對這些特定領域的訓練和認知,導致性能不佳,甚至無法理解這些模態。結論研究[84]表明,隨著訓練參數和數據量的增加,模型表現出可預測的性能改進、更高的樣本利用率,甚至不可預測的能力。這些不可預測的能力在較小的模型中不常見,但在LLM中已經出現。因此,越來越多的研究人員正在采用數據驅動策略,收集或構建特定領域的數據,并將其作為訓練和微調模型的基礎,以賦予它們對多模態信息的額外理解能力。實驗表明,不改變模型結構,改變訓練數據的重點可以賦予大型模型不同的能力[65, 66, 85, 86, 87, 88]。

付費5元查看完整內容

大型語言模型(LLMs)在各種自然語言任務上展現出卓越的性能,但它們容易受到過時數據和領域特定限制的影響。為了解決這些挑戰,研究人員主要采用了兩種策略:知識編輯和檢索增強,通過整合來自不同方面的外部信息來增強LLMs。然而,目前仍然缺乏一個全面的綜述。在本文中,我們提出一項回顧,討論知識與大型語言模型整合的趨勢,包括方法的分類、基準和應用。此外,我們對不同方法進行了深入分析,并指出了未來的潛在研究方向。我們希望這篇綜述能為社區提供快速訪問和對這一研究領域的全面概覽,旨在激發未來的研究努力。

大型語言模型(LLMs)已經展示了在其參數中編碼現實世界知識的令人印象深刻的能力,以及解決各種自然語言處理任務的顯著能力(Brown等,2020年;Hoffmann等,2022年;Zeng等,2022年;Chowdhery等,2022年;Touvron等,2023年;Zhao等,2023b年)。然而,它們在知識密集型任務上仍面臨嚴峻挑戰(Petroni等,2021年),這些任務需要大量的現實世界知識。最近的研究表明,LLMs難以學習長尾知識(Kandpal等,2023年;Mallen等,2023年),無法及時更新其參數以捕捉變化的世界(De Cao等,2021年;Kasai等,2022年)(例如,ChatGPT 1的參數只包含2021年9月之前的信息,對最新的世界知識完全不知情),并且受到幻覺的困擾(Zhang等,2023a;Rawte等,2023年;Huang等,2023a年)。為了緩解這些問題,人們越來越關注通過知識編輯或檢索增強來整合知識和大型語言模型。知識編輯(De Cao等,2021年;Sinitsin等,2020年)旨在使用一種有效的方法修改LLMs中過時的知識,該方法僅更新部分模型參數。檢索增強(Mallen等,2023年;Shi等,2023年;Trivedi等,2023年)采用現成的檢索模型從外部語料庫中獲取相關文檔,以幫助大型語言模型并保持其參數不變。已有許多工作提出整合知識和大型語言模型,專注于上述兩個方面。然而,這些努力仍然相對零散,缺乏全面和系統的綜述。

為了填補這一空白,本文提出了我們的綜述的具體組織,重點關注知識編輯和檢索增強,如圖1所示。我們首先系統地介紹了根據模型處理結構的知識編輯方法(§2),包括輸入編輯(§2.1),模型編輯(§2.2)以及評估知識編輯(§2.3),涵蓋了代表性方法和通用基準。此外,我們對檢索增強進行了詳細討論(§3),包括檢索判斷(§3.1),文檔檢索(§3.2),文檔利用(§3.3),知識沖突(§3.4)和基準(§3.5)。然后,我們總結了一些知識與大型語言模型整合的前沿應用(§4),例如新版Bing 2。最后,為了激發該領域的進一步研究,我們提供了對未來調查方向的洞見(§5)。

2 知識編輯

知識編輯是一種新興方法,通過整合新知識來糾正大型語言模型(LLMs)中的不準確性和更新過時信息。在這一部分,我們深入研究了關于知識編輯的當前工作,特別關注LLMs處理結構在不同方法中的應用。如圖2所示,我們將它們分為三類:輸入編輯(§2.1),模型編輯(§2.2),和評估知識編輯(§2.3)。

2.1 輸入編輯許多大型模型龐大的參數規模和“黑盒”形式常常阻礙它們進行常規的微調,以獲取新知識,例如ChatGPT、Bard3。因此,將知識注入LLMs最直接的方法涉及編輯輸入(Zheng等,2023;Luo等,2023),這既節省成本又減少資源需求。輸入編輯有兩個方面:包括外部信息以增強提示,以及基于反饋編輯提示。調整輸入不僅提供了一種直觀、易理解的新知識過程描述,而且保證了原始模型知識的保存。

2.2 模型編輯與編輯輸入不同,許多研究致力于以參數化方式進行細粒度的模型編輯,這可以確保注入知識的持久性。根據針對LLMs參數的不同操作,我們將它們分為三類,即知識插件、定位然后編輯和整體編輯。

2.3 評估知識編輯在編輯輸入和模型之后,可以通過審查輸出來評估知識整合的程度。這一小節主要介紹模型評估的特點,并提供表1中知識編輯的一般基準概覽。當前用于編輯知識的方法主要旨在整合三元事實知識,這些知識集中在問答(QA)任務上,即ZsRE(Levy等,2017年)。此外,CounterFact是一個專門為知識編輯任務構建的評估數據集,用于衡量與僅僅表面上改變目標詞匯相比顯著變化的有效性(Meng等,2022年)。評估知識編輯的三個主要屬性包括可靠性、通用性、局部性(Yao等,2023b;Huang等, 2023b)。

3 檢索增強如第2節所討論,知識編輯(De Cao等,2021年)是一種有效的方法,通過修改大型語言模型特定部分的參數來更新過時的知識。然而,知識編輯也面臨著一些其他問題。首先,目前還不完全清楚知識在大型語言模型中是如何以及在哪里存儲的。其次,知識與參數之間的映射關系非常復雜,修改與某些知識對應的參數可能會影響其他知識。在本節中,我們介紹了檢索增強,這是一種在保持參數不變的情況下整合知識和大型語言模型的另一種方法。

與主要將外部知識參數化以更新大型語言模型的知識編輯不同,檢索增強在推理階段使用非參數化形式的外部知識。檢索增強通常由一個檢索器和一個大型語言模型組成。給定輸入上下文后,檢索器首先從外部語料庫中獲取相關文檔。然后,我們可以在不同階段使用相關文檔來提高大型語言模型的性能。在本節中,我們專注于檢索增強的以下關鍵問題:

? 大型語言模型什么時候需要通過檢索來增強?(§3.1) ? 如何檢索相關文檔?(§3.2) ? 大型語言模型如何利用檢索到的文檔?(§3.3) ? 如何解決不同文檔中的知識沖突?(§3.4)"

檢索判斷對于檢索增強的大型語言模型,一個非常重要的問題是了解LLMs的知識邊界(Yin等,2023年)并確定何時檢索補充知識。當前的檢索判斷方法主要分為兩類:基于校準的判斷和基于模型的判斷。

文檔檢索如圖3所示,獲取相關文檔有兩種方法。一種方法是使用檢索器從外部語料庫(例如維基百科)中獲取相關文檔。另一種方法是使用大型語言模型生成相關文檔。文檔利用一旦我們擁有了相關文檔,我們如何使用它們來提升大型語言模型的能力?如圖4所示,我們將使用文檔的不同方式分為三類:輸入增強、推理驗證和答案驗證。

檢索增強LLMs中的知識沖突,在模型推理中有兩個知識來源,它們的分工模糊且不透明。第一個是通過預訓練和微調注入的隱含參數化知識(即它們學習到的權重)。第二個是上下文知識,通常作為文本段落從檢索器中獲取。知識沖突意味著所包含的信息是不一致和矛盾的。如圖5所示,知識沖突有兩種類型:內部沖突和外部沖突。內部沖突指的是大型語言模型中的知識與檢索文檔中的知識之間的不一致。外部沖突指的是檢索到的多個文檔之間的不一致。

結論

在本文中,我們對知識與大型語言模型的整合進行了綜述,并提供了其主要方向的廣泛視角,包括知識編輯和檢索增強。此外,我們總結了常用的基準和前沿應用,并指出了一些有希望的研究方向。我們希望這篇綜述能為讀者提供當前進展的清晰圖景,并激發更多的工作。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。

因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。

在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢

近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。

標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf

作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。

簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。

就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。

基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。

圖1:深度圖學習和圖基礎模型的對比

受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。

表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。

圖3:基于GNN的模型示意圖

圖5:基于LLM的模型示意圖

圖7:基于GNN+LLM的模型示意圖

據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。

在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。

**基于GNN的模型 **

得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。

基于LLM的模型

研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。

**結論 **

基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

確保對齊,也就是使模型按照人類的意圖行事[1, 2],已經成為在實際應用中部署大型語言模型(LLMs)之前的關鍵任務。例如,OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而,實踐者面臨的一個主要挑戰是缺乏明確的指導方針,以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。

為了解決這個問題,本文提出了一個全面的調查,探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別進行進一步研究,在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明,總的來說,對齊度更高的模型在整體可信度方面表現得更好。然而,對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。

通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。

//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f

自然語言處理(NLP)的格局隨著大型語言模型(LLMs)的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大,通常達到數十億,且在大量的數據語料庫上進行訓練[4]。近年來,LLMs的影響確實是革命性的,它們徹底改變了學術研究和各種工業應用。值得注意的是,OpenAI開發的LLMs,包括ChatGPT [5, 6],取得了卓越的成功,其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型(LLMs)變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。

在過去,早期版本的LLMs,如GPT-3 [8],能夠生成有意義和信息豐富的文本。但是,它們存在許多問題,嚴重影響了它們的可靠性和安全性。例如,這些模型容易生成事實上不正確的文本,包含有錯覺。此外,生成的內容經常展現出偏見,進一步加強刻板印象和社會偏見。而且,LLMs傾向于生成社會上破壞性的內容,包括有毒的語言,這對它們的可靠性和實用性產生了不良影響。此外,它們容易被誤用,導致產生有害的宣傳,這對它們負責任的部署帶來了重大關切。此外,人們發現LLMs容易受到對抗性攻擊,如提示攻擊,進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響,尤其是當它們對公眾開放時。為了應對這些挑戰,研究人員和開發人員一直在努力改進對齊技術,使LLMs變得更可靠、更安全,并與人類價值觀更為一致。通過減輕這些問題,可以充分利用LLMs的潛在好處,同時將誤用的風險降到最低

觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督,這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素,包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15],有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs,結果,LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外,單純地優化訓練和生成文本的目標函數,而不考慮人類價值觀,也是另一個原因。需要注意的是,確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰,研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟,確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。

后者達到了令人印象深刻的里程碑,在發布僅兩個月內吸引了1億用戶,使其成為歷史上增長最快的平臺。這一成就并不令人驚訝,因為對齊不僅減少了LLMs生成有害輸出的可能性,而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術,LLMs變得更加可靠、安全,并與人類價值觀更加和諧,從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路,釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。

然而,盡管對齊是LLMs受歡迎的核心技術,但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰,目前沒有明確和有原則的指導可供參考。特別地,缺乏既定和統一的討論,涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素,其中一個值得注意的一般指導原則是“HHH" 原則[20],主張對齊應該是有幫助的、誠實的和無害的。此外,[21]中提出了一個與構建LLMs相關的風險分類,包括六個風險:(1) 歧視、排斥和有毒性,(2) 信息危害,(3) 虛假信息危害,(4) 惡意使用,(5) 人機交互危害,以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋,但它可以進一步解開每一個維度。

此外,像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查,包括文本、圖像、視頻和音頻等各種類型。然而,我們的重點特別是在語言模型上,探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外,[23]以全面的方式評估了LLMs,包括一些值得信賴的類別,但它并沒有單獨解決可信性和對齊問題。據我們所知,一個被廣泛接受的評估LLM對齊的分類法尚未出現,目前的對齊分類法缺乏進行全面評估所需的精細度。

鑒于確保LLMs的可信度和其負責任的部署的重要性,開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解,而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中,我們提出了一個更為細致的LLM對齊要求分類體系,它不僅可以幫助從業者解開和理解對齊的維度,還為數據收集努力提供了可行的指導方針,以開發出可取的對齊過程。例如,“有害”內容的概念可以進一步細分為對個人用戶造成的傷害(如情感傷害、冒犯和歧視)、對社會造成的傷害(如創造暴力或危險行為的指導)或對利益相關者造成的傷害(如提供導致錯誤業務決策的誤導信息)。在Anthropic發布的對齊數據[18]中,存在一個在不同考慮因素之間的明顯的不平衡(附錄A的圖46)。例如,盡管“暴力”類別出現的頻率極高,“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事,因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的(第11節),與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此,我們有強烈的動機去構建一個框架,以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先,我們深入地調查了可能重要的LLMs的類別,根據我們對文獻和公眾討論的閱讀,為從業者關注以提高LLMs的可信度。其次,我們詳細解釋如何根據上述類別評估LLM的可信度,以及如何相應地構建對齊的評估數據集。此外,我們為廣泛使用的LLMs提供了測量研究,并顯示即使被廣泛認為是良好對齊的LLMs,也可能不滿足一些對齊任務的標準,從而突顯了我們對更細致的對齊評估的建議。第三,我們證明我們構建的評估數據集也可以用來執行對齊,并展示了這種更有針對性的對齊的有效性。

路線圖。本文的組織結構如下。首先,我們在第2節介紹LLMs和對齊的必要背景。然后,在第3節,我們對提議的LLMs對齊分類提供一個高層次的概述。之后,在第4-10節,我們詳細解釋每個單獨的對齊類別。在每一節中,我們針對一個被考慮的類別,為其重要性提供論據,調查文獻中存在的問題和相應的潛在解決方案(如果存在的話),并通過案例研究來說明問題。調查之后,我們在第11節提供了一個指南,介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節,我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后,在第12節,我們通過討論潛在的機會和挑戰來總結本文。

方法概述

圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別,每個類別進一步細分為更詳細的討論,總共有29個子類別。以下是每個類別的概述:

當前LLM應用

為了說明我們如何確定建議的分類法,我們首先簡要概述了圖4中LLM的當前主要應用,這在很大程度上影響了我們選擇分類法的方式。不用說,考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法,圖4中涵蓋的應用是不盡的。

我們如何確定分類法

我們通過兩個主要因素確定類別和子類別:(1)對LLM應用的影響以及(2)現有文獻。首先,我們考慮如果某個信任度類別未能滿足期望,會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外,我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如,我們認為可靠性是一個主要的關注點,因為幻覺目前是LLM中一個眾所周知的問題,它可以顯著損害其輸出的信任度,幾乎所有的LLM應用(可能除了創意寫作)都會受到事實錯誤答案的負面影響。而根據應用的風險有多高,它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯,我們認為安全性是一個重要的話題,因為它幾乎影響到所有的應用和用戶,不安全的輸出可能會對用戶造成多種心理傷害,對平臺造成公關風險。公平性很重要,因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視,降低用戶信任,對部署者產生負面的公眾意見,并違反反歧視法。此外,抵抗誤用實際上是必要的,因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地,可解釋性為用戶帶來了更多的透明度,與社會規范保持一致確保了LLM不會引起情感傷害,改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意,我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上,我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考,徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。

結論

在本文中,我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法,并討論了在這些維度上對齊的挑戰。我們還查閱了文獻,尋找相應的潛在解決方案(如果存在的話)。除了我們提議的分類法,我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到,更加對齊的LLM(基于公開聲明的已執行對齊信息)通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。

付費5元查看完整內容

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容
北京阿比特科技有限公司