亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文為從事大型語言模型(LLMs)的實踐者和終端用戶提供了一份全面且實用的指南,以應用于下游自然語言處理(NLP)任務。我們從模型、數據和下游任務的角度對LLMs的使用進行了討論和分析。首先,我們對當前基于GPT和BERT風格的LLMs進行了介紹和簡要總結。接著,我們討論了預訓練數據、訓練數據和測試數據的影響。最重要的是,我們詳細討論了在各種自然語言處理任務中使用和不使用大型語言模型的情況,如知識密集型任務、傳統自然語言理解任務、自然語言生成任務、新興能力和針對特定任務的考慮因素。我們通過各種使用和不使用的案例來說明LLMs在現實場景中的實際應用和局限性。同時,我們試圖了解數據的重要性及與每個NLP任務相關的特定挑戰。此外,我們還探討了偶然偏差對LLMs的影響,并深入研究了其他關鍵考慮因素,如效率、成本和延遲,以確保全面了解在實踐中部署LLMs。本全面指南旨在為研究人員和實踐者提供有價值的見解和最佳實踐,以便成功地將這些模型應用于廣泛的NLP任務。關于LLMs實用指南資源的策劃清單,定期更新,可以在

//github.com/Mooler0410/LLMsPracticalGuide 找到

1. 引言

近年來,大型語言模型的快速發展正在徹底改變自然語言處理領域[12, 128, 131]。這些強大的模型在處理各種NLP任務方面表現出巨大潛力,從自然語言理解(NLU)到生成任務,甚至為人工通用智能(AGI)鋪平了道路。然而,有效且高效地利用這些模型需要對它們的能力和局限性以及NLP涉及的數據和任務有實際的了解。 為了為從業者和終端用戶提供指導,本研究關注于在下游自然語言處理任務中與大型語言模型(LLMs)合作的實際方面。本指南旨在提供實用建議,說明為何在給定任務中選擇或不選擇LLMs,以及如何選擇最合適的LLM,考慮到諸如模型大小、計算需求以及領域特定預訓練模型的可用性等因素。從實際角度深入了解LLMs,因此,為從業者和終端用戶提供了成功利用LLMs處理自己的NLP任務所需的實用知識。

我們的工作結構如下。首先,我們通過討論最重要的模型,如 GPT 風格和 BERT 風格架構,簡要介紹了 LLM(大型語言模型)。接著,我們從數據的角度深入研究影響模型性能的關鍵因素,包括預訓練數據、訓練/調優數據和測試數據。最后且最重要的是,我們深入研究各種具體的 NLP 任務,為 LLM 在知識密集型任務、傳統 NLU 任務和生成任務的適用性提供見解,以及這些模型所具有的新興能力和面臨的現實挑戰。我們提供詳細的示例,突顯 LLM 在實踐中的成功案例和局限性。為了分析大型語言模型的能力,我們將它們與微調模型進行比較。目前,還沒有一個普遍認可的關于 LLM 和微調模型的定義。考慮到實用性,在我們的文章中,對它們的定義如下:LLM 是在大量數據集上進行預訓練,而不針對特定任務調優的龐大的語言模型;微調模型通常是較小的語言模型,它們也經過預訓練,然后在更小的特定任務數據集上進一步調優,以優化其在該任務上的性能。本文總結了使用 LLM 的以下主要實用指南:

自然語言理解。在面對分布之外的數據或非常少的訓練數據時,利用 LLM 的卓越泛化能力。 自然語言生成。利用 LLM 的能力為各種應用創建連貫、與上下文相關且高質量的文本。 知識密集型任務。利用 LLM 存儲的廣泛知識來處理需要特定領域專業知識或普遍世界知識的任務。 推理能力。理解并利用 LLM 的推理能力,以提高在各種情境下的決策和問題解決能力。

2 .模型實用指南

本節簡要介紹了最先進的大型語言模型(LLMs)。這些模型在訓練策略、模型架構和應用場景上有所不同。為了更清晰地了解LLM領域,我們將其分為兩類:編碼器-解碼器或僅編碼器的語言模型和僅解碼器的語言模型。在圖1中,我們展示了語言模型的詳細演變過程。從演化樹中,我們得出以下有趣的觀察:

a) 僅解碼器模型已逐漸主導了大型語言模型(LLMs)的發展。在LLMs發展的早期階段,僅解碼器模型并不像僅編碼器和編碼器-解碼器模型那樣受歡迎。然而,在2021年之后,隨著具有改變游戲規則的大型語言模型(如GPT-3)的引入,僅解碼器模型經歷了顯著的繁榮。同時,在BERT帶來的初步爆炸性增長之后,僅編碼器模型逐漸開始淡出人們的視線。

b) OpenAI始終保持著在LLM領域的領導地位,無論是現在還是可能的未來。其他公司和機構在開發與GPT-3和當前的GPT-4相媲美的模型方面,都在努力迎頭趕上OpenAI。這個領導地位可以歸因于OpenAI對其技術路徑的堅定承諾,即使最初并未得到廣泛認可。c) Meta在開源LLM方面做出了巨大貢獻,并推動了LLM的研究。在考慮到對開源社區的貢獻時,尤其是與LLM相關的貢獻,Meta是最慷慨的商業公司之一,因為Meta開發的所有LLM都是開源的。d) LLM呈現出封閉來源的趨勢。在LLM發展的早期階段(2020年之前),大多數模型都是開源的。然而,隨著GPT-3的推出,越來越多的公司選擇封閉源代碼模型,如PaLM、LaMDA和GPT-4。因此,學術研究人員在LLM訓練方面的實驗變得更加困難。因此,基于API的研究可能成為學術界的主導方法。e) 編碼器-解碼器模型仍具有潛力,因為這種類型的架構仍在積極探索中,而且大多數都是開源的。谷歌為開源編碼器-解碼器架構做出了實質性貢獻。然而,僅解碼器模型的靈活性和通用性似乎使得谷歌對這個方向的堅持變得前景不太明朗。

我們還簡要總結了表1中每種類型的特征和代表性LLM。

2.1 BERT風格語言模型: 編碼器-解碼器或僅編碼器由于自然語言數據很容易獲得,并且已提出了無監督訓練范式,以更好地利用超大型數據集,這激發了自然語言的無監督學習。一種常見的方法是在考慮上下文的同時預測句子中的掩碼詞。這種訓練范式被稱為掩碼語言模型。這種類型的訓練允許模型對單詞和它們所使用的上下文之間的關系有更深的理解。這些模型使用Transformer架構等技術在大量文本語料庫上進行訓練,并在許多NLP任務中取得了最先進的結果,如情感分析和命名實體識別。掩碼語言模型的著名例子包括BERT [28], RoBERTa[65]和T5[84]。由于在廣泛的任務中取得了成功,MLMs已經成為自然語言處理領域的重要工具。

2.2 GPT風格的語言模型:僅解碼器雖然語言模型在架構中通常與任務無關,但這些方法需要對特定下游任務的數據集進行微調。研究人員發現,擴大語言模型的規模可以顯著提高少樣本甚至零樣本的性能[16]。獲得更好的少樣本和零顯示性能的最成功的模型是自回歸語言模型,它是通過給定前面的單詞在序列中生成下一個單詞來訓練的。這些模型已被廣泛用于文本生成和問答等下游任務。自回歸語言模型的例子包括GPT-3 [16], OPT [126], PaLM[22]和BLOOM[92]。改變游戲規則的GPT-3首次通過提示和上下文學習展示了合理的少樣本/零樣本性能,從而顯示了自回歸語言模型的優越性。還有一些模型,如CodeX[2],針對特定任務(如代碼生成)進行了優化,用于金融領域的BloombergGPT[117]。最近的突破是ChatGPT,它專門針對對話任務改進了GPT-3,為各種現實世界的應用提供了更具交互性、連貫性和上下文感知的對話。

3 數據實用指南

在本節中,我們將討論數據在為下游任務選擇適當模型方面發揮的關鍵作用。數據對模型有效性的影響從預訓練階段開始,一直持續到訓練和推理階段。 (1)在面臨分布外數據的下游任務中,LLM的泛化能力比微調模型更好,如對抗性樣本和域偏移。(2)在處理有限的標注數據時,LLM比微調模型更可取,并且在有大量標注數據時,兩者都可以是合理的選擇,具體取決于特定的任務需求。(3)建議選擇在與下游任務類似的數據字段上預訓練的模型。

4 NLP任務實用指南

在本節中,我們詳細討論LLM在各種下游NLP任務中的用例和非用例以及相應的模型能力。在圖2中,我們將所有討論總結為一個決策流。它可以是面對任務時快速決定的指南

5 其他注意事項

盡管LLM適用于各種下游任務,但還有一些其他因素需要考慮,如效率和可信性。對效率的討論包括LLM的訓練成本、推理延遲和參數有效的調優策略。對可信性的考察包括魯棒性和校準、公平性和偏差、潛在的虛假相關性以及LLM中的安全挑戰。

6 結論和未來的挑戰

大型語言模型的最新進展正在徹底改變自然語言處理領域。有效地使用LLM需要了解它們的能力和各種NLP任務的限制。本文為在下游NLP任務中使用LLM提供了實用指南。首先討論了一些突出的模型,如GPT風格和BERT風格的架構以及影響它們性能的因素。探討了將LLM用于下游任務,包括知識密集型任務、NLU和NLG任務,并提供了成功和局限性的具體例子。本實用指南提供了對LLM的見解和跨NLP任務利用LLM的最佳實踐。我們希望它能使研究人員和從業人員發揮他們的潛力,推動語言技術的創新。接下來,我們分析了LLM未來面臨的挑戰:

在真實世界的“數據集”上評估所提出的模型。現有的深度學習模型主要在標準的學術數據集上進行評估,如ImageNet,這些數據集是深度學習發展的里程碑。然而,標準學術數據集的局限性并不能準確反映現實世界的性能。隨著模型的發展,至關重要的是要在反映現實世界需求的更多樣化、復雜和現實的數據上評估它們。評估真實世界“數據集”上的模型,除了學術上的,將提供更嚴格的測試它們的能力,以及更好地理解它們在真實世界應用中的有效性。這確保了模型能夠應對現實世界的挑戰并提供實際的解決方案。

模型對齊。確保日益強大和自主的模型與人類的價值觀和優先事項相一致至關重要。必須開發方法來保證這些模型的行為符合預期,并且不會針對不期望的結果進行優化。從模型開發過程的一開始就集成對齊技術至關重要。模型透明度和可解釋性也是評估和確保對齊的重要因素。此外,當我們展望未來時,一個更艱巨的挑戰正在逼近:調整超人系統。雖然這項任務目前超出了我們的需求,但重要的是要考慮和準備調整這些先進系統的潛在影響,因為它們可能提出獨特的復雜性和倫理問題[8,15]。

安全對齊。雖然人工智能存在風險的討論很重要,但需要具體的研究來保證先進人工智能的安全發展。這包括可解釋性、可擴展的監督和管理,以及模型屬性的形式化驗證技術。安全性不僅應該被視為一個附加組件,而且應該被視為模型構建過程中不可分割的一部分。

基于縮放的性能預測。隨著模型大小和復雜性的急劇增加,很難預測模型性能將如何變化。開發方法在擴展后或在開發新架構時更好地預測模型性能,將允許更有效地使用資源和加速進展。一些可能性包括:訓練一個較小的“種子”模型并推斷其增長,模擬規模增加或模型調整的影響,以及在不同規模上對模型迭代進行基準測試以構建縮放規律。這些可以在模型建立之前就了解模型的性能。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

如何讓模型適配專業領域?這篇文章夠了

大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。

在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:

? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,

1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。

2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。

3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。

3 LLM領域專業化的應用

在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:

? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。

4. 結論

總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

最新大模型推薦綜述

大型語言模型(LLMs)已在自然語言處理(NLP)領域嶄露頭角,并在推薦系統(RS)領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練,已在學習通用表示上取得了顯著成功,并有可能通過一些有效的遷移技術(如微調和提示調整等)來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋,以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解,本綜述提出了一種分類法,將這些模型分為兩大范式,分別是用于推薦的判別型LLM(DLLM4Rec)和用于推薦的生成型LLM(GLLM4Rec),其中后者是首次被系統地整理出來。此外,我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統,提供了它們的方法、技術和性能的洞察。此外,我們也識別出了關鍵的挑戰和一些有價值的發現,以為研究者和實踐者提供靈感。

//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5

1. 引言

推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理(NLP)領域出現的大型語言模型(LLMs),人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型(LLMs)融入推薦系統的關鍵優勢在于,它們能夠提取高質量的文本特征表示,并利用其中編碼的廣泛外部知識[Liu等人,2023b]。此綜述將LLM視為基于Transformer的模型,這種模型參數眾多,通過使用自/半監督學習技術在大規模數據集上進行訓練,例如BERT,GPT系列,PaLM系列等。與傳統的推薦系統不同,基于LLM的模型擅長捕獲上下文信息,更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人,2022]。通過理解上下文,基于LLM的推薦系統(RS)可以提高推薦的準確性和相關性,從而提高用戶滿意度。同時,面對有限的歷史交互數據稀疏問題[Da’u和Salim,2020],LLMs還通過零/少樣本推薦能力[Sileo等人,2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項,因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練,使它們即使沒有接觸過特定的項目或用戶,也能提供合理的推薦。

上述策略已在判別模型中得到了良好的應用。然而,隨著AI學習范式的演變,生成語言模型開始受到關注[Zhao等人,2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現,它們已經對人類的生活和工作模式產生了重大影響。此外,將生成模型與推薦系統相結合,有可能帶來更多創新和實用的應用。例如,可以提高推薦的可解釋性,因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人,2023],幫助用戶理解影響推薦的因素。此外,生成語言模型使得更個性化和上下文感知的推薦成為可能,例如在聊天式推薦系統中用戶可以定制提示[Li等人,2023],增強用戶對結果多樣性的參與和滿意度。 受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發,將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向,顯著地推進了推薦系統研究的最新技術。到目前為止,有一些研究回顧了這個領域的相關論文[Zeng等人,2021; Liu等人,2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究,并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法,將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分,分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而,這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移,而不是探索語言模型及其能力,即基于LLM的方式。此外,他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題,我們深入研究了基于LLM的推薦系統,將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM,我們的回顧重點放在后者上。據我們所知,我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。

我們的綜述主要貢獻如下

我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述,重點是擴大語言模型的能力。通過分析現有方法,我們對相關進展和應用提供了系統的概覽。

據我們所知,我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧

我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰,并提出了有價值的發現,可以激發在這個有潛力的領域進一步的研究。

2 建模范式和分類法

所有大型語言模型的基本框架都由幾個Transformer塊組成,例如GPT,PaLM,LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成,而在輸出模塊可以獲得期望的輸出嵌入或token。在這里,輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示,對于在推薦中適應語言模型,即建模范式,現有的工作可以大致分為以下三類:

(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器,將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似,這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好,可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同,這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。

在實際應用中,語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示,在本文中,我們將現有的工作劃分為兩個主要類別,分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分,不同方式之間的區別在圖3中有所說明。一般來說,判別性語言模型非常適合在范式(1)中嵌入,而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。

3 用于推薦的判別性LLM

確實,所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人,2019]。由于判別性語言模型在自然語言理解任務中的專業性,它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外,一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。

3.1 微調

微調預訓練的語言模型是一種在各種自然語言處理(NLP)任務中,包括推薦系統,受到了顯著關注的通用技術。微調背后的思想是,采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型,并通過在特定任務的數據上進一步訓練它,使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型,然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中,模型的參數根據特定任務的數據進行更新,使其能夠適應和專門用于推薦任務。在預訓練和微調階段,學習目標可以是不同的。由于微調策略是靈活的,大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務,邱等人(2021)提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示,該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣,在UserBERT [Wu et al., 2021b]中,加入了兩個自我監督任務,對未標記的行為數據進行用戶模型預訓練,以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配,通過捕捉內在的用戶興趣和相關性,訓練精確的用戶表示。

預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人,2022]提出了一種輕量級的復合重新排名方案,該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼,BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示,從而在臨時排名相關性和效率之間實現了合理的權衡。此外,Wu等人(2022)提出了一個端到端的多任務學習框架,用于產品排名,使用領域特定的BERT進行微調,以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移,以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究,例如團隊推薦[Zhang等人,2022],搜索/匹配[Yao等人,2022],CTR預測[Muhamed等人,2021]。特別地,"預訓練,微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用,如BERT4Rec [Sun等人,2019],RESETBERT4Rec [Zhao,2022]。然而,上述模型只是利用了訓練策略的優勢,而沒有將大型語言模型擴展到推薦領域,因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人,2022]開發了一個BERT微調框架,將項目的描述文本關聯起來,在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦,特別是新聞推薦,NRMS [Wu等人,2021a],Tiny-NewsRec [Yu等人,2022],PREC [Liu等人,2022],利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說,將BERT微調集成到推薦系統中,融合了強大的外部知識和個性化的用戶偏好,主要目標是提高推薦準確性,同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。

3.2 提示調優

與設計特定目標函數來適應不同的下游推薦任務不同,提示調優 [Lester等人,2021]試圖通過硬/軟提示和標簽詞語 verbalizer,將推薦的調優對象與預訓練的損失對齊。例如,Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明,BERT在沒有任何微調的情況下,可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統,其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近,Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標,作為一個cloze-style的 maskprediction任務。實驗發現,通過利用多提示集成,推薦系統的性能顯著提高,超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。

**4 針對推薦的生成型LLMs **

相比于判別型模型,生成型模型具有更好的自然語言生成能力。因此,不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊,大多數基于生成模型的工作將推薦任務翻譯為自然語言任務,然后應用像在上下文中學習,提示調優,和指導調優這樣的技術,來適應LLMs直接生成推薦結果。此外,隨著ChatGPT展示出的令人印象深刻的能力,這類工作近來受到了更多的關注。如圖2所示,根據是否調整參數,這些基于生成型LLM的方法可以進一步劃分為兩種范例:無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。

4.1 無調整范式

LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此,一些最近的研究假設LLMs已經具有推薦能力,并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐,以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例,這個范式中的研究主要屬于以下兩類:提示和上下文學習。

提示范例 這類工作旨在設計更適合的指示和提示,幫助LLMs更好地理解和解決推薦任務。Liu等人(2023a)系統地評估了ChatGPT在五個常見推薦任務上的表現,即評分預測,序列推薦,直接推薦,解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架,包括:(1)任務描述,將推薦任務適應為自然語言處理任務;(2)行為注入,將用戶-項目交互納入,幫助LLMs捕獲用戶的喜好和需求;(3)格式指示器,約束輸出格式,使推薦結果更容易理解和評估。同樣,Dai等人(2023)對ChatGPT在三個常見信息檢索任務(包括點對點,對對,和列表排序)上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示,并在提示的開頭引入了角色指示(例如,你現在是一個新聞推薦系統。)來增強ChatGPT的領域適應能力。除了提出一般框架外,有些工作專注于為特定推薦任務設計有效的提示。Sileo等人(2022)從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人(2023)介紹了兩種提升LLMs序列推薦能力的提示方法:以近期為重的序列提示,使LLMs能夠感知到用戶交互歷史中的序列信息,和引導法,將候選項目列表多次洗牌并取平均得分進行排名,以緩解位置偏見問題。由于LLMs允許的輸入token數量有限,很難在提示中輸入一個長的候選列表。為解決這個問題,Sun等人(2023)提出了一種滑動窗口提示策略,每次只在窗口中對候選項進行排序,然后以從后到前的順序滑動窗口,最后重復這個過程多次,以獲得總體排名結果。

除了將LLMs作為推薦系統,一些研究還利用LLMs來構建模型特征。GENRE [Liu等人,2023c]引入了三個提示,使用LLMs進行新聞推薦的三個特征增強子任務。具體來說,它使用ChatGPT根據摘要優化新聞標題,從用戶閱讀歷史中提取關鍵詞,并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征,傳統的新聞推薦模型可以得到顯著改善。類似地,NIR [Wang和Lim,2023]設計了兩個提示來生成用戶偏好關鍵詞,并從用戶交互歷史中提取代表性電影,以改進電影推薦。

在實踐中,除了排序模型外,整個推薦系統通常由多個重要組件組成,如內容數據庫、候選檢索模型等。因此,另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架,該框架通過多輪對話理解用戶需求,并調用現有推薦系統提供結果。此外,ChatGPT可以控制數據庫檢索相關內容以補充提示,并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架,并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說,這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力,提供了一種低成本且實用的解決方案。

4.2 調整范式

如上所述,LLMs具有強大的zero/few-shot能力,通過適當的提示設計,它們在推薦性能方面可以顯著超越隨機猜測。然而,僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此,許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中,我們按照[Wei等,2022]的分類,將調整方法的范式劃分為兩種不同類型,分別是提示調整和指令調整。具體而言,在提示調整范式下,LLMs的參數或軟提示針對特定任務進行微調,例如評分預測;而在指令調整范式下,LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而,目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。

5 發現

在本綜述中,我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略,特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而,需要注意的是,這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題,我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰,并呈現了進一步發展的潛在機會,包括模型偏見、提示設計和評估。

6 結論

本文回顧了大型語言模型(LLMs)在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型,并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆,我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知,我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述,進一步總結了許多相關研究中提出的共同發現和挑戰。因此,本調查為研究人員提供了寶貴的資源,幫助他們全面了解LLM推薦,并探索潛在的研究方向。

付費5元查看完整內容

生成預訓練變換器(GPT)在自然語言處理領域代表了一項顯著的突破,它正在推動我們向開發能夠以接近人類的方式理解和使用語言的機器發展。GPT基于變換器架構,這是一種為自然語言處理任務設計的深度神經網絡。由于它們在自然語言處理任務上的卓越表現以及有效的對話能力,GPT在研究者和工業界得到了顯著的關注,使它們成為自然語言處理及相關領域中最廣泛使用和最有效的模型之一,這促使我們進行了這項調研。這篇綜述為GPT提供了詳細的概述,包括它的架構、工作過程、訓練程序、啟用技術以及它對各種應用的影響。在這篇綜述中,我們也探討了GPT的潛在挑戰和限制。此外,我們討論了可能的解決方案和未來的方向。總的來說,這篇文章旨在提供對GPT、啟用技術、它們對各種應用的影響、新出現的挑戰以及潛在解決方案的全面理解。 1. 引言

語言是人類交流的基石,對于塑造我們與世界的互動起著至關重要的作用。隨著自然語言處理(NLP)的出現,我們與機器交互的方式發生了革命性的變化。NLP已經成為通信世界的游戲規則改變者,使人類能夠以更自然的方式與機器互動。NLP的發展受到了互聯網文本數據指數級增長的推動。多年來,NLP從簡單的基于規則的系統發展到復雜的基于深度學習的模型。盡管有了進步,但由于人類語言的復雜性,自然語言理解和生成一直是NLP領域的一個挑戰。然而,最近的進步為解決這些挑戰開辟了新的途徑。NLP的一項突破是GPT [1]的開發。GPT在OpenAI發布ChatGPT后走紅,OpenAI是一家專注于開發AI技術的研究公司[2]。GPT是一個深度學習模型,它在大量的文本數據上進行預訓練,可以針對特定的任務進行微調,如語言生成、情感分析、語言建模、機器翻譯和文本分類。GPT使用的變換器架構是對NLP以往方法的重大進步,如RNN和CNN。它使用自注意力機制,使模型在生成下一個詞時考慮整個句子的上下文,這提高了模型理解和生成語言的能力。解碼器負責根據輸入表示生成輸出文本[3]。 GPT能夠執行NLP中的廣泛任務。其主要優勢之一在于自然語言理解(NLU),其中它可以分析和理解文本的含義,包括識別句子中的實體和關系。它也擅長自然語言生成(NLG),這意味著它可以創建文本輸出,如創作創新內容或以全面且有信息性的方式回答問題。另外,GPT也是代碼生成器,可以編寫各種語言(如Python或JavaScript)的編程代碼。GPT也可以用于問答,這意味著它可以提供關于事實性主題的概括,或者根據輸入文本創作故事。此外,GPT可以總結一段文本,如提供新聞文章或研究論文的簡要概述,它也可以用于翻譯,使得能夠將文本從一種語言翻譯為另一種語言。總的來說,GPT能夠以高精度和準確度執行廣泛的NLP任務,使其成為各種行業(包括金融、醫療保健、市場營銷等)中的無價工具。隨著NLP技術的不斷進步,我們可以預見GPT和其他語言模型將變得更加復雜和強大,使我們能夠更自然、更有效地與機器交流。 **A. 動機 **

GPT已經成為NLP領域的一種變革性技術,推動了廣泛行業和應用的快速發展和增長。盡管GPT得到了廣泛的采用,并有許多潛在的應用,但關于GPT的能力仍有許多需要探索和理解的地方。盡管在與學術和圖書館[4]、教育[5]、GPT模型[6]、銀行和企業通信[7]、chatGPT及其版本的進步[8]、以及生成AI[9]相關的文獻中有關于GPT的研究,但并沒有現有的評論致力于對GPT進行全面的調查。因此,有必要進行一項全面的評論,重點是GPT的架構、啟用技術、潛在應用、新出現的挑戰、有趣的項目和未來的方向。這些限制促使我們進行了這項審查。因此,這篇審查不僅將幫助這個領域的研究者和實踐者更好地理解GPT,而且在進行研究時,還將提供關于其潛在應用和主要限制的寶貴見解。 在這篇關于GPT的綜述中,我們使用各種可靠的來源進行了深入的文獻審查。我們的搜索主要集中在經過同行評審的期刊,以及來自知名國內和國際會議、研討會、書籍、座談會和期刊的高質量文章。為了確保我們的來源的可信度,我們參考了像Google Scholar和arXiv這樣知名的檔案庫,以及來自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等頂級數據庫的出版物。為了找到相關的GPT引用和出版物,我們使用了如NLPGPT、GPT架構、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直應用等關鍵詞。然后,我們根據所有檢索到的文章的標題進行篩選,排除了任何質量較差的論文。接下來,我們審查了剩下的文章的摘要,以確定它們的貢獻。在我們的文獻審查的最后一步,我們提取了分析所需的必要數據。通過遵循這些步驟,我們確保了我們的研究基于高質量和可信的來源。

2. GPT

A. GPT演化

GPT模型經歷了NLP技術中的多次變化和突破。以下是GPT模型發展中的一些重大轉折點:在GPT之前,NLP模型已經在與特定任務相關的大量標注數據上進行了訓練。這有一個重大的缺點,因為很難獲得用于精確訓練模型所需的標注數據量。由于NLP模型被限制在特定的數據集上,所以它們無法完成訓練集以外的任務。為了解決這些限制,OpenAI提供了一個名為GPT-1的生成式語言模型,該模型使用未標記的數據創建,然后提供給用戶進行微調,以完成后續的任務,如情感分析、分類和問答[18]。這表明該模型試圖根據輸入產生適當的響應,而且用于訓練模型的數據沒有標記[19]。圖2顯示了從1960年創建的Eliza到2022年更為當前的ChatGPT,幾個預訓練模型的演變時間線。GPT-1是第一個能夠閱讀文本并回答查詢的模型[20]。OpenAI在2018年發布了GPT-1。GPT1是AI發展的一個重要步驟,因為它使計算機能夠比以前更自然地理解文本材料。這種生成性語言模型能夠學習各種各樣的連接,并在連續的文本和長篇大論的語料庫上獲得大量知識[21]。這發生在在大型BooksCorpus數據集上訓練之后。在設計方面,GPT-1使用一個12層解碼器架構的變換器,帶有自我注意機制進行訓練。GPT-1能夠在不同任務上執行零射擊性能,這是由于其預訓練而取得的一項重大成功。這種能力證明,當將生成性語言建模與成功的預訓練思想結合起來時,可以用來推廣模型。以TL為基礎,GPT模型發展成為一種強大的工具,可以在微調最少的情況下執行NLP任務[22]。它為其他模型使用更大的數據集和參數在生成性預訓練中取得更大的進步鋪平了道路[18]。

為了在2019年后期創建一個更好的語言模型,OpenAI使用更大的數據集和更多的參數創建了GPT-2。GPT-2的模型設計和執行是一些關鍵的進步[23]。它擁有15億個參數,是GPT-1(1.17億個參數)的10倍,它的參數和數據量也是GPT-1的10倍[21]。通過僅使用原始文本作為輸入,并利用很少或沒有訓練樣本,它在解決與翻譯、總結等相關的各種語言任務方面非常有效。在各種下游任務數據集上對GPT-2進行評估,發現它在識別長距離關系和預測句子方面表現出色,顯著提高了準確性[24]。最近的GPT模型迭代版本是GPT-3。這是由OpenAI創建的一個大型語言預測和生成模型,可以生成源文本的長篇段落。GPT-3最終成為OpenAI的突破性AI語言軟件。簡單來說,它是一種可以自己創建行的軟件,這些行非常獨特,幾乎聽起來像是由人類編寫的[25]。GPT-3程序目前通過云基礎設施API提供有限的訪問,需要訪問權限來調查其功能。自從它的首次亮相以來,它已經產生了一些有趣的應用。其容量約為1750億個參數,比GPT-2大100倍,這是一個關鍵優勢。它使用從大型內容存檔和互聯網收集的5000億詞的語料庫"Common Crawl"進行教學[26]。其其他值得注意和意想不到的能力是進行基本的數學運算,編寫代碼片段,和執行聰明的任務。因此,NLP模型可以通過更快地響應請求和精確地保持最佳實踐,同時減少人為錯誤,來幫助企業[27]。由于其復雜性和大小,許多學者和作家都將其稱為最終的黑箱AI方法。由于執行推理的高成本和不便,以及億參數的大小使其資源密集型,因此很難在工作中實踐[24]。GPT-4被命名為GPT-3的繼任者。與此同時,OpenAI已經秘密地發布了幾個基于GPT-3.5的AI模型,這是GPT-3的更新版本[28]。

GPT-3.5是在文本和代碼的混合上進行訓練的。它從互聯網收集的大量數據中學習了單詞、句子和各種組件之間的關系,這些數據包括成千上萬的維基百科條目、社交媒體帖子和新聞項目。OpenAI利用GPT-3.5開發了幾個定制的系統,以完成特定的工作[26]。它從網上收集了大量數據,包括成千上萬的維基百科條目、社交媒體帖子和新聞項目,并利用這些信息學習了句子、單詞和單詞組成部分之間的關系[29]。 OpenAI的GPT模型的最新版本是GPT-4,這是一個多模態的大型語言模型。它于2023年3月14日推出,并通過ChatGPT Plus向公眾提供有限的訪問。需要排隊等待獲得商業API的訪問權限[10]。GPT-4在預訓練階段,使用公共數據和“來自第三方供應商的許可數據”,預測下一個詞。然后,基于人類和AI的輸入,通過強化學習進行調整,以實現人類對齊和政策符合。與GPT-3的上下文窗口只有4096和2049個tokens不同,該團隊創建了兩個版本的GPT-4,其上下文窗口分別為8192和32768個tokens。

B. GPT模型架構

GPT模型基于用于NLP任務的神經網絡,如語言建模,文本分類和文本生成。GPT模型的架構基于變壓器模型[30]。Transformer模型使用自注意機制處理可變長度的輸入序列,使其非常適合NLP任務。GPT通過用解碼器塊替代編碼器-解碼器塊簡化了架構。GPT模型采用Transformer模型,并使用無監督學習技術在大量文本數據上進行預訓練。預訓練過程涉及預測序列中給定前面單詞的下一個單詞,這是一項稱為語言建模的任務。這種預訓練過程使模型能夠學習可以針對特定下游任務進行微調的自然語言表示[31]。

C GPT 模型如何工作

GPT模型通過使用Transformer這種神經網絡架構處理自然語言文本的輸入序列來工作[38]。GPT模型使用無監督學習技術在大量的文本輸入上預訓練這種Transformer架構[39]。在預訓練過程中,模型獲得了根據前面的詞預測序列中下一個詞的能力。語言建模是一種過程,使模型能夠發現訓練數據中詞與其上下文之間的統計關系。圖5展示了GPT操作的各個階段。第一步包括有監督的微調,第二步涉及對輸入產生最優反應,第三步涉及近似策略優化和強化學習。預訓練后,模型可以針對特定任務進行微調,如文本分類或文本生成。在微調過程中,模型在特定于手頭工作的較小數據集上進行訓練,并改變模型的參數以最大化該任務的性能[8]。圖3展示了GPT的一般Transformer架構。當用于文本生成時,GPT模型通過預測基于之前生成的詞的系列中的下一個詞來創建文本。根據其被修改的方式,模型可以生成與輸入文本相似的文本,或者符合某種主題或風格的文本。圖4展示了GPT模型的Transformer架構和用于微調不同任務的輸入變換。

D. GPT版本比較

GPT模型有幾個版本,每個版本都有自己的特性和功能。表III列出了各種GPT模型版本的比較。表中展示了以下細節,如GPT模型的發布年份、參數、生成的標記、輸入類型、每個模型的特性、每個模型的缺點,以及每個模型的大小。生成型AI(GAI)模型有不同的類型,如單模態、交叉模態和多模態。第一種類型是單模態,依賴于單一類型的輸入,如文本或圖像。另一方面,交叉模態可以處理多種類型的輸入并將它們關聯起來。多模態是最復雜的AI類型,因為它可以處理和整合來自多種模態的信息,如語音、文本、圖像,甚至是與環境的物理交互。GPT只采用單模態和多模態類型,其中ChatGPT被認為是單模態,而GPT-4是多模態。圖6是一個插圖,區分了單模態、交叉模態和多模態生成AI模型。 總的來說,GPT模型在NLP方面表現出了出色的性能,通過增強每一次迭代和其前身的能力。然而,每個模型也有自己的限制和缺點,如輸出控制的限制、缺乏多樣化的數據和倫理問題。在為特定任務選擇GPT模型時,研究者和開發者應謹慎考慮這些因素[40]。具體來說,本節描述了GPT的演變、架構,并比較了不同版本和類型的GPT。

III. 使能技術

GPT是多種技術的匯聚。它借助了最新的技術,如大數據、人工智能、云計算、EC、5G及以后的網絡,以及人機交互。在這一部分,我們將提供與GPT相關的啟用技術的概述。構成GPT模型的主要技術在圖7中展示。

IV. GPT模型對各種應用的影響

GPT已經取得了顯著的進步,它的影響正在教育、醫療保健、工業、農業、旅游和運輸、電子商務、娛樂、生活方式、游戲、市場營銷和金融等各個行業中被感知到。這一部分將提供有關GPT模型在上述應用中的影響的寶貴見解,如圖8所示。

本節將介紹使用GPT模型技術開發的用于上述部分中提到的不同應用的激動人心的項目。表IV,表V顯示了這些項目的不同級別,以及用于比較他們在許多實際應用中的能力的不同參數。

VI. 開放的研究問題和未來方向

本節強調了與實施和采用可持續GPT模型相關的各種開放研究問題。它還為GPT開發領域的研究人員提供了對未來研究方向的深入了解。圖9概述了在使用GPT模型時可能出現的許多問題,以及需要考慮的各種未來方法,以便有效地使用GPT模型。

VII.結論

GPT和其他大型語言模型的影響深遠而深刻。隨著這些技術的不斷發展和改進,它們有可能改變我們與技術和彼此互動的方式。從個性化推薦和客戶服務到語言翻譯和文本生成,可能性是無窮的。然而,就像任何技術一樣,必須解決可能出現的道德和社會問題。隨著我們越來越依賴這些語言模型,我們必須確保我們正在負責任地使用這些工具,并考慮它們對整個社會的影響。這包括與訓練模型所使用的數據偏見、保護隱私和安全、理解人類創造力的含義以及可能對就業和工作流動的影響等相關的挑戰。我們需要繼續評估和反思GPT和其他語言模型的影響,以確保它們的使用方式對整個社會都有益。通過這樣做,我們可以幫助確保這些技術被充分利用,同時最大程度地減少它們可能產生的任何負面影響。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。

//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e

1. 引言

諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。

最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。

為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。

我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。

我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:

我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力

我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新

我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力

2 參數化知識引導

在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。

**2.1 導引器的知識對齊 **

針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:

指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。

2.2 用PKG增強LLMs

在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:

3 實驗

在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。

付費5元查看完整內容

近年來,深度學習領域取得了重大進展,特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而,它的訓練過程極不穩定,對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高,大量研究在一定程度上探索了高效訓練領域,但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式,并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心",包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”,包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術,注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”,包括在資源受限情況下的一些獨特加速方法,例如對總迭代次數的限制; (5)“以系統為中心”,包括一些高效的分布式框架和開源庫,它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法,本文綜述了一個全面的回顧,以了解每個組件內的一般機制及其聯合交互。同時,對通用加速技術發展的未來工作進行了詳細的分析和討論,這些工作可以啟發我們重新思考和設計新的高效范式。總之,我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展,深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律,并表明更大的模型本質上需要大量的數據,在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如,Dehghani等人[44]提出了ViT-22B,該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后,GPT-3[18]在45TB數據樣本上訓練了175B參數,并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型,只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229],這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚,但為了保持實際效率,人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言,訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說,訓練GPT-3消耗大約355 GPU年,成本為460萬美元。在如此龐大的參數和數據樣本下,傳統的從零開始訓練顯然無法承受巨大的費用,特別是在擴展到下游任務[30,138,187,188,211,243]時,這將引入額外的架構和過多的參數。因此,預訓練-微調模式在深度學習領域日益受到關注

預訓練的主題是繼承遷移學習的范式,在一個通用的數據集上訓練一個通用的基礎模型,以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態),幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像,有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練,為下游任務產生了有希望的遷移性能。同樣,來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48],通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區,Radford等人[196]提出了生成式預訓練(GPT),通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率,GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習,在預訓練中可以顯著增強對知識的理解,在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明,使用預訓練可以提高模型的魯棒性和不確定性,對于在大型數據集上進行訓練表現出極大的優勢,泛化能力較好。最近的進展表明,從具有巨大容量的預訓練模型中獲得了實質性的收獲,特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向,即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴,極大地啟發了大數據的應用。同時,它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本,包括時間和金錢,嚴重阻礙了它的發展。在此背景下,本文介紹和總結了在大規模模型上加速訓練的通用和實用技術,這些技術促進了更快的訓練,也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術,主要包括引入了高效的預訓練模型,設計了新的加速組件,先進的優化方法,在NLP或CV社區上的高效訓練,以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作,并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型,主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧,討論了它們在每個不同社區的成果的最新研究進展,這些成果可能會給本地研究帶來新的思考。同時,系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型,并回顧了Transformer模型的幾種變體,這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展,介紹了Transformer模型的詳細演變,并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發,提出了一些提高Transformer模型訓練效率的策略,并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述,包括計算效率、存儲效率和硬件/算法協同設計。與它們不同,我們更關注基本的加速技術,不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐,以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展,包括新的優化器和策略,以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗,總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法,并討論了它們的效率和缺點。

近年來,高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展,但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下,本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧,這些技術獨立于任務或模型架構。從實踐效率的角度來看,我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度,高效的訓練需要更少的訓練時間。

在相似的訓練成本下,高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構,本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外,由于我們的調研是無任務和無模型的,因此提供了訓練加速技術的廣泛泛化,可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理,研究人員可以開發更快、更有效的模型,而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述,為機器學習領域做出了重大貢獻。 本文對解決一般的基本最小化問題很感興趣,可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同,本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件,這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中,省略了額外的近端項。在不損失通用性的情況下,使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中,我們總結了這些符號及其對應的研究領域。基于式(3),通過提煉和拆分組件的不同角色,將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析,以對當前用于訓練大規模模型的通用加速技術進行分類,并結合實際實現的可行性。具體來說,它們是:

以數據為中心的有效訓練。在深度學習中,全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高,盡管在早期階段表現有效。為了解決這個問題并提高泛化性能,以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性,從而在實際應用中具有更好的泛化性能。同時,為了實現有效加速并進一步提高模型的通用性,以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外,它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明,課程學習是一個循序漸進的過程,可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本,逐步恢復到高質量的樣本。總之,以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡,例如基于卷積的神經網絡(CNN),多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化,更多地關注DNNs的計算復雜性,以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說,架構近似側重于采用簡化的算子組合,以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率,也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態,可以有效地加快收斂速度,防止訓練過程在早期崩潰。總之,以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法,它具有很強的實用性,可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率,總結了三個主要因素,即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而,要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此,以學習率為中心的方法旨在開發高效和靈活的策略,以高效和穩定地訓練模型。第二個因素,批量大小,在優化中也起著關鍵作用。借助GPU設備的并行計算能力,特別是在計算資源充足的情況下,通過增加單個minibatch中的樣本數量可以提高訓練效率。因此,以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看,我們總是努力實現一個具有高穩定性的目標,這是以目標為中心的方法的主要關注點。這些方法專注于優化目標,提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述,以優化為中心的方法研究了訓練過程中的高效迭代計算,為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率,在這些場景中,計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練,同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練,研究人員和從業人員可以充分利用可用資源,避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發,這些模型更實用,更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現,能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯,以解決跨設備通信中的瓶頸,并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練,訓練過程被分布為更小的計算任務,在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架,如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練,并顯著減少了大規模深度學習模型的訓練時間。

總而言之,本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分,我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分,我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術,總結了它們的技術路線和每個組件的實現,有助于為無任務和無模型的高效訓練提供堅實的指導

比較了訓練加速中每個組件的優缺點,展示了它們的見解和互動,可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析,這可以為它們未來的發展提供指導

本調查的主要結構組織如下。在第2節中,介紹了一些初步工作,包括不同骨干中的基本模塊,以及對大規模深度學習模型、數據集的預訓練,以及本綜述中采用的詳細符號。在第3 ~ 6節中,基于迭代公式(3),從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中,我們討論和總結了本綜述中的技術,并提出了一些有前途的研究方向。

付費5元查看完整內容

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容
北京阿比特科技有限公司