大型語言模型(LLMs)以其卓越的能力徹底改變了自然語言處理。然而,由于計算資源有限、內存約束以及邊緣硬件異構性,將LLMs部署在資源受限的邊緣設備上面臨重大挑戰。本文綜述了邊緣LLMs在其生命周期中的最新發展,重點探討了從部署前技術到運行時優化的資源高效設計。此外,還探討了LLMs在個人、企業和工業場景中的設備端應用。通過總結最新進展并指出未來的研究方向,本綜述旨在為LLMs在邊緣設備上的部署提供全面的理解,彌合其巨大潛力與邊緣計算限制之間的差距。
基于Transformer的大型語言模型(LLMs)近年來取得了重大進展,徹底改變了自然語言處理(NLP)領域。隨著這一快速進步,多個開源LLM陸續涌現,包括Meta的Llama系列[5, 185, 186]、Mistral AI的Mistral系列[80, 81]以及Google的Gemma[180, 188]。LLM的成功歸因于其在自然語言理解和生成方面的卓越性能[44, 45, 230],這使得其在文本摘要[91, 94, 121]、問答任務[119, 143, 154]和代碼生成[103, 176, 205]等領域廣泛應用。這些應用在學術和工業領域產生了深遠影響,為ChatGPT[145]、Copilot[133]和Claude[12]等AI語言工具鋪平了道路。LLM的興起與成就代表了人工智能[107, 195, 250]、信息檢索[35, 108, 159]和人機交互[93, 197, 204]領域的重大飛躍。LLM的快速發展引發了在資源受限的邊緣設備上部署這些強大AI模型的需求,從智能手機[25, 156]和可穿戴設備[49]到智能家居助理[209]和工業物聯網(IoT)傳感器[207]。這種方法稱為邊緣LLM[41],需要將LLM直接部署在網絡邊緣的設備上,而不是依賴于集中式云服務器。這種方法的好處是多方面的。首先,邊緣計算使LLM可以本地執行,從而實現更快的響應和低延遲的分析[25, 148]。這種本地執行還允許LLM在沒有互聯網連接的情況下運行,使其非常適合在連接有限的區域中使用,例如關鍵基礎設施和需要即時決策的應用,如自動駕駛汽車和機器人[170, 175]。其次,將LLM部署在邊緣設備上可以增強隱私和安全性,因為敏感的用戶數據在設備內處理,避免了傳輸到云端所帶來的隱私泄露風險[51, 234]。最后,邊緣LLM通過設備端學習和自適應功能實現個性化用戶體驗。這種本地化的定制允許模型根據用戶的偏好、使用模式和特定場景調整其響應和功能,而無需犧牲隱私或頻繁的云同步[31, 251]。盡管有諸多優勢,但在資源受限的邊緣設備上部署LLM仍面臨多項重大挑戰。首先,計算和內存的限制對LLM的訓練和推理施加了巨大的限制。LLM計算密集且內存需求高,常常超出邊緣硬件的能力范圍。LLM中的自注意力機制需要大量的張量乘法運算,而這些運算在邊緣設備上執行速度較慢[169]。此外,這些模型的龐大內存占用通常超過了邊緣設備的可用RAM,使得無法加載整個模型[251]。其次,邊緣計算設備的異構性為LLM的設計、部署和跨設備優化帶來了巨大挑戰。邊緣設備從配備ARM處理器的智能手機到帶有專用低功耗芯片的物聯網設備不一而足,每種設備的處理能力各異。這種多樣性還體現在內存系統上,不同設備的緩存級別、RAM容量和存儲類型各不相同,直接影響LLM性能,因而需要針對設備的內存管理策略[97]。軟件環境同樣多樣化,不同的操作系統需要定制化的LLM框架[101]。跨設備優化必須解決如智能手機和筆記本電腦等設備之間的計算差異[24, 73],這需要資源感知的調度算法來動態分配計算資源,基于每臺設備的處理能力和能耗限制[63]。此外,硬件和軟件的協同設計必須使算法與各種硬件配置相匹配,要求對每個平臺的特性有深入了解,以實現有效的性能分析和硬件感知的推理實現[191]。最后,開發實際的邊緣應用程序,以彌合集中式LLM處理和分布式邊緣使用場景之間的差距也是一項重大挑戰。在個人和企業環境中,像AutoDroid[209]和GPTDroid[123]這樣的框架展示了將LLM集成到移動應用中的復雜性,同時保持任務自動化和圖形用戶界面(GUI)測試等任務的響應性和準確性。主要困難在于如何在不影響用戶體驗的情況下,在邊緣設備上高效部署復雜的LLM功能。此外,工業領域在將LLM與其他關鍵應用程序一起調度到邊緣節點時也面臨挑戰。在機器人和自動駕駛等工業領域[56, 175],需要復雜的調度算法來平衡LLM的計算需求與實時進程的要求。這需要動態的資源分配和任務優先級,以確保基于LLM的分析能夠補充而非阻礙關鍵功能。因此,開發者必須將LLM有效適應資源受限的設備,并適應各領域中動態的用戶行為。解決這些挑戰需要在整個應用部署生命周期中采用多方面的設計,如圖1所示。首先,為了在資源受限的邊緣設備上部署LLM,離線的預部署技術聚焦于開發更小、更高效的模型,這些模型在減少計算和內存需求的同時保留其功能。接下來,壓縮后的模型部署到邊緣設備上,在那里應用在線的運行時優化,以適應異構邊緣設備上的模型。最后,優化后的模型在各個不同領域的設備端應用中發揮作用,展示其實際價值。這個端到端的過程無縫集成了離線壓縮、在線優化和多樣化的應用開發,有效應對了LLM在邊緣設備上部署的關鍵挑戰,并展示了這些優化模型的現實應用潛力。為此,本綜述旨在全面探索在邊緣和移動設備上啟用大型語言模型(LLMs)所涉及的關鍵領域。如圖2所示,我們深入探討了三個關鍵方面:離線預部署模型設計技術、在線模型執行優化以及基于邊緣LLM的應用。我們旨在識別當前最先進的技術,找出研究空白,并提出未來在資源受限設備上部署LLM的研究方向,最終為創新的智能應用和服務鋪平道路。具體來說:
預部署技術。預部署技術包括各種模型壓縮方法,旨在減少模型大小,同時降低邊緣部署對內存和存儲的需求。關鍵方法包括量化、剪枝、知識蒸餾、低秩近似等。雖然這些方法已在傳統深度學習模型中取得了良好效果,但它們在LLM中的應用面臨著獨特的挑戰。LLM的規模、基于Transformer的架構以及在多種語言任務中保持性能的需求使得壓縮過程更加復雜[2, 219]。這些挑戰推動了針對LLM開發專門壓縮方法的研究。量化通過使用更少的比特來表示權重或激活值來減小LLM的大小[115, 164]。剪枝通過結構化或非結構化地移除不必要的模型組件以簡化模型[96, 215]。知識蒸餾將大模型中的知識傳遞給較小的模型,保留關鍵特性[82, 113]。此外,低秩近似通過利用矩陣中的固有冗余來壓縮大矩陣[71, 112]。其他方法,如復雜的預訓練技術、數據策劃策略以及架構優化,也有助于實現顯著的壓縮效果[136, 138, 180]。
運行時優化。運行時優化指的是直接在邊緣和移動設備上優化LLM的推理或微調過程。主要的優化指標包括系統響應速度、資源利用效率和計算負載。優化旨在通過各種方法增強LLM在邊緣設備上的性能,例如跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化以及硬件級優化。跨設備優化通過邊緣設備和云服務器之間的協作策略來提高整體系統響應速度并減少本地計算負載[24, 232]。資源感知調度則通過動態分配計算資源,提升效率并適應不同的工作負載[63, 148]。硬件-軟件協同設計將軟件算法與硬件能力對齊,使得硬件性能的分析更高效,并實現硬件感知的推理算法,從而提升整體系統效率[51, 191]。框架級優化使用專門的引擎來進行高效的內存管理和張量運算,減少內存占用并優化資源利用率[142, 251]。硬件級優化通過利用低功耗的NPUs和AI加速器,顯著提高能效并加速特定AI操作[87, 124]。
設備端應用。設備端應用是指直接在邊緣設備上實施和使用LLM的實際應用。這些應用涵蓋了多個領域,包括個人、企業和工業場景。在個人計算中,設備端LLM為AI助手提供支持,幫助完成上下文數據到文本生成以及日常生活中的復雜任務自動化[25, 95]。可穿戴設備也因設備端LLM受益,能夠實現自然語言接口進行數據搜索和常時AI輔助[49, 156]。在企業環境中,設備端LLM可增強軟件開發流程,例如自動化GUI測試和崩潰重現[74, 123]。此外,設備端LLM還能夠進行安全的本地化文檔處理和問答任務,確保辦公環境中的數據隱私[131, 151]。在工業領域,設備端LLM推動了機器人和人機交互的進步[56, 175],并且能夠進行輕量級文本識別和實時傳感器數據分析,提高運營效率和決策能力,廣泛應用于各種工業場景[42, 207]。 通過采用這些創新技術和方法,開發者能夠利用減少的模型大小和改進的計算效率,促進LLM在邊緣設備上的無縫集成。這不僅提升了邊緣計算的性能,還擴展了LLM在各種資源受限環境中的應用潛力,可能徹底改變邊緣AI應用的格局。本文的其余部分結構如下:第2節分析了LLM復雜性與邊緣設備能力之間的不斷擴大的差距,回顧了關于高效LLM和邊緣計算的相關工作,并分析了設備端LLM優化的研究趨勢,為本綜述奠定背景。第3節和第4節分別全面探討了離線預部署技術和在線運行時優化的最先進方法。第5節深入研究了LLM在設備端應用的廣闊潛力。第6節討論了設備端LLM領域的未來方向和開放性挑戰,而第7節總結了本綜述的關鍵結論和所獲得的見解。
為了補充這些努力,自然語言處理(NLP)領域的研究也取得了顯著進展。Xu和McAuley [218]回顧了提高預訓練語言模型壓縮和加速效率的方法。Hedderich等人[67]綜述了在低資源NLP環境中提升性能的方法。Wan等人[196]全面回顧了高效LLM的研究,將文獻劃分為模型中心、數據中心和框架中心的研究方法。Treviso等人[187]總結了在數據、時間、存儲或能量受限的條件下進行NLP的方法,強調了性能與資源消耗之間的權衡。雖然這些綜述為LLM優化提供了寶貴的見解,但它們并未專門解決邊緣和移動環境中的獨特約束。因此,迫切需要針對邊緣計算限制下LLM的高效實現和管理進行專門研究。 我們的綜述區別于這些工作,提供了LLM在邊緣和移動計算環境中的全面深入分析。兩個最相關的綜述是關于LLM的移動邊緣智能[155],主要側重于跨不同計算節點的協作資源管理,和個人LLM助手[111],探討了LLM助手在個人計算環境中的應用和場景。然而,前者未充分解決邊緣設備的低級別優化問題,后者缺乏對邊緣設備運行時優化的系統分析。為了彌合這一差距,我們從整體的、自上而下的角度探討了用于邊緣和移動設備的LLM,涵蓋了從離線預部署技術到在線運行時優化以及在各個領域中的設備端應用的整個優化流程。我們的分析不僅提供了對邊緣部署的LLM模型架構和推理/訓練范式的細致理解,還為基于Transformer架構的框架和硬件級優化提供了寶貴的見解。此外,我們探討了硬件-軟件協同設計策略,以增強LLM在資源受限設備上的性能。這種多方面的研究方法使我們的綜述與眾不同,提供了對LLM在邊緣設備上部署的挑戰和解決方案的全面分析,從高級架構考慮到低級框架和硬件優化。 如圖4所示,設備端LLM研究方向的時間分布清晰展示了從2019年到2024年的演變過程,分為三大類:預部署技術(藍色)、運行時優化(紫色)和設備端應用(綠色)。量化、剪枝、知識蒸餾和低秩近似等離線預部署技術在整個時間段內持續受到研究關注。在線運行時優化,包括跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化和硬件級優化,自2021年起獲得了顯著的發展。個人、企業和工業應用中的設備端應用在時間線的后半段尤為引人注目,表明了邊緣AI和移動LLM部署的日益增長的趨勢。該圖表突出了在優化和部署用于資源受限環境的LLM方面方法的快速發展和多樣化,反映了高效設備端AI在各個領域中日益重要的作用。我們的綜述綜合了這些發展,提供了關于設備端LLM部署的最新全面分析。通過這樣做,我們希望為研究人員和從業者提供一個堅實的基礎,以推動這一快速發展的領域的進一步進步。
大型語言模型(LLMs)的普及引發了在移動和邊緣設備上部署的需求激增,這一需求源于對增強隱私、降低延遲以及在連接受限環境中提高服務可用性的迫切要求。這種向邊緣計算轉變的范式為LLMs帶來了新的發展前景。然而,由于LLMs固有的計算復雜性和巨大的內存需求[52],這一過程面臨重大挑戰。因此,離線預部署技術成為了關鍵策略,旨在大幅減少LLMs的計算和內存占用,同時保持其性能完整性。這些技術在模型部署到目標邊緣設備之前應用,為在資源受限環境中的高效執行提供了保障。 如圖5所示,LLMs離線預部署方法的核心是模型壓縮,主要分為四類:量化、剪枝、知識蒸餾和低秩近似。除了這些核心技術外,其他創新方法也在離線預部署階段發揮著重要作用,進一步提升了模型的效率和性能。
我們已經討論了在預部署階段的離線優化技術,重點是預訓練小型模型。雖然這些方法可能無法完全在邊緣設備上執行,但它們生成的緊湊LLM適合高效部署。本節介紹了用于直接在邊緣設備上進行高效推理或微調的在線運行時優化方法。如圖7所示,LLM的運行時優化可分為五個主要方面。從自上而下的角度來看,包括跨設備優化、資源感知調度、框架級優化和硬件級優化。此外,硬件-軟件協同設計跨越了多個層次。
本綜述全面回顧了設備端LLM的最新進展和技術,這是一個快速發展的研究領域,旨在普及這些強大的AI模型。通過結構化的分類體系,我們系統地探討了優化LLM以便在資源受限設備上進行預部署和執行的兩種主要方法:離線預部署技術和在線運行時優化。此外,我們還分析了設備端LLM的多樣化應用,突出了其廣闊的潛力。展望未來,效率將是邊緣LLM發展的關鍵驅動力,推動創新并應對主要挑戰。本綜述為研究人員和從業者提供了寶貴的資源,奠定了進一步發展高效設備端LLM的堅實基礎,推動更具可訪問性和可持續性的AI解決方案的實現,進而釋放LLM的全部潛力,惠及更多用戶并支持更多樣化的應用。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
像GPT和LLaMA這樣的大型語言模型(LLM)以其復雜的能力正在革新AI行業。訓練這些模型需要龐大的GPU集群和大量的計算時間,在可擴展性、效率和可靠性方面帶來了重大挑戰。本綜述探討了LLM訓練系統的最新進展,包括在訓練基礎設施中使用AI加速器、網絡、存儲和調度的創新。此外,綜述還涵蓋了并行策略以及在分布式LLM訓練中針對計算、通信和內存的優化。它還包括在長時間訓練期間保持系統可靠性的方法。通過審視當前的創新和未來的方向,本綜述旨在為改進LLM訓練系統和應對持續的挑戰提供寶貴的見解。此外,基于傳統數字電路的計算系統在滿足LLM的計算需求方面面臨重大限制,突顯出諸如光學計算和光網絡等創新解決方案的必要性。
大型語言模型(LLM)正在變革AI行業,在個人助手[1]、代碼輔助[2]、芯片設計[3]和科學發現[4]等廣泛任務和應用中展示了卓越的能力。這場革命的成功建立在以GPT[5]、LLaMA[6]、Gemini[7]等為代表的前所未有規模的基于變壓器的LLM之上。此外,證據表明LLM的規模化尚未達到瓶頸[8]。這種趨勢顯著改變了基礎訓練系統和基礎設施的設計,因為LLM通常遵循相對固定的架構,其訓練獨占了龐大的GPU集群長達數月。例如,LLaMA-3的預訓練在Meta的生產集群上使用16K H100-80GB GPU耗時約54天[9]。
LLM訓練在可擴展性、效率和可靠性(“SER”)方面對當今的訓練系統和基礎設施提出了重大挑戰。可擴展性要求基礎設施和系統能夠無縫適應成千上萬的GPU或AI加速器的大型集群,同時保持訓練正確性和模型精度。這需要在硬件配置、網絡和訓練框架方面的創新解決方案。效率關注于最大化整個集群的資源利用率,通常以模型浮點運算(MFU)來衡量。實現高MFU涉及優化計算、最小化通信開銷以及在前所未有的規模上高效管理內存。可靠性對于LLM訓練至關重要,通常訓練持續數周到數月。系統必須保持一致的性能,并對各種類型的故障具有彈性,包括硬件故障、網絡問題和軟件錯誤。它應能快速檢測并從這些故障中恢復,而不會顯著喪失進度或訓練質量。這些相互關聯的挑戰需要系統和基礎設施設計的整體方法,推動大規模分布式計算的邊界,并為高性能機器學習系統的研究和創新開辟新途徑。
本綜述論文旨在全面概述LLM訓練系統和基礎設施的進展,解決上述挑戰。本綜述從分布式訓練基礎設施到訓練系統,涵蓋了GPU集群、高性能網絡和為LLM工作負載量身定制的分布式存儲系統的創新方法。我們還探討了分布式訓練系統的關鍵方面,包括提高可擴展性和效率的并行策略、計算、通信和內存優化。我們深入研究了提高訓練可靠性的容錯機制。通過綜合最近的進展并確定未來的研究方向,本綜述旨在為研究人員和實踐者提供對改進LLM訓練系統最有前景途徑的見解。我們的目標是提供一個有價值的資源,不僅解決當前的挑戰,還為大規模機器學習基礎設施的未來創新鋪平道路。
組織結構。圖1展示了本綜述的組織結構。第2節討論LLM架構、LLM訓練的特點和挑戰的背景信息。在第3節中,我們總結了訓練基礎設施的關鍵方面,包括AI加速器、網絡基礎設施和存儲系統。在第4節中,我們研究了分布式LLM訓練的并行方案。在第5節中,我們討論了利用前所未有的計算能力的計算優化。在第6節中,我們討論了LLM訓練中優化內存占用的技術。在第7節中,我們介紹了最小化通信開銷的通信優化。在第8節中,我們首先進行故障分析,然后介紹快速故障檢測和恢復的方法。最后,我們在第9節總結了本綜述。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
隨著大型語言模型(LLMs)的最新進展,結合LLMs與多模態學習的興趣日益增長。先前關于多模態大型語言模型(MLLMs)的綜述主要集中在理解方面。本綜述詳細闡述了不同領域的多模態生成,包括圖像、視頻、3D和音頻,并重點介紹了這些領域的里程碑式的顯著進展。具體來說,我們詳盡調查了這些方法背后的關鍵技術組件和研究中使用的多模態數據集。此外,我們深入探討了可以利用現有生成模型進行人機交互的工具增強型多模態代理。最后,我們還全面討論了人工智能安全的進展,并研究了新興應用及未來前景。我們的工作提供了對多模態生成的系統且深入的概述,預計將推動生成內容人工智能(AIGC)和世界模型的發展。所有相關論文的精選列表可以在//github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。
人與物理世界的互動涉及來自多種模態的信息,例如語言、視覺和音頻。因此,實現一個世界模擬器也需要模型能夠以靈活的方式感知和響應多模態信息。最近,OpenAI提出了一個基礎視頻生成模型Sora [1],能夠生成高度逼真的視頻作為世界模擬器。它在模擬或生成真實世界視頻方面取得了很大進展,但無法生成其他模態,如文本、3D和音頻。此外,它缺乏感知其他模態(如圖像、視頻、3D和音頻)的能力,使其成為一個無法全面理解的世界模擬器。
在過去的幾年中,研究人員專注于單一模態的生成并取得了很大的進展:在文本生成方面,我們見證了從BERT [2]、GPT1 [3]、GPT2 [4]、GPT3 [5]、GPT4 [6]到ChatGPT [7]、LLaMA [8]、[9]的定性飛躍,模型參數和訓練樣本數量迅速增長,導致模態能力和產品部署的不斷提升。在視覺生成領域,隨著擴散模型和大規模圖文數據集的快速進步,圖像生成取得了顯著成就,能夠根據各種用戶提供的提示文本合成高質量的圖像 [10]–[13]。隨后,通過視頻擴散模型和大規模視頻語言數據集,視頻生成領域也取得了重要進展,出現了許多開創性的工作,如 [14]–[22] 和Sora [1]。在3D生成方面,隨著CLIP [23]模型的出現,一些方法 [24]–[26] 嘗試將文本信息帶入3D表示的渲染圖像(即點云、網格、NeRF [27]和高斯投影 [28]),這些方法在文本到3D生成方面取得了顯著進展。此外,將Stable Diffusion (SD) [10]與文本到圖像渲染相結合,推動了一系列文本到3D生成的工作 [29]–[43]。強大的文本到圖像模型幫助3D生成實現了更高的性能和更好的結果。在音頻生成領域,一系列代表性工作涉及不同的音頻域,如 [44]–[46] 的文本到音頻、 [47]–[49] 的文本到音樂和 [50]–[55] 的文本到語音,它們在生成高質量的自然聲音、音樂和人類級語音方面取得了顯著的性能。
隨著大型語言模型(LLMs)的顯著進步,其他非文本模態開始利用LLMs的力量來增強其生成流程,或將文本生成與非文本生成集成到一個統一系統中,旨在實現更高級的功能和改進的生成性能。在圖像生成方面,有兩類方法與語言模型實現了顯著的整合。第一類方法涉及將視覺信息編碼為離散的令牌ID,試圖統一視覺理解與生成 [56]–[61]。具體來說,視覺信息被編碼為令牌表示,LLMs直接理解并生成視覺令牌,從而實現視覺理解與生成的同步。第二類方法專注于利用LLMs提升現有預訓練文本到圖像(T2I)模型的生成質量:一類工作涉及利用LLMs作為布局規劃器,結合對象的空間位置、數量和對象大小的知識,生成所需的邊界框 [62]–[66]。在獲得邊界框后,可以通過一個基于文本到圖像(T2I)模型生成圖像 [67]。另一種方法是利用LLMs擴展用戶輸入的提示 [68]:通過提供高度詳細和全面的用戶提示,LLMs通過豐富提示信息生成高質量的圖像。在LLMs的幫助下,視覺生成實現了更高的生成質量、改進的提示跟隨能力、對話功能和用戶友好界面。在視頻生成方面,LLMs作為統一的多模態聯合生成的通用骨干 [69]、[70],用于視頻布局規劃 [63]、[71]–[74] 和動態指導的時間提示生成 [75]–[79]。在3D生成和編輯方面,LLMs作為用戶與3D資產之間的橋梁,提高了交互效率 [80]、[81] 并幫助用戶理解 [82]、[83] 3D資產。在音頻生成和編輯方面,語言模型主要作為多模態音頻的協調骨干 [84]–[96],用于特定任務的條件器 [97]–[99],用于音頻理解的標簽器 [100]–[102],以及用于交互生成/編輯的代理 [103]–[108],并作為新方法的靈感來源 [47]、[48]、[53]、[109]–[111]。LLMs在音頻領域的日益廣泛使用不僅改變了我們與聲音和音樂互動的方式,還擴展了AGI與音頻技術交叉點的邊界。此外,多模態代理將多種模態整合到一個系統中,開發出一個能夠理解和生成非文本模態的通用系統。因此,LLMs在生成各種模式的內容中扮演著越來越不可或缺的角色。
為了賦能世界模擬器并推動多模態生成的發展,在這項工作中,我們對涉及LLMs在多模態生成中的工作及其在這一過程中的角色進行了全面回顧。如圖1所示,我們將LLMs的角色總結為幾個關鍵方面,如評估者、標注者、指令處理器、規劃者、語義指導的提供者或骨干架構。此外,我們在第9節討論了AIGC時代的重要安全問題,在第10節和第11節探討了新興應用和未來前景。
我們總結了我們的貢獻如下:
我們首先在第2節回顧了關于特定模態生成和LLMs的相關綜述。接著在第3節簡要回顧了代表性生成模型、多模態編碼器、Transformer和LLMs的基本技術。然后,我們在第4節、第5節、第6節、第7節和第8節分別回顧了基于LLMs的不同視覺模態的視覺生成,包括圖像、視頻、3D、音頻和多模態代理。最后,我們在第9節討論了生成式AI的安全性,并在第11節探討了基于LLMs的多模態生成領域的幾個潛在未來方向。
范圍
本綜述探討了多種模態的生成,包括圖像、視頻、3D模型和音頻。我們的多模態生成綜述涵蓋了不同模態的單獨生成以及多模態的聯合生成。我們不會深入探討純文本生成,因為已有許多綜述專門關注該領域的進展 [112]–[114]。我們的主要關注點是近年來大型語言模型的出現如何幫助生成其他視覺和音頻模態,特別是在開放域生成方面。這將有助于我們設計更好的多模態統一生成模型。具體來說,我們關注以下任務:
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。
//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習
在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。
不完整多模態學習
在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習
不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合
當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。
本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。
影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。
近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。
視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。
此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。
鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。
我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。
A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。
多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。
近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。
實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。
盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。
本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。
如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。
憑借廣泛的預訓練知識和高級通用能力,大型語言模型(LLMs)作為增強強化學習(RL)的一個有希望的途徑出現,在多任務學習、樣本效率和任務規劃等方面顯示出其潛力。在這篇綜述中,我們提供了一個關于LLM增強RL現有文獻的全面回顧,并總結了與傳統RL方法相比的特點,旨在明確研究范圍和未來研究的方向。利用經典的智能體-環境交互范式,我們提出了一個結構化的分類法,以系統地分類LLMs在RL中的功能,包括四個角色:信息處理器、獎勵設計師、決策者和生成器。另外,對于每個角色,我們總結了方法論,分析了被緩解的具體RL挑戰,并提供了對未來方向的洞見。最后,討論了LLM增強RL的潛在應用、前瞻性機會和挑戰。
強化學習(RL)是一種強大的學習范式,專注于控制和決策制定,其中智能體通過與環境的嘗試和錯誤交互學習優化指定目標。深度學習在自然語言處理(NLP)[1] 和計算機視覺(CV)[2] 等經典領域的最近成功,促成了深度強化學習的興起,深度強化學習將RL與高容量深度神經網絡近似器結合起來,使智能體能夠在復雜環境中做出決策。在游戲領域,深度強化學習算法在多種街機[3]、[4]、實時策略[5]、[6]、棋盤[7]、[8]以及非完全信息游戲[9]、[10]中實現了超越人類的決策能力。目前,強化學習的應用已擴展到機器人[11]、自動駕駛車輛[12]、醫療保健[13]和對話系統[14]等領域的現實世界任務中。
然而,當在涉及語言和視覺信息的現實世界應用中應用深度強化學習算法時,面臨著重大挑戰,因為智能體必須同時學習特征和控制策略。為了減輕視覺特征學習的負擔,參考文獻[15]將表示學習與強化學習解耦。為了處理涉及語言的任務,一項綜述[16]呼吁在RL中潛在使用NLP技術。盡管如此,當時語言模型的能力有限,以下四個挑戰仍未得到解決:1)樣本效率低:深度強化學習智能體需要與環境進行大量交互才能學習有效策略,這在數據收集昂貴或風險較高的場景中變得不切實際[17]、[18]、[19]。2)獎勵函數設計:策略學習的性能在很大程度上取決于獎勵函數的設計[20]。盡管獎勵函數的基礎性重要,但它們被認為難以設計[21]、[22],因為它們需要對任務有深入了解,且經常需要手動嘗試和錯誤[23]。3)泛化:深度強化學習智能體的泛化仍然令人望而卻步,因為它們經常難以適應新的、未見過的環境,限制了智能體在動態真實世界設置中的適用性[24]、[25]。4)自然語言理解:深度強化學習在自然語言處理和理解場景中面臨困難,人類語言的細微差別和復雜性帶來了獨特的挑戰,這些挑戰未被當前的RL方法充分解決[26]。
大型語言模型(LLMs)的近期出現標志著自然語言處理領域的重要里程碑,并在許多實際應用中展現了強大的能力,如醫藥[27]、化學[28]以及機器人的體現控制[29]。與小型語言模型相比,LLMs擁有小型語言模型所不具備的突現能力[30],例如上下文學習[31]、推理能力[32]等。此外,借助龐大的訓練數據,預訓練的LLMs裝備了廣泛的世界知識[33]。利用這些能力,語言模型的應用已從語言建模轉變為任務解決,范圍從基本的文本分類和情感分析到復雜的高級任務規劃[34]和決策制定[35]、[36]、[37]。
隨著LLMs的突現能力,最近LLMs解決RL固有挑戰的潛力開始受到關注[38]、[39]。LLMs尤其在自然語言理解、推理和任務規劃方面的能力,提供了解決上述RL問題的獨特方法。對于樣本效率低的問題,參考文獻[40]提出了一個框架,其中LLMs可以用來通過提供豐富、上下文信息豐富的預測或建議來提高RL智能體的樣本效率,從而減少對廣泛環境交互的需求。對于獎勵函數設計,LLMs可以幫助構建更細致和有效的獎勵函數,通過提供對復雜場景更深入的理解來增強學習過程[41]。對于泛化,參考文獻[42]提出了一個框架,該框架利用基于語言的反饋來提高RL策略在未見環境中的泛化。對于自然語言理解,Pang等[43]使用LLMs將復雜的基于自然語言的指令翻譯為簡單的任務指定語言以供RL智能體使用。這些工作表明,LLM是一個有前途和強大的角色,可以為長期存在的RL挑戰做出貢獻。
盡管將LLMs整合到RL范式中的領域取得了進步,但在這一迅速發展的領域目前顯著缺乏全面綜述。此外,盡管提出了各種方法將LLMs整合到RL范式中,但還沒有統一的框架進行這種整合。我們的綜述旨在填補這些空白,通過提供相關文獻的廣泛回顧,定義名為LLM增強RL的新范式的范圍,并進一步提出一個分類法來對LLMs在所提范式中的功能進行分類。
A. 貢獻
本綜述做出以下貢獻:
LLM增強RL范式:本文在整合LLM到RL范式的新興領域中提出了第一個全面綜述。為了明確研究范圍和未來工作的方向,我們定義了LLM增強RL這一術語來概括這類方法論,總結了特征并提供了一個相應的框架,清晰地說明了1)如何將LLMs整合到經典的智能體-環境互動中以及2)LLMs為傳統RL范式提供的多方面增強。
統一的分類法:進一步對LLM增強RL范式中LLMs的功能進行分類,我們提出了一個結構化的分類法,系統地將LLMs分類為信息處理器、獎勵設計者、決策者和生成器。通過這樣的分類,提供了一個清晰的視角,展示了LLMs如何整合到經典RL范式中。
算法回顧:對于LLM的每個角色,我們回顧了這一方向上的新興工作,并從能力的角度討論了不同的算法特性。基于這一基礎,分析了LLM增強RL的未來應用、機會和挑戰,以提供推進這一跨學科領域的潛在路線圖。
B. 文本組織余下的部分按以下方式組織。第二節提供了RL和LLM的基礎知識。第三節介紹了LLM增強RL的概念并提供了其整體框架。繼續,第四、五、六和七節深入分析了LLMs在RL上下文中的角色,探討了它們作為信息處理器、獎勵設計者、決策者和生成器的作用。最后,第八節討論了LLM增強RL的應用、機會和挑戰。最后,第九節總結了綜述。
大模型增強強化學習
強化學習(RL)智能體經常在實際應用中被賦予使用多模態信息做出穩健和深思熟慮決策的任務,無論是在馬爾可夫決策過程(MDP)設置中還是在特定任務描述的上下文中。例子包括設計用于在導航物理環境時遵循自然語言指令的機器人,或者具有用自然語言描述的任務的視覺游戲[68]、[69]、[70]。然而,對于傳統的RL方法來說,這是一個挑戰,因為智能體需要同時解釋復雜的多模態數據并在不斷變化的環境中優化控制策略[71]。這些挑戰還包括樣本效率低、制定能準確反映多模態輸入的獎勵函數的難度,以及在不同任務和設置中需要穩健泛化的需求。
大型語言模型(LLMs)的快速進步為這些挑戰提供了一個可行的解決方案,這得益于它們強大的自然語言理解和推理能力,以及最近在整合視覺數據處理方面的進展[72]。這種雙重能力使LLMs能夠有效地解釋和處理復雜的多模態信息,作為增強RL范式以適用于實際應用的強大助手。
然而,盡管LLMs具有強大的功能,當前的研究多種多樣,缺乏正確指定系統方法論的標準概念,這阻礙了這一領域研究的進步。因此,我們介紹了以下所謂的LLM增強RL的概念: LLM增強RL指的是利用預訓練、內含知識的AI模型的多模態信息處理、生成、推理等能力來協助RL范式的方法。
與傳統的基于模型的強化學習不同,LLM增強RL的一個關鍵特點是它利用了具有通用知識的模型,這意味著模型在學習過程開始時就具有相當水平的能力,并且與其他數據驅動模型相比具有更好的泛化能力。此外,LLM增強RL仍然使用AI模型,并且可以通過RL交互數據持續學習以提高其能力。
B. 框架
LLM增強RL的框架如圖2的中心所示,它建立在經典的智能體-環境互動范式之上。伴隨著嘗試和錯誤的學習過程,LLM處理狀態信息,重新設計獎勵,協助選擇行動,并在選擇行動后解釋策略。 具體來說,一方面,當智能體從環境接收狀態和獎勵信息時,LLM能夠處理或修改信息,以過濾不必要的基于自然語言的信息或設計適當的獎勵以加速學習過程,基于自然語言理解和推理能力。另一方面,當智能體基于觀察即將選擇一個行動時,LLM可以通過模擬世界模型或充當策略網絡來協助選擇行動過程,以基于建模能力和常識知識生成合理的行動。 此外,在選擇行動過程之后,綜合狀態、獎勵和行動信息,LLM可以解釋策略選擇背后的潛在可能原因,這有助于人類監督者理解進一步系統優化的場景。 基于LLM在框架中的功能,我們提取LLM增強RL的特性,并進一步將LLM在LLM增強RL中的四種不同角色細分為信息處理器、獎勵設計師、生成器和決策者,這將在下一小節中詳細闡述。
C. 特性
LLM增強RL范式增強了原始RL范式,具有以下特性:
多模態信息理解:LLMs增強了RL智能體對涉及多模態信息場景的理解,使它們能夠更有效地從用自然語言和視覺數據描述的任務或環境中學習。
多任務學習和泛化:受益于多學科預訓練知識,LLMs通過設計獎勵或生成參考行動,賦予RL智能體多任務學習和泛化的能力。
改善樣本效率:鑒于其固有的探索性質,RL范式需要大量樣本來學習。預訓練的LLM可以通過模擬增強數據生成或利用先驗知識來提高RL的樣本效率。
長期規劃處理:隨著軌跡長度的增加,由于信用分配問題,RL變得更具挑戰性。LLMs可以將復雜任務分解為子任務,協助RL智能體在更長的時間范圍內進行規劃,幫助在復雜的多步驟任務(如Minecraft游戲)中進行決策過程。
獎勵信號生成:基于上下文理解和領域知識,LLMs有助于獎勵塑形和獎勵函數設計,這有助于引導RL向有效的策略學習在稀疏獎勵環境中。
D. 分類 在本小節中,我們通過詳細說明它們的功能和它們解決的RL相應問題,展示LLMs在上述框架內的不同角色:
信息處理器:當觀察或任務描述涉及語言或視覺特征時,智能體同時理解復雜信息和優化控制策略變得具有挑戰。為了減輕智能體理解多模態數據的負擔,LLM可以作為環境信息或任務指令信息的信息處理器,通過1)提取有意義的特征表示以加速網絡學習;2)將基于自然語言的環境信息或任務指令信息翻譯為形式化的特定任務語言以降低學習復雜性。
獎勵設計師:在獎勵稀疏或難以定義高性能獎勵函數的復雜任務環境中,使用先驗世界知識、推理能力和代碼生成能力,LLM可以擔任兩種角色:1)隱式獎勵模型,根據環境信息提供獎勵值,通過訓練或提示;2)顯式獎勵模型,生成獎勵函數的可執行代碼,透明地指定基于環境規范和基于語言的指令或目標的獎勵標量的邏輯計算過程。
決策者:RL在探索長期環境時面臨樣本效率低和規劃的挑戰。通過擔任決策者,預訓練的LLMs可以執行:1)直接決策:使用強大的序列建模能力和常識知識來提高離線RL的樣本效率;2)間接決策:充當專家指導者,生成行動候選(高級任務規劃)以縮小行動選擇范圍或輸出參考策略以間接指導RL策略的更新方向。
生成器:基于模型的RL依賴于精確的世界模型來學習準確的環境動態并模擬高保真軌跡。此外,解釋性在RL中仍然是另一個重要問題。使用多模態信息理解能力和先驗常識推理能力,LLMs可以1)作為生成器在基于模型的RL中生成準確軌跡;2)在可解釋的RL中使用相關信息的提示生成策略解釋。
基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。
大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:
許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。
量化
量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。
剪枝
作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。
知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。
緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。
動態網絡
擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。
隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。
結論
在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。