AI智能體式編程是一種新興范式,其中大型語言模型(LLMs)能夠自主規劃、執行,并與編譯器、調試器和版本控制系統等外部工具交互,以迭代完成復雜的軟件開發任務。 與傳統(tong)的代(dai)碼(ma)生成工具不(bu)同(tong),智能(neng)(neng)體(ti)系統(tong)能(neng)(neng)夠分解高層(ceng)目標、協(xie)調多步流程,并基(ji)于中(zhong)間(jian)反饋自適(shi)應(ying)地調整其(qi)行為(wei)。這些能(neng)(neng)力正在(zai)改變軟件(jian)開(kai)發的實踐。隨著這一(yi)新(xin)興領(ling)域的快(kuai)速發展,有必要(yao)明確其(qi)研(yan)究范圍,夯(hang)實其(qi)技術(shu)基(ji)礎,并識別(bie)尚待(dai)解決的研(yan)究挑戰。
本綜述對 AI智能體式編程** 進行了(le)全面而及時的回顧。我(wo)們提出(chu)了(le)一個關于智(zhi)能體行為和(he)系統架構(gou)的分類法,并探討了(le)包括規(gui)劃(hua)、記憶與上下文管理、工具(ju)集成以及執行監控在內(nei)的核(he)心(xin)技術(shu)。我(wo)們還分析了(le)現有用于評估代碼智(zhi)能體性(xing)能的基準和(he)評價方法。**
我們的研究揭示了若干關鍵挑戰,包括:在處理長上下文方面的局限性、任務間缺乏持久性記憶,以及與安全性、用戶意圖對齊和與人類開發者協作相關的擔憂。同時,我們討論了在提高智能體系統的可靠性、適應性和透明性方面的前沿機遇。通過綜合近期進展并勾勒未來方向,本綜述旨在為構建下一代智能、可信賴的 AI編程智能體 提供研(yan)究與(yu)開發的基礎。
隨著大型語言模型(LLMs)的興起,軟件開發范式正在發生迅速變化 [73]。這些模型使人工智能(AI)系統不僅能夠生成代碼 [44],還能夠理解任務需求、與開發工具交互,并迭代地優化其輸出 [29, 43]。近期研究表明,軟件開發者如今已常規性地使用LLMs來輔助日常編碼任務 [30, 72, 73]。與傳統的代碼生成工具 [31] ——它們往往只針對單一提示返回靜態代碼片段——不同,新興的AI編程智能體被設計為能夠在動態的軟件環境中運行,通過執行迭代的、工具增強的任務來實現復雜目標。 這一轉變催生了一種新的編程范式,即 AI智能體式編程。在該(gai)范(fan)式中(zhong)(zhong),基于LLM的(de)(de)編(bian)程(cheng)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)可(ke)(ke)以自(zi)(zi)主地規劃、執行(xing)并(bing)優化軟件開發(fa)任(ren)務 [36, 42]。這些(xie)(xie)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)不僅(jin)僅(jin)是代碼(ma)(ma)補全(quan):它(ta)們可(ke)(ke)以根據自(zi)(zi)然語言(yan)規范(fan)生(sheng)成(cheng)完整的(de)(de)程(cheng)序或(huo)模塊,利用編(bian)譯器(qi)(qi)(qi)或(huo)測(ce)(ce)(ce)(ce)試(shi)反(fan)饋診斷并(bing)修復(fu)(fu)錯(cuo)誤(wu),編(bian)寫(xie)(xie)并(bing)執行(xing)測(ce)(ce)(ce)(ce)試(shi)用例(li),并(bing)對代碼(ma)(ma)進(jin)行(xing)重構以提(ti)升可(ke)(ke)讀(du)性或(huo)性能(neng)(neng)(neng)。它(ta)們還能(neng)(neng)(neng)夠(gou)調(diao)(diao)用并(bing)交互外(wai)部工(gong)具(ju),如編(bian)譯器(qi)(qi)(qi)、調(diao)(diao)試(shi)器(qi)(qi)(qi)、性能(neng)(neng)(neng)分(fen)析(xi)器(qi)(qi)(qi)或(huo)版本(ben)控制系(xi)統(tong),從(cong)而(er)支持(chi)端到端的(de)(de)軟件開發(fa)工(gong)作(zuo)流。 這種新興的(de)(de)編(bian)程(cheng)范(fan)式有潛力從(cong)根本(ben)上改變(bian)軟件的(de)(de)構建與維(wei)護方(fang)(fang)(fang)式。例(li)如,一(yi)個AI智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)可(ke)(ke)以從(cong)功(gong)能(neng)(neng)(neng)的(de)(de)自(zi)(zi)然語言(yan)描(miao)述出(chu)發(fa),逐步完成(cheng)代碼(ma)(ma)編(bian)寫(xie)(xie)、測(ce)(ce)(ce)(ce)試(shi)生(sheng)成(cheng)與運行(xing)、問題分(fen)析(xi)與修復(fu)(fu),直至(zhi)準備好一(yi)個pull request。一(yi)些(xie)(xie)最先(xian)進(jin)的(de)(de)編(bian)程(cheng)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)已展(zhan)示出(chu)在保(bao)持(chi)任(ren)務一(yi)致性、避(bi)免(mian)死鎖(suo)以及(ji)從(cong)失(shi)敗操作(zuo)中(zhong)(zhong)恢(hui)復(fu)(fu)的(de)(de)前(qian)提(ti)下,連續工(gong)作(zuo)數小(xiao)時的(de)(de)能(neng)(neng)(neng)力 [29, 42]。這些(xie)(xie)系(xi)統(tong)能(neng)(neng)(neng)夠(gou)生(sheng)成(cheng)和測(ce)(ce)(ce)(ce)試(shi)代碼(ma)(ma),在不同框架之間遷移軟件,調(diao)(diao)試(shi)運行(xing)時錯(cuo)誤(wu),并(bing)通過將復(fu)(fu)雜(za)目標分(fen)解為(wei)可(ke)(ke)管(guan)理(li)的(de)(de)子任(ren)務來集(ji)成(cheng)新特性 [34, 35]。這標志著從(cong)靜態的(de)(de)一(yi)次(ci)性AI代碼(ma)(ma)生(sheng)成(cheng)向交互式、迭代式、工(gong)具(ju)增強型工(gong)作(zuo)流的(de)(de)顯著轉(zhuan)變(bian)。 盡管(guan)進(jin)展(zhan)迅速,AI智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)式編(bian)程(cheng)仍(reng)(reng)處于早期階段。現有系(xi)統(tong)在架構、自(zi)(zi)主性、工(gong)具(ju)集(ji)成(cheng)以及(ji)推理(li)能(neng)(neng)(neng)力方(fang)(fang)(fang)面存(cun)在差異。目前(qian)尚無(wu)統(tong)一(yi)的(de)(de)分(fen)類體(ti)(ti)系(xi)、基準測(ce)(ce)(ce)(ce)試(shi)套(tao)件或(huo)評估(gu)方(fang)(fang)(fang)法。此外(wai),仍(reng)(reng)有多(duo)項關鍵挑戰亟待解決,包括提(ti)升可(ke)(ke)靠性 [73]、減(jian)少錯(cuo)誤(wu)或(huo)幻覺 [30]、處理(li)跨平臺與跨語言(yan)的(de)(de)任(ren)務 [81],以及(ji)確保(bao)這些(xie)(xie)系(xi)統(tong)在實際使(shi)用中(zhong)(zhong)安全(quan)可(ke)(ke)信 [54]。
AI編(bian)(bian)程智能(neng)(neng)(neng)體(ti)的(de)成功(gong)在很(hen)大程度上依賴于其(qi)與(yu)外部(bu)工具(ju)的(de)高(gao)效(xiao)交互能(neng)(neng)(neng)力(li)(li)。然(ran)而,當今(jin)的(de)編(bian)(bian)程語言、編(bian)(bian)譯器(qi)與(yu)調試器(qi)從根(gen)本上是面向人(ren)類的(de),它(ta)們(men)并(bing)非為自動化、自主(zhu)系統而設計。這(zhe)(zhe)些工具(ju)通(tong)常會(hui)抽象(xiang)掉內部(bu)狀(zhuang)態(tai)與(yu)決策過程,以(yi)(yi)提高(gao)可用性、保(bao)證(zheng)可移植(zhi)性并(bing)降低(di)人(ren)類用戶的(de)認知負擔 [129, 130]。雖然(ran)這(zhe)(zhe)種抽象(xiang)對人(ren)類開(kai)發(fa)者有益,但可能(neng)(neng)(neng)并(bing)不適合AI智能(neng)(neng)(neng)體(ti)。后者需要對內部(bu)狀(zhuang)態(tai)、轉換(huan)序列和驗(yan)證(zheng)邏輯進行細(xi)粒度、結構化的(de)訪(fang)問(wen),以(yi)(yi)便推(tui)理(li)其(qi)操作效(xiao)果 [33]。缺乏這(zhe)(zhe)種訪(fang)問(wen)能(neng)(neng)(neng)力(li)(li),AI智能(neng)(neng)(neng)體(ti)在診(zhen)斷失敗(bai)、理(li)解修改的(de)影響或(huo)以(yi)(yi)合理(li)方式恢復錯誤時會(hui)面臨困難。例如(ru),當代(dai)碼(ma)轉換(huan)導(dao)致(zhi)構建失敗(bai)時,智能(neng)(neng)(neng)體(ti)需要的(de)不僅(jin)僅(jin)是錯誤消息——它(ta)必須(xu)能(neng)(neng)(neng)夠追溯失敗(bai)的(de)具(ju)體(ti)中間步(bu)驟(zou),并(bing)理(li)解為何修改會(hui)引發(fa)該問(wen)題。現有開(kai)發(fa)環境并(bing)未(wei)提供支持這(zhe)(zhe)種迭代(dai)式、工具(ju)集(ji)成推(tui)理(li)的(de)接口與(yu)反(fan)饋機制。
同樣地,智能體編程系統極大地受益于支持迭代開發、狀態追蹤和豐富反饋傳播的工具鏈——而大多數傳統工具并未暴露這些能力。為了高效運行,AI智能體可能需要訪問編譯器的內部表示、轉換軌跡、符號信息以及執行元數據。這引出了一個根本性問題:在AI智能體式編程的時代,我們現有的編程語言和軟件開發工具是否仍然適用?抑或是時候重新思考編程語言、編譯器和調試器的設計,以將AI智能體視為開發過程中的一等參與者?
這(zhe)些(xie)挑(tiao)戰(zhan)表明,AI智(zhi)能(neng)體式編程(cheng)(cheng)并不僅僅是(shi)現有工(gong)具的(de)(de)(de)一種(zhong)新(xin)(xin)用法,而是(shi)一種(zhong)變(bian)革,它暴露(lu)出當(dang)今(jin)軟件系(xi)(xi)統(tong)設(she)計中的(de)(de)(de)重要缺(que)口。隨著該(gai)領域(yu)的(de)(de)(de)快速(su)發展(zhan),亟(ji)需澄(cheng)清其(qi)概(gai)念圖景、識別共(gong)性模式與(yu)系(xi)(xi)統(tong)架構,并評估當(dang)前開發生態(tai)的(de)(de)(de)適用性。此時正是(shi)回顧(gu)(gu)最新(xin)(xin)進展(zhan)、總結(jie)經(jing)驗(yan)并提出研(yan)究者與(yu)開發者需要解決的(de)(de)(de)關(guan)(guan)鍵問(wen)題的(de)(de)(de)最佳時機。 因(yin)此,本綜述(shu)旨在對AI智(zhi)能(neng)體式編程(cheng)(cheng)這(zhe)一新(xin)(xin)興領域(yu)進行(xing)全(quan)面回顧(gu)(gu)。具體而言,涵蓋以下幾個方(fang)面: * AI編程(cheng)(cheng)智(zhi)能(neng)體的(de)(de)(de)概(gai)念基礎(chu)與(yu)分(fen)(fen)類體系(xi)(xi); * 核心系(xi)(xi)統(tong)架構與(yu)底層技術的(de)(de)(de)綜述(shu); * 當(dang)前應用與(yu)實際使(shi)用案例的(de)(de)(de)總結(jie); * 評估策略與(yu)基準測試方(fang)法的(de)(de)(de)分(fen)(fen)析; * 關(guan)(guan)鍵挑(tiao)戰(zhan)與(yu)當(dang)前局(ju)限(xian)性的(de)(de)(de)討(tao)論; * 未來研(yan)究方(fang)向(xiang)的(de)(de)(de)探索(suo),包括跨編程(cheng)(cheng)語(yu)言、軟件工(gong)程(cheng)(cheng)、人工(gong)智(zhi)能(neng)與(yu)人機交(jiao)互等學科視(shi)角(jiao)的(de)(de)(de)交(jiao)叉融(rong)合。
我們主要(yao)聚焦(jiao)于(yu)由LLM驅動的(de)軟件開(kai)發智(zhi)能(neng)體系統,但其中許多(duo)見解同樣適用于(yu)一般的(de)任務型智(zhi)能(neng)體。我們的(de)目標是描繪當前研究版圖(tu),澄清基(ji)礎(chu)概念(nian),并支持設計出(chu)穩健、高效且值得信賴的(de)AI編程智(zhi)能(neng)體。
隨著(zhu)大語言模型(LLMs)推理能力的(de)持續提(ti)升,基(ji)于(yu)(yu)LLM的(de)智(zhi)能體(ti)(ti)系統(tong)(tong)(tong)在(zai)靈活性(xing)與(yu)可解釋性(xing)方面相較于(yu)(yu)傳統(tong)(tong)(tong)系統(tong)(tong)(tong)展現出(chu)明顯優勢(shi),因(yin)而受到越(yue)(yue)來越(yue)(yue)多的(de)關(guan)注。然(ran)而,盡(jin)管智(zhi)能體(ti)(ti)系統(tong)(tong)(tong)在(zai)學術研(yan)究和(he)工業應用中(zhong)都引發(fa)了廣泛(fan)興趣,這(zhe)類系統(tong)(tong)(tong)與(yu)傳統(tong)(tong)(tong)系統(tong)(tong)(tong)一(yi)樣,仍頻繁遭遇各類異(yi)常問(wen)題。這(zhe)些異(yi)常帶來了系統(tong)(tong)(tong)的(de)不(bu)穩定性(xing)與(yu)安全隱患,阻礙了其(qi)進一(yi)步發(fa)展。因(yin)此(ci),迫切需要一(yi)種(zhong)全面而系統(tong)(tong)(tong)的(de)智(zhi)能體(ti)(ti)系統(tong)(tong)(tong)運維(wei)方法。遺憾的(de)是,當前(qian)關(guan)于(yu)(yu)智(zhi)能體(ti)(ti)系統(tong)(tong)(tong)運維(wei)的(de)研(yan)究仍十(shi)分稀缺。為填(tian)補這(zhe)一(yi)空(kong)白,本文(wen)對智(zhi)能體(ti)(ti)系統(tong)(tong)(tong)的(de)運維(wei)問(wen)題展開了系統(tong)(tong)(tong)性(xing)調研(yan),旨在(zai)建立清晰的(de)研(yan)究框架,定義關(guan)鍵挑戰,并推動該領域(yu)的(de)進一(yi)步發(fa)展。
具體而言,本文首先系統地定義了智能體系統中的異常現象,并將其劃分為智能體內異常與智能體間異常兩大類。隨后,我們提出了一種新穎且全面的智能體系統運維框架,命名為Agent System Operations(AgentOps)。該框架涵蓋了四個關鍵階段:監控(monitoring)、異常檢測(anomaly detection)、根因分析(root cause analysis)與異常處理(resolution),并對每(mei)一階(jie)段進行了詳細的(de)定義與說明。
隨(sui)著 DeepSeek-R1 [35] 和(he) Claude [4] 等(deng)技(ji)術的(de)(de)(de)(de)(de)出現(xian),當前大語(yu)言模(mo)型(xing)(LLMs)的(de)(de)(de)(de)(de)推(tui)理能(neng)(neng)(neng)(neng)(neng)力(li)(li)正持(chi)續(xu)(xu)增強。借助LLMs這一(yi)(yi)強大的(de)(de)(de)(de)(de)認知引擎,現(xian)有的(de)(de)(de)(de)(de)基(ji)于LLM的(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong),尤其(qi)是多(duo)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong),已具備完成各種(zhong)復雜任(ren)務(wu)(wu)與(yu)社會模(mo)擬(ni)的(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li) [60],特(te)別是在(zai)(zai)(zai)配備多(duo)樣工(gong)具 [78] 的(de)(de)(de)(de)(de)情(qing)況(kuang)下(xia)。相比(bi)(bi)于傳統(tong)(tong)(tong)(tong)的(de)(de)(de)(de)(de)微(wei)(wei)服務(wu)(wu)架構系(xi)(xi)統(tong)(tong)(tong)(tong) [75],智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)在(zai)(zai)(zai)自動化程(cheng)度、可(ke)解釋(shi)性(xing)(xing)(xing)以(yi)及靈活(huo)性(xing)(xing)(xing)方面更具優(you)勢。因(yin)此,智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)在(zai)(zai)(zai)學術研究與(yu)工(gong)業(ye)應(ying)用(yong)中迅速發展,越(yue)來(lai)(lai)越(yue)多(duo)的(de)(de)(de)(de)(de)在(zai)(zai)(zai)線服務(wu)(wu) [50](如(ru)客戶支(zhi)持(chi)與(yu)推(tui)薦(jian)系(xi)(xi)統(tong)(tong)(tong)(tong))開始(shi)采用(yong)此類智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)。 然而,盡管智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)應(ying)用(yong)廣泛(fan),其(qi)本(ben)身仍存在(zai)(zai)(zai)諸多(duo)問(wen)題。與(yu)傳統(tong)(tong)(tong)(tong)微(wei)(wei)服務(wu)(wu)系(xi)(xi)統(tong)(tong)(tong)(tong)相比(bi)(bi),智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)所帶來(lai)(lai)的(de)(de)(de)(de)(de)更高(gao)靈活(huo)性(xing)(xing)(xing)也伴隨(sui)著更多(duo)異(yi)(yi)常(chang)(chang)。例如(ru),如(ru)圖1所示(shi),任(ren)務(wu)(wu)執行(xing)常(chang)(chang)因(yin)幻(huan)覺等(deng)問(wen)題而失敗;在(zai)(zai)(zai)角色扮演(yan)場景中,對單一(yi)(yi)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)攻擊可(ke)能(neng)(neng)(neng)(neng)(neng)導(dao)致整個(ge)模(mo)擬(ni)過程(cheng)崩潰。因(yin)此,為保障智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)的(de)(de)(de)(de)(de)安(an)全性(xing)(xing)(xing)與(yu)穩定(ding)性(xing)(xing)(xing),并推(tui)動其(qi)持(chi)續(xu)(xu)發展,亟需(xu)高(gao)效的(de)(de)(de)(de)(de)運維機制。 雖然運維技(ji)術經歷了(le)從(cong)早期的(de)(de)(de)(de)(de)人工(gong)操作,到基(ji)于規則(ze)的(de)(de)(de)(de)(de)方法(fa),再到人工(gong)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)運維(AIOps)的(de)(de)(de)(de)(de)演(yan)進,但智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)與(yu)傳統(tong)(tong)(tong)(tong)系(xi)(xi)統(tong)(tong)(tong)(tong)在(zai)(zai)(zai)本(ben)質上(shang)存在(zai)(zai)(zai)顯著差異(yi)(yi)。基(ji)于LLM驅動的(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)在(zai)(zai)(zai)行(xing)為特(te)性(xing)(xing)(xing)方面與(yu)硬編(bian)碼的(de)(de)(de)(de)(de)傳統(tong)(tong)(tong)(tong)系(xi)(xi)統(tong)(tong)(tong)(tong)截然不同,主要體(ti)(ti)(ti)(ti)現(xian)在(zai)(zai)(zai)以(yi)下(xia)幾點(dian): 1. 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)中異(yi)(yi)常(chang)(chang)類型(xing)更為多(duo)樣; 1. 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)對可(ke)觀測性(xing)(xing)(xing)的(de)(de)(de)(de)(de)要求高(gao)于傳統(tong)(tong)(tong)(tong)系(xi)(xi)統(tong)(tong)(tong)(tong),需(xu)特(te)別關注LLM等(deng)模(mo)塊; 1. 異(yi)(yi)常(chang)(chang)的(de)(de)(de)(de)(de)多(duo)樣性(xing)(xing)(xing)使(shi)得智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)難以(yi)采用(yong)統(tong)(tong)(tong)(tong)一(yi)(yi)的(de)(de)(de)(de)(de)方法(fa)進行(xing)異(yi)(yi)常(chang)(chang)檢測與(yu)根因(yin)分析; 1. 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)(xi)統(tong)(tong)(tong)(tong)中的(de)(de)(de)(de)(de)異(yi)(yi)常(chang)(chang)處理過程(cheng)更為復雜,需(xu)從(cong)多(duo)個(ge)視角進行(xing)考慮并持(chi)續(xu)(xu)優(you)化。
因此,傳統運維技術難以直接應用于智能體系統,亟需面向其特性的全新定制化運維技術。 目前,關于智能體系統運維策略的系統性研究仍相對匱乏,大多數研究僅關注智能體系統的某一局部方面,尚未全面探討其整體運維挑戰。例如,Durante 等人 [27] 對智能體的范式與分類進行了闡述;Chakraborty 等人 [12] 探討了基礎模型中的幻覺問題,包括其定義與檢測方法;Deng 等人 [24] 聚焦于多智能體系統中的安全問題,主要研究外部惡意攻擊,并將安全威脅劃分為執行內部安全與交互安全;Shi 等人 [85] 針對 GUI 智能體中的安全問題及評估方法也進行了深入探討。 為進一步推動智能體系統的發展,本文提出了智能體系統運維(Agent System Operations, AgentOps)的概念,這是一個專為智能體系統設計的全新運維框架。我們首先精確定義了智能體系統中的異常,并對其進行系統分類,主要劃分為智能體內異常(intra-agent anomalies)與智能體間異常(inter-agent anomalies)。這兩個類別涵蓋了智能體系統生命周期中的前執行階段、執行階段和后執行階段。此外,我們借鑒傳統運維實踐,將智能體系統的運維過程劃分為四個階段:監控(monitoring)、異常檢測(anomaly detection)、根因分析(root cause analysis)與異常處理(resolution)。針對每(mei)一階段,我們(men)識別了智能(neng)體系(xi)統(tong)中所面臨的(de)(de)新挑戰,并提出了相應(ying)的(de)(de)定義與(yu)潛(qian)在解決方案。據我們(men)所知,這(zhe)是首(shou)個(ge)系(xi)統(tong)性提出“AgentOps”概(gai)念,并標準化其各個(ge)流(liu)程定義的(de)(de)工作。
大型(xing)語(yu)言模(mo)型(xing)(LLMs)在處理通用(yong)知識(shi)任務方(fang)面(mian)表現出(chu)色,但在用(yong)戶(hu)(hu)個(ge)(ge)性(xing)化需(xu)求方(fang)面(mian)存在挑戰,如理解(jie)個(ge)(ge)人情感(gan)、寫作風格和(he)偏好(hao)(hao)。個(ge)(ge)性(xing)化大型(xing)語(yu)言模(mo)型(xing)(PLLMs)通過利用(yong)個(ge)(ge)體用(yong)戶(hu)(hu)數據,例如用(yong)戶(hu)(hu)資料、歷史對(dui)話、內容和(he)互動,解(jie)決了這些問題,以(yi)提(ti)(ti)供在上(shang)(shang)(shang)下文(wen)上(shang)(shang)(shang)相關且量身(shen)定制的(de)(de)(de)回(hui)答,滿足每個(ge)(ge)用(yong)戶(hu)(hu)的(de)(de)(de)特(te)定需(xu)求。這是一(yi)個(ge)(ge)極具價值的(de)(de)(de)研(yan)究(jiu)(jiu)課題,因為(wei)PLLMs可以(yi)顯著提(ti)(ti)升(sheng)用(yong)戶(hu)(hu)滿意度,并(bing)在對(dui)話代理、推薦(jian)系統、情感(gan)識(shi)別、醫療助手等領域具有(you)廣泛的(de)(de)(de)應用(yong)。 本(ben)綜述(shu)從(cong)三個(ge)(ge)技術角度回(hui)顧了個(ge)(ge)性(xing)化大型(xing)語(yu)言模(mo)型(xing)(PLLMs)的(de)(de)(de)最新(xin)(xin)進展(zhan):針(zhen)對(dui)個(ge)(ge)性(xing)化上(shang)(shang)(shang)下文(wen)的(de)(de)(de)提(ti)(ti)示(shi)設計(輸入層)、個(ge)(ge)性(xing)化適配器的(de)(de)(de)微調(模(mo)型(xing)層)以(yi)及個(ge)(ge)性(xing)化偏好(hao)(hao)的(de)(de)(de)對(dui)齊(目標層)。為(wei)了提(ti)(ti)供更深入的(de)(de)(de)洞察,我們還討(tao)論了當前的(de)(de)(de)局限(xian)性(xing),并(bing)概述(shu)了未來研(yan)究(jiu)(jiu)的(de)(de)(de)幾(ji)個(ge)(ge)有(you)前景的(de)(de)(de)方(fang)向。有(you)關本(ben)綜述(shu)的(de)(de)(de)最新(xin)(xin)信息,請訪問Github倉庫(ku)。
1 引言
近年來,像GPT、PaLM、LLaMA、DeepSeek及(ji)其(qi)變種等大型語(yu)言(yan)模型(LLMs)取(qu)得了(le)顯著進(jin)展。這些模型展現(xian)了(le)卓(zhuo)越的(de)多功(gong)能性,在各種自然語(yu)言(yan)處理任(ren)務中取(qu)得了(le)最(zui)先進(jin)的(de)表現(xian),包括問答(da)、推理和(he)機器(qi)翻(fan)譯 [Zhao et al., 2023],且(qie)幾乎(hu)不需要針對特定任(ren)務的(de)適應。
個性化LLMs(PLLMs)的必要性
雖然LLMs在通用知識和多領域推理方面表現出色,但它們缺乏個性化,導致在用戶特定理解至關重要的場景中遇到挑戰。例如,對話代理需要適應用戶的偏好語氣,并結合過去的互動,提供相關的個性化回應。隨著LLMs的發展,集成個性化能力已成為推動人機交互在多個領域發展的一個有前景的方向。 技術挑戰
盡管個性化LLMs具有巨大潛力,但個性化過程中仍面臨若干挑戰。這些挑戰包括如何高效地表示和整合多樣化的用戶數據、解決隱私問題、管理長期用戶記憶、適應用戶的多樣化需求以及應對用戶行為的變化 [Salemi et al., 2023]。此外,實現個性化通常需要在準確性和效率之間找到平衡,同時解決偏見問題并保持生成結果的公平性。 貢獻
盡管個性化LLMs日益受到關注,但該領域缺乏一篇系統性的綜述文章來整合最新的研究進展。本文旨在填補這一空白,通過系統地組織現有的PLLMs研究,并提供對其方法論和未來方向的深入見解。本文的貢獻可以總結如下:(1)結構化分類法:我們提出了一種全面的分類法,從技術角度對現有的PLLMs構建方法進行分析。(2)全面綜述:我們系統地回顧了PLLMs的最先進方法,分析了各個方法的特點和優缺點。
2 預備知識
大語言模型 大語言模型(LLMs)通常指利用Transformer架構并配備數十億參數的模型,這些模型在數萬億文本標記上進行訓練。這些模型在自然語言理解和生成任務中表現出顯著改進,越來越多地證明其在輔助人類活動中的益處。在本報告中,我們主要關注自回歸LLMs,它們基于兩種主要架構:僅解碼器模型和編碼器-解碼器模型。編碼器-解碼器模型如Flan-T5和ChatGLM通過編碼器分析輸入以獲取語義表示,使其在語言理解和生成方面表現出色。僅解碼器LLMs專注于從左到右的生成,通過預測序列中的下一個標記,許多實例在此范式下實現了指令跟隨和推理等高級能力的突破。 然而,這些模型通常在通用數據上進行預訓練,缺乏對特定用戶信息的理解。因此,它們無法生成適應用戶獨特品味、偏好和期望的響應,限制了其在需要用戶特定適配的個性化應用中的有效性。 問題陳述 個性化大語言模型(PLLMs)生成與用戶風格和期望一致的響應,為不同用戶提供多樣化的答案。PLLMs定義為不僅基于輸入查詢qq,還基于用戶uu的個性化數據CuCu生成響應的LLMs。其目標是預測給定查詢qq和個性化上下文CuCu的最可能響應序列yy,即:y=argmaxyP(y∣q,Cu)y=argmaxyP(y∣q,Cu)。個性化數據CuCu可能包含用戶偏好、歷史、上下文和其他用戶特定屬性的信息。這些信息可以包括(圖1): 檔案/關系:用戶檔案,包括屬性(如姓名、性別、職業)和關系(如朋友、家人),例如Cu={A,18,學生,朋友{B,C,D}… }Cu={A,18,學生,朋友{B,C,D}…}。 歷史對話:歷史對話,如用戶uu與LLM互動的問答對(例如Cu={(q0,a0),(q1,a1),…,(qi,ai)}Cu={(q0,a0),(q1,a1),…,(qi,ai)}),其中每個qiqi是查詢,aiai是相應的答案。 歷史內容:包括用戶uu的文檔、先前評論、評論或反饋。例如,Cu={1喜歡Avtar因為…,… }Cu={1喜歡Avtar因為…,…}。 歷史互動:包括用戶uu的歷史互動、偏好、評分。例如,Cu={指環王:5,星際穿越:3… }Cu={指環王:5,星際穿越:3…}。 通過整合個性化數據,PLLMs增強了傳統LLMs,改進了響應生成、推薦和分類任務。 注意,我們的報告與角色扮演相關的LLM個性化有顯著不同。雖然角色扮演側重于在對話中模仿角色,但本報告中的PLLMs側重于理解用戶的上下文和偏好,以滿足其特定需求。與強調廣泛類別的[29]相比,我們的工作提供了增強PLLM效率和性能技術的系統性分析,并提供了更詳細的技術分類。 提出的分類法 我們提出了一個從技術角度出發的分類法(如圖1和圖2所示),將個性化大語言模型(PLLMs)的方法分為三個主要層面:(1)輸入層面:個性化提示側重于處理用戶特定數據并將其注入模型。(2)模型層面:個性化適配強調設計框架以高效微調或適配模型參數以實現個性化。(3)目標層面:個性化對齊旨在優化模型行為以有效對齊用戶偏好。由于篇幅限制,分析論文、數據集和基準測試總結在Github Repo中。 3 個性化提示
提示工程作為用戶與LLMs之間的交互橋梁。在本報告中,提示涉及使用各種技術引導LLM生成期望的輸出,從傳統文本提示到軟嵌入等高級方法。軟嵌入不僅可以通過輸入擴展,還可以通過交叉注意力或調整輸出logits實現,從而實現更靈活和上下文敏感的響應。 該框架可以表示為,對于每個用戶uu:
其中,fLLMfLLM是生成響應的LLM模型;??是從用戶個人上下文CuCu中提取相關上下文的函數;⊕⊕表示將查詢qq和相關個性化上下文?(Cu)?(Cu)結合的組合運算符,為LLM生成豐富的信息。 檔案增強提示 檔案增強提示方法明確利用總結的用戶偏好和檔案的自然語言來增強LLMs的輸入(??是總結器模型)。圖3(a)展示了該方法的示意圖。 非調優總結器:凍結的LLM可以直接用作總結器,以總結用戶檔案,因其具有強大的語言理解能力,即?(Cu)=fLLM(Cu)?(Cu)=fLLM(Cu)。例如,_Cue-CoT_使用思維鏈提示進行個性化檔案增強,利用LLMs從歷史對話中提取和總結用戶狀態(如情感、個性和心理)。_PAG_利用指令調優的LLMs基于歷史內容預總結用戶檔案。這些總結離線存儲,從而在滿足運行時約束的同時實現高效的個性化響應生成。_ONCE_提示閉源LLMs從用戶的瀏覽歷史中總結主題和興趣區域,增強個性化推薦。 調優總結器:黑箱LLMs對輸入噪聲(如離題總結)敏感,難以提取相關信息。因此,訓練總結器以適應用戶偏好和風格至關重要。_Matryoshka_使用白箱LLM總結用戶歷史,類似于PAG,但微調總結器而不是生成器LLM。_RewriterSIRI_重寫查詢qq而不是連接總結,通過監督學習和強化學習進行優化。 _CoS_是一個特殊情況,假設一個簡短的用戶檔案?(Cu)?(Cu),并通過比較有和沒有檔案的輸出概率來放大其在LLM響應生成中的影響,從而在不微調的情況下調整個性化。 檢索增強提示 檢索增強提示[8, 10, 11]擅長從用戶數據中提取最相關的記錄以增強PLLMs(見圖3(b))。由于用戶數據的復雜性和體量,許多方法使用額外的記憶來實現更有效的檢索。常見的檢索器包括稀疏檢索器(如BM25 [21])和密集檢索器(如Faiss [23], Contriever [24])。這些方法有效地管理了LLM上下文限制內不斷增長的用戶數據量,通過整合用戶個性化數據中的關鍵證據來提高相關性和個性化。 3.2.1 個性化記憶構建 這部分設計了保留和更新記憶的機制,以實現高效檢索相關信息。 非參數記憶:此類記憶維護一個基于標記的數據庫,以原始標記形式存儲和檢索信息,而不使用參數化向量表示。例如,_MemPrompt_和_TeachMe_維護基于字典的反饋記憶(錯誤和用戶反饋的鍵值對)。MemPrompt側重于基于提示的改進,而TeachMe強調通過動態記憶進行持續學習,隨時間適應。_Mal.P_進一步整合了多種記憶類型,利用工作記憶進行即時處理,短期記憶(STM)進行快速訪問,長期記憶(LTM)存儲關鍵知識。 參數記憶:最近的研究將個性化用戶數據參數化并投影到可學習空間中,參數記憶過濾冗余上下文以減少噪聲。例如,_LD-Agent_維護具有獨立短期和長期庫的記憶,將長期事件編碼為通過可調模塊精煉的參數向量表示,并通過基于嵌入的機制進行檢索。_MemoRAG_采用不同的方法,利用輕量級LLM作為記憶來學習用戶個性化數據。它不維護用于檢索的向量數據庫,而是生成一系列標記作為草案以進一步指導檢索器,提供更動態和靈活的檢索增強方法。 3.2.2 個性化記憶檢索 個性化檢索器設計的關鍵挑戰在于選擇不僅相關而且具有代表性的個性化數據用于下游任務。_LaMP_研究通過兩種機制(提示內增強(IPA)和解碼器內融合(FiD))檢索的個性化信息如何影響大語言模型(LLMs)的響應。_PEARL_和_ROPG_同樣旨在通過個性化生成校準指標增強檢索器,提高檢索文檔的個性化和文本質量。同時,_HYDRA_訓練一個重排序器,從頂部檢索的歷史記錄中優先選擇最相關的信息以增強個性化。 軟融合提示 軟提示與檔案增強提示不同,它將個性化數據壓縮為軟嵌入,而不是將其總結為離散標記。這些嵌入由用戶特征編碼器??生成。 在本報告中,我們概括了軟提示的概念,表明軟嵌入不僅可以通過輸入集成,還可以通過交叉注意力或調整輸出logits集成,從而實現更靈活和上下文敏感的響應(見圖3(c))。 輸入前綴:軟提示作為輸入前綴,專注于嵌入級別,通過將查詢嵌入與軟嵌入連接,通常應用于推薦任務。_UEM_是一個用戶嵌入模塊(變換器網絡),生成基于用戶個性化數據的軟提示。_PERSONA_通過采用重采樣增強UEM,根據相關性和重要性選擇用戶互動的子集。_REGEN_通過協作過濾和項目描述結合用戶-項目互動的項目嵌入,使用軟提示適配器生成上下文個性化的響應。_PcaPOD_通過將用戶偏好提煉為有限的一組可學習的動態加權提示來個性化軟提示。與之前提到的方法不同,這些方法側重于直接嵌入用戶互動或重采樣相關數據,PcaPOD通過加權共享提示集來適應用戶興趣。 交叉注意力:交叉注意力使模型能夠通過允許其關注個性化數據和查詢來處理和整合多個輸入源。_User-LLM_使用自回歸用戶編碼器通過自監督學習將歷史互動轉換為嵌入,然后通過交叉注意力集成。該系統采用聯合訓練來優化檢索器和生成器以獲得更好的性能。_RECAP_利用為對話域設計的層次變換器檢索器獲取個性化信息。該信息通過上下文感知前綴編碼器集成到響應生成中,提高了模型生成個性化、上下文相關響應的能力。 輸出Logits:_GSMN_從個性化數據中檢索相關信息,將其編碼為軟嵌入,并與查詢向量在注意力中使用。之后,生成的嵌入與LLM生成的嵌入連接,修改最終logits以生成更個性化和上下文相關的響應。 討論 三種提示方法各有優缺點:1)檔案增強提示通過壓縮歷史數據提高效率,但存在信息丟失和個性化降低的風險。2)檢索增強提示提供豐富的上下文感知輸入,適用于長期記憶,但可能受計算限制和無關數據檢索的影響。3)軟提示高效嵌入用戶特定信息,捕捉語義細微差別而不冗余,但僅限于黑箱模型,缺乏明確的用戶偏好分析。總體而言,基于提示的方法高效且適應性強,能夠以最小的計算開銷實現動態個性化。然而,它們缺乏更深入的個性化分析,因為它們依賴于預定義的提示結構來注入用戶特定信息,并且由于提示范圍狹窄,訪問全局知識的能力有限。 4 個性化適配
PLLMs需要在微調的深度適應性和提示的效率之間取得平衡。因此,需要專門為PLLMs設計的方法,利用參數高效微調方法(PEFT),如LoRA [Hu et al., 2021, Yang et al., 2024], IA3 [Liu et al., 2022]等(見圖4)。 一個PEFT適用于所有用戶 該方法使用共享的PEFT模塊對所有用戶的數據進行訓練,消除了每個用戶單獨模塊的需求。共享模塊的架構可以進一步分類。 單一PEFT:_PLoRA_和_LMP_利用LoRA進行LLM的PEFT,分別通過用戶嵌入和用戶ID注入個性化信息。PLoRA進一步擴展并支持冷啟動場景的在線訓練和預測。_UserIdentifier_使用靜態、不可訓練的用戶標識符來調節模型對用戶特定信息的條件,避免了可訓練用戶特定參數的需求,降低了訓練成本。_Review-LLM_將用戶的歷史行為和評分聚合到提示中以引導情感,并利用LoRA進行高效微調。然而,這些方法依賴于具有固定配置的單一架構(如隱藏大小、插入層),使其無法存儲和激活多樣化的個性化信息[Zhou et al., 2024]。為了解決這個問題,_MiLP_利用貝葉斯優化策略自動識別應用多個LoRA模塊的最佳配置,從而實現高效和靈活的個性化。 專家混合(MoE):幾種方法使用LoRA模塊,但所有用戶使用靜態配置。這種缺乏參數個性化限制了適應用戶動態和偏好變化的能力,可能導致次優性能[Cai et al., 2024]。_RecLoRA_通過維護一組并行、獨立的LoRA權重并采用軟路由方法聚合元LoRA權重來解決這一限制,從而實現更個性化和自適應的結果。類似地,_iLoRA_創建了一組多樣化的專家(LoRA)以捕捉用戶偏好的特定方面,并生成動態專家參與權重以適應用戶特定行為。 共享PEFT方法依賴于集中式方法,其中用戶特定數據被編碼到集中式LLMs的共享適配器中。這限制了模型提供深度個性化體驗的能力。此外,使用集中式模型通常要求用戶與服務提供商共享個人數據,引發了對這些數據的存儲、使用和保護的擔憂。
每個用戶一個PEFT
為每個用戶配備用戶特定的PEFT模塊使LLM部署更加個性化,同時保護數據隱私。然而,挑戰在于確保在資源有限的環境中高效運行,因為用戶可能缺乏足夠的本地資源來執行微調。 無協作:此類別中適配器之間或學習過程中沒有協作或協調。_UserAdapter_通過前綴調優個性化模型,為每個用戶微調唯一的前綴向量,同時保持底層變換器模型共享和凍結。_PocketLLM_利用基于MeZo [Malladi et al., 2023]的無導數優化方法,在內存受限的移動設備上微調LLMs。_OPPU_為每個用戶配備一個LoRA模塊。 協作努力:沒有協作的“每個用戶一個PEFT”范式在計算和存儲方面非常密集,特別是對于大型用戶群。此外,個人擁有的PEFTs阻礙了社區價值,因為個人模型無法輕松共享知識或從協作改進中受益。_PER-PCS_通過跨用戶共享一小部分PEFT參數實現高效和協作的PLLMs。它首先將PEFT參數劃分為可重用的部分,并存儲在共享池中。對于每個目標用戶,從其他用戶自回歸選擇部分,確保可擴展性、效率和個性化適配,而無需額外訓練。 另一種高效的協作策略基于聯邦學習(FL)框架。例如,Wagner et al.[2024]引入了用于設備上LLM微調的FL框架,使用策略聚合LoRA模型參數并高效處理數據異質性,優于純本地微調。FDLoRA_引入了一個個性化的FL框架,使用雙LoRA模塊捕捉個性化和全局知識。它僅與中央服務器共享全局LoRA參數,并通過自適應融合結合它們,在最小化通信和計算成本的同時提高性能。 還有其他框架可以探索,例如_HYDRA,它也采用基礎模型來學習共享知識。然而,與聯邦學習相比,它為每個個體用戶分配不同的頭以提取個性化信息。 討論 微調方法通過修改大量模型參數實現深度個性化,而參數高效微調方法(如前綴向量或適配器)在保持高個性化水平的同時降低了計算成本和內存需求。這些方法通過針對特定用戶需求定制模型來提高任務適應性,增強情感分析和推薦等任務的性能。它們還提供了靈活性,允許用戶特定調整,同時利用預訓練知識。然而,它們仍然面臨過擬合的風險,特別是在有限或嘈雜的用戶數據情況下,這可能影響對新用戶或多樣化用戶的泛化和性能。 5. 個性化對齊
個性(xing)(xing)化(hua)對(dui)齊技術 [Bai et al., 2022; Rafailov et al., 2024] 通(tong)(tong)(tong)常旨(zhi)在(zai)優化(hua)大(da)型(xing)語言模(mo)型(xing)(LLMs),使其(qi)符合(he)人(ren)類的(de)(de)通(tong)(tong)(tong)用(yong)偏(pian)好(hao)(hao)。然而(er),現(xian)實中,個體(ti)在(zai)語言風(feng)格、知識深度、價值觀等方(fang)面對(dui)LLM回答的(de)(de)偏(pian)好(hao)(hao)可能(neng)存在(zai)顯(xian)著差異(yi)。個性(xing)(xing)化(hua)對(dui)齊則力圖進一步滿足個體(ti)用(yong)戶的(de)(de)獨特偏(pian)好(hao)(hao),超越(yue)通(tong)(tong)(tong)用(yong)的(de)(de)偏(pian)好(hao)(hao)。個性(xing)(xing)化(hua)對(dui)齊面臨的(de)(de)一大(da)挑戰(zhan)是構建高質量的(de)(de)用(yong)戶特定偏(pian)好(hao)(hao)數(shu)據(ju)集(ji),這比通(tong)(tong)(tong)用(yong)對(dui)齊數(shu)據(ju)集(ji)更(geng)為復(fu)雜,原因在(zai)于數(shu)據(ju)的(de)(de)稀(xi)缺性(xing)(xing)。第二個挑戰(zhan)來自于需要改進傳統的(de)(de)基(ji)于強(qiang)化(hua)學習的(de)(de)人(ren)類反饋(RLHF)框(kuang)架 [Ouyang et al., 2022],以(yi)處理(li)用(yong)戶偏(pian)好(hao)(hao)的(de)(de)多樣化(hua)問題,這對(dui)于整合(he)個性(xing)(xing)化(hua)偏(pian)好(hao)(hao)而(er)不妥協效率(lv)和性(xing)(xing)能(neng)至關(guan)重(zhong)要。
高(gao)質(zhi)量(liang)的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)構建(jian)對于(yu)學習個(ge)性(xing)化(hua)(hua)大型(xing)(xing)語言模(mo)型(xing)(xing)(PLLMs)至關重要(yao),主要(yao)涉(she)及通(tong)過(guo)與(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)交互(hu)(hu)(hu)(hu)生成自我生成的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)。Wu 等(deng)(deng)(deng) [2024c] 構建(jian)了(le)(le)(le)一個(ge)數(shu)(shu)據(ju)(ju)(ju)集(ji)(ji),用(yong)(yong)于(yu)將LLM與(yu)(yu)個(ge)體偏(pian)好(hao)對齊,該數(shu)(shu)據(ju)(ju)(ju)集(ji)(ji)通(tong)過(guo)初步創(chuang)(chuang)建(jian)一個(ge)包含3,310個(ge)用(yong)(yong)戶(hu)角色池,并(bing)通(tong)過(guo)迭代(dai)自我生成和(he)過(guo)濾進行擴(kuo)展。這(zhe)種方法與(yu)(yu)PLUM [Magister et al., 2024] 相似,后者(zhe)通(tong)過(guo)多(duo)(duo)輪對話(hua)樹模(mo)擬動態(tai)交互(hu)(hu)(hu)(hu),使(shi)得LLM能(neng)夠(gou)(gou)推(tui)斷并(bing)適應用(yong)(yong)戶(hu)的(de)(de)(de)(de)(de)(de)(de)(de)偏(pian)好(hao)。為(wei)(wei)了(le)(le)(le)讓(rang)LLM能(neng)夠(gou)(gou)在(zai)不(bu)重新(xin)訓(xun)練的(de)(de)(de)(de)(de)(de)(de)(de)情況下適應個(ge)體用(yong)(yong)戶(hu)的(de)(de)(de)(de)(de)(de)(de)(de)偏(pian)好(hao),Lee 等(deng)(deng)(deng) [2024] 使(shi)用(yong)(yong)了(le)(le)(le)多(duo)(duo)樣(yang)化(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)(de)系(xi)統(tong)消息(xi)作為(wei)(wei)元指(zhi)令來(lai)(lai)指(zhi)導模(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)行為(wei)(wei)。為(wei)(wei)此(ci),創(chuang)(chuang)建(jian)了(le)(le)(le)MULTIFACETED COLLECTION數(shu)(shu)據(ju)(ju)(ju)集(ji)(ji),其中包含197,000條系(xi)統(tong)消息(xi),代(dai)表了(le)(le)(le)廣(guang)泛的(de)(de)(de)(de)(de)(de)(de)(de)用(yong)(yong)戶(hu)價(jia)值觀。為(wei)(wei)了(le)(le)(le)支持邊緣(yuan)設備上的(de)(de)(de)(de)(de)(de)(de)(de)實時隱(yin)(yin)私保護個(ge)性(xing)化(hua)(hua),并(bing)解決數(shu)(shu)據(ju)(ju)(ju)隱(yin)(yin)私、存儲(chu)有(you)限和(he)最小(xiao)化(hua)(hua)用(yong)(yong)戶(hu)干擾的(de)(de)(de)(de)(de)(de)(de)(de)問題(ti)(ti),Qin 等(deng)(deng)(deng) [2024] 提(ti)出了(le)(le)(le)一個(ge)自監督方法,該方法能(neng)夠(gou)(gou)高(gao)效地選擇(ze)并(bing)綜合重要(yao)的(de)(de)(de)(de)(de)(de)(de)(de)用(yong)(yong)戶(hu)數(shu)(shu)據(ju)(ju)(ju),從(cong)(cong)而(er)在(zai)最小(xiao)化(hua)(hua)用(yong)(yong)戶(hu)交互(hu)(hu)(hu)(hu)的(de)(de)(de)(de)(de)(de)(de)(de)情況下改善模(mo)型(xing)(xing)適應性(xing)。 研究(jiu)工(gong)作也越(yue)來(lai)(lai)越(yue)集(ji)(ji)中于(yu)開(kai)發能(neng)夠(gou)(gou)評估模(mo)型(xing)(xing)理解個(ge)性(xing)化(hua)(hua)偏(pian)好(hao)的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)集(ji)(ji)。Kirk 等(deng)(deng)(deng) [2024] 引(yin)入了(le)(le)(le)PRISM Alignment Dataset,該數(shu)(shu)據(ju)(ju)(ju)集(ji)(ji)將來(lai)(lai)自75個(ge)國家的(de)(de)(de)(de)(de)(de)(de)(de)1,500名參與(yu)(yu)者(zhe)的(de)(de)(de)(de)(de)(de)(de)(de)社會人口(kou)統(tong)計信(xin)息(xi)和(he)偏(pian)好(hao)映(ying)射到他們與(yu)(yu)21個(ge)LLM的(de)(de)(de)(de)(de)(de)(de)(de)實時交互(hu)(hu)(hu)(hu)反饋中,重點關注關于(yu)有(you)爭議(yi)話(hua)題(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)主觀和(he)多(duo)(duo)文化(hua)(hua)視角。PersonalLLM [Zollo 等(deng)(deng)(deng),2024] 提(ti)出了(le)(le)(le)一個(ge)新(xin)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)性(xing)化(hua)(hua)測試數(shu)(shu)據(ju)(ju)(ju)庫,它策劃了(le)(le)(le)開(kai)放式提(ti)示和(he)多(duo)(duo)個(ge)高(gao)質(zhi)量(liang)的(de)(de)(de)(de)(de)(de)(de)(de)回應,以模(mo)擬用(yong)(yong)戶(hu)之間的(de)(de)(de)(de)(de)(de)(de)(de)多(duo)(duo)樣(yang)化(hua)(hua)潛在(zai)偏(pian)好(hao)。該方法通(tong)過(guo)從(cong)(cong)預訓(xun)練的(de)(de)(de)(de)(de)(de)(de)(de)獎勵模(mo)型(xing)(xing)生成模(mo)擬用(yong)(yong)戶(hu)群體,解決了(le)(le)(le)個(ge)性(xing)化(hua)(hua)中的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)稀缺問題(ti)(ti)。
個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)偏(pian)(pian)好(hao)(hao)對(dui)齊通(tong)(tong)常被(bei)建模(mo)(mo)為(wei)一(yi)個(ge)(ge)(ge)(ge)(ge)(ge)多(duo)(duo)(duo)目標(biao)(biao)強化(hua)(hua)(hua)(hua)學(xue)習(xi)(MORL)問題,其(qi)中個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)偏(pian)(pian)好(hao)(hao)是(shi)由多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)偏(pian)(pian)好(hao)(hao)維度(du)的(de)(de)(de)(de)(de)(de)(de)(de)用(yong)(yong)戶(hu)(hu)(hu)特(te)(te)定組(zu)(zu)(zu)(zu)合(he)(he)(he)來(lai)(lai)決定的(de)(de)(de)(de)(de)(de)(de)(de)。基(ji)(ji)(ji)于(yu)此,典(dian)(dian)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)對(dui)齊范式包括使(shi)(shi)用(yong)(yong)從(cong)(cong)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)獎(jiang)(jiang)(jiang)勵(li)(li)(li)模(mo)(mo)型(xing)(xing)派生的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)獎(jiang)(jiang)(jiang)勵(li)(li)(li)來(lai)(lai)指(zhi)導LLM策(ce)(ce)(ce)略(lve)(lve)的(de)(de)(de)(de)(de)(de)(de)(de)訓練(lian)(lian)階(jie)段,以(yi)(yi)實(shi)(shi)現(xian)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)目標(biao)(biao)。MORLHF [Wu 等(deng),2023] 為(wei)每個(ge)(ge)(ge)(ge)(ge)(ge)偏(pian)(pian)好(hao)(hao)維度(du)分別訓練(lian)(lian)獎(jiang)(jiang)(jiang)勵(li)(li)(li)模(mo)(mo)型(xing)(xing),并使(shi)(shi)用(yong)(yong)鄰近策(ce)(ce)(ce)略(lve)(lve)優化(hua)(hua)(hua)(hua)(PPO)重(zhong)新(xin)訓練(lian)(lian)策(ce)(ce)(ce)略(lve)(lve)語(yu)言(yan)模(mo)(mo)型(xing)(xing),指(zhi)導模(mo)(mo)型(xing)(xing)通(tong)(tong)過(guo)(guo)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)獎(jiang)(jiang)(jiang)勵(li)(li)(li)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)線性(xing)(xing)組(zu)(zu)(zu)(zu)合(he)(he)(he)。這(zhe)種(zhong)方法允許(xu)重(zhong)用(yong)(yong)標(biao)(biao)準(zhun)的(de)(de)(de)(de)(de)(de)(de)(de)RLHF管(guan)道(dao)。 MODPO [Zhou 等(deng),2023] 引入了(le)一(yi)種(zhong)新(xin)穎的(de)(de)(de)(de)(de)(de)(de)(de)無強化(hua)(hua)(hua)(hua)學(xue)習(xi)(RL-free)算法,擴(kuo)展(zhan)了(le)直(zhi)接偏(pian)(pian)好(hao)(hao)優化(hua)(hua)(hua)(hua)(DPO),以(yi)(yi)管(guan)理多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)對(dui)齊目標(biao)(biao)。它將線性(xing)(xing)標(biao)(biao)量化(hua)(hua)(hua)(hua)直(zhi)接集(ji)成(cheng)到獎(jiang)(jiang)(jiang)勵(li)(li)(li)建模(mo)(mo)過(guo)(guo)程(cheng)中,使(shi)(shi)得通(tong)(tong)過(guo)(guo)簡(jian)單的(de)(de)(de)(de)(de)(de)(de)(de)基(ji)(ji)(ji)于(yu)邊際的(de)(de)(de)(de)(de)(de)(de)(de)交叉熵(shang)損失來(lai)(lai)訓練(lian)(lian)語(yu)言(yan)模(mo)(mo)型(xing)(xing),作為(wei)隱式的(de)(de)(de)(de)(de)(de)(de)(de)集(ji)體獎(jiang)(jiang)(jiang)勵(li)(li)(li)函(han)數。 另(ling)一(yi)種(zhong)MORL策(ce)(ce)(ce)略(lve)(lve)是(shi)在解碼階(jie)段考慮(lv)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)訓練(lian)(lian)好(hao)(hao)的(de)(de)(de)(de)(de)(de)(de)(de)策(ce)(ce)(ce)略(lve)(lve)LLM的(de)(de)(de)(de)(de)(de)(de)(de)即席組(zu)(zu)(zu)(zu)合(he)(he)(he),以(yi)(yi)實(shi)(shi)現(xian)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)。Personalized Soups [Jang 等(deng),2023] 和Reward Soups [Rame 等(deng),2024] 通(tong)(tong)過(guo)(guo)首先(xian)獨立訓練(lian)(lian)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)(ge)具有不同偏(pian)(pian)好(hao)(hao)的(de)(de)(de)(de)(de)(de)(de)(de)策(ce)(ce)(ce)略(lve)(lve)模(mo)(mo)型(xing)(xing),然后在推理階(jie)段合(he)(he)(he)并它們的(de)(de)(de)(de)(de)(de)(de)(de)參數來(lai)(lai)解決個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)人(ren)類反饋中的(de)(de)(de)(de)(de)(de)(de)(de)RL挑戰。兩種(zhong)方法都允許(xu)根據用(yong)(yong)戶(hu)(hu)(hu)偏(pian)(pian)好(hao)(hao)動(dong)態(tai)加權網(wang)絡,增強模(mo)(mo)型(xing)(xing)對(dui)齊并減少獎(jiang)(jiang)(jiang)勵(li)(li)(li)的(de)(de)(de)(de)(de)(de)(de)(de)誤差(cha)。此外,策(ce)(ce)(ce)略(lve)(lve)LLM的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)融(rong)合(he)(he)(he)不僅(jin)可(ke)以(yi)(yi)通(tong)(tong)過(guo)(guo)參數合(he)(he)(he)并來(lai)(lai)實(shi)(shi)現(xian),也可(ke)以(yi)(yi)通(tong)(tong)過(guo)(guo)模(mo)(mo)型(xing)(xing)集(ji)成(cheng)來(lai)(lai)實(shi)(shi)現(xian)。MOD [Shi 等(deng),2024] 從(cong)(cong)所有基(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)線性(xing)(xing)組(zu)(zu)(zu)(zu)合(he)(he)(he)中輸(shu)出下(xia)一(yi)個(ge)(ge)(ge)(ge)(ge)(ge)令(ling)牌,允許(xu)通(tong)(tong)過(guo)(guo)組(zu)(zu)(zu)(zu)合(he)(he)(he)它們的(de)(de)(de)(de)(de)(de)(de)(de)預(yu)測(ce)來(lai)(lai)精確控制不同目標(biao)(biao),而無需重(zhong)新(xin)訓練(lian)(lian)。與(yu)參數合(he)(he)(he)并基(ji)(ji)(ji)準(zhun)相比,該方法顯(xian)示(shi)出了(le)顯(xian)著的(de)(de)(de)(de)(de)(de)(de)(de)效果。PAD [Chen 等(deng),2024b] 利(li)用(yong)(yong)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)獎(jiang)(jiang)(jiang)勵(li)(li)(li)建模(mo)(mo)策(ce)(ce)(ce)略(lve)(lve)生成(cheng)令(ling)牌級別的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)獎(jiang)(jiang)(jiang)勵(li)(li)(li),并用(yong)(yong)這(zhe)些(xie)獎(jiang)(jiang)(jiang)勵(li)(li)(li)來(lai)(lai)指(zhi)導解碼過(guo)(guo)程(cheng),從(cong)(cong)而動(dong)態(tai)地調整基(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)預(yu)測(ce),以(yi)(yi)適應個(ge)(ge)(ge)(ge)(ge)(ge)體偏(pian)(pian)好(hao)(hao)。圖5可(ke)視化(hua)(hua)(hua)(hua)了(le)上(shang)述典(dian)(dian)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)MORL方法,用(yong)(yong)于(yu)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)對(dui)齊。 還有一(yi)些(xie)新(xin)興的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)對(dui)齊研究,超越(yue)了(le)“多(duo)(duo)(duo)目標(biao)(biao)”范式。PPT [Lau 等(deng),2024] 通(tong)(tong)過(guo)(guo)生成(cheng)每個(ge)(ge)(ge)(ge)(ge)(ge)用(yong)(yong)戶(hu)(hu)(hu)提示(shi)的(de)(de)(de)(de)(de)(de)(de)(de)兩個(ge)(ge)(ge)(ge)(ge)(ge)潛(qian)在回答,要(yao)求(qiu)用(yong)(yong)戶(hu)(hu)(hu)對(dui)其(qi)進行(xing)排名(ming),并將該反饋融(rong)入到模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)上(shang)下(xia)文中,以(yi)(yi)動(dong)態(tai)適應用(yong)(yong)戶(hu)(hu)(hu)的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)偏(pian)(pian)好(hao)(hao),從(cong)(cong)而解鎖了(le)上(shang)下(xia)文學(xue)習(xi)在可(ke)擴(kuo)展(zhan)性(xing)(xing)和高效性(xing)(xing)上(shang)的(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)力。VPL [Poddar 等(deng),2024] 利(li)用(yong)(yong)變分推斷框(kuang)架,通(tong)(tong)過(guo)(guo)用(yong)(yong)戶(hu)(hu)(hu)特(te)(te)定的(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)在變量來(lai)(lai)捕捉多(duo)(duo)(duo)樣(yang)化(hua)(hua)(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)(de)人(ren)類偏(pian)(pian)好(hao)(hao)。從(cong)(cong)少量偏(pian)(pian)好(hao)(hao)注(zhu)釋推斷用(yong)(yong)戶(hu)(hu)(hu)特(te)(te)定的(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)在分布,能(neng)夠以(yi)(yi)更(geng)高的(de)(de)(de)(de)(de)(de)(de)(de)數據效率實(shi)(shi)現(xian)更(geng)準(zhun)確的(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)(ge)(ge)(ge)(ge)性(xing)(xing)化(hua)(hua)(hua)(hua)獎(jiang)(jiang)(jiang)勵(li)(li)(li)建模(mo)(mo)。
當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題,其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常,這些方法限于少數(例如三個)預定義的偏好維度,并通過文本用戶偏好提示來表示。然而,在現實場景中,可能存在大量個性化用戶,并且他們的偏好向量可能并不完全已知,僅能訪問到他們的交互歷史。因此,開發更現實的對齊基準,以有效評估這些技術,是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型(PLLMs)近年來取得了顯著進展,但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好,處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如,使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據,而針對多模態數據(如圖像、視頻、音頻)的個性化基礎模型仍然沒有得到充分探索,盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備(如手機)上高效地更新模型,這些設備的存儲和計算資源有限。例如,微調可以提供更深層次的個性化,但它需要大量資源,并且難以擴展,尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024],利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性,尤其是在個性化模型(PLLMs)的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新(例如推出新版本時),如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性,重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數,而無需完全重新訓練,例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性,一個關鍵的挑戰是如何防止災難性遺忘,同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b],以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要,尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制,LLMs無法本地部署,這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法,例如聯邦學習、安全計算和差分隱私,以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了(le)個(ge)(ge)性(xing)(xing)化(hua)大型語言模型(PLLMs),重點強調了(le)根據個(ge)(ge)體用(yong)戶(hu)數據量身(shen)定制的(de)個(ge)(ge)性(xing)(xing)化(hua)響應。我們(men)(men)提出了(le)一個(ge)(ge)結構(gou)化(hua)的(de)分類法,將現(xian)有的(de)方法分為(wei)三個(ge)(ge)關鍵技術視角(jiao):個(ge)(ge)性(xing)(xing)化(hua)提示(輸入層(ceng))、個(ge)(ge)性(xing)(xing)化(hua)適配(模型層(ceng))和(he)個(ge)(ge)性(xing)(xing)化(hua)對齊(目標層(ceng)),并在(zai)每個(ge)(ge)層(ceng)次內進一步細分。我們(men)(men)還(huan)討論了(le)當前(qian)(qian)的(de)局限性(xing)(xing),并提出了(le)幾個(ge)(ge)有前(qian)(qian)景的(de)未來研究方向。我們(men)(men)的(de)工作為(wei)推動PLLMs的(de)發展提供了(le)寶貴的(de)見(jian)解和(he)框架。
強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能
大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發展,深度RL結(jie)合了RL和深度神經網絡的(de)(de)優勢(shi),能夠抽象復雜的(de)(de)觀測并學(xue)習(xi)高效的(de)(de)特征(zheng)表(biao)(biao)示【6】。在(zai)過(guo)去(qu)的(de)(de)代(dai)表(biao)(biao)性(xing)研究中,它在(zai)棋類(lei)(lei)(lei)游戲【7】【8】、電子(zi)游戲【9】【10】以及機器(qi)人(ren)控制(zhi)【11】–【13】等領域表(biao)(biao)現出色,甚至在(zai)某些情況下超越了人(ren)類(lei)(lei)(lei)表(biao)(biao)現。對(dui)于自(zi)動(dong)駕駛而言,RL使端(duan)到(dao)端(duan)控制(zhi)成(cheng)為(wei)現實,即從(cong)車(che)輛(liang)感知到(dao)車(che)輛(liang)應該做什么的(de)(de)直接(jie)轉換(huan),就像人(ren)類(lei)(lei)(lei)駕駛員(yuan)一樣。盡(jin)管RL在(zai)自(zi)動(dong)駕駛車(che)輛(liang)方(fang)面取得了許多(duo)顯著成(cheng)就,大多(duo)數相關(guan)工作仍是從(cong)單(dan)個車(che)輛(liang)的(de)(de)角度出發,這導致了以自(zi)我為(wei)中心(xin)并可能具有攻(gong)擊(ji)性(xing)的(de)(de)駕駛策略(lve),可能會引發安全事(shi)故并降低交通系統的(de)(de)效率(lv)。
對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在(zai)MAS中(zhong)(zhong),所有智(zhi)能(neng)體(ti)在(zai)共享(xiang)的(de)(de)(de)(de)(de)環(huan)境(jing)中(zhong)(zhong)做出(chu)決策并(bing)進(jin)(jin)行交(jiao)互。這意味著每個(ge)智(zhi)能(neng)體(ti)的(de)(de)(de)(de)(de)狀態(tai)不(bu)僅取(qu)決于(yu)其自身的(de)(de)(de)(de)(de)行為,還取(qu)決于(yu)其他智(zhi)能(neng)體(ti)的(de)(de)(de)(de)(de)行為,使(shi)(shi)得環(huan)境(jing)動(dong)(dong)態(tai)呈現非靜(jing)態(tai)和(he)時間變化(hua)性(xing)。此(ci)外,根據(ju)(ju)任(ren)務設(she)置,智(zhi)能(neng)體(ti)可(ke)能(neng)相互合作或競爭。在(zai)如此(ci)復雜的(de)(de)(de)(de)(de)場景中(zhong)(zhong),手動(dong)(dong)編程預(yu)先行動(dong)(dong)幾(ji)乎是不(bu)可(ke)能(neng)的(de)(de)(de)(de)(de)【15】。得益于(yu)多(duo)智(zhi)能(neng)體(ti)強化(hua)學(xue)習(MARL)的(de)(de)(de)(de)(de)重大(da)進(jin)(jin)展(zhan),交(jiao)通控制(zhi)(zhi)【16】【17】、能(neng)源分(fen)配【18】【19】、大(da)規(gui)模機(ji)器人(ren)控制(zhi)(zhi)【20】【21】以及經濟(ji)建模與(yu)預(yu)測(ce)【22】【23】領域均取(qu)得了(le)實質性(xing)突破(po)。圖1展(zhan)示了(le)這些相關研(yan)究(jiu)主題的(de)(de)(de)(de)(de)出(chu)版(ban)物數量。使(shi)(shi)用Dimensions數據(ju)(ju)庫進(jin)(jin)行AI搜索(suo)【14】,我(wo)們搜索(suo)了(le)包括多(duo)智(zhi)能(neng)體(ti)強化(hua)學(xue)習、自動(dong)(dong)駕駛和(he)智(zhi)能(neng)交(jiao)通在(zai)內的(de)(de)(de)(de)(de)關鍵(jian)詞(ci)。統(tong)計結果表明,學(xue)術界對這些問題高度關注,相關研(yan)究(jiu)領域正處于(yu)快(kuai)速增長階段(duan)。為了(le)加速進(jin)(jin)一(yi)步研(yan)究(jiu)并(bing)幫助新研(yan)究(jiu)人(ren)員快(kuai)速入門,我(wo)們審閱了(le)200多(duo)篇出(chu)版(ban)物、開(kai)源軟件(jian)和(he)代(dai)碼庫,然(ran)后(hou)系統(tong)地總結了(le)現有成(cheng)就和(he)最新進(jin)(jin)展(zhan)。
在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多(duo)綜述【28】–【30】介紹了(le)(le)RL的(de)(de)基(ji)(ji)本理論和(he)(he)應(ying)用,并分析了(le)(le)其(qi)(qi)發表時最(zui)(zui)先進的(de)(de)(SoTA)自動(dong)(dong)(dong)駕駛算法(fa)(fa),但它們主要關注單智能(neng)體學(xue)(xue)習(xi)。綜述【31】的(de)(de)作者首次定義了(le)(le)分層(ceng)結構的(de)(de)自動(dong)(dong)(dong)駕駛系統,并將其(qi)(qi)研究(jiu)范(fan)圍限定在局部(bu)運動(dong)(dong)(dong)規劃(hua)。他(ta)們說明了(le)(le)車輛的(de)(de)動(dong)(dong)(dong)力學(xue)(xue),并展(zhan)示了(le)(le)采樣和(he)(he)基(ji)(ji)于搜索的(de)(de)方(fang)法(fa)(fa)如(ru)何在數學(xue)(xue)上工作。然而,他(ta)們忽略(lve)了(le)(le)基(ji)(ji)于學(xue)(xue)習(xi)的(de)(de)方(fang)法(fa)(fa)的(de)(de)貢獻。在最(zui)(zui)近的(de)(de)運動(dong)(dong)(dong)規劃(hua)綜述【2】中,研究(jiu)人(ren)(ren)(ren)員全(quan)面調查(cha)了(le)(le)管道和(he)(he)學(xue)(xue)習(xi)方(fang)法(fa)(fa),包括(kuo)深度學(xue)(xue)習(xi)、逆向RL和(he)(he)模仿學(xue)(xue)習(xi)以(yi)及MARL。同樣,詳(xiang)細的(de)(de)概述涵(han)蓋了(le)(le)軌跡預測中最(zui)(zui)新的(de)(de)分類法(fa)(fa)和(he)(he)方(fang)法(fa)(fa)論【32】。還有一些優秀的(de)(de)綜述總結了(le)(le)AVs的(de)(de)MARL方(fang)法(fa)(fa)【1】【33】【34】。盡管如(ru)此,近年來研究(jiu)人(ren)(ren)(ren)員在理論和(he)(he)應(ying)用方(fang)面取(qu)得了(le)(le)顯著進展(zhan),并且在高級機器(qi)人(ren)(ren)(ren)模擬(ni)器(qi)中也取(qu)得了(le)(le)進展(zhan)。作為(wei)在線RL訓(xun)練(lian)的(de)(de)關鍵組成部(bu)分,模擬(ni)器(qi)決定了(le)(le)從模擬(ni)到(dao)現實的(de)(de)差距,即(ji)智能(neng)體學(xue)(xue)習(xi)的(de)(de)策略(lve)是否可(ke)以(yi)輕松地轉(zhuan)移(yi)到(dao)物理機器(qi)人(ren)(ren)(ren)上。因(yin)此,為(wei)了(le)(le)使工程(cheng)師和(he)(he)研究(jiu)人(ren)(ren)(ren)員能(neng)夠捕捉最(zui)(zui)新的(de)(de)進展(zhan)并加速技術進步,我們全(quan)面總結了(le)(le)該領域的(de)(de)技術、挑戰和(he)(he)前景。
總體而言,本文的主要貢獻可總結如下:
在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總體來說,隨著大規模(mo)(mo)數據集和深度學習的(de)(de)(de)(de)(de)發展,自(zi)動(dong)駕(jia)駛已從(cong)分(fen)層控制(zhi)邁向數據驅動(dong)時代。隨著先(xian)進模(mo)(mo)擬器(qi)的(de)(de)(de)(de)(de)出現(xian),基(ji)(ji)(ji)于(yu)RL的(de)(de)(de)(de)(de)方法登上了(le)(le)舞臺,隨后新(xin)技術如大語言模(mo)(mo)型帶來了(le)(le)更多的(de)(de)(de)(de)(de)機遇。我(wo)(wo)(wo)們(men)將(jiang)在(zai)(zai)后文詳細分(fen)析(xi),本(ben)文的(de)(de)(de)(de)(de)其余部(bu)分(fen)組(zu)織如下:在(zai)(zai)第(di)二節(jie)中(zhong)(zhong),我(wo)(wo)(wo)們(men)首先(xian)描述了(le)(le)基(ji)(ji)(ji)準的(de)(de)(de)(de)(de)指標。我(wo)(wo)(wo)們(men)還分(fen)析(xi)了(le)(le)最先(xian)進的(de)(de)(de)(de)(de)自(zi)動(dong)駕(jia)駛模(mo)(mo)擬器(qi)和數據集的(de)(de)(de)(de)(de)特征。在(zai)(zai)第(di)三節(jie)中(zhong)(zhong),我(wo)(wo)(wo)們(men)回(hui)顧(gu)了(le)(le)RL和MARL的(de)(de)(de)(de)(de)基(ji)(ji)(ji)本(ben)概念、定義和開放問題。在(zai)(zai)第(di)四(si)節(jie)中(zhong)(zhong),我(wo)(wo)(wo)們(men)詳盡介紹了(le)(le)自(zi)動(dong)駕(jia)駛領域(yu)最先(xian)進的(de)(de)(de)(de)(de)MARL算法。具體而言,我(wo)(wo)(wo)們(men)分(fen)析(xi)了(le)(le)它們(men)的(de)(de)(de)(de)(de)狀(zhuang)態(tai)和動(dong)作設置、方法論見解和應用。在(zai)(zai)第(di)五節(jie)中(zhong)(zhong),我(wo)(wo)(wo)們(men)指出了(le)(le)現(xian)有挑戰并給出了(le)(le)可(ke)能的(de)(de)(de)(de)(de)解決方案。在(zai)(zai)第(di)六(liu)節(jie)中(zhong)(zhong),我(wo)(wo)(wo)們(men)捕捉了(le)(le)最新(xin)的(de)(de)(de)(de)(de)進展,并提出了(le)(le)朝向更安全(quan)和智能的(de)(de)(de)(de)(de)自(zi)動(dong)駕(jia)駛的(de)(de)(de)(de)(de)有前途的(de)(de)(de)(de)(de)方向。
II. 自動駕駛基準
強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。
最先進的方法論
本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習
在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化
考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習
盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習
安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結
如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。
多模態模型被認為是未來人工智能進步的關鍵組成部分。由于基礎模型在自然語言處理 (NLP) 和視覺領域的成功,這一領域正迅速發展,并涌現出大量新的設計元素。人們普遍希望將基礎模型進一步擴展到多種模態(如文本、圖像、視頻、傳感器、時間序列、圖等),最終形成通用的多模態模型,即在不同數據模態和任務之間通用的單一模型。然而,關于最近的多模態模型(尤其是那些超越文本和視覺的模型)的系統性分析研究較少,特別是對于所提出的底層架構。因此,本研(yan)究通過(guo)一種新穎(ying)的(de)架構和(he)訓練配置特(te)定的(de)分(fen)類法,提供了關于通用(yong)多(duo)模態模型(GMMs)的(de)新視(shi)角(jiao)。這包括(kuo)統一性、模塊化和(he)適應性等對GMMs廣泛采用(yong)和(he)應用(yong)至(zhi)關重要的(de)因素。本文綜(zong)述(shu)進(jin)一步強調了該領域(yu)的(de)關鍵挑戰和(he)前景,并指導研(yan)究人員了解(jie)新的(de)進(jin)展。
引言
多模態模型是能夠跨越多種數據模態進行學習的深度學習模型。有人推(tui)測,這類模(mo)(mo)(mo)(mo)型可(ke)(ke)能是實現人工通用智能(AGI)所(suo)必需的(de)(de)一(yi)(yi)步,因此,機器學(xue)(xue)(xue)習社區對(dui)它(ta)們的(de)(de)興趣正在迅速(su)增(zeng)加(jia)。多(duo)模(mo)(mo)(mo)(mo)態學(xue)(xue)(xue)習的(de)(de)最(zui)終目標是開發一(yi)(yi)個(ge)可(ke)(ke)以執(zhi)(zhi)行(或輕松(song)適應執(zhi)(zhi)行)各種多(duo)模(mo)(mo)(mo)(mo)態任(ren)務(wu)的(de)(de)單一(yi)(yi)模(mo)(mo)(mo)(mo)型。一(yi)(yi)個(ge)簡單的(de)(de)多(duo)模(mo)(mo)(mo)(mo)態例子是一(yi)(yi)個(ge)視(shi)覺(jue)語言模(mo)(mo)(mo)(mo)型,它(ta)可(ke)(ke)以執(zhi)(zhi)行單模(mo)(mo)(mo)(mo)態任(ren)務(wu)(如文本(ben)生(sheng)成、圖(tu)像分類)和跨模(mo)(mo)(mo)(mo)態任(ren)務(wu)(如文本(ben)到(dao)圖(tu)像檢索或圖(tu)像字幕生(sheng)成),后者(zhe)需要(yao)跨模(mo)(mo)(mo)(mo)態的(de)(de)上(shang)下文和聯合學(xue)(xue)(xue)習【58】。
在機器學習的發展歷程中,多模態研究一直在積極推進【3, 28, 31, 33, 34, 44, 75, 83】。然而,這(zhe)些研(yan)(yan)究(jiu)偏重于跨(kua)模(mo)(mo)(mo)(mo)態學習和(he)(he)(he)有限范(fan)圍(wei)的(de)模(mo)(mo)(mo)(mo)態(文(wen)本(ben)和(he)(he)(he)圖像(xiang))。因(yin)此(ci),模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)架構的(de)設計元素不足以促進(jin)向更(geng)通用(yong)(yong)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)的(de)現代研(yan)(yan)究(jiu)的(de)平(ping)穩(wen)過(guo)渡。例如(ru),與傳統機器學習(ML)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)不同,基礎(chu)(chu)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)通過(guo)重建大量(通常(chang)是未標(biao)注的(de))數據進(jin)行(xing)訓練,以便在(zai)各(ge)種(zhong)(zhong)下游(you)數據集和(he)(he)(he)任(ren)務中表現良好。訓練基礎(chu)(chu)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)的(de)目標(biao)是學習如(ru)何提取可在(zai)不同領(ling)域和(he)(he)(he)應用(yong)(yong)中重用(yong)(yong)的(de)通用(yong)(yong)特征(zheng)表示。類似地,多模(mo)(mo)(mo)(mo)態領(ling)域基礎(chu)(chu)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)的(de)目標(biao)是實現跨(kua)多種(zhong)(zhong)模(mo)(mo)(mo)(mo)態和(he)(he)(he)任(ren)務的(de)學習,但這(zhe)些模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)受限于對(dui)文(wen)本(ben)和(he)(he)(he)圖像(xiang)模(mo)(mo)(mo)(mo)態的(de)研(yan)(yan)究(jiu)重點。
受這些差距的激勵,多模態文獻中引入了一系列新的設計元素【5, 58, 70, 84, 93, 106】。這(zhe)些大(da)多(duo)受NLP和(he)視覺領域的(de)(de)單模(mo)(mo)(mo)(mo)態(tai)基礎模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)成(cheng)功的(de)(de)啟發。我(wo)(wo)們將(jiang)這(zhe)類新模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)稱為(wei)通用(yong)多(duo)模(mo)(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(GMMs)。GMMs可以包(bao)括那些能(neng)夠(gou)跨越研究(jiu)中(zhong)最常(chang)見的(de)(de)兩種(zhong)數(shu)據(ju)類型(xing)(xing)(xing)(xing)(文本(ben)和(he)圖(tu)像)之外的(de)(de)模(mo)(mo)(mo)(mo)態(tai)運(yun)行的(de)(de)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)。更(geng)具(ju)體地說,模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)必(bi)須展示跨越多(duo)種(zhong)模(mo)(mo)(mo)(mo)態(tai)(包(bao)括但不(bu)限于(yu)文本(ben)、圖(tu)像、語音、音頻、視頻和(he)傳(chuan)感器)的(de)(de)能(neng)力。這(zhe)一更(geng)廣泛的(de)(de)定(ding)(ding)義捕捉了在不(bu)同(tong)模(mo)(mo)(mo)(mo)態(tai)中(zhong)具(ju)有(you)廣泛泛化表(biao)示的(de)(de)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)。表(biao)1總結了我(wo)(wo)們對通用(yong)多(duo)模(mo)(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)和(he)典型(xing)(xing)(xing)(xing)多(duo)模(mo)(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)(xing)(xing)的(de)(de)定(ding)(ding)義之間的(de)(de)詳細區分。
與標準深度學習模型相比,基礎模型具有多種獨特的屬性,包括大規模預訓練(監督或/和自監督,例如掩碼語言建模【12】)和特殊的微調策略(例如,提示調優、參數高效微調)。這些基(ji)礎模型的(de)(de)特性(xing)使(shi)它們在文本和(he)視覺模態(tai)中(zhong)成(cheng)為(wei)領跑(pao)者【96】。這些特性(xing)也被引(yin)入GMMs,并在多模態(tai)學習中(zhong)顯示出類似的(de)(de)改(gai)進。另一(yi)方面(mian),多模態(tai)學習在架構、訓練策略(lve)和(he)評(ping)估(gu)方面(mian)有許多方面(mian),使(shi)得GMMs的(de)(de)發展成(cheng)為(wei)一(yi)個獨特的(de)(de)研究領域。如圖1所(suo)示,GMMs的(de)(de)能力隨著新(xin)策略(lve)的(de)(de)引(yin)入而不斷增長。因此(ci),審視當(dang)前(qian)GMMs的(de)(de)努力并確定進一(yi)步增強GMMs能力的(de)(de)必要(yao)屬性(xing)具有重要(yao)價值。在本綜述中(zhong),我們確定了(le)這些新(xin)興(xing)屬性(xing)并進行了(le)全(quan)面(mian)分析(xi)。
盡管已有一些關于多模態學習的綜述論文【1, 20, 43, 51】,但它們存在以下局限:(i)主要處理文本-視覺范式,對其他模態考慮甚少;(ii)僅關注跨模態的數據融合,忽略了其他關鍵因素,如架構設計、預訓練目標以及不斷擴展的多模態任務范圍【17, 62】;(iii)對跨模態學習的關注較多,對單模態方面考慮較少【51】。因此,我們對現有的GMMs(涵蓋文本和視覺以外模態的模型)進行了全面的綜述,結合了各種數據處理、架構和訓練方面的內容。據作者所知,這是第一篇全面回顧GMMs學習最新趨勢的綜述。本文的主要貢獻如下:
從輸入數(shu)據到輸出預測(ce)的(de)(de)典型GMM架(jia)構管道可以分為不(bu)同(tong)的(de)(de)階段(duan),如下(xia)所述(shu),并在圖(tu)2中(zhong)進行了(le)說(shuo)明。以下(xia)小節將更(geng)詳細地描述(shu)這些不(bu)同(tong)的(de)(de)階段(duan)。
第一(yi)個(ge)模塊與數據預(yu)處理相(xiang)關,其中來自不同(tong)模態的(de)(de)原始數據被轉換為可被通用學習模型消耗的(de)(de)形式。這包括不同(tong)的(de)(de)階段,如下所述:
這一過程將文(wen)本、音頻(pin)(pin)、圖像(xiang)等不同模(mo)態(tai)(tai)轉(zhuan)換(huan)為(wei)通用的(de)(de)(de)(de)數(shu)(shu)值格(ge)式(shi)(也稱(cheng)為(wei)標記)。例(li)如(ru),在文(wen)本模(mo)態(tai)(tai)中(zhong)(zhong),輸(shu)入文(wen)本被(bei)解析為(wei)標記,每個(ge)標記被(bei)映射到模(mo)型詞匯表中(zhong)(zhong)的(de)(de)(de)(de)一個(ge)數(shu)(shu)值ID。在視覺模(mo)態(tai)(tai)中(zhong)(zhong),圖像(xiang)被(bei)調整為(wei)固(gu)定大小(xiao)的(de)(de)(de)(de)補丁(例(li)如(ru),在CLIP中(zhong)(zhong)為(wei)224 x 224像(xiang)素(su)【65】),并將對應(ying)的(de)(de)(de)(de)像(xiang)素(su)值存儲(chu)在數(shu)(shu)值張(zhang)量(liang)中(zhong)(zhong)。在音頻(pin)(pin)模(mo)態(tai)(tai)中(zhong)(zhong),原(yuan)始音頻(pin)(pin)被(bei)轉(zhuan)換(huan)為(wei)頻(pin)(pin)譜圖表示(shi),然后進(jin)一步(bu)切分為(wei)小(xiao)的(de)(de)(de)(de)時間(jian)/頻(pin)(pin)率(lv)幀(zhen)。在點云中(zhong)(zhong),"最(zui)遠點采樣(yang)"(原(yuan)始點云的(de)(de)(de)(de)代(dai)表性骨架采樣(yang))、最(zui)近(jin)鄰和(he)鄰接矩陣(zhen)可以定位/簡化輸(shu)入數(shu)(shu)據(ju)(ju)【103】。這一步(bu)的(de)(de)(de)(de)主要目的(de)(de)(de)(de)是為(wei)編(bian)碼器準備(bei)數(shu)(shu)據(ju)(ju)。
編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)器(qi)在(zai)(zai)高(gao)維空間中獲取輸入(ru)標(biao)記的(de)(de)(de)數(shu)值表示,稱為嵌入(ru)。編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)器(qi)利用預定(ding)義(yi)的(de)(de)(de)知識(shi)(通過訓(xun)練(lian)的(de)(de)(de)凍結模(mo)型)準確(que)地將輸入(ru)標(biao)記定(ding)位在(zai)(zai)支(zhi)持學習的(de)(de)(de)高(gao)維語義(yi)空間中。對于文本(ben)(ben)模(mo)態,任何在(zai)(zai)大(da)規(gui)模(mo)文本(ben)(ben)語料(liao)庫上訓(xun)練(lian)的(de)(de)(de)語言模(mo)型(LLM)都(dou)可(ke)(ke)以作(zuo)(zuo)為有效(xiao)的(de)(de)(de)嵌入(ru)模(mo)型。CLIP和(he)CLIP-VIT【65】系列模(mo)型是編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)視覺信息(包括圖(tu)像和(he)視頻幀)的(de)(de)(de)強有力候選者。大(da)型音頻模(mo)型如(ru)WHISPER【66】用于編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)音頻模(mo)態。上述(shu)所有編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)器(qi)都(dou)是特定(ding)模(mo)態的(de)(de)(de),通常(chang)分(fen)別訓(xun)練(lian),導(dao)致不同編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)器(qi)生成的(de)(de)(de)表示(嵌入(ru))之間可(ke)(ke)能(neng)存在(zai)(zai)差異。IMAGEBIND【19】是一種潛在(zai)(zai)的(de)(de)(de)解(jie)決方(fang)案,它學習跨(kua)越(yue)六(liu)種模(mo)態(包括圖(tu)像、文本(ben)(ben)、音頻、深度、熱成像和(he)慣性測量單元數(shu)據)的(de)(de)(de)聯合嵌入(ru)。諸如(ru)NEXT-GPT等GMMs利用IMAGEBIND來編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)其輸入(ru)模(mo)態。此外(wai),最近的(de)(de)(de)GMMs,如(ru)META-TRANSFORMER【103】和(he)ONELLM【22】,已經表明,任何經過良好預訓(xun)練(lian)的(de)(de)(de)Transformer都(dou)可(ke)(ke)以作(zuo)(zuo)為通用的(de)(de)(de)跨(kua)模(mo)態編(bian)(bian)(bian)(bian)碼(ma)(ma)(ma)(ma)(ma)器(qi)。
投影(ying)將編碼(ma)器(qi)(qi)的(de)(de)表(biao)示(shi)(嵌(qian)入)轉(zhuan)(zhuan)換(huan)為(wei)(wei)通(tong)用(yong)模(mo)型(xing)可理(li)解的(de)(de)新(xin)空(kong)間。通(tong)常(chang),LLM被用(yong)作(zuo)通(tong)用(yong)模(mo)型(xing);因此,投影(ying)器(qi)(qi)將原始嵌(qian)入轉(zhuan)(zhuan)換(huan)為(wei)(wei)語言空(kong)間。雖然序列化、標記化和編碼(ma)是(shi)標準(zhun)化的(de)(de),但投影(ying)步驟在不同模(mo)型(xing)之間有所不同,通(tong)常(chang)是(shi)可訓練(lian)的(de)(de)組件。投影(ying)可以(yi)從(cong)簡單(dan)的(de)(de)全連接線性層到復(fu)雜的(de)(de)卷積(ji)操作(zuo)不等。它還通(tong)過交叉注意力和其他精妙機制對齊不同模(mo)態(tai)特定的(de)(de)表(biao)示(shi)。
來自輸(shu)(shu)入預處理模(mo)(mo)(mo)塊(kuai)的(de)(de)不(bu)同模(mo)(mo)(mo)態(tai)(tai)的(de)(de)統(tong)一表(biao)示(shi)被送入第二個(ge)模(mo)(mo)(mo)塊(kuai),即通用(yong)/主干模(mo)(mo)(mo)型(xing)(xing)(xing),該模(mo)(mo)(mo)型(xing)(xing)(xing)通過多個(ge)神(shen)經(jing)網絡層在共享語義空間(jian)中執行表(biao)示(shi)學習和推理。在多模(mo)(mo)(mo)態(tai)(tai)學習中,通常使用(yong)預訓練(lian)/微調(diao)的(de)(de)LLM作為通用(yong)模(mo)(mo)(mo)型(xing)(xing)(xing)(例如,OFA中的(de)(de)BART【84】,ONELLM中的(de)(de)LLAMA-2【22】)。這主要有兩個(ge)原因(yin):(i)與(yu)其(qi)他(ta)模(mo)(mo)(mo)態(tai)(tai)不(bu)同,語言(yan)模(mo)(mo)(mo)型(xing)(xing)(xing)在各種通用(yong)任務上(shang)(shang)已(yi)經(jing)在大(da)(da)量(liang)數據上(shang)(shang)進行了廣泛訓練(lian),從而形成了一個(ge)強大(da)(da)的(de)(de)知識模(mo)(mo)(mo)型(xing)(xing)(xing);(ii)輸(shu)(shu)入和輸(shu)(shu)出交互(hu)大(da)(da)多以文本形式進行,因(yin)此使用(yong)LLM作為核心模(mo)(mo)(mo)型(xing)(xing)(xing)并(bing)將其(qi)他(ta)模(mo)(mo)(mo)態(tai)(tai)圍繞其(qi)對齊(qi)是(shi)合理的(de)(de),而不(bu)是(shi)反(fan)過來。
在最后(hou)一個(ge)模塊中,數據后(hou)處理(li)階(jie)段將學習到的(de)(de)多模態(tai)表(biao)示轉換為特(te)定模態(tai)/任(ren)務的(de)(de)輸出(chu)。解(jie)碼器(qi)利(li)用多模態(tai)編碼器(qi)表(biao)示的(de)(de)豐富(fu)融合(he),生成具(ju)有跨模態(tai)理(li)解(jie)背景的(de)(de)任(ren)務特(te)定輸出(chu)。對于僅文(wen)本(ben)輸出(chu),可以利(li)用標準(zhun)的(de)(de)Transformer解(jie)碼器(qi)(具(ju)有注意(yi)(yi)力、交叉注意(yi)(yi)力和多層(ceng)感知(zhi)器(qi)(MLP)層(ceng)),共(gong)享(xiang)模型可以接受(shou)不同類型的(de)(de)輸入并(bing)適(shi)應各種任(ren)務的(de)(de)文(wen)本(ben)生成。對于圖像生成,使用擴散解(jie)碼器(qi)模型如Stable Diffusion(SD)【72】;對于音頻(pin)合(he)成,使用AudioLDM【53】。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變(bian)。為(wei)了更(geng)好地突出這一(yi)持續的(de)轉(zhuan)變(bian),在這篇綜(zong)述中,我們提(ti)供了一(yi)個關于LLMs在CL背景下當前研(yan)究進(jin)展的(de)全面概(gai)覽和詳細討論。對于持續學習LLMs的(de)總體情況,我們將其分為(wei)兩個需要由從業者(zhe)解決的(de)連續性(xing)方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我(wo)們(men)(men)的綜述(shu)突出了持(chi)(chi)(chi)續(xu)(xu)開發LLMs的研究領(ling)域(yu)(yu),特別是在(zai)持(chi)(chi)(chi)續(xu)(xu)預訓練(lian)(CPT)和(he)領(ling)域(yu)(yu)適應性預訓練(lian)(DAP)領(ling)域(yu)(yu)的研究。我(wo)們(men)(men)強調需要(yao)社區(qu)(qu)更多(duo)的關注,迫切需要(yao)包(bao)括開發實用(yong)、易于訪(fang)問(wen)且廣為認可的評估基準。此外,需要(yao)定(ding)制方法來解決在(zai)新(xin)(xin)興的大型語言(yan)模型學(xue)習(xi)范式中(zhong)的遺(yi)忘問(wen)題(ti)。我(wo)們(men)(men)希望(wang)這篇綜述(shu)能提供一個系統而新(xin)(xin)穎的持(chi)(chi)(chi)續(xu)(xu)學(xue)習(xi)視角,在(zai)迅速變化(hua)的LLMs領(ling)域(yu)(yu)中(zhong),幫助持(chi)(chi)(chi)續(xu)(xu)學(xue)習(xi)社區(qu)(qu)為開發更有(you)效、可靠(kao)和(he)可持(chi)(chi)(chi)續(xu)(xu)的LLMs做出貢(gong)獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的(de)(de)(de)(de)(de)巨大規(gui)模(mo)(mo)(mo)為(wei)開(kai)發團隊帶來(lai)了(le)顯著的(de)(de)(de)(de)(de)挑(tiao)戰,特(te)別(bie)是在(zai)快(kuai)速變化的(de)(de)(de)(de)(de)環境中保(bao)持(chi)(chi)更(geng)新(xin)。舉例(li)來(lai)說(shuo),2023年,用(yong)戶發布的(de)(de)(de)(de)(de)新(xin)推文的(de)(de)(de)(de)(de)平(ping)均每日流(liu)量超過(guo)5億,即(ji)使是在(zai)這么大量數據(ju)(ju)的(de)(de)(de)(de)(de)“小”子集上(shang)進行(xing)訓(xun)(xun)練(lian)(lian)也(ye)是不可(ke)承受的(de)(de)(de)(de)(de)。在(zai)考慮到它們對(dui)下(xia)游(you)應(ying)(ying)用(yong)的(de)(de)(de)(de)(de)連(lian)鎖影響時,有效且可(ke)靠地適(shi)應(ying)(ying)LLMs變得更(geng)為(wei)關(guan)鍵(jian)。下(xia)游(you)用(yong)戶通常缺乏收(shou)(shou)(shou)集和(he)存儲大規(gui)模(mo)(mo)(mo)數據(ju)(ju)、維護(hu)大規(gui)模(mo)(mo)(mo)硬件系統以(yi)及(ji)自行(xing)訓(xun)(xun)練(lian)(lian)LLMs的(de)(de)(de)(de)(de)專業知識。《可(ke)回收(shou)(shou)(shou)調(diao)整》是首個(ge)明確概(gai)(gai)述(shu)現代LLM生產流(liu)水線(xian)供應(ying)(ying)商(shang)-消費者(zhe)(zhe)結構的(de)(de)(de)(de)(de)先導研(yan)究(jiu)。在(zai)供應(ying)(ying)商(shang)側(ce),模(mo)(mo)(mo)型(xing)(xing)在(zai)一(yi)系列(lie)大規(gui)模(mo)(mo)(mo)未標記數據(ju)(ju)集上(shang)持(chi)(chi)續(xu)進行(xing)預(yu)(yu)訓(xun)(xun)練(lian)(lian)。每次預(yu)(yu)訓(xun)(xun)練(lian)(lian)模(mo)(mo)(mo)型(xing)(xing)發布后,消費者(zhe)(zhe)需要(yao)利用(yong)更(geng)新(xin)、更(geng)強大的(de)(de)(de)(de)(de)上(shang)游(you)模(mo)(mo)(mo)型(xing)(xing)以(yi)獲(huo)得更(geng)好的(de)(de)(de)(de)(de)下(xia)游(you)性(xing)能。為(wei)了(le)提高下(xia)游(you)消費者(zhe)(zhe)微調(diao)的(de)(de)(de)(de)(de)效率,他們最初(chu)對(dui)持(chi)(chi)續(xu)預(yu)(yu)訓(xun)(xun)練(lian)(lian)的(de)(de)(de)(de)(de)LLMs進行(xing)了(le)幾項關(guan)鍵(jian)觀察(cha),聚焦于(yu)(yu)(yu)模(mo)(mo)(mo)式連(lian)接(jie)性(xing)和(he)功能相(xiang)似性(xing)。此外,他們提出(chu)在(zai)上(shang)游(you)預(yu)(yu)訓(xun)(xun)練(lian)(lian)LLM進行(xing)重大更(geng)新(xin)后,復用(yong)過(guo)時的(de)(de)(de)(de)(de)微調(diao)組件。基于(yu)(yu)(yu)《可(ke)回收(shou)(shou)(shou)調(diao)整》引入的(de)(de)(de)(de)(de)概(gai)(gai)念框(kuang)架,我們在(zai)本(ben)綜述(shu)中提出(chu)了(le)一(yi)個(ge)包(bao)含各種研(yan)究(jiu)的(de)(de)(de)(de)(de)現代生產流(liu)水線(xian)的(de)(de)(de)(de)(de)全(quan)面(mian)框(kuang)架,涉及(ji)持(chi)(chi)續(xu)LLM預(yu)(yu)訓(xun)(xun)練(lian)(lian)、適(shi)應(ying)(ying)和(he)部署,如圖1所示。我們的(de)(de)(de)(de)(de)框(kuang)架與現有研(yan)究(jiu)的(de)(de)(de)(de)(de)不同(tong)之處在(zai)于(yu)(yu)(yu)融入了(le)兩(liang)個(ge)連(lian)續(xu)性(xing)方向:垂直(zhi)連(lian)續(xu)性(xing)和(he)水平(ping)連(lian)續(xu)性(xing)。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我(wo)們(men)根據它(ta)們(men)在我(wo)們(men)提出的(de)現代分(fen)層持續學習(xi)LLMs的(de)更(geng)(geng)廣框架內的(de)位置(zhi),對問題和任務進(jin)行了分(fen)類。雖然這(zhe)一領域(yu)在社(she)區(qu)中的(de)興趣廣泛且(qie)日(ri)益增長(chang),但(dan)我(wo)們(men)也注意到幾個缺失(shi)的(de)基(ji)石(shi),包括(kuo)算(suan)法多樣性以及(ji)對大模型行為(如知(zhi)識(shi)遺(yi)忘、轉移和獲(huo)取)的(de)基(ji)本理(li)解。通過全面而詳(xiang)細的(de)方法,我(wo)們(men)希望這(zhe)篇綜述(shu)能(neng)激勵更(geng)(geng)多從業者探索持續學習(xi)技術,最(zui)終有助(zhu)于構建健壯和自我(wo)進(jin)化的(de)人工智能(neng)系統。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此(ci)外,我們編(bian)制并描述(shu)(shu)了(le)訓練數(shu)據集和評估基準,就性能和計算需求在現(xian)有模型之間進行了(le)比(bi)較。總的(de)來說,這篇綜述(shu)(shu)提(ti)供了(le)當前(qian)藝術狀(zhuang)態(tai)的(de)全面概述(shu)(shu),為(wei)未(wei)來MLLMs的(de)發展奠定了(le)基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這(zhe)(zhe)(zhe)一進步(bu)很(hen)大(da)程度上歸功(gong)于操作符的(de)(de)(de)(de)多(duo)(duo)功(gong)能性(xing)和(he)(he)架構的(de)(de)(de)(de)適應性(xing)。最(zui)初(chu),這(zhe)(zhe)(zhe)一突破被(bei)用(yong)于語(yu)(yu)言(yan)(yan)特(te)定模(mo)(mo)(mo)(mo)(mo)型(xing)(Devlin et al., 2018; Brown et al., 2020),但(dan)很(hen)快(kuai)擴展(zhan)到(dao)支持視(shi)(shi)覺(jue)處理(li)骨干(Dosovitskiy et al., 2021),最(zui)終用(yong)于集成多(duo)(duo)種(zhong)模(mo)(mo)(mo)(mo)(mo)態(tai)的(de)(de)(de)(de)模(mo)(mo)(mo)(mo)(mo)型(xing)(Radford et al., 2021)。復雜(za)大(da)型(xing)語(yu)(yu)言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)型(xing)(LLMs)的(de)(de)(de)(de)涌現,特(te)別是(shi)它(ta)們(men)(men)進行(xing)上下文學習的(de)(de)(de)(de)能力,鼓勵研究人員將這(zhe)(zhe)(zhe)些(xie)模(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)應用(yong)范圍拓寬到(dao)多(duo)(duo)模(mo)(mo)(mo)(mo)(mo)態(tai),包括作為輸入和(he)(he)輸出(chu)。這(zhe)(zhe)(zhe)一擴展(zhan)導致(zhi)了如GPT-4V(Achiam et al., 2023)和(he)(he)Gemini(Anil et al., 2023)等(deng)尖(jian)端模(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)開發(fa),展(zhan)示了最(zui)先進的(de)(de)(de)(de)性(xing)能。多(duo)(duo)模(mo)(mo)(mo)(mo)(mo)態(tai)大(da)型(xing)語(yu)(yu)言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)型(xing)(MLLMs)的(de)(de)(de)(de)開發(fa)涉及(ji)將視(shi)(shi)覺(jue)和(he)(he)語(yu)(yu)言(yan)(yan)的(de)(de)(de)(de)單模(mo)(mo)(mo)(mo)(mo)態(tai)架構合并(bing),通過(guo)視(shi)(shi)覺(jue)到(dao)語(yu)(yu)言(yan)(yan)的(de)(de)(de)(de)適配(pei)器(qi)建立它(ta)們(men)(men)之間的(de)(de)(de)(de)有效連接,并(bing)設計創新的(de)(de)(de)(de)訓練(lian)方(fang)(fang)法(fa)(fa)。這(zhe)(zhe)(zhe)些(xie)方(fang)(fang)法(fa)(fa)對(dui)于確(que)(que)保模(mo)(mo)(mo)(mo)(mo)態(tai)對(dui)齊和(he)(he)準確(que)(que)遵(zun)循指令(ling)的(de)(de)(de)(de)能力至關(guan)重(zhong)要。在(zai)(zai)新模(mo)(mo)(mo)(mo)(mo)型(xing)快(kuai)速發(fa)布的(de)(de)(de)(de)背(bei)景下,我(wo)們(men)(men)的(de)(de)(de)(de)目標是(shi)提供關(guan)于MLLM領(ling)域的(de)(de)(de)(de)全面概述,重(zhong)點關(guan)注利用(yong)視(shi)(shi)覺(jue)模(mo)(mo)(mo)(mo)(mo)態(tai)的(de)(de)(de)(de)模(mo)(mo)(mo)(mo)(mo)型(xing)。這(zhe)(zhe)(zhe)一概述既是(shi)對(dui)當前狀態(tai)的(de)(de)(de)(de)更(geng)新,也是(shi)對(dui)未來(lai)(lai)發(fa)展(zhan)的(de)(de)(de)(de)靈感(gan)來(lai)(lai)源。我(wo)們(men)(men)確(que)(que)定了定義這(zhe)(zhe)(zhe)些(xie)模(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)三個(ge)核心(xin)方(fang)(fang)面:它(ta)們(men)(men)的(de)(de)(de)(de)架構、訓練(lian)方(fang)(fang)法(fa)(fa)以及(ji)它(ta)們(men)(men)被(bei)設計來(lai)(lai)執行(xing)的(de)(de)(de)(de)任務。我(wo)們(men)(men)首先詳細介(jie)紹(shao)了流行(xing)的(de)(de)(de)(de)視(shi)(shi)覺(jue)編(bian)碼(ma)器(qi)選擇和(he)(he)為LLMs裝備跨模(mo)(mo)(mo)(mo)(mo)態(tai)能力的(de)(de)(de)(de)適配(pei)器(qi)模(mo)(mo)(mo)(mo)(mo)塊。接著,我(wo)們(men)(men)深(shen)入訓練(lian)過(guo)程和(he)(he)使(shi)用(yong)的(de)(de)(de)(de)數(shu)據。然后(hou),我(wo)們(men)(men)探索(suo)MLLMs處理(li)的(de)(de)(de)(de)任務范圍。綜述以對(dui)該(gai)領(ling)域持續存在(zai)(zai)的(de)(de)(de)(de)挑戰和(he)(he)未來(lai)(lai)研究的(de)(de)(de)(de)有希(xi)望方(fang)(fang)向(xiang)的(de)(de)(de)(de)討論結束。關(guan)于訓練(lian)數(shu)據、評估(gu)數(shu)據集以及(ji)性(xing)能和(he)(he)計算要求的(de)(de)(de)(de)進一步(bu)細節在(zai)(zai)補充材料中(zhong)報(bao)告(gao)。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在(zai)(zai)(zai)MLLM中,一(yi)(yi)(yi)個(ge)(ge)關(guan)鍵組件是(shi)(shi)(shi)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi),它專門設計(ji)用于為(wei)LLM提(ti)供提(ti)取(qu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)特征。通(tong)常(chang)(chang)采用凍(dong)(dong)結(jie)的(de)(de)(de)(de)(de)(de)(de)(de)(de)預訓(xun)(xun)練視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi),同時(shi)只訓(xun)(xun)練一(yi)(yi)(yi)個(ge)(ge)可(ke)(ke)(ke)學習的(de)(de)(de)(de)(de)(de)(de)(de)(de)接口,將(jiang)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)特征與底層(ceng)LLM連接起來(lai)。最常(chang)(chang)用的(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)基于預訓(xun)(xun)練的(de)(de)(de)(de)(de)(de)(de)(de)(de)Vision Transformer(ViT)模(mo)(mo)型,具有CLIP-based目(mu)標,以利用CLIP嵌入的(de)(de)(de)(de)(de)(de)(de)(de)(de)固有對(dui)齊。流行的(de)(de)(de)(de)(de)(de)(de)(de)(de)選擇包(bao)括(kuo)CLIP(Radford等(deng)人(ren)(ren)(ren)(ren),2021)的(de)(de)(de)(de)(de)(de)(de)(de)(de)ViT-L模(mo)(mo)型,OpenCLIP(Wortsman等(deng)人(ren)(ren)(ren)(ren),2022)的(de)(de)(de)(de)(de)(de)(de)(de)(de)ViT-H主(zhu)干,以及EVA-CLIP(Fang等(deng)人(ren)(ren)(ren)(ren),2023)的(de)(de)(de)(de)(de)(de)(de)(de)(de)ViT-g版本(ben)。CLIP和(he)OpenCLIP編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)在(zai)(zai)(zai)從(cong)網絡收集(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)圖(tu)像(xiang)(xiang)上訓(xun)(xun)練,采用對(dui)比方法(fa)(fa)對(dui)正(zheng)確(que)的(de)(de)(de)(de)(de)(de)(de)(de)(de)圖(tu)像(xiang)(xiang)-文(wen)(wen)本(ben)對(dui)進行對(dui)齊。相(xiang)反,EVA-CLIP是(shi)(shi)(shi)一(yi)(yi)(yi)系列模(mo)(mo)型,提(ti)供了(le)訓(xun)(xun)練CLIP模(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)(de)(de)實用有效解(jie)(jie)決方案。特別(bie)是(shi)(shi)(shi),EVA模(mo)(mo)型預訓(xun)(xun)練為(wei)重建被(bei)遮(zhe)擋的(de)(de)(de)(de)(de)(de)(de)(de)(de)圖(tu)像(xiang)(xiang)-文(wen)(wen)本(ben)對(dui)齊視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)特征,條件是(shi)(shi)(shi)可(ke)(ke)(ke)見(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)圖(tu)像(xiang)(xiang)塊。 正(zheng)如(Li等(deng)人(ren)(ren)(ren)(ren),2023f)所示,更強大(da)的(de)(de)(de)(de)(de)(de)(de)(de)(de)圖(tu)像(xiang)(xiang)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)導致更好的(de)(de)(de)(de)(de)(de)(de)(de)(de)性(xing)能(neng)。基于這(zhe)一(yi)(yi)(yi)見(jian)解(jie)(jie),Lin等(deng)人(ren)(ren)(ren)(ren)(2023b)和(he)Gao等(deng)人(ren)(ren)(ren)(ren)(2024)提(ti)出(chu)了(le)一(yi)(yi)(yi)個(ge)(ge)凍(dong)(dong)結(jie)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)主(zhu)干的(de)(de)(de)(de)(de)(de)(de)(de)(de)集(ji)合(he),以捕獲魯棒(bang)的(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)表(biao)(biao)示和(he)不同級別(bie)的(de)(de)(de)(de)(de)(de)(de)(de)(de)信(xin)息粒度。同時(shi),PaLI模(mo)(mo)型(Chen等(deng)人(ren)(ren)(ren)(ren),2023i,g),注意到語(yu)言和(he)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)參數之間(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)不平衡,分別(bie)提(ti)出(chu)將(jiang)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)主(zhu)干擴展到4億(yi)和(he)220億(yi)參數的(de)(de)(de)(de)(de)(de)(de)(de)(de)ViT。使用如此大(da)且(qie)強大(da)的(de)(de)(de)(de)(de)(de)(de)(de)(de)模(mo)(mo)型是(shi)(shi)(shi)通(tong)過在(zai)(zai)(zai)訓(xun)(xun)練期間(jian)保持(chi)(chi)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)凍(dong)(dong)結(jie)的(de)(de)(de)(de)(de)(de)(de)(de)(de)常(chang)(chang)見(jian)做(zuo)法(fa)(fa)變得可(ke)(ke)(ke)行的(de)(de)(de)(de)(de)(de)(de)(de)(de),如(Li等(deng)人(ren)(ren)(ren)(ren),2023f;Huang等(deng)人(ren)(ren)(ren)(ren),2023a;Gao等(deng)人(ren)(ren)(ren)(ren),2023;Chen等(deng)人(ren)(ren)(ren)(ren),2023f)中所觀察(cha)到的(de)(de)(de)(de)(de)(de)(de)(de)(de)。然而,使用凍(dong)(dong)結(jie)的(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)有一(yi)(yi)(yi)些局限性(xing),主(zhu)要(yao)是(shi)(shi)(shi)由于參數數量(liang)有限,導致視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)和(he)語(yu)言模(mo)(mo)態(tai)之間(jian)對(dui)齊不足。具體來(lai)說,從(cong)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)模(mo)(mo)型提(ti)取(qu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)密集(ji)特征可(ke)(ke)(ke)能(neng)會碎片化細粒度圖(tu)像(xiang)(xiang)信(xin)息,并由于輸入語(yu)言模(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)(de)(de)長序(xu)列而帶來(lai)大(da)量(liang)計(ji)算。為(wei)了(le)緩解(jie)(jie)這(zhe)個(ge)(ge)問題,其他方法(fa)(fa)(Ye等(deng)人(ren)(ren)(ren)(ren),2023c,d)采用兩階(jie)段訓(xun)(xun)練范式。在(zai)(zai)(zai)第一(yi)(yi)(yi)階(jie)段,他們結(jie)合(he)了(le)可(ke)(ke)(ke)訓(xun)(xun)練的(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)主(zhu)干,同時(shi)保持(chi)(chi)預訓(xun)(xun)練的(de)(de)(de)(de)(de)(de)(de)(de)(de)LLM凍(dong)(dong)結(jie)。根(gen)據他們的(de)(de)(de)(de)(de)(de)(de)(de)(de)發現,使視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)編(bian)(bian)(bian)碼(ma)(ma)器(qi)(qi)可(ke)(ke)(ke)訓(xun)(xun)練可(ke)(ke)(ke)以提(ti)高(gao)諸如視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)問題回答(da)或視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)描述等(deng)任務的(de)(de)(de)(de)(de)(de)(de)(de)(de)性(xing)能(neng)。然而,它可(ke)(ke)(ke)能(neng)導致其他任務的(de)(de)(de)(de)(de)(de)(de)(de)(de)性(xing)能(neng)下降,表(biao)(biao)明一(yi)(yi)(yi)定程度的(de)(de)(de)(de)(de)(de)(de)(de)(de)遺忘和(he)對(dui)通(tong)用視(shi)(shi)(shi)(shi)(shi)覺(jue)(jue)(jue)(jue)(jue)表(biao)(biao)示的(de)(de)(de)(de)(de)(de)(de)(de)(de)損害(hai)。
視覺到語言的適配器
來(lai)自不同(tong)模(mo)(mo)(mo)(mo)態的(de)(de)(de)(de)(de)(de)(de)(de)輸入(ru)的(de)(de)(de)(de)(de)(de)(de)(de)同(tong)時存在(zai)(zai)(zai)強調了(le)(le)(le)(le)(le)需要納入(ru)一個(ge)(ge)能(neng)夠勾畫出(chu)(chu)這(zhe)些(xie)單(dan)模(mo)(mo)(mo)(mo)態領域(yu)內潛在(zai)(zai)(zai)對應(ying)(ying)關系的(de)(de)(de)(de)(de)(de)(de)(de)模(mo)(mo)(mo)(mo)塊(kuai)(kuai)的(de)(de)(de)(de)(de)(de)(de)(de)必要性(xing)。這(zhe)些(xie)模(mo)(mo)(mo)(mo)塊(kuai)(kuai),稱為(wei)(wei)“適(shi)(shi)(shi)配器”,旨(zhi)在(zai)(zai)(zai)促進視(shi)覺(jue)(jue)和(he)文(wen)(wen)(wen)本(ben)領域(yu)之(zhi)間的(de)(de)(de)(de)(de)(de)(de)(de)互(hu)(hu)操作性(xing)。在(zai)(zai)(zai)常(chang)見的(de)(de)(de)(de)(de)(de)(de)(de)MLLM中(zhong)使(shi)(shi)用(yong)了(le)(le)(le)(le)(le)不同(tong)適(shi)(shi)(shi)配器的(de)(de)(de)(de)(de)(de)(de)(de)范(fan)圍(wei),從(cong)基本(ben)架構(gou)(如線(xian)性(xing)層(ceng)(ceng)(ceng)或(huo)MLP)到高級(ji)方(fang)(fang)(fang)法(fa)(fa)(fa)(如基于Transformer的(de)(de)(de)(de)(de)(de)(de)(de)解(jie)決方(fang)(fang)(fang)案(an)),如Q-Former模(mo)(mo)(mo)(mo)型(xing),以及添加到LLM的(de)(de)(de)(de)(de)(de)(de)(de)條件(jian)交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)層(ceng)(ceng)(ceng)。線(xian)性(xing)和(he)MLP投影。將(jiang)視(shi)覺(jue)(jue)輸入(ru)投影到文(wen)(wen)(wen)本(ben)嵌入(ru)中(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)最直接(jie)(jie)方(fang)(fang)(fang)法(fa)(fa)(fa)涉及學習(xi)線(xian)性(xing)映(ying)射,將(jiang)視(shi)覺(jue)(jue)特征(zheng)(zheng)轉換為(wei)(wei)與(yu)文(wen)(wen)(wen)本(ben)對應(ying)(ying)部分相同(tong)的(de)(de)(de)(de)(de)(de)(de)(de)維度(du)(du)。一些(xie)方(fang)(fang)(fang)法(fa)(fa)(fa),如LLaMA-Adapter(Gao等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023)和(he)FROMAGe(Koh等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023b)只使(shi)(shi)用(yong)單(dan)個(ge)(ge)線(xian)性(xing)層(ceng)(ceng)(ceng)來(lai)執行多(duo)模(mo)(mo)(mo)(mo)態連接(jie)(jie),而(er)(er)LLaVA-1.5(Liu等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023d)采(cai)用(yong)了(le)(le)(le)(le)(le)兩(liang)層(ceng)(ceng)(ceng)MLP,顯(xian)示(shi)出(chu)(chu)改(gai)進的(de)(de)(de)(de)(de)(de)(de)(de)多(duo)模(mo)(mo)(mo)(mo)態能(neng)力(li)(li)(li)。盡管在(zai)(zai)(zai)早期MLLM中(zhong)廣泛采(cai)用(yong)線(xian)性(xing)投影,但即使(shi)(shi)在(zai)(zai)(zai)對視(shi)覺(jue)(jue)輸入(ru)有(you)(you)更深入(ru)理解(jie)的(de)(de)(de)(de)(de)(de)(de)(de)最新方(fang)(fang)(fang)法(fa)(fa)(fa)中(zhong),線(xian)性(xing)投影的(de)(de)(de)(de)(de)(de)(de)(de)使(shi)(shi)用(yong)也被證明非常(chang)有(you)(you)效(Chen等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023f;Lin等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023a;Wang等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023c;You等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Zhao等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023a)。因此,它(ta)是一種(zhong)(zhong)簡(jian)單(dan)而(er)(er)有(you)(you)效的(de)(de)(de)(de)(de)(de)(de)(de)技術,用(yong)于將(jiang)視(shi)覺(jue)(jue)特征(zheng)(zheng)與(yu)文(wen)(wen)(wen)本(ben)對應(ying)(ying)部分對齊(qi)。不同(tong)的(de)(de)(de)(de)(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa)(fa)(Cha等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023)提(ti)(ti)議用(yong)卷(juan)積層(ceng)(ceng)(ceng)替(ti)(ti)換線(xian)性(xing)層(ceng)(ceng)(ceng),顯(xian)示(shi)出(chu)(chu)適(shi)(shi)(shi)度(du)(du)的(de)(de)(de)(de)(de)(de)(de)(de)改(gai)進。 Q-Former。它(ta)是BLIP-2(Li等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023f)中(zhong)提(ti)(ti)出(chu)(chu)的(de)(de)(de)(de)(de)(de)(de)(de)基于Transformer的(de)(de)(de)(de)(de)(de)(de)(de)模(mo)(mo)(mo)(mo)型(xing),然后在(zai)(zai)(zai)幾種(zhong)(zhong)其(qi)他方(fang)(fang)(fang)法(fa)(fa)(fa)(Chen等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023d;Dai等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Hu等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024)中(zhong)使(shi)(shi)用(yong)。它(ta)的(de)(de)(de)(de)(de)(de)(de)(de)特點是具有(you)(you)可(ke)適(shi)(shi)(shi)應(ying)(ying)的(de)(de)(de)(de)(de)(de)(de)(de)架構(gou),由兩(liang)個(ge)(ge)共享相互(hu)(hu)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)層(ceng)(ceng)(ceng)的(de)(de)(de)(de)(de)(de)(de)(de)Transformer塊(kuai)(kuai)組(zu)成,促進視(shi)覺(jue)(jue)和(he)文(wen)(wen)(wen)本(ben)表(biao)(biao)示(shi)之(zhi)間的(de)(de)(de)(de)(de)(de)(de)(de)對齊(qi)過程。它(ta)涉及一組(zu)可(ke)學習(xi)的(de)(de)(de)(de)(de)(de)(de)(de)查(cha)詢,在(zai)(zai)(zai)自注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)層(ceng)(ceng)(ceng)內部交(jiao)互(hu)(hu),并通(tong)(tong)過交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)機制與(yu)視(shi)覺(jue)(jue)特征(zheng)(zheng)接(jie)(jie)口。文(wen)(wen)(wen)本(ben)和(he)視(shi)覺(jue)(jue)元素通(tong)(tong)過模(mo)(mo)(mo)(mo)塊(kuai)(kuai)內的(de)(de)(de)(de)(de)(de)(de)(de)共享自注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)進行通(tong)(tong)信(xin)。從(cong)Q-Former中(zhong)汲(ji)取靈感,引入(ru)了(le)(le)(le)(le)(le)各種(zhong)(zhong)修改(gai)版本(ben)。在(zai)(zai)(zai)這(zhe)方(fang)(fang)(fang)面,mPLUG-Owl模(mo)(mo)(mo)(mo)型(xing)(Ye等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023c,d)簡(jian)化了(le)(le)(le)(le)(le)Q-Former架構(gou),并提(ti)(ti)出(chu)(chu)了(le)(le)(le)(le)(le)一個(ge)(ge)視(shi)覺(jue)(jue)抽象器組(zu)件(jian),通(tong)(tong)過將(jiang)視(shi)覺(jue)(jue)信(xin)息壓縮(suo)為(wei)(wei)不同(tong)的(de)(de)(de)(de)(de)(de)(de)(de)可(ke)學習(xi)令牌來(lai)操作,以獲得更富語義的(de)(de)(de)(de)(de)(de)(de)(de)視(shi)覺(jue)(jue)表(biao)(biao)示(shi)。同(tong)一線(xian)上,Qwen-VL(Bai等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023b)使(shi)(shi)用(yong)具有(you)(you)可(ke)學習(xi)查(cha)詢的(de)(de)(de)(de)(de)(de)(de)(de)單(dan)層(ceng)(ceng)(ceng)交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)模(mo)(mo)(mo)(mo)塊(kuai)(kuai)壓縮(suo)視(shi)覺(jue)(jue)特征(zheng)(zheng),還(huan)結(jie)合(he)了(le)(le)(le)(le)(le)2D位置編碼。附加交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)層(ceng)(ceng)(ceng)。這(zhe)種(zhong)(zhong)方(fang)(fang)(fang)法(fa)(fa)(fa)在(zai)(zai)(zai)Flamingo(Alayrac等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022)中(zhong)被提(ti)(ti)出(chu)(chu),通(tong)(tong)過在(zai)(zai)(zai)現(xian)有(you)(you)預(yu)訓(xun)練(lian)LLM層(ceng)(ceng)(ceng)中(zhong)集(ji)成密集(ji)交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)塊(kuai)(kuai)。新添加的(de)(de)(de)(de)(de)(de)(de)(de)層(ceng)(ceng)(ceng)通(tong)(tong)常(chang)與(yu)零(ling)初(chu)始化的(de)(de)(de)(de)(de)(de)(de)(de)tanh門(men)控機制結(jie)合(he)使(shi)(shi)用(yong),以確保在(zai)(zai)(zai)初(chu)始化時,條件(jian)模(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)(de)(de)行為(wei)(wei)如其(qi)原(yuan)始版本(ben)。使(shi)(shi)用(yong)附加交(jiao)叉(cha)注(zhu)(zhu)(zhu)意(yi)(yi)(yi)(yi)力(li)(li)(li)層(ceng)(ceng)(ceng)需要從(cong)頭開始訓(xun)練(lian)它(ta)們,與(yu)其(qi)他替(ti)(ti)代方(fang)(fang)(fang)案(an)相比(bi),增加了(le)(le)(le)(le)(le)可(ke)訓(xun)練(lian)參數的(de)(de)(de)(de)(de)(de)(de)(de)數量。為(wei)(wei)了(le)(le)(le)(le)(le)減少(shao)(shao)計算復雜性(xing),這(zhe)種(zhong)(zhong)策略通(tong)(tong)常(chang)與(yu)基于Perceiver的(de)(de)(de)(de)(de)(de)(de)(de)組(zu)件(jian)(Jaegle等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2021)配對使(shi)(shi)用(yong),該組(zu)件(jian)在(zai)(zai)(zai)將(jiang)視(shi)覺(jue)(jue)令牌輸入(ru)LLM之(zhi)前減少(shao)(shao)了(le)(le)(le)(le)(le)它(ta)們的(de)(de)(de)(de)(de)(de)(de)(de)數量。自從(cong)引入(ru)以來(lai),幾個(ge)(ge)模(mo)(mo)(mo)(mo)型(xing)(Awadalla等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Chen等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023b;Lauren?on等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Li等(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023a)采(cai)用(yong)這(zhe)種(zhong)(zhong)技術將(jiang)視(shi)覺(jue)(jue)模(mo)(mo)(mo)(mo)態與(yu)底層(ceng)(ceng)(ceng)LLM連接(jie)(jie)起來(lai),顯(xian)示(shi)出(chu)(chu)提(ti)(ti)高了(le)(le)(le)(le)(le)訓(xun)練(lian)穩定性(xing)和(he)改(gai)善了(le)(le)(le)(le)(le)性(xing)能(neng)。
多模態訓練
從(cong)預(yu)訓(xun)(xun)練(lian)(lian)的(de)(de)(de)(de)(de)LLM開(kai)始,MLLM的(de)(de)(de)(de)(de)訓(xun)(xun)練(lian)(lian)經(jing)歷了單(dan)階段(duan)或兩(liang)階段(duan)過程。在(zai)這(zhe)兩(liang)種情況下,都使用(yong)標準的(de)(de)(de)(de)(de)交(jiao)叉(cha)熵(shang)損(sun)(sun)失來預(yu)測(ce)下一(yi)(yi)個(ge)(ge)令(ling)牌,作為自回歸目標。 單(dan)階段(duan)訓(xun)(xun)練(lian)(lian)。這(zhe)種可能(neng)性(xing)由LLaMA-Adapter(Gao等(deng)(deng)人,2023)探(tan)索(suo),它(ta)引入了額外的(de)(de)(de)(de)(de)可訓(xun)(xun)練(lian)(lian)參數以(yi)(yi)封裝視覺知識并(bing)同時管理僅文(wen)(wen)(wen)本(ben)指令(ling)學習。為了實(shi)現這(zhe)一(yi)(yi)點,模型(xing)使用(yong)圖(tu)像(xiang)(xiang)(xiang)-文(wen)(wen)(wen)本(ben)對和(he)指令(ling)進行(xing)聯合(he)訓(xun)(xun)練(lian)(lian),操作獨立的(de)(de)(de)(de)(de)參數。同時,(Koh等(deng)(deng)人,2023b)中提(ti)出(chu)的(de)(de)(de)(de)(de)模型(xing)通過整(zheng)合(he)兩(liang)個(ge)(ge)對比(bi)損(sun)(sun)失來適應(ying)最終(zhong)損(sun)(sun)失函數,用(yong)于圖(tu)像(xiang)(xiang)(xiang)-文(wen)(wen)(wen)本(ben)檢索(suo)。在(zai)訓(xun)(xun)練(lian)(lian)期間,只(zhi)更新(xin)(xin)三(san)個(ge)(ge)線性(xing)層。另一(yi)(yi)方(fang)面,Kosmos-1(Huang等(deng)(deng)人,2023a)考慮了一(yi)(yi)個(ge)(ge)凍(dong)結的(de)(de)(de)(de)(de)視覺主干(gan),并(bing)從(cong)頭開(kai)始訓(xun)(xun)練(lian)(lian)1.3B參數的(de)(de)(de)(de)(de)語言模型(xing)。 Flamingo(Alayrac等(deng)(deng)人,2022)及(ji)其(qi)開(kai)源變體(Awadalla等(deng)(deng)人,2023;Lauren?on等(deng)(deng)人,2023),相(xiang)反,訓(xun)(xun)練(lian)(lian)交(jiao)叉(cha)注(zhu)意力層和(he)基于Perceiver的(de)(de)(de)(de)(de)組(zu)(zu)件以(yi)(yi)將視覺特征與凍(dong)結的(de)(de)(de)(de)(de)LLM塊(kuai)連接起來。此外,Otter(Li等(deng)(deng)人,2023a)擴展了Flamingo的(de)(de)(de)(de)(de)訓(xun)(xun)練(lian)(lian)以(yi)(yi)增加其(qi)上(shang)下文(wen)(wen)(wen)能(neng)力。 鑒(jian)于目前(qian)可用(yong)的(de)(de)(de)(de)(de)訓(xun)(xun)練(lian)(lian)數據(ju)(ju)量,像(xiang)(xiang)(xiang)SPHINX-X(Gao等(deng)(deng)人,2024)這(zhe)樣(yang)的(de)(de)(de)(de)(de)方(fang)法選擇執(zhi)行(xing)單(dan)一(yi)(yi)的(de)(de)(de)(de)(de)一(yi)(yi)體化訓(xun)(xun)練(lian)(lian)階段(duan),在(zai)此階段(duan)更新(xin)(xin)所有模型(xing)組(zu)(zu)件,可能(neng)還使用(yong)僅文(wen)(wen)(wen)本(ben)數據(ju)(ju)以(yi)(yi)保留LLM的(de)(de)(de)(de)(de)對話能(neng)力。
兩階段訓練。在兩個訓練階段(duan)(duan)中的(de)(de)第(di)一(yi)(yi)個,目標是(shi)將圖像(xiang)特征(zheng)與(yu)文本(ben)嵌(qian)入空(kong)間(jian)對齊(qi)。經過(guo)這一(yi)(yi)階段(duan)(duan)后(hou)(hou),輸出往往是(shi)碎(sui)片(pian)化的(de)(de)且不(bu)連貫的(de)(de)。因此,進行(xing)第(di)二步(bu)以提(ti)高多(duo)(duo)模(mo)(mo)態對話(hua)能(neng)力。LLaVA(Liu等人,2023e,d)是(shi)首批引(yin)入視覺指令遵循(xun)訓練方案的(de)(de)方法之(zhi)一(yi)(yi),作為(wei)第(di)二訓練階段(duan)(duan)執行(xing),更新多(duo)(duo)模(mo)(mo)態適(shi)配器和(he)LLM的(de)(de)參數。在第(di)一(yi)(yi)階段(duan)(duan),相(xiang)反,只有多(duo)(duo)模(mo)(mo)態適(shi)配器是(shi)可(ke)訓練的(de)(de)。不(bu)同(tong)的(de)(de)是(shi),MiniGPT4(Zhu等人,2023a)值得注意(yi)的(de)(de)是(shi),在兩個階段(duan)(duan)中僅(jin)訓練負責多(duo)(duo)模(mo)(mo)態對齊(qi)的(de)(de)線性層。在第(di)二階段(duan)(duan),它使用經過(guo)模(mo)(mo)型(xing)自身(shen)在第(di)一(yi)(yi)階段(duan)(duan)后(hou)(hou)收集和(he)精煉的(de)(de)過(guo)濾數據。
另一種方法,如(ru)InstructBLIP(Dai等人,2023)所示,涉及凍結視覺(jue)編碼器和(he)(he)LLM。在(zai)兩個訓練(lian)階段(duan)(duan)中,只有Q-Former和(he)(he)連(lian)接模(mo)塊是(shi)可訓練(lian)的。與之前保持視覺(jue)主干凍結的方法相(xiang)比(bi),mPLUG-Owl(Ye等人,2023c,d)在(zai)初始階段(duan)(duan)更(geng)新它,便于捕(bu)獲低層(ceng)次(ci)(ci)和(he)(he)高層(ceng)次(ci)(ci)的視覺(jue)信(xin)息。此外(wai),在(zai)第二(er)階段(duan)(duan)聯合使用僅文本(ben)和(he)(he)多模(mo)態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在(zai)兩個階段(duan)(duan)中更(geng)新所有權重,唯一的例(li)外(wai)是(shi)視覺(jue)主干保持凍結。
訓練數據。在第一階段(duan)(或單一階段(duan))訓練中,通(tong)(tong)常使(shi)用(yong)來自不同來源的(de)圖(tu)像-文(wen)本對(dui),使(shi)用(yong)的(de)數(shu)據(ju)(ju)集包括(kuo)LAION-2B(Schuhmann等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2022)、LAION-400M(Schuhmann等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2021)、Conceptual Captions(Sharma等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2018)、COYO-700M(Byeon等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2022)和(he)DataComp(Gadre等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023)。一些方法(fa)(Lin等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023a)將(jiang)這些與(yu)一個或多(duo)個數(shu)據(ju)(ju)集結合使(shi)用(yong),這些數(shu)據(ju)(ju)集的(de)特點是文(wen)本與(yu)圖(tu)像交錯,通(tong)(tong)常從網絡上抓(zhua)取,如WebLI(Chen等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023i)、MMC4(Zhu等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023d)、MMDialog(Feng等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023b)和(he)OBELICS(Lauren?on等(deng)(deng)(deng)(deng)人(ren)(ren)(ren),2023)。
為了(le)(le)解決以前數據集中的(de)(de)(de)(de)偏差和(he)噪(zao)聲(sheng)問題(ti),StableLLaVA(Li等(deng)(deng)人,2023h)引入了(le)(le)在第一階段使用(yong)的(de)(de)(de)(de)新(xin)收(shou)集數據。這(zhe)種方法利用(yong)ChatGPT生成(cheng)(cheng)包含圖像生成(cheng)(cheng)提示和(he)基于內容的(de)(de)(de)(de)對(dui)話的(de)(de)(de)(de)數據,并使用(yong)Stable Diffusion(Rombach等(deng)(deng)人,2022)生成(cheng)(cheng)相應(ying)的(de)(de)(de)(de)圖像。隨后的(de)(de)(de)(de)階段則利用(yong)數據集進行視(shi)覺(jue)(jue)指(zhi)令(ling)調(diao)優。其中,常用(yong)的(de)(de)(de)(de)LLaVA-Instruct(Liu等(deng)(deng)人,2023e)擴展(zhan)了(le)(le)COCO(Lin等(deng)(deng)人,2014)并加入了(le)(le)由GPT-4生成(cheng)(cheng)的(de)(de)(de)(de)指(zhi)令(ling)。遵循(xun)這(zhe)一趨勢,Zhao等(deng)(deng)人(2023a)通過結合(he)手動生成(cheng)(cheng)的(de)(de)(de)(de)數據和(he)高質(zhi)量(liang)多(duo)樣性的(de)(de)(de)(de)數據,擴大了(le)(le)尺寸。此(ci)外,還提出了(le)(le)其他多(duo)輪對(dui)話數據集,如(ru)(Dai等(deng)(deng)人,2023)中介紹的(de)(de)(de)(de)將26個公開(kai)可用(yong)數據集轉換(huan)為其視(shi)覺(jue)(jue)指(zhi)令(ling)遵循(xun)版本(ben)的(de)(de)(de)(de)數據集,LRV-Instruction(Liu等(deng)(deng)人,2023c)旨在通過更穩健的(de)(de)(de)(de)指(zhi)令(ling)減少幻(huan)覺(jue)(jue),而(er)LLaVAR(Zhang等(deng)(deng)人,2023h)則專(zhuan)注于文本(ben)豐富的(de)(de)(de)(de)圖像。
用多模態大型語言模型處理視覺任務
標準的(de)(de)多模(mo)態大(da)型語言模(mo)型可(ke)以處理(li)視(shi)覺理(li)解任務,例如(ru)視(shi)覺問答(VQA)、圖像描(miao)述和多輪(lun)對(dui)話。然(ran)而(er),最近(jin)對(dui)處理(li)更細粒度(du)的(de)(de)視(shi)覺任務,如(ru)視(shi)覺定位和圖像生成,有了更大(da)的(de)(de)興(xing)趣。
結論與未來方向
在(zai)(zai)(zai)本(ben)綜述中(zhong),我們(men)提供(gong)了最近(jin)多模(mo)(mo)(mo)(mo)態(tai)大(da)型(xing)語言模(mo)(mo)(mo)(mo)型(xing)(MLLMs)進化的(de)(de)(de)全(quan)面概(gai)述,首先關注如何為(wei)LLMs裝備多模(mo)(mo)(mo)(mo)態(tai)能力,然后探討這(zhe)些模(mo)(mo)(mo)(mo)型(xing)處理(li)的(de)(de)(de)主要(yao)(yao)任務。基于所呈(cheng)現的(de)(de)(de)分(fen)析(xi),以下我們(men)概(gai)述了重要(yao)(yao)的(de)(de)(de)開放挑戰和(he)(he)(he)有(you)(you)前(qian)景(jing)的(de)(de)(de)未來(lai)研究(jiu)方向,以進一(yi)步增強MLLMs的(de)(de)(de)能力。 修正(zheng)幻(huan)覺現象。幾項研究(jiu)(Liu等(deng)(deng)(deng)人(ren),2023b;Zhu等(deng)(deng)(deng)人(ren),2023a)表明(ming)MLLMs傾向于展(zhan)現高幻(huan)覺率,特別(bie)是(shi)(shi)(shi)在(zai)(zai)(zai)生(sheng)成(cheng)較長(chang)的(de)(de)(de)描述時。盡(jin)管一(yi)些解(jie)決(jue)方案正(zheng)在(zai)(zai)(zai)出現以緩解(jie)這(zhe)個問題(ti)(Liu等(deng)(deng)(deng)人(ren),2023b;Wang等(deng)(deng)(deng)人(ren),2023a;Wu等(deng)(deng)(deng)人(ren),2023c;Yin等(deng)(deng)(deng)人(ren),2023a),但(dan)理(li)解(jie)和(he)(he)(he)糾正(zheng)幻(huan)覺的(de)(de)(de)根本(ben)原因仍然是(shi)(shi)(shi)一(yi)個重要(yao)(yao)的(de)(de)(de)開放挑戰,值得解(jie)決(jue),以允(yun)許這(zhe)些模(mo)(mo)(mo)(mo)型(xing)在(zai)(zai)(zai)更關鍵的(de)(de)(de)背景(jing)中(zhong)(例如,醫(yi)學)應用,并保(bao)證它(ta)們(men)的(de)(de)(de)準(zhun)確性(xing)和(he)(he)(he)可信度。 預防(fang)有(you)(you)害和(he)(he)(he)有(you)(you)偏見(jian)的(de)(de)(de)生(sheng)成(cheng)。確保(bao)大(da)規模(mo)(mo)(mo)(mo)模(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)安(an)全(quan)性(xing)和(he)(he)(he)公平性(xing)是(shi)(shi)(shi)社區的(de)(de)(de)基本(ben)興(xing)趣。近(jin)期(qi)工(gong)作表明(ming),基于網(wang)絡爬取(qu)數據訓(xun)練(lian)的(de)(de)(de)模(mo)(mo)(mo)(mo)型(xing)傾向于生(sheng)成(cheng)不適當和(he)(he)(he)有(you)(you)偏見(jian)的(de)(de)(de)內容(rong)。盡(jin)管最近(jin)正(zheng)在(zai)(zai)(zai)努力在(zai)(zai)(zai)文本(ben)到圖像生(sheng)成(cheng)模(mo)(mo)(mo)(mo)型(xing)中(zhong)減(jian)少(shao)這(zhe)種現象(Schramowski等(deng)(deng)(deng)人(ren),2023;Friedrich等(deng)(deng)(deng)人(ren),2023),但(dan)需(xu)(xu)(xu)要(yao)(yao)進一(yi)步探索以防(fang)止MLLMs中(zhong)出現相同的(de)(de)(de)行為(wei)(Pi等(deng)(deng)(deng)人(ren),2024)。 減(jian)少(shao)計算負荷。如補(bu)充材料所示,MLLMs高度依賴于計算。需(xu)(xu)(xu)要(yao)(yao)有(you)(you)效(xiao)的(de)(de)(de)策略(Chu等(deng)(deng)(deng)人(ren),2024)來(lai)減(jian)少(shao)計算需(xu)(xu)(xu)求,使MLLMs的(de)(de)(de)開發(fa)更加(jia)易(yi)于獲(huo)取(qu)。可能的(de)(de)(de)方向包括減(jian)少(shao)訓(xun)練(lian)要(yao)(yao)求,無論是(shi)(shi)(shi)在(zai)(zai)(zai)模(mo)(mo)(mo)(mo)型(xing)規模(mo)(mo)(mo)(mo)還是(shi)(shi)(shi)數據量(liang)方面,以及(ji)優(you)化推(tui)理(li)階段。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為(wei)了讓研究人員(yuan)了解(jie)最新的研究,我們維護(hu)一個開源(yuan)的GitHub倉庫,致力于概述基(ji)于LLM的多(duo)智能體(ti)系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這(zhe)種能(neng)力完全符(fu)合人(ren)類對能(neng)夠感知周(zhou)圍環境、做(zuo)出(chu)決策(ce)并作出(chu)響應的(de)(de)(de)(de)自主(zhu)智(zhi)能(neng)體(ti)的(de)(de)(de)(de)期待[Xi等,2023;Wooldridge和(he)Jennings,1995;Russell和(he)Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的(de)(de)(de)(de)智(zhi)能(neng)體(ti)已被研究和(he)快速(su)發展,以理(li)解和(he)生成(cheng)類似人(ren)類的(de)(de)(de)(de)指令,促進在(zai)廣泛的(de)(de)(de)(de)上(shang)下文中(zhong)進行復(fu)雜的(de)(de)(de)(de)互動和(he)決策(ce)[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的(de)(de)(de)(de)綜(zong)述文章系統地(di)總(zong)結了(le)基于LLM的(de)(de)(de)(de)智(zhi)能(neng)體(ti)的(de)(de)(de)(de)進展,如在(zai)文獻[Xi等,2023;Wang等,2023b]中(zhong)所見(jian)。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使(shi)(shi)(shi)用(yong)單一(yi)LLM驅(qu)動(dong)(dong)的(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)的(de)(de)系(xi)統相(xiang)比,多(duo)(duo)智(zhi)能(neng)(neng)(neng)(neng)體(ti)系(xi)統通過1) 將LLMs專業化為具(ju)有不同能(neng)(neng)(neng)(neng)力的(de)(de)各(ge)種(zhong)(zhong)不同智(zhi)能(neng)(neng)(neng)(neng)體(ti),以及(ji)2) 使(shi)(shi)(shi)這些多(duo)(duo)樣化的(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)之間(jian)進(jin)行互動(dong)(dong),有效地模擬復雜的(de)(de)現實世界環境,提供(gong)了(le)先進(jin)的(de)(de)能(neng)(neng)(neng)(neng)力。在這一(yi)背(bei)景下,多(duo)(duo)個自(zi)主(zhu)智(zhi)能(neng)(neng)(neng)(neng)體(ti)協作(zuo)參(can)與規劃(hua)、討(tao)論和(he)決(jue)策,反映了(le)人(ren)類團(tuan)隊工(gong)作(zuo)在解決(jue)問題任(ren)務中的(de)(de)合作(zuo)本(ben)質(zhi)。這種(zhong)(zhong)方法利用(yong)了(le)LLMs的(de)(de)溝(gou)通能(neng)(neng)(neng)(neng)力,借助(zhu)它(ta)們(men)生成文本(ben)進(jin)行交流和(he)對文本(ben)輸入的(de)(de)響應能(neng)(neng)(neng)(neng)力。此外(wai),它(ta)利用(yong)了(le)LLMs在各(ge)個領(ling)域的(de)(de)廣泛知(zhi)識和(he)專門化特定任(ren)務的(de)(de)潛力。最近的(de)(de)研(yan)究已經展(zhan)示了(le)使(shi)(shi)(shi)用(yong)基于LLM的(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)(neng)體(ti)解決(jue)各(ge)種(zhong)(zhong)任(ren)務的(de)(de)有希(xi)望的(de)(de)結果,如軟件(jian)開(kai)發[Hong等(deng),2023; Qian等(deng),2023]、多(duo)(duo)機(ji)器人(ren)系(xi)統[Mandi等(deng),2023; Zhang等(deng),2023c]、社(she)會模擬[Park等(deng),2023; Park等(deng),2022]、政策模擬[Xiao等(deng),2023; Hua等(deng),2023]以及(ji)游戲模擬[Xu等(deng),2023c; Wang等(deng),2023c]。由于這個領(ling)域的(de)(de)跨學科研(yan)究性質(zhi),它(ta)吸引了(le)來自(zi)社(she)會科學、心理學和(he)政策研(yan)究等(deng)不同背(bei)景的(de)(de)研(yan)究者,研(yan)究論文的(de)(de)數量正在迅速增加(jia),如圖1所示(受(shou)[Gao等(deng),2023b]設計的(de)(de)啟發),從(cong)而擴(kuo)大了(le)基于LLM的(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)(neng)體(ti)研(yan)究的(de)(de)影響。盡管如此,早(zao)期的(de)(de)工(gong)作(zuo)是獨立(li)進(jin)行的(de)(de),導致(zhi)缺乏系(xi)統回顧以總結它(ta)們(men),建(jian)立(li)這個領(ling)域的(de)(de)全(quan)面藍圖,并檢查未來的(de)(de)研(yan)究挑戰。這強調了(le)我們(men)工(gong)作(zuo)的(de)(de)重(zhong)要性,并作(zuo)為呈現這篇綜述(shu)論文的(de)(de)動(dong)(dong)機(ji),致(zhi)力于基于LLM的(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)(neng)體(ti)系(xi)統的(de)(de)研(yan)究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者(zhe)將獲得關于(yu)基于(yu)LLM的(de)多智能體(LLM-MA)系(xi)(xi)統的(de)全面概覽,把握基于(yu)LLMs建(jian)立(li)多智能體系(xi)(xi)統所涉及的(de)基本概念,并(bing)(bing)捕(bu)捉到(dao)這一(yi)(yi)動態(tai)領域中最新(xin)(xin)的(de)研究(jiu)趨勢和應用。我們認識到(dao)這個(ge)(ge)領域正處于(yu)初級階(jie)段,并(bing)(bing)且隨著新(xin)(xin)方(fang)法和應用的(de)迅速發(fa)展。為了(le)提(ti)供一(yi)(yi)種持(chi)續的(de)資源(yuan)來補充我們的(de)綜述論文,我們維護了(le)一(yi)(yi)個(ge)(ge)開源(yuan)的(de)GitHub倉庫。我們希望我們的(de)綜述能激發(fa)進一(yi)(yi)步的(de)探索(suo)和創新(xin)(xin),以及在廣(guang)泛(fan)的(de)研究(jiu)領域中的(de)應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第(di)2節中闡述背景知(zhi)識(shi)后(hou),我們(men)提出了(le)(le)一個(ge)(ge)關鍵(jian)問題(ti):LLM-MA系(xi)(xi)統如(ru)何與協(xie)作(zuo)任(ren)務(wu)解決(jue)環(huan)境(jing)對(dui)齊(qi)?為(wei)了(le)(le)回答這個(ge)(ge)問題(ti),我們(men)在第(di)3節提出了(le)(le)一個(ge)(ge)全面的(de)框(kuang)架,用于定位(wei)、區分和(he)連接LLM-MA系(xi)(xi)統的(de)各個(ge)(ge)方面。我們(men)通過討(tao)論(lun): 1)智能(neng)(neng)體(ti)(ti)-環(huan)境(jing)界面,詳細說明智能(neng)(neng)體(ti)(ti)如(ru)何與任(ren)務(wu)環(huan)境(jing)互動; 2)智能(neng)(neng)體(ti)(ti)輪(lun)廓,解釋一個(ge)(ge)智能(neng)(neng)體(ti)(ti)如(ru)何被LLM描述以以特(te)定方式行(xing)為(wei); 3)智能(neng)(neng)體(ti)(ti)通信,考察智能(neng)(neng)體(ti)(ti)如(ru)何交換信息和(he)協(xie)作(zuo);以及(ji) 4)智能(neng)(neng)體(ti)(ti)能(neng)(neng)力獲取,探索智能(neng)(neng)體(ti)(ti)如(ru)何發展(zhan)其解決(jue)問題(ti)的(de)能(neng)(neng)力。
關于(yu)(yu)LLM-MA研究(jiu)的(de)另一個視角是它(ta)們(men)(men)的(de)應用。在第4節,我們(men)(men)將(jiang)當前(qian)應用分為兩個主(zhu)要流:用于(yu)(yu)問題解決的(de)多智能體和(he)(he)用于(yu)(yu)世界模擬的(de)多智能體。為了(le)指導個人識別合(he)適的(de)工具和(he)(he)資(zi)源,我們(men)(men)在第5節提出了(le)用于(yu)(yu)研究(jiu)LLM-MA的(de)開源實現(xian)框架(jia),以及可用的(de)數(shu)據集和(he)(he)基(ji)準。基(ji)于(yu)(yu)前(qian)面(mian)的(de)總結,我們(men)(men)在第6節開放(fang)了(le)對(dui)未(wei)來(lai)研究(jiu)挑戰和(he)(he)機會的(de)討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是(shi)一個(ge)(ge)快速發展的研(yan)究(jiu)領(ling)域(yu),幾乎每(mei)天都有新應用出(chu)現(xian)。我們維護一個(ge)(ge)開源(yuan)倉庫(ku)來報告最(zui)新的工作。
使用(yong)(yong)LLM-MA進(jin)行(xing)(xing)問題(ti)(ti)解(jie)決的(de)(de)主要(yao)動機是(shi)利用(yong)(yong)具(ju)有專門專業知(zhi)識的(de)(de)智能(neng)體(ti)(ti)(ti)的(de)(de)集(ji)體(ti)(ti)(ti)能(neng)力。這些智能(neng)體(ti)(ti)(ti),每個都作為個體(ti)(ti)(ti)行(xing)(xing)動,協作以有效地解(jie)決復雜問題(ti)(ti),例如(ru)軟件開(kai)發、具(ju)體(ti)(ti)(ti)化智能(neng)體(ti)(ti)(ti)、科學(xue)(xue)實驗和科學(xue)(xue)辯論(lun)。 LLM-MA的(de)(de)另(ling)一個主流應用(yong)(yong)場景是(shi)世(shi)(shi)界(jie)模擬(ni)(ni)。這一領域(yu)的(de)(de)研(yan)究正(zheng)在(zai)迅速增長,涵(han)蓋了包括社會(hui)科學(xue)(xue)、游戲(xi)、心(xin)理(li)學(xue)(xue)、經(jing)濟學(xue)(xue)、政策(ce)制定(ding)等在(zai)內的(de)(de)多種領域(yu)。在(zai)世(shi)(shi)界(jie)模擬(ni)(ni)中使用(yong)(yong)LLM-MA的(de)(de)關鍵原(yuan)因在(zai)于(yu)(yu)它們(men)出色(se)(se)的(de)(de)角(jiao)色(se)(se)扮演能(neng)力,這對于(yu)(yu)現實地描繪模擬(ni)(ni)世(shi)(shi)界(jie)中的(de)(de)各種角(jiao)色(se)(se)和觀點至關重要(yao)。世(shi)(shi)界(jie)模擬(ni)(ni)項(xiang)目的(de)(de)環(huan)境通常被設計來(lai)反映(ying)被模擬(ni)(ni)的(de)(de)特定(ding)場景,智能(neng)體(ti)(ti)(ti)以各種輪廓設計以匹配這一背景。與專注(zhu)于(yu)(yu)智能(neng)體(ti)(ti)(ti)合作的(de)(de)問題(ti)(ti)解(jie)決系統不(bu)同,世(shi)(shi)界(jie)模擬(ni)(ni)系統涉及多種智能(neng)體(ti)(ti)(ti)管理(li)和通信方法,反映(ying)了現實世(shi)(shi)界(jie)交互的(de)(de)復雜性和多樣性。
結論
基于LLM的(de)(de)(de)多(duo)(duo)智能(neng)體展現了激勵人(ren)心(xin)的(de)(de)(de)集體智能(neng),并迅速在(zai)(zai)研(yan)(yan)(yan)究者中獲得了越來(lai)越多(duo)(duo)的(de)(de)(de)興趣(qu)。在(zai)(zai)這(zhe)篇(pian)綜(zong)(zong)述中,我(wo)們(men)(men)首先系統回顧了LLM-MA系統的(de)(de)(de)發展,通過(guo)從(cong)不同方面(mian)(mian)定位、區分和(he)(he)連接它(ta)們(men)(men),涉及智能(neng)體-環境界面(mian)(mian)、LLMs對(dui)智能(neng)體的(de)(de)(de)描述、管理智能(neng)體通信的(de)(de)(de)策(ce)略以(yi)及能(neng)力(li)獲取的(de)(de)(de)范式。我(wo)們(men)(men)還(huan)總(zong)結了LLM-MA在(zai)(zai)問題解決和(he)(he)世界模擬中的(de)(de)(de)應用。通過(guo)突出常(chang)用的(de)(de)(de)數據集和(he)(he)基準,并討論挑(tiao)戰和(he)(he)未來(lai)機會,我(wo)們(men)(men)希望這(zhe)篇(pian)綜(zong)(zong)述能(neng)成為各個研(yan)(yan)(yan)究領域(yu)的(de)(de)(de)研(yan)(yan)(yan)究者們(men)(men)的(de)(de)(de)有用資源(yuan),激發未來(lai)的(de)(de)(de)研(yan)(yan)(yan)究去(qu)探索(suo)基于LLM的(de)(de)(de)多(duo)(duo)智能(neng)體的(de)(de)(de)潛力(li)。
生成預訓練變換器(GPT)在自然語言處理領域代表了一項顯著的突破,它正在推動我們向開發能夠以接近人類的方式理解和使用語言的機器發展。GPT基于變換器架構,這是一種為自然語言處理任務設計的深度神經網絡。由于它們在自然語言處理任務上的卓越表現以及有效的對話能力,GPT在研究者和工業界得到了顯著的關注,使它們成為自然語言處理及相關領域中最廣泛使用和最有效的模型之一,這促使我們進行了這項調研。這篇綜述為GPT提供了詳細的概述,包括它的架構、工作過程、訓練程序、啟用技術以及它對各種應用的影響。在這篇綜述中,我們也探討了GPT的潛在挑戰和限制。此外,我們討論了可能的解決方案和未來的方向。總的來說,這篇文章旨在提供對GPT、啟用技術、它們對各種應用的影響、新出現的挑戰以及潛在解決方案的全面理解。 1. 引言
語言是人類交流的基石,對于塑造我們與世界的互動起著至關重要的作用。隨著自然語言處理(NLP)的出現,我們與機器交互的方式發生了革命性的變化。NLP已經成為通信世界的游戲規則改變者,使人類能夠以更自然的方式與機器互動。NLP的發展受到了互聯網文本數據指數級增長的推動。多年來,NLP從簡單的基于規則的系統發展到復雜的基于深度學習的模型。盡管有了進步,但由于人類語言的復雜性,自然語言理解和生成一直是NLP領域的一個挑戰。然而,最近的進步為解決這些挑戰開辟了新的途徑。NLP的一項突破是GPT [1]的開發。GPT在OpenAI發布ChatGPT后走紅,OpenAI是一家專注于開發AI技術的研究公司[2]。GPT是一個深度學習模型,它在大量的文本數據上進行預訓練,可以針對特定的任務進行微調,如語言生成、情感分析、語言建模、機器翻譯和文本分類。GPT使用的變換器架構是對NLP以往方法的重大進步,如RNN和CNN。它使用自注意力機制,使模型在生成下一個詞時考慮整個句子的上下文,這提高了模型理解和生成語言的能力。解碼器負責根據輸入表示生成輸出文本[3]。 GPT能夠執行NLP中的廣泛任務。其主要優勢之一在于自然語言理解(NLU),其中它可以分析和理解文本的含義,包括識別句子中的實體和關系。它(ta)也擅長(chang)自(zi)然語(yu)言(yan)(yan)(yan)生成(cheng)(NLG),這意味著(zhu)它(ta)可以(yi)(yi)創(chuang)建文(wen)本(ben)輸出,如(ru)(ru)創(chuang)作創(chuang)新內容(rong)或(huo)以(yi)(yi)全面且(qie)有信息(xi)性(xing)的(de)方(fang)式回答問題(ti)。另外,GPT也是代(dai)(dai)碼(ma)(ma)生成(cheng)器,可以(yi)(yi)編寫各種(zhong)語(yu)言(yan)(yan)(yan)(如(ru)(ru)Python或(huo)JavaScript)的(de)編程代(dai)(dai)碼(ma)(ma)。GPT也可以(yi)(yi)用于問答,這意味著(zhu)它(ta)可以(yi)(yi)提供(gong)關于事實性(xing)主題(ti)的(de)概括(kuo),或(huo)者根據輸入文(wen)本(ben)創(chuang)作故事。此(ci)外,GPT可以(yi)(yi)總結一(yi)段文(wen)本(ben),如(ru)(ru)提供(gong)新聞文(wen)章(zhang)或(huo)研究論(lun)文(wen)的(de)簡(jian)要概述(shu),它(ta)也可以(yi)(yi)用于翻譯(yi)(yi),使(shi)得能(neng)夠(gou)(gou)將(jiang)文(wen)本(ben)從一(yi)種(zhong)語(yu)言(yan)(yan)(yan)翻譯(yi)(yi)為另一(yi)種(zhong)語(yu)言(yan)(yan)(yan)。總的(de)來說,GPT能(neng)夠(gou)(gou)以(yi)(yi)高精(jing)度(du)和(he)準確度(du)執(zhi)行廣泛(fan)的(de)NLP任務,使(shi)其(qi)(qi)成(cheng)為各種(zhong)行業(包(bao)括(kuo)金融(rong)、醫療保(bao)健、市(shi)場營銷等)中的(de)無價工具。隨(sui)著(zhu)NLP技(ji)術(shu)的(de)不斷進步,我(wo)們可以(yi)(yi)預見GPT和(he)其(qi)(qi)他語(yu)言(yan)(yan)(yan)模(mo)型將(jiang)變得更加(jia)復雜和(he)強大,使(shi)我(wo)們能(neng)夠(gou)(gou)更自(zi)然、更有效(xiao)地與機(ji)器交流。 **A. 動機(ji) **
GPT已經成為NLP領域的一種變革性技術,推動了廣泛行業和應用的快速發展和增長。盡管GPT得到了廣泛的采用,并有許多潛在的應用,但關于GPT的能力仍有許多需要探索和理解的地方。盡管在與學術和圖書館[4]、教育[5]、GPT模型[6]、銀行和企業通信[7]、chatGPT及其版本的進步[8]、以及生成AI[9]相關的文獻中有關于GPT的研究,但并沒有現有的評論致力于對GPT進行全面的調查。因此,有必要進行一項全面的評論,重點是GPT的架構、啟用技術、潛在應用、新出現的挑戰、有趣的項目和未來的方向。這些限制促使我們進行了這項審查。因此,這篇審查不僅將幫助這個領域的研究者和實踐者更好地理解GPT,而且在進行研究時,還將提供關于其潛在應用和主要限制的寶貴見解。 在這篇關于GPT的綜述中,我們使用各種可靠的來源進行了深入的文獻審查。我們的搜索主要集中在經過同行評審的期刊,以及來自知名國內和國際會議、研討會、書籍、座談會和期刊的高質量文章。為了確保我們的來源的可信度,我們參考了像Google Scholar和arXiv這樣知名的檔案庫,以及來自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等頂級數據庫的出版物。為了找到相關的GPT引用和出版物,我們使用了如NLPGPT、GPT架構、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直應用等關鍵詞。然后,我們根據所有檢索到的文章的標題進行篩選,排除了任何質量較差的論文。接下來,我們審查了剩下的文章的摘要,以確定它們的貢獻。在我們的文獻審查的最后一步,我們提取了分析所需的必要數據。通過遵循這些步驟,我們確保了我們的研究基于高質量和可信的來源。
2. GPT
A. GPT演化
GPT模型經歷了NLP技術中的多次變化和突破。以下是GPT模型發展中的一些重大轉折點:在GPT之前,NLP模型已經在與特定任務相關的大量標注數據上進行了訓練。這有一個重大的缺點,因為很難獲得用于精確訓練模型所需的標注數據量。由于NLP模型被限制在特定的數據集上,所以它們無法完成訓練集以外的任務。為了解決這些限制,OpenAI提供了一個名為GPT-1的生成式語言模型,該模型使用未標記的數據創建,然后提供給用戶進行微調,以完成后續的任務,如情感分析、分類和問答[18]。這表明該模型試圖根據輸入產生適當的響應,而且用于訓練模型的數據沒有標記[19]。圖2顯示了從1960年創建的Eliza到2022年更為當前的ChatGPT,幾個預訓練模型的演變時間線。GPT-1是第一個能夠閱讀文本并回答查詢的模型[20]。OpenAI在2018年發布了GPT-1。GPT1是AI發展的一個重要步驟,因為它使計算機能夠比以前更自然地理解文本材料。這種生成性語言模型能夠學習各種各樣的連接,并在連續的文本和長篇大論的語料庫上獲得大量知識[21]。這發生在在大型BooksCorpus數據集上訓練之后。在設計方面,GPT-1使用一個12層解碼器架構的變換器,帶有自我注意機制進行訓練。GPT-1能夠在不同任務上執行零射擊性能,這是由于其預訓練而取得的一項重大成功。這種能力證明,當將生成性語言建模與成功的預訓練思想結合起來時,可以用來推廣模型。以TL為基礎,GPT模型發展成為一種強大的工具,可以在微調最少的情況下執行NLP任務[22]。它為其他模型使用更大的數據集和參數在生成性預訓練中取得更大的進步鋪平了道路[18]。
為了在2019年后期創建一個更好的語言模型,OpenAI使用更大的數據集和更多的參數創建了GPT-2。GPT-2的模型設計和執行是一些關鍵的進步[23]。它擁有15億個參數,是GPT-1(1.17億個參數)的10倍,它的參數和數據量也是GPT-1的10倍[21]。通過僅使用原始文本作為輸入,并利用很少或沒有訓練樣本,它在解決與翻譯、總結等相關的各種語言任務方面非常有效。在各種下游任務數據集上對GPT-2進行評估,發現它在識別長距離關系和預測句子方面表現出色,顯著提高了準確性[24]。最近的GPT模型迭代版本是GPT-3。這(zhe)(zhe)是(shi)由(you)(you)(you)OpenAI創建的(de)(de)(de)(de)一(yi)(yi)個大型(xing)(xing)(xing)(xing)語言(yan)預(yu)測和(he)(he)生(sheng)成模(mo)型(xing)(xing)(xing)(xing),可(ke)以(yi)生(sheng)成源文本(ben)的(de)(de)(de)(de)長篇段落。GPT-3最(zui)終成為(wei)(wei)OpenAI的(de)(de)(de)(de)突破性AI語言(yan)軟件。簡單來說,它(ta)是(shi)一(yi)(yi)種(zhong)可(ke)以(yi)自(zi)(zi)己(ji)創建行的(de)(de)(de)(de)軟件,這(zhe)(zhe)些行非常獨特,幾乎聽起來像是(shi)由(you)(you)(you)人類編寫的(de)(de)(de)(de)[25]。GPT-3程序目前通(tong)過云基(ji)礎設(she)施API提(ti)供有限的(de)(de)(de)(de)訪(fang)問,需(xu)要訪(fang)問權限來調查其功能。自(zi)(zi)從(cong)它(ta)的(de)(de)(de)(de)首次亮相(xiang)以(yi)來,它(ta)已經(jing)產生(sheng)了一(yi)(yi)些有趣的(de)(de)(de)(de)應用(yong)。其容(rong)量(liang)約為(wei)(wei)1750億個參(can)數(shu),比(bi)GPT-2大100倍(bei),這(zhe)(zhe)是(shi)一(yi)(yi)個關(guan)鍵優勢。它(ta)使用(yong)從(cong)大型(xing)(xing)(xing)(xing)內容(rong)存(cun)檔和(he)(he)互聯網收集(ji)的(de)(de)(de)(de)5000億詞的(de)(de)(de)(de)語料(liao)庫(ku)"Common Crawl"進行教學(xue)[26]。其其他值得注意(yi)和(he)(he)意(yi)想不到的(de)(de)(de)(de)能力是(shi)進行基(ji)本(ben)的(de)(de)(de)(de)數(shu)學(xue)運算,編寫代碼(ma)片(pian)段,和(he)(he)執行聰明的(de)(de)(de)(de)任(ren)務。因(yin)此,NLP模(mo)型(xing)(xing)(xing)(xing)可(ke)以(yi)通(tong)過更快地(di)響應請求和(he)(he)精確(que)地(di)保(bao)持最(zui)佳實踐,同時(shi)減少人為(wei)(wei)錯誤(wu),來幫助企業(ye)[27]。由(you)(you)(you)于其復雜(za)性和(he)(he)大小,許多(duo)學(xue)者(zhe)和(he)(he)作家都將(jiang)其稱(cheng)為(wei)(wei)最(zui)終的(de)(de)(de)(de)黑箱AI方法(fa)。由(you)(you)(you)于執行推理的(de)(de)(de)(de)高成本(ben)和(he)(he)不便,以(yi)及億參(can)數(shu)的(de)(de)(de)(de)大小使其資源密集(ji)型(xing)(xing)(xing)(xing),因(yin)此很(hen)難(nan)在工作中實踐[24]。GPT-4被命(ming)名為(wei)(wei)GPT-3的(de)(de)(de)(de)繼任(ren)者(zhe)。與此同時(shi),OpenAI已經(jing)秘密地(di)發布了幾個基(ji)于GPT-3.5的(de)(de)(de)(de)AI模(mo)型(xing)(xing)(xing)(xing),這(zhe)(zhe)是(shi)GPT-3的(de)(de)(de)(de)更新版(ban)本(ben)[28]。
GPT-3.5是在文本和代碼的混合上進行訓練的。它從互聯網收集的大量數據中學習了單詞、句子和各種組件之間的關系,這些數據包括成千上萬的維基百科條目、社交媒體帖子和新聞項目。OpenAI利(li)用(yong)GPT-3.5開(kai)發了(le)(le)幾個(ge)(ge)定制的(de)(de)(de)系統,以完(wan)成(cheng)特定的(de)(de)(de)工(gong)作[26]。它從網上收集了(le)(le)大量數據,包括成(cheng)千上萬(wan)的(de)(de)(de)維基百(bai)科條目(mu)、社交媒體帖子和(he)(he)(he)(he)新(xin)聞項目(mu),并(bing)利(li)用(yong)這些信息學習了(le)(le)句子、單詞(ci)(ci)和(he)(he)(he)(he)單詞(ci)(ci)組成(cheng)部分之間的(de)(de)(de)關(guan)系[29]。 OpenAI的(de)(de)(de)GPT模型(xing)的(de)(de)(de)最新(xin)版本是(shi)GPT-4,這是(shi)一個(ge)(ge)多模態(tai)的(de)(de)(de)大型(xing)語(yu)言模型(xing)。它于2023年3月14日推出(chu),并(bing)通過(guo)ChatGPT Plus向公(gong)眾提供(gong)有限的(de)(de)(de)訪問(wen)。需要排隊(dui)等(deng)待獲得商業(ye)API的(de)(de)(de)訪問(wen)權限[10]。GPT-4在(zai)預(yu)訓練階段,使用(yong)公(gong)共數據和(he)(he)(he)(he)“來自第(di)三方(fang)供(gong)應商的(de)(de)(de)許可數據”,預(yu)測下(xia)一個(ge)(ge)詞(ci)(ci)。然后,基于人類和(he)(he)(he)(he)AI的(de)(de)(de)輸入,通過(guo)強化學習進行調(diao)整,以實現(xian)人類對齊和(he)(he)(he)(he)政策符合(he)。與GPT-3的(de)(de)(de)上下(xia)文窗(chuang)(chuang)口只有4096和(he)(he)(he)(he)2049個(ge)(ge)tokens不同,該團隊(dui)創建了(le)(le)兩個(ge)(ge)版本的(de)(de)(de)GPT-4,其上下(xia)文窗(chuang)(chuang)口分別(bie)為8192和(he)(he)(he)(he)32768個(ge)(ge)tokens。
B. GPT模型架構
GPT模型基于用于NLP任務的神經網絡,如語言建模,文本分類和文本生成。GPT模型的架構基于變壓器模型[30]。Transformer模型使用自注(zhu)意機制處(chu)理可變長度的輸(shu)入序列(lie)(lie),使其(qi)非常(chang)適合NLP任(ren)務。GPT通過用解碼(ma)器(qi)(qi)塊替代編碼(ma)器(qi)(qi)-解碼(ma)器(qi)(qi)塊簡化了架構。GPT模型采(cai)用Transformer模型,并(bing)使用無監(jian)督學習技術在(zai)大(da)量文本數據上進行預訓練(lian)。預訓練(lian)過程涉(she)及預測序列(lie)(lie)中給定前面單詞的下一個單詞,這是一項稱為語言建模的任(ren)務。這種預訓練(lian)過程使模型能夠學習可以針對特(te)定下游任(ren)務進行微調(diao)的自然語言表(biao)示[31]。
C GPT 模型如何工作
GPT模型通過使用Transformer這種神經網絡架構處理自然語言文本的輸入序列來工作[38]。GPT模(mo)型(xing)(xing)使用(yong)無監(jian)(jian)督(du)(du)學(xue)習技術(shu)在大量(liang)的(de)(de)(de)(de)(de)文(wen)(wen)(wen)本(ben)(ben)(ben)輸(shu)(shu)入上預(yu)訓(xun)(xun)(xun)練這種(zhong)Transformer架構(gou)[39]。在預(yu)訓(xun)(xun)(xun)練過程(cheng)中(zhong)(zhong),模(mo)型(xing)(xing)獲得了根據前(qian)(qian)面的(de)(de)(de)(de)(de)詞預(yu)測(ce)序列中(zhong)(zhong)下(xia)(xia)一個(ge)詞的(de)(de)(de)(de)(de)能力。語言建(jian)模(mo)是(shi)一種(zhong)過程(cheng),使模(mo)型(xing)(xing)能夠發現訓(xun)(xun)(xun)練數據中(zhong)(zhong)詞與(yu)其上下(xia)(xia)文(wen)(wen)(wen)之(zhi)間的(de)(de)(de)(de)(de)統計關系(xi)。圖5展示了GPT操作的(de)(de)(de)(de)(de)各個(ge)階段(duan)。第(di)(di)一步(bu)包括有(you)監(jian)(jian)督(du)(du)的(de)(de)(de)(de)(de)微調(diao),第(di)(di)二步(bu)涉(she)及對輸(shu)(shu)入產生最(zui)優反應,第(di)(di)三步(bu)涉(she)及近似策略優化(hua)(hua)和(he)(he)強(qiang)化(hua)(hua)學(xue)習。預(yu)訓(xun)(xun)(xun)練后(hou),模(mo)型(xing)(xing)可(ke)以針對特定(ding)(ding)任務(wu)進(jin)行微調(diao),如文(wen)(wen)(wen)本(ben)(ben)(ben)分類(lei)或文(wen)(wen)(wen)本(ben)(ben)(ben)生成。在微調(diao)過程(cheng)中(zhong)(zhong),模(mo)型(xing)(xing)在特定(ding)(ding)于(yu)手頭工作的(de)(de)(de)(de)(de)較小數據集上進(jin)行訓(xun)(xun)(xun)練,并(bing)改(gai)變(bian)模(mo)型(xing)(xing)的(de)(de)(de)(de)(de)參數以最(zui)大化(hua)(hua)該(gai)任務(wu)的(de)(de)(de)(de)(de)性能[8]。圖3展示了GPT的(de)(de)(de)(de)(de)一般Transformer架構(gou)。當用(yong)于(yu)文(wen)(wen)(wen)本(ben)(ben)(ben)生成時,GPT模(mo)型(xing)(xing)通過預(yu)測(ce)基于(yu)之(zhi)前(qian)(qian)生成的(de)(de)(de)(de)(de)詞的(de)(de)(de)(de)(de)系(xi)列中(zhong)(zhong)的(de)(de)(de)(de)(de)下(xia)(xia)一個(ge)詞來創建(jian)文(wen)(wen)(wen)本(ben)(ben)(ben)。根據其被(bei)修改(gai)的(de)(de)(de)(de)(de)方式,模(mo)型(xing)(xing)可(ke)以生成與(yu)輸(shu)(shu)入文(wen)(wen)(wen)本(ben)(ben)(ben)相似的(de)(de)(de)(de)(de)文(wen)(wen)(wen)本(ben)(ben)(ben),或者符(fu)合(he)某種(zhong)主題(ti)或風格的(de)(de)(de)(de)(de)文(wen)(wen)(wen)本(ben)(ben)(ben)。圖4展示了GPT模(mo)型(xing)(xing)的(de)(de)(de)(de)(de)Transformer架構(gou)和(he)(he)用(yong)于(yu)微調(diao)不同(tong)任務(wu)的(de)(de)(de)(de)(de)輸(shu)(shu)入變(bian)換。
D. GPT版本比較
GPT模型有幾個版本,每個版本都有自己的特性和功能。表III列出了各種GPT模型版本的比較。表中展示了以下細節,如GPT模型的發布年份、參數、生成的標記、輸入類型、每個模型的特性、每個模型的缺點,以及每個模型的大小。生成型AI(GAI)模型有不同的類型,如單模態、交叉模態和多模態。第一種類型是單模態,依賴于單一類型的輸入,如文本或圖像。另一方面,交叉模態可以處理多種類型的輸入并將它們關聯起來。多模態是最復雜的AI類型,因為它可以處理和整合來自多種模態的信息,如語音、文本、圖像,甚至是與環境的物理交互。GPT只采用單模態和多模態類型,其中ChatGPT被認為是單模態,而GPT-4是多模態。圖6是一個插圖,區分了單模態、交叉模態和多模態生成AI模型。 總的來說,GPT模型在NLP方面表現出了出色的性能,通過增強每一次迭代和其前身的能力。然而,每個模型也有自己的限制和缺點,如輸出控制的限制、缺乏多樣化的數據和倫理問題。在為特定任務選擇GPT模型時,研究者和開發者應謹慎考慮這些因素[40]。具體來說,本節描述了GPT的演變、架構,并比較了不同版本和類型的GPT。
III. 使能技術
GPT是多種技術的匯聚。它借助了最新的技術,如大數據、人工智能、云計算、EC、5G及以后的網絡,以及人機交互。在這一部分,我們將提供與GPT相關的啟用技術的概述。構成GPT模型的主要技術在圖7中展示。
IV. GPT模型對各種應用的影響
GPT已經取得了顯著的進步,它的影響正在教育、醫療保健、工業、農業、旅游和運輸、電子商務、娛樂、生活方式、游戲、市場營銷和金融等各個行業中被感知到。這一部分將(jiang)提供有關GPT模型在(zai)上述應用中的(de)影響的(de)寶貴(gui)見(jian)解,如圖8所示(shi)。
本節將介紹使用GPT模型技術開發的用于上述部分中提到的不同應用的激動人心的項目。表IV,表V顯示了這(zhe)些項目的(de)不同級別,以(yi)及用于比較他們(men)在許多實際應用中的(de)能力(li)的(de)不同參數。
VI. 開放的研究問題和未來方向
本節強調了與實施(shi)和采用(yong)可(ke)持續(xu)GPT模型(xing)相關的各種(zhong)開(kai)放研究(jiu)(jiu)問題(ti)。它還為GPT開(kai)發領域的研究(jiu)(jiu)人員(yuan)提供了對未來研究(jiu)(jiu)方向的深入了解。圖9概(gai)述了在使(shi)用(yong)GPT模型(xing)時可(ke)能出現的許多(duo)問題(ti),以及需要考慮的各種(zhong)未來方法(fa),以便(bian)有效地(di)使(shi)用(yong)GPT模型(xing)。
VII.結論
GPT和其他大型語言模型的影響深遠而深刻。隨著這些技術的不斷發展和改進,它們有可能改變我們與技術和彼此互動的方式。從個(ge)性化推薦和客戶服務到語言(yan)翻譯和文本生(sheng)成,可(ke)(ke)能(neng)(neng)性是無窮(qiong)的。然而,就像任何技(ji)術一樣,必須解決可(ke)(ke)能(neng)(neng)出(chu)現(xian)的道德和社(she)會(hui)問題。隨著我(wo)(wo)們越(yue)來越(yue)依(yi)賴這(zhe)些(xie)語言(yan)模(mo)型,我(wo)(wo)們必須確(que)保(bao)我(wo)(wo)們正在負責任地(di)使用(yong)這(zhe)些(xie)工(gong)(gong)具,并(bing)考慮它們對(dui)(dui)整(zheng)個(ge)社(she)會(hui)的影響(xiang)。這(zhe)包括與(yu)訓練模(mo)型所使用(yong)的數據偏(pian)見(jian)、保(bao)護隱私和安(an)全、理(li)解人類創造力的含義以及可(ke)(ke)能(neng)(neng)對(dui)(dui)就業(ye)和工(gong)(gong)作流(liu)動的影響(xiang)等相關的挑戰。我(wo)(wo)們需要繼續(xu)評估和反思GPT和其他語言(yan)模(mo)型的影響(xiang),以確(que)保(bao)它們的使用(yong)方式對(dui)(dui)整(zheng)個(ge)社(she)會(hui)都有益。通過這(zhe)樣做(zuo),我(wo)(wo)們可(ke)(ke)以幫助確(que)保(bao)這(zhe)些(xie)技(ji)術被充分利(li)用(yong),同(tong)時最大(da)程度地(di)減少它們可(ke)(ke)能(neng)(neng)產生(sheng)的任何負面(mian)影響(xiang)。
當前,以Hadoop、Spark為代表(biao)的(de)(de)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia),已(yi)(yi)經(jing)在學術(shu)界和(he)工(gong)業界被(bei)廣泛(fan)應用(yong)于大(da)(da)(da)(da)規模數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的(de)(de)處理和(he)分(fen)(fen)析(xi).這些(xie)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia)采用(yong)分(fen)(fen)布式架(jia)構,使(shi)用(yong)Java、Scala等面向對(dui)象語言編寫,在集群節點(dian)上以Java虛擬機(ji)(JVM)為運(yun)(yun)行(xing)(xing)時(shi)(shi)環境(jing)執行(xing)(xing)計算(suan)(suan)任務,因(yin)此(ci)依賴JVM的(de)(de)自動內存(cun)管理機(ji)制(zhi)來(lai)分(fen)(fen)配和(he)回(hui)(hui)收數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)對(dui)象.然而(er),當前的(de)(de)JVM并不(bu)是針對(dui)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia)的(de)(de)計算(suan)(suan)特征設(she)計的(de)(de),在實(shi)際(ji)運(yun)(yun)行(xing)(xing)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)應用(yong)時(shi)(shi)經(jing)常出現垃圾回(hui)(hui)收(GC)時(shi)(shi)間長、數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)對(dui)象序(xu)(xu)列化(hua)和(he)反序(xu)(xu)列化(hua)開銷(xiao)大(da)(da)(da)(da)等問(wen)題.在一些(xie)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)場(chang)景下,JVM的(de)(de)垃圾回(hui)(hui)收耗時(shi)(shi)甚至(zhi)超過應用(yong)整體運(yun)(yun)行(xing)(xing)時(shi)(shi)間的(de)(de)50%,已(yi)(yi)經(jing)成(cheng)為大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia)的(de)(de)性能瓶頸和(he)優化(hua)熱點(dian).本(ben)文對(dui)近(jin)年來(lai)相(xiang)關領域的(de)(de)研究成(cheng)果(guo)進行(xing)(xing)了系統性綜述:(1)總(zong)(zong)結(jie)了大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)應用(yong)在JVM中運(yun)(yun)行(xing)(xing)時(shi)(shi)性能下降的(de)(de)原因(yin);(2)總(zong)(zong)結(jie)了現有(you)面向大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia)的(de)(de)JVM優化(hua)技術(shu),對(dui)相(xiang)關優化(hua)技術(shu)進行(xing)(xing)了層次劃分(fen)(fen),并分(fen)(fen)析(xi)比較了各種(zhong)方法的(de)(de)優化(hua)效果(guo)、適(shi)用(yong)范圍、使(shi)用(yong)負擔等優缺點(dian);(3)探討了JVM未(wei)來(lai)的(de)(de)優化(hua)方向,有(you)助于進一步提升(sheng)大(da)(da)(da)(da)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)處理框架(jia)的(de)(de)性能.