亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322

**1.1 研究動機

近(jin)年(nian)來(lai),大語言(yan)模(mo)型(xing)(LLMs)的(de)(de)(de)(de)(de)(de)進(jin)(jin)展(zhan)徹底改變(bian)了(le)(le)(le)(le)(le)人工(gong)(gong)(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(AI)領域,使(shi)(shi)其能(neng)(neng)(neng)(neng)(neng)夠(gou)執行(xing)(xing)(xing)(xing)(xing)復雜的(de)(de)(de)(de)(de)(de)任(ren)務,如創意(yi)寫(xie)作(zuo)(zuo)、推理(li)和決(jue)(jue)(jue)(jue)策,甚至在(zai)(zai)(zai)某(mou)些(xie)(xie)(xie)(xie)方(fang)面(mian)可與(yu)人類(lei)水(shui)平(ping)相媲美 [156]。然而,盡管這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)模(mo)型(xing)在(zai)(zai)(zai)個(ge)(ge)(ge)(ge)(ge)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)層面(mian)展(zhan)現了(le)(le)(le)(le)(le)卓越(yue)(yue)的(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li),它(ta)們仍存在(zai)(zai)(zai)一(yi)些(xie)(xie)(xie)(xie)固有(you)(you)(you)局限(xian)性(xing),例如幻覺問題(ti)(ti) [57]、自回歸特性(xing)(如無法(fa)進(jin)(jin)行(xing)(xing)(xing)(xing)(xing)慢思考 [49])以及(ji)擴展(zhan)規(gui)律(lv) [55, 69]。為了(le)(le)(le)(le)(le)解(jie)決(jue)(jue)(jue)(jue)這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)挑戰,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)人工(gong)(gong)(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(Agentic AI)將LLMs作(zuo)(zuo)為“大腦”或“協(xie)調(diao)者”,將其與(yu)外(wai)部(bu)工(gong)(gong)(gong)具和議程(如規(gui)劃(hua))相結(jie)合(he),使(shi)(shi)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)采(cai)取行(xing)(xing)(xing)(xing)(xing)動、解(jie)決(jue)(jue)(jue)(jue)復雜問題(ti)(ti),并(bing)與(yu)外(wai)部(bu)環(huan)境進(jin)(jin)行(xing)(xing)(xing)(xing)(xing)學習和交(jiao)互(hu) [1,2]。此(ci)外(wai),研(yan)究(jiu)人員越(yue)(yue)來(lai)越(yue)(yue)多(duo)(duo)(duo)地(di)(di)探索水(shui)平(ping)擴展(zhan)——利(li)用多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)協(xie)同(tong)(tong)(tong)工(gong)(gong)(gong)作(zuo)(zuo),以實(shi)現集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)。這(zhe)(zhe)(zhe)種(zhong)方(fang)法(fa)與(yu)多(duo)(duo)(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)系(xi)統(tong)(MASs)和協(xie)作(zuo)(zuo)AI的(de)(de)(de)(de)(de)(de)研(yan)究(jiu)方(fang)向(xiang)一(yi)致,后(hou)(hou)者專(zhuan)注于(yu)(yu)使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)群體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)協(xie)調(diao)、共(gong)享(xiang)知識(shi)并(bing)共(gong)同(tong)(tong)(tong)解(jie)決(jue)(jue)(jue)(jue)問題(ti)(ti)。這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)領域的(de)(de)(de)(de)(de)(de)融合(he)催生了(le)(le)(le)(le)(le)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)MASs,它(ta)們利(li)用多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)LLM的(de)(de)(de)(de)(de)(de)集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)來(lai)應對復雜的(de)(de)(de)(de)(de)(de)多(duo)(duo)(duo)步驟挑戰 [118]。MASs的(de)(de)(de)(de)(de)(de)靈(ling)感(gan)不(bu)僅來(lai)自技術進(jin)(jin)步,還源于(yu)(yu)人類(lei)集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(如“心智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)社會(hui)” [87]、“心智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)理(li)論” [45])。人類(lei)社會(hui)擅長通(tong)(tong)(tong)過(guo)團隊合(he)作(zuo)(zuo)和專(zhuan)業(ye)化(hua)實(shi)現共(gong)同(tong)(tong)(tong)目(mu)(mu)標,從(cong)日常任(ren)務到科學發(fa)現皆是(shi)如此(ci)。類(lei)似(si)地(di)(di),MASs旨(zhi)在(zai)(zai)(zai)模(mo)擬這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)原則,使(shi)(shi)AI智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)通(tong)(tong)(tong)過(guo)結(jie)合(he)各(ge)自的(de)(de)(de)(de)(de)(de)優(you)勢和視角(jiao)進(jin)(jin)行(xing)(xing)(xing)(xing)(xing)有(you)(you)(you)效(xiao)協(xie)作(zuo)(zuo)。基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)MAS可以具有(you)(you)(you)多(duo)(duo)(duo)種(zhong)不(bu)同(tong)(tong)(tong)特性(xing)的(de)(de)(de)(de)(de)(de)協(xie)作(zuo)(zuo)渠道,如圖(tu)1所示。MASs在(zai)(zai)(zai)各(ge)個(ge)(ge)(ge)(ge)(ge)領域取得了(le)(le)(le)(le)(le)顯(xian)著成(cheng)功,通(tong)(tong)(tong)過(guo)利(li)用專(zhuan)業(ye)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)之間(jian)的(de)(de)(de)(de)(de)(de)協(xie)作(zuo)(zuo)和協(xie)調(diao),增(zeng)強(qiang)了(le)(le)(le)(le)(le)個(ge)(ge)(ge)(ge)(ge)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)LLM的(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li)。這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)系(xi)統(tong)在(zai)(zai)(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)之間(jian)分(fen)配(pei)任(ren)務,使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)共(gong)享(xiang)知識(shi)、執行(xing)(xing)(xing)(xing)(xing)子(zi)任(ren)務,并(bing)將其努力(li)(li)與(yu)共(gong)同(tong)(tong)(tong)目(mu)(mu)標對齊(qi)。MASs的(de)(de)(de)(de)(de)(de)潛(qian)在(zai)(zai)(zai)益處是(shi)變(bian)革(ge)性(xing)的(de)(de)(de)(de)(de)(de)。它(ta)們在(zai)(zai)(zai)知識(shi)記憶(yi)方(fang)面(mian)表現出色,使(shi)(shi)分(fen)布式(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)保留和共(gong)享(xiang)多(duo)(duo)(duo)樣(yang)化(hua)的(de)(de)(de)(de)(de)(de)知識(shi)庫,而不(bu)會(hui)使(shi)(shi)單個(ge)(ge)(ge)(ge)(ge)系(xi)統(tong)過(guo)載 [51, 154]。它(ta)們通(tong)(tong)(tong)過(guo)將任(ren)務分(fen)配(pei)給(gei)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)來(lai)增(zeng)強(qiang)長期規(gui)劃(hua)能(neng)(neng)(neng)(neng)(neng)力(li)(li),支持在(zai)(zai)(zai)長期交(jiao)互(hu)中持續(xu)解(jie)決(jue)(jue)(jue)(jue)問題(ti)(ti) [58]。此(ci)外(wai),MASs通(tong)(tong)(tong)過(guo)匯(hui)集(ji)具有(you)(you)(you)專(zhuan)門提示/角(jiao)色的(de)(de)(de)(de)(de)(de)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)模(mo)型(xing)的(de)(de)(de)(de)(de)(de)專(zhuan)業(ye)知識(shi),實(shi)現了(le)(le)(le)(le)(le)有(you)(you)(you)效(xiao)的(de)(de)(de)(de)(de)(de)泛化(hua),使(shi)(shi)其能(neng)(neng)(neng)(neng)(neng)夠(gou)比獨立(li)(li)模(mo)型(xing)更有(you)(you)(you)效(xiao)地(di)(di)解(jie)決(jue)(jue)(jue)(jue)多(duo)(duo)(duo)樣(yang)化(hua)問題(ti)(ti)。最后(hou)(hou),MASs通(tong)(tong)(tong)過(guo)同(tong)(tong)(tong)時(shi)管理(li)由(you)專(zhuan)業(ye)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)處理(li)的(de)(de)(de)(de)(de)(de)子(zi)任(ren)務,提高了(le)(le)(le)(le)(le)交(jiao)互(hu)效(xiao)率,加速(su)了(le)(le)(le)(le)(le)復雜多(duo)(duo)(duo)步驟任(ren)務的(de)(de)(de)(de)(de)(de)解(jie)決(jue)(jue)(jue)(jue)。MAS致力(li)(li)于(yu)(yu)實(shi)現集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng),即(ji)多(duo)(duo)(duo)個(ge)(ge)(ge)(ge)(ge)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)綜合(he)能(neng)(neng)(neng)(neng)(neng)力(li)(li)超(chao)越(yue)(yue)其個(ge)(ge)(ge)(ge)(ge)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)貢獻的(de)(de)(de)(de)(de)(de)總和 [24]。有(you)(you)(you)效(xiao)MASs的(de)(de)(de)(de)(de)(de)一(yi)個(ge)(ge)(ge)(ge)(ge)主要關注點是(shi)協(xie)作(zuo)(zuo)機(ji)(ji)制(zhi) [33, 74, 75, 97, 132],這(zhe)(zhe)(zhe)些(xie)(xie)(xie)(xie)機(ji)(ji)制(zhi)推動了(le)(le)(le)(le)(le)從(cong)傳(chuan)統(tong)的(de)(de)(de)(de)(de)(de)孤(gu)立(li)(li)模(mo)型(xing)向(xiang)強(qiang)調(diao)交(jiao)互(hu)的(de)(de)(de)(de)(de)(de)方(fang)法(fa)的(de)(de)(de)(de)(de)(de)轉變(bian),使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)連接、協(xie)商(shang)、決(jue)(jue)(jue)(jue)策、規(gui)劃(hua)并(bing)共(gong)同(tong)(tong)(tong)行(xing)(xing)(xing)(xing)(xing)動,從(cong)而在(zai)(zai)(zai)集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)(ti)環(huan)境中推動AI能(neng)(neng)(neng)(neng)(neng)力(li)(li)的(de)(de)(de)(de)(de)(de)提升。深入(ru)了(le)(le)(le)(le)(le)解(jie)協(xie)作(zuo)(zuo)機(ji)(ji)制(zhi)在(zai)(zai)(zai)MASs中的(de)(de)(de)(de)(de)(de)運(yun)作(zuo)(zuo)方(fang)式(shi),對于(yu)(yu)釋放其全部(bu)潛(qian)力(li)(li)至關重要。

**1.2 研究現狀與貢獻

由于(yu)(yu)(yu)(yu)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)系(xi)統(tong)(tong)的(de)(de)(de)(de)(de)(de)(de)(de)重(zhong)要(yao)(yao)性(xing)(xing)和(he)(he)(he)(he)(he)(he)(he)迫切需求,已有一(yi)些(xie)(xie)關(guan)于(yu)(yu)(yu)(yu)該主題的(de)(de)(de)(de)(de)(de)(de)(de)綜述。然而(er),這(zhe)(zhe)些(xie)(xie)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)往(wang)往(wang)未(wei)能(neng)(neng)(neng)(neng)(neng)(neng)全(quan)面(mian)(mian)(mian)探(tan)討(tao)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)MASs的(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)方(fang)面(mian)(mian)(mian)和(he)(he)(he)(he)(he)(he)(he)機(ji)(ji)(ji)制,而(er)這(zhe)(zhe)些(xie)(xie)對(dui)(dui)(dui)(dui)(dui)于(yu)(yu)(yu)(yu)使智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)能(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)有效實(shi)現共同目標至(zhi)關(guan)重(zhong)要(yao)(yao),如(ru)(ru)表1所總結(jie)(jie)。例如(ru)(ru),[47, 107, 136] 主要(yao)(yao)關(guan)注(zhu)單智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)系(xi)統(tong)(tong),僅淺顯(xian)地涉(she)及多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)。[136] 提出了一(yi)個(ge)(ge)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)框(kuang)架(jia),包括三個(ge)(ge)組(zu)件:大腦(nao)、感(gan)知和(he)(he)(he)(he)(he)(he)(he)行(xing)動。他(ta)們(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)強(qiang)(qiang)調(diao)了將(jiang)LLMs作(zuo)(zuo)(zuo)(zuo)(zuo)為(wei)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)“大腦(nao)”,利用(yong)(yong)(yong)(yong)(yong)輸入(ru)模(mo)(mo)態(tai)集(ji)成、提示、檢索和(he)(he)(he)(he)(he)(he)(he)工(gong)具(ju)使用(yong)(yong)(yong)(yong)(yong)等技術(shu)(shu)。然而(er),他(ta)們(men)(men)(men)對(dui)(dui)(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)討(tao)論(lun)僅限(xian)于(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)行(xing)為(wei)和(he)(he)(he)(he)(he)(he)(he)個(ge)(ge)性(xing)(xing),缺(que)(que)乏(fa)對(dui)(dui)(dui)(dui)(dui)使智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)同工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)機(ji)(ji)(ji)制的(de)(de)(de)(de)(de)(de)(de)(de)深(shen)入(ru)探(tan)討(tao)。[47] 調(diao)查(cha)了基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)MASs成功應用(yong)(yong)(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)(de)領域(yu)(yu)和(he)(he)(he)(he)(he)(he)(he)場(chang)景,分析了這(zhe)(zhe)些(xie)(xie)系(xi)統(tong)(tong)的(de)(de)(de)(de)(de)(de)(de)(de)通(tong)信結(jie)(jie)構(gou)(分層(ceng)(ceng)、去(qu)中(zhong)(zhong)(zhong)心(xin)化(hua)(hua)、集(ji)中(zhong)(zhong)(zhong)式(shi)和(he)(he)(he)(he)(he)(he)(he)共享消(xiao)息池),但(dan)未(wei)涉(she)及協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)其(qi)(qi)他(ta)特征,如(ru)(ru)類(lei)(lei)型(xing)(xing)、策略(lve)(lve)或(huo)協(xie)(xie)(xie)(xie)(xie)(xie)調(diao)架(jia)構(gou)。其(qi)(qi)他(ta)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo),如(ru)(ru)[82],專(zhuan)注(zhu)于(yu)(yu)(yu)(yu)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)策略(lve)(lve),將(jiang)其(qi)(qi)分類(lei)(lei)為(wei)合(he)(he)并(bing)、集(ji)成和(he)(he)(he)(he)(he)(he)(he)合(he)(he)作(zuo)(zuo)(zuo)(zuo)(zuo)。盡管他(ta)們(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)綜述討(tao)論(lun)了這(zhe)(zhe)些(xie)(xie)策略(lve)(lve)如(ru)(ru)何應用(yong)(yong)(yong)(yong)(yong)于(yu)(yu)(yu)(yu)LLMs,并(bing)將(jiang)合(he)(he)作(zuo)(zuo)(zuo)(zuo)(zuo)擴展(zhan)到(dao)傳統(tong)(tong)融(rong)合(he)(he)技術(shu)(shu)之外,但(dan)忽略(lve)(lve)了其(qi)(qi)他(ta)關(guan)鍵(jian)的(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)機(ji)(ji)(ji)制,如(ru)(ru)競爭(zheng)和(he)(he)(he)(he)(he)(he)(he)競合(he)(he),以及除流行(xing)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)類(lei)(lei)型(xing)(xing)之外的(de)(de)(de)(de)(de)(de)(de)(de)維度。相比之下(xia),[120] 提出了一(yi)個(ge)(ge)通(tong)過(guo)MASs增(zeng)強(qiang)(qiang)LLM能(neng)(neng)(neng)(neng)(neng)(neng)力的(de)(de)(de)(de)(de)(de)(de)(de)通(tong)用(yong)(yong)(yong)(yong)(yong)框(kuang)架(jia),展(zhan)示了Auto-GPT等工(gong)具(ju)如(ru)(ru)何與其(qi)(qi)框(kuang)架(jia)對(dui)(dui)(dui)(dui)(dui)齊。然而(er),協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)機(ji)(ji)(ji)制仍停留(liu)在(zai)(zai)概念層(ceng)(ceng)面(mian)(mian)(mian),缺(que)(que)乏(fa)詳細的(de)(de)(de)(de)(de)(de)(de)(de)實(shi)現和(he)(he)(he)(he)(he)(he)(he)特征描述。[50] 的(de)(de)(de)(de)(de)(de)(de)(de)重(zhong)點是(shi)配置(zhi)LLMs以利用(yong)(yong)(yong)(yong)(yong)多(duo)樣化(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)(neng)力和(he)(he)(he)(he)(he)(he)(he)角(jiao)色(se)(se),例如(ru)(ru)集(ji)成記憶和(he)(he)(he)(he)(he)(he)(he)信息檢索組(zu)件。他(ta)們(men)(men)(men)對(dui)(dui)(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)探(tan)索主要(yao)(yao)集(ji)中(zhong)(zhong)(zhong)在(zai)(zai)規(gui)(gui)劃和(he)(he)(he)(he)(he)(he)(he)協(xie)(xie)(xie)(xie)(xie)(xie)調(diao)架(jia)構(gou)上(shang),強(qiang)(qiang)調(diao)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)角(jiao)色(se)(se)和(he)(he)(he)(he)(he)(he)(he)專(zhuan)業化(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)(de)全(quan)局和(he)(he)(he)(he)(he)(he)(he)局部(bu)任務規(gui)(gui)劃。與此(ci)同時,[46] 將(jiang)其(qi)(qi)研(yan)究范圍縮小到(dao)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)MASs在(zai)(zai)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)建(jian)模(mo)(mo)和(he)(he)(he)(he)(he)(he)(he)模(mo)(mo)擬中(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)應用(yong)(yong)(yong)(yong)(yong),討(tao)論(lun)了環(huan)境感(gan)知、人類(lei)(lei)對(dui)(dui)(dui)(dui)(dui)齊、行(xing)動生(sheng)成和(he)(he)(he)(he)(he)(he)(he)評估等挑(tiao)戰(zhan)。盡管對(dui)(dui)(dui)(dui)(dui)模(mo)(mo)擬特定(ding)應用(yong)(yong)(yong)(yong)(yong)具(ju)有啟發(fa)性(xing)(xing),但(dan)它缺(que)(que)乏(fa)對(dui)(dui)(dui)(dui)(dui)深(shen)入(ru)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)機(ji)(ji)(ji)制的(de)(de)(de)(de)(de)(de)(de)(de)更廣(guang)泛視(shi)角(jiao)。類(lei)(lei)似地,[68] 調(diao)查(cha)了這(zhe)(zhe)些(xie)(xie)系(xi)統(tong)(tong)在(zai)(zai)數字孿(luan)生(sheng)中(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)應用(yong)(yong)(yong)(yong)(yong),而(er)[52, 70] 則專(zhuan)注(zhu)于(yu)(yu)(yu)(yu)軟件工(gong)程領域(yu)(yu)。從上(shang)述總結(jie)(jie)和(he)(he)(he)(he)(he)(he)(he)解(jie)釋(shi)中(zhong)(zhong)(zhong)可(ke)以看出,現有研(yan)究在(zai)(zai)全(quan)面(mian)(mian)(mian)探(tan)索基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)MASs的(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)方(fang)面(mian)(mian)(mian)和(he)(he)(he)(he)(he)(he)(he)機(ji)(ji)(ji)制方(fang)面(mian)(mian)(mian)存在(zai)(zai)明顯(xian)不足,而(er)這(zhe)(zhe)些(xie)(xie)對(dui)(dui)(dui)(dui)(dui)于(yu)(yu)(yu)(yu)使智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)能(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)共同實(shi)現目標至(zhi)關(guan)重(zhong)要(yao)(yao)。本(ben)文旨在(zai)(zai)提供基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)在(zai)(zai)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)系(xi)統(tong)(tong)中(zhong)(zhong)(zhong)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)基(ji)(ji)(ji)(ji)(ji)礎的(de)(de)(de)(de)(de)(de)(de)(de)全(quan)面(mian)(mian)(mian)視(shi)角(jiao)。以協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)為(wei)核心(xin),我們(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)研(yan)究基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)參與者(涉(she)及的(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti))、類(lei)(lei)型(xing)(xing)(如(ru)(ru)合(he)(he)作(zuo)(zuo)(zuo)(zuo)(zuo)、競爭(zheng)或(huo)競合(he)(he))、結(jie)(jie)構(gou)(如(ru)(ru)點對(dui)(dui)(dui)(dui)(dui)點、集(ji)中(zhong)(zhong)(zhong)式(shi)或(huo)分布(bu)式(shi))、策略(lve)(lve)(如(ru)(ru)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)角(jiao)色(se)(se)、基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)規(gui)(gui)則或(huo)基(ji)(ji)(ji)(ji)(ji)于(yu)(yu)(yu)(yu)模(mo)(mo)型(xing)(xing))以及協(xie)(xie)(xie)(xie)(xie)(xie)調(diao)層(ceng)(ceng)對(dui)(dui)(dui)(dui)(dui)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)之間的(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)進(jin)行(xing)了特征化(hua)(hua)。我們(men)(men)(men)強(qiang)(qiang)調(diao)了促進(jin)有效協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)機(ji)(ji)(ji)制和(he)(he)(he)(he)(he)(he)(he)關(guan)鍵(jian)技術(shu)(shu),識別(bie)(bie)了MAS設計中(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)關(guan)鍵(jian)特征和(he)(he)(he)(he)(he)(he)(he)趨勢。通(tong)過(guo)對(dui)(dui)(dui)(dui)(dui)現有方(fang)法的(de)(de)(de)(de)(de)(de)(de)(de)綜述和(he)(he)(he)(he)(he)(he)(he)開(kai)放挑(tiao)戰(zhan)的(de)(de)(de)(de)(de)(de)(de)(de)識別(bie)(bie),我們(men)(men)(men)將(jiang)這(zhe)(zhe)些(xie)(xie)發(fa)現綜合(he)(he)為(wei)一(yi)個(ge)(ge)連貫的(de)(de)(de)(de)(de)(de)(de)(de)框(kuang)架(jia)。該框(kuang)架(jia)為(wei)未(wei)來研(yan)究奠定(ding)了基(ji)(ji)(ji)(ji)(ji)礎,推(tui)動了LLMs在(zai)(zai)MASs中(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)集(ji)成,并(bing)為(wei)開(kai)發(fa)更具(ju)適應性(xing)(xing)、智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)性(xing)(xing)和(he)(he)(he)(he)(he)(he)(he)協(xie)(xie)(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)性(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)AI系(xi)統(tong)(tong)鋪(pu)平了道路,以應對(dui)(dui)(dui)(dui)(dui)復雜(za)的(de)(de)(de)(de)(de)(de)(de)(de)現實(shi)世界應用(yong)(yong)(yong)(yong)(yong)。我們(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)主要(yao)(yao)貢獻如(ru)(ru)下(xia):

  • 基于LLM的MAS中的協作方面和機制:我們專注于基于LLM的多智能體協作的操作機制,強調實現有效協作所需的“技術訣竅”,包括協作類型、策略、通信結構和協調架構。
  • 基于LLM的MAS的通用框架:我們提出了一個綜合框架,整合了MAS的多樣化特征,使研究人員能夠理解、設計和開發多智能體協作系統。
  • 現實世界應用的綜述:我們研究了基于LLM的MASs在各個領域的實際應用,突出了其實際應用、成功案例和局限性。
  • 經驗教訓與開放問題的討論:我們識別了MASs發展議程中的關鍵挑戰,如集體推理和決策,并概述了解決這些挑戰的潛在研究方向。

**1.3 論文結構

本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。

付費5元查看完整內容

相關內容

具身智能(Embodied AI)旨在發展能夠具備物理形態、并能在真實環境中進行感知、決策、行動與學習的智能系統,這為通用人工智能(AGI)的實現提供了一條有前景的路徑。盡管經過數十年的探索,具身智能體在開放動態環境中執行通用任務時,仍然難以達到人類水平的智能。近年來,大模型的突破性進展徹底革新了具身智能,顯著增強了其在感知、交互、規劃與學習方面的能力。 本文對大模型賦能的具身智能進行了全面綜述,重點聚焦于自主決策具身學習。在決策方面,我們探討了分層決策端到端決策兩類范式:具體而言,大模型如何增強分層決策中的高層規劃、低層執行與反饋機制;以及大模型如何提升視覺-語言-行動(Vision-Language-Action, VLA)模型以支持端到端決策。在具身學習方面,我們介紹了主流的學習方法,并深入闡述大模型如何提升模仿學習強化學習。首次地,我們將**世界模型(World Models)**納入具身智能的綜述,介紹其設計方法及其在增強決策與學習中的關鍵作用。 盡管該領域已取得了實質性進展,但仍然存在諸多挑戰。本文最后對這些挑戰進行了討論,并展望了未來可能的研究方向。 附加關鍵詞與短語:具身(shen)智能,大模(mo)型,分層(ceng)決策,端(duan)到端(duan),模(mo)仿(fang)學習,強(qiang)化學習,世界(jie)模(mo)型

1 引言

具身智能(Embodied AI)[209] 旨在發展具備物理形態的智能系統,使其能夠在真實環境中進行感知、決策、行動與學習。該領域認為,真正的智能源于智能體與環境的交互,因此為實現通用人工智能(AGI)[184] 提供了一條前景可期的路徑。盡管具身智能的探索已經持續了數十年,但要賦予智能體類人水平的智能,使其能夠在開放、非結構化且動態的環境中執行通用任務,仍然面臨巨大挑戰。 早期的具身智能系統[21, 200] 基于符號推理與行為主義,依賴僵化的預編程規則,因而表現出有限的適應性與表層智能。盡管機器人已廣泛應用于制造、物流和特定操作,但它們的功能依然局限于可控環境。機器學習[133],尤其是深度學習[99] 的進展,為具身智能帶來了重要轉折點。基于視覺引導的規劃和基于強化學習的控制[173] 顯著降低了智能體對精確環境建模的依賴。然而,這些模型往往依賴任務特定的數據集進行訓練,在泛化性與可遷移性方面仍然存在不足,限制了其在多樣化場景下的適應能力。 近年來,大模型[149, 150, 182, 183] 的突破性進展顯著提升了具身智能的能力。憑借更強的感知、交互與規劃能力,這些模型為通用型具身智能體[137] 的發展奠定了基礎。然而,大模型賦能的具身智能仍處于萌芽階段,在泛化性、可擴展性以及無縫環境交互方面依舊面臨挑戰[177]。因此,亟需對近年來大模型賦能具身智能的研究進行全面、系統的綜述,以揭示其差距、挑戰與機遇,從而推動 AGI 的實現。 通過對相關領域的系統調研,我們發現現有研究分散、主題復雜,但缺乏系統性分類。已有綜述大多聚焦于大模型自身,例如大語言模型(LLM)[29, 151, 225] 與視覺語言模型(VLM)[104, 113, 191],而較少關注大模型與具身智能體的協同作用。即便有些綜述涉及該方向,它們也往往集中于特定組件,如規劃[188]、學習[7, 26, 204]、模擬器[201]與應用[157, 201, 209],而缺乏對整體范式及各組件如何交互以提升智能的系統性分析。此外,一些較早的綜述遺漏了最新進展,尤其是自 2024 年以來迅速興起的視覺-語言-行動(Vision-Language-Action, VLA)模型[117]與端到端決策。例如,綜述 [119] 對 VLA 模型進行了詳細介紹,但缺少與分層范式的比較以及對學習方法的深入探討。同時,由于該領域發展迅速,早期的綜述[48, 220] 已難以跟上最新研究。 在本文中,我們聚焦于大模型賦能的具身智能中的決策與學習,對相關研究進行分析與分類,厘清最新進展,指出尚存挑戰與未來方向,為研究者提供清晰的理論框架與實踐指導。我們與相關綜述的對比見表1。 本文的主要貢獻如下: 1. 從具身智能視角探討大模型賦能。 在分層決策方面,具身智能涉及高層規劃、低層執行與反饋增強,我們據此對相關工作進行回顧與分類。在端到端決策方面,具身智能依賴于 VLA 模型,因此我們綜述 VLA 模型及其增強方法。在具身學習方面,我們重點考察模仿學習(IL)與強化學習(RL):在 IL 中,大模型如何賦能策略與網絡構建;在 RL 中,大模型如何賦能獎勵函數設計與策略網絡構建。 1. 全面綜述具身決策與具身學習。 本文不僅回顧了大模型賦能下的分層與端到端決策范式并進行對比,還系統性地討論了具身學習方法,包括模仿學習、強化學習,以及遷移學習與元學習。此外,我們首次將**世界模型(World Models)**納入具身智能的綜述,探討其在決策與學習中的作用。 1. 采用水平與垂直結合的雙重分析方法。 水平(ping)分析(xi)比較(jiao)了多(duo)(duo)種方法(fa),包括不(bu)同類(lei)型的大模型、分層與(yu)(yu)端到(dao)端決策、模仿學(xue)習(xi)與(yu)(yu)強化(hua)(hua)學(xue)習(xi),以及多(duo)(duo)樣化(hua)(hua)的具(ju)身學(xue)習(xi)策略;垂直分析(xi)則追蹤核心模型或方法(fa)的演化(hua)(hua)過程(cheng),闡(chan)述其(qi)起源、進展(zhan)與(yu)(yu)開放問題。這一雙重(zhong)方法(fa)論既提(ti)供了宏(hong)觀綜述,也帶來了對主(zhu)流方法(fa)的深入洞察。

本文的組織結構如圖1所示:第2節介紹具身智能的概念,綜述大模型并討論其通用能力提升,隨后分析大模型與具身智能的協同關系。第3節探討分層決策范式,詳細闡述大模型如何增強動態高層規劃、低層執行與基于反饋的迭代優化。第4節聚焦端到端決策,先介紹并分解 VLA 模型,再探討在感知、動作生成與部署效率方面的最新增強,并在最后與分層決策進行系統對比。第5節介紹具身學習方法,特別是大模型增強的模仿學習與強化學習。第6節討論世界模型及其在具身智能決策與學習中的作用。第7節總結開放挑戰與未來前景,第8節給出結論。

付費5元查看完整內容

多(duo)(duo)模(mo)(mo)(mo)(mo)態大型(xing)(xing)語言模(mo)(mo)(mo)(mo)型(xing)(xing)(Multimodal Large Language Models,MLLMs)已迅速發(fa)(fa)展(zhan)(zhan),超越了(le)(le)文本(ben)(ben)生(sheng)成(cheng)的范疇,如(ru)今能夠覆蓋圖像、音樂(le)、視(shi)頻(pin)、人類(lei)(lei)動作以及三維(wei)物體等(deng)多(duo)(duo)種(zhong)輸(shu)出模(mo)(mo)(mo)(mo)態。它們(men)通過在統一(yi)架構下將(jiang)語言與(yu)其(qi)他感(gan)知模(mo)(mo)(mo)(mo)態整合(he)(he),實現(xian)(xian)了(le)(le)跨(kua)(kua)模(mo)(mo)(mo)(mo)態的生(sheng)成(cheng)能力(li)。本(ben)(ben)文綜述將(jiang)六大主(zhu)要(yao)生(sheng)成(cheng)模(mo)(mo)(mo)(mo)態進行分(fen)類(lei)(lei),并探(tan)討了(le)(le)若干核心技術(shu)——包括自監督學習(xi)(Self-Supervised Learning, SSL)、專家混合(he)(he)機制(Mixture of Experts, MoE)、基(ji)于人類(lei)(lei)反饋(kui)的強(qiang)化學習(xi)(Reinforcement Learning from Human Feedback, RLHF)以及思維(wei)鏈提(ti)示(Chain-of-Thought, CoT)——如(ru)何(he)賦能跨(kua)(kua)模(mo)(mo)(mo)(mo)態能力(li)。我(wo)們(men)分(fen)析(xi)了(le)(le)關鍵模(mo)(mo)(mo)(mo)型(xing)(xing)、架構趨勢及其(qi)涌現(xian)(xian)的跨(kua)(kua)模(mo)(mo)(mo)(mo)態協同(tong)效(xiao)應(ying),并重點指出了(le)(le)可(ke)遷移的技術(shu)路徑(jing)與(yu)尚未解決的挑戰。諸如(ru) Transformer 和擴散模(mo)(mo)(mo)(mo)型(xing)(xing)等(deng)架構創新(xin)(xin)為(wei)這種(zhong)融合(he)(he)奠定了(le)(le)基(ji)礎,使得跨(kua)(kua)模(mo)(mo)(mo)(mo)態遷移與(yu)模(mo)(mo)(mo)(mo)塊(kuai)化專精成(cheng)為(wei)可(ke)能。本(ben)(ben)文還總(zong)結(jie)了(le)(le)跨(kua)(kua)模(mo)(mo)(mo)(mo)態協同(tong)的最新(xin)(xin)發(fa)(fa)展(zhan)(zhan)趨勢,并指出了(le)(le)評估方(fang)式、模(mo)(mo)(mo)(mo)塊(kuai)化設(she)計及結(jie)構化推理等(deng)方(fang)面(mian)的開放(fang)性難題。該綜述旨在提(ti)供一(yi)個關于 MLLM 發(fa)(fa)展(zhan)(zhan)的統一(yi)視(shi)角,并指明(ming)實現(xian)(xian)更通用、可(ke)適應(ying)、可(ke)解釋的多(duo)(duo)模(mo)(mo)(mo)(mo)態系統的關鍵路徑(jing)。

1 引言

自 2022 年底首次亮相以來,基(ji)于文本(ben)的(de)大型(xing)(xing)(xing)語言模(mo)型(xing)(xing)(xing)(Large Language Models,LLMs)已(yi)成為(wei)人(ren)(ren)工(gong)智能(neng)領(ling)域(yu)的(de)基(ji)礎支柱(zhu)。這些模(mo)型(xing)(xing)(xing)不僅重(zhong)塑了(le)人(ren)(ren)工(gong)智能(neng)的(de)格局,也深(shen)刻融入了(le)我(wo)們(men)的(de)日常生活。它(ta)們(men)的(de)演進推動了(le)自然語言處理(li)(li)、人(ren)(ren)機交(jiao)(jiao)互以及(ji)多(duo)模(mo)態應用等方面的(de)創(chuang)新,為(wei)各個領(ling)域(yu)的(de)無縫集成鋪(pu)平了(le)道(dao)路。隨(sui)著發展,LLMs 已(yi)從最(zui)初(chu)的(de)簡單文本(ben)生成模(mo)型(xing)(xing)(xing),演進為(wei)支持上下(xia)文學習(xi)(in-context learning)【16, 109, 149, 51】、指令跟隨(sui)(instruction following)【110, 147, 146】以及(ji)多(duo)步推理(li)(li)(multi-step reasoning)【33】的(de)復雜(za)系統,正在重(zhong)塑我(wo)們(men)與計算機交(jiao)(jiao)互、完成任務和創(chuang)造數字內(nei)容的(de)方式(shi)。

然而(er),智(zhi)能并不(bu)局限于語言本身。人類通過豐(feng)富的(de)(de)模(mo)態——文(wen)本、視(shi)(shi)覺、音頻、動作等(deng)——來感(gan)知(zhi)和理解(jie)世(shi)界。硬(ying)件的(de)(de)進(jin)步(bu)使得機器具(ju)備了處理、解(jie)釋和生成這些(xie)多(duo)樣化(hua)(hua)數據(ju)流的(de)(de)能力。這一技(ji)術(shu)趨勢正推動研(yan)究社區邁向更加(jia)整體(ti)化(hua)(hua)的(de)(de)多(duo)模(mo)態方法,促使人工(gong)智(zhi)能與人類復雜的(de)(de)感(gan)知(zhi)方式更緊密對齊。因此,先(xian)進(jin)模(mo)型不(bu)僅擅長理解(jie)和生成文(wen)本,還能將文(wen)本與視(shi)(shi)覺結(jie)合【123】,或(huo)與音頻整合【40】。這種演(yan)進(jin)也體(ti)現在輸出形式上,它們(men)正日益呈現出多(duo)模(mo)態和通用(yong)化(hua)(hua)的(de)(de)特征,突破(po)了傳(chuan)統(tong)單(dan)一模(mo)態的(de)(de)響應(ying)模(mo)式。如今的(de)(de)模(mo)型常(chang)常(chang)以混合類型的(de)(de)數據(ju)作為(wei)輸入【109, 147】,這一多(duo)模(mo)態集成正在推動人工(gong)智(zhi)能系統(tong)逐步(bu)理解(jie)現實(shi)世(shi)界的(de)(de)復雜性【1】,不(bu)斷逼近人類通用(yong)理解(jie)的(de)(de)能力。

雖然文本(ben)依(yi)然是這些模(mo)(mo)型(xing)處理的核心要素,但(dan)其生(sheng)成能(neng)力已擴展至多個輸出(chu)模(mo)(mo)態。為更(geng)好地理解這種(zhong)多樣性,本(ben)文提出(chu)了(le)一(yi)個全新的分(fen)類方式,將(jiang)多模(mo)(mo)態大型(xing)語言模(mo)(mo)型(xing)(Multimodal Large Language Models,MLLMs)的主要生(sheng)成輸出(chu)劃分(fen)為六大關鍵(jian)類別:

文本生成文本(Text-to-Text, T2T):為所有(you)語(yu)(yu)言類任務及自然語(yu)(yu)言處理的基礎(chu),支撐著信(xin)息檢索、摘要生成、翻譯與對話系(xi)統。

文本生成圖像(Text-to-Image, T2I):用于視覺內容的生成與分析,是各類視覺生成任務的核心。 * 文本生成音樂(Text-to-Music, T2M):音樂是一種復雜的聽覺媒介,包含多種樂器與情感表達,其建模難度高于一般音頻。 * 文本生成視頻(Text-to-Video, T2V):結合時間與視覺信息以生成動態場景,涉及現實物理規律,類似一個世界模型。 * 文本生成人類動作(Text-to-Human-Motion, T2HM):廣泛應用于動畫、機器人與虛擬人等場景,是實現直觀人機交互的重要方式。 * 文本生成三維物體(Text-to-3D-Objects, T2-3D):對虛擬現(xian)實、游(you)戲與設計(ji)等應用至關重(zhong)要(yao),有(you)助(zhu)于(yu)在沉浸式環境中實現(xian)想象與交互(hu)。

這(zhe)六大類別(bie)代表了(le)當前生成(cheng)(cheng)模(mo)(mo)型所涉及(ji)的(de)(de)主要模(mo)(mo)態,每種模(mo)(mo)態對應(ying)一(yi)種獨特(te)的(de)(de)數據輸出形式(shi)(shi)與(yu)應(ying)用場景(jing)。本文將(jiang)音樂單(dan)獨歸為 Text-to-Music(T2M),而(er)非更(geng)廣義的(de)(de) Text-to-Audio,這(zhe)是(shi)因為語(yu)音與(yu)文本關系密切,本質上(shang)是(shi)一(yi)種可直接相互轉換的(de)(de)形式(shi)(shi);而(er)音樂則擁有(you)與(yu)語(yu)言截然不同(tong)的(de)(de)結構、節奏(zou)、和聲與(yu)創(chuang)作元素,建(jian)模(mo)(mo)復雜性(xing)更(geng)高(gao),因此值得單(dan)獨對待(dai)。通過明確劃分(fen)這(zhe)些能力(li),我們希(xi)望(wang)強調生成(cheng)(cheng)模(mo)(mo)型所能覆蓋的(de)(de)廣泛輸出范式(shi)(shi),每種模(mo)(mo)式(shi)(shi)既有(you)獨特(te)的(de)(de)應(ying)用場景(jing),也(ye)伴隨著專屬的(de)(de)技(ji)術挑戰(zhan)。

支撐這些多模(mo)態(tai)(tai)生(sheng)成能(neng)力(li)的(de)(de),是一系列基(ji)礎性(xing)(xing)的(de)(de)架構(gou)(gou)創(chuang)新,主要(yao)(yao)包括 Transformer【152】及其核(he)心的(de)(de)注意力(li)機制【5】,以及在(zai)眾多視覺生(sheng)成任(ren)務(wu)中表現突出(chu)的(de)(de)擴(kuo)散模(mo)型(xing)(diffusion models)【106】。隨(sui)著模(mo)態(tai)(tai)復(fu)雜度的(de)(de)不斷提升,人(ren)工智(zhi)能(neng)系統所需應對(dui)的(de)(de)問(wen)題日益復(fu)雜,模(mo)型(xing)結構(gou)(gou)與訓練方(fang)法也在(zai)不斷演進(jin)(jin)。這種演進(jin)(jin)往往是解(jie)鎖模(mo)型(xing)涌現能(neng)力(li)的(de)(de)關鍵【165】。其中有四項技術在(zai)提升模(mo)型(xing)推(tui)理能(neng)力(li)方(fang)面起到了決定性(xing)(xing)作用:三項主要(yao)(yao)用于訓練階段,分別是自監督(du)學(xue)習(Self-Supervised Learning,SSL)【121】、專(zhuan)家混(hun)合機制(Mixture of Experts,MoE)【62】以及基(ji)于人(ren)類反饋的(de)(de)強化學(xue)習(Reinforcement Learning from Human Feedback,RLHF)【26】;第四項是用于推(tui)理階段的(de)(de)思(si)維(wei)鏈提示(Chain-of-Thought,CoT)【164】。

自監督學習(SSL):在訓練階段使模型從海量未標注數據中學習,通過預測輸入中被遮蔽的信息,建立起對語言、模式與世界知識的基礎理解,為復雜推理提供必需支持。 * 專家混合機制(MoE):通過選擇性激活不同“專家”子網絡,以較低的計算開銷顯著提升模型容量,能更高效地學習多樣知識與復雜模式,是增強高級推理能力的關鍵手段。 * 基于人類反饋的強化學習(RLHF):一種訓練階段的微調方法,使模型更符合人類偏好與行為預期。通過人類排名數據訓練,RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。 * 思維鏈提示(CoT):在推(tui)理階段引導模(mo)型生成一(yi)系列中間步(bu)驟(zou),以(yi)增強多步(bu)推(tui)理能(neng)力。這種顯式的思維過(guo)程有助于更準確且透明地處理復雜問(wen)題。

已有的(de)(de)(de)綜述文獻也為理解 MLLMs 的(de)(de)(de)發展提(ti)供了(le)(le)(le)重(zhong)要參考。[8] 提(ti)出(chu)了(le)(le)(le)多模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)學(xue)習的(de)(de)(de)核(he)心(xin)(xin)框架,并(bing)總結了(le)(le)(le)代表性挑(tiao)戰(zhan),包括表示學(xue)習、模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)翻譯、模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)對齊(qi)、模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)融合與(yu)協同學(xue)習,奠定了(le)(le)(le) MLLM 研究的(de)(de)(de)基礎。[17] 評述了(le)(le)(le)以視覺(jue)為中心(xin)(xin)的(de)(de)(de) MLLMs,涵蓋其架構、模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)對齊(qi)策略以及(ji)視覺(jue)定位、圖像(xiang)生成等應(ying)用(yong)(yong)。[183] 關注(zhu)多模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)模(mo)(mo)(mo)型中的(de)(de)(de)人類偏好對齊(qi)機制,[30] 則深入(ru)探(tan)討了(le)(le)(le)模(mo)(mo)(mo)型的(de)(de)(de)可(ke)(ke)解釋性與(yu)可(ke)(ke)理解性,是可(ke)(ke)信(xin) AI 的(de)(de)(de)關鍵(jian)因素。[182] 詳盡梳理了(le)(le)(le) MLLMs 在粒度、多模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)與(yu)多語(yu)言覆(fu)蓋及(ji)應(ying)用(yong)(yong)場景上的(de)(de)(de)演進(jin)(jin),并(bing)進(jin)(jin)一步推進(jin)(jin)了(le)(le)(le)如多模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)上下(xia)文學(xue)習、思維鏈推理、LLM 輔助視覺(jue)理解等新方法。[95] 系統地回(hui)顧了(le)(le)(le) MLLMs 在多種模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)下(xia)的(de)(de)(de)應(ying)用(yong)(yong)與(yu)安(an)全性問題,[158] 則深入(ru)探(tan)討了(le)(le)(le)多模(mo)(mo)(mo)態(tai)(tai)(tai)(tai)(tai)思維鏈推理(Multimodal Chain-of-Thought, MCoT)在不同任務中的(de)(de)(de)潛力。

為(wei)全面理(li)(li)解這一不(bu)斷演化(hua)的(de)研究(jiu)圖景,本文結構如下:第(di)(di)(di) 2 節(jie)介(jie)紹背(bei)景知識(shi)與基本概念,并(bing)定義本文的(de)綜述范圍與方(fang)法論(lun);第(di)(di)(di) 3 節(jie)對前述六大生成模態(tai)(T2T, T2I, T2M, T2V, T2HM, T2-3D)的(de)歷(li)史發(fa)展進行梳理(li)(li);第(di)(di)(di) 4 節(jie)討論(lun)四(si)項核心(xin)(xin)技術(shu)(SSL, MoE, RLHF, CoT)的(de)發(fa)展過(guo)程與關(guan)鍵作用;第(di)(di)(di) 5 節(jie)綜合分析跨模態(tai)的(de)趨勢、面臨的(de)挑(tiao)戰以及架構層面的(de)共性(xing),探(tan)索模態(tai)與技術(shu)之(zhi)間的(de)協同效應;第(di)(di)(di) 6 節(jie)展望未來研究(jiu)方(fang)向(xiang),如擴展 SSL 至新模態(tai)、模塊化(hua)專家(jia)機制(zhi)、以及非文本模態(tai)的(de)思維鏈推理(li)(li)等;第(di)(di)(di) 7 節(jie)總結全文核心(xin)(xin)觀點,并(bing)探(tan)討通(tong)向(xiang)統一多模態(tai)系統的(de)發(fa)展路徑。

付費5元查看完整內容

將強化(hua)(hua)學(xue)習(xi)(Reinforcement Learning,RL)融入(ru)多模(mo)態(tai)大(da)語言模(mo)型(Multimodal Large Language Models,MLLMs)推(tui)理(li)能(neng)力的(de)(de)研(yan)究(jiu)方(fang)向正(zheng)迅速發展(zhan),成為(wei)一項具有變革性的(de)(de)前沿課題。盡管多模(mo)態(tai)大(da)語言模(mo)型在(zai)傳統(tong)大(da)語言模(mo)型(LLMs)的(de)(de)基(ji)礎上顯著(zhu)擴展(zhan),能(neng)夠處理(li)圖像、音(yin)頻和視頻等(deng)多種模(mo)態(tai),但在(zai)多模(mo)態(tai)輸入(ru)下實現(xian)穩健(jian)推(tui)理(li)仍面(mian)臨重大(da)挑戰。本(ben)文系統(tong)回顧(gu)了(le)(le)基(ji)于(yu)強化(hua)(hua)學(xue)習(xi)的(de)(de)多模(mo)態(tai)推(tui)理(li)研(yan)究(jiu)進展(zhan),涵蓋(gai)核心(xin)算(suan)法(fa)(fa)設計、獎勵機制創新以(yi)(yi)及實際應(ying)用案例。我(wo)們重點分析(xi)了(le)(le)兩大(da)類強化(hua)(hua)學(xue)習(xi)范(fan)式——無價(jia)值函(han)數方(fang)法(fa)(fa)(value-free)和基(ji)于(yu)價(jia)值函(han)數方(fang)法(fa)(fa)(value-based),并(bing)探討了(le)(le)RL如何通過優化(hua)(hua)推(tui)理(li)軌跡與(yu)對(dui)齊多模(mo)態(tai)信息來增強推(tui)理(li)能(neng)力。此外(wai),本(ben)文還全(quan)面(mian)梳理(li)了(le)(le)主流基(ji)準數據集、評估(gu)方(fang)法(fa)(fa)以(yi)(yi)及當前研(yan)究(jiu)的(de)(de)局限性,并(bing)提出了(le)(le)未來可能(neng)的(de)(de)研(yan)究(jiu)方(fang)向,以(yi)(yi)應(ying)對(dui)稀疏獎勵、低效的(de)(de)跨(kua)模(mo)態(tai)推(tui)理(li)以(yi)(yi)及真實場景部署等(deng)關鍵瓶頸。我(wo)們的(de)(de)目標(biao)是(shi)為(wei)有志(zhi)于(yu)推(tui)進多模(mo)態(tai)時代(dai)RL推(tui)理(li)研(yan)究(jiu)的(de)(de)學(xue)者(zhe)提供一個系統(tong)而全(quan)面(mian)的(de)(de)參考(kao)指(zhi)南。

1 引言

大型語言模型(Large Language Models,LLMs)的(de)興起 [2, 35, 36, 94, 130] 為人工智能(neng)領域(yu)(yu)帶來(lai)了(le)(le)前所未有的(de)新紀元,展(zhan)現(xian)出(chu)卓(zhuo)越(yue)的(de)指(zhi)令遵循能(neng)力(li)(li)和(he)少(shao)樣本學習能(neng)力(li)(li) [10]。然而,實現(xian)類人智能(neng)不僅需要超(chao)越(yue)基礎感知能(neng)力(li)(li),更需要發展(zhan)出(chu)能(neng)夠通過(guo)(guo)(guo)上下文理(li)解和(he)自我糾(jiu)錯進行迭(die)代(dai)推理(li)的(de)復雜認知能(neng)力(li)(li)。受此(ci)啟發,情境(jing)學習(In-context Learning,ICL)技術 [112, 113, 121] 賦予(yu)了(le)(le)LLMs逐步推理(li)的(de)能(neng)力(li)(li),這種機制通常被稱為“思維鏈(lian)條”(Chain-of-Thought,CoT)推理(li)機制 [9, 109, 114, 146]。OpenAI 的(de) o1 模型 [45] 在解決推理(li)任務方(fang)面表現(xian)出(chu)色,引發了(le)(le)各領域(yu)(yu)對(dui)推理(li)能(neng)力(li)(li)推理(li)時間擴展(zhan)(test-time scaling)研究的(de)廣(guang)泛(fan)關(guan)注。通過(guo)(guo)(guo)在推理(li)過(guo)(guo)(guo)程中引入額(e)外計算(suan)以實現(xian)“慢思考” [49],該模型進一步提(ti)高了(le)(le)對(dui)復雜問題的(de)回答(da)準確性(xing)。

在LLMs中廣泛(fan)開(kai)展的(de)CoT研究啟發下,多模(mo)(mo)態大語(yu)言模(mo)(mo)型(xing)(Multimodal Large Language Models,MLLMs)中的(de)推理(li)任務 [6, 69, 96, 105, 119] 也(ye)迅速取得進展。典(dian)型(xing)的(de)方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索(Monte Carlo Tree Search)[13, 99, 108, 125, 132]。這些(xie)方法依賴復雜的(de)搜索機制生(sheng)成大量推理(li)數據(ju),并通過監督微(wei)調使模(mo)(mo)型(xing)學(xue)習(xi)自主推理(li)能(neng)力。

隨著(zhu)強化(hua)學(xue)習(Reinforcement Learning,RL)理論和技術的(de)進步,DeepSeek R1 [37] 展示(shi)了大(da)語言模(mo)型如何通過基(ji)于(yu)規則的(de)簡(jian)單激勵機制和輕量級強化(hua)學(xue)習算法(fa)(fa)(如GRPO [85])自(zi)主學(xue)習復雜推理能力。這種方法(fa)(fa)使LLMs在(zai)無明確監督的(de)情況下自(zi)然產生“靈光一現(xian)”(Aha Moment),表現(xian)為訓(xun)練過程(cheng)中模(mo)型自(zi)我反思并自(zi)主延長(chang)(chang)回答長(chang)(chang)度。近期研(yan)究 [43, 63, 76, 150] 將該方法(fa)(fa)擴(kuo)展至MLLMs,并應用于(yu)目標識別(bie) [63]、語義分割(ge) [60] 和視頻(pin)分析 [91] 等領(ling)域。這些方法(fa)(fa)在(zai)訓(xun)練數據有限的(de)情況下顯著(zhu)提升了MLLMs的(de)性(xing)能,在(zai)域內測試中可媲美(mei)監督微調(SFT)方法(fa)(fa),在(zai)分布外(OOD)評估中更是超越了SFT模(mo)型。

然而,正如圖(tu)1所示,這一迅速發(fa)(fa)展的(de)(de)(de)趨勢也(ye)為研(yan)究人(ren)員(yuan)帶(dai)來了諸(zhu)多(duo)挑戰。盡(jin)管基(ji)于(yu)RL的(de)(de)(de)方(fang)法有效(xiao),但大多(duo)數(shu)仍延(yan)續文本思維范(fan)式,忽視了在(zai)多(duo)模(mo)態場(chang)景中(zhong)其他模(mo)態所扮(ban)演的(de)(de)(de)關鍵角色(se)。此(ci)外,當前(qian)的(de)(de)(de)RL推(tui)理方(fang)法主要(yao)依(yi)賴基(ji)于(yu)規(gui)則(ze)的(de)(de)(de)獎勵函數(shu)與(yu)可驗證答案,未(wei)能(neng)(neng)覆蓋更廣泛的(de)(de)(de)泛化場(chang)景問題(ti),如無明確答案的(de)(de)(de)問題(ti)。 盡(jin)管已有多(duo)項(xiang)綜(zong)述聚焦于(yu)MLLMs的(de)(de)(de)推(tui)理能(neng)(neng)力 [54, 110],但尚無文獻專門針對MLLMs中(zhong)基(ji)于(yu)RL的(de)(de)(de)推(tui)理方(fang)法進行系(xi)統探討。為填補這一空白,本文系(xi)統綜(zong)述了基(ji)于(yu)RL的(de)(de)(de)MLLMs推(tui)理方(fang)法,全面梳理技術發(fa)(fa)展、方(fang)法體系(xi)、實際應用(yong)與(yu)未(wei)來方(fang)向(xiang),旨在(zai)為快速演進的(de)(de)(de)MLLM推(tui)理研(yan)究提供系(xi)統化的(de)(de)(de)參考與(yu)指導,從而推(tui)動(dong)該(gai)領(ling)域的(de)(de)(de)持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略;第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估;最后,第7節探討當前限制與未來研究方向。 本文從以下四個關鍵視角出發,系統分析MLLMs中基于強化學習的推理方法: * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略:重點分析無價值函數方法(value-free)與基于價值函數方法(value-based)的核心理念與改進方向,探討其在提升訓練效率、穩定性與推理性能方面的創新方案,比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略:從所使用的強化學習算法、獎勵機制(以準確性或結構為導向)及多模態輸入整合(包括視覺、音頻與時序信息)等維度,對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議:分析數據集的構建流程,包括數據來源、模型輸出收集及偏好標注方法,涵蓋數學、科學、空間、交互等多種類型的推理任務,并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向:討論當前面臨的(de)(de)挑戰,如(ru)稀疏與靜(jing)態的(de)(de)獎勵反饋、低效的(de)(de)推理路徑與薄弱的(de)(de)跨模態協同等(deng)問題,探討包括層級化獎勵建模、視(shi)覺引導(dao)的(de)(de)CoT生成以及適用于真實多模態智能體的(de)(de)輕(qing)量級RL框(kuang)架等(deng)前景方(fang)向(xiang)。

付費5元查看完整內容

視覺-語言模型(Vision-Language Models, VLMs)融合了視覺與文本信息,使圖像描述(Image Captioning)和視覺問答(Visual Question Answering)等廣泛應用成為可能,因此在現代人工智能系統中具有重要意義。然而,這類模型對計算資源的高度依賴,為實時應用帶來了巨大挑戰。因此,近年來對于高效視覺-語言模型的研究逐漸成為熱點。 在本綜述中,我們回顧了用于在邊緣設備和資源受限環境中優化VLMs的關鍵技術,并探討了緊湊型VLM架構與相關框架。同時,我們還深入分析了高效VLM在性能與內存之間的權衡問題。 此外,我們在 GitHub 上建立了一個開源倉庫(//github.com/MPSC-UMBC/Efficient-Vision-Lang),收錄所有被調研的論文,并將持續更新。我們的目標是推動該領域的深入研究。 關鍵詞:高效視覺(jue)-語言模(mo)型,多(duo)模(mo)態(tai)模(mo)型,邊緣(yuan)設(she)備

1 | 引言

視覺-語言模型(Vision-Language Models,VLMs)的出現回應了當前對能夠有效處理和整合視覺與文本數據系統的迫切需求。如今,醫療(如醫學圖像與診斷報告)、自動駕駛系統(如傳感器數據與導航指令),以及社交媒體(如配有文字說明的圖片)等領域日益豐富的多模態數據凸顯出單模態模型的局限性——它們難以將視覺內容與語言語境有機關聯。VLMs 通過在統一的表示空間中對齊圖像與文本信息,有效應對了這一挑戰,從而實現了圖像描述、跨模態檢索、視覺問答(VQA)、視覺常識推理(VCR)等高級任務。 深度學習架構的持續進步以及大規模多模態數據集的可獲取性,進一步推動了 VLMs 的發展。為了更高效地對齊并融合多模態數據,VLMs 利用了多種訓練目標,其中對比學習、掩碼建模和生成建模起到了關鍵作用。 在基于對比學習的VLM中,模型目標是對匹配的數據對賦予較低的能量值(energy),而對不匹配的數據對施加較高能量懲罰。所學習的能量函數 E?(x)E_\phi(x)E?(x) 通過玻爾茲曼公式將數據樣本映射為概率分布:

這一公式確保了能量值越低的樣本,其對應的概率越高。優化目標是使模型分布 P?(x)P_\phi(x)P?(x) 盡可能接近目標分布 PT(x)P_T(x)PT(x)。這種優化常使用最大似然估計,通過正負樣本計算梯度,其中負樣本通常通過馬爾可夫鏈蒙特卡洛(MCMC)等方法生成。CLIP(Radford 等, 2021)與 SigLIP(Zhai 等, 2023)等模型展示了對比學習在將視覺與文本嵌入對齊方面的有效性,使模型在多模態任務中表現穩健。 掩碼建模則采用另一種思路:通過對輸入進行部分遮蔽并訓練模型預測被遮蔽的部分。例如,掩碼語言建模(MLM)依托 Transformer 架構,隨機丟棄輸入 token 并進行預測;而掩碼圖像建模(MIM)在視覺數據中應用相同原理。FLAVA(Singh 等, 2022)與 BEiT(Bao 等, 2021)等框架成功利用掩碼建模策略,在大規模多模態數據集上進行預訓練。 相比之下,生成式模型通過同時學習對比損失與生成損失,進一步擴展了 VLMs 的能力。這類模型廣泛用于圖像描述任務。例如,CM3Leon(Yu 等, 2023b)采用獨立的圖像與文本 tokenizer,將不同模態的輸入轉換為 token 序列,隨后由 Transformer 解碼器處理。而 Chameleon(Team, 2024)則進一步統一設計,采用相同的 Transformer 模型處理圖像與文本 token,以提高效率與一致性。除了圖像描述,生成式模型還可應用于多種下游任務,例如利用貝葉斯公式進行圖像分類:

為節省計算(suan)資(zi)源(yuan)并降低訓練(lian)(lian)(lian)成本,VLMs 通(tong)常集成預(yu)訓練(lian)(lian)(lian)的(de)(de)(de)(de)模(mo)(mo)(mo)型骨干(backbone),例如 Frozen(Tsimpoukelli 等, 2021)、MiniGPT(Zhu 等, 2023)或 Qwen 系(xi)列(Qwen 等, 2024)。這些預(yu)訓練(lian)(lian)(lian)組件(jian)可(ke)加(jia)快收斂速度并具備(bei)較好(hao)的(de)(de)(de)(de)任務泛(fan)化(hua)能力(li)。VLM 的(de)(de)(de)(de)預(yu)訓練(lian)(lian)(lian)架(jia)構(gou)也存(cun)(cun)在(zai)差異,從圖(tu)(tu)像與(yu)(yu)(yu)文本分(fen)別編碼(ma)的(de)(de)(de)(de)雙塔模(mo)(mo)(mo)型(Two-Tower)到(dao)使(shi)(shi)用統一網(wang)絡(luo)生成聯合(he)嵌入的(de)(de)(de)(de)一體(ti)化(hua)模(mo)(mo)(mo)型(One-Tower),都在(zai)提(ti)升效率的(de)(de)(de)(de)同(tong)(tong)時增強了(le)(le)對邊緣(yuan)(yuan)設(she)備(bei)的(de)(de)(de)(de)適配性(xing)。 將 VLMs 部(bu)署于資(zi)源(yuan)受限設(she)備(bei)(如邊緣(yuan)(yuan)計算(suan)終端)可(ke)有效滿足實時處(chu)理與(yu)(yu)(yu)隱私(si)保護的(de)(de)(de)(de)需求(qiu),使(shi)(shi)推理過(guo)程可(ke)在(zai)本地完成。同(tong)(tong)時,邊緣(yuan)(yuan)部(bu)署也可(ke)在(zai)網(wang)絡(luo)連接有限或不穩(wen)定的(de)(de)(de)(de)環(huan)境中實現穩(wen)定性(xing)能,使(shi)(shi) VLMs 在(zai)自動(dong)導航與(yu)(yu)(yu)智能物聯網(wang)系(xi)統中表現出高度適應性(xing)(見(jian)圖(tu)(tu)1)。 然而(er),隨(sui)著(zhu)最先進 VLMs 為追求(qiu)更高性(xing)能而(er)不斷擴展,其模(mo)(mo)(mo)型體(ti)積與(yu)(yu)(yu)推理延(yan)遲(chi)顯著(zhu)上(shang)(shang)(shang)升。例如,CLIP-B/16(Liu, 2024)模(mo)(mo)(mo)型的(de)(de)(de)(de)圖(tu)(tu)像編碼(ma)器參數量達 8620 萬,文本編碼(ma)器達 6340 萬,使(shi)(shi)其難以部(bu)署于 Jetson Nano(4 GB RAM,無(wu)獨立(li) GPU)或 Jetson Xavier(8 GB RAM,1 個(ge) GPU)等邊緣(yuan)(yuan)設(she)備(bei)。在(zai) Jetson Nano 上(shang)(shang)(shang),有限的(de)(de)(de)(de)內存(cun)(cun)會導致頻繁的(de)(de)(de)(de)內存(cun)(cun)交換,嚴重影響延(yan)遲(chi)與(yu)(yu)(yu)吞吐(tu)量;而(er)即使(shi)(shi)是 Jetson Xavier,其 GPU 也可(ke)能無(wu)法(fa)實時滿足模(mo)(mo)(mo)型的(de)(de)(de)(de)計算(suan)需求(qiu)。這些限制凸顯了(le)(le)開發內存(cun)(cun)占用低、延(yan)遲(chi)低且性(xing)能競(jing)爭(zheng)力(li)強的(de)(de)(de)(de)高效 VLMs 的(de)(de)(de)(de)迫切性(xing)。 本綜述的(de)(de)(de)(de)主要(yao)貢獻如下: 1. 系(xi)統總結了(le)(le)在(zai)資(zi)源(yuan)受限設(she)備(bei)上(shang)(shang)(shang)提(ti)升 VLM 效率的(de)(de)(de)(de)多種(zhong)技術(shu),包括部(bu)署前優化(hua)、精調策略與(yu)(yu)(yu)運行時優化(hua)方法(fa); 1. 匯(hui)總了(le)(le)當(dang)前最具代表性(xing)的(de)(de)(de)(de)輕量化(hua) VLM 模(mo)(mo)(mo)型及其配套框架(jia); 1. 基于上(shang)(shang)(shang)述技術(shu),深(shen)入分(fen)析(xi)了(le)(le) VLM 性(xing)能與(yu)(yu)(yu)內存(cun)(cun)占用之(zhi)間的(de)(de)(de)(de)權衡關系(xi)。

本綜述按照圖2中的分類體系展開。與現有綜述(如 Ghosh 等, 2024)主要聚焦 VLM 架構,Du 等 (2022) 針對視覺語言預訓練模型(VL-PTMs),以及 Zhang 等 (2024a) 探討知識蒸餾與遷移學習等技術不同,我們則聚焦于面向邊緣與資源受限設備的高效 VLMs 設計,并提供深入分析。表1對比了本綜述與其他綜述的差異。 為了保證綜述的全面性,我們從 Google Scholar、DBLP 與 ResearchGate 等平臺廣泛檢索頂級會議與研討會論文,檢索關鍵詞包括 “VLM quantization”、“VLM pruning”、“VLM finetuning techniques”、“VLM knowledge distillation”、“VLM runtime optimizations”,以確保對該快速發展的研究領域進行有針對性的深入探討。 本文接下來的結構如下:第2節介紹部署前優化技術;第3與第4節分別探討精調策略與運行時優化方法;第5節涉及分布式 VLMs;第6節總結當前高效 VLM 模型及其配套框架與庫;第7節分析準確率與效率的權衡問題;第8節探討典型應用場景;第9節討論當前挑戰與未來研究方向;最后在第10節進行總結。 我們還創建了一個 GitHub 倉庫,收錄本綜述中提及的所有論文,并將持續維護更新以涵蓋新興研究:

付費5元查看完整內容

大語言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(LLMs)為可(ke)解釋人工智能(XAI)提供了一種前(qian)景廣闊的(de)研(yan)究路徑——通過將復雜的(de)機(ji)器(qi)學(xue)習(xi)輸出轉化為易于理解的(de)敘(xu)述,使模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)預測(ce)更貼近(jin)用戶認知,從(cong)而彌合(he)先進模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)行為與人類可(ke)解釋性之間的(de)鴻溝。 當前(qian),最先進的(de)神經網絡(luo)與深度(du)學(xue)習(xi)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)等(deng)AI系(xi)統常因(yin)缺乏透明度(du)被視(shi)為“黑箱(xiang)”。由于用戶無法充(chong)分(fen)理解模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)的(de)決策邏輯,其對AI結論的(de)信任度(du)往往不足,進而導(dao)致決策效率降(jiang)低、責任歸屬模(mo)(mo)(mo)糊以(yi)及潛在偏(pian)見難(nan)以(yi)察覺(jue)。因(yin)此,如(ru)何構(gou)建(jian)可(ke)解釋AI(XAI)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)以(yi)贏取用戶信任并揭示模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)的(de)內在機(ji)制(zhi),已成(cheng)為關鍵研(yan)究挑戰。隨著(zhu)大語言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)的(de)發展,我們得以(yi)探索基于人類語言的(de)LLMs在模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)可(ke)解釋性領域的(de)應用潛力。

本綜述(shu)系統性回顧了(le)LLMs賦能XAI的(de)(de)現有方法體(ti)系與(yu)解(jie)釋生成(cheng)評估技術,剖析了(le)相(xiang)關挑戰與(yu)局限,并考(kao)察了(le)實(shi)際應用(yong)案例。 最后,我們展望(wang)未來研(yan)究方向,強調需(xu)通過(guo)LLMs發展更具可解(jie)釋性、自動化、以用(yong)戶(hu)為中心且(qie)融合多學(xue)科智慧的(de)(de)XAI新(xin)范式(shi)。

1 引言 近(jin)年(nian)來,人工智能(AI)技術的(de)(de)飛速(su)進步(bu)推(tui)動了深度學習等復雜模(mo)(mo)型(xing)的(de)(de)快速(su)發(fa)展。AI模(mo)(mo)型(xing)已(yi)在醫(yi)療(liao)、金融等諸多領(ling)域展現(xian)出卓越能力[72][30]。然(ran)而,隨著模(mo)(mo)型(xing)復雜度的(de)(de)提升,其決策(ce)過程因缺乏透(tou)明度而難以追溯(su)[12]——這種被稱為"黑箱"的(de)(de)問題嚴重制約了用戶信任,尤其在醫(yi)療(liao)和金融等關鍵領(ling)域的(de)(de)應用推(tui)廣(guang)[15]。盡(jin)管學界持(chi)續(xu)致力于提升AI模(mo)(mo)型(xing)的(de)(de)可解(jie)釋性(xing)[59],但(dan)缺乏機器學習背景的(de)(de)專家仍難以理解(jie)系統(tong)決策(ce)邏輯。

透明(ming)度的(de)缺失(shi)將直接導致三重困境:

在醫(yi)療(liao)場景(jing)中,醫(yi)生可能無法理解模型(xing)推薦特定治療(liao)方(fang)案的原(yuan)因,導(dao)致難(nan)以采信其建議;

在金融領域,分析(xi)師若(ruo)無法(fa)解(jie)讀AI市場預(yu)測(ce)的(de)依據,則可能對模(mo)型輸(shu)出猶豫不決;

更廣泛而言,這會(hui)降低決(jue)策(ce)效率、模(mo)糊責任歸屬,并掩蓋潛(qian)在偏見。

可(ke)解(jie)釋人工智能(XAI)正通過(guo)創新(xin)方法提(ti)升神經網絡等前沿模(mo)型(如圖像識別(bie)中(zhong)的卷積(ji)神經網絡CNN、序(xu)列數據(ju)處理(li)(li)中(zhong)的循環神經網絡RNN、圖像生成中(zhong)的對抗生成網絡GAN)的可(ke)解(jie)釋性(xing),力求在保(bao)(bao)持準(zhun)確率等性(xing)能指標的同時增強透明(ming)度[12]。XAI的核心(xin)在于平(ping)衡模(mo)型效能與(yu)可(ke)理(li)(li)解(jie)性(xing),這一挑戰貫穿所有(you)(you)應(ying)用場(chang)景[119][144][27]。有(you)(you)效的解(jie)釋機制(zhi)能建立用戶信任(ren)、確保(bao)(bao)責(ze)任(ren)追溯,并促(cu)進AI倫理(li)(li)應(ying)用。

大語言(yan)模型(LLMs)的革(ge)新(xin)價值: 作(zuo)為連接復雜AI系統與XAI的橋梁,LLMs憑借其自然(ran)語言(yan)處理能(neng)力[90]正(zheng)在多個領(ling)域發揮關鍵作(zuo)用:

醫療:輔助診斷與(yu)個性化(hua)診療[130],例如在醫學影像分(fen)析(xi)中,LLMs可解(jie)釋模(mo)型為(wei)何將(jiang)肺部掃描標記為(wei)異常,并指出特(te)定(ding)疾病(bing)關聯特(te)征(zheng);

金融:支持風(feng)險評估與市(shi)場預測[143];

自然語言(yan)處理(NLP):賦能文本分類、摘要(yao)生成與情感分析等(deng)任務。

LLMs通過以下方(fang)式(shi)推動XAI發展:

動態解(jie)(jie)釋生(sheng)成:理解(jie)(jie)用戶問題后生(sheng)成情(qing)境化(hua)解(jie)(jie)釋[109][123][125];

架構可視化:直接解(jie)析復雜機器學(xue)習模型的結構與輸出(chu)邏輯(ji)[77];

反事(shi)實(shi)推演:通(tong)過簡單提示(shi)即可識別預測關鍵特(te)征并生(sheng)成對比解(jie)釋(shi)(如研究[16][97]所(suo)示(shi))。

這些(xie)實(shi)踐印證了LLMs在提升(sheng)AI決策透明度和可(ke)信度方面的(de)巨大潛力,為構建跨領域(yu)可(ke)解釋AI系統開辟了新路(lu)徑(jing)。

如(ru)圖2與表1所示(shi),本(ben)研究(jiu)系統探討了基(ji)于大語言模型(LLMs)的可解(jie)釋性實現路徑,重點(dian)論述以下(xia)三類方法:

  1. 事后解釋(shi)法(Post-hoc Explanations) 對應因(yin)果可(ke)解釋(shi)性(xing)(xing),通過(guo)分析特定輸入如何導致特定輸出,為(wei)機器學習(ML)模(mo)型(xing)的預測(ce)結果提供歸因(yin)解釋(shi)。例如:當(dang)圖像(xiang)分類(lei)模(mo)型(xing)將某病理切片判定為(wei)惡性(xing)(xing)腫瘤時,該(gai)方法可(ke)定位影響決策的關鍵圖像(xiang)區域。

  2. 內在可解釋設(she)計(Intrinsic Explainability) 面向工程師的(de)可解釋性需求,通過LLMs參與機(ji)器學(xue)習模型(xing)架構設(she)計,使模型(xing)自身(shen)具備(bei)解釋能力。典型(xing)實踐(jian)包括:利(li)用(yong)注意(yi)力機(ji)制可視化(hua)神(shen)經(jing)網(wang)絡(luo)決(jue)策(ce)路徑,或構建模塊化(hua)推理鏈條。

  3. 人本敘(xu)事生成(cheng)(Human-Centered Narratives) 旨在(zai)建立信任導向的可(ke)解(jie)釋性,借助自然(ran)語言將模型輸出轉(zhuan)化為符(fu)合用(yong)戶認知(zhi)的敘(xu)事。以醫療場景為例:當(dang)AI預測患(huan)者未來五年(nian)高(gao)(gao)血(xue)壓(ya)風險較高(gao)(gao)時(基于(yu)高(gao)(gao)膽固醇史、家族(zu)病史、年(nian)齡體重等因素),即使當(dang)前(qian)血(xue)壓(ya)正常(chang),系統可(ke)生成(cheng)如(ru)下解(jie)釋:

"盡(jin)管(guan)患者目前血(xue)壓(ya)值在正常范圍內(nei),但結合其高(gao)膽固(gu)醇病史(shi)(+37%風(feng)險權(quan)(quan)重)、一(yi)級親屬(shu)高(gao)血(xue)壓(ya)家族史(shi)(+28%風(feng)險權(quan)(quan)重)及(ji)BMI指(zhi)數(+15%風(feng)險權(quan)(quan)重),模(mo)型預(yu)測(ce)五年(nian)內(nei)患病概率達68%。建議加強生活方式干預(yu)與定(ding)期監測(ce)。" 此(ci)類敘(xu)事幫助醫生理解預(yu)測(ce)依據,從(cong)而建立(li)決策信任(ren)。

本綜述還將探討(tao)解釋效果的評估技術及(ji)其在實(shi)際場(chang)景中的應(ying)用(yong)范式。

圖片 挑(tiao)戰與局限分析 如圖3所示,我(wo)們圍繞三個(ge)維度(du)討論LLMs實現AI可解(jie)釋性的瓶頸:

隱私與社會規范沖(chong)突:醫療數據脫(tuo)敏需求與解(jie)釋詳盡性之(zhi)間的平衡;

系(xi)統復(fu)雜(za)性管(guan)理:多模態模型(如結合CT影像與(yu)電子病歷的診(zhen)斷系(xi)統)的跨(kua)模態解釋生成;

領(ling)域適配難題(ti):金(jin)融(rong)領(ling)域術語(如"量(liang)化寬(kuan)松")與法律(lv)文書語義的精準轉換。

通(tong)過圖4的(de)顯著圖(Saliency Maps)對比,我(wo)們(men)進一(yi)步分析不(bu)同(tong)LLM架(jia)構(gou)(gou)(如Transformer、MoE)在可解(jie)釋性(xing)側重上(shang)的(de)差異。最(zui)后提出未(wei)來研究方向:通(tong)過模型架(jia)構(gou)(gou)創新(xin)(xin)與敘事策略的(de)協同(tong)優(you)化,構(gou)(gou)建兼具性(xing)能與透明度(du)的(de)新(xin)(xin)一(yi)代可解(jie)釋AI系統。

付費5元查看完整內容

最近在大型語言模型(LLMs)上的進展塑造了人工智能智能體的新范式,即基于LLM的智能體。與獨立的LLMs相比,基于LLM的智能體通過增強LLMs感知和利用外部資源和工具的能力,極大地擴展了LLMs的多功能性和專業性。到目前為止,基于LLM的智能體已經在軟件工程(SE)領域得到了應用,并顯示出顯著的效果。多個智能體之間的協同作用以及與人類互動相結合,為解決復雜的現實世界中的SE問題帶來了更大的希望。在此工作中,我們提出了一個關于用于SE的基于LLM智能體的全面系統的綜述。我們收集了106篇論文,并從兩個角度對它們進行了分類,即SE視角和智能體視角。此外,我們還討論了該關鍵領域中存在的開放性挑戰和未來的研究方向。本綜述的資料庫位于//github.com/FudanSELab/Agent4SE-Paper-List。 大型語言模型(LLMs)[1] 已(yi)經(jing)取得了(le)(le)(le)顯著的(de)(de)(de)(de)(de)(de)進(jin)步(bu),并(bing)展示(shi)了(le)(le)(le)類(lei)(lei)似人(ren)類(lei)(lei)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)潛力。近(jin)年來(lai),LLMs 在(zai)軟件(jian)(jian)工程(cheng)(cheng)(SE)中(zhong)得到(dao)(dao)了(le)(le)(le)廣泛的(de)(de)(de)(de)(de)(de)應(ying)用(yong)(yong)。如(ru)最近(jin)的(de)(de)(de)(de)(de)(de)綜述所示(shi)[2],[3],LLMs 已(yi)經(jing)被采用(yong)(yong)并(bing)在(zai)各(ge)種(zhong)(zhong)(zhong)軟件(jian)(jian)開(kai)發和(he)(he)(he)(he)維護任(ren)務(wu)中(zhong)顯示(shi)出有(you)希望的(de)(de)(de)(de)(de)(de)表現,例如(ru)程(cheng)(cheng)序生成[4]–[8],軟件(jian)(jian)測試[9]–[11]和(he)(he)(he)(he)調(diao)試[12]–[17]以及程(cheng)(cheng)序改進(jin)[18]–[20]。人(ren)工智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)是能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)自主感知并(bing)對(dui)其周圍環境采取行動(dong)(dong)(dong)以達成特(te)(te)定(ding)目(mu)標的(de)(de)(de)(de)(de)(de)人(ren)工實(shi)體(ti)(ti)(ti)(ti)(ti)[21]。智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)概念已(yi)經(jing)發展了(le)(le)(le)很長時(shi)間(例如(ru),早期(qi)的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)是基(ji)于(yu)(yu)(yu)(yu)符號邏輯或強化學(xue)習構(gou)建的(de)(de)(de)(de)(de)(de)[22]–[25])。最近(jin),LLMs 的(de)(de)(de)(de)(de)(de)顯著進(jin)步(bu)進(jin)一步(bu)形成了(le)(le)(le)一種(zhong)(zhong)(zhong)新的(de)(de)(de)(de)(de)(de)AI智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)范式,即(ji)基(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti),這種(zhong)(zhong)(zhong)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)利(li)用(yong)(yong)LLMs作(zuo)(zuo)為中(zhong)心(xin)控制單元。不同于(yu)(yu)(yu)(yu)獨立的(de)(de)(de)(de)(de)(de)LLMs,基(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)通過(guo)(guo)賦予LLMs感知和(he)(he)(he)(he)利(li)用(yong)(yong)外(wai)部資源和(he)(he)(he)(he)工具(ju)的(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力來(lai)擴展其多功(gong)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)性(xing)(xing)和(he)(he)(he)(he)專(zhuan)業(ye)性(xing)(xing),這使得它們(men)(men)(men)(men)可(ke)以通過(guo)(guo)多個(ge)(ge)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)之間的(de)(de)(de)(de)(de)(de)協(xie)作(zuo)(zuo)或涉(she)及人(ren)類(lei)(lei)互動(dong)(dong)(dong)來(lai)應(ying)對(dui)更(geng)復雜的(de)(de)(de)(de)(de)(de)真實(shi)世界目(mu)標。在(zai)此工作(zuo)(zuo)中(zhong),我(wo)(wo)們(men)(men)(men)(men)提出了(le)(le)(le)一個(ge)(ge)關于(yu)(yu)(yu)(yu)用(yong)(yong)于(yu)(yu)(yu)(yu)SE的(de)(de)(de)(de)(de)(de)基(ji)于(yu)(yu)(yu)(yu)LLM智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)全(quan)面系統(tong)的(de)(de)(de)(de)(de)(de)綜述。我(wo)(wo)們(men)(men)(men)(men)收集了(le)(le)(le)106篇論(lun)文,并(bing)從(cong)兩(liang)個(ge)(ge)角(jiao)(jiao)度(du)(du)對(dui)它們(men)(men)(men)(men)進(jin)行了(le)(le)(le)分(fen)(fen)類(lei)(lei),即(ji)SE視角(jiao)(jiao)和(he)(he)(he)(he)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)視角(jiao)(jiao)。此外(wai),我(wo)(wo)們(men)(men)(men)(men)還討論(lun)了(le)(le)(le)該(gai)領(ling)(ling)域(yu)中(zhong)的(de)(de)(de)(de)(de)(de)開(kai)放性(xing)(xing)挑(tiao)戰和(he)(he)(he)(he)未(wei)來(lai)的(de)(de)(de)(de)(de)(de)研(yan)究方向。從(cong)SE的(de)(de)(de)(de)(de)(de)角(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)(wo)們(men)(men)(men)(men)分(fen)(fen)析了(le)(le)(le)基(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)如(ru)何應(ying)用(yong)(yong)于(yu)(yu)(yu)(yu)不同的(de)(de)(de)(de)(de)(de)軟件(jian)(jian)開(kai)發和(he)(he)(he)(he)改進(jin)活動(dong)(dong)(dong),包括單個(ge)(ge)任(ren)務(wu)(例如(ru)需求工程(cheng)(cheng)、代碼(ma)生成、靜態代碼(ma)檢查、測試和(he)(he)(he)(he)調(diao)試)以及軟件(jian)(jian)開(kai)發和(he)(he)(he)(he)改進(jin)的(de)(de)(de)(de)(de)(de)端(duan)到(dao)(dao)端(duan)過(guo)(guo)程(cheng)(cheng)。從(cong)這個(ge)(ge)角(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)(wo)們(men)(men)(men)(men)提供了(le)(le)(le)基(ji)于(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)如(ru)何處理SE任(ren)務(wu)的(de)(de)(de)(de)(de)(de)整(zheng)體(ti)(ti)(ti)(ti)(ti)概覽(lan)。從(cong)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)角(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)(wo)們(men)(men)(men)(men)專(zhuan)注(zhu)于(yu)(yu)(yu)(yu)設計(ji)用(yong)(yong)于(yu)(yu)(yu)(yu)SE的(de)(de)(de)(de)(de)(de)基(ji)于(yu)(yu)(yu)(yu)LLM智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)組件(jian)(jian)。具(ju)體(ti)(ti)(ti)(ti)(ti)而言,我(wo)(wo)們(men)(men)(men)(men)分(fen)(fen)析了(le)(le)(le)這些智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)關鍵組件(jian)(jian),包括規劃、記憶、感知和(he)(he)(he)(he)行動(dong)(dong)(dong)。除了(le)(le)(le)基(ji)本的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)構(gou)建外(wai),我(wo)(wo)們(men)(men)(men)(men)還分(fen)(fen)析了(le)(le)(le)多智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)系統(tong),包括它們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)角(jiao)(jiao)色、協(xie)作(zuo)(zuo)機(ji)制以及人(ren)機(ji)協(xie)作(zuo)(zuo)。從(cong)這個(ge)(ge)角(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)(wo)們(men)(men)(men)(men)總結了(le)(le)(le)當應(ying)用(yong)(yong)于(yu)(yu)(yu)(yu)SE領(ling)(ling)域(yu)時(shi),基(ji)于(yu)(yu)(yu)(yu)LLM智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)不同組件(jian)(jian)的(de)(de)(de)(de)(de)(de)特(te)(te)點。總之,本綜述做(zuo)出了(le)(le)(le)以下貢(gong)獻(xian):

  • 提供了首次對106篇將基于LLM智能體應用于SE的文獻進行全面綜述。
  • 分析了現有的基于LLM的智能體是如何從SE和智能體的視角設計和應用于軟件開發和維護的。
  • 討論了在這個關鍵領域中的研究機會和未來方向。 綜述結構。圖1總結了本綜述的結構。第2節介紹了背景知識,而第3節則呈現了方法論。第4節和第5節分別從SE的視角和智能體的視角展示了相關工作。最后,第6節討論了潛在的研究機會。

背景與初步介紹

2.1 基于LLM智能體的基本框架 基于LLM的智能體通常由四個關鍵組件組成:規劃、記憶、感知和行動[21]。規劃和記憶是LLM控制的大腦的關鍵部分,它們通過感知和行動組件與環境進行交互以實現特定目標。圖2展示了基于LLM的智能體的基本框架。 規劃:規劃組件將復雜任務分解為多個子任務,并安排這些子任務以達到最終目標。具體來說,智能體可以(i)通過不同的推理策略生成一個無需調整的計劃,或者(ii)根據外部反饋(如環境反饋或人工反饋)調整已生成的計劃。 記憶:記憶組件記錄智能體執行過程中產生的歷史思想、動作和環境觀察[21][26][27]。基于累積的記憶,智能體可以回顧和利用之前的記錄和經驗,從而更有效地處理復雜任務。記憶管理(即如何表示記憶)和利用(即如何讀寫或檢索記憶)至關重要,這直接影響到智能體系統的效率和效果。 感知:感知組件接收來自環境的信息,這有助于更好的規劃。具體來說,智能體可以感知多模態輸入,例如文本輸入、視覺輸入和聽覺輸入。 行動:基于大腦做出的規劃和決策,行動組件執行具體的行動以與環境互動并影響環境。行動的一個重要機制是控制和利用外部工具,這可以通過訪問更多的外部資源來擴展LLMs的固有能力,并將行動空間擴展到不僅僅是文本交互之外。 2.2 高級的基于LLM的智能體系統 多智能體系統:雖然單個智能體系統可以專門解決某一特定任務,但使多個智能體之間進行協作(即多智能體系統)可以進一步解決與不同知識領域相關的更復雜任務。特別地,在一個多智能體系統中,每個智能體都有一個獨特的角色和相關專業知識,使其負責不同的任務;此外,智能體之間可以相互溝通,并隨著任務的推進共享進度/信息。通常情況下,智能體可以協作(即通過處理不同的子任務來實現最終目標)或競爭(即在同一任務上工作同時進行對抗性的辯論)的方式工作。 人機協調:智能體系統可以進一步結合人類的指令,并在人類指導下繼續執行任務。這種人機協調范式有助于更好地與人類偏好對齊并使用人類的專業知識。具體來說,在人機交互期間,人類不僅可以向智能體提供任務要求和對當前任務狀態的反饋,還可以與智能體合作共同實現目標。 2.3 相關綜述 一般領域的基于LLM的智能體已經被廣泛討論和綜述過[21][26][28]–[32]。與這些綜述不同,本文綜述側重于專門為軟件工程領域設計和應用的基于LLM的智能體。在軟件工程領域,已有幾項關于LLMs在軟件工程中的通用應用的綜述或文獻回顧[2][3][10][32][33]。與這些綜述不同的是,本文綜述特別關注智能體的視角,并且對于基于LLM的智能體在軟件工程中的應用更加全面。此外,He等人[34]提出了一篇關于多智能體系統在軟件工程中潛在應用和新興挑戰的展望文章。不同于這份展望文章,本文的工作重點是對現有智能體系統(包括單個智能體和多智能體系統)進行全面綜述。總的來說,據我們所知,這是第一篇專門針對軟件工程領域基于LLM智能體文獻的綜述。 綜述方法論

3.1 綜(zong)述(shu)(shu)范(fan)圍(wei) 我(wo)(wo)們(men)(men)(men)(men)(men)將(jiang)注(zhu)(zhu)意力集(ji)(ji)(ji)(ji)(ji)中(zhong)(zhong)(zhong)(zhong)在(zai)(zai)那些(xie)應用(yong)(yong)基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)來(lai)(lai)(lai)處理SE任(ren)(ren)務(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)上。以(yi)(yi)(yi)(yi)(yi)(yi)下是術語(yu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)具(ju)(ju)體(ti)(ti)定(ding)義(yi): SE任(ren)(ren)務(wu)(wu):遵(zun)循(xun)之前(qian)(qian)(qian)關(guan)(guan)(guan)(guan)(guan)于(yu)(yu)(yu)LLMs在(zai)(zai)SE中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)應用(yong)(yong)綜(zong)述(shu)(shu)[2][3],我(wo)(wo)們(men)(men)(men)(men)(men)關(guan)(guan)(guan)(guan)(guan)注(zhu)(zhu)整(zheng)個(ge)軟(ruan)(ruan)(ruan)件生命周期(qi)(qi)中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)所有(you)SE任(ren)(ren)務(wu)(wu),包(bao)括需求工(gong)程(cheng)、軟(ruan)(ruan)(ruan)件設計(ji)、代(dai)碼生成、軟(ruan)(ruan)(ruan)件質(zhi)量保(bao)證(即靜態檢查和(he)(he)(he)測試)以(yi)(yi)(yi)(yi)(yi)(yi)及軟(ruan)(ruan)(ruan)件改(gai)進(jin)(jin)。 基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti):一(yi)(yi)(yi)(yi)(yi)(yi)個(ge)獨立(li)(li)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)LLM可以(yi)(yi)(yi)(yi)(yi)(yi)作(zuo)(zuo)(zuo)為(wei)(wei)一(yi)(yi)(yi)(yi)(yi)(yi)個(ge)簡(jian)單(dan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)“智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)”工(gong)作(zuo)(zuo)(zuo),因為(wei)(wei)它可以(yi)(yi)(yi)(yi)(yi)(yi)接受(shou)(shou)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本輸(shu)入(ru)并(bing)(bing)(bing)產(chan)生文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本輸(shu)出,這使(shi)得LLMs和(he)(he)(he)基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)之間(jian)沒有(you)明(ming)確(que)界(jie)限。然(ran)(ran)而,這可能(neng)(neng)(neng)(neng)會導(dao)致(zhi)過(guo)于(yu)(yu)(yu)寬泛(fan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)范(fan)圍(wei),并(bing)(bing)(bing)與現有(you)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)于(yu)(yu)(yu)LLMs在(zai)(zai)SE中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)應用(yong)(yong)綜(zong)述(shu)(shu)[2][3]有(you)大(da)(da)量重疊。基(ji)(ji)于(yu)(yu)(yu)廣(guang)(guang)泛(fan)接受(shou)(shou)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)于(yu)(yu)(yu)AI智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)共(gong)識,智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)特(te)(te)征(zheng)在(zai)(zai)于(yu)(yu)(yu)它們(men)(men)(men)(men)(men)能(neng)(neng)(neng)(neng)夠自(zi)主且(qie)(qie)迭代(dai)地從動(dong)(dong)態環境(jing)中(zhong)(zhong)(zhong)(zhong)感知反(fan)饋(kui)并(bing)(bing)(bing)對其(qi)采取(qu)行(xing)(xing)動(dong)(dong)[21]。為(wei)(wei)了(le)(le)(le)確(que)保(bao)從智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)角度進(jin)(jin)行(xing)(xing)更集(ji)(ji)(ji)(ji)(ji)中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)討(tao)論(lun)(lun)(lun)(lun)(lun)(lun)(lun),此(ci)綜(zong)述(shu)(shu)重點關(guan)(guan)(guan)(guan)(guan)注(zhu)(zhu)不(bu)僅(jin)將(jiang)LLMs作(zuo)(zuo)(zuo)為(wei)(wei)其(qi)“大(da)(da)腦”的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)核心部分,而且(qie)(qie)還(huan)具(ju)(ju)有(you)迭代(dai)與環境(jing)互動(dong)(dong)、實時接收(shou)(shou)(shou)(shou)(shou)(shou)(shou)反(fan)饋(kui)并(bing)(bing)(bing)采取(qu)行(xing)(xing)動(dong)(dong)能(neng)(neng)(neng)(neng)力的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)。 更具(ju)(ju)體(ti)(ti)地說(shuo),我(wo)(wo)們(men)(men)(men)(men)(men)在(zai)(zai)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)過(guo)程(cheng)中(zhong)(zhong)(zhong)(zhong)應用(yong)(yong)了(le)(le)(le)以(yi)(yi)(yi)(yi)(yi)(yi)下納(na)入(ru)和(he)(he)(he)排(pai)除標準(zhun): 納(na)入(ru)標準(zhun):如(ru)果(guo)(guo)一(yi)(yi)(yi)(yi)(yi)(yi)篇(pian)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)滿足(zu)以(yi)(yi)(yi)(yi)(yi)(yi)下任(ren)(ren)何(he)一(yi)(yi)(yi)(yi)(yi)(yi)項(xiang)標準(zhun),則將(jiang)其(qi)納(na)入(ru)我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu):(i) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)提(ti)出了(le)(le)(le)一(yi)(yi)(yi)(yi)(yi)(yi)種技術、框架(jia)或工(gong)具(ju)(ju),用(yong)(yong)于(yu)(yu)(yu)使(shi)用(yong)(yong)基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)解決特(te)(te)定(ding)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)SE任(ren)(ren)務(wu)(wu);(ii) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)展示了(le)(le)(le)一(yi)(yi)(yi)(yi)(yi)(yi)種一(yi)(yi)(yi)(yi)(yi)(yi)般的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)技術、框架(jia)或工(gong)具(ju)(ju),前(qian)(qian)(qian)提(ti)是其(qi)評估至少包(bao)括一(yi)(yi)(yi)(yi)(yi)(yi)個(ge)SE任(ren)(ren)務(wu)(wu);(iii) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)展示了(le)(le)(le)一(yi)(yi)(yi)(yi)(yi)(yi)項(xiang)對特(te)(te)定(ding)SE任(ren)(ren)務(wu)(wu)上基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)進(jin)(jin)行(xing)(xing)評估的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)經驗研(yan)(yan)究(jiu)(jiu)。 排(pai)除標準(zhun):如(ru)果(guo)(guo)一(yi)(yi)(yi)(yi)(yi)(yi)篇(pian)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)滿足(zu)以(yi)(yi)(yi)(yi)(yi)(yi)下任(ren)(ren)何(he)一(yi)(yi)(yi)(yi)(yi)(yi)項(xiang)標準(zhun),則將(jiang)其(qi)排(pai)除在(zai)(zai)我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu)之外:(i) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)不(bu)涉(she)(she)及任(ren)(ren)何(he)SE任(ren)(ren)務(wu)(wu);(ii) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)僅(jin)在(zai)(zai)討(tao)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)或未(wei)來(lai)(lai)(lai)工(gong)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)上下文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)中(zhong)(zhong)(zhong)(zhong)討(tao)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)基(ji)(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti),而未(wei)將(jiang)其(qi)整(zheng)合為(wei)(wei)主要方(fang)法(fa)(fa)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)(yi)(yi)(yi)(yi)(yi)部分;(iii) 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)僅(jin)使(shi)用(yong)(yong)獨立(li)(li)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)LLM來(lai)(lai)(lai)處理文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本輸(shu)入(ru)并(bing)(bing)(bing)生成文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本輸(shu)出,而沒有(you)任(ren)(ren)何(he)與環境(jing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)迭代(dai)互動(dong)(dong)。 3.2 論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji) 我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)過(guo)程(cheng)包(bao)含兩(liang)個(ge)步(bu)驟:關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)搜(sou)索和(he)(he)(he)滾雪球(qiu)法(fa)(fa)。 3.2.1 關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)搜(sou)索 我(wo)(wo)們(men)(men)(men)(men)(men)遵(zun)循(xun)軟(ruan)(ruan)(ruan)件工(gong)程(cheng)綜(zong)述(shu)(shu)中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)既(ji)定(ding)實踐[35]-[39],使(shi)用(yong)(yong)DBLP數(shu)(shu)據庫(ku)[40]進(jin)(jin)行(xing)(xing)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)。近期(qi)(qi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)[39]表明(ming),從其(qi)他主要出版(ban)物(wu)(wu)(wu)數(shu)(shu)據庫(ku)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)通(tong)常是DBLP中(zhong)(zhong)(zhong)(zhong)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)子集(ji)(ji)(ji)(ji)(ji),DBLP涵(han)蓋(gai)了(le)(le)(le)超過(guo)7百萬(wan)份計(ji)算機(ji)科學領(ling)(ling)域(yu)(yu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)學術會議(yi)(超過(guo)6,500個(ge))和(he)(he)(he)期(qi)(qi)刊(1,850個(ge))的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)出版(ban)物(wu)(wu)(wu)[41]。DBLP還(huan)包(bao)括arXiv[42],這是一(yi)(yi)(yi)(yi)(yi)(yi)個(ge)廣(guang)(guang)泛(fan)采用(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)開放獲(huo)取(qu)存(cun)儲庫(ku)。我(wo)(wo)們(men)(men)(men)(men)(men)采用(yong)(yong)一(yi)(yi)(yi)(yi)(yi)(yi)種在(zai)(zai)軟(ruan)(ruan)(ruan)件工(gong)程(cheng)綜(zong)述(shu)(shu)中(zhong)(zhong)(zhong)(zhong)廣(guang)(guang)泛(fan)采用(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)試錯(cuo)法(fa)(fa)來(lai)(lai)(lai)確(que)定(ding)搜(sou)索關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)。最初,所有(you)作(zuo)(zuo)(zuo)者,特(te)(te)別是那些(xie)在(zai)(zai)LLM和(he)(he)(he)SE領(ling)(ling)域(yu)(yu)有(you)相關(guan)(guan)(guan)(guan)(guan)研(yan)(yan)究(jiu)(jiu)經驗和(he)(he)(he)出版(ban)物(wu)(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)作(zuo)(zuo)(zuo)者,聚在(zai)(zai)一(yi)(yi)(yi)(yi)(yi)(yi)起(qi)建議(yi)與我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)范(fan)圍(wei)相關(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen),從而得到(dao)一(yi)(yi)(yi)(yi)(yi)(yi)個(ge)初步(bu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相關(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)集(ji)(ji)(ji)(ji)(ji)合。隨后,前(qian)(qian)(qian)兩(liang)位(wei)作(zuo)(zuo)(zuo)者審閱這些(xie)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)標題、摘要和(he)(he)(he)引言以(yi)(yi)(yi)(yi)(yi)(yi)識別額(e)外的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)。然(ran)(ran)后,我(wo)(wo)們(men)(men)(men)(men)(men)進(jin)(jin)行(xing)(xing)頭腦風暴會議(yi)以(yi)(yi)(yi)(yi)(yi)(yi)擴(kuo)展和(he)(he)(he)細化我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)搜(sou)索字符串(chuan),納(na)入(ru)相關(guan)(guan)(guan)(guan)(guan)術語(yu)、同義(yi)詞(ci)(ci)(ci)(ci)和(he)(he)(he)變體(ti)(ti)。這一(yi)(yi)(yi)(yi)(yi)(yi)過(guo)程(cheng)使(shi)我(wo)(wo)們(men)(men)(men)(men)(men)能(neng)(neng)(neng)(neng)夠迭代(dai)地改(gai)進(jin)(jin)我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)搜(sou)索關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)列表。 最終的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)包(bao)括 ("agent" OR "llm" OR "language model") AND ("api" OR "bug" OR "code" OR "coding" OR "debug" OR "defect" OR "deploy" OR "evolution" OR "fault" OR "fix" OR "maintenance" OR "program" OR "refactor" OR "repair" OR "requirement" OR "software" OR "test" OR "verification" OR "vulnerab")。 基(ji)(ji)于(yu)(yu)(yu)這些(xie)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci),我(wo)(wo)們(men)(men)(men)(men)(men)在(zai)(zai)2024年7月(yue)1日(ri)在(zai)(zai)DBLP上進(jin)(jin)行(xing)(xing)了(le)(le)(le)57次(ci)搜(sou)索,并(bing)(bing)(bing)獲(huo)得了(le)(le)(le)10,362條結(jie)果(guo)(guo)。表1顯(xian)示了(le)(le)(le)通(tong)過(guo)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)詞(ci)(ci)(ci)(ci)搜(sou)索收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)統(tong)計(ji)數(shu)(shu)據。前(qian)(qian)(qian)兩(liang)位(wei)作(zuo)(zuo)(zuo)者手動(dong)(dong)審查每篇(pian)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen),以(yi)(yi)(yi)(yi)(yi)(yi)過(guo)濾掉不(bu)在(zai)(zai)本次(ci)綜(zong)述(shu)(shu)范(fan)圍(wei)內的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。結(jie)果(guo)(guo),我(wo)(wo)們(men)(men)(men)(men)(men)通(tong)過(guo)這一(yi)(yi)(yi)(yi)(yi)(yi)過(guo)程(cheng)確(que)定(ding)了(le)(le)(le)67篇(pian)相關(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。 3.2.2 滾雪球(qiu)法(fa)(fa) 為(wei)(wei)了(le)(le)(le)提(ti)高我(wo)(wo)們(men)(men)(men)(men)(men)綜(zong)述(shu)(shu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)全面性,我(wo)(wo)們(men)(men)(men)(men)(men)采用(yong)(yong)了(le)(le)(le)滾雪球(qiu)法(fa)(fa)來(lai)(lai)(lai)識別那些(xie)過(guo)渡(du)相關(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)并(bing)(bing)(bing)擴(kuo)展我(wo)(wo)們(men)(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)[35]。具(ju)(ju)體(ti)(ti)來(lai)(lai)(lai)說(shuo),在(zai)(zai)2024年7月(yue)1日(ri)至7月(yue)10日(ri)期(qi)(qi)間(jian),我(wo)(wo)們(men)(men)(men)(men)(men)進(jin)(jin)行(xing)(xing)了(le)(le)(le)前(qian)(qian)(qian)后滾雪球(qiu)法(fa)(fa)。后向滾雪球(qiu)法(fa)(fa)涉(she)(she)及檢查每篇(pian)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)參(can)考文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)獻,以(yi)(yi)(yi)(yi)(yi)(yi)識別我(wo)(wo)們(men)(men)(men)(men)(men)范(fan)圍(wei)內的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相關(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen);而前(qian)(qian)(qian)向滾雪球(qiu)法(fa)(fa)則使(shi)用(yong)(yong)谷(gu)歌(ge)學術來(lai)(lai)(lai)查找引用(yong)(yong)這些(xie)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相關(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。這一(yi)(yi)(yi)(yi)(yi)(yi)迭代(dai)過(guo)程(cheng)一(yi)(yi)(yi)(yi)(yi)(yi)直持(chi)續(xu)(xu)到(dao)不(bu)再發(fa)現新(xin)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相關(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)為(wei)(wei)止。在(zai)(zai)這個(ge)過(guo)程(cheng)中(zhong)(zhong)(zhong)(zhong),我(wo)(wo)們(men)(men)(men)(men)(men)又(you)檢索到(dao)了(le)(le)(le)另外39篇(pian)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。 3.3 收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)統(tong)計(ji) 如(ru)表1所示,我(wo)(wo)們(men)(men)(men)(men)(men)總共(gong)收(shou)(shou)(shou)(shou)(shou)(shou)(shou)集(ji)(ji)(ji)(ji)(ji)了(le)(le)(le)106篇(pian)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)用(yong)(yong)于(yu)(yu)(yu)這次(ci)綜(zong)述(shu)(shu)。圖3展示了(le)(le)(le)截(jie)至2024年7月(yue)10日(ri)隨時間(jian)累積發(fa)表的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)數(shu)(shu)量。我(wo)(wo)們(men)(men)(men)(men)(men)觀察到(dao)該領(ling)(ling)域(yu)(yu)研(yan)(yan)究(jiu)(jiu)興趣的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)持(chi)續(xu)(xu)增長,突顯(xian)了(le)(le)(le)此(ci)次(ci)綜(zong)述(shu)(shu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)必要性和(he)(he)(he)相關(guan)(guan)(guan)(guan)(guan)性。此(ci)外,圖4顯(xian)示了(le)(le)(le)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)發(fa)表場(chang)所的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)分布情(qing)況(kuang),涵(han)蓋(gai)了(le)(le)(le)諸(zhu)如(ru)軟(ruan)(ruan)(ruan)件工(gong)程(cheng)、人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)和(he)(he)(he)人(ren)機(ji)交互等不(bu)同的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)社區。特(te)(te)別是,大(da)(da)多數(shu)(shu)論(lun)(lun)(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)來(lai)(lai)(lai)自(zi)arXiv且(qie)(qie)尚未(wei)經過(guo)同行(xing)(xing)評審。這種情(qing)況(kuang)是可以(yi)(yi)(yi)(yi)(yi)(yi)預期(qi)(qi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de),因為(wei)(wei)該領(ling)(ling)域(yu)(yu)正在(zai)(zai)興起(qi)并(bing)(bing)(bing)且(qie)(qie)仍處于(yu)(yu)(yu)快速發(fa)展之中(zhong)(zhong)(zhong)(zhong)。

付費5元查看完整內容

強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能

大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發(fa)展,深度RL結合了(le)(le)RL和(he)深度神經網絡的(de)(de)優(you)勢,能夠抽象(xiang)復雜的(de)(de)觀測并學(xue)習高效(xiao)的(de)(de)特征表(biao)(biao)示【6】。在(zai)(zai)過(guo)去的(de)(de)代表(biao)(biao)性研(yan)究中,它(ta)在(zai)(zai)棋類游(you)戲(xi)【7】【8】、電子游(you)戲(xi)【9】【10】以及機(ji)器人(ren)(ren)控(kong)制(zhi)【11】–【13】等領域表(biao)(biao)現(xian)出色,甚至在(zai)(zai)某(mou)些情(qing)況下超(chao)越(yue)了(le)(le)人(ren)(ren)類表(biao)(biao)現(xian)。對于自動(dong)駕駛(shi)而(er)言(yan),RL使端到端控(kong)制(zhi)成為(wei)現(xian)實,即從車(che)輛感知到車(che)輛應該做什么的(de)(de)直接轉換,就(jiu)像人(ren)(ren)類駕駛(shi)員(yuan)一樣。盡管RL在(zai)(zai)自動(dong)駕駛(shi)車(che)輛方面取得了(le)(le)許多顯著成就(jiu),大多數相關工作仍是從單個車(che)輛的(de)(de)角度出發(fa),這(zhe)導致了(le)(le)以自我為(wei)中心并可能具(ju)有攻擊性的(de)(de)駕駛(shi)策(ce)略,可能會引發(fa)安全(quan)事故并降低交通系(xi)統的(de)(de)效(xiao)率(lv)。

對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中(zhong),所有智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)在共享的環境中(zhong)做出(chu)決(jue)(jue)(jue)策并(bing)進行交互(hu)。這意味(wei)著每(mei)個智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)的狀(zhuang)態不僅取(qu)決(jue)(jue)(jue)于其自身的行為(wei)(wei)(wei),還取(qu)決(jue)(jue)(jue)于其他智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)的行為(wei)(wei)(wei),使得(de)環境動(dong)(dong)態呈(cheng)現非靜態和(he)(he)時間變化(hua)(hua)性。此外,根(gen)據(ju)(ju)任務設置(zhi),智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)可(ke)能(neng)(neng)(neng)(neng)相(xiang)互(hu)合作或競(jing)爭。在如此復雜的場景(jing)中(zhong),手動(dong)(dong)編程預先行動(dong)(dong)幾乎是不可(ke)能(neng)(neng)(neng)(neng)的【15】。得(de)益于多智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)強化(hua)(hua)學(xue)習(MARL)的重大進展,交通(tong)控制【16】【17】、能(neng)(neng)(neng)(neng)源分配(pei)【18】【19】、大規模機器人控制【20】【21】以(yi)及經(jing)濟(ji)建(jian)模與預測【22】【23】領(ling)域(yu)均取(qu)得(de)了(le)實質性突破(po)。圖(tu)1展示了(le)這些(xie)相(xiang)關研(yan)究主題的出(chu)版(ban)物數(shu)量。使用Dimensions數(shu)據(ju)(ju)庫(ku)進行AI搜(sou)索【14】,我們搜(sou)索了(le)包括多智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)強化(hua)(hua)學(xue)習、自動(dong)(dong)駕(jia)駛和(he)(he)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)交通(tong)在內的關鍵詞。統計結果表明,學(xue)術界對這些(xie)問題高度(du)關注(zhu),相(xiang)關研(yan)究領(ling)域(yu)正處于快速(su)(su)增長階段。為(wei)(wei)(wei)了(le)加速(su)(su)進一步研(yan)究并(bing)幫助(zhu)新研(yan)究人員快速(su)(su)入門,我們審(shen)閱了(le)200多篇(pian)出(chu)版(ban)物、開源軟件和(he)(he)代碼(ma)庫(ku),然后(hou)系統地(di)總結了(le)現有成就和(he)(he)最(zui)新進展。

在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多綜述(shu)(shu)(shu)【28】–【30】介紹(shao)了(le)(le)(le)RL的(de)(de)(de)(de)(de)基本理(li)論(lun)和(he)應(ying)(ying)用(yong),并(bing)(bing)(bing)(bing)分(fen)(fen)(fen)析了(le)(le)(le)其(qi)發表時最先進的(de)(de)(de)(de)(de)(SoTA)自動駕(jia)駛算法(fa),但它們(men)主要關(guan)注單智能體學(xue)習(xi)。綜述(shu)(shu)(shu)【31】的(de)(de)(de)(de)(de)作者首次定義了(le)(le)(le)分(fen)(fen)(fen)層(ceng)結(jie)構的(de)(de)(de)(de)(de)自動駕(jia)駛系統,并(bing)(bing)(bing)(bing)將其(qi)研究(jiu)范(fan)圍(wei)限定在(zai)局部運動規劃(hua)。他們(men)說明了(le)(le)(le)車輛的(de)(de)(de)(de)(de)動力學(xue),并(bing)(bing)(bing)(bing)展(zhan)示了(le)(le)(le)采樣和(he)基于搜索(suo)的(de)(de)(de)(de)(de)方(fang)法(fa)如何(he)在(zai)數學(xue)上工(gong)作。然而,他們(men)忽略(lve)了(le)(le)(le)基于學(xue)習(xi)的(de)(de)(de)(de)(de)方(fang)法(fa)的(de)(de)(de)(de)(de)貢獻(xian)。在(zai)最近的(de)(de)(de)(de)(de)運動規劃(hua)綜述(shu)(shu)(shu)【2】中,研究(jiu)人(ren)(ren)員(yuan)全面調(diao)查了(le)(le)(le)管道和(he)學(xue)習(xi)方(fang)法(fa),包括(kuo)深度(du)學(xue)習(xi)、逆向RL和(he)模(mo)(mo)(mo)(mo)仿學(xue)習(xi)以(yi)及MARL。同樣,詳細(xi)的(de)(de)(de)(de)(de)概(gai)述(shu)(shu)(shu)涵蓋了(le)(le)(le)軌(gui)跡(ji)預測中最新的(de)(de)(de)(de)(de)分(fen)(fen)(fen)類法(fa)和(he)方(fang)法(fa)論(lun)【32】。還有一些(xie)優秀的(de)(de)(de)(de)(de)綜述(shu)(shu)(shu)總結(jie)了(le)(le)(le)AVs的(de)(de)(de)(de)(de)MARL方(fang)法(fa)【1】【33】【34】。盡管如此,近年來研究(jiu)人(ren)(ren)員(yuan)在(zai)理(li)論(lun)和(he)應(ying)(ying)用(yong)方(fang)面取得了(le)(le)(le)顯(xian)著進展(zhan),并(bing)(bing)(bing)(bing)且在(zai)高級(ji)機器(qi)人(ren)(ren)模(mo)(mo)(mo)(mo)擬器(qi)中也(ye)取得了(le)(le)(le)進展(zhan)。作為在(zai)線RL訓練的(de)(de)(de)(de)(de)關(guan)鍵組成部分(fen)(fen)(fen),模(mo)(mo)(mo)(mo)擬器(qi)決定了(le)(le)(le)從模(mo)(mo)(mo)(mo)擬到(dao)現實的(de)(de)(de)(de)(de)差距,即智能體學(xue)習(xi)的(de)(de)(de)(de)(de)策略(lve)是否可以(yi)輕(qing)松地轉移到(dao)物理(li)機器(qi)人(ren)(ren)上。因(yin)此,為了(le)(le)(le)使工(gong)程師和(he)研究(jiu)人(ren)(ren)員(yuan)能夠捕捉最新的(de)(de)(de)(de)(de)進展(zhan)并(bing)(bing)(bing)(bing)加速(su)技(ji)術(shu)進步,我們(men)全面總結(jie)了(le)(le)(le)該領域的(de)(de)(de)(de)(de)技(ji)術(shu)、挑(tiao)戰(zhan)和(he)前景。

總體而言,本文的主要貢獻可總結如下

  • 我們提出了一系列基準的標準,詳細分析和總結了先進模擬器、數據集和大規模自動駕駛競賽的特征。
  • 我們對最先進的MARL方法進行了分類,全面回顧了它們在該領域的技術改進、見解和未解決的挑戰。
  • 我們從相關領域捕捉了最新進展,并從多個角度深入探討了基于MARL的自動駕駛的未來方向。
  • 我們發布并維護了GitHub倉庫1,以持續報告和更新MARL-based自動駕駛、智能交通系統和其他相關領域的最新研究。

在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總(zong)體(ti)來(lai)說,隨著大規模數(shu)據集和(he)(he)深度學(xue)習的(de)(de)發(fa)展,自(zi)動(dong)駕(jia)(jia)駛(shi)已(yi)從分(fen)(fen)層控制邁向數(shu)據驅動(dong)時代。隨著先(xian)進(jin)模擬器的(de)(de)出(chu)現,基于RL的(de)(de)方(fang)法登(deng)上了(le)(le)(le)舞臺,隨后(hou)新(xin)技術如大語(yu)言模型(xing)帶來(lai)了(le)(le)(le)更多(duo)的(de)(de)機遇。我(wo)們(men)將在(zai)后(hou)文(wen)詳細分(fen)(fen)析,本文(wen)的(de)(de)其余部分(fen)(fen)組織如下:在(zai)第(di)(di)(di)二節(jie)中,我(wo)們(men)首先(xian)描述了(le)(le)(le)基準(zhun)的(de)(de)指標。我(wo)們(men)還(huan)分(fen)(fen)析了(le)(le)(le)最先(xian)進(jin)的(de)(de)自(zi)動(dong)駕(jia)(jia)駛(shi)模擬器和(he)(he)數(shu)據集的(de)(de)特征(zheng)。在(zai)第(di)(di)(di)三節(jie)中,我(wo)們(men)回顧了(le)(le)(le)RL和(he)(he)MARL的(de)(de)基本概念、定(ding)義和(he)(he)開放問題。在(zai)第(di)(di)(di)四節(jie)中,我(wo)們(men)詳盡介紹了(le)(le)(le)自(zi)動(dong)駕(jia)(jia)駛(shi)領域最先(xian)進(jin)的(de)(de)MARL算法。具體(ti)而言,我(wo)們(men)分(fen)(fen)析了(le)(le)(le)它(ta)們(men)的(de)(de)狀態(tai)和(he)(he)動(dong)作設置(zhi)、方(fang)法論見解和(he)(he)應用(yong)。在(zai)第(di)(di)(di)五(wu)節(jie)中,我(wo)們(men)指出(chu)了(le)(le)(le)現有挑戰(zhan)并給出(chu)了(le)(le)(le)可能的(de)(de)解決(jue)方(fang)案。在(zai)第(di)(di)(di)六節(jie)中,我(wo)們(men)捕(bu)捉了(le)(le)(le)最新(xin)的(de)(de)進(jin)展,并提出(chu)了(le)(le)(le)朝向更安全和(he)(he)智能的(de)(de)自(zi)動(dong)駕(jia)(jia)駛(shi)的(de)(de)有前途的(de)(de)方(fang)向。

II. 自動駕駛基準

強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。

最先進的方法論

本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習

在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化

考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習

盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習

安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結

如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。

付費5元查看完整內容

近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這(zhe)篇綜述中(zhong),我們從偏好(hao)中(zhong)心的(de)(de)角(jiao)度回顧了在人類偏好(hao)學習領域針對LLMs的(de)(de)探索(suo)進(jin)展(zhan),涵蓋了偏好(hao)反饋的(de)(de)來源和(he)形式、偏好(hao)信號的(de)(de)建模和(he)使用以(yi)及對齊(qi)LLMs的(de)(de)評估。

我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。

大規模(mo)(mo)(mo)語(yu)(yu)言模(mo)(mo)(mo)型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人(ren)工智能(AI)產(chan)生了(le)突破性的(de)(de)(de)影(ying)響,改變了(le)人(ren)們對AI系統理(li)解(jie)和應(ying)用人(ren)類語(yu)(yu)言潛(qian)力(li)的(de)(de)(de)看法。這些具有(you)(you)大規模(mo)(mo)(mo)參數(主要(yao)超(chao)過100億(yi))的(de)(de)(de)神經網(wang)絡(luo)語(yu)(yu)言模(mo)(mo)(mo)型最初在(zai)從各種來源(yuan)收集(ji)的(de)(de)(de)大規模(mo)(mo)(mo)語(yu)(yu)料庫(ku)(ku)上進行(xing)(xing)了(le)預(yu)(yu)(yu)訓(xun)(xun)練,其中(zhong)(zhong)相(xiang)當(dang)一(yi)部分來源(yuan)于互聯網(wang)[11]。通過模(mo)(mo)(mo)仿(fang)人(ren)類在(zai)文本數據中(zhong)(zhong)使用自然語(yu)(yu)言的(de)(de)(de)方式進行(xing)(xing)預(yu)(yu)(yu)訓(xun)(xun)練,基(ji)(ji)(ji)礎LLMs獲得(de)了(le)強大而通用的(de)(de)(de)語(yu)(yu)言技能[1, 12]。另一(yi)方面,觀察發(fa)現(xian)(xian)基(ji)(ji)(ji)礎LLMs在(zai)理(li)解(jie)或(huo)(huo)恰當(dang)地(di)回應(ying)多樣化的(de)(de)(de)人(ren)類指令(ling)方面存在(zai)困難[13],因為(wei)預(yu)(yu)(yu)訓(xun)(xun)練中(zhong)(zhong)的(de)(de)(de)模(mo)(mo)(mo)仿(fang)過程(cheng)并未強制基(ji)(ji)(ji)礎LLMs按照人(ren)類意圖來執行(xing)(xing)指令(ling)[13, 14]。來自互聯網(wang)的(de)(de)(de)預(yu)(yu)(yu)訓(xun)(xun)練語(yu)(yu)料庫(ku)(ku)中(zhong)(zhong)殘留的(de)(de)(de)一(yi)些有(you)(you)毒、有(you)(you)偏見或(huo)(huo)事(shi)實錯誤的(de)(de)(de)內容甚至會導致基(ji)(ji)(ji)礎LLMs的(de)(de)(de)不(bu)當(dang)模(mo)(mo)(mo)仿(fang),產(chan)生不(bu)理(li)想的(de)(de)(de)生成結(jie)果(guo)[15, 16, 17, 18, 19, 20]。在(zai)現(xian)(xian)實生活中(zhong)(zhong)的(de)(de)(de)實際(ji)應(ying)用中(zhong)(zhong),基(ji)(ji)(ji)礎LLMs必須進化得(de)更加符合(he)人(ren)類意圖,而不(bu)是(shi)模(mo)(mo)(mo)仿(fang)預(yu)(yu)(yu)訓(xun)(xun)練語(yu)(yu)料庫(ku)(ku)中(zhong)(zhong)可(ke)能存在(zai)噪聲的(de)(de)(de)行(xing)(xing)為(wei)。

人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)[21]可(ke)以通過根據輸出結果中反(fan)映(ying)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)(de)(de)反(fan)饋信(xin)息優化(hua)(hua)LLMs,有(you)效地使LLMs與(yu)(yu)人(ren)(ren)類(lei)(lei)(lei)意(yi)圖對齊(qi),從而(er)指定(ding)人(ren)(ren)類(lei)(lei)(lei)的(de)(de)(de)(de)(de)(de)(de)(de)意(yi)圖[22]。最近涌現(xian)的(de)(de)(de)(de)(de)(de)(de)(de)大量進(jin)(jin)化(hua)(hua)后的(de)(de)(de)(de)(de)(de)(de)(de)LLMs能夠生成(cheng)適(shi)(shi)當的(de)(de)(de)(de)(de)(de)(de)(de)響應以應對各(ge)種(zhong)(zhong)人(ren)(ren)類(lei)(lei)(lei)指令(ling),驗證(zheng)了(le)(le)這(zhe)一方(fang)(fang)法(fa)(fa)的(de)(de)(de)(de)(de)(de)(de)(de)有(you)效性(xing)[2, 6, 8, 9, 13]。目前(qian),關(guan)于(yu)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)的(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)大多集(ji)中于(yu)狹義的(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)方(fang)(fang)法(fa)(fa)或廣(guang)義的(de)(de)(de)(de)(de)(de)(de)(de)語言(yan)(yan)模(mo)(mo)(mo)型(LM)對齊(qi)方(fang)(fang)法(fa)(fa)。關(guan)于(yu)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)的(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)主要集(ji)中于(yu)強(qiang)化(hua)(hua)學(xue)(xue)(xue)(xue)(xue)習(xi)(RL),這(zhe)可(ke)能不(bu)適(shi)(shi)用(yong)于(yu)LLMs,也不(bu)包含(han)與(yu)(yu)非RL偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)方(fang)(fang)法(fa)(fa)相(xiang)關(guan)的(de)(de)(de)(de)(de)(de)(de)(de)見解[23, 24]。關(guan)于(yu)LM對齊(qi)[25, 26, 27, 28]以及一般AI系(xi)統對齊(qi)[22]或超越語言(yan)(yan)的(de)(de)(de)(de)(de)(de)(de)(de)大模(mo)(mo)(mo)型[29]的(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu),主要將(jiang)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)視為解決對齊(qi)問題的(de)(de)(de)(de)(de)(de)(de)(de)工具。這(zhe)些(xie)綜(zong)述(shu)缺乏對偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi),特別是偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)建模(mo)(mo)(mo)方(fang)(fang)法(fa)(fa)的(de)(de)(de)(de)(de)(de)(de)(de)系(xi)統回顧和(he)討論(lun),而(er)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)建模(mo)(mo)(mo)方(fang)(fang)法(fa)(fa)對于(yu)捕捉(zhuo)人(ren)(ren)類(lei)(lei)(lei)意(yi)圖以實(shi)現(xian)LM對齊(qi)至關(guan)重要[13]。為了(le)(le)進(jin)(jin)一步探索更有(you)效的(de)(de)(de)(de)(de)(de)(de)(de)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)方(fang)(fang)法(fa)(fa)以實(shi)現(xian)更好(hao)(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)(de)(de)LLM對齊(qi),我們對適(shi)(shi)用(yong)于(yu)語言(yan)(yan)模(mo)(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)方(fang)(fang)法(fa)(fa)進(jin)(jin)行了(le)(le)全(quan)面綜(zong)述(shu),從偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)的(de)(de)(de)(de)(de)(de)(de)(de)角度(du)審視LLM對齊(qi)方(fang)(fang)法(fa)(fa)。通過分析偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)框架內的(de)(de)(de)(de)(de)(de)(de)(de)各(ge)種(zhong)(zhong)對齊(qi)方(fang)(fang)法(fa)(fa),我們勾勒出將(jiang)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)引入LLMs的(de)(de)(de)(de)(de)(de)(de)(de)全(quan)貌,從各(ge)個方(fang)(fang)面提供關(guan)于(yu)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)的(de)(de)(de)(de)(de)(de)(de)(de)見解,適(shi)(shi)用(yong)于(yu)各(ge)個領域。 具體而(er)言(yan)(yan),如圖1所示,我們引入了(le)(le)人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)學(xue)(xue)(xue)(xue)(xue)習(xi)在LLMs中的(de)(de)(de)(de)(de)(de)(de)(de)各(ge)個方(fang)(fang)面,包括(kuo)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)反(fan)饋的(de)(de)(de)(de)(de)(de)(de)(de)來(lai)源和(he)形式、偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)建模(mo)(mo)(mo)、偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)信(xin)號(hao)的(de)(de)(de)(de)(de)(de)(de)(de)使用(yong)以及整合人(ren)(ren)類(lei)(lei)(lei)偏(pian)(pian)(pian)(pian)好(hao)(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)(de)(de)LLMs的(de)(de)(de)(de)(de)(de)(de)(de)評估:

  • 反饋來源:偏好反饋的質量和規模對于人類偏好學習至關重要,而反饋收集的來源可以極大地影響它們。最近的人類偏好學習方法不僅從人類那里收集偏好反饋,還從模擬人類的方式中收集,探索高質量和大規模之間的平衡。
  • 反饋形式:偏好反饋的形式決定了其信息密度和收集難度,從而也影響了偏好反饋的質量和規模。人類偏好學習工作中采用的反饋形式大致包括自然適合偏好表達但信息量較少的相對關系,以及更能反映人類偏好的絕對屬性,但更難收集。不同形式的結合可以進一步增加偏好反饋的信息密度。
  • 偏好建模:偏好建模旨在從偏好反饋中獲得偏好模型,提供可推廣和直接可用的人類偏好信號以對齊LLMs。各種偏好建模方法專注于獲取具有數值輸出的偏好模型。一些工作還探索了具有自然語言輸出的偏好建模方法。除了明確獲得任何偏好模型外,另一類研究通過直接使用反饋數據作為偏好信號來隱式建模人類偏好,以間接偏好建模目標對齊LLMs或利用對齊的LLMs提供偏好信號。
  • 偏好使用:偏好使用是根據偏好信號的指導調整基礎LLMs的階段,使LLMs與人類意圖對齊。根據偏好信號使用的具體目標,最近的方法可以分為四大類:基于人類反饋的強化學習(RLHF),最大化LLM輸出的總體預期獎勵分數;在首選輸出上的監督微調(SFT),最大化人類偏好輸出樣本的生成概率;偏好引導的對比學習,增加更偏好的輸出的生成概率,同時減少不太偏好的輸出的生成概率;以及偏好條件的微調和生成,最大化由相應偏好信號條件生成的輸出的生成概率。
  • 評估:最后,全面評估LLMs的遵循人類意圖的能力對于驗證人類偏好學習的有效性至關重要。現行的評估協議分為三類:開放形式基準,評估LLMs對多樣化指令響應的人類偏好而不提供標準答案;自動評估,在具有標準標簽的一組任務上使用自動指標評估LLMs;以及定性分析,直接檢查對一些代表性指令的每個響應。 值得注意的是,本綜述涵蓋了雖然不是特定于LLMs但可用于對齊LLMs的人類偏好學習研究工作,從經典強化學習等領域提供見解。我們進一步總結了近期在對齊LLMs與人類意圖方面取得的關鍵進展,并討論了當前未解決的挑戰和未來研究的可能前景,包括多元化人類偏好學習、可擴展的LLMs對齊監督、語言無關的LLM對齊、多模態互補對齊、LLM對齊進展的全面評估以及對欺騙性對齊的實證研究。我們希望這篇綜述能幫助研究人員發現人類偏好在LLM對齊中的運作機制,通過對前沿研究工作的回顧,啟發他們在對齊LLMs和其他AI系統方面實現與人類意圖的對齊。

本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們(men)(men)從第(di)(di)三部分到(dao)第(di)(di)七(qi)部分介紹人(ren)類偏好(hao)學習在LLMs中的各(ge)個(ge)方面,包括反饋來源(yuan)(第(di)(di)三部分)、反饋形(xing)式(shi)(第(di)(di)四部分)、偏好(hao)建模(第(di)(di)五部分)、偏好(hao)使(shi)用(第(di)(di)六(liu)部分)和(he)評估(第(di)(di)七(qi)部分)。最后但同樣重要的是,我們(men)(men)在第(di)(di)八部分總結了人(ren)類偏好(hao)學習,并討論了我們(men)(men)對未來的展(zhan)望。

付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的(de)(de)(de)方法(fa)(fa),旨在(zai)(zai)增強LLM在(zai)(zai)各(ge)種情境(jing)下的(de)(de)(de)適應(ying)性(xing)和(he)有(you)效性(xing)。圖(tu)2展示(shi)了(le)(le)LLM終(zhong)身學習方法(fa)(fa)的(de)(de)(de)分(fen)(fen)類。 內在(zai)(zai)知(zhi)識類通(tong)過完全(quan)或部分(fen)(fen)訓(xun)練(lian)將(jiang)新知(zhi)識吸收到LLM的(de)(de)(de)參數中,包括持續預訓(xun)練(lian)和(he)持續微調等(deng)策略。例(li)如,在(zai)(zai)工業應(ying)用(yong)(yong)(yong)中,常采用(yong)(yong)(yong)持續垂直領(ling)域(yu)預訓(xun)練(lian),公司經(jing)常使用(yong)(yong)(yong)金融等(deng)領(ling)域(yu)的(de)(de)(de)特定(ding)數據重新訓(xun)練(lian)其LLM。盡(jin)管這提高了(le)(le)特定(ding)領(ling)域(yu)的(de)(de)(de)性(xing)能,但也(ye)有(you)可(ke)能削弱模型(xing)的(de)(de)(de)廣(guang)泛知(zhi)識基礎(chu),說明了(le)(le)在(zai)(zai)專業適應(ying)性(xing)和(he)通(tong)用(yong)(yong)(yong)知(zhi)識保留之間保持平衡的(de)(de)(de)挑(tiao)戰。持續微調涵蓋了(le)(le)特定(ding)情境(jing)的(de)(de)(de)方法(fa)(fa),如文(wen)本分(fen)(fen)類、命(ming)名實體(ti)識別、關(guan)系抽取和(he)機器翻(fan)譯(yi)等(deng),以及任務無關(guan)的(de)(de)(de)方法(fa)(fa),如指令微調、對齊(qi)和(he)知(zhi)識編輯。此(ci)外,在(zai)(zai)持續對齊(qi)中使用(yong)(yong)(yong)了(le)(le)人(ren)類反饋的(de)(de)(de)強化學習,以確保LLM遵守人(ren)類價值觀(guan),如安全(quan)和(he)禮貌,突(tu)顯(xian)了(le)(le)所謂的(de)(de)(de)“對齊(qi)稅”,即過于(yu)專注于(yu)特定(ding)價值觀(guan)可(ke)能會導(dao)致模型(xing)的(de)(de)(de)通(tong)用(yong)(yong)(yong)能力下降(jiang)。

外(wai)(wai)部知識(shi)類(lei)(lei)通過將新(xin)知識(shi)作為外(wai)(wai)部資(zi)源(如維基(ji)百科或API)引(yin)入,而不(bu)更新(xin)模型參(can)數(shu)(shu),包括基(ji)于檢(jian)索和工(gong)(gong)具(ju)的(de)終身學(xue)習,利用外(wai)(wai)部數(shu)(shu)據源和計算工(gong)(gong)具(ju)來擴(kuo)展模型的(de)能(neng)力。基(ji)于檢(jian)索的(de)策略,如檢(jian)索增(zeng)強生(sheng)成,通過提供(gong)上(shang)下文(wen)相關(guan)、準確和最新(xin)的(de)外(wai)(wai)部數(shu)(shu)據庫(如維基(ji)百科)信息來增(zeng)強文(wen)本生(sheng)成,確保模型輸出隨時間保持相關(guan)性。同時,工(gong)(gong)具(ju)學(xue)習類(lei)(lei)借鑒人類(lei)(lei)工(gong)(gong)具(ju)使(shi)用的(de)類(lei)(lei)比,模型學(xue)習使(shi)用外(wai)(wai)部計算工(gong)(gong)具(ju),從而無需直(zhi)接修改其核心知識(shi)庫,拓寬了其問(wen)題解決能(neng)力。

通過對這些組(zu)及其(qi)(qi)各(ge)自類(lei)別(bie)的(de)詳細檢查,本文旨(zhi)在(zai)強(qiang)調將終身學習能力(li)整合(he)到LLM中,從而增強(qiang)其(qi)(qi)在(zai)實際應(ying)用中的(de)適應(ying)性、可靠性和(he)整體性能。通過解(jie)決(jue)與終身學習相關的(de)挑(tiao)戰并探索(suo)該領(ling)域的(de)創新,本綜述旨(zhi)在(zai)為(wei)開發更強(qiang)大和(he)多功(gong)能的(de)LLM做出(chu)貢獻(xian),使其(qi)(qi)能夠在(zai)不(bu)斷變(bian)化的(de)數字環境中蓬(peng)勃發展。

本綜述與現有綜述的差異。近年來(lai),終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)已成為(wei)一個(ge)越(yue)來(lai)越(yue)受歡(huan)迎的(de)(de)(de)(de)(de)(de)(de)研究主(zhu)題。大量綜(zong)(zong)(zong)(zong)述(shu)(shu)探討了(le)(le)(le)神經網絡(luo)的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)。大多(duo)數現有綜(zong)(zong)(zong)(zong)述(shu)(shu)主(zhu)要集中在(zai)卷積神經網絡(luo)(CNN)的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi),探討了(le)(le)(le)CNN的(de)(de)(de)(de)(de)(de)(de)各種(zhong)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)情景,包括(kuo)圖像(xiang)分(fen)類(lei)(lei)、分(fen)割、目標檢(jian)測、自動系統(tong)、機(ji)器(qi)(qi)人和(he)智慧城(cheng)市。此外(wai),一些綜(zong)(zong)(zong)(zong)述(shu)(shu)探討了(le)(le)(le)圖神經網絡(luo)的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)。然而,只(zhi)有少量文(wen)(wen)獻(xian)關注語言模(mo)型的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)。Biesialska等(deng)是關于(yu)自然語言處理(NLP)中終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)的(de)(de)(de)(de)(de)(de)(de)早期(qi)綜(zong)(zong)(zong)(zong)述(shu)(shu),但他們只(zhi)關注詞(ci)和(he)句子(zi)表(biao)示、語言建模(mo)、問答、文(wen)(wen)本(ben)分(fen)類(lei)(lei)和(he)機(ji)器(qi)(qi)翻譯。Ke等(deng)關注終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)情景,包括(kuo)情感分(fen)類(lei)(lei)、命(ming)名實(shi)體識(shi)(shi)(shi)別(bie)和(he)摘要。他們還討論了(le)(le)(le)知(zhi)識(shi)(shi)(shi)轉移和(he)任(ren)務間類(lei)(lei)分(fen)離的(de)(de)(de)(de)(de)(de)(de)技術(shu)。Zhang等(deng)提(ti)供(gong)了(le)(le)(le)關于(yu)將LLM與(yu)不斷變化的(de)(de)(de)(de)(de)(de)(de)世(shi)界知(zhi)識(shi)(shi)(shi)對(dui)齊的(de)(de)(de)(de)(de)(de)(de)技術(shu)的(de)(de)(de)(de)(de)(de)(de)全面回顧(gu),包括(kuo)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)預(yu)訓練(lian)、知(zhi)識(shi)(shi)(shi)編輯(ji)(ji)和(he)檢(jian)索(suo)增強生(sheng)成。Wu等(deng)從持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)預(yu)訓練(lian)、持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)指令微調和(he)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)對(dui)齊三個(ge)方(fang)面重新(xin)審視(shi)了(le)(le)(le)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)。Shi等(deng)從垂直(zhi)方(fang)向(或垂直(zhi)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)學(xue)(xue)習(xi)(xi))和(he)水平方(fang)向(或水平持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)學(xue)(xue)習(xi)(xi))兩(liang)個(ge)方(fang)向研究了(le)(le)(le)LLM的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)。Jovanovic等(deng)回顧(gu)了(le)(le)(le)幾種(zhong)實(shi)時(shi)學(xue)(xue)習(xi)(xi)范式,包括(kuo)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)學(xue)(xue)習(xi)(xi)、元學(xue)(xue)習(xi)(xi)、參(can)數高(gao)效學(xue)(xue)習(xi)(xi)和(he)專家混合學(xue)(xue)習(xi)(xi)。雖然最近的(de)(de)(de)(de)(de)(de)(de)綜(zong)(zong)(zong)(zong)述(shu)(shu)收集了(le)(le)(le)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)的(de)(de)(de)(de)(de)(de)(de)最新(xin)文(wen)(wen)獻(xian),但它們沒有涵蓋(gai)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)文(wen)(wen)本(ben)分(fen)類(lei)(lei)、持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)命(ming)名實(shi)體識(shi)(shi)(shi)別(bie)、持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)關系抽取和(he)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)機(ji)器(qi)(qi)翻譯等(deng)情景,并且對(dui)持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)對(dui)齊、持(chi)(chi)(chi)(chi)(chi)續(xu)(xu)(xu)知(zhi)識(shi)(shi)(shi)編輯(ji)(ji)、基于(yu)工具的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)和(he)基于(yu)檢(jian)索(suo)的(de)(de)(de)(de)(de)(de)(de)終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)的(de)(de)(de)(de)(de)(de)(de)討論較少。據我們所(suo)知(zhi),我們是第一個(ge)提(ti)供(gong)對(dui)LLM終(zhong)(zhong)(zhong)(zhong)(zhong)(zhong)身(shen)(shen)(shen)學(xue)(xue)習(xi)(xi)方(fang)法從12種(zhong)情景進行徹底和(he)系統(tong)檢(jian)查的(de)(de)(de)(de)(de)(de)(de)綜(zong)(zong)(zong)(zong)述(shu)(shu)。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見(jian)技(ji)(ji)(ji)術**:我們(men)在所有終身學習情景中識別了常見(jian)技(ji)(ji)(ji)術,并(bing)將現有文獻分類(lei)到每個情景內的各(ge)種(zhong)技(ji)(ji)(ji)術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第(di)二節介紹問(wen)題的形(xing)成、評(ping)價指標、常見技(ji)術、基(ji)準和(he)數據集。第(di)三節、第(di)四節和(he)第(di)五節檢(jian)查(cha)了(le)(le)持續預訓練、持續微調和(he)基(ji)于外部知識的終身學習(xi)的現有(you)(you)技(ji)術。第(di)六節討論(lun)了(le)(le)LLM終身學習(xi)的現有(you)(you)挑戰(zhan)、當前趨勢(shi)和(he)未來方(fang)向,并總結了(le)(le)本綜述。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解(jie)最(zui)新的研究,我們(men)維(wei)護一個開(kai)源的GitHub倉庫,致力于概述基于LLM的多智能體系(xi)統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能(neng)力完全符合人(ren)類對能(neng)夠感知周圍環境、做出決(jue)策并作出響應的(de)(de)(de)(de)自主(zhu)智(zhi)能(neng)體的(de)(de)(de)(de)期(qi)待(dai)[Xi等(deng)(deng),2023;Wooldridge和(he)Jennings,1995;Russell和(he)Norvig,2009;Guo等(deng)(deng),2023;Liang等(deng)(deng),2023]。因此,基于(yu)LLM的(de)(de)(de)(de)智(zhi)能(neng)體已被研究和(he)快速發展(zhan),以(yi)理解和(he)生成類似(si)人(ren)類的(de)(de)(de)(de)指令,促進(jin)在(zai)廣泛的(de)(de)(de)(de)上下文(wen)中(zhong)進(jin)行復雜的(de)(de)(de)(de)互動(dong)和(he)決(jue)策[Yao等(deng)(deng),2023;Shinn等(deng)(deng),2023;Li等(deng)(deng),2023d]。及時的(de)(de)(de)(de)綜述文(wen)章系統地總(zong)結了基于(yu)LLM的(de)(de)(de)(de)智(zhi)能(neng)體的(de)(de)(de)(de)進(jin)展(zhan),如在(zai)文(wen)獻[Xi等(deng)(deng),2023;Wang等(deng)(deng),2023b]中(zhong)所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與(yu)使(shi)用(yong)(yong)單一LLM驅(qu)動的(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)(de)系(xi)(xi)統(tong)(tong)相比,多(duo)(duo)智(zhi)能(neng)(neng)(neng)體(ti)系(xi)(xi)統(tong)(tong)通(tong)過1) 將LLMs專業化為(wei)具(ju)有(you)不同(tong)能(neng)(neng)(neng)力(li)(li)的(de)(de)(de)(de)(de)(de)各(ge)(ge)種不同(tong)智(zhi)能(neng)(neng)(neng)體(ti),以(yi)及2) 使(shi)這(zhe)(zhe)些多(duo)(duo)樣(yang)化的(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)體(ti)之間(jian)進(jin)行(xing)互動,有(you)效(xiao)地模(mo)擬復雜的(de)(de)(de)(de)(de)(de)現(xian)實世界環境,提供了(le)先進(jin)的(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)力(li)(li)。在這(zhe)(zhe)一背景下,多(duo)(duo)個(ge)自主智(zhi)能(neng)(neng)(neng)體(ti)協作(zuo)(zuo)(zuo)參與(yu)規劃、討論(lun)和決策,反(fan)映了(le)人類團隊工作(zuo)(zuo)(zuo)在解決問(wen)題任務中(zhong)的(de)(de)(de)(de)(de)(de)合作(zuo)(zuo)(zuo)本質(zhi)。這(zhe)(zhe)種方法利用(yong)(yong)了(le)LLMs的(de)(de)(de)(de)(de)(de)溝(gou)通(tong)能(neng)(neng)(neng)力(li)(li),借(jie)助它們(men)生成(cheng)文本進(jin)行(xing)交流(liu)和對文本輸入的(de)(de)(de)(de)(de)(de)響應能(neng)(neng)(neng)力(li)(li)。此外,它利用(yong)(yong)了(le)LLMs在各(ge)(ge)個(ge)領域(yu)的(de)(de)(de)(de)(de)(de)廣泛知識和專門化特(te)定任務的(de)(de)(de)(de)(de)(de)潛力(li)(li)。最近(jin)的(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)(jiu)已經展(zhan)示了(le)使(shi)用(yong)(yong)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)體(ti)解決各(ge)(ge)種任務的(de)(de)(de)(de)(de)(de)有(you)希望的(de)(de)(de)(de)(de)(de)結(jie)果,如(ru)(ru)軟件開發[Hong等(deng)(deng),2023; Qian等(deng)(deng),2023]、多(duo)(duo)機(ji)器人系(xi)(xi)統(tong)(tong)[Mandi等(deng)(deng),2023; Zhang等(deng)(deng),2023c]、社(she)會模(mo)擬[Park等(deng)(deng),2023; Park等(deng)(deng),2022]、政策模(mo)擬[Xiao等(deng)(deng),2023; Hua等(deng)(deng),2023]以(yi)及游戲模(mo)擬[Xu等(deng)(deng),2023c; Wang等(deng)(deng),2023c]。由于(yu)(yu)這(zhe)(zhe)個(ge)領域(yu)的(de)(de)(de)(de)(de)(de)跨學科研(yan)(yan)究(jiu)(jiu)(jiu)性(xing)質(zhi),它吸引了(le)來自社(she)會科學、心理學和政策研(yan)(yan)究(jiu)(jiu)(jiu)等(deng)(deng)不同(tong)背景的(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)(jiu)者(zhe),研(yan)(yan)究(jiu)(jiu)(jiu)論(lun)文的(de)(de)(de)(de)(de)(de)數量(liang)正在迅速增加,如(ru)(ru)圖1所(suo)示(受[Gao等(deng)(deng),2023b]設計的(de)(de)(de)(de)(de)(de)啟發),從而擴大了(le)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)體(ti)研(yan)(yan)究(jiu)(jiu)(jiu)的(de)(de)(de)(de)(de)(de)影(ying)響。盡管如(ru)(ru)此,早期(qi)的(de)(de)(de)(de)(de)(de)工作(zuo)(zuo)(zuo)是獨立(li)進(jin)行(xing)的(de)(de)(de)(de)(de)(de),導(dao)致缺乏系(xi)(xi)統(tong)(tong)回顧以(yi)總結(jie)它們(men),建立(li)這(zhe)(zhe)個(ge)領域(yu)的(de)(de)(de)(de)(de)(de)全面藍圖,并檢(jian)查(cha)未(wei)來的(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)(jiu)挑戰。這(zhe)(zhe)強調了(le)我(wo)們(men)工作(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)重要(yao)性(xing),并作(zuo)(zuo)(zuo)為(wei)呈現(xian)這(zhe)(zhe)篇(pian)綜(zong)述(shu)論(lun)文的(de)(de)(de)(de)(de)(de)動機(ji),致力(li)(li)于(yu)(yu)基(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)多(duo)(duo)智(zhi)能(neng)(neng)(neng)體(ti)系(xi)(xi)統(tong)(tong)的(de)(de)(de)(de)(de)(de)研(yan)(yan)究(jiu)(jiu)(jiu)。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者(zhe)將(jiang)獲得關于(yu)基于(yu)LLM的(de)(de)多(duo)智能體(LLM-MA)系統的(de)(de)全面概(gai)覽,把握(wo)基于(yu)LLMs建立多(duo)智能體系統所(suo)涉及的(de)(de)基本概(gai)念,并捕(bu)捉到(dao)這一動態領域(yu)中最新(xin)(xin)的(de)(de)研究趨(qu)勢和應(ying)用。我(wo)(wo)們認(ren)識到(dao)這個(ge)領域(yu)正處于(yu)初級階段,并且隨(sui)著(zhu)新(xin)(xin)方法(fa)和應(ying)用的(de)(de)迅速發展。為(wei)了提供一種持續的(de)(de)資源來補充(chong)我(wo)(wo)們的(de)(de)綜(zong)述論(lun)文,我(wo)(wo)們維護了一個(ge)開(kai)源的(de)(de)GitHub倉庫。我(wo)(wo)們希望我(wo)(wo)們的(de)(de)綜(zong)述能激(ji)發進一步的(de)(de)探(tan)索和創新(xin)(xin),以及在廣(guang)泛(fan)的(de)(de)研究領域(yu)中的(de)(de)應(ying)用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述(shu)背景知識后(hou),我們提(ti)出了一(yi)(yi)(yi)個關鍵問(wen)題:LLM-MA系統如何(he)(he)與協(xie)作任務解(jie)決環境(jing)對齊?為了回答這個問(wen)題,我們在第3節提(ti)出了一(yi)(yi)(yi)個全面(mian)的框架,用于定(ding)位(wei)、區(qu)分和連接LLM-MA系統的各個方(fang)面(mian)。我們通(tong)過(guo)討論: 1)智(zhi)(zhi)能體-環境(jing)界面(mian),詳細說明智(zhi)(zhi)能體如何(he)(he)與任務環境(jing)互動; 2)智(zhi)(zhi)能體輪廓,解(jie)釋一(yi)(yi)(yi)個智(zhi)(zhi)能體如何(he)(he)被LLM描述(shu)以以特定(ding)方(fang)式行為; 3)智(zhi)(zhi)能體通(tong)信,考(kao)察智(zhi)(zhi)能體如何(he)(he)交換信息和協(xie)作;以及 4)智(zhi)(zhi)能體能力獲取,探(tan)索智(zhi)(zhi)能體如何(he)(he)發展其解(jie)決問(wen)題的能力。

關于(yu)LLM-MA研(yan)究的(de)(de)(de)另一(yi)個視角是(shi)它們(men)的(de)(de)(de)應(ying)用。在(zai)第(di)4節,我們(men)將(jiang)當前應(ying)用分(fen)為(wei)兩個主要流:用于(yu)問(wen)題解決的(de)(de)(de)多智能體(ti)和(he)用于(yu)世界(jie)模(mo)擬(ni)的(de)(de)(de)多智能體(ti)。為(wei)了指(zhi)導個人識別合適的(de)(de)(de)工(gong)具(ju)和(he)資(zi)源,我們(men)在(zai)第(di)5節提出了用于(yu)研(yan)究LLM-MA的(de)(de)(de)開源實現框架,以及可用的(de)(de)(de)數據集和(he)基準。基于(yu)前面的(de)(de)(de)總結,我們(men)在(zai)第(di)6節開放(fang)了對(dui)未來研(yan)究挑戰和(he)機會的(de)(de)(de)討論(lun)(lun)。結論(lun)(lun)在(zai)第(di)7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下(xia)面詳細闡述這些應用。請注意,這是(shi)一個快速發展的研(yan)究(jiu)領域(yu),幾乎每天都有新應用出(chu)現。我們維護一個開源倉庫來報告(gao)最新的工作。

使用(yong)(yong)(yong)LLM-MA進行(xing)問(wen)題解決(jue)的(de)(de)(de)主要動機是利用(yong)(yong)(yong)具(ju)(ju)有專門專業知識的(de)(de)(de)智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)集(ji)體(ti)(ti)(ti)(ti)能(neng)(neng)力。這(zhe)些智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti),每個都作為個體(ti)(ti)(ti)(ti)行(xing)動,協作以(yi)有效地解決(jue)復雜問(wen)題,例如(ru)軟件(jian)開發、具(ju)(ju)體(ti)(ti)(ti)(ti)化智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti)、科學實驗和科學辯論。 LLM-MA的(de)(de)(de)另一(yi)個主流應(ying)用(yong)(yong)(yong)場(chang)景(jing)(jing)是世界(jie)模擬(ni)(ni)。這(zhe)一(yi)領域的(de)(de)(de)研究正在(zai)迅速增(zeng)長(chang),涵蓋了包括(kuo)社會科學、游戲、心理(li)學、經濟學、政策制(zhi)定等在(zai)內(nei)的(de)(de)(de)多(duo)種(zhong)領域。在(zai)世界(jie)模擬(ni)(ni)中(zhong)使用(yong)(yong)(yong)LLM-MA的(de)(de)(de)關鍵(jian)原因(yin)在(zai)于它(ta)們(men)出色(se)(se)的(de)(de)(de)角(jiao)色(se)(se)扮演(yan)能(neng)(neng)力,這(zhe)對于現(xian)實地描繪模擬(ni)(ni)世界(jie)中(zhong)的(de)(de)(de)各種(zhong)角(jiao)色(se)(se)和觀點至(zhi)關重要。世界(jie)模擬(ni)(ni)項目的(de)(de)(de)環境(jing)通常(chang)被設(she)(she)計(ji)來反映(ying)被模擬(ni)(ni)的(de)(de)(de)特定場(chang)景(jing)(jing),智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti)以(yi)各種(zhong)輪廓設(she)(she)計(ji)以(yi)匹配這(zhe)一(yi)背景(jing)(jing)。與專注于智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti)合(he)作的(de)(de)(de)問(wen)題解決(jue)系(xi)統(tong)(tong)不同,世界(jie)模擬(ni)(ni)系(xi)統(tong)(tong)涉(she)及多(duo)種(zhong)智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)(ti)管(guan)理(li)和通信方法,反映(ying)了現(xian)實世界(jie)交互的(de)(de)(de)復雜性和多(duo)樣(yang)性。

結論

基于LLM的多(duo)(duo)智(zhi)能(neng)體展(zhan)現了激勵人心的集體智(zhi)能(neng),并迅速(su)在研究(jiu)者中(zhong)獲得了越來越多(duo)(duo)的興趣。在這篇綜(zong)述(shu)(shu)中(zhong),我們(men)首(shou)先系(xi)統(tong)回(hui)顧(gu)了LLM-MA系(xi)統(tong)的發展(zhan),通(tong)過從不同方面(mian)(mian)定位、區分和連(lian)接它們(men),涉(she)及(ji)智(zhi)能(neng)體-環(huan)境界面(mian)(mian)、LLMs對智(zhi)能(neng)體的描述(shu)(shu)、管理智(zhi)能(neng)體通(tong)信的策略以及(ji)能(neng)力獲取的范式。我們(men)還總結了LLM-MA在問題解決和世界模擬中(zhong)的應用。通(tong)過突(tu)出(chu)常(chang)用的數(shu)據(ju)集和基準,并討論(lun)挑戰(zhan)和未來機會,我們(men)希望這篇綜(zong)述(shu)(shu)能(neng)成為各個研究(jiu)領域的研究(jiu)者們(men)的有用資(zi)源(yuan),激發未來的研究(jiu)去探索基于LLM的多(duo)(duo)智(zhi)能(neng)體的潛力。

付費5元查看完整內容
北京阿比特科技有限公司