并非所有人(ren)(ren)工(gong)智能(AI)都生而平(ping)等。雖然基礎的(de)(de)(de)(de)大(da)型(xing)語言(yan)模(mo)(mo)型(xing)能夠處理和(he)生成文(wen)本,但像OpenAI的(de)(de)(de)(de)GPT-4.5、Anthropic的(de)(de)(de)(de)Claude 4 Sonnet、Google的(de)(de)(de)(de)Gemini 2.5 Pro、Meta的(de)(de)(de)(de)LLaMA 4以(yi)及X的(de)(de)(de)(de)Grok 4這樣的(de)(de)(de)(de)“前(qian)沿(yan)模(mo)(mo)型(xing)”(frontier models)則(ze)要強(qiang)(qiang)大(da)得多。處于該(gai)領(ling)域最前(qian)沿(yan)的(de)(de)(de)(de)這類(lei)能力(li)(li)更強(qiang)(qiang)的(de)(de)(de)(de)模(mo)(mo)型(xing),相(xiang)比其更老舊、更小且更不先進的(de)(de)(de)(de)同類(lei)產品(pin),擁有更深厚的(de)(de)(de)(de)知識庫、更強(qiang)(qiang)的(de)(de)(de)(de)上(shang)下文(wen)理解能力(li)(li)以(yi)及增(zeng)強(qiang)(qiang)的(de)(de)(de)(de)推理能力(li)(li)。在(zai)軍(jun)隊探索(suo)人(ren)(ren)工(gong)智能之(zhi)際,選擇能夠駕馭現代(dai)戰爭無定形且不斷變化本質(zhi)的(de)(de)(de)(de)強(qiang)(qiang)大(da)模(mo)(mo)型(xing)至(zhi)關(guan)重(zhong)(zhong)要。在(zai)人(ren)(ren)工(gong)智能將在(zai)重(zhong)(zhong)大(da)決策中(zhong)發揮重(zhong)(zhong)要作用的(de)(de)(de)(de)軍(jun)事應用中(zhong),前(qian)沿(yan)模(mo)(mo)型(xing)所具備的(de)(de)(de)(de)復雜程度并非奢侈(chi)品(pin),而是必需品(pin)。
前沿(yan)模型是(shi)利用(yong)海量數據訓練(lian)出(chu)來(lai)的強大系統。然而,何為(wei)“前沿(yan)”會隨時間變(bian)化——而且(qie)變(bian)化極(ji)快。
衡量(liang)模型(xing)能力的(de)(de)(de)(de)一個關鍵指標是(shi)其“參(can)(can)數”(parameters)數量(liang)——可將(jiang)其視為(wei)(wei)模型(xing)從數據中學習(xi)時調整的(de)(de)(de)(de)內部設(she)置。參(can)(can)數越多通常意(yi)味著模型(xing)能學習(xi)更細微(wei)的(de)(de)(de)(de)模式。例如(ru),擁(yong)有1750億(yi)參(can)(can)數的(de)(de)(de)(de)GPT-3.5在2022年底(di)被認(ren)為(wei)(wei)是(shi)先進(jin)的(de)(de)(de)(de)。但僅僅幾個月后,OpenAI發(fa)(fa)布(bu)(bu)(bu)了GPT-4,“前(qian)沿”的(de)(de)(de)(de)門(men)檻也隨之改變。于2023年初發(fa)(fa)布(bu)(bu)(bu)的(de)(de)(de)(de)GPT-4擁(yong)有超過一萬(wan)億(yi)參(can)(can)數,構(gou)建所需的(de)(de)(de)(de)計算資源(yuan)是(shi)其前(qian)代(dai)的(de)(de)(de)(de)十四倍多。GPT-4還展(zhan)現出(chu)許(xu)多不尋常的(de)(de)(de)(de)特性(xing),即(ji)微(wei)軟所稱的(de)(de)(de)(de)“涌(yong)現行為(wei)(wei)”(emergent behaviors)。據報道,最近發(fa)(fa)布(bu)(bu)(bu)的(de)(de)(de)(de)Grok 4擁(yong)有超過1.7萬(wan)億(yi)參(can)(can)數,這是(shi)驚人(ren)的(de)(de)(de)(de)。與它們更小、專注于特定任務(wu)的(de)(de)(de)(de)前(qian)期模型(xing)不同,當(dang)今龐大的(de)(de)(de)(de)前(qian)沿模型(xing)展(zhan)現出(chu)遠為(wei)(wei)強大的(de)(de)(de)(de)推理(li)、處理(li)復雜性(xing)和理(li)解上下文的(de)(de)(de)(de)能力。
更(geng)(geng)(geng)大的(de)模型(xing)更(geng)(geng)(geng)擅(shan)長思考,尤其是在(zai)(zai)任務(wu)需(xu)要多個邏(luo)輯步驟(zou)時,例如(ru)起草完整文件或(huo)進行(xing)技術分(fen)析。它們綜合海量數據集的(de)能(neng)力(li)使其能(neng)夠進行(xing)邏(luo)輯推(tui)理、連接(jie)(jie)不(bu)同想(xiang)法,并在(zai)(zai)長篇論(lun)述中保持連貫性。這(zhe)在(zai)(zai)網絡安全和(he)情報等領域至(zhi)(zhi)關(guan)重要,因為(wei)(wei)好的(de)決(jue)策依賴于審視多種因素、發現(xian)隱藏模式并理解敵方行(xing)動。更(geng)(geng)(geng)大的(de)模型(xing)似乎也有助于減少常見問題(ti),如(ru)編造信息(xi)(xi)(通常稱為(wei)(wei)“幻覺”,hallucinations)或(huo)表(biao)現(xian)出不(bu)公平傾向(“偏見”,biases)。另一方面(mian),較小的(de)模型(xing)在(zai)(zai)這(zhe)些領域往往表(biao)現(xian)不(bu)佳(jia)。它們難(nan)以管理相互關(guan)聯的(de)信息(xi)(xi)片段,或(huo)在(zai)(zai)復(fu)雜問題(ti)中理清(qing)相互沖突(tu)的(de)細節(jie)。這(zhe)可能(neng)導致思維脫節(jie)、答案(an)過(guo)于簡單,以及無法處理諸如(ru)分(fen)析多樣化威脅或(huo)理解復(fu)雜作戰態勢等復(fu)雜任務(wu)。當準確性和(he)全面(mian)性至(zhi)(zhi)關(guan)重要時,模型(xing)的(de)尺寸直(zhi)接(jie)(jie)影(ying)響其分(fen)析信息(xi)(xi)和(he)支援作戰的(de)能(neng)力(li)。
另一(yi)個關鍵區別在(zai)(zai)(zai)于,更(geng)大的(de)(de)(de)模型(xing)(xing)能(neng)夠記住并利用(yong)長文(wen)檔(dang)或討論中的(de)(de)(de)信息(xi)。這(zhe)在(zai)(zai)(zai)軍事應用(yong)中尤為重要(yao),因為準確性和一(yi)致性至關重要(yao)。無(wu)論是處(chu)(chu)(chu)理情報報告、起草戰略(lve)指導,還是在(zai)(zai)(zai)網(wang)絡行動中綜合大量(liang)日志(zhi),前(qian)沿模型(xing)(xing)都能(neng)保持(chi)一(yi)定程(cheng)度的(de)(de)(de)連(lian)貫性,從而(er)減少不一(yi)致性并減輕人類(lei)分(fen)析員的(de)(de)(de)認(ren)知負擔(dan)。適(shi)應新情況對小模型(xing)(xing)來說(shuo)也是一(yi)項挑戰;它們未(wei)經(jing)過(guo)足夠多樣(yang)化數據的(de)(de)(de)訓練,無(wu)法處(chu)(chu)(chu)理前(qian)所未(wei)見的(de)(de)(de)事物。前(qian)沿模型(xing)(xing)在(zai)(zai)(zai)龐(pang)大數據集上訓練而(er)成(cheng),并能(neng)同時考慮大量(liang)信息(xi),因此更(geng)擅長處(chu)(chu)(chu)理通用(yong)任務(wu),并能(neng)將舊知識應用(yong)于新問題而(er)無(wu)需(xu)重新訓練。較小的(de)(de)(de)架構需(xu)要(yao)大量(liang)微調才(cai)能(neng)達(da)到類(lei)似性能(neng)水平(ping),但隨后僅能(neng)在(zai)(zai)(zai)狹窄領域取得(de)成(cheng)功,使其在(zai)(zai)(zai)需(xu)要(yao)靈活性和快速適(shi)應的(de)(de)(de)動態作戰環境中顯(xian)得(de)脆弱(ruo)。
誠然,小模型已(yi)(yi)展現(xian)出(chu)相比其前(qian)(qian)代的(de)顯(xian)著改(gai)進(jin),甚至(zhi)在某些狹(xia)窄(zhai)指標上接近GPT-4等模型的(de)能力。但GPT-4早(zao)已(yi)(yi)不(bu)再是最先進(jin)的(de)前(qian)(qian)沿模型。這種比較并不(bu)具備許多人(ren)認為的(de)分量。與此(ci)同(tong)時,現(xian)代前(qian)(qian)沿模型已(yi)(yi)變(bian)得如此(ci)強大,以(yi)至(zhi)于讓它們的(de)前(qian)(qian)輩(bei)看起來像玩(wan)具。
高級領(ling)導(dao)者處理復雜、模(mo)(mo)糊(hu)不清(qing)的(de)(de)局面和過載的(de)(de)信息(xi)。前(qian)沿模(mo)(mo)型(xing)(xing)可(ke)(ke)以(yi)成為(wei)決策(ce)的(de)(de)有力助手,快速準確(que)(que)地匯(hui)總海量數據并(bing)解釋要點。當(dang)(dang)參謀工作需遵循特(te)定政策(ce)、法律規則和作戰(zhan)目標時,這些適應性(xing)強(qiang)的(de)(de)模(mo)(mo)型(xing)(xing)可(ke)(ke)提供清(qing)晰的(de)(de)評估(gu),確(que)(que)保建議合乎(hu)邏輯且(qie)一(yi)(yi)致。與難以(yi)在(zai)變化環(huan)境(jing)中(zhong)平衡多種因素的(de)(de)小(xiao)模(mo)(mo)型(xing)(xing)不同,更大的(de)(de)系(xi)統能結(jie)合過往案例、軍事(shi)條令和當(dang)(dang)前(qian)信息(xi),提出切實可(ke)(ke)行(xing)的(de)(de)行(xing)動方(fang)案。這能加(jia)速決策(ce)過程。高級領(ling)導(dao)者將獲得條理清(qing)晰的(de)(de)分析,解釋風險、收益以(yi)及選擇可(ke)(ke)能對任務(wu)產生的(de)(de)影響——一(yi)(yi)個(ge)單一(yi)(yi)的(de)(de)AI系(xi)統有可(ke)(ke)能完成當(dang)(dang)前(qian)需要多個(ge)龐大參謀團(tuan)隊才(cai)能完成的(de)(de)任務(wu)。在(zai)速度與準確(que)(que)性(xing)同等(deng)重要的(de)(de)時代,利用先進AI輔助決策(ce)不僅有益,而且(qie)必不可(ke)(ke)少。
執行(xing)初步(bu)分(fen)析并(bing)加速調(diao)查(cha)。在(zai)(zai)當今的網(wang)絡(luo)安全工作(zuo)(zuo)中,數據的海量和(he)高(gao)速使(shi)得快(kuai)速區分(fen)真實威脅與正常網(wang)絡(luo)活動變得困難(nan)。前沿(yan)模(mo)(mo)型通(tong)(tong)過(guo)自動化初步(bu)審視這些數據可發(fa)揮關(guan)鍵作(zuo)(zuo)用:梳理安全日志(zhi)、關(guan)聯來(lai)(lai)自不(bu)同(tong)系統的相關(guan)告(gao)警、并(bing)在(zai)(zai)人類(lei)分(fen)析員介入(ru)前過(guo)濾掉不(bu)重要(yao)信息(xi)(xi)。這將使(shi)分(fen)析員從常規工作(zuo)(zuo)中解脫(tuo)出來(lai)(lai),使(shi)其(qi)能(neng)(neng)專注于(yu)明(ming)確(que)的網(wang)絡(luo)攻擊跡象。除了這種初步(bu)分(fen)類(lei),這些模(mo)(mo)型還能(neng)(neng)通(tong)(tong)過(guo)幫助創建高(gao)級數據檢(jian)查(cha)方(fang)法、發(fa)現(xian)異常活動以及(ji)提供(gong)通(tong)(tong)常需要(yao)數小(xiao)時人工工作(zuo)(zuo)的背景(jing)信息(xi)(xi)來(lai)(lai)加速調(diao)查(cha)。較(jiao)小(xiao)的模(mo)(mo)型難(nan)以進(jin)行(xing)多步(bu)驟思(si)考(kao)并(bing)比較(jiao)來(lai)(lai)自不(bu)同(tong)(尤(you)其(qi)是大型)數據集的信息(xi)(xi)。然而,前沿(yan)模(mo)(mo)型足夠強大,能(neng)(neng)夠處理這些極其(qi)困難(nan)的任務(wu)。隨著攻擊者行(xing)動更快(kuai)更頻(pin)繁,這種AI能(neng)(neng)力對于(yu)效率和(he)成功防御(yu)我們(men)的網(wang)絡(luo)都至關(guan)重要(yao)。
增(zeng)強訓練(lian)。良好(hao)的(de)(de)網絡訓練(lian)需要的(de)(de)不僅僅是固定的(de)(de)課程(cheng)計劃和老舊案例;它需要適應新威脅的(de)(de)逼真、靈(ling)活(huo)的(de)(de)教(jiao)學。即使小型(xing)(xing)語言模型(xing)(xing)也(ye)有(you)能力(li)通過動態數據集和響應式場景來補充這種訓練(lian),但(dan)只有(you)前沿模型(xing)(xing)才具備(bei)構建訓練(lian)本身的(de)(de)能力(li)。
較小的(de)模型(xing)缺乏(fa)創建超越基礎練(lian)(lian)習的(de)有用網(wang)絡(luo)訓練(lian)(lian)所需的(de)深刻理解(jie)。利用前沿(yan)模型(xing),組織可以(yi)創建一個隨著敵方方法變(bian)化而不斷(duan)更新的(de)網(wang)絡(luo)訓練(lian)(lian)系(xi)統。這確保我們的(de)網(wang)絡(luo)部(bu)隊為現實挑(tiao)戰做好(hao)準備,而不僅僅是教科書(shu)案(an)例。
前沿模型(xing)對(dui)軍事應(ying)用(yong)的(de)(de)(de)關鍵性引(yin)出了(le)關于如何提供(gong)資源并(bing)實現該能(neng)(neng)力的(de)(de)(de)重要問題。如果給予(yu)機會,許(xu)多士(shi)兵能(neng)(neng)做的(de)(de)(de)遠不止日常例行任(ren)務。這是(shi)“陸軍軟件(jian)工廠(chang)”(Army Software Factory)的(de)(de)(de)基本假設,該工廠(chang)讓(rang)服役人員開(kai)發軟件(jian),否則(ze)政府(fu)可能(neng)(neng)需(xu)要向承包(bao)商(shang)支付(fu)兩倍、三(san)倍甚(shen)至十倍的(de)(de)(de)費用(yong)。但這與在最尖端技術(shu)水平上構(gou)建、調(diao)優或(huo)部署——或(huo)三(san)者兼有——軍隊真正需(xu)要的(de)(de)(de)那種最先進AI模型(xing)并(bing)非(fei)一(yi)回(hui)事。
另一(yi)(yi)個(ge)挑戰(zhan)是變化的(de)(de)(de)快速步(bu)伐(fa)。一(yi)(yi)年前,若能在一(yi)(yi)個(ge)經(jing)認(ren)證的(de)(de)(de)平(ping)臺(tai)上使用(yong)現(xian)代模(mo)(mo)型(xing),會欣喜若狂(kuang)。如今,通過(guo)(guo)CamoGPT等(deng)平(ping)臺(tai)擁有(you)了這(zhe)種能力(li)(li)。然而(er),目標(biao)已(yi)經(jing)改變。在過(guo)(guo)去幾個(ge)月中,諸如用(yong)于(yu)增強復雜(za)問題解決的(de)(de)(de)專用(yong)推理引(yin)擎、像筆記(ji)本語(yu)言模(mo)(mo)型(xing)(NotebookLM)這(zhe)樣用(yong)于(yu)整合研究與寫(xie)作的(de)(de)(de)工具(ju)、像深度研究(Deep Research)這(zhe)樣的(de)(de)(de)高(gao)級語(yu)義搜索能力(li)(li),以及達到人類水平(ping)的(de)(de)(de)文本轉語(yu)音模(mo)(mo)型(xing)等(deng)變革(ge)性創新,極大地(di)提高(gao)了大型(xing)語(yu)言模(mo)(mo)型(xing)的(de)(de)(de)可(ke)靠(kao)性和實(shi)用(yong)性。軍(jun)隊花了一(yi)(yi)年時(shi)(shi)間(jian)追趕,結果(guo)卻發現(xian)當他們(men)趕上時(shi)(shi),業(ye)界已(yi)遙遙領先(xian)。美陸軍(jun)新的(de)(de)(de)生成式AI平(ping)臺(tai)——“陸軍(jun)企(qi)業(ye)大型(xing)語(yu)言模(mo)(mo)型(xing)工作空間(jian)”(Army Enterprise Large Language Model Workspace),由Ask Sage提供支持,至少接(jie)近了目標(biao),但缺乏(fa)許(xu)多(duo)(duo)這(zhe)些關鍵功(gong)能及更多(duo)(duo)功(gong)能,并(bing)且還因采(cai)用(yong)基于(yu)令牌(token)的(de)(de)(de)訂(ding)閱方(fang)案(an)(要求各單(dan)位自費購(gou)買訪問權限)而(er)執(zhi)行不力(li)(li)——這(zhe)是一(yi)(yi)個(ge)很(hen)少有(you)人可(ke)能克(ke)服的(de)(de)(de)障礙。也許(xu)到2026年,政府系(xi)統將擁有(you)2025年今天可(ke)在商業(ye)上獲得的(de)(de)(de)AI能力(li)(li),但也可(ke)能沒有(you)。即使有(you),民用(yong)與軍(jun)用(yong)技術之間(jian)一(yi)(yi)年或更長時(shi)(shi)間(jian)的(de)(de)(de)延遲也是一(yi)(yi)個(ge)顯(xian)著(zhu)差距。
然而,依賴外部創新將(jiang)重大的(de)(de)法律和數據(ju)安(an)全挑戰推到了前沿。一(yi)個(ge)令人不(bu)安(an)的(de)(de)事(shi)實(shi)是(shi)(shi),大多數商業技術,包(bao)括軍隊所(suo)需的(de)(de)強大前沿模(mo)型,在設計時(shi)并未考慮處理政(zheng)府擁有的(de)(de)非密和密級數據(ju)的(de)(de)嚴格(ge)要求。商業實(shi)體收集、匯總并最終將(jiang)敏(min)感軍事(shi)數據(ju)用于其自身訓練集、模(mo)型改進(jin)或商業利潤的(de)(de)前景,不(bu)僅(jin)是(shi)(shi)一(yi)個(ge)假設性擔憂,更是(shi)(shi)對數據(ju)主權的(de)(de)切實(shi)風險和對作戰安(an)全的(de)(de)嚴重關切。
這種(zhong)困(kun)境使(shi)“自建(jian)還(huan)是(shi)(shi)購買(mai)”的權衡變得復雜(za)。雖然內(nei)部開(kai)發真正的前沿模型難(nan)度(du)陡增,但(dan)簡單(dan)地(di)接入沒有嚴格數(shu)據(ju)控制(zhi)的商業產品則是(shi)(shi)在(zai)招致(zhi)災難(nan)。精心構建(jian)數(shu)據(ju)治理框架、為政(zheng)府(fu)用(yong)(yong)例建(jian)立(li)獨立(li)安全的模型運行和微調飛地(di)(enclaves)、以及明確(que)定(ding)義并嚴格執行知識產權所有權和數(shu)據(ju)使(shi)用(yong)(yong)權——確(que)保政(zheng)府(fu)保留(liu)對(dui)其(qi)數(shu)據(ju)及任(ren)何利用(yong)(yong)其(qi)開(kai)發的AI能(neng)力(li)的控制(zhi)權——至(zhi)關(guan)重要。這些不僅(jin)僅(jin)是(shi)(shi)官僚障礙,而是(shi)(shi)必須從(cong)一開(kai)始(shi)就(jiu)融入軍隊AI采用(yong)(yong)戰略的基本保障措(cuo)施,以免旨在(zai)增強我們能(neng)力(li)的工具本身成(cheng)為泄密(mi)的渠道。
“軍(jun)(jun)用(yong)(yong)級(ji)”(military grade)一詞(ci)在軍(jun)(jun)隊(dui)中(zhong)(zhong)常(chang)常(chang)是個笑(xiao)話。平(ping)民認(ren)為它意味(wei)著(zhu)“高質量(liang)”,但(dan)服役人員知道它通常(chang)意味(wei)著(zhu)滿(man)足某些(xie)(xie)模(mo)(mo)(mo)糊標準的最(zui)便宜產品。我們面(mian)臨AI領域發生同樣事情的風險(xian)。為加速(su)國防部門(men)采用(yong)(yong)AI,美(mei)五角大樓設立了“AI快速(su)能力(li)(li)小(xiao)組(zu)”(AI Rapid Capabilities Cell),但(dan)軍(jun)(jun)隊(dui)對(dui)通用(yong)(yong)需求的偏好(hao)(hao),加上對(dui)大型(xing)(xing)語言模(mo)(mo)(mo)型(xing)(xing)糟糕的評估方法,很可(ke)能導致軍(jun)(jun)隊(dui)配備性能不(bu)佳(jia)的聊天(tian)機(ji)器人,僅(jin)(jin)僅(jin)(jin)因為它們成本更低,而非迫切需要(yao)的強大得多的力(li)(li)量(liang)倍增器。CamoGPT、現已停用(yong)(yong)的非密互聯網(wang)協議路由器網(wang)絡GPT(NIPRGPT)等平(ping)臺雖(sui)好(hao)(hao)但(dan)不(bu)夠(gou)卓越(yue)——通過這(zhe)些(xie)(xie)平(ping)臺可(ke)用(yong)(yong)的小(xiao)模(mo)(mo)(mo)型(xing)(xing)與當今前沿模(mo)(mo)(mo)型(xing)(xing)之(zhi)間模(mo)(mo)(mo)糊但(dan)至關重要(yao)的差異不(bu)容忽視,不(bu)能因為“夠(gou)用(yong)(yong)就(jiu)好(hao)(hao)”的理念而被拋棄。事實上,在CamoGPT中(zhong)(zhong)運行的小(xiao)型(xing)(xing)開放權重模(mo)(mo)(mo)型(xing)(xing)與在專用(yong)(yong)數據中(zhong)(zhong)心運行的前沿模(mo)(mo)(mo)型(xing)(xing)之(zhi)間的差異并非微不(bu)足道。AI應增強決策能力(li)(li)、優化工(gong)作流程并強化網(wang)絡防御。在這(zhe)些(xie)(xie)AI將(jiang)在重大軍(jun)(jun)事決策中(zhong)(zhong)發揮重要(yao)作用(yong)(yong)的背景下(xia),前沿模(mo)(mo)(mo)型(xing)(xing)所(suo)具備的復(fu)雜程度(du)并非奢侈品,而是必需品。
通過投資并整合(he)前沿模(mo)(mo)型(xing),軍(jun)隊可以(yi)實現AI的(de)(de)(de)潛力——不(bu)是作(zuo)為人類(lei)專業(ye)知(zhi)識的(de)(de)(de)替代品,而(er)(er)是作(zuo)為增強決策能力、優(you)化工(gong)作(zuo)流程并強化網絡防御不(bu)可或缺的(de)(de)(de)工(gong)具。另一種選擇——由于采(cai)購惰(duo)性(xing)或未能優(you)先考慮而(er)(er)固守老(lao)舊、受(shou)限(xian)的(de)(de)(de)模(mo)(mo)型(xing)——將(jiang)導致(zhi)停滯不(bu)前,而(er)(er)對手(shou)則在(zai)(zai)迅速采(cai)用——甚至自行開發(fa)——更優(you)越的(de)(de)(de)AI技術。為避免喪失技術優(you)勢,軍(jun)隊不(bu)僅必須(xu)(xu)投資并整合(he)當(dang)前的(de)(de)(de)前沿模(mo)(mo)型(xing),還必須(xu)(xu)培養制度(du)靈活性(xing)以(yi)持續適應不(bu)斷演(yan)變的(de)(de)(de)AI格局。在(zai)(zai)加速變革(ge)的(de)(de)(de)時(shi)代,接受(shou)“夠用就好”的(de)(de)(de)AI是無法(fa)承受(shou)的(de)(de)(de)風險。
參考來源:美國陸軍
AI智(zhi)能體在(zai)開放環境中進(jin)行(xing)規劃和執行(xing)交互。例如(ru),OpenAI的Operator可以(yi)使用網頁瀏覽器進(jin)行(xing)產(chan)品(pin)比較并購買在(zai)線商品(pin)。
關于使(shi)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)既有用(yong)(yong)又(you)安全(quan)的(de)(de)(de)研究大(da)多(duo)集中于直接修改它們的(de)(de)(de)行(xing)為(wei)(wei)(wei),例如(ru)通過(guo)訓(xun)練它們遵循(xun)用(yong)(yong)戶指(zhi)令。直接的(de)(de)(de)行(xing)為(wei)(wei)(wei)修改雖然有用(yong)(yong),但并(bing)不能(neng)(neng)(neng)完全(quan)解決異質智(zhi)(zhi)能(neng)(neng)(neng)體(ti)如(ru)何相(xiang)互(hu)(hu)(hu)交(jiao)互(hu)(hu)(hu)以及與(yu)其他(ta)參與(yu)者(zhe)(zhe)互(hu)(hu)(hu)動的(de)(de)(de)問(wen)題。相(xiang)反,我(wo)們需要(yao)外部協(xie)(xie)議(yi)和系統(tong)來塑(su)造(zao)這些交(jiao)互(hu)(hu)(hu)。例如(ru),智(zhi)(zhi)能(neng)(neng)(neng)體(ti)需要(yao)更高(gao)效的(de)(de)(de)協(xie)(xie)議(yi)來相(xiang)互(hu)(hu)(hu)溝(gou)通并(bing)達成(cheng)協(xie)(xie)議(yi)。將(jiang)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)的(de)(de)(de)行(xing)為(wei)(wei)(wei)歸因于特定的(de)(de)(de)個人或(huo)其他(ta)法律實體(ti),可以幫助建立信任,并(bing)且也可以防(fang)止濫用(yong)(yong)。基于這一(yi)動機,我(wo)們提(ti)出(chu)了(le)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)基礎(chu)設(she)施(shi)(shi)的(de)(de)(de)概念(nian):技術系統(tong)和外部共享協(xie)(xie)議(yi),旨(zhi)在調(diao)節并(bing)影響智(zhi)(zhi)能(neng)(neng)(neng)體(ti)與(yu)其環(huan)境之間(jian)的(de)(de)(de)交(jiao)互(hu)(hu)(hu)及其影響。就像(xiang)互(hu)(hu)(hu)聯網依賴于像(xiang)HTTPS這樣(yang)的(de)(de)(de)協(xie)(xie)議(yi)一(yi)樣(yang),我(wo)們的(de)(de)(de)工作認為(wei)(wei)(wei),智(zhi)(zhi)能(neng)(neng)(neng)體(ti)基礎(chu)設(she)施(shi)(shi)同樣(yang)對于智(zhi)(zhi)能(neng)(neng)(neng)體(ti)生(sheng)態(tai)系統(tong)至關重要(yao)。我(wo)們確定了(le)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)基礎(chu)設(she)施(shi)(shi)的(de)(de)(de)三(san)個功能(neng)(neng)(neng):1)將(jiang)行(xing)為(wei)(wei)(wei)、屬(shu)性(xing)和其他(ta)信息歸因于特定的(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)、其用(yong)(yong)戶或(huo)其他(ta)行(xing)為(wei)(wei)(wei)者(zhe)(zhe);2)塑(su)造(zao)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)之間(jian)的(de)(de)(de)互(hu)(hu)(hu)動;3)檢測并(bing)糾正智(zhi)(zhi)能(neng)(neng)(neng)體(ti)的(de)(de)(de)有害(hai)行(xing)為(wei)(wei)(wei)。我(wo)們提(ti)供了(le)一(yi)個不完全(quan)的(de)(de)(de)研究方(fang)向目錄,涵蓋了(le)這些功能(neng)(neng)(neng)的(de)(de)(de)相(xiang)關研究。對于每(mei)個方(fang)向,我(wo)們分析了(le)用(yong)(yong)例、基礎(chu)設(she)施(shi)(shi)的(de)(de)(de)采納情況(kuang)、與(yu)現(xian)有(互(hu)(hu)(hu)聯網)基礎(chu)設(she)施(shi)(shi)的(de)(de)(de)關系、局(ju)限性(xing)和未解問(wen)題。推(tui)進(jin)(jin)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)基礎(chu)設(she)施(shi)(shi)的(de)(de)(de)研究可以為(wei)(wei)(wei)社會(hui)準備(bei)采用(yong)(yong)更先進(jin)(jin)的(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)體(ti)技術奠(dian)定基礎(chu)。
人工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)研究社(she)(she)區的(de)(de)一(yi)個(ge)基(ji)本目標(biao)是構建(jian)AI智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti):能(neng)(neng)(neng)夠在開放(fang)環境中規劃和執行(xing)交(jiao)互(hu)的(de)(de)AI系統,例如(ru)撥打電話或(huo)(huo)在線購買(mai)商品(Maes, 1994; 1995; Lieberman, 1997; Jennings 等(deng)(deng)(deng)(deng)(deng), 1998; Johnson, 2011; Sutton & Barto, 2018; Russell & Norvig, 2021; Chan 等(deng)(deng)(deng)(deng)(deng), 2023; Shavit 等(deng)(deng)(deng)(deng)(deng), 2023; Wu 等(deng)(deng)(deng)(deng)(deng), 2023; OpenAI, 2018; Gabriel 等(deng)(deng)(deng)(deng)(deng), 2024; Kolt, 2024; Lazar, 2024)。智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)與(yu)其他計算系統的(de)(de)不同之(zhi)處有(you)(you)兩個(ge)顯(xian)著方(fang)(fang)面。首先,與(yu)用作聊天(tian)機(ji)(ji)器人的(de)(de)基(ji)礎模(mo)型相(xiang)(xiang)(xiang)比(bi),智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)不僅僅與(yu)用戶交(jiao)互(hu),還直接與(yu)世界進行(xing)交(jiao)互(hu)(例如(ru)航(hang)班預(yu)訂網站)。其次,與(yu)傳統軟(ruan)件(例如(ru)排序算法(fa)(fa)的(de)(de)實現)相(xiang)(xiang)(xiang)比(bi),智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)能(neng)(neng)(neng)夠適應不完全指定的(de)(de)任務(wu)指令。盡管人工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)社(she)(she)區已(yi)致力于開發智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)數(shu)十(shi)年(nian),但這(zhe)些(xie)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)通(tong)常(chang)只執行(xing)狹窄范(fan)圍的(de)(de)任務(wu)(Wooldridge, 2009; Mnih 等(deng)(deng)(deng)(deng)(deng), 2013; Silver 等(deng)(deng)(deng)(deng)(deng), 2018; Badia 等(deng)(deng)(deng)(deng)(deng), 2020)。相(xiang)(xiang)(xiang)比(bi)之(zhi)下(xia),最近基(ji)于語(yu)言模(mo)型構建(jian)的(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)可(ke)(ke)以嘗試(shi)(盡管可(ke)(ke)靠(kao)(kao)性(xing)有(you)(you)所(suo)(suo)不同)(Kapoor 等(deng)(deng)(deng)(deng)(deng), 2024; Liu 等(deng)(deng)(deng)(deng)(deng), 2023; Mialon 等(deng)(deng)(deng)(deng)(deng), 2023; Lu 等(deng)(deng)(deng)(deng)(deng), 2024; Zhang 等(deng)(deng)(deng)(deng)(deng), 2024)更廣泛的(de)(de)任務(wu),例如(ru)軟(ruan)件工(gong)程(Jimenez 等(deng)(deng)(deng)(deng)(deng), 2024; Wu, 2024; Chowdhury 等(deng)(deng)(deng)(deng)(deng), 2024)或(huo)(huo)辦公(gong)室支持(Gur 等(deng)(deng)(deng)(deng)(deng), 2024; MultiOn, 2024)。更通(tong)用的(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)可(ke)(ke)能(neng)(neng)(neng)會(hui)(hui)自(zi)動化(hua)一(yi)系列既有(you)(you)益(yi)又(you)有(you)(you)害的(de)(de)任務(wu)。個(ge)性(xing)化(hua)的(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)可(ke)(ke)以幫助個(ge)人做出(chu)各種艱難的(de)(de)決定,例如(ru)選(xuan)擇購買(mai)何種保險或(huo)(huo)選(xuan)擇就讀哪所(suo)(suo)學校(Van Loo, 2019; Sunstein, 2024; Lazar 等(deng)(deng)(deng)(deng)(deng), 2024)。智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)體(ti)(ti)(ti)在經(jing)濟中的(de)(de)部署可(ke)(ke)能(neng)(neng)(neng)會(hui)(hui)帶來生產(chan)力增(zeng)長(Korinek & Suh, 2024)。然而,諸如(ru)缺乏(fa)可(ke)(ke)靠(kao)(kao)性(xing)、無法(fa)(fa)維持有(you)(you)效的(de)(de)監(jian)督或(huo)(huo)缺乏(fa)追(zhui)責(ze)機(ji)(ji)制等(deng)(deng)(deng)(deng)(deng)障(zhang)(zhang)礙(ai),可(ke)(ke)能(neng)(neng)(neng)會(hui)(hui)阻(zu)礙(ai)其有(you)(you)益(yi)的(de)(de)采用。另一(yi)方(fang)(fang)面,這(zhe)些(xie)障(zhang)(zhang)礙(ai)對(dui)于有(you)(you)惡意動機(ji)(ji)的(de)(de)行(xing)為者來說可(ke)(ke)能(neng)(neng)(neng)并不關鍵。潛(qian)在問題包括詐騙(pian)(Fang 等(deng)(deng)(deng)(deng)(deng), 2024b; Chen & Magramo, 2024)和大規模(mo)破(po)壞(huai)數(shu)字服務(wu)(Fang 等(deng)(deng)(deng)(deng)(deng), 2024a; Bhatt 等(deng)(deng)(deng)(deng)(deng), 2023; 美國司法(fa)(fa)部, 2024)。
為(wei)了(le)促進有(you)(you)益(yi)(yi)任(ren)(ren)務并減輕有(you)(you)害(hai)任(ren)(ren)務,許多AI研究集中(zhong)于系(xi)統(tong)級干(gan)(gan)預,這(zhe)些(xie)干(gan)(gan)預作(zuo)(zuo)用于AI系(xi)統(tong)本身,以(yi)塑(su)造其(qi)行(xing)為(wei)。主(zhu)要的(de)(de)研究方(fang)(fang)向包括(kuo)目(mu)標指定與(yu)跟隨(sui)(Hadfield-Menell 等(deng)(deng)(deng), 2016; Christiano 等(deng)(deng)(deng), 2017; Leike 等(deng)(deng)(deng), 2018; Bai 等(deng)(deng)(deng), 2022; Hua 等(deng)(deng)(deng), 2024; Wang 等(deng)(deng)(deng), 2024a;b; Kirk 等(deng)(deng)(deng), 2024; Huang 等(deng)(deng)(deng), 2024; OpenAI, 2024)、對(dui)抗性(xing)(xing)魯棒(bang)性(xing)(xing)(Greshake 等(deng)(deng)(deng), 2023; Tamirisa 等(deng)(deng)(deng), 2024; Zou 等(deng)(deng)(deng), 2024; Anil 等(deng)(deng)(deng), 2024; Wallace 等(deng)(deng)(deng), 2024)和合作(zuo)(zuo)(Lerer & Peysakhovich, 2019; Hu 等(deng)(deng)(deng), 2020; Leibo 等(deng)(deng)(deng), 2021; Dafoe 等(deng)(deng)(deng), 2021)。如(ru)果采(cai)納這(zhe)些(xie)系(xi)統(tong)級干(gan)(gan)預(Askell 等(deng)(deng)(deng), 2019),它們(men)可(ke)(ke)以(yi)幫(bang)助(zhu)提高智能(neng)(neng)體(ti)的(de)(de)可(ke)(ke)靠性(xing)(xing),但可(ke)(ke)能(neng)(neng)不(bu)足以(yi)促進其(qi)有(you)(you)益(yi)(yi)采(cai)用或(huo)減輕風險(xian)。例如(ru),實現對(dui)抗性(xing)(xing)魯棒(bang)性(xing)(xing)的(de)(de)困難可(ke)(ke)能(neng)(neng)意味著公司在(zai)采(cai)納智能(neng)(neng)體(ti)來完成具有(you)(you)經(jing)濟價值的(de)(de)任(ren)(ren)務時,需要更多的(de)(de)保證。特別地,潛在(zai)的(de)(de)保證機制包括(kuo)智能(neng)(neng)體(ti)認證、保險(xian)或(huo)身份解決方(fang)(fang)案,它們(men)可(ke)(ke)以(yi)在(zai)不(bu)同(tong)方(fang)(fang)之(zhi)間(jian)建立(li)信任(ren)(ren)。此類(lei)工具塑(su)造了(le)智能(neng)(neng)體(ti)與(yu)機構(例如(ru)法律和經(jing)濟系(xi)統(tong))及其(qi)他行(xing)為(wei)者(例如(ru)網頁服(fu)務提供商(shang)、人工智能(neng)(neng)智能(neng)(neng)體(ti)等(deng)(deng)(deng))之(zhi)間(jian)的(de)(de)交互。
鑒于(yu)系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)級干預的(de)(de)(de)不足,我(wo)們提出(chu)了智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)的(de)(de)(de)概念:外部技術系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)和(he)共(gong)享(xiang)協議(yi)(yi),旨在調解(jie)并影響(xiang)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)與其(qi)(qi)環(huan)境之(zhi)(zhi)間的(de)(de)(de)交(jiao)(jiao)互及(ji)其(qi)(qi)影響(xiang)。這(zhe)些系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)和(he)協議(yi)(yi)可以是新穎的(de)(de)(de),也(ye)可以是現(xian)有系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)和(he)協議(yi)(yi)的(de)(de)(de)擴展。智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)的(de)(de)(de)例子包(bao)括智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)之(zhi)(zhi)間的(de)(de)(de)通信協議(yi)(yi)(Marro 等, 2024)、智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)的(de)(de)(de)ID(Chan 等, 2024b)、智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)屬性或(huo)行(xing)為(wei)(wei)的(de)(de)(de)認證系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong),以及(ji)回滾智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)行(xing)為(wei)(wei)的(de)(de)(de)方法(Patil 等, 2024)。我(wo)們在表1中(zhong)列出(chu)了更(geng)多(duo)的(de)(de)(de)例子。我(wo)們的(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)概念并不涉及(ji)使智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)能(neng)夠(gou)基(ji)(ji)(ji)(ji)(ji)本操(cao)作的(de)(de)(de)技術系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)(例如內存系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)、云計算),盡管它通常會(hui)基(ji)(ji)(ji)(ji)(ji)于(yu)或(huo)修改這(zhe)些系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)。此(ci)外,雖然我(wo)們的(de)(de)(de)討(tao)論(lun)將以基(ji)(ji)(ji)(ji)(ji)于(yu)語(yu)言模型的(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)為(wei)(wei)基(ji)(ji)(ji)(ji)(ji)礎(chu),但智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)的(de)(de)(de)核心思(si)想大多(duo)不依(yi)賴于(yu)架構,并且擴展了現(xian)有的(de)(de)(de)計算科學(xue)、經(jing)濟學(xue)和(he)社會(hui)科學(xue)的(de)(de)(de)研究(Wooldridge, 2009; Perrier, 2025)。 為(wei)(wei)了進(jin)一步理解(jie)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)與系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)級干預之(zhi)(zhi)間的(de)(de)(de)區別,可以將交(jiao)(jiao)通安(an)全作為(wei)(wei)類(lei)比。如果(guo)我(wo)們將人類(lei)駕駛(shi)(shi)員(yuan)類(lei)比為(wei)(wei)AI智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti),系(xi)(xi)(xi)(xi)統(tong)(tong)(tong)(tong)級干預包(bao)括駕駛(shi)(shi)員(yuan)培訓計劃。基(ji)(ji)(ji)(ji)(ji)礎(chu)設(she)施(shi)則包(bao)括交(jiao)(jiao)通信號(hao)燈、環(huan)形交(jiao)(jiao)叉(cha)路口、應(ying)急車道和(he)攝像頭監控的(de)(de)(de)限速。我(wo)們在表2中(zhong)提供了更(geng)多(duo)的(de)(de)(de)比較。
就像互(hu)聯網依賴于TCP(Eddy, 2022)、HTTPS(Fielding 等(deng), 2022)和(he)BGP(Rekhter 等(deng), 2006)等(deng)基(ji)礎設(she)施(shi)(shi)一樣(yang)(yang),我們(men)認(ren)為(wei)(wei)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)基(ji)礎設(she)施(shi)(shi)可(ke)(ke)(ke)能(neng)(neng)(neng)(neng)(neng)對(dui)(dui)于解鎖智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)好處并管理(li)其(qi)風險至關重要(yao)。以(yi)(yi)解鎖好處為(wei)(wei)例,將智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)行(xing)(xing)(xing)為(wei)(wei)與(yu)用戶綁定的(de)(de)(de)(de)(de)協(xie)議可(ke)(ke)(ke)以(yi)(yi)促進問責,從而降低智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)采用的(de)(de)(de)(de)(de)障礙。類(lei)似地(di),能(neng)(neng)(neng)(neng)(neng)夠通(tong)過(guo)HTTPS進行(xing)(xing)(xing)安全的(de)(de)(de)(de)(de)金融交易使得數萬億美元的(de)(de)(de)(de)(de)電子(zi)商務市場成(cheng)為(wei)(wei)可(ke)(ke)(ke)能(neng)(neng)(neng)(neng)(neng)(Statista, 2024)。作為(wei)(wei)管理(li)風險的(de)(de)(de)(de)(de)例子(zi),智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)基(ji)礎設(she)施(shi)(shi)可(ke)(ke)(ke)以(yi)(yi)支(zhi)(zhi)持系(xi)統級(ji)干預。例如,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)認(ren)證(zheng)系(xi)統可(ke)(ke)(ke)以(yi)(yi)警告其(qi)他行(xing)(xing)(xing)為(wei)(wei)者(zhe)(例如其(qi)他智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)),不(bu)要(yao)與(yu)缺乏某些保障措施(shi)(shi)的(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)互(hu)動,就像瀏覽(lan)器標記非(fei)HTTPS網站(zhan)一樣(yang)(yang)。通(tong)過(guo)這種(zhong)方(fang)式,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)基(ji)礎設(she)施(shi)(shi)可(ke)(ke)(ke)以(yi)(yi)利用智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)交互(hu)作為(wei)(wei)杠桿點(dian)來提高安全性(xing):限制智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)交互(hu)也(ye)(ye)限制了智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)潛在負面影響。 本文(wen)識別(bie)了智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)基(ji)礎設(she)施(shi)(shi)可(ke)(ke)(ke)以(yi)(yi)發(fa)揮(hui)的(de)(de)(de)(de)(de)三項功(gong)能(neng)(neng)(neng)(neng)(neng):1)將行(xing)(xing)(xing)為(wei)(wei)、屬性(xing)和(he)其(qi)他信息歸因于特定智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)或其(qi)他行(xing)(xing)(xing)為(wei)(wei)者(zhe);2)塑造智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)互(hu)動;3)檢測并糾正智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)有害行(xing)(xing)(xing)為(wei)(wei)。我們(men)提出了可(ke)(ke)(ke)以(yi)(yi)幫助實現每(mei)個功(gong)能(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)基(ji)礎設(she)施(shi)(shi),包括用例分析、采用情況、局限性(xing)和(he)未解問題。我們(men)的(de)(de)(de)(de)(de)建(jian)議主(zhu)要(yao)針對(dui)(dui)可(ke)(ke)(ke)能(neng)(neng)(neng)(neng)(neng)希望構建(jian)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)基(ji)礎設(she)施(shi)(shi)的(de)(de)(de)(de)(de)研究(jiu)人員和(he)開發(fa)者(zhe)。這些建(jian)議對(dui)(dui)于可(ke)(ke)(ke)能(neng)(neng)(neng)(neng)(neng)希望支(zhi)(zhi)持其(qi)建(jian)設(she)的(de)(de)(de)(de)(de)政府或資助機構也(ye)(ye)可(ke)(ke)(ke)能(neng)(neng)(neng)(neng)(neng)有用。
圖結構數據廣泛存在于社交網絡、生物系統、知識圖譜和推薦系統等領域。盡管基礎模型已通過大規模預訓練和強泛化能力在自然語言處理、計算機視覺和多模態學習中取得了革命性進展,但將這些能力擴展到圖數據上——該數據具有非歐幾里得結構和復雜的關系語義——仍面臨獨特挑戰,同時也帶來了新的機遇。為此,圖基礎模型(Graph Foundation Models, GFMs)旨在為結構化數據賦予可擴展的通用智能,從而支持跨圖任務和跨領域的廣泛遷移。 本綜述系統地回顧了GFMs的發展現狀,并提出一個統一的模塊化框架,將現有多種研究工作歸納為三個核心組成部分:主干架構、預訓練策略和適配機制。我們依據GFMs的泛化范圍將其分類為通用型、任務特定型和領域特定型三大類,并在每一類別下回顧具有代表性的方法、關鍵創新與理論洞察。 除了方法論,我們還探討了GFMs的理論基礎,包括可遷移性和涌現能力,并指出當前面臨的核心挑戰,如結構對齊、異質性處理、可擴展性和評估機制。GFMs位于圖學習與通用人工智能的交匯點,有望成為在結構化數據上進行開放式推理的基礎性基礎設施。 本綜述匯總了當前的研究進展,并展望了未來的發展方向,旨在為該快速演進的研究領域提供有價值的參考與指導。相關資源可訪問://github.com/Zehong-Wang/Awesome-Foundation-Models-on-Graphs。 在機器學習領域,實現“一模型通用”(one-model-fits-all)的范式一直被視為最具雄心和變革性的目標之一。該愿景旨在構建高度可泛化的模型,能夠在無需大量任務特定架構設計或訓練的情況下,勝任多個領域的廣泛任務。歷史上,機器學習一直以針對特定數據模態和任務目標的專用模型為主導[1],通常依賴手工設計的特征[2]和依賴領域的優化策略[3]。從早期的基于規則的系統和線性分類器,到深度學習的崛起,機器學習的發展體現了在表示學習、可擴展性和任務性能方面的持續提升[4, 5]。 傳統模型如決策樹、支持向量機(SVM)和k近鄰(KNN)在低維度、結構化環境中表現良好,但在處理高維、非結構化或多模態數據時面臨挑戰。深度學習模型的出現——如用于視覺的卷積神經網絡(CNN)[6]和用于序列數據的循環神經網絡(RNN)[7, 8]——顯著提升了感知任務的表現。然而,這些模型仍需進行任務特定的微調、架構調整,并依賴大規模標注數據以實現穩健的泛化能力。 隨著遷移學習[9]和自監督學習[10]的發展,模型可以從大規模未標注數據中學習具有廣泛可遷移性的表示,標志著范式的重大轉變。這些進展為**基礎模型(foundation models)**的出現奠定了基礎,后者通過在海量數據上訓練以獲取通用知識,能夠快速適配各種下游任務。 基礎模型的核心特征包括其規模性、通用性以及跨異構數據源的預訓練能力。它們被設計為捕捉可遷移的歸納偏置,使得在極少的任務監督下也能實現強大的性能表現。擴展法則(scaling laws)[12, 13]與數(shu)據驅動(dong)的(de)(de)(de)學(xue)習范式推動(dong)了基(ji)礎(chu)模(mo)(mo)(mo)(mo)型(xing)(xing)在自(zi)(zi)然語言處理、計算機(ji)視(shi)(shi)覺(jue)、機(ji)器人等多(duo)個領域的(de)(de)(de)成功(gong)。例如,大型(xing)(xing)語言模(mo)(mo)(mo)(mo)型(xing)(xing)(LLMs)[14, 15]通(tong)過將(jiang)文本(ben)分詞處理,并將(jiang)翻譯、摘要、推理等任(ren)(ren)務(wu)建模(mo)(mo)(mo)(mo)為(wei)自(zi)(zi)回歸的(de)(de)(de)下一(yi)(yi)個token預(yu)測問題(ti)。同(tong)樣(yang)地,大型(xing)(xing)視(shi)(shi)覺(jue)模(mo)(mo)(mo)(mo)型(xing)(xing)(LVMs)[16, 17, 18]將(jiang)視(shi)(shi)覺(jue)輸入視(shi)(shi)為(wei)token序列,使用基(ji)于Transformer的(de)(de)(de)架構處理圖(tu)像問答、圖(tu)像描(miao)述或(huo)圖(tu)像生成任(ren)(ren)務(wu)。這(zhe)些模(mo)(mo)(mo)(mo)型(xing)(xing)展現(xian)出驚人的(de)(de)(de)零樣(yang)本(ben)(zero-shot)與小(xiao)樣(yang)本(ben)(few-shot)泛化(hua)能(neng)力,能(neng)夠在無需大規模(mo)(mo)(mo)(mo)微調的(de)(de)(de)情況下快速(su)適(shi)應(ying)新(xin)任(ren)(ren)務(wu)。 在這(zhe)一(yi)(yi)背景下,**圖(tu)基(ji)礎(chu)模(mo)(mo)(mo)(mo)型(xing)(xing)(Graph Foundation Models, GFMs)**的(de)(de)(de)興起(見圖(tu)1)旨在將(jiang)上(shang)述能(neng)力拓展至圖(tu)結構數(shu)據——這(zhe)一(yi)(yi)具有關系依(yi)賴(lai)、排列不變性和非歐幾(ji)里得幾(ji)何特(te)征的(de)(de)(de)關鍵但本(ben)質(zhi)上(shang)不同(tong)的(de)(de)(de)數(shu)據模(mo)(mo)(mo)(mo)態[19, 20, 21]。GFMs致力于為(wei)各種(zhong)基(ji)于圖(tu)的(de)(de)(de)應(ying)用場(chang)景提供統一(yi)(yi)、可預(yu)訓練、可適(shi)配(pei)的(de)(de)(de)解決方案,涵蓋(gai)從分子性質(zhi)預(yu)測、知識圖(tu)譜推理到社(she)交網絡(luo)分析和推薦系統等任(ren)(ren)務(wu)。
例如,OFA[22]在包含文本屬性的八個圖(TAGs)上運行,這些圖涵蓋引文網絡、Wikipedia網絡、知識圖譜和分子圖等,每個節點都附帶文本描述。通過共享的文本編碼器,OFA將節點描述映射至統一的嵌入空間,實現跨圖節點特征的對齊。為了彌合預訓練與下游任務之間的鴻溝,它引入了提示圖機制(prompt graph mechanism)以增強任務適配能力。類似地,GFT[23]通過將圖數據建模為計算樹來識別可遷移模式,借助樹結構重建任務對齊跨圖的節點表示,從而捕捉跨領域的泛化能力。GFT的一項關鍵創新是構建可遷移的樹結構詞表,編碼在不同圖域中共享的結構模式。 除了這些通用模型,還存在許多為特定任務(如節點分類[24, 25]、異常檢測[26]、推薦系統[27])或特定領域(如知識圖譜[28, 29]、分子圖[30, 31]、計算圖[32, 33])而設計的GFMs。 已有綜述。 盡管GFMs研究迅速發展,且受到了越來越多的關注,但當前文獻中仍缺乏一部全面、系統的綜述,以覆蓋該新興領域的廣度與深度。現有綜述通常聚焦于GFMs的某一方面,提供的是零散視角,尚未全面揭示其基礎技術、設計挑戰與研究方向。例如,Liu等[34]基于主干架構將GFMs分類為基于GNN、基于LLM和GNN+LLM混合模型,但其討論局限于方法層面,未涉及應用與理論理解。Zhao等[35]則圍繞預訓練目標進行分析,盡管提出了有價值的學習范式觀點,但未涵蓋系統設計與理論深度。Mao等[36]從轉移性視角出發,聚焦于泛化能力的理論解釋,但未對方法創新與實證研究進行系統整理。Wang等[37]也強調可遷移性與涌現能力,但未能涵蓋GFMs的完整架構、算法和應用維度。另有如Zhao等[38]關注跨領域圖學習,這雖是GFMs設計的一個重要維度,卻難以涵蓋跨任務泛化與結構對齊等核心問題。其他如Wu等[39]探討GFMs在推薦系統中的應用,而近期綜述[40, 41, 42, 43]聚焦于GNN與LLM的集成,更多地視為一個子領域而非整體GFMs框架的一部分。 我們的立場。 本綜述旨在填補上述空白,系統化地回顧圖基礎模型的發展。我們首先介紹GFMs的歷史演進與基本挑戰,隨后提出一個統一的模塊化框架,將GFMs分解為三大核心組件:主干架構、預訓練策略與適配機制。我們引入一個系統的分類體系,將GFMs劃分為通用型、領域特定型與任務特定型,并在每一類中進行詳盡的文獻回顧,涵蓋其設計理念與代表性模型。 此外,我們還分析GFMs的理論基礎(如擴展法則、可遷移性理論與涌現能力),并整理相關基準資源與當前局限。最后,我們總結該領域的關鍵開放問題與未來研究方向,以指導后續研究。 我們的主要貢獻如下: * GFMs設計挑戰(第3節):我們將構建圖基礎模型所面臨的核心挑戰歸納為三個維度:特征異質性、結構異質性與任務異質性,突出圖結構數據在大規模學習中的復雜性。 * 統一框架(第4節):提出一個統一的模塊化框架,將GFMs拆解為主干架構、預訓練策略與適配機制三個關鍵組成部分,為理解不同設計方案提供系統化視角,并支持方法的可組合性。 * 分類體系與全面綜述(第5、6、7節):提出基于泛化能力范圍的三分類體系:通用GFMs、領域特定GFMs與任務特定GFMs,并在每類下展開系統文獻綜述,介紹其設計理念與代表性模型。 * 理論基礎(第8節):探討GFMs的理論支撐,包括擴展法則、可遷移性理論,以及關于圖預訓練泛化能力的新興理解,為其實證成功提供理論基礎。 * 資源與GitHub倉庫(第9節):為促進可復現性和研究加速,我們整理并發布了一個資源庫,涵蓋基準數據集、開源實現、預訓練模型以及動態更新的GitHub項目: * 開放問題(第10節):總結GFMs發展中(zhong)尚待解決的(de)(de)關鍵問題,包括:異構(gou)圖對齊的(de)(de)有效機制(zhi)、可擴展與高效的(de)(de)適配方(fang)法、魯棒的(de)(de)評估(gu)協議以及(ji)更深入(ru)的(de)(de)理論理解,這(zhe)些問題為下一代通用(yong)圖學習系統的(de)(de)發展指明(ming)方(fang)向。
圖基礎模型未來發展方向概述。 盡管GFMs取得了初步進展,其整體仍處于早期階段,面臨諸多挑戰,如可擴展性、數據可用性、評估標準、模型利用以及理論理解等方面。首先,與已建立擴展法則的LLMs和VLMs不同,GFMs需開發更具擴展性的架構、高層次的生成目標及統一的學習實例以實現性能躍遷。其次,圖數據的稀缺性亟需通過自動化采集、高保真合成生成和質量導向的數據集構建策略加以解決。第三,GFMs的評估需要反映真實世界任務的基準,以及能全面衡量泛化性、魯棒性與可信度的指標。第四,GFMs的高效利用有賴于優化適配機制(如零樣本學習與提示式學習)、拓展傳統圖任務之外的高影響應用場景,并融合多模態知識表示。最后,理論基礎仍待深化,關鍵問題包括轉移性的極限、跨域模式沖突的解決方案、分布偏移下的魯棒性保障,以及泛化能力的理論保證。解決這些問題對于GFMs在多領域充分發揮潛力具有決定性意義。更多討論詳見第10節。
基礎模型(Foundation Models)最早于 2021 年提出,是指大規模的預訓練模型(如大語言模型(LLMs)和視覺-語言模型(VLMs))。這些模型通過無監督方法從海量的未標注數據中學習,使其在多種下游任務中表現卓越。例如,GPT 等基礎模型可以適應各種應用場景,如問答系統和視覺理解,相較于傳統的任務專用 AI 模型具有更強的泛化能力,因此得名“基礎模型”,體現了其在多個領域的廣泛適用性。 生物醫學基礎模型的出現標志著人工智能(AI)在(zai)解析復(fu)雜生(sheng)物(wu)現(xian)(xian)象、推進醫學研(yan)究(jiu)與臨床(chuang)(chuang)實踐(jian)方面(mian)邁出了重要一步。本綜述探討了基礎模(mo)型(xing)(xing)在(zai)生(sheng)物(wu)醫學領域的多種應用(yong),包(bao)括(kuo)計算生(sheng)物(wu)學、藥(yao)物(wu)發現(xian)(xian)與開發、臨床(chuang)(chuang)信息學、醫學影(ying)像(xiang)以及公(gong)共健康等方向。本文的目標(biao)是激發研(yan)究(jiu)人員進一步探索(suo)基礎模(mo)型(xing)(xing)在(zai)健康科學中的應用(yong)潛力,推動該(gai)領域的持(chi)續(xu)發展。
“基礎模型”(Foundation Model)這一術語最早于 2021 年提出 [1],通常指大語言模型(LLMs)和視覺-語言模型(VLMs)。這(zhe)些模(mo)(mo)型(xing)基(ji)(ji)于(yu)(yu)大規模(mo)(mo)數(shu)據(ju)集進行預訓(xun)練(lian),通常(chang)采(cai)用(yong)(yong)無(wu)(wu)監督學習方(fang)法(fa),使其能夠勝任(ren)(ren)多(duo)種下(xia)游任(ren)(ren)務(wu)。通過從海(hai)量未標(biao)注數(shu)據(ju)中學習,基(ji)(ji)礎(chu)模(mo)(mo)型(xing)具備了強大的(de)(de)能力,可將(jiang)輸入映射到潛(qian)在嵌入空間,從而(er)能夠無(wu)(wu)縫適(shi)配各種任(ren)(ren)務(wu),并持續優于(yu)(yu)傳統的(de)(de)任(ren)(ren)務(wu)專用(yong)(yong) AI 模(mo)(mo)型(xing) [2,3]。例如,GPT [4] 經過大規模(mo)(mo)語言與(yu)(yu)視覺數(shu)據(ju)的(de)(de)預訓(xun)練(lian),在問答(da)系統、信息檢索(suo)和(he)視覺理解等任(ren)(ren)務(wu)中均表(biao)現出色。由于(yu)(yu)其變革性的(de)(de)潛(qian)力和(he)廣泛(fan)的(de)(de)適(shi)用(yong)(yong)性,這(zhe)些模(mo)(mo)型(xing)被(bei)統稱為“基(ji)(ji)礎(chu)模(mo)(mo)型(xing)”。 基(ji)(ji)礎(chu)模(mo)(mo)型(xing)的(de)(de)興起與(yu)(yu)發展可歸因于(yu)(yu)以(yi)下(xia)幾(ji)個(ge)關(guan)鍵因素:
在(zai)(zai)自然語言和(he)圖像處理領域,基(ji)礎(chu)模(mo)型(如 GPT 和(he) Claude)的(de)成(cheng)功(gong),使得其在(zai)(zai)醫療健康領域的(de)應(ying)用(yong)成(cheng)為了直觀(guan)的(de)延展方向。基(ji)礎(chu)模(mo)型在(zai)(zai)醫療健康中的(de)應(ying)用(yong)涵蓋多(duo)個子領域:
因此,生物醫學基礎模型正在不斷拓展應用邊界,為臨床醫生、研究人員和患者提供更強的支持。 本綜述旨在回顧現有生物醫學基礎模型的研究進展,概述其發展歷程,總結當前面臨的挑戰,并探討潛在的研究方向,以為健康科學領域的研究人員提供理論基礎。具體而言,本文將重點討論基礎模型在計算生物學、藥物發現與開發、臨床信息學、醫學影像和公共健康等多個生物醫學領域的應用(見圖 1)。
**
分(fen)子生(sheng)物學(xue)(xue)的(de)(de)中(zhong)心法(fa)則(central dogma)提供(gong)了(le)一個基(ji)礎框架,描述了(le)遺(yi)傳(chuan)(chuan)信息(xi)在(zai)生(sheng)物體內的(de)(de)流動過程(cheng)(cheng) [9](圖(tu) 2)。基(ji)因組信息(xi)以 DNA 形式編碼(ma),并轉錄(transcription)為 RNA,隨(sui)后翻譯(translation)為蛋白(bai)(bai)質。這個過程(cheng)(cheng)將 DNA 的(de)(de)四種核苷酸代(dai)碼(ma)轉換為由(you) 20 種氨基(ji)酸組成的(de)(de)蛋白(bai)(bai)質代(dai)碼(ma),而蛋白(bai)(bai)質最終折疊成三(san)維(wei)結(jie)構,以執行各種細(xi)胞(bao)功(gong)(gong)能(neng)。理解(jie)中(zhong)心法(fa)則對于推進(jin)遺(yi)傳(chuan)(chuan)學(xue)(xue)、醫學(xue)(xue)、生(sheng)物技術(shu)和進(jin)化生(sheng)物學(xue)(xue)的(de)(de)發(fa)展至關重要,同(tong)時也是基(ji)因工程(cheng)(cheng)、基(ji)因治(zhi)療(liao)和藥物開發(fa)等創新領(ling)域的(de)(de)基(ji)石。因此,諸如三(san)維(wei)染色質遺(yi)傳(chuan)(chuan)信息(xi)、RNA 介導的(de)(de)基(ji)因表達(da)譜,以及支撐細(xi)胞(bao)功(gong)(gong)能(neng)的(de)(de)蛋白(bai)(bai)質結(jie)構等主題,構成了(le)計(ji)算生(sheng)物學(xue)(xue)的(de)(de)核心內容。本節探討基(ji)礎模型(xing)(foundation models)在(zai)這些領(ling)域的(de)(de)應用(yong),包(bao)括基(ji)因組信息(xi)、基(ji)于 RNA 的(de)(de)基(ji)因表達(da)譜分(fen)析(xi),以及蛋白(bai)(bai)質結(jie)構與功(gong)(gong)能(neng)的(de)(de)研究(jiu)。
盡管編(bian)碼(ma)(ma)蛋白質(zhi)合(he)成(cheng)的(de)(de)遺傳密碼(ma)(ma)是通用的(de)(de),但調(diao)(diao)控(kong)(kong)(kong)基(ji)(ji)因(yin)表達時間(jian)和(he)方式的(de)(de)調(diao)(diao)控(kong)(kong)(kong)代碼(ma)(ma)在不同(tong)細胞類(lei)型和(he)生物體之(zhi)間(jian)存在差異 [10]。這種調(diao)(diao)控(kong)(kong)(kong)代碼(ma)(ma)主要(yao)存在于(yu)(yu)非(fei)(fei)編(bian)碼(ma)(ma) DNA 區域,后者約占整個(ge)基(ji)(ji)因(yin)組(zu)的(de)(de) 98%,其中(zhong)包含(han)關鍵的(de)(de)功(gong)能(neng)元件(jian),如增(zeng)強(qiang)子(zi)(enhancers)、啟(qi)動子(zi)(promoters)和(he)絕緣子(zi)(insulators)。這些元件(jian)在調(diao)(diao)控(kong)(kong)(kong)基(ji)(ji)因(yin)表達和(he)抑制(zhi)過程中(zhong)發(fa)揮(hui)重(zhong)要(yao)作用,因(yin)此研(yan)究(jiu)(jiu)非(fei)(fei)編(bian)碼(ma)(ma) DNA 對(dui)(dui)于(yu)(yu)理解(jie)基(ji)(ji)因(yin)調(diao)(diao)控(kong)(kong)(kong)、個(ge)體發(fa)育、疾病機理和(he)進化(hua)過程至(zhi)關重(zhong)要(yao)。 鑒于(yu)(yu) DNA 的(de)(de)巨大(da)潛力(li)和(he)影(ying)響,研(yan)究(jiu)(jiu)者們開(kai)發(fa)了(le)基(ji)(ji)礎模型來增(zeng)強(qiang)我們對(dui)(dui) DNA 語言的(de)(de)理解(jie)。例如,BigBird [11] 率先在 DNA 序(xu)列(lie)(lie)編(bian)碼(ma)(ma)方面(mian)提出(chu)了(le)一種基(ji)(ji)于(yu)(yu) Transformers 的(de)(de)方法,能(neng)夠處(chu)理更長的(de)(de)序(xu)列(lie)(lie)。在此基(ji)(ji)礎上,一系列(lie)(lie) DNA 語言模型相繼問世,并在多個(ge)下游(you)任(ren)務(如 RNA 表達預測、增(zeng)強(qiang)子(zi)活(huo)性預測等(deng))中(zhong)展現了(le)強(qiang)大(da)的(de)(de)能(neng)力(li)。其他相關研(yan)究(jiu)(jiu)列(lie)(lie)于(yu)(yu)表 1。為了(le)公平比(bi)較不同(tong)的(de)(de)模型,GenBench [12] 提出(chu)了(le)一個(ge)全(quan)面(mian)的(de)(de)基(ji)(ji)準測試套(tao)件(jian),以評估(gu)不同(tong)的(de)(de)基(ji)(ji)因(yin)組(zu)基(ji)(ji)礎模型。 除了(le) 1D DNA 序(xu)列(lie)(lie)研(yan)究(jiu)(jiu)外(wai),HiCFoundation [13] 最近被提出(chu)用于(yu)(yu)研(yan)究(jiu)(jiu) 3D DNA 及(ji)其功(gong)能(neng)意義。結(jie)合(he)這些基(ji)(ji)礎模型的(de)(de)研(yan)究(jiu)(jiu),有助于(yu)(yu)深(shen)入理解(jie)基(ji)(ji)因(yin)組(zu)序(xu)列(lie)(lie)與結(jie)構對(dui)(dui)基(ji)(ji)因(yin)調(diao)(diao)控(kong)(kong)(kong)和(he)表達的(de)(de)影(ying)響。
基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)譜 [14] 是(shi)研(yan)(yan)究基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)動態活(huo)動的(de)重要工具,能(neng)夠直(zhi)接反映基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)活(huo)性。通過(guo)對(dui)不同(tong)(tong)樣本或條件下 RNA 分(fen)子的(de)豐(feng)度進(jin)行定量和比(bi)較,基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)譜分(fen)析可以識別哪(na)些(xie)基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)被激(ji)活(huo)或抑制、哪(na)些(xie)基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)具有(you)差(cha)異(yi)(yi)表(biao)達(da)(da),或者哪(na)些(xie)基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)參(can)與特定的(de)生物過(guo)程。 傳統的(de)整體(ti)(ti) RNA 測序(xu)(bulk RNA-seq)提供的(de)是(shi)樣本的(de)平均基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)水(shui)平,但這可能(neng)掩蓋細(xi)(xi)胞(bao)異(yi)(yi)質性,導致關鍵信息的(de)丟失(shi)。相(xiang)比(bi)之下,單(dan)(dan)細(xi)(xi)胞(bao) RNA 測序(xu)(scRNA-seq)能(neng)夠在(zai)單(dan)(dan)細(xi)(xi)胞(bao)水(shui)平上解析基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)模(mo)式,為研(yan)(yan)究細(xi)(xi)胞(bao)多(duo)樣性和變異(yi)(yi)性提供了(le)更細(xi)(xi)粒度的(de)信息。SCimilarity [15] 是(shi)單(dan)(dan)細(xi)(xi)胞(bao)基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)分(fen)析領域最具代表(biao)性的(de)基(ji)礎(chu)模(mo)型之一,能(neng)夠在(zai)不同(tong)(tong)單(dan)(dan)細(xi)(xi)胞(bao) RNA 測序(xu)數據集中比(bi)較轉(zhuan)錄(lu)相(xiang)似的(de)細(xi)(xi)胞(bao)。其他相(xiang)關基(ji)礎(chu)模(mo)型列于表(biao) 2。這些(xie)模(mo)型所生成(cheng)的(de)基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)和細(xi)(xi)胞(bao)嵌入(embeddings)極大(da)地促進(jin)了(le)我們對(dui)不同(tong)(tong)細(xi)(xi)胞(bao)類型基(ji)因(yin)(yin)(yin)(yin)(yin)(yin)表(biao)達(da)(da)動態的(de)理解,并(bing)在(zai)揭示(shi)個(ge)體(ti)(ti)發育、疾病機制和治療反應的(de)分(fen)子基(ji)礎(chu)方面展現出巨大(da)潛力。
預測蛋白質的三維結構和功能在解析生物學過程方面發揮著關鍵作用 [16]。蛋白質的三維結構決定了其具體功能,例如催化化學反應、傳遞信號等。準確的結構預測能夠揭示疾病的分子基礎,并進一步指導藥物發現。近年來,計算方法為填補蛋白質結構知識的空白、揭示分子層面的生命復雜性提供了一種高效且可擴展的方式。 AlphaFold2 [17] 作為高精度蛋白質結構預測的大規模模型,已在結構生物學領域引發革命。它能夠以接近實驗水平的準確度預測蛋白質結構,大幅加速了人們對蛋白質功能和相互作用的研究。在蛋白質結構預測取得突破的基礎上,蛋白質設計(protein design)也迅速發展為一個互補學科,研究人員可以通過計算方法創造或改造具有特定功能或性質的蛋白質。蛋白質設計使得新型酶、治療性分子和藥物的開發成為可能,為醫學、生物技術和合成生物學提供了新的解決方案,從而推動疾病治療和可持續工業流程的發展。 最近的研究進一步推動了大規模模型和基礎模型在蛋白質結構預測與蛋白質設計方面的應用,相關進展總結于表 3。
隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322
近年來(lai),大(da)語言(yan)模(mo)(mo)型(LLMs)的(de)(de)(de)(de)(de)(de)(de)(de)(de)進展(zhan)(zhan)徹底改變了(le)(le)人(ren)工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(AI)領域(yu),使(shi)(shi)其能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)執(zhi)行(xing)復雜(za)(za)的(de)(de)(de)(de)(de)(de)(de)(de)(de)任(ren)務(wu)(wu),如(ru)(ru)創意寫(xie)作(zuo)、推理和(he)(he)決(jue)策,甚至在(zai)(zai)某些(xie)方(fang)面可與(yu)人(ren)類水(shui)平相媲美(mei) [156]。然而(er),盡管這(zhe)(zhe)些(xie)模(mo)(mo)型在(zai)(zai)個(ge)體(ti)(ti)(ti)(ti)(ti)(ti)層(ceng)面展(zhan)(zhan)現了(le)(le)卓越(yue)的(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li),它(ta)(ta)們仍(reng)存在(zai)(zai)一(yi)些(xie)固有(you)局限性(xing)(xing),例如(ru)(ru)幻(huan)覺問(wen)(wen)題 [57]、自(zi)回(hui)歸特(te)性(xing)(xing)(如(ru)(ru)無法進行(xing)慢思考 [49])以及擴(kuo)展(zhan)(zhan)規(gui)律(lv) [55, 69]。為(wei)(wei)了(le)(le)解(jie)決(jue)這(zhe)(zhe)些(xie)挑戰,智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)人(ren)工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(Agentic AI)將LLMs作(zuo)為(wei)(wei)“大(da)腦”或“協(xie)(xie)(xie)調(diao)者(zhe)”,將其與(yu)外(wai)部(bu)工(gong)具和(he)(he)議程(如(ru)(ru)規(gui)劃)相結合(he),使(shi)(shi)基(ji)于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)采取行(xing)動(dong)、解(jie)決(jue)復雜(za)(za)問(wen)(wen)題,并(bing)(bing)與(yu)外(wai)部(bu)環(huan)境進行(xing)學習和(he)(he)交互(hu) [1,2]。此外(wai),研究(jiu)人(ren)員越(yue)來(lai)越(yue)多(duo)地探索水(shui)平擴(kuo)展(zhan)(zhan)——利用多(duo)個(ge)基(ji)于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)協(xie)(xie)(xie)同(tong)工(gong)作(zuo),以實(shi)現集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)。這(zhe)(zhe)種方(fang)法與(yu)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)系(xi)統(tong)(tong)(MASs)和(he)(he)協(xie)(xie)(xie)作(zuo)AI的(de)(de)(de)(de)(de)(de)(de)(de)(de)研究(jiu)方(fang)向一(yi)致,后者(zhe)專(zhuan)注(zhu)(zhu)于(yu)使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)群體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)協(xie)(xie)(xie)調(diao)、共(gong)(gong)享(xiang)知識(shi)(shi)并(bing)(bing)共(gong)(gong)同(tong)解(jie)決(jue)問(wen)(wen)題。這(zhe)(zhe)些(xie)領域(yu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)融(rong)合(he)催(cui)生了(le)(le)基(ji)于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)MASs,它(ta)(ta)們利用多(duo)個(ge)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)來(lai)應對復雜(za)(za)的(de)(de)(de)(de)(de)(de)(de)(de)(de)多(duo)步驟(zou)挑戰 [118]。MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)靈感(gan)不僅(jin)來(lai)自(zi)技術(shu)進步,還源(yuan)于(yu)人(ren)類集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(如(ru)(ru)“心(xin)智(zhi)(zhi)(zhi)(zhi)(zhi)社(she)會(hui)” [87]、“心(xin)智(zhi)(zhi)(zhi)(zhi)(zhi)理論(lun)” [45])。人(ren)類社(she)會(hui)擅長通過(guo)(guo)團隊合(he)作(zuo)和(he)(he)專(zhuan)業(ye)化實(shi)現共(gong)(gong)同(tong)目(mu)標,從日常(chang)任(ren)務(wu)(wu)到(dao)科學發現皆是如(ru)(ru)此。類似地,MASs旨在(zai)(zai)模(mo)(mo)擬(ni)這(zhe)(zhe)些(xie)原則,使(shi)(shi)AI智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)通過(guo)(guo)結合(he)各自(zi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)優勢和(he)(he)視角進行(xing)有(you)效(xiao)協(xie)(xie)(xie)作(zuo)。基(ji)于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)MAS可以具有(you)多(duo)種不同(tong)特(te)性(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)渠道,如(ru)(ru)圖(tu)1所示。MASs在(zai)(zai)各個(ge)領域(yu)取得(de)了(le)(le)顯(xian)著成(cheng)功,通過(guo)(guo)利用專(zhuan)業(ye)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)之(zhi)間(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)和(he)(he)協(xie)(xie)(xie)調(diao),增強(qiang)了(le)(le)個(ge)體(ti)(ti)(ti)(ti)(ti)(ti)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li)。這(zhe)(zhe)些(xie)系(xi)統(tong)(tong)在(zai)(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)之(zhi)間(jian)分配任(ren)務(wu)(wu),使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)共(gong)(gong)享(xiang)知識(shi)(shi)、執(zhi)行(xing)子任(ren)務(wu)(wu),并(bing)(bing)將其努力(li)(li)與(yu)共(gong)(gong)同(tong)目(mu)標對齊。MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)潛在(zai)(zai)益處是變革性(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)。它(ta)(ta)們在(zai)(zai)知識(shi)(shi)記(ji)憶方(fang)面表現出色,使(shi)(shi)分布式智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)保(bao)留(liu)和(he)(he)共(gong)(gong)享(xiang)多(duo)樣化的(de)(de)(de)(de)(de)(de)(de)(de)(de)知識(shi)(shi)庫(ku),而(er)不會(hui)使(shi)(shi)單個(ge)系(xi)統(tong)(tong)過(guo)(guo)載 [51, 154]。它(ta)(ta)們通過(guo)(guo)將任(ren)務(wu)(wu)分配給多(duo)個(ge)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)來(lai)增強(qiang)長期規(gui)劃能(neng)(neng)(neng)(neng)(neng)力(li)(li),支持在(zai)(zai)長期交互(hu)中(zhong)(zhong)持續解(jie)決(jue)問(wen)(wen)題 [58]。此外(wai),MASs通過(guo)(guo)匯集(ji)具有(you)專(zhuan)門提示/角色的(de)(de)(de)(de)(de)(de)(de)(de)(de)多(duo)個(ge)模(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)(de)(de)專(zhuan)業(ye)知識(shi)(shi),實(shi)現了(le)(le)有(you)效(xiao)的(de)(de)(de)(de)(de)(de)(de)(de)(de)泛(fan)化,使(shi)(shi)其能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)比獨(du)立模(mo)(mo)型更有(you)效(xiao)地解(jie)決(jue)多(duo)樣化問(wen)(wen)題。最后,MASs通過(guo)(guo)同(tong)時管理由專(zhuan)業(ye)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)處理的(de)(de)(de)(de)(de)(de)(de)(de)(de)子任(ren)務(wu)(wu),提高了(le)(le)交互(hu)效(xiao)率,加速了(le)(le)復雜(za)(za)多(duo)步驟(zou)任(ren)務(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)解(jie)決(jue)。MAS致力(li)(li)于(yu)實(shi)現集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng),即多(duo)個(ge)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)綜合(he)能(neng)(neng)(neng)(neng)(neng)力(li)(li)超越(yue)其個(ge)體(ti)(ti)(ti)(ti)(ti)(ti)貢(gong)獻的(de)(de)(de)(de)(de)(de)(de)(de)(de)總和(he)(he) [24]。有(you)效(xiao)MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)個(ge)主(zhu)要關注(zhu)(zhu)點是協(xie)(xie)(xie)作(zuo)機制 [33, 74, 75, 97, 132],這(zhe)(zhe)些(xie)機制推動(dong)了(le)(le)從傳統(tong)(tong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)孤(gu)立模(mo)(mo)型向強(qiang)調(diao)交互(hu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)方(fang)法的(de)(de)(de)(de)(de)(de)(de)(de)(de)轉變,使(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)(gou)連接、協(xie)(xie)(xie)商、決(jue)策、規(gui)劃并(bing)(bing)共(gong)(gong)同(tong)行(xing)動(dong),從而(er)在(zai)(zai)集(ji)體(ti)(ti)(ti)(ti)(ti)(ti)環(huan)境中(zhong)(zhong)推動(dong)AI能(neng)(neng)(neng)(neng)(neng)力(li)(li)的(de)(de)(de)(de)(de)(de)(de)(de)(de)提升(sheng)。深入了(le)(le)解(jie)協(xie)(xie)(xie)作(zuo)機制在(zai)(zai)MASs中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)運作(zuo)方(fang)式,對于(yu)釋(shi)放其全部(bu)潛力(li)(li)至關重要。
由于(yu)(yu)(yu)(yu)(yu)(yu)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)系(xi)(xi)統(tong)的(de)(de)(de)(de)重(zhong)要(yao)性(xing)和(he)(he)迫(po)切需(xu)求(qiu),已有(you)一(yi)(yi)些關(guan)于(yu)(yu)(yu)(yu)(yu)(yu)該主(zhu)題的(de)(de)(de)(de)綜(zong)述。然(ran)(ran)而(er),這(zhe)些工(gong)(gong)作(zuo)(zuo)(zuo)往往未(wei)能(neng)(neng)(neng)(neng)(neng)全面(mian)(mian)探討(tao)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)MASs的(de)(de)(de)(de)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)方面(mian)(mian)和(he)(he)機制(zhi)(zhi),而(er)這(zhe)些對(dui)(dui)(dui)(dui)(dui)于(yu)(yu)(yu)(yu)(yu)(yu)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體能(neng)(neng)(neng)(neng)(neng)夠有(you)效(xiao)(xiao)實(shi)現共同目(mu)標(biao)至(zhi)關(guan)重(zhong)要(yao),如(ru)(ru)(ru)(ru)表1所總結。例(li)如(ru)(ru)(ru)(ru),[47, 107, 136] 主(zhu)要(yao)關(guan)注(zhu)單智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體系(xi)(xi)統(tong),僅淺(qian)顯地涉(she)(she)(she)及(ji)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)。[136] 提出了(le)(le)(le)一(yi)(yi)個基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體框(kuang)架(jia),包括三個組件:大(da)腦、感知和(he)(he)行動。他們(men)(men)的(de)(de)(de)(de)工(gong)(gong)作(zuo)(zuo)(zuo)強調了(le)(le)(le)將(jiang)LLMs作(zuo)(zuo)(zuo)為智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體的(de)(de)(de)(de)“大(da)腦”,利用(yong)(yong)(yong)輸入模態集(ji)成(cheng)(cheng)(cheng)、提示、檢(jian)索(suo)和(he)(he)工(gong)(gong)具(ju)(ju)使(shi)(shi)(shi)用(yong)(yong)(yong)等(deng)技(ji)術(shu)。然(ran)(ran)而(er),他們(men)(men)對(dui)(dui)(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)討(tao)論僅限于(yu)(yu)(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體行為和(he)(he)個性(xing),缺(que)乏對(dui)(dui)(dui)(dui)(dui)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)同工(gong)(gong)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)機制(zhi)(zhi)的(de)(de)(de)(de)深入探討(tao)。[47] 調查了(le)(le)(le)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)MASs成(cheng)(cheng)(cheng)功應(ying)(ying)用(yong)(yong)(yong)的(de)(de)(de)(de)領(ling)(ling)域和(he)(he)場景,分析了(le)(le)(le)這(zhe)些系(xi)(xi)統(tong)的(de)(de)(de)(de)通信(xin)結構(gou)(分層(ceng)、去(qu)中(zhong)(zhong)(zhong)(zhong)心化、集(ji)中(zhong)(zhong)(zhong)(zhong)式和(he)(he)共享消息池(chi)),但未(wei)涉(she)(she)(she)及(ji)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)其(qi)他特(te)征(zheng),如(ru)(ru)(ru)(ru)類(lei)型、策(ce)(ce)略(lve)或協(xie)(xie)(xie)(xie)調架(jia)構(gou)。其(qi)他工(gong)(gong)作(zuo)(zuo)(zuo),如(ru)(ru)(ru)(ru)[82],專(zhuan)注(zhu)于(yu)(yu)(yu)(yu)(yu)(yu)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)策(ce)(ce)略(lve),將(jiang)其(qi)分類(lei)為合(he)(he)并(bing)、集(ji)成(cheng)(cheng)(cheng)和(he)(he)合(he)(he)作(zuo)(zuo)(zuo)。盡管(guan)他們(men)(men)的(de)(de)(de)(de)綜(zong)述討(tao)論了(le)(le)(le)這(zhe)些策(ce)(ce)略(lve)如(ru)(ru)(ru)(ru)何(he)應(ying)(ying)用(yong)(yong)(yong)于(yu)(yu)(yu)(yu)(yu)(yu)LLMs,并(bing)將(jiang)合(he)(he)作(zuo)(zuo)(zuo)擴展(zhan)到傳統(tong)融合(he)(he)技(ji)術(shu)之(zhi)(zhi)外,但忽略(lve)了(le)(le)(le)其(qi)他關(guan)鍵的(de)(de)(de)(de)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)機制(zhi)(zhi),如(ru)(ru)(ru)(ru)競(jing)爭和(he)(he)競(jing)合(he)(he),以(yi)及(ji)除流行協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)類(lei)型之(zhi)(zhi)外的(de)(de)(de)(de)維度(du)。相(xiang)比之(zhi)(zhi)下,[120] 提出了(le)(le)(le)一(yi)(yi)個通過MASs增(zeng)強LLM能(neng)(neng)(neng)(neng)(neng)力的(de)(de)(de)(de)通用(yong)(yong)(yong)框(kuang)架(jia),展(zhan)示了(le)(le)(le)Auto-GPT等(deng)工(gong)(gong)具(ju)(ju)如(ru)(ru)(ru)(ru)何(he)與其(qi)框(kuang)架(jia)對(dui)(dui)(dui)(dui)(dui)齊(qi)。然(ran)(ran)而(er),協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)機制(zhi)(zhi)仍停留在(zai)(zai)(zai)概念(nian)層(ceng)面(mian)(mian),缺(que)乏詳細的(de)(de)(de)(de)實(shi)現和(he)(he)特(te)征(zheng)描述。[50] 的(de)(de)(de)(de)重(zhong)點是(shi)配置LLMs以(yi)利用(yong)(yong)(yong)多(duo)樣化的(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力和(he)(he)角(jiao)(jiao)色(se)(se),例(li)如(ru)(ru)(ru)(ru)集(ji)成(cheng)(cheng)(cheng)記憶和(he)(he)信(xin)息檢(jian)索(suo)組件。他們(men)(men)對(dui)(dui)(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)探索(suo)主(zhu)要(yao)集(ji)中(zhong)(zhong)(zhong)(zhong)在(zai)(zai)(zai)規(gui)劃和(he)(he)協(xie)(xie)(xie)(xie)調架(jia)構(gou)上,強調基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體角(jiao)(jiao)色(se)(se)和(he)(he)專(zhuan)業化的(de)(de)(de)(de)全局和(he)(he)局部任務規(gui)劃。與此同時,[46] 將(jiang)其(qi)研究范圍縮小到基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)MASs在(zai)(zai)(zai)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體的(de)(de)(de)(de)建模和(he)(he)模擬中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)應(ying)(ying)用(yong)(yong)(yong),討(tao)論了(le)(le)(le)環境(jing)感知、人類(lei)對(dui)(dui)(dui)(dui)(dui)齊(qi)、行動生成(cheng)(cheng)(cheng)和(he)(he)評估等(deng)挑戰。盡管(guan)對(dui)(dui)(dui)(dui)(dui)模擬特(te)定應(ying)(ying)用(yong)(yong)(yong)具(ju)(ju)有(you)啟發(fa)性(xing),但它缺(que)乏對(dui)(dui)(dui)(dui)(dui)深入協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)機制(zhi)(zhi)的(de)(de)(de)(de)更廣泛視角(jiao)(jiao)。類(lei)似地,[68] 調查了(le)(le)(le)這(zhe)些系(xi)(xi)統(tong)在(zai)(zai)(zai)數(shu)字孿生中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)應(ying)(ying)用(yong)(yong)(yong),而(er)[52, 70] 則專(zhuan)注(zhu)于(yu)(yu)(yu)(yu)(yu)(yu)軟(ruan)件工(gong)(gong)程領(ling)(ling)域。從上述總結和(he)(he)解釋(shi)中(zhong)(zhong)(zhong)(zhong)可以(yi)看(kan)出,現有(you)研究在(zai)(zai)(zai)全面(mian)(mian)探索(suo)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)MASs的(de)(de)(de)(de)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)方面(mian)(mian)和(he)(he)機制(zhi)(zhi)方面(mian)(mian)存在(zai)(zai)(zai)明(ming)顯不(bu)足,而(er)這(zhe)些對(dui)(dui)(dui)(dui)(dui)于(yu)(yu)(yu)(yu)(yu)(yu)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體能(neng)(neng)(neng)(neng)(neng)夠共同實(shi)現目(mu)標(biao)至(zhi)關(guan)重(zhong)要(yao)。本(ben)文旨在(zai)(zai)(zai)提供基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)LLM的(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體在(zai)(zai)(zai)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)系(xi)(xi)統(tong)中(zhong)(zhong)(zhong)(zhong)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)基(ji)(ji)(ji)礎的(de)(de)(de)(de)全面(mian)(mian)視角(jiao)(jiao)。以(yi)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)為核(he)心,我(wo)(wo)們(men)(men)的(de)(de)(de)(de)研究基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)參與者(涉(she)(she)(she)及(ji)的(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體)、類(lei)型(如(ru)(ru)(ru)(ru)合(he)(he)作(zuo)(zuo)(zuo)、競(jing)爭或競(jing)合(he)(he))、結構(gou)(如(ru)(ru)(ru)(ru)點對(dui)(dui)(dui)(dui)(dui)點、集(ji)中(zhong)(zhong)(zhong)(zhong)式或分布式)、策(ce)(ce)略(lve)(如(ru)(ru)(ru)(ru)基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)角(jiao)(jiao)色(se)(se)、基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)規(gui)則或基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)(yu)(yu)模型)以(yi)及(ji)協(xie)(xie)(xie)(xie)調層(ceng)對(dui)(dui)(dui)(dui)(dui)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體之(zhi)(zhi)間(jian)的(de)(de)(de)(de)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)進行了(le)(le)(le)特(te)征(zheng)化。我(wo)(wo)們(men)(men)強調了(le)(le)(le)促(cu)進有(you)效(xiao)(xiao)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)機制(zhi)(zhi)和(he)(he)關(guan)鍵技(ji)術(shu),識別了(le)(le)(le)MAS設計中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)關(guan)鍵特(te)征(zheng)和(he)(he)趨勢。通過對(dui)(dui)(dui)(dui)(dui)現有(you)方法(fa)的(de)(de)(de)(de)綜(zong)述和(he)(he)開放挑戰的(de)(de)(de)(de)識別,我(wo)(wo)們(men)(men)將(jiang)這(zhe)些發(fa)現綜(zong)合(he)(he)為一(yi)(yi)個連(lian)貫的(de)(de)(de)(de)框(kuang)架(jia)。該框(kuang)架(jia)為未(wei)來研究奠定了(le)(le)(le)基(ji)(ji)(ji)礎,推動了(le)(le)(le)LLMs在(zai)(zai)(zai)MASs中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)集(ji)成(cheng)(cheng)(cheng),并(bing)為開發(fa)更具(ju)(ju)適應(ying)(ying)性(xing)、智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)性(xing)和(he)(he)協(xie)(xie)(xie)(xie)作(zuo)(zuo)(zuo)性(xing)的(de)(de)(de)(de)AI系(xi)(xi)統(tong)鋪(pu)平了(le)(le)(le)道路,以(yi)應(ying)(ying)對(dui)(dui)(dui)(dui)(dui)復雜(za)的(de)(de)(de)(de)現實(shi)世(shi)界應(ying)(ying)用(yong)(yong)(yong)。我(wo)(wo)們(men)(men)的(de)(de)(de)(de)主(zhu)要(yao)貢(gong)獻(xian)如(ru)(ru)(ru)(ru)下:
本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。
基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。
1. 引言
多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)基(ji)礎模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(MMFMs)的(de)(de)(de)(de)(de)(de)快速發(fa)展與(yu)(yu)廣泛(fan)應(ying)用(yong)(yong)(yong)——尤(you)其(qi)是(shi)(shi)圖(tu)像(xiang)(xiang)(xiang)和(he)(he)(he)(he)(he)文(wen)本模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)的(de)(de)(de)(de)(de)(de)融合——已經推動了(le)眾多(duo)(duo)(duo)實際應(ying)用(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)實現。例(li)如(ru)(ru)(ru)(ru)(ru),文(wen)本到圖(tu)像(xiang)(xiang)(xiang)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(Rombach等(deng)(deng),2022;Ramesh等(deng)(deng),2022;Podell等(deng)(deng),2023)促進(jin)(jin)了(le)圖(tu)像(xiang)(xiang)(xiang)生(sheng)成(cheng)和(he)(he)(he)(he)(he)編(bian)輯(ji),生(sheng)成(cheng)式(shi)(shi)(shi)視(shi)(shi)覺(jue)(jue)-語言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(VLMs)(Zhu等(deng)(deng),2023;Agrawal等(deng)(deng),2024)支持視(shi)(shi)覺(jue)(jue)問(wen)答(VQA)或圖(tu)像(xiang)(xiang)(xiang)描述(shu)(shu)(shu)等(deng)(deng)任(ren)(ren)務(wu)(wu),而(er)對(dui)(dui)比(bi)(即非生(sheng)成(cheng)式(shi)(shi)(shi))VLMs,如(ru)(ru)(ru)(ru)(ru)CLIP(Radford等(deng)(deng),2021),則廣泛(fan)用(yong)(yong)(yong)于(yu)(yu)(yu)圖(tu)像(xiang)(xiang)(xiang)檢索。隨著多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)不(bu)斷進(jin)(jin)步,人(ren)們(men)對(dui)(dui)理解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)其(qi)內部機(ji)(ji)(ji)制(zhi)和(he)(he)(he)(he)(he)決(jue)策過(guo)程的(de)(de)(de)(de)(de)(de)需(xu)(xu)求(qiu)也日益增(zeng)加(jia)(Basu等(deng)(deng),2024a)。機(ji)(ji)(ji)制(zhi)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)不(bu)僅對(dui)(dui)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)行為(wei)(wei)(wei)(wei)至關(guan)(guan)(guan)(guan)(guan)重要(yao),還對(dui)(dui)啟用(yong)(yong)(yong)下(xia)(xia)(xia)(xia)游(you)應(ying)用(yong)(yong)(yong)(如(ru)(ru)(ru)(ru)(ru)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)編(bian)輯(ji)(Basu等(deng)(deng),2024a)、減少虛(xu)假相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(Balasubramanian等(deng)(deng),2024)、以(yi)及(ji)提(ti)高組合泛(fan)化(hua)能(neng)力(Zarei等(deng)(deng),2024))具有(you)重要(yao)意(yi)義。 機(ji)(ji)(ji)器學習中(zhong)的(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing),LLMs和(he)(he)(he)(he)(he)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)是(shi)(shi)一(yi)個廣泛(fan)且依賴(lai)上下(xia)(xia)(xia)(xia)文(wen)的(de)(de)(de)(de)(de)(de)概念(nian),因(yin)任(ren)(ren)務(wu)(wu)、目標和(he)(he)(he)(he)(he)利益相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)者需(xu)(xu)求(qiu)的(de)(de)(de)(de)(de)(de)不(bu)同(tong)而(er)有(you)所(suo)變化(hua)。在(zai)本綜(zong)述(shu)(shu)(shu)中(zhong),我(wo)(wo)們(men)采(cai)用(yong)(yong)(yong)Murdoch等(deng)(deng)(2019)提(ti)出的(de)(de)(de)(de)(de)(de)定義:“提(ti)取并(bing)(bing)闡明模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)所(suo)學習的(de)(de)(de)(de)(de)(de)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)知識、機(ji)(ji)(ji)制(zhi)、特(te)征和(he)(he)(he)(he)(he)關(guan)(guan)(guan)(guan)(guan)系的(de)(de)(de)(de)(de)(de)過(guo)程,無論這(zhe)些知識是(shi)(shi)編(bian)碼在(zai)其(qi)參數中(zhong)還是(shi)(shi)通過(guo)輸(shu)入(ru)(ru)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)式(shi)(shi)(shi)表現出來,從而(er)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)是(shi)(shi)如(ru)(ru)(ru)(ru)(ru)何以(yi)及(ji)為(wei)(wei)(wei)(wei)什么生(sheng)成(cheng)輸(shu)出的(de)(de)(de)(de)(de)(de)。”該定義強(qiang)(qiang)調了(le)提(ti)取和(he)(he)(he)(he)(he)理解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)知識,但(dan)“相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)知識”的(de)(de)(de)(de)(de)(de)定義取決(jue)于(yu)(yu)(yu)應(ying)用(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)背景。例(li)如(ru)(ru)(ru)(ru)(ru),在(zai)記憶編(bian)輯(ji)應(ying)用(yong)(yong)(yong)中(zhong),可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)使得(de)可(ke)(ke)以(yi)精(jing)確地修改內部表示而(er)不(bu)會干擾模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)其(qi)他功能(neng);而(er)在(zai)安全(quan)性(xing)(xing)(xing)場景中(zhong),它(ta)有(you)助于(yu)(yu)(yu)突出信號(hao)對(dui)(dui)抗性(xing)(xing)(xing)輸(shu)入(ru)(ru)的(de)(de)(de)(de)(de)(de)輸(shu)入(ru)(ru)特(te)征和(he)(he)(he)(he)(he)激(ji)活(huo)。通過(guo)這(zhe)種視(shi)(shi)角,本綜(zong)述(shu)(shu)(shu)探討了(le)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa),研究(jiu)(jiu)(jiu)它(ta)們(men)如(ru)(ru)(ru)(ru)(ru)何揭(jie)(jie)示模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)機(ji)(ji)(ji)制(zhi)、促進(jin)(jin)實際應(ying)用(yong)(yong)(yong)并(bing)(bing)揭(jie)(jie)示關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)的(de)(de)(de)(de)(de)(de)研究(jiu)(jiu)(jiu)挑(tiao)戰(zhan)。 盡管在(zai)單(dan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)大規模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)語言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(LLMs)(Meng等(deng)(deng),2022a;Marks等(deng)(deng),2024)方面,關(guan)(guan)(guan)(guan)(guan)于(yu)(yu)(yu)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)研究(jiu)(jiu)(jiu)取得(de)了(le)顯著進(jin)(jin)展,但(dan)對(dui)(dui)MMFMs的(de)(de)(de)(de)(de)(de)研究(jiu)(jiu)(jiu)仍然(ran)相(xiang)(xiang)對(dui)(dui)滯后。鑒于(yu)(yu)(yu)大多(duo)(duo)(duo)數多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)都是(shi)(shi)基(ji)于(yu)(yu)(yu)變換器(Transformer)的(de)(de)(de)(de)(de)(de),出現了(le)幾個關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)問(wen)題(ti)(ti):LLM的(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa)能(neng)否適應(ying)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)?如(ru)(ru)(ru)(ru)(ru)果(guo)能(neng),它(ta)們(men)是(shi)(shi)否能(neng)提(ti)供類似的(de)(de)(de)(de)(de)(de)見(jian)(jian)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)?多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)與(yu)(yu)單(dan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)語言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)在(zai)機(ji)(ji)(ji)制(zhi)上是(shi)(shi)否存在(zai)根本的(de)(de)(de)(de)(de)(de)差異?此外,分(fen)(fen)(fen)析跨模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)交互(hu)等(deng)(deng)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)特(te)有(you)過(guo)程時,是(shi)(shi)否需(xu)(xu)要(yao)全(quan)新(xin)的(de)(de)(de)(de)(de)(de)方法(fa)?最后,我(wo)(wo)們(men)還探討了(le)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)實際影響,提(ti)出問(wen)題(ti)(ti)——多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa)如(ru)(ru)(ru)(ru)(ru)何增(zeng)強(qiang)(qiang)下(xia)(xia)(xia)(xia)游(you)應(ying)用(yong)(yong)(yong)? 為(wei)(wei)(wei)(wei)了(le)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)答這(zhe)些問(wen)題(ti)(ti),我(wo)(wo)們(men)進(jin)(jin)行了(le)一(yi)項(xiang)全(quan)面的(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu)(shu),并(bing)(bing)引入(ru)(ru)了(le)一(yi)個三維的(de)(de)(de)(de)(de)(de)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)機(ji)(ji)(ji)制(zhi)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)分(fen)(fen)(fen)類法(fa):(1)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)家族——涵(han)蓋(gai)文(wen)本到圖(tu)像(xiang)(xiang)(xiang)擴(kuo)散模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)、生(sheng)成(cheng)式(shi)(shi)(shi)VLMs和(he)(he)(he)(he)(he)非生(sheng)成(cheng)式(shi)(shi)(shi)VLMs;(2)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)技術(shu)——區分(fen)(fen)(fen)從單(dan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)LLM研究(jiu)(jiu)(jiu)中(zhong)適應(ying)的(de)(de)(de)(de)(de)(de)技術(shu)與(yu)(yu)專(zhuan)門為(wei)(wei)(wei)(wei)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)設計的(de)(de)(de)(de)(de)(de)方法(fa);(3)應(ying)用(yong)(yong)(yong)——分(fen)(fen)(fen)類多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)機(ji)(ji)(ji)制(zhi)見(jian)(jian)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)增(zeng)強(qiang)(qiang)的(de)(de)(de)(de)(de)(de)實際任(ren)(ren)務(wu)(wu)。 我(wo)(wo)們(men)的(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu)(shu)綜(zong)合了(le)現有(you)的(de)(de)(de)(de)(de)(de)研究(jiu)(jiu)(jiu),并(bing)(bing)揭(jie)(jie)示了(le)以(yi)下(xia)(xia)(xia)(xia)見(jian)(jian)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie):(i)基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa)可(ke)(ke)以(yi)通過(guo)適度(du)調整擴(kuo)展到MMFMs,特(te)別是(shi)(shi)在(zai)將(jiang)(jiang)視(shi)(shi)覺(jue)(jue)和(he)(he)(he)(he)(he)文(wen)本輸(shu)入(ru)(ru)類似對(dui)(dui)待(dai)時。(ii)出現了(le)新(xin)的(de)(de)(de)(de)(de)(de)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)挑(tiao)戰(zhan),如(ru)(ru)(ru)(ru)(ru)如(ru)(ru)(ru)(ru)(ru)何將(jiang)(jiang)視(shi)(shi)覺(jue)(jue)嵌入(ru)(ru)轉(zhuan)化(hua)為(wei)(wei)(wei)(wei)人(ren)類可(ke)(ke)理解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)的(de)(de)(de)(de)(de)(de)形式(shi)(shi)(shi),這(zhe)需(xu)(xu)要(yao)全(quan)新(xin)的(de)(de)(de)(de)(de)(de)專(zhuan)門分(fen)(fen)(fen)析方法(fa)。(iii)盡管可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)有(you)助于(yu)(yu)(yu)下(xia)(xia)(xia)(xia)游(you)任(ren)(ren)務(wu)(wu),但(dan)在(zai)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)中(zhong),像(xiang)(xiang)(xiang)幻覺(jue)(jue)緩解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)和(he)(he)(he)(he)(he)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)編(bian)輯(ji)這(zhe)樣的(de)(de)(de)(de)(de)(de)應(ying)用(yong)(yong)(yong)相(xiang)(xiang)比(bi)語言(yan)(yan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)仍然(ran)較為(wei)(wei)(wei)(wei)欠(qian)缺。這(zhe)些發(fa)現可(ke)(ke)以(yi)為(wei)(wei)(wei)(wei)未來多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)機(ji)(ji)(ji)制(zhi)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)研究(jiu)(jiu)(jiu)提(ti)供指導。 最近,Dang等(deng)(deng)(2024)提(ti)供了(le)一(yi)個關(guan)(guan)(guan)(guan)(guan)于(yu)(yu)(yu)MMFMs的(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa)的(de)(de)(de)(de)(de)(de)廣泛(fan)概述(shu)(shu)(shu),涵(han)蓋(gai)了(le)數據、模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)架(jia)構和(he)(he)(he)(he)(he)訓練(lian)范式(shi)(shi)(shi)。另一(yi)項(xiang)并(bing)(bing)行工(gong)作(zuo)(Sun等(deng)(deng),2024)從歷史視(shi)(shi)角回(hui)顧了(le)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)方法(fa),涵(han)蓋(gai)了(le)2000年(nian)至2025年(nian)的(de)(de)(de)(de)(de)(de)研究(jiu)(jiu)(jiu)。盡管具有(you)啟發(fa)性(xing)(xing)(xing),我(wo)(wo)們(men)的(de)(de)(de)(de)(de)(de)工(gong)作(zuo)在(zai)重點(dian)和(he)(he)(he)(he)(he)范圍上有(you)所(suo)不(bu)同(tong)。具體來說,我(wo)(wo)們(men)的(de)(de)(de)(de)(de)(de)工(gong)作(zuo)考察了(le)現有(you)的(de)(de)(de)(de)(de)(de)LLM可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)(jie)釋(shi)(shi)(shi)性(xing)(xing)(xing)技術(shu)如(ru)(ru)(ru)(ru)(ru)何適應(ying)不(bu)同(tong)的(de)(de)(de)(de)(de)(de)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing),分(fen)(fen)(fen)析了(le)單(dan)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)和(he)(he)(he)(he)(he)多(duo)(duo)(duo)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)(mo)態(tai)(tai)系統在(zai)技術(shu)、應(ying)用(yong)(yong)(yong)和(he)(he)(he)(he)(he)研究(jiu)(jiu)(jiu)發(fa)現上的(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)差異。 我(wo)(wo)們(men)的(de)(de)(de)(de)(de)(de)貢獻總結如(ru)(ru)(ru)(ru)(ru)下(xia)(xia)(xia)(xia):
2. 分類法
在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節
在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。
4 多模態模型的LLM可解釋性方法
我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測
探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens
Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤
與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解
在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。
5. 專門針對多模態模型的可解釋性方法
許多(duo)(duo)近期的(de)(de)(de)研究(jiu)提出了針對多(duo)(duo)模(mo)(mo)態模(mo)(mo)型的(de)(de)(de)內部機制(zhi)(zhi)解釋分析(xi)方(fang)(fang)法。與第(di)4節中介(jie)紹的(de)(de)(de)基(ji)于LLM(大型語(yu)言模(mo)(mo)型)的(de)(de)(de)方(fang)(fang)法不同,這些方(fang)(fang)法僅為(wei)多(duo)(duo)模(mo)(mo)態基(ji)礎模(mo)(mo)型設(she)計和(he)應(ying)用(yong)。這些方(fang)(fang)法包括:用(yong)于用(yong)人類可理解的(de)(de)(de)語(yu)言注(zhu)釋嵌入或神(shen)經元的(de)(de)(de)技術(第(di)5.1節和(he)第(di)5.2節);利用(yong)跨(kua)注(zhu)意力層(ceng)等獨特的(de)(de)(de)多(duo)(duo)模(mo)(mo)態架構組件(jian)以獲得更深層(ceng)的(de)(de)(de)見(jian)解(第(di)5.3節);開發(fa)量身定(ding)制(zhi)(zhi)的(de)(de)(de)多(duo)(duo)模(mo)(mo)態模(mo)(mo)型數據(ju)歸(gui)因方(fang)(fang)法,例(li)如(ru)文本到圖像擴散(san)模(mo)(mo)型(第(di)5.4節);以及特定(ding)的(de)(de)(de)可視化方(fang)(fang)法(第(di)5.5節)。
6. 基于機制見解的多模態模型應用
在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準
在LLMs領域(yu),已有許多(duo)可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性工(gong)(gong)具涵(han)蓋了注(zhu)意(yi)力(li)分(fen)(fen)析(Nanda 和(he)(he) Bloom,2022;Fiotto-Kaufman等(deng)(deng)(deng)(deng),2024)、SEA分(fen)(fen)析(Joseph Bloom 和(he)(he) Chanin,2024)、電路(lu)發現(Conmy等(deng)(deng)(deng)(deng),2023a)、因(yin)果追蹤(Wu等(deng)(deng)(deng)(deng),2024)、向(xiang)量控制(Vogel,2024;Zou等(deng)(deng)(deng)(deng),2023)、logit鏡頭(Belrose等(deng)(deng)(deng)(deng),2023)和(he)(he)token重要(yao)(yao)性(Lundberg 和(he)(he) Lee,2017)等(deng)(deng)(deng)(deng)。然而,針對MMFMs的(de)(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性工(gong)(gong)具較(jiao)(jiao)為狹(xia)窄。Yu和(he)(he)Ananiadou(2024d);Stan等(deng)(deng)(deng)(deng)(2024)主要(yao)(yao)聚(ju)焦于生成(cheng)式VLMs中(zhong)的(de)(de)(de)(de)(de)(de)(de)注(zhu)意(yi)力(li)機(ji)制。Aflalo等(deng)(deng)(deng)(deng)(2022)提(ti)(ti)(ti)出(chu)了一(yi)(yi)(yi)種(zhong)(zhong)工(gong)(gong)具,用于可(ke)(ke)視(shi)(shi)化生成(cheng)式VLMs的(de)(de)(de)(de)(de)(de)(de)注(zhu)意(yi)力(li)和(he)(he)隱藏狀態(tai)。Joseph(2023)提(ti)(ti)(ti)出(chu)了一(yi)(yi)(yi)種(zhong)(zhong)針對視(shi)(shi)覺變換(huan)器(Vision Transformers)的(de)(de)(de)(de)(de)(de)(de)工(gong)(gong)具,主要(yao)(yao)集中(zhong)于注(zhu)意(yi)力(li)圖(tu)、激活(huo)補丁(ding)和(he)(he)logit鏡頭。此外,對于擴散模(mo)(mo)型,Lages(2022)提(ti)(ti)(ti)供(gong)(gong)(gong)了一(yi)(yi)(yi)種(zhong)(zhong)可(ke)(ke)視(shi)(shi)化生成(cheng)圖(tu)像過程中(zhong)的(de)(de)(de)(de)(de)(de)(de)內(nei)部擴散步驟(zou)的(de)(de)(de)(de)(de)(de)(de)工(gong)(gong)具。 統(tong)一(yi)(yi)(yi)的(de)(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性基(ji)(ji)(ji)(ji)準(zhun)也是(shi)一(yi)(yi)(yi)個(ge)非常重要(yao)(yao)的(de)(de)(de)(de)(de)(de)(de)研究(jiu)方向(xiang)。在LLMs中(zhong),Huang等(deng)(deng)(deng)(deng)(2024b)提(ti)(ti)(ti)出(chu)了一(yi)(yi)(yi)個(ge)基(ji)(ji)(ji)(ji)準(zhun),用于評估可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性方法在解(jie)(jie)耦LLMs表示方面的(de)(de)(de)(de)(de)(de)(de)效果。Thurnherr和(he)(he)Scheurer(2024)提(ti)(ti)(ti)出(chu)了一(yi)(yi)(yi)種(zhong)(zhong)新方法,用于生成(cheng)LLMs的(de)(de)(de)(de)(de)(de)(de)可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性測試平臺,節省了手動設(she)計實驗(yan)數據的(de)(de)(de)(de)(de)(de)(de)時間。Nauta等(deng)(deng)(deng)(deng)(2023);Schwettmann等(deng)(deng)(deng)(deng)(2024)也提(ti)(ti)(ti)供(gong)(gong)(gong)了LLMs可(ke)(ke)解(jie)(jie)釋(shi)(shi)(shi)(shi)性的(de)(de)(de)(de)(de)(de)(de)基(ji)(ji)(ji)(ji)準(zhun)。然而,目前尚未(wei)有針對多(duo)模(mo)(mo)態(tai)模(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)基(ji)(ji)(ji)(ji)準(zhun),這(zhe)是(shi)未(wei)來(lai)(lai)的(de)(de)(de)(de)(de)(de)(de)重要(yao)(yao)研究(jiu)方向(xiang)。 總體來(lai)(lai)說,與LLMs領域(yu)中(zhong)的(de)(de)(de)(de)(de)(de)(de)全面工(gong)(gong)具和(he)(he)基(ji)(ji)(ji)(ji)準(zhun)相比,多(duo)模(mo)(mo)態(tai)基(ji)(ji)(ji)(ji)礎模(mo)(mo)型的(de)(de)(de)(de)(de)(de)(de)工(gong)(gong)具和(he)(he)基(ji)(ji)(ji)(ji)準(zhun)相對較(jiao)(jiao)少。提(ti)(ti)(ti)供(gong)(gong)(gong)一(yi)(yi)(yi)個(ge)全面、統(tong)一(yi)(yi)(yi)的(de)(de)(de)(de)(de)(de)(de)評估基(ji)(ji)(ji)(ji)準(zhun)和(he)(he)工(gong)(gong)具是(shi)未(wei)來(lai)(lai)的(de)(de)(de)(de)(de)(de)(de)研究(jiu)方向(xiang)。
8. 主要開放挑戰
盡管機制可(ke)解(jie)(jie)釋(shi)性是語(yu)言模(mo)(mo)型(xing)中一個(ge)成(cheng)熟(shu)且廣泛的(de)(de)研究領(ling)域(yu),但(dan)對(dui)于(yu)多模(mo)(mo)態模(mo)(mo)型(xing)而言,它仍(reng)處于(yu)早(zao)期階段。本節總結了該領(ling)域(yu)中的(de)(de)關(guan)鍵開放(fang)(fang)挑戰,重點關(guan)注利用機制見(jian)解(jie)(jie)的(de)(de)下游應用。這些挑戰包括解(jie)(jie)釋(shi)擴(kuo)散變換(huan)器(Diffusion Transformers)的(de)(de)內部(bu)層次,用于(yu)諸如模(mo)(mo)型(xing)編輯(ji)等(deng)任(ren)務(wu);將機制見(jian)解(jie)(jie)擴(kuo)展(zhan)到超出視覺(jue)問答(VQA)或簡單圖像生成(cheng)的(de)(de)任(ren)務(wu);開發多模(mo)(mo)態模(mo)(mo)型(xing)的(de)(de)順序(xu)批次模(mo)(mo)型(xing)編輯(ji)技術——包括擴(kuo)散模(mo)(mo)型(xing)和多模(mo)(mo)態語(yu)言模(mo)(mo)型(xing);探索稀疏(shu)自編碼器及其變體在控制和引導多模(mo)(mo)態模(mo)(mo)型(xing)中的(de)(de)有效性;設計基于(yu)機制見(jian)解(jie)(jie)的(de)(de)透明(ming)數據(ju)歸(gui)因方法(fa);以及通過(guo)更深的(de)(de)機制理(li)解(jie)(jie)改進多模(mo)(mo)態上下文學(xue)習。此外,擴(kuo)展(zhan)機制可(ke)解(jie)(jie)釋(shi)性技術以分析統一的(de)(de)視覺(jue)-文本理(li)解(jie)(jie)和生成(cheng)模(mo)(mo)型(xing)(例如Xie等(deng),2024a)也是一個(ge)開放(fang)(fang)的(de)(de)研究方向(xiang)。
9. 結論
我們(men)的(de)(de)(de)綜述回顧了(le)(le)多模(mo)(mo)態基礎模(mo)(mo)型(xing)(MMFMs)中的(de)(de)(de)機制理解(jie)方法(fa)(fa),包括(kuo)對比性VLMs、生成(cheng)式(shi)VLMs和文(wen)本到圖像擴散模(mo)(mo)型(xing),重點關注(zhu)下(xia)游應(ying)用(yong)。我們(men)引入了(le)(le)一種新穎(ying)的(de)(de)(de)分(fen)類法(fa)(fa),區分(fen)了(le)(le)從語(yu)言模(mo)(mo)型(xing)適應(ying)過來的(de)(de)(de)可解(jie)釋(shi)性方法(fa)(fa)和為多模(mo)(mo)態模(mo)(mo)型(xing)設計的(de)(de)(de)可解(jie)釋(shi)性方法(fa)(fa)。此(ci)外,我們(men)還比較了(le)(le)語(yu)言模(mo)(mo)型(xing)和多模(mo)(mo)態模(mo)(mo)型(xing)的(de)(de)(de)機制見解(jie),識別了(le)(le)理解(jie)上的(de)(de)(de)差距及其對下(xia)游應(ying)用(yong)的(de)(de)(de)影響。
自回歸模型在自然語言處理(NLP)領域取得了巨大成功。最近,自回歸模型逐漸成為計算機視覺領域的重要研究方向,并在生成高質量視覺內容方面表現出色。NLP中的自回歸模型通常在子詞級別上進行操作,然而,在計算機視覺中,數據的表示策略可以在像素級、令牌級或尺度級進行,以反映視覺數據的多樣性和層次性,這與語言的順序結構有所不同。本綜述全面梳理了視覺自回歸模型的相關文獻。為了提升不同學科背景的研究者的可讀性,我們首先介紹視覺中的序列表示和建模基礎。接著,我們將視覺自回歸模型的基本框架劃分為三類:基于像素、基于令牌和基于尺度的模型,這些分類基于不同的表示策略。然后,我們探討自回歸模型與其他生成模型之間的內在聯系。此外,我們對計算機視覺中的自回歸模型進行了多維度分類,包括圖像生成、視頻生成、3D生成和多模態生成,并詳細介紹了其在各類領域的應用,包括新興領域如具身人工智能(Embodied AI)和3D醫學人工智能,參考文獻多達250篇。最后,我們指出了當前視覺自回歸模型所面臨的挑戰,并提出了未來潛在的研究方向。我們還在Github上建立了一個倉庫,收錄了本綜述涉及的相關文獻,網址為://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey
1 引言
自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)通過(guo)基于(yu)(yu)先前(qian)元素(su)(su)的(de)(de)(de)(de)(de)(de)條件概率預(yu)測(ce)(ce)序(xu)(xu)列中(zhong)的(de)(de)(de)(de)(de)(de)每(mei)個元素(su)(su)來(lai)(lai)生(sheng)成(cheng)(cheng)(cheng)數(shu)據(ju),最(zui)初在自(zi)(zi)(zi)然語言處(chu)理(NLP)領(ling)域(yu)獲得了(le)(le)(le)(le)突出地位(Vaswani 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2017;Radford 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2019;Brown 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2020;Achiam 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Wan 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Zhou 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023a)。這(zhe)(zhe)種(zhong)成(cheng)(cheng)(cheng)功可歸(gui)(gui)(gui)因于(yu)(yu)其捕捉長距離依賴和(he)(he)生(sheng)成(cheng)(cheng)(cheng)高質量、上下(xia)(xia)文相關輸出的(de)(de)(de)(de)(de)(de)內在優勢(shi)。特(te)別是(shi),經驗性(xing)縮放定律(Henighan 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2020;Hoffmann 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022;Muennighoff 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023;Tao 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024;Lyu 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023)表(biao)明,增加(jia)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)規模(mo)(mo)(mo)和(he)(he)計(ji)(ji)算(suan)(suan)預(yu)算(suan)(suan)會持續改善(shan)跨(kua)熵(shang)損失,在圖(tu)(tu)像(xiang)(xiang)生(sheng)成(cheng)(cheng)(cheng)、視(shi)(shi)(shi)(shi)頻建模(mo)(mo)(mo)、多模(mo)(mo)(mo)態任(ren)(ren)務(wu)(wu)和(he)(he)數(shu)學問(wen)題求解等(deng)(deng)(deng)(deng)(deng)(deng)各個領(ling)域(yu)都遵循通用的(de)(de)(de)(de)(de)(de)冪律關系。受其在 NLP 中(zhong)的(de)(de)(de)(de)(de)(de)成(cheng)(cheng)(cheng)就啟(qi)發,自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)最(zui)近開(kai)始(shi)在計(ji)(ji)算(suan)(suan)機(ji)(ji)視(shi)(shi)(shi)(shi)覺(jue)領(ling)域(yu)展(zhan)示(shi)出巨(ju)大的(de)(de)(de)(de)(de)(de)潛(qian)力(li)。圖(tu)(tu) 1 的(de)(de)(de)(de)(de)(de)時間線展(zhan)示(shi)了(le)(le)(le)(le)視(shi)(shi)(shi)(shi)覺(jue)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)演變的(de)(de)(de)(de)(de)(de)關鍵里程碑和(he)(he)發展(zhan),強(qiang)(qiang)調了(le)(le)(le)(le)它們從(cong) NLP 到(dao)計(ji)(ji)算(suan)(suan)機(ji)(ji)視(shi)(shi)(shi)(shi)覺(jue)的(de)(de)(de)(de)(de)(de)過(guo)渡。迄今為(wei)(wei)止,自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)已被應(ying)用于(yu)(yu)廣泛的(de)(de)(de)(de)(de)(de)生(sheng)成(cheng)(cheng)(cheng)任(ren)(ren)務(wu)(wu),包(bao)括圖(tu)(tu)像(xiang)(xiang)生(sheng)成(cheng)(cheng)(cheng)(Parmar 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2018;Chen 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2020)、圖(tu)(tu)像(xiang)(xiang)超分(fen)辨率(Guo 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022;Li 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2016)、圖(tu)(tu)像(xiang)(xiang)編輯(Yao 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022;Crowson 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022)、圖(tu)(tu)像(xiang)(xiang)到(dao)圖(tu)(tu)像(xiang)(xiang)翻(fan)譯(Li 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024e;Li 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024d)和(he)(he)視(shi)(shi)(shi)(shi)頻生(sheng)成(cheng)(cheng)(cheng)(Tulyakov 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2018;Hong 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022)、多模(mo)(mo)(mo)態任(ren)(ren)務(wu)(wu)(Yu 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2023c;Lu 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2022)以(yi)及(ji)(ji)醫(yi)療任(ren)(ren)務(wu)(wu)(Ren 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024;Tudosiu 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024)等(deng)(deng)(deng)(deng)(deng)(deng)。這(zhe)(zhe)種(zhong)廣泛的(de)(de)(de)(de)(de)(de)適(shi)用性(xing)強(qiang)(qiang)調了(le)(le)(le)(le)進(jin)(jin)一(yi)(yi)(yi)步探索和(he)(he)應(ying)用自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)潛(qian)力(li)。隨著視(shi)(shi)(shi)(shi)覺(jue)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)迅速發展(zhan),跟上最(zui)新的(de)(de)(de)(de)(de)(de)進(jin)(jin)展(zhan)變得越(yue)(yue)來(lai)(lai)越(yue)(yue)具有(you)挑(tiao)戰(zhan)(zhan)性(xing)。因此,對現有(you)工作的(de)(de)(de)(de)(de)(de)全面綜述對于(yu)(yu)研究(jiu)社區來(lai)(lai)說是(shi)及(ji)(ji)時且重(zhong)要的(de)(de)(de)(de)(de)(de)。本文旨在對視(shi)(shi)(shi)(shi)覺(jue)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)的(de)(de)(de)(de)(de)(de)最(zui)新發展(zhan)進(jin)(jin)行(xing)(xing)深入概述,并探索未來(lai)(lai)改進(jin)(jin)的(de)(de)(de)(de)(de)(de)潛(qian)在方向(xiang)(xiang)。我們強(qiang)(qiang)調,至少(shao)有(you)三種(zhong)由序(xu)(xu)列表(biao)示(shi)策略定義的(de)(de)(de)(de)(de)(de)不同類別的(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing):基于(yu)(yu)像(xiang)(xiang)素(su)(su)的(de)(de)(de)(de)(de)(de)、基于(yu)(yu)令(ling)牌的(de)(de)(de)(de)(de)(de)和(he)(he)基于(yu)(yu)尺度(du)的(de)(de)(de)(de)(de)(de)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)。Pixel-RNN(Van Den Oord 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2016)作為(wei)(wei)像(xiang)(xiang)素(su)(su)級模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)代表(biao),通過(guo)將二(er)維圖(tu)(tu)像(xiang)(xiang)轉換為(wei)(wei)一(yi)(yi)(yi)維像(xiang)(xiang)素(su)(su)序(xu)(xu)列來(lai)(lai)預(yu)測(ce)(ce)下(xia)(xia)一(yi)(yi)(yi)個像(xiang)(xiang)素(su)(su),捕捉了(le)(le)(le)(le)局(ju)(ju)部和(he)(he)長距離依賴,但(dan)計(ji)(ji)算(suan)(suan)成(cheng)(cheng)(cheng)本較高。受 NLP 啟(qi)發的(de)(de)(de)(de)(de)(de)下(xia)(xia)一(yi)(yi)(yi)個令(ling)牌預(yu)測(ce)(ce)將圖(tu)(tu)像(xiang)(xiang)壓縮為(wei)(wei)離散令(ling)牌,以(yi)高效處(chu)理高分(fen)辨率圖(tu)(tu)像(xiang)(xiang),代表(biao)性(xing)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)如 VQ-VAE(Van Den Oord 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2017)。VAR(Tian 等(deng)(deng)(deng)(deng)(deng)(deng)人(ren)(ren)(ren)(ren),2024)引入了(le)(le)(le)(le)下(xia)(xia)一(yi)(yi)(yi)個尺度(du)預(yu)測(ce)(ce),這(zhe)(zhe)是(shi)一(yi)(yi)(yi)種(zhong)分(fen)層方法,從(cong)粗到(dao)細自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)地生(sheng)成(cheng)(cheng)(cheng)多個尺度(du)的(de)(de)(de)(de)(de)(de)內容,捕捉多分(fen)辨率的(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)信息。每(mei)個類別都提(ti)(ti)供了(le)(le)(le)(le)獨特(te)的(de)(de)(de)(de)(de)(de)優勢(shi)和(he)(he)挑(tiao)戰(zhan)(zhan),使其成(cheng)(cheng)(cheng)為(wei)(wei)未來(lai)(lai)研究(jiu)的(de)(de)(de)(de)(de)(de)有(you)前(qian)途的(de)(de)(de)(de)(de)(de)方向(xiang)(xiang)。我們進(jin)(jin)一(yi)(yi)(yi)步從(cong)多角(jiao)度(du)介紹了(le)(le)(le)(le)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)在計(ji)(ji)算(suan)(suan)機(ji)(ji)視(shi)(shi)(shi)(shi)覺(jue)中(zhong)的(de)(de)(de)(de)(de)(de)分(fen)類,基于(yu)(yu)序(xu)(xu)列表(biao)示(shi)策略、底層框架或目(mu)標(biao)任(ren)(ren)務(wu)(wu)對現有(you)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)進(jin)(jin)行(xing)(xing)分(fen)類。我們的(de)(de)(de)(de)(de)(de)分(fen)類旨在提(ti)(ti)供一(yi)(yi)(yi)個結構(gou)化(hua)的(de)(de)(de)(de)(de)(de)概覽,展(zhan)示(shi)這(zhe)(zhe)些(xie)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)如何在各種(zhong)視(shi)(shi)(shi)(shi)覺(jue)任(ren)(ren)務(wu)(wu)中(zhong)被利用。然后,我們提(ti)(ti)出了(le)(le)(le)(le)定量和(he)(he)定性(xing)的(de)(de)(de)(de)(de)(de)指(zhi)標(biao)來(lai)(lai)評估其性(xing)能和(he)(he)適(shi)用性(xing)。最(zui)后,我們強(qiang)(qiang)調了(le)(le)(le)(le)自(zi)(zi)(zi)回(hui)(hui)(hui)歸(gui)(gui)(gui)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)當前(qian)的(de)(de)(de)(de)(de)(de)局(ju)(ju)限性(xing),如計(ji)(ji)算(suan)(suan)復雜度(du)和(he)(he)模(mo)(mo)(mo)式崩(beng)潰,并提(ti)(ti)出了(le)(le)(le)(le)未來(lai)(lai)研究(jiu)的(de)(de)(de)(de)(de)(de)潛(qian)在方向(xiang)(xiang)。總之(zhi),本綜述做出了(le)(le)(le)(le)以(yi)下(xia)(xia)貢獻:
最(zui)近,人(ren)工智能(neng)(neng)(neng)(neng)領(ling)域的(de)(de)(de)(de)突破推動了(le)(le)范式的(de)(de)(de)(de)轉變,其中(zhong)具(ju)有(you)數十億或萬億參數的(de)(de)(de)(de)大型(xing)語言(yan)模(mo)(mo)(mo)(mo)型(xing)(LLM),如(ru)ChatGPT、LLaMA、PaLM、Claude和(he)Qwen,經過在(zai)海(hai)量(liang)數據集上的(de)(de)(de)(de)訓練,在(zai)一系列語言(yan)任務中(zhong)取得(de)了(le)(le)前(qian)(qian)所未(wei)有(you)的(de)(de)(de)(de)成功(gong)。然而(er),盡管取得(de)了(le)(le)這(zhe)(zhe)些(xie)成功(gong),LLM仍(reng)然依賴于(yu)概(gai)率建(jian)模(mo)(mo)(mo)(mo),這(zhe)(zhe)種建(jian)模(mo)(mo)(mo)(mo)通(tong)(tong)常捕捉到的(de)(de)(de)(de)是(shi)植根(gen)于(yu)語言(yan)模(mo)(mo)(mo)(mo)式和(he)社會(hui)刻板(ban)印象的(de)(de)(de)(de)虛(xu)假相(xiang)關性(xing)(xing),而(er)不是(shi)實體(ti)與事件之間的(de)(de)(de)(de)真(zhen)(zhen)正因(yin)(yin)果(guo)(guo)(guo)關系。這(zhe)(zhe)個(ge)(ge)局(ju)限性(xing)(xing)使得(de)LLM容易受到諸如(ru)人(ren)口(kou)偏見、社會(hui)刻板(ban)印象和(he)LLM幻覺等(deng)問題的(de)(de)(de)(de)影響。這(zhe)(zhe)些(xie)挑戰凸顯了(le)(le)將因(yin)(yin)果(guo)(guo)(guo)性(xing)(xing)整合到LLM中(zhong)的(de)(de)(de)(de)緊(jin)迫性(xing)(xing),以(yi)超越依賴相(xiang)關性(xing)(xing)驅動的(de)(de)(de)(de)范式,構建(jian)更(geng)(geng)(geng)可靠(kao)且符(fu)合倫(lun)理的(de)(de)(de)(de)人(ren)工智能(neng)(neng)(neng)(neng)系統。盡管許(xu)多(duo)現有(you)的(de)(de)(de)(de)調查和(he)研究(jiu)主要集中(zhong)在(zai)利用(yong)提(ti)示工程激(ji)活LLM的(de)(de)(de)(de)因(yin)(yin)果(guo)(guo)(guo)知(zhi)識(shi)或開(kai)發基(ji)(ji)準來評估(gu)它(ta)們(men)(men)的(de)(de)(de)(de)因(yin)(yin)果(guo)(guo)(guo)推理能(neng)(neng)(neng)(neng)力,但大多(duo)數這(zhe)(zhe)些(xie)努力依賴于(yu)人(ren)為干預(yu)來激(ji)活預(yu)訓練模(mo)(mo)(mo)(mo)型(xing)。如(ru)何(he)將因(yin)(yin)果(guo)(guo)(guo)性(xing)(xing)嵌(qian)入(ru)到LLM的(de)(de)(de)(de)訓練過程中(zhong),并(bing)構建(jian)更(geng)(geng)(geng)通(tong)(tong)用(yong)、更(geng)(geng)(geng)智能(neng)(neng)(neng)(neng)的(de)(de)(de)(de)模(mo)(mo)(mo)(mo)型(xing),仍(reng)然是(shi)一個(ge)(ge)未(wei)被充分探索的(de)(de)(de)(de)領(ling)域。最(zui)新的(de)(de)(de)(de)研究(jiu)表明,LLM的(de)(de)(de)(de)功(gong)能(neng)(neng)(neng)(neng)類(lei)似于(yu)“因(yin)(yin)果(guo)(guo)(guo)鸚(ying)鵡”,它(ta)們(men)(men)能(neng)(neng)(neng)(neng)夠復(fu)述因(yin)(yin)果(guo)(guo)(guo)知(zhi)識(shi),但并(bing)未(wei)真(zhen)(zhen)正理解或應用(yong)這(zhe)(zhe)些(xie)知(zhi)識(shi)。這(zhe)(zhe)些(xie)基(ji)(ji)于(yu)提(ti)示的(de)(de)(de)(de)方(fang)(fang)法仍(reng)然局(ju)限于(yu)人(ren)類(lei)干預(yu)改進。本(ben)次調研旨在(zai)填補這(zhe)(zhe)一空(kong)白,探索如(ru)何(he)在(zai)LLM生命周期的(de)(de)(de)(de)每(mei)個(ge)(ge)階段——從詞嵌(qian)入(ru)學習、基(ji)(ji)礎模(mo)(mo)(mo)(mo)型(xing)訓練到微調、對齊(qi)、推理和(he)評估(gu)——通(tong)(tong)過整合因(yin)(yin)果(guo)(guo)(guo)性(xing)(xing)來增(zeng)強模(mo)(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)解釋性(xing)(xing)、可靠(kao)性(xing)(xing)和(he)因(yin)(yin)果(guo)(guo)(guo)信息。此外,我們(men)(men)進一步提(ti)出了(le)(le)六個(ge)(ge)有(you)前(qian)(qian)景(jing)的(de)(de)(de)(de)未(wei)來發展方(fang)(fang)向,以(yi)推進LLM的(de)(de)(de)(de)開(kai)發,增(zeng)強它(ta)們(men)(men)的(de)(de)(de)(de)因(yin)(yin)果(guo)(guo)(guo)推理能(neng)(neng)(neng)(neng)力,并(bing)解決(jue)當前(qian)(qian)這(zhe)(zhe)些(xie)模(mo)(mo)(mo)(mo)型(xing)面臨的(de)(de)(de)(de)局(ju)限性(xing)(xing)。
GitHub鏈接: //github.com/causal-machine-learning-lab/Awesome-Causal-LLM.
大型語言模型(LLM)是一類旨在通過利用海量數據和計算能力來處理和生成類人文本的人工智能模型[1, 2, 3, 4, 5, 6]。這些模型是基于深度學習架構,尤其是Transformer網絡[7]構建的,通常在由書籍、網站、社交媒體和其他數字文本等多樣化來源組成的大型數據集上進行訓練[1, 2, 3, 8, 9, 10, 11]。大型語言模型的關鍵特征包括: 1. 規模和大小:LLM包含數十億到數萬億的參數,這些參數是在訓練過程中模型學習的內部配置。這些模型的例子包括OpenAI的GPT-3[11]、GPT-4[12],Meta的LLaMA[2, 3],谷歌的PaLM[13],Anthropic的Claude和阿里巴巴的Qwen[14]。模型越大,其對語言的理解和生成越細致。 1. 在海量數據集上的訓練:LLM是在廣泛的文本數據集上訓練的,涵蓋了多種數據來源。這些包括公開的互聯網內容,如網站、博客和社交媒體平臺,以及更結構化和正式的來源,如書籍、學術論文和新聞文章。通過利用這種海量的文本,LLM可以學習復雜的統計模式,包括語法、語義、上下文以及實體之間的關系。 1. 能力:LLM可以直接應(ying)用于廣泛的(de)與人類語言相關的(de)任(ren)務,包括:
自然語言理解:LLM可以解釋和理解文本的含義,適用于問答和信息檢索等任務。 * 自然語言生成:它們可以生成連貫且上下文相關的文本,通常模仿人類的寫作風格。 * 問題解決和推理:LLM能夠進行邏輯推理并解決復雜問題。 盡管LLM具備顯著的能力,但其快速進展也引發了關于其倫理使用、內在偏見和更廣泛社會影響的重大擔憂[4, 15, 16, 17]。這些模型通常依賴從訓練數據中學到的統計相關性來生成響應,而非真正理解所提出的問題。這種局限性常常導致一些問題,如幻覺——模型生成虛假或無意義的信息,以及訓練數據中存在的偏見得到加強。這些缺陷極大地削弱了LLM在現實世界應用中的可靠性、準確性和安全性,特別是在醫療和法律等關鍵領域。在這些場景中,生成錯誤的診斷或治療建議可能危害患者的健康和安全[18, 19],而錯誤的法律信息可能會損害司法決定的公平性和合法性[20, 21]。這些風險進一步強調了持續研究的重要性,以改進這些模型的可解釋性、可靠性和倫理對齊[4, 15, 16, 17, 22]。 因果性 指的是因果關系,即一個事件直接影響另一個事件,從而解釋了為什么以及如何發生某事。與只顯示兩個變量一起變化的相關性不同,因果性建立了一個有方向的和可操作的聯系,使我們能夠理解變化背后的機制。因果性是人類智能的一個重要標志,對于科學理解和理性決策至關重要[23, 24, 25, 26]。然而,當前的LLM主要是通過捕捉統計相關性而不是因果關系進行訓練的,這限制了它們推理支配世界的潛在機制的能力。雖然LLM在語言理解、生成和模式識別任務上表現出色,但它們在需要更深層因果推理的任務上往往表現不佳。在缺乏因果理解的情況下,LLM可能生成上下文相關但邏輯上不連貫的輸出,導致潛在問題,如幻覺、偏見輸出,以及在依賴因果關系的決策任務中表現不佳。將因果性整合到LLM中至關重要,原因有三:首先,它幫助模型超越表面相關性,使其生成更可靠且可解釋的輸出。其次,因果性通過使模型能夠考慮數據中存在的混雜因素和系統性偏見,從而提高公平性,最終產生更符合倫理的預測。第三,它增強了模型處理復雜任務的能力,例如醫療診斷、政策規劃和經濟預測,在這些任務中理解因果關系至關重要。此外,因果性使LLM能夠進行反事實推理,這對于探索“假設”場景并做出明智決策至關重要[26]。總體而言,將因果推理整合到LLM中代表了朝著開發不僅能理解語言,還能以更類人和科學上更嚴謹的方式推理世界的人工智能系統邁出的重要一步。雖然許多現有的調查和研究[25, 26, 75]集中于利用提示工程激活LLM以提取因果實體、恢復事件之間的因果關系以及回答反事實問題,但大多數這些努力仍然嚴重依賴人為干預以有效利用預訓練模型。將因果性直接嵌入訓練過程以創建更智能和更具泛化能力的模型仍然是一個未充分探索的領域。除了依賴人類設計的提示外,在將因果推理整合到LLM中還出現了幾個關鍵挑戰: 1. 對非結構化文本數據的依賴(需要因果嵌入):LLM主要是在非結構化文本數據上進行訓練的,這些數據主要傳達相關性而不是明確的因果知識。在沒有結構化因果數據或因果注釋的情況下,LLM很難推斷出實體、事件和行為之間的因果動態。在大規模語料庫上訓練LLM往往導致學習的是統計相關模式,而不是因果關聯,限制了它們執行因果推理任務的能力。 1. 理解反事實的挑戰(需要反事實語料庫):因果推理通常涉及評估反事實場景——探索“如果……會怎樣”的情境,這需要模型對假設的替代方案進行推理。LLM在根據統計模式預測下一個詞時,難以推理這些反事實場景,因為它們缺乏保持某些變量不變的機制,同時改變其他變量。這限制了它們在決策或政策相關任務中進行深層因果推理的能力。 1. 基于Transformer模型的局限性(需要因果基礎模型):Transformer的注意力機制是許多LLM的基礎,旨在通過關注輸入文本的不同部分來捕捉詞語之間的交互。雖然它在建模上下文和語言結構上表現出色,但在捕捉實體和事件之間的深層因果關系方面往往表現不佳。注意力機制傾向于學習虛假相關性,使其易受人口偏見和社會刻板印象的影響,并缺乏推斷因果關系的能力。 1. 預訓練模型中的因果盲區(需要因果微調):預訓練的LLM在初始訓練過程中并未設計為優先考慮或檢測因果關系。這些模型被優化用于文本生成和補全等任務,而不需要明確的因果推理。這種“因果盲區”限制了它們在沒有微調或提示工程的情況下進行有意義的因果推理的能力,從而限制了它們在需要因果理解的實際任務中的實用性。 這表明,雖然LLM在語言處理方面取得了重大進展,但因果推理的整合仍然是一個充滿挑戰且尚未解決的前沿問題。最新的研究指出,LLM是“因果鸚鵡”,能夠復述訓練語料庫中的因果知識,但并未真正理解或推理這些知識[64]。LLM可能是已有因果知識的優秀解釋者,但不是優秀的因果推理者。當前對訓練語料中統計相關性的依賴,雖然對許多自然語言任務有效,但在需要更深層次理解因果動態的任務中,LLM表現不佳。將因果性嵌入LLM的核心訓練過程,而不是依賴人工設計的提示或事后干預,代表了推動該領域發展的關鍵下一步。為解決這一差距并整合因果性到LLM中,如表1和圖1所述
我(wo)們回(hui)顧了(le)(le)因果推(tui)理(li)(li)如何在LLM生命周期的(de)(de)各(ge)個(ge)(ge)階段(duan)——從詞嵌入學習(xi)、基(ji)礎模(mo)型訓(xun)練(lian)到微調、對齊、推(tui)理(li)(li)和(he)評估(gu)——增強(qiang)其能力。基(ji)于這些階段(duan),我(wo)們將因果性(xing)技術在LLM中的(de)(de)應(ying)用分為五(wu)個(ge)(ge)不同的(de)(de)類別(見表1)。最(zui)后,我(wo)們概述(shu)了(le)(le)六個(ge)(ge)有前景(jing)的(de)(de)未來方向(xiang),旨在推(tui)動LLM的(de)(de)發(fa)(fa)展(zhan),增強(qiang)其因果推(tui)理(li)(li)能力,并克服當(dang)前模(mo)型面臨的(de)(de)局限(xian)性(xing)。實現(xian)這一目標將帶來超越傳統架構(gou)的(de)(de)新方法(fa),重點是(shi)捕捉語言(yan)(yan)和(he)推(tui)理(li)(li)背后的(de)(de)基(ji)本(ben)(ben)因果關系。本(ben)(ben)文的(de)(de)結構(gou)如圖(tu)1所示。其余部分的(de)(de)安(an)排如下:在第(di)2節(jie)(jie)中,我(wo)們概述(shu)了(le)(le)LLM的(de)(de)最(zui)新進展(zhan),并探討了(le)(le)因果性(xing)與(yu)語言(yan)(yan)模(mo)型之間(jian)的(de)(de)潛(qian)在關系。基(ji)于在LLM開發(fa)(fa)各(ge)階段(duan)應(ying)用的(de)(de)因果驅動技術(見表1),我(wo)們回(hui)顧并提出了(le)(le)通過因果性(xing)改進LLM能力和(he)解決相關問(wen)題的(de)(de)潛(qian)在方法(fa),涵蓋了(le)(le)模(mo)型生命周期的(de)(de)五(wu)個(ge)(ge)階段(duan):預訓(xun)練(lian)(第(di)3節(jie)(jie))、微調(第(di)4節(jie)(jie))、對齊(第(di)5節(jie)(jie))、推(tui)理(li)(li)(第(di)6節(jie)(jie))和(he)評估(gu)(第(di)7節(jie)(jie))。最(zui)后,在第(di)8節(jie)(jie)中,我(wo)們重點介(jie)紹了(le)(le)幾個(ge)(ge)有前景(jing)的(de)(de)未來發(fa)(fa)展(zhan)方向(xiang),并在第(di)9節(jie)(jie)對本(ben)(ben)文進行了(le)(le)總結。
大型(xing)語(yu)(yu)言(yan)模型(xing)(LLM)憑借其在廣泛的(de)自(zi)然(ran)語(yu)(yu)言(yan)處(chu)理(li)任務中(zhong)的(de)卓(zhuo)越表(biao)現,迅速獲(huo)得了廣泛關注,尤其是在2022年11月ChatGPT發布之后[1, 2, 3, 8, 9, 10, 11]。這(zhe)些模型(xing)令人印象深(shen)刻的(de)語(yu)(yu)言(yan)理(li)解(jie)和(he)(he)生(sheng)成能力(li)主要(yao)歸功于其在龐大且多樣化的(de)人類生(sheng)成文(wen)本(ben)數據集上的(de)自(zi)回(hui)歸訓(xun)練。盡管(guan)LLM研究領域相對較新(xin),但其已經(jing)(jing)經(jing)(jing)歷(li)了快速而重(zhong)大的(de)進展,并在各個(ge)領域催生(sheng)了創(chuang)新(xin)[4, 22, 15, 16, 17]。然(ran)而,關于LLM如何整(zheng)合或從因(yin)(yin)果(guo)推理(li)中(zhong)獲(huo)益的(de)問題(ti)仍(reng)然(ran)大多未被探(tan)索。雖然(ran)LLM擅長識別文(wen)本(ben)中(zhong)的(de)模式和(he)(he)相關性,但整(zheng)合因(yin)(yin)果(guo)推理(li)可(ke)以為(wei)更健壯(zhuang)的(de)決策(ce)和(he)(he)預測(ce)建模開辟新(xin)途徑。將因(yin)(yin)果(guo)性引入LLM不僅有潛力(li)提(ti)升語(yu)(yu)言(yan)任務,還可(ke)以在需要(yao)因(yin)(yin)果(guo)推理(li)的(de)領域(如醫療、經(jing)(jing)濟學(xue)和(he)(he)政策(ce)分析)中(zhong)應用(yong)[18, 19, 20, 21]。
大(da)型(xing)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(LLM)是一(yi)類(lei)先(xian)進(jin)的(de)(de)(de)機器學(xue)習(xi)(xi)架構(gou)(gou)(gou),旨在(zai)(zai)通(tong)過在(zai)(zai)海量(liang)、多(duo)樣化(hua)的(de)(de)(de)人(ren)類(lei)生成文本(ben)語(yu)(yu)(yu)料庫上進(jin)行(xing)訓練(lian)來處(chu)理(li)和生成自(zi)然語(yu)(yu)(yu)言(yan)[4, 15]。這(zhe)(zhe)些模(mo)(mo)型(xing)主要(yao)利用(yong)深度(du)學(xue)習(xi)(xi)框架,其中(zhong)(zhong)Transformer架構(gou)(gou)(gou)是最為(wei)突出的(de)(de)(de)[7]。通(tong)過這(zhe)(zhe)種(zhong)架構(gou)(gou)(gou),LLM能(neng)夠建(jian)模(mo)(mo)單(dan)詞、短(duan)語(yu)(yu)(yu)和句子之(zhi)間的(de)(de)(de)復雜(za)依賴(lai)關(guan)系,從而捕捉人(ren)類(lei)語(yu)(yu)(yu)言(yan)中(zhong)(zhong)固有(you)(you)的(de)(de)(de)豐富語(yu)(yu)(yu)言(yan)結(jie)構(gou)(gou)(gou)[76]。LLM的(de)(de)(de)變革性力量(liang)在(zai)(zai)于(yu)其能(neng)夠進(jin)行(xing)自(zi)回歸訓練(lian),即(ji)根據所(suo)有(you)(you)前面的(de)(de)(de)單(dan)詞預測序列中(zhong)(zhong)的(de)(de)(de)下一(yi)個單(dan)詞。這(zhe)(zhe)個過程使(shi)得(de)模(mo)(mo)型(xing)不僅生成語(yu)(yu)(yu)法正確的(de)(de)(de)文本(ben),還能(neng)在(zai)(zai)上下文上連貫一(yi)致,從而模(mo)(mo)仿人(ren)類(lei)的(de)(de)(de)文本(ben)生成[4, 15, 16, 67, 2, 3]。關(guan)鍵(jian)的(de)(de)(de)是,LLM在(zai)(zai)學(xue)習(xi)(xi)這(zhe)(zhe)些表示時(shi)不需要(yao)人(ren)為(wei)干預進(jin)行(xing)特征設計,使(shi)其在(zai)(zai)廣泛的(de)(de)(de)自(zi)然語(yu)(yu)(yu)言(yan)處(chu)理(li)(NLP)任(ren)務中(zhong)(zhong)具有(you)(you)很(hen)高的(de)(de)(de)通(tong)用(yong)性。這(zhe)(zhe)個自(zi)監(jian)(jian)督(du)學(xue)習(xi)(xi)范(fan)式重(zhong)塑了(le)整(zheng)個領域,大(da)大(da)減少了(le)任(ren)務特定模(mo)(mo)型(xing)的(de)(de)(de)需求,并(bing)開(kai)啟了(le)普遍語(yu)(yu)(yu)言(yan)理(li)解和生成的(de)(de)(de)新時(shi)代[4, 15]。與傳統機器學(xue)習(xi)(xi)任(ren)務不同,LLM的(de)(de)(de)開(kai)發流程要(yao)復雜(za)得(de)多(duo),涵蓋了(le)幾個關(guan)鍵(jian)階段,包括詞嵌入、基(ji)礎(chu)模(mo)(mo)型(xing)預訓練(lian)、監(jian)(jian)督(du)微調、通(tong)過人(ren)類(lei)反饋的(de)(de)(de)強化(hua)學(xue)習(xi)(xi)(RLHF)進(jin)行(xing)對齊(qi)、基(ji)于(yu)提示的(de)(de)(de)推理(li)以及評估(gu)。以下是這(zhe)(zhe)些階段的(de)(de)(de)概(gai)述:
預(yu)訓(xun)(xun)練(lian)(lian)是(shi)大(da)型語(yu)(yu)(yu)言(yan)模(mo)型(LLM)訓(xun)(xun)練(lian)(lian)流程(cheng)中的(de)(de)(de)基(ji)礎(chu)階段,為模(mo)型提供了可以(yi)應用于(yu)廣泛(fan)(fan)下(xia)游任務的(de)(de)(de)基(ji)本語(yu)(yu)(yu)言(yan)理解(jie)能力(li)。在(zai)這(zhe)一(yi)階段,LLM接觸到(dao)大(da)量通(tong)常(chang)未(wei)標注的(de)(de)(de)文本數據,通(tong)常(chang)是(shi)在(zai)自監督學(xue)習環境下(xia)進(jin)行的(de)(de)(de)。其目標是(shi)使模(mo)型能夠(gou)學(xue)習可泛(fan)(fan)化的(de)(de)(de)語(yu)(yu)(yu)言(yan)模(mo)式和(he)表示。預(yu)訓(xun)(xun)練(lian)(lian)方法(fa)有(you)多(duo)種(zhong),包(bao)括(kuo)下(xia)一(yi)詞預(yu)測(自回(hui)歸語(yu)(yu)(yu)言(yan)建模(mo))、下(xia)一(yi)句預(yu)測、掩蔽(bi)語(yu)(yu)(yu)言(yan)建模(mo)以(yi)及專家混合(he)(Mixture of Experts, MoE)等廣泛(fan)(fan)使用的(de)(de)(de)技術(shu)。在(zai)本節(jie)中,我(wo)們(men)首先回(hui)顧幾種(zhong)傳統的(de)(de)(de)預(yu)訓(xun)(xun)練(lian)(lian)模(mo)型,包(bao)括(kuo)BERT[8]、T5[9]、BLOOM[1]、GPT[10, 11]和(he)LLAMA[2, 3],以(yi)介(jie)紹(shao)LLM的(de)(de)(de)模(mo)型架構。然后,我(wo)們(men)將深(shen)入(ru)(ru)探討基(ji)礎(chu)模(mo)型預(yu)訓(xun)(xun)練(lian)(lian)中因(yin)果性(xing)的(de)(de)(de)三個關(guan)鍵方面:(1) 去偏的(de)(de)(de)詞嵌入(ru)(ru),(2) 反事實訓(xun)(xun)練(lian)(lian)語(yu)(yu)(yu)料庫,(3) 因(yin)果基(ji)礎(chu)模(mo)型框架。
為了使預(yu)訓(xun)(xun)練的(de)(de)(de)基礎模(mo)型(xing)(xing)在(zai)特定(ding)和通用(yong)任(ren)(ren)務中發揮作用(yong),微(wei)(wei)(wei)(wei)調(diao)是必不可(ke)少的(de)(de)(de)。在(zai)監督微(wei)(wei)(wei)(wei)調(diao)(SFT)中,模(mo)型(xing)(xing)通過使用(yong)標注(zhu)數(shu)據(ju)進行優(you)化(hua),以適應(ying)特定(ding)任(ren)(ren)務。盡管現代大型(xing)(xing)語(yu)言模(mo)型(xing)(xing)(LLM)通常可(ke)以在(zai)無需微(wei)(wei)(wei)(wei)調(diao)的(de)(de)(de)情況下處理任(ren)(ren)務,但(dan)在(zai)優(you)化(hua)任(ren)(ren)務特定(ding)或數(shu)據(ju)特定(ding)需求時,微(wei)(wei)(wei)(wei)調(diao)仍然是有益的(de)(de)(de)。微(wei)(wei)(wei)(wei)調(diao)和預(yu)訓(xun)(xun)練共(gong)享(xiang)一些共(gong)同的(de)(de)(de)元素[33, 32, 31],例如特征提(ti)(ti)取,并且(qie)可(ke)以結合因果特征提(ti)(ti)取和反事實數(shu)據(ju)增強等高級方法。然而,兩(liang)者(zhe)的(de)(de)(de)主要區(qu)別在(zai)于訓(xun)(xun)練語(yu)料(liao)庫的(de)(de)(de)規模(mo)和對特定(ding)任(ren)(ren)務的(de)(de)(de)關(guan)注(zhu)點。在(zai)本節中,我們將(jiang)回顧幾種在(zai)微(wei)(wei)(wei)(wei)調(diao)階(jie)段有效應(ying)用(yong)的(de)(de)(de)因果技術(shu)。這些方法旨在(zai)通過關(guan)注(zhu)數(shu)據(ju)中潛在(zai)的(de)(de)(de)因果關(guan)系來(lai)增強模(mo)型(xing)(xing)的(de)(de)(de)泛化(hua)能力,確保微(wei)(wei)(wei)(wei)調(diao)不僅限于相關(guan)性,還能捕捉(zhuo)更深(shen)層(ceng)次的(de)(de)(de)、與(yu)任(ren)(ren)務相關(guan)的(de)(de)(de)洞察[41, 42, 43, 44, 45]。
AI對(dui)(dui)齊(qi)(qi)(Alignment)是引(yin)導AI系統(tong)行為與人(ren)類(lei)目標(biao)、偏(pian)好(hao)(hao)和倫理(li)標(biao)準(zhun)保(bao)持一(yi)致的(de)(de)(de)(de)過(guo)程(cheng)。這一(yi)點尤為重(zhong)要(yao)(yao),因為盡管大型(xing)語言模型(xing)(LLM)在(zai)預訓(xun)練階(jie)段主(zhu)要(yao)(yao)用(yong)于完(wan)成諸(zhu)如預測句子中下一(yi)個單詞(ci)的(de)(de)(de)(de)任務,但它們可(ke)能無意中生成有害(hai)、毒(du)性、誤導或(huo)帶(dai)有偏(pian)見的(de)(de)(de)(de)內容。通過(guo)將AI系統(tong)與人(ren)類(lei)價值觀對(dui)(dui)齊(qi)(qi),我們可(ke)以減少這些風險,確保(bao)模型(xing)生成更(geng)安全(quan)、可(ke)靠且符合倫理(li)的(de)(de)(de)(de)輸(shu)出。為實現對(dui)(dui)齊(qi)(qi),已經開發了多(duo)種技術,包括(kuo)近端策略優化(hua)(hua)(Proximal Policy Optimization, PPO)[113],這是一(yi)種強(qiang)化(hua)(hua)學(xue)習方法,旨在(zai)提高(gao)策略更(geng)新的(de)(de)(de)(de)穩定性和效率,通常(chang)用(yong)于在(zai)對(dui)(dui)齊(qi)(qi)過(guo)程(cheng)中優化(hua)(hua)模型(xing)。通過(guo)人(ren)類(lei)反饋的(de)(de)(de)(de)強(qiang)化(hua)(hua)學(xue)習(Reinforcement Learning from Human Feedback, RLHF)[114],模型(xing)根據(ju)人(ren)類(lei)對(dui)(dui)其(qi)(qi)輸(shu)出的(de)(de)(de)(de)評(ping)估進行調整(zheng),引(yin)導其(qi)(qi)生成更(geng)符合人(ren)類(lei)偏(pian)好(hao)(hao)的(de)(de)(de)(de)響(xiang)應。最(zui)近,直接(jie)偏(pian)好(hao)(hao)優化(hua)(hua)(Direct Preference Optimization, DPO)[115]被引(yin)入,用(yong)以直接(jie)調整(zheng)模型(xing)以更(geng)好(hao)(hao)地匹(pi)配人(ren)類(lei)的(de)(de)(de)(de)偏(pian)好(hao)(hao),而無需使用(yong)強(qiang)化(hua)(hua)學(xue)習的(de)(de)(de)(de)復雜(za)性。
自然語言是知識和信息的存儲庫,主要用作交流工具,而不是思維的媒介[116]。大型語言模型(LLM)經過大規模的人類語言網絡訓練后,可以復述知識以應對各種語言任務,但它們仍然不知道如何應用這些知識或獨立思考。因此,需通過人為干預提供“深思熟慮”的提示,來引導LLM,從而塑造它們的響應,確保整合相關知識和推理。這些過程被稱為“提示工程”(Prompt Engineering)[84, 85]。為了提高LLM響應的可靠性和深度,最近的研究提出設計因果提示或因果鏈式推理,這些提示能夠激活LLM,召回因果知識并將其整合到響應中,從而提供更準確和有洞察力的答案[32, 49, 50, 51, 54, 57, 65, 66]。在圖3中,我們將這些研究分為四個不同的類別,分別關注因果性提示在不同任務中的LLM推理應用。這些包括用于因果發現、因果效應估計、反事實推理和去偏提示的精心設計的提示。在表4.1-4.4中提供了這些提示的詳細示例。
在(zai)本文中(zhong)(zhong)(zhong),我(wo)(wo)們(men)(men)全面回顧了(le)如何(he)在(zai)大型(xing)(xing)(xing)語言模(mo)型(xing)(xing)(xing)(LLM)生(sheng)(sheng)命周期的(de)(de)(de)(de)各(ge)個階段——從(cong)詞(ci)嵌(qian)入、基(ji)礎(chu)模(mo)型(xing)(xing)(xing)訓(xun)練(lian)(lian)到(dao)微(wei)調、對(dui)齊(qi)、推(tui)理(li)(li)(li)(li)和(he)評估——整(zheng)(zheng)(zheng)合因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)以(yi)(yi)(yi)提升(sheng)其能(neng)(neng)力。我(wo)(wo)們(men)(men)重(zhong)點(dian)探討了(le)幾個關(guan)(guan)鍵領(ling)(ling)域:在(zai)預訓(xun)練(lian)(lian)階段使用(yong)(yong)(yong)去偏(pian)的(de)(de)(de)(de)詞(ci)嵌(qian)入和(he)反事實(shi)(shi)訓(xun)練(lian)(lian)語料庫(ku)以(yi)(yi)(yi)減輕偏(pian)差并改進因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)特(te)征學習;在(zai)微(wei)調階段采(cai)用(yong)(yong)(yong)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)效應調優(Causal Effect Tuning, CET)和(he)反事實(shi)(shi)蒸餾(Distilling Counterfactuals, DISCO)等(deng)技術,既(ji)保留基(ji)礎(chu)知識(shi),又使模(mo)型(xing)(xing)(xing)適(shi)應需(xu)要(yao)更深層(ceng)次(ci)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)的(de)(de)(de)(de)領(ling)(ling)域特(te)定任務(wu);在(zai)對(dui)齊(qi)策(ce)略中(zhong)(zhong)(zhong),采(cai)用(yong)(yong)(yong)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)偏(pian)好優化(Causal Preference Optimization, CPO),利用(yong)(yong)(yong)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)將倫理(li)(li)(li)(li)考慮與用(yong)(yong)(yong)戶偏(pian)好對(dui)齊(qi)。此外,我(wo)(wo)們(men)(men)還(huan)討論(lun)了(le)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)發現方(fang)(fang)法的(de)(de)(de)(de)應用(yong)(yong)(yong),以(yi)(yi)(yi)通(tong)過區分(fen)相關(guan)(guan)性(xing)與因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)關(guan)(guan)系(xi)來(lai)增強(qiang)推(tui)理(li)(li)(li)(li)能(neng)(neng)力,以(yi)(yi)(yi)及整(zheng)(zheng)(zheng)合反事實(shi)(shi)推(tui)理(li)(li)(li)(li)以(yi)(yi)(yi)促進更具(ju)反思性(xing)和(he)適(shi)應性(xing)的(de)(de)(de)(de)決(jue)(jue)策(ce)過程。 最后,我(wo)(wo)們(men)(men)提出了(le)六個有(you)前景的(de)(de)(de)(de)未來(lai)方(fang)(fang)向,以(yi)(yi)(yi)進一步提升(sheng)LLM的(de)(de)(de)(de)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)能(neng)(neng)力。將因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)整(zheng)(zheng)(zheng)合到(dao)LLM中(zhong)(zhong)(zhong)代(dai)表(biao)了(le)一種范式(shi)(shi)轉變,使模(mo)型(xing)(xing)(xing)能(neng)(neng)夠(gou)超越純粹的(de)(de)(de)(de)統計相關(guan)(guan)性(xing),參(can)與結(jie)構化的(de)(de)(de)(de)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li)。盡管像ChatGPT、LLaMA、PaLM、Claude和(he)Qwen這樣的(de)(de)(de)(de)傳統模(mo)型(xing)(xing)(xing)在(zai)通(tong)過識(shi)別(bie)大型(xing)(xing)(xing)數據集中(zhong)(zhong)(zhong)的(de)(de)(de)(de)詞(ci)級模(mo)式(shi)(shi)來(lai)理(li)(li)(li)(li)解和(he)生(sheng)(sheng)成(cheng)語言方(fang)(fang)面表(biao)現卓越,但它們(men)(men)在(zai)需(xu)要(yao)深刻因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)理(li)(li)(li)(li)解的(de)(de)(de)(de)任務(wu)中(zhong)(zhong)(zhong)往往表(biao)現不(bu)佳。這些模(mo)型(xing)(xing)(xing)在(zai)區分(fen)政(zheng)策(ce)分(fen)析、科(ke)學研(yan)(yan)究和(he)醫療(liao)等(deng)領(ling)(ling)域中(zhong)(zhong)(zhong)至關(guan)(guan)重(zhong)要(yao)的(de)(de)(de)(de)潛(qian)在(zai)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)關(guan)(guan)系(xi)方(fang)(fang)面存(cun)在(zai)困難。通(tong)過嵌(qian)入因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)推(tui)理(li)(li)(li)(li),LLM能(neng)(neng)夠(gou)提供(gong)更可靠且(qie)具(ju)有(you)上下文意(yi)義的(de)(de)(de)(de)輸出,尤其是(shi)在(zai)準確的(de)(de)(de)(de)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)理(li)(li)(li)(li)解至關(guan)(guan)重(zhong)要(yao)的(de)(de)(de)(de)高風險領(ling)(ling)域中(zhong)(zhong)(zhong)。 因(yin)(yin)(yin)(yin)(yin)此,將因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)性(xing)整(zheng)(zheng)(zheng)合到(dao)LLM中(zhong)(zhong)(zhong)標志(zhi)著人(ren)工智(zhi)能(neng)(neng)研(yan)(yan)究中(zhong)(zhong)(zhong)的(de)(de)(de)(de)一個重(zhong)要(yao)前沿,使這些模(mo)型(xing)(xing)(xing)能(neng)(neng)夠(gou)推(tui)理(li)(li)(li)(li)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)關(guan)(guan)系(xi),并生(sheng)(sheng)成(cheng)不(bu)僅(jin)更加準確,而(er)且(qie)在(zai)上下文中(zhong)(zhong)(zhong)更為適(shi)當且(qie)健全的(de)(de)(de)(de)輸出。將因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)知識(shi)貫穿于模(mo)型(xing)(xing)(xing)的(de)(de)(de)(de)整(zheng)(zheng)(zheng)個生(sheng)(sheng)命周期——從(cong)預訓(xun)練(lian)(lian)、微(wei)調到(dao)推(tui)理(li)(li)(li)(li)和(he)對(dui)齊(qi)——使LLM能(neng)(neng)夠(gou)超越模(mo)式(shi)(shi)識(shi)別(bie),解決(jue)(jue)現實(shi)(shi)世界問(wen)題的(de)(de)(de)(de)復雜性(xing),從(cong)而(er)實(shi)(shi)現更深層(ceng)次(ci)的(de)(de)(de)(de)推(tui)理(li)(li)(li)(li)。該因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)驅動的(de)(de)(de)(de)方(fang)(fang)法解鎖了(le)LLM在(zai)醫療(liao)、科(ke)學發現和(he)政(zheng)策(ce)制定等(deng)關(guan)(guan)鍵領(ling)(ling)域做(zuo)出重(zhong)大貢獻(xian)的(de)(de)(de)(de)新潛(qian)力,在(zai)這些領(ling)(ling)域,辨別(bie)因(yin)(yin)(yin)(yin)(yin)果(guo)(guo)(guo)(guo)(guo)(guo)關(guan)(guan)系(xi)對(dui)于做(zuo)出明智(zhi)決(jue)(jue)策(ce)至關(guan)(guan)重(zhong)要(yao)。
關(guan)于異步計劃(hua)的(de)(de)(de)推理具有挑戰性(xing),因(yin)為(wei)它需要序列和并(bing)行計劃(hua)來優化時(shi)(shi)間成本。大(da)型(xing)語言(yan)模(mo)型(xing)(LLMs)能否在(zai)這(zhe)項任務上取得成功?在(zai)這(zhe)里(li),我(wo)們展示(shi)(shi)了(le)第一(yi)個大(da)規模(mo)研究來調查這(zhe)個問(wen)題。我(wo)們發現,一(yi)組代表性(xing)的(de)(de)(de)閉源和開源LLMs,包括GPT-4和LLaMA-2,在(zai)我(wo)們的(de)(de)(de)AsyncHow基準測試(shi)中,如果沒有提供關(guan)于任務解(jie)決過(guo)程的(de)(de)(de)說明,表現很(hen)差。我(wo)們提出了(le)一(yi)種名為(wei)“像(xiang)圖一(yi)樣(yang)計劃(hua)”(PLaG)的(de)(de)(de)新技術,該技術將圖與自然語言(yan)提示(shi)(shi)結合起(qi)來,并(bing)實現了(le)最先(xian)進的(de)(de)(de)結果。我(wo)們展示(shi)(shi)了(le)盡(jin)管PLaG可(ke)以提升(sheng)模(mo)型(xing)性(xing)能,但當任務復雜性(xing)增加時(shi)(shi),LLMs仍然遭受劇烈退化,這(zhe)突出了(le)利用(yong)LLMs模(mo)擬數字設備(bei)的(de)(de)(de)限制。我(wo)們將我(wo)們的(de)(de)(de)研究視為(wei)使用(yong)LLMs作為(wei)高(gao)效自主(zhu)代理的(de)(de)(de)激動(dong)人心的(de)(de)(de)一(yi)步。
機器學習在許多應用中取得了顯著成功。然而,現有的研究大多基于封閉世界假設,該假設認為環境是靜態的,一旦部署模型就是固定的。在許多真實世界的應用中,這一基本而又幼稚的假設可能不成立,因為一個開放的環境是復雜的、動態的,并且充滿未知。在這種情況下,拒絕未知,發現新奇性,然后逐步學習它們,可以使模型像生物系統一樣安全地并持續地進化。本文提供了一個關于開放世界機器學習的全面視角,通過研究未知拒絕、新類發現和類增量學習在一個統一的范式下進行。當前方法的挑戰、原則和局限性被詳細討論。最后,我們討論了幾個未來研究的潛在方向。本文旨在提供一個關于新興開放世界機器學習范式的全面介紹,以幫助研究人員在各自的領域中構建更強大的AI系統,并促進人工通用智能的發展。 //arxiv.org/abs/2403.01759
人工智能結合機器學習技術在醫療治療[1]、工業[2]、交通運輸和科學發現[3]等許多領域得到了廣泛應用。通常,監督式機器學習涉及孤立的分類或回歸任務,它學習一個函數(模型)f : X → Y,從一個包含特征向量和真實標簽對的訓練數據集D = {(xi, yi)}^N_{i=1}學習。然后,可以將模型f部署用于預測未來遇到的輸入。然而,機器學習當前的成功在很大程度上基于封閉世界假設[5, 6, 7],其中學習的重要因素限于訓練期間觀察到的內容。在分類任務中,模型在部署期間遇到的所有類y都必須在訓練中被看到,即y ∈ Y。這個假設在可能的類別已經明確定義且不太可能隨時間改變的限制場景中是合理的。例如,在手寫數字識別任務中,封閉世界假設成立,因為數字集合(0-9)是固定的并且提前已知。此外,這個假設也使數據收集過程更加簡單直接。然而,真實世界的應用往往涉及動態和開放的環境,其中不可避免地會出現意外情況,可能出現屬于未知類別的實例(y ∈ Y /)[8, 9]。例如,在非穩態環境中,自動駕駛汽車可能遇到以前從未學過的新奇對象;在網絡使用和面部識別系統中,無數的新類別會不斷出現。在這種情況下,封閉世界假設可能會出現問題。首先,模型對未知的過于自信,毫不猶豫地將其預測為訓練類別[10, 11, 12],這可能導致從財務損失到傷害和死亡的各種危害。其次,模型未能通過發現和聚類它們來外推到新的類別[13]。第三,學習新的流數據會導致對先前知識的災難性遺忘[14]。為了在這樣一個不斷變化的無窮多樣的場景中學習,我們需要開放世界學習來克服這些限制,通過適應真實世界數據的動態和不確定性。在這種范式下,模型被裝備以識別和拒絕偏離訓練類的輸入以保持安全,然后從未知中發現新類并逐步學習它們,無需從頭開始重新訓練整個模型。 開放世界學習(OWL)范式的一般生命周期如圖1所示。這個過程主要包括三個關鍵步驟。第一步是未知拒絕,要求模型識別屬于已見類的測試實例,同時也能夠檢測或拒絕不屬于訓練類的錯誤分類和未知實例,基于可靠的置信度估計[11, 15]。第二步是新類發現[13],它基于過去學到的知識自動地將收集到的未知樣本在緩沖區中聚類。最后,當發現的類有足夠的數據時,系統必須擴展原始的多類分類器,以包含新類,而無需從頭開始重新訓練或災難性地忘記先前學到的知識[16, 17, 18]。通過整合未知拒絕、新類發現和持續學習,系統能夠適應并擴展到不斷演變的環境。換句話說,模型可以意識到它不知道的內容,并在開放世界中部署后(在工作中)像人類一樣交互式學習。 在本文中,我們對開放世界機器學習的最新研究進展進行了系統綜述,重點討論了有關未知拒絕、新類發現和類增量學習的技術。詳細討論了當前方法的原則和局限性及其之間的關系。最后,介紹了開放世界機器學習未來發展的可能挑戰、研究空白和展望。我們廣泛而深刻的綜述將有助于研究人員將這一新的學習范式應用于他們自己的領域,并呼吁構建類似人類的、真正智能的系統。
開放世界學習的總體挑戰 如圖1和圖2所示,開放世界學(xue)(xue)習涉及順序地(di)和(he)定期地(di)執(zhi)行未(wei)(wei)知(zhi)(zhi)拒絕、新類(lei)發現和(he)類(lei)增量學(xue)(xue)習。核心挑戰是(shi)使上述過(guo)程(cheng)能夠通(tong)過(guo)模(mo)(mo)型(xing)與開放環(huan)境之(zhi)間的(de)(de)交互自動進(jin)行,而不(bu)依賴于(yu)人類(lei)工程(cheng)師(shi)[26]。不(bu)幸的(de)(de)是(shi),在封(feng)閉世界假設[7]下,模(mo)(mo)型(xing)過(guo)于(yu)自信,幾乎無法意識到(dao)未(wei)(wei)知(zhi)(zhi)。具體來說,從表(biao)(biao)示(shi)學(xue)(xue)習的(de)(de)角(jiao)(jiao)度(du)來看,模(mo)(mo)型(xing)僅在當(dang)前數(shu)據集上受(shou)到(dao)數(shu)據驅動的(de)(de)優化(hua)訓練,學(xue)(xue)到(dao)的(de)(de)表(biao)(biao)示(shi)是(shi)任(ren)務特定的(de)(de)且較不(bu)通(tong)用;從分類(lei)器學(xue)(xue)習的(de)(de)角(jiao)(jiao)度(du)來看,當(dang)前的(de)(de)判別(bie)分類(lei)器為未(wei)(wei)知(zhi)(zhi)留(liu)下的(de)(de)空間很小,使得難以描述、發現和(he)適應新奇性。因(yin)此,來自未(wei)(wei)知(zhi)(zhi)類(lei)的(de)(de)示(shi)例將被映(ying)射到(dao)已知(zhi)(zhi)類(lei)的(de)(de)區域(yu),導(dao)致在后續(xu)的(de)(de)增量學(xue)(xue)習過(guo)程(cheng)中發生之(zhi)前知(zhi)(zhi)識的(de)(de)災(zai)難性遺忘。
開放世界機器學習是一個活躍且長期的研究話題,存在許多值得進一步探索的關鍵開放方向。在本節中,我們簡要概述了幾個有前景的研究方向,這些方向使OWL能夠在統一的框架和更復雜的情境中實現,例如結構化數據和應用,如檢測、分割等。此外,還討論了考慮腦啟發式OWL和機器遺忘的額外方向。圖6展示了未來方向的插圖。
由于多種因素的(de)(de)(de)(de)影響,自動機器(qi)學習(AutoML)這(zhe)些(xie)年一(yi)直在快速發(fa)展,數據(ju)科學家需要(yao)(yao)創(chuang)(chuang)(chuang)建(jian)機器(qi)學習管道原型(xing)來決(jue)定如何進行(xing)解(jie)(jie)決(jue),并為非專業(ye)人士提(ti)供(gong)解(jie)(jie)決(jue)方案(an)。已經創(chuang)(chuang)(chuang)建(jian)了一(yi)些(xie)AutoML框架(jia),但(dan)它(ta)們受到能解(jie)(jie)決(jue)的(de)(de)(de)(de)問題類型(xing)、機器(qi)學習原語的(de)(de)(de)(de)數量(liang)、管道表(biao)示語言和嚴(yan)格數據(ju)描(miao)述的(de)(de)(de)(de)限(xian)(xian)制。這(zhe)些(xie)限(xian)(xian)制大(da)(da)多是(shi)由相(xiang)當大(da)(da)的(de)(de)(de)(de)工(gong)程量(liang)造成的(de)(de)(de)(de)。D3M項(xiang)目(mu)旨(zhi)在擴大(da)(da)AutoML的(de)(de)(de)(de)范圍(wei),提(ti)供(gong)創(chuang)(chuang)(chuang)建(jian)AutoML系統(tong)所需的(de)(de)(de)(de)工(gong)具(ju)(ju),使其能夠解(jie)(jie)決(jue)超出大(da)(da)部分框架(jia)的(de)(de)(de)(de)問題類型(xing),并為用戶提(ti)供(gong)工(gong)具(ju)(ju),使機器(qi)學習工(gong)具(ju)(ju)不需要(yao)(yao)太多的(de)(de)(de)(de)專業(ye)知識。此外,該項(xiang)目(mu)還致力(li)于實現AutoML組件(jian)的(de)(de)(de)(de)標準化,以便對(dui)不同(tong)的(de)(de)(de)(de)框架(jia)進行(xing)公平的(de)(de)(de)(de)比較,并通過開源共享該項(xiang)目(mu)期間創(chuang)(chuang)(chuang)建(jian)的(de)(de)(de)(de)基礎設施來幫(bang)助(zhu)研發(fa)界改善(shan)該領域。
本(ben)文在(zai)D3M上的工作(zuo)主要集(ji)中在(zai)兩個(ge)方面:在(zai)D3M小組內創(chuang)建(jian)標準(zhun)化AutoML工具(ju),以及創(chuang)建(jian)具(ju)有不同目的的AutoML系(xi)統(tong)(tong)和(he)框架(jia)。在(zai)這份(fen)報告(gao)中,將介(jie)紹對(dui)該項(xiang)(xiang)目的主要貢獻以及AutoML系(xi)統(tong)(tong)的演(yan)變。在(zai)該項(xiang)(xiang)目中,創(chuang)建(jian)了評(ping)估AutoML系(xi)統(tong)(tong)的工具(ju),開發(fa)(fa)了三個(ge)AutoML系(xi)統(tong)(tong),開發(fa)(fa)了被(bei)多個(ge)系(xi)統(tong)(tong)廣泛(fan)使用的原型,設(she)計了測試原型的自動化框架(jia),并通過創(chuang)建(jian)AutoKeras對(dui)AutoML研發(fa)(fa)界產生了巨大影響。