亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。

1 引言

信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。

付費5元查看完整內容

相關內容

 信息檢索( )指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技術。信息檢索的目標:準確、及時、全面的獲取所需信息。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。

1 引言

具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。

2 協作架構

在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。

**2.1 外部協作

在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。

去中心化架構

在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。

2.2 內在協作

外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。

2.3 混合協作架構

在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。

3 推進協作功能

在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。

3.1 感知

盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。

**基于FM的物理感知

向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。

**協作感知

在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。

3.2 規劃

規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。

**規劃格式

規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。

**規劃過程

除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。

3.3 通信

通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:

  • 星型結構:一個虛擬的中央智能體控制消息流動,向其他智能體廣播計劃或指令。許多集中式架構的工作都探索了這種方法 [KVM24, YKC23]。
  • 完全連接(FC):每個智能體與其他所有智能體自由通信,利用FM驅動的消息。例如,[MJ+24] 使用兩個機器人臂之間的FM對話來協調操作任務。在CoELA [ZDS+24] 中,每個智能體通過記憶檢索當前狀態信息,并通過FM生成通信內容。
  • 層次結構:通過建立領導結構來提升可擴展性并減少通信開銷。[CJ+24, LYZ+24, GHL+24] 顯示了如何通過領導角色來引導或過濾通信,從而提高效率和結果。

3.4 反饋

具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。

**系統反饋

系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。

**環境反饋

環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。

**人類反饋

外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。

4 下游任務:從仿真到現實世界部署

在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。

**4.1 仿真平臺

前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。

**4.2 新興應用

憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。

5 開放挑戰與未來趨勢

隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。

**基準測試與評估

一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。

**數據收集與異質性

多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。

**具身AI的基礎模型

基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。

**智能體的可擴展性

目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。

**以人為中心的協作

將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。

**理論基礎與可解釋性

當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論

本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。

付費5元查看完整內容

圖像反演是生成模型中的一個基礎任務,旨在將圖像映射回其潛在表示,以支持下游應用,如圖像編輯、修復和風格遷移。本文全面綜述了圖像反演技術的最新進展,重點討論了兩種主要范式:生成對抗網絡(GAN)反演和擴散模型反演。我們根據優化方法對這些技術進行分類。對于GAN反演,我們系統地將現有方法分為基于編碼器的方法、潛在優化方法和混合方法,分析其理論基礎、技術創新和實際權衡。對于擴散模型反演,我們探討了無訓練策略、微調方法以及附加可訓練模塊的設計,重點討論它們的獨特優勢和局限性。此外,我們討論了幾種流行的下游應用以及超越圖像任務的新興應用,識別了當前的挑戰和未來的研究方向。通過整合最新的研究成果,本文旨在為研究人員和實踐者提供一個有價值的參考資源,推動圖像反演領域的進一步發展。我們將持續跟蹤最新的研究工作,

網址://github.com/RyanChenYN/ImageInversion。

 引言圖像反演是指將給定圖像映射回預訓練生成模型的潛在表示的任務。這一任務在圖像編輯、風格遷移、圖像修復等應用中具有重要意義 [Xia 等,2022;Shuai 等,2024]。通過反演技術,用戶可以有效利用生成模型的豐富語義信息,實現對真實圖像的高效控制和修改,成為一個日益獨立且活躍的研究方向。早期的圖像反演研究始于生成對抗網絡(GAN)的興起 [Zhu 等,2016],主要集中于如何將圖像投影到GAN的潛在空間中,以便于后續的圖像編輯和生成任務。StyleGAN系列的問世 [Karras 等,2019;Karras 等,2020] 顯著提高了圖像反演技術的準確性和效率。然而,這些方法存在一定的局限性 [Tov 等,2021;Roich 等,2023;Zhang 等,2024c]:基于編碼器的前向方法仍然會導致次優結果,而基于優化的方法則需要大量時間,且未能滿足一般圖像編輯和高精度應用的需求,例如肖像攝影。近年來,擴散模型憑借其強大的生成能力和穩定的訓練過程,逐漸成為生成模型領域的新寵。從DDPM [Ho 等,2020] / DDIM [Song 等,2020] 到LDM [Rombach 等,2022],像Stable Diffusion系列這樣的開源模型顯著增強了圖像編輯的可控性和有效性,推動了許多優秀的無訓練和微調解決方案的出現 [Miyake 等,2023;Chung 等,2024;Mo 等,2024]。最近的突破性進展,如DiT [Peebles 和 Xie,2023] 框架和流匹配技術,為圖像反演提供了新的思路和方法。GAN到擴散模型的多樣化發展,也為高保真度圖像反演任務和復雜場景中的可控編輯應用奠定了基礎。本文系統地回顧并總結了這些技術的發展軌跡,從公式化的角度抽象定義了問題,深入探討了不同類別方法的原理和實際問題。全面覆蓋了圖像反演及相關子領域,并提供了深入的討論。范圍本文重點討論了兩種主要的圖像反演框架:GAN反演和擴散模型反演。對于GAN反演,我們從三個角度進行全面分析與比較:基于編碼器的方法、潛在優化方法和混合方法。對于擴散模型反演,我們從訓練角度將方法分為無訓練方法、微調方法和額外可訓練模塊方法,并討論每種方法的優缺點。此外,我們還分析了最新的技術趨勢,如基于DiT的反演方法 [Feng 等,2024],并探討了反演技術在圖像及更廣泛領域(如視頻 [Fan 等,2024] 和音頻 [Manor 和 Michaeli,2024])中的應用。本文主要分析了2021年以后的研究,以確保其相關性和前瞻性。由于篇幅限制,本文僅討論了具有代表性的工作,最新的、持續更新的研究成果可通過該項目頁面獲取。與相關綜述的討論與現有的綜述文章相比,例如專注于早期基于GAN的方法 [Xia 等,2022],以及近期專注于基于擴散的方法的工作 [Shuai 等,2024],本文將GAN反演和擴散模型反演整合到一個統一框架中進行系統比較,填補了該領域的研究空白。并且,本文將反演討論擴展到非圖像應用,為讀者提供了更全面的視角。貢獻首先,本文提供了對圖像反演領域最新進展的全面回顧,涵蓋了兩種主要生成模型(GAN和擴散模型)的關鍵反演技術。通過系統地分類這些方法,我們揭示了內在的聯系和技術差異,為研究人員提供了清晰的理論指導。其次,本文從圖像級別的角度討論了主要應用及相關領域的進展。最后,我們總結了當前研究中的主要挑戰,并提出了一系列潛在的未來研究方向,為圖像反演領域的進一步發展提供了重要參考。

付費5元查看完整內容

推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。

1 引言

在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。

  • 我們提出了一個系統的LLM驅動推薦智能體分類,識別出三種基本范式:面向推薦的、面向交互的和面向仿真的方法。這個分類框架為理解當前的研究提供了結構化的視角。
  • 我們使用統一的架構框架分析LLM驅動的推薦智能體,將其分解為四個核心模塊:個人資料構建、記憶管理、戰略規劃和行動執行。通過這一框架,我們系統地審視了現有方法如何集成和實現這些組件。
  • 我們提供了現有方法、基準數據集和評估方法的全面比較分析,涵蓋了傳統推薦指標和專為LLM驅動推薦智能體設計的新興評估方法。

付費5元查看完整內容

本文提供了對去噪擴散概率模型(DDPMs)的數學嚴謹介紹,DDPMs 有時也被稱為擴散概率模型或擴散模型,主要用于生成式人工智能。我們提供了 DDPMs 的基本數學框架,并解釋了訓練和生成過程背后的主要思想。本文還回顧了文獻中一些選定的擴展和改進,如改進版 DDPMs、去噪擴散隱式模型、無分類器擴散引導模型以及潛在擴散模型。

1 引言

生成模型的目標是基于從未知潛在分布中采樣得到的數據集,生成新的數據樣本。為了實現這一目標,已經提出了許多不同的機器學習方法,例如生成對抗網絡(GANs)[12]、變分自編碼器(VAEs)[22]、自回歸模型[47]、歸一化流[37]和能量基模型[25]。本文將介紹去噪擴散概率模型(DDPMs),這是一類生成方法(有時也被稱為擴散模型或擴散概率模型),其基于重建一個擴散過程的思想,擴散過程從潛在分布開始,逐漸向其狀態添加噪聲,直到最終狀態完全是噪聲,然后反向重建。通過這種反向重建,純噪聲轉變為有意義的數據,因此 DDPMs 提供了一種自然的生成框架。我們旨在提供對 DDPMs 背后動機思想的基本但嚴謹的理解,并對文獻中一些最具影響力的基于 DDPM 的方法進行精確描述。

DDPMs 最初在 [44] 中提出,并在 [15] 中進一步推廣,已經能夠在圖像合成和編輯 [31,35,36,38,40]、視頻生成 [17,53]、自然語言處理 [3,26] 和異常檢測 [50,52] 等許多領域取得最先進的成果。在經典的形式中,DDPM 是一個由兩個隨機過程組成的框架,即正向過程和反向過程。正向過程——擴散過程——從初始時間步驟的(近似)潛在分布開始(例如,它的初始狀態可以是數據集中的隨機樣本),然后逐漸向其狀態添加噪聲,直到其終止時間步驟的狀態(近似)完全是噪聲。反向過程——去噪過程——是一個參數化過程,從(終止時間步驟)完全噪聲的狀態開始。在 DDPM 的背景下,關鍵思想是學習反向過程的參數,使得反向過程每個時間步驟的分布近似與正向過程對應時間步驟的分布相同。如果這一目標得以實現,反向過程可以解釋為逐漸去除噪聲,直到恢復到正向過程的初始分布。從這個意義上講,反向過程逐漸去噪其完全噪聲的初始狀態。一旦找到合適的反向過程參數,生成過程便是從反向過程采樣生成的。 在第2節中,我們將為 DDPMs 構建一個一般的數學框架,并解釋反向過程的訓練和生成樣本的基本思想。接著,在第3節中,我們將考慮該框架的最常見特例,即噪聲為高斯噪聲,反向過程由去噪人工神經網絡(ANN)控制的情況。在第4節,我們將討論文獻中用于評估生成樣本質量的一些指標。最后,在第5節中,我們將討論一些文獻中提出的最流行的基于 DDPM 的方法,如改進版 DDPMs(見 [15])、去噪擴散隱式模型(DDIMs)(見 [45])、無分類器擴散引導模型(見 [16])以及潛在擴散模型(見 [38])。特別是,無分類器擴散引導模型和潛在擴散模型展示了如何引導反向過程生成來自不同類別的數據以及基于給定文本生成數據。 本文的支持代碼可在 //github.com/deeplearningmethods/diffusion_model 獲得。

2 去噪擴散概率模型(DDPMs)

在本節中,我們將介紹去噪擴散概率模型(DDPMs)的主要思想。具體來說,我們將首先介紹并討論DDPMs的一般數學框架,并在2.1小節中詳細闡述其一些基本性質;接著,我們將在2.2小節中討論DDPMs的訓練目標,分析其如何實現生成建模的目標;最后,在2.3小節中,我們將基于這一訓練目標,提出一種簡化的DDPM方法。

3 帶有高斯噪聲的DDPMs

在本節中,我們考慮在轉移核由高斯分布給出時,帶有馬爾可夫假設的DDPMs。本節中考慮的設置和方法基本上與[15]中提出的相對應。直觀而言,在這個設置中,我們認為正向過程逐漸向訓練樣本添加高斯噪聲,反向過程則旨在逐漸去除噪聲,從而恢復原始的訓練樣本。 我們首先在3.1小節中討論高斯分布的一些基本性質。然后,在3.2小節中,我們介紹并描述一個涉及高斯分布作為轉移核的DDPM框架。接著,在3.3小節中,我們討論這種轉移核選擇對正向過程分布的影響,并在3.4小節中探討此選擇對上述引理2.9中訓練目標的上界的影響。受到前述章節啟發,我們在3.5小節中描述了帶有高斯噪聲的DDPM的訓練和生成方案。最后,在3.6小節中,我們指出了一些可能的人工神經網絡(ANNs)架構選擇,這些架構出現在3.5小節方法描述中。

4 生成模型的評估

在生成建模的背景下,特別是在擴散模型中,評估生成數據的質量和性能是至關重要的。因此,找到穩健的評估指標對于確保模型能夠生成期望的結果至關重要。在本節中,我們考慮了用于這一目的的兩類指標:內容變異指標和內容不變指標。這些指標提供了對模型在不同方面能力的理解。在4.1小節中,我們詳細解釋了兩種內容不變指標:生成模型評估指標(Inception Score,IS)和Fréchet生成模型距離(Fréchet Inception Distance,FID);在4.2小節中,我們概述了最常用的內容不變評估指標。

付費5元查看完整內容

小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。

我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。

本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。

1 引言

盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。

為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。

在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:

  • 在小型語言模型的預處理(模型架構)、訓練和后處理(模型壓縮)中使用的技術;以及
  • 該技術試圖優化的約束條件,如推理計算、訓練時間、速度等。

表1(技術)和表2(約束條件)展示了這些主軸的概覽。

需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。

**綜述的組織結構

本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。

**主要貢獻總結

本文的主要貢獻如下:

  • 針對從業者提供了一篇全面的小型語言模型綜述。我們還綜述了文獻中提到的問題設置、評估指標和數據集。
  • 我們引入了幾個直觀的小型語言模型分類法,并使用這些分類法對現有研究進行了綜述。
  • 我們識別了小型語言模型的重要應用、開放問題和挑戰,為未來的研究提供了方向。

2 模型架構

本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。

**2.1 輕量化架構

輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。

**2.2 高效自注意力近似

部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。

**2.3 神經架構搜索技術

本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。

**2.4 小型多模態模型

近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。

此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。

3 訓練技術

本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。

**3.1 預訓練技術

混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。

現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。

為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。

為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。

**3.2 微調技術

在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。

3.2.1 參數高效微調

參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。

3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。

數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。

通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。

語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。

最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。

結論

鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。

付費5元查看完整內容

在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。

引言

在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。

傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。

動機

盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。

文獻收集策略

為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。

分類

為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。

貢獻

總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。

論文組織

本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

生成式檢索(GR)是一種新興的信息檢索范式,利用生成模型直接將查詢映射到相關的文檔標識符(DocIDs),無需傳統的查詢處理或文檔重排序。本綜述提供了對GR的全面概述,重點介紹了關鍵發展、索引和檢索策略以及面臨的挑戰。我們討論了各種文檔標識符策略,包括數字和基于字符串的標識符,并探索了不同的文檔表示方法。我們的主要貢獻在于概述未來可能對該領域產生深遠影響的研究方向:改進查詢生成的質量、探索可學習的文檔標識符、增強可擴展性以及將GR與多任務學習框架集成。通過研究最先進的GR技術及其應用,本綜述旨在提供對GR的基礎性理解,并激發在這種變革性信息檢索方法上的進一步創新。我們還將諸如論文集等補充材料公開。

信息檢索(IR)的歷史經歷了顯著的演變,從基于統計詞關系的初步方法發展到利用先進深度學習技術的復雜系統。這一進程主要圍繞兩個主要訓練目標,如圖1所示:

目標1:向量相似度

最初,IR系統依賴于稀疏檢索技術,通過諸如詞袋模型和向量空間模型(VSM)(Salton, 1983)等方法利用詞之間的統計關系。在這些模型中,文檔被表示為稀疏向量,每個維度指示詞的存在或頻率。二元獨立模型(BIM)(Robertson和Jones, 1976)的發展和詞頻-逆文檔頻率(TF-IDF)的實現是這種方法的典型代表,強調了詞出現的獨立性和頻率。

隨著技術進步,重點轉向了稠密檢索。在這一階段,詞嵌入將詞轉化為稠密向量表示,捕捉到比單純關鍵詞匹配更深層次的語義相似性和上下文關系。在這一領域的重要發展包括Word2Vec(Mikolov et al., 2013)、GloVe(Pennington et al., 2014)以及變壓器網絡的進步如BERT(Devlin et al., 2018)。這些創新最終催生了如DPR(Dense Passage Retrieval)(Karpukhin et al., 2020)等復雜模型,通過采用稠密向量嵌入來理解復雜的查詢和文檔,顯著提高了信息檢索的精度和有效性。在DPR的基礎上,REALM(Guu et al., 2020)和RAG(Lewis et al., 2020)等模型將檢索與語言模型集成,進一步優化了相關性。ColBERT-QA(Khattab et al., 2021)通過上下文化嵌入進行精確答案檢索,提升了問答能力。

目標2:直接文檔映射

隨著信息檢索從向量相似度方法轉變,它采用了生成式檢索,這是一種利用生成模型直接生成與用戶查詢相關的文本響應或文檔標識符的方法。這標志著從匹配預先存在的向量表示到動態生成直接滿足用戶需求的文本輸出的重大轉變。在預檢索階段,生成模型通過諸如Xiao等人(2022)所示的使用掩碼自編碼器(MAE)的檢索導向預訓練范式等創新方法來提高稠密檢索的效率。該模型訓練從嵌入和掩碼輸入中重建句子,在各種基準測試中表現優異。在檢索階段,Lewis等人(2020)的檢索增強生成模型通過稠密段落檢索器選擇文檔并為復雜的自然語言處理任務生成答案,取得了頂級性能。此外,Tay等人(2022)的可微搜索索引(DSI)通過將查詢直接映射到相關文檔,顯著超越了傳統方法,并在零樣本設置中表現出強大的泛化能力。在后檢索階段,深度學習技術被應用于重新排序檢索到的文檔,如Guo等人(2016)通過分析查詢和文檔之間的復雜匹配模式來優化文檔排名。類似地,Mitra等人(2017)通過融合局部和分布式文本表示,利用局部和全局上下文來提高搜索結果質量,增強了網頁搜索重排序。通過這些創新,包括雙塔模型架構和可微搜索索引(DSI)(Tay等人,2022),生成式檢索不僅有效地響應查詢,還能在語料庫中識別相關信息,利用端到端訓練架構整合深度學習過程來簡化檢索體驗。

## 2 生成式檢索簡介

### 2.1 生成式檢索的定義

前一節展示了在各種信息檢索階段應用生成模型以促進任務執行。在本綜述論文中,我們旨在定義“生成式檢索”(GR),其背景是在Tay等人(2022)的可微搜索索引架構中,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。本質上,端到端架構足以完成信息檢索任務。我們正式定義GR為一個系統,其中,給定用戶查詢q作為輸入,seq2seq學習模型直接輸出若干文檔標識符(docids)。每個標識符j對應于語料庫D中的特定文檔dj,表明該文檔與查詢q相關(見圖2)。要實現這一點,GR需要兩個關鍵組件:索引和檢索。

#### 2.1.1 索引

在GR索引策略中,關鍵考慮因素是索引方法和索引目標。索引方法研究的是將文檔內容與其唯一標識符建立聯系的技術,基本上掌握了將每個文檔的文本與一個獨特的docid相關聯的過程。相反,索引目標關注文檔表示策略。這涉及有關索引細節級別的決策、索引特定文檔部分的重要性、處理重復信息的方式,以及語義理解在描繪文檔內容本質中的重要性。 在GR的索引方法中,重點是簡化將文檔內容與其唯一標識符連接的過程。我們可以將索引方法的過程公式化為對兩種類型的示例進行訓練。第一個是(dj, j),其中dj ∈ D表示語料庫D中的第j個文檔,j表示對應的標識符。構建索引時,對文檔-docid配對進行訓練是至關重要的。這種配對過程是創建每個文檔內容與其在數據庫中的位置之間的可檢索鏈接的第一步,從而實現高效的存儲和檢索。 第二個訓練示例是(qi, j),在這里我們將查詢qi與其相關的docid j鏈接。通過將查詢與相關的docid配對,系統學習定義用戶搜索意圖(通過查詢表達)和文檔內容(通過docid表示)之間相關性的上下文細微差別。這種訓練有助于模型理解哪些文檔與給定查詢最相關,這種理解僅通過索引是無法實現的。這些方法包括序列到序列轉換和雙向訓練的創新方法,以及基于跨度的去噪高級技術。第二個訓練示例的詳細信息將在第3節中討論。 對于索引目標,重點轉向系統中文檔的表示方式。由于模型容量和計算資源的限制,生成式檢索模型通常不可能以整個文檔作為直接輸入進行訓練。因此,有必要考慮其他有效表示文檔的方法,包括:

  1. 直接索引:取文檔的前L個標記。
  2. 集合索引:取前L個不重復的標記。
  3. 倒排索引:從文檔中隨機開始取連續的k個標記。
  4. 查詢作為表示:Zhuang等人(2022)提出了一種方法,使用生成的查詢來表示文檔,同時以DocID進行訓練。他們建議在訓練中使用查詢而不是整個文檔更符合檢索過程,因為檢索通常涉及使用查詢來查找相關文檔。 通過采用這些多樣化的索引方法,我們旨在提高生成式檢索系統的效率和準確性。直接索引和集合索引提供了簡單但有效的手段來捕獲重要的文檔內容,同時減少冗余。倒排索引提供了一種隨機但系統的方法來表示文檔,確保內容覆蓋多樣化。同時,利用查詢作為文檔表示將訓練階段與檢索階段對齊,促進更直觀和上下文感知的檢索過程。 最終,這些索引策略趨向于一個統一的目標:優化生成式檢索系統理解、索引和檢索文檔的能力,以高精度響應用戶查詢。通過平衡細節、相關性和全面性,我們可以確保系統不僅高效地存儲文檔內容,還能在用戶查詢時準確地檢索最相關的信息。這種平衡對于開發一個能夠處理多樣化和復雜信息需求的強大和可擴展的生成式檢索框架至關重要。

#### 2.1.2 檢索

完成索引階段后,我們將注意力轉向檢索階段。經典的GR模型采用seq2seq方法自回歸地解碼候選docids,其中這些docids的表示選擇對檢索效率至關重要。 在生成式檢索的開創性工作中,Tay等人(2022)引入了非結構化原子標識符方法,為每個文檔分配唯一整數。這一基礎方法得到了結構化標識符方法的補充,包括簡單結構的字符串標識符和語義結構的標識符,為細致的文檔表示鋪平了道路。隨著該領域的發展,后續工作在標識符表示上進行了多樣化探索,探索了字符串子集、文章標題等替代方案。第3節將詳細探討和比較這些擴展及其系列中的更廣泛工作,突出它們在生成式檢索背景下的貢獻和創新。

本文對生成式檢索(GR)進行了全面的綜述和分析,探討了其發展歷史、關鍵技術、挑戰和未來方向。以下是對信息檢索領域的五項重要貢獻

  • 信息檢索的發展歷程從稀疏檢索方法到稠密檢索技術,最終發展到生成式檢索,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。
  • 解釋了GR的核心概念,詳細說明了端到端的檢索過程、索引和檢索技術,包括文檔標識符策略和seq2seq模型。
  • 比較了各種文檔標識符類型,顯示具有語義信息的標識符通常表現更好,并探討了創建這些標識符的不同方法。
  • 討論了GR中的評估指標和常用數據集,強調它們在評估檢索性能和比較不同標識符策略中的作用。
  • 識別了諸如可擴展性和動態語料庫管理等挑戰。提出了未來的研究方向,如優化訓練方法、提高系統可擴展性以及整合多任務學習技術。

總之,這項研究提供了一個詳細的綜述,幫助讀者深入了解生成式檢索技術。它旨在激發該領域的進一步研究,并推動信息檢索技術的發展。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容
北京阿比特科技有限公司