亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著大型語言模型(LLMs)和視覺基礎模型(VFMs)的出現,利用大型模型的多模態AI系統有潛力像人類一樣感知現實世界、做出決策和控制工具。近幾個月來,LLMs在自動駕駛和地圖系統中顯示出廣泛的關注。盡管潛力巨大,但對關鍵挑戰、機會和未來應用于LLM駕駛系統的努力仍缺乏全面理解。在這篇論文中,我們對這一領域進行了系統性的研究。我們首先介紹多模態大型語言模型(MLLMs)的背景、使用LLMs的多模態模型開發以及自動駕駛的歷史。然后,我們概述了現有的MLLM工具,用于駕駛、交通和地圖系統,以及現有的數據集和基準測試。此外,我們總結了第一屆WACV關于自動駕駛的大型語言和視覺模型研討會(LLVM-AD)的工作,這是首個關于自動駕駛中LLMs的綜述。為了進一步推動這一領域的發展,我們還討論了在自動駕駛系統中使用MLLMs需要由學術界和工業界解決的幾個重要問題。論文集可以在Awesome-Multimodal-LLM-Autonomous-Driving中找到。

大型語言模型(LLMs)最近獲得了顯著的關注,顯示出在模仿類似人類的智能方面的顯著潛力。這些進展激發了對多模態大型語言模型(MLLMs)[199]的熱情,這些模型將LLMs的復雜推理能力與圖像、視頻和音頻數據結合起來。模態對齊使它們能夠以更高的熟練度執行各種任務,包括分類圖像、匹配文本和對應視頻以及語音檢測。此外,[174] 證明LLMs可以處理機器人領域的簡單任務,包括基本的邏輯、幾何和數學推理,到復雜的任務,如空中導航、操縱和具體化的代理。然而,LLMs融入交通和自動駕駛車輛領域還處于開創階段。將語言交流與全景圖像、激光雷達點云和駕駛行為等多模態感官輸入相結合,可以徹底改變當前自動駕駛系統的基礎模型。 最近,更有能力的基礎模型的出現使SAE L3駕駛自動化成為可能[28]。然而,多模態LLMs在自動駕駛中的集成并沒有跟上這些進展,一個自然的問題是,基于LLM的模型如GPT-4、PaLM-2和LLaMA-2是否有潛力增強自動駕駛?圖2為我們提供了一個很好的例子。不可否認,將LLMs整合到自動駕駛車輛行業可以帶來車輛智能、決策和乘客互動方面的重大范式轉變[30,31],提供一個更以用戶為中心、適應性強和值得信賴的交通未來。 在自動駕駛的背景下,LLMs將在關鍵模塊上帶來變革性影響:感知、運動規劃和運動控制[180]。在感知方面,LLMs可以利用外部API訪問實時基于文本的信息源,如高清地圖、交通報告和天氣更新,使車輛獲得對周圍環境更全面的了解[30]。一個很好的例子是改進車載地圖中的導航。LLMs可以處理實時交通數據,識別擁擠的路線,并提出替代路徑,最終優化導航的效率和安全性[159]。在運動規劃方面,LLMs通過利用它們的自然語言理解和推理[110]發揮作用。它們促進以用戶為中心的溝通,并使乘客能夠使用日常語言表達他們的意圖和偏好。此外,LLMs還處理文本數據源,如地圖、交通報告和實時信息,然后為優化路線規劃做出高層決策[124]。

在運動控制的背景下,大型語言模型(LLMs)首先使控制器參數的定制化成為可能,以符合駕駛者的偏好,實現駕駛體驗的個性化。此外,LLMs還可以通過解釋運動控制過程的每一步提供透明度。多模態大型語言模型(MLLMs)代表了LLMs的下一個發展層次,將語言理解的能力與處理和整合多樣數據模式的能力結合在一起。在自動駕駛的領域內,MLLMs的重要性是巨大且變革性的。裝備了MLLMs的車輛可以處理來自文本輸入的信息以及車載攝像頭和其他傳感器捕獲的其他特征,使復雜交通場景和駕駛行為的學習變得更加容易。在自動駕駛之外,MLLMs還可以通過語音通信和用戶偏好分析,顯著增強個性化的人車交互。在未來的SAE L4-L5級自動駕駛車輛中,乘客可以在駕駛過程中通過語言、手勢甚至目光來傳達他們的請求,而MLLMs可以通過集成視覺顯示或語音響應提供實時的車內反饋。

在我們將自動駕駛和高級建模領域橋接起來的追求中,我們聯合舉辦了2024年IEEE/CVF冬季計算機視覺應用會議(WACV)上的首屆大型語言和視覺模型自動駕駛研討會(LLVM-AD)。該活動旨在增強學術研究人員和行業專業人士之間的合作,探索在自動駕駛領域實施多模態大型語言模型的可能性和挑戰。LLVM-AD還發布了一個后續的開源真實世界交通語言理解數據集,催化了實際進展。

本文的主要貢獻可以概括如下:

  • 提供了當前多模態大型語言模型(MLLMs)和自動駕駛技術背景的簡要概述。
  • 概述了在自動駕駛中使用大型語言模型(LLMs)和MLLMs的好處,突出它們在感知、運動規劃、運動控制以及最近宣布的行業應用中的角色和當前工作。
  • 總結了與自動駕駛相關的數據集,特別強調了交通場景的駕駛語言數據集。
  • 回顧了WACV LLVM-AD研討會接受的論文,提供了有關LLMs和MLLMs在自動駕駛未來發展方向的洞見。

如圖1所示,我們的綜述論文旨在為自動駕駛的MLLMs提供全面概述,并討論不斷增長的趨勢和未來方向。接下來的兩個部分分別簡要描述了自動駕駛和MLLMs的發展歷史。第4節介紹了關于自動駕駛中MLLMs的當前已發表作品,涵蓋感知、運動規劃和運動控制。第5節介紹了利用MLLMs的相關自動駕駛行業應用。在最后三個部分中,我們總結了第一屆WACV LLVM-AD研討會的論文,并討論了LLMs和MLLMs在自動駕駛領域的潛在研究方向。 自動駕駛的發展 自動駕駛的追求是一個逐步前進的旅程,它由愿景抱負和技術能力之間的持續互動所標志。自動駕駛的第一波全面研究始于20世紀末。例如,由卡內基梅隆大學發起的自主陸地車輛(ALV)項目利用來自立體攝像頭、聲納和ERIM激光掃描儀的傳感器讀數執行諸如車道保持和障礙物避讓等任務。然而,這些研究受限于傳感器精度和計算能力的限制。

自動駕駛發展

在過去的二十年中,自動駕駛系統取得了快速的改進。2014年由汽車工程師學會(SAE)發布的分類系統定義了六個級別的自動駕駛系統。這種分類方法現已被廣泛接受,并揭示了研究和開發進程的重要里程碑。深度神經網絡(DNNs)的引入也發揮了重要作用。借助深度學習,計算機視覺對于解釋復雜的駕駛環境至關重要,為諸如目標檢測、場景理解和車輛定位等問題提供了最先進的解決方案。深度強化學習(DRL)在提升自動駕駛車輛的控制策略方面也發揮了關鍵作用,完善了運動規劃和決策過程,以適應動態和不確定的駕駛條件。此外,傳感器精度和計算能力的提高使得車輛上能運行更大、更準確的模型。隨著這些改進,更多L1至L2級別的高級駕駛輔助系統(ADAS)如車道居中和自適應巡航控制現在已在日常車輛上可用。諸如Waymo、Zoox、Cruise和百度等公司也在推出具有3級或更高自主性的Robotaxis。然而,這些自動駕駛系統在許多駕駛邊緣情況下仍然會失敗,例如極端天氣、糟糕的光照條件或罕見情況。

受當前局限性的啟發,自動駕駛研究的一部分現在專注于解決自動系統的安全性和增強自動系統的安全性。由于深度神經網絡通常被視為黑盒,可信AI旨在使系統更加可靠、可解釋和可驗證。例如,為自動駕駛系統生成對抗性的安全關鍵場景,以便系統更有能力處理低概率事件。另一種提高整體安全性的方法是通過車對基礎設施和車對車通信。通過來自附近實例的信息,系統將具有改進的魯棒性,并可以接收早期警告。與此同時,隨著大型語言模型展示出其強大的推理和場景理解能力,正在進行研究以利用它們來提高自動駕駛系統的安全性和整體性能。

多模態大型語言模型

最近,多模態大型語言模型(MLLMs)已成為一個重要的研究領域。這些模型利用了大型語言模型(LLMs)的力量,如ChatGPT、InstructGPT、FLAN和OPT-IML,來執行跨越多種模態(如文本和圖像)的任務。它們展現出了令人驚訝的新興能力,例如基于圖像編寫故事和執行無需光學字符識別的數學推理,這在傳統方法中很罕見。這表明了通往人工通用智能的潛在路徑。MLLMs中的關鍵技術和應用包括多模態指令調整(Multimodal Instruction Tuning),它調整模型以跟隨不同模態的指令;多模態上下文學習(Multimodal In-Context Learning),允許模型從多模態數據的上下文中學習;多模態思維鏈(Multimodal Chain of Thought),使模型能夠跨不同模態保持思維鏈;以及LLM輔助視覺推理(LLM-Aided Visual Reasoning, LAVR),利用LLMs來幫助視覺推理任務。MLLMs更符合人類感知世界的方式,提供了比LLMs更友好的用戶界面,并支持更廣泛的任務范圍。MLLMs的最新進展得益于GPT-4V的發展,盡管它沒有開放的多模態界面,但已展示出驚人的能力。研究社區已經做出了重大努力,開發了功能強大的開源MLLMs,并展示了驚人的實際能力。

**多模態語言模型在自動駕駛領域 **

在自動駕駛行業中,多模態語言模型(MLLMs)有潛力理解交通場景,改善駕駛決策過程,并徹底改變人與車輛的互動方式。這些模型接受了大量交通場景數據的訓練,使它們能夠從地圖、視頻和交通規則等不同來源提取有價值的信息。因此,它們可以增強車輛的導航和規劃能力,確保安全性和效率。此外,它們能夠適應不斷變化的道路條件,并具有與人類直覺非常相似的理解水平。

多模態語言模型在感知方面的應用 傳統的感知系統通常僅限于識別一組預定義的特定對象類別,這限制了它們的適應性,并需要收集和注釋新數據的繁瑣過程以識別不同的視覺概念。因此,它們的通用性和實用性受到了削弱。相比之下,一種新的范式正在興起,它涉及從原始文本描述和各種模態中學習,提供更豐富的監督來源。

多模態大型語言模型(MLLMs)由于能夠通過文本分析來分析非文本數據(如圖像和點云)而受到了顯著關注。這些進展極大地提高了零樣本和少樣本圖像分類、分割和對象檢測。

開創性的模型如CLIP已經表明,通過訓練將圖像與標題匹配,可以有效地從頭開始創建圖像表示。在此基礎上,Liu等人引入了LLaMa,它結合了視覺編碼器和LLM,增強了對視覺和語言概念的理解。Zhang等人進一步擴展了這項工作,開發了Video-LLaMa,使MLLMs能夠處理視頻中的視覺和聽覺信息。這代表了機器感知在整合語言和視覺模態方面的重大進展。

多模態語言模型用于規劃和控制 在機器人學領域,語言在規劃和控制任務中的使用已有悠久的歷史,可以追溯到早期展示人機互動的自然語言詞匯解析的使用[187],并且它已經被廣泛研究用于機器人領域。關于這個主題存在廣泛的綜述性研究[104, 164]。已經被充分證明,語言作為非專業人員與機器人交流的有價值接口[82]。此外,通過基于語言的控制實現機器人系統對新任務的泛化能力已經在各種研究中得到證明[2, 66]。已經廣泛研究了實現特定規劃或控制任務或策略,包括基于模型的[5, 121, 153]、模仿學習[105, 155]和強化學習[47, 67, 116]。

由于多模態語言模型在零樣本學習[167]、上下文學習[114]和推理[184]方面具有顯著的能力,許多研究表明LLM(多模態語言模型)可以啟用規劃[152, 176]和通過文本描述來感知環境[157],以開發用戶在機器人控制中的參與[174]。[81]通過文本完成和語義翻譯的組合將自然語言命令分解為可執行操作序列,以控制機器人。SayCan [2]利用加權LLMs來生成合理的動作并控制機器人,而[62]使用環境反饋,LLMs可以發展內心的自言自語,增強了它們在機器人控制場景中進行更全面處理的能力。Socratic Models [202]使用視覺語言模型替代用于機器人行動生成的語言提示中的感知信息。[96]介紹了一種使用LLMs直接生成機器人執行任務的策略代碼、指定反饋循環和編寫低級控制原語的方法。

在自動駕駛方面,LLMs可以作為支持人機交互的橋梁。對于通用目的,LLMs可以是任務無關的規劃器。在[60]中,作者發現預訓練的LLMs包含了關于一致和可執行行動計劃的可操作知識,無需額外的訓練。黃等人[61]提出了使用LLMs將任意自然語言命令或任務描述轉化為具體和詳細列出的目標和約束。[185]提出將LLMs集成為決策解碼器,以生成沿著自主車輛中的思維鏈提示的行動序列。在[31]中,作者展示了LLMs可以將駕駛員的任意命令分解為一系列中間階段,其中包括實現目標的行動的詳細描述。

同時,增強自動駕駛的安全性和可解釋性也是至關重要的。多模態語言模型提供了理解環境及決策過程透明性的潛力。[77]顯示,視頻到文本模型可以幫助生成與下游控制器對齊的環境文本解釋。Deruyttere等人[33]比較了基線模型,并顯示LLMs可以識別與自然語言命令或描述相關的環境中的特定對象。為了提高模型的可解釋性,Xu等人[193]提出了集成LLMs以生成關于計劃行動的解釋的方法。在[31]中,作者提出了一個框架,LLMs可以提供關于它們如何感知和對環境因素(如天氣和交通狀況)做出反應的描述。

此外,自動駕駛中的LLMs還可以促進控制器參數的微調,使其與駕駛員的偏好相一致,從而獲得更好的駕駛體驗。[150]通過引導參數矩陣適應將LLMs集成到低級控制器中。除了LLMs的發展,多模態語言-圖像模型(MLLMs)也取得了巨大進展。MLLMs具有作為自動駕駛的通用和安全規劃模型的潛力。處理和融合視覺信號,如圖像,可以通過結合視覺線索和語言指令[69, 84]增強導航任務。在自動規劃過程中,互操作性挑戰一直是一個問題[23, 46]。然而,近年來在解決自動規劃中的互操作性挑戰方面取得了巨大進展,利用MLLMs在自動駕駛規劃階段的出色推理能力[22, 41]。在一個顯著的方法中,陳等人[22]將矢量化的對象級2D場景表示集成到預訓練的LLM中,通過適配器實現直接解釋和全面推理各種駕駛場景。此外,付等人[41]利用LLMs進行推理,并將這種推理轉化為可執行的駕駛行為,展示了LLMs在增強自動駕駛規劃方面的多功能性。

此外,GPT-Driver [110]將運動規劃重新構想為一個語言建模問題,并利用LLMs在運動規劃中以自然語言描述高精度軌跡坐標及其內部決策過程。SurrealDriver [68]模擬了基于MLLM的生成駕駛代理,可以感知復雜的交通情景并生成相應的駕駛操作。[76]研究了在自動駕駛中使用文本描述與預訓練的語言編碼器進行運動預測的可能性。

付費5元查看完整內容

相關內容

 ,又稱為無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,是自動化載具的一種,具有傳統汽車的運輸能力。作為自動化載具,自動駕駛汽車不需要人為操作即能感測其環境及導航。完全的自動駕駛汽車仍未全面商用化,大多數均為原型機及展示系統,部分可靠技術才下放至商用車型,但有關于自駕車逐漸成為現實,已經引起了很多有關于道德的討論。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。

然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

大型語言模型(LLMs)在解決多樣的自然語言處理任務方面具有強大的能力。然而,LLM系統的安全性和安全問題已成為其廣泛應用的主要障礙。許多研究廣泛調查了LLM系統中的風險,并開發了相應的緩解策略。像OpenAI、谷歌、Meta和Anthropic這樣的領先企業也在負責任的LLM上做了大量努力。因此,組織現有研究并為社區建立全面的分類體系的需求日益增長。在本文中,我們深入研究了LLM系統的四個基本模塊,包括用于接收提示(prompt)的輸入模塊、在廣泛語料庫上訓練的語言模型、用于開發和部署的工具鏈模塊,以及用于輸出LLM生成內容的輸出模塊。基于此,我們提出了一個全面的分類體系,系統地分析了與LLM系統每個模塊相關的潛在風險,并討論了相應的緩解策略。此外,我們回顧了流行的基準,旨在促進LLM系統風險評估。我們希望本文能幫助LLM參與者以系統的視角構建他們負責任的LLM系統。

//www.zhuanzhi.ai/paper/327b8030016bf5ebb68cfd832fc22a16

大型語言模型(LLMs)[1]-[5],擁有大量在廣泛語料庫上預訓練的模型參數,已在自然語言處理(NLP)領域引發了一場革命。模型參數的規模擴大和預訓練語料庫的擴展,賦予了LLMs在各種任務上的顯著能力,包括文本生成[2]、[4]、[5],編碼[2]、[6],以及知識推理[7]-[10]。此外,提出了對齊技術(例如,監督微調和基于人類反饋的強化學習[4]、[11]),以鼓勵LLMs與人類偏好保持一致,從而提高LLMs的可用性。在實踐中,像ChatGPT [12]這樣的先進LLM系統已經在全球范圍內獲得了用戶群,成為復雜NLP任務的競爭性解決方案。

盡管LLM系統取得了巨大的成功,但它們有時可能違反人類的價值觀和偏好,從而引發了對基于LLM應用的安全性和安全問題的擔憂。例如,由于Redis客戶端開源庫的漏洞,ChatGPT泄露了用戶的聊天歷史[13]。此外,精心設計的對抗性提示(prompt)可能會引發LLMs產生有害的回應[14]。即使沒有對抗性攻擊,當前的LLMs仍可能生成不真實的、有害的、有偏見的,甚至是非法的內容[15]-[19]。這些不良內容可能被濫用,導致不利的社會影響。因此,大量研究工作致力于緩解這些問題[15]-[18]。像OpenAI、谷歌、Meta和Anthropic這樣的領先機構也在負責任的LLMs上做了大量努力,優先發展有益的人工智能[20]-[23]。

為了減輕LLMs的風險,迫切需要開發一種全面的分類體系,列舉構建和部署LLM系統時固有的所有潛在風險。這種分類體系旨在作為評估和提高LLM系統可靠性的指導。目前,大多數現有努力[15]-[18]基于對輸出內容的評估和分析,提出了自己的風險分類。一般來說,一個LLM系統由各種關鍵模塊組成——一個用于接收提示(prompt)的輸入模塊,一個在大量數據集上訓練的語言模型,一個用于開發和部署的工具鏈模塊,以及一個用于輸出LLM生成內容的輸出模塊。據我們所知,目前提出的針對LLM系統各個模塊的風險分類較少。因此,本工作旨在彌補這一差距,鼓勵LLM參與者:1)理解與LLM系統每個模塊相關的安全性和安全問題;2)采用系統的視角構建更負責任的LLM系統。

為了實現這一目標,我們提出了一種面向模塊的分類體系,對LLM系統每個模塊的風險及其緩解策略進行分類。對于特定的風險,面向模塊的分類體系可以幫助快速定位需要關注的模塊,從而幫助工程師和開發者確定有效的緩解策略。如圖1所示,我們提供了LLM系統內部隱私泄露的一個例子。使用我們的面向模塊的分類體系,我們可以將隱私泄露問題歸因于輸入模塊、語言模型模塊和工具鏈模塊。 因此,開發人員可以通過對抗提示(adversarial prompts)、實施隱私訓練和糾正工具中的漏洞來減輕隱私泄露的風險。除了總結LLM系統的潛在風險及其緩解方法外,本文還回顧了廣泛采用的風險評估基準,并討論了流行LLM系統的安全性和安全問題。

總結本文的主要貢獻如下

我們對LLM系統的每個模塊相關的風險和緩解方法進行了全面的綜述(survey),并回顧了評估LLM系統安全性和安全性的基準。

我們提出了一個面向模塊的分類體系,將潛在風險歸因于LLM系統的特定模塊。這種分類體系幫助開發者更深入地理解可能風險的根本原因,從而促進有益LLM系統的開發。

我們的分類體系從更系統的角度覆蓋了比以往分類更廣泛的LLM風險范圍。值得注意的是,我們考慮了與工具鏈密切相關的安全問題,這在以前的綜述中很少討論。

LLM模塊。一個LLM系統涉及一系列數據、算法和工具,可以劃分為LLM系統的不同模塊。在這篇綜述中,我們討論了最主要的模塊,包括用于接收提示的輸入模塊、在大量數據集上訓練的語言模型、用于開發和部署的工具鏈模塊,以及用于輸出LLM生成內容的輸出模塊。

圖2展示了上述模塊之間的關系

輸入模塊。輸入模塊實現了輸入保護功能,用于接收和預處理輸入提示。具體來說,這個模塊通常包含一個等待用戶輸入請求的接收器和基于算法的策略來過濾或限制請求。

語言模型模塊。語言模型是整個LLM系統的基礎。本質上,這個模塊涉及到大量的訓練數據和使用這些數據訓練的最新語言模型。

工具鏈模塊。工具鏈模塊包含了LLM系統開發和部署所使用的實用工具。具體來說,這個模塊涉及到軟件開發工具、硬件平臺和外部工具。

輸出模塊。輸出模塊返回LLM系統的最終響應。通常,該模塊配備了輸出保護功能,以修正LLM生成的內容,使其符合倫理正當性和合理性。

隨著LLM(大型語言模型)的日益普及,與LLM系統相關的風險也越來越受到關注。在本節中,我們將這些風險按照LLM系統的不同模塊進行分類。圖3展示了我們在這篇綜述中調查的風險概覽。

在這項工作中,我們對LLM系統的安全性和安全問題進行了廣泛的綜述,旨在激勵LLM參與者在構建負責任的LLM系統時采用系統性的視角。為了促進這一點,我們提出了一個面向模塊的風險分類體系,用于組織LLM系統每個模塊相關的安全性和安全風險。通過這個分類體系,LLM參與者可以快速識別與特定問題相關的模塊,并選擇合適的緩解策略來減輕問題。我們希望這項工作能夠服務于學術界和工業界,為負責任的LLM系統的未來發展提供指導。

付費5元查看完整內容

基礎模型(FMs)作為一種新興的AI技術組合的出現,在計算醫療領域掀起了一股機遇浪潮。這些模型的交互式特性,受預訓練數據和人類指令的指導,已經點燃了一個以數據為中心的AI范式,這一范式強調更好的數據特征描述、質量和規模。在醫療AI中,獲取和處理高質量臨床數據記錄一直是一個長期挑戰,涉及數據數量、標注、患者隱私和倫理等方面。在這篇綜述中,我們調研了FM時代(從模型預訓練到推理)的一系列以數據為中心的方法,旨在改善醫療工作流程。我們討論了AI安全性、評估和與人類價值觀的一致性方面的關鍵視角。最后,我們提供了基于FM的分析技術對提升患者結果和臨床工作流程性能的樂觀展望,這在醫療和醫學不斷發展的領域中顯得尤為重要。我們在//github.com/Yunkun-Zhang/Data-CentricFM-Healthcare提供了最新的醫療相關基礎模型和數據集列表。

**1 引言 **

基礎模型(FMs)的崛起在視覺識別[131, 211, 218]、語言理解[24, 59, 193, 194]和知識發現[21, 201]等領域引發了一系列突破。在計算醫療[3, 72]領域,FMs能夠處理各種臨床數據,其在邏輯推理和語義理解方面的吸引力不言而喻。例子涵蓋了醫療對話[241, 316]、患者健康檔案[48]和治療規劃[192]等領域。此外,鑒于其在大規模數據處理方面的優勢,FMs提供了一種快速有效評估實際臨床數據的新范式,從而改善醫療工作流程[208, 261]。 FMs研究重點放在以數據為中心的視角[318]。首先,FMs展示了規模的力量,其中擴大的模型和數據規模使FMs能夠捕獲大量信息,因此增加了對訓練數據量的迫切需求[272]。其次,FMs鼓勵同質化[21],這一點通過它們廣泛適應下游任務的能力得到了證明。因此,高質量的FM訓練數據變得至關重要,因為它會影響預訓練FM和下游模型的性能。因此,解決關鍵的數據挑戰被逐漸認為是研究的重點。在醫療系統中,收集高質量的記錄可以實現對患者特征(影像、基因組和實驗室檢測數據)的全面了解[6, 121, 244]。正如所示,以數據為中心的策略有望重塑臨床工作流程[122, 219],實現精確診斷[111],并揭示治療方面的見解[40]。 醫療數據挑戰在過去幾十年一直是持續的障礙,包括多模態數據融合(第4節)、有限的數據量(第5節)、標注負擔(第6節)以及患者隱私保護的關鍵問題(第7節)[38, 94, 108, 215]。為了應對,FM時代開啟了推進以數據為中心的AI分析的視角。例如,多模態FMs可以提供針對不同數據格式的可擴展數據融合策略[63, 146]。同時,FM生成高質量數據的吸引力可以大大幫助解決醫療和醫療保健社區中的數據數量、稀缺性和隱私問題[33, 63, 168, 257, 269, 331]。為了構建負責任的醫療AI解決方案,AI與人類一致性的不斷發展視角[77, 191]變得越來越重要。我們討論了FMs在現實世界中與人類倫理、公平和社會規范保持一致的必要性,以減少在性能評估、倫理合規性和患者安全方面的潛在風險[94, 154, 163, 198]。在FM時代,實現AI與人類的一致性進一步強調了數據焦點的重要性,激勵我們優先考慮計算醫療領域中的以數據為中心的挑戰。 在這篇綜述中,我們提供了一個關于開發、分析和評估針對醫療的FM為中心的方法的廣泛視角。從圖1所示的以數據為中心的視角來看,我們強調了患者、醫療數據和基礎模型之間的相互作用。我們收集并討論了分析FMs所需的基本概念、模型、數據集和工具(圖2)。最后,我們強調了在醫療和醫學中應用FMs時出現的新風險,包括隱私保護和倫理使用方面。我們提出了基于FM的分析技術的有希望的方向,以提高患者結果的預測性能并簡化臨床數據工作流程,最終將構建更好的、與AI人類相一致的、以數據為中心的工具、方法和系統,用于醫療和醫學。

基礎模型(FM)分析的增長為醫療應用提供了洞見[208, 295, 321]。我們回顧了解決醫療領域中FM多個方面的關鍵技術、工具和應用。我們展示了如何將通用目的的FMs應用于醫療領域(第3.1節)。我們介紹了專注于醫療的FMs,并展示了從通用FMs中獲得的預訓練優勢(第3.2節)。

基礎模型與醫療健康

在醫療和醫療保健中適應通用基礎模型 研究工作已經開始評估FM在醫學領域的卓越能力[85, 192, 227]。在這些研究中,我們確定了兩個核心技術:參數高效微調(PEFT)和情境中學習(ICL)。

** 通過參數高效微調(PEFT)進行適應。**

PEFT方法已被應用于將FMs適配到醫學任務。例如,Dutt等人[68]展示了PEFT方法在醫學圖像分類和文本到圖像生成任務的數據有限場景中顯著優于FMs的完全微調。Gema等人[85]提出了一個兩階段PEFT框架,將LLaMA[263]適應到一系列臨床任務。在這項工作中,第一階段應用LoRA[105]對LLaMA進行微調,構建了針對臨床筆記的Clinical LLaMA-LoRA;第二階段再次應用LoRA將臨床FM適配到下游任務。他們還展示了LoRA作為PEFT方法的主要選擇之一,非常適合臨床領域適配。同樣,Van Veen等人[271]應用LoRA對T5模型[143, 214]進行微調,用于放射科報告摘要。他們還將LoRA與情境中學習結合應用于臨床文本摘要任務,表現出比人類專家更好的性能[273]。

通過情境中學習(ICL)進行適應

ICL已證明在適應FMs,特別是大型語言模型(LLMs),到各種醫療任務中是有效的。通過精心設計的特定任務輸入上下文(即提示),FM可以在不修改任何模型參數的情況下很好地完成醫療任務。例如,Nori等人[192]評估了GPT-4[194]在美國醫學執照考試(USMLE)上的表現,而沒有特別設計的提示。GPT-4展示了其令人期待的零樣本性能,即使沒有添加相關醫療背景數據。Lyu等人[174]利用ChatGPT[193]將放射學報告翻譯成通俗語言,以便于報告理解和翻譯。實驗表明,通過使用更清晰、更結構化的提示,整體翻譯質量可以提高。Roy等人[227]展示了SAM[131]在腹部CT器官分割中的出色泛化能力,通過其點/邊框提示。Deng等人[58]評估了SAM在腫瘤分割、非腫瘤組織分割和整個幻燈片圖像(WSI)上的細胞核分割的零樣本性能,證明了SAM在病理掃描中大型連通物體上表現良好。Chen等人提出了“思維診斷”(DoT)提示[43],以協助專業人士檢測認知扭曲。DoT通過提示LLMs依次進行主觀性評估、對比推理和模式分析來診斷精神疾病。

預訓練醫療基礎模型

研究人員努力基于大規模未標記的醫療數據預訓練FMs,用于健康記錄檢查[7, 90, 245]、醫學影像診斷[11, 287]和蛋白質序列分析[45, 157]。原則上,預訓練過程可以概括為兩個主要方面:預訓練策略和模型初始化。

預訓練策略。

醫療FM的預訓練通常利用一系列從通用領域FMs衍生的預訓練策略,因為它們具有潛在的泛化能力。第一個預訓練策略是遮蔽語言/圖像建模,遵循BERT[59]和遮蔽自動編碼器(MAE)[96]。例如,SciBERT[14]和PubMedBERT[90]分別基于BERT策略在多領域科學出版物和生物醫學領域特定語料庫上進行預訓練。BioLinkBERT[309]利用生物醫學文檔之間的鏈接,并基于遮蔽語言建模和文檔關系預測任務進行預訓練。BioGPT[172]基于GPT-2[213]在PubMed1摘要上進行預訓練,用于生成語言任務。RETFound[334]是一個用于視網膜圖像疾病檢測的FM,基于MAE在大量未標記的視網膜圖像上進行預訓練,以重構具有75%遮蔽區域的輸入圖像。同樣,General Expression Transformer (GET)[74]是一個用于建模213種人類細胞類型的轉錄調節的FM。GET被預訓練以預測輸入中遮蔽調節元素的基序結合分數,以學習調節模式。 對比學習是另一種重要的醫療FM預訓練策略。例如,REMEDIS[11]是一個通過對比學習預訓練的醫學視覺模型,用于提取醫學圖像的代表性視覺特征。例如MedCLIP[287]、MI-Zero[171]和PLIP[110]等視覺-語言模型是通過對比學習在特定領域的圖像-文本對上進行預訓練的。它們在放射學和病理學中的零樣本圖像分類任務上取得了積極的表現。

結論

基礎模型(FMs)及其在醫療保健領域的應用所取得的顯著進展,為更好的患者管理和高效的臨床工作流程打開了新的可能性。在這些努力中,收集、處理和分析可擴展的醫療數據對于基礎模型研究變得越來越關鍵。在這篇綜述中,我們提供了從數據中心視角出發對基礎模型挑戰的概述。基礎模型具有巨大潛力,可以緩解醫療保健中的數據挑戰,包括數據不平衡和偏見、數據稀缺以及高昂的注釋成本。由于基礎模型強大的內容生成能力,對數據隱私、數據偏見以及對生成的醫療知識的倫理考慮需要更加警惕。只有充分可靠地解決數據中心的挑戰,我們才能更好地利用基礎模型在醫學和醫療保健的更廣泛范圍內的力量。

付費5元查看完整內容

盡管人工智能,特別是深度學習在智能制造的各個方面都有顯著的改進,但由于泛化能力差、建立高質量訓練數據集的困難以及深度學習方法的不盡人意的性能,這些技術在廣泛應用方面仍面臨挑戰。大規模基礎模型(LSFMs)的出現在人工智能領域引發了一波浪潮,使深度學習模型從單任務、單模態、有限數據模式轉變為涵蓋多種任務、多模態并在大量數據集上進行預訓練的范式。盡管LSFMs已經展示出強大的泛化能力、自動高質量訓練數據集生成能力以及在各個領域的卓越性能,但LSFMs在智能制造領域的應用仍處于起步階段。對這個主題的系統性概述尚缺乏,尤其是關于深度學習的哪些挑戰可以通過LSFMs解決,以及如何系統地應對這些挑戰。為了填補這一空白,本文系統地闡述了LSFMs當前的狀況及其在智能制造背景下的優勢,并與當前深度學習模型在各種智能制造應用中面臨的挑戰進行了全面比較。我們還概述了利用LSFMs解決這些挑戰的路線圖。最后,通過在真實世界智能制造場景中應用LSFMs的案例研究來說明LSFMs如何幫助行業提高效率。

制造業是國家經濟的支柱之一,幾個國家已經宣布了戰略路線圖,以促進新制造技術的應用,確保在這一領域的領導地位,例如德國的工業4.0 [1]、美國的智能制造領導聯盟(SMLC) [2] 和中國制造2025 [3]。在過去的幾十年里,通過部署新技術如傳感器、物聯網(loT)、機器人、數字孿生以及網絡物理系統(CPSs) [4]–[15],制造業變得更加智能,其中在制造過程的所有階段持續生成并捕獲前所未有的數據量。因此,高效的數據處理算法被極為渴求,以實現有效的故障診斷和預測性維護、質量控制、人類操作、流程優化以及智能制造所需的許多其他智能決策 [16]–[20]。統計數據顯示,82% 使用智能制造技術的工業活動獲得了效率和性能的提升 [16], [21]。智能制造的這些改進主要歸功于各種機器學習算法的實施,這些算法隨著制造數據的規模和復雜性的增加,其中許多先進的數據驅動方法已被研究和采用,以實現大規模數據處理能力,高效率和強大的決策制定能力,這兩者通常是復雜制造活動所共同需要的。表1列出了這一領域的一些綜述文章 [22]–[88]。 傳統機器學習方法,如支持向量機、K最近鄰、樸素貝葉斯等,在一定程度上可以提高制造業的決策性能 [89]–[91]、生產線調度 [92], [93]、機器維護安排 [94], [95]、故障預測 [96]–[98]、質量評估 [99], [100] 和缺陷檢測 [101], [102]。然而,它們過分依賴于手工特征工程以用領域知識表示數據,并且缺乏處理大規模數據中高度非線性關系的能力,限制了它們在智能制造中的應用 [103], [104]。 深度學習作為一種先進的機器學習方法,能夠通過采用多層神經網絡架構,從高維非線性原始數據中自動提取特征和識別模式,使其更適應智能制造的復雜數據處理。在過去的十年里,深度學習方法是智能制造各個領域中主流的數據驅動方法,例如健康管理(PHM) [105]–[125]、質量控制 [126]–[142]、機器人 [143]–[149] 和人類活動識別 [66], [150]–[165]。 盡管深度學習展示了高層次的特征學習抽象表達能力,具有出色的端到端決策模型能力并且顯著減少了對人力的需求,從而大大推動了智能制造的發展,但在應用時仍面臨重大困難 [45], [166]–[169]。首先,為特定模式和目標定制的小型深度學習模型的性能受限。這些模型存在泛化能力有限、可解釋性差、易受攻擊等問題,無法滿足企業在智能生產和管理方面的需求,尤其是在數據多樣的復雜任務中 [170]–[175]。此外,它們只能以分散、松散耦合的方式處理個別任務 [176]–[178]。其次,數據規模增長和數據集建立成本的要求限制了深度學習模型的性能。作為一種數據驅動的方法,深度學習模型依賴于擬合輸入和輸出之間的關系,其中訓練數據集的數量和質量起著關鍵作用 [166]。盡管新技術如傳感器和物聯網使得高效收集大量數據成為可能 [179]–[184],但這些數據通常分布不均、噪聲多、缺乏標簽,并包含大量非結構化數據。因此,這些數據不足以訓練出好的深度學習模型。與此同時,深度學習模型處理大規模數據的效率不足。最近出現的大規模基礎模型 [185]–[189] 通常通過廣泛的自監著學習進行訓練,并展示了強大的泛化能力、卓越的零樣本性能和令人印象深刻的多模態融合能力,這在自然語言處理、計算機視覺等多種下游任務中取得的成功中得到了證明 [190]–[197]。盡管利用LSFMs應對智能制造中的挑戰的努力才剛剛開始,但已有一些進展被嘗試。[198], [199] 討論了LSFMs在工業制造中的潛在應用,但僅限于特定的工業任務或特定LSFM。Ji等人 [200] 提出了對比視覺基礎模型在隱蔽場景中的性能與最新深度學習模型的定量比較。Ogundare等人 [201] 提出了一項關于大型語言模型(LLMs)生成的工業自動化和控制系統的彈性和效率的研究。

盡管LSFMs在智能制造中展現出巨大潛力,其中強大的泛化能力、自動高質量訓練數據集生成和卓越性能非常受歡迎,但這一領域的研究仍處于早期階段,且關于智能制造應用中LSFMs的系統性綜述尚未出現。本文提出了在智能制造中使用LSFMs的技術路線圖,特別是在深度學習方法遇到重大障礙的地方。我們的工作旨在提供指導方向和討論,幫助理解LSFMs如何能夠惠及智能制造

本文的其余部分組織如下。第二部分描述了深度學習模型在智能制造中遇到的挑戰。在第三部分,我們首先提供了LSFMs當前進展的簡要概述,隨后我們討論了LSFMs在智能制造中的技術優勢,這些優勢解決了深度學習所面臨的挑戰。第四部分闡述了在智能制造中應用LSFMs的路線圖。最后,在第五部分,我們通過幾個我們在實際制造場景中應用的案例來說明LSFMs如何在智能制造中取得進展。

大規模基礎模型(LSFMs)的進展

基礎模型旨在通過大規模數據集進行訓練,即擁有數十億至數千億的參數,并在近期首次被命名 [185]。這些模型在預訓練后可以固定大部分參數,并通過微調適應廣泛的下游應用。事實上,大規模基礎模型(LSFMs)在自然語言處理 [292]、計算機視覺 [293] 等領域取得了革命性的進展。

如圖2所示,大型語言模型(LLMs)領域見證了眾多令人印象深刻的進展 [294]–[297]。其中,GPT系列 [292], [294], [298], [299] 無疑是LLMs中最著名和最具標桿性的。GPT系列的最新版本,GPT-4 [292],支持多模態輸入,接受圖像和文本,并生成文本輸出。它是一個基于Transformer的模型,預訓練用于預測文檔中的下一個詞。后續的微調過程可以增強其事實準確性,并確保其性能與期望的行為一致。在各種專業和學術基準測試中,GPT-4展示了與人類水平相當的性能,尤其是在人機交互、教育、醫療和法律等領域。LlaMA模型 [300] 目前是最受歡迎的開源LLM,提供四種規模:7B、13B、30B和65B。由于LlaMA是在英文語料庫上進行預訓練的,因此在使用時通常需要用目標語言的指令或數據進行微調,從而產生了一系列擴展模型 [301]–[303],構成了LlaMA家族。

LSFMs在智能制造應用中的路線圖

A. 提升泛化能力的路線圖

預訓練與微調相結合:當模型參數和大小超過一定閾值時,這些模型不僅展示了突現的性能提升,還獲得了小規模模型所缺乏的功能,如邏輯推理能力 [294], [340]。在智能制造中,LSFMs結合預訓練和微調的方式提供了多種可能性,用以解決傳統小規模深度學習方法所遇到的問題。LSFMs在多樣化的通用數據集上進行預訓練,減少了對有限的、特定任務的數據集的依賴,因此盡管模型的參數量很大,也減輕了過擬合的風險。Kahatapitiya等人 [341],考慮到視頻-文本匹配數據的有限可用性,應用了一個預訓練的圖像-文本模型到視頻領域,用于視頻-文本匹配,而不是從頭開始訓練。此外,特定的微調策略可以增強模型的泛化能力,以進一步避免在小樣本學習中微調過程中可能出現的模型過擬合。Song等人 [342] 提出了一種稱為特征判別對齊(FD Align)的微調方法,通過保持偽特征的一致性來增強模型泛化能力,在分布內(ID)和分布外(OOD)任務中展示了有效性。

通過LSFMs構建結構化數據:LSFMs可用于提取和理解復雜的非結構化數據,并將其編碼為可管理的結構化格式,例如,處理工單中的非結構化文本數據 [343]。深度生成模型(DGM)和諸如VIT [304]之類的模型旨在從非結構化數據中發現復雜的高維概率分布,以提取更抽象、更復雜的特征。Oliveira等人 [344] 概述了四種類型的DGM:基于能量的模型(EBM)、生成對抗網絡(GAN)、變分自編碼器(VAE)和自回歸模型,以及它們如何應用于供應鏈管理(SCM)優化。

通過提示嵌入知識:一旦專家知識被編碼,它可以與輸入文本或圖像特征融合,從而提高輸出的準確性 [345]。許多LSMFs,如ChatGPT和SAM,固有地包含了手動提示編碼,允許通過提示融合領域知識,而無需修改模型。例如,對于抽象的人類行為活動,模型可能難以一次性描述它們。因此,可以引導它首先生成與對象相關的活動描述,強調區分相似活動的關鍵對象。隨后,它可以識別人類活動的活動類別并幫助解釋上下文 [346]。此外,LSFMs甚至可以在訓練過程中通過收集案例研究來收集相關的領域知識 [347]。

使用多模態LSFMs:智能制造通常產生多種形式的數據,包括自由文本維護日志、圖像、音頻和視頻記錄。這些數據的固有多樣性對深度學習模型中的單一模態構成了巨大的挑戰。諸如Visual-GPT [348] 和ImageBind [318] 之類的LSFMs已成為可行的解決方案。這些模型擅長于同時編碼一系列數據,包括圖像、文本、音頻、深度、熱能、IMU數據和時間序列信號數據 [349], [350]。這種擴展的能力不僅可以豐富智能制造中捕獲的數據范圍,還可以賦予LSFMs獨特的功能,如跨模態檢索、通過算術運算進行模態融合以及跨模態檢測和生成。利用這些廣泛的LSFMs有助于精確處理非結構化數據和綜合多樣化的結構化數據來源。在多種干擾特征的復雜工業環境中,LSFMs與傳統單模態深度學習方法相比展示了更強的魯棒性。

正則化和集成學習:LSFMs可以通過正則化和集成學習等方法解決過擬合問題。正則化可以限制模型的復雜性,修剪可以移除不必要的節點和連接,集成學習可以結合多個模型的預測結果以提高模型的泛化能力。盡管許多LSFMs,如GPT-3和PaLM在訓練期間沒有使用dropout [351],但它仍對LSFMs有重要影響。例如,通過在訓練過程中使用dropout,Galactica [296] 實現了一個1200億參數的模型而沒有過擬合。此外,為了緩解由于dropout導致的LSFMs訓練速度降低,逐漸在訓練過程中引入dropout可以產生與始終使用dropout相當的性能 [352]。

持續學習/終身學習:大多數當前在智能制造中的深度學習模型假設正常模式保持不變。然而,制造環境中的變化頻繁發生。持續學習/終身學習涉及在保留以前學到的知識的同時獲取和識別新知識。LSFMs具有通過收集過去任務結果作為經驗來進行持續學習的強大能力。通過這個過程,LSFMs利用以前的知識不斷提升自己 [347], [353]。LSFMs的持續學習特性使它們能夠在實際生產過程中不斷積累新知識,以適應復雜實際環境中的潛在變化 [347], [353]。這一能力有助于防止在固定模式上訓練的模型出現過擬合。對這個過程施加特定約束可以進一步提高模型的性能和穩定性 [354]。

LSFM輔助的知識圖譜構建:知識圖譜是通過理解圖結構獲取知識的表達形式 [355]。然而,知識圖譜工程(KGE)需要對圖結構、邏輯和知識內容有深入理解,因此工作量巨大。深度學習方法的上下文理解和表示能力不盡人意,特別是在遇到全新或罕見的知識時。利用LLMs的知識理解能力和高級推理技能,可以自動生成專業領域的知識圖譜 [356],并預計通過將知識圖譜與預訓練的語言模型相結合,增強模型對特定領域知識的理解 [357]。

B. 自動高質量訓練數據集生成的路線圖

生成更高質量的數據集:生成模型如擴散模型可以較傳統數據合成方法更有效地促進高質量合成數據的生成 [315]。使用文本到圖像的擴散模型可以生成真實的圖像變化以進行數據增強。與簡單的增強方法如拼接、旋轉、翻轉不同,基于擴散模型的增強可以改變更高層次的語義屬性,例如卡車上的油漆工作 [358]。為了解決訓練擴散模型本身需要大量數據的問題,Wang及其同事將二維擴散模型轉換為三維,使用鏈式規則,使得生成三維對象數據成為可能 [359]。此外,轉換可以用于加權平均或評分多個預測模型的結果,并學習和模擬歷史數據以獲得更強大的預測結果。 在第五部分,我們展示了如何使用LSFMs在工業生產線上實現低成本、自動化的動作識別數據注釋。

提高數據質量:高質量數據對模型訓練和智能制造中的決策至關重要,原始數據通常存在缺失值、異常值和重復值等問題。LSFMs可用于自動去除雜質數據,減少預測錯誤,提高數據質量。例如,BLIP [309] 依賴于中間訓練模型在訓練期間自動從數據集中移除匹配不良的圖像-文本對,并改進某些圖像的文本注釋。Lin等人 [360] 提出了一種基于條件生成對抗網絡(CGANs)的動態供應鏈成員選擇算法。為確保分類性能不會降低,鏈上的成員分類方法能成功降低分類過程中的數據維度和復雜性。

零樣本和少樣本:工業缺陷檢測的一個主要挑戰是缺乏異常樣本,工業產品的異常情況通常多樣且不可預測。LSFM可以有效地實現零樣本檢測或少樣本檢測。Gu等人 [324] 探索了使用大型視覺-語言模型(LVLMs)解決工業異常檢測問題,并提出了一種基于LVLM的工業異常檢測新方法,AnomalyGPT。在MVTec異常檢測數據集上,AnomalyGPT僅使用一個正常樣本就能實現86.1%的準確率,94.1%的圖像級AUC和95.3%的像素級AUC。這種應用方法不再需要收集異常樣本或為每個任務創建數據集來訓練特定模型,只需要少量數據的微調就能實現良好的檢測結果。例如,在預測性維護中,Leite等人 [361] 使用LLMs對可信度信號進行分類,這些信號通常用于評估預測內容的真實性。基于LLM的方法在兩個虛假信息數據集上的表現優于最先進的分類器,無需任何真實標簽。

預訓練與微調相結合:盡管一些初步工作為智能制造場景提供了數據集,如HAR [362]–[364]、質量控制 [365]–[367] 和PHM [368], [369],但這些數據集的特點是規模小、覆蓋范圍狹窄、場景單一、操作條件簡單、數據分布不均。LSFMs在廣泛數據上進行預訓練,可以識別真實世界實體的一般特征,為數據有限環境中實現精準靈活的智能制造提供有效解決方案 [294]。在大規模數據上訓練的預訓練模型隨后在小規模數據上進行微調,以提高模型的準確性和泛化能力。例如,Sun等人 [370] 在醫學文本中使用了BERT,并僅使用小數據集進行微調就取得了良好的性能。同樣,Radford等人 [299] 展示了GPT在不同任務中的遷移學習能力。

C. 卓越性能的路線圖

通過提示改進:通常情況下,訓練完成后,深度學習模型不再接受“指導”,而是基于訓練的參數進行推理。然而,LSFMs具有卓越的數據整合能力,可以通過利用各種形式的提示來提高輸出性能。Ji等人 [321] 發現提示的質量對LSFMs的準確性有重要影響。為了解決SAM在小尺度和不規則邊界上的次優分割性能,可以使用多個提示從分布中導出更精確的分割結果 [371]。特別是,Deng等人 [372] 使用先前分布參數的蒙特卡羅模擬來估計SAM的預測分布。這種方法允許通過考慮單個圖像的多個預測來估計任意不確定性。另外,也可以使用網絡來獲取增強的線索,通過輸入原始線索生成增強線索以產生遮罩,然后輸出增強線索。通過將這些線索合并為新的提示,可以提高分割性能 [373]。還應該謹慎處理解耦遮罩生成和提示嵌入,以防止誤導性提示對遮罩生成產生不利影響 [370]。

增強輸入數據:在LSFMs中,“基礎”一詞表明LSFMs可以輕松地作為與其他算法結合的基礎。這確保了即使LSFMs單獨使用時表現不佳,通過與其他算法結合仍能保證良好的性能。例如,視覺語言模型(VLM)表現出對各種損壞的強大魯棒性,但某些損壞如模糊相關的損壞會導致模型性能下降 [374]。此外,SAM在隱蔽和偽裝場景中的性能被證明是不足的 [200], [375]。幸運的是,已有大量關于去模糊 [376]–[378] 和檢測隱蔽和偽裝場景中目標的技術研究 [379], [380]。作為LSFMs的特點和優勢之一,VLM可以輕松地與其他模型結合,使用預處理數據作為輸入或將其他對象檢測器的檢測框作為提示。

跨模態預訓練:LSMFs克服了深度學習中單一任務和單一模態的限制,能夠在跨模態預訓練后通過統一模型實現多任務和多模態應用 [381]。通過在訓練中利用對比損失建立圖像和文本特征之間的關聯,可以實現開放集對象識別和檢測 [310]–[312]。這可以防止任務受到訓練中預定義類別的限制。為了達到令人滿意的預訓練性能,成功依賴于跨模態數據集的規模 [381], [382] 和模型利用弱對齊數據的能力 [383]。李等人 [384] 使用預訓練模型進行工業系統中視頻的弱監督標簽分類,以衡量視頻中的語義相似性。通過加入增強的跨模態Transformer模塊,他們最大限度地利用了視頻和紋理特征之間的交互信息。

預訓練結合微調:與深度學習在數據有限和流程復雜的情況下所達到的不令人滿意的準確度相比,大規模預訓練不僅賦予LSFMs強大的泛化能力,還賦予了它們更高準確度的潛力 [294], [340]。雖然直接使用預訓練的LSFMs可能并不總是優于特別設計的深度神經網絡 [321],但用特定智能制造領域的數據集數據有效地微調它們可以提高它們的準確度 [385], [386],潛在地超越現有的深度學習模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技術促進了LSFMs的微調過程。

此外,在集成數據集上訓練深度學習模型增加了數據泄露的隱私風險。使用預訓練的LSFMs作為解決方案可以提高數據安全性,減少從零開始訓練模型所需的大量數據帶來的隱私風險。這些預訓練模型能夠在最小化微調的情況下實現有效的結果,從而減少對敏感數據的暴露。在微調階段,LSFM網絡的有限部分需要調整,引入差分隱私技術。具體來說,Abadi等人 [390] 提出的技術在微調過程中得到了應用。這些措施可以保持微調LSFM過程中涉及數據的隱私,確保更安全的訓練環境。

采用分布式學習:制造業中的數據不像自然語言和其他領域那樣容易獲得,因此采用分布式學習方法 [391] 對于在智能制造中使用的LSFMs在訓練和安全方面可能都有益處,其中訓練數據可以從不同的生產線、工廠甚至國家獲得。分布式學習方法,如聯邦學習,涉及每個方的本地數據處理,只有中間結果(如梯度)被聚合用于模型更新。這使得客戶端(設備或組織)能夠協作訓練機器學習模型,而不暴露其數據,大大提高了數據使用效率 [392], [393]。與這些技術結合可以使LSFMs不僅在性能上超越傳統方法,而且在處理敏感工業信息時提供更安全的數據處理框架。

使用LSFM自身的輸出進行解釋:由于其決策過程高度抽象和非直觀,深度學習模型通常被認為是“黑箱”。LSFMs,特別是LLMs,在任務中展示了卓越的上下文理解能力,因此嘗試使用LLMs來解釋模型是潛在可行的。在Bubeck等人的一項研究中 [274],發現LLMs在其輸出中展現了強大的結果一致性,這意味著模型遵循了固定的“思考”模式。因此,向chat-GPT提出類似“請解釋你預測背后的原因”的問題被證明是有效的,尤其是在合理的先前問題之后。這個想法也可以應用于基于編碼器結構的模型 [394],通過對重構輸入特征進行偏差分析來解決AE的局限性,以獲得解釋 [395]。

使用LLM解釋其他模型:LLMs具有強大的文本能力,可以利用從LLMs獲得的知識來解釋其他神經網絡。為了實現這一點,LLMs被用來總結和評分待分析模型的輸出 [396]。此外,LLMs可用于生成或匹配反事實,模擬或估計事件或行為中的不同選擇,以更好地理解模型的預測結果 [397]。或者,將LLMs直接嵌入到模型訓練中,可以實現高效推理的同時獲得良好的可解釋性 [398]。

可視化運行過程:從神經網絡輸出中提取中間特征圖可以幫助理解模型關注的特征,即使這些特征圖可能仍然高度抽象。通過使用其架構中的自注意機制和令牌鏈接,可視化注意力可以提供比特征圖更直觀的解釋。注意力鏈接的強度直觀上可以被認為是每個令牌對分類的貢獻的指示器。可視化注意力有助于理解模型感興趣的部分 [399]。考慮到LSFMs大多基于transformer結構,可視化注意力輸出以提高LSFMs的可解釋性是有前景的。

結論

LSFMs表現出強大的泛化能力、自動生成高質量訓練數據集的能力和優越的性能,能夠將人工智能從單一模態、單任務、有限數據訓練的范式轉變為多模態、多任務、海量數據預訓練然后微調的模式,必將帶來智能制造的新一波變革。針對將LSFMs應用于智能制造的研究尚處于起步階段,缺乏系統的方向性指導的問題,總結了深度學習在智能制造中的進展與挑戰,以及LSFMs在智能制造應用中的進展及其潛在優勢。在此基礎上,從通用性、數據性和性能等角度全面探討了如何構建適用于智能制造領域的LSFM系統,并以美的集團生產線的實際應用為例,說明了LSFMs的應用如何幫助企業提高效率、降低成本。

付費5元查看完整內容

隨著人工智能(AI)的迅速發展,地球和大氣科學領域越來越多地采用數據驅動模型,這些模型由深度學習(DL)的持續進步所推動。具體來說,DL技術被廣泛用于解碼地球系統的混沌和非線性特征,并通過理解天氣和氣候數據來應對氣候挑戰。最近,通過DL在更窄的時空尺度內的特定任務上取得了尖端性能。大型模型的興起,特別是大型語言模型(LLMs),使得微調過程產生了顯著的成果,從而推動了通用AI的發展。然而,我們仍在探索為天氣和氣候制定通用AI的初期階段。在這篇綜述中,我們提供了一個全面、及時的概覽,專注于為天氣和氣候數據量身打造的最新AI方法論,特別關注時間序列和文本數據。我們的主要內容涵蓋四個關鍵方面:天氣和氣候數據的類型、主要模型架構、模型范圍和應用,以及天氣和氣候的數據集。此外,關于為天氣和氣候數據理解創建和應用基礎模型,我們深入探討了該領域當前的挑戰,提供關鍵見解,并提出未來研究的詳細途徑。這種全面的方法為從業者提供了在這個領域取得重大進展所需的知識。我們的綜述包含了關于大型、數據驅動模型在天氣和氣候數據理解方面的最新研究突破,強調了堅實的基礎、當前的進展、實際應用、關鍵資源和未來研究的機會。

概念1. 天氣和氣候是兩個不同的概念,它們在空間和時間尺度、可變性和可預測性方面有顯著的差異。這兩者之間的不同可以如下闡述: * 時間尺度。天氣涉及大氣狀況的即時狀態,通常在短期時間框架內。相反,氣候代表長期天氣模式的統計總結。 * 空間尺度。天氣代表特定位置的大氣狀況,而氣候則包括對一個地區典型天氣模式的全面總結。 * 可變性。天氣表現為快速和頻繁的變化,而氣候變化速度較慢,包括長期天氣模式的轉變。 * 可預測性。天氣預報側重于預測未來幾天或更短時間尺度內的天氣狀況。相比之下,氣候預測旨在預測未來幾個月到幾十年的氣候趨勢。

氣候變化描述了全球溫度和天氣模式在長期內的顯著變化。目前,我們的星球正經歷著極端自然現象的激增,如干旱[1]、[2],洪水[1],地震[3],熱浪[4]和強降雨[5],這些現象由不斷加劇的氣候變化所推動。加劇這些挑戰的是全球變暖和海平面下降對生態系統的驚人威脅[6]、[7]。鑒于本世紀預計的地表溫度增加,我們預見這些極端現象的嚴重程度和頻率將加劇[8]。 利用先進的氣候建模和預測技術,這些技術集成了大量的大氣和地表變量 - 包括大氣狀況、洋流、陸地生態系統和生物圈相互作用 - 可以增強我們對氣候變化的理解[9]、[10]。這些見解可以指導定制緩解策略的制定[11]。長期準確的海平面變化預測可以加強沿海城市的城市規劃和災害準備工作[12]、[13]、[14]。短期內,降雨、溫度和濕度的精確預測可以提高包括農業規劃和交通調度在內的人類活動的安全性[15]、[16]、[17]。 傳統上,一般環流模型(GCMs)[18]和數值天氣預報模型(NWPs)[19]、[20]、[21]一直是研究氣候變化趨勢和預測未來天氣和氣候情景的首選工具。這些模型融合了主要的地球系統組成部分,包括大氣、地表和海洋,以模擬地球系統的多維動態。它們通過復雜的物理方程式,如大氣動力學,確定這些組成部分之間的潛在非線性關系,以在廣泛的物理參數范圍內生成預測[22]。然而,盡管它們已經相當成熟,數值受限的天氣預報模型仍面臨許多挑戰和限制。其中之一是它們對地方地理特征的過于簡化的表現[23],因為它們通常無法捕捉到對區域天氣和氣候模式產生關鍵影響的地方地形的復雜細節。另一個障礙是有效地整合來自不同來源的觀測數據,如氣象站、雷達和衛星[8]。傳統模型通常難以將這些具有不同空間和時間分辨率的數據納入其建模框架。此外,它們需要大量的計算資源來管理眾多的物理限制[24]。地球系統的復雜性和規模要求進行大量的計算,給計算能力和效率帶來挑戰。 人工智能技術的快速發展為天氣和氣候建模引入了成本效益高、直接且簡化的解決策略。特別是,機器學習(ML)和深度學習(DL)技術可以識別天氣和氣候數據中的潛在趨勢表示,從而繞過對復雜物理關系的需求。最初,鑒于ML技術相較于大規模、長時間的物理模型的有限能力,它們被少量用于短期、局部的天氣和氣候條件預測。然而,過去十年目睹了數據驅動深度學習方法在天氣和氣候研究中的應用呈指數級增長,這得益于全球天氣和氣候數據的爆炸性擴展[25]、[26]。依托豐富的數據資源和計算技術的進步[27]、[28],這些模型正在革命性地改變氣候科學[29]。利用大量數據,深度學習模型揭示了隱藏在氣候變量中的復雜非線性關系,從而以更高的精確度捕捉氣候系統的動態性和復雜性[30]、[31]。然而,這些模型通常為特定任務而設計,并使用特定格式的數據進行訓練,如區域天氣預測或微觀尺度的降尺度。訓練數據來源的表現方式差異導致了數據驅動深度學習模型在理解天氣和氣候數據方面的過度分化功能。因此,開發能夠微調以模擬全球天氣和氣候系統的通用氣候模型成為一個重大挑戰。

近期大型模型的出現和迅速發展在各個領域取得了顯著成就,包括自然語言處理(NLP)、計算機視覺(CV)[32]、機器人學[33]以及涵蓋生命科學的一系列跨學科領域[34]、[35]、[36]、[37]、[38]。特別是在NLP領域,大型模型或大型語言模型(LLMs)正在迅速發展,它們在大規模語料庫上進行訓練,并針對各種下游任務進行微調[39]、[40]、[41]。在計算機視覺領域,大型視覺模型經過大量自然圖像的訓練[42]、[43]、[44],展示出卓越的零樣本能力[45]、[46]。這些模型在跨任務中的卓越表現源自于它們龐大的參數數量和大規模的預訓練數據。例如,GPT-3[47]、[48]擁有近120倍于GPT-2[49]的參數,使其能夠從更少的樣本中更強大地學習,而GPT-4[50]的參數不到GPT-3的十倍,但在文本生成和圖像理解方面表現出色。LLMs的迅速崛起重新定義了深度學習的前進道路,盡管在無監督/半監督和遷移學習等長期發展領域仍然存在。一個值得注意的例子是視覺-語言大型模型[46]、[51]、[52]、[53],如CLIP[46],它在眾多自然圖像-文本對上進行訓練,并針對如圖像分割[54]、[55]、[56]和視頻字幕生成[57]、[58]等任務進行微調,取得了有希望的結果。最近,大型模型在語音[59]、[60]、物理學[61]和數學分析[62]等領域的擴展催生了基礎科學和專業領域的進步。

預訓練的基礎模型的突破性成功已經顯著推動了NLP和CV領域更接近通用AI的實現。這一進步引發了一個有趣的問題:預訓練的基礎模型的成功已經使NLP和CV領域朝著實現通用AI邁出了有意義的一步,這不僅讓人好奇:是否有可能開發一個用于天氣和氣候數據理解的通用基礎模型,有效地解決相關任務的眾多問題? 基于預訓練模型理論,CLIMAX [25] 提出了一種開發天氣和氣候基礎模型的創新方法。它利用變換器預訓練大規模天氣和氣候數據,產生一個靈活的基礎模型,擅長短期至中期預測、氣候預測和降尺度。PANGU-WEATHER [63] 和 W-MAE [64] 通過使用大量數據對全球氣候系統進行建模,展示了強大的氣候預測能力。然而,開發大規模、通用氣候模型的追求面臨著重大障礙。一個主要挑戰是缺乏大型、多樣化和高質量的訓練數據集。現有數據集(詳情見表4)在不一致的測量、空間-時間偏差和有限的功能性方面存在問題,阻礙了全面、多用途大規模基礎模型的進展。此外,這些模型的計算需求增加了另一個復雜性維度,所需的基礎設施在資源有限的環境中可能無法實現。理想情況下,一個天氣/氣候基礎模型應該能夠無縫處理多源觀測,并納入地理特征的詳細表示,以生成更精確的天氣和氣候趨勢模擬。不幸的是,這仍然是目前天氣和氣候基礎模型的一個基本未開發領域。此外,這些模型的可解釋性,通常被視為“黑匣子”,是一個重要的關注點。在天氣和氣候相關任務中,錯誤的預測可能會對生態系統和社會造成嚴重破壞,因此特別強調了對可解釋性的需求[36]、[65]、[66]。盡管在理解天氣和氣候數據方面取得了顯著進步和潛力,但如上所述,開發大規模基礎模型所面臨的獨特挑戰,需要集中研究(詳情見第9節)。這強調了對這一新興領域進展的全面審查的需求。 在本文中,我們對專門針對天氣和氣候數據設計的數據驅動模型進行了全面審查。我們的綜述涵蓋了各種數據類型、模型架構、應用領域和代表性任務的廣泛大型基礎模型/特定任務模型。這篇評論擴大了從天氣和氣候數據中得出的見解的范圍,鼓勵新的策略,并促進在天氣和氣候中大型模型的跨應用。通過利用DL在大型模型中的力量,我們旨在揭示復雜的氣候模式,增強預測,并加深對氣候系統的理解,從而使社會能夠更有效地適應氣候變化帶來的挑戰。我們的貢獻總結如下: * 首次全面且現代的綜述。據我們所知,本文是首次全面綜述針對天氣和氣候數據理解的大型和特定任務模型的最新發展,涵蓋時間序列、視頻流和文本序列。我們提供了一個深入和當前的全景,涵蓋了該領域的廣泛光譜,同時深入探討了不同方法論的細微差別,為讀者提供了對這個領域的全面和最新的理解。 * 系統化和深入的分類。我們介紹并討論了一個有組織和詳細的分類,將現有相關研究劃分為兩大類:大型氣候基礎模型和特定任務氣候模型。此外,我們進一步根據模型架構對它們進行分類,包括RNN、變換器、GAN、擴散模型和圖神經網絡。基于模型的應用領域和特定任務,進一步進行劃分,并對這些任務定義進行詳細解釋。這種多維分類為讀者提供了一個連貫的路線圖。 * 豐富的資源匯編。我們已經收集了一大批與天氣和氣候科學領域相關的數據集和開源實現。每個數據集都附有詳盡的結構描述、相關任務和直接超鏈接,以便快速訪問。這個編譯作為未來研究和開發努力的領域中的寶貴資源。 * 未來展望和研究機會。我們已經勾畫了幾個未來探索的有希望的軌跡。這些觀點跨越了各個領域,包括數據后處理、模型架構、可解釋性、隱私和訓練范式等。這篇論述為讀者提供了對該領域當前狀態和未來探索可能途徑的復雜理解。設計見解。我們討論并指出了有希望的天氣和氣候基礎模型的關鍵設計元素。這些設計組件包括時間和空間尺度的選擇、數據集選擇、數據表示和模型設計、學習策略和評估方案。遵循這個系統化的設計流程使從業者能夠快速理解設計原則并構建強大的天氣和氣候基礎模型,從而促進天氣和氣候領域的迅速發展。

文章組織。本綜述的其余部分結構如下:第2節闡述了我們的綜述與其他相應研究之間的區別。第3節為讀者提供關于基礎模型、天氣和氣候數據的基本描述以及相關任務的基本知識。第4節詳細闡述了天氣和氣候任務的關鍵模型架構。第6節,我們介紹了目前用于天氣和氣候任務的主要模型分類的概要,包括氣候基礎模型和特定任務模型。該節在深入探討個別方法論的復雜性之前,提供了該領域的整體視圖。第5節簡潔地介紹了氣候基礎模型和特定任務模型,并根據不同的模型架構進一步細分特定任務模型。隨后,第7節進行了對特定天氣和氣候任務的數據驅動深度學習模型的廣泛探索。考慮到缺乏統一和全面的天氣和氣候數據集索引,第8節提出了一套詳盡的數據集資源和介紹,旨在為讀者提供便利和效率。第9節概述了目前阻礙天氣和氣候基礎模型發展的挑戰,以及該領域未來的潛在方向。第10節提出了構建天氣和氣象基礎模型的潛在藍圖,幫助從業者進行思考和執行,并促進氣候基礎模型的發展。最后,第11節對綜述內容提供了總結和結論性評論。

天氣和氣候的基礎模型

蓬勃發展的基礎模型在NLP [47]、[82]、[200]和CV [45]、[46]領域已激發了對天氣和氣候數據理解基礎模型的研究興趣。通過預訓練策略創建的大型基礎模型可以顯著提高基于AI的氣候模型的泛化能力,并可以針對特定的下游任務進行微調。這類模型的預訓練需要大規模序列數據,這不是通常從普通時間序列數據中獲取的。 考慮到計算效率和對及時氣候預測的需求,Pathak等人提出了FOURCASTNET [136],這是一種基于視覺變換器和自適應傅里葉神經網絡運算符(AFNO)[201]的氣候預訓練基礎模型,用于高分辨率預測和快速推理。其訓練過程包括基于預訓練模型的自監著預訓練和自回歸微調。PANGU-WEATHER [63],一個利用3D地球特定變換器的數據驅動模型,以其快速、精確的全球預測和卓越性能而聞名。它根據當前狀態預測隨時間變化的大氣狀態,當前狀態由上空五個變量和四個地表變量在0.25°水平網格上的13個垂直層描述。另一方面,CLIMAX [25] 通過其基于變換器的完全監督預訓練,將基礎建模概念引入天氣預測。它提出變量消歧和變量聚合策略,用于合并和揭示不同天氣變化在不同高度的潛在關系,為適應包括全球/區域/季節性預測、氣候繪制和降尺度任務在內的多樣化下游任務提供了有希望的靈活性。FENGWU [138] 以獨特設計的深度學習架構從多模態、多任務角度解決中期預測問題。它具有模型特定的解碼器和跨模態融合變換器,在不確定性損失的監督下,以區域適應的方式平衡不同預測器的優化。鑒于上述大型模型是通過完全監督的方式訓練的,W-MAE [64] 使用基于掩碼自動編碼器(MAE)[202]、[203]的方法,實施天氣預測模型的無監督訓練,這可以通過各種數據源微調用于下游任務。MetePFL [24] 和 FedWing [154] 還提出了基于提示的聯邦學習[204],用于訓練大型基礎模型,大大降低了跨區域協作模型訓練的成本,同時保護數據隱私。LLMs的快速發展導致處理天氣和氣候任務不再局限于視覺或時間序列模型。基于LLMs的OCEANGPT [197] 提出了處理廣泛海洋相關任務的方法論。除了用于預測和模擬的基礎模型之外,CLIMATEBERT [195] 是一種用于處理氣候相關文本的基于NLP的基礎模型。它在新聞文章、研究論文和公司氣候報告等多種來源的200多萬段氣候相關段落上進行訓練[205]。 結論

我們提供了一個全面和最新的針對分析天氣和氣候數據的數據驅動模型綜述。目的是通過系統組織的評估相關模型,為這個不斷發展的學科提供一個新視角。我們提煉出每個類別中最顯著的方法論,研究它們各自的優點和缺點,并提出未來探索的可行軌跡。這篇綜述旨在作為一個刺激,激發持續的興趣并培養對天氣和氣候數據理解領域數據驅動模型研究的持久熱情。

付費5元查看完整內容

隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。

然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:

建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。

綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。

? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容
北京阿比特科技有限公司