亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基礎模型(FMs)作為一種新興的AI技術組合的出現,在計算醫療領域掀起了一股機遇浪潮。這些模型的交互式特性,受預訓練數據和人類指令的指導,已經點燃了一個以數據為中心的AI范式,這一范式強調更好的數據特征描述、質量和規模。在醫療AI中,獲取和處理高質量臨床數據記錄一直是一個長期挑戰,涉及數據數量、標注、患者隱私和倫理等方面。在這篇綜述中,我們調研了FM時代(從模型預訓練到推理)的一系列以數據為中心的方法,旨在改善醫療工作流程。我們討論了AI安全性、評估和與人類價值觀的一致性方面的關鍵視角。最后,我們提供了基于FM的分析技術對提升患者結果和臨床工作流程性能的樂觀展望,這在醫療和醫學不斷發展的領域中顯得尤為重要。我們在//github.com/Yunkun-Zhang/Data-CentricFM-Healthcare提供了最新的醫療相關基礎模型和數據集列表。

**1 引言 **

基礎模型(FMs)的崛起在視覺識別[131, 211, 218]、語言理解[24, 59, 193, 194]和知識發現[21, 201]等領域引發了一系列突破。在計算醫療[3, 72]領域,FMs能夠處理各種臨床數據,其在邏輯推理和語義理解方面的吸引力不言而喻。例子涵蓋了醫療對話[241, 316]、患者健康檔案[48]和治療規劃[192]等領域。此外,鑒于其在大規模數據處理方面的優勢,FMs提供了一種快速有效評估實際臨床數據的新范式,從而改善醫療工作流程[208, 261]。 FMs研究重點放在以數據為中心的視角[318]。首先,FMs展示了規模的力量,其中擴大的模型和數據規模使FMs能夠捕獲大量信息,因此增加了對訓練數據量的迫切需求[272]。其次,FMs鼓勵同質化[21],這一點通過它們廣泛適應下游任務的能力得到了證明。因此,高質量的FM訓練數據變得至關重要,因為它會影響預訓練FM和下游模型的性能。因此,解決關鍵的數據挑戰被逐漸認為是研究的重點。在醫療系統中,收集高質量的記錄可以實現對患者特征(影像、基因組和實驗室檢測數據)的全面了解[6, 121, 244]。正如所示,以數據為中心的策略有望重塑臨床工作流程[122, 219],實現精確診斷[111],并揭示治療方面的見解[40]。 醫療數據挑戰在過去幾十年一直是持續的障礙,包括多模態數據融合(第4節)、有限的數據量(第5節)、標注負擔(第6節)以及患者隱私保護的關鍵問題(第7節)[38, 94, 108, 215]。為了應對,FM時代開啟了推進以數據為中心的AI分析的視角。例如,多模態FMs可以提供針對不同數據格式的可擴展數據融合策略[63, 146]。同時,FM生成高質量數據的吸引力可以大大幫助解決醫療和醫療保健社區中的數據數量、稀缺性和隱私問題[33, 63, 168, 257, 269, 331]。為了構建負責任的醫療AI解決方案,AI與人類一致性的不斷發展視角[77, 191]變得越來越重要。我們討論了FMs在現實世界中與人類倫理、公平和社會規范保持一致的必要性,以減少在性能評估、倫理合規性和患者安全方面的潛在風險[94, 154, 163, 198]。在FM時代,實現AI與人類的一致性進一步強調了數據焦點的重要性,激勵我們優先考慮計算醫療領域中的以數據為中心的挑戰。 在這篇綜述中,我們提供了一個關于開發、分析和評估針對醫療的FM為中心的方法的廣泛視角。從圖1所示的以數據為中心的視角來看,我們強調了患者、醫療數據和基礎模型之間的相互作用。我們收集并討論了分析FMs所需的基本概念、模型、數據集和工具(圖2)。最后,我們強調了在醫療和醫學中應用FMs時出現的新風險,包括隱私保護和倫理使用方面。我們提出了基于FM的分析技術的有希望的方向,以提高患者結果的預測性能并簡化臨床數據工作流程,最終將構建更好的、與AI人類相一致的、以數據為中心的工具、方法和系統,用于醫療和醫學。

基礎模型(FM)分析的增長為醫療應用提供了洞見[208, 295, 321]。我們回顧了解決醫療領域中FM多個方面的關鍵技術、工具和應用。我們展示了如何將通用目的的FMs應用于醫療領域(第3.1節)。我們介紹了專注于醫療的FMs,并展示了從通用FMs中獲得的預訓練優勢(第3.2節)。

基礎模型與醫療健康

在醫療和醫療保健中適應通用基礎模型 研究工作已經開始評估FM在醫學領域的卓越能力[85, 192, 227]。在這些研究中,我們確定了兩個核心技術:參數高效微調(PEFT)和情境中學習(ICL)。

** 通過參數高效微調(PEFT)進行適應。**

PEFT方法已被應用于將FMs適配到醫學任務。例如,Dutt等人[68]展示了PEFT方法在醫學圖像分類和文本到圖像生成任務的數據有限場景中顯著優于FMs的完全微調。Gema等人[85]提出了一個兩階段PEFT框架,將LLaMA[263]適應到一系列臨床任務。在這項工作中,第一階段應用LoRA[105]對LLaMA進行微調,構建了針對臨床筆記的Clinical LLaMA-LoRA;第二階段再次應用LoRA將臨床FM適配到下游任務。他們還展示了LoRA作為PEFT方法的主要選擇之一,非常適合臨床領域適配。同樣,Van Veen等人[271]應用LoRA對T5模型[143, 214]進行微調,用于放射科報告摘要。他們還將LoRA與情境中學習結合應用于臨床文本摘要任務,表現出比人類專家更好的性能[273]。

通過情境中學習(ICL)進行適應

ICL已證明在適應FMs,特別是大型語言模型(LLMs),到各種醫療任務中是有效的。通過精心設計的特定任務輸入上下文(即提示),FM可以在不修改任何模型參數的情況下很好地完成醫療任務。例如,Nori等人[192]評估了GPT-4[194]在美國醫學執照考試(USMLE)上的表現,而沒有特別設計的提示。GPT-4展示了其令人期待的零樣本性能,即使沒有添加相關醫療背景數據。Lyu等人[174]利用ChatGPT[193]將放射學報告翻譯成通俗語言,以便于報告理解和翻譯。實驗表明,通過使用更清晰、更結構化的提示,整體翻譯質量可以提高。Roy等人[227]展示了SAM[131]在腹部CT器官分割中的出色泛化能力,通過其點/邊框提示。Deng等人[58]評估了SAM在腫瘤分割、非腫瘤組織分割和整個幻燈片圖像(WSI)上的細胞核分割的零樣本性能,證明了SAM在病理掃描中大型連通物體上表現良好。Chen等人提出了“思維診斷”(DoT)提示[43],以協助專業人士檢測認知扭曲。DoT通過提示LLMs依次進行主觀性評估、對比推理和模式分析來診斷精神疾病。

預訓練醫療基礎模型

研究人員努力基于大規模未標記的醫療數據預訓練FMs,用于健康記錄檢查[7, 90, 245]、醫學影像診斷[11, 287]和蛋白質序列分析[45, 157]。原則上,預訓練過程可以概括為兩個主要方面:預訓練策略和模型初始化。

預訓練策略。

醫療FM的預訓練通常利用一系列從通用領域FMs衍生的預訓練策略,因為它們具有潛在的泛化能力。第一個預訓練策略是遮蔽語言/圖像建模,遵循BERT[59]和遮蔽自動編碼器(MAE)[96]。例如,SciBERT[14]和PubMedBERT[90]分別基于BERT策略在多領域科學出版物和生物醫學領域特定語料庫上進行預訓練。BioLinkBERT[309]利用生物醫學文檔之間的鏈接,并基于遮蔽語言建模和文檔關系預測任務進行預訓練。BioGPT[172]基于GPT-2[213]在PubMed1摘要上進行預訓練,用于生成語言任務。RETFound[334]是一個用于視網膜圖像疾病檢測的FM,基于MAE在大量未標記的視網膜圖像上進行預訓練,以重構具有75%遮蔽區域的輸入圖像。同樣,General Expression Transformer (GET)[74]是一個用于建模213種人類細胞類型的轉錄調節的FM。GET被預訓練以預測輸入中遮蔽調節元素的基序結合分數,以學習調節模式。 對比學習是另一種重要的醫療FM預訓練策略。例如,REMEDIS[11]是一個通過對比學習預訓練的醫學視覺模型,用于提取醫學圖像的代表性視覺特征。例如MedCLIP[287]、MI-Zero[171]和PLIP[110]等視覺-語言模型是通過對比學習在特定領域的圖像-文本對上進行預訓練的。它們在放射學和病理學中的零樣本圖像分類任務上取得了積極的表現。

結論

基礎模型(FMs)及其在醫療保健領域的應用所取得的顯著進展,為更好的患者管理和高效的臨床工作流程打開了新的可能性。在這些努力中,收集、處理和分析可擴展的醫療數據對于基礎模型研究變得越來越關鍵。在這篇綜述中,我們提供了從數據中心視角出發對基礎模型挑戰的概述。基礎模型具有巨大潛力,可以緩解醫療保健中的數據挑戰,包括數據不平衡和偏見、數據稀缺以及高昂的注釋成本。由于基礎模型強大的內容生成能力,對數據隱私、數據偏見以及對生成的醫療知識的倫理考慮需要更加警惕。只有充分可靠地解決數據中心的挑戰,我們才能更好地利用基礎模型在醫學和醫療保健的更廣泛范圍內的力量。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)已成為增強自然語言理解的轉型力量,代表了向人工通用智能邁出的重要步伐。LLMs的應用超越了傳統語言學邊界,包括了各個科學學科內發展的特殊語言系統。這一日益增長的興趣促成了科學LLMs的出現,這是一種專為促進科學發現而精心設計的新型子類。作為AI用于科學領域中的一個新興領域,科學LLMs值得全面探索。然而,目前缺乏一項系統的、最新的綜述來介紹它們。在本文中,我們努力系統地闡述“科學語言”的概念,同時提供對科學LLMs最新進展的詳盡回顧。鑒于科學學科的廣泛領域,我們的分析采用了聚焦的視角,專注于生物學和化學領域。這包括對LLMs在文本知識、小分子、大分子蛋白、基因組序列及其組合的深入考察,并從模型架構、能力、數據集和評估方面進行分析。最后,我們批判性地審視當前的挑戰,并指出與LLMs進展相關的有前途的研究方向。通過提供該領域技術發展的全面概述,這篇綜述旨在成為研究者在探索科學LLMs錯綜復雜的領域時的寶貴資源。

//www.zhuanzhi.ai/paper/1741b30343c8826898d7c39dafe9df20

人類通過感知和認知獲取對世界的知識,其中自然語言(即人類語言)是表達這種世界知識的典型媒介。從歷史上看,這種豐富的世界知識已通過自然語言表達、記錄和傳播。目前,大型語言模型(LLMs)成為處理自然語言和收集世界知識的前沿工具。通常,LLMs指的是基于Transformer架構的,具有數億(甚至數十億)可訓練參數的模型,它們在廣泛的文本語料庫上進行訓練[218]。典型的例子包括GPT-3 [32]、PaLM [47]、Galactica [233]、LLaMA [239]、ChatGLM [288]和百川2[14]。它們已展現出強大的理解自然語言和處理復雜任務(如文本生成)的能力,并在學術和工業領域引起了極大的興趣。LLMs的卓越表現讓人們希望它們可能會在我們當前的時代進化成為人工通用智能(AGI)。

除了自然語言,為了封裝更專業的科學知識,開發了一系列的科學語言,如圖1所示。這包括科研領域的文本表達、定義數學公式的數學語言、代表分子結構的化學語言(如SMILES),以及描述蛋白質或基因組的生物語言,詳細說明生物體的復雜構成。這些科學語言帶有它們獨特的詞匯,每個術語都有特定的含義,與自然語言完全不同。例如,英文中的字符“C”在蛋白質語言中代表氨基酸半胱氨酸[87],而在SMILES語言系統中,它代表一個碳原子[262]。此外,特定領域的專家制定語法規則來組織這些術語,使構建的句子具有精確的語義功能。例如,計算化學家創建語法規則以確保機器生成分子的準確性,使用的是SELFIES格式[128]。經過數十年的演變,科學語言已成為無價的工具,顯著加速了科學發現。由于科學語言與自然語言之間可能存在的語義和語法差異,現有的通用LLMs(如ChatGPT 1或GPT-4 [190])通常無法正確處理分子和蛋白質等科學數據[5]。正如著名的奧地利哲學家路德維希·維特根斯坦所指出的,“我的語言的極限意味著我的世界的極限。”[202] 通用LLMs的世界可能僅限于自然語言。

為了促進對科學語言的理解,研究人員設計了專門針對各種科學領域和學科的科學大型語言模型(Sci-LLMs)。例如,分子語言模型已被開發出來,將分子結構表示為一串原子和化學鍵[140]。這些模型有助于預測分子屬性[252]、設計新藥[298]、提出逆合成路線[215]。類似地,蛋白質語言模型基于氨基酸序列運作[30, 205]。它們用于預測3D蛋白質結構和功能[149]、改善現有蛋白質以提高適應性[187]、創造具有特定功能的新蛋白質[184]。作為AI-for-Science研究領域內的一個新興領域,許多Sci-LLMs已被提出,它們具有修改后的架構、學習方法、訓練語料庫、評估基準和標準。盡管它們取得了顯著成就,這些模型大多在各自的研究領域內被探索。目前尚缺乏一個全面的綜述,能夠統一這些語言建模的進展。

在這篇綜述中,我們旨在通過系統地回顧Sci-LLMs的技術進步來填補這一空白,同時密切參考通用LLMs。考慮到科學語言的廣泛范圍,我們將調查重點放在生物和化學語言上。具體而言,我們的審查涵蓋了分子語言、蛋白質語言和基因組語言。除了這些專門的科學語言外,我們也認識到教科書、專利和研究論文中蘊含的巨大科學知識,這些文獻都是用自然語言撰寫的。因此,我們探索了強調科學知識的文本LLMs,更重要的是,研究了包含各種類型科學語言的多模態LLMs。

在深入探討每種語言系統時,我們首先回顧了LLM的架構,并將它們分類為三類:僅編碼器、僅解碼器和編碼器-解碼器。然后,我們報告了模型的能力,并總結了Sci-LLMs可以執行的典型下游任務。在模型訓練和評估方面,我們收集了一系列常用的訓練語料庫和評估基準。最后,我們提出了科學語言建模的區分性和生成性任務的適當標準。

這項綜述受限于特定邊界。首先,我們關注科學語言,特別是化學和生物語言。我們排除了那些既沒有通用定義的詞匯表,也沒有語法結構的語言,如數學語言。其次,在討論文本LLMs時,我們的重點仍然是表達在自然語言中的化學和生物領域知識。這一選擇確保了與化學和生物學特定語言(如分子和蛋白質語言)的一致和連貫互動。第三,我們的技術探索主要局限于基于Transformer的語言模型。盡管圖神經網絡和擴散模型等替代神經架構在分子和蛋白質建模中廣泛應用,但我們沒有包括它們。圖2描述了這項綜述中Sci-LLMs的研究范圍。

這項綜述的獨特邊界使其不同于其他關于LLMs和分子、蛋白質和基因組計算建模的回顧。與主要集中在自然語言[281, 304]的那些不同,我們的重點更傾向于科學語言。與僅專注于分子[64, 269]、蛋白質[23, 105, 241, 246]或基因組數據[52]的綜述不同,我們旨在提供一個關于化學和生物研究的語言模型的全面視角。此外,我們深入探討了多模態LLMs,探索文本與分子/蛋白質/基因組語言之間的互動。據我們所知,這種微妙的探索在以前的綜述中尚未涵蓋。本綜述的貢獻可總結如下: ? 我們提供了一個關于科學領域內語言建模的全面回顧,包括文本、分子、蛋白質和基因組語言,強調領域特定知識。 ?我們提供了現有Sci-LLMs的詳細總結,涵蓋了模型架構、能力、訓練數據、評估基準和評估標準。我們還在圖3中展示了Sci-LLMs的演化樹。 ? 我們列舉了Sci-LLMs的可用資源,開源并在 ?** 據我們所知,這項綜述代表了第一個全面概述多模態Sci-LLMs的嘗試**,旨在探索各種科學語言之間的互動。 本綜述的其余部分組織如下:第2節介紹LLMs的背景并闡述相關概念。第3、4、5、6和7節分別介紹文本、分子、蛋白質、基因組和多模態LLMs。最后,在第8節中,我們分析了現有模型的局限性,指出潛在的研究方向,并總結本綜述。

**文本科學大型語言模型 **

在本節中,我們旨在探索和深入研究專門使用文本語料庫(即文本Sci-LLMs)訓練的科學大型語言模型,特別強調它們獲取化學和生物知識的能力。我們將簡要回顧現有的文本Sci-LLMs,并檢查它們的能力、所用數據集以及評估方法。本節的概覽如圖6所示。

**分子大型語言模型 **

大型語言模型在加速化學分子發現方面顯示出巨大潛力。在本節中,我們將回顧在分子語言(Mol-LLMs)中訓練的LLMs,包括它們的模型架構、能力、使用的數據集和評估標準的洞察。本節的概覽如圖8所示。

**蛋白質大型語言模型 **

在過去的幾年中,大型語言模型在蛋白質研究中變得越來越有影響力,提供了新穎的見解和能力,用于理解和操縱蛋白質。在本節中,我們提供了一個關于蛋白質的LLMs(稱為Prot-LLMs)的全面回顧,包括對它們的模型架構、使用的數據集、各種能力和相應評估標準的詳細討論。本節的概覽如圖9所示。

**基因組大型語言模型 **

在計算生物學領域,基因組數據顯示出與自然語言中觀察到的基于序列的信息的相似性,使得大型語言模型能夠用于分析基因組序列。在本節中,我們將回顧專為基因組語言(Gene-LLMs)量身定制的LLMs,包括對它們的模型架構、數據集和評估的洞察。本節的概覽如圖10所示。

多模態科學大型語言模型

多模態大型語言模型已成為一個突出的研究領域,利用強大的LLMs作為核心來處理多模態數據。這些模型具有將不同數據類型(如文本、圖像、音頻和其他形式的信息)結合起來的獨特能力,使得它們能夠在各個領域進行全面的探索和問題解決。這些多模態模型在生物和化學科學領域,特別是蛋白質、分子和基因組研究中,展現出有希望的前景。在本節中,我們探索了這些科學領域內多模態模型的最新進展(即MM-Sci-LLMs),強調它們的能力和利用的數據集。請注意,這項綜述專注于跨語言的多模態模型,涉及至少兩種來自不同領域的語言,例如文本和分子。因此,我們排除了MM-Sci-LLMs中的單語言多模態方法,如蛋白質序列和結構的聯合建模[228, 261, 302]。圖4展示了不同語言和模態的多樣形式,本節的概覽如圖11所示。

付費5元查看完整內容

大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。

然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

盡管人工智能,特別是深度學習在智能制造的各個方面都有顯著的改進,但由于泛化能力差、建立高質量訓練數據集的困難以及深度學習方法的不盡人意的性能,這些技術在廣泛應用方面仍面臨挑戰。大規模基礎模型(LSFMs)的出現在人工智能領域引發了一波浪潮,使深度學習模型從單任務、單模態、有限數據模式轉變為涵蓋多種任務、多模態并在大量數據集上進行預訓練的范式。盡管LSFMs已經展示出強大的泛化能力、自動高質量訓練數據集生成能力以及在各個領域的卓越性能,但LSFMs在智能制造領域的應用仍處于起步階段。對這個主題的系統性概述尚缺乏,尤其是關于深度學習的哪些挑戰可以通過LSFMs解決,以及如何系統地應對這些挑戰。為了填補這一空白,本文系統地闡述了LSFMs當前的狀況及其在智能制造背景下的優勢,并與當前深度學習模型在各種智能制造應用中面臨的挑戰進行了全面比較。我們還概述了利用LSFMs解決這些挑戰的路線圖。最后,通過在真實世界智能制造場景中應用LSFMs的案例研究來說明LSFMs如何幫助行業提高效率。

制造業是國家經濟的支柱之一,幾個國家已經宣布了戰略路線圖,以促進新制造技術的應用,確保在這一領域的領導地位,例如德國的工業4.0 [1]、美國的智能制造領導聯盟(SMLC) [2] 和中國制造2025 [3]。在過去的幾十年里,通過部署新技術如傳感器、物聯網(loT)、機器人、數字孿生以及網絡物理系統(CPSs) [4]–[15],制造業變得更加智能,其中在制造過程的所有階段持續生成并捕獲前所未有的數據量。因此,高效的數據處理算法被極為渴求,以實現有效的故障診斷和預測性維護、質量控制、人類操作、流程優化以及智能制造所需的許多其他智能決策 [16]–[20]。統計數據顯示,82% 使用智能制造技術的工業活動獲得了效率和性能的提升 [16], [21]。智能制造的這些改進主要歸功于各種機器學習算法的實施,這些算法隨著制造數據的規模和復雜性的增加,其中許多先進的數據驅動方法已被研究和采用,以實現大規模數據處理能力,高效率和強大的決策制定能力,這兩者通常是復雜制造活動所共同需要的。表1列出了這一領域的一些綜述文章 [22]–[88]。 傳統機器學習方法,如支持向量機、K最近鄰、樸素貝葉斯等,在一定程度上可以提高制造業的決策性能 [89]–[91]、生產線調度 [92], [93]、機器維護安排 [94], [95]、故障預測 [96]–[98]、質量評估 [99], [100] 和缺陷檢測 [101], [102]。然而,它們過分依賴于手工特征工程以用領域知識表示數據,并且缺乏處理大規模數據中高度非線性關系的能力,限制了它們在智能制造中的應用 [103], [104]。 深度學習作為一種先進的機器學習方法,能夠通過采用多層神經網絡架構,從高維非線性原始數據中自動提取特征和識別模式,使其更適應智能制造的復雜數據處理。在過去的十年里,深度學習方法是智能制造各個領域中主流的數據驅動方法,例如健康管理(PHM) [105]–[125]、質量控制 [126]–[142]、機器人 [143]–[149] 和人類活動識別 [66], [150]–[165]。 盡管深度學習展示了高層次的特征學習抽象表達能力,具有出色的端到端決策模型能力并且顯著減少了對人力的需求,從而大大推動了智能制造的發展,但在應用時仍面臨重大困難 [45], [166]–[169]。首先,為特定模式和目標定制的小型深度學習模型的性能受限。這些模型存在泛化能力有限、可解釋性差、易受攻擊等問題,無法滿足企業在智能生產和管理方面的需求,尤其是在數據多樣的復雜任務中 [170]–[175]。此外,它們只能以分散、松散耦合的方式處理個別任務 [176]–[178]。其次,數據規模增長和數據集建立成本的要求限制了深度學習模型的性能。作為一種數據驅動的方法,深度學習模型依賴于擬合輸入和輸出之間的關系,其中訓練數據集的數量和質量起著關鍵作用 [166]。盡管新技術如傳感器和物聯網使得高效收集大量數據成為可能 [179]–[184],但這些數據通常分布不均、噪聲多、缺乏標簽,并包含大量非結構化數據。因此,這些數據不足以訓練出好的深度學習模型。與此同時,深度學習模型處理大規模數據的效率不足。最近出現的大規模基礎模型 [185]–[189] 通常通過廣泛的自監著學習進行訓練,并展示了強大的泛化能力、卓越的零樣本性能和令人印象深刻的多模態融合能力,這在自然語言處理、計算機視覺等多種下游任務中取得的成功中得到了證明 [190]–[197]。盡管利用LSFMs應對智能制造中的挑戰的努力才剛剛開始,但已有一些進展被嘗試。[198], [199] 討論了LSFMs在工業制造中的潛在應用,但僅限于特定的工業任務或特定LSFM。Ji等人 [200] 提出了對比視覺基礎模型在隱蔽場景中的性能與最新深度學習模型的定量比較。Ogundare等人 [201] 提出了一項關于大型語言模型(LLMs)生成的工業自動化和控制系統的彈性和效率的研究。

盡管LSFMs在智能制造中展現出巨大潛力,其中強大的泛化能力、自動高質量訓練數據集生成和卓越性能非常受歡迎,但這一領域的研究仍處于早期階段,且關于智能制造應用中LSFMs的系統性綜述尚未出現。本文提出了在智能制造中使用LSFMs的技術路線圖,特別是在深度學習方法遇到重大障礙的地方。我們的工作旨在提供指導方向和討論,幫助理解LSFMs如何能夠惠及智能制造

本文的其余部分組織如下。第二部分描述了深度學習模型在智能制造中遇到的挑戰。在第三部分,我們首先提供了LSFMs當前進展的簡要概述,隨后我們討論了LSFMs在智能制造中的技術優勢,這些優勢解決了深度學習所面臨的挑戰。第四部分闡述了在智能制造中應用LSFMs的路線圖。最后,在第五部分,我們通過幾個我們在實際制造場景中應用的案例來說明LSFMs如何在智能制造中取得進展。

大規模基礎模型(LSFMs)的進展

基礎模型旨在通過大規模數據集進行訓練,即擁有數十億至數千億的參數,并在近期首次被命名 [185]。這些模型在預訓練后可以固定大部分參數,并通過微調適應廣泛的下游應用。事實上,大規模基礎模型(LSFMs)在自然語言處理 [292]、計算機視覺 [293] 等領域取得了革命性的進展。

如圖2所示,大型語言模型(LLMs)領域見證了眾多令人印象深刻的進展 [294]–[297]。其中,GPT系列 [292], [294], [298], [299] 無疑是LLMs中最著名和最具標桿性的。GPT系列的最新版本,GPT-4 [292],支持多模態輸入,接受圖像和文本,并生成文本輸出。它是一個基于Transformer的模型,預訓練用于預測文檔中的下一個詞。后續的微調過程可以增強其事實準確性,并確保其性能與期望的行為一致。在各種專業和學術基準測試中,GPT-4展示了與人類水平相當的性能,尤其是在人機交互、教育、醫療和法律等領域。LlaMA模型 [300] 目前是最受歡迎的開源LLM,提供四種規模:7B、13B、30B和65B。由于LlaMA是在英文語料庫上進行預訓練的,因此在使用時通常需要用目標語言的指令或數據進行微調,從而產生了一系列擴展模型 [301]–[303],構成了LlaMA家族。

LSFMs在智能制造應用中的路線圖

A. 提升泛化能力的路線圖

預訓練與微調相結合:當模型參數和大小超過一定閾值時,這些模型不僅展示了突現的性能提升,還獲得了小規模模型所缺乏的功能,如邏輯推理能力 [294], [340]。在智能制造中,LSFMs結合預訓練和微調的方式提供了多種可能性,用以解決傳統小規模深度學習方法所遇到的問題。LSFMs在多樣化的通用數據集上進行預訓練,減少了對有限的、特定任務的數據集的依賴,因此盡管模型的參數量很大,也減輕了過擬合的風險。Kahatapitiya等人 [341],考慮到視頻-文本匹配數據的有限可用性,應用了一個預訓練的圖像-文本模型到視頻領域,用于視頻-文本匹配,而不是從頭開始訓練。此外,特定的微調策略可以增強模型的泛化能力,以進一步避免在小樣本學習中微調過程中可能出現的模型過擬合。Song等人 [342] 提出了一種稱為特征判別對齊(FD Align)的微調方法,通過保持偽特征的一致性來增強模型泛化能力,在分布內(ID)和分布外(OOD)任務中展示了有效性。

通過LSFMs構建結構化數據:LSFMs可用于提取和理解復雜的非結構化數據,并將其編碼為可管理的結構化格式,例如,處理工單中的非結構化文本數據 [343]。深度生成模型(DGM)和諸如VIT [304]之類的模型旨在從非結構化數據中發現復雜的高維概率分布,以提取更抽象、更復雜的特征。Oliveira等人 [344] 概述了四種類型的DGM:基于能量的模型(EBM)、生成對抗網絡(GAN)、變分自編碼器(VAE)和自回歸模型,以及它們如何應用于供應鏈管理(SCM)優化。

通過提示嵌入知識:一旦專家知識被編碼,它可以與輸入文本或圖像特征融合,從而提高輸出的準確性 [345]。許多LSMFs,如ChatGPT和SAM,固有地包含了手動提示編碼,允許通過提示融合領域知識,而無需修改模型。例如,對于抽象的人類行為活動,模型可能難以一次性描述它們。因此,可以引導它首先生成與對象相關的活動描述,強調區分相似活動的關鍵對象。隨后,它可以識別人類活動的活動類別并幫助解釋上下文 [346]。此外,LSFMs甚至可以在訓練過程中通過收集案例研究來收集相關的領域知識 [347]。

使用多模態LSFMs:智能制造通常產生多種形式的數據,包括自由文本維護日志、圖像、音頻和視頻記錄。這些數據的固有多樣性對深度學習模型中的單一模態構成了巨大的挑戰。諸如Visual-GPT [348] 和ImageBind [318] 之類的LSFMs已成為可行的解決方案。這些模型擅長于同時編碼一系列數據,包括圖像、文本、音頻、深度、熱能、IMU數據和時間序列信號數據 [349], [350]。這種擴展的能力不僅可以豐富智能制造中捕獲的數據范圍,還可以賦予LSFMs獨特的功能,如跨模態檢索、通過算術運算進行模態融合以及跨模態檢測和生成。利用這些廣泛的LSFMs有助于精確處理非結構化數據和綜合多樣化的結構化數據來源。在多種干擾特征的復雜工業環境中,LSFMs與傳統單模態深度學習方法相比展示了更強的魯棒性。

正則化和集成學習:LSFMs可以通過正則化和集成學習等方法解決過擬合問題。正則化可以限制模型的復雜性,修剪可以移除不必要的節點和連接,集成學習可以結合多個模型的預測結果以提高模型的泛化能力。盡管許多LSFMs,如GPT-3和PaLM在訓練期間沒有使用dropout [351],但它仍對LSFMs有重要影響。例如,通過在訓練過程中使用dropout,Galactica [296] 實現了一個1200億參數的模型而沒有過擬合。此外,為了緩解由于dropout導致的LSFMs訓練速度降低,逐漸在訓練過程中引入dropout可以產生與始終使用dropout相當的性能 [352]。

持續學習/終身學習:大多數當前在智能制造中的深度學習模型假設正常模式保持不變。然而,制造環境中的變化頻繁發生。持續學習/終身學習涉及在保留以前學到的知識的同時獲取和識別新知識。LSFMs具有通過收集過去任務結果作為經驗來進行持續學習的強大能力。通過這個過程,LSFMs利用以前的知識不斷提升自己 [347], [353]。LSFMs的持續學習特性使它們能夠在實際生產過程中不斷積累新知識,以適應復雜實際環境中的潛在變化 [347], [353]。這一能力有助于防止在固定模式上訓練的模型出現過擬合。對這個過程施加特定約束可以進一步提高模型的性能和穩定性 [354]。

LSFM輔助的知識圖譜構建:知識圖譜是通過理解圖結構獲取知識的表達形式 [355]。然而,知識圖譜工程(KGE)需要對圖結構、邏輯和知識內容有深入理解,因此工作量巨大。深度學習方法的上下文理解和表示能力不盡人意,特別是在遇到全新或罕見的知識時。利用LLMs的知識理解能力和高級推理技能,可以自動生成專業領域的知識圖譜 [356],并預計通過將知識圖譜與預訓練的語言模型相結合,增強模型對特定領域知識的理解 [357]。

B. 自動高質量訓練數據集生成的路線圖

生成更高質量的數據集:生成模型如擴散模型可以較傳統數據合成方法更有效地促進高質量合成數據的生成 [315]。使用文本到圖像的擴散模型可以生成真實的圖像變化以進行數據增強。與簡單的增強方法如拼接、旋轉、翻轉不同,基于擴散模型的增強可以改變更高層次的語義屬性,例如卡車上的油漆工作 [358]。為了解決訓練擴散模型本身需要大量數據的問題,Wang及其同事將二維擴散模型轉換為三維,使用鏈式規則,使得生成三維對象數據成為可能 [359]。此外,轉換可以用于加權平均或評分多個預測模型的結果,并學習和模擬歷史數據以獲得更強大的預測結果。 在第五部分,我們展示了如何使用LSFMs在工業生產線上實現低成本、自動化的動作識別數據注釋。

提高數據質量:高質量數據對模型訓練和智能制造中的決策至關重要,原始數據通常存在缺失值、異常值和重復值等問題。LSFMs可用于自動去除雜質數據,減少預測錯誤,提高數據質量。例如,BLIP [309] 依賴于中間訓練模型在訓練期間自動從數據集中移除匹配不良的圖像-文本對,并改進某些圖像的文本注釋。Lin等人 [360] 提出了一種基于條件生成對抗網絡(CGANs)的動態供應鏈成員選擇算法。為確保分類性能不會降低,鏈上的成員分類方法能成功降低分類過程中的數據維度和復雜性。

零樣本和少樣本:工業缺陷檢測的一個主要挑戰是缺乏異常樣本,工業產品的異常情況通常多樣且不可預測。LSFM可以有效地實現零樣本檢測或少樣本檢測。Gu等人 [324] 探索了使用大型視覺-語言模型(LVLMs)解決工業異常檢測問題,并提出了一種基于LVLM的工業異常檢測新方法,AnomalyGPT。在MVTec異常檢測數據集上,AnomalyGPT僅使用一個正常樣本就能實現86.1%的準確率,94.1%的圖像級AUC和95.3%的像素級AUC。這種應用方法不再需要收集異常樣本或為每個任務創建數據集來訓練特定模型,只需要少量數據的微調就能實現良好的檢測結果。例如,在預測性維護中,Leite等人 [361] 使用LLMs對可信度信號進行分類,這些信號通常用于評估預測內容的真實性。基于LLM的方法在兩個虛假信息數據集上的表現優于最先進的分類器,無需任何真實標簽。

預訓練與微調相結合:盡管一些初步工作為智能制造場景提供了數據集,如HAR [362]–[364]、質量控制 [365]–[367] 和PHM [368], [369],但這些數據集的特點是規模小、覆蓋范圍狹窄、場景單一、操作條件簡單、數據分布不均。LSFMs在廣泛數據上進行預訓練,可以識別真實世界實體的一般特征,為數據有限環境中實現精準靈活的智能制造提供有效解決方案 [294]。在大規模數據上訓練的預訓練模型隨后在小規模數據上進行微調,以提高模型的準確性和泛化能力。例如,Sun等人 [370] 在醫學文本中使用了BERT,并僅使用小數據集進行微調就取得了良好的性能。同樣,Radford等人 [299] 展示了GPT在不同任務中的遷移學習能力。

C. 卓越性能的路線圖

通過提示改進:通常情況下,訓練完成后,深度學習模型不再接受“指導”,而是基于訓練的參數進行推理。然而,LSFMs具有卓越的數據整合能力,可以通過利用各種形式的提示來提高輸出性能。Ji等人 [321] 發現提示的質量對LSFMs的準確性有重要影響。為了解決SAM在小尺度和不規則邊界上的次優分割性能,可以使用多個提示從分布中導出更精確的分割結果 [371]。特別是,Deng等人 [372] 使用先前分布參數的蒙特卡羅模擬來估計SAM的預測分布。這種方法允許通過考慮單個圖像的多個預測來估計任意不確定性。另外,也可以使用網絡來獲取增強的線索,通過輸入原始線索生成增強線索以產生遮罩,然后輸出增強線索。通過將這些線索合并為新的提示,可以提高分割性能 [373]。還應該謹慎處理解耦遮罩生成和提示嵌入,以防止誤導性提示對遮罩生成產生不利影響 [370]。

增強輸入數據:在LSFMs中,“基礎”一詞表明LSFMs可以輕松地作為與其他算法結合的基礎。這確保了即使LSFMs單獨使用時表現不佳,通過與其他算法結合仍能保證良好的性能。例如,視覺語言模型(VLM)表現出對各種損壞的強大魯棒性,但某些損壞如模糊相關的損壞會導致模型性能下降 [374]。此外,SAM在隱蔽和偽裝場景中的性能被證明是不足的 [200], [375]。幸運的是,已有大量關于去模糊 [376]–[378] 和檢測隱蔽和偽裝場景中目標的技術研究 [379], [380]。作為LSFMs的特點和優勢之一,VLM可以輕松地與其他模型結合,使用預處理數據作為輸入或將其他對象檢測器的檢測框作為提示。

跨模態預訓練:LSMFs克服了深度學習中單一任務和單一模態的限制,能夠在跨模態預訓練后通過統一模型實現多任務和多模態應用 [381]。通過在訓練中利用對比損失建立圖像和文本特征之間的關聯,可以實現開放集對象識別和檢測 [310]–[312]。這可以防止任務受到訓練中預定義類別的限制。為了達到令人滿意的預訓練性能,成功依賴于跨模態數據集的規模 [381], [382] 和模型利用弱對齊數據的能力 [383]。李等人 [384] 使用預訓練模型進行工業系統中視頻的弱監督標簽分類,以衡量視頻中的語義相似性。通過加入增強的跨模態Transformer模塊,他們最大限度地利用了視頻和紋理特征之間的交互信息。

預訓練結合微調:與深度學習在數據有限和流程復雜的情況下所達到的不令人滿意的準確度相比,大規模預訓練不僅賦予LSFMs強大的泛化能力,還賦予了它們更高準確度的潛力 [294], [340]。雖然直接使用預訓練的LSFMs可能并不總是優于特別設計的深度神經網絡 [321],但用特定智能制造領域的數據集數據有效地微調它們可以提高它們的準確度 [385], [386],潛在地超越現有的深度學習模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技術促進了LSFMs的微調過程。

此外,在集成數據集上訓練深度學習模型增加了數據泄露的隱私風險。使用預訓練的LSFMs作為解決方案可以提高數據安全性,減少從零開始訓練模型所需的大量數據帶來的隱私風險。這些預訓練模型能夠在最小化微調的情況下實現有效的結果,從而減少對敏感數據的暴露。在微調階段,LSFM網絡的有限部分需要調整,引入差分隱私技術。具體來說,Abadi等人 [390] 提出的技術在微調過程中得到了應用。這些措施可以保持微調LSFM過程中涉及數據的隱私,確保更安全的訓練環境。

采用分布式學習:制造業中的數據不像自然語言和其他領域那樣容易獲得,因此采用分布式學習方法 [391] 對于在智能制造中使用的LSFMs在訓練和安全方面可能都有益處,其中訓練數據可以從不同的生產線、工廠甚至國家獲得。分布式學習方法,如聯邦學習,涉及每個方的本地數據處理,只有中間結果(如梯度)被聚合用于模型更新。這使得客戶端(設備或組織)能夠協作訓練機器學習模型,而不暴露其數據,大大提高了數據使用效率 [392], [393]。與這些技術結合可以使LSFMs不僅在性能上超越傳統方法,而且在處理敏感工業信息時提供更安全的數據處理框架。

使用LSFM自身的輸出進行解釋:由于其決策過程高度抽象和非直觀,深度學習模型通常被認為是“黑箱”。LSFMs,特別是LLMs,在任務中展示了卓越的上下文理解能力,因此嘗試使用LLMs來解釋模型是潛在可行的。在Bubeck等人的一項研究中 [274],發現LLMs在其輸出中展現了強大的結果一致性,這意味著模型遵循了固定的“思考”模式。因此,向chat-GPT提出類似“請解釋你預測背后的原因”的問題被證明是有效的,尤其是在合理的先前問題之后。這個想法也可以應用于基于編碼器結構的模型 [394],通過對重構輸入特征進行偏差分析來解決AE的局限性,以獲得解釋 [395]。

使用LLM解釋其他模型:LLMs具有強大的文本能力,可以利用從LLMs獲得的知識來解釋其他神經網絡。為了實現這一點,LLMs被用來總結和評分待分析模型的輸出 [396]。此外,LLMs可用于生成或匹配反事實,模擬或估計事件或行為中的不同選擇,以更好地理解模型的預測結果 [397]。或者,將LLMs直接嵌入到模型訓練中,可以實現高效推理的同時獲得良好的可解釋性 [398]。

可視化運行過程:從神經網絡輸出中提取中間特征圖可以幫助理解模型關注的特征,即使這些特征圖可能仍然高度抽象。通過使用其架構中的自注意機制和令牌鏈接,可視化注意力可以提供比特征圖更直觀的解釋。注意力鏈接的強度直觀上可以被認為是每個令牌對分類的貢獻的指示器。可視化注意力有助于理解模型感興趣的部分 [399]。考慮到LSFMs大多基于transformer結構,可視化注意力輸出以提高LSFMs的可解釋性是有前景的。

結論

LSFMs表現出強大的泛化能力、自動生成高質量訓練數據集的能力和優越的性能,能夠將人工智能從單一模態、單任務、有限數據訓練的范式轉變為多模態、多任務、海量數據預訓練然后微調的模式,必將帶來智能制造的新一波變革。針對將LSFMs應用于智能制造的研究尚處于起步階段,缺乏系統的方向性指導的問題,總結了深度學習在智能制造中的進展與挑戰,以及LSFMs在智能制造應用中的進展及其潛在優勢。在此基礎上,從通用性、數據性和性能等角度全面探討了如何構建適用于智能制造領域的LSFM系統,并以美的集團生產線的實際應用為例,說明了LSFMs的應用如何幫助企業提高效率、降低成本。

付費5元查看完整內容

隨著人工智能(AI)的迅速發展,地球和大氣科學領域越來越多地采用數據驅動模型,這些模型由深度學習(DL)的持續進步所推動。具體來說,DL技術被廣泛用于解碼地球系統的混沌和非線性特征,并通過理解天氣和氣候數據來應對氣候挑戰。最近,通過DL在更窄的時空尺度內的特定任務上取得了尖端性能。大型模型的興起,特別是大型語言模型(LLMs),使得微調過程產生了顯著的成果,從而推動了通用AI的發展。然而,我們仍在探索為天氣和氣候制定通用AI的初期階段。在這篇綜述中,我們提供了一個全面、及時的概覽,專注于為天氣和氣候數據量身打造的最新AI方法論,特別關注時間序列和文本數據。我們的主要內容涵蓋四個關鍵方面:天氣和氣候數據的類型、主要模型架構、模型范圍和應用,以及天氣和氣候的數據集。此外,關于為天氣和氣候數據理解創建和應用基礎模型,我們深入探討了該領域當前的挑戰,提供關鍵見解,并提出未來研究的詳細途徑。這種全面的方法為從業者提供了在這個領域取得重大進展所需的知識。我們的綜述包含了關于大型、數據驅動模型在天氣和氣候數據理解方面的最新研究突破,強調了堅實的基礎、當前的進展、實際應用、關鍵資源和未來研究的機會。

概念1. 天氣和氣候是兩個不同的概念,它們在空間和時間尺度、可變性和可預測性方面有顯著的差異。這兩者之間的不同可以如下闡述: * 時間尺度。天氣涉及大氣狀況的即時狀態,通常在短期時間框架內。相反,氣候代表長期天氣模式的統計總結。 * 空間尺度。天氣代表特定位置的大氣狀況,而氣候則包括對一個地區典型天氣模式的全面總結。 * 可變性。天氣表現為快速和頻繁的變化,而氣候變化速度較慢,包括長期天氣模式的轉變。 * 可預測性。天氣預報側重于預測未來幾天或更短時間尺度內的天氣狀況。相比之下,氣候預測旨在預測未來幾個月到幾十年的氣候趨勢。

氣候變化描述了全球溫度和天氣模式在長期內的顯著變化。目前,我們的星球正經歷著極端自然現象的激增,如干旱[1]、[2],洪水[1],地震[3],熱浪[4]和強降雨[5],這些現象由不斷加劇的氣候變化所推動。加劇這些挑戰的是全球變暖和海平面下降對生態系統的驚人威脅[6]、[7]。鑒于本世紀預計的地表溫度增加,我們預見這些極端現象的嚴重程度和頻率將加劇[8]。 利用先進的氣候建模和預測技術,這些技術集成了大量的大氣和地表變量 - 包括大氣狀況、洋流、陸地生態系統和生物圈相互作用 - 可以增強我們對氣候變化的理解[9]、[10]。這些見解可以指導定制緩解策略的制定[11]。長期準確的海平面變化預測可以加強沿海城市的城市規劃和災害準備工作[12]、[13]、[14]。短期內,降雨、溫度和濕度的精確預測可以提高包括農業規劃和交通調度在內的人類活動的安全性[15]、[16]、[17]。 傳統上,一般環流模型(GCMs)[18]和數值天氣預報模型(NWPs)[19]、[20]、[21]一直是研究氣候變化趨勢和預測未來天氣和氣候情景的首選工具。這些模型融合了主要的地球系統組成部分,包括大氣、地表和海洋,以模擬地球系統的多維動態。它們通過復雜的物理方程式,如大氣動力學,確定這些組成部分之間的潛在非線性關系,以在廣泛的物理參數范圍內生成預測[22]。然而,盡管它們已經相當成熟,數值受限的天氣預報模型仍面臨許多挑戰和限制。其中之一是它們對地方地理特征的過于簡化的表現[23],因為它們通常無法捕捉到對區域天氣和氣候模式產生關鍵影響的地方地形的復雜細節。另一個障礙是有效地整合來自不同來源的觀測數據,如氣象站、雷達和衛星[8]。傳統模型通常難以將這些具有不同空間和時間分辨率的數據納入其建模框架。此外,它們需要大量的計算資源來管理眾多的物理限制[24]。地球系統的復雜性和規模要求進行大量的計算,給計算能力和效率帶來挑戰。 人工智能技術的快速發展為天氣和氣候建模引入了成本效益高、直接且簡化的解決策略。特別是,機器學習(ML)和深度學習(DL)技術可以識別天氣和氣候數據中的潛在趨勢表示,從而繞過對復雜物理關系的需求。最初,鑒于ML技術相較于大規模、長時間的物理模型的有限能力,它們被少量用于短期、局部的天氣和氣候條件預測。然而,過去十年目睹了數據驅動深度學習方法在天氣和氣候研究中的應用呈指數級增長,這得益于全球天氣和氣候數據的爆炸性擴展[25]、[26]。依托豐富的數據資源和計算技術的進步[27]、[28],這些模型正在革命性地改變氣候科學[29]。利用大量數據,深度學習模型揭示了隱藏在氣候變量中的復雜非線性關系,從而以更高的精確度捕捉氣候系統的動態性和復雜性[30]、[31]。然而,這些模型通常為特定任務而設計,并使用特定格式的數據進行訓練,如區域天氣預測或微觀尺度的降尺度。訓練數據來源的表現方式差異導致了數據驅動深度學習模型在理解天氣和氣候數據方面的過度分化功能。因此,開發能夠微調以模擬全球天氣和氣候系統的通用氣候模型成為一個重大挑戰。

近期大型模型的出現和迅速發展在各個領域取得了顯著成就,包括自然語言處理(NLP)、計算機視覺(CV)[32]、機器人學[33]以及涵蓋生命科學的一系列跨學科領域[34]、[35]、[36]、[37]、[38]。特別是在NLP領域,大型模型或大型語言模型(LLMs)正在迅速發展,它們在大規模語料庫上進行訓練,并針對各種下游任務進行微調[39]、[40]、[41]。在計算機視覺領域,大型視覺模型經過大量自然圖像的訓練[42]、[43]、[44],展示出卓越的零樣本能力[45]、[46]。這些模型在跨任務中的卓越表現源自于它們龐大的參數數量和大規模的預訓練數據。例如,GPT-3[47]、[48]擁有近120倍于GPT-2[49]的參數,使其能夠從更少的樣本中更強大地學習,而GPT-4[50]的參數不到GPT-3的十倍,但在文本生成和圖像理解方面表現出色。LLMs的迅速崛起重新定義了深度學習的前進道路,盡管在無監督/半監督和遷移學習等長期發展領域仍然存在。一個值得注意的例子是視覺-語言大型模型[46]、[51]、[52]、[53],如CLIP[46],它在眾多自然圖像-文本對上進行訓練,并針對如圖像分割[54]、[55]、[56]和視頻字幕生成[57]、[58]等任務進行微調,取得了有希望的結果。最近,大型模型在語音[59]、[60]、物理學[61]和數學分析[62]等領域的擴展催生了基礎科學和專業領域的進步。

預訓練的基礎模型的突破性成功已經顯著推動了NLP和CV領域更接近通用AI的實現。這一進步引發了一個有趣的問題:預訓練的基礎模型的成功已經使NLP和CV領域朝著實現通用AI邁出了有意義的一步,這不僅讓人好奇:是否有可能開發一個用于天氣和氣候數據理解的通用基礎模型,有效地解決相關任務的眾多問題? 基于預訓練模型理論,CLIMAX [25] 提出了一種開發天氣和氣候基礎模型的創新方法。它利用變換器預訓練大規模天氣和氣候數據,產生一個靈活的基礎模型,擅長短期至中期預測、氣候預測和降尺度。PANGU-WEATHER [63] 和 W-MAE [64] 通過使用大量數據對全球氣候系統進行建模,展示了強大的氣候預測能力。然而,開發大規模、通用氣候模型的追求面臨著重大障礙。一個主要挑戰是缺乏大型、多樣化和高質量的訓練數據集。現有數據集(詳情見表4)在不一致的測量、空間-時間偏差和有限的功能性方面存在問題,阻礙了全面、多用途大規模基礎模型的進展。此外,這些模型的計算需求增加了另一個復雜性維度,所需的基礎設施在資源有限的環境中可能無法實現。理想情況下,一個天氣/氣候基礎模型應該能夠無縫處理多源觀測,并納入地理特征的詳細表示,以生成更精確的天氣和氣候趨勢模擬。不幸的是,這仍然是目前天氣和氣候基礎模型的一個基本未開發領域。此外,這些模型的可解釋性,通常被視為“黑匣子”,是一個重要的關注點。在天氣和氣候相關任務中,錯誤的預測可能會對生態系統和社會造成嚴重破壞,因此特別強調了對可解釋性的需求[36]、[65]、[66]。盡管在理解天氣和氣候數據方面取得了顯著進步和潛力,但如上所述,開發大規模基礎模型所面臨的獨特挑戰,需要集中研究(詳情見第9節)。這強調了對這一新興領域進展的全面審查的需求。 在本文中,我們對專門針對天氣和氣候數據設計的數據驅動模型進行了全面審查。我們的綜述涵蓋了各種數據類型、模型架構、應用領域和代表性任務的廣泛大型基礎模型/特定任務模型。這篇評論擴大了從天氣和氣候數據中得出的見解的范圍,鼓勵新的策略,并促進在天氣和氣候中大型模型的跨應用。通過利用DL在大型模型中的力量,我們旨在揭示復雜的氣候模式,增強預測,并加深對氣候系統的理解,從而使社會能夠更有效地適應氣候變化帶來的挑戰。我們的貢獻總結如下: * 首次全面且現代的綜述。據我們所知,本文是首次全面綜述針對天氣和氣候數據理解的大型和特定任務模型的最新發展,涵蓋時間序列、視頻流和文本序列。我們提供了一個深入和當前的全景,涵蓋了該領域的廣泛光譜,同時深入探討了不同方法論的細微差別,為讀者提供了對這個領域的全面和最新的理解。 * 系統化和深入的分類。我們介紹并討論了一個有組織和詳細的分類,將現有相關研究劃分為兩大類:大型氣候基礎模型和特定任務氣候模型。此外,我們進一步根據模型架構對它們進行分類,包括RNN、變換器、GAN、擴散模型和圖神經網絡。基于模型的應用領域和特定任務,進一步進行劃分,并對這些任務定義進行詳細解釋。這種多維分類為讀者提供了一個連貫的路線圖。 * 豐富的資源匯編。我們已經收集了一大批與天氣和氣候科學領域相關的數據集和開源實現。每個數據集都附有詳盡的結構描述、相關任務和直接超鏈接,以便快速訪問。這個編譯作為未來研究和開發努力的領域中的寶貴資源。 * 未來展望和研究機會。我們已經勾畫了幾個未來探索的有希望的軌跡。這些觀點跨越了各個領域,包括數據后處理、模型架構、可解釋性、隱私和訓練范式等。這篇論述為讀者提供了對該領域當前狀態和未來探索可能途徑的復雜理解。設計見解。我們討論并指出了有希望的天氣和氣候基礎模型的關鍵設計元素。這些設計組件包括時間和空間尺度的選擇、數據集選擇、數據表示和模型設計、學習策略和評估方案。遵循這個系統化的設計流程使從業者能夠快速理解設計原則并構建強大的天氣和氣候基礎模型,從而促進天氣和氣候領域的迅速發展。

文章組織。本綜述的其余部分結構如下:第2節闡述了我們的綜述與其他相應研究之間的區別。第3節為讀者提供關于基礎模型、天氣和氣候數據的基本描述以及相關任務的基本知識。第4節詳細闡述了天氣和氣候任務的關鍵模型架構。第6節,我們介紹了目前用于天氣和氣候任務的主要模型分類的概要,包括氣候基礎模型和特定任務模型。該節在深入探討個別方法論的復雜性之前,提供了該領域的整體視圖。第5節簡潔地介紹了氣候基礎模型和特定任務模型,并根據不同的模型架構進一步細分特定任務模型。隨后,第7節進行了對特定天氣和氣候任務的數據驅動深度學習模型的廣泛探索。考慮到缺乏統一和全面的天氣和氣候數據集索引,第8節提出了一套詳盡的數據集資源和介紹,旨在為讀者提供便利和效率。第9節概述了目前阻礙天氣和氣候基礎模型發展的挑戰,以及該領域未來的潛在方向。第10節提出了構建天氣和氣象基礎模型的潛在藍圖,幫助從業者進行思考和執行,并促進氣候基礎模型的發展。最后,第11節對綜述內容提供了總結和結論性評論。

天氣和氣候的基礎模型

蓬勃發展的基礎模型在NLP [47]、[82]、[200]和CV [45]、[46]領域已激發了對天氣和氣候數據理解基礎模型的研究興趣。通過預訓練策略創建的大型基礎模型可以顯著提高基于AI的氣候模型的泛化能力,并可以針對特定的下游任務進行微調。這類模型的預訓練需要大規模序列數據,這不是通常從普通時間序列數據中獲取的。 考慮到計算效率和對及時氣候預測的需求,Pathak等人提出了FOURCASTNET [136],這是一種基于視覺變換器和自適應傅里葉神經網絡運算符(AFNO)[201]的氣候預訓練基礎模型,用于高分辨率預測和快速推理。其訓練過程包括基于預訓練模型的自監著預訓練和自回歸微調。PANGU-WEATHER [63],一個利用3D地球特定變換器的數據驅動模型,以其快速、精確的全球預測和卓越性能而聞名。它根據當前狀態預測隨時間變化的大氣狀態,當前狀態由上空五個變量和四個地表變量在0.25°水平網格上的13個垂直層描述。另一方面,CLIMAX [25] 通過其基于變換器的完全監督預訓練,將基礎建模概念引入天氣預測。它提出變量消歧和變量聚合策略,用于合并和揭示不同天氣變化在不同高度的潛在關系,為適應包括全球/區域/季節性預測、氣候繪制和降尺度任務在內的多樣化下游任務提供了有希望的靈活性。FENGWU [138] 以獨特設計的深度學習架構從多模態、多任務角度解決中期預測問題。它具有模型特定的解碼器和跨模態融合變換器,在不確定性損失的監督下,以區域適應的方式平衡不同預測器的優化。鑒于上述大型模型是通過完全監督的方式訓練的,W-MAE [64] 使用基于掩碼自動編碼器(MAE)[202]、[203]的方法,實施天氣預測模型的無監督訓練,這可以通過各種數據源微調用于下游任務。MetePFL [24] 和 FedWing [154] 還提出了基于提示的聯邦學習[204],用于訓練大型基礎模型,大大降低了跨區域協作模型訓練的成本,同時保護數據隱私。LLMs的快速發展導致處理天氣和氣候任務不再局限于視覺或時間序列模型。基于LLMs的OCEANGPT [197] 提出了處理廣泛海洋相關任務的方法論。除了用于預測和模擬的基礎模型之外,CLIMATEBERT [195] 是一種用于處理氣候相關文本的基于NLP的基礎模型。它在新聞文章、研究論文和公司氣候報告等多種來源的200多萬段氣候相關段落上進行訓練[205]。 結論

我們提供了一個全面和最新的針對分析天氣和氣候數據的數據驅動模型綜述。目的是通過系統組織的評估相關模型,為這個不斷發展的學科提供一個新視角。我們提煉出每個類別中最顯著的方法論,研究它們各自的優點和缺點,并提出未來探索的可行軌跡。這篇綜述旨在作為一個刺激,激發持續的興趣并培養對天氣和氣候數據理解領域數據驅動模型研究的持久熱情。

付費5元查看完整內容

數據在大型語言模型(LLM)訓練中扮演了基礎性的角色。有效的數據管理,尤其是在構建適合的訓練數據集方面,對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻,目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論,以及持續改進策略方面存在不足。因此,數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽,涵蓋了數據管理策略設計的各個值得注意的方面:數據量、數據質量、領域/任務組成等。展望未來,我們推斷現有挑戰,并勾勒出這一領域發展的有希望的方向。因此,本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。

大型語言模型(LLM)以其強大的性能和新興能力震驚了自然語言處理(NLP)社區(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。根據之前的研究(Kaplan et al., 2020; Hoffmann et al., 2022),LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究(Zhou et al., 2023a; Ouyang et al., 2022)進一步通過對精心策劃的指令數據集進行監督式微調,增強了LLM的指令遵循能力和下游任務的性能。

我們定義的數據管理——構建適合的訓練數據集,在LLM的預訓練和監督式微調(SFT)階段都至關重要且充滿挑戰。在預訓練階段,構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的(Jain et al., 2020; Gupta et al., 2021)。為了賦予LLM一般性能力,也需要具有多種領域混合的異質數據集組成(Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023)。然而,許多著名的LLM并沒有透露(Anil et al., 2023; OpenAI, 2023)或僅記錄了預訓練數據構建中選擇的過程(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a),使其背后的理由缺失。在SFT階段,LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起(Sanh et al., 2022; Ouyang et al., 2022)。盡管已有一些帶有人類注釋的指令數據集/基準被提出(Wang et al., 2022; K?pf et al., 2023),自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的收集(Si et al., 2023; Anand et al., 2023),從業者仍對指令數據集對微調LLM的性能的影響感到困惑,導致在LLM微調實踐中選擇合適的數據管理策略困難重重。

為了應對這些挑戰,需要對數據管理進行系統性分析,包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估,以及改進策略的追求。因此,本綜述旨在提供當前數據管理研究的全面概覽,如圖1所示。在第2部分,我們關注預訓練數據管理,包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分,我們討論LLM監督式微調(SFT)階段的數據量、數據質量、任務組成和數據高效學習。在第4部分,展望未來,我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述,我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。

大模型預訓練

數據管理在許多著名大型語言模型(LLM)的預訓練中被發現非常重要(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。雖然大多數LLM沒有報告它們的數據管理程序,或者只報告了它們采用的策略,但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分,我們首先回顧研究訓練數據集規模定律的研究,包括有/無數據重復的情況。然后,探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后,討論領域組成和領域重新加權方法。最后,介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。

2.1 數據量

LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加,文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律 在LLM普及之前,研究者就已經關注訓練數據集大小與具有變壓器架構(Vaswani et al., 2017)的語言模型性能之間的關系。Kaplan et al.(2020)研究了變壓器語言模型在交叉熵損失上的經驗性規模定律,發現模型性能與訓練數據集大小之間存在冪律關系,當不受模型大小和訓練計算預算的限制時。他們還得出結論,只要模型大小和訓練數據集大小同時擴展,模型性能就會可預測地提高,但如果其中一個固定而另一個增加,則會遇到過擬合。他們提出的性能懲罰預測比例顯示,模型大小應該比訓練數據集大小增長得更快。 繼Kaplan et al.(2020)提出的冪律關系后,Hoffmann et al.(2022)對更大的語言模型進行了實驗,得出不同的結論,即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。

2.1.2 數據重復

盡管Kaplan et al.(2020)和Hoffmann et al.(2022)關注的是唯一數據訓練一個時期的規模定律,Hernandez et al.(2022)解決了訓練數據集中文本重疊的問題,并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象(Nakkiran et al., 2021),其中重復數據導致訓練過程中途測試損失增加,并發現可預測的重復頻率范圍會導致嚴重的性能下降。 隨著模型大小的增長,根據規模定律,需要更多的訓練數據,引起了關于耗盡高質量訓練數據的擔憂(Villalobos et al., 2022; Hoffmann et al., 2022)。克服這一問題的一種直接方法是對數據進行重復訓練。然而,如上所述,數據重復眾所周知會導致性能下降。受到這一矛盾的啟發,幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.(2023)發現,在受限的數據和固定的計算預算下,對相同的數據重復訓練多達4個時期與訓練唯一數據相比,對損失的變化微不足道。他們還提出了一個規模定律,考慮到了重復和過多參數的回報遞減。Xue et al.(2023)也觀察到模型性能的多時期退化,并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現,常用的正則化技術在緩解多時期退化方面沒有幫助,除了dropout。質疑以前的發現,Tirumala et al.(2023)展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練,而對隨機選擇的重復數據進行訓練則不行,這表明了重復使用智能選擇數據的可行方法。

2.2 數據質量

根據以往研究(Jain et al., 2020; Gupta et al., 2021),高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中,也采用了質量保證技術,通常形成數據管理流程(Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023),包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。

2.2.1 去重

去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020)。Lee et al.(2021)使用N-gram相似性與MinHash(Broder, 1997)來檢測訓練數據集中的重復,并發現去重有助于減輕記憶效應、避免訓練-測試重疊,并保持模型困惑度的同時提高訓練效率。Kandpal et al.(2022)還表明,去重可以顯著降低針對模型記憶的隱私攻擊的成功率。 在去重實踐中,N-gram-and-hashing是最常用的技術(Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021)。Silcock et al.(2022)將其與神經方法進行比較,即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法,得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.(2023)提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復,并應用聚類來減少搜索計算。同樣,Kaddour(2023)通過過濾掉低質量嵌入集群,構建了Pile(Gao et al., 2020)的子集MiniPile。

2.2.2 質量過濾

質量過濾是構建適合預訓練數據集的另一個關鍵步驟,因為像Common Crawl 1和多語言數據集(Kreutzer et al., 2022)這樣的公共數據集通常包含低質量數據,這會妨礙LLM的訓練。現有工作通常使用分類器(Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a)、手工制定的啟發式規則(Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022)或使用困惑度等標準進行閾值過濾(Wenzek et al., 2020; Muennighoff et al., 2023)來進行質量過濾。 質量過濾通常被證明有利于提升模型性能(Longpre et al., 2023b),盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5,擁有13億參數,分別在精心選取的高質量數據和合成數據上訓練,展現了在編碼任務和常識推理上的出色表現。Penedo等人(2023年)構建了RefinedWeb數據集,包括適當過濾和去重的高質量網絡數據,其性能超過了在Pile(Gao et al., 2020)上訓練的模型。與常見結論相反,Gao(2021年)發現,由于過濾目標不夠穩健,對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題,Marion等人(2023年)研究了三種數據質量估計器:困惑度、錯誤L2范數(EL2N)和記憶因子,并通過數據修剪進行測試。令人驚訝的是,他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術,如記憶。

2.2.3 有害內容過濾

有害內容指的是粗魯、不尊重或不合理的語言,可能會導致某人離開討論(Gehman et al., 2020; Welbl et al., 2021)。由于原始文本語料庫通常包含有害文本(Luccioni和Viviano,2021;Longpre et al., 2023b),有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本,進一步防止LLM生成有害話語。與質量過濾類似,啟發式和基于規則的過濾(Lees et al., 2022; Gargee et al., 2022; Friedl, 2023)和N-gram分類器(Raffel et al., 2020)被用作有害內容過濾器。盡管有效地進行模型解毒,Longpre等人(2023b)發現,有害內容過濾減少了生成有害內容的風險,但同時降低了模型的泛化和識別有害內容的能力。此外,Xu等人(2021年)和Welbl等人(2021年)均發現,訓練數據集的解毒處理會導致邊緣化少數群體,如方言和少數族裔身份提及。

2.2.4 社會偏見

除了數據解毒導致的少數群體邊緣化之外,一些工作(Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023)發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人(2021年)評估了C4(Raffel et al., 2020)數據集,建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害,以及被排除的聲音和身份。Gururangan等人(2022年)使用美國高中報紙文章的新數據集,也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙,從而導致一種語言意識形態。Feng等人(2023年)進行了一項全面的案例研究,重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響,以及它如何傳播到語言模型,甚至進一步影響到下游任務。

2.2.5 多樣性和時效性

在LLM預訓練階段的數據管理中,也有研究關注數據的其他方面,例如多樣性和時效性。 例如,Lee等人(2023a)展示了,當用最近提出的Task2Vec多樣性系數(Miranda et al., 2022)來衡量時,公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的,并建議在構建更多樣的數據集時使用它。Maharana等人(2023年)提出了一種新的修剪方法D2修剪,通過將數據集表示為一個帶有難度分數的無向圖,并采用正向和反向信息傳遞策略,來選擇一個包含數據集空間中多樣化和困難區域的核心子集,以平衡數據多樣性和難度選擇。

Longpre等人(2023b)探討了評估數據集的時效性,并得出結論,評估數據與預訓練數據之間的時間偏移會導致性能估計不準確,而且時間不一致無法通過微調來克服,尤其是對于更大的模型。

2.3 領域組成

公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體,例如Pile(Gao et al., 2020)包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的,例如LaMDA(Thoppilan et al., 2022)是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。

研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人(2023b)將Pile(Gao et al., 2020)數據分為九個領域,并進行了逐個刪減實驗,展示了不同領域的影響。他們得出結論,高質量(如書籍)和高多樣性(如網頁)的領域普遍有幫助,即使它們與下游任務相關性較低,包含盡可能多的數據源也是有益的。SlimPajama-DC(Shen et al., 2023)也得出相同的結論,即合并所有領域通常比有意選擇的組合效果更好,前提是進行了全局去重,以消除不同領域數據集之間的重疊。Longpre等人(2023b)和Shen等人(2023)都認為,特定的混合體可能在針對特定任務的評估基準上表現出色,但與包含多樣化的網絡領域相比,優先級并不總是存在。CodeGen2(Nijkamp et al., 2023)研究了編程語言和自然語言混合體對模型性能的影響,并發現,在相同的計算預算下,使用混合體訓練的模型的性能并不比與領域匹配的模型好,但接近。

還有幾種方法被提出來找到適當的領域組成權重。DSIR(Xie et al., 2023b)將問題形式化為在給定一些未標記目標樣本的情況下,選擇原始未標記數據集的子集以匹配目標分布。具體來說,它利用經典的重要性重采樣方法(Rubin, 1988)并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識,DoReMi(Xie et al., 2023a)使用小型代理模型通過Group Domain Robust Optimization(Group DRO)(Oren et al., 2019; Sagawa* et al., 2020)生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重,提高了所有領域的模型性能。在DoReMi(Xie et al., 2023a)的基礎上改進,Fan等人(2023)提出了DoGE,它對訓練領域進行加權,以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問,該函數測量每個領域對其他領域的貢獻。然后,對其他領域的學習貢獻更大的領域將獲得更大的權重。

2.4 數據管理系統

針對預訓練數據管理的困難,集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人(2023a)提供了一個數據處理系統Data-Juicer,它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能,針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人(2023c)還提出了一個預訓練數據策劃和評估系統Oasis,其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。

監督式微調大型語言模型

基于在預訓練階段學到的通用知識和能力,提出了監督式微調(SFT)來進一步提高LLM的指令遵循能力和與人類期望的一致性(Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022)。許多工作已經投入到使用人類注釋(Wang et al., 2022; K?pf et al., 2023)、自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的集合(Si et al., 2023; Anand et al., 2023)來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能,但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致,在本節中,我們總結了LLM SFT的研究探索,涵蓋了數據量、數據質量(包括指令質量)、多樣性、復雜性和提示設計,以及任務組成。此外,還包括了數據高效SFT,討論了從數據角度出發的高效SFT的當前努力。

3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如,LIMA(Zhou et al., 2023a)精心策劃了1,000個高質量樣本,并通過實驗驗證了他們的假設,即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人(2023b)觀察到,對于單一任務特定的LLM微調,可能只需要一條指令,而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理(NLI)任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要(Wei et al., 2021; Sanh et al., 2022)。

為了解決這一沖突,幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人(2023)對12個主要的現實世界在線用戶案例進行了實證研究,并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進,而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人(2023)的觀點不同,Dong等人(2023)發現一般能力可以通過大約1,000個樣本得到增強,并在此后緩慢提升,而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地,Yuan等人(2023)觀察到指令數據量與模型數學推理性能之間存在對數線性關系,但預訓練更強的模型對于更大的微調數據集改進較少。Song等人(2023)進行了涵蓋十種不同能力的實驗,并展示了大多數能力與數據擴展一致。然而,每種能力在指令調整期間的發展速度不同,一些能力甚至顯示出完全不同的模式。

3.2 數據質量

在LLM的監督式微調中,數據質量始終是一個焦點,包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析,而不是在之前的綜述中已經討論過的指令生成方法(Zhang et al., 2023b; Wang et al., 2023e)。

3.3 任務組成

由于LLM在處理各種NLP任務方面表現出驚人的新興能力,多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明,這些模型的參數范圍從3B(Wang et al., 2022),11B(Sanh et al., 2022),137B(Wei et al., 2021)到540B(Chung et al., 2022)。

除了任務數量的擴展外,不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要(Iyer et al., 2022; Longpre et al., 2023a)。Dong等人(2023)專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合,并發現在低資源混合數據下模型能力有所提升,但在高資源混合數據下相比于單一來源數據有所下降,即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突,他們改變了一般和專業數據的比例,并得出結論,當SFT任務之間在任務格式和數據分布上存在顯著差異時,數據比例的影響可以忽略,相反,當存在一定程度的相似性時,數據比例會導致性能的明顯變化。

與將多個任務合并在一起不同,一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM(Jang et al., 2023; Chen et al., 2023b)。Jang等人(2023)指出,訓練專家LLM的優先事項可能在于避免負面任務轉移,通過持續學習新任務而不重新訓練來防止災難性遺忘,以及在將各個專家合并在一起時出現的組合能力。Wang等人(2023b)對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析,并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下,沒有單一的數據集組合可以在所有評估中提供最佳性能。

3.4 數據高效學習

基于對數據量、數據質量和任務組成對模型性能影響的探索,許多工作提出了通過子集選擇或學習策略來更高效地微調LLM,這些策略針對指令數據的不同方面。

結論

本文首次嘗試概述大型語言模型(LLM)訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段,并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后,我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導,并激發在有效和高效數據管理方面的進一步研究,以促進LLM的發展。

付費5元查看完整內容

隨著大型語言模型(LLMs)和視覺基礎模型(VFMs)的出現,利用大型模型的多模態AI系統有潛力像人類一樣感知現實世界、做出決策和控制工具。近幾個月來,LLMs在自動駕駛和地圖系統中顯示出廣泛的關注。盡管潛力巨大,但對關鍵挑戰、機會和未來應用于LLM駕駛系統的努力仍缺乏全面理解。在這篇論文中,我們對這一領域進行了系統性的研究。我們首先介紹多模態大型語言模型(MLLMs)的背景、使用LLMs的多模態模型開發以及自動駕駛的歷史。然后,我們概述了現有的MLLM工具,用于駕駛、交通和地圖系統,以及現有的數據集和基準測試。此外,我們總結了第一屆WACV關于自動駕駛的大型語言和視覺模型研討會(LLVM-AD)的工作,這是首個關于自動駕駛中LLMs的綜述。為了進一步推動這一領域的發展,我們還討論了在自動駕駛系統中使用MLLMs需要由學術界和工業界解決的幾個重要問題。論文集可以在Awesome-Multimodal-LLM-Autonomous-Driving中找到。

大型語言模型(LLMs)最近獲得了顯著的關注,顯示出在模仿類似人類的智能方面的顯著潛力。這些進展激發了對多模態大型語言模型(MLLMs)[199]的熱情,這些模型將LLMs的復雜推理能力與圖像、視頻和音頻數據結合起來。模態對齊使它們能夠以更高的熟練度執行各種任務,包括分類圖像、匹配文本和對應視頻以及語音檢測。此外,[174] 證明LLMs可以處理機器人領域的簡單任務,包括基本的邏輯、幾何和數學推理,到復雜的任務,如空中導航、操縱和具體化的代理。然而,LLMs融入交通和自動駕駛車輛領域還處于開創階段。將語言交流與全景圖像、激光雷達點云和駕駛行為等多模態感官輸入相結合,可以徹底改變當前自動駕駛系統的基礎模型。 最近,更有能力的基礎模型的出現使SAE L3駕駛自動化成為可能[28]。然而,多模態LLMs在自動駕駛中的集成并沒有跟上這些進展,一個自然的問題是,基于LLM的模型如GPT-4、PaLM-2和LLaMA-2是否有潛力增強自動駕駛?圖2為我們提供了一個很好的例子。不可否認,將LLMs整合到自動駕駛車輛行業可以帶來車輛智能、決策和乘客互動方面的重大范式轉變[30,31],提供一個更以用戶為中心、適應性強和值得信賴的交通未來。 在自動駕駛的背景下,LLMs將在關鍵模塊上帶來變革性影響:感知、運動規劃和運動控制[180]。在感知方面,LLMs可以利用外部API訪問實時基于文本的信息源,如高清地圖、交通報告和天氣更新,使車輛獲得對周圍環境更全面的了解[30]。一個很好的例子是改進車載地圖中的導航。LLMs可以處理實時交通數據,識別擁擠的路線,并提出替代路徑,最終優化導航的效率和安全性[159]。在運動規劃方面,LLMs通過利用它們的自然語言理解和推理[110]發揮作用。它們促進以用戶為中心的溝通,并使乘客能夠使用日常語言表達他們的意圖和偏好。此外,LLMs還處理文本數據源,如地圖、交通報告和實時信息,然后為優化路線規劃做出高層決策[124]。

在運動控制的背景下,大型語言模型(LLMs)首先使控制器參數的定制化成為可能,以符合駕駛者的偏好,實現駕駛體驗的個性化。此外,LLMs還可以通過解釋運動控制過程的每一步提供透明度。多模態大型語言模型(MLLMs)代表了LLMs的下一個發展層次,將語言理解的能力與處理和整合多樣數據模式的能力結合在一起。在自動駕駛的領域內,MLLMs的重要性是巨大且變革性的。裝備了MLLMs的車輛可以處理來自文本輸入的信息以及車載攝像頭和其他傳感器捕獲的其他特征,使復雜交通場景和駕駛行為的學習變得更加容易。在自動駕駛之外,MLLMs還可以通過語音通信和用戶偏好分析,顯著增強個性化的人車交互。在未來的SAE L4-L5級自動駕駛車輛中,乘客可以在駕駛過程中通過語言、手勢甚至目光來傳達他們的請求,而MLLMs可以通過集成視覺顯示或語音響應提供實時的車內反饋。

在我們將自動駕駛和高級建模領域橋接起來的追求中,我們聯合舉辦了2024年IEEE/CVF冬季計算機視覺應用會議(WACV)上的首屆大型語言和視覺模型自動駕駛研討會(LLVM-AD)。該活動旨在增強學術研究人員和行業專業人士之間的合作,探索在自動駕駛領域實施多模態大型語言模型的可能性和挑戰。LLVM-AD還發布了一個后續的開源真實世界交通語言理解數據集,催化了實際進展。

本文的主要貢獻可以概括如下:

  • 提供了當前多模態大型語言模型(MLLMs)和自動駕駛技術背景的簡要概述。
  • 概述了在自動駕駛中使用大型語言模型(LLMs)和MLLMs的好處,突出它們在感知、運動規劃、運動控制以及最近宣布的行業應用中的角色和當前工作。
  • 總結了與自動駕駛相關的數據集,特別強調了交通場景的駕駛語言數據集。
  • 回顧了WACV LLVM-AD研討會接受的論文,提供了有關LLMs和MLLMs在自動駕駛未來發展方向的洞見。

如圖1所示,我們的綜述論文旨在為自動駕駛的MLLMs提供全面概述,并討論不斷增長的趨勢和未來方向。接下來的兩個部分分別簡要描述了自動駕駛和MLLMs的發展歷史。第4節介紹了關于自動駕駛中MLLMs的當前已發表作品,涵蓋感知、運動規劃和運動控制。第5節介紹了利用MLLMs的相關自動駕駛行業應用。在最后三個部分中,我們總結了第一屆WACV LLVM-AD研討會的論文,并討論了LLMs和MLLMs在自動駕駛領域的潛在研究方向。 自動駕駛的發展 自動駕駛的追求是一個逐步前進的旅程,它由愿景抱負和技術能力之間的持續互動所標志。自動駕駛的第一波全面研究始于20世紀末。例如,由卡內基梅隆大學發起的自主陸地車輛(ALV)項目利用來自立體攝像頭、聲納和ERIM激光掃描儀的傳感器讀數執行諸如車道保持和障礙物避讓等任務。然而,這些研究受限于傳感器精度和計算能力的限制。

自動駕駛發展

在過去的二十年中,自動駕駛系統取得了快速的改進。2014年由汽車工程師學會(SAE)發布的分類系統定義了六個級別的自動駕駛系統。這種分類方法現已被廣泛接受,并揭示了研究和開發進程的重要里程碑。深度神經網絡(DNNs)的引入也發揮了重要作用。借助深度學習,計算機視覺對于解釋復雜的駕駛環境至關重要,為諸如目標檢測、場景理解和車輛定位等問題提供了最先進的解決方案。深度強化學習(DRL)在提升自動駕駛車輛的控制策略方面也發揮了關鍵作用,完善了運動規劃和決策過程,以適應動態和不確定的駕駛條件。此外,傳感器精度和計算能力的提高使得車輛上能運行更大、更準確的模型。隨著這些改進,更多L1至L2級別的高級駕駛輔助系統(ADAS)如車道居中和自適應巡航控制現在已在日常車輛上可用。諸如Waymo、Zoox、Cruise和百度等公司也在推出具有3級或更高自主性的Robotaxis。然而,這些自動駕駛系統在許多駕駛邊緣情況下仍然會失敗,例如極端天氣、糟糕的光照條件或罕見情況。

受當前局限性的啟發,自動駕駛研究的一部分現在專注于解決自動系統的安全性和增強自動系統的安全性。由于深度神經網絡通常被視為黑盒,可信AI旨在使系統更加可靠、可解釋和可驗證。例如,為自動駕駛系統生成對抗性的安全關鍵場景,以便系統更有能力處理低概率事件。另一種提高整體安全性的方法是通過車對基礎設施和車對車通信。通過來自附近實例的信息,系統將具有改進的魯棒性,并可以接收早期警告。與此同時,隨著大型語言模型展示出其強大的推理和場景理解能力,正在進行研究以利用它們來提高自動駕駛系統的安全性和整體性能。

多模態大型語言模型

最近,多模態大型語言模型(MLLMs)已成為一個重要的研究領域。這些模型利用了大型語言模型(LLMs)的力量,如ChatGPT、InstructGPT、FLAN和OPT-IML,來執行跨越多種模態(如文本和圖像)的任務。它們展現出了令人驚訝的新興能力,例如基于圖像編寫故事和執行無需光學字符識別的數學推理,這在傳統方法中很罕見。這表明了通往人工通用智能的潛在路徑。MLLMs中的關鍵技術和應用包括多模態指令調整(Multimodal Instruction Tuning),它調整模型以跟隨不同模態的指令;多模態上下文學習(Multimodal In-Context Learning),允許模型從多模態數據的上下文中學習;多模態思維鏈(Multimodal Chain of Thought),使模型能夠跨不同模態保持思維鏈;以及LLM輔助視覺推理(LLM-Aided Visual Reasoning, LAVR),利用LLMs來幫助視覺推理任務。MLLMs更符合人類感知世界的方式,提供了比LLMs更友好的用戶界面,并支持更廣泛的任務范圍。MLLMs的最新進展得益于GPT-4V的發展,盡管它沒有開放的多模態界面,但已展示出驚人的能力。研究社區已經做出了重大努力,開發了功能強大的開源MLLMs,并展示了驚人的實際能力。

**多模態語言模型在自動駕駛領域 **

在自動駕駛行業中,多模態語言模型(MLLMs)有潛力理解交通場景,改善駕駛決策過程,并徹底改變人與車輛的互動方式。這些模型接受了大量交通場景數據的訓練,使它們能夠從地圖、視頻和交通規則等不同來源提取有價值的信息。因此,它們可以增強車輛的導航和規劃能力,確保安全性和效率。此外,它們能夠適應不斷變化的道路條件,并具有與人類直覺非常相似的理解水平。

多模態語言模型在感知方面的應用 傳統的感知系統通常僅限于識別一組預定義的特定對象類別,這限制了它們的適應性,并需要收集和注釋新數據的繁瑣過程以識別不同的視覺概念。因此,它們的通用性和實用性受到了削弱。相比之下,一種新的范式正在興起,它涉及從原始文本描述和各種模態中學習,提供更豐富的監督來源。

多模態大型語言模型(MLLMs)由于能夠通過文本分析來分析非文本數據(如圖像和點云)而受到了顯著關注。這些進展極大地提高了零樣本和少樣本圖像分類、分割和對象檢測。

開創性的模型如CLIP已經表明,通過訓練將圖像與標題匹配,可以有效地從頭開始創建圖像表示。在此基礎上,Liu等人引入了LLaMa,它結合了視覺編碼器和LLM,增強了對視覺和語言概念的理解。Zhang等人進一步擴展了這項工作,開發了Video-LLaMa,使MLLMs能夠處理視頻中的視覺和聽覺信息。這代表了機器感知在整合語言和視覺模態方面的重大進展。

多模態語言模型用于規劃和控制 在機器人學領域,語言在規劃和控制任務中的使用已有悠久的歷史,可以追溯到早期展示人機互動的自然語言詞匯解析的使用[187],并且它已經被廣泛研究用于機器人領域。關于這個主題存在廣泛的綜述性研究[104, 164]。已經被充分證明,語言作為非專業人員與機器人交流的有價值接口[82]。此外,通過基于語言的控制實現機器人系統對新任務的泛化能力已經在各種研究中得到證明[2, 66]。已經廣泛研究了實現特定規劃或控制任務或策略,包括基于模型的[5, 121, 153]、模仿學習[105, 155]和強化學習[47, 67, 116]。

由于多模態語言模型在零樣本學習[167]、上下文學習[114]和推理[184]方面具有顯著的能力,許多研究表明LLM(多模態語言模型)可以啟用規劃[152, 176]和通過文本描述來感知環境[157],以開發用戶在機器人控制中的參與[174]。[81]通過文本完成和語義翻譯的組合將自然語言命令分解為可執行操作序列,以控制機器人。SayCan [2]利用加權LLMs來生成合理的動作并控制機器人,而[62]使用環境反饋,LLMs可以發展內心的自言自語,增強了它們在機器人控制場景中進行更全面處理的能力。Socratic Models [202]使用視覺語言模型替代用于機器人行動生成的語言提示中的感知信息。[96]介紹了一種使用LLMs直接生成機器人執行任務的策略代碼、指定反饋循環和編寫低級控制原語的方法。

在自動駕駛方面,LLMs可以作為支持人機交互的橋梁。對于通用目的,LLMs可以是任務無關的規劃器。在[60]中,作者發現預訓練的LLMs包含了關于一致和可執行行動計劃的可操作知識,無需額外的訓練。黃等人[61]提出了使用LLMs將任意自然語言命令或任務描述轉化為具體和詳細列出的目標和約束。[185]提出將LLMs集成為決策解碼器,以生成沿著自主車輛中的思維鏈提示的行動序列。在[31]中,作者展示了LLMs可以將駕駛員的任意命令分解為一系列中間階段,其中包括實現目標的行動的詳細描述。

同時,增強自動駕駛的安全性和可解釋性也是至關重要的。多模態語言模型提供了理解環境及決策過程透明性的潛力。[77]顯示,視頻到文本模型可以幫助生成與下游控制器對齊的環境文本解釋。Deruyttere等人[33]比較了基線模型,并顯示LLMs可以識別與自然語言命令或描述相關的環境中的特定對象。為了提高模型的可解釋性,Xu等人[193]提出了集成LLMs以生成關于計劃行動的解釋的方法。在[31]中,作者提出了一個框架,LLMs可以提供關于它們如何感知和對環境因素(如天氣和交通狀況)做出反應的描述。

此外,自動駕駛中的LLMs還可以促進控制器參數的微調,使其與駕駛員的偏好相一致,從而獲得更好的駕駛體驗。[150]通過引導參數矩陣適應將LLMs集成到低級控制器中。除了LLMs的發展,多模態語言-圖像模型(MLLMs)也取得了巨大進展。MLLMs具有作為自動駕駛的通用和安全規劃模型的潛力。處理和融合視覺信號,如圖像,可以通過結合視覺線索和語言指令[69, 84]增強導航任務。在自動規劃過程中,互操作性挑戰一直是一個問題[23, 46]。然而,近年來在解決自動規劃中的互操作性挑戰方面取得了巨大進展,利用MLLMs在自動駕駛規劃階段的出色推理能力[22, 41]。在一個顯著的方法中,陳等人[22]將矢量化的對象級2D場景表示集成到預訓練的LLM中,通過適配器實現直接解釋和全面推理各種駕駛場景。此外,付等人[41]利用LLMs進行推理,并將這種推理轉化為可執行的駕駛行為,展示了LLMs在增強自動駕駛規劃方面的多功能性。

此外,GPT-Driver [110]將運動規劃重新構想為一個語言建模問題,并利用LLMs在運動規劃中以自然語言描述高精度軌跡坐標及其內部決策過程。SurrealDriver [68]模擬了基于MLLM的生成駕駛代理,可以感知復雜的交通情景并生成相應的駕駛操作。[76]研究了在自動駕駛中使用文本描述與預訓練的語言編碼器進行運動預測的可能性。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

預測性和健康管理(PHM)技術在工業生產和設備維護中發揮著關鍵作用,通過識別和預測可能的設備故障和損壞,從而允許采取必要的維護措施以增強設備的使用壽命和可靠性,同時降低生產成本和停機時間。近年來,基于人工智能(AI)的PHM技術在工業物聯網和大數據背景下取得了顯著的成就,并且在各種行業中得到了廣泛應用,例如鐵路、能源和航空,用于條件監控、故障預測和健康管理。如ChatGPT和DALLE-E等大規模基礎模型(LSF-Models)的出現標志著AI從AI-1.0進入了新的AI-2.0時代,其中深度模型從單模態、單任務、有限數據的研究范式迅速演變為多模態、多任務、大數據和超大型模型范式。ChatGPT代表了這種研究范式的里程碑式成就,由于其高度智能的自然語言理解能力,為通用人工智能帶來了希望。然而,PHM領域缺乏如何應對AI領域這一重大變化的共識,并需要進行系統的回顧和規劃以明確未來的發展方向。為了填補這一空白,本文系統地闡述了LSF-Models的關鍵組成部分和最新發展。然后,我們系統地回答了如何構建適用于PHM任務的LSF-Model,并概述了這一研究范式的挑戰和未來發展路線圖.

//www.zhuanzhi.ai/paper/953013e449244efd0ba5f615c2ffa34c

1. 引言

預測性和健康管理(PHM)是確保工業設備安全可靠運行的關鍵技術 [1, 2]。通過全面監控和管理設備,PHM減少設備故障的可能性,最大限度地減少生產停機時間,從而提高設備的可靠性和生產效率,為企業創造顯著的經濟效益 [3, 4]。在工業生產實踐中,PHM有三個核心任務:故障檢測(異常檢測)[5-7],故障診斷 [8-11],和剩余使用壽命(RUL)估計 [12-14]。異常檢測的目標是及時識別設備的異常活動和狀態,而故障診斷的目標是確定設備故障的原因和位置。另一方面,剩余使用壽命估計預測設備未來可能出現故障的時間。這三項任務從不同的角度共同工作,以確保設備的安全運行。隨著工業設備變得越來越復雜,運行監控數據量增大,工業數據分析、設備狀態監控和健康管理的自動化成為必要 [15]。這種自動化可以大幅度降低工業資產的維護成本,提高設備狀態識別和故障預測的效率和準確性,增強設備運行的可靠性和安全性.

近年來,隨著機器學習和深度學習[16-18]技術的進步,PHM領域取得了顯著的進步,實現了工業設備狀態自動化監控和故障預測,大大提高了工業資產維護的智能水平。自20世紀初以來,機器學習技術在實現PHM的智能識別和決策中發揮了關鍵作用[19-21]。基于機器學習的PHM模型主要包含兩個核心組件:特征工程和機器學習模型。特征工程利用統計分析和信號分析技術[22-26]從工業監控數據中提取健康相關的特征信息。機器學習模型使用各種預測和識別模型,如支持向量機(SVM)[27-29]和K最近鄰(KNN)[30-32],實現智能決策。這種研究范式使PHM實現了初步的自動化,減少了工業設備維護中對人工的需求。然而,盡管取得了進步,但仍需要手動特征工程,限制了PHM處理大規模數據的能力。機器學習模型的有限學習能力使這種范式難以適應大數據時代帶來的挑戰。

自2012年以來,深度學習技術[33-35]憑借其強大的數據分析、特征提取和智能決策能力,徹底改變了各種研究領域的范式。深度學習通過建立多級神經網絡結構實現復雜數據的自動特征提取和模式識別,可以自動處理高維、非線性和大量的數據,并具有適應性和泛化能力。因此,深度學習已經成為PHM領域的主流工具[17, 18, 36],不斷提高工業資產維護的自動化和智能化水平。針對不同的PHM應用和任務,已經提出了各種深度網絡模型,如自編碼器[37-39],卷積神經網絡(CNNs)[40-49],和遞歸神經網絡(RNNs)[50-52]。自編碼器通過數據壓縮或重建實現無監督的表示學習,在數據噪聲減少、降維和異常檢測等任務中表現優秀[53]。CNNs基于卷積理論,通過權值共享和層次學習實現高效的時空特征提取,使其適用于工業設備的健康監控、故障預測和診斷,以及剩余使用壽命預測[54]。RNNs擅長編碼長距離的時間特征,使其非常適合分析和處理各種時間信號[55]。因此,RNNs在各種工業PHM應用中得到了廣泛的使用。深度學習技術通過構建端到端的智能決策模型,顯著減少了工業PHM應用中對人工的需求[8]。然而,現有的深度學習模型在多任務、泛化和認知能力方面仍存在限制。因此,突破這些限制,實現具有高泛化和認知能力的全面多任務智能模型,是亟待解決的問題。

在過去的兩年里,大規模基礎模型(LSF-Models)[56, 57],如GPT-3 [58, 59]和ChatGPT [60, 61],展示了其流暢的文本對話中高度智能的自然語言理解能力。大規模多模態文本和圖像理解模型,如GPT-4 [62],DALL-E-2 [63],和分割任何模型(SAM)[64],進一步展示了這一研究范式在多模態對話、圖像生成和分割方面的非凡成就。基于AI的深度模型已從單模態、單任務、有限數據的研究范式(AI-1.0)快速發展到多模態、多任務、海量數據和超大型模型的研究范式(AI-2.0)。圖1清楚地顯示了這兩種研究范式的區別。AI-2.0的核心是具有跨領域知識的LSF-Model,它可以理解數據的通用概念,并在未見過的數據上實現零次學習的泛化,無需額外的訓練[64]。這種模型的實現主要基于以下三個關鍵組件,強大的特征提取模型[65-68],無監督表示學習算法[69-71],和多模態融合算法[72, 73]。此外,廣泛的未標記或標記的多模態數據是這種發展的先決條件。然而,在PHM領域如何構建具有跨領域知識的LSF-Model仍然未知,如何開發適用于PHM領域的特征提取、表示學習和多模態融合算法還缺乏足夠的研究和分析。此外,PHM領域如何應對AI領域的這一巨大變化仍然沒有定論,缺乏系統的文獻回顧,以及未來研究方向的路線圖。為了填補這個空白,本文首先系統地介紹了LSF-Models的關鍵組件和最新進展。然后,我們系統地回答了如何構建適用于PHM領域的有效LSF-Model。我們也詳細闡述了這個研究范式將面臨的挑戰以及未來的發展路線圖。

具體來說,本綜述的主要工作總結如下:1)本文提供了對LSF-Models的三個關鍵組成部分及其各自研究進展的全面回顧。2)根據PHM領域的實際情況,本文系統地分析并回答了如何構建適用于工業PHM應用的有效LSF-Model。3)本文討論了PHM領域LSF-Model研究的路線圖,并詳細分析了這個研究范式面臨的挑戰和解決方案。本文的其余部分組織如下。第2部分關注LSF-Models的關鍵組成部分,包括Transformer,自監督學習,和多模態融合。第3部分回顧了LSF-Models在自然語言處理和計算機視覺中的研究進展。第4部分系統地回答了如何為PHM實施LSF-Models,包括研究狀態,存在的問題和解決方案。第5部分全面討論了PHM領域LSF-Model研究的挑戰及其未來的路線圖。第6部分提出了結論。

2. 大模型進展

在前面的部分中,我們討論了構建LSF-Models的一些關鍵組件。本節分別在NLP和CV的領域中,提供了LSF-Models進展的廣泛概述和討論,以展示這些領域最新的發展趨勢和方向。

3. 大規模基礎模型用于預測性健康管理(PHM)

盡管深度學習模型在PHM中取得了顯著的性能,但由于它們通常針對特定的領域和任務進行訓練和優化,因此它們的效果有限。因此,在復雜和開放的工業場景中,深度學習模型可能會展現出一些限制,例如有限的泛化、多任務處理和認知能力。現有的模型可能在已知的場景中表現良好,但在未知的場景中很難有效地泛化[192-194]。這種缺乏零樣本泛化能力使得它難以應對實際工業場景的復雜性。此外,現有的深度模型通常專注于單一任務。然而,工業設備有數百個核心組件,所有這些組件都需要健康監測和故障預測。為每個核心組件開發相應的深度模型是不現實的。最后,現有的深度模型具有有限的認知能力,很難理解工業數據的性質和一般概念,所以它們經常輸出難以理解和錯誤的結果。LSF-Models的研究為我們展示了一個有效的解決方案,可以成功解決上述問題。如第3節所述,現有的LSF-Models,如ChatGPT [62] 和 SAM [64],已經展示出了出色的數據理解、零樣本泛化和強大的多任務處理能力。此外,它還具有一定的高級認知能力,可以解決一些推理任務。因此,LSF-Models的成功標志著AI領域的研究范式從單模式、單任務、有限數據的研究范式(AI 1.0)轉變為多模式、多任務、大數據和超大模型的研究范式(AI 2.0)。然而,如何在PHM領域開發LSF-Model仍然沒有定論。為了推動LSF-Model在PHM領域的研究和應用,本節從四個方面解釋和分析了如何為PHM應用構建LSF-Models。

4. 挑戰與未來路線圖

在前一部分中,我們討論了在PHM領域構建LSF-模型的技術細節和可行解決方案。本節試圖從更廣泛、更全球的角度討論這些模型的挑戰、路線圖和前景。通過這樣做,我們可以更好地理解整個大局,并確定PHM領域的改進和未來研究的方向。

圖9展示了PHM領域中LSF-模型的未來路線圖。根據LSF-模型面臨的挑戰,本節探討如何解決這些挑戰,并詳細闡述了未來的路線圖。下面將進行詳細描述。

5. 結論

目前,深度學習的研究正在經歷一場新的革命,即從單模式、單任務、有限數據的研究范式(AI 1.0)迅速發展到多模態、多任務、海量數據和超大模型的研究范式(AI 2.0)。AI 2.0關注的是開發具有跨領域知識的大型基礎模型(LSF-Models),這些模型在海量數據集上訓練后可以展現出強大的泛化能力和多任務能力。為此,本文全面回顧了LSF-Models的三大技術要點,并分析了LSF-Models在自然語言處理(NLP)和計算機視覺(CV)中的研究現狀。文獻回顧顯示,PHM領域對LSF-Models的研究嚴重缺乏,且對如何構建適用于PHM應用的LSF-Models尚無可行解決方案。因此,本文從數據集、深度模型、學習算法和數據融合四個方面全面回答了如何構建適用于PHM領域的LSF-Models。最后,本文試圖從更廣闊、更全球化的角度討論LSF-Models的挑戰和路線圖。總的來說,本文系統地介紹了LSF-Models及其在PHM領域的研究現狀、挑戰、解決方案、路線圖和前景,預計能為此領域未來的研究提供寶貴的指導。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

人工智能(AI)和精準醫療的融合有望給醫療健康帶來一場革命。精準醫學方法識別出對治療不太常見的反應或有獨特醫療需求的患者表型。人工智能利用復雜的計算和推理來產生見解,使系統能夠推理和學習,并通過增強智能使臨床醫生做出決策。最近的文獻表明,探索這種融合的轉化研究將有助于解決精準醫療面臨的最困難的挑戰,尤其是那些非基因組和基因組決定因素,結合來自患者癥狀、臨床歷史和生活方式的信息,將有助于個性化診斷和預后。

在美國國家醫學院(National Academy of Medicine)最近發布的一份關于人工智能(AI)在醫療保健領域當前和未來狀態的報告中,作者指出,人工智能在應對人類現實(包括疲勞和注意力不集中)和機器出錯風險方面提供了“前所未有的機會”,以增強專家的護理和人工智能提供的幫助。重要的是,報告指出,盡管在使用這些技術時必須謹慎,但仍有很大的希望。健康相關數據的數字化和技術的快速吸收正在推動醫療領域AI開發和使用的變革和進步。然而,多模態數據集成、安全、聯邦學習(這需要在隱私、大規模機器學習和分布式優化等領域取得根本性進展)、模型性能和偏差可能會對人工智能在醫療保健中的使用構成挑戰在醫療保健領域成功采用人工智能的三個主要原則包括數據和安全、分析和見解以及共享專業知識。數據和安全等同于對人工智能系統的訓練方式以及用于訓練它們的數據和知識的完全透明和信任。隨著人類和人工智能系統越來越多地合作,我們必須信任這些系統的輸出。

分析和見解等同于“增強智能”和“可操作的見解”支持人類的行為,而不是取代它們。人工智能可以結合來自多個結構化和非結構化來源的輸入,在語義層面進行推理,并在計算機視覺、閱讀理解、對話系統和多模式應用中使用這些能力,以幫助衛生專業人員做出更明智的決定(例如,醫生作出診斷,護士制定護理計劃,或社會服務機構安排為老年人提供服務)。共享的專業知識等同于我們與人工智能系統的互補關系,人工智能系統由人類專業人員訓練,并為人類專業人員提供支持,從而導致勞動力的變化,從而產生新的技能。創建前沿AI模型和構建高質量業務應用的能力需要能夠訪問最新硬件的熟練專家。大量未開發的數據可能對我們的健康產生巨大的影響——然而這些數據存在于醫療系統之外我們個人的健康在很大程度上受到生活方式、營養、環境和獲得保健的途徑的影響。這些行為和社會決定因素以及其他外生因素現在可以通過可穿戴設備和一系列醫療設備進行跟蹤和測量。這些因素約占我們健康決定因素的60%(行為、社會經濟、生理和心理數據),我們的基因約占30%,而我們的實際病史僅占10%。在我們的一生中,我們每個人將產生相當于3億多本個人和健康相關數據的書籍,這些數據可能有助于我們了解更長壽、更健康的生活。

大數據現象可以用五個v來描述:體量、速度、多樣性、準確性和價值。量是指大量復雜異構的數據,使得數據集過于龐大,無法使用傳統的數據庫技術進行存儲和分析。速度是指新數據生成和移動的速度。多樣性指的是結構化、半結構化和非結構化數據的不同類型,例如社交媒體對話和語音記錄。準確性是指數據的確定性、準確性、相關性和預測性。價值指的是將數據轉化為業務洞察。然而,數據的數量、種類、速度和準確性正在導致數據管理和工作負載的日益復雜——創造了對高級分析的更大需求,以發現洞察力——移動設備使技術更容易消費,創造了用戶對可視化分析的交互工具的需求。

大數據分析和人工智能在整個醫療保健領域越來越無所不在,包括5P領域:付款人、提供商、決策者/政府、患者和產品制造商。高達10%的全球衛生健康支出是由欺詐和濫用造成的,基于人工智能的工具有助于減少支付人項目中的欺詐、浪費和濫用。可靠地識別醫療編碼錯誤和不正確的索賠,可以節省大量的金錢、時間和精力,從而對支付人、提供者和政府產生積極的影響例如,IBM DataProbe是一種基于人工智能的商業智能工具,它能夠在2年內檢測并收回艾奧瓦州醫療補助企業醫療補助欺詐案中4150萬美元的服務費。在提供者領域,人工智能用于循證臨床決策支持,檢測不良事件,并使用電子健康記錄(EHR)數據預測患者再次入院的風險醫療政策制定者和政府使用基于人工智能的工具來控制和預測感染和疫情。FINDER就是一個例子,這是一個機器學習的模型,用于使用匿名和聚合的網絡搜索和位置數據實時檢測食源性疾病。另一個例子是使用IBM Connect360和IBM Watson護理管理器的綜合數據中心和護理管理解決方案,加州索諾馬縣政府機構在整個社區發生危機時,利用該方案改變了社會弱勢群體和其他流離失所者的健康和醫療保健該解決方案實現了在2017年和2019年索諾馬縣野火期間,將孤立的數據和服務集成到統一的公民地位視圖中,從結構化和非結構化來源識別健康的臨床和社會決定因素,構建算法將客戶與服務匹配,并簡化護理協調。隨著2020年初全球大流行性冠狀病毒疾病2019 (COVID-19)的出現,這種模型可用于預測高危人群,并可能為護理高危患者的臨床醫生提供額外的風險信息。AI在患者和生命科學/健康產品中的使用將在以下各部分中進行廣泛討論

付費5元查看完整內容
北京阿比特科技有限公司