亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)已成為增強自然語言理解的轉型力量,代表了向人工通用智能邁出的重要步伐。LLMs的應用超越了傳統語言學邊界,包括了各個科學學科內發展的特殊語言系統。這一日益增長的興趣促成了科學LLMs的出現,這是一種專為促進科學發現而精心設計的新型子類。作為AI用于科學領域中的一個新興領域,科學LLMs值得全面探索。然而,目前缺乏一項系統的、最新的綜述來介紹它們。在本文中,我們努力系統地闡述“科學語言”的概念,同時提供對科學LLMs最新進展的詳盡回顧。鑒于科學學科的廣泛領域,我們的分析采用了聚焦的視角,專注于生物學和化學領域。這包括對LLMs在文本知識、小分子、大分子蛋白、基因組序列及其組合的深入考察,并從模型架構、能力、數據集和評估方面進行分析。最后,我們批判性地審視當前的挑戰,并指出與LLMs進展相關的有前途的研究方向。通過提供該領域技術發展的全面概述,這篇綜述旨在成為研究者在探索科學LLMs錯綜復雜的領域時的寶貴資源。

//www.zhuanzhi.ai/paper/1741b30343c8826898d7c39dafe9df20

人類通過感知和認知獲取對世界的知識,其中自然語言(即人類語言)是表達這種世界知識的典型媒介。從歷史上看,這種豐富的世界知識已通過自然語言表達、記錄和傳播。目前,大型語言模型(LLMs)成為處理自然語言和收集世界知識的前沿工具。通常,LLMs指的是基于Transformer架構的,具有數億(甚至數十億)可訓練參數的模型,它們在廣泛的文本語料庫上進行訓練[218]。典型的例子包括GPT-3 [32]、PaLM [47]、Galactica [233]、LLaMA [239]、ChatGLM [288]和百川2[14]。它們已展現出強大的理解自然語言和處理復雜任務(如文本生成)的能力,并在學術和工業領域引起了極大的興趣。LLMs的卓越表現讓人們希望它們可能會在我們當前的時代進化成為人工通用智能(AGI)。

除了自然語言,為了封裝更專業的科學知識,開發了一系列的科學語言,如圖1所示。這包括科研領域的文本表達、定義數學公式的數學語言、代表分子結構的化學語言(如SMILES),以及描述蛋白質或基因組的生物語言,詳細說明生物體的復雜構成。這些科學語言帶有它們獨特的詞匯,每個術語都有特定的含義,與自然語言完全不同。例如,英文中的字符“C”在蛋白質語言中代表氨基酸半胱氨酸[87],而在SMILES語言系統中,它代表一個碳原子[262]。此外,特定領域的專家制定語法規則來組織這些術語,使構建的句子具有精確的語義功能。例如,計算化學家創建語法規則以確保機器生成分子的準確性,使用的是SELFIES格式[128]。經過數十年的演變,科學語言已成為無價的工具,顯著加速了科學發現。由于科學語言與自然語言之間可能存在的語義和語法差異,現有的通用LLMs(如ChatGPT 1或GPT-4 [190])通常無法正確處理分子和蛋白質等科學數據[5]。正如著名的奧地利哲學家路德維希·維特根斯坦所指出的,“我的語言的極限意味著我的世界的極限。”[202] 通用LLMs的世界可能僅限于自然語言。

為了促進對科學語言的理解,研究人員設計了專門針對各種科學領域和學科的科學大型語言模型(Sci-LLMs)。例如,分子語言模型已被開發出來,將分子結構表示為一串原子和化學鍵[140]。這些模型有助于預測分子屬性[252]、設計新藥[298]、提出逆合成路線[215]。類似地,蛋白質語言模型基于氨基酸序列運作[30, 205]。它們用于預測3D蛋白質結構和功能[149]、改善現有蛋白質以提高適應性[187]、創造具有特定功能的新蛋白質[184]。作為AI-for-Science研究領域內的一個新興領域,許多Sci-LLMs已被提出,它們具有修改后的架構、學習方法、訓練語料庫、評估基準和標準。盡管它們取得了顯著成就,這些模型大多在各自的研究領域內被探索。目前尚缺乏一個全面的綜述,能夠統一這些語言建模的進展。

在這篇綜述中,我們旨在通過系統地回顧Sci-LLMs的技術進步來填補這一空白,同時密切參考通用LLMs。考慮到科學語言的廣泛范圍,我們將調查重點放在生物和化學語言上。具體而言,我們的審查涵蓋了分子語言、蛋白質語言和基因組語言。除了這些專門的科學語言外,我們也認識到教科書、專利和研究論文中蘊含的巨大科學知識,這些文獻都是用自然語言撰寫的。因此,我們探索了強調科學知識的文本LLMs,更重要的是,研究了包含各種類型科學語言的多模態LLMs。

在深入探討每種語言系統時,我們首先回顧了LLM的架構,并將它們分類為三類:僅編碼器、僅解碼器和編碼器-解碼器。然后,我們報告了模型的能力,并總結了Sci-LLMs可以執行的典型下游任務。在模型訓練和評估方面,我們收集了一系列常用的訓練語料庫和評估基準。最后,我們提出了科學語言建模的區分性和生成性任務的適當標準。

這項綜述受限于特定邊界。首先,我們關注科學語言,特別是化學和生物語言。我們排除了那些既沒有通用定義的詞匯表,也沒有語法結構的語言,如數學語言。其次,在討論文本LLMs時,我們的重點仍然是表達在自然語言中的化學和生物領域知識。這一選擇確保了與化學和生物學特定語言(如分子和蛋白質語言)的一致和連貫互動。第三,我們的技術探索主要局限于基于Transformer的語言模型。盡管圖神經網絡和擴散模型等替代神經架構在分子和蛋白質建模中廣泛應用,但我們沒有包括它們。圖2描述了這項綜述中Sci-LLMs的研究范圍。

這項綜述的獨特邊界使其不同于其他關于LLMs和分子、蛋白質和基因組計算建模的回顧。與主要集中在自然語言[281, 304]的那些不同,我們的重點更傾向于科學語言。與僅專注于分子[64, 269]、蛋白質[23, 105, 241, 246]或基因組數據[52]的綜述不同,我們旨在提供一個關于化學和生物研究的語言模型的全面視角。此外,我們深入探討了多模態LLMs,探索文本與分子/蛋白質/基因組語言之間的互動。據我們所知,這種微妙的探索在以前的綜述中尚未涵蓋。本綜述的貢獻可總結如下: ? 我們提供了一個關于科學領域內語言建模的全面回顧,包括文本、分子、蛋白質和基因組語言,強調領域特定知識。 ?我們提供了現有Sci-LLMs的詳細總結,涵蓋了模型架構、能力、訓練數據、評估基準和評估標準。我們還在圖3中展示了Sci-LLMs的演化樹。 ? 我們列舉了Sci-LLMs的可用資源,開源并在 ?** 據我們所知,這項綜述代表了第一個全面概述多模態Sci-LLMs的嘗試**,旨在探索各種科學語言之間的互動。 本綜述的其余部分組織如下:第2節介紹LLMs的背景并闡述相關概念。第3、4、5、6和7節分別介紹文本、分子、蛋白質、基因組和多模態LLMs。最后,在第8節中,我們分析了現有模型的局限性,指出潛在的研究方向,并總結本綜述。

**文本科學大型語言模型 **

在本節中,我們旨在探索和深入研究專門使用文本語料庫(即文本Sci-LLMs)訓練的科學大型語言模型,特別強調它們獲取化學和生物知識的能力。我們將簡要回顧現有的文本Sci-LLMs,并檢查它們的能力、所用數據集以及評估方法。本節的概覽如圖6所示。

**分子大型語言模型 **

大型語言模型在加速化學分子發現方面顯示出巨大潛力。在本節中,我們將回顧在分子語言(Mol-LLMs)中訓練的LLMs,包括它們的模型架構、能力、使用的數據集和評估標準的洞察。本節的概覽如圖8所示。

**蛋白質大型語言模型 **

在過去的幾年中,大型語言模型在蛋白質研究中變得越來越有影響力,提供了新穎的見解和能力,用于理解和操縱蛋白質。在本節中,我們提供了一個關于蛋白質的LLMs(稱為Prot-LLMs)的全面回顧,包括對它們的模型架構、使用的數據集、各種能力和相應評估標準的詳細討論。本節的概覽如圖9所示。

**基因組大型語言模型 **

在計算生物學領域,基因組數據顯示出與自然語言中觀察到的基于序列的信息的相似性,使得大型語言模型能夠用于分析基因組序列。在本節中,我們將回顧專為基因組語言(Gene-LLMs)量身定制的LLMs,包括對它們的模型架構、數據集和評估的洞察。本節的概覽如圖10所示。

多模態科學大型語言模型

多模態大型語言模型已成為一個突出的研究領域,利用強大的LLMs作為核心來處理多模態數據。這些模型具有將不同數據類型(如文本、圖像、音頻和其他形式的信息)結合起來的獨特能力,使得它們能夠在各個領域進行全面的探索和問題解決。這些多模態模型在生物和化學科學領域,特別是蛋白質、分子和基因組研究中,展現出有希望的前景。在本節中,我們探索了這些科學領域內多模態模型的最新進展(即MM-Sci-LLMs),強調它們的能力和利用的數據集。請注意,這項綜述專注于跨語言的多模態模型,涉及至少兩種來自不同領域的語言,例如文本和分子。因此,我們排除了MM-Sci-LLMs中的單語言多模態方法,如蛋白質序列和結構的聯合建模[228, 261, 302]。圖4展示了不同語言和模態的多樣形式,本節的概覽如圖11所示。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

來自微軟和人大《生物分子和自然語言的多模態學習》綜述

生物分子建模與自然語言(BL)的整合已經成為一個前景光明的跨學科領域,位于人工智能、化學和生物學的交匯處。這種方法利用文本數據源中包含的關于生物分子的豐富、多面的描述來增強我們的基本理解,并使下游計算任務成為可能,如生物分子屬性預測。將通過自然語言表達的細膩敘述與通過各種分子建模技術描述的生物分子的結構和功能特性的融合,為全面表示和分析生物分子開辟了新途徑。通過將圍繞生物分子的上下文語言數據納入其建模中,BL旨在捕捉一個全面視角,包括通過語言傳達的象征性質以及量化的結構特性。在這篇綜述中,我們提供了通過生物分子和自然語言的交叉建模所取得的最新進展的廣泛分析。(1)我們首先概述了采用的生物分子的技術表示,包括序列、二維圖和三維結構。(2)然后我們深入探討了有效多模態整合語言和分子數據源的基本原理和主要目標。這包括探索機器學習框架,如基于GPT的預訓練和多流神經網絡,以及表示學習的各個方面,如網絡架構、訓練任務和策略。(3)隨后我們調研了到目前為止在這個發展中的研究領域中啟用的實際應用,重點是屬性預測、分子描述的生成和從文本中檢索生物分子數據的用例。(4)我們還匯編和總結了可用的資源和數據集,以促進未來的工作。(5)展望未來,我們確定了幾個有前景的研究方向,值得進一步探索和投資,以繼續推進該領域的發展。最終,通過這一全面分析,我們旨在為生物學、化學和AI領域的跨學科研究者提供當前狀態和BL未來潛力的徹底基礎。相關資源和內容在更新中 //github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling。

生物研究領域長期以來一直認識到徹底理解生物分子(如分子和蛋白質)在推進藥物發現、人類理解以及其他與生物分子相關的應用中的至關重要性。作為化學物質的基本單元,分子在生化反應和細胞功能中發揮重要作用,而蛋白質則因其在結構支持、酶催化、信號傳導等多種功能中的關鍵作用而至關重要。因此,這些實體是現代生物研究的基石。

生物分子可以以多種形式表示,以計算方式建模其結構和屬性。一種常見的表示是生物序列,將生物分子編碼為如核苷酸或氨基酸等單體的線性鏈。例如,分子可以通過簡化的分子輸入行條目系統(SMILES)表示,蛋白質通常由FASTA序列表示。如ChemBERTa、ProtTrans和ESM等基于序列的方法在建模這些序列屬性方面取得了成功。此外,生物分子可以通過將原子表示為節點,化學鍵表示為邊的2D圖來建模。基于圖的方法如MolCLR和Graphormer利用圖神經網絡(GNNs)來學習從圖結構到功能映射。除了序列和基于圖的編碼外,通過實驗或預測確定的分子和蛋白質的3D結構/構象也可以作為深度學習技術的輸入。例如,AlphaFold、ProteinMPNN和Uni-Mol利用3D坐標數據來建模結構屬性。

盡管這些基于深度學習的表示方法對于從不同抽象層次捕獲固有的生物分子特征非常有力,但它們通常忽視了如生物醫學文獻和數據庫等豐富的外部知識來源。例如,PubMed包含大量關于生物分子的注釋和詳細實驗發現的出版物。像PubChem和UniProtKB這樣的資源同樣匯編了已知生物分子的無數屬性、功能和相互作用。直覺上,這些外部知識來源提供了生物分子的廣泛多面向文本描述,提供了從分子表示中缺失的語言上下文。然而,當前的生物分子建模范式在系統利用這些豐富的語言數據構建更全面模型的能力上受到限制。 在計算機視覺(CV)和自然語言處理(NLP)技術融合的背景下,多模態建模取得了顯著進展。如PaLM、BLIP2和LLaVA等模型有效地整合了圖像和文本等不同數據類型,以開發對復雜現實世界領域的更豐富理解。在此勢頭上建立,尤其是像GPT-4、LLaMA和Alpaca這樣的大型預訓練語言模型(LLMs)的發展,激發了對生物分子和自然語言聯合建模的新興興趣。

最近在這一領域開發的模型,如MolT5、BioT5和KEDD,將生物分子的文本描述直接納入其預訓練目標。這使得模型能夠學習捕捉結構和語言視角下的生物分子的多面向表示。這些先進技術促進的集成建模提供了對生物功能、屬性和活動的更深入見解。例如,屬性預測、生物醫學自然語言處理和分子檢索等領域的下游任務已經從這些聯合表示中受益。特別是,基于強大的BERT架構的KV-PLM模型擅長學習分子-文本對齊,并通過其集成的生物分子-語言表示在相關任務上展現出了比傳統方法更優的性能。

雖然通過像BioT5和KV-PLM這樣的方法在聯合建模生物分子和自然語言方面取得了顯著進展,但目前這個領域缺乏一個全面調查進展和正在開發的各種方法的統一資源。為了填補這一空缺,我們提出了一個關于生物分子和語言的跨模態整合的廣泛綜述,我們將其稱為跨生物分子-語言(BL)建模。

通過這篇綜述,我們的目標是為生物學、化學和人工智能交叉領域的跨學科和AI4Science研究人員提供當前技術、挑戰和未來方向的深入理解,這是這個迅速發展的研究領域內的內容。我們提供了生物分子表示方法、多模態整合算法、表示學習框架以及從BL中受益的多樣化應用領域的詳盡分析。我們還討論了可用的生物分子和語言數據集以促進進一步進展。圖1中的分層樹狀圖促進了對BL領域中使用的多樣化方法的結構化理解。

此外,我們確定了有前景的研究途徑和開放的挑戰,這些挑戰值得進一步探索。通過整合BL現有作品的見解,我們旨在為科學社區提供一個基礎參考。我們希望這篇全面的綜述能夠幫助指導并催化推動該領域向前發展的新調查,最終通過結構和語言知識的多模態整合支持通過增強的生物分子特征化、發現和理解。 這篇全面的綜述如下組織:在第2節中,我們首先深入檢查了該領域中使用的常見生物分子表示技術,包括1D序列、2D圖和3D結構。第3節則從知識表示和機器學習的角度實證分析了不同數據模態之間的關系,并探索了它們整合的動因。第4節深入研究了所使用的突出機器學習框架,如基于GPT的預訓練和多流神經網絡架構。第5節進一步詳細討論了表示學習方法論,分析了網絡架構設計、訓練目標和學習策略等方面。接下來在第6節中,我們調查了到目前為止啟用的實際應用,重點是預測建模、生成建模和信息檢索等領域。第7節提供了公開可用的數據集、模型和基準結果的匯編。在第8節中,我們確定了開放挑戰和未來方向,例如提高模型的可解釋性和泛化能力。最后,在第9節中我們總結了我們的發現,并通過概述幾個有前景的研究途徑來結束。通過對過去的工作、當前技術和未來展望的系統闡述,我們旨在為AI和科學社區提供一個全面的資源。

生物分子表示

在本節中,我們簡潔回顧了生物分子的各種表示及相關建模方法。一般來說,語言文本、分子和蛋白質的模態可以用不同的表示來觀察,如1D序列、2D圖和3D結構。不同模態及其表示方法的總結在圖3中呈現。此外,本節介紹的不同模態的現有BL模型開發的時間順序概述在圖2中展示。這些模型的介紹和更多細節貫穿整個綜述。

跨模型

跨模型的直覺 跨模型整合生物分子與自然語言旨在克服傳統生物分子表示固有的局限性。盡管現有的表示方法可以有效捕捉生物分子的固有屬性,但它們常常忽略了可以進一步豐富理解的外部知識。這種外部知識,可通過生物學文獻、數據庫和知識圖譜等各種格式訪問,提供了對生物分子更廣泛的生物學背景和功能方面的全面描述和見解。例如,考慮一個分子M,其毒性特征在科學文本中有詳細描述。基于這類文本預訓練的模型裝備有推斷類似新分子M'的潛在毒性的能力。此外,語言為生物分子設計提供了一種更靈活的媒介。通過生物分子和語言的集成建模,模型可以利用廣泛的生物學知識來執行與生物分子相關的任務,實現對分子生成和編輯的更細致控制。這種整合促進了對廣闊分子空間的探索,允許創造具有所需屬性的新生物分子。為了更好地說明,我們在圖4中展示了這些模態的序列表示如何在跨模型中整合。與單一模態建模不同,分子(SMILES)和蛋白質(FASTA)的序列表示被整合成一個包含自然語言描述的包裹句子,這提供了更豐富的上下文信息,以便更好地理解分子和蛋白質。

跨模型的目標

整合生物分子與外部知識源的主要目標是開發能夠理解和預測生物分子在生物學上下文中的復雜行為和相互作用的模型。通過結合內在的分子特征和外部文本信息,這些模型可以獲得生物分子的更全面表示。我們探索了體現整合目標的三種不同方法:表示學習、指令跟隨和代理/助理模型,每種方法都獨特地貢獻于該領域(見圖5以獲得視覺理解)。

學習框架

Transformer架構已成為BL領域大多數現代模型框架的基石。在本節中,我們首先介紹用于BL的傳統Transformer模型,包括僅編碼器/解碼器和編碼器-解碼器架構。此外,我們探討了用于BL的創新Transformer變體,包括利用基礎大型語言模型(LLMs)與外部編碼器和模態投影器的PaLM-E風格模型,以及采用多個編碼器處理不同模態的雙/多流模型。這些架構的概覽展示在圖6中。后續部分將詳細闡述這些模型。

Transformer架構通過其自注意力(Self-Attention)機制有效捕獲序列內元素之間的長距離依賴關系,這使得其在處理復雜序列數據,如文本、蛋白質序列或分子結構時表現出色。在BL領域,這一特性尤為重要,因為它允許模型同時考慮生物分子的結構特性和相關的語言描述,提供一種整合不同數據模態的有效方法。 僅編碼器或僅解碼器的Transformer架構專注于單一任務,如序列分類或生成任務。而編碼器-解碼器架構則更適用于翻譯任務,能夠將一個模態的信息轉換為另一個模態的表達,例如從自然語言描述生成分子的SMILES表示。

PaLM-E風格模型和雙/多流模型進一步擴展了Transformer的應用,通過引入額外的編碼器或投影器來增強模型處理多模態數據的能力。這些變體模型通過整合更廣泛的生物學知識和數據,旨在提高模型在生物分子預測、生成和解釋任務中的性能。

這些不同的Transformer架構為BL領域帶來了靈活性和創新,允許研究人員探索從基本的表示學習到復雜的多模態整合和交互任務的廣泛應用。隨著這些模型在詳細解析生物分子的復雜性和多樣性方面的不斷發展,它們在促進生物學發現和應用中的潛力也在增長。

表示學習

在本節中,我們討論了使用生物分子和文本數據進行BL預訓練中流行的任務和策略。這包括單模態預訓練和跨模態預訓練。

單模態預訓練專注于增強對單一模態的理解,包括分子、蛋白質和文本數據,以提高模型在特定領域內的性能。相比之下,跨模態預訓練旨在在這些不同模態之間建立相互聯系,促進跨領域的更加整合的理解。在這里,我們詳細闡述了在研究社區內獲得廣泛接受的訓練任務和策略。另外,我們在7.1節中列舉了各種預訓練數據資源。

單模態預訓練任務通常涉及如語言模型訓練、序列分類或序列到序列的轉換,這些任務專注于提升模型在處理特定類型數據時的能力,如理解文本語義、預測蛋白質結構或識別分子屬性。

跨模態預訓練任務則設計更為復雜的策略,如聯合嵌入學習、對齊任務或模態轉換任務,這些任務旨在提高模型對不同數據類型之間相互關系的理解,從而增強模型的泛化能力和跨模態推理能力。例如,一個跨模態預訓練任務可能要求模型根據文本描述生成相應的分子結構,或者從分子結構中提取出與文本描述匹配的特征。 在表示學習中采用的策略包括自監督學習、對比學習和多任務學習等。自監督學習通過生成任務或填空任務來促使模型捕獲數據內在的模式和結構。對比學習則通過比較正樣本對和負樣本對來學習數據中的區分性特征。多任務學習通過同時訓練模型在多個相關任務上表現良好,以提升模型的通用性和魯棒性。

通過這些表示學習的任務和策略,BL模型能夠更有效地捕獲生物分子的復雜性和文本數據的豐富性,從而在各種生物學和醫學應用中實現更準確的預測和分析。隨著預訓練數據資源的不斷擴展和表示學習方法的持續創新,我們預期BL領域將繼續取得顯著進展,為生物學研究和藥物發現帶來新的洞察和機會。

結論 我們提供了對生物分子與自然語言整合這一新興領域的深入綜述。我們從詳細介紹各種生物分子表示開始,如圖和序列,強調它們在生物學研究中的重要性。然后,我們討論了整合背后的直覺和目標,強調將生物分子數據與自然語言相結合以增強理解和獲得新見解的好處。接著,我們探索了不同的學習框架,如基于GPT的訓練和多流建模,并深入到表示學習的復雜性中,涵蓋了訓練任務和策略等方面。我們還展示了這種集成方法已被證明有益的各種應用。此外,我們編譯了關于數據集/基準、模型和代表性基準總結的資源,以促進該領域的研究和開發。盡管取得了顯著進展,該領域仍面臨著幾個挑戰,呼吁未來進一步的努力。

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

基礎模型(FMs)作為一種新興的AI技術組合的出現,在計算醫療領域掀起了一股機遇浪潮。這些模型的交互式特性,受預訓練數據和人類指令的指導,已經點燃了一個以數據為中心的AI范式,這一范式強調更好的數據特征描述、質量和規模。在醫療AI中,獲取和處理高質量臨床數據記錄一直是一個長期挑戰,涉及數據數量、標注、患者隱私和倫理等方面。在這篇綜述中,我們調研了FM時代(從模型預訓練到推理)的一系列以數據為中心的方法,旨在改善醫療工作流程。我們討論了AI安全性、評估和與人類價值觀的一致性方面的關鍵視角。最后,我們提供了基于FM的分析技術對提升患者結果和臨床工作流程性能的樂觀展望,這在醫療和醫學不斷發展的領域中顯得尤為重要。我們在//github.com/Yunkun-Zhang/Data-CentricFM-Healthcare提供了最新的醫療相關基礎模型和數據集列表。

**1 引言 **

基礎模型(FMs)的崛起在視覺識別[131, 211, 218]、語言理解[24, 59, 193, 194]和知識發現[21, 201]等領域引發了一系列突破。在計算醫療[3, 72]領域,FMs能夠處理各種臨床數據,其在邏輯推理和語義理解方面的吸引力不言而喻。例子涵蓋了醫療對話[241, 316]、患者健康檔案[48]和治療規劃[192]等領域。此外,鑒于其在大規模數據處理方面的優勢,FMs提供了一種快速有效評估實際臨床數據的新范式,從而改善醫療工作流程[208, 261]。 FMs研究重點放在以數據為中心的視角[318]。首先,FMs展示了規模的力量,其中擴大的模型和數據規模使FMs能夠捕獲大量信息,因此增加了對訓練數據量的迫切需求[272]。其次,FMs鼓勵同質化[21],這一點通過它們廣泛適應下游任務的能力得到了證明。因此,高質量的FM訓練數據變得至關重要,因為它會影響預訓練FM和下游模型的性能。因此,解決關鍵的數據挑戰被逐漸認為是研究的重點。在醫療系統中,收集高質量的記錄可以實現對患者特征(影像、基因組和實驗室檢測數據)的全面了解[6, 121, 244]。正如所示,以數據為中心的策略有望重塑臨床工作流程[122, 219],實現精確診斷[111],并揭示治療方面的見解[40]。 醫療數據挑戰在過去幾十年一直是持續的障礙,包括多模態數據融合(第4節)、有限的數據量(第5節)、標注負擔(第6節)以及患者隱私保護的關鍵問題(第7節)[38, 94, 108, 215]。為了應對,FM時代開啟了推進以數據為中心的AI分析的視角。例如,多模態FMs可以提供針對不同數據格式的可擴展數據融合策略[63, 146]。同時,FM生成高質量數據的吸引力可以大大幫助解決醫療和醫療保健社區中的數據數量、稀缺性和隱私問題[33, 63, 168, 257, 269, 331]。為了構建負責任的醫療AI解決方案,AI與人類一致性的不斷發展視角[77, 191]變得越來越重要。我們討論了FMs在現實世界中與人類倫理、公平和社會規范保持一致的必要性,以減少在性能評估、倫理合規性和患者安全方面的潛在風險[94, 154, 163, 198]。在FM時代,實現AI與人類的一致性進一步強調了數據焦點的重要性,激勵我們優先考慮計算醫療領域中的以數據為中心的挑戰。 在這篇綜述中,我們提供了一個關于開發、分析和評估針對醫療的FM為中心的方法的廣泛視角。從圖1所示的以數據為中心的視角來看,我們強調了患者、醫療數據和基礎模型之間的相互作用。我們收集并討論了分析FMs所需的基本概念、模型、數據集和工具(圖2)。最后,我們強調了在醫療和醫學中應用FMs時出現的新風險,包括隱私保護和倫理使用方面。我們提出了基于FM的分析技術的有希望的方向,以提高患者結果的預測性能并簡化臨床數據工作流程,最終將構建更好的、與AI人類相一致的、以數據為中心的工具、方法和系統,用于醫療和醫學。

基礎模型(FM)分析的增長為醫療應用提供了洞見[208, 295, 321]。我們回顧了解決醫療領域中FM多個方面的關鍵技術、工具和應用。我們展示了如何將通用目的的FMs應用于醫療領域(第3.1節)。我們介紹了專注于醫療的FMs,并展示了從通用FMs中獲得的預訓練優勢(第3.2節)。

基礎模型與醫療健康

在醫療和醫療保健中適應通用基礎模型 研究工作已經開始評估FM在醫學領域的卓越能力[85, 192, 227]。在這些研究中,我們確定了兩個核心技術:參數高效微調(PEFT)和情境中學習(ICL)。

** 通過參數高效微調(PEFT)進行適應。**

PEFT方法已被應用于將FMs適配到醫學任務。例如,Dutt等人[68]展示了PEFT方法在醫學圖像分類和文本到圖像生成任務的數據有限場景中顯著優于FMs的完全微調。Gema等人[85]提出了一個兩階段PEFT框架,將LLaMA[263]適應到一系列臨床任務。在這項工作中,第一階段應用LoRA[105]對LLaMA進行微調,構建了針對臨床筆記的Clinical LLaMA-LoRA;第二階段再次應用LoRA將臨床FM適配到下游任務。他們還展示了LoRA作為PEFT方法的主要選擇之一,非常適合臨床領域適配。同樣,Van Veen等人[271]應用LoRA對T5模型[143, 214]進行微調,用于放射科報告摘要。他們還將LoRA與情境中學習結合應用于臨床文本摘要任務,表現出比人類專家更好的性能[273]。

通過情境中學習(ICL)進行適應

ICL已證明在適應FMs,特別是大型語言模型(LLMs),到各種醫療任務中是有效的。通過精心設計的特定任務輸入上下文(即提示),FM可以在不修改任何模型參數的情況下很好地完成醫療任務。例如,Nori等人[192]評估了GPT-4[194]在美國醫學執照考試(USMLE)上的表現,而沒有特別設計的提示。GPT-4展示了其令人期待的零樣本性能,即使沒有添加相關醫療背景數據。Lyu等人[174]利用ChatGPT[193]將放射學報告翻譯成通俗語言,以便于報告理解和翻譯。實驗表明,通過使用更清晰、更結構化的提示,整體翻譯質量可以提高。Roy等人[227]展示了SAM[131]在腹部CT器官分割中的出色泛化能力,通過其點/邊框提示。Deng等人[58]評估了SAM在腫瘤分割、非腫瘤組織分割和整個幻燈片圖像(WSI)上的細胞核分割的零樣本性能,證明了SAM在病理掃描中大型連通物體上表現良好。Chen等人提出了“思維診斷”(DoT)提示[43],以協助專業人士檢測認知扭曲。DoT通過提示LLMs依次進行主觀性評估、對比推理和模式分析來診斷精神疾病。

預訓練醫療基礎模型

研究人員努力基于大規模未標記的醫療數據預訓練FMs,用于健康記錄檢查[7, 90, 245]、醫學影像診斷[11, 287]和蛋白質序列分析[45, 157]。原則上,預訓練過程可以概括為兩個主要方面:預訓練策略和模型初始化。

預訓練策略。

醫療FM的預訓練通常利用一系列從通用領域FMs衍生的預訓練策略,因為它們具有潛在的泛化能力。第一個預訓練策略是遮蔽語言/圖像建模,遵循BERT[59]和遮蔽自動編碼器(MAE)[96]。例如,SciBERT[14]和PubMedBERT[90]分別基于BERT策略在多領域科學出版物和生物醫學領域特定語料庫上進行預訓練。BioLinkBERT[309]利用生物醫學文檔之間的鏈接,并基于遮蔽語言建模和文檔關系預測任務進行預訓練。BioGPT[172]基于GPT-2[213]在PubMed1摘要上進行預訓練,用于生成語言任務。RETFound[334]是一個用于視網膜圖像疾病檢測的FM,基于MAE在大量未標記的視網膜圖像上進行預訓練,以重構具有75%遮蔽區域的輸入圖像。同樣,General Expression Transformer (GET)[74]是一個用于建模213種人類細胞類型的轉錄調節的FM。GET被預訓練以預測輸入中遮蔽調節元素的基序結合分數,以學習調節模式。 對比學習是另一種重要的醫療FM預訓練策略。例如,REMEDIS[11]是一個通過對比學習預訓練的醫學視覺模型,用于提取醫學圖像的代表性視覺特征。例如MedCLIP[287]、MI-Zero[171]和PLIP[110]等視覺-語言模型是通過對比學習在特定領域的圖像-文本對上進行預訓練的。它們在放射學和病理學中的零樣本圖像分類任務上取得了積極的表現。

結論

基礎模型(FMs)及其在醫療保健領域的應用所取得的顯著進展,為更好的患者管理和高效的臨床工作流程打開了新的可能性。在這些努力中,收集、處理和分析可擴展的醫療數據對于基礎模型研究變得越來越關鍵。在這篇綜述中,我們提供了從數據中心視角出發對基礎模型挑戰的概述。基礎模型具有巨大潛力,可以緩解醫療保健中的數據挑戰,包括數據不平衡和偏見、數據稀缺以及高昂的注釋成本。由于基礎模型強大的內容生成能力,對數據隱私、數據偏見以及對生成的醫療知識的倫理考慮需要更加警惕。只有充分可靠地解決數據中心的挑戰,我們才能更好地利用基礎模型在醫學和醫療保健的更廣泛范圍內的力量。

付費5元查看完整內容

大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:

? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:

? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。

最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。

? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。

實驗結果

主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

隨著人工智能(AI)的迅速發展,地球和大氣科學領域越來越多地采用數據驅動模型,這些模型由深度學習(DL)的持續進步所推動。具體來說,DL技術被廣泛用于解碼地球系統的混沌和非線性特征,并通過理解天氣和氣候數據來應對氣候挑戰。最近,通過DL在更窄的時空尺度內的特定任務上取得了尖端性能。大型模型的興起,特別是大型語言模型(LLMs),使得微調過程產生了顯著的成果,從而推動了通用AI的發展。然而,我們仍在探索為天氣和氣候制定通用AI的初期階段。在這篇綜述中,我們提供了一個全面、及時的概覽,專注于為天氣和氣候數據量身打造的最新AI方法論,特別關注時間序列和文本數據。我們的主要內容涵蓋四個關鍵方面:天氣和氣候數據的類型、主要模型架構、模型范圍和應用,以及天氣和氣候的數據集。此外,關于為天氣和氣候數據理解創建和應用基礎模型,我們深入探討了該領域當前的挑戰,提供關鍵見解,并提出未來研究的詳細途徑。這種全面的方法為從業者提供了在這個領域取得重大進展所需的知識。我們的綜述包含了關于大型、數據驅動模型在天氣和氣候數據理解方面的最新研究突破,強調了堅實的基礎、當前的進展、實際應用、關鍵資源和未來研究的機會。

概念1. 天氣和氣候是兩個不同的概念,它們在空間和時間尺度、可變性和可預測性方面有顯著的差異。這兩者之間的不同可以如下闡述: * 時間尺度。天氣涉及大氣狀況的即時狀態,通常在短期時間框架內。相反,氣候代表長期天氣模式的統計總結。 * 空間尺度。天氣代表特定位置的大氣狀況,而氣候則包括對一個地區典型天氣模式的全面總結。 * 可變性。天氣表現為快速和頻繁的變化,而氣候變化速度較慢,包括長期天氣模式的轉變。 * 可預測性。天氣預報側重于預測未來幾天或更短時間尺度內的天氣狀況。相比之下,氣候預測旨在預測未來幾個月到幾十年的氣候趨勢。

氣候變化描述了全球溫度和天氣模式在長期內的顯著變化。目前,我們的星球正經歷著極端自然現象的激增,如干旱[1]、[2],洪水[1],地震[3],熱浪[4]和強降雨[5],這些現象由不斷加劇的氣候變化所推動。加劇這些挑戰的是全球變暖和海平面下降對生態系統的驚人威脅[6]、[7]。鑒于本世紀預計的地表溫度增加,我們預見這些極端現象的嚴重程度和頻率將加劇[8]。 利用先進的氣候建模和預測技術,這些技術集成了大量的大氣和地表變量 - 包括大氣狀況、洋流、陸地生態系統和生物圈相互作用 - 可以增強我們對氣候變化的理解[9]、[10]。這些見解可以指導定制緩解策略的制定[11]。長期準確的海平面變化預測可以加強沿海城市的城市規劃和災害準備工作[12]、[13]、[14]。短期內,降雨、溫度和濕度的精確預測可以提高包括農業規劃和交通調度在內的人類活動的安全性[15]、[16]、[17]。 傳統上,一般環流模型(GCMs)[18]和數值天氣預報模型(NWPs)[19]、[20]、[21]一直是研究氣候變化趨勢和預測未來天氣和氣候情景的首選工具。這些模型融合了主要的地球系統組成部分,包括大氣、地表和海洋,以模擬地球系統的多維動態。它們通過復雜的物理方程式,如大氣動力學,確定這些組成部分之間的潛在非線性關系,以在廣泛的物理參數范圍內生成預測[22]。然而,盡管它們已經相當成熟,數值受限的天氣預報模型仍面臨許多挑戰和限制。其中之一是它們對地方地理特征的過于簡化的表現[23],因為它們通常無法捕捉到對區域天氣和氣候模式產生關鍵影響的地方地形的復雜細節。另一個障礙是有效地整合來自不同來源的觀測數據,如氣象站、雷達和衛星[8]。傳統模型通常難以將這些具有不同空間和時間分辨率的數據納入其建模框架。此外,它們需要大量的計算資源來管理眾多的物理限制[24]。地球系統的復雜性和規模要求進行大量的計算,給計算能力和效率帶來挑戰。 人工智能技術的快速發展為天氣和氣候建模引入了成本效益高、直接且簡化的解決策略。特別是,機器學習(ML)和深度學習(DL)技術可以識別天氣和氣候數據中的潛在趨勢表示,從而繞過對復雜物理關系的需求。最初,鑒于ML技術相較于大規模、長時間的物理模型的有限能力,它們被少量用于短期、局部的天氣和氣候條件預測。然而,過去十年目睹了數據驅動深度學習方法在天氣和氣候研究中的應用呈指數級增長,這得益于全球天氣和氣候數據的爆炸性擴展[25]、[26]。依托豐富的數據資源和計算技術的進步[27]、[28],這些模型正在革命性地改變氣候科學[29]。利用大量數據,深度學習模型揭示了隱藏在氣候變量中的復雜非線性關系,從而以更高的精確度捕捉氣候系統的動態性和復雜性[30]、[31]。然而,這些模型通常為特定任務而設計,并使用特定格式的數據進行訓練,如區域天氣預測或微觀尺度的降尺度。訓練數據來源的表現方式差異導致了數據驅動深度學習模型在理解天氣和氣候數據方面的過度分化功能。因此,開發能夠微調以模擬全球天氣和氣候系統的通用氣候模型成為一個重大挑戰。

近期大型模型的出現和迅速發展在各個領域取得了顯著成就,包括自然語言處理(NLP)、計算機視覺(CV)[32]、機器人學[33]以及涵蓋生命科學的一系列跨學科領域[34]、[35]、[36]、[37]、[38]。特別是在NLP領域,大型模型或大型語言模型(LLMs)正在迅速發展,它們在大規模語料庫上進行訓練,并針對各種下游任務進行微調[39]、[40]、[41]。在計算機視覺領域,大型視覺模型經過大量自然圖像的訓練[42]、[43]、[44],展示出卓越的零樣本能力[45]、[46]。這些模型在跨任務中的卓越表現源自于它們龐大的參數數量和大規模的預訓練數據。例如,GPT-3[47]、[48]擁有近120倍于GPT-2[49]的參數,使其能夠從更少的樣本中更強大地學習,而GPT-4[50]的參數不到GPT-3的十倍,但在文本生成和圖像理解方面表現出色。LLMs的迅速崛起重新定義了深度學習的前進道路,盡管在無監督/半監督和遷移學習等長期發展領域仍然存在。一個值得注意的例子是視覺-語言大型模型[46]、[51]、[52]、[53],如CLIP[46],它在眾多自然圖像-文本對上進行訓練,并針對如圖像分割[54]、[55]、[56]和視頻字幕生成[57]、[58]等任務進行微調,取得了有希望的結果。最近,大型模型在語音[59]、[60]、物理學[61]和數學分析[62]等領域的擴展催生了基礎科學和專業領域的進步。

預訓練的基礎模型的突破性成功已經顯著推動了NLP和CV領域更接近通用AI的實現。這一進步引發了一個有趣的問題:預訓練的基礎模型的成功已經使NLP和CV領域朝著實現通用AI邁出了有意義的一步,這不僅讓人好奇:是否有可能開發一個用于天氣和氣候數據理解的通用基礎模型,有效地解決相關任務的眾多問題? 基于預訓練模型理論,CLIMAX [25] 提出了一種開發天氣和氣候基礎模型的創新方法。它利用變換器預訓練大規模天氣和氣候數據,產生一個靈活的基礎模型,擅長短期至中期預測、氣候預測和降尺度。PANGU-WEATHER [63] 和 W-MAE [64] 通過使用大量數據對全球氣候系統進行建模,展示了強大的氣候預測能力。然而,開發大規模、通用氣候模型的追求面臨著重大障礙。一個主要挑戰是缺乏大型、多樣化和高質量的訓練數據集。現有數據集(詳情見表4)在不一致的測量、空間-時間偏差和有限的功能性方面存在問題,阻礙了全面、多用途大規模基礎模型的進展。此外,這些模型的計算需求增加了另一個復雜性維度,所需的基礎設施在資源有限的環境中可能無法實現。理想情況下,一個天氣/氣候基礎模型應該能夠無縫處理多源觀測,并納入地理特征的詳細表示,以生成更精確的天氣和氣候趨勢模擬。不幸的是,這仍然是目前天氣和氣候基礎模型的一個基本未開發領域。此外,這些模型的可解釋性,通常被視為“黑匣子”,是一個重要的關注點。在天氣和氣候相關任務中,錯誤的預測可能會對生態系統和社會造成嚴重破壞,因此特別強調了對可解釋性的需求[36]、[65]、[66]。盡管在理解天氣和氣候數據方面取得了顯著進步和潛力,但如上所述,開發大規模基礎模型所面臨的獨特挑戰,需要集中研究(詳情見第9節)。這強調了對這一新興領域進展的全面審查的需求。 在本文中,我們對專門針對天氣和氣候數據設計的數據驅動模型進行了全面審查。我們的綜述涵蓋了各種數據類型、模型架構、應用領域和代表性任務的廣泛大型基礎模型/特定任務模型。這篇評論擴大了從天氣和氣候數據中得出的見解的范圍,鼓勵新的策略,并促進在天氣和氣候中大型模型的跨應用。通過利用DL在大型模型中的力量,我們旨在揭示復雜的氣候模式,增強預測,并加深對氣候系統的理解,從而使社會能夠更有效地適應氣候變化帶來的挑戰。我們的貢獻總結如下: * 首次全面且現代的綜述。據我們所知,本文是首次全面綜述針對天氣和氣候數據理解的大型和特定任務模型的最新發展,涵蓋時間序列、視頻流和文本序列。我們提供了一個深入和當前的全景,涵蓋了該領域的廣泛光譜,同時深入探討了不同方法論的細微差別,為讀者提供了對這個領域的全面和最新的理解。 * 系統化和深入的分類。我們介紹并討論了一個有組織和詳細的分類,將現有相關研究劃分為兩大類:大型氣候基礎模型和特定任務氣候模型。此外,我們進一步根據模型架構對它們進行分類,包括RNN、變換器、GAN、擴散模型和圖神經網絡。基于模型的應用領域和特定任務,進一步進行劃分,并對這些任務定義進行詳細解釋。這種多維分類為讀者提供了一個連貫的路線圖。 * 豐富的資源匯編。我們已經收集了一大批與天氣和氣候科學領域相關的數據集和開源實現。每個數據集都附有詳盡的結構描述、相關任務和直接超鏈接,以便快速訪問。這個編譯作為未來研究和開發努力的領域中的寶貴資源。 * 未來展望和研究機會。我們已經勾畫了幾個未來探索的有希望的軌跡。這些觀點跨越了各個領域,包括數據后處理、模型架構、可解釋性、隱私和訓練范式等。這篇論述為讀者提供了對該領域當前狀態和未來探索可能途徑的復雜理解。設計見解。我們討論并指出了有希望的天氣和氣候基礎模型的關鍵設計元素。這些設計組件包括時間和空間尺度的選擇、數據集選擇、數據表示和模型設計、學習策略和評估方案。遵循這個系統化的設計流程使從業者能夠快速理解設計原則并構建強大的天氣和氣候基礎模型,從而促進天氣和氣候領域的迅速發展。

文章組織。本綜述的其余部分結構如下:第2節闡述了我們的綜述與其他相應研究之間的區別。第3節為讀者提供關于基礎模型、天氣和氣候數據的基本描述以及相關任務的基本知識。第4節詳細闡述了天氣和氣候任務的關鍵模型架構。第6節,我們介紹了目前用于天氣和氣候任務的主要模型分類的概要,包括氣候基礎模型和特定任務模型。該節在深入探討個別方法論的復雜性之前,提供了該領域的整體視圖。第5節簡潔地介紹了氣候基礎模型和特定任務模型,并根據不同的模型架構進一步細分特定任務模型。隨后,第7節進行了對特定天氣和氣候任務的數據驅動深度學習模型的廣泛探索。考慮到缺乏統一和全面的天氣和氣候數據集索引,第8節提出了一套詳盡的數據集資源和介紹,旨在為讀者提供便利和效率。第9節概述了目前阻礙天氣和氣候基礎模型發展的挑戰,以及該領域未來的潛在方向。第10節提出了構建天氣和氣象基礎模型的潛在藍圖,幫助從業者進行思考和執行,并促進氣候基礎模型的發展。最后,第11節對綜述內容提供了總結和結論性評論。

天氣和氣候的基礎模型

蓬勃發展的基礎模型在NLP [47]、[82]、[200]和CV [45]、[46]領域已激發了對天氣和氣候數據理解基礎模型的研究興趣。通過預訓練策略創建的大型基礎模型可以顯著提高基于AI的氣候模型的泛化能力,并可以針對特定的下游任務進行微調。這類模型的預訓練需要大規模序列數據,這不是通常從普通時間序列數據中獲取的。 考慮到計算效率和對及時氣候預測的需求,Pathak等人提出了FOURCASTNET [136],這是一種基于視覺變換器和自適應傅里葉神經網絡運算符(AFNO)[201]的氣候預訓練基礎模型,用于高分辨率預測和快速推理。其訓練過程包括基于預訓練模型的自監著預訓練和自回歸微調。PANGU-WEATHER [63],一個利用3D地球特定變換器的數據驅動模型,以其快速、精確的全球預測和卓越性能而聞名。它根據當前狀態預測隨時間變化的大氣狀態,當前狀態由上空五個變量和四個地表變量在0.25°水平網格上的13個垂直層描述。另一方面,CLIMAX [25] 通過其基于變換器的完全監督預訓練,將基礎建模概念引入天氣預測。它提出變量消歧和變量聚合策略,用于合并和揭示不同天氣變化在不同高度的潛在關系,為適應包括全球/區域/季節性預測、氣候繪制和降尺度任務在內的多樣化下游任務提供了有希望的靈活性。FENGWU [138] 以獨特設計的深度學習架構從多模態、多任務角度解決中期預測問題。它具有模型特定的解碼器和跨模態融合變換器,在不確定性損失的監督下,以區域適應的方式平衡不同預測器的優化。鑒于上述大型模型是通過完全監督的方式訓練的,W-MAE [64] 使用基于掩碼自動編碼器(MAE)[202]、[203]的方法,實施天氣預測模型的無監督訓練,這可以通過各種數據源微調用于下游任務。MetePFL [24] 和 FedWing [154] 還提出了基于提示的聯邦學習[204],用于訓練大型基礎模型,大大降低了跨區域協作模型訓練的成本,同時保護數據隱私。LLMs的快速發展導致處理天氣和氣候任務不再局限于視覺或時間序列模型。基于LLMs的OCEANGPT [197] 提出了處理廣泛海洋相關任務的方法論。除了用于預測和模擬的基礎模型之外,CLIMATEBERT [195] 是一種用于處理氣候相關文本的基于NLP的基礎模型。它在新聞文章、研究論文和公司氣候報告等多種來源的200多萬段氣候相關段落上進行訓練[205]。 結論

我們提供了一個全面和最新的針對分析天氣和氣候數據的數據驅動模型綜述。目的是通過系統組織的評估相關模型,為這個不斷發展的學科提供一個新視角。我們提煉出每個類別中最顯著的方法論,研究它們各自的優點和缺點,并提出未來探索的可行軌跡。這篇綜述旨在作為一個刺激,激發持續的興趣并培養對天氣和氣候數據理解領域數據驅動模型研究的持久熱情。

付費5元查看完整內容

隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。

然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:

建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。

綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。

? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。

付費5元查看完整內容

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

自主智能體長期以來一直是學術界一個顯著的研究課題。在這個領域,以往的研究往往側重于在孤立環境中訓練智能體,使其具備有限的知識,這與人類的學習過程有很大不同,從而使得智能體難以做出類似人類決策的能力。最近,通過獲取大量的網絡知識,大型語言模型(LLMs)展現出在實現人類水平智能方面的非凡潛力。這引發了對基于LLMs的自主智能體研究的高潮。為了充分發揮LLMs的全部潛能,研究人員設計了多樣化的智能體架構,以適應不同的應用。在本文中,我們呈現了對這些研究的全面調查,從整體的角度對自主智能體領域進行了系統回顧。更具體地說,我們的關注重點在于基于LLMs的智能體構建,為此我們提出了一個統一的框架,涵蓋了大部分先前工作。此外,我們還總結了基于LLMs的人工智能智能體在社會科學、自然科學和工程領域中的各種應用。最后,我們討論了常用的基于LLMs的人工智能智能體評估策略。基于以前的研究,我們還提出了該領域面臨的若干挑戰和未來發展方向。為了跟蹤該領域的發展并不斷更新我們的調查,我們在//github.com/Paitesanshi/LLM-Agent-Survey上維護了一個相關參考文獻的存儲庫。

自主智能體長期以來被視為通向人工通用智能(AGI)的一條有前途的道路,能夠通過自主規劃和指令來完成任務。在早期的范式中,指導智能體行動的策略函數是通過啟發式方法構建的,隨后通過與環境的互動進行了改進。然而,出現了明顯的差距,這些函數往往無法在特別是在非受限的開放領域環境中復制人類水平的熟練程度。這種差異可以追溯到啟發式設計固有的潛在不準確性,以及訓練環境提供的受限知識所導致的。

近年來,大型語言模型(LLMs)取得了顯著的成功,表明它們具有實現類人智能的潛力。這種能力源于綜合的訓練數據集和大量的模型參數的利用。受到這種能力的推動,近年來出現了一個蓬勃發展的趨勢(見圖1,顯示了這一領域的增長趨勢),在這個趨勢中,LLMs被應用作為創建自主智能體的核心協調者。這種戰略性的應用旨在模擬類人決策過程,從而為更復雜和適應性更強的人工智能系統提供一條路徑。在基于LLM的自主智能體方向上,人們設計了許多有前途的模型,重點是增強LLMs的關鍵能力,比如記憶和規劃,使它們能夠模擬人類的行為并熟練地執行各種任務。然而,這些模型是獨立提出的,對它們進行全面的總結和比較的努力有限。為現有基于LLM的自主智能體作品進行全面的總結分析是至關重要的,這在發展對這一領域的綜合理解以及為未來的研究提供靈感方面具有重要意義。

在本文中,我們對基于LLM的自主智能體領域進行了全面的綜述。具體來說,我們根據構建、應用和評估這三個方面來組織我們的調查。對于智能體的構建,我們提出了一個由四個組件組成的統一框架,包括一個用于表示智能體屬性的配置模塊,一個用于存儲歷史信息的記憶模塊,一個用于規劃未來動作的規劃模塊,以及一個用于執行計劃決策的執行模塊。通過禁用一個或多個模塊,大部分先前的研究可以被視為這個框架的具體示例。在介紹典型的智能體模塊后,我們還總結了常用的微調策略,以增強智能體在不同應用場景下的適應性。除了構建智能體,我們還概述了自主智能體的潛在應用,探討了這些智能體如何提升社會科學、自然科學和工程領域。最后,我們討論了評估自主智能體的方法,重點關注主觀和客觀策略。總之,本調查提供了對基于LLM的自主智能體領域現有研究的系統回顧,并建立了清晰的分類。它關注智能體的構建、應用和評估三個方面。基于以前的研究,我們確定了該領域面臨的若干挑戰,并討論了未來的發展方向。我們認為該領域仍處于早期階段,因此我們維護一個存儲庫,以持續跟蹤該領域的研究,網址為

基于LLM的自主智能體構建

近期語言模型(LLMs)的進步展示了它們在完成廣泛任務方面的潛力。然而,僅僅基于LLMs,由于其架構的限制,實現一個有效的自主智能體是困難的。為了填補這一差距,先前的工作開發了許多模塊,以激發和增強LLMs的能力,用于構建自主智能體。在本節中,我們提出了一個統一的框架,以總結先前工作中提出的架構。具體而言,我們的框架的總體結構如圖2所示,由配置模塊、記憶模塊、規劃模塊和執行模塊組成。配置模塊的目的是識別智能體的角色。記憶和規劃模塊將智能體置于一個動態環境中,使其能夠回顧過去的行為并規劃未來的動作。執行模塊負責將智能體的決策轉化為具體的輸出。在這些模塊內部,配置模塊影響記憶和規劃模塊,而這三個模塊共同影響執行模塊。接下來,我們詳細介紹這些模塊。

基于LLM的自主智能體在各個領域的應用代表了我們解決問題、做決策和創新方式的范式轉變。這些智能體具備語言理解、推理和適應能力,通過提供前所未有的見解、輔助和解決方案,正在顛覆行業和學科。在本節中,我們將探討LLM-based自主智能體在社會科學、自然科學和工程領域的變革性影響(請參見圖3左側部分,以獲取整體概覽)。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容
北京阿比特科技有限公司