亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 大規模語言模型(large language models,LLMs)所展現的處理各種自然語言處理(natural language processing,NLP)任務的能力引發了廣泛關注. 然而,它們在處理現實中各種復雜場景時的魯棒性尚未得到充分探索,這對于評估模型的穩定性和可靠性尤為重要. 因此,使用涵蓋了9個常見NLP任務的15個數據集(約147,000個原始測試樣本)和來自TextFlint的61種魯棒的文本變形方法分析GPT-3和GPT-3.5系列模型在原始數據集上的性能,以及其在不同任務和文本變形級別(字符、詞和句子)上的魯棒性. 研究結果表明,GPT模型雖然在情感分析、語義匹配等分類任務和閱讀理解任務中表現出良好的性能,但其處理信息抽取任務的能力仍較為欠缺,比如其對關系抽取任務中各種關系類型存在嚴重混淆,甚至出現“幻覺”現象. 在魯棒性評估實驗中,GPT模型在任務層面和變形層面的魯棒性都較弱,其中,在分類任務和句子級別的變形中魯棒性缺乏更為顯著. 此外,探究了模型迭代過程中性能和魯棒性的變化,以及提示中的演示數量和演示內容對模型性能和魯棒性的影響. 結果表明,隨著模型的迭代過程以及上下文學習的加入,模型的性能穩步提升,但是魯棒性依然亟待提升. 這些發現從任務類型、變形種類、提示內容等方面揭示了GPT模型還無法完全勝任常見的NLP任務,并且模型存在的魯棒性問題難以通過提升模型性能或改變提示內容等方式解決. 通過對gpt-3.5-turbo的更新版本、gpt-4模型,以及開源模型Llama2-7b和Llama2-13b的性能和魯棒性表現進行對比,進一步驗證了實驗結論. 鑒于此,未來的大模型研究應當提升模型在信息提取以及語義理解等方面的能力,并且應當在模型訓練或微調階段考慮提升魯棒性.

大規模語言模型,如FLAN[1]、GPT-3[2]、Llama[3]和PaLM2[4]等,在對話、理解和推理方面展示了驚人的能力[5]. 在不修改模型參數的情況下,大模型可以僅通過輸入合適的提示來執行各種任務. 其中,GPT系列模型因其出色的能力備受關注. 為定量評估和探究大模型的能力,已有的工作集中于評估大模型在常識和邏輯推理[6]、多語言和多模態[7]、心智理論[8]和數學[9]等方面的能力. 盡管這些工作在基準測試集上取得了很好的效果,但大模型是否具備良好的魯棒性仍然需要進一步研究.

魯棒性衡量了模型在面對異常情況(如噪音、擾動或故意攻擊)時的穩定性,這種能力在現實場景,尤其是在自動駕駛和醫學診斷等安全場景下對于大模型至關重要. 鑒于此,現有工作對大模型的魯棒性展開了探究:Wang等人[10]從對抗性和分布外(out of distribution,OOD)的角度出發,使用現有的AdvGLUE[11]和ANLI[12]對抗基準評估ChatGPT等大模型的對抗魯棒性,使用DDXPlus[13]醫學診斷數據集等評估分布外魯棒性;Zhu等人[14]則從提示的角度出發,提出了基于對抗性提示的魯棒性評測基準,并對大模型在對抗提示方面的魯棒性進行了分析. 然而,已有的研究主要使用對抗攻擊策略,這對于大規模評估來說需要消耗大量的算力和時間;并且對抗樣本生成的目標是通過對特定模型或數據集的原始輸入進行微小的擾動,以誤導模型的分類或生成結果,但這些擾動并不總是代表真實世界中的威脅和攻擊方式. 此外,現有研究大多針對ChatGPT及同時期的其他大模型,對GPT系列模型迭代過程中性能和魯棒性的變化關注較少. 鑒于此,本文選擇了圖1所示的5個GPT-3和GPT-3.5系列模型作為大模型的代表,通過全面的實驗分析其性能和魯棒性,以解決以下問題:

問題1:GPT模型在NLP任務的原始數據集上有何性能缺陷? 為給后續的魯棒性評估提供基礎和參考點,本文首先評估模型在原始數據集上的性能. 本文選擇15個數據集(超過147k個原始測試樣本),涵蓋了9個常見的NLP任務,如情感分析、閱讀理解和命名實體識別等,評估了GPT模型在原始數據集上的性能以及迭代過程中的性能變化. 雖然這些任務沒有直接對應具體的對話場景,但它們評估了模型的潛在能力,包括理解上下文、處理不同的語言結構和捕捉微小的信息等,這些能力對于語言理解和生成系統都非常重要. 問題2:GPT模型在NLP任務上面對輸入文本擾動時的魯棒性如何? 本文首先確定評估魯棒性的方法. 為更加真實地模擬現實世界中可能存在的噪音、擾動和攻擊,本文選擇了TextFlint[15]作為對輸入文本進行擾動的工具. 它提供了許多針對NLP任務特定的文本變形,這些變形均基于語言學進行設計,體現了實際使用語言過程中可能發生的情況,保持了變形后文本的語言合理性,能夠模擬實際應用中的挑戰. 本文使用了61種文本變形方法,這些變形按照變形的粒度可以分為句子級、詞級和字符級. 本文通過實驗分析了GPT模型在各種任務和各個變形級別上的魯棒性,并探究了模型迭代過程中魯棒性的變化.

問題3:提示對GPT模型的性能和魯棒性有何影響? 在上述兩個問題中,本文從測試文本出發,通過將不同的測試樣本與任務特定的提示進行拼接,評估了模型的性能和魯棒性. 這個問題中,本文從提示的角度出發,研究其對性能和魯棒性的影響. 上下文學習[16](in-context learning,ICL)已經成為自然語言處理領域的新范式,語言模型可以僅基于少量示例執行復雜任務. 基于此,本文通過改變提示中演示(demonstration)的數量或內容,探究提示對GPT模型的性能和魯棒性的影響. 本文的定量結果和定性分析表明: 1)GPT模型在情感分析、語義匹配等分類任務和閱讀理解任務中表現出較優異的性能,但在信息抽取任務中性能較差. 例如,其嚴重混淆了關系抽取任務中的各種關系類型,甚至出現了“幻覺”現象. 2)在處理被擾動的輸入文本時,GPT模型的魯棒性較弱,它們在分類任務和句子級別變形中魯棒性缺乏更為顯著. 3)隨著GPT系列模型的迭代,其在NLP任務上的性能穩步提升,但是魯棒性并未增強. 除情感分析任務外,模型在其余任務上的魯棒性均未明顯提升,甚至出現顯著波動. 4)隨著提示中演示數量的增加,GPT模型的性能提升,但模型魯棒性仍然亟待增強;演示內容的改變可以一定程度上增強模型的抗擾動能力,但未能從根本上解決魯棒性問題. 同時,通過對gpt-3.5-turbo的更新版本、gpt-4、開源模型Llama2-7b和Llama2-13b的表現進行評估,本文進一步驗證了上述實驗結論的普適性和可持續性.

付費5元查看完整內容

相關內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。

大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。

然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。

考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。

在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。

總述

**提示范式 **

提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。

提示類型

本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。

挑戰

鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。

使用高效計算的提示

隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。

使用高效設計的提示

“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。

結論

在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

類增量學習(class incremental learning, CIL)旨在在類別數量逐步增加的情況下訓練分類模型。CIL模型面臨的一個內在挑戰是穩定性與可塑性的權衡,即CIL模型既要保持穩定性以保留舊知識,又要保持可塑性以吸收新知識。然而,現有的CIL模型都不能在不同的數據接收設置中實現最佳權衡——通常,從一半開始訓練(TFH)設置需要更大的穩定性,但從頭開始訓練(TFS)需要更大的可塑性**。設計了一種在線學習方法,可以在不知道先驗設置的情況下自適應地優化權衡。**首先引入了影響權衡的關鍵超參數,例如知識蒸餾(KD)損失權重、學習率和分類器類型。然后,將超參數優化過程建模為一個在線馬爾可夫決策過程(MDP)問題,并提出了一種具體的算法來求解該問題。本文采用局部估計獎勵和經典bandit算法Exp3[4]來解決將在線MDP方法應用于CIL協議時存在的問題。所提出方法在TFH和TFS設置中不斷改進表現最好的CIL方法,例如,與最先進的[23]相比,在ImageNet-Full上將TFH和TFS的平均精度提高了2.2個百分點。

//www.zhuanzhi.ai/paper/1aa5db12a9fd06a275ad0b6e89be62bb

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容
北京阿比特科技有限公司