亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

生成性AI大型語言模型(LLMs)的安全性:概述

具有生成性AI能力的大型語言模型(如ChatGPT)正面臨加速采用和創新。生成性AI(GAI)的日益普及不可避免地引發了對這些模型相關風險和安全性的擔憂。本文從計算機科學家的角度,對GAI-LLMs的最新AI安全研究趨勢進行了詳盡的綜述,內容具體且技術性強。在本綜述中,我們探討了在LLMs作為生成性語言模型的背景和動機下所識別的危害和風險;我們的綜述強調了在LLMs研究開發和應用中統一理論以應對不同安全挑戰的必要性。 我們首先通過相關文獻支持,對LLMs的工作原理進行了簡明介紹。然后,我們討論了早期研究指出的生成性模型的基本限制或缺乏理解(例如,隨著LLMs參數數量的增加,性能和安全之間的權衡)。我們充分討論了LLMs的對齊問題——深入探討了各種方法、爭議方法以及將LLMs與人類偏好對齊所面臨的現有挑戰。通過強調文獻中的空白和可能的實施疏漏,我們旨在創建一個全面的分析,為解決LLMs中的AI安全問題提供見解,并鼓勵開發對齊且安全的模型。 我們在綜述的結尾討論了LLMs在AI安全領域的未來方向,提供了對該關鍵領域正在進行的研究的見解。 1.** 引言大型語言模型(LLMs)常被譽為具有驚人生成能力的革命性生成性AI(GAI)模型,但它們也帶來了許多AI安全挑戰**。本文對現有研究文獻中固有的LLMs安全風險進行了全面回顧。一個重要的挑戰在于缺乏專門針對GAI-LLMs安全問題的綜述論文,這些問題源于LLMs的技術構成,即數據預訓練、模型架構和提示使用。目前的研究往往過于廣泛,涉及X風險、AI倫理邊界和政府政策變化等主題,這些雖重要,但并未直接聚焦于GAI-LLMs的功能性方面。在這項工作中,我們審視了先前文獻中記錄的生成模型的已知限制,并進一步識別和討論由于未解決的技術問題而導致的新安全挑戰。在確定了生成性AI和大型語言模型的安全挑戰后,我們識別了一系列關鍵研究和主題:偏見和公平性、有害內容生成、虛假信息、隱私和安全問題、對抗攻擊、知識產權侵權、倫理和人類偏好對齊以及大規模安全性。本文還回顧了后續GAI-LLMs安全研究的有前景途徑,強調了在GAI-LLMs成為更強大代理時,LLM從業者和應用開發人員必須考慮的眾多關鍵因素。 1.1. 文獻檢索策略本研究從計算機科學領域的AI和NLP方向的出版物中調查生成性AI和LLMs的安全性,包括ACL、NAACL、EACL、EMNLP、CoNLL、COLING、SIGIR、IJCAI、AAAI、ICML、ICDM、KDD和NeurIPS。我們使用AI安全、生成性AI和大型語言模型等相關關鍵詞來搜索相關論文。找到的論文中出現的相關工作也包含在本綜述的范圍內,這可能包括技術公司關于AI安全的技術文章,例如Anthropic、Google DeepMind、Meta、Microsoft Research和OpenAI。AI安全和生成性AI研究領域廣泛且復雜,來自學術界、工業界和政府的輸入推動了這一領域的發展。在之前提到的核心文獻基礎上,審視額外的來源,以提供多樣化的觀點和見解。額外的來源增強了我們對這一領域的理解,強調了解決高級AI系統相關問題所需的協作努力。即將介紹的類別突出了計算機科學研究和政策制定正在進行的關鍵領域:

大型語言模型的風險和危害分類:Weidinger等(2024a)強調了旨在識別和分類LLMs安全風險的研究的重要性,特別是那些具有潛在社會技術影響的研究。Bommasani等(2022)、Shelby等(2023)和Weidinger等(2022)展示了這一類型的工作,提供了理解GAI-LLMs潛在危險的關鍵分類和框架。Liu等(2024d)對LLMs對齊風險進行了深入分析,按主題系統地組織它們并討論了評估研究的最新進展。這些綜述論文共同構成了關注識別和理解LLMs潛在不良影響的文獻。Bird等(2023)檢查了文本到圖像生成模型的危害,例如生成內容中的偏見、生成不當內容和侵犯版權的問題。雖然本綜述論文集中于大型語言模型的技術方面,但Shevlane等(2023)和Solaiman等(2023)深入探討了其社會影響,包括潛在危害,基于Solaiman等(2019)的早期工作。Amodei等(2016)的基礎性工作“AI安全中的具體問題”極大地影響了高級AI的討論,而Google DeepMind不斷發展的分類法Morris等(2023);Dragan等幫助識別了建立這一領域的研究。Weidinger等(2024a)強調,持續發展這些分類法對于促進研究人員、政策制定者和其他利益相關者之間的共同理解至關重要。

政府/政策制定會議:除了研究界的貢獻,政府政策制定者在協作倡議中的參與也是重要的。這些協作生成了高質量的AI安全報告,例如WhiteHouse的報告。例如,Google DeepMind的評估方法Liang等(2022)和Anthropic的負責任的擴展政策Anthropic(2023)都引用了WhiteHouse。這些報告有助于全面理解圍繞AI系統的復雜環境。正如預期的那樣,這些會議的論文集中討論了治理AI安全風險,如AI可信度、監控、公平性和隱私。

企業AI安全委員會和AI安全聲明:OpenAI通過他們的博客發布了他們的AI安全方法,并不斷更新和變化,例如OpenAI安全委員會OpenAI(2023c)、AI安全更新OpenAI(2023e)和OpenAI安全標準OpenAI(2023d)。Weidinger等(2024a)提到Google DeepMind的AI安全委員會,并引用了一些資源鏈接到他們的AI安全原則GoogleDeepMind(2023)。Anthropic對評估AI系統的貢獻提供了一種更務實和專注的方法。Ganguli等(2023)強調了GAI-LLMs特定評估的固有復雜性,例如Hendrycks等(2021)的大型多任務評估(MMLU)基準和Parrish等(2022)的問答偏見基準(BBQ),以及Liang等(2023)的整體語言模型評估(HELM)和Srivastava等(2023)的BigBench。創建如此全面的評估框架的挑戰表明了所需的大量努力。

AI安全評估:如HELM Liang等(2023)和BigBench Srivastava等(2023)等全面評估框架為基準測試LLMs提供了簡化的API。這些框架結合了真理QA Lin等(2021)等開創性研究的基準,提供了不斷演變的快照,以應對AI安全和代理的已建立風險和危害。通過在GitHub和HuggingFace等平臺上托管開源代碼庫,研究人員促進了社區的持續貢獻和更新。

1.2. 與其他綜述的比較本綜述論文通過系統地調查LLMs的安全問題,提供了一個高層次的分類框架,包括訓練數據、模型訓練、提示、對齊和擴展。通過將高級應用(如ChatGPT、Gemini等)的討論分解為不同方面,我們可以在其技術范圍內縮小安全問題并理解下游問題。我們的還原主義方法符合近期的努力,例如Dalrymple等(2024)的“保證安全的AI”,以綜合和分類GAI-LLMs和未來代理相關的風險。例如,Gabriel等(2024)深入探討了高級AI助手的倫理挑戰,重點關注價值對齊、安全性和潛在的濫用。同樣,Bommasani等(2022)對基礎模型(包括LLMs)的機會和風險進行了廣泛的討論。Liu等(2024d)通過識別生成性AI系統中的已知風險并提出增強其可信度的框架,補充了這一討論。雖然其他綜述工作提供了重要見解,我們的綜述通過系統地將這些識別的風險與LLM架構的特定方法(特別是上下文學習、提示和強化學習)相關聯,從而使其與眾不同。通過這種方法,我們可以識別安全問題的技術來源,并追蹤其在系統中的傳播,提供對如何以及在哪里最有效地進行干預的更詳細理解。我們還結合了LLMs評估的最新發展,如Weidinger等(2024a)所展示的。他們的工作分享了開發Google Gemini模型的經驗教訓,并深入了解了DeepMind內部的治理結構,提供了關于在實際AI系統中實施安全措施的實際挑戰的關鍵視角。為了進一步區分我們的綜述,我們包括了Zhao等(2023)的最新工作分析,他們對LLMs的評估方法提供了全面概述。他們的評估指標和數據集分類為我們的基于組件的分析提供了有價值的背景,有助于彌合理論安全問題和實際評估方法之間的差距。通過綜合這些不同的觀點并圍繞基于組件的框架進行組織,我們的綜述為該領域做出了獨特貢獻。它不僅鞏固了關于LLM安全性的現有知識,還提供了一個結構化的方法來識別和解決其源頭的安全問題。這種方法對于旨在提高基于LLM的系統在各種應用和領域中的魯棒性和可靠性的研究人員和從業者來說,特別有價值。 1.3. 綜述的主要貢獻在這項綜述中,我們的主要貢獻總結如下

我們通過一個新的基于組件的框架,系統地調查了LLMs的安全問題,將關注點分類為訓練數據、模型訓練、提示、對齊和擴展。 * 我們將識別的風險與特定的LLM方法(特別是上下文學習、提示和強化學習)相關聯,從而更精確地理解安全問題的技術來源。 * 我們結合了對LLM提示和對齊技術與人類偏好的綜合分析,彌合了理論安全問題和實際評估方法之間的差距。 * 我們將模型對齊的討論置于廣泛的AI安全文獻中,探索了關于語言模型的不同哲學觀點,以及它們與AI代理安全的獨特對待方式。根據我們的研究,我們區分了強化學習策略,無論代理是否設計為語言助手,都可以在任何相互設置中嵌入與人類相關的安全措施。 * 通過這種還原主義方法,我們匯集了當前文獻中的各種觀點,提出了一個獨特且有組織的框架,以定位和解決LLM安全問題。這種方法為識別最有效的干預點提供了關鍵見解,為專注于提高LLM基于系統安全性的研究人員和從業者提供了重要視角。

1.4. 綜述的提綱在這項工作中,第2節提供了LLMs的簡要背景。本文隨后提出了一個全面的安全問題和挑戰分類法,分為五個主要類別,如表1所示。第3節的數據安全解決了有害性、偏見、數據隱私和版權侵犯等問題。第4節的模型安全探討了虛假信息、評估問題、可解釋性挑戰和推理隱私問題。第5節的提示安全或使用安全重點關注潛在攻擊,如提示注入和越獄,以及防御策略。第6節的對齊或倫理安全深入探討了對齊的哲學方面、中立對齊方法、大型語言模型的價值對齊以及對齊LLMs與人類價值和倫理原則的方法。最后,第7節的規模安全性研究了可擴展的監督機制、涌現能力、知識蒸餾技術以及大規模模型的災難性遺忘風險。這種結構化的方法提供了GAI-LLMs研究中安全領域的全面概述。我們在第8節中提出了一些未來值得研究的趨勢,并在第9節對本次綜述進行了總結。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

像GPT和LLaMA這樣的大型語言模型(LLM)以其復雜的能力正在革新AI行業。訓練這些模型需要龐大的GPU集群和大量的計算時間,在可擴展性、效率和可靠性方面帶來了重大挑戰。本綜述探討了LLM訓練系統的最新進展,包括在訓練基礎設施中使用AI加速器、網絡、存儲和調度的創新。此外,綜述還涵蓋了并行策略以及在分布式LLM訓練中針對計算、通信和內存的優化。它還包括在長時間訓練期間保持系統可靠性的方法。通過審視當前的創新和未來的方向,本綜述旨在為改進LLM訓練系統和應對持續的挑戰提供寶貴的見解。此外,基于傳統數字電路的計算系統在滿足LLM的計算需求方面面臨重大限制,突顯出諸如光學計算和光網絡等創新解決方案的必要性。

大型語言模型(LLM)正在變革AI行業,在個人助手[1]、代碼輔助[2]、芯片設計[3]和科學發現[4]等廣泛任務和應用中展示了卓越的能力。這場革命的成功建立在以GPT[5]、LLaMA[6]、Gemini[7]等為代表的前所未有規模的基于變壓器的LLM之上。此外,證據表明LLM的規模化尚未達到瓶頸[8]。這種趨勢顯著改變了基礎訓練系統和基礎設施的設計,因為LLM通常遵循相對固定的架構,其訓練獨占了龐大的GPU集群長達數月。例如,LLaMA-3的預訓練在Meta的生產集群上使用16K H100-80GB GPU耗時約54天[9]。

LLM訓練在可擴展性、效率和可靠性(“SER”)方面對當今的訓練系統和基礎設施提出了重大挑戰。可擴展性要求基礎設施和系統能夠無縫適應成千上萬的GPU或AI加速器的大型集群,同時保持訓練正確性和模型精度。這需要在硬件配置、網絡和訓練框架方面的創新解決方案。效率關注于最大化整個集群的資源利用率,通常以模型浮點運算(MFU)來衡量。實現高MFU涉及優化計算、最小化通信開銷以及在前所未有的規模上高效管理內存。可靠性對于LLM訓練至關重要,通常訓練持續數周到數月。系統必須保持一致的性能,并對各種類型的故障具有彈性,包括硬件故障、網絡問題和軟件錯誤。它應能快速檢測并從這些故障中恢復,而不會顯著喪失進度或訓練質量。這些相互關聯的挑戰需要系統和基礎設施設計的整體方法,推動大規模分布式計算的邊界,并為高性能機器學習系統的研究和創新開辟新途徑。

本綜述論文旨在全面概述LLM訓練系統和基礎設施的進展,解決上述挑戰。本綜述從分布式訓練基礎設施到訓練系統,涵蓋了GPU集群、高性能網絡和為LLM工作負載量身定制的分布式存儲系統的創新方法。我們還探討了分布式訓練系統的關鍵方面,包括提高可擴展性和效率的并行策略、計算、通信和內存優化。我們深入研究了提高訓練可靠性的容錯機制。通過綜合最近的進展并確定未來的研究方向,本綜述旨在為研究人員和實踐者提供對改進LLM訓練系統最有前景途徑的見解。我們的目標是提供一個有價值的資源,不僅解決當前的挑戰,還為大規模機器學習基礎設施的未來創新鋪平道路。

組織結構。圖1展示了本綜述的組織結構。第2節討論LLM架構、LLM訓練的特點和挑戰的背景信息。在第3節中,我們總結了訓練基礎設施的關鍵方面,包括AI加速器、網絡基礎設施和存儲系統。在第4節中,我們研究了分布式LLM訓練的并行方案。在第5節中,我們討論了利用前所未有的計算能力的計算優化。在第6節中,我們討論了LLM訓練中優化內存占用的技術。在第7節中,我們介紹了最小化通信開銷的通信優化。在第8節中,我們首先進行故障分析,然后介紹快速故障檢測和恢復的方法。最后,我們在第9節總結了本綜述。

付費5元查看完整內容

雖然像ChatGPT這樣的大型語言模型(LLMs)在自然語言處理(NLP)任務中表現出令人印象深刻的能力,但對其在這一領域潛力的系統性研究仍然較少。本研究旨在填補這一空白,探索以下問題:(1)LLMs目前在文獻中如何應用于NLP任務?(2)傳統的NLP任務是否已經被LLMs解決?(3)LLMs在NLP中的未來是什么?為了解答這些問題,我們首先提供了一個關于LLMs在NLP中全面概述的第一步。具體來說,我們首先介紹了一個統一的分類,包括(1)參數凍結應用和(2)參數微調應用,以提供一個統一的視角來理解LLMs在NLP中的當前進展。此外,我們總結了新的前沿領域及相關挑戰,旨在激發進一步的突破性進展。我們希望這項工作能為LLMs在NLP中的潛力和局限性提供寶貴的見解,同時也作為構建有效的LLMs在NLP中的實用指南。

近年來,大型語言模型(LLMs)通過擴大語言模型的規模,代表了人工智能領域的重大突破(Zhao et al., 2023a; Kaddour et al., 2023; Yang et al.; Hadi et al., 2023; Zhuang et al., 2023)。目前關于LLMs的研究,如GPT系列(Brown et al., 2020; Ouyang et al., 2022)、PaLM系列(Chowdhery et al., 2022)、OPT(Zhang et al., 2022a)和LLaMA(Touvron et al., 2023),顯示了令人印象深刻的零樣本性能。此外,LLMs還帶來了一些新興能力,包括指令遵循(Wei et al., 2022a)、鏈式思維推理(Wei et al., 2022c)和上下文學習(Min et al., 2022),這些能力引起了越來越多的關注(Wei et al., 2022b)。

為了回答上述問題,我們首次嘗試對LLMs在NLP中的應用進行全面而詳細的分析。本工作的總體目標是探索LLMs在NLP中的當前發展。為此,在本文中,我們首先介紹相關背景和預備知識。此外,我們引入了LLMs在NLP中的統一范式:(1)參數凍結應用,包括(i)零樣本學習和(ii)小樣本學習;(2)參數微調應用,包括(i)全參數微調和(ii)參數高效微調,旨在提供一個統一的視角來理解LLMs在NLP中的當前進展:

  • 參數凍結應用直接在NLP任務中使用提示方法,不需要參數微調。這一類別包括零樣本和小樣本學習,具體取決于是否需要小樣本示例。
  • 參數微調應用指需要對LLMs的參數進行微調以適應NLP任務。這一類別包括全參數微調和參數高效微調,具體取決于是否需要對所有模型參數進行微調。 最后,我們通過確定未來研究的潛在前沿領域及相關挑戰來刺激進一步的探索。總結來說,這項工作提供了以下貢獻:
  1. 首個綜述:我們首次對大型語言模型(LLMs)在自然語言處理(NLP)任務中的應用進行了全面綜述。
  2. 新分類法:我們引入了一個新的分類法,包括(1)參數凍結應用和(2)參數微調應用,這提供了一個理解LLMs在NLP任務中應用的統一視角。
  3. 新前沿:我們討論了LLMs在NLP中的新興研究領域,并強調了相關挑戰,旨在激發未來的突破。
  4. 豐富資源:我們創建了第一個LLMs在NLP中的資源集合,包括開源實現、相關語料庫和研究論文列表。這些資源可在//github.com/LightChen233/Awesome-LLM-for-NLP獲取。 我們希望這項工作能成為研究人員的寶貴資源,并推動基于LLMs的NLP領域的進一步進展。

我們首先描述了一些典型的自然語言處理理解任務,包括語義分析(§3.1)、信息抽取(§3.2)、對話理解(§3.3)和表格理解(§3.4)。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

游戲智能體的發展在推進向人工通用智能(AGI)的道路上扮演著至關重要的角色。大型語言模型(LLMs)及其多模態對應物(MLLMs)的進展為在復雜的電腦游戲環境中賦予游戲智能體類似人類的決策能力提供了前所未有的機會。本文從一個全面的視角對基于LLM的游戲智能體進行了綜述。首先,我們介紹了基于LLM游戲智能體的概念架構,圍繞六個基本功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們調研了文獻中記錄的現有代表性的基于LLM游戲智能體,這些智能體在方法論和跨六大游戲類型的適應性靈活性方面進行了探討,包括冒險、溝通、競爭、合作、模擬以及制作與探索游戲。最后,我們展望了這一新興領域未來研究和發展的方向。維護并可訪問的相關論文精選列表位于://github.com/git-disl/awesome-LLM-game-agent-papers。

智能在代理與環境的互動中以及作為感覺運動活動的結果而出現。 ——體現認知假說 [1] 大型語言模型(LLMs),如ChatGPT [2]所示,代表了自然語言理解(NLU)和生成性人工智能(Gen-AI)中的一個重要里程碑。通過在包含數百億參數的大量多樣化網絡來源上進行生成性訓練,LLMs展示了從龐大文本語料庫中概括知識的驚人能力,并以接近人類水平的NLU表現展示對話智能。多模態LLMs(MLLMs),如GPT-4V [3]和Gemini [4]的出現,標志著另一個里程碑,使LLMs能夠感知和理解視覺輸入。我們推測,LLM技術的成功為追求類人人工通用智能(AGI)提供了前所未有的機會:以前認為僅限于人類的認知能力,如推理、規劃和反思,以及自我控制、自我理解和自我改進的程度,現在通過適當提示集成了內置認知智能的LLMs來實現。

我們將基于LLM的智能體(LLMA)定義為一個智能實體,它使用LLMs1作為執行類人決策過程的核心組件 [5]。盡管LLMAs能夠進行類似人類的認知處理,但現有LLMAs與類人AGI之間的區別是顯而易見的:當前的LLMAs依賴于解碼和概括來自預訓練數據的預先存在的知識 [6],而AGI能夠通過在現實世界中的實驗和經驗發現和學習新知識 [7; 8]。受到人類嬰兒智力發展過程的啟發,體現認知假說 [1] 假設智能體的智能源于觀察和與其環境的互動,即,將智能體植入一個集成了物理、社會和語言經驗的世界對于促進有利于發展類人智能的條件至關重要。

數字游戲被認為是培養AI智能體的理想環境,因為它們具有復雜性、多樣性、可控性、安全性和可復制性。從經典的國際象棋和撲克游戲 [9; 10; 11] 到現代視頻游戲如Atari游戲 [12]、星際爭霸II [13]、Minecraft [14] 和DOTA II [15],長期以來一直是推進AI研究的工具。與基于傳統強化學習(RL)的智能體 [10; 16; 17; 18] 不同,這些智能體通過行為級策略學習做出決策,目標是最大化預期獎勵,構建能夠運用認知能力獲得游戲玩法基本洞察力的基于LLM的游戲智能體(LLMGAs)可能更貼近AGI的追求。 先前關于LLMs [19; 20; 21] 或LLMAs [22; 23; 24] 的綜述論文主要關注審查行業和學術研究團隊開發的現有LLMs,以及LLMAs的一般應用,較少關注游戲代理領域。同時期的綜述論文 [25; 26] 顯著強調了游戲開發,并涵蓋了有限數量的LLMGAs出版物。為了彌補這一差距,本文試圖對LLMGAs的最新發展進行全面和系統的綜述。具體而言,本綜述分為三個相輔相成的部分:首先,我們提供了一個統一的參考框架,在其中我們描述了構建LLMGAs所需的基本模塊,涵蓋六個核心功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們介紹了一個將現有文獻分類為六個游戲類別的分類法,包括冒險、競爭、合作、模擬和制作與探索。對于每個類別,我們描述了技術挑戰、支持的游戲環境,以及常用的優化策略。在第三部分和最后一部分,我們設想LLMGAs未來進步的不同方向。

總之,這篇綜述論文作為對LLMGAs文獻的全面回顧,提供了六個游戲類別的分類,以增強理解并促進各種LLMGAs的開發和評估。它旨在促進這一新興研究領域的進步,并激發LLMGAs的研究和開發中的進一步創新。鑒于這是一個新興且蓬勃發展的研究領域,這篇綜述論文將持續更新,以跟蹤最新研究。維護并可訪問的相關文獻精選列表位于

統一的LLMGAs架構

圖1提供了LLMGAs的概念架構,包括六個基本功能組件及其工作流程:對于每個游戲步驟,感知模塊捕獲游戲狀態信息,為智能體理解其當前環境提供必要的數據。思考模塊處理感知到的信息,基于推理、規劃和反思生成思考,以便做出明智的決策。記憶作為一個外部存儲,過去的經驗、知識和精心挑選的技能被保留,并可以為將來使用而檢索。角色扮演模塊使智能體能夠在游戲中模擬特定角色,展示與每個角色的特征和目標一致的可信行為。行動模塊將生成的文本決策轉換為可執行的動作,允許智能體有效地與游戲元素互動和操縱。學習模塊通過在游戲環境中積累的經驗和互動,不斷改善智能體的認知和游戲技能。

付費5元查看完整內容

盡管大型語言模型(LLMs)的表現令人印象深刻,但由于在推理過程中需要大量的計算和內存資源,它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽,強調了近期的發展。通過對LLaMA(/2)-7B的實驗,我們評估了各種壓縮技術,為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察,我們識別了當前的局限性,并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫,以復現本文中呈現的結果。

大型語言模型(LLMs)的出現,特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志,為與語言相關的任務開啟了新的革命,這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型,在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此,它們已成為各種應用中不可或缺的工具,推動了人工智能、信息檢索和人機交互等多個領域的發展。 盡管LLMs的性能無與倫比,但它們廣泛應用受到了巨大的計算和內存需求的阻礙,這在資源受限的環境中部署它們時構成了挑戰。例如,加載一個LLaMa-70B模型需要140GB的VRAM,這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而,當前的改進往往伴隨著模型性能的顯著下降,需要確定新的研究方向來找到解決這一問題的理想解決方案。 最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽,以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而,為了進一步推動研究前沿,朝著LLMs的實際推理改進方向努力,還缺少一項全面的研究。在本綜述論文中,我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法,我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法,包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解,以呈現高效LLMs的有用和實際理解。此外,我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難,并討論了克服這些問題的潛在研究方向。 總的來說,本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述,強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充,系統級修改在加速LLM推理中發揮了重要作用,我們也討論了這些方法。

為了提供一個實踐視角,我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解,我們系統地指出了現有的局限性,并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。

顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容
北京阿比特科技有限公司