秋霞网一区二区三区-午夜日本大胆裸艺术

自從OpenAI開發的強大AI聊天機器人ChatGPT推出以來，大型語言模型（LLMs）在學術界和工業界均取得了顯著進步，為許多領域帶來了根本性的工程范式轉變。雖然LLMs強大，但正確利用其力量也至關重要，其中“提示”扮演著核心角色。然而，蓬勃發展的LLMs本身，包括像ChatGPT這樣的優秀API，也有幾個固有的局限性：1）訓練數據的時間滯后性，以及2）缺乏執行外部動作的物理能力。最近，我們觀察到了使用基于提示的工具來更好地利用LLMs的下游任務的趨勢，但由于這一領域的快速發展，系統性的文獻和標準化術語仍然缺乏。因此，在這項工作中，我們綜述了相關的提示工具，并推廣了“提示框架”（PF）的概念，即用于管理、簡化和促進與大型語言模型交互的框架。我們將PF的生命周期定義為一個分層結構，從下到上依次為**：數據層級、基礎層級、執行層級和服務層級**。我們還系統地描述了新興PF領域的整體格局，并討論了潛在的未來研究和挑戰。為了持續跟蹤這一領域的發展，我們維護了一個存儲庫//github.com/lxx0628/Prompting-Framework-Survey，這可以成為該領域學術界和工業界的有用資源共享平臺。

自從引起廣泛社會關注的ChatGPT發布以來，大型語言模型（LLMs）的研究在學術界和工業界已全面展開，產生了許多令人驚嘆的產品，如PaLM [27]、GPT-4 [82]和LLaMA [108, 109]。這些LLMs在對話、文本翻譯和情感分析[2, 11, 25, 54]等方面顯示出接近甚至超越人類水平的卓越能力，可能會為許多領域帶來根本性的變革[18, 30, 38, 61, 65, 76, 123, 137]。語言模型的發展到目前的繁榮狀態經歷了一系列演變過程：全監督學習 → NLP的深度學習 → “預訓練，微調” → “預訓練，提示，預測”[60, 135]。最初，語言模型（LMs）應用了全監督學習范式，其中特定任務的模型僅在目標任務數據集上訓練，嚴重依賴特征工程[53, 80, 98]。隨后，隨著深度學習的興起，出現了NLP的神經網絡，實現了特征學習和模型訓練的集成，即設計用于自動學習數據特征的網絡架構[7, 8, 29, 72]。后來，隨著LMs的需求增加并適應越來越多的NLP任務，“預訓練，微調”范式被引入。在此范式中，具有固定架構的模型經過預訓練來預測觀察到的文本數據的概率。然后引入額外的參數，并使用特定于任務的目標函數對模型進行微調，以將預訓練的LM適應于各種下游任務[55, 100, 111, 128]。然后是LLMs的時代，趨勢轉向下游任務主動適應預訓練模型。“預訓練，提示，預測”的范式成為主流，提示成功地賦予LLMs輕松應對各種復雜和多樣化任務的能力。通過提供一套合適的提示，一個完全基于上下文預測訓練的單一語言模型可以被用來解決各種任務[13, 95]。因此，提示的質量和適當性在任務解決中越來越起到關鍵作用[51, 120, 136]。學術界和工業界對與提示相關的研究都表現出日益增長的關注和興趣。

眾多研究表明，使用合適的方法發揮LLMs的潛力是必要的[116, 120, 129, 136]。2023年3月，OpenAI正式推出了一個重大創新，稱為ChatGPT插件，它使ChatGPT能夠使用外部工具，反映了增強LLMs與外部世界交互能力的日益增長的需求。當類比于人類時，LLMs可以被視為智能系統的大腦，負責感知指令并生成和控制一系列動作。因此，通過將它們固有的知識和能力與搜索引擎、計算工具、視覺模型等外部工具結合，LLMs可以執行廣泛的現實世界任務，包括實時數據檢索、基于瀏覽器的信息檢索、數據庫訪問、精確的數學計算、復雜的語言生成和圖像分析，從而在教育、醫療保健、社交媒體、金融和自然科學等多個領域展示其潛力[64, 68, 78, 93]。因此，開發促進交互過程優化和簡化的工具變得至關重要。在本文中，我們將這些前瞻性工具統稱為一個新穎的概念：“提示框架”（PF）。

自Harrison Chase于2022年10月發布開源項目LangChain [20]以來，它已在GitHub上吸引了超過60,000名支持者，成為迄今為止最受歡迎的提示框架之一。LangChain是一個通過可組合性構建帶有LLMs的應用程序的框架。除了LangChain外，我們的調查還涵蓋了各種最先進的提示框架，包括1) 可以被認為是LLMs的操作系統的Semantic Kernel [112]、LlamaIndex [59]和OpenDAN [83]，以及2) LLMs的輸出限制器，如Guidance [69]、TypeChat [70]、NeMo-Guardrails [79]，和3) 與LLMs交互的語言，如LMQL [10]、gpt-jargon [14]、SudoLang [40]。在提到提示框架時，由于該領域發展迅速，難以追蹤并了解分布在GitHub、預印本論文、Twitter以及頂級會議/期刊上的眾多方法，這帶來了一個顯著的挑戰。此外，具有不同重點的眾多提示框架方法的豐富性使得系統性地分類和比較它們變得具有挑戰性，阻礙了為特定需求選擇最合適產品的過程。因此，目前缺乏但迫切需要系統性的文獻和標準化術語來介紹和比較這些對于更好利用LLMs能力至關重要的工具。

在這份綜述中，我們介紹了‘提示框架’的概念，并對現有的提示框架進行了全面和系統的調查。我們為它們提供分類、比較分析和評估標準，評估它們的適用性和局限性，并為其有效利用于實際LLM啟用的任務提供實用建議。此外，我們還討論了一些超出提示框架范圍但與提示相關的有用工具包。我們還為未來的研究提出了建議。簡而言之，我們作出了以下主要貢獻：

? 我們介紹了在學術界和工業界引起關注的提示框架概念，并提供了系統化和標準化的定義和術語。 ? 我們將現有的提示框架分為3類，進行了全面的比較，探討了它們在不同維度的優勢和局限性，并提供了實用建議。基于研究發現，我們展示了提示框架的未來方向，并廣泛探索了其在更多領域的潛在發展和挑戰。 ?** 我們進行了廣泛的研究，超出了提示框架的范圍，包括與LLMs的提示和提示框架的任務執行相關的作品和工具**。我們將它們匯集在我們的GitHub存儲庫中，以便研究人員訪問和探索進一步的研究。 文章的其余部分安排如下。

第2部分介紹了提示框架的背景知識，包括LLMs的特性和提示框架的必要性。第3部分描述了調查，包括方法論和結果。第4部分提供了提示框架的系統性定義和分類。第6部分展示了各種提示框架在不同維度上的比較和挑戰。第5部分回顧了與LLMs相關但超出提示框架范圍的基于提示的工作。第7部分展示了提示框架的未來方向以及在更多領域的潛在發展和挑戰。

總述

在本節中，我們提供了對我們調查過程的全面描述。LLMs及相關技術領域目前正在經歷一個前所未有的快速發展階段。因此，相關研究和成就的景觀以其分散的性質為特征。許多貢獻尚未在傳統學術期刊或會議上正式發表。相反，它們通常在像arXiv這樣的平臺上找到，或作為GitHub上可用的開源工具包。一些值得注意的發展主要存在于Twitter、GitHub和Discord等平臺上的在線社區中，缺乏正式文檔。此外，該領域缺乏全面的綜述文獻，導致建立的學術術語和官方定義的稀缺。

我們對提示框架的探索始于對LangChain的深入調研，該框架被認為是該領域最有影響力的框架之一。我們首先深入研究LangChain的官方描述，該描述強調了“通過可組合性用大型語言模型（LLMs）構建應用程序”的概念。我們研究的主要階段旨在建立對這些框架的術語和概念的基礎性理解。我們仔細調研并分析了諸如“框架”、“工具”、“代理”、“大型模型”、“提示”和“工具包”等術語。這些關鍵詞被深思熟慮地選擇，以確保全面的視角，使我們能夠包括廣泛的相關材料和資源。

在我們對全面調研的追求中，我們在不同平臺上進行了多輪關鍵詞搜索。這包括在GitHub等著名存儲庫和arXiv等學術數據庫上進行徹底的搜索。此外，我們擴展了我們的探索范圍，以涵蓋人工智能（AI）和自然語言處理（NLP）領域內的知名會議和期刊。這些額外的搜索確保我們不僅捕捉到最新的發展，而且還能訪問具有重要性的學術和研究導向的材料。在整個研究過程中，我們的重點是識別、收集和分析相關材料。總的來說，我們積累了大量的作品，包括GitHub上可用的49個開源項目和大量的學術論文。這種方法論的方法和對資源的嚴格調研是我們對提示框架研究的基石，促進了全面和全方位的探索。

隨后，我們的調查深入進行了對49項作品的細致和系統性評估。這項全面的評估始于對它們的技術文檔進行詳盡的調研，在此過程中，我們仔細調研了每項作品的概念基礎、功能實現和關鍵代碼段。我們著手進行深入探索，配置并實際使用這些工具進行科學和方法論的分析，評估它們的性能、效率和適用性。具體來說，我們進行了廣泛的測試和研究，包括運行技術文檔中提供的所有測試用例，并手動創建更多詳細的測試用例，以更好地反映現實世界的要求。遵循軟件測試的基本程序，我們首先進行每個框架內各個模塊的單元測試。隨后，我們進行模塊的性能測試，這些模塊根據要求和標準在復雜的應用程序中組裝起來，從而完成集成測試。最后，我們進行全面的系統測試，以驗證和評估這些任務中聲稱的能力，同時也組織與用戶體驗相關的方面。 最后，這種多方位的調研使我們能夠識別每項作品的優點和局限性，為我們提供了對它們的能力和與我們調查的總體目標的相關性的細致理解。經過這種嚴格的評估，我們審慎地選擇了約30項作品，這些作品不僅符合提示框架的概念先決條件，而且在該領域中脫穎而出。這些選定的作品被選入我們的調查中，以確保全面和具有代表性地描繪不斷涌現且不斷發展的提示框架景觀，這在很大程度上塑造了個人與LLMs之間的互動。

付費5元查看完整內容

相關內容

提示框架

關注 0

大型語言模型 · 多模態基礎模型 · 資源高效大型語言模型 ·

2024 年 1 月 17 日

[付費5元查看完整內容]大模型如何高效利用資源？北郵等最新《資源高效大型語言模型和多模態基礎模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型基礎模型，包括大型語言模型（LLMs）、視覺轉換器（ViTs）、擴散以及基于LLM的多模態模型，正在徹底改變整個機器學習生命周期，從訓練到部署。然而，這些模型在多功能性和性能上的顯著進步，卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展，開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性，考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解，涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解，并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能（AI）這一快速發展的領域中，一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作，與開放詞匯和圖像像素進行交互，應對未見的AI任務，即零樣本能力。這些模型的例子包括：（1）大型語言模型（LLMs），如GPTs [39]，能夠以提示的形式處理幾乎所有NLP任務；（2）視覺變換器模型（ViTs），如掩蔽自編碼器 [133]，能夠處理各種下游視覺任務；（3）潛在擴散模型（LDMs），如穩定擴散 [310]，能夠用任意基于文本的提示生成高質量圖像；（4）多模態模型，如CLIP [296]和ImageBind [116]，將不同模態數據映射到同一潛在空間，并廣泛用作跨模態任務（如圖像檢索/搜索和視覺問題回答）的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變，為AI與世界交互設定了新的標準。這些基礎模型的成功深深植根于它們的可擴展性：與前代模型不同，這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展，而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]：它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善；直到今天，這一定律依然成立。這種可擴展性不僅是模型大小的問題；它還擴展到它們處理日益復雜任務的能力，使它們成為走向人工通用智能（AGI）之路的基石。

然而，可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器，如GPU和TPU，還包括內存、能源和網絡帶寬。例如，LLaMa-2-70B的預訓練需要1.7×百萬GPU小時，并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段，數據處理、實驗和推理階段的電力消耗相當甚至更多，據Meta AI [388]稱。最近的一項分析 [77]揭示，為了滿足當前AI能力和采用的持續趨勢，英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家，如新西蘭和奧地利，一整年的用電量，如圖1所示。隨著基礎模型在規模和復雜性上的持續增長，它們的資源需求通常呈指數級增長，這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底，只有少數主要參與者有能力訓練和部署最先進的基礎模型，從而對公眾擁有強大的控制權，有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同，這些模型是在云端而非設備上提供服務的 [403, 440]；這使得數據隱私保護幾乎不可能。盡管最近，智能手機廠商一直在吹噓在本地運行大型基礎模型，一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10]，但展示的模型限于相對較小的規模（例如<10B），且尚未在現實世界中部署。因此，大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法，專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作，探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步，以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍，大型基礎模型在這些領域也獲得了巨大關注。通過這一探索，我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新；我們排除了大量在硬件設計方面的工作，這同樣重要，但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源，包括計算、內存、存儲、帶寬等；我們排除了可以被視為資源的訓練數據（標簽）和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文，即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文，因為AI的創新正在快速進行，舊知識和方法經常被推翻。盡管如此，我們計劃將來擴展本綜述的范圍；我們也將積極維護和更新它。組織。圖2展示了本綜述的組織結構。全開源。本綜述的所有材料都可在以下網址免費獲取： https：github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型（FMs）的核心，包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類，考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器（ViT）的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型（FMs）技術。與傳統的深度神經網絡（DNNs）相比，大型基礎模型表現出新的特征，如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現，這些算法根據基礎模型的生命周期進行分類：預訓練、微調、服務算法以及模型壓縮，如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析，包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計，以實現更高效的大型基礎模型生命周期。未來，這一領域的研究將繼續（甚至更加）重要，因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科，涉及多個計算機科學社區，如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大，尤其值得關注的是：（1）云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能，許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力，將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來，基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。（2）利用模型稀疏性。隨著模型變大，對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現，即使是密集訓練的非MoE模型也表現出運行時激活稀疏性，可以利用這一點來減少推理時間和內存占用。我們認為，利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。（3）大型基礎模型作為一種服務。在云端和設備上，大型基礎模型正在統一DNN生態系統 [427]。最終，它將成為像今天的Web和數據庫一樣的通用服務。一方面，它為高度硬件-算法協同設計和優化提供了機會；同時，它也在系統和基礎設施設計方面提出了新的挑戰，如調度、負載均衡和安全性&隔離。（4）作為整體系統優化的代理。未來，尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務；相反，算法和系統設計需要適應特定的代理工作流。例如，一個代理系統可能需要多個基礎模型協同工作，在這個過程中存在內在的邏輯依賴性。在這個過程中，選擇適合每個任務的適當基礎模型，并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。（5）實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加，隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的，但這些方法仍然面臨顯著的性能挑戰，阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發，或現有方法的改進，以有效地平衡隱私與性能。（6）理解擴展定律。擴展定律推動了大型FMs的成功，同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋（并希望打破）這一限制。同時，設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

大模型安全性 · 大語言模型 · 大型語言模型 ·

2024 年 1 月 17 日

[付費5元查看完整內容]大模型如何應對安全性？清華等最新《大型語言模型系統的風險分類、緩解措施及評估基準》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在解決多樣的自然語言處理任務方面具有強大的能力。然而，LLM系統的安全性和安全問題已成為其廣泛應用的主要障礙。許多研究廣泛調查了LLM系統中的風險，并開發了相應的緩解策略。像OpenAI、谷歌、Meta和Anthropic這樣的領先企業也在負責任的LLM上做了大量努力。因此，組織現有研究并為社區建立全面的分類體系的需求日益增長。在本文中，我們深入研究了LLM系統的四個基本模塊，包括用于接收提示（prompt）的輸入模塊、在廣泛語料庫上訓練的語言模型、用于開發和部署的工具鏈模塊，以及用于輸出LLM生成內容的輸出模塊。基于此，我們提出了一個全面的分類體系，系統地分析了與LLM系統每個模塊相關的潛在風險，并討論了相應的緩解策略。此外，我們回顧了流行的基準，旨在促進LLM系統風險評估。我們希望本文能幫助LLM參與者以系統的視角構建他們負責任的LLM系統。

//www.zhuanzhi.ai/paper/327b8030016bf5ebb68cfd832fc22a16

大型語言模型（LLMs）[1]-[5]，擁有大量在廣泛語料庫上預訓練的模型參數，已在自然語言處理（NLP）領域引發了一場革命。模型參數的規模擴大和預訓練語料庫的擴展，賦予了LLMs在各種任務上的顯著能力，包括文本生成[2]、[4]、[5]，編碼[2]、[6]，以及知識推理[7]-[10]。此外，提出了對齊技術（例如，監督微調和基于人類反饋的強化學習[4]、[11]），以鼓勵LLMs與人類偏好保持一致，從而提高LLMs的可用性。在實踐中，像ChatGPT [12]這樣的先進LLM系統已經在全球范圍內獲得了用戶群，成為復雜NLP任務的競爭性解決方案。

盡管LLM系統取得了巨大的成功，但它們有時可能違反人類的價值觀和偏好，從而引發了對基于LLM應用的安全性和安全問題的擔憂。例如，由于Redis客戶端開源庫的漏洞，ChatGPT泄露了用戶的聊天歷史[13]。此外，精心設計的對抗性提示（prompt）可能會引發LLMs產生有害的回應[14]。即使沒有對抗性攻擊，當前的LLMs仍可能生成不真實的、有害的、有偏見的，甚至是非法的內容[15]-[19]。這些不良內容可能被濫用，導致不利的社會影響。因此，大量研究工作致力于緩解這些問題[15]-[18]。像OpenAI、谷歌、Meta和Anthropic這樣的領先機構也在負責任的LLMs上做了大量努力，優先發展有益的人工智能[20]-[23]。

為了減輕LLMs的風險，迫切需要開發一種全面的分類體系，列舉構建和部署LLM系統時固有的所有潛在風險。這種分類體系旨在作為評估和提高LLM系統可靠性的指導。目前，大多數現有努力[15]-[18]基于對輸出內容的評估和分析，提出了自己的風險分類。一般來說，一個LLM系統由各種關鍵模塊組成——一個用于接收提示（prompt）的輸入模塊，一個在大量數據集上訓練的語言模型，一個用于開發和部署的工具鏈模塊，以及一個用于輸出LLM生成內容的輸出模塊。據我們所知，目前提出的針對LLM系統各個模塊的風險分類較少。因此，本工作旨在彌補這一差距，鼓勵LLM參與者：1）理解與LLM系統每個模塊相關的安全性和安全問題；2）采用系統的視角構建更負責任的LLM系統。

為了實現這一目標，我們提出了一種面向模塊的分類體系，對LLM系統每個模塊的風險及其緩解策略進行分類。對于特定的風險，面向模塊的分類體系可以幫助快速定位需要關注的模塊，從而幫助工程師和開發者確定有效的緩解策略。如圖1所示，我們提供了LLM系統內部隱私泄露的一個例子。使用我們的面向模塊的分類體系，我們可以將隱私泄露問題歸因于輸入模塊、語言模型模塊和工具鏈模塊。因此，開發人員可以通過對抗提示（adversarial prompts）、實施隱私訓練和糾正工具中的漏洞來減輕隱私泄露的風險。除了總結LLM系統的潛在風險及其緩解方法外，本文還回顧了廣泛采用的風險評估基準，并討論了流行LLM系統的安全性和安全問題。

總結本文的主要貢獻如下：

我們對LLM系統的每個模塊相關的風險和緩解方法進行了全面的綜述（survey），并回顧了評估LLM系統安全性和安全性的基準。

我們提出了一個面向模塊的分類體系，將潛在風險歸因于LLM系統的特定模塊。這種分類體系幫助開發者更深入地理解可能風險的根本原因，從而促進有益LLM系統的開發。

我們的分類體系從更系統的角度覆蓋了比以往分類更廣泛的LLM風險范圍。值得注意的是，我們考慮了與工具鏈密切相關的安全問題，這在以前的綜述中很少討論。

LLM模塊。一個LLM系統涉及一系列數據、算法和工具，可以劃分為LLM系統的不同模塊。在這篇綜述中，我們討論了最主要的模塊，包括用于接收提示的輸入模塊、在大量數據集上訓練的語言模型、用于開發和部署的工具鏈模塊，以及用于輸出LLM生成內容的輸出模塊。

圖2展示了上述模塊之間的關系。

輸入模塊。輸入模塊實現了輸入保護功能，用于接收和預處理輸入提示。具體來說，這個模塊通常包含一個等待用戶輸入請求的接收器和基于算法的策略來過濾或限制請求。

語言模型模塊。語言模型是整個LLM系統的基礎。本質上，這個模塊涉及到大量的訓練數據和使用這些數據訓練的最新語言模型。

工具鏈模塊。工具鏈模塊包含了LLM系統開發和部署所使用的實用工具。具體來說，這個模塊涉及到軟件開發工具、硬件平臺和外部工具。

輸出模塊。輸出模塊返回LLM系統的最終響應。通常，該模塊配備了輸出保護功能，以修正LLM生成的內容，使其符合倫理正當性和合理性。

隨著LLM（大型語言模型）的日益普及，與LLM系統相關的風險也越來越受到關注。在本節中，我們將這些風險按照LLM系統的不同模塊進行分類。圖3展示了我們在這篇綜述中調查的風險概覽。

在這項工作中，我們對LLM系統的安全性和安全問題進行了廣泛的綜述，旨在激勵LLM參與者在構建負責任的LLM系統時采用系統性的視角。為了促進這一點，我們提出了一個面向模塊的風險分類體系，用于組織LLM系統每個模塊相關的安全性和安全風險。通過這個分類體系，LLM參與者可以快速識別與特定問題相關的模塊，并選擇合適的緩解策略來減輕問題。我們希望這項工作能夠服務于學術界和工業界，為負責任的LLM系統的未來發展提供指導。

付費5元查看完整內容

知識編輯 · 大型語言模型 ·

2024 年 1 月 3 日

[付費5元查看完整內容]如何編輯大模型中的知識？浙大等最新《大型語言模型知識編輯》全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而，它們的一個主要局限性在于訓練過程中顯著的計算需求，這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇，需要頻繁更新LLMs以糾正過時的信息或整合新知識，從而確保它們的持續相關性。值得注意的是，許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法，人們越來越感興趣。為此，近年來知識編輯技術在LLMs領域蓬勃發展，旨在有效地修改LLMs在特定領域內的行為，同時保持對各種輸入的整體性能。在本文中，我們首先定義了知識編輯問題，然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感，我們提出了一個統一的分類標準，將知識編輯方法分為三組：依賴外部知識、將知識融入模型和編輯內在知識。此外，我們引入了一個新的基準測試，KnowEdit，用于對代表性知識編輯方法進行全面的實證評估。另外，我們提供了對知識位置的深入分析，這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想，我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究，我們發布了一個開源框架，EasyEdit1，將使從業者能夠高效靈活地實施LLMs的知識編輯。最后，我們討論了知識編輯的幾個潛在應用，并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則，從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中，我們人類不斷積累了豐富的知識財富，并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索，一直吸引著科學家們，這不僅是一項技術追求，還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來，大型語言模型（LLM）如GPT-4[13]在自然語言處理（NLP）方面展現出了卓越的能力，可以保留大量知識，可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34]，潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型，實質上創建了一種“世界模型”[35-37]。例如，戴等人[38]提出了知識神經元（KN）論，提出語言模型的功能類似于鍵值記憶。在這里，核心區域的多層感知器（MLP）權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用，暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力，李等人[42]已經證明，針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態，并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58]，不僅存儲大量信息，還以可能反映人類認知過程的方式進行結構化。然而，LLMs存在一些限制，如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題，近年來見證了為LLMs專門定制的知識編輯技術的發展潮，這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整，而不會影響整體性能，并有助于了解LLMs如何表示和處理信息，這對于確保人工智能（AI）應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制（§2.1）以及相關技術，包括參數有效微調、知識增強、繼續學習和機器遺忘（§2.2）。然后，我們介紹了初步內容（§3.1），正式描述了知識編輯問題（§3.2），并提出了一個新的分類法（§3.3），以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言，我們將LLMs的知識編輯分類為：使用外部知識（§3.3.1）、將知識融入模型（§3.3.2）和編輯內在知識（§3.3.3）的方法。我們的分類標準總結如下：

? 使用外部知識。這種方法類似于人類認知過程中的識別階段，需要在相關上下文中暴露給新知識，就像人們首次接觸新信息一樣。例如，提供說明模型的事實更新的句子，以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段，在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中，通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗，涉及了12個自然語言處理（NLP）數據集。這些數據集經過精心設計，用于評估性能（§4）、可用性和底層機制，同時進行了深入的分析（§5），等等其他方面。我們研究的關鍵見解總結如下：

? 性能。我們構建了一個名為KnowEdit的新基準，并報告了針對LLMs的最新知識編輯方法的實證結果，提供了公平比較，展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響，這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中，存在一個或多個列的明顯關注點在值層中。此外，我們發現知識定位過程（例如，因果分析）傾向于僅針對與所討論實體相關的區域，而不是整個事實背景，這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外，我們深入探討了知識編輯對LLMs可能導致意外后果的可能性，這是一個需要仔細考慮的方面。

最后，我們深入探討了知識編輯的多方面應用，從各種角度（§6）考察其潛力，包括高效的機器學習、人工智能生成內容（AIGC）、可信人工智能和人機交互（個性化代理）。此外，我們的討論還涵蓋了知識編輯技術的更廣泛影響，特別關注能源消耗和可解釋性等方面（§7）。這篇論文旨在成為LLMs領域進一步研究的催化劑，強調效率和創新。為了支持和鼓勵未來的研究，我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容通過對各種數據集的大量訓練，LLMs積累了豐富的事實和常識信息，使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用，如許多研究所證明的那樣[142]。此外，王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力，無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力，但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息，還應允許進行高效和有針對性的更新，以糾正這些錯誤并提高其準確性。認識到這一差距，我們的論文引入了知識編輯的概念，旨在實現對LLMs的快速和精確修改，使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯，我們旨在提高LLMs的效用，使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷，并釋放它們作為動態和準確知識庫的全部潛力，以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k，以提高LLM的一致性和性能，而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型，例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性，因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段，其能力與人類的認知過程非常相似，特別是在學習和獲取知識方面。從人類學習過程中汲取靈感，我們可以類比地將這些概念應用到LLMs的編輯過程中，正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段：識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架，我們在表2中列出了它們。

? 識別階段：在識別階段，模型需要在相關背景下接觸新知識，就像人們首次遇到新信息一樣(§3.3.1)。例如，提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段：在關聯階段，新知識與模型中現有知識之間建立聯系(§3.3.2)，類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段：掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3)，類似于人類的深層掌握。這種方法直接改變了模型的權重?W，模型可以處理問題，無需任何外部幫助或合并。

實驗結果

主要來說，SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法，且可移植性相對較好，因為新的反事實模型可以有效地學習編輯后的知識。與此同時，在不改變原始模型參數的情況下，SERAC除了ZsRE之外，在局部性能方面表現良好。然而，由于反事實模型通常比原始模型小，其生成能力不是很強，在WikiDatacounterfact、ZsRE和Convsent等任務中，我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時，在ICE任務中，我們可以發現編輯成功率并不太好，這可能歸因于知識沖突問題。同時，IKE提出將演示文稿連接在一起作為提示，但它們需要較長的輸入長度，并限制了模型進行下游任務。對于修改模型參數的方法，我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好，表現出良好的局部性和流暢性。然而，對于ROME和MEMIT，盡管編輯成功率更好，但它們的局部性不如MEND和其他類型的編輯方法。同時，它的可移植性令人不滿。對于局部微調方法FT-L，其編輯成功率不如ROME或MEMIT，但局部性和可移植性更好。此外，似乎FT-L在處理插入任務時更好，因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務，當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務，我們可以發現當前方法不能很好地改變模型的情感，因為編輯成功率低于65%。SERAC，它可以完美地處理小型LMs [145]，在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現，MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation，旨在從LLMs中刪除知識，我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識，因為它的準確率達到了90%。但是，它會破壞模型對無關知識的性能，因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果，如我們在圖3中的先前評估部分中討論的那樣。在這里，我們可以發現MEND在推理集下表現更好，而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型 · 長上下文 · Transformer ·

2023 年 11 月 22 日

[付費5元查看完整內容]大模型長上下文核心技術是什么？南大等《長上下文大型語言模型中的Transformer架構》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著ChatGPT的成功普及，基于Transformer的大型語言模型（LLMs）為通往人工通用智能（AGI）鋪平了一條革命性的道路，并已在諸多領域中得到應用，比如作為知識庫、人機界面和動態代理。然而，一個普遍的限制存在：許多當前的LLMs，由于資源的限制，主要是在較短的文本上進行預訓練的，這使得它們在處理更長上下文的提示時效果不佳，而這種情況在現實世界中是常見的。在本文中，我們提供了一份綜述，專注于基于Transformer的LLMs模型架構的進步，以優化從預訓練到推理的所有階段的長上下文處理能力。首先，我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后，我們主要提供了一個全面的分類，以解決這些問題的Transformer升級架構的領域。之后，我們提供了對長上下文LLMs廣泛使用的評估必需品的調查，包括數據集、度量標準和基線模型，以及一些驚人的優化工具包，如庫、系統和編譯器，以提高LLMs在不同階段的效率和效果。最后，我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外，我們建立了一個存儲庫，在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來，借助深度學習技術[93]，特別是基于Transformer的模型（如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137]）的興起，自然語言處理（NLP）已經取得了顯著進步，使機器能夠理解和生成人類語言[170, 98]，從而在自然語言理解（NLU）的眾多任務中引起了革命，例如情感分析[206]，自然語言生成（NLG）如文檔摘要[51]，以及其他領域如計算機視覺[81]和自動駕駛[67]。此外，在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下，基于Transformer的大型語言模型（LLMs），其規模擴大到1B～100B參數以激發新能力[183]，已顯示出通向人工通用智能（AGI）[18]的新興路線，并迅速被應用于眾多人機交互應用中，如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型，它結合了許多偉大的先前設計[8, 65, 7]，并包含多種新穎的組件，最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上，采用其全部或部分模塊[45, 134, 137]。在這些組件中，基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功，該機制捕獲整個輸入中每對標記之間的全局依賴性，使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能，但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸，這不僅限制了訓練期間允許的輸入文本長度，而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗，也限制了提示的有效上下文窗口。對于推理來說更糟糕的是，當LLMs面對比訓練中的序列更長的序列時，也會因為輸入長度的普遍化機制設計不良而性能下降。

然而，隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心，對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此，研究人員投入了大量努力來增強Transformer架構，以解決LLMs中的長上下文問題，包括對注意力效率的優化（第3節）、通過額外內存機制擴展上下文窗口（第4節）、通過外推位置嵌入實現有效的長度泛化（第5節）、上下文預/后處理（第6節），以及其他雜項方法（第7節），如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型（LLMs）領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域，其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中，有的提供了關于長文檔摘要的概述，但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰，討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究，介紹了長文本建模和Transformer應用的方法，涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而，目前還缺乏全面的研究來回顧文獻，探索從操作角度改進Transformer架構，以打破上下文長度的限制，實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括：

建立了一個全面的分類法，將Transformer架構分解為五部分，并探討在每個階段（包括預訓練、微調、推理和預/后處理）增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求，包括數據集、度量標準和特別評估LLMs長上下文能力的基線，以及一些流行的優化工具包，以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰，并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展，構建了一個收集該特定領域相關文獻的倉庫，并將持續更新，幫助讀者跟上最新進展。

綜述的組織結構如下：第2節概述了長上下文LLMs，包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分（第3、4、5、6、7節）主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件，并收集了一些流行的優化工具包，以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇，并從現有突破中得出洞見。最后，第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中，我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹（見圖1 (a)）。隨后，我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析（見2.2節）。最后，我們提出了一個全面的方法學分類（見2.3節），旨在通過架構創新提高LLMs的長上下文處理能力（見圖1 (b)）。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制，有多種途徑可以探索，以提升變換器(Transformer)結構，賦予大型語言模型(LLMs)更強的長上下文處理能力。例如，通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力，正如[129]所概述的那樣，模型在短序列上進行訓練，但在推理時測試更長的序列。因此，在本文中，我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧，并將它們組織成統一的分類法，如圖1 (b)所示。具體來說，這些方法被分為以下五個主要類別： ? 高效注意力（第3節）：這些方法側重于實施計算需求降低的高效注意力機制，甚至實現線性復雜性。通過這樣做，它們在預訓練階段直接增加了Lmax，從而擴展了LLMs在推理期間有效上下文長度邊界。第一類方法致力于優化注意力機制，特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作（見公式4）。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax，使大型語言模型（LLMs）的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略，每種都有特定的焦點：局部注意力（第3.1節）、分層注意力（第3.2節）、稀疏注意力（第3.3節）、近似注意力（第3.4節）和IO-感知注意力（第3.5節）。

? 長期記憶（第4節）：為了解決上下文工作記憶的限制，一些方法旨在設計明確的記憶機制，以彌補LLMs中高效和有效的長期記憶的缺乏。由于在上下文工作記憶中的作用，Transformer架構通常難以捕捉長期依賴性，正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰，同時不損害全注意力的優勢。首先，受到RNNs的啟發，一些研究者將遞歸機制引入到注意力中，通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息，彌補了內建長期記憶的固有缺乏。其次，另一種方法涉及利用現有模型作為外部知識庫的接口，如特定文檔或數據集。在推理過程中，模型可以從這些知識庫中讀取信息以豐富其上下文輸入，并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識，模型獲得了訪問更廣泛上下文的能力，從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼（第5節）：最近的努力旨在通過改進現有位置編碼方案的外推性能力，提高LLMs的長度泛化能力。認識到需要將推理長度的邊界推向超出Lmax的范圍，研究社區在這方面做出了顯著努力。值得注意的是，根據[5]，他們已經確定，在偶數任務的長度泛化中失敗的主要原因是分心因素。然而，通過像scratchpad提示[120]這樣的方法，這些問題可以被大幅度減輕。盡管如此，在本節中，我們的重點仍然在于當前位置編碼（PEs）在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理（第6節）：除了提升特定低級變換器模塊的方法外，一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求，并通過引入多次調用開銷來打破上下文窗口限制。早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計，包括高效的注意力核心（第3節）、長期記憶機制（第4節）和外推性位置編碼（PEs）（第5節）。相比之下，還存在一些更簡單、更直接的方法，將預訓練的大型語言模型（LLMs）視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰，確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力，但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題，盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他（第7節）：這一部分探索了各種不完全符合前四個類別的通用且有價值的方法，為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中，我們全面地導航了基于Transformer的大型語言模型（LLMs）的架構進步領域，以增強在各個發展階段處理廣泛上下文窗口的能力，采用了一個全面的分類法，將這些針對Transformer中不同模塊設計的方法論進行分類。然后，我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包，用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外，我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展，我們真誠地希望我們的綜述能成為研究人員的寶貴資源，幫助他們利用LLMs的力量構建強大的長上下文LLMs，最終推動走向通用人工智能（AGI）時代的追求。

付費5元查看完整內容

大型語言模型 · 幻覺 · 基礎模型 · 大模型幻覺 ·

2023 年 11 月 12 日

[付費5元查看完整內容]大模型幻覺如何克服？哈工大等最新《大型語言模型中的幻覺現象》綜述，詳述原理、分類、挑戰與未解之謎

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）的出現標志著自然語言處理（NLP）領域的一次重大突破，帶來了在文本理解和生成方面的顯著進步。然而，與這些進步同時，LLMs表現出一種關鍵的傾向：產生幻覺，導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰，并引發了對LLMs在現實世界場景中可靠性的關注，這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中，我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類，然后深入探討導致幻覺的因素。隨后，我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外，相應地介紹了旨在減輕幻覺的代表性方法。最后，我們分析了凸顯當前限制的挑戰，并提出了開放性問題，旨在勾勒出LLMs中幻覺未來研究的路徑。

最近，大型語言模型（LLMs）（OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b）的出現引領了自然語言處理（NLP）領域的范式轉變，實現了在語言理解（Hendrycks et al., 2021; Huang et al., 2023c）、生成（Zhang et al., 2023f; Zhu et al., 2023b）和推理（Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023）方面前所未有的進步。然而，隨著LLMs的快速發展，出現了一個令人關注的趨勢，即它們傾向于產生幻覺（Bang et al., 2023; Guerreiro et al., 2023b），導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究（Ji et al., 2023a）一致，將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺，取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成（NLG）任務中是共享的，但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能（Bubeck et al., 2023; Bang et al., 2023），尤其是在開放域應用中，它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中，幻覺的范圍包括了更廣泛和更全面的概念，主要集中在事實錯誤上。鑒于LLM時代的演進，有必要調整現有的幻覺分類，增強其適用性和適應性。

在這篇綜述中，我們重新定義了幻覺的分類，為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類：事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異，通常表現為事實上的不一致或捏造。例如，如圖1(a)所示，當詢問第一個登月的人時，模型可能斷言是查爾斯·林德伯格在1951年。而事實上，第一個登月的人是尼爾·阿姆斯特朗，在1969年的阿波羅11號任務中。另一方面，忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離，以及生成內容內的自我一致性。如圖1(b)所示，當要求總結一篇新聞文章時，模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性，我們進一步根據可驗證來源的存在將其劃分為兩個子類別：事實不一致和事實捏造。對于忠實性，我們強調從用戶的角度解決不一致性，將其分類為指令不一致、上下文不一致和邏輯不一致，從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因，雖然在NLG任務的背景下進行了研究，但在尖端LLMs中呈現出獨特的挑戰，值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源，涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內，我們指出了潛在的數據相關原因，如有缺陷的來源和次優的利用，低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺，以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外，我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法，以及與LLM幻覺相關的詳盡基準概覽，作為適當的測試平臺，以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外，我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述，我們旨在為LLMs領域的發展做出貢獻，并提供有價值的見解，加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解，還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長，LLM幻覺作為一個主要挑戰脫穎而出，導致了許多關于其最新進展的綜述（Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c）。雖然這些作品從不同角度探討了LLM幻覺，并提供了有價值的見解，但區分我們當前綜述的獨特方面和全面性是至關重要的。（Ji et al., 2023a）主要闡明了預訓練語言模型在NLG任務領域中的幻覺，將LLMs排除在他們的討論范圍之外。（Liu et al., 2023h）從更廣闊的視角討論了LLMs的可信度，而（Wang et al., 2023c）深入探討了LLM事實性。相比之下，我們的綜述聚焦于LLM可信度中的一系列挑戰，涵蓋事實性方面，并進一步擴展了話語范圍，包括與忠實性相關的幻覺。據我們所知，與我們的綜述最為一致的是（Zhang et al., 2023g），它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此，我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上，我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是，我們的減輕策略與潛在原因密切相關，確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中，我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架（§2）。隨后，我們深入分析了導致LLMs中幻覺的因素（§3），接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查（§4）。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法（§5）。最后，我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題，提供見解并勾勒出未來研究的潛在路徑（§6）。

幻覺的原因

幻覺有多方面的起源，涵蓋了大型語言模型（LLMs）能力獲取過程的整個光譜。在這一部分，我們將深入探討LLMs中幻覺的根本原因，主要分為三個關鍵方面：數據（§3.1）、訓練（§3.2）和推理（§3.3）。

數據引起的幻覺

預訓練數據是LLMs的基石，使它們獲得一般能力和事實知識（周等，2023a）。然而，它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面：源自有缺陷數據源的潛在風險（§3.1.1），以及對數據中捕獲的事實知識的劣質利用（§3.1.2）。

訓練引起的幻覺

大型語言模型（LLMs）的訓練過程主要包括兩個主要階段：1）預訓練階段，LLMs在此階段學習通用表示并捕獲世界知識；2）對齊階段，LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力，但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而，解碼策略中的某些不足可能導致LLM幻覺。在本節中，我們將深入探討根源于解碼過程的潛在原因，強調兩個關鍵因素：解碼策略的固有隨機性（§3.3.1）和不完美的解碼表示（§3.3.2）。

幻覺緩解

在本節中，我們提供了針對緩解大型語言模型（LLMs）中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”（§3）中討論的見解，我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說，我們關注解決與數據相關的幻覺（§5.1）、與訓練相關的幻覺（§5.2）和與推理相關的幻覺（§5.3）的方法，每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現，這些都根本上植根于訓練數據中。在這個背景下，我們探索了緩解此類幻覺的各種策略，旨在盡量減少錯誤信息和偏見的發生，同時也提供知識增強和提高大型語言模型（LLMs）有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型（LLMs）所采用的架構和訓練策略的內在局限性。在這一背景下，我們討論了從訓練階段（§5.2.1）到對齊階段（§5.2.2）的各種優化方法，旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型（LLMs）中，解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而，如第§3.3節分析所述，不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中，我們探索兩種先進策略，旨在改進解碼策略，以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中，我們對大型語言模型中的幻覺進行了深入的研究，探討了它們背后的復雜原因、開創性的檢測方法以及相關基準，以及有效的緩解策略。盡管已經取得了重大進步，但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題，需要持續的研究。此外，我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀，我們希望能賦予這些專業人士寶貴的洞見，推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

知識編輯 · 大型語言模型 · 知識更新 ·

2023 年 10 月 26 日

[付費5元查看完整內容]大模型如何做知識編輯？弗吉尼亞大學最新《大型語言模型的知識編輯》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（LLMs）因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力，已經重塑了學術和工業領域。盡管如此，LLMs的一個主要缺點是由于其前所未有的參數量，其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時，這一缺點會被放大。因此，開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而，重新訓練LLMs可能在計算上很密集，并且面臨退化與模型更新無關的寶貴預訓練知識。最近，基于知識的模型編輯（KME）受到了越來越多的關注，其目的是精確修改LLMs以納入特定的知識，而不負面影響其他無關的知識。在這次綜述中，我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式，以涵蓋不同的KME策略。之后，我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類，并研究現有的KME策略，同時分析每個類別的方法的關鍵見解、優點和局限性。此外，相應地介紹了KME的代表性指標、數據集和應用。最后，我們對KME的實用性和剩余挑戰進行了深入的分析，并建議在這一領域進一步發展的有前景的研究方向。

近期，大型語言模型（LLMs）已成為一個熱門話題，徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練，獲得了大量的事實知識和推理能力，LLMs展示了對文本信息的前所未有的理解，能夠像人類專家一樣分析和生成文本。然而，LLMs的一個主要缺點是由于參數數量龐大，訓練過程的計算開銷極高。隨著世界的不斷進化，經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求，這使得該問題進一步加劇[124]。例如，在圖1中，一個過時的LLM無法準確描述Lionel Messi的最新成就，這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型（LLMs）的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116]，在此，預訓練LLMs的參數直接被優化，以從新數據中編碼新知識[5, 72, 80, 122]。例如，提出了各種基于指令調整的方法，以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用，并且能夠將新知識注入到LLMs中，但它們因以下缺點而聞名：(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120]，微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據，尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是，微調LLMs會不受約束地改變預訓練的權重，這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點，更多的注意力已被賦予基于知識的模型編輯(KME)，也被稱為知識編輯。一般來說，KME旨在精確修改預訓練LLMs的行為，以更新特定的知識，而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中，LLMs中特定知識的更新通常被制定為一個編輯，例如將“誰是美國總統？”的答案從“特朗普”更正為“拜登”。關于特定的編輯，KME策略通常通過引入輔助網絡（或一組參數）到預訓練模型[41, 63, 124]，或更新（部分）參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略，KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新，從而精確地將知識注入模型。此外，某些方法還引入明確的損失以包含更新過程，從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢，KME技術可以提供一種高效且有效的方法，不斷地用新知識更新LLMs，而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處，但它在更新LLMs方面具有獨特的優勢，值得深入研究。特別是，KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而，除了這一共同目標外，KME更加關注兩個關鍵屬性，這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如，當有關美國總統的編輯得到更新時，編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力，這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說，它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如，當模型關于總統的部分被編輯時，對總統配偶的查詢的答案也應相應地改變。在實踐中，確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之，由于這兩個獨特的目標，KME仍然是一個具有挑戰性的任務，需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別：已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此，仍然缺乏徹底的綜述，可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如，最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而，KME的獨特性，即局部性和普遍性，并沒有得到充分的討論，這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是，他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能，而沒有解決基于特定知識的編輯任務。據我們所知，與我們的綜述最相關的論文是[119]，它提供了KME的簡要概述，并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此，這項綜述缺乏對KME的更多細節，例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現，而對不同策略的技術細節的重視較少。最近，一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性，而它相對較短，缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展，我們認為有必要回顧所有代表性KME方法的細節，總結共同點，同時討論每種方法的獨特性，并討論KME領域的開放挑戰和前瞻性方向，這將促進該領域的進一步發展。

本次綜述的貢獻：本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述，以及一個創新的公式化。特別是，我們將一般的KME任務公式化為一個受限制的優化問題，同時結合了準確性、局部性和普遍性的目標。然后，我們將現有的KME策略分類為三個主要類別，即外部記憶、全局優化和局部修改。重要的是，我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題，其中的特性基于一般的公式化理論總結。此外，我們提供了關于每個類別中方法的有效性和可行性的有價值的見解，這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之，我們的主要貢獻可以總結為以下三個方面：

?** 新的分類法**：我們引入了一個全面和結構化的分類框架，系統地總結了LLM編輯的現有工作。具體來說，基于如何將新知識引入預訓練的LLMs，我們的分類包括三個不同的類別：外部記憶、全局優化和局部修改，其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析：我們將LLM編輯任務公式化為一個受約束的優化問題，其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外，我們強調了每個類別的主要見解、優點和局限性。在這個背景下，我們深入研究了每個類別的代表性方法，并系統地分析了它們之間的聯系。 ? 未來方向：我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰，并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式，可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結，這對于公正地比較各種方法至關重要。在深入探討具體方法之前，我們在第5.1節為現有方法提供了一個全面的分類，其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法，其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后，我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現，各種KME方法已經被提議來更新預先訓練的LLMs，以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs，而不會負面影響與編輯無關的預訓練知識。在這份調查中，我們將現有的KME方法分為以下三個主要類別：

? 基于外部記憶的方法利用外部存儲器來存儲新的知識，以進行編輯，而不修改預訓練的權重，其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識，基于記憶的策略能夠準確地表示新知識，并具有良好的可伸縮性，因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**，其中引入了定制策略來限制其他預訓練知識的影響，與簡單的微調區分開來。然而，由于需要優化的參數數量眾多，這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數，并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分，從而與基于記憶的方法相比提供了相當的內存效率，并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置（例如，外部參數或內部權重）和方式（例如，通過優化或直接合并）進行的。具體而言，每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如，當計算資源有限而需要大量編輯時，外部記憶在場景中占優勢，因為記憶的大小可以控制以適應不同的要求。另一方面，當實踐者更關注編輯知識的普遍性時，全局優化是有利的，因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明，并在表2中總結了所有方法的具體特點。

在這次綜述中，我們對知識為基礎的模型編輯（KME）技術進行了全面而深入的調研，以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標，該目標同時確保編輯的準確性和保留，這適用于包括不同KME策略。接著，我們提供了KME的評估指標概述，這有助于了解編輯模型的理想屬性。隨后，我們提出了一個結構化的分類框架，以系統地分類現有的KME技術。在每個類別中，我們概述了核心挑戰，詳細說明了代表性方法，并討論了它們的優勢和劣勢。此外，我們總結了廣泛用于評估KME技術的數據集，強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現，我們還強調了KME技術的實際應用。最后，我們確定了未來研究的幾個潛在挑戰，并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

大模型 · 可信賴大模型 · 字節跳動 · 可靠性 · 安全性 ·

2023 年 8 月 12 日

[付費5元查看完整內容]大模型如何可信？字節跳動李航等最新《可信賴的大型語言模型》綜述，提出可信大模型七大維度，81頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

確保對齊，也就是使模型按照人類的意圖行事[1, 2]，已經成為在實際應用中部署大型語言模型（LLMs）之前的關鍵任務。例如，OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而，實踐者面臨的一個主要挑戰是缺乏明確的指導方針，以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。

為了解決這個問題，本文提出了一個全面的調查，探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別：可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別，總共有29個子類別。此外，選擇了8個子類別進行進一步研究，在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明，總的來說，對齊度更高的模型在整體可信度方面表現得更好。然而，對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。

通過闡明LLM可信度的這些關鍵維度，本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。

//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f

自然語言處理（NLP）的格局隨著大型語言模型（LLMs）的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大，通常達到數十億，且在大量的數據語料庫上進行訓練[4]。近年來，LLMs的影響確實是革命性的，它們徹底改變了學術研究和各種工業應用。值得注意的是，OpenAI開發的LLMs，包括ChatGPT [5, 6]，取得了卓越的成功，其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型（LLMs）變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。

在過去，早期版本的LLMs，如GPT-3 [8]，能夠生成有意義和信息豐富的文本。但是，它們存在許多問題，嚴重影響了它們的可靠性和安全性。例如，這些模型容易生成事實上不正確的文本，包含有錯覺。此外，生成的內容經常展現出偏見，進一步加強刻板印象和社會偏見。而且，LLMs傾向于生成社會上破壞性的內容，包括有毒的語言，這對它們的可靠性和實用性產生了不良影響。此外，它們容易被誤用，導致產生有害的宣傳，這對它們負責任的部署帶來了重大關切。此外，人們發現LLMs容易受到對抗性攻擊，如提示攻擊，進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響，尤其是當它們對公眾開放時。為了應對這些挑戰，研究人員和開發人員一直在努力改進對齊技術，使LLMs變得更可靠、更安全，并與人類價值觀更為一致。通過減輕這些問題，可以充分利用LLMs的潛在好處，同時將誤用的風險降到最低。

觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督，這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素，包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15]，有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs，結果，LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外，單純地優化訓練和生成文本的目標函數，而不考慮人類價值觀，也是另一個原因。需要注意的是，確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰，研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟，確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。

后者達到了令人印象深刻的里程碑，在發布僅兩個月內吸引了1億用戶，使其成為歷史上增長最快的平臺。這一成就并不令人驚訝，因為對齊不僅減少了LLMs生成有害輸出的可能性，而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術，LLMs變得更加可靠、安全，并與人類價值觀更加和諧，從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路，釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。

然而，盡管對齊是LLMs受歡迎的核心技術，但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰，目前沒有明確和有原則的指導可供參考。特別地，缺乏既定和統一的討論，涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素，其中一個值得注意的一般指導原則是“HHH" 原則[20]，主張對齊應該是有幫助的、誠實的和無害的。此外，[21]中提出了一個與構建LLMs相關的風險分類，包括六個風險：(1) 歧視、排斥和有毒性，(2) 信息危害，(3) 虛假信息危害，(4) 惡意使用，(5) 人機交互危害，以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋，但它可以進一步解開每一個維度。

此外，像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查，包括文本、圖像、視頻和音頻等各種類型。然而，我們的重點特別是在語言模型上，探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外，[23]以全面的方式評估了LLMs，包括一些值得信賴的類別，但它并沒有單獨解決可信性和對齊問題。據我們所知，一個被廣泛接受的評估LLM對齊的分類法尚未出現，目前的對齊分類法缺乏進行全面評估所需的精細度。

鑒于確保LLMs的可信度和其負責任的部署的重要性，開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解，而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中，我們提出了一個更為細致的LLM對齊要求分類體系，它不僅可以幫助從業者解開和理解對齊的維度，還為數據收集努力提供了可行的指導方針，以開發出可取的對齊過程。例如，“有害”內容的概念可以進一步細分為對個人用戶造成的傷害（如情感傷害、冒犯和歧視）、對社會造成的傷害（如創造暴力或危險行為的指導）或對利益相關者造成的傷害（如提供導致錯誤業務決策的誤導信息）。在Anthropic發布的對齊數據[18]中，存在一個在不同考慮因素之間的明顯的不平衡（附錄A的圖46）。例如，盡管“暴力”類別出現的頻率極高，“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事，因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的（第11節），與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此，我們有強烈的動機去構建一個框架，以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先，我們深入地調查了可能重要的LLMs的類別，根據我們對文獻和公眾討論的閱讀，為從業者關注以提高LLMs的可信度。其次，我們詳細解釋如何根據上述類別評估LLM的可信度，以及如何相應地構建對齊的評估數據集。此外，我們為廣泛使用的LLMs提供了測量研究，并顯示即使被廣泛認為是良好對齊的LLMs，也可能不滿足一些對齊任務的標準，從而突顯了我們對更細致的對齊評估的建議。第三，我們證明我們構建的評估數據集也可以用來執行對齊，并展示了這種更有針對性的對齊的有效性。

路線圖。本文的組織結構如下。首先，我們在第2節介紹LLMs和對齊的必要背景。然后，在第3節，我們對提議的LLMs對齊分類提供一個高層次的概述。之后，在第4-10節，我們詳細解釋每個單獨的對齊類別。在每一節中，我們針對一個被考慮的類別，為其重要性提供論據，調查文獻中存在的問題和相應的潛在解決方案（如果存在的話），并通過案例研究來說明問題。調查之后，我們在第11節提供了一個指南，介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節，我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后，在第12節，我們通過討論潛在的機會和挑戰來總結本文。

方法概述

圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別，每個類別進一步細分為更詳細的討論，總共有29個子類別。以下是每個類別的概述：

當前LLM應用

為了說明我們如何確定建議的分類法，我們首先簡要概述了圖4中LLM的當前主要應用，這在很大程度上影響了我們選擇分類法的方式。不用說，考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法，圖4中涵蓋的應用是不盡的。

我們如何確定分類法

我們通過兩個主要因素確定類別和子類別：(1)對LLM應用的影響以及(2)現有文獻。首先，我們考慮如果某個信任度類別未能滿足期望，會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外，我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如，我們認為可靠性是一個主要的關注點，因為幻覺目前是LLM中一個眾所周知的問題，它可以顯著損害其輸出的信任度，幾乎所有的LLM應用（可能除了創意寫作）都會受到事實錯誤答案的負面影響。而根據應用的風險有多高，它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯，我們認為安全性是一個重要的話題，因為它幾乎影響到所有的應用和用戶，不安全的輸出可能會對用戶造成多種心理傷害，對平臺造成公關風險。公平性很重要，因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視，降低用戶信任，對部署者產生負面的公眾意見，并違反反歧視法。此外，抵抗誤用實際上是必要的，因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地，可解釋性為用戶帶來了更多的透明度，與社會規范保持一致確保了LLM不會引起情感傷害，改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意，我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上，我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考，徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。

結論

在本文中，我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法，并討論了在這些維度上對齊的挑戰。我們還查閱了文獻，尋找相應的潛在解決方案（如果存在的話）。除了我們提議的分類法，我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到，更加對齊的LLM（基于公開聲明的已執行對齊信息）通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。

付費5元查看完整內容

ChatGPT · 人類反饋強化學習 (RLHF) ·

2023 年 3 月 2 日

[付費5元查看完整內容]ChatGPT核心技術“RLHF”如何學習？最新《基于人類反饋的強化學習:從零到chatGPT》綜述，附視頻與51頁slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮，它面對多種多樣的問題對答如流，似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model，LLM) 生成領域的新訓練范式：來自普林斯頓博士生Ameet Deshpande講述《大型語言模型》技術細節，值得關注！在本次演講中，我們將介紹從人工反饋中強化學習(RLHF)的基礎知識，以及如何使用這種技術來實現最先進的ML工具，如ChatGPT。演講的大部分內容將是相互關聯的ML模型的概述，并涵蓋自然語言處理和RL的基礎知識，以便了解RLHF如何在大型語言模型上使用。最后將討論RLHF的開放問題。

ChatGPT 背后的“功臣”——人類反饋強化學習RLHF 技術詳解