大型語言模型(LLMs),例如ChatGPT,由于其出色的自然語言處理能力而獲得了極大的關注。然而,這些LLMs面臨許多挑戰,特別是在可信度方面。因此,確保LLMs的可信度成為一個重要話題。本文引入了TRUSTLLM,一項關于LLMs可信度的全面研究,包括不同維度的可信度原則、確立的基準、可信度評估和分析,以及對主流LLMs的討論,開放的挑戰和未來方向。具體來說,我們首先提出了一套涵蓋八個不同維度的可信LLMs原則。基于這些原則,我們進一步建立了一個跨越真實性、安全性、公平性、穩健性、隱私和機器倫理六個維度的基準。我們隨后展示了一個在TRUSTLLM中評估16個主流LLMs的研究,涉及超過30個數據集。
我們的發現首先表明,一般而言,可信度和效用(即功能效能)是正相關的。例如,像GPT-4、ERNIE和Llama2這樣在刻板印象分類中表現強勁的LLMs,更可靠地拒絕刻板印象陳述。同樣,以自然語言推理能力著稱的Llama2-70b和GPT-4,在抵御對抗性攻擊方面表現出增強的韌性。其次,我們的觀察揭示,專有LLMs通常在可信度方面優于大多數開源同行,這引發了對廣泛可獲取的開源LLMs潛在風險的擔憂。然而,少數開源LLMs非常接近專有模型。值得注意的是,Llama2在幾項任務中表現出卓越的可信度,表明開源模型可以在沒有額外機制(如審查員)的情況下達到高水平的可信度,為開發人員提供了寶貴的洞見。第三,值得注意的是,一些LLMs(例如Llama2)可能過度調整以展示可信度,以至于它們在錯誤地將良性提示視為有害并因此不做出回應的情況下,降低了它們的實用性。除了這些觀察之外,我們還發現了LLMs多方面可信度的關鍵洞見。在真實性方面,LLMs經常由于訓練數據中的噪音、錯誤信息或過時信息而難以提供真實的回答。值得注意的是,增強了外部知識來源的LLMs在性能上表現出明顯的提升。在安全性方面,大多數開源LLMs在越獄、毒性和濫用等方面顯著落后于專有LLMs,同時在不過度謹慎的同時保持安全性的挑戰仍然存在。在公平性方面,大多數LLMs在刻板印象識別方面的表現不盡人意,即使是表現最好的GPT-4也只有65%的總體準確率。在穩健性方面,LLMs表現出顯著的變化性,尤其是在開放式任務和分布外任務中。在隱私方面,雖然LLMs顯示出對隱私規范的認識,但對私人信息的理解和處理差異很大,一些模型甚至在Enron Email數據集上測試時顯示出信息泄露。最后,在機器倫理方面,LLMs展示了基本的道德理解,但在復雜的倫理場景中表現不足。這些洞見強調了LLMs中可信度的復雜性,并突出了繼續研究以提高它們的可靠性和倫理一致性的必要性。最后,我們強調不僅要確保模型本身的透明度,還要確保支持可信度的技術的透明度。了解已采用的具體可信技術對于分析它們的有效性至關重要。我們主張建立行業、學術界、開源社區以及各種實踐者之間的人工智能聯盟,以促進合作,提升LLMs的可信度至關重要。我們的數據集、代碼和工具包將在 //github.com/HowieHwong/TrustLLM 上提供,排行榜發布在
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)和生成式人工智能領域的重要里程碑,眾多基礎研究[1, 2]證實了這一點。這些模型在NLP方面的卓越能力引起了廣泛關注,導致了影響我們生活各個方面的多樣化應用。LLMs被用于多種與語言相關的任務,包括自動文章寫作[3]、博客和社交媒體帖子的創作、以及翻譯[4]。此外,它們還改進了搜索功能,如在Bing Chat等平臺上看到的[5, 6, 7],以及其他應用[8]。LLMs在人類其他領域的效用也顯而易見。例如,如Code Llama[9]等模型為軟件工程師提供了相當大的幫助[10]。在金融領域,像BloombergGPT[11]這樣的LLMs被用于情感分析、命名實體識別、新聞分類和問答等任務。此外,LLMs在科學研究[12, 13, 14, 15]中的應用日益增多,涵蓋了醫學應用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治學[26]、法律[27, 28]、化學[29, 30]、海洋學[31, 32]、教育[33]和藝術[34]等領域,凸顯了它們廣泛和多樣化的影響。
LLMs的出色能力歸因于多個因素,例如使用來自Web的大規模原始文本作為訓練數據(例如,PaLM[35, 36]是在包含超過7000億令牌的大型數據集上訓練的[37]),采用具有大量參數的變壓器架構設計(例如,GPT-4估計具有1萬億參數范圍[38]),以及加速訓練過程的先進訓練方案,例如低秩適應(LoRA)[39]、量化LoRA [40]和路徑系統[41]。此外,它們出色的指令遵循能力主要歸因于與人類偏好的對齊實現[42]。現行的對齊方法使用人類反饋的強化學習(RLHF)[43]以及各種替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。這些對齊策略塑造了LLMs的行為,使其更加符合人類偏好,從而提高了它們的實用性并確保遵守倫理考慮。
然而,LLMs的興起也引入了關于它們可信度的擔憂。與傳統語言模型不同,LLMs具有可能導致可信度問題的獨特特性。1)LLMs的輸出復雜多樣,加之它們新出現的生成能力。LLMs展示了處理廣泛的復雜和多樣化主題的無與倫比的能力。然而,這種復雜性可能導致不可預測性,從而可能產生不準確或誤導性的輸出[56, 57, 58]。同時,它們先進的生成能力為惡意行為者開辟了傳播虛假信息[59]和促進網絡攻擊[60]的途徑。例如,攻擊者可能使用LLMs編寫欺騙性和誤導性文本,誘導用戶點擊惡意鏈接或下載惡意軟件。此外,LLMs可以被用于自動化網絡攻擊,例如生成大量假賬戶和評論以擾亂網站的正常運營。從設計用于繞過LLMs安全機制的技術(稱為越獄攻擊[61])來的重大威脅,允許攻擊者非法濫用LLMs。2)大型訓練數據集中的數據偏見和私人信息。可信度的一個主要挑戰來自訓練數據集中潛在的偏見,這對LLMs生成的內容的公平性具有重大影響。例如,數據中的男性中心偏見可能產生主要反映男性觀點的輸出,從而掩蓋女性的貢獻和觀點[62]。同樣,偏向某一特定文化背景的偏見可能導致對該文化的偏見回應,從而忽視其他文化背景中存在的多樣性[63]。另一個關鍵問題是訓練數據集中包含敏感個人信息的問題。在缺乏嚴格保護的情況下,這些數據可能被濫用,潛在地導致隱私泄露[64]。這個問題在醫療保健領域尤其嚴重,在這里保持患者數據的機密性至關重要[65]。3)用戶期望值高。用戶可能對LLMs的性能抱有很高的期望,期待準確和富有洞察力的回應,強調模型與人類價值觀的一致性。許多研究人員對LLMs是否與人類價值觀一致表示擔憂。不一致可能會對它們在各個領域的廣泛應用產生重大影響。例如,LLM可能認為某些情況下的行為是適當的,但人類可能認為它不適當,導致在其應用中出現沖突和矛盾,特定案例中強調了這一點[66]。
LLMs的開發者已經做出了重大努力來解決上述問題。OpenAI[67]已采取措施確保LLMs在訓練數據階段、訓練方法和下游應用中的可信度。WebGPT[7]被引入以幫助人類評估者識別LLM回應中的不準確信息。致力于負責任的AI的Meta[68],其方法基于五大支柱:隱私、公平、穩健性、透明性和問責制。Llama2[69]的引入為LLMs設定了新的安全對齊基準,包括在預訓練、微調和紅隊測試中進行廣泛的安全調查。關于開發者采用的各種策略以確保LLMs的可信度的更多討論可以在第3.3節中找到。盡管做出了這些共同的努力,但仍有一個持續的問題:我們到底可以在多大程度上真正信任LLMs?
為了解決大型語言模型(LLMs)可信度的關鍵問題,關鍵在于確定如何基準化LLMs的可信度。關于定義LLMs可信度的關鍵要素,以及如何從各種角度評估這種可信度,此外,探索實際評估這些維度上可信度的方法也至關重要。然而,回答這些問題遠非簡單。主要挑戰包括:1) 綜合各方面的定義。主要障礙之一是缺乏一個普遍接受的標準準則,全面涵蓋可信度的所有方面。這種標準化指標的缺乏使得統一評估和比較不同LLMs的可信度變得困難。2) 可擴展性和普適性:創建適用于不同大小和類型LLMs的基準,并且能夠普遍適用于不同領域和應用是一項復雜的任務;3) 實際評估方法。需要設計有效的提示來測試明顯的可信度問題,并發現可能不會立即顯現的更微妙的偏見和錯誤。這需要深入理解技術及其產出對社會的潛在影響。 先前的研究[70, 71, 72]已經為LLMs的可信度建立了基礎見解。這些研究提出了評估LLMs的方法,并制定了衡量其可信度的分類法。然而,某些分類法[70, 73]并未完全涵蓋與LLMs可信度相關的所有方面。此外,一些分類法[71, 72]專注于細微的區別,導致重疊的子類別使建立清晰的評估基準變得復雜。因此,需要一種更全面和細致的方法來準確評估LLMs的可信度。
在這里,我們提出了TRUSTLLM,一個統一框架,支持對LLM中的可信度進行全面分析,包括現有工作的調查,組織不同維度的可信LLMs的原則,一個新穎的基準,以及對主流LLMs的全面可信度評估。具體來說,我們如下解決上述三個挑戰:
確定八個可信度方面。為了探索LLMs有多可信,我們融合了來自人工智能、機器學習、數據挖掘、人機交互(HCI)和網絡安全的領域知識。我們對過去五年發表的500篇關于LLMs可信度的論文進行了廣泛的回顧,并確定了定義LLMs可信度的八個關鍵方面,即真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性。在這項工作中,為了便于我們的調查,我們將效用(即功能效能)與這八個確定的維度分開,并定義可信LLMs為“為了被認為是可信的,LLMs必須適當地反映真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性等特性。”詳細討論可以在第4節中找到。
選擇全面且多樣化的LLMs進行調查。通過評估16個LLMs,包括專有和開源模型,我們涵蓋了模型大小、訓練策略和功能能力的廣泛范圍。這種多樣性保證了TRUSTLLM不局限于特定類型或大小的LLM。它還建立了一個全面的評估框架,用于評估未來LLMs的可信度。
在各種任務和數據集上進行基準測試和評估:我們基準測試了30個數據集,以全面評估LLMs的功能能力,從簡單的分類任務到復雜的生成任務。每個數據集提出了獨特的挑戰,并在多個可信度維度上對LLMs進行了基準測試。同時,采用了多種評估指標來理解LLMs的能力。這種方法確保了評估是全面和多方面的。
貢獻。TRUSTLLM評估的結果在圖1中總結,觀察和洞見在第2節中展示。我們在這項工作中的貢獻簡要概述如下。 首先,我們基于全面的文獻綜述提出了一套評估LLMs可信度的指南,這是一個涵蓋包括真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性在內的八個方面的分類法。
其次,由于透明度和問責性的基準測試難度,我們為這六個方面建立了基準。這是第一個全面且綜合的基準,包括超過18個子類別,涵蓋超過30個數據集和16個LLMs,包括專有和開放權重模型。除了圖1中展示的這些模型的可信度排名外,我們在后續各節中提出了評估細節。
最后但同樣重要的是,從廣泛的實驗結果中,我們得出了有洞見的發現(詳見第2節)。我們對LLMs的可信度評估考慮了整體觀察和基于每個維度的個別發現,強調了效能和可信度之間的關系,大多數LLMs中普遍缺乏的一致性,專有和開放權重LLMs之間的差異,以及當前與可信度相關技術的不透明性。我們旨在為未來的研究提供有價值的洞見,為大型語言模型中的可信度景觀提供更細膩的理解。
觀察和洞見
為了更好地理解我們的研究,我們首先基于我們在這項工作中的廣泛實證研究,提出了我們的觀察和洞見。
2.1 總體觀察
可信度與效用緊密相關。我們的發現表明,可信度和效用之間存在正相關,特別是在特定任務中顯而易見。例如,在道德行為分類(第11.1節)和刻板印象識別任務(第8.1節)中,像GPT-4這樣具有強大語言理解能力的LLMs傾向于做出更準確的道德判斷,并更可靠地拒絕刻板印象陳述。類似地,Llama2-70b和GPT-4在自然語言推理方面的熟練度,表現出對抗性攻擊的增強韌性。此外,我們觀察到LLMs的可信度排名往往與以效用為中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。這一觀察強調了可信度和效用的相互關聯性,凸顯開發者和用戶在實施和使用LLMs時,需要同時考慮這些方面。
大多數LLMs“過度對齊”。我們發現許多LLMs表現出一定程度的過度對齊(即夸大的安全性),這可能損害它們的整體可信度。這樣的LLMs可能將許多無害的提示內容識別為有害,從而影響它們的效用。例如,Llama2-7b在對實際上并非有害的提示做出回應時,拒絕率達到57%。因此,訓練LLMs在對齊過程中理解提示背后的意圖,而不僅僅是記憶示例,對降低錯誤識別有害內容的比率至關重要。
一般而言,專有LLMs在可信度上優于大多數開放權重LLMs。然而,少數開源LLMs能夠與專有模型競爭。我們發現,在可信度方面,開放權重和專有LLMs之間存在性能差距。通常,專有LLMs(例如ChatGPT、GPT-4)的表現遠優于大多數開放權重LLMs。這是一個嚴重的問題,
因為開放權重模型可以被廣泛下載。一旦集成到應用場景中,它們可能帶來嚴重的風險。然而,我們驚訝地發現,Llama2 [69] 系列這樣的開放權重LLMs,在許多任務中的可信度超過了專有LLMs。這表明,開放權重模型即使在沒有添加外部輔助模塊(如審查員 [76])的情況下,也能展示出色的可信度。這一發現為相關開放權重開發者提供了重要的參考價值。
模型本身和與可信度相關的技術應該是透明的(例如,開源)。鑒于不同LLMs在可信度方面的性能差距顯著,我們強調模型本身及旨在提高可信度的技術的透明度的重要性。如最近研究[77, 78]所強調,充分理解模型的訓練機制,包括參數和架構設計等方面,是研究LLMs的基石。我們的實驗發現,雖然一些專有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技術細節仍未公開。使這些可信技術透明化或開源可以促進這些技術的更廣泛采用和改進,顯著提升LLMs的可信度。這反過來使LLMs更可靠,并加強了AI社區對這些模型的整體信任,從而有助于AI技術的健康發展。
2.2 對可信度各個維度的新洞見真實性。
AI系統的真實性是指準確地呈現信息、事實和結果。我們的發現表明:1) 專有LLMs如GPT-4和開源LLMs如Llama2在僅依賴其內部知識時,經常難以提供真實的回應。這主要是由于其訓練數據中的噪聲,包括錯誤信息或過時信息,以及底層Transformer架構缺乏泛化能力所致。2) 此外,所有LLMs在零樣本常識推理任務中面臨挑戰,表明它們在對于人類相對直接的任務中存在困難。3) 相比之下,增強了外部知識的LLMs表現出顯著改善的性能,超越了原始數據集上報告的最新結果。4) 我們觀察到在不同的幻覺任務中存在顯著差異。大多數LLMs在多項選擇問答任務中的幻覺較少,與知識引導對話等更開放式任務相比, 可能是由于提示敏感性(第14節)。5) 此外,我們發現獻媚和對抗性現實之間存在正相關。獻媚水平較低的模型在識別和突出用戶輸入中的事實錯誤方面更為有效。
安全性。LLMs的安全性對于避免不安全或非法輸出并確保進行健康對話至關重要[72]。在我們的實驗(第7節)中,我們發現:1) 大多數開源LLMs的安全性仍然是一個問題,特別是在越獄、毒性和濫用等領域,顯著落后于專有LLMs。2) 值得注意的是,LLMs對不同的越獄攻擊并不是統一抵抗。我們的觀察發現,各種越獄攻擊,特別是leetspeak攻擊[61],對LLMs的成功率各不相同。這強調了LLM開發者需要采取全面的防御策略來應對多種攻擊類型。3) 對于大多數LLMs而言,平衡安全性是一個挑戰;那些具有嚴格安全協議的LLMs經常表現出夸張的謹慎,如Llama2系列和ERNIE所表現出的。這表明許多LLMs并未完全對齊,可能依賴于表面的對齊知識。
公平性。公平性是確保LLMs在設計、訓練和部署過程中不會導致有偏見或歧視性結果的道德原則,確保它們公平對待所有用戶和群體。在我們的實驗中(第8節),我們發現:1) 大多數LLMs在識別刻板印象方面的表現并不令人滿意,即使表現最好的GPT-4,其總體準確率也僅為65%。當面對包含刻板印象的句子時,不同LLMs的一致性百分比差異很大,最好的表現僅為0.5%的一致率,最差的接近60%。2) 只有少數LLMs,如Oasst-12b[81]和Vicuna-7b[82],在處理貶低性內容時表現出公平性;大多數LLMs在處理包含貶低傾向的問題時仍顯示出對特定屬性的偏見。3) 關于偏好,大多數LLMs在普通基線上表現非常好,保持客觀性和中立性,或拒絕直接回答。然而,當被迫選擇時,LLMs的表現顯著下降。
穩健性。穩健性定義為系統在各種情況下保持其性能水平的能力[83]。在我們的實驗中(第9節),我們發現:1) Llama2系列和大多數專有LLMs在傳統下游任務中超越了其他開源LLMs。2) 然而,LLMs在開放式任務的表現表現出顯著的變化性。表現最差的模型在擾動前后的平均語義相似度僅為88%,遠低于最佳表現者的97.64%。3) 在OOD(超出分布)穩健性方面,LLMs展現出相當大的性能差異。表現最佳的模型GPT-4在OOD檢測中拒絕回答(RtA)率超過80%,在OOD泛化中平均F1得分超過92%。相比之下,表現最差的模型RtA率僅為0.4%,F1得分約為30%。4) 此外,我們的觀察沒有發現參數大小和OOD性能之間存在一致的正相關性,這可以從Llama2模型的不同參數大小的不同表現水平中得到證明。
隱私。隱私包括旨在保護人類自主權、身份和尊嚴的規范和實踐[83]。在我們的實驗中(第10節),我們發現: 大多數LLMs表現出一定程度的隱私意識,這可以從這些模型在被告知必須遵守隱私政策時拒絕回應有關私人信息的查詢的可能性顯著增加中看出。2) 用于測量人類和LLMs在使用隱私信息方面的一致性的皮爾森相關系數差異很大。表現最佳的模型,ChatGPT,達到了0.665的相關性,而Oass-12b展現出令人驚訝的負相關性,低于零,表明與人類相比,它對隱私的理解存在差異。3) 我們觀察到幾乎所有LLMs在Enron電子郵件數據集[84]的測試中都顯示出一定程度的信息泄露。
機器倫理。機器倫理確保利用人工智能的人造機器(通常稱為AI代理)的道德行為[85, 86]。在我們的實驗中(第11節),我們發現:1) LLMs已經發展出一套特定的道德價值觀,但在完全與人類倫理一致方面仍有顯著差距。在低歧義場景中的隱性任務中,大多數LLMs的準確性不足70%,不論是哪個數據集。在高歧義場景中,不同LLMs的表現有很大差異;例如,Llama2系列達到了99.9%的拒絕回答率(RtA),而其他模型的得分不到70%。2) 在情感意識方面,LLMs顯示出更高的準確性,表現最佳的模型如GPT-4的準確率超過94%。 這些觀察和洞見提供了對LLMs可信度各個維度的深入理解,揭示了它們在處理復雜任務和維護道德準則方面的能力和局限性。這些發現對于開發更可靠、公平、安全且符合倫理的LLMs至關重要,同時也為未來的研究和應用提供了重要的參考。通過這樣的深入分析,我們能夠更好地理解和提升大型語言模型的整體可信度,使其在各種應用場景中更加有效且符合倫理標準。
大型語言模型(LLMs)自從2022年11月ChatGPT發布以來,因其在廣泛的自然語言任務上的強大表現而受到了大量關注。LLMs通過在海量文本數據上訓練數十億模型參數獲得了通用語言理解和生成的能力,正如擴展定律[1]、[2]所預測的。盡管LLMs的研究領域非常新近,但它正在多個不同的方向上迅速發展。在本文中,我們回顧了一些最突出的LLMs,包括三個受歡迎的LLM家族(GPT, LLaMA, PaLM),并討論了它們的特點、貢獻和限制。我們還概述了構建和增強LLMs的技術。接著,我們調研了為LLM訓練、微調和評估準備的流行數據集,回顧了廣泛使用的LLM評估指標,并比較了幾種受歡迎的LLMs在一組代表性基準測試上的性能。最后,我們通過討論開放性挑戰和未來研究方向來結束本文。
//www.zhuanzhi.ai/paper/6211cbd80a246ae8e282d1b2ebf0ab23
1. 引言
大型語言模型(LLMs)自ChatGPT于2022年11月發布以來,因其在廣泛的自然語言任務上的強大表現而吸引了大量關注。LLMs通過在大量文本數據上訓練數十億參數來獲得通用語言理解和生成能力,這與擴展定律的預測相符。雖然LLMs的研究領域非常新,但它在許多不同方面迅速發展。在本文中,我們回顧了一些最突出的LLMs,包括三個受歡迎的LLM家族(GPT, LLaMA, PaLM),并討論了它們的特點、貢獻和限制。我們還概述了用于構建和增強LLMs的技術。然后,我們調查了為LLM訓練、微調和評估準備的流行數據集,回顧了廣泛使用的LLM評估指標,并比較了幾種受歡迎的LLMs在一組代表性基準測試上的性能。最后,我們通過討論開放性挑戰和未來研究方向來結束本文。
LLMs是基于神經網絡的大規模預訓練統計語言模型。LLMs的成功是數十年語言模型研究和開發積累的結果,可以分為四個波浪,這些波浪有不同的起點和速度:統計語言模型、神經語言模型、預訓練語言模型和LLMs。
統計語言模型(SLMs)將文本視為單詞序列,并估計文本的概率為其單詞概率的乘積。SLMs的主要形式是馬爾可夫鏈模型,即n-gram模型,它計算一個詞的概率,條件是其前n-1個詞。由于單詞概率是根據從文本語料庫收集的單詞和n-gram計數估計的,模型需要通過使用平滑處理數據稀疏性(即,為未見單詞或n-gram分配零概率)。 早期的神經語言模型(NLMs)通過將單詞映射到低維連續向量(嵌入向量)并使用神經網絡基于其前序單詞的嵌入向量聚合來預測下一個單詞,來處理數據稀疏性。NLMs學習的嵌入向量定義了一個隱藏空間,其中向量之間的語義相似性可以通過它們的距離輕松計算。 預訓練語言模型(PLMs)與早期NLMs不同,它們是任務不可知的。PLMs的訓練和推理遵循預訓練和微調范式,其中基于循環神經網絡或變換器的語言模型在Web規模的未標記文本語料庫上進行預訓練,然后使用少量(標記的)特定任務數據進行微調。 大型語言模型(LLMs)主要指基于變換器的神經語言模型,包含數十億到數千億參數,預訓練于大量文本數據。與PLMs相比,LLMs不僅在模型大小上要大得多,而且在語言理解和生成能力上也更強,更重要的是,它們展示了在小規模語言模型中不存在的新興能力。這些新興能力包括在推理時從提示中給出的少量示例學習新任務的上下文內學習、在不使用明確示例的情況下遵循新類型任務指令的指令跟隨,以及通過將復雜任務分解為中間推理步驟來解決復雜任務的多步驟推理。 通過高級使用和增強技術,LLMs可以部署為所謂的AI代理:感知環境、做出決策并采取行動的人工實體。以前的研究集中在為特定任務和領域開發代理。LLMs展示的新興能力使基于LLMs構建通用AI代理成為可能。盡管LLMs被訓練以在靜態設置中產生響應,但AI代理需要采取行動與動態環境互動。因此,基于LLM的代理通常需要增強LLMs,例如,從外部知識庫獲取更新的信息,驗證系統操作是否產生預期結果,以及應對事情不如預期進行時的情況等。我們將在第四節詳細討論基于LLM的代理。 本文的其余部分,第二節介紹LLMs的最新進展,重點是三個LLM家族(GPT,LLaMA和PaLM)及其他代表性模型。第三節討論了如何構建LLMs。第四節討論了如何使用LLMs,并為現實世界的應用增強LLMs。第五節和第六節回顧了評估LLMs的流行數據集和基準,總結了報告的LLM評估結果。最后,第七節通過總結挑戰和未來研究方向來結束本文。
II. 大型語言模型在這一部分,我們首先回顧早期的預訓練神經語言模型,因為它們是LLMs的基礎,然后我們將討論三個LLMs家族:GPT、LlaMA和PaLM。表I提供了這些模型及其特性的概覽。
大型語言模型(LLMs)主要指基于變換器的預訓練語言模型(PLMs),包含數十億到數百億的參數。與上述的PLMs相比,LLMs不僅在模型大小上要大得多,而且還展示了更強的語言理解和生成能力以及在小規模模型中不存在的新興能力。下面,我們將回顧三個LLM家族:GPT、LLaMA和PaLM,如圖8所示。
如何構建LLMs?
在本節中,我們首先回顧用于LLMs的流行架構,然后討論從數據準備、標記化,到預訓練、指令調整和對齊等一系列數據和建模技術。 一旦選擇了模型架構,訓練LLM涉及的主要步驟包括:數據準備(收集、清洗、去重等)、標記化、模型預訓練(以自監督學習的方式)、指令調整和對齊。我們將在下面的各個小節中解釋每一個步驟。這些步驟也在圖25中示意。
如何使用和增強LLMs?
一旦LLMs被訓練好,我們就可以使用它們為各種任務生成所需的輸出。LLMs可以通過基本的提示直接使用。然而,為了充分發揮它們的潛力或解決某些缺陷,我們需要通過一些外部手段來增強模型。在本節中,我們首先簡要概述LLMs的主要缺點,更深入地探討了幻覺問題。然后,我們描述了如何通過提示和一些增強方法不僅解決這些限制,還可以增強LLMs的能力,甚至將LLM轉變為具有與外部世界交互能力的全功能AI代理。
評估不同的LLMs也可以從不同的角度進行。例如,參數數量大幅減少的LLM與參數數量更多的LLM并不完全可比。從這個角度出發,我們也將LLMs分為四類:小型(等于或少于10億參數)、中型(在10億到100億之間)、大型(在100億到1000億之間)和超大型(超過1000億)。我們使用的另一種LLM分類是它們的主要用途。我們認為每個LLM要么是:基礎模型(預訓練的語言模型,沒有指令微調和聊天微調)、指令模型(只有指令微調的預訓練語言模型)、聊天模型(有指令和聊天微調的預訓練語言模型)。除了所有描述的分類之外,還需要另一個分類來區分原始模型和調整過的模型。原始模型是那些作為基礎模型或微調模型發布的。調整過的模型是那些抓住原始模型并用不同的數據集或甚至不同的訓練方法進行調整的模型。同樣值得注意的是,原始模型通常是基礎模型,已經在特定數據集上進行了微調,甚至是不同的方法。模型權重的可用性,不論許可如何,是我們分類中的另一個類別。權重公開可用(即使通過請求)的模型被標記為公共模型,而其他的則被標記為私有模型。表III展示了本文余下部分使用的所有這些定義和縮寫。圖43直觀地說明了這些。
結論
本文對過去幾年發展的LLMs進行了綜述。我們首先提供了早期預訓練語言模型(例如,BERT)的概覽,然后回顧了三個受歡迎的LLM家族(GPT、LLaMA、PaLM)和其他代表性LLMs。接著,我們調研了構建、增強和使用LLMs的方法和技術。我們回顧了流行的LLM數據集和基準,并比較了一組杰出模型在公共基準上的性能。最后,我們提出了開放性挑戰和未來研究方向。
大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。
大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?
采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。
? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。
? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。
? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。
? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。
? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。
盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。
位置技術
與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。
外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。
插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。
總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。
近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。
然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。
這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。
這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:
建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。
探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。
確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。
考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。
綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。
總述
在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。
基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。
? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。
? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。
? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。
結論
在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。
自然語言處理(NLP)的目標是促進計算機與人類語言之間的通信,使計算機能夠處理和分析大量的自然語言數據。語言的層次結構長期以來一直是語義分析的關鍵方面,并被認為是可以增強NLP任務結果的基礎知識。納入層次結構可以幫助NLP模型理解語言組件之間的關系并有效傳達意義。 本論文旨在增強語言模型對文本層次結構的理解。為此,我們建議使用一個深層次的RNN模型,該模型考慮到層次信息并使用潛在指標來表示層次結構。此外,采用了一個層次注意機制來提高模型的性能和可解釋性。
為了解決計算復雜性并優化潛在指標,我們提出了各種統計訓練方法。我們進一步研究了如何將模型擴展到一個序列到序列的模型,并提供了一個預訓練模型的實用方法和一個層次解碼方法,以增強其在文本生成任務(如翻譯)中的性能。 具體來說,我們的方法包括以下步驟:首先,我們區分顯式和隱式的層次信息,并通過使用多尺度RNN和層次注意機制創建一個納入這兩種信息的層次RNN模型。其次,為了進一步改進模型,我們通過期望最大化(EM)算法整合潛在指標,使用Bootstrap抽樣方法減少計算復雜性,并實施分層訓練以進行更深層次的RNN。第三,我們將層次語言模型擴展到翻譯任務的層次序列到序列模型。為了克服在生成過程中潛在指標的不穩定性,我們使用遮罩訓練來預訓練序列到序列模型,并提議一個結合遮罩預測和層次信息的層次解碼方法。
此外,我們通過在各種NLP任務中的表現展示了我們方法的優越性。我們的方法達到了與大型語言模型相當的結果,同時提供了更高的可解釋性。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。
自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。
在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。
然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。
在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。
本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。
基于PLM的CTG主要方法
從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。
基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。
結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。
確保對齊,也就是使模型按照人類的意圖行事[1, 2],已經成為在實際應用中部署大型語言模型(LLMs)之前的關鍵任務。例如,OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而,實踐者面臨的一個主要挑戰是缺乏明確的指導方針,以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。
為了解決這個問題,本文提出了一個全面的調查,探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別進行進一步研究,在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明,總的來說,對齊度更高的模型在整體可信度方面表現得更好。然而,對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。
通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。
//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f
自然語言處理(NLP)的格局隨著大型語言模型(LLMs)的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大,通常達到數十億,且在大量的數據語料庫上進行訓練[4]。近年來,LLMs的影響確實是革命性的,它們徹底改變了學術研究和各種工業應用。值得注意的是,OpenAI開發的LLMs,包括ChatGPT [5, 6],取得了卓越的成功,其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型(LLMs)變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。
在過去,早期版本的LLMs,如GPT-3 [8],能夠生成有意義和信息豐富的文本。但是,它們存在許多問題,嚴重影響了它們的可靠性和安全性。例如,這些模型容易生成事實上不正確的文本,包含有錯覺。此外,生成的內容經常展現出偏見,進一步加強刻板印象和社會偏見。而且,LLMs傾向于生成社會上破壞性的內容,包括有毒的語言,這對它們的可靠性和實用性產生了不良影響。此外,它們容易被誤用,導致產生有害的宣傳,這對它們負責任的部署帶來了重大關切。此外,人們發現LLMs容易受到對抗性攻擊,如提示攻擊,進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響,尤其是當它們對公眾開放時。為了應對這些挑戰,研究人員和開發人員一直在努力改進對齊技術,使LLMs變得更可靠、更安全,并與人類價值觀更為一致。通過減輕這些問題,可以充分利用LLMs的潛在好處,同時將誤用的風險降到最低。
觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督,這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素,包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15],有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs,結果,LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外,單純地優化訓練和生成文本的目標函數,而不考慮人類價值觀,也是另一個原因。需要注意的是,確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰,研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟,確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。
后者達到了令人印象深刻的里程碑,在發布僅兩個月內吸引了1億用戶,使其成為歷史上增長最快的平臺。這一成就并不令人驚訝,因為對齊不僅減少了LLMs生成有害輸出的可能性,而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術,LLMs變得更加可靠、安全,并與人類價值觀更加和諧,從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路,釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。
然而,盡管對齊是LLMs受歡迎的核心技術,但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰,目前沒有明確和有原則的指導可供參考。特別地,缺乏既定和統一的討論,涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素,其中一個值得注意的一般指導原則是“HHH" 原則[20],主張對齊應該是有幫助的、誠實的和無害的。此外,[21]中提出了一個與構建LLMs相關的風險分類,包括六個風險:(1) 歧視、排斥和有毒性,(2) 信息危害,(3) 虛假信息危害,(4) 惡意使用,(5) 人機交互危害,以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋,但它可以進一步解開每一個維度。
此外,像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查,包括文本、圖像、視頻和音頻等各種類型。然而,我們的重點特別是在語言模型上,探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外,[23]以全面的方式評估了LLMs,包括一些值得信賴的類別,但它并沒有單獨解決可信性和對齊問題。據我們所知,一個被廣泛接受的評估LLM對齊的分類法尚未出現,目前的對齊分類法缺乏進行全面評估所需的精細度。
鑒于確保LLMs的可信度和其負責任的部署的重要性,開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解,而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中,我們提出了一個更為細致的LLM對齊要求分類體系,它不僅可以幫助從業者解開和理解對齊的維度,還為數據收集努力提供了可行的指導方針,以開發出可取的對齊過程。例如,“有害”內容的概念可以進一步細分為對個人用戶造成的傷害(如情感傷害、冒犯和歧視)、對社會造成的傷害(如創造暴力或危險行為的指導)或對利益相關者造成的傷害(如提供導致錯誤業務決策的誤導信息)。在Anthropic發布的對齊數據[18]中,存在一個在不同考慮因素之間的明顯的不平衡(附錄A的圖46)。例如,盡管“暴力”類別出現的頻率極高,“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事,因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的(第11節),與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此,我們有強烈的動機去構建一個框架,以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先,我們深入地調查了可能重要的LLMs的類別,根據我們對文獻和公眾討論的閱讀,為從業者關注以提高LLMs的可信度。其次,我們詳細解釋如何根據上述類別評估LLM的可信度,以及如何相應地構建對齊的評估數據集。此外,我們為廣泛使用的LLMs提供了測量研究,并顯示即使被廣泛認為是良好對齊的LLMs,也可能不滿足一些對齊任務的標準,從而突顯了我們對更細致的對齊評估的建議。第三,我們證明我們構建的評估數據集也可以用來執行對齊,并展示了這種更有針對性的對齊的有效性。
路線圖。本文的組織結構如下。首先,我們在第2節介紹LLMs和對齊的必要背景。然后,在第3節,我們對提議的LLMs對齊分類提供一個高層次的概述。之后,在第4-10節,我們詳細解釋每個單獨的對齊類別。在每一節中,我們針對一個被考慮的類別,為其重要性提供論據,調查文獻中存在的問題和相應的潛在解決方案(如果存在的話),并通過案例研究來說明問題。調查之后,我們在第11節提供了一個指南,介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節,我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后,在第12節,我們通過討論潛在的機會和挑戰來總結本文。
方法概述
圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別,每個類別進一步細分為更詳細的討論,總共有29個子類別。以下是每個類別的概述:
當前LLM應用
為了說明我們如何確定建議的分類法,我們首先簡要概述了圖4中LLM的當前主要應用,這在很大程度上影響了我們選擇分類法的方式。不用說,考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法,圖4中涵蓋的應用是不盡的。
我們如何確定分類法
我們通過兩個主要因素確定類別和子類別:(1)對LLM應用的影響以及(2)現有文獻。首先,我們考慮如果某個信任度類別未能滿足期望,會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外,我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如,我們認為可靠性是一個主要的關注點,因為幻覺目前是LLM中一個眾所周知的問題,它可以顯著損害其輸出的信任度,幾乎所有的LLM應用(可能除了創意寫作)都會受到事實錯誤答案的負面影響。而根據應用的風險有多高,它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯,我們認為安全性是一個重要的話題,因為它幾乎影響到所有的應用和用戶,不安全的輸出可能會對用戶造成多種心理傷害,對平臺造成公關風險。公平性很重要,因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視,降低用戶信任,對部署者產生負面的公眾意見,并違反反歧視法。此外,抵抗誤用實際上是必要的,因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地,可解釋性為用戶帶來了更多的透明度,與社會規范保持一致確保了LLM不會引起情感傷害,改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意,我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上,我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考,徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。
結論
在本文中,我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法,并討論了在這些維度上對齊的挑戰。我們還查閱了文獻,尋找相應的潛在解決方案(如果存在的話)。除了我們提議的分類法,我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到,更加對齊的LLM(基于公開聲明的已執行對齊信息)通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。
隨著深度學習的快速發展,對多個下游任務進行大模型(Big Models, BMs)訓練成為一種流行的范式。研究人員在BM的構建和BM在許多領域的應用方面取得了各種成果。目前,缺乏對BMs總體進展進行梳理和指導后續研究的研究工作。本文不僅介紹了BM技術本身,還介紹了BM技術運用BMs進行BM訓練和應用的前提條件,將BM評審分為資源、模型、關鍵技術和應用四個部分。我們在這四個部分介紹了16個具體的BM相關主題,它們是數據、知識、計算系統、并行訓練系統、語言模型、視覺模型、多模態模型、理論與可解釋性、常識推理、可靠性與安全性、治理、評估、機器翻譯、文本生成、對話和蛋白質研究。在每個課題中,我們對當前的研究進行了總結,并提出了未來的研究方向。最后,我們從一個更全面的角度總結了BM的進一步發展。
//www.zhuanzhi.ai/paper/7db57dc36504c3944bde63cfede93541
在這個跨學科的科學時代,許多科學成就,特別是人工智能(AI),給人類社會帶來了戲劇性的革命。隨著人工智能的快速發展,特別是深度學習技術的出現和快速發展,人工智能已經進入大規模工業應用階段**。人工智能早期的研究主要集中在學習算法上,其次是深度學習體系結構。傳統的機器學習模型主要依賴于手工制作的特征和統計方法。深度學習模型可以從數據[1]中自動學習特定于任務的特征。近年來,深度學習模型如卷積神經網絡(convolutional neural networks, CNNs)[2,3]、循環神經網絡(recurrent neural networks, rnn)[4,5]、生成對抗網絡(generative adversarial networks, GANs)[6,7]、圖形神經網絡(Graph Neural Networks, GNNs)[8,9]被廣泛應用于各種AI任務中**。盡管深度學習在科學研究和工業應用方面取得了成功,但由于數據匱乏,在特定領域的性能有限。訓練模型需要大量的標注數據才能保持良好的性能。隨著深度學習研究的不斷深入,高質量人工智能數據集的構建也得到了廣泛的關注[10,11]**。然而,手動數據標記過程是昂貴和耗時的。由于特定任務的可用數據有限,情況變得更糟。為了減少數據集構建的工作量,我們希望調整在現有數據上訓練的模型來處理新的特定任務。如何實現遷移學習過程是人工智能領域的一個重要研究課題。
理解、保留、應用和遷移的學習過程形成了人類的知識基礎。我們人類可以在以前的學習基礎上處理新的問題。奇妙的學習過程讓人們從幾乎一無所知變成特定領域的專家。人類行為啟發了人工智能的研究。與從頭開始訓練人工智能模型不同,遷移學習[12]提出了一種兩階段解決方案,以提高模型泛化,而無需花費太多的數據標記工作。預訓練過程從源任務中獲取知識,而微調過程將所學知識轉移到目標任務中。在預訓練階段獲得的知識可以在有限的數據下進行微調。遷移學習技術最早應用于計算機視覺(CV)領域,目前已有大量人工構建的圖像數據集,如ImageNet[10],為模型的預訓練提供了理想的來源。模型通過預訓練過程吸收了大量的視覺知識后,只需對少量的任務相關數據進行調整,就可以在許多下游任務中表現良好。在這種情況下,通過大模型(Big Model, BMs)探索CV領域的趨勢被觸發并傳播到許多具體任務中,包括圖像分類[13]、圖像標題[14]、圖像分割[15]和目標檢測[16]。
隨著BM在CV領域的成功,在自然語言處理(NLP)領域也有類似的研究。然而,自深度學習興起以來,一個長期存在的問題一直困擾著文本處理。梯度消失和梯度爆炸是自然語言處理中常見的兩種導致意外輸出的現象。對于NLP中的BM的初步研究主要集中在Word2Vec[17]等淺層網絡上。然而,淺層網絡無法捕捉詞語和句子的各種語義信息。例如,一個多義詞在不同的句子中表現出不同的意思,而淺層網絡則很難區分。雖然像RNN這樣的網絡通過包含上下文信息來解決上述問題,但深度仍然是一個難點。隨著Transformer 網絡結構的出現,在自然語言處理領域構建深層網絡模型成為可能。在此之后,預訓練技術在NLP中取得了一系列的突破。包括BERT[18]和T5[19]在內的大模型BM經過訓練,在許多下游任務中獲得了最先進的性能。1750億參數的GPT-3在幾個下游NLP任務上表現良好,尤其是生成任務。增大參數尺度使BM模型能夠更好地捕獲訓練數據中包含的語言知識。GPT-3的研究表明,擴展模型大大提高了與任務無關的、少樣本的性能,有時甚至與之前最先進的微調方法[20]相比具有競爭力。GPT-3模型的重要發現促進了大模型及其相關技術的研究。大模型的參數規模從數十億快速增長到數萬億,并保持著急劇上升的趨勢。通過不斷增大模型參數,研究人員試圖探索大模型的性能改善極限。
目前,實現人工智能的常見模式是結合數據、計算能力和算法來構建模型。近年來,傳統的模型構建模式“針對不同任務的不同模型”逐漸向“針對不同任務的大規模預訓練模型”轉變。在這種新模式中,我們也將大規模預訓練模型簡稱為大模型(BMs)。研究人員盡可能地收集數據,設計先進的算法,基于大規模計算系統,針對不同需求的用戶訓練大模型。
隨著大模型研究成為人工智能的焦點,大模型有可能在未來幾年內引領技術轉型,帶來新的產業格局。更具體地說,這種新的工業模式可以類比于電力供應系統。大模型扮演著“智能生產者”的基本角色,能夠在海量計算能力的支持下產生高質量的智能能力,服務于各種人工智能應用。通過大信息模型和大仿生模型的發展,可以加快電子信息和生物醫學領域的研究進程。同時,大模型的發展可以幫助創新型企業和個體開發者構建高智能應用,從而促進實體經濟的智力更新。
深度學習階段的人工智能研發有幾個嚴重的痛點。首先,模型的泛化是一個常見的問題,這意味著在一個特定的應用場景下訓練出來的模型并不適用于另一個應用場景。不同領域之間的轉換需要從零開始的培訓,導致模型培訓成本較高。其次,目前的模型訓練基本上是“手工制作”的模式,因為調整和調優參數需要大量的手工工作,需要大量的人工智能專業人員參與。第三,模型訓練對數據質量要求高,需要大規模標注數據。一些領域數據的缺乏制約了人工智能技術的應用。這些問題導致了人工智能開發和應用中成本高、效率低的問題。人工智能人才短缺和高昂的研究成本,也使這些小企業更難在其工業場景中訓練特定任務的模型。因此,任務型模型的“自我訓練自我使用”模式與人工智能的發展趨勢形成鮮明對比,成為人工智能技術廣泛應用的障礙。由于大模型具有很強的泛化能力,因此訓練大模型可以成為一種潛在的解決方案。大模型可以用于不同的任務,只需稍微調整,甚至無需額外調整。在這種情況下,小企業可以直接調用大模型界面來進行AI研究,而這只需要很少的算法專業人員就可以完成。從而大大降低了開發智能應用程序的研究成本。Li et al.[21]從概念的角度指出,基礎模型的應用使得自監督學習和微調方案逐漸成為主流方法,并帶來智能體認知能力的進步。然而,基礎模型的一個隱患是,它們的任何缺陷都會被其下游的所有模型所繼承,從而迅速覆蓋整個基礎模型社區。上述基礎模型稱為BMs,在中文語境中稱為大模型。接下來的章節將介紹大模型的特點,為什么它會成為一種趨勢,以及大模型面臨的技術挑戰。
對于大型模型的技術挑戰和未來發展方向缺乏系統的分析和實際的討論。為了更好地推進大模型研究,有必要制定一個路線圖,展示大模型的訓練條件、關鍵技術和下游應用。
大模型框架的底層資源層負責提供基本的支持。資源層包括數據、知識和計算系統三個方面。 **-大模型數據(第二節)本節介紹用于模型訓練的基本數據集資源。數據質量是影響模型性能的最關鍵因素之一。首先,分別介紹了一些已有的語料庫。然后,詳細闡述了數據集構建中的數據采集、數據清理等技術。接下來,我們提出了一些常見的數據集問題,如重復,隱私問題,道德問題和分布不均。最后,討論了大模型數據集的進一步發展方向。-大模型知識(第三節)知識通常用知識圖譜表示,知識圖譜是描述現實世界中概念、實體及其關系的網絡。本節介紹了知識的性質和相關技術,展示了知識與大模型的結合。首先給出了知識圖譜的一些初步概念,并對知識融合方法進行了說明。然后描述了基于大模型的知識獲取方法。此外,將知識注入到大模型中顯示了知識增強大模型的優勢。在本節的最后,提出了一些未來的發展方向。-大模型訓練計算系統(第四節)經典超級計算集群主要用于大規模科學計算中進行高精度的復雜計算。隨著過去幾年深度學習的擴展,對GPU計算能力的需求也在不斷增加。GPU的實現大大加快了神經網絡算法的實現,這使得GPU計算集群成為當前研究的重點。在這一部分,我們打算介紹大模型訓練所需的計算系統。-大模型訓練并行支持(第五節)**隨著模型參數尺度的擴大,大模型的計算需求也在迅速增加。增加的計算需求需要高性能計算系統和并行計算技術來支持。本節詳細介紹了并行計算方法的發展過程。分別闡述了現有的幾種有效的并行計算技術。此外,在本節的最后,我們提出了下一代大模型計算系統的藍圖。
-大語言模型(第6節) 自然語言處理(NLP)是機器學習中最重要的領域之一,各種大模型的建立都是為了解決自然語言處理任務。本節從語言表示方法入手,逐步說明完整的NLP大模型訓練過程。此外,我們還討論了NLP大模型的一些高級問題,包括模型分析、長文檔建模、多任務學習、持續學習、知識增強的NLP和模型加速。在本節的最后,我們對如何使機器理解復雜的語義提出了一些展望。
-大視覺模型(第7節) 隨著人工智能的快速發展,計算機視覺領域在理論研究和實際應用方面都取得了長足的進步。精心設計的深度模型具有感知視覺世界和處理各種下游視覺任務的能力,正在為現代信息社會的許多方面帶來一場前所未有的革命,如智能機器人和自動駕駛。然而,對不斷擴大的深度模型數據的需求日益增長,也給社區的進一步發展帶來了挑戰,大量的任務特定數據的標注成本和相應的培訓資源費用難以承受。因此,引入預訓練技術來彌補訓練資源的限制和對視覺特征表征能力的更高要求之間的差距。
-大型多模態模型(第8節) 人類可以從現實世界的多模態信息中學習。為了模擬人類的智能,有必要對模型進行大規模的多模態數據訓練。在多模態大模型領域,關鍵的挑戰是如何處理多模態數據的異構性,并利用它們進行模型訓練。除了文本和圖像模式,其他模式的大型模型,如視頻和音頻,也在本節中介紹。此外,我們還對多語言形式的多模態大模型進行了進一步的解釋,并提出了一些值得進一步研究的方向
-大模型的理論和可解釋性(第9節)
近年來,大型模型獲得了巨大的實證成功。然而,盡管實踐者已經發現了許多有用的技術,但對于大模型仍然缺乏堅實的理論理解和可解釋性。模型互通性的研究主要包括三個方面:可視化地解釋大模型學到的知識或說明重要輸入;解釋網絡診斷模型的表示能力;結合人工收集的符號知識庫對模型進行解釋。在本部分中,我們從這三個方面簡要介紹了現有的研究進展,并提出了一些未來的研究方向。
-大模型的推理(第10節)
近年來,人工智能技術已經基本實現了視覺、聽覺等感性智能,但實現思維、推理等認知智能仍是一個挑戰。在解決問題的過程中,人類可以通過推理路徑和節點來理解整個過程,但目前的深度學習算法將解決這些問題的大部分視為一個黑盒。為了更好地模擬人類解決問題,推理是一個重要的研究方向。在這一部分中,我們介紹了常識推理的基本概念,包括常識推理的定義、方法和基準。在本節的最后,提出了一些未來的發展方向。
-大模型的可靠性和安全性(第11節)
近年來,人工智能技術正從研究性研究走向我們的日常生活,這是一個不可阻擋的趨勢。人工智能的應用給人們帶來了很多便利,比如人臉識別和信息檢索。然而,這些先進的技術也引起了人們的安全擔憂。在這一部分中,我們介紹了大模型提出的可靠性和安全性問題及其相應的防御方法。此外,還提出了提高BMS可靠性和安全性的若干方向。
-大模型的治理(第12節)
隨著大模型的快速發展,一些安全和倫理問題暴露在公眾面前,這意味著需要建立一個強有力的治理體系。在本節中,首先闡述了大模型治理的定義、實施治理的原因和治理目標。然后對當前治理工作的概況進行了總結和介紹。最后,我們指出了一些有待解決的問題,并提出了一些改進大模型治理的建議。
-大模型評估(第13節)
大模型評價是指對性能、效率等特征進行評價的活動。評價結果對提高模型的可解釋性和指導大模型的修改具有一定的指導意義。因此,大模型評價的研究是值得探討的。在本節中,我們分別介紹了一些現有的性能、效率和多模態評估的基準和相應的數據集,并說明了各個評估方向的幾個問題。在本部分的最后,提出了一些有前景的工作。
上層負責將大模型更好地適應于特定領域,稱為應用層。我們介紹了幾種常見的應用,包括對話、文本生成、機器翻譯、信息檢索和蛋白質預測。
- 機器翻譯中(第14節)
隨著全球化趨勢在現實世界的加快,機器翻譯的應用變得越來越重要。本節將介紹大模型在機器翻譯任務中的應用。我們首先給出了機器翻譯的一些基本信息,然后列出了一系列可以應用于機器翻譯的大模型。然后,提出了翻譯工作的三大類預訓練: 單語預訓練、多語預訓練和語音翻譯預訓練。此外,還提出了基于大模型的機器翻譯評價方法。最后,闡述了該領域面臨的挑戰和未來的發展趨勢。
- 文本生成(第15節)
文本生成是將語言或非語言輸入轉換為文本的任務。目前,大型模型在文本生成任務中表現出了良好的性能。為了更好地理解目前基于大模型的文本生成的工作和未來的發展,我們在這個部分進行了一些討論。我們介紹了三種類型的文本生成任務,它們是文本到文本的生成、數據到文本的生成和視覺到文本的生成。此外,還詳細說明了自回歸和非自回歸的生成方法。為了展示大模型與文本生成任務之間的聯系,本文介紹了一系列已經應用于文本生成的大模型。最后,提出感知世界知識、可控世界知識和無微調世界知識的三個主要探索方向。
- 對話(第16節)
對話是大模型的一個重要的下游應用,它可以實現機器與人之間的交互和溝通。在本節中,我們首先介紹幾個大型的對話模型,如DialoGPT, Meena和EVA。在此基礎上,總結了本文的三個重點研究方向。這些方向包括對話中的人物角色和個性化、對話中的知識增強、對話中的移情和情感支持。接下來,我們介紹了幾個有趣而新穎的對話模式應用場景,并對進一步的開發提出了一些建議。
- 蛋白質預測中(第17節)
了解蛋白質的功能,設計蛋白質的功能,是在治療方面取得突破的關鍵。近年來,大模型在蛋白質建模和預測領域取得了巨大的成功。在本節中,我們首先介紹應用大模型在該領域取得的一些突出進展。這些成果包括蛋白質功能預測、蛋白質結構預測和蛋白質設計。此外,本節最后還討論了蛋白質建模和特定下游任務的一些有價值的研究方向。
使用Python的高級數據科學和分析使數據科學家能夠繼續發展他們的技能,并將其應用于商業和學術設置中。這本書中討論的主題是補充和后續主題討論的數據科學和分析與Python。其目的是使用Python開發的工具,如SciKit-learn、Pandas、Numpy、Beautiful Soup、NLTK、NetworkX等,覆蓋數據科學中重要的高級領域。使用Keras、TensorFlow、Core ML等框架,以及用于iOS和MacOS應用開發的Swift來支持模型開發。