來自天津大學《大型語言模型評估》綜述,為大型語言模型的評估方法提供廣泛的探討
大型語言模型(LLMs)在廣泛的任務范圍內展現了顯著的能力。它們引起了大量的關注,并已被部署在眾多下游應用中。然而,如同一把雙刃劍,LLMs也帶來了潛在的風險。它們可能面臨私人數據泄露的風險,或產生不適當、有害或誤導性的內容。此外,LLMs的快速進步也引發了關于在沒有充分保障的情況下可能出現的超智能系統的擔憂。為了有效地利用LLMs的能力并確保它們的安全和有益的發展,對LLMs進行嚴格和全面的評估至關重要。這項綜述旨在為LLMs的評估提供一個全景式的視角。我們將LLMs的評估分為三大類:知識和能力評估、對齊評估和安全評估。除了對這三個方面的評估方法和基準的全面調研外,我們還匯編了一個關于LLMs在專業領域性能的評估手冊,并討論了建立綜合評估平臺的構建,該平臺涵蓋了LLMs在能力、對齊、安全和適用性上的評估。我們希望這個全面的概述能夠進一步激發對LLMs評估的研究興趣,最終目標是使評估成為指導LLMs負責任發展的基石。我們設想,這將引導它們的發展朝著最大化社會利益同時最小化潛在風險的方向。與此相關的論文列表已在GitHub倉庫上公開。
當我們深入探討智能的概念時,人類智能自然成為我們的基準。幾千年來,人類一直在不斷地探索人類智能,采用多種方法進行測量和評估。對于理解智能的這一追求,包括了從智商測試和認知游戲到教育追求和職業成就的一系列方法。縱觀歷史,我們持續不斷的努力都是為了理解、評估和推動人類智能的各個方面的界限。
然而,在信息時代的背景下,一種新的智能維度正在嶄露頭角,引發了科學家和研究者的廣泛關注:機器智能。這個新興領域的代表之一是自然語言處理(NLP)中的語言模型。這些通常使用強大的深度神經網絡構建的語言模型,具有前所未有的語言理解和生成能力。如何衡量和評估這種新型智能的水平已成為一個關鍵問題。
在NLP的初級階段,研究者們通常采用一套簡單的基準測試來評估他們的語言模型。這些初步的評估主要集中在諸如語法和詞匯之類的方面,包括句法解析、詞義消歧等任務。在1990年代初,MUC評估(Grishman&Sundheim,1996)的出現在NLP社區中標志著一個重要的里程碑。MUC評估主要集中于信息提取任務,挑戰參與者從文本中提取特定信息。這個評估框架在推動信息提取領域的發展中起到了關鍵的作用。隨后,隨著2010年代深度學習的出現,NLP社區采用了更廣泛的基準測試,如SNLI(Bowman等人,2015)和SQuAD(Rajpurkar等人,2016)。這些基準不僅評估系統性能,還為訓練系統提供了大量數據。它們通常根據采用的評估指標為模型分配個別分數,以方便測量任務特定的準確性。
隨著BERT(Devlin等人,2019)等大規模預訓練語言模型的出現,評估方法已逐漸發展以適應這些新型通用模型的性能評估。為了應對這種范式轉變,NLP社區主動組織了許多共享任務和挑戰,包括但不限于SemEval(Nakov等人,2019)、CoNLL(Sang&Meulder,2003)、GLUE(Wang等人,2019b)、SuperGLUE(Wang等人,2019a)和XNLI(Conneau等人,2018)。這些努力需要為每個模型聚合分數,為其整體性能提供一個整體的衡量。反過來,它們推動了NLP評估方法的持續完善,為研究者提供了一個動態的舞臺來比較和對比不同系統的能力。
隨著語言模型規模的持續擴展,大型語言模型(LLMs)在零樣本和少樣本環境下都表現出了引人注目的性能,與經過微調的預訓練模型相媲美。這一變化引發了評估景觀的轉變,從傳統的任務中心基準轉向能力中心評估的關注。不同下游任務之間的劃界線已開始變得模糊。與此趨勢相伴隨的是,旨在評估知識、推理和其他各種能力的評估基準的評估范圍也在擴大。許多這些基準都是以放棄訓練數據為特點,并設計有提供模型在零樣本和少樣本設置下的綜合評估的總體目標(Hendrycks等人,2021b;Zhong等人,2023;Zhang等人,2023b;Li等人,2023e)。
ChatGPT(OpenAI,2022)鮮明地展示了LLMs被大眾迅速采納,僅在發布后的兩個月內,其用戶數量就超過了1億。這一前所未有的增長突顯了這些模型的變革能力,包括自然文本生成(Brown等人,2020)、代碼生成(Chen等人,2021)和工具使用(Nakano等人,2021)。然而,除了他們的承諾外,人們還對這種能力強大的模型在沒有進行徹底和綜合評估的情況下大規模部署可能帶來的風險提出了擔憂。如加劇偏見、傳播誤信息和妥協隱私等關鍵問題需要得到嚴格解決。為了回應這些擔憂,研究領域出現了一個專門的研究方向,重點在于實證評估LLMs與人類偏好和價值觀的對齊程度。與以往的研究主要關注能力不同,這一研究方向旨在指導LLMs的進步和應用,使其最大限度地發揮其益處,同時積極地減輕風險。
此外,LLMs的日益增多的使用以及它們在現實世界環境中不斷增長的整合強調了基于LLMs的先進AI系統和代理對人類社會產生的深遠影響。在部署這些先進的AI系統之前,必須優先考慮LLMs的安全性和可靠性。我們為與LLMs相關的一系列安全問題(如魯棒性和災難性風險)提供了一個全面的探討。盡管這些風險可能尚未完全實現并在目前顯現,但先進的LLMs已經通過揭示指示災難性風險的行為和在當前評估中展示執行高階任務的能力表現出了某些傾向。因此,我們認為,討論評估這些風險對于指導LLMs安全研究的未來方向至關重要。
盡管已經開發了許多基準來評估LLMs的能力和與人類價值觀的一致性,但這些基準通常只集中于單一任務或領域內的表現。為了使LLM的評估更為全面,這份調查提供了一個系統的文獻綜述,綜合了評估這些模型在各種維度上的努力。我們總結了關于一般LLM基準和評估方法的關鍵點,涵蓋知識、推理、工具學習、毒性、真實性、魯棒性和隱私等方面。
我們的工作顯著地擴展了Chang等人(2023)和Liu等人(2023i)最近對LLM評估的兩項調查。雖然是同時進行的,但我們的調查與這些現有的評論采取了一個不同的方法。Chang等人(2023)圍繞評估任務、數據集和方法結構化他們的分析。與此相反,我們的調查在這些類別之間整合見解,以提供LLM評估中關鍵進展和局限性的更全面的描述。此外,Liu等人(2023i)主要將他們的評論重點放在LLMs的對齊評估上。我們的調查擴大了范圍,綜合了LLMs的能力和對齊評估的研究結果。通過從一個整合的視角和擴展的范圍來補充這些先前的調查,我們的工作為LLM評估研究的當前狀態提供了一個全面的概述。我們的調查與這兩項相關工作之間的區別進一步突顯了我們的研究對文獻的新穎貢獻。
分類法與路線圖
本綜述的主要目標是精心分類LLMs的評估,為讀者提供一個結構良好的分類框架。通過這個框架,讀者可以深入了解LLMs在多個關鍵領域的表現及其相應的挑戰。 眾多研究認為,LLMs的能力基石在于知識和推理,這是它們在眾多任務中表現出色的基礎。盡管如此,有效地應用這些能力需要仔細檢查對齊問題,以確保模型的輸出與用戶的期望保持一致。此外,LLMs容易受到惡意利用或無意的誤用,這強調了安全考慮的緊迫性。一旦解決了對齊和安全問題,LLMs就可以在專業領域中審慎部署,催化任務自動化并促進智能決策。因此,我們的總體目標是深入研究這五個基本領域及其各自的子領域的評估,如圖1所示。
Section 3: “Knowledge and Capability Evaluation”
這一部分主要關注于全面評估LLMs所展現出的基本知識和推理能力。這部分詳細地分為四個子部分:問答、知識補全、推理和工具學習。問答和知識補全任務是衡量知識實際應用的基本評估,而各種推理任務則是探測LLMs的元推理和復雜推理能力的試金石。此外,還強調了工具學習的特殊能力,并展示了它在使模型熟練處理和生成特定領域內容方面的重要性。
Section 4: “Alignment Evaluation”
這一部分專注于LLMs在關鍵維度上的表現,包括倫理考慮、道德含義、偏見檢測、毒性評估和真實性評估。這里的主要目的是審查并減少可能出現在倫理、偏見和毒性領域的潛在風險,因為LLMs可能無意中生成歧視、偏見或冒犯的內容。此外,這一部分還提及LLMs中的幻覺現象,這可能導致誤傳假消息。因此,這個評估的一個不可或缺的方面涉及對真實性的嚴格評估,強調其作為評估和糾正的基本方面的重要性。
Section 5: “Safety Evaluation”
這部分對LLMs的魯棒性和在人工通用智能(AGI)背景下的評估進行了全面探索。LLMs經常被部署在真實世界的場景中,其中它們的魯棒性變得至關重要。魯棒性使它們能夠應對來自用戶和環境的干擾,同時還可以防范惡意攻擊和欺騙,從而確保始終保持高水平的性能。此外,隨著LLMs不可避免地向人類水平的能力發展,評估擴大了其視野,包括更深入的安全問題。這些問題包括但不限于尋求權力的行為和發展情境意識,這些因素需要進行詳細的評估,以防范未知的挑戰。
Section 6: “Specialized LLMs Evaluation”
這部分作為LLMs評估范例在多個專業領域的擴展。在這部分中,我們將關注特別為特定領域應用而定制的LLMs的評估。我們的選擇包括目前突出的專業LLMs,涵蓋生物學、教育、法律、計算機科學和金融等領域。這里的目標是系統地評估它們在面對領域特定挑戰和復雜性時的能力和局限性。
Section 7: “Evaluation Organization”
這部分作為對評估LLMs的常用基準和方法的全面介紹。鑒于LLMs的快速增長,用戶面臨著識別最合適的模型以滿足其特定要求的挑戰,同時最大限度地減少評估的范圍。在這種背景下,我們提供了一個關于公認和廣泛認可的基準評估的概述。這有助于用戶在選擇適合其特定需求的LLM時做出明智和知情的決策。
請注意,我們的分類框架并不聲稱全面涵蓋評估領域的所有內容。本質上,我們的目標是回答以下基本問題: ? LLMs有哪些能力? ? 部署LLMs時必須考慮哪些因素? ? LLMs在哪些領域可以找到實際應用? ? LLMs在這些不同的領域中的表現如何? 我們現在將開始對LLM評估分類法中的每一類進行深入探討,依次討論能力、關注點、應用和性能。
**結論 **
LLMs的發展速度令人震驚,它在許多任務中都展現出了顯著的進步。然而,盡管開啟了人工智能的新時代,我們對這種新型的智能理解仍然相對有限。界定這些LLMs的能力邊界、理解它們在各個領域的性能,并探索如何更有效地發揮它們的潛力是至關重要的。這需要一個全面的基準框架來指導LLMs的發展方向。本次調查系統地闡述了LLMs的核心能力,涵蓋了如知識和推理等關鍵方面。此外,我們深入探討了對齊評估和安全評估,包括倫理關切、偏見、毒性和真實性,以確保LLMs的安全、可信和倫理應用。同時,我們探討了LLMs在不同領域的潛在應用,包括生物學、教育、法律、計算機科學和金融。最重要的是,我們提供了一系列受歡迎的基準評估,以幫助研究人員、開發人員和從業者理解和評估LLMs的性能。 我們期望這次調查會推動LLMs評估的發展,為這些模型的受控進步提供明確的指導。這將使LLMs更好地為社區和全球服務,確保它們在各個領域的應用是安全、可靠和有益的。我們懷著熱切的期望,擁抱LLMs的發展和評估的未來挑戰。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
確保對齊,也就是使模型按照人類的意圖行事[1, 2],已經成為在實際應用中部署大型語言模型(LLMs)之前的關鍵任務。例如,OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而,實踐者面臨的一個主要挑戰是缺乏明確的指導方針,以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。
為了解決這個問題,本文提出了一個全面的調查,探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別進行進一步研究,在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明,總的來說,對齊度更高的模型在整體可信度方面表現得更好。然而,對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。
通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。
//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f
自然語言處理(NLP)的格局隨著大型語言模型(LLMs)的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大,通常達到數十億,且在大量的數據語料庫上進行訓練[4]。近年來,LLMs的影響確實是革命性的,它們徹底改變了學術研究和各種工業應用。值得注意的是,OpenAI開發的LLMs,包括ChatGPT [5, 6],取得了卓越的成功,其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型(LLMs)變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。
在過去,早期版本的LLMs,如GPT-3 [8],能夠生成有意義和信息豐富的文本。但是,它們存在許多問題,嚴重影響了它們的可靠性和安全性。例如,這些模型容易生成事實上不正確的文本,包含有錯覺。此外,生成的內容經常展現出偏見,進一步加強刻板印象和社會偏見。而且,LLMs傾向于生成社會上破壞性的內容,包括有毒的語言,這對它們的可靠性和實用性產生了不良影響。此外,它們容易被誤用,導致產生有害的宣傳,這對它們負責任的部署帶來了重大關切。此外,人們發現LLMs容易受到對抗性攻擊,如提示攻擊,進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響,尤其是當它們對公眾開放時。為了應對這些挑戰,研究人員和開發人員一直在努力改進對齊技術,使LLMs變得更可靠、更安全,并與人類價值觀更為一致。通過減輕這些問題,可以充分利用LLMs的潛在好處,同時將誤用的風險降到最低。
觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督,這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素,包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15],有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs,結果,LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外,單純地優化訓練和生成文本的目標函數,而不考慮人類價值觀,也是另一個原因。需要注意的是,確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰,研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟,確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。
后者達到了令人印象深刻的里程碑,在發布僅兩個月內吸引了1億用戶,使其成為歷史上增長最快的平臺。這一成就并不令人驚訝,因為對齊不僅減少了LLMs生成有害輸出的可能性,而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術,LLMs變得更加可靠、安全,并與人類價值觀更加和諧,從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路,釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。
然而,盡管對齊是LLMs受歡迎的核心技術,但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰,目前沒有明確和有原則的指導可供參考。特別地,缺乏既定和統一的討論,涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素,其中一個值得注意的一般指導原則是“HHH" 原則[20],主張對齊應該是有幫助的、誠實的和無害的。此外,[21]中提出了一個與構建LLMs相關的風險分類,包括六個風險:(1) 歧視、排斥和有毒性,(2) 信息危害,(3) 虛假信息危害,(4) 惡意使用,(5) 人機交互危害,以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋,但它可以進一步解開每一個維度。
此外,像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查,包括文本、圖像、視頻和音頻等各種類型。然而,我們的重點特別是在語言模型上,探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外,[23]以全面的方式評估了LLMs,包括一些值得信賴的類別,但它并沒有單獨解決可信性和對齊問題。據我們所知,一個被廣泛接受的評估LLM對齊的分類法尚未出現,目前的對齊分類法缺乏進行全面評估所需的精細度。
鑒于確保LLMs的可信度和其負責任的部署的重要性,開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解,而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中,我們提出了一個更為細致的LLM對齊要求分類體系,它不僅可以幫助從業者解開和理解對齊的維度,還為數據收集努力提供了可行的指導方針,以開發出可取的對齊過程。例如,“有害”內容的概念可以進一步細分為對個人用戶造成的傷害(如情感傷害、冒犯和歧視)、對社會造成的傷害(如創造暴力或危險行為的指導)或對利益相關者造成的傷害(如提供導致錯誤業務決策的誤導信息)。在Anthropic發布的對齊數據[18]中,存在一個在不同考慮因素之間的明顯的不平衡(附錄A的圖46)。例如,盡管“暴力”類別出現的頻率極高,“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事,因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的(第11節),與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此,我們有強烈的動機去構建一個框架,以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先,我們深入地調查了可能重要的LLMs的類別,根據我們對文獻和公眾討論的閱讀,為從業者關注以提高LLMs的可信度。其次,我們詳細解釋如何根據上述類別評估LLM的可信度,以及如何相應地構建對齊的評估數據集。此外,我們為廣泛使用的LLMs提供了測量研究,并顯示即使被廣泛認為是良好對齊的LLMs,也可能不滿足一些對齊任務的標準,從而突顯了我們對更細致的對齊評估的建議。第三,我們證明我們構建的評估數據集也可以用來執行對齊,并展示了這種更有針對性的對齊的有效性。
路線圖。本文的組織結構如下。首先,我們在第2節介紹LLMs和對齊的必要背景。然后,在第3節,我們對提議的LLMs對齊分類提供一個高層次的概述。之后,在第4-10節,我們詳細解釋每個單獨的對齊類別。在每一節中,我們針對一個被考慮的類別,為其重要性提供論據,調查文獻中存在的問題和相應的潛在解決方案(如果存在的話),并通過案例研究來說明問題。調查之后,我們在第11節提供了一個指南,介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節,我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后,在第12節,我們通過討論潛在的機會和挑戰來總結本文。
方法概述
圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別,每個類別進一步細分為更詳細的討論,總共有29個子類別。以下是每個類別的概述:
當前LLM應用
為了說明我們如何確定建議的分類法,我們首先簡要概述了圖4中LLM的當前主要應用,這在很大程度上影響了我們選擇分類法的方式。不用說,考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法,圖4中涵蓋的應用是不盡的。
我們如何確定分類法
我們通過兩個主要因素確定類別和子類別:(1)對LLM應用的影響以及(2)現有文獻。首先,我們考慮如果某個信任度類別未能滿足期望,會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外,我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如,我們認為可靠性是一個主要的關注點,因為幻覺目前是LLM中一個眾所周知的問題,它可以顯著損害其輸出的信任度,幾乎所有的LLM應用(可能除了創意寫作)都會受到事實錯誤答案的負面影響。而根據應用的風險有多高,它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯,我們認為安全性是一個重要的話題,因為它幾乎影響到所有的應用和用戶,不安全的輸出可能會對用戶造成多種心理傷害,對平臺造成公關風險。公平性很重要,因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視,降低用戶信任,對部署者產生負面的公眾意見,并違反反歧視法。此外,抵抗誤用實際上是必要的,因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地,可解釋性為用戶帶來了更多的透明度,與社會規范保持一致確保了LLM不會引起情感傷害,改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意,我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上,我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考,徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。
結論
在本文中,我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法,并討論了在這些維度上對齊的挑戰。我們還查閱了文獻,尋找相應的潛在解決方案(如果存在的話)。除了我們提議的分類法,我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到,更加對齊的LLM(基于公開聲明的已執行對齊信息)通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。
大型語言模型(LLMs)展示了出色的泛化能力,這促進了眾多模型的發展。這些模型提出了各種新的架構,微調了現有架構的訓練策略,增加了上下文長度,使用了高質量的訓練數據,并增加了訓練時間,以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類,訓練策略,訓練數據集,性能評估,并討論了未來的研究方向。此外,這篇論文還討論了LLMs背后的基本構建模塊和概念,然后對LLMs的重要特性和功能進行了全面概述。最后,這篇論文總結了LLMs研究的重要發現,并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展,我們打算定期更新這篇論文,通過添加新的部分并展示最新的LLMs模型。
//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652
1. 引言
語言在人類的交流和自我表達中起著基礎性的作用,同樣,通信對于機器與人類和其他系統的互動也極為重要。大型語言模型(LLMs)已經成為處理和生成文本的尖端人工智能系統,旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求,包括翻譯,摘要,信息檢索和對話交互。最近,語言模型方面取得了顯著的突破,主要歸功于深度學習技術,像transformers這樣的神經結構的進步,增加的計算能力,以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變,使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型(LLMs)成為可能[3],[4]。尤其是預訓練語言模型(PLM),在大規模文本語料庫的自監督設置下訓練,展示了對于文本理解和生成任務的巨大泛化能力[5],[6],[7]。當預訓練語言模型(PLMs)微調用于下游任務時,其性能顯著提升,超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs,他們發現,進一步擴大模型和數據集的規模可以提高泛化能力。
如今,現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務,在零樣本和少樣本的情況下,甚至不需要在下游任務上進行任何微調就能做到這一點[8],[9],[10]。以前,較小的模型無法達到這樣的泛化,這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮,導致了眾多LLMs的開發[11],[12],[13],[8],[9],[10],[14]。圖1展示的圖表顯示了隨著時間的推移,發布的LLMs數量(包括開源和閉源模型)的增加趨勢。此外,圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型(LLMs)的早期階段,許多研究工作都集中在為下游任務開發轉移學習的模型[11],[12],[15],直到像GPT-3這樣的模型的出現[8],即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質,人們對開源替代品有需求,這導致了各種模型的開發[9],[10],這些模型與GPT-3的規模相當,并在廣泛的基于網絡的數據集上進行訓練[16],[17],[18],[19]。隨后,研究人員提出了幾種架構設計和訓練策略,這些設計和策略在各種任務上顯示出優于GPT-3的性能[15],[14],[20],[21]。
LLMs的性能可以通過指令微調進一步提高,超越了在各種基準測試中預訓練的LLMs的表現[22],[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法,以指導輸出,從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令,也可以是根據任務需求的示例演示。在文獻中,已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務,進一步提高了對基線的性能[24],[23],[25],[26]。進行指令微調時,需要更新所有的模型參數。然而,參數效率微調采取了不同的方法,只更新少數參數,同時仍然保持良好的性能。這種方法保持原模型不變,而在模型的不同位置添加少量額外的參數[27],[28],[29],[30],[31]。這種方法有助于實現高效的微調,同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外,還有一篇全面的評論可供參考,涵蓋了架構,微調,新能力,以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而,這些評論論文并未深入探討個別模型的具體細節,只提供了對架構和訓練方法的表面理解。相反,我們的論文旨在通過討論細節,提供更深入的分析單個LLMs。
大型語言模型(LLMs)的架構、訓練數據集以及其他顆粒度方面的細節,特別是從歷史的角度來看,缺乏全面和詳細的討論,這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析,深入探討其開發、架構、訓練數據集和相關組件的細節。
據我們所知,這是第一篇討論LLMs細節的全面調查論文。 我們對各種LLMs架構及其分類進行了深入分析。此外,我們還討論了LLMs的基礎知識,以使對LLMs不熟悉的讀者能夠自給自足,從而使論文更具生產力。 我們的論文側重于為每一個LLM模型提供全面的細節,并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。 我們的目標是在我們的論文中總結這些關鍵細節,以幫助研究人員在他們的工作中確定更好的架構和訓練方法。
我們的論文補充了一篇關于LLMs的最新綜述論文[33],其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息,但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個,或者更多,類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35],[36],[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景,簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準,然后在結論部分給出了總結和未來方向。
增強型語言模型:一項綜述
這次演講聚焦于最近的一些研究,這些研究中語言模型(LMs)被賦予了推理能力和使用工具的能力。前者被定義為將可能復雜的任務分解為更簡單的子任務,而后者包括調用外部模塊,如代碼解釋器。LMs可以單獨或通過啟發式方法結合這些增強效果,或者從示例中學習如何這樣做。在堅持標準的缺失令牌預測目標的同時,這種增強型LMs可以使用各種可能的非參數化的外部模塊來擴展其上下文處理能力,從而偏離純語言建模范式,并被稱為增強型語言模型(ALMs)。缺失令牌的目標允許ALMs學習推理,使用工具,甚至行動,同時仍然執行標準的自然語言任務,并在幾個基準測試上超過大多數常規的LMs。
大型語言模型(如GPT-3、GPT-4、TNLG、T-5等LLM)在標準基準上表現出非常高的性能,這是因為它們的參數數量高、訓練數據集非常大、計算量很大。盡管這些模型中的高參數數量導致了更強的表達能力,但它也可能導致更高的記憶能力,再加上未經驗證的大型網絡抓取數據集,可能會造成多種不同的負面社會和道德影響: 隱私、敏感信息的泄露——即LLM是“泄漏的”,生成有偏見的文本,即。LLM是“狡猾的,產生仇恨或刻板印象的文本-即LLM是“令人毛骨悚然的”。在本次演講中,我將介紹上述問題如何影響LLM的可信性,并重點介紹我們如何測量這些模型的泄漏和記憶。最后,我將討論大型LLM的隱私保護實際意味著什么,以及使大型模型可信的未來研究方向。
機器學習的最新進展提高了源代碼的理解和生成,從而在各種軟件工程任務中取得了更好的性能。在大規模代碼庫上進行預訓練的編程語言模型(Programming language model, PLM)在代碼摘要、代碼翻譯和程序合成等任務中顯示出良好的效果。然而,目前的方法主要依賴于直接從文本生成文獻中借鑒的有監督的微調目標,而忽略了代碼特定的功能,如語法和功能正確性。在本次演講中,我將介紹保留生成代碼的語法和數據流的各種機制,然后描述我們的新框架PPOCoder,它將預訓練代碼PLM與深度強化學習相結合,并將執行反饋作為模型優化過程的外部知識來源。我將通過討論CodeAttack框架來結束這次演講,這是一個簡單但有效的黑盒攻擊模型,用于生成對抗代碼樣本,可以檢測code PLM中的漏洞。
講者:Chandan Reddy是弗吉尼亞理工大學計算機科學系的教授,他擁有康奈爾大學的博士學位和密歇根州立大學的碩士學位。他的主要研究興趣是機器學習和自然語言處理及其在醫療保健、軟件、交通和電子商務中的應用。他的研究得到了NSF、NIH、DOE、DOT和各種行業的資助。他在領先的會議和期刊上發表了160多篇同行評議的文章。他的研究工作獲得了多個獎項,包括2010年ACM SIGKDD會議的最佳應用論文獎,2014年IEEE VAST會議的最佳海報獎,2016年IEEE ICDM會議的最佳學生論文獎,并在2011年INFORMS Franz Edelman Award競賽中入圍。他是ACM TKDD、ACM TIST和IEEE大數據期刊的編輯委員會成員。他是IEEE的高級成員和ACM的杰出成員。
本教程介紹常用的處理多語言語料庫的方法,并討論了它們各自的優缺點。然后,研討會通過一個應用的例子,包括免費機器翻譯,多語言句子和單詞嵌入,以及時間允許的多語言Transformer。
大部分的政治文本集是多語言的,主要是進行比較定量分析。然而,現有的跨語言文本分析方法需要依賴語言上合格的人工編碼人員、人工翻譯人員或可靠的機器翻譯,因此往往阻礙了比較研究。在本文中,我提出了一種依賴于多語言文本嵌入的替代方法:使用公開的多語言模型將不同語言編寫的文本嵌入到一個聯合語義空間中。然后將得到的文本嵌入作為輸入來訓練監督機器學習分類器。為了驗證所提出的方法,我在三個不同的政治語料庫上進行了一系列的文本分類實驗。這些實驗表明,訓練于多語言文本嵌入的分類器通過了三個重要的測試:它們對伸出文本的分類與訓練于單語言或翻譯文本的可比分類器一樣準確。它們在不同語言間的執行大體上是一致的。他們對用訓練數據中沒有的語言編寫的文本進行分類,預測性能幾乎沒有損失。綜合來看,這些結果為多語言文本嵌入提供了一種可靠的、可復制的、經濟有效的多語言文本分類方法。因此,這項研究有助于新興的方法論文獻在政治科學的多語種定量文本分析。
信息檢索的核心是從大規模資源中識別出相關信息,并以排序列表的形式返回,以響應用戶的信息需求。近年來,隨著深度學習的興起,這一領域得到了極大的發展,神經信息檢索(NeuIR)成為一個熱門話題,尤其是預訓練方法范式(PTMs)。預訓練模型具有復雜的預訓練目標和龐大的模型規模,可以從海量文本數據中學習通用語言表示,這有利于IR的排序任務。由于已經有大量的工作致力于PTMs在IR中的應用,我們認為現在是總結現狀,學習現有方法,并獲得一些對未來發展的見解的時候了。本文綜述了信息檢索系統中檢索分量、重排序分量和其他分量的PTMs應用情況。此外,我們還介紹了專門為IR設計的PTMs,并總結了可用的數據集和基準排行榜。此外,我們討論了一些開放的挑戰和展望了一些有前途的方向,希望為未來的研究激發更多關于這些主題的工作。
導論
信息檢索(IR)是許多實際應用中的一項基本任務,例如數字圖書館、Web搜索、問題回答系統等等。信息檢索的核心是從大量的信息收集中識別出與用戶信息需求相關的信息資源(如查詢或問題)。由于可能有各種相關資源,返回的結果通常是根據文檔與信息需求的相關性程度排列的文檔列表。這種排序特性使其不同于其他任務,研究人員已經投入了大量的精力來開發各種IR排序模型。
在過去的幾十年中,人們提出并研究了許多不同的排序模型,包括向量空間模型(Salton et al., 1975),概率模型(Robertson and Jones, 1976b),以及學習排序(LTR)模型(Li, 2011)。這些方法已經成功地應用于許多不同的IR應用中,例如谷歌這樣的網絡搜索引擎,今日頭條這樣的新聞推薦系統,Quora這樣的社區問答平臺等等。近年來,各種各樣的神經排序模型被提出,促使了一個名為NeuIR(即神經信息檢索)的熱門話題。與以往依賴手工構造特征和統計方法的非神經模型不同,神經排序模型可以自動從數據中學習低維連續向量(即潛在表示)作為排序特征,從而避免了復雜的特征工程。盡管神經模型在IR中取得了成功,但一個主要的性能瓶頸在于大規模、高質量和標記的數據集的可用性,因為深度神經模型通常有大量的參數需要學習。
近年來,預訓練方法(PTMs)帶來了一場風暴,并推動了自然語言處理(NLP)的范式轉變(Qiu et al., 2020)。其思想是首先通過自監督訓練目標在大規模語料庫中對模型進行預訓練,然后對預訓練模型進行微調,以實現最先進的性能。正如最近的工作所證明的那樣(Peters等人,2018b;Howard和Ruder, 2018),這些預先訓練的模型能夠捕獲相當數量的詞匯知識和事實知識,這對下游任務是有益的,可以避免從頭學習這些知識。此外,隨著計算能力的增加和Transformer架構的出現(Vaswani et al., 2017),我們可以進一步將預訓練模型的參數規模從百萬級提升到十億級(例如BERT (Devlin et al., 2018)和GPT-3 (Brown et al., 2020b)),甚至萬億級(例如,SwitchTransformers (Fedus et al ., 2021))。這兩個特性都是在IR中對模型進行排序所需要的特性。目前,預訓練的模型在具有自監督建模目標的大型文本語料庫上進行預訓練,能夠更好地理解查詢和文檔語義背后的意圖。另一方面,具有深度堆疊變換器的大規模預訓練模型具有足夠的建模能力來學習查詢和文檔之間的復雜關聯模式。由于這些潛在的好處,加上預期在IR中使用PTMs也可以取得類似的成功,我們已經見證了在IR中利用PTMs 的研究興趣的爆炸性增長(Croft et al., 2009; Manning et al., 2005)。注意,在這個綜述中,我們關注的是文本檢索中的PTMs,這是IR的核心。對基于內容的圖像檢索(Dubey, 2020)或多模態檢索中PTMs感興趣的讀者可以參考(Fei et al., 2021)。
到目前為止,已有大量的研究致力于PTMs在IR中的應用。在學術上,研究者對PTMs在IR中的應用進行了各種創新和創新。例如,早期的嘗試試圖將從預訓練模型中學習到的知識直接遷移到排序模型中,并取得了一些顯著的成果(Nogueira and Cho, 2019; Dai and Callan, 2019b)。更近期的工作提出通過改變模型架構來推廣現有的預訓練模型(MacAvaney et al., 2020; Khattab and Zaharia, 2020; Gao and Callan, 2021a)或考慮新的預訓練目標(Chang et al., 2019; Ma et al., 2021b; Ma et al., 2021c),較好地滿足IR的要求。與此同時,在行業中,谷歌2019年10月的博客文章和Bing 2019年11月的博客文章都表明,預訓練的排序模型(例如,基于BERT的模型)可以更好地理解查詢意圖,并在實際的搜索系統中提供更有用的結果。此外,看看今天的排行榜,我們可以看到,大多數排名靠前的方法都是基于PTMs構建的,只要看看這些提交的名稱。考慮到在IR中關于PTMs的研究越來越多,我們認為現在是時候調查現狀,學習現有方法,并為未來的發展獲得一些見解。
本次綜述的結構安排如下。我們將首先在第2節提供IR的系統概述。在此之后,我們在第3至5節中分別回顧了應用于檢索組件、重新排序組件和其他組件的PTMs的工作。第六部分,我們介紹了為IR量身定做的新型PTMs的設計工作。我們還在第7部分總結了可用的大型數據集和流行的基準排行榜。最后,我們在第8節對本文進行了總結,并提出了一些未來研究的方向。
機器翻譯能夠實現多種語言之間的自動翻譯,方便人類的溝通和交流,具有重要的研究價值。神經機器翻譯(NMT)是一種端到端的自動翻譯系統。統計機器翻譯方法(SMT)曾經是研究最多,最為成功的機器翻譯系統。2014年基于神經網絡的NMT推出以后,由于其存在許多缺陷,發展已經進入低谷。傳統的NMT存在缺乏穩定性,計算耗時等問題。2016年,谷歌公司推出了神經機器翻譯系統GNMT。來自紐約大學Kyunghyun Cho副教授講解了《機器翻譯》最新進展,50頁ppt