17種大模型因果推斷專門評估論文
因果推斷是人類智能的標志之一。盡管近年來CausalNLP領域引起了廣泛的關注,但是現有的NLP領域的因果推斷數據集主要依賴于從經驗知識(例如常識知識)中發現因果關系。在這項工作中,我們提出了第一個用于測試大型語言模型(LLMs)純因果推斷能力的基準數據集。具體來說,我們設計了一個新的任務CORR2CAUSE,它接收一組相關性聲明,并確定變量之間的因果關系。我們整理了一個超過400K樣本的大規模數據集,我們在此數據集上評估了十七種現有的LLMs。通過我們的實驗,我們發現了LLMs在因果推斷能力方面的一個關鍵短板,并且表明這些模型在任務上的表現幾乎接近隨機性。當我們試圖通過微調重新定位LLMs來增強這項技能時,這種短板有所緩解,但我們發現這些模型仍然無法泛化——它們只能在變量名稱和用于查詢的文本表達與訓練集相似的分布內設置中進行因果推斷,但在通過擾動這些查詢生成的分布外設置中失敗。CORR2CAUSE對于LLMs來說是一個具有挑戰性的任務,并將有助于指導未來關于提高LLMs的純推理能力和泛化性的研究。
因果推斷是人類智能中至關重要的推理能力。它是推理的一個基本方面,涉及建立變量或事件之間正確的因果關系。大致上,有兩種不同的方式可以獲得因果性:一種是通過經驗知識,例如,我們從常識中知道為朋友準備生日聚會會讓他們開心;另一種是通過純因果推理,因為可以使用來自因果推斷的已知程序和規則(Spirtes等人,2000;Pearl,2009;Peters等人,2017)正式論證和推理出因果關系。例如,我們知道僅知道A與B相關并不意味著A導致B。我們也知道從純因果推斷中,特別是從因果發現的研究(Spirtes等人,2000;Spirtes和Zhang,2016;Glymour等人,2019)中得到的另一個屬性,即如果A和B原本是相互獨立的,但在給定C的條件下變得相關,那么我們可以推斷,在這個封閉系統中,C是A和B的共同效應,如圖1所示。這種碰撞現象可以用來否認A和B之間的因果關系,無論變量A、B和C采取何種實現方式。
我們將這個任務形式化為NLP的一個新任務,即相關性到因果性推斷(CORR2CAUSE),并認為這是大型語言模型(LLMs)必備的技能。想象圖1中的場景,在訓練語料庫中有大量的相關性,比如疫苗這個詞與疾病病例增加數量的相關性。如果我們認為LLMs(Radford等人,2019;Devlin等人,2019;Ouyang等人,2022;Zhang等人,2022;OpenAI,2023等)的成功在于捕獲了術語之間的大量統計相關性(Bender等人,2021),那么至關重要但缺失的一步就是如何處理這種相關性并推斷出因果關系,其中一個基本構件就是這個CORR2CAUSE推斷技能。
為此,我們收集了第一個數據集CORR2CAUSE,用于測試大型語言模型的純因果推理能力。這個數據集中的所有問題都圍繞著何時可以從相關性推斷因果性,何時不可以進行測試。為了系統地編制這個數據集,我們將我們的泛化過程基于因果發現的正式框架(Spirtes等人,1993,2000;Glymour等人,2016;Spirtes和Zhang,2016;Glymour等人,2019),該框架提供了如何根據觀察數據中的統計相關性推斷變量之間的因果關系的規則。我們生成了超過400K的數據點,并且只有當統計相關性與潛在的因果關系之間存在一一映射時,我們才將相關性-因果性聲明對標記為有效。基于我們擁有400K樣本的CORR2CAUSE數據集,我們調查了兩個主要的研究問題:(1)現有的LLMs在這個任務上的表現如何?(2)現有的LLMs是否可以在這個任務上進行重新訓練或者重新定位,并獲得強大的因果推理技能?通過大量的實驗,我們從經驗上顯示,我們調查的十七種現有的LLMs沒有一種在這個純因果推理任務上表現良好。我們還顯示,盡管LLMs在數據上微調后可以表現出更好的性能,但是它們獲得的因果推理技能并不強大。總的來說,我們的貢獻如下:
我們提出了新的任務CORR2CAUSE,用來探測LLMs推理能力的一個方面,即純因果推理;
我們根據因果發現的洞察,編制了一個包含超過400K樣本的數據集;
我們評估了十七種LLMs在我們的數據集上的性能,發現它們都表現不佳,接近隨機基線;
我們進一步探索了LLMs是否可以通過微調來學習這項技能,并發現LLMs在處理分布外擾動時無法穩定地掌握這項技能,我們建議未來的工作探索更多方法來增強LLMs的純因果推理技能。
數據構建
我們在這一部分介紹我們的數據集的構建過程。我們從CORR2CAUSE的任務定義開始,然后簡要概述數據生成過程,接著詳細描述每個步驟。我們在本節的結尾給出了數據集的總體統計信息。
實驗結果
我們為我們的CORR2CAUSE數據集的實驗準備了一份多樣化的LLMs列表。為了測試現有的LLMs,我們首先包括了在transformers庫(Wolf et al., 2020)中下載次數最多的六種常用BERT-based NLI模型:BERT(Devlin et al., 2019)、RoBERTa(Liu et al., 2019)、BART(Lewis et al., 2020)、DeBERTa(He et al., 2021)、DistilBERT(Sanh et al., 2019)和DistilBART(Shleifer和Rush,2020)。除了這些基于BERT的NLI模型,我們還評估了基于GPT(Radford et al., 2019)的通用自回歸LLMs:GPT-3 Ada、Babbage、Curie、Davinci(Brown et al., 2020);它的指令調整版本(Ouyang et al., 2022),text-davinci-001、text-davinci-002和text-davinci-003;以及GPT-3.5(即,ChatGPT)和最新的GPT-4(OpenAI,2023),使用OpenAI API2,溫度為0。我們還評估了最近的,更高效的模型LLaMa(Touvron et al., 2023)和Alpaca(Taori et al., 2023)。 當我們觀察微調模型的表現時,我們選用了一大批模型,包括使用OpenAI微調API進行分類的GPT模型(GPT-3 Ada、Babbage、Curie和Davinci),從頭開始的BERT模型(BERT-Base、BERT-Large、RoBERTa-Base和RoBERTa-Large),以及使用transformers庫(Wolf et al., 2020)的基于BERT的NLI模型(BERT-Base MNLI、BERT-Large MNLI、RoBERTaBase MNLI和RoBERTa-Large MNLI)。我們的訓練細節在附錄A中提供。
我們在表4中展示了LLMs的性能。我們可以看到,純粹的因果推理對所有現有的LLMs來說都是一個非常具有挑戰性的任務。在所有的LLMs中,性能最好的是BART MNLI的33.38% F1,這甚至超過了最新的基于GPT的模型,GPT-4。值得注意的是,許多模型比隨機猜測還要差,這意味著他們在這個純粹的因果推理任務上完全失敗了。
我們識別出了這項工作的幾個局限性,并提出了未來的研究方向:首先,在這項工作的背景下,我們將因果圖的節點限制在二至六個,但未來的工作可以自由地探索更大的圖。另一個方面是,我們在這個推斷問題中并沒有假設存在隱藏的混淆因素,因此我們歡迎未來的工作生成一個更具挑戰性的數據集,來推斷隱藏混淆因素的存在,類似于快速因果推斷(Fast Causal Inference,FCI)(Spirtes 等人,2000)的因果發現算法。最后,提出這項任務的很大一部分動機是由我們日常推理中無效推理模式的問題啟發的(Jin等人,2022),這可能為更廣泛的假新聞傳播提供了肥沃的土壤。我們認為錯誤的因果推斷是一種普遍的謬誤信念,并歡迎未來的工作將這個基準的想法與更多基于混淆相關性和因果性的真實世界錯誤信念聯系起來。
實驗結論
在這項工作中,我們引入了一項新的任務,即從相關性推斷因果關系的CORR2CAUSE,并收集了超過40萬個樣本的大規模數據集。我們在這個新任務上對一長串的LLMs進行了評估,并顯示出現成的LLMs在這個任務上表現不佳。我們還證明,通過微調可以將LLMs重新定向到這個任務,但未來的工作需要注意超出分布的泛化問題。為避免好哈特定律(Goodhart’s law),我們建議使用這個數據集來對那些尚未見過這個數據集的LLMs進行純因果推斷技能的基準測試。鑒于當前LLMs的推理能力有限,且難以從訓練語料庫派生的知識中分離出實際的推理,我們社區必須專注于旨在準確解開并測量這兩種能力的工作。我們相信,目前的工作是這樣的第一步。
首篇大模型語言評估論文
大型語言模型(LLM)在學術界和工業界的熱度日益升高,這要歸功于它們在各種應用中的無與倫比的表現。隨著LLM在研究和日常使用中繼續發揮重要作用,對它們的評估變得越來越重要,不僅在任務級別,而且在社會級別以更好地理解它們的潛在風險。過去的幾年里,人們從各個角度對LLM進行了大量的研究。本文對這些LLM的評估方法進行了全面的回顧,重點關注三個主要維度:評估什么,在哪里評估,以及如何評估。首先,我們從評估任務的角度提供一個概覽,包括一般的自然語言處理任務,推理,醫療應用,倫理,教育,自然和社會科學,代理應用,以及其他領域。其次,我們通過深入研究評估方法和基準來回答“在哪里”和“如何”評估的問題,這些都是評估LLM性能的關鍵組成部分。然后,我們總結了LLM在不同任務中的成功和失敗案例。最后,我們討論了LLM評估面臨的一些未來挑戰。我們的目標是為LLM評估領域的研究人員提供有價值的見解,從而幫助開發出更高效的LLM。我們的主要觀點是,應將評估視為一個重要的學科,以更好地助力LLM的發展。我們會持續更新相關的開源資料,地址為://github.com/MLGroupJLU/LLM-eval-survey。
理解智能的本質并確定機器是否體現了這種智能,對科學家們來說是一個引人入勝的問題。人們普遍認為,真正的智能賦予我們推理能力,使我們能夠測試假設,并為未來的可能性做準備(Khalfa,1994)。特別是,人工智能(AI)研究人員關注的是機器智能的開發,而非生物性智力(McCarthy,2007)。適當的測量有助于理解智能。例如,衡量人類個體普通智能的方式通常包括智商測試(Brody,1999)。在AI的范圍內,圖靈測試(Turing,2009)作為一個廣為認可的通過辨別響應是否源自人類或機器來評估智能的測試,一直是AI發展中的一個長期目標。研究人員普遍認為,一個成功通過圖靈測試的計算機可以被視為具有智能。因此,從更廣泛的角度看,AI的歷史可以被描繪為創造和評估智能模型和算法的時間線。每當出現一個新的AI模型或算法,研究人員都會通過使用特定且具有挑戰性的任務在現實世界場景中評估其能力。例如,被譽為1950年代人工通用智能(AGI)方法的感知器算法(Gallant等人,1990),后來由于無法解決XOR問題而被揭示為不足。支持向量機(SVM)(Cortes和Vapnik,1995)和深度學習(LeCun等人,2015)的隨后崛起和應用,標志著AI領域的進步和挫折。以前嘗試的一個重要啟示是AI評估的至關重要性,它作為一個關鍵工具,用來識別當前系統的限制并指導更強大模型的設計。
由于若干原因,評估對于LLM的成功至關重要。首先,評估LLM可以幫助我們更好地理解LLM的優點和缺點。例如,PromptBench(Zhu等人,2023)基準測試表明,當前的LLM對對抗性提示敏感,因此需要仔細的提示工程設計以獲得更好的性能。其次,更好的評估可以為人與LLM的交互提供更好的指導,這可能激發未來的交互設計和實現。第三,LLM的廣泛適用性強調了確保其安全性和可靠性的至關重要性,特別是在如金融機構和醫療設施等對安全敏感的領域。最后,隨著LLM變得越來越大,具有更多的新出現的能力,現有的評估協議可能無法足夠評估它們的能力和潛在風險。因此,我們的目標是通過回顧當前的評估協議,尤其是對設計新的LLM評估協議的未來研究進行深入研究,以提醒社區注意到LLM評估的重要性。隨著ChatGPT(OpenAI,2023a)和GPT-4(OpenAI,2023b)的推出,有許多研究工作試圖從不同的角度評估ChatGPT和其他LLM(圖2),包括自然語言任務、推理、魯棒性、可信度、醫療應用和倫理考慮等一系列因素。盡管做出了這些努力,但仍然缺乏對整個評估范圍的全面概述。此外,LLM的持續演化也為評估提出了新的方面,從而挑戰了現有的評估協議,并強化了需要徹底的、多方面的評估技術的需求。盡管像(Bubeck等人,2023)這樣的現有研究聲稱GPT-4可以被視為AGI的火花,但由于其評估方法的人造性質,其他人對此進行了質疑。
本文是關于大型語言模型評估的首份全面調研。如圖1所示,我們從三個維度探討了現有的工作:1)評估什么,2)在哪里評估,3)如何評估。具體來說,“評估什么”涵蓋了LLM的現有評估任務,“在哪里評估”涉及到為評估選擇適當的數據集和基準,而“如何評估”則關注在給定適當的任務和數據集的情況下的評估過程。這三個維度對于LLM的評估是不可或缺的。我們隨后討論了LLM評估領域的潛在未來挑戰。本文的貢獻如下:1)我們從三個方面對LLM評估進行了全面的概述:評估什么,在哪里評估,如何評估。我們的分類是通用的,涵蓋了LLM評估的整個生命周期。2)對于評估什么,我們總結了各個領域的現有任務,并得出了關于LLM成功和失敗案例的深刻結論(第6節),為未來的研究提供了經驗。3)對于在哪里評估,我們總結了評估指標、數據集和基準,以深入理解當前的LLM評估。關于如何評估,我們探討了當前的協議,并總結了新的評估方法。4)我們進一步討論了評估LLM的未來挑戰。我們在 MLGroupJLU/LLM-eval-survey開源并維護了LLM評估的相關材料,以促進更好評估的協作社區。
2. 大型語言模型
語言模型(LMs)(Devlin等人,2018;Gao和Lin,2004;Kombrink等人,2011)是一種具有理解和生成人類語言能力的計算模型。LMs具有預測詞序列的可能性或者根據給定輸入生成新文本的變革性能力。N-gram模型(Brown等人,1992)是最常見的LM類型,它根據前文的上下文估計詞概率。然而,LMs也面臨挑戰,比如稀有或未見過的詞的問題、過擬合的問題,以及捕獲復雜語言現象的困難。研究人員正在不斷地改進LM的架構和訓練方法,以解決這些挑戰。大型語言模型(LLMs)(Chen等人,2021;Kasneci等人,2023;Zhao等人,2023a)是具有大量參數和出色學習能力的先進語言模型。許多LLMs,如GPT-3(Floridi和Chiriatti,2020),InstructGPT(Ouyang等人,2022)和GPT-4(OpenAI,2023b)的核心模塊是Transformer(Vaswani等人,2017)中的自注意力模塊,這是進行語言建模任務的基本構建塊。Transformers革新了NLP領域,它們能有效地處理順序數據,實現并行化,并捕獲文本中的長距離依賴關系。LLMs的一個關鍵特性是基于上下文的學習(Brown等人,2020),在這里,模型被訓練基于給定的上下文或提示生成文本。這使得LLMs能生成更連貫和與上下文相關的回應,使得它們適合于交互和對話應用。來自人類反饋的強化學習(RLHF)(Christiano等人,2017;Ziegler等人,2019)是LLMs的另一個關鍵方面。這種技術涉及使用人類生成的反饋作為獎勵進行模型的微調,從而使模型能夠從其錯誤中學習并隨著時間的推移提高其性能。
在自回歸語言模型中,如GPT-3(Floridi和Chiriatti,2020)和PaLM(Chowdhery等人,2022),給定上下文序列X,LM任務旨在預測下一個標記y。模型通過最大化在給定上下文的條件下的標記序列的概率進行訓練,即,P(y|X) = P(y|x1, x2, ..., xt?1),其中x1, x2, ..., xt?1是上下文序列中的標記,t是當前位置。通過使用鏈式規則,條件概率可以分解為給定其前序上下文的每個標記的條件概率的乘積,即,
其中T是序列長度。這樣,模型以自回歸的方式預測每個位置的每個標記,生成一個完整的文本序列。與LLMs交互的一種常見方法是提示工程(Clavie等人,2023;White等人,2023;周等人,2022),用戶設計并提供特定的提示文本以指導LLMs生成期望的響應或完成特定任務。這在現有的評估工作中被廣泛采用。人們也可以進行問答交互(Jansson等人,2021),向模型提問并得到回答,或參與對話交互,與LLMs進行自然語言對話。總的來說,LLMs憑借其Transformer架構、基于上下文的學習和RLHF能力,已經革新了NLP,并在各種應用中充滿了希望。表1提供了傳統機器學習、深度學習和LLMs的簡要比較。
3 評估什么
**我們應該評估LLMs在哪些任務上的表現?在哪些任務上,我們可以說明LLMs的優點和缺點?**在本節中,我們將現有的任務劃分為以下幾類:自然語言處理任務、倫理和偏見、醫療應用、社會科學、自然科學和工程任務、代理應用(使用LLMs作為代理)以及其他任務。
**3.1 自然語言處理任務 **
開發語言模型,特別是大型語言模型的最初目標是提高自然語言處理任務的性能,包括理解和生成。因此,大多數評估研究主要集中在自然語言任務上。表2總結了現有研究的評估方面,我們主要在以下內容中強調他們的結論。
3.2 魯棒性、倫理、偏見和可信度
評估LLMs包括魯棒性、倫理、偏見和可信度等關鍵方面。這些因素在全面評估LLMs的性能方面越來越重要。
3.3 社會科學
社會科學涉及對人類社會和個體行為的研究,包括經濟學、社會學、政治學、法學等學科。評估LLMs在社會科學中的表現對于學術研究、政策制定和社會問題解決非常重要。這樣的評估可以幫助提高模型在社會科學中的適用性和質量,增加對人類社會的理解,并促進社會進步。
**3.4 自然科學和工程 **
在自然科學和工程領域評估LLMs的表現可以幫助指導科學研究、技術開發和工程研究的應用和發展。
3.5 醫療應用
最近,LLMs在醫療領域的應用引起了重要的關注。在這一部分,我們回顧了將LLMs應用于醫療應用的現有工作。具體來說,我們將它們分為表5所示的四個方面:醫療問答、醫學檢查、醫療評估和醫療教育。
3.6 代理應用
LLMs并非只專注于通用語言任務,它們可以在各種領域中被利用作為強大的工具。為LLMs配備外部工具可以大大擴展模型的能力。黃等人(2023a)介紹了KOSMOS-1,它能夠理解一般模式,按照指示進行學習,并基于上下文進行學習。Karpas等人(2022)強調,知道何時以及如何使用這些外部符號工具至關重要,這種知識是由LLMs的能力決定的,特別是當這些工具可以可靠地運作時。此外,還有兩項其他研究,Toolformer(Schick等人,2023)和TALM(Parisi等人,2022),探索了使用工具來增強語言模型的可能性。Toolformer采用一種訓練方法來確定特定API的最佳使用方式,并將獲得的結果集成到后續的token預測中。另一方面,TALM將無法區分的工具與基于文本的方法相結合,以增強語言模型,并采用一種被稱為"自我游戲"的迭代技術,由最少的工具演示來指導。申等人(2023)提出了HuggingGPT框架,該框架利用LLMs連接機器學習社區內的各種人工智能模型(如Hugging Face),旨在解決人工智能任務
3.7 其他應用 除了上述分類,LLMs還在其他各種領域進行了評估,包括教育、搜索和推薦、性格測試和特定應用等。
4 在哪里評估:數據集和基準
測試 LLMs 的評估數據集用于測試和比較不同語言模型在各種任務上的性能,如第 3 節所示。這些數據集,如GLUE(Wang等人,2018年)和SuperGLUE(Wang等人,2019年),旨在模擬現實世界的語言處理場景,并涵蓋多樣化的任務,如文本分類、機器翻譯、閱讀理解和對話生成。本節不會討論針對語言模型的任何單一數據集,而是針對LLMs的基準。由于LLMs的基準正在發展,我們在表7.5中列出了19個流行的基準。每個基準都關注不同的方面和評估標準,為各自的領域提供了寶貴的貢獻。為了更好的總結,我們將這些基準劃分為兩個類別:通用語言任務的基準和特定下游任務的基準。
5 如何評估
在本節中,我們將介紹兩種常見的評估方法:自動評估和人工評估。實際上,“如何評估”的分類也并不確定。我們的分類基于評估標準是否可以自動計算。如果它可以自動計算,我們將其歸類為自動評估;否則,它就屬于人工評估。
**5.1 自動評估 **自動評估大型語言模型是一種常見且可能是最受歡迎的評估方法,通常使用標準度量或指標和評估工具來評估模型的性能,如準確率、BLEU (Papineni等人,2002年)、ROUGE (Lin,2004年)、BERTScore (Zhang等人,2019年)等。例如,我們可以使用BLEU分數來量化模型生成的文本與參考文本在機器翻譯任務中的相似性和質量。實際上,大多數現有的評估努力都采用這種評估協議,因為它的主觀性、自動計算和簡單性。因此,大多數確定性任務,如自然語言理解和數學問題,通常采用這種評估協議。與人工評估相比,自動評估不需要人工參與,這節省了評估成本并且耗時較少。例如,(Qin等人,2023年)和Bang等人(2023年)都使用自動評估方法評估大量任務。最近,隨著LLMs的發展,一些先進的自動評估技術也被設計出來幫助評估。Lin和Chen(2023年)提出了LLM-EVAL,這是一個用于與LLMs進行開放領域對話的統一的多維自動評估方法。PandaLM(Wang等人,2023g)可以通過訓練一個作為“裁判”的LLM來實現可復制的自動語言模型評估,該LLM用于評估不同的模型。由于自動評估論文的大量存在,我們不會詳細介紹它們。自動評估的原理實際上與其他AI模型評估過程相同:我們只是使用一些標準度量來計算這些度量下的某些值,這些值作為模型性能的指標。
5.2 人工評估 LLMs的能力已經超越了在一般自然語言任務上的標準評估度量。因此,在一些非標準情況下,自動評估不適用時,人工評估成為一個自然的選擇。例如,在開放生成任務中,嵌入的相似度度量(如BERTScore)是不夠的,人工評估更可靠(Novikova等人,2017年)。雖然一些生成任務可以采用某些自動評估協議,但在這些任務中,人工評估更受歡迎,因為生成總是可以比標準答案更好。LLMs的人工評估是通過人的參與來評估模型生成結果的質量和準確性的一種方式。與自動評估相比,手動評估更接近實際應用場景,可以提供更全面和準確的反饋。在LLMs的手動評估中,通常邀請評估員(如專家、研究者或普通用戶)來評估模型生成的結果。例如,Ziems等人(2023年)使用了專家的注釋進行生成。通過人工評估,(Liang等人,2022年)對6種模型的總結和虛假信息場景進行了人工評估,Bang等人(2023年)評估了類比推理任務。由Bubeck等人(2023年)完成的開創性的評估工作使用GPT-4進行了一系列的人工測試,他們發現GPT-4在多個任務上的表現接近或甚至超過了人的表現。這項評估要求人類評估員實際測試和比較模型的性能,而不僅僅是通過自動評估度量評估模型。需要注意的是,即使是人工評估也可能有高的方差和不穩定性,這可能是由于文化和個體差異造成的(Peng等人,1997年)。在實際應用中,這兩種評估方法都會根據實際情況進行考慮和權衡。
6 結論
**評估具有深遠的意義,在AI模型,尤其是大型語言模型的進步中變得至關重要。**本文提出了第一份從三個方面對LLMs的評估進行全面概述的調查:評估什么、如何評估和在哪里評估。我們的目標是通過封裝評估任務、協議和基準,增強對LLMs當前狀態的理解,闡明它們的優點和局限性,并為未來LLMs的進步提供洞見。我們的調查顯示,當前的LLMs在許多任務中都存在一定的限制,特別是推理和魯棒性任務。同時,現代評估系統需要適應和發展的需求仍然明顯,以確保準確評估LLMs的固有能力和局限性。我們確定了未來研究應該解決的幾個重大挑戰,希望LLMs可以逐步增強它們對人類的服務。
如何探索CV中的AGI?華為這篇論文進行了論述
人工智能社區一直在追求被稱為通用人工智能(AGI)的算法,這些算法可以應用于任何類型的現實世界問題。最近,由大型語言模型(LLMs)驅動的聊天系統嶄露頭角,并迅速成為在自然語言處理(NLP)中實現AGI的有力候選,但是在計算機視覺(CV)中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜,但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中,我們從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們,統一性是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出,CV的根本弱點在于缺乏從環境中學習的范式,然而NLP已經在文本世界中完成了這項任務。然后,我們設想了一個流程,將一個CV算法(即,一個代理)放置在世界級的、可交互的環境中,預先訓練它根據其行動預測未來的幀,然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大,對此,我們分享了我們對未來研究方向的觀點。
1. 引言
世界正在見證向人工通用智能(AGI)的史詩般的奧德賽,我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是,在自然語言處理(NLP)中,已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為,這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型(LLMs)建立的,并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊,可以完成諸如解決數學問題、生成視覺內容等復雜任務,反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面(例如,講述科學事實和命名人物之間的關系)存在已知的弱點,但這些開創性的研究已經顯示出一個明確的趨勢,即將NLP中的大多數任務統一到一個系統中,這反映了對AGI的追求。 與自然語言處理(NLP)中統一化的快速進展相比,計算機視覺(CV)領域離統一所有任務的目標還很遠。常規的CV任務,如視覺識別、追蹤、字幕、生成等,大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統,可以用統一的提示機制處理各種CV任務,但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如,為了在物體檢測和語義分割中報告高識別準確率,最好的策略是在強大的骨干網絡上設計特定的頭部模塊,但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然,統一化是CV的趨勢。近年來,這個方向有許多努力,我們大致將它們分為五個研究主題,即(i) 基于視覺-語言對齊的開放世界視覺識別,(ii) 用于通用視覺識別的“分割任何物體”任務,(iii) 統一視覺任務的通用視覺編碼,(iv) LLM引導的視覺理解,以增強CV中的邏輯,以及(v) 多模態對話,以促進視覺-語言交互。這些工作都顯示出統一化的希望,但是,它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。
因此,產生了兩個問題:(1)為什么在CV中實現統一如此困難?(2)我們可以從GPT和LLMs中學到什么來實現這個目標?為了回答這些問題,我們重新審視GPT,將其理解為在文本世界中建立一個環境,并允許一個算法(或代理)通過交互學習。計算機視覺研究缺乏這樣的環境。因此,算法無法模擬世界,所以它們只能采樣世界,并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后,代理任務不再能夠表示CV算法的能力;越來越明顯的是,繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析,我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理:這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務:在這個階段,可能需要引入人類的指令,這對應于NLP中的指令微調階段。可選地,可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關,包括3D環境建立、視覺預訓練、強化學習和具身CV。但是,現有的工作大多是初步的,我們預期需要大量的努力,才能使它成為解決現實世界問題的有效范式。
本文的其余部分組織如下。首先,在第2部分,我們簡要介紹了AGI的歷史和思想,并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分,我們展示了GPT的能力,這是一種最先進的NLP算法,被認為是AGI的火花。然后,在第4部分,我們根據CV研究的當前狀態,分析了在計算機視覺中實現AGI為什么困難,并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分,我們在那里設想了一種將CV推向AGI的流程,并基于此對未來的研究方向進行了一些評論。最后,在第6部分,我們對本文進行了總結并分享了我們的思考。
2. CV:AGI的下一個戰場
人類基于多種數據模式感知世界。我們都知道,我們學到的大約85%的東西是通過我們的視覺系統。因此,鑒于NLP社區已經展現了AGI的前景,自然而然地將計算機視覺(CV)或多模態(至少包括視覺和語言領域)視為AGI的下一個戰場。在此,我們提供兩個額外的評論來補充上述陳述。首先,顯然,CV是NLP的超集,因為人們閱讀文章是首先通過識別捕獲圖像中的字符,然后理解內容。換句話說,CV(或多模態)的AGI應該覆蓋NLP的所有AGI能力。其次,我們認為在許多情況下,僅依靠語言是不夠的。例如,當人們試圖找到關于一個未知對象(例如,動物、時尚等)的詳細信息時,最好的方式是拍攝一張圖片并用它進行在線搜索;純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子,如我們將在第4.3節中看到,不總是容易指出場景中的細粒度語義(用于識別或圖像編輯),并且以視覺友好的方式思考更有效,例如,使用一個點或框來定位一個對象,而不是說一些像“穿著黑色夾克,在黃色汽車前站著和另一個人交談”的人這樣的話。
我們期望有一個CV算法能解決一般性任務,可能通過與環境的交互。注意,這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統,接收來自人類的通用命令并產生所需的結果。但是,當前的CV狀態還很初級。如圖7所示,CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。
**統一化是趨勢 **
下面,我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。
**開放世界視覺識別 **
在很長一段時間里,大多數CV算法只能識別出現在訓練數據中的概念,導致了一個“封閉世界”的視覺概念。相反,“開放世界”的概念指的是CV算法能夠識別或理解任何概念,無論它是否以前出現過。開放世界的能力往往通過自然語言引入,因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務,如圖像字幕 [73],[74] 和視覺問題回答 [91],[92],[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近,隨著視覺語言預訓練(例如 CLIP [13] 和 ALIGN [94])的出現,將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75],[76],[77] 和視覺問題回答 [11],[76],[95] 提供了更簡單的管道,而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如,圖像分類可以通過簡單地將查詢圖像與一組模板(也被稱為“提示”)匹配來完成,說一張{某物}的照片,其中某物可以是任何(因此是開放世界的)概念,比如貓或西伯利亞雪橇犬,并將結果設置為匹配得分最高的候選者。除了原始版本之外,研究人員開發了名為“學習提示”的算法 [96],[97] 來提高分類準確性。后來,該方法從圖像分類繼承到物體檢測 [87],[98],語義分割 [88],[99],實例分割 [100],全景分割 [101],[102],并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益,這些模型經過增強的定位預訓練 [103],[104]。開放世界視覺識別與零樣本視覺識別密切相關,因為它們都試圖將識別能力泛化到訓練集中未出現的概念。
"分割任何事物"任務
"分割任何事物"任務 [14] 最近被引入作為一個通用模塊,將原始圖像像素聚類為多個組,其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示,并為每個提示或每個提示的組合產生一些掩碼和分數。該模型,SAM,在一個包含約1000萬圖像的大規模數據集上進行了訓練,能夠轉移到廣泛的分割任務,包括醫學圖像分析 [111],[112],[113],偽裝對象分割 [110],[114],3D對象分割 [108],對象跟蹤 [115],以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用,例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼,并將分割的單元輸入到開放集分類算法中進行圖像標記 [107],[117]。
技術上,SAM的關鍵在于提示機制和數據閉合,即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分,但仍然存在許多未解決的問題。例如,關于SAM的上游和下游模塊(如果SAM確實是管道的一部分)仍然不清楚,而且SAM可能會嚴重受到像素級外觀的影響,例如,手臂可以精確地在衣服的邊界處從軀干上分割出來,這意味著顏色是分割的主導因素。總的來說,SAM可能已經過度適應了"分割任何事物"任務本身,從而削弱了其分類能力。
通用視覺編碼
另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異,例如,對象檢測需要一組邊界框,而語義分割需要對整個圖像進行密集預測,這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的,自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示,對象檢測結果(即邊界框)可以被形式化為自然語言和坐標,然后轉換為視覺模型的輸出標記。在稍后的版本,pix2seq-v2 中,他們將表示形式一般化,以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16],[122],[123] 任務。
LLM指導的視覺理解
視覺識別可以非常復雜,尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型(視覺-語言預訓練模型用于視覺問題回答[11],[76],[95])來說,按照人類容易理解的程序生成答案是困難的。為了緩解這個問題,一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前,在Transformer架構出現之前,研究人員提出使用長短期記憶模型(LSTM)[72]生成程序,以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候,LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近,大型語言模型(尤其是GPT系列)的出現使得任意問題的轉換成為可能。具體來說,GPT可以以不同的方式與人類交互。例如,它可以將基本識別結果總結為最終答案[125],或者生成代碼[18],[124]或自然語言腳本[19]來調用基本視覺模塊。因此,視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效,例如,詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯,但它們尚未展示出協助基本視覺識別模塊的能力。也就是說,一旦基本的識別結果錯誤(例如,檢測算法錯過了一些小的和/或部分遮擋的對象),答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯(例如,算法可以按照順序算法來檢測每個對象,或者被常識[127]指導來解決難題),可能是在LLMs的幫助下,從而提升基本的視覺識別。
多模態對話
多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答,其中構建了各種簡單問題的數據集 [128],[129],[130]。隨著LLMs的快速發展,通過對預訓練的視覺和語言模型進行微調,實現了多輪問答 [11],[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近,在GPT系列中開發的一種新的范式,稱為指導學習 [4],已被繼承用于提高多模態對話的質量 [20],[46]。其思想是提供一些參考數據(例如,對象、描述)來自于基準標注或識別結果,并要求GPT模型生成指導數據(即,豐富的問答對)。通過這些數據(無需參考),用于視覺和語言的基礎模型可以通過輕量級的網絡模塊(例如,Q-former [11])相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準,但作為一個由語言引導的任務,它也具有開放世界視覺識別中分析的弱點(見第4.2.1節)。我們期望豐富查詢形式的方法(例如,使用通用的視覺編碼方法,參見第4.2.3節)可以將多模態對話推向更高的水平。
3 未來:從環境中學習
上述分析要求我們為計算機視覺(CV)的強大代理制定一個新的范式。在本節中,我們將我們的觀點和洞見轉化為一個假想的流程,回顧與這個流程相關的現有工作,并基于這個流程對未來的研究方向提出評論。
圖14展示了我們的想法。這個流程包括三個階段:第0階段建立環境,第1階段進行預訓練,第2階段進行微調。在需要的時候,微調后的模型可以被用于傳統的視覺識別任務。下面,我們將詳細描述每個階段。
?** 第0階段:建立環境**。正如前面的分析,高質量的環境對于計算機視覺(CV)中的人工通用智能(AGI)是非常必要的。這里的"高質量"概念包括但不限于豐富性(應該有充足和多樣化的環境)、真實性(視覺外觀和其他代理的行為應接近真實世界)以及交互性的豐富性(代理可以通過與環境交互來執行廣泛的任務)。
?** 第1階段:生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理(NLP)中的 GPT 任務(預測下一個詞元)的最大區別在于,未來的幀取決于代理的行動(在 NLP 中,預訓練的文本語料庫保持不變),所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是,由于計算機視覺(CV)是自然語言處理(NLP)的超集(參見第4.1節前的段落),預訓練的計算機視覺模型的大小(例如,參數的數量)應該比自然語言處理模型大幾個數量級。
第2階段:指導微調。預訓練模型被指導完成真實世界的任務,遵循人類的指示。直觀上說,代理與環境之間允許的交互類型有很多,包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是,應該收集更多的指示數據,這也對應于基礎計算機視覺模型的大小。
? 可選:下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力,例如,為了完成一個非常簡單的任務,比如"給我買一杯咖啡",模型必須至少學會(i) 安全地四處探索,(ii) 識別咖啡店在哪里,(iii) 用語言與店員交流,并且(iv) 抓取買到的咖啡。這樣的模型,當適當地提供提示時,應該輸出期望的感知結果,包括追蹤另一個代理(以避免與其碰撞),開放集的視覺識別(用于找到酒吧和買到的咖啡)等等。這與通過合成進行分析的想法[136]有關。
4 結論
在這篇論文中,我們討論了如何推動計算機視覺(CV)算法向人工通用智能(AGI)發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力,然后我們繼承了來自自然語言處理(NLP),尤其是 GPT 系列的想法和洞見。我們的結論是,計算機視覺缺乏一個可以從環境中學習的范式,為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。
這篇論文對大型語言模型(LLMs)在知識圖譜(KG)構建和推理中的作用進行了詳盡的定量和定性評估。我們使用了八個不同的數據集,涵蓋了實體、關系和事件提取,鏈接預測,和問題回答等方面。實證上,我們的發現表明,GPT-4在大多數任務中表現優于ChatGPT,甚至在某些推理和問題回答的數據集中超過了微調模型。此外,我們的綜述還擴展到了LLMs在信息提取方面的潛在泛化能力,這在虛擬知識提取任務的介紹和VINE數據集的開發中達到了高潮。依據這些實證發現,我們進一步提出了AutoKG,這是一種使用LLMs進行KG構建和推理的多智能體方法,旨在勾畫出這個領域的未來并提供激動人心的進步機會。我們期待我們的研究能為未來的KG的實踐提供寶貴的見解。
1. 引言
知識圖譜(KG)是一個由實體、概念和關系組成的語義網絡(Cai et al., 2022;Chen et al., 2023;Zhu et al., 2022;Liang et al., 2022),它可以催化各種場景的應用,如推薦系統、搜索引擎和問題回答系統(Zhang et al., 2021)。通常,KG構建(Ye et al., 2022b)包括幾個任務,包括命名實體識別(NER)(Chiu和Nichols,2016),關系提取(RE)(Zeng et al., 2015;Chen et al., 2022),事件提取(EE)(Chen et al., 2015;Deng et al., 2020),和實體鏈接(EL)(Shen et al., 2015)。另一方面,KG推理,通常被稱為鏈接預測(LP),在理解這些構建的KG中起著關鍵的作用(Zhang et al., 2018;Rossi et al., 2021)。此外,KG可以被用于問題回答(QA)任務(Karpukhin et al., 2020;Zhu et al., 2021),通過對與問題相關的關系子圖的推理。
早期,知識圖譜的構建和推理主要依賴于監督學習方法。然而,近年來,隨著大型語言模型(LLMs)的顯著進步,研究人員已經注意到它們在自然語言處理(NLP)領域的卓越能力。盡管有許多關于LLMs的研究(Liu et al., 2023;Shakarian et al., 2023;Lai et al., 2023),但在知識圖譜領域系統地探索它們的應用仍然有限。為了解決這個問題,我們的工作研究了LLMs(如ChatGPT和GPT-4,OpenAI,2023)在知識圖譜構建、知識圖譜推理任務中的潛在應用性。通過理解LLMs的基本能力,我們的研究進一步深入了解了該領域的潛在未來方向。
圖1:我們工作的概述。主要有三個部分:1)基礎評估:詳細說明了我們對大型模型(text-davinci-003,ChatGPT和GPT-4)的評估,無論是在零次還是一次設置中,都使用完全監督的最先進模型的性能數據作為基準;2)虛擬知識提取:檢查大型模型在構建的VINE數據集上的虛擬知識能力;3)AutoKG:提出利用多個代理來促進知識圖譜的構建和推理。
具體來說,如圖1所示,我們首先調研了LLMs在實體、關系和事件提取,鏈接預測,和問題回答方面的零樣本和一次樣本性能,以評估它們在知識圖譜領域的潛在應用。實證發現表明,盡管LLMs在知識圖譜構建任務中的性能有所提升,但仍落后于最先進的(SOTA)模型。然而,LLMs在推理和問題回答任務中表現出相對優越的性能。這表明它們擅長處理復雜問題,理解上下文關系,并利用預訓練過程中獲取的知識。因此,像GPT-4這樣的LLMs作為少次信息提取器的效果有限,但作為推理助手的熟練程度相當高。為了進一步研究LLMs在信息提取任務上的表現,我們設計了一個新的任務,稱為“虛擬知識提取”。這個任務旨在判斷性能的觀察到的改進是來自LLMs內在的廣泛知識庫,還是來自于指導調整和人類反饋的強化學習(RLHF)(Christiano et al., 2017)所促進的強大泛化能力。在新建的VINE數據集上的實驗結果表明,像GPT-4這樣的LLMs可以迅速從指令中獲取新的知識,并有效地完成相關的提取任務。 在這些實證發現中,我們認為LLMs對指令的極大依賴使得為知識圖譜的構建和推理設計合適的提示變得費時費力。為了促進進一步的研究,我們引入了AutoKG的概念,它使用多個LLMs的代理自動進行知識圖譜的構建和推理。
總的來說,我們的研究做出了以下貢獻:
我們評估了LLMs,包括GPT-3.5, ChatGPT, GPT-4,通過在八個基準數據集上評估它們在知識圖譜構建和推理的零樣本和一樣本性能,提供了對它們能力的初步理解。
我們設計了一個新的虛擬知識提取任務,并構建了VINE數據集。通過評估LLMs在這個數據集上的性能,我們進一步展示了像GPT-4這樣的LLMs具有強大的泛化能力。
我們引入了使用交際代理自動進行知識圖譜構建和推理的概念,稱為AutoKG。利用LLMs的知識庫,我們使多個LLMs的代理能夠通過迭代對話協助知識圖譜的構建和推理過程,為未來的研究提供了新的洞察。
**LLMs在知識圖譜構建和推理方面的新能力 **
最近,LLMs的出現給NLP領域注入了活力。為了探索LLMs在知識圖譜領域的潛在應用,我們選擇了代表性的模型,即ChatGPT和GPT-4。我們在知識圖譜構建和推理領域的八個不同數據集上對它們的性能進行了全面評估。
**2.1 評估原則 **
在這項研究中,我們對LLMs在各種知識圖譜相關任務上進行了系統評估。首先,我們評估了這些模型在zero-shot和one-shotNLP任務中的能力。我們的主要目標是在面對有限數據時檢查它們的泛化能力,以及在沒有示范的情況下使用預訓練知識有效推理的能力。其次,根據評估結果,我們對導致模型在不同任務中表現不同的因素進行了全面分析。我們旨在探究它們在某些任務中表現優越的原因和潛在缺陷。通過比較和總結這些模型的優點和限制,我們希望提供可能指導未來改進的洞察。
2.2 知識圖譜的構建和推理
2.2.1 設置
實體、關系和事件提取。DuIE2.0 (Li et al., 2019)代表了業界最大的基于模式的中文關系提取數據集,包括超過210,000個中文句子和48個預定義的關系類別。SciERC (Luan et al., 2018)是一組注釋了七種關系的科學摘要。Re-TACRED (Stoica et al., 2021)是TACRED關系提取數據集的顯著改進版本,包含超過91,000個分布在40個關系中的句子。MAVEN (Wang et al., 2020)是一個包含4,480份文件和168種事件類型的通用領域事件提取基準。
鏈接預測 FB15K-237 (Toutanova et al., 2015)廣泛用作評估知識圖譜嵌入模型在鏈接預測上的性能的基準,包括237個關系和14,541個實體。ATOMIC 2020 (Hwang et al., 2021a)是一個全面的常識倉庫,包含關于實體和事件的133萬條推理知識元組。
問答 FreebaseQA (Jiang et al., 2019)是一個基于Freebase知識圖譜構建的開放領域QA數據集,專為知識圖譜QA任務設計。這個數據集包括從各種來源(如TriviaQA數據集等)收集的問題-答案對。MetaQA (Zhang et al., 2018)數據集,從WikiMovies (Miller et al., 2016)數據集擴展,提供了大量的單跳和多跳問題-答案對,總數超過400,000個。
2.2.2 總體結果
實體和關系提取 我們在SciERC, Re-TACRED, 和DuIE2.0上進行實驗,每個實驗涉及到測試/驗證集的20個樣本,并使用標準的micro F1分數進行評估。在此我們分別在每個數據集上使用PaddleNLP LIC2021 IE2,PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作為基線。如表1所示,GPT-4在這些學術基準提取數據集上無論是zero-shot還是one-shot都取得了相對良好的性能。與ChatGPT相比,它也有所進步,盡管其性能還沒有超過完全監督的小模型。
事件提取 我們在MAVEN數據集的20個隨機樣本上進行事件檢測的實驗。此外,我們使用Wang等人(2022a)的研究作為先前經過微調的SOTA。同時,即使沒有演示,GPT-4也已經取得了值得稱贊的結果。在這里,我們使用F-分數作為評估指標。
鏈接預測任務 鏈接預測任務包括在兩個不同的數據集FB15k-237和ATOMIC2020上進行的實驗。前者是包含25個實例的隨機樣本集,而后者包含23個代表所有可能關系的實例。在各種方法中,最好的微調模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。
問題回答 我們在兩個廣泛使用的知識庫問題回答數據集上進行評估:FreebaseQA和MetaQA。我們從每個數據集中隨機抽取20個實例。對于MetaQA,由于它由不同跳數的問題組成,我們根據它們在數據集中的比例進行抽樣。我們用于兩個數據集的評估指標是AnswerExactMatch。
在涵蓋知識圖譜構建和知識圖譜推理的實驗中,大型語言模型(LLMs)通常在推理能力上表現優于它們的構建能力。對于知識圖譜的構建任務,無論是在 zero-shot 或 one-shot 的情況下,LLMs的表現都沒有超過當前最先進模型的表現。這與之前在信息提取任務上進行的實驗(Ma等人,2023)保持一致,這些實驗表明,大型語言模型通常并不擅長進行少樣本的信息提取。相反,在知識圖譜推理任務中,所有LLMs在one-shot設置中,以及GPT-4在zero-shot設置中,都達到了最先進(SOTA)的表現。這些發現為增強我們對大型模型的性能和它們在知識圖譜領域內的適應性的理解提供了有意義的見解。我們提出了對這種現象的幾種可能解釋:首先,知識圖譜構建任務包括識別和提取實體、關系、事件等,使得它比推理任務更為復雜。相反,推理任務,以鏈接預測為典型,主要依賴于已有的實體和關系進行推斷,使得任務相對直接。其次,我們推測LLMs在推理任務中表現優異可能歸因于它們在預訓練階段接觸到的相關知識。
3 未來機遇:自動化知識圖譜構建和推理
最近,大型語言模型(LLMs)引起了相當大的關注,并在各種復雜任務中展示了精通的能力。然而,像ChatGPT這樣的技術的成功,仍然主要依賴于大量的人力輸入,以引導對話文本的生成。隨著用戶逐步精細化任務描述和要求,并與ChatGPT建立對話環境,模型能夠提供越來越精確、高質量的回應。然而,從模型開發的角度看,這個過程仍然是勞動密集型和耗時的。因此,研究人員已經開始研究使大型模型能夠自主生成指導文本的可能性。例如,AutoGPT可以獨立生成提示,并執行像事件分析、營銷計劃創建、編程和數學操作等任務。同時,Li等人(2023)深入研究了交際代理之間自主合作的可能性,并介紹了一個名為角色扮演的新型合作代理框架。這個框架使用啟示性提示,以確保與人類意圖的一致性。在此研究基礎上,我們進一步詢問:是否可行使用交際代理來完成知識圖譜的構建和推理任務?
在這個實驗中,我們使用了CAMEL(Li等人,2023)中的角色扮演方法。如圖6所示,AI助手被指定為顧問,AI用戶被指定為知識圖譜領域專家。在收到提示和指定的角色分配后,任務指定代理提供詳細的描述以具體化概念。在此之后,AI助手和AI用戶在多方設置中協作完成指定的任務,直到AI用戶確認其完成。實驗示例表明,使用多代理方法,與電影《綠皮書》相關的知識圖譜被更有效、更全面地構建。這個結果也強調了基于LLM的代理在構建和完成知識圖譜方面的優越性。
通過結合人工智能和人類專業知識的努力,AutoKG可以快速定制領域特定的知識圖譜。該系統允許領域專家與機器學習模型進行交互,從而通過交換專家知識和經驗,促進領域特定知識圖譜的構建的協作環境。此外,AutoKG可以有效地利用人類專家的領域知識,生成高質量的知識圖譜。同時,通過這種人機協作,它可以在處理領域特定任務時,提高大型語言模型的事實準確性。反過來,這個目標預計將增加模型的實用價值。 AutoKG不僅可以加快領域特定知識圖譜的定制,而且還可以增強大規模模型的透明度和體現代理的交互。更準確地說,AutoKG有助于深入理解大型語言模型(LLMs)的內部知識結構和運作機制,從而提高模型的透明度。此外,AutoKG可以作為一個合作的人機交互平臺,使人類和模型之間能夠進行有效的交流和互動。這種互動促進了對模型學習和決策過程的更好理解和指導,從而提高了模型在處理復雜任務時的效率和準確性。盡管我們的方法帶來了顯著的進步,但它并非沒有局限性,然而,這些局限性為進一步的探索和改進提供了機會:
API的使用受到最大Token限制的約束。目前,由于GPT-4 API不可用,正在使用的gpt-3.5-turbo受到最大token限制。這個約束影響了知識圖譜的構建,因為如果超過了這個限制,任務可能無法正確執行。現在,AutoKG在促進有效的人機交互方面表現出缺點。在任務完全由機器自主進行的情況下,人類不能及時糾正交流過程中的錯誤發生。相反,在機器通信的每一步中都涉及到人類,可以顯著增加時間和勞動成本。因此,確定人類介入的最佳時機對于知識圖譜的高效和有效的構建至關重要。大型語言模型(LLMs)的訓練數據是時間敏感的。未來的工作可能需要將來自互聯網的檢索特性納入考慮,以彌補當前大型模型在獲取最新或領域特定知識方面的不足。
4. 結論
在這篇論文中,我們初步調研了大型語言模型(LLMs),如GPT系列,在知識圖譜(KG)構建和推理等任務上的表現。盡管這些模型在這些任務上表現優秀,我們提出了這樣一個問題:LLMs在提取任務中的優勢是源于它們龐大的知識庫,還是源于它們強大的上下文學習能力?為了探索這個問題,我們設計了一個虛擬的知識提取任務,并為實驗創建了相應的數據集。結果表明,大型模型確實具有強大的上下文學習能力。此外,我們提出了一種利用多個代理完成KG構建和推理任務的創新方法。這種策略不僅減輕了人工勞動,也彌補了各個領域人類專業知識的匱乏,從而提高了LLMs的表現。盡管這種方法仍有一些局限性,但它為LLMs的未來應用的進步提供了新的視角。
開放知識圖譜(KG)補全的任務是從已知事實中提取新的發現。現有的增強KG補全的工作需要:(1)事實三元組來擴大圖推理空間,或者(2)手動設計提示來從預訓練的語言模型(PLM)中提取知識,這種方式的性能有限,需要專家付出昂貴的努力。為此,我們提出了TAGREAL,它可以自動生成高質量的查詢提示,并從大型文本語料庫中檢索支持信息,以探測PLM中的知識進行KG補全。結果顯示,TAGREAL在兩個基準數據集上實現了最新的性能。我們發現,即使在訓練數據有限的情況下,TAGREAL的性能也非常出色,超過了現有的基于嵌入的、基于圖的和基于PLM的方法。
1. 引言
知識圖譜(KG)是一種異構圖,它以實體-關系-實體三元組的形式編碼事實信息,其中關系連接頭實體和尾實體(例如,“邁阿密位于-美國”)(Wang et al., 2017;Hogan et al., 2021)。KG(Dai et al., 2020)在許多NLP應用中起著核心作用,包括問答系統(Hao et al., 2017;Yasunaga et al., 2021)、推薦系統(Zhou et al., 2020)和藥物發現(Zitnik et al., 2018)。然而,現有的研究(Wang et al., 2018;Hamilton et al., 2018)顯示,大部分大規模KG都是不完整的,無法全面覆蓋龐大的現實世界知識。這個挑戰促使了KG補全,其目標是給定主題實體和關系,找出一個或多個對象實體(Lin et al., 2015)。例如,在圖1中,我們的目標是預測對象實體,其中“底特律”是主題實體,“包含于”是關系。
然而,現有的KG補全方法(Trouillon et al., 2016b;Das et al., 2018)存在幾個限制(Fu et al., 2019)。首先,他們的性能嚴重依賴于圖的密度。他們通常在具有豐富結構信息的密集圖上表現良好,但在更常見的稀疏圖上表現不佳。其次,以前的方法(例如,Bordes et al.(2013))假設一個封閉世界的KG,沒有考慮外部資源中的大量開放知識。實際上,在許多情況下,KG通常與豐富的文本語料庫(Bodenreider, 2004)相關聯,其中包含大量尚未提取的事實數據。為了克服這些挑戰,我們研究了開放知識圖譜補全的任務,其中KG可以使用來自KG外部的新事實進行構建。最近的文本富集解決方案(Fu et al., 2019)關注使用預定義的事實集來豐富知識圖譜。然而,預定義的事實集通常嘈雜且受限,也就是說,它們沒有提供足夠的信息來有效更新KG。
預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。
預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。
基于標準KG的上述限制和PLMs(Devlin et al., 2019;Liu et al., 2019a)的巨大能力,我們的目標是使用PLMs進行開放知識圖譜補全。我們提出了一個端到端的框架,共同利用PLMs中的隱含知識和語料庫中的文本信息來進行知識圖譜補全(如圖1所示)。與現有的工作不同(例如,(Fu et al., 2019;Lv et al., 2022)),我們的方法不需要手動預定義的事實和提示集,這使得它更具通用性,更易于適應實際應用。我們的貢獻可以總結為:
? 我們研究了可以通過從PLMs中捕捉到的事實進行輔助的開放KG補全問題。為此,我們提出了一個新的框架TAGREAL,它表示了用PLMs中的現實世界知識增強的開放KG補全。 ? 我們開發了提示生成和信息檢索方法,這使得TAGREAL能夠自動創建高質量的PLM知識探測提示,并搜索支持信息,特別是當PLMs缺乏某些領域知識時,這使得它更加實用。 ? 通過在Freebase等實際知識圖譜上的大量定量和定性實驗,我們展示了我們框架的適用性和優點。 2. 方法
我們提出了TAGREAL,一個基于PLM的框架來處理KG補全任務。與以前的工作相比,我們的框架不依賴手工制作的提示或預定義的相關事實。如圖2所示,我們自動創建合適的提示并搜索相關的支持信息,這些信息進一步被用作模板,以從PLMs中探索隱含的知識。
2.1 問題定義
知識圖譜補全的目的是在KG的現有三元組集合中添加新的三元組(事實)。為了實現這個目標,有兩個任務。第一個是三元組分類,這是一個二元分類任務,用于預測一個三元組(h, r, t)是否屬于KG,其中h, r, t分別表示頭實體、關系和尾實體。第二個任務是鏈接預測,其目標是預測查詢(h, r, ?)的尾實體t或者預測查詢(?, r, t)的頭實體h。
2.2 提示生成 Prompt Generation
之前的研究(例如,Jiang等人(2020))表明,從預訓練語言模型(PLMs)中提取關系知識的準確性,很大程度上依賴于用于查詢的提示的質量。為了達到這個目的,我們開發了一種全面的方法,只需要將知識圖譜中的三元組作為輸入,就可以自動生成高質量的提示,如圖3所示。我們使用文本模式挖掘方法從大型語料庫中挖掘出高質量的模式,作為用于從PLMs中探索知識的提示。據我們所知,我們是首次使用文本模式挖掘方法進行語言模型提示挖掘的研究者。我們認為這種方法具有以下應用性:
? 數據源相似。我們在大型語料庫(例如,維基百科)上應用模式挖掘,這些語料庫是大多數PLMs預訓練的數據源。 ?** 目標相似**。文本模式挖掘的目的是從大型語料庫中挖掘出模式以提取新信息;提示挖掘的目的是挖掘出提示以從PLMs中探測隱含的知識。 ? 性能標準相似。模式或提示的可靠性取決于它能從語料庫/PLMs中提取出多少準確的事實。
2.3 支持信息檢索 Support Information Retrieval
除了提示挖掘外,我們還將一些查詢相關和三元組相關的支持文本信息附加到提示中,以幫助PLMs理解我們想要探測的知識,以及幫助訓練三元組分類能力。如圖4所示,對于關系r中的第i個查詢q r i,我們使用BM25(Robertson等人,1995)從可靠的語料庫中檢索得分高于δ且長度小于?的高排名支持文本,并隨機選擇其中一個作為支持信息。為了組成輸入到PLM的填空q? r i,我們將支持文本連接到我們在前面步驟中通過優化得到的每個提示中,其中主體已填充,對象被掩蓋。[CLS]和[SEP]分別是用于序列分類和支持信息-提示分隔的標記。在訓練階段,我們使用三元組而不是查詢來搜索文本,而[MASK]將被對象實體填充。值得注意的是,支持文本在TAGREAL中是可選的,如果沒有找到匹配的數據,我們將其留空。
**2.4 訓練 **
為了訓練我們的模型,我們根據PKGC(Lv等人,2022)提出的思想,除了給定的正三元組外,我們還創建負三元組,以處理三元組分類任務。我們通過將每個正三元組中的頭部和尾部替換為KGE模型給出高概率的“錯誤”實體,來創建負三元組。我們還通過隨機替換頭部和尾部,創建隨機負樣本,以擴大負訓練/驗證三元組的集合。
**2.5 推理 **
給定一個查詢 (h, r, ?),我們應用與頭實體 h 和關系 r 相關的查詢相關的支持信息,因為我們假設我們不知道尾實體(我們的預測目標)。然后,我們制作包含 [MASK] 的相應查詢實例,既包含支持信息也包含提示集合,如圖4所示。為了在鏈接預測中利用 PLM 的三元組分類能力,我們用已知實體集中的每個實體替換查詢實例中的 [MASK],并按降序排列它們的分類分數,以創建一個一維向量,作為每個查詢的預測結果。這表明,向量中索引較低的實體更有可能與輸入查詢組成正三元組。對于提示集合,我們在排序之前按實體索引將分數相加。詳細的說明放在附錄E中。
3. 實驗
我們將我們的模型 TAGREAL 與四種方法進行比較。對于(1)傳統的知識圖譜嵌入方法,我們評估了 TransE (Bordes 等人,2013),DisMult (Yang 等人,2014),ComplEx (Trouillon 等人,2016a),ConvE (Dettmers 等人,2018),TuckER (Bala?evic′等人,2019) 和 RotatE (Sun 等人,2019),其中 TuckER 是新添加的模型。對于(2)聯合文本和圖嵌入方法,我們評估了 RCNet (Xu等人,2014),TransE+LINE (Fu 等人,2019) 和 JointNRE (Han等人,2018)。對于(3)基于強化學習 (RL) 的路徑查找方法,我們評估了 MINERVA (Das等人,2017) 和 CPL (Fu等人,2019)。對于(4)基于 PLM 的方法,我們評估了 PKGC (Lv等人,2022) 和我們的方法 TAGREAL。我們保留了 Fu等人2019報告的(2)和(3)的數據,同時重新評估所有的。
結果
我們在表1和表2中展示了與最先進方法的性能比較。正如人們可以觀察到的,TAGREAL在大多數情況下都超過了現有的工作。在給定密集的訓練數據的情況下,基于KGE的方法(例如,RotatE)和基于RL的方法(例如,CPL)仍然可以達到相對較高的性能。然而,當訓練數據有限時,這些方法遇到困難,而基于PLM的方法(PKGC和TAGREAL)受到的影響不大。在這種情況下,我們的方法明顯優于當前的非基于PLM的方法。這是因為KGE模型在數據不足的情況下無法有效地進行訓練,基于RL的路徑查找模型在KG中沒有足夠的證據和通用路徑時無法識別出潛在的模式。另一方面,PLM已經擁有可以直接使用的隱含信息,微調時數據不足的負面影響會比從零開始訓練要小得多。TAGREAL由于其能夠自動挖掘高質量提示和檢索支持信息的能力,而超過PKGC,與此相反的是,手動注釋通常是有限的。
4. 結論
在這項研究中,我們提出了一個新穎的框架,利用PLM中的隱含知識進行開放的KG補全。實驗結果顯示,我們的方法在訓練數據有限的情況下,表現優于現有的方法。我們證明了我們的方法優化的提示在PLM知識探測中優于手工制作的提示。支持信息檢索對于輔助提示的有效性也得到了證明。在未來,我們可能會利用QA模型的能力來檢索更可靠的支持信息。另一個潛在的擴展是通過探索路徑查找任務,使我們的模型更具可解釋性。
近年來,許多自然語言生成方面的先進技術都得益于在互聯網規模的數據上訓練大型語言模型。然而,這種范式可能導致生成有毒、不準確和無益的內容的模型,自動評估指標常常無法識別這些行為。隨著模型能力的提高,人類反饋對于評估和改進模型具有無可估量的價值。本綜述旨在概述近期利用人類反饋改進自然語言生成的研究。首先,我們引入一個全面的反饋形式化,并將現有研究按照這種形式化進行分類和組織。接下來,我們討論反饋的格式和目標,涵蓋了兩種利用反饋(用于訓練或解碼)的方法:直接使用反饋或訓練反饋模型。我們還討論了現有的人類反饋數據收集數據集,以及反饋收集的相關問題。最后,我們對AI反饋這一新興領域進行了概述,該領域利用大型語言模型根據一系列原則進行判斷,盡量減少對人類干預的需求。
1. 引言
要使生成系統得到廣泛應用,它們必須生成的文本不僅流暢且高質量,而且要與人類的期望和規范緊密相符(Vamplew等人,2018;Hendrycks等人,2020;Kenton等人,2021a;Turner等人,2022;Ngo,2022)。實現這樣雄心勃勃的目標需要現代大型語言模型(LLM)超越傳統訓練方法。這方面的最近改進主要集中在納入人類反饋(Bai等人,2022b;Ouyang等人,2022;OpenAI,2023a)。這種反饋作為一種指導力量,引導LLM實現所期望的結果,就像物理機械中的反饋機制一樣(?str?m和Murray,2021)。通常,最先進的語言生成系統是通過使用最大似然估計(MLE)在大量數據上訓練概率性的、自回歸的LLM獲得的。然而,用于訓練這些模型的數據通常來自互聯網,常常包含噪音、社會偏見和錯誤(Bolukbasi等人,2016;Dodge等人,2021)。當這種情況與最大化給定前面的詞匯產生下一個詞匯的概率的目標相結合時,可能導致目標行為的誤設定(Kenton等人,2021b),并可能導致生成有毒、不準確和無益的內容(Sheng等人,2019;Bender等人,2021)。使這個問題更加嚴重的是,這些模型通常使用自動度量評估,它們將生成的文本與某個“參考”文本進行表層特征(如詞匯重疊)比較,這些特征通常與人類感知到的文本質量不相關(Schluter,2017;Mathur等人,2020;Gehrmann等人,2022a),特別是當模型針對它們進行優化時(Paulus等人,2017;Amrhein和Sennrich,2022)。評估困難部分是因為對于許多任務來說,沒有唯一的正確答案,因為相同的交際意圖可以用多種方式傳達。
利用人類評估來評估模型生成文本的質量是一種熱門方法。關鍵的是,考慮到人類感知的質量可以幫助縮小機器生成文本和人類生成文本之間的差距,并有助于應對古德哈特定律帶來的挑戰:“當一個衡量標準成為目標時,它就不再是一個好的衡量標準”(Goodhart,1984)。這一認識激發了人們利用人類對模型生成輸出的反饋來改進自然語言生成系統的興趣,并導致了第一個廣泛使用的通用語言助手的出現(OpenAI,2023a)。人類反饋不僅提高了系統性能,還作為一種機制,使系統與期望的結果或目標保持一致(Rosenblueth等人,1943;Wiener,1948)。
反饋作為一個概念,包含了廣泛的含義和解釋(Wiener,1948);然而,可以識別出一些普遍特征,如其格式、其預期結果以及它作為模型開發過程的一部分的使用方式。在本調查中,我們關注人類反饋在改進語言生成中的作用。我們首先對人類反饋的概念進行形式化,并創建一個文獻中不同類型反饋的分類法,并說明它們是如何被使用的(§2)。我們討論如何根據反饋的格式和目標描述反饋,從期望的模型行為角度(§3)。我們討論直接針對人類反饋優化模型的方法,例如使用人類獎勵函數進行強化學習(§4)。然后,我們轉向繞過直接反饋優化成本的方法,首先訓練反饋模型來近似人類反饋,然后使用這些代理模型改進生成(§5)。我們討論現有的人類反饋數據集,這些數據集通常如何收集,以及收集過程可能對模型行為的影響(§6)。最后,我們討論一項最近的減少收集人類反饋需求的工作,通過利用大型語言模型的AI反饋(§7).
現在我們確定四個關鍵軸,根據它們我們可以對人工反饋的使用進行分類:
**反饋的格式是什么?**人工反饋的格式可以不同,包括二元判斷、數字分數、順序排名或定性的自然語言解釋。
**它的目標是什么?**根據我們模型的用例,反饋可以有各種目的,從評估模型性能和準確性到防止毒性和有害行為。
**什么時候使用?**人工反饋可以融入到訓練階段,直接優化模型參數。或者,它可以在推理時用于指導解碼過程。
**它是如何建模的?**雖然理想情況下,我們將盡可能使用來自人類的直接反饋,但其收集的高昂成本意味著,使用近似人類偏好的代理模型通常是有用的。
反饋格式
當我們想通過人工反饋改進語言生成系統時,需要做出的一個重要決定是以何種格式收集這些反饋。格式的選擇影響到反饋的表現力、收集的便利性,以及我們如何使用它來改進系統。特別是,反饋格式的復雜性是一個重要因素:更簡單的格式通常更容易收集和用作訓練/解碼過程的一部分,但比更“復雜”的格式包含更少的信息,并且可能無法捕獲用于改進系統的重要信息。格式的選擇還影響到人類提供反饋的難度、其一致性/一致性以及反饋的合理性水平(Ghosal等人,2023)。表1中總結了反饋的類型和示例。
目標
收集反饋的目的是使模型的行為與某個(通常定義不明確的)目標行為保持一致:我們可能希望我們的摘要模型生成包含所有核心信息的摘要,即使這意味著它們有點長;在商業機器翻譯中,要格外注意確保模型不會翻譯錯誤關鍵業務信息;在對話代理中,我們可能希望模型能夠生成禮貌且無害的回應。這種對齊目標在AI安全和對齊文獻中得到了廣泛研究(Bostrom,2014;Amodei等人,2016;Bommasani等人,2021)。此外,Kenton等人(2021b)討論了語言代理(自然語言生成模型)中由于錯誤指定的對齊目標(例如,來自訓練數據中的噪聲標簽)而產生的一些行為問題,Leike等人(2018)提出了使用反饋模型來解決指定該目標的困難。Bai等人(2022a)明確地將“對齊”語言模型的問題劃分為提高其有用性和增加其無害性。大多數工作隱含地考慮了針對性能因素(例如,針對任務中的整體性能或遵循指示的能力)或無害因素(例如,不產生有毒文本或提供可能導致傷害的信息)的反饋使用。
什么時候使用?
在理想情況下,我們將直接利用人類反饋來改進生成:人類將為訓練或解碼程序提供反饋,一旦收集到人工反饋,一種使用方法是直接優化模型參數。然而,這要求反饋是“可優化的”,即可能表示為一個優化問題,基于此我們可以獲得改進的模型。例如,如果反饋是一個數值分數(f∈R),我們可以創建以下優化問題:
根據訓練機制的不同,可以將其分為三類,分別稱為基于反饋的模仿學習、聯合反饋建模和強化學習(RL)。 雖然直接優化模型參數提供了更好的控制,但修改它們可能并不總是可行的,特別是在LLM的情況下。此外,在模型訓練期間可能無法獲得反饋,限制了參數調整的范圍。在這種情況下,在解碼過程中利用人工反饋對提高LLM的性能起著關鍵作用。這種類型的反饋來自于實際場景中LLM和用戶之間的交互,使模型能夠從他們的錯誤中學習,并提供了在不改變模型參數的情況下進行改進的機會。此外,反饋作為一種指導機制,允許模型通過利用其現有能力產生更理想的輸出。
如何建模?
一般情況下,直接使用人工反饋來改進模型行為是不可行的:要求人工為每個模型輸出提供反饋既昂貴又耗時。獲取人工反饋的另一種方法是開發可以預測或近似反饋的模型。盡管這些模型可能并不完美,但它們提供了在訓練后以低成本提供反饋的優勢,從而使依賴反饋的技術能夠擴展。在訓練一個反饋模型之后,我們可以使用它來改進生成,幾乎與我們使用人工反饋一樣:要么在生成模型的訓練過程中利用這個反饋模型,要么在解碼過程中合并反饋模型。
反饋模型在有效利用反饋推進生成技術方面起到了關鍵作用。然而,它們嚴重依賴于人類輸入:例如,Gao等人(2022)發現,在各種偏好模型尺寸中,使用少于1000次比較僅能導致微小改進,結果近似于隨機。此外,采用靜態反饋可能導致一致性和準確性方面的挑戰,因為反饋的整合會改變模型輸出分布。AI生成的反饋是一項新興研究領域,側重于利用大型語言模型自身的能力來評估和改進其輸出,提高模型性能而無需持續人類干預。在這個領域,已經出現了兩種主要方法:自我AI反饋和外部AI反饋。
結論
在本文中,我們概述了最近利用人類反饋來改進自然語言生成的研究,強調了不同的定義、收集和利用方法,以及各自的優缺點。大型語言模型的最新發展強調了人類反饋的必要性,以確保模型具有理想的行為并生成有益且無害的文本。我們希望這份調查能幫助研究人員了解當前的技術水平,并發現新的和現有的反饋來源以及利用它們的方法。
運用邏輯推理能力進行全面的自然語言理解嘗試。隨著生成預訓練Transformer 4(GPT-4)的發布,它在推理任務上被稱為“先進”的,我們渴望了解GPT-4在各種邏輯推理任務上的表現。本報告分析了多個邏輯推理數據集,包括流行的基準數據集如LogiQA和ReClor,以及新發布的數據集如ARLSAT。我們使用需要邏輯推理的基準測試多選閱讀理解和自然語言推理任務。我們進一步構建了一個邏輯推理的分布外數據集,以調研ChatGPT和GPT-4的魯棒性。我們還對ChatGPT和GPT-4的性能進行了比較。實驗結果表明,在大多數邏輯推理基準測試中,ChatGPT的表現明顯優于RoBERTa微調方法。在我們的手動測試中,GPT-4表現得更好。在這些基準測試中,ChatGPT和GPT-4在知名數據集如LogiQA和ReClor上表現相對較好。然而,在處理新發布和分布外的數據集時,性能顯著下降。對于ChatGPT和GPT-4來說,邏輯推理仍然具有挑戰性,尤其是在分布外自然語言推理數據集上。
1. 引言
邏輯推理對人類智能至關重要,將邏輯推理能力納入自然語言理解(NLU)系統自人工智能開始以來一直是一個活躍的研究興趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska′,1993)。研究人員一直在探索實現這一目標的各種方法,包括基于規則的方法、符號系統(MacCartney和Manning, 2007a)、微調大型語言模型(Wang等人,2018),以及結合神經和符號方法(Li和Srikumar, 2019)。
在傳統的邏輯和語義方法中,計算語言學家開發了利用一階邏輯(FOL)或自然邏輯(macaccartney和Manning, 2007a)的符號系統來解決基本的推理任務。基于規則的模型很難用手工制定的規則和定理證明器來解決諸如RTE挑戰(Dagan等人,2005年)等問題。早期研究人員采用的形式邏輯推理提出了符號系統和手工設計的規則,其中知識使用形式邏輯或其他符號表示顯式地表示。通過規則,系統可以進行演繹操作。然而,這些方法在處理模糊性和可擴展性方面面臨挑戰。它們在處理真實世界的自然語言數據時很脆弱。
神經網絡模型時代看到了大規模NLI數據集的興起作為流行基準。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)數據集是通過眾包創建的,具有巨大的數據規模和廣泛的覆蓋面。它們促進了具有更好表示能力的模型的發展,并成為自然語言理解研究的首選基準。隨著基于transformer (Vaswani et al., 2017)的語言模型(如BERT (Devlin et al., 2018)的出現,模型性能的巨大飛躍,這些模型的訓練方案使它們能夠訪問巨大的未標記語料庫。因此,構建具有數萬億參數的語言模型成為可能(Brown et al., 2020) (Raffel et al., 2019)。預訓練和微調的范式自此成為文本推理任務的主要解決方案。研究人員在對大規模文本語料庫進行預訓練后,對特定任務數據集的語言模型進行微調。大型預訓練語言模型(LMs)在流行的NLI和MRC基準上取得了超越人類的表現,這促使人們在文本推理方面進行更復雜的基準測試。
隨著最近幾個數據集的發布,邏輯推理NLP研究重新獲得了勢頭,特別是LogiQA和Reclor。數據集來自中國公務員考試和法學院入學考試(LSAT)等邏輯推理考試。這些測試即使對人類來說也是具有挑戰性的,并且是高質量的Golden標記數據。邏輯推理被用于大型預訓練語言模型(PLM)的許多探測任務和問答和對話系統等下游任務中。與傳統基準相比,PLM表現不佳。盡管到目前為止取得了進展,但在NLU系統中實現類似人類的邏輯推理能力仍然是一項具有挑戰性的任務。生成式預訓練Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新發布的語言模型,旨在理解和生成多模態內容。GPT-4在需要邏輯推理的任務中具有更強大的能力。邏輯推理對人類的智能至關重要,它使我們能夠根據給定的信息得出結論、做出預測并解決問題。將邏輯推理納入到語言模型中,如GPT-4,可以徹底改變自然語言理解(NLU)系統,使其更準確,更魯棒,并能夠理解自然語言中的復雜信息。
對ChatGPT和GPT-4在邏輯推理任務上的性能進行了評估,探索了它們在多個邏輯推理基準上的性能,詳細分析了ChatGPT和GPT-4在邏輯推理任務上的優勢和局限性。我們將討論評估GPT-4邏輯推理能力的兩個任務:多項選擇閱讀理解和自然語言推理。這兩個任務都是推理繁重的,并可作為測試模型推理能力的游樂場。在這兩種任務下,已經發布了多個邏輯推理數據集。事實證明,這些基準對于PLM來說很難解決。希望該報告能進一步揭示ChatGPT和GPT-4的邏輯推理能力。我們的貢獻如下:
2. 實驗設置
考慮多項選擇閱讀理解和自然語言推理任務進行評估。多項選擇閱讀理解在大型語言模型上進行了大量測試,因為這些任務通常具有結構清晰和高質量的數據集。另一方面,自然語言推理任務是評估推理能力的基本任務。
**表1顯示了多項選擇閱讀理解數據集的結果。**ChatGPT顯示,在幾個長期基準上,與基線模型相比,性能有所提高。在LogiQA 2.0測試集上準確率達到53.37%,比RoBERTa基礎模型高出近4個點。在中文LogiQA 2.0版本上進行測試時,ChatGPT與RoBERTa的性能差距較大,表明ChatGPT在中、英文語言上的性能具有一致性。ChatGPT在ReClor數據集上取得了57.38%的準確率,而RoBERTa的準確率為55.01%。然而,ChatGPT在分布外的數據集上的性能會大幅下降。在AR-LSAT測試集上,準確率僅為20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能為38.44%,仍然低于RoBERTa base。實驗結果表明,ChatGPT在LogiQA和ReClor等邏輯推理系統中表現良好。ChatGPT的準確性略高于微調方法。然而,在新發布的AR-LSAT數據集和LogiQA 2.0分布外數據集上進行測試時,性能明顯下降。
盡管有局限性,ChatGPT仍然代表了自然語言理解的重大進步,并展示了語言模型進行邏輯推理的潛力。在LogiQA和ReClor上進行手動測試時,GPT-4的性能明顯優于ChatGPT。在LogiQA 2.0測試集上,GPT-4的準確率為75.26%。然而,在中文LogiQA 2.0測試集上,GPT-4在中文版本數據集上的準確率下降明顯,達到了51.76%。在ReClor開發集上(ReClor在其測試中也不包括黃金標簽),GPT-4達到了92.00%的準確率,這是顯著的。然而,當在AR-LSAT測試集上進行測試時,GPT-4的表現令人驚訝地更差,只有18.27%的準確率。在LogiQA 2.0 ood數據集上的測試結果表明,GPT-4的正確率僅為48.21%,明顯低于在ReClor數據集上的正確率。我們不會急于得出結論,但可以肯定地說,GPT-4在分布外數據集上的性能下降是明顯的。
在自然語言推理任務上的實驗結果表2展示了在自然語言推理數據集上的結果。在邏輯推理NLI數據集上,ChatGPT的性能優于RoBERTa模型。在對照測試集(805個實例)上,準確率達到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI測試集(623個實例)上,ChatGPT的準確率為47.03%,比RoBERTa高出約9%。在HELP數據集(35891個實例)上,ChatGPT獲得了42.31%的準確率,比RoBERTa高出約3個點。在MED數據集(5382個實例)上,ChatGPT的準確率為55.02%,比RoBERTa高出近9%。在TaxiNLI測試集(10071個實例)上,ChatGPT取得了57.30%的準確率,比RoBERTa算法提高了7%以上。由于我們注意到ChatGPT不擅長遵循NLI任務指令,因此我們提供了一個上下文示例來幫助模型生成任務標簽,如圖2所示。總的來說,結果表明,與在閱讀理解任務上的表現相比,ChatGPT僅以很小的優勢超過微調后的RoBERTa。
我們在五個NLI數據集上測試了GPT-4的性能。一般來說,GPT-4的性能比ChatGPT好,但結果并不令人驚訝。在對照測試集上,GPT-4的表現與ChatGPT相當,獲得了58.18%的準確率。在ConjNLI測試集和HELP上的準確率分別為61.00%和53.33%,表現略好。在MED和TaxiNLI數據集上的性能較好,分別達到了75.79%和75.47%。在5個NLI數據集上的實驗結果表明,與多項選擇閱讀理解相比,GPT-4在邏輯推理和自然語言推理上并沒有表現出令人印象深刻的性能。在自然語言推理任務場景中,即使提供了指令,GPT-4也不能穩定地輸出標簽。由此我們可以推斷,雖然GPT-4在多項選擇閱讀理解任務中訓練得很好,但在自然語言推理任務中卻不擅長遵循指令。
實驗結果表明,ChatGPT和GPT-4在大多數邏輯推理基準測試上優于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT數據集。然而,對于兩個GPT模型來說,分布外數據集的性能下降是明顯的,這表明它們很難處理新的和不熟悉的數據。
Transformer模型是當下的研究焦點。最近 Google Yi Tay發布了關于Transformers最新論文,提供這類模型的最新進展的全面概述。
Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。
關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型
//www.zhuanzhi.ai/paper/39a97bd373cc6f37c6b2e9026f3422e8
Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領域都產生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究 ((Kitaev et al., 2020; Roy et al., 2020; Beltagy et al., 2020; Katharopoulos et al., 2020; Tay et al., 2020b; Wang et al., 2020c; Rae et al., 2020; Choromanski et al., 2020b; Dai et al., 2020; Correia et al., 2019; Sukhbaatar et al., 2019a; Vyas et al., 2020)。
最近出現了大量的Transformer模型變體,研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現有文獻進行綜述,既有利于社區,又十分及時。
自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性,這可能阻礙模型在許多設置的可伸縮性。最近,為了解決這個問題,出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。
根據上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況,當模型運行的加速器的內存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓練和推理期間的失敗次數。特別是對于設備上的應用,模型應該能夠在有限的計算預算下運行。在這篇綜述中,我們提到了Transformer在內存和計算方面的效率,當它們被用于建模大型輸入時。
有效的自注意力模型在建模長序列的應用中是至關重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關重要。 本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新,我們還將在后面的章節簡要討論一般改進和其他效率改進。
本文提出了一種高效Transformer模型的分類方法,并通過技術創新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領域都有應用的Transformer模型,試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹,并繪制了它們之間的聯系。
本節概述了高效Transformer模型的一般分類,以其核心技術和主要用例為特征。盡管這些模型的主要目標是提高自注意機制的內存復雜度,但我們還包括了提高Transformer體系結構的一般效率的方法。
固定模式(FP)——對自注意最早的修改是通過將視野限制在固定的、預定義的模式(如局部窗口和固定步距的塊模式)來簡化注意力矩陣。
組合模式(CP)——組合方法的關鍵思想是通過組合兩個或多個不同的訪問模式來提高覆蓋率。例如,Sparse Transformer (Child et al., 2019)通過將一半的頭部分配給每個模式,將跨步注意力和局部注意力結合起來。類似地,軸向Transformer (Ho et al., 2019)運用了一系列以高維張量作為輸入的自注意計算,每個計算都沿著輸入張量的單個軸。從本質上說,模式的組合以與固定模式相同的方式降低了內存復雜度。但是,不同之處在于,多個模式的聚合和組合提高了自注意機制的整體覆蓋率。
可學習的模式(LP)-固定的,預先確定的模式的擴展是可學習的模式。不出所料,使用可學習模式的模型旨在以數據驅動的方式學習訪問模式。學習模式的一個關鍵特征是確定令牌相關性的概念,然后將令牌分配到桶或集群(Vyas et al., 2020; Wang et al., 2020b)。值得注意的是,Reformer (Kitaev et al., 2020)引入了一種基于哈希的相似性度量,以有效地將令牌聚為塊。類似地,路由Transformer (Roy et al., 2020)對令牌使用在線k-means聚類。同時,Sinkhorn排序網絡(Tay et al., 2020b)通過學習對輸入序列的塊進行排序,暴露了注意權值的稀疏性。在所有這些模型中,相似函數與網絡的其他部分一起端到端訓練。可學習模式的關鍵思想仍然是利用固定模式(塊狀模式)。然而,這類方法學會了對輸入標記進行排序/聚類——在保持固定模式方法的效率優勢的同時,實現了序列的更優全局視圖。
神經記憶——另一個突出的方法是利用可學習的側記憶模塊,它可以一次訪問多個令牌。一種常見的形式是全局神經存儲器,它能夠訪問整個序列。全局標記充當一種模型內存的形式,它學習從輸入序列標記中收集數據。這是在Set transformer (Lee et al., 2019)中首次引入的誘導點方法。這些參數通常被解釋為“內存”,用作將來處理的臨時上下文的一種形式。這可以被認為是參數關注的一種形式(Sukhbaatar et al., 2019b)。ETC (Ainslie et al., 2020)和Longformer (Beltagy et al., 2020)也使用了全局記憶令牌。在有限的神經記憶(或誘導點)中,我們能夠對輸入序列執行一個初步的類似于池的操作來壓縮輸入序列——在設計高效的自注意模塊時,這是一個可以隨意使用的巧妙技巧。
低秩方法——另一種新興的技術是通過利用自注意矩陣的低秩近似來提高效率。
內核——另一個最近流行的提高transformer效率的方法是通過內核化來查看注意力機制。
遞歸-塊方法的一個自然擴展是通過遞歸連接這些塊。
下采樣-另一種降低計算成本的常用方法是降低序列的分辨率,從而以相應的系數降低計算成本。
稀疏模型和條件計算——雖然不是專門針對注意力模塊,稀疏模型稀疏地激活一個參數子集,這通常提高了參數與FLOPs的比率。
論文題目: Pruning a BERT-based Question Answering Model
論文摘要: 我們研究了通過從基本的BERT模型中剪除參數來壓縮基于BERT的問答系統。我們從為2.0小隊訓練的模型開始,引入允許變壓器的選定部分被單獨消除的門。具體來說,我們研究:(1)減少每個變壓器中的注意頭數目,(2)減少每個變壓器的前向子層的中間寬度,以及(3)減少嵌入尺寸。我們比較了幾種確定這些閾值的方法。我們發現剪枝注意頭和前饋層的結合幾乎使解碼速度加倍,只有1.5f點的精度損失。
作者介紹: Jeffrey McCarley,IBM T.J.沃森研究中心