亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

ChatGPT和GPT-4等大型語言模型(LLM)在NLP領域取得了重大進展。然而,它們記憶、表示和利用常識性知識的能力一直是LLM眾所周知的痛點。目前尚不清楚: **(1) GPTs能否有效地回答常識問題? (2) GPTs在常識方面有知識嗎?(3) GPTs是否意識到回答特定問題所需的基本常識知識? (4) GPTs能否有效地利用常識來回答問題?**為了評估上述常識問題,我們進行了一系列實驗來評估ChatGPT的常識能力,實驗結果表明: **(1) GPTs可以在常識任務中取得良好的QA準確性,同時在某些類型的知識上仍有困難。(2) ChatGPT知識豐富,能夠利用知識提示準確地生成大部分常識知識。(3) ChatGPT雖然知識豐富,但卻是一個缺乏經驗的常識問題求解器,**無法精確識別回答某一特定問題所需的常識知識,即ChatGPT并不精確知道回答一個問題需要哪些常識知識。上述發現提出了需要研究在LLM中利用常識知識的更好機制,如指令遵循、更好的常識指導等。

//www.zhuanzhi.ai/paper/a791ca0e145cf4259d9782292df2eaeb

1 引言

常識知識是人類認知的一個基本方面,它包括我們對世界的直覺理解和我們對世界的推理能力。它包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識,以及對社會規范、信仰和價值觀的理解,以及預測和解釋人類行為的能力(Liu and Singh, 2004)。常識知識對于構建能夠理解和生成類人語言的NLP系統至關重要。盡管常識知識對許多任務都很重要,但在機器中獲取和表示常識知識一直是NLP中的一個長期挑戰(Li et al., 2021;Zhang et al., 2022),因為常識往往是隱式的,并依賴于上下文(Gordon和Van Durme, 2013;Shwartz和Choi, 2020)。近年來,人們對解決NLP模型的常識問題以及實現更類似人類的語言生成和理解的興趣越來越大(Bauer等人,2018;Wang等人,2020;江等,2021;劉等人,2021,2022)。 最近,大型語言模型(LLM)如GPT-3 (Brown et al., 2020)、ChatGPT和GPT-4在廣泛的NLP能力方面取得了顯著的成功,包括推理、上下文理解和思維鏈推理(Wei et al.,2022)。這些能力表明,大型語言模型具有一定程度的常識知識(West et al.,2022)。然而,常識問題往往被認為是大型語言模型的一個主要限制(Zhou等人,2020;Bhargava和Ng, 2022)。隨著這些模型變得越來越強大,目前仍不清楚它們在多大程度上能夠理解和推理常識知識邊緣。這就提出了幾個關鍵問題:

(1) GPTs能否有效地回答常識性問題?

(2) GPTs在常識方面知識淵博嗎?

(3) GPTs是否意識到回答特定問題所需的基本常識知識?

(4) GPTs能否有效地利用常識來回答問題?

回答這些問題對于理解LLM的能力和局限性,以及開發更好的方法來評估和提高它們在常識任務上的表現至關重要。

為了評估模型回答常識問題的能力,使用了11個常識問答數據集,涵蓋了8個不同的常識領域,包括物理、社會、時間和數值推理等。首先,我們要求模型回答這些問題,并評估其回答的準確性。為了評估大型語言模型是否理解了回答這些問題所需的常識知識,我們要求模型描述必要的知識,并評估描述是否準確。為了評估大型語言模型是否能夠回憶和描述回答問題所需的知識,我們要求模型是否知道必要的知識,并評估回答是否正確和相關。最后,為了評估模型是否可以利用常識知識進行推理,我們將之前實驗中產生的知識作為上下文,并要求模型再次回答問題。我們將它們的表現與使用黃金知識進行比較,并評估它們的推理過程是否可以有效地利用已識別的知識。

我們的實驗為大型語言模型的常識問題提供了見解: **(1)GPTs可以在常識任務中實現良好的QA準確性,而它們在某些類型的知識方面仍然很困難。(2) ChatGPT知識豐富,可以使用知識提示準確地生成大部分常識知識。****(3) ChatGPT是缺乏經驗的常識問題求解者,無法準確識別解決特定問題所需的常識知識。**此外,ChatGPT不能有效地利用上下文中的常識知識來回答特定問題。

本文的主要貢獻在于:

我們通過進行實驗詳細研究了大型語言模型的常識能力來回答4個關鍵問題。

我們設計了一系列實驗來評估ChatGPT記憶、表示和利用常識知識的能力,包括回答常識問題,識別和生成必要的知識,以及在其推理過程中利用常識知識。

通過確定ChatGPT在常識知識和推理能力方面的優勢和劣勢,我們為開發更高級的語言模型提供了見解,這些模型可以有效地利用和推理常識知識。

2 什么是常識

常識是“人類經驗的很大一部分,包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識。(Liu and Singh, 2004;布拉赫曼和萊維斯克,2022年)。這種類型的知識通常被認為是理所當然的,通常是通過在特定文化中多年的經驗和社會化獲得的。為了幫助讀者更好地理解這一概念,我們總結了幾類主要的常識:一般常識:這類常識指的是被廣泛分享并被大多數人認為是正確的知識,例如太陽從東方升起,從西方落下。物理常識:這類常識涉及關于物理世界的知識,比如物體掉落時會落到地面,水會往下坡流。 社會常識:這類常識涉及社會規范、風俗習慣和實踐方面的知識,比如提出請求時說“請”和“謝謝”是禮貌的。 科學常識:這類常識涉及基本的科學概念和原理,例如地心引力將地球上的所有物體拉向地球中心。 事件常識:這類常識涉及到事件的先后順序以及它們之間的因果關系的知識,比如杯子被打翻了,里面的液體就會灑出來。 數值常識:這種類型的常識涉及有關數字的知識,例如人類有兩只手和十個手指。 原型常識:這類常識包括關于概念的典型或原型例子的知識,例如燕子是一種鳥,鳥有翅膀。時間常識:這類常識涉及時間知識,例如出國旅行比散步需要更長的時間。

3 GPTs能有效地回答常識問題嗎?

在這一節中,我們評估了LLM回答常識問題的表現。具體來說,我們使用了11個常識QA數據集,涵蓋了8個常識領域,包括通用、物理、社會、科學、事件、數值、原型和時間。這11個數據集是common - monsenseQA (Talmor等人,2019)、OpenBookQA (Mihaylov等人,2018)、WSC (Levesque等人,2012)、PIQA (Bisk等人,2020)、Social IQA (Sap等人,2019)、ARC (Clark等人,2018)、QASC (Khot等人,2020)、HellaSWAG (Zellers等人,2019)、NumerSense (Lin等人,2020)、ProtoQA (Boratko等人,2020)和MC-TACO (Zhou等人,2019)。數據集及其域,每個數據集都有一個示例,如表1所示。

我們從每個常識QA數據集的開發集中抽樣了100個問題用于評估,除了ProtoQA,它的開發集中只有52個問題。我們使用GPT-3 (davinci)、GPT- 3.5 (text-davinci-003)和ChatGPT作為用于評估的大型語言模型。對于GPT-3,我們使用4-shot in-context學習。對于GPT-3.5和ChatGPT,我們使用零樣本推理,并為不同的數據集設計提示模板。 結果如表2所示。從結果可以看出:

**GPTs能夠準確回答常識性問題。**我們在11個常識QA數據集上評估了不同LLM的性能。表2的結果顯示,GPT-3.5和ChatGPT都可以在大多數數據集上取得良好的性能。表現最好的數據集是ARC和ProtoQA, ChatGPT在這兩個數據集上的準確率分別達到了94%和94.2%。這些結果表明,像GPT-3.5和ChatGPT這樣的大型語言模型對于常識性問題是有效的問題解決器,可以在不同類型的常識性問題中提供準確的答案。 GPTs利用常識知識的能力可以通過指令調優和人類對齊來提高。我們比較了三種大型語言的性能表2中的models、GPT-3、GPT-3.5和ChatGPT。從結果中我們可以看到,GPT-3.5和Chat- GPT相比GPT-3取得了顯著的提升。這些結果表明,僅靠預訓練不足以學習利用知識。通過結合指令和對齊調整技術(歐陽等人,2022),模型可以更好地利用和推理常識知識。

**總的來說,ChatGPT在大多數領域取得了比GPT-3.5更高的準確率,證明了RLHF技術在增強知識利用能力方面的有效性。**然而,GPT-3.5在某些數據集上的表現略優于ChatGPT,包括CommonsenseQA和社交IQA。這是因為ChatGPT往往比較謹慎,在信息不足的情況下拒絕給出答案,導致出現“根據給出的信息,不可能確定……”這凸顯了在信息不充分的模型中,如何平衡謹慎和準確性的問題,還需要進一步研究。要實現這一點,需要模型理解回答問題所需的知識,并意識到模型是否擁有該知識。 **雖然GPTs在大多數常識知識領域表現良好,但在某些類型的知識方面仍存在困難。表2中的實驗表明,大型語言模型在社交、事件和時間常識QA(社交IQA、HellaSWAG和MC- TACO數據集)上滯后。**ChatGPT在這些數據集上的表現低于70%。這表明llm在社會、事件和時間常識知識上仍然存在缺陷。我們認為這是因為這些類型的常識知識需要對人類行為和社會互動有更深入的理解,而它們在文本語料庫中很少出現。這表明,當前的LLM需要在這些常識領域上進行改進,這需要模型超越表面的語義理解,學習人類行為。

4. GPTs是否意識到回答問題的常識知識?

在第3節中,我們發現GPTs在常識性QA數據集上表現良好。這引起了我們的探索,GPTs是經驗豐富的專家,他們知道需要什么知識,并可以利用這些知識進行問答,還是他們是缺乏經驗的問題解決者,依賴于記憶大量涵蓋問題的信息。 為了回答這個問題,我們從每個常識QA數據集中抽樣了20個問題,并詢問Chat- GPT“回答這個問題需要哪些知識?”對于有≥10個錯誤回答問題的數據集,我們抽樣10個正確回答問題和10個錯誤回答問題,否則,我們采取所有錯誤回答的問題,抽樣更多正確回答的問題,以填補這20個問題。 我們手動評估每個生成的回答的準確率和召回率,并使用F1分數作為衡量標準。例如,表3展示了ChatGPT的回答,描述了回答問題所需的知識。從ChatGPT的回應中,我們將知識1和知識3標記為回答問題有用,而知識2被過度泛化,知識4和知識5不是必需的。然后我們根據這2條知識判斷問題是否可回答,并進一步在人工評價中額外寫2條必要知識,知識a和知識b,這樣,這個回答的精確率為2/5,召回率為2/4,F1分數為44.44%。 結果如表4所示,

**ChatGPT是一個沒有經驗的問題解決者,它很難精確地識別回答特定問題所需的常識知識。**我們手動評估ChatGPT生成的必要知識,結果如表4所示。結果顯示,在大多數常識性QA數據集上,總體F1分數在40%到75%之間。這些結果表明,ChatGPT是一個經驗不足的問題解決者,無法準確識別回答特定常識問題所需的知識。

具體而言,該模型在科學領域表現相對較好,在ARC和QASC上分別取得了74.57%和76.13%的F1值。然而,該模型在社交領域和時間領域(即社交IQA和MC-TACO)上表現最低。F1分數的這種差異很可能是因為科學常識知識在文本語料庫中比社會和時間知識更普遍。例如,教科書經常討論“氣候由溫度和濕度描述”等科學概念,但很少提及“學生不喜歡參加大考”等社會規范,或“吃一頓飯不需要幾個月”等時間知識。這表明,像ChatGPT這樣的大型語言模型在社會和時間領域仍然存在局限性。因此,開發更有效的訓練策略來注入這些常識知識領域是很重要的。

GPTs無法有效區分回答特定問題的相關和不相關常識知識,通常會生成噪聲率較高的知識。我們在表4中評估了生成的必要知識的精確率和召回率。所有數據集的平均召回率為84.42%,平均精確率為55.88%。這表明,雖然模型可以識別出大多數問題的常識知識,但它很難準確識別出哪些知識對于回答特定的常識問題是必不可少的。該模型通常生成的知識是不相關的或過度泛化的。例如,表3中的知識2是過度泛化的,因為問題本身是“如何制作戶外枕頭”,而知識4和5考慮到兩種選擇之間的差異,就顯得不相關了。我們認為這是因為模型依賴的是關鍵詞和主題匹配,而不是對問題內部的邏輯關系的充分理解。這進一步證明了GPTs仍然是缺乏經驗的問題解決者。因此,llm需要增強對手頭任務的自我意識,并將關鍵信息與無關背景信息區分開來。例如,他們需要能夠判斷一個問題的哪些部分對決策是必要的,比如表3中的“吹進錫罐/垃圾袋”,哪些部分是無關的。

通過增強GPTs的知識意識(knowledge-awareness),即引導模型識別特定問題所需的知識,可以顯著提高GPTs的常識能力。在圖2中,我們繪制并分析了生成的必要知識的總體F1分數與答案之間的相關性ChatGPT的準確率。結果顯示準確率和知識F1有很強的相關性,皮爾遜系數為0.77。此外,表4顯示,正確回答問題的知識F1得分明顯高于錯誤回答問題的知識F1得分。這些發現表明,準確識別必要的知識對于正確回答常識問題至關重要。因此,增強模型對必要知識的自我意識,有可能提高其在包括常識QA在內的下游任務上的性能。

5 . GPTs了解常識嗎?

本節回答了這個問題:大型語言模型在多大程度上具有常識知識?為了回答這個問題,類似于Shwartz et al.(2020),我們根據第3節中生成的必要知識手動構建知識查詢提示。例如,如表5所示,基于表3中的知識1,我們將問題寫成“你對什么是戶外枕頭有了解嗎?”我們將這些提示輸入到ChatGPT中,并手動標注ChatGPT生成的每一個知識描述是否正確。

表5展示了一個知識查詢問題的示例和生成的知識描述。第一個描述說“向垃圾袋吹氣,用橡皮筋綁起來,可能會產生類似墊子的表面,但作為戶外枕頭,不太可能持久或舒適”,但在現實中,這是一種典型的做法。所以,這個描述被貼上了不正確的標簽。 結果如表6所示。從結果可以看出:

GPTs知識淵博,包含了準確回答問題所需的大部分常識知識。通過提出知識-查詢問題和手動評估ChatGPT的響應,我們評估了ChatGPT中必要知識的準確性。表6的結果顯示,ChatGPT生成的知識描述在大多數常識性QA數據集上都能達到70%以上的準確率,達到82.66%的平均準確率。這表明,在給定知識查詢問題的情況下,ChatGPT可以生成準確的常識知識描述。這表明llm可以作為常識知識庫,并為下游任務提供常識。然而,在社會領域的準確率較低,為54.92%。我們認為,這是因為社會常識,如“接受幫助的人,而不是給予幫助的人,應該說謝謝”,在文本中并不常見。這就突出了開發具體指導的重要性,可以指導ChatGPT獲取社會常識知識。 GPT包含誤導和過度泛化的常識知識。為了評估CommonsenseQA數據集上知識描述的相關性和信息量,我們進行了人工評估。結果顯示,26.25%的描述包含不相關和誤導性的信息,15.00%的描述過度泛化,未能提供回答問題所需的具體知識。例如,表5中的描述提到了“探索專門用于制作戶外枕頭的其他方法或材料”,這對于回答問題是沒有幫助和誤導性的。我們認為這是因為大型語言模型的訓練數據中存在噪聲和冗余信息,而損害對準確判斷信息相關性的能力。這些發現強調了ChatGPT需要生成具有相關性和信息量的知識描述,以確保生成的結果對回答問題具有實用價值。 在LLM中,了解和利用常識知識之間存在差距。為了探索生成的知識描述的準確性和答案準確性之間的關系,我們進行了相關性分析,并在圖3中繪制了結果。我們的結果顯示,兩個準確率之間存在微弱的相關性,皮爾遜系數為0.40。值得注意的是,雖然在社交IQA和MC-TACO數據集上的答案準確率都很低,但它們之間的知識描述準確率存在顯著差異:社交IQA的準確率很低(54.92%),但MC-TACO的準確率很高(86.25%)。表6進一步顯示,與第4節的結果相比,正確回答和錯誤回答的問題在描述準確率上的差異相對較小。這表明,好的知識描述并不一定能轉化為正確的答案。我們認為這是因為回答常識性問題不僅需要知識,還需要在信息不足的條件下進行推理和推理等其他能力。

6. GPTs可以有效地利用上下文中的常識進行推理嗎?

本節回答了一個問題:大型語言模型能否利用上下文中的常識知識進行推理和回答問題?為了回答這個問題,在回答了第4節中的知識查詢問題后,我們要求模型再次回答常識問題,并評估在描述必要的知識后答案是否會發生變化。表7展示了一個先前不正確的答案在生成知識描述后仍然保持不變的例子。 結果如表8所示。從結果可以看出: 如果我們只將生成的常識添加到問題上下文中,ChatGPT無法有效利用這些常識。我們對生成知識描述前后答案變化的分析表明,在大多數數據集上,使用生成的常識后并沒有明顯和一致的準確性提升 既有從錯誤到正確的變化,也有從正確到錯誤的變化,還有相當大比例的未改變的答案,如表7所示的例子。在社交IQA數據集的情況下,知識生成的準確性較低,導致更多的正確答案被修改為錯誤。這說明ChatGPT無法有效利用自身生成的知識描述來回答問題,知識生成的準確性對回答結果有巨大影響。我們認為這是因為模型已經擁有了生成的知識,因此添加冗余知識是沒有用的。 ChatGPT在常識QA方面的性能提升即使使用黃金知識也不顯著。我們為common - monsenseQA數據集使用了兩個人工標注的常識解釋數據集CoS-E (Rajani et al.,2019)和ECQA (Aggarwal et al., 2021)作為黃金知識作為上下文,并要求ChatGPT生成答案。我們發現,給出CoS-E解釋的只有4個錯誤→正確的答案,給出ECQA解釋的只有8個錯誤→正確的答案,而有一個正確→錯誤的答案。這表明ChatGPT并不能回答所有的問題即使給出真實知識的解釋,也能正確回答問題。我們認為這是因為大型語言模型缺乏使用知識進行復雜常識推理的能力,例如否定。例如,這里有一個需要否定推理的問題:“如果籃球上有一個洞,但它沒有失去它的一般形狀,那么關于籃球,有什么是不正確的?A.被刺破的,B.在美國流行的,C.充滿空氣的,D.消失了的,E.圓形的”。對這個問題的CoS-E解釋是:“任何有洞的物體都不能留住空氣。”,但ChatGPT仍然預測了錯誤的答案A,并解釋道:“如果籃球上有一個洞,它就被刺穿了,空氣就會從中逸出。”這些結果表明,大型語言模型需要進一步的指導和改進,以更好地利用和推理上下文中的常識性知識。

7 結論和討論

在本文中,我們調研了大型語言模型的常識能力,發現ChatGPT是一個有知識但沒有經驗的問題解決者:(1) 雖然GPTs可以在常識QA中取得很好的準確性,但他們仍然在某些類型的知識上掙扎,包括社會和時間常識。(2) ChatGPT在常識方面知識淵博,可以使用知識提示準確地生成大部分常識知識。(3) ChatGPT是一個缺乏經驗的常識問題求解者。它很難準確地識別給定問題的潛在常識知識,并且經常生成噪聲率很高的知識。此外,ChatGPT不能有效地利用上下文中的常識知識來回答常識問題。 上述發現為未來的工作提出了幾個有希望的方向: **(1) 雖然目前的GPTs知識豐富,但他們仍然沒有經驗解決問題。**因此,研究在LLM中利用常識知識的更好機制至關重要,如指令調優、更好的常識引導推理等。 (2) LLM中仍然缺少幾種類型的常識知識,如社會和時間常識。因此,為這些知識類型設計知識注入方法至關重要。此外,重要的是設計輕量級的常識更新方法,以保持知識的最新。 **(3) 由于ChatGPT和GPT-4不會公布它們的全部細節,**比如訓練數據、超參數和檢查點,評估一個“人工通用智能”模型是非常不同的,因此設計和構建覆蓋范圍更廣的基準至關重要,設計評估方法能夠對大型語言模型提供更全面和更公正的評估。

付費5元查看完整內容

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

隨著人工智能和大數據的爆炸式增長,如何合理地組織和表示海量的知識變得至關重要。知識圖譜作為圖數據,積累和傳遞現實世界的知識。知識圖譜可以有效地表示復雜信息;因此,近年來迅速受到學術界和工業界的關注。為了加深對知識圖譜的理解,對該領域進行了系統綜述。具體來說,關注知識圖譜的機遇和挑戰。首先從兩個方面回顧了知識圖譜的發展機遇: (1)基于知識圖譜構建的人工智能系統; (2)知識圖譜的潛在應用領域。然后,深入討論了該領域面臨的知識圖譜表示、知識獲取、知識補全、知識融合和知識推理等技術挑戰;本綜述將為知識圖譜的未來研究和發展提供新的思路。 //www.zhuanzhi.ai/paper/93a14b6709974a3bbd86c10302053fea1. 引言

知識在人類的生存和發展中起著至關重要的作用。學習和表示人類知識是人工智能(AI)研究中的關鍵任務。雖然人類能夠理解和分析周圍環境,但AI系統需要額外的知識才能獲得相同的能力并解決現實場景中的復雜任務(Ji et al, 2021)。為了支持這些系統,我們已經看到了根據不同的概念模型來表示人類知識的許多方法的出現。在過去十年中,知識圖譜已經成為這一領域的標準解決方案,也是學術界和工業界的研究趨勢(Kong et al, 2022)。 **知識圖譜被定義為積累和傳遞真實世界知識的數據圖譜。知識圖譜中的節點表示感興趣的實體,邊表示實體之間的關系(Hogan et al, 2021;Cheng et al, 2022b)。**這些表示利用了形式化語義,這使得計算機能夠高效且無歧義地處理它們。例如,實體“比爾·蓋茨”可以與實體“微軟”聯系起來,因為比爾·蓋茨是微軟的創始人;因此,他們在現實世界中是有關系的。 由于知識圖譜在機器可讀環境下處理異構信息方面的重要意義,近年來對這些解決方案持續開展了大量研究(Dai et al, 2020b)。所提出的知識圖譜最近被廣泛應用于各種人工智能系統(Ko等,2021;Mohamed et al, 2021),如推薦系統、問答系統和信息檢索。它們也被廣泛應用于許多領域(例如教育和醫療保健),以造福人類生活和社會。(Sun et al, 2020;Bounhas et al, 2020)。 因此,知識圖譜通過提高人工智能系統的質量并應用到各個領域,抓住了巨大的機遇。然而,知識圖譜的研究仍然面臨著重大的技術挑戰。例如,現有的從多個來源獲取知識并將其集成到典型的知識圖譜中的技術存在很大的局限性。因此,知識圖譜在現代社會中提供了巨大的機遇。然而,它們的發展存在著技術上的挑戰。因此,有必要對知識圖譜進行機遇與挑戰的分析,以更好地理解知識圖譜。 為深入了解知識圖譜的發展歷程,全面分析了知識圖譜面臨的機遇和挑戰。首先,從知識圖譜顯著提升人工智能系統性能和受益于知識圖譜的應用領域兩個方面討論了知識圖譜的機遇;然后,考慮到知識圖譜技術的局限性,分析了知識圖譜面臨的挑戰;本文的主要貢獻如下:

**知識圖譜研究綜述。**對現有的知識圖譜研究進行了全面的調研。詳細分析了知識圖譜的最新技術和應用進展。

**知識圖譜機遇。**本文從利用知識圖譜的基于知識圖譜的人工智能系統和應用領域的角度,研究了知識圖譜的潛在機會。研究了知識圖譜對人工智能系統的好處,包括推薦系統、問答系統和信息檢索。然后,通過描述知識圖譜在教育、科研、社交媒體、醫療等各個領域的當前和潛在應用,探討了知識圖譜對人類社會的深遠影響。

**知識圖譜挑戰。**本文對知識圖譜面臨的重大技術挑戰提供了深入的見解。特別地,從知識圖譜表示、知識獲取、知識圖譜補全、知識融合和知識推理等5個方面,分析了目前具有代表性的知識圖譜技術的局限性。

論文的其余部分組織如下。第2節對知識圖譜進行概述,包括知識圖譜的定義和現有研究的分類。第3節和第4節分別介紹了相關的AI系統和應用領域,探討了知識圖譜的機遇。第5節詳細介紹了基于這些技術的知識圖譜面臨的挑戰。最后,在第6節對本文進行總結。

2 概述

首先給出知識圖譜的定義;然后,對該領域的重要最新研究進行了分類。 2.1 什么是知識圖譜?

知識庫是一種典型的數據集,它以三元組的形式表示現實世界中的事實和語義關系。當三元組被表示為一個邊為關系、節點為實體的圖時,它被認為是一個知識圖譜。通常,知識圖譜和知識庫被視為同一個概念,可以互換使用。此外,知識圖譜的模式可以定義為一個本體,它顯示了特定領域的屬性以及它們之間的關系。因此,本體構建是知識圖譜構建的一個重要階段。

2012年,谷歌首次提出了知識圖譜,介紹了他們的知識庫谷歌知識圖譜(Ehrlinger and W¨o?, 2016)。隨后,引入并采用了許多知識圖譜,例如:

DBpedia,一個知識圖譜,它試圖從維基百科中發現有語義意義的信息,并將其轉化為DBpedia中一個有效的結構良好的本體知識庫(Auer et al, 2007)。 * Freebase,一個基于多個來源的知識圖譜,提供結構化和全球性的信息資源(Bollacker et al, 2008)。 * Facebook的實體圖(entity graph),這是一個知識圖譜,可以將用戶配置文件的非結構化內容轉換為有意義的結構化數據(Ugander et al, 2011)。 * Wikidata,一個跨語言的面向文檔的知識圖譜,支持許多網站和服務,如維基百科(Vrande ci′c and Kr¨otzsch, 2014)。 * Yago,是一個高質量的知識庫,包含大量的實體及其對應關系。這些實體是從維基百科和WordNet等多個來源提取的(Rebele et al, 2016)。 * WordNet,是一個衡量單詞之間語義相似度的詞匯知識庫。該知識庫包含許多層次概念圖來分析語義相似度(Pedersen et al, 2004)。

知識圖譜是由節點和邊組成的有向圖,其中一個節點表示一個實體(真實對象或抽象概念),兩個節點之間的邊表達了兩個實體之間的語義關系(Bordes et al, 2011)。資源描述框架(Resource Description Framework, RDF)和標簽屬性圖(Labeled Property Graphs, LPGs)是兩種典型的知識圖譜表示和管理方法(F¨arber等,2018;博肯,2020)。知識圖譜的基本單位是三元組(主語、謂語、賓語)(或(頭、關系、尾)),即(比爾·蓋茨,創始人,微軟)。由于關系不一定是對稱的,所以鏈接的方向很重要。因此,知識圖譜也可以看成是頭部實體通過關系邊指向尾部實體的有向圖

圖2知識圖譜研究

圖1描繪了一個簡單知識圖譜的例子。如圖1所示,圖中顏色變暗2 的節點e1 and通過關系r連接,關系r從e1到e2。因此,e1、e2、r1可以形成三元組(e1、r1、e2),其中eand分別2 是頭實體1 和尾實體。 近年來,知識圖譜得到了廣泛的研究興趣。大量的研究集中在對知識圖譜的探索上。對知識圖譜進行了全面的綜述,列出了當前該領域的7類重要研究。圖2顯示了關于知識圖譜的最流行的研究路線的模式。其中,人工智能系統是利用知識圖譜作為基礎的服務,應用領域是知識圖譜所觸及的領域。列出這兩條研究方向是為了探討知識圖譜的發展機遇。另外5個研究方向是5個主要的知識圖譜技術,對應5個任務。對這5種技術進行了介紹,并強調了它們的局限性,為知識圖譜面臨的主要挑戰提供了有益的啟示。 * 知識圖譜嵌入:知識圖譜嵌入是知識圖譜嵌入研究的中心問題之一。該任務旨在將知識圖譜中的實體和關系映射到低維向量空間,從而高效地捕捉知識圖譜的語義和結構(Dai等,2020b)。然后,通過機器學習模型可以有效地學習得到的特征向量。三種主要的基于三元組事實的嵌入方法如下:(a)基于張量因子分解的,(b)基于翻譯的,和(c)基于神經網絡的方法(Dai et al, 2020b)。 * **知識獲取:**知識獲取主要是對知識圖譜進行建模和構建,是知識圖譜研究的另一個重要研究方向。通常,知識是通過使用映射語言(如R2RML)從結構化來源導入的(Rodriguez- Muro and Rezk, 2015)。此外,知識可以從

非結構化文檔(如新聞、研究論文和專利),采用關系、實體或屬性提取方法(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。 * 知識圖譜完備性:盡管構建知識圖譜的方法有很多,但要建立一個領域內所有知識的全面表示仍然是不可實現的。大多數知識圖譜仍然缺乏大量的實體和關系。因此,對完備的知識圖譜進行了大量的研究。知識圖譜補全技術旨在通過預測新增的關系和實體來提高知識圖譜的質量。第一個任務通常采用鏈接預測技術生成三元組,然后對三元組的可信度評分進行分配(Ji et al, 2021)。第二個任務采用實體預測方法來獲取和整合來自外部來源的進一步信息。

**知識融合:**知識融合也是一個重要的研究方向,專注于捕獲不同來源的知識,并將其集成到知識圖譜中(Nguyen et al, 2020)。知識融合方法對于知識圖譜的生成和完善都有重要意義。最近,實體對齊已經成為實現知識融合任務的主要方法。 * **知識推理:**通過推理來豐富知識圖譜,旨在基于現有數據推斷新的事實(Minervini et al, 2020),是目前的研究熱點。特別是,在兩個不相連的實體之間推斷出新的關系,形成新的三元組。而且,通過推理出虛假的事實,知識推理具有識別錯誤知識的能力。知識推理的主要方法包括基于邏輯規則的方法、基于分布式表示的方法和基于神經網絡的方法(Chen et al, 2020b)。 * 人工智能系統:如今,知識圖譜被推薦、問答系統和信息檢索工具等人工智能系統(Liang et al, 2022)廣泛使用。通常情況下,知識圖譜中豐富的信息可以提高解決方案的性能。因此,許多研究側重于利用知識圖譜來提高人工智能系統的性能。 * **應用領域:**知識圖譜在教育、科學研究、社交媒體和醫療保健等各個領域都有眾多應用(Li et al, 2020b)。提高人類生活水平,需要各種智能應用。

與其他工作不同,重點關注知識圖譜的機遇與挑戰。特別是,隨著人工智能服務質量的提高,知識圖譜在各個領域的應用將迎來巨大的機遇。相反,認為知識圖譜技術的局限性是其面臨的挑戰。因此,討論知識圖譜表示、知識獲取、知識圖譜補全、知識融合、知識推理等方面的技術局限性。 3 面向人工智能系統的知識圖譜

本節通過分析知識圖譜對提高人工智能系統的功能所帶來的優勢,來說明它所帶來的機遇。具體來說,有幾個系統,包括推薦系統、問答系統和信息檢索工具(Guo et al, 2020;鄒,2020),將知識圖譜用于輸入數據,并從知識圖譜中獲益最大。除了這些系統外,其他人工智能系統,如圖像識別系統(Chen et al, 2020a),也開始考慮知識圖譜的特征。然而,知識圖譜在這些系統中的應用并不廣泛。此外,這些系統并沒有直接利用知識圖譜對輸入數據進行性能優化。因此,詳細討論了知識圖譜為推薦系統、問答系統和信息檢索工具帶來的優勢,分析了知識圖譜的發展機遇。通常,這些解決方案可以從采用知識圖譜中獲益,這些圖譜提供了高質量的領域知識表示。表1展示了我們將在下面討論的AI系統的摘要。

推薦系統 * 問答系統 * 信息檢索

4 應用和潛力

在本節中,我們將討論知識圖譜在教育、科學研究、社會網絡和健康/醫療保健四個領域的應用和潛力。盡管一些研究人員試圖利用知識圖譜開發其他領域的有益應用,如金融(Cheng et al, 2022c),但基于知識圖譜的智能服務在這些領域相對模糊,仍然需要探索。因此,本節主要圍繞教育、科研、社會網絡、醫療等方面,對知識圖譜的機遇進行總結。表2給出了知識圖譜在這些領域的幾個最新應用。 5 技術挑戰

雖然知識圖譜為各種服務和應用提供了極好的機會,但仍有許多挑戰有待解決(Noy等,2019)。具體而言,現有知識圖譜技術的局限性是推動知識圖譜發展的關鍵挑戰(Hogan et al, 2021)。因此,本節從知識圖譜嵌入、知識獲取、知識圖譜補全、知識融合和知識推理這5種熱門知識圖譜技術的局限性出發,討論知識圖譜面臨的挑戰。 5.1 知識圖譜的嵌入

知識圖譜嵌入的目標是在低維向量空間中有效表示知識圖譜,同時仍保留其語義(Xia et al, 2021;Vashishth et al, 2020)。首先,將實體和關系嵌入到給定知識圖譜的稠密維空間,并定義評分函數衡量每個事實(三元組)的可信性;然后,最大化事實的似然性以獲得實體和關系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知識圖譜的表示為下游任務帶來了諸多好處。基于三元組事實的知識圖譜嵌入方法主要有3類:基于張量因子化的方法、基于翻譯的方法和基于神經網絡的方法(Rossi et al, 2021)。 5.1.1 基于張量因子分解的方法

基于張量因子分解方法的核心思想是將知識圖譜中的三元組轉化為3D張量(Balazevi′c et al, 2019)。如圖5所示,張量X∈Rm×m×n,其中m和n分別表示實體和關系的數量,包含n個切片,每個切片對應一種關系類型。當滿足條件Xijk = 1時,知識圖譜中存在三元組(ej i, rk, e),其中e和r分別表示實體和關系。否則,當Xijk = 0時,表示知識圖譜中不存在這樣的三元組。那么,張量由由實體和關系的向量組成的嵌入矩陣表示。 5.1.2 基于翻譯的方法

基于翻譯的方法利用了基于翻譯不變性的評分函數。翻譯不變性解釋兩個詞的向量之間的距離,這是由它們的語義關系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻譯不變性的評分函數進行度量

嵌入結果。他們創造性地提出了TransE模型,該模型將知識圖譜中所有的實體和關系轉換到一個連續的低向量空間中。具體來說,三元組中頭部和尾部實體的向量由它們關系的向量連接起來。因此,在向量空間中,每個三元組的語義含義都被保留了下來。形式上,給定一個三元組(頭、關系、尾),頭實體、關系、尾實體的嵌入向量分別是h、r、t。在向量空間中,三元組(h, r, t)的似真度由基于平移不變性的評分函數計算,以確保它遵循幾何原理:h + r≈t。 在TransE之后,相關的擴展不斷被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻譯的知識圖譜表示的性能。

5.1.3 基于神經網絡的方法

目前,深度學習已經成為知識圖譜表示的流行工具,有相當多的研究提出使用神經網絡表示知識圖譜的三元組(Dai et al, 2020a)。在本節中,以SME、ConvKB和R-GCN這3個代表性的工作為例,對基于神經網絡的知識圖譜表示進行簡要介紹。 SME (Bordes et al, 2014)設計了一個能量函數來進行語義匹配,該能量函數利用神經網絡來度量知識圖譜中每個三元組(h, r, t)的置信度。SME的評分函數定義如下:

SME (bilinear)的評分函數為:

5.1.4 現有方法的局限性

現有的知識圖譜嵌入方法仍然存在嚴重的局限性。許多已有的方法只考慮知識圖譜的表面事實(三元組)。然而,忽略了實體類型和關系路徑等附加信息,這些信息可以進一步提高嵌入精度。大多數不考慮附加信息的傳統方法的性能并不令人滿意。表3列出了不考慮附加信息的嵌入方法。在表3中,性能評估是基于鏈接預測和三元組分類任務。用于評估結果的指標是命中率為10 (Hits@10)和準確率。如表3所示,只有少數模型有令人印象深刻的結果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的結果。近年來,一些研究人員開始將附加信息與知識圖譜結合起來,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的實體類型信息,即每個實體的語義類別,來獲得實體之間的相關性,并解決數據稀疏問題。因此,知識圖譜的表示更加準確。不僅是實體類型,有些其他信息,包括關系路徑(Li et al, 2021)、動態圖的時間信息(Messner et al, 2022)和實體的文本描述(An et al, 2018),近年來也得到了研究人員的關注。然而,如何有效利用豐富的附加信息來提高知識圖譜表示的準確性仍然是一個艱巨的挑戰。 一般附加信息不能充分表示三元組的語義。例如,實體類型與三元組的語義信息無關。此外,可以納入三元組特征的附加信息的類型現在受到了嚴重的限制。因此,為了提高現有知識圖譜嵌入方法的性能,需要在三元組特征中融入多元信息(如關系的分層描述、實體類型與文本描述的結合)。 就我們所知,復雜關系路徑仍然是一個開放的研究問題(Peng et al, 2021)。例如,內在關系,指的是兩個不相連的實體之間的間接關系,沒有被有效地表示出來。雖然通過知識圖譜中的關系鏈可以挖掘實體間的內在關系,但實體間的內在關系復雜多樣。因此,有效地表示這些關系并不是一件直接的事情。 5.2 知識獲取

知識獲取是融合不同來源的數據并生成新的知識圖譜的關鍵步驟。知識從結構化和非結構化數據中提取。知識獲取的三種主要方法是關系抽取、實體抽取和屬性抽取(Fu et al, 2019)。這里,屬性抽取可以看作是實體抽取的一種特例。Zhang等人(Zhang et al, 2019b)利用知識圖譜嵌入和圖卷積網絡提取長尾關系。Shi等人(Shi et al, 2021)提出實體集擴展構建大規模知識圖譜。 然而,現有的知識獲取方法仍然面臨準確率低的挑戰,這可能導致知識圖譜不完整或噪音大,阻礙下游任務的完成。因此,第一個關鍵問題是知識獲取工具及其評估的可靠性。此外,特定于領域的知識圖譜模式是面向知識的,而構建的知識圖譜模式是面向數據的,以覆蓋所有數據特征(Zhou等,2022)。因此,從原始數據中抽取實體和屬性來生成特定領域的知識圖譜是低效的。因此,如何通過生成面向特定領域的知識圖譜來高效地完成知識獲取任務是一個至關重要的問題。 此外,現有的知識獲取方法大多針對特定語言構建知識圖譜。然而,為了使知識圖譜中的信息更豐富、更全面,需要進行跨語言實體抽取。因此,給予更多是至關重要的 關注跨語言實體抽取和多語言知識圖譜的生成。例如,Bekoulis et al.(Bekoulis et al, 2018)提出了一種跨語言(英語和荷蘭語)實體和關系抽取的聯合神經模型。然而,由于非英語訓練數據集有限,語言翻譯系統并不總是準確的,并且跨語言實體抽取模型必須針對每一種新語言重新訓練,多語言知識圖譜構建仍然是一項艱巨的任務。 多模態知識圖譜構建被認為是知識獲取的另一個具有挑戰性的問題。現有的知識圖譜多采用純符號表示,導致機器理解現實世界的能力較差(Zhu et al, 2022b)。因此,許多研究人員關注于包含文本、圖像等多種實體的多模態知識圖譜。多模態知識圖譜的構建需要探索具有不同模態的實體,使得知識獲取任務復雜且效率低下。

5.3 知識圖譜補全

知識圖譜通常是不完整的,即缺少幾個相關的三元組和實體(Zhang et al, 2020b)。例如,在Freebase,最著名的知識圖譜之一,超過一半的人實體沒有關于他們的出生地和父母的信息。一般情況下,可用于保證知識圖譜質量的半自動化和人工利用機制是知識圖譜完成度評價必不可少的工具。具體而言,人類監督目前被認為是知識圖譜完成中的金標準評價(Ballandies和Pournaras, 2021年)。

知識圖譜補全旨在利用鏈接預測技術,通過添加新的三元組來擴展現有的知識圖譜(Wang et al, 2020b;Akrami et al, 2020)和實體預測(Ji et al, 2021)。這些方法通常在知識圖譜上訓練機器學習模型,以評估新的候選三元組的合理性。然后,他們將具有高可信度的候選三元組添加到圖譜中。例如,對于一個不完整的三元組(Tom, friendOf, ?),可以評估尾巴的范圍,并返回更可信的,以豐富知識圖譜。這些模型成功地利用了許多不同領域的知識圖譜,包括數字圖書館(Yao等,2017年)、生物醫學(Harnoune等,2021年)、社交媒體(Abu-Salih, 2021年)和科學研究(Nayyeri等,2021年)。一些新的方法能夠處理每個三元組與置信值相關聯的模糊知識圖譜(Chen et al, 2019)。

然而,現有的知識圖譜補全方法僅關注于從封閉世界的數據源中抽取三元組。這意味著生成的三元組是新的,但三元組中的實體或關系需要已經存在于知識圖譜中。例如,對于不完整的三元組(Tom, friendOf, ?),只有當實體Jerry已經在知識圖譜中,才有可能預測三元組(Tom, friendOf, Jerry)。由于這一限制, 這些方法無法向知識圖譜中添加新的實體和關系。為了解決這個問題,我們開始看到知識圖譜補全的開放世界技術的出現,這些技術從現有的知識庫之外提取潛在的對象。例如,ConMask模型(Shi和Weninger, 2018)被提出用于預測知識圖譜中未見實體。然而,開放世界知識圖譜的補全方法仍存在準確率不高的問題。主要原因是數據源通常比較復雜和嘈雜。此外,預測的新實體與現有實體的相似性可能會誤導結果。換句話說,兩個相似的實體被視為有聯系的實體,而它們可能沒有直接關系。

知識圖譜補全方法假設知識圖譜是靜態的,無法捕捉知識圖譜的動態演化。為了獲得隨時間變化的準確事實,考慮反映知識有效性的時態信息的時態知識圖譜補全技術應運而生。與靜態知識圖譜補全方法相比,時序知識圖譜補全方法將時間戳融入到學習過程中。因此,它們探索了時間敏感的事實,并顯著提高了鏈路預測精度。時序知識圖譜補全方法在取得優異性能的同時,也面臨著嚴峻的挑戰。由于這些模型認為時間信息的效率較低(Shao et al, 2022),時序知識圖譜補全的關鍵挑戰是如何有效地將事實的時間戳納入學習模型,并適當地捕獲事實的時序動態。

5.4 知識融合

知識融合旨在將來自不同數據源的知識進行組合和整合。它往往是知識圖譜生成的必要步驟(Nguyen et al, 2020;Smirnov和Levashova, 2019)。知識融合的主要方法是實體對齊或本體對齊(Ren et al, 2021),旨在從多個知識圖譜中匹配同一實體(Zhao et al, 2020)。由于數據的復雜性、多樣性和大數據量,實現高效、準確的知識圖譜融合是一項具有挑戰性的任務。

雖然在這個方向已經做了大量的工作,但仍然有幾個有趣的研究方向值得在未來進行研究。這通常用于支持跨語言推薦系統(Javed et al, 2021)。例如,Xu et al. (Xu et al., 2019)采用圖匹配神經網絡實現跨語言實體對齊。然而,由于來自不同語言的匹配實體的準確率相對較低,跨語言知識融合的結果仍然不盡人意。因此,探索跨語言知識融合仍然是一項艱巨的挑戰。

另一個主要挑戰是實體消歧(Nguyen et al, 2020)。作為自然語言的一詞多義問題,同一個實體在不同的知識圖譜中可能有不同的表達方式。因此,在進行實體對齊之前,需要對實體進行消歧。現有的實體消歧方法主要集中在基于從包含豐富語境信息的文本中提取知識來判別和匹配歧義實體(Zhu and Iglesias, 2018)。然而,當文本較短且上下文信息有限時,這些方法無法精確衡量實體的語義相似度。只有少數工作專注于解決這個問題。例如,Zhu和Iglesias (Zhu and Iglesias, 2018)提出了用于實體消歧的SCSNED。SCSNED同時基于知識圖譜中實體的含信息量詞和短文本中的上下文信息來度量語義相似度。雖然SCSNED在一定程度上緩解了上下文信息有限的問題,但還需要更多的努力來提高實體消歧的性能。

此外,許多知識融合方法只注重匹配具有相同模態的實體,忽略了知識以不同形式呈現的多模態場景。具體而言,僅考慮單模態知識圖譜場景的實體對齊,由于不能充分反映現實世界中實體之間的關系,性能不顯著(Cheng等,2022a)。最近,為了解決這一問題,一些研究提出了多模態知識融合,將具有不同模態的實體進行匹配,生成多模態知識圖譜。例如,HMEA (Guo et al, 2021)通過將多模態表示映射到雙曲空間,將實體與多種形式對齊。盡管許多研究人員已經在多模態知識融合方面進行了研究,但這仍然是一項關鍵任務。多模態知識融合主要是通過整合它們的多模態特征來尋找等價實體(Cheng et al, 2022a)。然而,如何有效地合并具有多模態的特征仍然是當前方法面臨的棘手問題。

5.5 知識推理

知識推理的目標是推理新的知識,如兩個實體之間的隱式關系(Liu等人,2021;Wang et al, 2019c),基于現有數據。對于給定的知識圖譜,其中存在兩個不相連的實體h和t,表示為h, t∈G,這里G表示知識圖譜,知識推理可以發現這些實體之間的潛在關系r,形成新的三元組(h, r, t)。知識推理方法主要分為基于邏輯規則的方法(De Meester et al, 2021)、基于分布式表示的方法(Chen et al, 2020b)和基于神經網絡的方法(Xiong et al, 2017)。基于邏輯規則的知識推理旨在根據隨機游走和邏輯規則發現知識,而基于分布式表示的知識推理則將實體和關系嵌入到向量空間中以獲得分布式表示(Chen et al, 2020b)。 基于網絡的知識推理方法在給定圖中的知識體的情況下,利用神經網絡來推斷新的三元組(Xian et al, 2019)。 在知識推理中有兩個任務:單跳預測和多跳推理(Ren et al, 2022)。單跳預測為給定的兩個元素預測三元組中的一個元素,而多跳推理預測多跳邏輯查詢中的一個或多個元素。換句話說,在多跳推理場景中,找到一個典型問題的答案并形成新的三元組,需要對多個邊和節點進行預測和填補。與單跳預測相比,多跳推理實現了更精確的三元組形成。因此,多跳推理受到越來越多的關注,成為近年來知識圖譜發展的迫切需求。盡管已有許多相關工作,但知識圖譜上的多跳推理仍處于起步階段。值得注意的是,海量知識圖譜上的多跳推理是具有挑戰性的任務之一(Zhu et al, 2022a)。例如,最近的研究主要集中在知識圖譜上的多跳推理,而這類圖譜只有63K個實體和592K個關系。對于數百萬個以上實體的海量知識圖譜,現有模型無法有效學習訓練集。此外,多跳推理需要遍歷知識圖譜中的多個關系和中間實體,這可能導致指數計算代價(Zhang et al, 2021)。因此,探索多跳知識推理仍然是一項艱巨的任務。 此外,對推斷出的新知識的驗證也是一個關鍵問題。知識推理豐富了現有的知識圖譜,給下游任務帶來了好處(Wan等,2021)。然而,推斷出的新知識有時是不確定的,新三元組的準確性需要驗證。此外,還需要檢測新知識與現有知識之間的沖突。為了解決這些問題,一些研究提出了多源知識推理(Zhao et al, 2020),可以檢測錯誤知識和沖突知識。總的來說,應該更多地關注多源知識推理和錯誤知識約簡。

6. 結論

知識圖譜在為各個領域創建許多智能服務和應用方面發揮了重要作用。本文從知識圖譜發展的機遇與挑戰兩個方面對其進行綜述。首先介紹了知識圖譜的定義和現有的研究方向,對知識圖譜進行了介紹性分析;之后,我們討論了利用知識圖譜的人工智能系統。然后,給出了知識圖譜在多個領域中的代表性應用;進一步,分析了現有知識圖譜技術存在的局限性和面臨的嚴峻技術挑戰。我們期待該調研為未來涉及知識圖譜的研發活動激發新的想法和有洞察力的視角。

付費5元查看完整內容

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。

//github.com/allenai/acl2022-zerofewshot-tutorial

付費5元查看完整內容

來自香港科技大學、IDEA、中科院、清華、微軟等發表《視覺語言智能》綜述論文,從時間的角度對視覺語言智能進行了全面的研究。非常值得關注!

本文從時間的角度對視覺語言智能進行了全面的研究。這項研究的靈感來自于計算機視覺和自然語言處理的顯著進展,以及從單一模態處理到多模態理解的最新趨勢。我們將這一領域的發展總結為三個時期,即任務特定方法,視覺語言預訓練(VLP)方法,以及由大規模弱標記數據訓練的大模型。我們首先以一些常見的VL任務為例,介紹了特定于任務的方法。然后我們重點介紹了VLP方法,并全面回顧了模型結構和訓練方法的關鍵組成部分。之后,我們展示了最近的工作是如何利用大規模的原始圖像-文本數據來學習語言對齊的視覺表示,這種視覺表示在零或少數樣本學習任務中得到了更好的泛化。最后,我們討論了在模態協同、統一表示和知識整合方面的一些潛在的未來趨勢。我們相信這篇綜述將有助于人工智能和ML的研究人員和實踐者,特別是那些對計算機視覺和自然語言處理感興趣的人。

引言

計算機視覺(CV)和自然語言處理(NLP)是人工智能(AI)的兩個分支,它們專注于在視覺和語言上模擬人類智能。近十年來,深度學習在這兩個領域極大地推進了單模態學習,并在一系列任務上取得了最先進的成果。深度學習的顯著進步的核心在于快速發展的GPU和大規模數據集的可用性,這允許在大規模上加速深度模型的訓練。

隨著深度學習的發展,我們看到了一系列功能強大的神經網絡的發展。傳統的神經網絡通常是多層感知器(MLP),由多個堆疊的線性層和非線性激活組成(Rosenblatt, 1957, 1961)。LeCun等人(1998)提出了卷積神經網絡(CNN),將平移不變特性作為對2D視覺輸入更好的誘導偏差,這啟發了大量的深度神經網絡,包括AlexNet (Krizhevsky et al., 2012)、VGGNet (Simonyan and Zisserman, 2015a)、googlet (Szegedy et al., 2015)、和ResNet (He et al., 2016a)。另一個突出的突破是自然語言處理(NLP)領域的循環神經網絡(RNN),它提出了循環細胞用于順序數據建模(Rumelhart et al., 1985; Hochreiter and Schmidhuber, 1997a)。為了緩解長序列訓練中梯度的消失和爆炸問題,提出了RNN的一種變體LSTM (Hochreiter and Schmidhuber, 1997a)和LSTM的一種更高效的版本GRU (Chung et al., 2014)。NLP的另一個重大突破是Transformer (Vaswani et al., 2017),它利用注意力機制追求更好的語言表征。使用多個堆疊的注意力層,Transformer可以以高并行性在全局范圍內融合語言標記上的信息,這有利于強大的表示和大規模的訓練。

雖然在單一模態領域取得了令人鼓舞的進展,但現實世界的問題往往涉及多種模態。例如,自動駕駛汽車應該能夠處理人類的命令(語言)、交通信號(視覺)、道路狀況(視覺和聲音)。即使是單模態學習也能從多模態學習中受益。例如,語言學習需要感知,而感知是許多語義公理的基礎(Bisk et al., 2020)。感知是人類理解物質世界的方式,決定了人類語言背后的假設。因為我們都聽到和看到同樣的事情,我們會留下一些知識作為常識,這些知識在我們的語言中是不成文的(Bisk et al., 2020)。即使局限于語言,言語也比文本包含更多有用的信息,例如,韻律可以暗示情感。注意到多模態感知在多模態和單模態任務中都有幫助,有大量的研究工作。多模的領域內, 視覺和語言的集成得到太多的關注, 因為視覺是人類最重要的感知理解環境和l語言對齊視覺特征可以極大地提高視覺任務的表現和視覺語言任務。此外,視覺語言智能的普及還得益于該領域豐富的數據集和基準。

解決許多特定于任務的VL問題的動力推動了VL學習的初步發展。這些VL問題包括圖像描述、視覺問答(VQA)、圖像-文本匹配等。Xu et al. (2015); Karpathy et al. (2014); Vinyals et al. (2015)集成了一個CNN圖像編碼器和一個RNN文本解碼器用于圖像描述。Antol et al. (2015); Yang et al. (2016); Anderson et al. (2018b) 通過將圖像和文本映射到相同的潛在空間并從潛在表征中預測答案來解決VQA任務。Kiros et al. (2014); Karpathy et al. (2014); Huang et al. (2016); Lee et al. (2018)通過計算圖像和文本在句子級別或標記級別上的相似度來進行圖像-文本匹配。這些模型是為各種數據集的特定問題量身定制的,每個模型只能解決一個任務。

受普遍存在的語言(Devlin et al., 2018)和視覺的預訓練和微調的啟發,視覺和語言跨學科領域迎來了一個新時代:通過圖像-文本對的預訓練來學習視覺和語言的聯合表征。VLP模型的興起主要是受到了架構設計和訓練方法中的語言模型的啟發。例如,最近的許多研究(Li et al., 2019b; Lu et al., 2019; Zhang et al., 2021; Tan and Bansal, 2019; Li et al., 2020b; Yu et al., 2020; Chen et al., 2020)采用了BERT-like (Devlin et al., 2018)架構和訓練方法。由于缺乏足夠大規模的人工標注數據,VL學習的發展面臨著嚴峻的挑戰。最近,一些研究(Radford et al., 2021; Jia et al., 2021; Wang et al., 2021; Li et al., 2021b)通過采用對比學習和利用大規模網絡爬行數據學習視覺語言特征,打破了這一限制,這些特征可用于零樣本學習。

VL領域的快速發展推動了對該領域現有研究的全面綜述。本文旨在提供一個結構化的綜述,在VL領域的最新進展,以幫助研究人員獲得一個整體的視圖,并更好地理解最近的研究。我們將VL學習的發展分為三個階段。第一個是從2014年到2018年,專門的模型被設計用于不同的任務第二個時代是2019年至2021年,在此期間,通過對標記良好的VL數據集進行預訓練,學習視覺和語言的聯合表征。最后,隨著2021年CLIP的出現,第三個時代開始了(Shen等人,2021年),研究人員尋求在更大的弱標記數據集上預先訓練VL模型,并通過預訓練VL獲得強大的零樣本/少樣本視覺模型。

回顧VL智能的整個發展過程,我們發現總體目標是學習良好的視覺表征。一個好的視覺表示應該具有(Li et al., 2021b)中總結的三個屬性,即對象級、語言對齊和語義豐富。對象級意味著視覺和語言特性的粒度應該分別與對象級和詞級一樣細。語言對齊強調與語言對齊的視覺特征可以幫助完成視覺任務。語義豐富是指不受領域限制地從大規模數據中學習表示。在VL的第一個時代,研究工作的目的是解決具體的問題,而不是學習上述好的表征。在第二個時代,研究人員訓練模型的圖像-文本對,以獲得語言對齊的視覺特征。這個時代的一些作品采用檢測到的區域作為圖像表示,學習對象級的特征。只有在第三時代,研究人員才能處理大規模的數據集和預訓練的語義豐富的特征。

據我們所知,這是第一次從時間段的角度總結研究的VL綜述。本文的其余部分組織如下。我們從VL中的一些特定于任務的問題開始,如第二節中的圖像標題、VQA和圖像-文本檢索。然后,我們在第三節中全面解釋了預訓練增強的視覺-語言聯合表征學習。在第六節中,我們展示了一些直接從原始圖像-文本數據學習語言對齊的視覺表示的工作,以及大規模的視覺語言訓練。

VLP方法發展概覽

與特定任務問題的比較。任務分為四類。對于每個任務,我們總結了輸入、輸出、數據集、度量和主流方法。

未來發展

在過去的幾年中,我們見證了VLP模型如何擴展到使用大量弱標記和更多樣化的數據。在未來,模型和數據將繼續擴大,以實現更強的模態協作,甚至統一表示。此外,知識的整合可以進一步增強VLP模型的泛化能力。在本節中,我們將討論這些未來的趨勢。

模態合作

除了利用VL數據集改進跨模態任務外,模態合作還出現在訓練前以提高單模態任務和多模態任務的性能。模態合作是幫助不同模態的人互相幫助,學習更好的表現。例如,用視覺數據改進語言任務,用單模態數據改進跨模態任務

通用統一模態

由于Transformer架構,研究人員在單模態和多模態表示學習方面都取得了顯著進展。在前幾節中,我們討論了多模態表示和模態合作,它們以不同的方式連接視覺和語言。一個更雄心勃勃的目標是建立一個通用的表示模型,它可以統一多種模態。

VL+知識

許多VL任務需要常識和事實信息超出訓練數據集。

付費5元查看完整內容

以ELMO (Peters et al., 2018)、GPT (Radford et al., 2018)和BERT (Devlin et al., 2019)為代表的預訓練語言模型受到了廣泛關注,并提出了大量的變體模型。在這些研究中,一些研究人員致力于將知識引入語言模型(Levine et al., 2019; Lauscher et al., 2019; Liu et al., 2019; Zhang et al., 2019b)。ERNIE-Baidu (Sun et al., 2019)引入新的掩蔽單元,如短語和實體,在這些掩蔽單元中學習知識信息。作為獎勵,來自短語和實體的語法和語義信息被隱式地集成到語言模型中。此外,ERNIE-Tsinghua (Zhang et al., 2019a)探索了一種不同的知識信息,將知識圖譜整合到BERT中,同時學習詞匯、句法和知識信息。Xiong et al. (2019) 將實體替換檢查任務引入到預先訓練的語言模型中,并改進若干與實體相關的下游任務,如問答和實體類型。Wang et al.(2020)提出了一種將知識注入語言模型的插件方式,他們的方法將不同種類的知識保存在不同的適配器中。這些方法所引入的知識信息并沒有很重視KG中圖表化的知識。

//web.stanford.edu/class/cs224n/index.html#schedule

付費5元查看完整內容
北京阿比特科技有限公司