亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

相關內容

隨著人工智能研究領域的發展,知識圖譜(knowledge graphs, KGs)引起了學術界和工業界的廣泛關注。作為實體間語義關系的一種表示,知識圖譜在自然語言處理(natural language processing, NLP)中有著重要的意義,近年來得到了迅速的推廣和廣泛采用。鑒于這一領域的研究工作量不斷增加,自然語言處理研究界已經調研了幾種與KG相關的方法。然而,至今仍缺乏對既定主題進行分類和審查個別研究流成熟度的綜合研究。為了縮小這一差距,我們系統地分析了NLP中有關KGs的文獻中的507篇論文。我們的調研包括對任務、研究類型和貢獻的多方面。因此,我們提出了一個結構化的研究概況,提供了任務的分類,總結了我們的發現,并強調了未來工作的方向。

//www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d

知識的獲取和應用是自然語言固有的特性。人類使用語言作為交流事實、爭論決定或質疑信仰的手段。因此,計算語言學家早在20世紀50年代和60年代就開始研究如何將知識表示為語義網絡中概念之間的關系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近,知識圖譜(KGs)已成為一種以機器可讀的格式語義表示有關現實世界實體的知識的方法。它們起源于對語義網絡、領域特定本體以及鏈接數據的研究,因此并不是一個全新的概念(Hitzler, 2021)。盡管KG越來越受歡迎,但對于KG究竟是什么,適用于什么任務,人們仍然沒有一個普遍的理解。盡管之前的工作已經試圖定義kg (Pujara et al., 2013; Ehrlinger and W??, 2016; Paulheim, 2017; F?rber et al., 2018),該術語尚未被研究人員統一使用。大多數研究都隱含地采用了廣義的KGs定義,將其理解為“旨在積累和傳遞現實世界知識的數據圖,其節點代表感興趣的實體,其邊緣代表這些實體之間的關系”(Hogan等人,2022)。

自2012年谷歌的KG引入以來(Singhal, 2012), KG在學術界和產業界都吸引了大量的研究關注。特別是在自然語言處理(NLP)的研究中,使用KGs在過去5年里變得越來越流行,而且這一趨勢似乎正在加速。其基本范式是,結構化和非結構化知識的結合可以使各種NLP任務受益。例如,來自知識圖譜的結構化知識可以注入到語言模型中發現的上下文知識中,這可以提高下游任務的性能(Colon-Hernandez等人,2021)。此外,隨著知識庫的重要性日益增加,從非結構化文本中構建新知識庫的努力也在不斷擴大。

谷歌在2012年創造了知識圖譜這個術語,十年之后,學者們提出了大量新穎的方法。因此,重要的是收集見解,鞏固現有結果,并提供結構化的概述。然而,據我們所知,目前還沒有一項研究對自然語言處理領域中知識分子的整個研究格局進行了概述。為了縮小這一差距,我們進行了一項全面的調研,通過對已建立的主題進行分類,確定趨勢,并概述未來研究的領域,分析在該領域進行的所有研究。我們的三個主要貢獻如下:1. 我們系統地從507篇論文中提取信息,報告關于任務、研究類型和貢獻的見解。2. 本文提供了NLP中關于知識圖譜的文獻中的任務分類,如圖1所示。3.我們評估單個研究流的成熟度,確定趨勢,并強調未來工作的方向。本文綜述了NLP中知識圖譜的演變和目前的研究進展。盡管我們無法完全覆蓋該主題的所有相關論文,但我們的目標是提供一個具有代表性的概述,通過提供一個文獻起點,可以幫助NLP學者和實踐者。此外,多方面的分析可以指導研究界縮小現有差距,并找到如何將KGs與NLP結合的新方法。

KG研究綜述結果

**研究整體概況 (RQ1)**對于NLP中有關KGs的文獻,我們從研究數量作為研究興趣的指標開始分析。圖2說明了十年觀察期間的出版物分布情況。雖然第一批出版物出現在2013年,但年度出版物在2013年至2016年期間增長緩慢。從2017年起,出版物數量幾乎每年翻一番。由于這些年來研究興趣的顯著上升,所有納入的出版物中超過90%來自這五年。盡管增長趨勢似乎在2021年停止,但這可能是由于發生在2022年的第一周的數據導出,遺漏了2021年的許多研究,這些研究在2022年晚些時候被納入數據庫。盡管如此,圖2中的趨勢清楚地表明,KGs正受到NLP研究界越來越多的關注。如果考慮到507篇論文,會議論文(402篇)是期刊論文(105篇)的近4倍。

KG任務概況 (RQ2)

基于NLP中有關KGs的文獻中確定的任務,我們開發了如圖1所示的經驗分類法。這兩個頂級類別包括知識獲取和知識應用。知識獲取包含從非結構化文本構建知識基礎(知識圖構建)或對已經構建的知識基礎進行推理(知識圖推理)的NLP任務。知識庫構建任務進一步劃分為兩個子類:知識提取和知識集成,前者用于用實體、關系或屬性填充知識庫,后者用于更新知識庫。知識應用是第二大頂層概念,包含常見的NLP任務,通過知識庫中的結構化知識來增強這些任務。 正如預期的那樣,我們分類法中的任務在文獻中出現的頻率變化很大。表2概述了最流行的任務,圖5比較了它們隨時間的流行程度。圖4顯示了最突出的任務所檢測到的域的數量。它表明某些任務比其他任務更適用于領域特定的上下文。

研究類型及貢獻(RQ3)

表3顯示了根據附錄表4和表5定義的不同研究和貢獻類型的論文分布情況。它表明,大多數論文進行驗證研究,調查尚未在實踐中實施的新技術或方法。相當多的論文,雖然明顯較少,側重于解決方案的提出,通過一個小的例子或論證來證明它們的優點和適用性。然而,這些論文通常缺乏深刻的實證評價。

付費5元查看完整內容

基于模式的事件提取是及時理解事件本質內容的關鍵技術。隨著深度學習技術的快速發展,基于深度學習的事件提取技術成為研究熱點。文獻中提出了大量的方法、數據集和評價指標,因此需要進行全面和更新的調研。本文通過回顧最新的方法填補了這一空白,重點關注基于深度學習的模型。我們總結了基于模式的事件提取的任務定義、范式和模型,然后詳細討論每一個。我們引入了支持預測和評估指標測試的基準數據集。本綜述還提供了不同技術之間的綜合比較。最后,總結了今后的研究方向。

引言

事件抽取(EE)是信息抽取研究中的一個重要而富有挑戰性的課題。事件作為一種特殊的信息形式,是指在特定時間、特定地點發生的涉及一個或多個參與者的特定事件,通常可以描述為狀態的變化。事件提取任務旨在將此類事件信息從非結構化的純文本中提取為結構化的形式,主要描述現實世界中事件發生的“誰、何時、何地、什么、為什么”和“如何”。在應用方面,該任務便于人們檢索事件信息,分析人們的行為,促進信息檢索、智能問答、知識圖譜構建等實際應用。

事件提取可分為兩個層次:基于模式的事件提取[17,62]和基于開放域的事件提取[3,42]。在基于模式的事件抽取任務中,事件被認為是特定的人和對象在特定的時間和地點進行交互的客觀事實。基于模式的事件提取[25]是尋找屬于特定事件模式的單詞,即發生的動作或狀態變化,其提取目標包括時間、地點、人、動作等。在開放域事件提取任務[44]中,事件被認為是一組主題的相關描述,可以通過分類或聚類形成。基于開放領域的事件提取是指獲取與特定主題相關的一系列事件,通常由多個事件組成。無論是基于模式還是開放域事件提取任務,事件提取的目的是從大量文本中捕獲我們感興趣的事件類型,并以結構化的形式顯示事件的基本參數。

我們主要關注基于模式的事件抽取,它已經有了大量的工作,是一種比較成熟的研究分類。基于模式的事件提取從文本中發現事件提到,并提取包含事件觸發器和事件參數的事件。事件提到是包含一個或多個觸發器和參數的句子。事件提取需要識別事件、分類事件類型、識別參數并判斷參數角色。觸發器識別和事件分類可分為事件檢測任務。參數識別和參數角色分類可以定義為參數提取任務。事件分類是一個多標簽文本分類任務,用于對每個事件的類型進行分類。角色分類任務是一種基于詞對的多分類任務,確定句子中任意一對觸發器和實體之間的角色關系。因此,事件提取可以依賴于一些NLP任務的結果,如命名實體識別(NER)、語義解析和關系提取。

我們給出了事件抽取流程圖,如圖1所示。首先,對于給定的文本,有必要區分文本中的事件類型。對于不同的事件類型,設計了不同的事件模式。目前,事件模式的設計主要包括手工設計和模型生成兩種方式。然后,根據模式提取事件參數。在早期階段,將元素提取作為一個詞分類任務,對文本中的每個詞進行分類。此外,還有序列標記和機器閱讀理解(MRC)方法。最后,由于事件抽取任務的復雜性,研究者考慮引入外部知識來提高模型性能。

近年來,深度學習方法在很多領域得到了應用,深度學習模型能夠自動有效地提取句子中的重要特征。與傳統的特征提取方法相比,深度學習方法可以自動提取特征。它可以對語義信息進行建模,并在更高的層次上自動組合和匹配觸發特征。這些方法的有效性在自然語言處理中得到了驗證,并取得了許多突破。在事件提取任務中使用深度學習可以使許多研究人員消除特征提取工作。

大多數基于深度學習的事件提取方法通常采用監督學習,這意味著需要高質量的大數據集。ACE 2005[13]是少數可用的標記事件數據之一,手動標記新聞,博客,采訪和其他數據。ACE數據規模小是影響事件提取任務發展的主要因素。依賴人工標注語料庫數據耗時耗力,導致現有事件語料庫數據規模小、類型少、分布不均勻。事件提取任務可能非常復雜。一個句子中可能有多個事件類型,不同的事件類型將共享一個事件參數。同樣的論點在不同事件中的作用也是不同的。根據抽取范式,基于模式的抽取方法可分為基于管道的抽取方法和基于聯合的抽取方法。對基于管道的模型學習事件檢測模型,然后學習參數抽取模型。聯合事件提取方法避免了觸發器識別錯誤對參數提取的影響,但不能充分利用事件觸發器的信息。到目前為止,最好的事件提取方法是基于聯合的事件提取范例。

對于傳統的事件提取方法,需要進行特征設計,而對于深度學習事件提取方法,可以通過深度學習模型進行端到端的特征提取。綜合分析了現有的基于深度學習的事件提取方法,并對未來的研究工作進行了展望。本文的主要貢獻如下:

  • 介紹了事件提取技術,回顧了事件提取方法的發展歷史,指出基于深度學習的事件提取方法已成為主流。我們根據表1中發表年份總結了深度學習模型的必要信息,包括模型、領域、場所、數據集和子任務。

  • 我們詳細分析了各種基于深度學習的提取范式和模型,包括它們的優缺點。我們介紹了現有的數據集,并給出了主要評價指標的制定。我們在表3中總結了主要數據集的必要信息,如類別的數量,語言和數據地址。

  • 我們在表5中總結了ACE 2005數據集上的事件提取準確度得分,并討論了事件提取面臨的未來研究趨勢,從而總結了綜述。

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容

在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司