亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

因果推斷在統計、市場營銷、醫療保健和教育等各個領域的解釋性分析和決策中起著重要作用。其主要任務是估計處理效果并制定干預政策。傳統上,以往的大多數工作通常集中在二元處理設置,即一個單位要么采用要么不采用某種處理。然而,實際上,處理可以更加復雜,涵蓋多值、連續或組合選項。在本文中,我們將這些稱為復雜處理,并系統全面地回顧了處理它們的因果推斷方法。首先,我們正式重新審視了問題定義、基本假設及其在特定條件下可能的變體。其次,我們依次回顧了與多值、連續和組合處理設置相關的方法。在每種情況下,我們試探性地將方法分為兩類:符合無混雜假設的方法和違反無混雜假設的方法。隨后,我們討論了可用的數據集和開源代碼。最后,我們對這些工作進行了簡要總結,并提出了未來研究的潛在方向。

因果推斷在許多領域中具有廣泛應用,如統計學、市場營銷、流行病學、教育、推薦系統等。盡管關聯模型在這些領域中引起了興趣,但它們僅限于獨立同分布(i.i.d.)數據的特定設置。相反,因果方法在確定特定干預或處理對結果的實際影響時,已經考慮到了這種數據分布差距。形式上,處理效應是指在采取特定處理的情況下,與不采取處理的情況下所產生的結果差異。這種估計不僅對效果測量有幫助,還對一些下游任務如預測、決策、特征選擇和解釋性分析有幫助。

估計處理效應的關鍵挑戰是控制混雜偏差。這意味著混雜因素可能同時影響自變量(處理)和因變量(結果),從而導致因果關系和處理效應的錯誤估計。例如,在研究吸煙對肺癌影響時,年齡是一個混雜因素,因為年齡既可能影響一個人是否吸煙,也可能影響罹患肺癌的概率。

在實踐中,估計處理效應的金標準方法是隨機對照試驗(RCTs),即隨機分配處理給個體。然而,進行RCTs通常很昂貴,并且很難揭示復雜處理的效果。此外,特別是在醫學場景中,這可能與倫理原則相沖突。例如,在研究某種藥物對死亡率的影響時,強迫患者接受或不接受某種處理是不道德和非法的。因此,許多最新研究集中于如何從自然收集的觀察數據中精確估計處理效應。本文我們重點回顧觀察性研究中的因果推斷方法。 為了正式研究這個問題,我們采用了因果推斷文獻中廣泛使用的潛在結果框架。已經出現了各種方法,包括基于傾向評分的方法、基于表示的方法、生成建模方法等。傾向評分估計了在給定協變量的情況下,樣本采取特定處理的條件概率。在傾向評分的基礎上,提出了匹配、分層和重新加權等方法來控制混雜偏差。進一步考慮選擇偏差,利用傾向評分的平衡性質模擬觀察數據中的隨機化。為了控制來自不同個體的變量分布,發展了平衡方法,包括熵平衡、協變量平衡傾向評分、近似殘差平衡和核平衡。隨著深度學習的進展,最近的研究應用神經網絡學習個體協變量的表示,然后通過假設網絡推斷潛在結果。這些方法鼓勵兩個組表示之間的相似性,有助于分布平衡。包括平衡神經網絡(BNN)、反事實回歸(CFR)、重要性采樣權重的反事實回歸(CFR-ISW)、Dragonnet等。此外,還有一些利用多任務學習和元學習的方法。生成建模方法是另一種主流方法,利用生成對抗網絡(GAN)或變分自編碼器(VAE)。GANITE是前者的代表,通過生成器直接生成潛在結果。對于后者,主要思想是通過重構損失和分布差異測量獲得目標的潛在變量或嵌入。具體來說,因果效應VAE(CEVAE)中的目標是未測量的混雜因素,它們被恢復為潛在變量并用于隨后因果效應的估計。

以往的研究主要集中在二元處理的設置,即只有一個處理要么采用要么不采用。然而,在實際應用中,處理可能是多值的、組合的、連續的,甚至更復雜的。我們以藥物決策為例進行說明。如圖1所示,如果處理是單個變量,患者可以決定是否服用某種藥物(二元),從多個替代方案中選擇一種(多值),甚至考慮注射劑量(連續)。另一方面,處理也可以包含多個變量,患者需要考慮多種藥物的組合(組合)。

因此,復雜處理下的因果推斷在近年來引起了越來越多的關注。廣義傾向評分(GPS)是傾向評分的擴展,基于GPS的方法被提出用于估計多值處理和連續處理的因果效應。同樣,基于表示的方法在復雜處理的設置下也起著重要作用。例如,CFR擴展到多值處理情況下的MEMENTO和組合處理情況下的后悔最小化網絡(RMNet)。劑量反應網絡(DRNet)和變系數網絡(VCNet)也是連續處理下基于表示方法的良好例子。對于使用GAN的生成建模方法,只要將判別器的任務改為多類分類,GANITE自然可以應用于多值處理的效應估計。SCIGAN是在連續設置下的進一步探索。研究人員還利用VAE,開發了任務嵌入因果效應VAE(TECE-VAE)和變分樣本重新加權(VSR)用于組合處理,以及用于連續處理的可識別處理條件VAE(Intact-VAE)。除了這三種主流方法,MetaITE為多值處理提供了另一種解決方案。具體來說,它將有足夠樣本的處理組視為源域,從而訓練元學習者。另一方面,樣本有限的組被視為目標域進行模型更新。

由于信息收集的限制,可能存在未觀測到的混雜因素。如圖2(b)所示,陰影中的未觀測到的混雜因素U意味著它不能被測量或未出現在數據集中。它也被稱為混雜因素,因為它同時影響處理T和結果Y。注意,U可能與可觀測的混雜因素X存在因果關系。解決這個問題的一種方法是找到代理變量作為未測量混雜因素的替代。如圖2(c)所示,Z被恢復為未測量混雜因素的代理,影響X和T。要求是X在給定Z的情況下獨立于T。許多研究致力于找到這樣的代理變量,如用于多值處理的信息多重因果估計(MCEI),用于組合處理的去混雜器,以及用于連續處理的深度特征代理變量(DFPV)。此外,工具變量(IV)也廣泛用于這種情況,如圖2(d)所示。給定X,工具變量Z有助于識別T→Y。DeepIV和使用再生核希爾伯特空間(RKHS)的IV是這種工具變量方法的兩個實例。

因果推斷領域有幾篇綜述,例如,兩個聚焦于二元處理的綜述,總結工具變量方法的工作,以及討論多值處理匹配方法的綜述。然而,估計復雜處理因果效應的問題很少被討論,而這在實際應用中是常見且重要的。本文我們在潛在結果框架下對復雜處理的方法進行了全面回顧。我們澄清了多值、連續和組合處理設置的問題設置,并區分了它們之間的相似性和差異性。我們簡要介紹了一些代表性方法,以及常用的實驗數據集和細節。我們還將討論由不同處理設置引起的關鍵挑戰。

論文組織架構。本文的結構如圖3所示。第2節介紹了復雜處理的因果推斷的初步知識。第3節列出了二元處理的相關方法,第4節介紹了多值處理,第5節介紹了連續處理,第6節介紹了組合處理。隨后,我們在第7節收集了若干可用的數據集和開源代碼。第8節我們對未來工作的方向進行了進一步討論,第9節進行了簡要總結。

付費5元查看完整內容

相關內容

與只考慮文本的傳統情感分析相比,多模態情感分析需要同時考慮來自多模態來源的情感信號,因此更符合人類在現實場景中處理情感的方式。它涉及處理來自各種來源的情感信息,如自然語言、圖像、視頻、音頻、生理信號等。然而,盡管其他模態也包含多樣的情感線索,自然語言通常包含更豐富的上下文信息,因此在多模態情感分析中總是占據關鍵位置ChatGPT的出現為將大型語言模型(LLMs)應用于文本中心的多模態任務打開了巨大的潛力。然而,目前尚不清楚現有的LLMs如何能更好地適應文本中心的多模態情感分析任務。本綜述旨在:(1)全面回顧文本中心的多模態情感分析任務的最新研究,(2)探討LLMs在文本中心的多模態情感分析中的潛力,概述其方法、優勢和局限性,(3)總結基于LLM的多模態情感分析技術的應用場景,以及(4)探索未來多模態情感分析的挑戰和潛在研究方向。

引言

基于文本的情感分析是自然語言處理領域中的一項關鍵研究任務,旨在自動揭示我們對文本內容持有的潛在態度。然而,人類往往在多模態環境中處理情感,這與基于文本的情感分析在以下幾個方面有所不同:

人類能夠獲取并整合多模態細粒度信號。人類經常處于多模態情境中,通過語言、圖像、聲音和生理信號的綜合效果,能夠無縫理解他人的意圖和情感。當處理情感時,人類能夠敏銳地捕捉并整合來自多種模態的細粒度情感信號,并將其關聯起來進行情感推理。

多模態表達能力。人類表達情感的方式包括語言、面部表情、身體動作、語音等。例如,在日常對話中,我們的自然語言表達可能是模糊的(如某人說“好吧”),但當結合其他模態信息(如視覺模態中的快樂面部表情或音頻模態中的拉長語調)時,表達的情感是不同的。

顯然,在多模態環境中研究情感分析使我們更接近于人類真實的情感處理。對具有類人情感處理能力的多模態情感分析技術的研究將為現實世界中的應用提供技術支持,如高質量智能伴侶、客戶服務、電子商務和抑郁癥檢測。

近年來,大型語言模型(LLMs)展示了令人驚嘆的人機對話能力,并在廣泛的自然語言處理任務中表現出色,表明它們具有豐富的知識和強大的推理能力。同時,增強理解圖像等模態能力的大型多模態模型(LMMs)也為多模態相關任務提供了新的思路。它們可以直接進行零樣本或少樣本上下文學習,無需監督訓練。雖然已經有一些嘗試將LLMs應用于基于文本的情感分析,但對于LLMs和LMMs在多模態情感分析中的應用缺乏系統和全面的分析。因此,目前尚不清楚現有的LLMs和LMMs在多模態情感分析中的適用程度。 鑒于自然語言在多模態情感分析中的關鍵作用及其作為當前LLMs和LMMs的重要輸入,我們集中于可以利用LLMs提升性能的文本中心的多模態情感分析任務,如圖文情感分類、圖文情緒分類、音頻-圖像-文本(視頻)情感分類等。在這項工作中,我們旨在全面回顧基于LLMs和LMMs的文本中心的多模態情感分析方法的當前狀態。具體而言,我們關注以下問題:

LLMs和LMMs在各種多模態情感分析任務中的表現如何?

在各種多模態情感分析任務中,利用LLMs和LMMs的方法有什么不同,它們各自的優勢和局限性是什么?

多模態情感分析的未來應用場景是什么為此,我們首先介紹文本中心的多模態情感分析任務及其最新進展。我們還概述了當前技術面臨的主要挑戰,并提出潛在解決方案。我們分析了總共14個多模態情感分析任務,這些任務傳統上是獨立研究的。我們分析了每個任務的獨特特征和共性。綜述研究的結構如圖1所示。由于LMMs也是基于LLMs的,為了方便表述,下面基于LLMs的方法包括基于LMMs的方法。

本文的其余部分組織如下。第2節介紹LLMs和LMMs的背景知識。第3節對廣泛的文本中心多模態情感分析任務進行了廣泛的綜述,詳細描述了任務定義、相關數據集和最新方法。我們還總結了LLM在多模態情感分析任務中相比于以前技術的優勢和進展,以及仍然面臨的挑戰。第4節介紹了基于LLMs的文本中心多模態情感分析方法的提示設置、評估指標和參考結果。第5節展望了多模態情感分析的未來應用場景,并在第6節做出總結性評論。

大型語言模型

一般來說,大型語言模型(LLMs)指的是具有數百億甚至更多參數的Transformer模型,這些模型通過在大量文本數據上進行高成本訓練,如GPT-3 [2]、PaLM [22]、Galactica [23] 和 LLaMA2 [24]。LLMs通常具備廣泛的知識,并展示出在理解和生成自然語言以及解決實際復雜任務方面的強大能力。LLMs展示了一些小模型所不具備的能力,這是LLMs與以往預訓練語言模型(PLMs)的最顯著區別,例如上下文學習(ICL)能力。

假設語言模型已獲得自然語言指令和幾個任務演示,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新;指令跟隨。通過對通過自然語言描述格式化的多任務數據集進行微調(稱為指令適配),LLMs在未見過的任務上表現出色。這種通過微調指令,使得LLMs能夠在不使用明確示例的情況下遵循新任務的任務指令,從而提高泛化能力。逐步推理。對于小型語言模型(SLMs),通常難以解決涉及多步推理的復雜任務,例如數學詞題。相反,通過使用連鎖思維(CoT)提示策略[25–27],LLMs可以利用涉及中間推理步驟的提示機制來解決此類任務并得出最終答案。

已經有一些初步嘗試評估LLMs在文本情感分析任務中的表現。在[7]中,作者觀察到LLMs的零樣本性能可以與微調的BERT模型[105]相媲美。此外,在[8]中,作者對ChatGPT在一些情感分析任務中的能力進行了初步研究,特別研究了其處理極性變化、開放域場景和情感推理問題的能力。在[9]中,作者全面測試了LLMs在文本情感分析數據集中的有效性。在[28]中,作者測試了商用LLMs在基于視頻的多模態情感分析數據集上的有效性。盡管已有的努力,范圍通常僅限于部分任務,并涉及不同的數據集和實驗設計。我們的目標是全面總結LLMs在多模態情感分析領域的表現。

大型多模態模型

大型多模態模型(LMMs)旨在處理和整合各種數據類型,如文本、圖像、音頻和視頻。LMMs通過引入額外的模態擴展了LLMs的能力,從而更全面地理解和生成多樣化的內容。LMMs的發展是為了更準確地反映人類交流和感知的多模態性質。雖然傳統的LLMs如GPT-4主要是基于文本的,LMMs能夠處理和生成跨各種數據類型的輸出。例如,它們可以解釋視覺輸入、生成圖像的文本描述,甚至處理音頻數據,從而彌合不同信息形式之間的差距。

LMMs的關鍵進展之一是創建統一的多模態嵌入空間。這涉及為每種模態使用單獨的編碼器生成特定數據的表示,然后將這些表示對齊到一個一致的多模態空間。這種統一的方法允許模型無縫整合和關聯來自不同來源的信息。著名的例子包括Gemini [111]、GPT-4V和ImageBind [110]。這些模型展示了處理文本、圖像、音頻和視頻的能力,增強了翻譯、圖像識別等功能。

除了這些知名模型,其他新興模型也取得了顯著進展:BLIP-2 [112]引入了一種新的方法,通過Q-former模塊將凍結的預訓練視覺編碼器與凍結的大型語言模型集成。這個模塊使用可學習的輸入查詢與圖像特征和LLM交互,允許有效的跨模態學習。這種設置在保持LLM的多功能性的同時,能夠有效地結合視覺信息。LLava [113]是一種集成預訓練的CLIP [116]視覺編碼器(ViT-L/14)、Vicuna [115]語言模型和一個簡單的線性投影層的大型多模態模型。其訓練分為兩個階段:特征對齊預訓練,僅使用595K圖文對照對來自Conceptual Captions數據集[118]訓練投影層;以及端到端微調,使用158K指令跟隨數據和ScienceQA數據集[117]微調投影層和LLM。這種設置確保了視覺和文本信息的有效整合,使LLava在圖像字幕生成、視覺問答和視覺推理任務中表現出色。Qwen-VL [114]在多模態領域表現出色。Qwen-VL在零樣本圖像字幕生成和視覺問答任務中表現突出,支持中英文文本識別。Qwen-VL-Chat增強了多圖像輸入和多輪問答的交互能力,在理解和生成多模態內容方面展示了顯著改進。

參數凍結范式和參數調優范式

在[208]中,作者總結了利用大型語言模型(LLMs)的兩種范式:參數凍結范式和參數調優范式。

參數凍結應用:這種范式直接在LLMs上應用提示方法,而不需要對模型參數進行調整。根據是否需要少樣本演示,參數凍結應用包括零樣本學習和少樣本學習。

參數調優應用:這種范式需要對LLMs的參數進行調整。根據是否需要對所有模型參數進行微調,參數調優應用包括全參數調優和參數高效調優。

以文本為中心的多模態情感分析任務

以文本為中心的多模態情感分析主要包括圖文情感分析和音頻-圖像-文本(視頻)情感分析。其中,根據不同的情感注釋,最常見的任務是情感分類任務(如最常見的三分類任務:積極、中立和消極)和情緒分類任務(包括快樂、悲傷、憤怒等情緒標簽)。與基于文本的情感分類類似,以文本為中心的多模態情感分析也可以根據觀點目標的粒度分為粗粒度多模態情感分析(如句子級別)和細粒度多模態情感分析(如方面級別)。 現有的細粒度多模態情感分析通常集中在圖文配對數據上,包括多模態方面術語抽取(MATE)、多模態基于方面的情感分類(MASC)以及聯合多模態方面-情感分析(JMASA)。此外,多模態諷刺檢測近年來也成為一個廣泛討論的任務。由于需要分析不同模態情感之間的沖突,它突顯了非文本模態在現實場景中情感判斷中的重要性。我們將在以下小節中介紹這些任務,并在表1中對它們進行總結。

付費5元查看完整內容

提示工程已成為擴展大型語言模型(LLMs)和視覺-語言模型(VLMs)能力的不可或缺的技術。這種方法利用特定于任務的指令,即提示,以增強模型效能,而無需修改核心模型參數。與其更新模型參數,不如使用提示允許預訓練模型無縫集成到下游任務中,僅通過給定的提示來引出所需的模型行為。提示可以是提供上下文以指導模型的自然語言指令,或激活相關知識的學習向量表示。這一新興領域在各種應用中取得了成功,從問答到常識推理等。然而,對于多樣的提示工程方法和技術,仍缺乏系統的組織和理解。本綜述論文通過提供一個結構化的概覽來填補這一空白,概述了提示工程的最新進展,按應用領域分類。對于每種提示方法,我們提供了一個總結,詳細說明了提示方法、其應用、涉及的模型和使用的數據集。我們還深入探討了每種方法的優勢和限制,并包括一個分類圖和表格,總結了數據集、模型和每種提示技術的關鍵點。這種系統分析使人們能夠更好地理解這一迅速發展的領域,并通過闡明提示工程的開放挑戰和機會,促進未來的研究。

提示工程已成為增強預訓練大型語言模型(LLMs)和視覺-語言模型(VLMs)能力的關鍵技術。它涉及策略性地設計特定于任務的指令,這些指令稱為提示,用于引導模型輸出而不改變參數。提示工程的重要性特別體現在其對LLMs和VLMs適應性的變革性影響上。通過提供一種機制,通過精心設計的指令微調模型輸出,提示工程使這些模型能夠在不同的任務和領域中表現出色。這種適應性與傳統范式不同,在傳統范式中,通常需要模型重新訓練或廣泛的微調以達到特定任務的性能。這就是提示工程的變革性承諾,推動了AI的邊界,并為充滿可能性的未來開啟了大門。在不斷發展的環境中,持續的研究不斷揭示了提示工程內的創新方法和應用。提示工程的重要性通過其引導模型響應的能力得到了凸顯,增強了LLMs在多個行業的適應性和應用性。當代提示工程的景觀涵蓋了從零樣本和少樣本提示的基礎方法,到更復雜的“代碼鏈”提示等技術的一系列技術。提示工程的概念最初在LLMs中被調查和普及[Liu et al., 2023],[Tonmoy et al., 2024],[Chen et al., 2023],后來擴展到VLMs [Wu et al., 2023],[Bahng et al., 2022]。盡管LLMs和VLMs內的提示工程文獻廣泛,但尤其是關于以應用為中心的提示工程技術的系統概述,仍有顯著的空白。隨著提示工程的最近進步,迫切需要一項綜合性的調查,提供對當代研究中應用和進步的細致理解。這項調查深入探討了不斷演變的提示工程景觀,分析了29種不同技術,按其多樣的應用進行分類。采用系統性回顧方法,我們仔細研究了多種尖端提示方法的復雜性。我們的審查包括它們的應用、使用的語言模型和進行實驗的數據集,提供了關于提示工程不斷演變景觀的詳細和細致分析。此外,我們討論了這些技術的利弊,提供了它們相對效能的見解。我們揭示了一個全面的分類圖,闡明了這些技術如何導航LLM能力的廣闊領域。從語言生成和問答到代碼創建和推理任務,提示工程賦予了LLMs執行我們從未想象過的壯舉。通過彌合文獻中的現有差距,本調查旨在為研究人員和實踐者提供一個寶貴的資源,提供對最新發展的見解,并促進對提示工程不斷演變景觀的更深入理解。論文的結構如下:第2節介紹了從基礎到高級的提示工程技術,按應用領域分類;第3節提供了結論以及對未來研究努力的考慮。

 提示工程 在本節中,我們根據應用領域組織了提示工程技術,并提供了從零樣本提示到最新進展的提示技術演變的簡明概覽。

無需廣泛訓練的新任務 零樣本提示零樣本提示為利用大型LLMs提供了一種范式轉變。這項技術[Radford et al., 2019]消除了對大量訓練數據的需求,轉而依賴于精心設計的提示來引導模型處理新任務。具體來說,模型在提示中接收到任務描述,但缺乏用于特定輸入-輸出映射訓練的標簽數據。然后,模型利用其預先存在的知識,基于給定提示為新任務生成預測。 少樣本提示少樣本提示與零樣本提示不同,后者不提供示例,少樣本提示為模型提供了少量輸入-輸出示例,以誘導對給定任務的理解[Brown et al., 2020]。即使提供幾個高質量示例,也已經提高了模型在復雜任務上的性能,與不提供演示相比。然而,少樣本提示需要額外的令牌來包含示例,這可能對較長文本輸入成為禁止性的。此外,提示示例的選擇和組成可以顯著影響模型行為,偏見如偏愛頻繁詞匯可能仍然影響少樣本結果。盡管少次樣本提示增強了復雜任務的能力,尤其是在像GPT-3這樣的大型預訓練模型中,但精心的提示工程對于實現最佳性能和減少意外模型偏差至關重要。 推理和邏輯 鏈式思維(CoT)提示LLMs面對復雜推理時常常遇到困難,限制了它們的潛能。為了彌補這一差距,[Wei et al., 2022]引入了鏈式思維(CoT)提示作為一種促進連貫和逐步推理過程的提示LLMs的技術。主要貢獻在于提出和探索CoT提示,展示了其在誘導LLMs產生更有結構和深思熟慮的響應方面,相比傳統提示的有效性。通過一系列實驗,作者展示了CoT提示的獨特品質,強調了其引導LLMs進行邏輯推理鏈的能力。這導致的響應反映了對給定提示的更深層理解。例如,提示會顯示多步數學字問題的推理過程和最終答案,并模仿人類如何將問題分解為邏輯中間步驟。作者通過使用PaLM 540B的CoT提示,在數學和常識推理基準測試中實現了最先進的性能,準確率達到90.2%。 自動鏈式思維(Auto-CoT)提示手動創建高質量的CoT示例既耗時又次優。[Zhang et al., 2022]引入了Auto-CoT,自動指導LLMs使用“讓我們逐步思考”的提示來生成推理鏈。認識到單獨生成的鏈中可能存在錯誤的可能性,Auto-CoT通過多樣化采樣增強了魯棒性。它為各種問題采樣并為每個問題生成多個不同的推理鏈,形成最終的示例集。這種自動化的多樣化采樣最小化了錯誤并增強了少次學習,消除了手動創建推理鏈的勞動密集型需求。Auto-CoT展示了提升的性能,在算術和符號推理任務上分別以平均準確率改善了1.33%和1.5%,使用GPT-3。 自我一致性 [Wang et al., 2022]引入了自我一致性,這是一種解碼策略,與貪婪解碼相比,提高了CoT提示中的推理性能。對于具有多個有效路徑的復雜推理任務,自我一致性通過從語言模型的解碼器中采樣生成多樣化的推理鏈。然后,通過邊緣化這些采樣鏈來識別最一致的最終答案。這種方法利用了一個觀察,即需要深思熟慮的分析的問題往往涉及更大的推理多樣性,從而導致解決方案。自我一致性和鏈式思維提示的結合在各種基準測試中取得了顯著的準確率提高,例如在GSM8K上提高了17.9%,在SVAMP上提高了11.0%,在AQuA上提高了12.2%,在StrategyQA上提高了6.4%,以及在ARC挑戰上提高了3.9%,與基線鏈式思維提示相比。 邏輯鏈式思維(LogiCoT)提示對于LLMs來說,執行邏輯推理對于解決多步驟的復雜問題至關重要。現有方法,如CoT提示,鼓勵逐步推理,但缺乏有效的驗證機制。[Zhao et al., 2023]提出了邏輯鏈式思維(LogiCoT)提示,一種神經符號框架,利用符號邏輯的原理來以連貫和結構化的方式增強推理。具體來說,LogiCoT應用了反證法的概念,以驗證模型生成的每一步推理,并提供有針對性的反饋以修正錯誤步驟。LogiCoT通過思考-驗證-修正循環,可以減少邏輯錯誤和幻覺。在Vicuna-33b和GPT-4上進行實驗,結果強調了LogiCoT在推理能力上的顯著增強,相比CoT,在GSM8K數據集上分別展示了0.16%和1.42%的改進,在AQuA數據集上分別展示了3.15%和2.75%的改進。 符號鏈式思維(CoS)提示由于依賴自然語言,LLMs經常難以處理涉及復雜空間關系的任務,自然語言容易受到歧義和偏見的影響。為了克服這一限制,[Hu et al., 2023]引入了CoS,使用濃縮符號而非自然語言。CoS提供了明確和簡潔的提示、提高了LLMs的空間推理能力和提高了人類的可解釋性。CoS面臨的挑戰包括可擴展性、通用性、與其他技術的集成以及基于符號的LLM推理的可解釋性。值得注意的是,CoS的實施顯著提高了ChatGPT的性能,在Brick World任務上的準確率從31.8%提高到了令人印象深刻的92.6%。此外,CoS在提示令牌上實現了高達65.8%的減少,簡化了過程的同時保持了高準確率。 樹形思維(ToT)提示[Yao et al., 2023a]和[Long, 2023]提出了樹形思維(ToT)框架,以增強對需要探索和預判推理的復雜任務的提示能力。ToT通過管理一個中間推理步驟的樹結構——稱為“思維”——來擴展CoT提示。每個“思維”代表一系列朝最終解決方案前進的連貫語言序列。這一結構允許語言模型通過評估“思維”在解決問題過程中產生的進展來有意地進行推理。ToT將模型產生和評估“思維”的能力與諸如廣度優先或深度優先搜索等搜索算法結合起來。這使得在推理鏈中進行系統探索成為可能,能夠預判擴展有前景的方向,并在解決方案錯誤時進行回溯。ToT在24點游戲任務中表現出色,成功率達到74%,相比于CoT的4%。此外,在單詞級任務中,ToT的成功率為60%,而CoT為16%。 思維圖(GoT)提示人類思維過程的固有非線性特征挑戰了CoT提示的傳統順序方法。[Yao et al., 2023b]引入了“思維圖”提示,這是一個基于圖的框架,其先進于傳統的順序方法,更好地與人類思維的非線性特征相匹配。這個框架允許動態相互作用、回溯和評估想法,允許從各個分支聚合和組合思維,脫離了樹形思維的線性結構。關鍵貢獻包括將推理過程建模為有向圖,提供具有多種轉換操作的模塊化架構。該框架被呈現為一種靈活和動態的語言模型提示方法,捕捉人類思維過程的復雜性并增強模型能力。GoT推理模型在CoT基線上顯示出顯著增益,在GSM8K上分別使用T5-base和T5-large改進了3.41%和5.08%的準確率。它還在使用T5-base的ScienceQA上比最先進的Multimodal-CoT提高了6.63%,使用T5-large提高了1.09%。 系統注意力(S2A)提示基于Transformer的LLMs中的軟注意機制容易納入不相關的上下文信息,不利地影響令牌生成。為此,[Weston和Sukhbaatar, 2023]提出了系統2注意力(S2A),利用LLMs的推理能力選擇性地關注相關部分,通過重新生成輸入上下文。S2A采用兩步過程來通過使用上下文再生和帶有精煉上下文的響應生成來增強注意力和響應質量。在包括事實QA、長形生成和數學字問題在內的各種任務中評估了S2A的有效性。在事實QA中,S2A達到了80.3%的準確率,顯示出在事實性方面的顯著增強。在長形生成中,它提高了客觀性,獲得了5分中的3.82分。 思維線索(ThoT)提示[Zhou et al., 2023]提出了思維線索(ThoT),一種旨在增強LLMs在混亂上下文中推理能力的提示技術。ThoT受到人類認知的啟發,系統地將廣泛的上下文檢查為可管理的片段,以便進行逐步分析,采用兩階段方法,其中LLM首先總結并檢查每個片段,然后精煉信息以得出最終響應。ThoT的靈活性作為一種多功能的“即插即用”模塊閃耀,增強了不同模型和提示方法的推理能力。在問答和對話數據集的評估中顯示了顯著的性能改進,分別為47.20%和17.8%,特別是在混亂的上下文中。 表格鏈式提示像CoT、PoT和ToT這樣的方法通過自由形式的文本或代碼表示推理步驟,面對處理復雜表格場景時遇到挑戰。[Wang et al., 2024]引入了一種開創性的提示技術,名為表格鏈式提示。這種方法通過動態生成和執行表格上的常見SQL/-DataFrame操作來使用逐步的表格推理。這一過程的迭代性增強了中間結果,賦予LLMs通過邏輯可視化的推理鏈做出預測的能力。顯著地,表格鏈式提示在兩個基準表格數據集上一致地提高了性能,分別在TabFact上提高了8.69%,在WikiTQ上提高了6.72%。 結論在人工智能領域,提示工程已成為一種變革性力量,解鎖了LLMs的巨大潛力。本綜述論文旨在作為一項基礎資源,系統地分類了29種不同的提示工程技術,基于它們的目標功能,激發進一步的研究,并在提示工程不斷演變的景觀中賦能創新者。分析涵蓋了應用、模型和數據集,揭示了每種方法的優勢和局限性。此外,我們添加了一張圖表和一張表格來突出重要點。盡管取得了顯著的成功,但仍然存在挑戰,包括偏見、事實不準確和可解釋性差距,需要進一步調查和緩解策略。提示工程的未來擁有巨大潛力,新興趨勢如元學習和混合提示架構承諾提高能力。然而,倫理考慮至關重要,強調負責任的開發和部署,以確保積極地融入我們的生活。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容
北京阿比特科技有限公司