視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。
從人本主義的角度建立人工智能系統的迫切性日益增加,因為從個性化推薦系統到語言和圖像生成模型的大規模機器學習系統每天都在與人互動。在這篇論文中,我們提出了一條從人本主義的角度建立這些系統的指導方針。我們的指南包含三個步驟:(i)識別學習任務中所關注的人的角色和他們的核心特性;(ii)以一種有用且可靠的方式對這些特性進行建模;和(iii)以原則性的方式將這些模型納入學習算法的設計中。我們將這一指南應用于兩個應用:個性化推薦系統和決策支持系統。對于推薦系統,我們按照指南(i)關注用戶不斷變化的偏好,(ii)將它們模型化為動態系統,和(iii)開發具有可證明保證的高效在線學習算法,與具有不同偏好動態的用戶互動。對于決策支持系統,我們(i)選擇決策者的風險偏好作為關注的核心特性,(ii)將它們模型化到系統的目標函數中,和(iii)為在多樣風險偏好下學習模型提供具有統計保證的一般程序。我們最后討論了以人為中心的機器學習的未來,以及這一領域中跨學科研究的角色。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。
最近的努力已經將大型語言模型(LLMs)與外部資源(例如,互聯網)或內部控制流(例如,提示鏈接)結合起來,用于需要定位或推理的任務。然而,這些努力大都是零散的,缺乏構建一個完整的語言智能體的系統框架。為了應對這一挑戰,我們借鑒了符號人工智能中智能體設計的豐富歷史,為新一波的認知語言智能體開發了一個藍圖。我們首先展示LLMs具有與生產系統相同的許多屬性,而最近為改進其定位或推理所做的努力反映了圍繞生產系統構建的認知架構的發展。接著,我們提出了“語言智能體的認知架構”(CoALA) ,這是一個概念框架,用于系統化地將基于LLM的推理、定位、學習和決策作為框架中語言智能體的實例化方法。最后,我們使用CoALA框架來突出顯示缺口,并提出實際的方向,以便在未來培養更有能力的語言智能體。
開放知識圖譜(KG)補全的任務是從已知事實中提取新的發現。現有的增強KG補全的工作需要:(1)事實三元組來擴大圖推理空間,或者(2)手動設計提示來從預訓練的語言模型(PLM)中提取知識,這種方式的性能有限,需要專家付出昂貴的努力。為此,我們提出了TAGREAL,它可以自動生成高質量的查詢提示,并從大型文本語料庫中檢索支持信息,以探測PLM中的知識進行KG補全。結果顯示,TAGREAL在兩個基準數據集上實現了最新的性能。我們發現,即使在訓練數據有限的情況下,TAGREAL的性能也非常出色,超過了現有的基于嵌入的、基于圖的和基于PLM的方法。
1. 引言
知識圖譜(KG)是一種異構圖,它以實體-關系-實體三元組的形式編碼事實信息,其中關系連接頭實體和尾實體(例如,“邁阿密位于-美國”)(Wang et al., 2017;Hogan et al., 2021)。KG(Dai et al., 2020)在許多NLP應用中起著核心作用,包括問答系統(Hao et al., 2017;Yasunaga et al., 2021)、推薦系統(Zhou et al., 2020)和藥物發現(Zitnik et al., 2018)。然而,現有的研究(Wang et al., 2018;Hamilton et al., 2018)顯示,大部分大規模KG都是不完整的,無法全面覆蓋龐大的現實世界知識。這個挑戰促使了KG補全,其目標是給定主題實體和關系,找出一個或多個對象實體(Lin et al., 2015)。例如,在圖1中,我們的目標是預測對象實體,其中“底特律”是主題實體,“包含于”是關系。
然而,現有的KG補全方法(Trouillon et al., 2016b;Das et al., 2018)存在幾個限制(Fu et al., 2019)。首先,他們的性能嚴重依賴于圖的密度。他們通常在具有豐富結構信息的密集圖上表現良好,但在更常見的稀疏圖上表現不佳。其次,以前的方法(例如,Bordes et al.(2013))假設一個封閉世界的KG,沒有考慮外部資源中的大量開放知識。實際上,在許多情況下,KG通常與豐富的文本語料庫(Bodenreider, 2004)相關聯,其中包含大量尚未提取的事實數據。為了克服這些挑戰,我們研究了開放知識圖譜補全的任務,其中KG可以使用來自KG外部的新事實進行構建。最近的文本富集解決方案(Fu et al., 2019)關注使用預定義的事實集來豐富知識圖譜。然而,預定義的事實集通常嘈雜且受限,也就是說,它們沒有提供足夠的信息來有效更新KG。
預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。
預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。
基于標準KG的上述限制和PLMs(Devlin et al., 2019;Liu et al., 2019a)的巨大能力,我們的目標是使用PLMs進行開放知識圖譜補全。我們提出了一個端到端的框架,共同利用PLMs中的隱含知識和語料庫中的文本信息來進行知識圖譜補全(如圖1所示)。與現有的工作不同(例如,(Fu et al., 2019;Lv et al., 2022)),我們的方法不需要手動預定義的事實和提示集,這使得它更具通用性,更易于適應實際應用。我們的貢獻可以總結為:
? 我們研究了可以通過從PLMs中捕捉到的事實進行輔助的開放KG補全問題。為此,我們提出了一個新的框架TAGREAL,它表示了用PLMs中的現實世界知識增強的開放KG補全。 ? 我們開發了提示生成和信息檢索方法,這使得TAGREAL能夠自動創建高質量的PLM知識探測提示,并搜索支持信息,特別是當PLMs缺乏某些領域知識時,這使得它更加實用。 ? 通過在Freebase等實際知識圖譜上的大量定量和定性實驗,我們展示了我們框架的適用性和優點。 2. 方法
我們提出了TAGREAL,一個基于PLM的框架來處理KG補全任務。與以前的工作相比,我們的框架不依賴手工制作的提示或預定義的相關事實。如圖2所示,我們自動創建合適的提示并搜索相關的支持信息,這些信息進一步被用作模板,以從PLMs中探索隱含的知識。
2.1 問題定義
知識圖譜補全的目的是在KG的現有三元組集合中添加新的三元組(事實)。為了實現這個目標,有兩個任務。第一個是三元組分類,這是一個二元分類任務,用于預測一個三元組(h, r, t)是否屬于KG,其中h, r, t分別表示頭實體、關系和尾實體。第二個任務是鏈接預測,其目標是預測查詢(h, r, ?)的尾實體t或者預測查詢(?, r, t)的頭實體h。
2.2 提示生成 Prompt Generation
之前的研究(例如,Jiang等人(2020))表明,從預訓練語言模型(PLMs)中提取關系知識的準確性,很大程度上依賴于用于查詢的提示的質量。為了達到這個目的,我們開發了一種全面的方法,只需要將知識圖譜中的三元組作為輸入,就可以自動生成高質量的提示,如圖3所示。我們使用文本模式挖掘方法從大型語料庫中挖掘出高質量的模式,作為用于從PLMs中探索知識的提示。據我們所知,我們是首次使用文本模式挖掘方法進行語言模型提示挖掘的研究者。我們認為這種方法具有以下應用性:
? 數據源相似。我們在大型語料庫(例如,維基百科)上應用模式挖掘,這些語料庫是大多數PLMs預訓練的數據源。 ?** 目標相似**。文本模式挖掘的目的是從大型語料庫中挖掘出模式以提取新信息;提示挖掘的目的是挖掘出提示以從PLMs中探測隱含的知識。 ? 性能標準相似。模式或提示的可靠性取決于它能從語料庫/PLMs中提取出多少準確的事實。
2.3 支持信息檢索 Support Information Retrieval
除了提示挖掘外,我們還將一些查詢相關和三元組相關的支持文本信息附加到提示中,以幫助PLMs理解我們想要探測的知識,以及幫助訓練三元組分類能力。如圖4所示,對于關系r中的第i個查詢q r i,我們使用BM25(Robertson等人,1995)從可靠的語料庫中檢索得分高于δ且長度小于?的高排名支持文本,并隨機選擇其中一個作為支持信息。為了組成輸入到PLM的填空q? r i,我們將支持文本連接到我們在前面步驟中通過優化得到的每個提示中,其中主體已填充,對象被掩蓋。[CLS]和[SEP]分別是用于序列分類和支持信息-提示分隔的標記。在訓練階段,我們使用三元組而不是查詢來搜索文本,而[MASK]將被對象實體填充。值得注意的是,支持文本在TAGREAL中是可選的,如果沒有找到匹配的數據,我們將其留空。
**2.4 訓練 **
為了訓練我們的模型,我們根據PKGC(Lv等人,2022)提出的思想,除了給定的正三元組外,我們還創建負三元組,以處理三元組分類任務。我們通過將每個正三元組中的頭部和尾部替換為KGE模型給出高概率的“錯誤”實體,來創建負三元組。我們還通過隨機替換頭部和尾部,創建隨機負樣本,以擴大負訓練/驗證三元組的集合。
**2.5 推理 **
給定一個查詢 (h, r, ?),我們應用與頭實體 h 和關系 r 相關的查詢相關的支持信息,因為我們假設我們不知道尾實體(我們的預測目標)。然后,我們制作包含 [MASK] 的相應查詢實例,既包含支持信息也包含提示集合,如圖4所示。為了在鏈接預測中利用 PLM 的三元組分類能力,我們用已知實體集中的每個實體替換查詢實例中的 [MASK],并按降序排列它們的分類分數,以創建一個一維向量,作為每個查詢的預測結果。這表明,向量中索引較低的實體更有可能與輸入查詢組成正三元組。對于提示集合,我們在排序之前按實體索引將分數相加。詳細的說明放在附錄E中。
3. 實驗
我們將我們的模型 TAGREAL 與四種方法進行比較。對于(1)傳統的知識圖譜嵌入方法,我們評估了 TransE (Bordes 等人,2013),DisMult (Yang 等人,2014),ComplEx (Trouillon 等人,2016a),ConvE (Dettmers 等人,2018),TuckER (Bala?evic′等人,2019) 和 RotatE (Sun 等人,2019),其中 TuckER 是新添加的模型。對于(2)聯合文本和圖嵌入方法,我們評估了 RCNet (Xu等人,2014),TransE+LINE (Fu 等人,2019) 和 JointNRE (Han等人,2018)。對于(3)基于強化學習 (RL) 的路徑查找方法,我們評估了 MINERVA (Das等人,2017) 和 CPL (Fu等人,2019)。對于(4)基于 PLM 的方法,我們評估了 PKGC (Lv等人,2022) 和我們的方法 TAGREAL。我們保留了 Fu等人2019報告的(2)和(3)的數據,同時重新評估所有的。
結果
我們在表1和表2中展示了與最先進方法的性能比較。正如人們可以觀察到的,TAGREAL在大多數情況下都超過了現有的工作。在給定密集的訓練數據的情況下,基于KGE的方法(例如,RotatE)和基于RL的方法(例如,CPL)仍然可以達到相對較高的性能。然而,當訓練數據有限時,這些方法遇到困難,而基于PLM的方法(PKGC和TAGREAL)受到的影響不大。在這種情況下,我們的方法明顯優于當前的非基于PLM的方法。這是因為KGE模型在數據不足的情況下無法有效地進行訓練,基于RL的路徑查找模型在KG中沒有足夠的證據和通用路徑時無法識別出潛在的模式。另一方面,PLM已經擁有可以直接使用的隱含信息,微調時數據不足的負面影響會比從零開始訓練要小得多。TAGREAL由于其能夠自動挖掘高質量提示和檢索支持信息的能力,而超過PKGC,與此相反的是,手動注釋通常是有限的。
4. 結論
在這項研究中,我們提出了一個新穎的框架,利用PLM中的隱含知識進行開放的KG補全。實驗結果顯示,我們的方法在訓練數據有限的情況下,表現優于現有的方法。我們證明了我們的方法優化的提示在PLM知識探測中優于手工制作的提示。支持信息檢索對于輔助提示的有效性也得到了證明。在未來,我們可能會利用QA模型的能力來檢索更可靠的支持信息。另一個潛在的擴展是通過探索路徑查找任務,使我們的模型更具可解釋性。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。
強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。
//dspace.mit.edu/handle/1721.1/144562
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
可解釋人工智能(xAI)是近年來出現的一個有趣的問題。許多研究人員正試圖從不同的角度和有趣的結果來處理這個問題。然而,我們在理解這些類型的模型方面仍處于起步階段。在未來的幾年里,深度學習模型的開放性將被討論。在經典的人工智能方法中,我們經常遇到深度學習方法。這些深度學習方法可以根據數據集大小、數據集質量、用于特征提取的方法、用于深度學習模型的超參數集、激活函數和優化算法得出高效的結果。然而,目前的深度學習模型還存在一些重要的不足。這些基于人工神經網絡的模型是黑盒模型,它概括傳輸給它的數據并從數據中學習。因此,輸入和輸出之間的關系是不可觀察的。這是人工神經網絡和深度學習模型的一個重要開放點。由于這些原因,有必要認真研究黑盒模型的可解釋性和可解釋性。