人工智能(AI)在各個領域取得了顯著進展,像ChatGPT這樣的大型語言模型因其類人的文本生成能力而獲得了極大的關注。盡管取得了這些成就,空間推理仍然是這些模型的一個重大挑戰。例如StepGame這樣的基準測試評估了AI的空間推理能力,而ChatGPT在此方面的表現并不令人滿意。 然而,基準測試中模板錯誤的存在影響了評估結果。因此,如果解決了這些模板錯誤,ChatGPT的表現有可能會更好,從而導致對其空間推理能力的更準確評估。在本研究中,我們對StepGame基準進行了精煉,為模型評估提供了更準確的數據集。我們分析了GPT在修正后基準上的空間推理表現,發現它在將自然語言文本映射到空間關系方面表現出熟練度,但在多跳推理方面存在限制。我們通過結合模板到關系的映射和基于邏輯的推理,為基準提供了一個無瑕疵的解決方案。這種結合展示了在StepGame上進行定性推理的熟練度,且沒有遇到任何錯誤。接著,我們解決了GPT模型在空間推理方面的限制。我們部署了連續思考和樹狀思考的提示策略,提供了對GPT“認知過程”的洞察,并實現了準確性的顯著提升。我們的調查不僅揭示了模型的不足,還提出了增強功能,為具有更強大空間推理能力的AI的進步做出了貢獻。
在過去的十年中,基于人類研究者手動設計的算法,深度強化學習(RL)取得了巨大的進展。最近,已經證明可以元學習更新規則,希望發現能夠在廣泛的RL任務上表現良好的算法。盡管從像Learned Policy Gradient(LPG)這樣的算法中獲得了令人印象深刻的初步結果,但當這些算法應用于未見過的環境時仍然存在泛化差距。在這項工作中,我們研究元訓練分布的特性如何影響這些算法的泛化性能。受此分析的啟發,并基于來自無監督環境設計(UED)的想法,我們提出了一種新穎的方法,自動生成課程以最大化元學習優化器的遺憾,并提出了一種我們稱為算法遺憾(AR)的遺憾新近似。結果是我們的方法——通過環境設計獲得的通用RL優化器(GROOVE)。在一系列實驗中,我們顯示GROOVE在泛化方面優于LPG,并評估AR與UED的基線指標,將其確定為在這種設置中環境設計的關鍵組成部分。我們相信這種方法是朝著發現真正通用的RL算法的一步,這些算法能夠解決廣泛的真實世界環境。
過去十年里,深度強化學習[Sutton 和 Barto, 1998, RL]取得了巨大的進展,這是一個范式,其中智能體與環境互動以最大化標量獎勵。特別地,深度RL智能體已經學會了掌握復雜的游戲[Silver 等, 2016, 2017, Berner 等, 2019],控制實體機器人[OpenAI 等, 2019, Andrychowicz 等, 2020, Miki 等, 2022],并越來越多地解決真實世界的任務[Degrave 等, 2022]。然而,這些成功是由手工設計的算法推動的,這些算法經過多年的優化,來應對RL中的新挑戰。因此,當這些方法轉移到新任務時,它們并不總是展現出相同的性能[Henderson 等, 2018, Andrychowicz 等, 2021],并受到我們對RL的直覺的限制。近期,元學習已經成為一種用數據驅動的方式發現通用RL算法的有希望的方法[Beck 等, 2023b]。特別地,Oh 等[2020]引入了Learned Policy Gradient (LPG),顯示可以在玩具環境上元學習一個更新規則,并將其無縫轉移到在具有挑戰性的未見過的領域上訓練策略。盡管初步結果令人印象深刻,但當這些算法應用于未知環境時,仍存在顯著的泛化差距。在這項工作中,我們希望通過研究元訓練分布的特性如何影響這些算法的泛化來學習通用和魯棒的RL算法。受此分析的啟發,我們的目標是自動學習一個元訓練分布。我們基于無監督環境設計[Dennis 等, 2020, UED]的思想,這是一個范式,其中學生智能體在一個老師提議的適應性環境分布上進行訓練,老師試圖提議最大化學生遺憾的任務。UED通常被應用于訓練單個的RL智能體,已被證明能生成能夠無縫遷移至具有挑戰性的人為設計任務的穩健策略。相反,我們將UED應用于元RL設置,元學習一個策略優化器,我們稱其為策略元優化(PMO)。為此,我們提出算法遺憾(AR),一個用于選擇元訓練任務的新指標,除此之外,還基于LPG和UED的思想構建了一種方法。我們將我們的方法命名為通過環境設計獲得的通用RL優化器,或稱GROOVE。
我們在無結構的格子世界環境分布上訓練GROOVE,并嚴格地檢查其在各種未見過的任務上的表現——從具有挑戰性的格子世界到Atari游戲。與LPG相比,GROOVE在所有這些領域上都取得了顯著改善的泛化性能。此外,我們將AR與UED文獻中提出的先前環境設計指標進行了比較,確定它是這一設置中環境設計的關鍵組成部分。我們相信這種方法是朝著發現真正通用的RL算法的方向邁出的一步,這些算法有能力解決各種真實世界的環境。
我們在JAX [Bradbury等,2018]中實現了GROOVE和LPG,這導致在單個V100 GPU上的元訓練時間為3小時。作為LPG的第一個完整且開源的實現,與參考實現相比,我們實現了主要的加速,后者在16核的TPU-v2上需要24小時。這將使學術實驗室能夠在這個領域進行后續研究,其中計算約束長期以來一直是一個限制因素。
我們的貢獻可以總結如下:? 為了區分這個問題設定與傳統的元-RL,我們使用Meta-UPOMDP(第2.1節)為PMO提供了一個新的公式化描述。? 我們提出了AR(第3.2節)——一種用于PMO的新的遺憾近似,以及GROOVE(第3.3節)——一種使用AR進行環境設計的PMO方法。? 我們分析了元訓練分布的特性如何影響PMO的泛化(第4.2節),并展示AR作為任務信息度的代理(第4.3節)。? 我們對GROOVE和LPG進行了廣泛的評估,展示了在分布內的穩健性和分布外的泛化性能的提高(第4.4節)。? 我們進行了AR的消融實驗,展示了沒有AR的現有方法(PLR和LPG)的不足,以及AR中對抗代理的影響(第4.5節)。
自然語言處理(NLP)社群一直在使用眾包技術來創建基準數據集,例如用于訓練現代語言模型(LMs)如BERT的通用語言理解與評估(GLUE)。GLUE任務使用互注解者度量(如Cohen的Kappa(??))來衡量可靠性分數。然而,LMs的可靠性方面經常被忽視。為了解決這個問題,我們探索了一種由知識引導的LM集成方法,該方法利用強化學習來整合來自ConceptNet和維基百科的知識圖譜嵌入。這種方法模仿人類注解者依賴外部知識來彌補數據集中的信息缺陷。在九個GLUE數據集中,我們的研究顯示集成增強了可靠性和準確性分數,超過了現有最先進的方法。
視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。
//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db
大型語言模型(LLMs)通過擴展模型和數據大小顯示出越來越強的上下文學習能力。盡管取得了這些進展,LLM仍然無法解決算法推理問題。雖然為最終答案提供了一個基本原理,導致了多步推理問題的進一步改進,但Anil等人在2022年表明,即使是簡單的算法推理任務,如parity,也遠遠沒有解決。在這項工作中,我們確定并研究了成功地向LLMs教授算法推理的四個關鍵階段:(1)將算法制定為技能,(2)同時教授多種技能(技能積累),(3)教授如何組合技能(技能組合)以及(4)教授如何將技能用作工具。我們證明了通過上下文學習(我們稱之為算法提示)向LLM教授算法推理是可能的。我們在各種算術和定量推理任務上評估了我們的方法,并證明了與現有的提示技術相比,該方法在性能上有顯著提升。特別是,對于長奇偶校驗、加法、乘法和減法,與最佳可用基線相比,我們分別實現了大約10倍、9倍、5倍和2倍的誤差減少。
深度神經網絡(DNNs)因其在機器學習(ML)中對各種認知任務的高性能而備受歡迎。近年來,DNN在許多任務上的進展已經超出了人類的精度,但代價是計算復雜度很高。因此,為了高效地執行DNN推理,越來越多的研究工作利用DNN固有的誤差恢復能力,并采用近似計算(AC)原理來解決DNN加速器的高能量需求。這篇文章提供了一個分析硬件近似技術的DNN加速器的全面綜述。首先,我們分析了目前的技術狀況,并通過識別近似族,我們聚類各自的工作與近似類型。接下來,我們分析執行評估的復雜性(與數據集和DNN大小有關),以評估近似DNN加速器的效率、潛力和局限性。此外,還提供了一個廣泛的討論,關于更適合設計DNN加速器的近似單元的誤差度量,以及為DNN推理量身定制的精度恢復方法。最后,我們介紹了DNN加速器的近似計算如何超越能源效率,并解決可靠性和安全問題。
時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
人工智能的一個基本問題是對知識圖譜(KG)捕獲的事實執行復雜的多跳邏輯推理。這個問題是具有挑戰性的,因為KGs可能是不完備的。最近的方法是將KG實體嵌入到低維空間中,然后利用這些嵌入來尋找答案實體。然而,如何處理任意一階邏輯(FOL)查詢一直是一個突出的挑戰,因為目前的方法僅限于FOL操作符的一個子集。特別地,不支持否定運算符。現有方法的另一個限制是它們不能自然地建模不確定性。在這里,我們提出了一種用于回答KGs中任意FOL查詢的概率嵌入框架BETAE。BETAE是第一種可以處理完整的一階邏輯運算的方法:合取(∧)、析取(不確定)和否定(ed)。BETAE的一個關鍵觀點是使用有界支持的概率分布,特別是Beta分布,以及嵌入查詢/實體作為分布,這使得我們也能建模不確定性。邏輯操作由概率嵌入的神經算子在嵌入空間中執行。我們演示了BETAE在三個大的、不完整的KG上回答任意的FOL查詢時的性能。雖然BETAE更加通用,但相對于目前最先進的KG推理方法(僅能處理不含否定的連接查詢),它的相對性能提高了25.4%。
能夠解釋機器學習模型的預測在醫療診斷或自主系統等關鍵應用中是很重要的。深度非線性ML模型的興起,在預測方面取得了巨大的進展。然而,我們不希望如此高的準確性以犧牲可解釋性為代價。結果,可解釋AI (XAI)領域出現了,并產生了一系列能夠解釋復雜和多樣化的ML模型的方法。
在本教程中,我們結構化地概述了在深度神經網絡(DNNs)的背景下為XAI提出的基本方法。特別地,我們提出了這些方法的動機,它們的優點/缺點和它們的理論基礎。我們還展示了如何擴展和應用它們,使它們在現實場景中發揮最大的作用。
本教程針對的是核心和應用的ML研究人員。核心機器學習研究人員可能會有興趣了解不同解釋方法之間的聯系,以及廣泛的開放問題集,特別是如何將XAI擴展到新的ML算法。應用ML研究人員可能會發現,理解標準驗證程序背后的強大假設是很有趣的,以及為什么可解釋性對進一步驗證他們的模型是有用的。他們可能還會發現新的工具來分析他們的數據并從中提取見解。參與者將受益于技術背景(計算機科學或工程)和基本的ML訓練。
目錄內容:
Part 1: Introduction to XAI (WS) 可解釋人工智能
Part 2: Methods for Explaining DNNs (GM) 可解釋深度神經網絡方法
Part 3: Implementation, Theory, Evaluation, Extensions (GM) 實現,理論、評價
Part 4: Applications (WS) 應用
多元時間序列建模一直是一個熱門主題,吸引了來自不同領域的研究人員,包括經濟、金融和交通。多元時間序列預測背后的一個基本假設是,其變量相互依賴,但仔細觀察,可以說現有方法無法完全利用變量對之間的潛在空間依賴性。同時,近年來,圖神經網絡(GNN)在處理關系依賴方面表現出了很高的能力。GNN需要用于信息傳播的定義明確的圖結構,這意味著它們無法直接應用于事先不知道相關性的多元時間序列。在本文中,我們提出了一個專門為多元時間序列數據設計的通用圖神經網絡框架。我們的方法通過圖形學習模塊自動提取變量之間的單向關系,可以輕松地將諸如變量屬性之類的外部知識整合到其中。進一步提出了一種新穎的混合跳躍傳播層和一個擴張的起始層來捕獲時間序列內的空間和時間依賴性。在端到端框架中共同學習圖學習,圖卷積和時間卷積模塊。實驗結果表明,我們提出的模型在4個基準數據集中的3個方面優于最新的基線方法,并在提供額外結構信息的兩個交通數據集上與其他方法相比具有同等的性能。
地址: //www.zhuanzhi.ai/paper/50fe383c75bcd2a665984f30eabe7d87