亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LMs)在許多語言任務中取得了顯著的成功。最近的研究也表明,大型LMs能夠從世界知識中獲益,從而幫助人們在體現任務中進行決策。然而,目前大型LMs展現的世界知識往往不夠穩健,且在沒有額外模型的情況下無法在物理環境中得到實現。這限制了它們可靠地執行復雜推理和規劃任務的能力。例如,在創建移動積木到目標狀態的行動計劃時,GPT-4與人類相比成功率顯著較低。 另一方面,人類基于對世界的心智模型進行深思熟慮的推理和規劃,這也被稱為世界模型(WM),它使我們能夠模擬行動及其對世界狀態的影響。編碼物理世界知識的WMs可以極大地提高智能代理的數據效率和穩健性。 然而,WMs通常在強化學習和機器人技術領域進行研究,這些領域在概念上與語言建模研究的問題不同。這一差距表明將WMs與LMs相結合,以提升LM在體現和通用設置中的推理和規劃能力,并解決上述局限性,是一個新的機遇。在WMs和LMs交匯點上的新興研究已展示出有希望的結果。本教程旨在總結并呈現連接WMs和LMs的統一視角,突出基于大型LMs通過世界建模來改進機器推理和規劃的各種機會。我們將回顧近期關于學習WMs的研究,并使用它們來進一步學習和執行體現任務。我們將展示LMs如何利用外部WMs來彌補其缺乏的基于地面的世界知識,以及LMs本身如何從超越文本數據的體現經驗中學習世界模型,并使用這些內部WMs來指導復雜推理。

盡管在許多應用中取得了巨大成功,但大型語言模型在各種(語言、體現和社會)場景中常常難以實現一致的推理和規劃,這是由于它們在推理、學習和建模能力上的固有局限。在這篇立場論文中,我們提出了一種新的機器推理觀點,LAW,它將語言模型、代理模型和世界模型的概念聯系起來,以實現更穩健和多樣的推理能力。特別是,我們認為世界和代理模型是一種更好的推理抽象,它引入了人類推理的關鍵元素,包括對世界和其他代理的信念、對后果的預期、目標/獎勵和戰略規劃。關鍵的是,LAW中的語言模型作為實現系統或其元素的后端,因此提供了計算能力和適應性。我們回顧了近期取得相關進展的研究,并討論了將LAW框架實用化的未來研究方向。

大型語言模型(LLMs)是迄今為止人類構建的最強大的智能機器之一。它們擅長根據給定的文本(或多模態)輸入生成自然語言的延續。自然語言是人類描述世界、表達思想和相互交流的靈活手段。LLMs,經過訓練,吸收了人類所產生的大量文本中傳達的大部分知識,包括世界的因果結構(如“一個瓶子被推,水便流出來”的句子所表達的),對各種主題的推理、科學理論、信仰、文化規范等。 另一方面,LLMs在一致的推理和規劃上常常有所不足,有時在人類覺得簡單的任務上意外地失敗。圖1展示了在不同推理場景中的這類例子。這些失敗實例突顯了基于LLMs的機器推理的幾個根本限制: 首先,自然語言文本通常是模糊且不精確的。造成這種模糊和不精確的一個關鍵原因是,人類在產生文本時所依賴的豐富上下文通常缺失。這種上下文包括人類代理人所處的特定感知和社會情境、他們的心理狀態(例如,意圖、信念和思維過程)以及世界常識。因此,LLMs只學習模仿表面文本而不建模潛在的上下文,缺乏對物理、社會和心理經驗的基礎。 LLMs的另一個核心局限來自于語言作為在某些情況下進行推理的媒介的低效性(圖1,體現推理)。例如,表達兩片樹葉之間所有微妙的區別可能需要一段冗長的文本段落。相比之下,生成視覺上代表這些樹葉的圖像可能更為高效,只需幾個像素。同樣,使用其他感官模式(例如,視頻)通常比依靠語言來描述直觀物理學更為直接,如基于其粘度和周圍障礙物預測流體流動。

這些局限性進一步被LLMs的推理過程所加劇。它們通過從左到右自回歸地、逐標記地生成文本來進行推理,類似于人類的第一系統(System-I)直覺思維。人類的第二系統(System-II)推理與LLM推理形成鮮明對比。特別是,人類擁有世界的心智模型。我們頭腦中的“世界模型”使我們能夠模擬行動及其對世界狀態的影響,從而在復雜任務中進行穩健推理(Tolman, 1948; Briscoe, 2011; Battaglia et al., 2013; Allen et al., 2020; Pramod et al., 2020)。例如,在規劃實現目標時,我們使用內部世界模型來思考我們可以采取的不同行動,并預測每個選擇的可能結果。這種結果的預測反過來有助于改進行動計劃,以更好地實現目標。這一決策過程由位于世界模型之上的“代理模型”所控制。此外,在社會推理任務中,人類代理人還使用他們對其他代理人的信念。例如,在對話過程中,代理人需要推斷他人的意圖和他們可能的反應,以決定最合適的言語。因此,人類通過由其內部世界和其他代理人模型指導的深思熟慮的規劃實現他們的目標并成功與他人互動。

人類代理人還展現出比LLMs更豐富的學習機制。如圖1所示(體現/社會推理),僅用大規模文本語料庫訓練的LLMs缺乏基本的現實世界經驗,如跟蹤和與對象互動、理解現實世界物理和時空關系、感知和跟蹤世界狀態、識別其他代理的行為等。人類代理人通過與環境的互動學習來繞過這些限制。例如,我們通過嘗試任務并獲得反饋來獲取新知識(例如,廚師通過嘗試不同的食材并品嘗結果來完善他們的烹飪技巧),或者僅僅通過隨機探索周圍環境(例如,一個孩子通過隨機拾起各種物體來了解不同的質地和感覺)。

總而言之,當前LLM的推理和規劃在推理(自回歸生成)、學習(未經真實世界互動的數據語料庫模仿)和建模(語言的低效率及其缺乏基礎)方面面臨關鍵限制。在這篇立場論文中,我們提出了一種更通用和穩健的機器推理的新視角,適用于語言、體現、社會以及其他廣泛場景。特別是,受到上述討論的啟發,我們提出了一種統一的LAW機器推理框架,將語言模型、代理模型和世界模型的概念聯系起來(圖2,右側)。

具體而言,世界和代理模型的概念源于認知科學和發展心理學(例如,Tolman, 1948; Premack and Woodruff, 1978; Johnson-Laird, 1983, 2010; Gentner and Stevens, 2014; Nortmann et al., 2015; Maus et al., 2013; Forrester, 1971; Gopnik and Wellman, 1994; Gergely and Csibra, 2003; Spelke and Kinzler, 2007; Battaglia et al., 2013; Baker et al., 2009; Jara-Ettinger et al., 2016; Baker et al., 2017)。如前所述,世界模型(§2.2)是代理人用來理解和預測周圍外部世界的心理表征;代理模型(§2.3)包含世界模型以及其他關鍵組件,包括代理的目標以及對當前世界狀態和其他代理的信念。這些組件共同塑造了代理的認知過程,使其能夠進行深思熟慮的推理和規劃。在人工智能和機器學習領域,世界和代理模型通常在強化學習和機器人技術的背景下研究(例如,Toussaint, 2003; Schulkin, 2012; Ha and Schmidhuber, 2018; Berkenkamp et al., 2017; Clavera et al., 2018; Zhang et al., 2019; Kaiser et al., 2019; Moerland et al., 2023; LeCun, 2022)。例如,最近的研究表明,世界建模使代理能夠在特定游戲和體現控制問題中制定有效的行動計劃(Schrittwieser et al., 2020; Hafner et al., 2020)。

在這篇論文中,我們強調了將語言模型與世界和代理模型結合起來的巨大新機遇,以實現單獨公式無法實現的更通用推理能力。特別是,與當前基于LM的推理范式相比,我們認為世界和代理模型是機器推理的更好抽象,因為它們天生包含了人類推理所必需的基本組成部分——例如,信念、目標、對后果的預期和深思熟慮的規劃(圖2,右側)。在這個框架中,LMs是實現世界/代理模型或各個組成部分的一種方式。也就是說,LMs作為實現這一框架的后端。與傳統的實現方式相比,LMs提供了處理廣泛多樣的推理場景所需的計算能力和適應性。另一方面,LMs在LAW推理框架中的新角色也突顯了它們的局限性,并激發了改進的未來研究。 在接下來的章節中,我們首先分別簡要介紹這三種模型的背景(§2)。然后,我們介紹新的LAW推理框架(§3),其中我們回顧了與框架中每個元素相關的新興研究,并討論了應對現有方法固有挑戰的路線圖,以實現更先進的機器推理和規劃。

付費5元查看完整內容

相關內容

潛在擴散模型(LDMs)作為一類強大的生成模型,已在圖像合成等領域展示了驚人的成果。然而,訓練高分辨率的擴散模型在像素空間可能極其昂貴。為克服這些限制,潛在擴散模型首先使用自編碼器將高分辨率數據映射到一個壓縮的、通常是低維的潛在空間,然后在該潛在空間中更高效地訓練擴散模型。因此,LDMs在避免過度計算需求的同時實現了高質量圖像合成。此外,具有自編碼器的LDM范式,可針對特定問題和數據進行定制,并在潛在空間中使用獨立的擴散模型,提供了極大的靈活性,適用于架構和模型設計。這使得LDMs能成功擴展到圖像生成之外的各種任務,如視頻合成、3D對象和場景生成、語言建模等。最著名的例子是文本到圖像模型Stable Diffusion,它利用了LDM框架。LDMs在生成模型文獻中已變得非常流行和廣泛使用。

在本教程中,我們旨在提供LDMs的介紹。雖然擴散模型的文獻已經很廣泛,但LDM范式由于其靈活性以及在性能和計算需求之間的出色權衡而特別突出。我們的目標是呈現一個LDM教程,有助于對高效且靈活但富有表現力的生成模型框架感興趣的研究者。我們還將強調加速采樣和可控性的高級技術,并討論LDMs在圖像合成之外的各種應用。此外,一個小組討論將提供這一動態領域的多元視角,并為未來對LDMs的研究提供展望。 本教程專注于潛在擴散模型。對于擴散模型的一般教程,我們推薦參考在CVPR'22和CVPR'23上展示的、已錄制并公開可用的教程。

付費5元查看完整內容

通過將時間序列編碼為一串數字字符,我們可以將時間序列預測視為文本中的下一個標記預測。發展這種方法,我們發現大型語言模型 (LLMs) 如 GPT-3 和 LLaMA-2 可以令人驚訝地零次推斷時間序列,其水平與或超過專門為下游任務訓練的時間序列模型的性能。為了促進這種性能,我們提出了有效標記化時間序列數據的程序,并將標記上的離散分布轉化為連續值上的高度靈活密度。我們認為LLMs在時間序列中的成功來源于它們能夠自然地表示多模態分布,與簡單性、重復性的偏見相結合,這與許多時間序列中的突出特征,如重復的季節性趨勢,是一致的。我們還展示了LLMs如何能夠通過非數字文本自然處理缺失數據而不需要估計,適應文本的邊際信息,并回答問題以幫助解釋預測。雖然我們發現增加模型大小通常會提高時間序列的性能,但我們顯示GPT-4在如何標記數字和較差的不確定性校準方面可能比GPT-3表現得更差,這可能是對齊干預如RLHF的結果。

付費5元查看完整內容

大型語言模型(LLMs,或稱為類固醇版的N-gram模型),最初是為了通過在前面一串詞的上下文中反復預測下一個詞而進行訓練的,現在已經吸引了人工智能(以及全世界)社區的關注。部分原因在于它們能夠對幾乎所有人類知識領域的提示生成有意義的完成句。這種極度的多功能性也引發了一種說法,即這些預測性文本補全系統可能具有抽象推理和規劃的能力。在這個教程中,我們將對LLMs在規劃任務中的能力進行深入探討,無論是在自主模式還是在輔助模式中。我們特別感興趣的是,在廣泛研究的AI規劃社區的問題和框架的背景下,描述這些能力(如果有的話)。

本教程將指出LLMs在生成通常需要解決子目標交互的組合搜索的計劃時的基本限制,并展示LLMs作為AI規劃社區開發的健全規劃者的補充技術的實際應用。除了介紹我們在這個領域的工作,我們還提供了許多相關工作的批判性調查,包括來自規劃社區以外的研究者的工作。

這個教程預計將涵蓋的主題包括:大型語言模型的背景,以及LLM的使用模式,包括提示技術 在規劃中區分使用變換器架構與預訓練的LLM的方法 提及Word2vec以規劃,決策變換器,我們正在進行的使用GPT2進行微調,學習驗證器的工作 LLM與規劃 - 自主模式 用自然語言或直接的PDDL進行提示;微調的效果;思維鏈提示等 LLM作為規劃的啟發式/想法生成器 與基于案例和輕量級規劃的連接 通過提示LLM進行搜索 自動化與人工驅動的提示(以及后者的聰明漢斯問題) LLM作為模型獲取技術 LLM作為支持各種類型規劃的工具 不完全指定(高度分離)的目標;HTN規劃;“廣義規劃” 在強化學習環境中使用LLM(以獲得獎勵,偏好)

付費5元查看完整內容

大型語言模型(如GPT-3、GPT-4、TNLG、T-5等LLM)在標準基準上表現出非常高的性能,這是因為它們的參數數量高、訓練數據集非常大、計算量很大。盡管這些模型中的高參數數量導致了更強的表達能力,但它也可能導致更高的記憶能力,再加上未經驗證的大型網絡抓取數據集,可能會造成多種不同的負面社會和道德影響: 隱私、敏感信息的泄露——即LLM是“泄漏的”,生成有偏見的文本,即。LLM是“狡猾的,產生仇恨或刻板印象的文本-即LLM是“令人毛骨悚然的”。在本次演講中,我將介紹上述問題如何影響LLM的可信性,并重點介紹我們如何測量這些模型的泄漏和記憶。最后,我將討論大型LLM的隱私保護實際意味著什么,以及使大型模型可信的未來研究方向。

付費5元查看完整內容

基于擴散的生成模型在生成高質量的圖像方面非常有效,生成的樣本在某些指標下常常超過其他模型生成的樣本。然而,這些模型的一個顯著特征是,它們通常需要很長的采樣鏈來生成高保真圖像。這不僅帶來了采樣時間的挑戰,也帶來了通過這些鏈反向傳播的固有困難,以完成諸如模型反演等任務,即近似地找到生成已知圖像的潛在狀態。在本文中,我們從一個不同的角度來看待擴散模型,即一個(深度)平衡(DEQ)不動點模型。具體來說,我們擴展了最近的去噪擴散隱式模型(DDIM;Song et al. 2020),并將整個采樣鏈建模為一個聯合的多元不動點系統。這種設置提供了擴散模型和平衡模型的優雅統一,并顯示出1)單幅圖像采樣的好處,因為它用并行采樣過程取代了典型的全串行采樣過程;2)模型反演,我們可以利用DEQ設置中的快速梯度,更快地找到生成給定圖像的噪聲。該方法也是正交的,因此與用于減少采樣時間或改進模型反演的其他方法互補。我們在多個數據集上演示了我們的方法的強大性能,包括CIFAR10、CelebA和LSUN Bedrooms和Churches。

付費5元查看完整內容

在協同多智能體強化學習中,集中訓練和分散執行(CTDE)取得了顯著的成功。IGM (Individual Global Max)分解是CTDE的重要組成部分,用來衡量局部策略與聯合策略之間的一致性。大多數基于IGM的研究關注于如何建立這種一致的關系,但很少關注檢查IGM的潛在缺陷。在這項工作中,我們揭示了IGM條件是一個有損分解,并且有損分解的誤差會在基于超網絡的方法中積累。針對上述問題,本文提出采用模仿學習策略將有損分解與Bellman迭代分離,從而避免誤差累積。在零視點的《星際爭霸》多智能體挑戰賽基準問題上,對所提策略進行了理論驗證和實證驗證。結果也證實了提出的方法優于最先進的基于IGM的方法。//www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23

付費5元查看完整內容

在深度神經網絡之后,以多頭自注意力機制為核心的Vision Transformer因其對輸入全局關聯的強大建模能力得到了廣泛應用和研究。盡管現有研究在模型結構、損失函數、訓練機制等方面提出了諸多改進,但少有研究對Vision Transformer的工作機制進行了深入探索。本文為ICLR 2022中的亮點論文之一,提供了不同解釋來幫助理解Vision Transformer (ViT)的優良特性:1)多頭自注意力機制不僅提高了精度,而且通過使損失的超平面變得平坦,提高了泛化程度;2)多頭自注意力機制和卷積模塊表現出相反的行為。例如,多頭自注意力機制是低通濾波器,而卷積模塊是高通濾波器;3)多層的神經網絡的行為就像一系列小的個體模型的串聯;4)最后階段的卷積模塊在預測中起著關鍵作用。

付費5元查看完整內容

最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。

//www.zhuanzhi.ai/paper/2a8c253e156bd0c5f2599cbe2ec78d16

付費5元查看完整內容

目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。

//icml.cc/Conferences/2021/ScheduleMultitrack?event=9680

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司