當我們說話、寫作或聆聽時,我們不斷地基于對語言語法的知識進行預測。令人驚訝的是,兒童僅僅在幾年內便能掌握這種語法知識,使得他們能夠理解并將這種知識推廣到從未說過的新結構中。語言模型是強大的工具,它們通過逐步預測句子中的下一個詞來構建語言的表示,并且在近年來對社會產生了巨大影響。本文的核心研究問題是,這些模型是否擁有類似于人類的深刻語法結構理解。這個問題位于自然語言處理、語言學和可解釋性研究的交叉點。為了回答這個問題,我們將開發新的可解釋性技術,以加深我們對大規模語言模型復雜本質的理解。我們將從三個方向來探索這個研究問題。首先,我們通過結構性啟動(structural priming)這一心理語言學中的關鍵范式,探索抽象語言信息的存在,這一范式可以揭示人類語言處理中的語法結構。接下來,我們考察各種語言現象,如形容詞順序和否定極性項目,并將模型對這些現象的理解與其訓練數據分布進行關聯。最后,我們引入一個受控的測試平臺,用于研究語言模型中的層級結構,采用各種逐步增加復雜度的合成語言,并考察特征交互在建模這些結構中的作用。我們的研究結果提供了關于語言模型表示中蘊含的語法知識的詳細描述,并為使用計算方法研究基本語言學問題提供了若干方向。
許多科學領域正在通過深度學習等新技術進行革命,以揭示復雜高維數據背后的動態。然而, 將這些強大的新方法應用于神經科學的挑戰仍處于起步階段。在這里,我們描述了多年來我們深度學習方法的發展,旨在通過僅使用少量潛在維度,發現大規模神經元群體中的非線性動態。與現有的主要方法不同,我們方法的低維特性使得所學的動態系統更易于解釋,甚至可以顯式可視化系統的向量場和吸引子結構。
我們的方法利用了神經微分方程(NDEs),這是一類深度遞歸神經網絡模型,相比經典的遞歸神經網絡,能夠在低維空間中實現更復雜的計算。這種在低維度中的復雜性有助于提取可解釋且有效的低維動態,這些動態可能是數據集或任務的核心。我們解決了將NDEs應用于神經數據時的若干技術挑戰,并開發了一種神經動態發現方法,稱為FINDR(基于深度遞歸網絡的神經數據流場推斷),該方法構建在NDEs的基礎上。
為了展示其科學應用,我們將FINDR應用于多種神經群體數據集,包括來自執行感知決策任務的老鼠前額皮層和紋狀體的數據。我們發現,神經軌跡在兩個連續的階段中演變,第一個階段由感覺輸入驅動,第二個階段由系統內部的動態驅動。初始階段介導證據積累,而隨后的階段則支持決策承諾。這一階段過渡與神經群體中決策過程表征的快速重組相耦合(即“神經模式”的變化,決策過程沿其發展)。我們的結果表明,感知選擇的形成涉及決策過程的動態模式和神經模式的快速、協調過渡。
總體而言,FINDR作為一種揭示神經群體低維動態的強大方法,展現了巨大的潛力,并提供了一個通用的、可解釋的框架,通過動態系統的視角來研究神經計算。
人類具有從原始感官輸入(如視頻和音頻)中學習強大感知能力的非凡能力,并且幾乎不需要監督。盡管在建模高層次認知功能(如語言理解與生成)方面取得了巨大的近期進展,但我們目前最先進的計算機視覺模型在學習感知和表征物理世界的效率和性能方面,遠遠落后于人類水平。它們通常需要大量的訓練數據,并且這些數據需要昂貴的手工標注,任務特定的架構,以及即便在模型參數和訓練數據規模增大的情況下,性能提升也非常有限。在本論文中,我們研究了如何從原始未標注的視頻數據構建可擴展的通用感知系統的問題。核心思想是訓練一個大規模的世界模型,基于視覺數據。預訓練的世界模型根據當前狀態和額外干預預測可能的未來世界狀態。我們進一步展示了,可以利用預測器生成的預測結果,以零-shot(零樣本)方式提取廣泛的視覺結構——如關鍵點、光流、分割和深度信息。 本論文分為三部分,我們在其中探索了無需手工標注的新范式,用于訓練可擴展的通用感知系統。第一部分,我們提出了通過利用視頻中的運動作為自監督信號來學習結構化場景表示的新方法。第二部分,概述了一個用于在視頻數據上預訓練大規模世界模型的通用框架,這反過來使得通過統一架構和任務接口能夠零-shot地提取不同的視覺結構。第三部分,進一步通過解決不確定性管理的關鍵挑戰,提升了世界模型的性能。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
盡管許多多模態機器學習方法相較于單一感知的單模態方法在準確性上取得了優越的表現,但它們隱含地假設視覺模態總是清晰的。然而,這一假設在實際應用中容易被證偽,因為在日常環境中,視覺條件不佳的情況十分常見。我們發現,當視覺條件具有挑戰性時,現有的機器學習方法往往無法有效地利用其他模態的信息。因此,它們過度依賴視覺模態,因為在訓練數據中,視覺模態通常是可靠且信息豐富的。結果,當視覺條件變差并開始包含誤導性信息時,這些方法無法適應。此外,傳統的多模態模型從未學會在視覺挑戰場景中找到跨模態的對應關系。本論文旨在研究在視覺挑戰條件下的多模態學習。我們將在各個章節中分別探討每種變化,并提出我們的解決方案,以實現更有效的多模態表示學習。最后,在論文的最后一章,我們將提供一個簡要的結論。我們希望我們的研究能激發更多關于視覺挑戰條件下多模態學習的研究。
//hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19
動物和人類在構建世界的內部表征并利用它們來模擬、評估和選擇不同可能的行動方面表現出非凡的能力。這種能力主要通過觀察且沒有任何監督地學習。賦予自主代理類似的能力是機器學習中的一個基本挑戰。在本論文中,我將探索新的算法,這些算法能夠通過預測從視頻中進行可擴展的表征學習、視覺數據的生成模型及其在機器人領域的應用。
首先,我將討論使用預測學習目標來學習視覺表征所面臨的挑戰。我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,以零樣本的方式解決各種視覺對應任務。隨后,我將提出一種基于變壓器的通過擴散建模進行照片級視頻生成的方法。我們的方法在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。最后,我將說明生成模型在機器人學習中的實際應用。我們非自回歸的、動作條件的視頻生成模型可以作為世界模型,使具身代理能夠使用視覺模型預測控制進行規劃。此外,我將展示一個通過下一個標記預測訓練的通用代理,該代理可以從各種機器人和任務中學習多樣的機器人經驗。
在過去五年里,機器學習領域取得了顯著進展。特別是,基于自監督任務的下一個標記預測訓練的大規模生成模型在自然語言處理方面展示了非凡的能力。這些大型語言模型(LLMs)已經改變了我們與數字世界的互動。從撰寫電子郵件等簡單任務到編寫代碼等復雜任務,LLMs 正日益融入我們的日常生活。
盡管大型語言模型取得了顯著進步并被廣泛應用,但這些系統仍存在顯著的局限性。具體而言,盡管它們在大量數據上進行了訓練,但缺乏快速獲取新技能和知識的能力。此外,當前的語言模型對物理世界僅有表面的理解,缺乏推理、常識和長期規劃的能力。這些能力對于開發自主視覺代理,如增強現實助手、自動駕駛汽車和通用機器人,都是至關重要的。
我們如何構建對物理世界有直觀理解的自主代理?我們可以從人類和動物的學習方式中汲取靈感。盡管缺乏語言,動物表現出高度的智能。它們能夠熟練處理高維視覺輸入,具備常識,并能在多個時間跨度上進行規劃和行動。動物通過無監督的方式發展這種對物理世界的直觀理解,主要通過觀察和相對較少的環境交互進行學習。1943 年 Kenneth Craik 提出的一種解釋已經激勵了長期以來的 AI 研究人員:“如果有機體在其頭腦中攜帶一個‘小規模模型’的外部現實及其自身可能的行動,它就能夠嘗試各種選擇,得出哪個是最好的,在未來情況發生之前做出反應,利用過去事件的知識處理現在和未來,并在每一種情況下以更充分、更安全和更能干的方式應對面臨的緊急情況。”
為實現這一目標,在本論文中,我將展示一些學習算法和神經網絡架構,使自主機器能夠以無監督的方式學習物理世界的小規模模型,并使用該模型在現實世界中進行規劃和行動。首先,我將介紹一個簡單的預測學習架構和目標,它能夠學習視覺表征,并以零樣本的方式解決各種視覺對應任務。接下來,我將提出一個可擴展的基于注意力的架構,用于學習圖像和視頻的生成模型。最后,我將描述一些用于構建機器人學習生成模型的算法。我將展示一種新穎的非自回歸、動作條件的視頻生成模型,該模型可以作為世界模型,使機器人能夠使用視覺模型預測控制進行規劃。此外,我還將介紹一個通過下一個標記預測訓練的通用代理,該代理能夠從各種機器人和任務中學習多樣的機器人經驗。
隨著神經網絡在諸如刑事司法、醫療等高風險領域的應用日益增多,了解這些模型做出決策的原因變得越來越重要。例如,開發工具來分析模型是否在其未來的決策中延續了它們在訓練數據中發現的有害的人口不平等至關重要。然而,神經網絡通常需要大量訓練數據集,具有“黑箱”決策特性,并且重新訓練成本高昂,這增加了這個問題的難度。本文考慮三個問題。問題一)輸入的各個元素與模型決策之間的關系是什么?問題二)單個訓練點與模型決策之間的關系是什么。最后問題三)在多大程度上存在(有效的)近似方法,能夠讓實踐者預測模型性能在不同訓練數據或不同訓練協議下的變化。
第一部分針對掩蔽顯著性方法回答問題一。這些方法隱含地假設圖像中的灰色像素是“無信息的”。我們通過實驗發現,這一假設可能并非總是正確的,并定義了“健全性”,它衡量了顯著性圖的一種理想屬性。第二部分在影響函數的背景下討論問題二和問題三,這些函數旨在近似移除一個訓練點對模型決策的影響。我們使用諧波分析來檢查一種特定的影響方法,即數據模型,并發現數據模型的系數與目標函數的傅里葉系數之間存在關系。最后,第三部分在測試數據的背景下討論問題三。首先,我們評估是否需要保留外部測試數據來近似元學習的外部循環,或者回收訓練數據是否構成了一個足夠的近似。我們發現保留的測試數據很重要,因為它學習到的表示是低秩的。然后,受到PGDL競賽的啟發,我們調查了盡管眾所周知的限制,生成對抗網絡(GAN)生成的數據是否可以用來近似泛化性能,當沒有測試或驗證集可用時,并發現它們可以做到這一點。
如果讓一個人描述一幅圖片,他們可能會用一千種不同的方式來描述。每一種描述不僅取決于圖片本身,還取決于圍繞圖片的豐富的情境線索和提示(包括描述者本人)。到目前為止,條件自然語言生成的研究幾乎完全集中在任務的感知組成部分上:我們如何感知刺激物——無論是音頻、視覺還是文本——并將其傳達給用戶?在這篇論文中,我們認為僅關注刺激物(而非相關情境)的模型在生成與人類對質量和內容判斷一致的語言方面存在重大缺陷,同時減少了它們對下游任務的整體實用性。本論文聚焦于構建一個情境感知的條件自然語言生成(CNLG)模型的三個核心目標:(1)捕捉和理解在生成的條件文本中、之間及其之間的信息;(2)開發更好地整合情境信息的多模態模型;(3)設計與人類判斷更加一致的CNLG評估方法。通過這些目標,我們展示了情境在自然語言生成中的力量,并幫助回答這個問題:“我們如何理解、構建和評估情境感知的條件自然語言生成模型?”
迄今為止,條件自然語言生成領域幾乎完全專注于感知成分:我們如何感知刺激(無論是音頻、視覺還是文本)并將其傳達給用戶?在圖像描述的情況下,這意味著專注于理解圖像內容,而大量忽略任何情境線索。在自動語音識別的情況下,這意味著專注于音頻本身并忽略該音頻發生的情境。然而,在許多情況下,這種情境不僅有幫助,而且對模型的輸出是必需的。因此,為了應對這些挑戰,我們必須轉向對條件自然語言生成更細致的理解,認識到有效的溝通和信息交換不僅僅依賴于對刺激的字面解釋,還依賴于錯綜復雜的情境線索和環境因素。
在這篇論文中,我們提出了一個總體問題:我們如何理解、構建和評估情境感知的條件自然語言生成模型?為了探索這個問題,我們深入研究了幾個領域(見第1.1節),探索了文本周圍的情境如何影響其生成,以及我們如何利用情境線索(來自一些意外的來源)來理解、評估和構建更強大的多模態模型。總體上,這篇論文主要分為三個核心部分,每個部分處理情境感知條件自然語言生成(CNLG)問題的某些方面:
理解生成樣本內部、之間和之中的信息:首先,我們深入理解圖像/視頻和文本的聯合分布,以及可以在生成文本中捕獲的信息(即數據集中的語言分布)和生成文本之間/之中的信息(其中“之間”指的是單個圖像的多個樣本中存在的信息,“之中”指的是可以從樣本集中推斷出的更廣泛的語言分布)。在第3章中,我們研究圖像/文本聯合分布的行為,并揭示了我們用于圖像和視頻的數據集是如何結構化的有趣細節;在第4章中,我們探索如何利用數據集中的這些隱含特性在訓練期間選擇一個小而高效的樣本集。
構建CNLG的多模態模型:接下來,我們介紹了在幾個領域構建CNLG模型的幾種方法。在圖像字幕領域,我們在第6章討論了如何有效利用CNLG模型學習的完整分布來生成單個高質量的字幕。在自動語音識別領域,我們探討了如何利用包括視頻(第7章)、文本目錄(第8章)和對話(第9章)在內的不同類型的情境來提高生成自然語言的質量。
評估CNLG模型:最后,我們介紹了兩種新的評估CNLG能力模型的方法。第一種方法在第11章中介紹,通過查看學習的完整分布而不是僅僅模型的單個最佳樣本來評估模型。第二種方法在第12章中介紹,利用大型語言模型學習的人類偏好隱式分布來改善生成文本的評估。
視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
人類一生都在學習。他們從一系列的學習經驗中積累知識,記住基本概念,但不會忘記之前所學的知識。同樣,人工神經網絡也在努力學習。他們通常依賴于經過嚴格預處理的數據來學習特定問題的解決方案,如分類或回歸。特別是,如果接受新的訓練,他們會忘記過去的學習經驗。因此,人工神經網絡通常不能處理現實生活中的情況,比如自主機器人必須在線學習以適應新情況并克服新問題,而不忘記過去的學習經驗。持續學習(CL)是機器學習的一個分支,解決了這類問題。持續算法的設計目的是在不遺忘的學習經驗課程中積累和提高知識。在本論文中,我們提出探索具有重放過程的持續算法。重播過程集中了預演方法和生成重播方法。生成式再現是通過生成式模型來記憶過去的學習經驗。排練包括從過去的學習經驗中保存一組核心樣本,以便以后進行排練。回放過程使優化當前學習目標和過去學習目標之間的折衷成為可能,從而在任務設置序列中實現不遺忘的學習。我們表明它們是非常有前途的持續學習方法。值得注意的是,它們能夠用新的知識重新評價過去的數據,并從不同的學習經驗中對抗數據。我們展示了他們通過無監督學習、監督學習和強化學習任務持續學習的能力。