盡管神經模型的廣泛應用,訓練后的神經模型依然是一個具有挑戰性的可解釋性課題,神經網絡研究人員采用的許多知識和技能,可能被認為是深奧且晦澀的,旨在理解模型學到了什么,以及模型的內部工作如何改變其學習結果。理解這些模型學到了什么是至關重要的領域,因為越來越多的生產系統依賴神經模型來提供越來越多的高影響力應用。本研究提出了一種可解釋性方法論,基于一種神經模型設計理念,重新定義了這些模型分析單元的范疇,從單個神經元擴展到一組互聯的功能組件,我們稱之為“神經路徑”。這些功能組件是架構、數據和訓練方案的結果,具有跨越結構邊界的能力。這使得通過增強透明度,能夠實現基于功能的、以人為中心的模型理解,從而促進模型與研究人員之間的對話。在本論文的研究過程中,我們在文獻中做出了四個方面的貢獻:首先,我們提供了一種神經模型可解釋性的方法,針對子任務級別進行了嚴格驗證,驗證通過了一系列合成數據集;第二,我們通過提供一個框架,將學習到的功能組件與因果結構對齊,從而擴展了這一方法。這使得神經模型學習的功能與理論因果結構進行比較成為可能,進而快速驗證我們對神經模型如何處理任務的理解;第三,我們擴展了該方法,能夠比較和對齊不同架構或訓練程序下的模型功能組件;最后,我們展示了神經路徑方法在多個教育技術領域的應用能力。包括通過修辭結構分析提供自動化作文反饋、通過傳遞性檢測進行小組形成以及自動化作文評分。最后一個貢獻可以進一步細分為三個方面,按領域和重點分開。首先,神經路徑被用來支撐神經話語解析器,使其能夠更容易地推廣到學生寫作;接下來,我們展示了神經路徑可以作為一種錯誤分析方法,探索在不同領域訓練的模型在檢測傳遞性上的表現差異;最后,我們展示了通過對AI寫作檢測器的微調,追蹤問題路徑變化的能力。由于神經路徑方法的廣泛適用性,我們樂觀地認為該方法能夠對神經模型的設計和開發產生廣泛影響,我們的目標是提供一項具有擴展潛力的基礎性工作,能夠遠遠超出本論文的范圍。
許多科學領域正在通過深度學習等新技術進行革命,以揭示復雜高維數據背后的動態。然而, 將這些強大的新方法應用于神經科學的挑戰仍處于起步階段。在這里,我們描述了多年來我們深度學習方法的發展,旨在通過僅使用少量潛在維度,發現大規模神經元群體中的非線性動態。與現有的主要方法不同,我們方法的低維特性使得所學的動態系統更易于解釋,甚至可以顯式可視化系統的向量場和吸引子結構。
我們的方法利用了神經微分方程(NDEs),這是一類深度遞歸神經網絡模型,相比經典的遞歸神經網絡,能夠在低維空間中實現更復雜的計算。這種在低維度中的復雜性有助于提取可解釋且有效的低維動態,這些動態可能是數據集或任務的核心。我們解決了將NDEs應用于神經數據時的若干技術挑戰,并開發了一種神經動態發現方法,稱為FINDR(基于深度遞歸網絡的神經數據流場推斷),該方法構建在NDEs的基礎上。
為了展示其科學應用,我們將FINDR應用于多種神經群體數據集,包括來自執行感知決策任務的老鼠前額皮層和紋狀體的數據。我們發現,神經軌跡在兩個連續的階段中演變,第一個階段由感覺輸入驅動,第二個階段由系統內部的動態驅動。初始階段介導證據積累,而隨后的階段則支持決策承諾。這一階段過渡與神經群體中決策過程表征的快速重組相耦合(即“神經模式”的變化,決策過程沿其發展)。我們的結果表明,感知選擇的形成涉及決策過程的動態模式和神經模式的快速、協調過渡。
總體而言,FINDR作為一種揭示神經群體低維動態的強大方法,展現了巨大的潛力,并提供了一個通用的、可解釋的框架,通過動態系統的視角來研究神經計算。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
當我們說話、寫作或聆聽時,我們不斷地基于對語言語法的知識進行預測。令人驚訝的是,兒童僅僅在幾年內便能掌握這種語法知識,使得他們能夠理解并將這種知識推廣到從未說過的新結構中。語言模型是強大的工具,它們通過逐步預測句子中的下一個詞來構建語言的表示,并且在近年來對社會產生了巨大影響。本文的核心研究問題是,這些模型是否擁有類似于人類的深刻語法結構理解。這個問題位于自然語言處理、語言學和可解釋性研究的交叉點。為了回答這個問題,我們將開發新的可解釋性技術,以加深我們對大規模語言模型復雜本質的理解。我們將從三個方向來探索這個研究問題。首先,我們通過結構性啟動(structural priming)這一心理語言學中的關鍵范式,探索抽象語言信息的存在,這一范式可以揭示人類語言處理中的語法結構。接下來,我們考察各種語言現象,如形容詞順序和否定極性項目,并將模型對這些現象的理解與其訓練數據分布進行關聯。最后,我們引入一個受控的測試平臺,用于研究語言模型中的層級結構,采用各種逐步增加復雜度的合成語言,并考察特征交互在建模這些結構中的作用。我們的研究結果提供了關于語言模型表示中蘊含的語法知識的詳細描述,并為使用計算方法研究基本語言學問題提供了若干方向。
盡管許多多模態機器學習方法相較于單一感知的單模態方法在準確性上取得了優越的表現,但它們隱含地假設視覺模態總是清晰的。然而,這一假設在實際應用中容易被證偽,因為在日常環境中,視覺條件不佳的情況十分常見。我們發現,當視覺條件具有挑戰性時,現有的機器學習方法往往無法有效地利用其他模態的信息。因此,它們過度依賴視覺模態,因為在訓練數據中,視覺模態通常是可靠且信息豐富的。結果,當視覺條件變差并開始包含誤導性信息時,這些方法無法適應。此外,傳統的多模態模型從未學會在視覺挑戰場景中找到跨模態的對應關系。本論文旨在研究在視覺挑戰條件下的多模態學習。我們將在各個章節中分別探討每種變化,并提出我們的解決方案,以實現更有效的多模態表示學習。最后,在論文的最后一章,我們將提供一個簡要的結論。我們希望我們的研究能激發更多關于視覺挑戰條件下多模態學習的研究。
//hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19
自從神經網絡在人工智能領域成為主導技術以來,一個研究子領域已經出現,試圖理解它們的內部工作機制。在這個子領域中的一種標準方法是主要理解神經網絡如何表征人類可理解的特征。另一種較少探索的可能性是將它們理解為多步驟的計算機程序。這似乎需要一種模塊化的前提:網絡的不同部分需要足夠獨立地運作,以便能夠單獨理解,并實現不同的可解釋子程序。
為了在神經網絡內部找到模塊化結構,我們最初使用圖形聚類工具。如果一個網絡可以被劃分為具有強內部連接但外部連接弱的神經元群組,那么這個網絡在這個意義上是可聚類的。我們發現,訓練過的神經網絡通常比隨機初始化的網絡更具聚類性,而且常常相對于具有與訓練網絡相同權重分布的隨機網絡具有聚類性。我們研究促進聚類性的因素,并且還開發了針對這一目的的新方法。
為了使模塊化對理解神經網絡有價值,它需要具有某種功能相關性。我們關注的功能相關性類型是功能的局部專業化。一個神經網絡在其計算圖的部分可以被抽象地表示為執行某些與整體任務相關的可理解子任務的程度上局部專業化。我們提出了兩個局部專業化的代理:重要性,反映了神經元集合對網絡性能的價值;以及一致性,反映了它們的神經元與輸入特征的關聯一致性。然后,我們使用通常用來解釋單個神經元的技術來操作這些代理,將它們應用于由圖聚類算法產生的神經元組。我們的結果顯示,聚類成功地找到了重要且一致的神經元組,盡管并非所有發現的神經元組都是這樣。我們最后通過一個案例研究來總結,使用更標準的可解釋性工具,這些工具旨在理解激活空間中方向所代表的特征,將它們應用于對CoinRun游戲的獎勵函數訓練的神經網絡的分析。
盡管我們的網絡實現了低測試損失,但應用可解釋性工具顯示,網絡沒有充分代表相關特征,并且在分布外嚴重誤預測獎勵。即便如此,這些工具并沒有清晰地揭示網絡實際上正在執行的計算。這不僅說明了需要更好的可解釋性工具來理解泛化行為的必要性,而且也激發了這種需求:如果我們將這些網絡視為通過強化學習訓練的政策的“動機系統”的模型,那么結論是這樣的網絡可能在更豐富的環境中追求錯誤的目標,表明需要可解釋性技術來闡明泛化行為。
隨著神經網絡在諸如刑事司法、醫療等高風險領域的應用日益增多,了解這些模型做出決策的原因變得越來越重要。例如,開發工具來分析模型是否在其未來的決策中延續了它們在訓練數據中發現的有害的人口不平等至關重要。然而,神經網絡通常需要大量訓練數據集,具有“黑箱”決策特性,并且重新訓練成本高昂,這增加了這個問題的難度。本文考慮三個問題。問題一)輸入的各個元素與模型決策之間的關系是什么?問題二)單個訓練點與模型決策之間的關系是什么。最后問題三)在多大程度上存在(有效的)近似方法,能夠讓實踐者預測模型性能在不同訓練數據或不同訓練協議下的變化。
第一部分針對掩蔽顯著性方法回答問題一。這些方法隱含地假設圖像中的灰色像素是“無信息的”。我們通過實驗發現,這一假設可能并非總是正確的,并定義了“健全性”,它衡量了顯著性圖的一種理想屬性。第二部分在影響函數的背景下討論問題二和問題三,這些函數旨在近似移除一個訓練點對模型決策的影響。我們使用諧波分析來檢查一種特定的影響方法,即數據模型,并發現數據模型的系數與目標函數的傅里葉系數之間存在關系。最后,第三部分在測試數據的背景下討論問題三。首先,我們評估是否需要保留外部測試數據來近似元學習的外部循環,或者回收訓練數據是否構成了一個足夠的近似。我們發現保留的測試數據很重要,因為它學習到的表示是低秩的。然后,受到PGDL競賽的啟發,我們調查了盡管眾所周知的限制,生成對抗網絡(GAN)生成的數據是否可以用來近似泛化性能,當沒有測試或驗證集可用時,并發現它們可以做到這一點。
在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。
我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。
總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知。
隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。
一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。
場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。
本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。
隨著社會技術化程度的不斷提升,我們使用機器執行越來越復雜的任務,這些任務范圍從駕駛輔助、視頻會議到探索行星。場景表示,即如何將感官數據轉換為環境的緊湊描述,是使這些系統成功并確保安全的基本屬性。一個有前景的方法是開發基于學習的系統,這些系統能夠根據觀察自我調整。
事實上,近年來深度學習已經徹底改變了計算機視覺領域。特別是更好的模型架構、大量的訓練數據以及更強大的計算設備使得深度學習系統具有前所未有的性能,并且它們現在在許多基準測試中設定了最新技術水平,這些測試范圍從圖像分類、物體檢測到語義分割。盡管這些成功,這些系統的運作方式仍然與人類認知有本質上的不同。特別是,大多數方法在2D領域操作,而人類理解圖像是三維世界的投影。此外,它們通常不遵循場景的組合理解,這對人類推理來說是基本的。在這篇論文中,我們的目標是開發場景表示,使自主代理能夠在復雜環境中穩定、安全地導航和行動,同時在3D中進行組合推理。為此,我們首先提出了一種用于基于深度學習的三維重建和生成建模的新型輸出表示。
我們發現,與以前的表示方法相比,我們基于神經場的方法不需要對3D空間進行離散化,就可以以恒定的內存占用實現任意分辨率的重建。接下來,我們開發了一種可微渲染技術,用于從2D觀察中推斷出這些基于神經場的3D形狀和紋理表示,并發現這使我們能夠擴展到更復雜、現實世界的場景。隨后,我們將我們的新型3D形狀表示與空間和時間上連續的矢量場相結合,以模擬運動中的非剛性形狀。我們觀察到,我們的新型4D表示可用于各種判別和生成任務,范圍從4D重建到4D插值,再到運動轉移。最后,我們開發了一種以對象為中心的生成模型,該模型可以以組合方式生成3D場景,并且允許對生成的場景進行逼真的渲染。我們發現,我們的模型不僅提高了圖像保真度,而且相比之前的工作,在僅從原始、未擺放的圖像集合中訓練的情況下,實現了更可控的場景生成和圖像合成。
人工智能,尤其是機器學習的子領域,已經看到了向數據驅動的模型的范式轉變,這些模型從數據中學習并適應。這在自然語言處理和計算機視覺等多個領域都帶來了前所未有的進步,很大程度上歸因于深度學習,一種特殊的機器學習模型。深度學習通過一系列的計算層從原始數據中學習相關特征,從而在某種程度上超越了傳統方法。
本論文通過研究這些模型的結構與它們處理的數據中的固有結構之間的關系,探討了深度學習的理論基礎。我們特別提問:是什么驅動了深度學習算法的效能,并使它們擊敗了所謂的維度詛咒——即由于數據點與增加的維數呈指數級增加的需要而在高維中通常學習函數的困難?是它們利用數據結構來學習數據的相關表示的能力嗎?不同的結構是如何利用不同的數據結構的?為了解答這些問題,我們提出數據的結構可以通過其不變性——即與手頭的任務無關的方面來有效地表征。
我們的方法對深度學習采取了一種實證方法,將實驗研究與物理啟發的玩具模型相結合。這些簡化的模型使我們能夠研究和解釋我們在深度學習系統中觀察到的復雜行為,提供對它們內部工作的洞察,目標是彌合理論與實踐之間的差距。具體地說,我們計算淺層全連接網絡的嚴格泛化誤差率,表明它們通過學習線性不變性(即對輸入空間中無關的線性方向變得不敏感)能夠表現良好。但是,我們表明這些網絡結構在學習非線性不變性(如旋轉不變性或輸入的平滑變形的不變性)時可能表現不佳。這一結果說明,如果所選擇的架構不適合某個任務,它可能會過度擬合,使得表示不被學習的核方法可能成為更好的選擇。
然而,現代的架構,如卷積神經網絡,特別適合學習真實數據中存在的非線性不變性。例如,在圖像分類中,物體或特征的確切位置可能對于識別它并不重要。這一屬性導致了對小的變形的不變性。我們的研究結果表明,對變形更為不變的神經網絡往往性能更高,突顯了利用這種不變性的重要性。
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html