在本論文中,我們概述了智能體如何利用其預訓練知識,在特定環境中高效運行,并聚焦于感知、認知與元認知三個核心方面。第 1 章引入了研究主題,并確立了**情境化智能體運行(situated agent operation)的概念。 第 2 章與第 3 章探討了智能體的感知能力。第 2 章研究了智能體如何利用常識來解釋不完整或模糊的感知數據,從而實現智能的導航與探索。第 3 章進一步分析了智能體在面臨新環境背景時,如何運用物理常識調整其感知策略。 第 4 章與第 5 章評估了智能體在理解與執行情境化語言指令(situated language instructions)**方面的認知能力。第 4 章聚焦于具身對話(embodied dialogue),探討了由不同訓練機制構建的智能體在動態對話場景中如何處理與響應指令。第 5 章則研究了智能體在執行情境化指令時面臨的挑戰,特別是在用戶意圖模糊或信息不完整的情況下。 第 6 章關注元認知,通過提出一個訓練框架,使智能體能夠識別自身能力的局限性,并在合適的時機主動請求幫助。我們將元認知式請求幫助的問題形式化為一個強化學習任務,同時優化獎勵函數與請求幫助的策略。
物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。
人類在日常生活中通過多種感官與環境互動:視覺用于感知和理解環境,身體意識用于定位,語言用于交流和語義理解,觸覺則用于接觸反饋。同樣地,機器人在面對非結構化的真實世界環境中的操作任務時,也需要具備類似的多感官整合能力。
本論文探討了如何融合多種感知輸入,以提升機器人在現實世界中操縱物體的能力。通過整合視覺(為機器人提供詳細的空間信息)、本體感覺(提供身體位置反饋)、語言(理解并執行指令)以及觸覺(提供精細接觸信息),我開發了安全、高效且具有良好泛化能力的機器人系統。 論文中的研究貢獻涵蓋多個方向,包括:感知-運動控制、運動規劃、模仿學習、機械搜索、富接觸操作任務以及多模態對齊,整體目標是提升機器人在跨模態感知、推理與行動能力,突破單一感知模態的局限。 研究首先從視覺與本體感知的融合出發,以增強機器人在分布偏移條件下的控制魯棒性,并通過基于擴散模型的軌跡生成方法提升規劃效率。接著,提出了一種基于**“下一個 token 預測”機制的上下文模仿學習方法**,使機器人能通過 prompt(提示)快速適應新任務。 隨后,論文將視覺與語言的融合引入到遮擋物體的機械搜索與通用操作任務中。借助大型視覺-語言模型(Vision-Language Models),實現了更強的語義推理能力,從而獲得更有效的操作策略。 進一步地,我研究了觸覺傳感在高精度操作任務(如工業插接與布料處理)中的應用,提出了自監督策略學習與視覺-觸覺預訓練方法,顯著提升了任務成功率。 最后,我構建了一個新的對齊視覺、觸覺與語言的多模態數據集,以支持機器人領域的多模態學習研究。 通過理論分析、仿真實驗與真實機器人實驗,本論文全面展示了多模態感知如何增強機器人操作任務中的泛化能力、適應性與安全性。 //www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html
本論文提出了若干旨在提升視覺生成的方法,重點圍繞計算機視覺系統中的可控性與高效性展開。在深入探討視覺生成領域之前,我們首先介紹 MaskCLIP,它高效地利用了預訓練的視覺-語言模型,應用于開放詞匯圖像分割任務。隨后,我們將討論 DiffusionRig、PatchDM和 Gen2Res,以展示我們在可控且高效圖像生成方面取得的進展。綜上所述,本論文所展示的研究工作致力于構建既可控又高效的視覺系統,從而促進視覺生成與理解能力的雙重提升。
第二章引入了一個新穎的任務:開放詞匯通用圖像分割(open-vocabulary universal image segmentation),其目標是在推理階段對任意描述類別執行語義分割、實例分割和全景分割。我們首先基于預訓練的 CLIP 模型構建了一個基線系統,并提出了 MaskCLIP——一種基于 Transformer 的方法,采用 MaskCLIP 視覺編碼器將掩碼 token 融合進預訓練的 ViT-CLIP 模型中。該設計在無需計算密集型的師生訓練框架下,有效利用 CLIP 的密集特征,實現了分割和類別預測。 第三章介紹了用于個性化面部外觀編輯的 DiffusionRig。該方法基于從真實環境圖像中估計得到的粗略三維人臉模型,使用條件擴散模型將簡單的 CGI 渲染映射為逼真的個人圖像。DiffusionRig 采用兩階段訓練策略:首先在大規模數據集上學習通用的面部先驗,然后在少量個體圖像上進行微調。該策略能穩健地編輯面部特征,同時保留個體身份與高頻細節。 第四章介紹了 Patch-DM,一種去噪擴散模型,在訓練過程中使用小圖像塊(如 64×64)生成高分辨率圖像(如 1024×512)。該方法通過一種新穎的特征拼接策略,緩解了基于圖像塊合成中常見的邊界偽影問題。具體地,該策略通過裁剪并組合鄰近圖像塊中重疊的特征,實現了對偏移圖像塊的無縫預測。 第五章提出了一種將預訓練去噪擴散模型適配至圖像修復任務的方法。該方法通過向退化圖像中添加噪聲,然后利用預訓練模型進行去噪,從而完成圖像修復。通過在選定的錨圖像上微調模型,以保持輸入圖像的特征,該受限生成空間確保了在保持原始身份與整體質量的同時,獲得高質量的修復結果。
將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。
首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。
接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。
最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。
隨著神經網絡語言模型的廣泛應用,深入理解其內部運行機制的需求日益迫切。本論文旨在揭示大型語言模型(LLMs)內部潛在計算規律,為未來強大AI系統的監測、控制和對齊奠定理論基礎。基于開源語言模型,我們重點探索了四個關鍵領域:神經元層面的概念編碼、模型初始化間學習特征的普適性、時空表征的存在性,以及基礎動力系統建模。第二章改進了最優稀疏分類方法在神經網絡探測中的應用,通過這種稀疏探測技術,我們在全尺寸LLMs中同時發現了單語義神經元(專一編碼單一概念)和多語義神經元(疊加表征多個概念),驗證了簡化模型的預測。第三章通過計算大數據集上神經元激活的成對相關性,系統識別并分類了不同模型初始化間的普適性神經元。研究發現1-5%的神經元具有普適性特征,這些神經元往往具有明確的可解釋性,我們將其劃分為不同的神經元家族。為探究時空表征特性,第四章通過精心構建的現實世界實體數據集分析LLMs激活模式。研究發現模型能夠學習多尺度的線性時空表征,這些表征對提示變化具有魯棒性,且在不同實體類型間保持統一。我們識別出專門編碼空間坐標的"空間神經元"和時間坐標的"時間神經元"。第五章采用最優稀疏回歸技術改進了非線性動力系統稀疏識別(SINDy)框架,在典型微分系統中實現了樣本效率和支持恢復率的提升。基于此改進,我們進一步研究了LLMs在上下文學習中表征動力系統的能力,發現了跟蹤底層系統狀態的內部表征。
對比學習在機器學習應用中的關鍵地位:進展、應用與優化對比學習作為一種重要的機器學習方法論,提供了一種基于成對比較的數據解釋和模型訓練視角。本論文全面探討了對比學習模型,強調其在現實場景中的發展、應用及優化。論文分為兩個主要部分:第一部分探討了對比學習在多個領域的實際應用,如作者身份鑒定、驗證和行人重識別;第二部分則聚焦于方法論上的進展,旨在提升模型的效能與適應性。第一部分:本論文系統評估了對比學習技術在多個領域的應用,重點分析了其在現實環境中的優勢和局限性。通過詳細的案例研究,包括為越野摩托車賽設計的照片搜索系統的實現,本文評估了在復雜條件下對比模型的適應性和有效性。研究結果強調了對比學習模型的深刻理解和戰略性應用的必要性,尤其是在訓練過程中對數據對(pairs)選擇的重要性。第二部分:論文深入探討了克服對比學習固有挑戰的創新方法。提出了新的算法和框架,旨在優化學習過程,尤其是處理弱標簽數據和優化每個樣本對整體損失的影響(即數據對的選擇)。這些方法論的提出旨在彌合理論原則與實際應用之間的鴻溝,推動更強大、高效且多功能的機器學習系統的構建。本文的研究成果生成了高性能的作者身份識別和行人重識別模型,常常實現了新的技術前沿。此外,基于這些模型和應用的分析,提出了兩種增強模型訓練的方法:一種是自動調整數據點在特定訓練階段對模型影響的方法;另一種方法是通過對比擴展到多實例學習框架,促進弱標簽數據之間的對比訓練。結合這些研究發現,本文為對比學習的動態機制提供了洞見,并提出了切實可行的解決方案,旨在拓展其在現實世界中的應用范圍。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
這篇論文重新審視了深度學習的基本組成部分,并評估了它們在醫學圖像分析中的應用。論文指出了深度學習在這一領域的三個主要挑戰:專家知識的整合、未標記數據的利用以及預測不確定性的估計。論文結構分為幾部分,分別解決這些挑戰。
在第一部分中,論文介紹了一種通過旋轉反射等變性(roto-reflective equivariance)來整合專家知識的新型深度學習模型,以提高醫學成像任務的準確性和魯棒性,特別是在組織病理學切片中檢測轉移組織的任務中。所提出的模型優于傳統的卷積神經網絡(CNN)架構,并表現出對輸入擾動的魯棒性。接下來,論文探討了如何通過提出PCam數據集(源于Camelyon16挑戰賽)來激勵深度學習社區關注現實的醫學問題。PCam結構類似于常見的深度學習基準,并證明在該數據集上的改進可以轉化為在更大Camelyon16基準上的改進。
第二部分探討了通過對比預測編碼(Contrastive Predictive Coding,CPC)進行自監督表示學習的好處,并提出了對比擾動預測編碼(Contrastive Perturbative Predictive Coding,C2PC),通過引入特定的醫學圖像增強來增強CPC的性能。
論文的第三部分解決了預測不確定性的估計挑戰,這對于高風險醫療決策至關重要。它引入了一種新的變分推理方法,該方法利用了多項分布在量化潛在變量上的特性。與現有方法相比,所提出的方法在不確定性估計和風險評估方面表現出競爭力。
論文總結了通過解決這些挑戰,深度學習可以更好地適用于醫學成像任務。它證明了專家知識可以有效地整合到深度學習模型中,利用未標記數據通過自監督學習可以提高模型性能,且通過更靈活的變分推理方法可以改進預測不確定性。 總之,論文展示了深度學習在醫學圖像分析中的潛力,并提供了應對關鍵挑戰的有效方法,為將來在醫療領域的應用奠定了堅實的基礎。
準確診斷疾病和確定最有效的治療方法是一個歷史性挑戰。在古代,困難的病例常常被歸因于超自然現象,惡魔和神的干預是古代社會對疾病的普遍解釋,并據此選擇治療方法。隨著科學方法的興起和醫學的進步,醫生現在能夠利用不斷增長的科學知識、高證據標準的干預措施和各種現代診斷工具,做出更加明智的治療決策。
診斷疾病和預測治療結果并不是火箭科學;它遠比火箭科學復雜。挑戰在于醫學決策中的每一個方面都充滿不確定性。雖然我們有關于重力和火箭發動機的確定性模型,但人體仍未完全被理解。直到今天,仍然有新的器官被發現,對治療產生影響。關于檢測和治療結果的科學證據稀少且偏向特定人群。干預研究存在生存偏差,隨機對照試驗傾向于有利于適合雙盲研究的治療方法。人類的異質性和許多診斷工具相關的人類痛苦和經濟成本進一步加劇了這種復雜性。此外,這一領域在不斷演變,以前被視為現代治療頂峰的干預措施現在受到質疑。在這種不確定性的迷霧中進行決策,可能需要超越人類手動能力的智能水平。
現代醫學影像的出現進一步加劇了這一問題。通過X射線、超聲、計算機斷層掃描(CT)和磁共振成像(MRI)等技術,以及病理圖像數字化的進步,臨床醫生可以獲得患者的海量信息。結果,醫生在診斷疾病和預測治療結果時,被大量需要考慮的數據所淹沒。處理這些方法生成的不熟悉圖像的復雜性導致了專門職業的出現,如放射科醫生和病理科醫生。這些專家必須專注于密集的數據流,以發現異常和評估風險。為了標準化見解,人類專家依賴于諸如Gleason評分等主觀量表,這對治療的侵入性有重大影響,但其評價者間的變異性驚人。此外,引入更多人類參與決策過程會帶來溝通和交接方面的挑戰。一旦診斷完成,專家的建議與實際治療結果之間幾乎沒有反饋循環。
計算機輔助診斷(CAD)的前景在于,計算機具有無限的精力、無限的注意力,而且不會在工作時喝醉。軟件可以復制并不斷改進,錯誤行為可以重演、研究和糾正。反饋循環可以跨越數月,將治療結果作為早期識別模型的指導信號。這是一條改進醫學決策的有前途的道路。 盡管醫學診斷過程包含許多方面,全面涵蓋整個過程是一個挑戰。在本論文中,我們專注于計算機輔助診斷在醫學圖像解釋中的挑戰。這是開發一個綜合系統的關鍵步驟,該系統能夠消化來自醫學診斷過程各個方面的信息,并沿途提供建議。
將醫學圖像分析領域的專業知識提煉為算法一直很困難。盡管許多博士學位持有人接受了這一挑戰,但根據直覺和經過數百年研究和實踐精心打磨的理論推導規則幾乎是不可能的。幸運的是,機器學習為基于規則的模型設計提供了一個替代方案。該領域提供了經過驗證的方法,這些方法采用專家注釋的示例,并得出旨在捕捉這些注釋背后的基本原則的模型。然而,醫學影像數據特別龐大且密集,傳統的機器學習方法依賴于手工制作的特征提取,將數據轉化為方法能夠處理的數字。這種手工制作特征的過程幾乎與設計規則同樣困難。
深度學習的出現給醫學圖像分析領域帶來了巨大的變化。通過結合大型隨機初始化的特征提取器和隨機梯度下降來遍歷搜索空間,機器學習模型現在可以直接在原始密集圖像上進行訓練。這一方法在2012年的ImageNet挑戰賽中被廣泛推廣,當時深度學習在分類準確性上優于傳統的機器學習方法。從那時起,大多數醫學圖像分析研究社區都看到了深度學習作為主導范式的轉變。
深度學習在醫學圖像分析中的有效性為未來帶來了令人鼓舞的愿景。深度學習模型可以訓練來自世界各地的數據,而不是由專家使用來自學術醫院的小數據集設計的手工模型,這些數據集僅捕捉到世界各地人口的一小部分。此外,深度學習模型可以在初步診斷數月后從錯誤中學習,這種反饋循環在人類專家中很少發生。雖然通常被認為是黑箱,但一組專家類似于飛機失事調查員,可以精確再現模型出錯時的狀態,并可以使用各種工具提供內省和指導,以便在未來減輕類似錯誤。此外,深度學習模型的免費復制意味著專業知識可以在全球范圍內應用。這為缺乏高質量醫學見解的社區帶來了獲取高質量醫學見解的機會。
深度學習模型可以通過消除對專門知識的需求來改變初級醫療的提供方式。這使得初級醫生能夠直接將醫學掃描轉化為可操作的見解,從而減少溝通負擔并減少因交接而導致的錯誤。最后,當一種新疾病威脅世界時,這些模型可以迅速更新以納入新的診斷,為全球健康危機提供靈活的應對措施。
盡管深度學習非常有效,但它是以經驗方式開發的——一些人將這一過程等同于煉金術——并且仍然缺乏基本的第一性原理的支持。雖然這確實帶來了巨大的成功和進步,但推動年復一年改進的主要基準與醫學圖像分析中的問題有顯著差異。這些基準通常是自然圖像中的單個對象檢測,側重于分類準確性,忽略了醫學圖像分析的細微差別。這并不是說深度學習在這一領域沒有表現出它的價值。它在有影響力的醫學圖像基準上取得了巨大的成功。例如,Gulshan等人在2016年展示了一種深度學習模型,能夠在視網膜眼底照片中檢測糖尿病性視網膜病變,其性能可與一組認證的眼科醫生相媲美。Esteva等人在2017年展示了(接近)人類專家水平的皮膚癌分類性能。Wang等人在2016年展示了在從前哨淋巴結活檢的全切片圖像中識別轉移性乳腺癌方面的強大性能。 然而,對于如此敏感的醫學決策任務,深度學習模型的失敗模式不可忽視。數據偏差、類別不平衡、決策的可解釋性和可解釋性缺乏、輸入模式的魯棒性和標簽分歧敏感性等問題在醫學領域需要特別關注。因此,有必要在醫學圖像分析的視角下重新評估深度學習的現狀,以發現進一步改進的空間并解決現有的不足。
構建能與世界互動的自主代理是人工智能(AI)的核心。本論文引入了“語言代理”,這是一類新的代理,它們利用大型語言模型(LLMs)進行推理以采取行動,標志著與傳統通過廣泛規則設計或學習的代理的一種轉變。它分為三個部分開發:
第一部分通過介紹基于與大規模、真實世界計算環境(如互聯網或代碼接口)的互動的一組新的AI問題和基準,激發了對語言代理的需求。這些“數字自動化”任務為減輕繁瑣的勞動和改善我們的生活提供了巨大的價值,但對于以前的代理或LLM方法在開放式自然語言和長期決策方面提出了重大挑戰,這需要新的方法論。 第二部分為語言代理奠定了方法論基礎,其核心思想是應用LLM推理來實現多功能和可泛化的代理行動和計劃,這也通過外部反饋和內部控制增強了LLM的推理,使其更加扎根和深思熟慮。我們展示了語言代理能解決多種語言和代理任務(特別是在第一部分提出的數字自動化任務),并在先前基于LLM的方法和傳統代理上取得了顯著的改進。 第三部分綜合了第一部分和第二部分的洞察,并概述了一個有原則的語言代理框架。該框架提供了模塊化抽象,以組織各種基于LLM的方法作為代理,理解它們與人類認知的差距,并激發并開發新方法,朝向通用目的的自主代理。從基礎的經驗任務和方法到統一的概念框架,本論文建立了語言代理作為AI研究前沿的一個獨特且嚴謹定義的領域的研究。
構建能與各種環境互動的自主代理是人工智能(AI)的核心問題[266]。從高層次上來說,這篇論文提出了一種全新的代理類型和一種全新的環境類型(圖1.1): ? 現有的代理要么主要遵循特定領域的規則來行動(基于規則的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定領域數據上進行訓練以行動(基于學習的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本論文介紹了語言代理,這些代理利用語言模型進行推理以行動,這減輕了構建傳統代理所需的密集型特定領域努力,并且在各種領域中實現了少量樣本的泛化。這代表了構建通用自主代理目標的一個重大步驟。 ? 現有代理要么與人類或物理世界互動(實用但不可擴展),要么與游戲或模擬互動(可擴展但不實用)。這篇論文引入了數字自動化,一種新型任務,其中代理與大規模真實世界數字環境(如互聯網)互動。這為代理在開放式行動和長期視野上做出決策提供了新的挑戰,同時也提供了巨大的機會來減輕我們的數字勞動并發現新知識。 傳統代理和環境有什么問題?在傳統基于規則或基于學習的代理可能也能感知和用語言行動的情況下,“語言代理”的定義是什么?為什么我們必須轉向大規模真實世界數字環境來進一步發展,而不是使用傳統的代理測試床如游戲?我將簡要使用文本冒險游戲領域來闡述這些點并激發論文的其余部分。
這篇論文的目標是通過交互學習來提高AI代理的知識表示能力,使其能夠有效地規劃并適應環境中的變化。論文的貢獻橫跨三個主題:學習和利用選擇性注意力、時間抽象和可供性;目標是獲得促進規劃、超出分布泛化和快速適應的知識表示。 本工作的一個中心假設是,橋接狀態和行動對于強化學習(RL)代理發展廣泛智能行為是關鍵。我們首先關注利用計算模型來模擬人類視覺注意力,然后引入興趣函數來學習專業化的、可復用的技能,以便快速適應和泛化到新的獎勵動態中。接著,我們為RL代理發展了一個可供性的理論,并形式化了時間抽象的部分選項模型,旨在加快規劃和更好的泛化。 展望持續性RL的目標,我們回顧了這個問題的現有定義,提出了一種方法的分類,并提供了文獻中使用的基準和理解代理性能的重要指標的概述。最后,我們研究了在線元強化學習設置下模型不確定性下的規劃問題,并展示了規劃視界依賴于任務數量、每個任務的樣本數量和底層任務相似性的概念。
這篇論文的目標是為發展能夠處理所觀察數據(“看”)、學習表示知識(“思”)并利用獲得的信息進行規劃(“行”)的人工智能(AI)系統貢獻力量,這些系統具有隨時間適應變化的能力。這類代理的應用包括:通過表示為時間上抽象的行為(跨多個時間步發生,例如“螺絲緊固件-一起”)的自動化倉庫裝配、在日常任務中為人類提供個人助理,這些任務需要抽象行動(例如“開門”)、通過跨多個時間步的推理來促進各種面向用戶服務的自動化控制,如網頁導航(例如“預訂票”)、輔助技術,能夠在不同情況下確定行動的可能性(即可供性),以在變化的環境中實現高級目標,如用于醫院中的機器人導航等。 在這篇論文中,我們在強化學習(RL)(Sutton和Barto,1998b)的背景下追求這一目標,RL是一個框架,它使得一個交互式的決策代理能夠學習如何在處理不確定性和有限的環境數據時實現目標。RL范式源自于實驗心理學中的動物學習,并從神經科學中汲取了想法。例如,研究人員提供了關于人類能夠選擇性地關注視覺輸入的某些部分(Borji等,2012;Judd等,2009)、收集相關信息,并順序地結合觀察結果以在不同的時間尺度上構建表示(Hayhoe和Ballard,2005;Zhang等,2019b),這可以指導感知和行動(Dayan等,2000;Kahneman,1973)。值得注意的是,在所有這些案例中,對狀態和行動的良好理解都是至關重要的。為了提高RL代理在現實世界問題中的適用性和可擴展性,關鍵是要在狀態和行動之間架起橋梁,以促進快速適應、健壯的泛化以及更高效地學習模型的更快規劃。 雖然在推進RL的最新技術方面取得了巨大進展(Silver等,2016;Vinyals等,2019),但大多數當前方法缺乏對世界的基本理解以及與人類相比,持續學習和適應的能力(Mitchell,2021)。在這篇論文中,我們認為,選擇性注意、時間抽象和可供性都是使代理不僅能夠獲得技能,而且能夠在非平穩性面前繼續適應和學習的必要組成部分。
為了激發選擇性注意的需求,我們首先探索知道在圖像中何處尋找(“看”)是否允許RL代理在執行任務時對干擾因素保持魯棒性,尤其是面對非平穩性時。此外,大量證據表明,使人類能夠適應變化并隨時間改進的核心要素包括跨多個時間尺度使用抽象表示(Collins, 2018; Eckstein和Collins, 2018)、選擇性時間注意(Zhang等,2019b)和層次化組織的行為(Botvinick等,2009)。我們通過定義具有興趣函數的時間抽象行動為RL代理實現這一直覺;我們的實驗顯示,專業化是學習可重用、可解釋技能的關鍵,這些技能使RL代理能夠快速適應獎勵中的非平穩性。 用于形式化注意力概念以建立抽象的自然框架是可供性理論(Gibson, 1977)。在心理學文獻中(Chemero, 2003; Heft, 1989),可供性被視為代理-環境互動的屬性。在這篇論文中,我們為RL代理定義了可供性,并展示了知道可供性的模型可以導致更快的規劃和更好的泛化。此外,具身認知和感知的理論表明,人類能夠以不同時間尺度的內部模型的形式表示知識(Pezzulo和Cisek, 2016)。我們以時間抽象的部分模型的形式闡述了這一洞見,這些模型利用了時間抽象和可供性,并且從理論上和實證上展示了它們可以提高學習和規劃的效率。 最后,為了更接近現實世界的設置,我們研究了在線學習問題的表述,沒有關于任務之間相似性或代理可能遇到的任務數量的先驗知識。隨著代理對其環境的基本結構獲得更多知識,它應該能夠以更長的規劃視界和更高的確定性提前規劃。我們將規劃與在線學習之間的鴻溝橋接起來,以顯示跨任務的元學習模型可以直接導致有效規劃視界的適應。 總之,這篇論文的重點是通過超越狀態抽象的知識表示來橋接狀態和行動,并共同考慮行為(動作),朝著使持續RL代理能力成為目標。這篇論文提出了學習專業化時間抽象表示的新方法,將學習植根于直觀的可供性理論,并學習具有不斷增長的視界的規劃以實現持續適應。
為了發展廣泛的智能行為,這項工作的中心假設是,橋接狀態和行動對于表示知識、利用它進行規劃并能夠隨時間適應環境變化至關重要。在這篇論文中,我們展示了如何通過選擇性注意在原始行為和時間上抽象的行為的表示中橋接狀態和行動,以快速適應非平穩性,并引入了表示世界動態的新方法,以促進更快的規劃和更好的泛化。最后,我們探索在線學習設置中的規劃,以顯示元學習一個世界模型可以進一步改進理論和實證結果,導致能夠規劃越來越長視界的代理。圖1.1提供了本論文的概述。