亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著以 GPT-4 和 OpenAI Deep Research 為代表的大規模語言模型(LLMs)及具備推理能力的 AI 智能體呈指數級發展,通用人工智能(AGI)的實現時間表被大幅提前,其能力正以前所未有的速度擴展。在我們站在有望于不遠將來實現 AGI 的門檻之際,對齊問題——即確保這些系統保持真實、具備復雜推理能力,并符合人類價值觀——正變得愈發關鍵。

本論文提出了一系列創新方法,旨在應對面向超人類能力系統的基本對齊挑戰。不同于傳統范式(如監督微調 SFT 和基于人類反饋的強化學習 RLHF),我們提出了一種基于原則驅動的對齊方法(Principle-Driven Alignment),并在 AI 反饋強化學習(RLAIF)框架中實現了可擴展的對齊機制。該方法在模型能力擴展的條件下展現出對系統可靠性顯著的提升。

為了減少生成內容中的事實性錯誤,我們引入了復述增強(Recitation Augmentation)事實增強型 RLHF(Factually Augmented RLHF),這兩種方法在大型語言模型和多模態模型中表現出強健的效果。此外,我們提出了**由易到難泛化(Easy-to-Hard Generalization)**框架,該方法基于“模型在評估解法方面通常比生成更可靠”的洞見,系統性地將簡單問題訓練出的獎勵模型應用于復雜推理任務,從而實現高質量監督。

同時,我們還提出了Lean-STaR 框架,該方法通過引導模型在生成正式解答前先進行非正式思考,有效提升了模型在定理證明中的表現。這一過程展示了“思維鏈推理(Chain-of-Thought Reasoning)”在增強自主決策能力及提高模型推理透明度方面的潛力。 本研究在 AI 發展的關鍵方向上作出了重要貢獻,建立了在系統能力持續提升背景下維護對齊性的嚴謹理論與實踐框架。實驗結果表明,這些方法在保持模型性能可靠性的同時,能夠有效對齊 AI 系統與基本人類價值觀。這些框架為構建可擴展的對齊解決方案奠定了堅實基礎,將深刻影響未來先進 AI 系統的設計與發展。

引言

人工智能領域正處于其演進過程中的關鍵節點,大規模語言模型(LLMs)與具備推理能力的 AI 智能體的指數級發展標志著這一轉折點。GPT-4 和 OpenAI Deep Research 等系統的出現展現了前所未有的理解、推理與決策能力,加速了通用人工智能(Artificial General Intelligence, AGI)的發展進程 [23, 36, 140, 141, 191]。隨著這些系統在多領域中展現出日益復雜的能力,一個關鍵挑戰也隨之浮現:在能力持續快速擴展的背景下,如何確保 AI 系統保持真實、具備穩健的決策能力,并與人類價值觀保持根本一致。 傳統的對齊方法,主要包括監督微調(Supervised Fine-Tuning, SFT)和基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF),在應對 AI 能力擴展方面面臨顯著限制 [144, 178]。其核心問題在于對人類監督與標注的高度依賴——而這種依賴,在面向可能在多個領域超越人類水平的系統時,尤為突出 [24]。這一局限凸顯出迫切需要能夠隨著 AI 能力增長而有效擴展的新型對齊方法。 本論文提出了多個新穎的框架,以在 AI 能力接近甚至超過人類水平時維持系統的對齊性。我們的研究超越了傳統的人類監督范式 [11, 16, 17, 38, 141, 144, 146],在對齊的多個維度上引入了可擴展的解決方案。 * 在第 2 章中,我們展示了基于原則驅動的上下文內對齊(principle-driven in-context alignment)在性能上可與傳統的 SFT/RLHF 方法相媲美; * 第 3 章確立了 AI 反饋強化學習(Reinforcement Learning from AI Feedback, RLAIF)作為 RLHF 的可行替代方案,提升了對齊性與模型能力; * 第 4 章開創性地將上下文對齊用于減少大語言模型輸出中的“幻覺”; * 第 5 章將該方法拓展至多模態領域,通過事實增強的獎勵模型提高生成真實性; * 第 6 章提出了由易到難泛化(Easy-to-Hard Generalization)框架,用于增強自主推理能力; * 第 7 章則發展了 LeanSTaR 框架,通過融合非正式的“思維鏈”推理過程,提升定理證明的表現。

隨著 AGI 潛在的出現,建立健全的對齊機制變得尤為關鍵。我們的研究預見了這一未來,提出的各類框架不僅應對了當前的對齊挑戰,還為在 AI 能力持續提升的背景下實現可控性和有益性奠定了基礎。這些工作旨在引導未來 AI 系統的發展方向,使其在超越人類能力的同時,始終與人類的價值觀和目標保持一致,從而推動人工智能技術在社會中安全且有益的發展。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

貝葉斯實驗設計(Bayesian Experimental Design, BED) 已成為一種優雅的形式化方法,用于理解在實驗代價不可忽視且高效設計至關重要的情境下,不同實驗設計的價值。值得注意的是,近年來,采用深度學習深度強化學習(D(R)L)技術來獲取有效實驗設計的研究興趣日益增長。驅動這些技術參與的主要動機在于:它們有潛力在無需高昂測試時計算成本的情況下,提供高信息量的實驗設計。 盡管近年來關于 D(R)L 在 BED 中的探索顯示出良好的初步前景,但本文的一個核心觀察是:訓練性能良好的 BED 策略仍然極具挑戰性。具體來說,我們發現即便在中等規模的問題上,BED 智能體也需要大量樣本才能學到有效的策略。我們將這種學習困難歸因于:在自適應實驗過程中,隨著推理的推進,后驗信念空間的爆炸性增長,這使得泛化變得極為困難。如何設計能高效應對這種信念爆炸的智能體,迄今在 BED 文獻中鮮有涉及,而這正是本文的主要研究重點。 我們展示了 BED 文獻中常用的標準狀態表示和網絡架構選擇——例如全連接網絡、卷積架構和 Transformers——在面對信念爆炸時并不適合高效學習。為此,我們提出利用等變網絡(equivariant networks),以利用 BED 任務中固有的對稱性與結構。我們為離散信念狀態連續信息集表示分別開發了專門的等變架構,并表明在這兩種場景中,這些網絡都顯著優于標準基線。值得注意的是,這些等變網絡還在測試時展現了對新的、更大規模 BED 域的穩健泛化能力——這是諸如 Transformers 等傳統架構所難以實現的。 我們的研究還揭示了 BED 等變性的一些結構性細節,可能為未來進一步提升樣本效率提供啟發。例如,除了全局等變性,我們還在更深的 BED 軌跡中觀察到豐富的子空間等變性。雖然我們的連續信息集模型并未直接利用這些更深層的子空間等變性,但我們展示了:在離散化信念空間的等變網絡中利用這些結構是直接可行的。 除 BED 場景之外,在論文的最后部分,我們還探討了如何訓練等變網絡,以在提供后驗預測不確定性時顯著提升樣本效率,相較以往的神經過程模型(Neural Process)。我們提出了圖 Transformer 神經過程(Graph Transformer Neural Process),作為一種針對平穩隨機過程的高效模型。實驗表明,它在樣本效率上遠超此前的神經過程模型,同時在測試時的分布偏移下也表現得更為穩健。 最后,我們概述了若干未來工作方向——其中最重要的包括:開發能同時保留全局等變性和離散模型所捕獲的更深子空間等變性的連續信息集網絡;克服連續 BED Q 函數景觀中的策略優化難題;以及開發更穩健的策略,用于在異質任務族之間攤銷 BED 策略。通過證明等變性在訓練高效 BED 策略中的重要性,本研究為將 BED 擴展到更復雜、更結構化的任務環境奠定了堅實基礎,在這些環境中,數據效率與泛化仍然是關鍵約束。

付費5元查看完整內容

在醫療、教育、交通運輸和網絡安全等高風險領域中,智能體需要做出一系列影響現實世界結果的決策。強化學習(Reinforcement Learning, RL)為通過經驗訓練此類智能體提供了一個自然且強大的框架。然而,盡管近年來取得了顯著進展,RL 的部署與應用仍面臨若干關鍵障礙。

首先,一個具備能力的 RL 智能體可能會以違背人類預期的方式行事。在協作或安全關鍵場景中,難以理解的行為可能會讓用戶感到困惑,甚至帶來新的風險。例如,一輛自動駕駛汽車若突然急轉以避免事故,即使它整體上比人類駕駛員更安全,也可能仍被認為不安全。這種感知風險會阻礙其被廣泛采用。因此,開發表現出直觀行為的智能體往往是實現人機協作與信任的前提。

其次,在安全關鍵和受監管的領域,解釋與審計 AI 決策的能力正日益成為正式要求。然而,大多數 RL 智能體依賴深度神經網絡做出決策,而這類模型對人類而言難以理解。因此,可解釋性決策成為一個亟待解決的重要問題。

第三,設計者通常難以完全明確地指定智能體的全部期望行為。因此,往往采用固定且簡化的獎勵函數來作為代理目標。如果該代理目標存在錯誤或不足,智能體可能會表現出與人類真實期望不一致的行為。因此,如何確保智能體與人類意圖、目標和價值觀保持一致,成為一項重要挑戰。

這些挑戰都具有一個共同主題:它們源于 RL 智能體在人類環境中與人類互動或代表人類做出決策。因此,AI 未來的一個關鍵問題是如何開發能夠與人良好協作的智能體。本論文提出了一種以人為中心的 RL 方法,旨在構建和探索具備可解釋性、直觀性和一致性的 AI 智能體。我們在智能體設計與評估上提出了若干技術進展,解決了由人類參與引出的關鍵研究問題。

為實現直觀行為,我們設計了第一個通過導航圖靈測試(navigation Turing test)的 RL 智能體,并研究了人們為何將其行為視為“類人”的原因。為實現可解釋性,我們提出并實現了針對 RL 的兩種新維度的可解釋性算法:在多智能體決策中保持透明性,以及減少對人工標注的依賴。圍繞行為一致性,我們提出了一種新的對齊問題表述(基于決策的對齊),并引入了一種能夠學習與人類偏好一致的決策策略的算法。同時,我們貢獻了用于訓練和評估智能體在模糊、不完全指定任務下行為一致性的基準與數據集。 最后,本論文討論了未來研究如何在此基礎上進一步推進,以實現能夠支持人類繁榮發展的 AI 智能體。

付費5元查看完整內容

在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。

在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。

//dspace.mit.edu/handle/1721.1/158802

付費5元查看完整內容

深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。

付費5元查看完整內容

受到人工智能(AI)在高成本和安全關鍵應用中的潛力,以及最近人工智能在我們日常生活中日益普及的影響,可信賴的人工智能作為一個廣泛的研究領域日益受到重視,涵蓋了可解釋性、魯棒性、可驗證安全、公平性、隱私、問責等主題。這在簡單、透明的模型與復雜、黑箱模型之間造成了一種緊張關系,前者具有固有的信任相關好處,而后者在許多任務上的表現則無與倫比。為了彌補這一差距,我們提出并研究了一種對數值數據的不確定解釋,并將其應用于基于樹的模型,形成了一種新型模糊決策樹,稱為核密度決策樹(KDDTs),它具有更好的性能、增強的可信特性和更廣泛的實用性,使得這些樹可以應用于更廣泛的領域。我們將本論文的貢獻分為三大支柱。

第一支柱是魯棒性和驗證。不確定解釋通過考慮數據中的不確定性,并更一般地作為對模型表示的函數的一種正則化,可以改善模型在各種魯棒性概念方面的表現。我們展示了它在應對噪聲特征和噪聲標簽方面的魯棒性,這在現實世界數據中很常見。接下來,我們展示了如何通過隨機平滑理論有效地實現可驗證的對抗魯棒性。最后,我們討論了相關主題的驗證,并提出了第一個模糊決策樹的驗證算法。

第二支柱是可解釋性。雖然決策樹普遍被認為是可解釋的,但基于樹的模型的良好性能通常僅限于表格數據,并且需要特征工程,這增加了設計工作量,同時集成方法則大大降低了相較于單棵樹模型的可解釋性。通過利用KDDTs的高效擬合和可微性,我們提出了一種學習參數化特征變換的系統。通過選擇可解釋的特征類并應用稀疏正則化,我們可以獲得具有競爭性能的緊湊單樹模型。我們展示了其在表格數據、時間序列和簡單圖像數據上的應用。

第三支柱是務實的進展。半監督學習(SSL)是由標簽成本的高昂而驅動的,從混合的標記和未標記數據中學習。樹的半監督學習通常僅限于黑箱包裝方法,而這并不適合樹。我們提出了一種基于我們對數據的不確定解釋的新穎內在SSL方法。聯邦學習(FL)是由數據共享限制驅動的,通過通信模型從分布式數據中學習。我們引入了一種基于函數空間正則化的新FL算法,它借用了我們不確定解釋形式中的概念和方法。與先前的FL方法不同,它支持非參數模型,并在溫和的假設下具有收斂保證。最后,我們展示了我們的FL算法還提供了一種簡單的集成合并實用工具。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。

付費5元查看完整內容

隨著深度學習逐漸滲透到計算機視覺和自然語言處理等領域,并越來越多地與對人類有影響的大型關鍵系統相集成,解決人工智能的安全性問題已成為該領域的核心挑戰之一。在這些重要系統中,目標不僅僅是構建最準確的AI模型,而是要構建那些同時具備高準確性和可證明安全性的AI模型。本論文探討了人工智能安全性的兩個重要方面:魯棒性和公平性。魯棒性要求模型在輸入分布與訓練期間遇到的分布不同時也能良好表現。公平性是一種安全屬性,要求模型預測在不同個體和群體間保持公平。

在論文的第一部分,我們聚焦于魯棒性。我們首先提出了一種新穎的認證方法,可以保證模型對輸入變換具有魯棒性。在第二章中,我們將此方法擴展到訓練模型,使其能夠證明魯棒性。這些貢獻基于諸如通過優化和采樣進行認證的創新技術,以及通過在凸松弛中尋找對抗樣本來進行訓練的方法。 論文的第二部分則探討了公平性,我們開發了新的方法,用于學習滿足個體或群體公平性要求的公平表示。我們還將個體公平性與魯棒性聯系起來,使得我們能夠利用論文第一部分中的技術來同時解決公平性問題。 本論文中提出的方法具有廣泛的應用前景,例如魯棒性方法可以應用于更復雜的輸入變換,而群體公平性表示學習也可以用于將輸入編碼為更隱私的表示。我們相信,本論文提出的方法能夠豐富我們在AI安全性方面的工具庫,并在未來應用于更多的系統中。 深度學習在過去十年中取得了顯著成功。基于深度學習的模型現已廣泛應用于各個領域,如推薦系統【16】、計算機視覺【17, 18, 19】和涵蓋自然語言的一般任務【20】。然而,隨著深度學習模型能力的提升,人們也對其安全性產生了極大的關注。因為這些模型并非孤立使用,而是作為更大系統的一部分,而其預測結果可能會對人類產生下游影響。例如,計算機視覺模型可以用在自動駕駛車輛中,幫助其檢測街道標志,其預測結果直接影響乘客和其他交通參與者的安全。一個預測學生GPA的模型可以用于大學錄取過程中,這意味著其預測質量可能會影響一個人的教育路徑。這強調了研究人工智能安全性的重要性,特別是這些系統在最壞情況下的表現,以確保其在盡可能多的情況下能夠正確運作。

安全人工智能:魯棒性與公平性

在本論文中,我們專注于安全人工智能的兩個方面:魯棒性與公平性。當機器學習模型在輸入發生變化時仍能正確運行,則稱其具有魯棒性。輸入的變化可以是由對抗者造成的(例如,有人故意向圖像中添加噪聲),也可以是在推理過程中自然發生的(例如,攝像頭拍攝的圖像發生位移)。解決這一問題對于開發能夠在環境變化時依然有效的機器學習系統至關重要。公平性是人工智能安全的另一重要話題,隨著機器學習模型通常基于偏差數據進行訓練,模型本身也可能會開始表現出類似的偏差行為。盡管公平性有多種定義,本論文關注個體公平性(要求相似個體獲得相似結果)和群體公平性(要求不同群體間的平均預測相似)。隨著機器學習越來越多地被用于重要的社會決策中,充分解決公平性問題變得越來越重要。

目標

本論文的主要目標是推進能夠保證機器學習模型魯棒性和公平性的方法。為此,我們結合使用了形式方法(例如,抽象解釋和凸松弛)和統計方法(例如,有限樣本邊界)。具體而言,在第三章中,我們引入了一種基于優化和采樣相結合的方法,以認證機器學習模型對幾何變換的魯棒性。接下來在第四章中,我們不僅對模型進行認證,還提出通過潛在對抗樣本進行訓練的創新概念,使模型在訓練時即具備可證明的魯棒性。第五章首次探討了輸入數據的預處理問題,從而使數據消費者能夠證明個體公平性。最后,第六章提出了一種新的預處理方法,使得轉換后的輸入數據無法用于推斷敏感屬性,從而保證在其之上的任何下游分類器的群體公平性。 在表1.1中,我們總結了本論文的貢獻,每一行對應一個章節:章節中涉及的安全屬性,以及用于安全性檢查的關鍵方法。接下來,我們將對本論文的貢獻進行分章節概述。

付費5元查看完整內容

在過去的十年中,深度機器人學習的進步使機器人獲得了顯著的能力。然而,這些機器人在新任務上的泛化能力仍然較弱,突顯了開發通用機器人(generalist robots)的必要性。盡管現有研究主要通過大規模預訓練來增強泛化能力——為機器人提供海量數據集和大量參數,并將泛化視為一種自然出現的特性——這種方法并未完全解決現實世界的復雜性。現實世界呈現出無限多樣的任務,其中許多超出了這些機器人之前遇到的訓練場景。例如,在醫療領域,機器人必須處理由于患者多樣化潛在意圖導致的部分可觀測性,這些意圖無法在數據集中完全涵蓋。類似地,自動駕駛車輛必須應對不可預測的交通、天氣和道路狀況,這些情況可能超出了訓練數據的范圍。

本論文主張,除了可擴展性外,強大的適應能力對于提升在現實世界應用中的泛化能力至關重要。論文探討了構建能夠在部署時有效適應的機器人的策略,重點關注數據效率、參數效率和魯棒性。研究深入探討了各種自適應學習方法,包括在有限數量的示范條件下進行的上下文機器人學習、自主的持續強化學習以揭示機器人任務的結構,以及使用大型基礎模型構建具身代理。這些方法展示了顯著的潛力,使機器人能夠在各種應用中獲取新的運動技能,并通過創造性地使用工具解決復雜的、長時間跨度的物理難題。

現實中,機器人不可避免地會遇到新的任務。例如,家用機器人必須操作未見過的物體或完成具有新組成部分的長時間烹飪任務(Kipf et al., 2019; Kirk et al., 2023)。而自動駕駛車輛則必須與具有顯著不同行為的未知人類駕駛員安全互動(Sadigh et al., 2016; Shalev-Shwartz et al., 2016)。這種現實且高度不確定的場景對機器人學習算法提出了重大挑戰,并在大規模部署機器人之前需要強大的泛化能力。鑒于這些現實問題,我的研究愿景是開發能夠在類似日常生活的挑戰性新環境中泛化的機器人。

我們見證了通過廣泛的預訓練來增強機器人泛化能力的顯著進展。這涉及為機器人配備海量的數據集,包括現實世界和模擬數據集,例如Open-X Embodiment(Padalkar et al., 2023)和DROID數據集(Khazatsky et al., 2024),并開發具有數百萬到數十億參數的模型,如RT-1(Brohan et al., 2022)、RT-2(Brohan et al., 2023)和Octo(Octo Model Team et al., 2023)。這些方法將泛化視為一種隨著規模增加而自然顯現的特性。然而,它們未能完全解決現實世界環境的復雜性,這些環境呈現出無限多樣的任務,許多任務超出了機器人初始訓練場景的范圍。不斷擴大的數據集和模型的趨勢表明對可擴展性的依賴日益增加。然而,機器人必須準備好處理與其訓練任務顯著不同的任務,這些任務由于環境參數的部分觀測或人類隱藏的意圖以及訓練數據的多樣性有限等因素而有所不同。

為了彌合訓練與現實世界部署之間的差距,本論文認為適應性與可擴展性同樣重要,以增強泛化能力。論文探討了在部署時能夠有效適應的通用機器人的構建方法,重點關注數據效率、參數效率和魯棒性。論文研究了在不同測試時監督下的各種自適應學習策略,包括依賴少量示范的上下文機器人學習、利用獎勵信號發現機器人任務結構的無監督持續強化學習,以及將大型基礎模型整合用于具身代理。這些方法展示了巨大的潛力,使機器人能夠在不同環境中學習新的運動技能,并通過創造性地使用工具解決復雜的長時間任務。論文的組織結構如下所示。 論文的第一部分深入探討了少樣本泛化,特別是從單一示范中學習目標任務。這部分的獨特之處在于探索數據稀缺的情境,其中存在足夠的訓練任務數據,但僅有有限的測試任務示范。這些示范可能來自各種來源,包括人類專家、腳本策略、學習的遷移模型或網絡數據。我們提出的解決方案利用了Transformer架構的序列建模能力和豐富的訓練任務數據,來建模機器人策略與任務之間的對應關系。 第二部分重點轉向持續適應,其中目標任務是在沒有先前示范的情況下實時解決。這種情境與持續強化學習(RL)一致,特點是非平穩環境和不斷變化的任務。我們的目標是高效學習新的序列決策任務,盡量減少環境交互。為此,我們引入了任務無關的在線學習算法,通過高斯過程表示每個動態模型或通過等變神經網絡捕捉幾何相似性。 論文的第三部分集中于決策算法的魯棒泛化和評估。前幾部分使用了一種主要評估來自均勻任務分布的目標任務樣本平均性能的指標。考慮到現實世界中的機器人應用通常是高風險的,我們在第三部分研究了兩個以安全為中心的指標。第一個指標在解決從目標任務分布中抽取的任務時檢查最差性能。第二個指標探討稀有事件概率,特別是在長尾目標任務分布的背景下,提供了一個超越簡單平均性能指標的全面而細致的評估框架,用于評估可泛化的機器人學習。 論文的第四部分受到最近大型基礎模型成功的強烈啟發。我們探索了如何使用大型基礎模型通過創造性的工具使用行為解決多種物理難題。我們介紹了RoboTool,一個促進三種不同類型創造性工具使用的系統:工具選擇、順序工具使用和工具制造。該系統適用于兩種不同的機器人形式:機械臂和四足機器人。RoboTool利用大型語言模型的上下文學習能力來掌握基本的物理概念,制定基于文本的行動計劃,并將這些計劃轉換為可執行的Python腳本。 論文組織結構:

第二章提出了基于提示的決策Transformer(Prompt-DT),用于解決離線少樣本強化學習問題。我們通過實驗證明,該算法在多個基準領域優于最新的離線元強化學習算法MACAW(Mitchell et al., 2021)。我們還展示了Prompt-DT在使用專家數據集訓練時,對提示長度變化具有魯棒性,但對提示中提供數據的質量敏感。據我們所知,這是序列預測模型在離線少樣本強化學習設置中的首次應用,基于決策Transformer(Chen et al., 2021b)開發。我們的算法實現簡單,僅涉及訓練一個基于提示的Transformer,而不是像MACAW那樣使用actor-critic算法分別訓練策略和價值網絡(Mitchell et al., 2021)。我們希望這項工作能激發對序列預測模型在強化學習中應用的更多研究。在未來的工作中,我們考慮設計平衡軌跡提示和歷史上下文權重的目標函數,因為目前提示長度被視為超參數,并將基于提示的Transformer用于其他強化學習任務,如元模仿學習(Duan et al., 2017;Finn et al., 2017b)。我們還注意到,當使用從專家軌跡中抽取的提示時,Prompt-DT和Prompt-MT-BC在Meta-World的ML10基準中未能泛化。這激勵我們在未來設計更好的提示和基于提示的算法來解決復雜的組合任務。

第三章提出了超決策Transformer(HDT),一種能夠以高數據和參數效率泛化到新穎任務的Transformer代理。在微調過程中,HDT對每個Transformer塊引入適配層進行微調,這僅占預訓練Transformer代理0.5%的參數。我們展示了在包含精細操作任務的Meta-World基準中,HDT比使用專家動作微調整個Transformer代理收斂更快。此外,HDT通過使用超網絡預訓練適配層參數顯示出強大的數據效率。當專家動作不可用時,HDT在成功率方面遠超基準。我們將其強大表現歸因于適配層的良好初始化,這幫助HDT迅速實現成功的在線展開。我們希望這項工作能激勵未來關于如何優化微調大型Transformer模型以解決下游新任務的研究。一個有趣的未來方向是擴展HDT以處理具有高維自我中心圖像輸入的具身AI任務。

第四章提出了一種可擴展的在線基于模型的強化學習方法,通過無限混合高斯過程(GP)處理有限先驗知識的真實世界任務無關情境。我們的方法通過使用數據高效的GP作為動態模型實現快速適應,避免了通過保留專家混合體來避免災難性遺忘。當動態顯著不同且任務識別可以阻止有害知識轉移時,我們的方法表現良好。我們提出了一個轉移先驗,以顯式建模時間依賴性,從而釋放任務獨立同分布的假設。此外,我們的方法在每個時間步檢測動態變化,因此適用于任務劃分未知的情況。我們通過在線順序變分推斷學習混合模型,該方法可以擴展到具有數據蒸餾和合并和修剪技術的大規模流數據。由于GP的后驗計算隨著數據量和數據維度的增加變得不可行,將GP替換為神經過程(Garnelo et al., 2018;Kim et al., 2019)將是一個有趣的探索方向。另一個方向是將元學習整合到我們的方法中,以更好地利用不同動態之間的共性信息。

第五章提出了COVERS,一種新穎的基于視覺的持續強化學習(CRL)框架,利用群對稱性促進泛化到同一群操作下未見但等效的任務。COVERS基于不變特征無監督檢測群邊界,并為每組等效任務而不是單個任務增長策略。我們展示了COVERS能夠高精度地分配任務到不同群,具有強大的泛化能力,并保持解決已見群的能力,表現遠超基準。COVERS的一個限制是其占用的內存隨任務群數量線性增長。然而,值得注意的是,COVERS仍比為每個任務維護策略緩沖區占用更少的內存,只存儲代表性數據幀,如每個任務群的初始幀。另一個限制是雖然現有工作廣泛采用固定基座的自上而下攝像頭,但在實驗室外很難實現。結合更一般的群操作,如仿射變換和域隨機化技術,以處理變形圖像將是有趣的。此外,我們僅實驗了具有等變結構的群。COVERS在既具有等變任務又具有非等變任務的更復雜場景中的表現尚不清楚。

第六章我們考慮了任務估計不確定性下的魯棒性。我們提出了GDR-MDP框架,能夠利用豐富的分布信息,包括關于任務群的自適應信念和先驗知識。據我們所知,GDR-MDP是第一個在自適應環境下建模信念估計不確定性的分布魯棒MDP框架。我們理論上展示了GDR-MDP的分層潛在結構如何相比于平坦任務結構增強其分布魯棒性。我們還通過實驗證明,我們提出的群分布魯棒訓練方法在面對現實場景中的信念推斷錯誤時生成的策略比基準更魯棒。我們希望這項工作能激發未來關于不同領域知識如何影響魯棒性和泛化的研究。一個令人興奮的未來方向是將群分布魯棒訓練擴展到高維和連續潛在任務分布,以應用于各種決策應用。

第七章我們提出了加速策略評估(APE),受現有策略評估方法面對稀有事件的限制啟發。APE通過從強大的函數逼近器中汲取靈感擴展到復雜任務,并通過學習一個對手與自適應重要性抽樣探索由序列交互引起的稀有事件。我們展示了APE的有效性,其樣本節省量級可實現收斂。APE為在安全關鍵系統中評估和隨后的智能代理部署提供了一個基本工具,這在其他情況下計算上是不可行的。我們希望這項工作能作為在存在稀有事件情況下進行策略評估的替代方案,并激發新的自適應重要性抽樣對抗訓練。它還通過揭示極端情況下(稀有事件)代理行為提高了策略解釋性。值得注意的是,APE專注于估計終止前的期望成本,并依賴實驗者在實踐中設計公平合理的成本函數。APE在序列環境中評估稀有事件的可擴展性開啟了兩個重要的未來方向。首先是訓練稀有事件感知的智能代理。這需要一個極小極大訓練機制,以優化代理避免稀有事件的策略,后者通過本文中的自適應重要性抽樣學習的環境對手捕捉。其次是更強大的值函數和重要性分布更新方法,如在GP回歸模型中結合(貝葉斯)不確定性估計和使用多步TD。

第八章我們介紹了RoboTool,一個由大型語言模型(LLM)驅動的創造性機器人工具用戶,使其能夠解決具有隱含物理約束的長時間規劃問題。RoboTool包含四個組件:(i)“分析器”,識別與任務可行性相關的關鍵概念,(ii)“計劃者”,生成創造性工具使用計劃,(iii)“計算器”,計算技能參數,以及(iv)“編碼器”,生成可執行代碼。我們提出了一個基準來評估三種創造性工具使用行為,包括工具選擇、順序工具使用和工具制造。通過在創造性工具使用基準上的評估,我們展示了RoboTool能夠識別正確的工具,生成精確的工具使用計劃,并創造新工具完成任務。我們將我們的方法與四種基準方法進行了比較,展示了當所需任務需要精確和創造性工具使用時,RoboTool表現優越。

付費5元查看完整內容

構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。

多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。

付費5元查看完整內容

"強化學習(RL)是一個強大的決策制定和通過交互適應性學習的框架。盡管其核心是試錯學習,但它已成為人工智能(AI)研究的關鍵工具。在過去的十年中,RL算法已能夠掌握國際象棋和圍棋等戰略游戲,并控制各種機器人和工業平臺,從運動和操縱到電廠,甚至核聚變反應堆。通過將深度神經網絡(NN)作為函數逼近器納入其中,“深度RL”達到了處理高維狀態和動作空間的能力,并且原則上在任務間有更好的泛化性,使RL解決方案變得多樣化且有前景。然而,使用深度神經網絡帶來了某些警告。RL算法經常面臨由于過擬合和對超參數敏感導致的脆弱性問題,這些問題加劇了典型的RL挑戰,如低樣本效率、處理稀疏獎勵的困難、長期任務的延遲信用分配、對獎勵函數設計的敏感性。在這篇論文中,我們提出了一系列針對RL所面臨的一些問題的新穎貢獻,其最終目標是提高其在連續控制任務中的效率、穩健性和泛化性。具體來說,我們將介紹更穩健的軌跡優化方法,結合NN函數逼近用于策略學習、模型學習和獎勵學習。特別是,這項工作的大部分集中在零階優化用于模型預測控制,我們證明這比基于梯度的軌跡優化器更高效、穩健和可重現。在整篇論文中,我們將展示如何使用零階優化來有效解決稀疏獎勵任務,如何在模仿學習的背景下使用它,以及如何結合模型學習用于不確定性傳播。最后,我們將介紹一種從零開始學習獎勵函數的方法,以純自監督的方式。通過在模擬環境中的廣泛實驗,我們的方法在學習效率和性能上展示了顯著的提升,減少了與環境交互所需的次數,同時仍然實現了接近最優的解決方案。這項工作旨在提供一種解決深度RL挑戰部分問題的可行方法,不依賴于預定義的專家知識,解決學習過程的效率和穩健性問題。”

“雖然我們對于究竟是什么引發了人類的思維和批判性推理尚且遙遠不明,但有證據表明人類行為是通過強化學習引導的。強化學習(RL)的歷史可以追溯到20世紀,當時B.F. Skinner和I. Pavlov對動物進行了一系列關于條件反射的實驗 [1, 2],以理解學習背后的機制。心理學家E. Thorndike已經將動物的反應由其后果所強化的觀點,正式表述為“效果定律” [3]: 在特定情境中產生滿意效果的反應變得更有可能再次發生,在該情境中產生不適效果的反應變得不太可能再次發生。 —— Edward Thorndike Thorndike的效果定律假設動物不是通過推理,而是通過與物理環境的試錯互動來學習,直到獲得成功的結果。這種決策策略以回顧性方式將獎勵與行動聯系起來,與前瞻性觀點相對立,后者認為動物形成環境的場域圖作為學習的指導機制,也稱為“認知地圖” [4, 5]。”

“關于人腦的大量實驗證據表明,行為選擇存在多種機制 [6],決策過程既是反思性的(前瞻性)也是反射性的(回顧性),正如我們所預期的那樣。強化學習理論也以類似的方式發展,現在包括兩個主要分支:無模型(反射性)和基于模型(反思性)RL [7]。無模型RL學習在狀態和行動之間的反應性映射,以增加代理的獎勵,而無需了解環境的基本物理原理。相反,基于模型的RL則學習對世界的內部表征,用于學習每個行動的后果。與基于模型的RL類似,另一種計算性的前瞻性推理方法可以在模型預測控制(MPC)中找到,它在機器人學和許多工業過程中有效使用 [8, 9]。在MPC中,使用已知模型來迭代地優化給定的獎勵,同時考慮規劃范圍內的約束和來自環境的反饋。鑒于其提前規劃的組成部分,MPC也可以被看作是一種反思性決策制定的形式。 在這篇論文的過程中,我們將看到如何將基于模型和無模型的RL與MPC風格的迭代規劃相結合,以創建比單獨組件更強大的控制策略。例如,無模型RL算法能夠從大量數據中快速學習,但對訓練超參數敏感,泛化能力不佳,并且缺乏規劃組件,這可能導致在復雜環境中做出次優決策。另一方面,基于模型的RL方法有可能更靈活,但經常受到與模型估計相關的偏差的困擾,當以自回歸方式使用時,這些偏差可能迅速累積。將基于模型的RL與MPC整合起來可以提供兩全其美的解決方案,因為MPC提供了一個規劃框架,可以納入學習到的世界模型,并在規劃范圍內優化代理的行動。這可以導致更高效的決策制定策略,能夠從經驗中學習,適應不斷變化的環境,并隨著時間的推移優化它們的行為,同時具有反應性以及規避風險的特性。”

付費5元查看完整內容
北京阿比特科技有限公司