實現真實世界中的機器人安全不僅僅意味著規避風險,更在于有效地識別、管理并應對風險。
本論文提出了一種面向風險感知決策與行為建模的安全保障體系(Safety Case),適用于復雜的多智能體環境,例如航空和自動駕駛等應用場景。我們認為,真正的安全性源自智能體以下能力:預測不確定性、推理他者意圖,并在由先驗知識、行為規范、社會語境及歷史經驗所界定的操作邊界內行動。 為了實現安全且可解釋的決策過程,本研究將**蒙特卡洛樹搜索(MCTS)與邏輯規范(logic specification)相結合,整合進學習策略中,以提升單智能體和多智能體場景下的規則遵循能力。我們提出了一種基于歸納邏輯編程(Inductive Logic Programming, ILP)**的符號規則挖掘方法,可從軌跡數據與事故報告中提取可解釋的行為約束。
針對分布外風險(out-of-distribution risk),我們設計了一個融合框架,將**神經模仿學習(neural imitation learning)與符號規則系統(symbolic rule-based systems)結合,提升泛化與安全性。此外,為緩解模型偏差帶來的風險,我們探討了結合檢索增強生成(Retrieval-Augmented Generation, RAG)**與事故報告的方式,以實現復雜環境下基于真實數據的行動裁決(action arbitration)。 在航空領域的真實行為學習方面,我們構建并發布了三個關鍵數據集: * TrajAir:一個面向社交空中導航的軌跡數據集; * TartanAviation:一個用于意圖推理的時間同步多模態數據集; * Amelia-48:覆蓋美國多個機場的大規模地面滑行數據集,用于空中交通管理中的預測分析任務。
綜上所述,本論文提出的理論框架、方法工具及數據集資源,支持自主系統在不確定性環境中推理、多元先驗整合與復雜真實世界中的穩健運行。
隨著人工智能(AI)技術越來越多地改變我們的生活、工作和溝通方式,AI評估必須采取以人為本的方法,以真實反映現實世界中的表現和影響。在本論文中,我展示了通過整合人工智能和人機交互(HCI)領域的知識和方法,推動以人為本的評估,并隨后推動負責任的人工智能發展和部署的研究。 首先,本文以可解釋人工智能為例,討論了人類(而非自動化)評估的挑戰和必要性,并呈現了識別可解釋人工智能研究中新問題和新機會的人類評估研究。接下來,我將情境引入其中,并展示了與真實用戶的情境化研究,提供了對用戶可解釋性需求和對人工智能信任的全面和細致的理解。然后,我通過研究展示了評估人類與人工智能互動的重要性,這些研究考察了不同的人工智能技術特征如何影響用戶的信任、依賴以及其他認知和行為。最后,我討論了這些工作的意義,提出了以人為本評估的建議,并描述了負責任人工智能的未來研究方向。
隨著自主系統日益滲透到關鍵社會領域,確保人工智能(AI)的負責任使用已成為當務之急。然而,“可信AI”這一概念依然廣泛且多維。本論文在AI系統的安全性、公平性、透明性與可問責性方面推進了相關研究。 在安全性方面,我們擴展了經典的確定性屏蔽技術,使其具備對延遲觀測的魯棒性,從而支持在現實世界條件下的實際部署。同時,我們將確定性與概率性安全屏蔽機制應用于仿真自動駕駛車輛,以防止與道路使用者發生碰撞,并在逼真的駕駛模擬環境中驗證了這些技術的有效性。 在公平性方面,我們提出了“公平性屏蔽”(fairness shields)這一新穎的后處理方法,用于在有限或周期性時間范圍內的序貫決策場景中強制實現群體公平。該方法在嚴格滿足公平性約束的前提下,優化干預成本,實現在最小干預下的公平性保障。 針對透明性與可問責性,我們提出了一個評估概率性決策智能體意圖行為的形式化框架,并引入了智能體性指標(agency)與意圖商(intention quotient)等定量度量。我們利用這些指標設計了用于事后分析意圖的方法,有助于在自主系統造成非預期傷害時厘清其責任歸屬。 最后,我們通過“反應式決策”(reactive decision-making)框架將上述貢獻統一起來,提出了一種能夠整合現有方法的通用形式化建模方式。總體而言,本論文所提出的多項進展在實現更安全、公平、可問責的AI系統方面具有現實意義,也為可信AI的后續研究奠定了基礎。
機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)與模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。
機器學習算法及其他統計技術被廣泛應用于利用個人信息進行推斷,但為此目的構建的系統可能對隱私和社會公平造成不利影響。近期研究提出了旨在在保護個人隱私的同時完成這些推斷的技術。本文綜述旨在:1)開發評估機器學習系統及“隱私保護”分析方法社會影響的途徑;2)理論化這些評估在追究機器學習系統設計者和運營者責任中的作用。 第一部分聚焦于旨在保護隱私的機器學習及其他分析系統技術的影響。第一章評估了差分隱私公共人口普查統計數據對基于證據的政策的影響,發現盡管統計不確定性導致教育資金分配上的不平等,但為保護隱私而注入的噪聲可能遠小于現有數據誤差的影響(Steed, Liu 等,2022)。第二章量化了噪聲對大量社會科學研究關鍵發現的影響。第三章基于定性訪談,構建了隱私保護分析方法采納的扎根理論,揭示了采納組織如何可能將對隱私的認知與其具體實施細節相分離的過程(Steed & Acquisti,2025)。 第二部分探討了評估機器學習系統社會公平性的途徑,以及將評估作為問責機制的應用。第四章提出了一種量化圖像嵌入中刻板印象關聯的方法,并展示了無監督圖像生成模型自動學習到種族、性別及交叉偏見(Steed & Caliskan,2021)。第五章對人工智能(AI)審計工具的數據集進行了分類,并訪談了35位審計從業者,發現從業者在AI問責所需工具——包括危害發現與倡導工具——方面資源較為匱乏(Ojewale 等,2025)。 算法系統,尤其是機器學習(ML)系統,在隱私和社會公平方面引發了嚴重的社會關注。這些系統被用于金融、刑事司法、醫療保健以及內容審核等重要決策領域;但往往,這些系統無法正常運行(Raji, Kumar 等,2022)。它們基于通過大規模社會經濟監控機制收集的海量個人數據,對個體進行統計推斷(Zuboff,2019;Cohen,2019;FTC工作人員,2024);這一安排持續加劇了歧視、不平等及其他社會危害(Benjamin,2020;Skinner-Thompson,2020)。面對隱私問題,組織紛紛采用更多算法技術以在執行統計分析的同時保護個人隱私;雖然理論上具有前景,但這些“隱私保護”技術的實際影響尚不確定。 防止和糾正算法系統的不利影響部分依賴于持續且有影響力的實證評估。本文綜述旨在:1)開發評估機器學習系統及“隱私保護”分析方法社會影響的途徑;2)理論化這些評估在追究機器學習系統設計者和運營者責任中的作用。 本文的研究成果融合了當代技術政策中的兩個關鍵領域:數據隱私和“人工智能”(AI)問責。成熟的信息隱私和數據保護機制——尤其是在歐盟——側重于通過限制組織處理個人數據的方式來維護個人隱私權。各行各業及政府部門正率先部署差分隱私、聯邦學習等方法,以協調依賴統計推斷的商業模式與現代隱私法規及消費者對隱私的訴求。但這些技術在理論和實施上均較為復雜,其在隱私和數據保護政策中的角色仍未明朗。第一部分探討了這些“隱私保護”系統的采用及其影響。 相比之下,專門針對AI系統社會影響的監管尚不成熟。但政策關注度顯著提升,尤其是在應對使用機器學習技術生成文本和圖像的產品熱度時。美國和歐洲最近的政策提案及已實施的立法,特別強調將獨立評估算法系統作為問責機制:即根據社會期望對算法系統性能作出重要判斷的能力(Birhane 等,2024)。第二部分聚焦于AI審計的實踐。
在過去的幾十年里,人工智能(AI)在“特定能力”(即封閉世界,如人工環境或特定現實任務)上取得了諸多成功。這種定義明確的狹窄能力帶來了兩個顯著優勢:一是有清晰的成功標準,二是有機會收集大量示例數據。成功標準不僅可以判斷機器是否完成了目標,還能揭示機器未達成目標的具體原因。因此,人類設計者可以逐一修復問題,直到機器在特定任務上表現得足夠好。進一步來說,大量收集的示例數據也降低了修復問題的難度(依據中心極限定理)。
那么,封閉世界中的成功能否遷移到廣闊的開放世界呢?在開放世界中,機器需要以更少的示例和更少的人類先驗知識(如圖靈測試所要求)完成任何人類可能執行的任務。答案是否定的。因為在特定任務中獲得的能力對處理其他任務幾乎沒有幫助,針對特定任務制定的有價值標準在面對更廣泛、未知的任務時也無能為力。此外,由于在未知任務中缺乏充足的示例數據,中心極限定理無法為我們提供支持。最終,人類設計者也失去了“調試儀”,無法通過不斷修補來“破解”開放世界中的 AI 系統。 要實現面向開放世界的 AI,需要不同于構建封閉世界 AI 的獨特學習原則和創新技術。本論文探索了構建開放世界 AI 所需的重要學習原則,包括豐富特征(類比為一套龐大的工具箱)、解耦表示(類比為一套井然有序的工具箱)以及推理時學習(類比為一只靈活運用工具的手)。在這些學習原則的指導下,論文進一步提出了利用這些原則的創新方法,并進行了大量大規模實驗以驗證這些學習原則的有效性。 關鍵詞—— 開放世界 AI、豐富特征、預測性解耦、推理時學習、分布外問題、上下文學習、基于記憶的模型、記憶拼圖(v2)。
如何構建通用機器人系統? 觀察視覺和語言等領域,其共同主題是通過大規模、精心策劃的數據集進行端到端學習。然而,在機器人技術中,僅靠規模可能不足以應對機器人任務的多模態性、缺乏易于獲取的數據以及在物理硬件上部署的安全性和可靠性挑戰。與此同時,當今一些最成功的機器人系統本質上是模塊化的,能夠利用每個模塊的獨立泛化能力來表現優異。受這些特性的啟發,本論文旨在通過將這些組件整合為一個整體來解決構建通用機器人代理的任務:將模塊化與大規模學習相結合,以實現通用機器人控制。我們首先獨立探討這兩個方面。第一個問題是:如何在學習系統中構建模塊化和層次結構? 我們的關鍵見解是,與其讓代理端到端地學習層次結構和低級控制,不如通過規劃顯式地強制模塊化,從而實現更高效、能力更強的機器人學習。接下來,我們探討規模在構建通用機器人系統中的作用。為了有效擴展,神經網絡需要大量多樣化數據、適應數據的表達性架構以及生成數據的監督來源。為此,我們利用一種強大的監督來源:經典規劃算法,這些算法可以廣泛泛化,但運行成本高,并且需要訪問完美的特權信息才能在實踐中表現良好。我們使用這些規劃算法在模擬中監督大規模策略學習,以生成通用代理。最后,我們考慮如何將模塊化與大規模策略學習統一起來,以構建能夠執行零樣本長期操作的自主現實世界機器人系統。我們提出通過緊密集成模塊化高層和中層規劃、學習的局部控制、程序化場景生成以及用于模擬到現實遷移的大規模策略學習的關鍵要素來實現這一目標。我們證明,這種方法可以產生強大的結果:一個單一的通用代理可以僅通過文本指令解決現實世界中具有挑戰性的長期操作任務。//arxiv.org/abs/2503.06814
通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。
此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。
在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。
第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。
在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。