模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標。
在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199
文獻中考慮的許多序列決策問題變體取決于反饋的類型和它們揭示的有關相關獎勵的信息量。之前的大多數工作都研究了行動的反饋揭示了與行動相關的獎勵的案例。然而,在許多領域,如眾包、醫療診斷和自適應資源分配,行動的反饋可能是薄弱的,即可能根本沒有揭示任何關于獎勵的信息。如果沒有任何關于獎勵的信息,就不可能了解哪種行動是最佳的。顯然,只有在問題結構是這樣的,即可以在不明確知道獎勵的情況下識別最佳行動的情況下,學習最佳行動才是可行的。本文的目標是研究一類問題,在不明確知道獎勵的情況下可以推斷出最優行動。研究了無監督順序選擇(USS),所選行動的回報/損失從未顯示,但問題結構適合于識別最優行動。本文還提出了一種名為審查半Bandits (CSB)的新設置,從一個行動中觀察到的獎勵取決于分配給它的資源數量。
本文的主要研究內容是USS問題。在USS問題中,無法從觀察到的反饋中推斷出與動作相關的損失。這種情況出現在許多現實應用中。例如,在醫療診斷中,患者的真實狀態可能不為人知;因此,測試的有效性無法得知。在眾包系統中,眾包工人的專業知識水平是未知的;因此,他們的工作質量是不可知的。在此類問題中,可以觀察到測試/工作者的預測,但由于缺乏真實值,無法確定其可靠性。通過比較不同動作得到的反饋,可以找到一類USS問題在滿足“弱支配”性質時的最優動作。針對該問題,本文提出了基于置信上界和Thompson采樣的性能最優算法。
本文提出一種稱為審查半bandits (CSB)的新設置,其中從行動中觀察到的反饋取決于分配的資源數量。如果沒有分配足夠的資源,反饋就會被“審查”。在CSB設置中,學習者在每一輪中在不同的活動(動作)之間分配資源,并從每個動作中接受審查損失作為反饋。目標是學習一種資源分配策略,使累計損失最小化。每個時間步長的損失取決于兩個未知參數,一個與動作有關,但與分配的資源無關,另一個取決于分配的資源數量。更具體地說,如果動作的資源分配超過一個恒定的(但未知的)閾值,該閾值可以取決于動作,則損失等于零。CSB模型可以應用于許多資源分配問題,如警察巡邏、交通規則和執行、偷獵控制、廣告預算分配、隨機網絡效用最大化等。
論文的最后一部分重點研究了多玩家多臂匪徒的分布式學習,以識別最優動作子集。這種設置是這樣的,獎勵只適用于那些只有一個玩家參與的行動。這些問題適用于無線ad hoc網絡和認知無線電中尋找最佳通信信道的問題。本文的貢獻是通過利用這些問題表現出的特定結構來解決上述序列決策問題。對于這些具有弱反饋的每個設置,開發了可證明的最優算法。最后,在合成數據集和真實數據集上驗證了它們在不同問題實例上的經驗性能。
混雜現象,即治療和結果變量都受到某些“混雜”變量的影響,是有效因果推斷的最大挑戰之一。它支撐了統計中的許多謬誤和誤解,如辛普森悖論或“相關性并不意味著因果關系”的例子。因此,混雜調整是因果關系領域的核心。然而,這通常不是一項容易的任務,即使我們的數據的因果結構是已知的。混雜變量的維度可能很大,混雜變量可以是離散的,連續的或分類變量的混合,或者它們可以以非參數的方式影響感興趣的變量。
//www.research-collection.ethz.ch/handle/20.500.11850/528993
當混雜變量在手邊的數據集中是已知的和可觀察到的情況下,存在許多不同的混雜調整方法。然而,很少有研究考慮到當混雜是潛在的具有挑戰性的情況。盡管因果文獻中普遍存在不存在未觀察到的混雜因素的假設,但在實踐中往往并不成立。這種數據模型的錯誤規范可能會導致傳統方法的性能下降。在這篇論文中,我們引入了新的混雜調整方法,既解決了混雜未被觀察到的情況,也解決了混雜變量被觀察到的情況,但它們對感興趣的變量的影響相當復雜,因此傳統的方法不適用。在論文A中,我們探討了潛在混雜的調整問題。由于這個問題極具挑戰性,我們考慮一個簡單的情況,即數據來自(高維)線性模型,混合變量線性影響觀察變量。本文提出頻譜反創始估計器,在對數據應用精心選擇的線性變換后使用標準Lasso。我們得到了有趣的理論結果,并通過實證驗證了它優于忽略潛在混雜存在的傳統方法。在論文B中,我們提出了雙去偏Lasso估計器,可以看作是譜反發現估計器的推廣,其優點是具有良好的漸近分布,從而允許構造漸近有效的置信區間。所提供的理論分析非常詳細,并擴展了論文A的理論結果。論文C考慮了生物統計學中的一個重要問題,即檢測兩種情況(例如癌癥和正常細胞)之間因果網絡的擾動。提出的方法也擴展到考慮潛在的潛在混雜。雖然它不是直接應用論文A和論文B中開發的方法,但它分享了論文A和論文B中開發的主要思想。在論文D中,我們討論了觀察到混雜的情況,但這種情況可能非常復雜。我們提出了一種稱為分布隨機森林的通用方法,它能夠非參數估計多變量聯合條件分布。這是以一種無模型和無目標的方式完成的,因此可以用于許多不同的學習問題,而不僅僅是最初的因果效應估計的混雜調整問題。
在自然語言處理(NLP)中,不確定度的準確估計對于許多困難或敏感的預測任務非常重要。盡管大規模的預訓練模型極大地提高了整個領域應用機器學習模型的準確性,但仍有許多情況下它們失敗了。精確量化不確定性的能力,在處理現代模型在現實世界中部署時可能面臨的挑戰場景時,對于可靠的、結果性的決策是至關重要的。本教程面向學術研究人員和行業從業者,全面介紹了NLP問題的不確定性估計——從概率校準的基本原理、貝葉斯推斷和置信集(或區間)構建,到現代分布失衡檢測和選擇性推斷的應用主題。
目錄內容
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
當在非結構化和半結構化環境(如倉庫、住宅和零售中心)中操作時,機器人經常需要從雜亂的箱子、貨架或桌子中交互式地搜索和檢索特定的對象,這些對象可能部分或完全隱藏在其他對象后面。我們將此任務定義為機械搜索,其目標是在盡可能少的操作中檢索到目標對象。在這些場景中,由于傳感器噪聲、遮擋和未知物體特性的存在,魯棒地感知和操作目標具有挑戰性。由于這些感知和操作挑戰,從數據中學習端到端的機械搜索策略變得非常困難。相反,我們將機械搜索策略分成三個模塊,一個感知模塊從輸入觀察中創建一個中間表示,一組低級操作原語,以及一個高級操作選擇策略,該策略根據感知模塊的輸出迭代選擇要執行的低級原語。我們探索了在操作原語方面取得的進展,如推和抓取,帶有未知對象的場景分割和占用分布預測,以推斷目標對象的可能位置。此外,我們證明了使用模擬的深度圖像或點云可以為感知網絡快速生成大規模的訓練數據集,同時允許它們泛化到真實世界的對象和場景。結果表明,在模擬和物理實驗中,與基準策略相比,集成這些組件可以產生一個高效的機械搜索策略,提高15%的成功率,并減少提取目標對象所需的操作次數。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。