隨著越來越多的優化和人工智能(AI)方法用于輔助高風險的現實生活決策,公平已經成為這些工具的設計者和用戶考慮的一個基本因素。本文研究的是制定、實現和引出公平的新途徑。第一章通過優化模型研究公平與效率的平衡。我們提出新的社會福利函數(SWFs)作為羅爾斯法則公平性和功利主義兩大著名標準的綜合衡量。然后,我們設計了一個程序,用混合整數/線性規劃模型順序地最大化這些SWFs,以找到社會最優解。該方法具有廣泛的資源分配應用的實際潛力,并在醫療保健提供和災害準備避難所分配的實際規模應用中得到了證明。第二章考慮了一個由公平機器學習驅動的優化任務。在開發公平的ML算法時,了解公平的計算代價與標準的不公平設置相比是很有用的。對于利用優化模型進行訓練的公平ML方法,專門的優化算法可能比通用求解器提供更好的計算性能。在本章中,我將探討支持向量機(SVM)的這個問題,并設計塊坐標下降型算法來訓練包含線性公平性約束的SVM。數值實驗表明,在訓練公平支持向量機方面,新的專門算法比現成的求解器更有效。
第三章探討了優化作為人工智能系統中基于福利的公平正式化的一般范式。與公平人工智能中常用的統計偏差指標相反,優化社會福利目標支持基于分配正義考慮的更廣泛的公平視角。我們提出了社會福利優化和人工智能,特別是機器學習之間的處理中和處理后的集成方案。我們以按揭貸款處理為動機,進行個案研究,以評估整合方案的有效性。接下來的兩章探討了以人為中心的觀點,以引出人們的公平偏好,即了解在不同的決策環境下人們認為什么是公平。第四章從揭示的偏好出發,研究了基于在線學習(OL)的一般偏好學習框架:學習者在變化的環境中通過相互作用學習代理的私人效用函數。通過設計一個新的凸損失函數,我們設計了一個靈活的OL框架,可以統一處理文獻中常見的損失函數,并支持各種在線凸優化算法。該框架在后悔性能和求解時間方面優于文獻中的其他OL算法。最后,第五章研究了資源順序配置過程中人們動態倫理判斷的建模和引出問題。我們利用馬爾可夫決策過程(MDP)模型來表示順序分配任務,其中國家獎勵捕獲了人們的道德偏好,從而人們的道德判斷通過政策獎勵反映出來。我們設計了一個偏好推理模型,它依賴于基于主動偏好的獎勵學習來推斷未知的獎勵函數。將該學習框架應用于Amazon Mechanical Turk的人-被試實驗,以理解人們在分配稀缺醫療資源的假設情景下的道德推理。
現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。
本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。
論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
潛在博弈中的學習和基于共識的分布式優化是這項工作的重點。對潛在博弈的分析是由博弈論設計激發的,它將多智能體系統中的優化問題轉化為模型化的潛在博弈中函數最大化問題。在不同的工程應用中,處理網絡系統越來越受歡迎,這支持了人們對基于分布式共識的優化的興趣。
本書研究了使系統中的多智能體收斂到某種最優狀態的算法。這些算法可以根據系統的信息結構進行分類。所考慮的程序的一個共同特點是,它們不要求智能體有記憶來遵循規定的規則。提出了一個適用于具有離散狀態和基于預言機信息的無記憶系統的一般學習動力學。提供了一些保證該算法的有效行為的設置。考慮了這種高效的一般學習程序的一個特殊類型,稱為Logit動力學。此外,異步和同步Logit動力學被擴展到具有連續行動的博弈情況。也討論了這種連續狀態動力學的收斂保證。此外,還開發了基于通信和收益的算法。它們被證明可以在連續行動潛力博弈建模的系統中學習局部最優。用來研究后一程序收斂特性的隨機近似技術也被應用于網絡系統中基于分布式共識的優化。在這種情況下,所提出的推和算法的隨機性允許系統擺脫次優臨界點,并收斂到目標函數的局部最小值,而目標函數不被假定為凸的。
在構建機器學習管道時,一些常見的假設是:(1)訓練數據足夠 "干凈",表現良好,因此很少或沒有離群值,或者數據的分布沒有長尾,(2)測試數據遵循與訓練數據相同的分布,以及(3)數據產生于或接近于一個已知的模型類,如線性模型或神經網絡。
然而,隨著計算機、互聯網和各種基于傳感器的技術更容易獲得,科學和工程的各個分支中出現的現代數據集不再是精心策劃的,往往是以分散的、分布式的方式收集。因此,它們受到異質性、對抗性操作和異常值等復雜因素的困擾。隨著我們進入這個臟的數據時代,上述的機器學習管道的假設越來越站不住腳。
對于機器學習的廣泛采用,我們認為任何模型都必須具備以下三個基本要素:
穩健性。該模型即使在有噪音和損壞的數據下也能被訓練。
可信賴。在訓練結束后,當在現實世界中部署時,該模型在分布的良性變化下不應該崩潰。
有彈性。建模程序應該在模型錯誤指定的情況下工作,也就是說,即使建模假設崩潰,模型也應該找到可能的最佳解決方案。
在這篇論文中,我們的目標是修改最先進的ML技術并設計新的算法,使其即使在沒有上述假設的情況下也能工作,并且是穩健、可信和有彈性的。我們的貢獻如下。
在第二章中,我們提供了一類新的統計最優估計器,這些估計器對各種環境是穩健的,如任意污染和重尾數據等。
在第三章中,我們用一類新的計算效率高的穩健風險最小化估計器來補充我們的統計最優估計器。這些結果為一般的統計模型,如線性回歸、邏輯回歸等,提供了一些最早的可計算的、可證明的穩健估計器。
在第四章中,我們研究了在基礎分布中的一些樣本可能被任意破壞的情況下學習Ising模型的問題。
最后,在第五章,我們討論了我們的結果對現代機器學習的影響。
從教育到招聘,社會中的重要決策越來越依賴于數據驅動的算法。然而,算法決策的長期影響在很大程度上沒有得到充分理解,在理論和實踐中,確保公平利益存在嚴重挑戰。在本文中,我從兩個角度考察了機器學習算法的社會動力學:(I)算法決策的長期公平性,以及(ii)匹配市場的長期穩定性。
在計算機科學中,算法公平這個主題受到了廣泛的關注,但最近才認識到算法可以通過各種動態機制對種群產生不同的影響。我們通過提出機器學習算法和感興趣群體的動態交互的兩種不同模型來促進這一不斷發展的理解。首先,我們引入了延遲影響的概念——決策結果被觀察后,決策算法對人口的福利影響,其動機是,例如,在應用新的貸款批準算法后,平均信用分數的變化。我們證明了研究界提出的公平機器學習的幾個統計標準,如果應用于決策約束,可能會對弱勢群體的福利造成損害。t,我們考慮一個動態的環境,在這個環境中,個人投資于一個基于算法決策規則的預期回報的積極結果。我們表明,不良的長期結果是由于群體間的異質性和缺乏可實現性而產生的,并研究了干預措施的有效性,如按群體“脫鉤”決策規則和提供補貼。
除了長期公平的問題,利用機器學習為社會造福面臨的另一個挑戰是社會選擇。在市場中,個人學習目標(通常是構想出來的)可能與實現有效市場結果的長期社會目標相沖突。受在線市場和平臺中重復匹配問題的激勵,我們研究了雙邊匹配市場,參與者重復匹配,并通過匹配獲得關于其偏好的不完全信息。由于競爭,一個參與者試圖了解自己的偏好可能會影響其他參與者的效用。我們為市場平臺設計了一種機器學習算法,使市場作為一個整體能夠足夠有效地學習他們的偏好,從而快速獲得稱為穩定的市場公平概念。此外,我們研究了上述問題的分散化版本,并設計了參與者的學習算法,以在給定過去數據的情況下戰略性地避免競爭,從而消除了對中央平臺的需要。我們還研究了具有獨立行動誘惑的策略參與者是否仍應遵循算法的建議,結果顯示了算法的激勵兼容性方面的幾個積極結果。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-41.pdf
無人駕駛飛行器 (UAV) 在過去十年中受到無人機硬件和監管框架的快速創新推動,被設想用于為未來社會多種服務應用。從下一代無線網絡的角度來看,無人機不僅有望充當被動蜂窩連接用戶的角色,而且還可以作為無人機輔助網絡的一部分,作為連接的主動推動者。用例范圍從貨物的“最后一英里”交付、客運、基礎設施檢查、環境監測和測量到智能農業的推動者。它們快速靈活的部署使它們在地面通信基礎設施不堪重負或被破壞的情況下特別有用,例如在自然災害和搜救情況下。在擴展永久性網絡基礎設施不可行或經濟上不可行的偏遠地區,無人機可以為目前沒有移動互聯網的世界一半人口提供移動互聯網接入。
圖 1.1 無人機提供通信服務和支撐固定基礎設施的應用示例。
圖 1.2 無人機分類。
無人機在所有潛在應用場景中的決定性優勢是它們的移動性。為了充分利用它們的能力,靈活高效的路徑規劃方法是必要的。本論文的重點是探索機器學習 (ML),特別是強化學習 (RL),作為解決無人機移動管理挑戰的一類有前途的解決方案。隨著近年來RL與神經網絡相結合的研究進展,deep RL是為數不多的能夠直接解決通信場景下無人機控制與部署復雜任務的框架之一,因為這些問題通常是NP-hard優化問題,且受到非凸性的嚴重影響。此外,深度 RL 提供了以直接方式平衡無人機輔助網絡的多個目標的可能性,它在先驗或模型信息的可用性方面非常靈活,而深度 RL 推理在計算上是高效的。
中小型無人機路徑規劃的一個關鍵限制是它們的最大活動任務時間受到機載電池能量密度的限制。當用作向地面用戶提供數據服務的空中基站 (BS) 時,自主無人機需要共同優化其飛行時間和系統的通信性能目標。論文的第一部分探討了使用深度 Q 學習來控制空中 BS,該 BS 從地面用戶那里收集數據,同時集成專用著陸點,無人機可以在著陸點著陸,從而在繼續為用戶服務的同時在其軌跡上節省能源。深度 Q 學習允許無人機在沒有任何關于環境或任務的明確信息的情況下找到有效的軌跡。
圖 3.1 空中 BS 移動決策是根據無人機的當前狀態做出的,即位置和電池電量。 UAV 完全不知道環境的先驗知識,即不知道著陸點(LS)的存在或位置、用戶位置、信道模型或最終 UAV 著陸位置。雖然 LS 提供了節能的可能性,但 UAV BS 可能不得不為某些用戶犧牲一些 QoS。
雖然 RL 范式為解決無人機輔助網絡中的優化問題提供了許多優勢,但仍然存在一些實際挑戰,尤其是在無人機可以學習的訓練數據需求的背景下。在現實世界中收集訓練數據是一個昂貴且耗時的過程,而在傳統的 RL 方法中,如果任務參數發生變化,則需要重復冗長的訓練過程,例如無人機的電池容量。在本論文中,我們通過提出一種深度 RL 算法來解決這個問題,該算法將訓練擴展到來自分布式物聯網 (IoT) 設備的無人機數據收集任務的隨機實例,如果任務參數發生變化,則無需重新訓練。與傳統方法相比,結果是一個復雜得多的問題,因為需要同時找到數千個任務實例的解決方案。這可以通過利用任務密集城市環境的智能處理地圖信息來實現。我們將此設置擴展到協作多無人機案例,其中出現機群協作的額外挑戰,以及大型、復雜和現實的城市環境挑戰。
圖 4.7 同一智能體適應設備數量和設備位置差異以及飛行時間限制的圖示,顯示了曼哈頓場景中已使用和可用的飛行時間以及收集和可用的總數據。
圖 5.8 軌跡圖說明傳播條件的變化對已經訓練好的智能體的影響。圖 5.8a 顯示了在智能體訓練時使用路徑損耗指數的原始行為。圖 5.8b 顯示了相同智能體在其他情況不變的情況下,路徑損耗指數略低。
論文的以下部分探討了無人機輔助通信和機器人技術,這是兩個通常不相交的研究界。 RL 范式的固有靈活性為提出可在多個無人機路徑規劃實例中工作的解決方案提供了機會,例如物聯網數據收集和覆蓋路徑規劃 (CPP),這是一個經典的機器人問題。最后,在本文的最后一部分,研究了基于模型輔助學習框架的另一種解決RL算法訓練數據需求挑戰的方法。在這種方法中,UAV首先學習真實環境的模型,然后利用學習的模型生成模擬訓練數據,大大減少了對昂貴的真實世界數據的需求。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
排名,尤其是搜索和推薦系統中的排名,通常決定了人們如何訪問信息以及信息如何暴露給人們。因此,如何平衡信息披露的相關性和公平性是現代信息披露系統的關鍵問題之一。由于傳統的排名框架將文檔與相關性進行短視排序,這將不可避免地引入不公平的結果曝光,最近關于排名公平性的研究主要集中在動態排名范式,其中結果排名可以實時調整,以支持群體(如種族、性別等)的公平性。然而,現有關于動態學習排序公平性的研究,往往通過顯著犧牲排名前結果的相關性和公平性來實現排序列表中文檔曝光的總體公平性。為了解決這一問題,我們提出了一種公平無偏的排序方法——最大邊際公平(maximum Marginal Fairness, MMF)。該算法集成了對相關性和基于績效的公平性的無偏估計,同時提供了一個顯式控制器來平衡文檔的選擇,以最大化top-k結果的邊際相關性和公平性。理論分析和實證分析表明,我們的方法在長列表公平性上有較小的妥協,在top-k排序的相關性和公平性方面都取得了優于現有算法的效率和有效性。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/
凸優化作為一個數學問題已經被研究了一個多世紀,并在許多應用領域的實踐中應用了大約半個世紀,包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題,以及機器學習的具體應用。
機器學習應用在高風險領域(如刑事判決、醫學測試、在線廣告等)的流行,至關重要的是要確保這些決策支持系統不會傳播歷史數據中可能存在的現有偏見或歧視。一般來說,在算法公平文獻中有兩個關于公平的中心概念。第一個是個體公平,它要求公平的算法以相似的方式對待相似的個體。然而,在實踐中,通常很難找到或設計一個社會可接受的距離度量來捕獲個體之間關于特定任務的相似性。相反,在這篇博客文章中,我們關注的是公平的第二個概念,群體公平,更具體地說是統計上的平等,這本質上要求預測器的結果在不同的子群體中是平等的。