亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習算法已被廣泛應用于多種領域,人們對這些算法可能存在的偏見越來越關注。雖然已有許多解決算法預測偏見的方案,但在將預測轉化為合理決策的過程中仍存在空白。此外,即使一個公正且公平的決策也可能在決策產生反饋效應時導致不可預期的后果。盡管已經有許多方案提出實現一次性決策的公平性,但在研究連續算法決策的長期效果方面仍有空白。在這篇論文中,我們專注于在連續決策環境中研究算法的公平性。我們首先研究如何將模型預測轉化為公平的決策。具體而言,給定黑箱模型(機器學習模型或人類專家)的預測,我們基于經典的學習自專家方案提出了一個算法,將預測結合起來生成公平且準確的決策。我們的理論結果表明,可以在不犧牲太多遺憾的情況下實現近似等化的機會。我們還展示了這個算法在公平社區常用的真實數據集上的表現。

在論文的第二部分,我們研究在連續設定中強制執行靜態公平決策是否能在反饋循環下導致弱勢群體的長期平等和改善。特別地,我們使用具有一般過渡函數的馬爾可夫決策模型來模擬算法決策和基本分布之間的互動。我們提出了一個新的度量標準,通過衡量分布的中心、擴散和形狀的變化來衡量算法決策的分布影響。這個度量將影響劃分為群體內影響和群體間影響,其中群體內影響度量政策如何影響組內分布,群體間影響則度量政策如何對兩個人口群體的分布產生不同的影響。我們的結果顯示,閾值策略的效用和群體間影響之間通常存在權衡,常見的公平約束可能會導致“反作用效應”,即對各群體的影響可能存在差異。

付費5元查看完整內容

相關內容

 (Massachusetts Institute of Technology,MIT)是美國一所研究型私立大學,位于馬薩諸塞州(麻省)的劍橋市。麻省理工學院的自然及工程科學在世界上享有極佳的盛譽,該校的工程系曾連續七屆獲得美國工科研究生課程冠軍,其中以電子工程專業名氣最響,緊跟其后的是機械工程。其管理學、經濟學、哲學、政治學、語言學也同樣優秀。

我們研究了幾個與因果推斷中參數識別和高效估計有關的問題。在本論文的第一部分,我們考慮了如何對觀察性研究中無未測混淆變量假設進行敏感性分析的問題。大致來說,混淆變量是影響治療接受和結果的變量。要估計因果效應,必須測量所有這些變量,并在統計分析中適當考慮。這是我們在這里考慮的問題中無法測試的假設,因為治療并未由實驗者隨機分配。因此,在這些情境中,衡量這個假設的偏離對因果效應估計的影響具有很大的實踐重levance。在一個項目中,我們開發了一個新穎的框架,將平均治療效果(ATE)限定為治療結果關聯受混淆的單位比例的函數。在另一個工作中,我們提出并分析了一組模型,用于在假設邊際結構模型時獲取對某些因果效應的限制。

在本論文的第二部分,我們研究了兩個流行的因果參數的高效估計:劑量-反應函數(DRF)和條件平均治療效果(CATE)曲線的水平集。DRF測量的是如果人群中的每個人都接受給定的治療水平,預期的結果是什么。當治療是連續的時,這個參數是一條曲線,可以看作是無窮多治療值的函數。我們研究了幾種估計DRF的方法,并推導出一個估計器,根據我們的了解,這個估計器在一定條件下可以達到文獻中已知的最低均方誤差。在第二篇論文中,我們推導出了CATE水平集的最小最大優估計器,并提供了其他更簡單的估計方法的風險上界。CATE水平集在許多應用中是一個有用的計算量,因為它們確定了有大的治療效果的單位,這是優化分配治療所需的關鍵信息。

最后,在本論文的第三部分,我們研究了減少流動性對Covid-19死亡人數的影響。我們通過指定一個由流行病模型激發的邊際結構模型來解決這個問題。我們的分析發現,在許多美國州和大流行病開始時,流動性的減少導致了顯著更少的死亡。

付費5元查看完整內容

許多目前自動化的順序決策問題,例如制造業或推薦系統中的問題,都是在幾乎沒有不確定性或零災難風險的環境中運行的。隨著公司和研究人員試圖在較少約束的環境中部署自主系統,賦予序列決策算法對不確定性和風險進行推理的能力變得越來越重要。在本文中,我們將討論序列決策的規劃和強化學習(RL)方法。在規劃設置中,假設提供了一個環境模型,并在該模型中優化策略。強化學習依賴于廣泛的隨機探索,因此通常需要一個模擬器來進行訓練。在現實世界的許多領域,不可能構建一個完全準確的模型或模擬器。因此,由于對環境的不完全了解,任何策略的執行都不可避免地具有不確定性。此外,在隨機領域中,由于環境固有的隨機性,任何給定運行的結果也是不確定的。這兩種不確定性的來源通常分別被歸類為認知的不確定性和偶然的不確定性。本文的首要目標是幫助開發算法,以減輕序列決策問題中的兩種不確定性來源

本文為這一目標做出了一些貢獻,重點是基于模型的算法。本文從考慮馬爾可夫決策過程(MDP)完全已知的最簡單情況開始,提出了一種優化風險規避目標的方法,同時將優化期望值作為次要目標。對于本文的其余部分,我們不再假設MDP是完全指定的。考慮MDP上不確定性的幾種不同表示,包括a)候選MDP的不確定性集合,b) MDP的先驗分布,以及c)與MDP交互的固定數據集。在設置a)中,提出了一種新的方法來近似最小化最大遺憾目標,并在所有候選MDP中找到一個低次優的單一策略。在b)中,我們建議在貝葉斯自適應MDP中優化風險規避,以在單一框架下避免認知和偶然不確定性帶來的風險。在c)中,離線強化學習設置,本文提出兩種算法來克服由于只能訪問固定數據集而產生的不確定性。第一種方法提出了一種可擴展的算法來解決離線強化學習的魯棒MDP公式,第二種方法基于風險敏感優化。在最后一章中,我們考慮一種從演示中學習的交互式表述。在這個問題上,有必要對當前政策執行的不確定性進行推理,有選擇地選擇何時要求進行示威。實驗證明,所提出的算法可以在許多不同的領域中產生風險敏感或魯棒的行為。

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。

**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。

**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。

付費5元查看完整內容

文獻中考慮的許多序列決策問題變體取決于反饋的類型和它們揭示的有關相關獎勵的信息量。之前的大多數工作都研究了行動的反饋揭示了與行動相關的獎勵的案例。然而,在許多領域,如眾包、醫療診斷和自適應資源分配,行動的反饋可能是薄弱的,即可能根本沒有揭示任何關于獎勵的信息。如果沒有任何關于獎勵的信息,就不可能了解哪種行動是最佳的。顯然,只有在問題結構是這樣的,即可以在不明確知道獎勵的情況下識別最佳行動的情況下,學習最佳行動才是可行的。本文的目標是研究一類問題,在不明確知道獎勵的情況下可以推斷出最優行動。研究了無監督順序選擇(USS),所選行動的回報/損失從未顯示,但問題結構適合于識別最優行動。本文還提出了一種名為審查半Bandits (CSB)的新設置,從一個行動中觀察到的獎勵取決于分配給它的資源數量。

本文的主要研究內容是USS問題。在USS問題中,無法從觀察到的反饋中推斷出與動作相關的損失。這種情況出現在許多現實應用中。例如,在醫療診斷中,患者的真實狀態可能不為人知;因此,測試的有效性無法得知。在眾包系統中,眾包工人的專業知識水平是未知的;因此,他們的工作質量是不可知的。在此類問題中,可以觀察到測試/工作者的預測,但由于缺乏真實值,無法確定其可靠性。通過比較不同動作得到的反饋,可以找到一類USS問題在滿足“弱支配”性質時的最優動作。針對該問題,本文提出了基于置信上界和Thompson采樣的性能最優算法。

本文提出一種稱為審查半bandits (CSB)的新設置,其中從行動中觀察到的反饋取決于分配的資源數量。如果沒有分配足夠的資源,反饋就會被“審查”。在CSB設置中,學習者在每一輪中在不同的活動(動作)之間分配資源,并從每個動作中接受審查損失作為反饋。目標是學習一種資源分配策略,使累計損失最小化。每個時間步長的損失取決于兩個未知參數,一個與動作有關,但與分配的資源無關,另一個取決于分配的資源數量。更具體地說,如果動作的資源分配超過一個恒定的(但未知的)閾值,該閾值可以取決于動作,則損失等于零。CSB模型可以應用于許多資源分配問題,如警察巡邏、交通規則和執行、偷獵控制、廣告預算分配、隨機網絡效用最大化等。

論文的最后一部分重點研究了多玩家多臂匪徒的分布式學習,以識別最優動作子集。這種設置是這樣的,獎勵只適用于那些只有一個玩家參與的行動。這些問題適用于無線ad hoc網絡和認知無線電中尋找最佳通信信道的問題。本文的貢獻是通過利用這些問題表現出的特定結構來解決上述序列決策問題。對于這些具有弱反饋的每個設置,開發了可證明的最優算法。最后,在合成數據集和真實數據集上驗證了它們在不同問題實例上的經驗性能。

//www.zhuanzhi.ai/paper/309b90e6694df9044e90a6f254fa559a

付費5元查看完整內容

機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們

機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。

在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。

其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。

在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。

最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。

付費5元查看完整內容

強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。

因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。

有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。

//dspace.mit.edu/handle/1721.1/138930

付費5元查看完整內容

【摘 要】

機器學習是一種很有前途的處理復雜信息的工具,但它仍然是一個不可靠不可信的控制和決策工具。將為靜態數據集開發的技術應用到現實世界的問題中,需要克服反饋和系統隨時間變化的影響。在這些設置中,經典的統計和算法保證并不總是有效。在部署機器學習系統之前,我們如何預測機器學習系統的動態行為?為了確保可靠可信的行為,本論文采取步驟來發展對反饋設置中出現的權衡和限制的理解。

在第一部分,我們關注機器學習在自動反饋控制中的應用。受物理自治系統的啟發,我們試圖為數據驅動的最優控制器設計建立理論基礎。我們關注的是由線性動力學控制的系統,其未知組件必須從數據中表征出來。研究了經典最優控制問題線性二次調節器(LQR)設定中的未知動力學問題,證明了最小二乘估計和魯棒控制設計過程保證了安全性和有界次最優性。在機器人技術中使用攝像機的啟發下,我們還研究了控制器必須根據復雜的觀察來行動的設置,其中狀態的子集由未知的非線性和潛在的高維傳感器進行編碼。我們提出使用一種感知映射作為近似逆,并表明只要a)控制器是魯棒設計來解釋感知誤差或b)感知映射是從足夠密集的數據中學習到的,由此產生的感知控制環具有良好的特性。

在第二部分,我們將注意力轉移到算法決策系統,其中機器學習模型用于與人反饋。由于測量的困難、有限的可預測性以及將人類價值轉化為數學目標的不確定性,我們避開了最優控制的框架。相反,我們的目標是在一步反饋模型下闡明簡單決策規則的影響。我們首先考慮相應的決策,這是受信用評分中放貸的例子啟發。在一個簡單的影響模型下,我們表明,幾個群體公平約束,提出減輕不平等,可能損害群體,他們的目標是保護。事實上,公平標準可以被視為一個更廣泛框架的特殊案例,用于設計在私人和公共目標之間權衡的決策政策,其中影響和福祉的概念可以直接編碼。最后,我們轉向推薦系統的設置,該系統根據個性化的相關性預測從廣泛的選擇中進行選擇。我們開發了一個基于可達性的新視角,量化了代理和訪問。雖然經驗審計表明,為準確性而優化的模型可能會限制可達性,但理論結果表明,這不是由于固有的權衡,這表明了一條前進的道路。從廣義上講,這項工作試圖重新想象機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則前進。

1 引 言

許多現代數字系統——從汽車到社交媒體平臺——都具有前所未有的測量、存儲和處理數據的能力。機器學習的并行進展推動了從這些數據中受益的潛力,其中巨大的數據集和強大的計算能力推動了圖像識別和機器翻譯等復雜任務的進步。然而,許多應用程序超出了處理復雜信息的范圍,而是基于它采取行動——從分類和轉變為做出決策和采取行動。將針對靜態數據集開發的技術應用于現實世界的問題需要處理隨時間變化的反饋和系統的影響。在這些設置中,經典的統計和算法保證并不總是成立。即使是嚴格評估性能也可能很困難。在部署機器學習系統之前,我們如何預測它們的行為?我們可以設計它們以確保良好的結果嗎?基本的限制和權衡是什么?

在本論文中,我們為各種動態設置開發了原則性技術,以實現可信機器學習的愿景。這項工作借鑒了控制理論中的工具和概念,控制理論在制定動態系統行為的保證方面有著悠久的歷史,優化提供了一種語言來表達目標和權衡,當然還有機器學習,它使用數據來理解和作用于世界。機器學習模型旨在做出準確的預測,無論是關于自動駕駛汽車的軌跡、償還貸款的可能性,還是對新聞文章的參與程度。傳統上,在靜態監督學習的框架中,這些模型一旦被用于采取影響環境的行動,就會成為動態系統的一部分(圖 1)。無論上下文是駕駛自動駕駛汽車、批準貸款還是推薦內容,將學習到的模型整合到策略中都會產生反饋循環。

圖1 盡管機器學習模型通常在大腦中以一個靜態的監督學習框架進行訓練(左),但當部署時,它們成為反饋循環的一部分(右)。

在動態環境中使用靜態模型存在一些問題。無論是由于分布偏移、部分可觀察性還是錯誤累積,它們的預測能力都可能在反饋設置中失敗。監督學習通常旨在保證良好的平均情況性能,但平均工作良好的車道檢測器仍可能對特定圖像進行錯誤分類并導致崩潰。此外,用于進行準確預測的統計相關性實際上可能包含我們希望避免傳播的偏差或其他有害模式。在貸款決定中考慮申請人的郵政編碼可能在統計上是最優的,但會導致紅線的做法。推薦內容令人反感的視頻可能會增加參與度,但會損害觀看者的心理健康。應對這些挑戰需要仔細考慮如何使用機器學習模型,并設計確保理想結果和對錯誤具有魯棒性的策略。

在接下來的章節中,大致分為兩部分:數據驅動的最優控制和社交數字系統中的反饋。在第一部分中,我們展示了如何結合機器學習和魯棒控制來設計具有非漸近性能和安全保證的數據驅動策略。第 2 章回顧了一個框架,該框架能夠對具有不確定動態和測量誤差的系統進行策略分析和綜合。在第 3 章中,我們考慮了具有未知動力學的線性系統的設置,并研究了具有安全約束的經典最優控制問題的樣本復雜度。在第 4 章中,我們轉而關注復雜傳感模式帶來的挑戰,并為基于感知的控制提供保證。在第二部分中,從物理系統的動力學轉向對社會系統的影響,我們考慮學習與人互動的算法。在第 5 章中,我們描述了后續決策中公平和幸福之間的關系。我們將在第 6 章重點介紹內容推薦的設置,并開發一種在交互系統中表征用戶代理的方法。在本章的其余部分中,我們將介紹和激發后續章節的設置。

1.1 數據驅動的最優控制

在視頻游戲和圍棋中超越了人類的表現后,人們對將機器學習技術應用于規劃和控制重新產生了興趣。特別是,在開發自主系統與物理環境交互的連續控制新技術方面已經付出了相當大的努力。盡管在操縱等領域取得了一些令人印象深刻的成果,但近年來,由于自動車輛控制系統的故障。處理學習模型產生的錯誤不同于傳統的過程和測量噪聲概念。我們如何確保我們新的數據驅動自動化系統安全可信?

在本文的第一部分,我們試圖通過分析簡單的最優控制問題,為機器學習如何與控制接口建立理論理解的基礎。我們開發了基線來描述給定從具有未知組件的系統收集的固定數量的數據可實現的可能控制性能。標準最優控制問題旨在找到使給定成本最小化的控制序列。我們假設一個狀態為的動力系統可以被一個控制作用并服從動力學:

其中是過程噪聲。允許控制動作取決于系統狀態的觀測值,這可能是部分的和不完善的:,其中是測量噪聲。然后最優控制力求最小化:

這里,表示依賴于軌跡的成本函數,輸入允許依賴于所有先前的測量和動作。一般來說,問題(1.1.2)包含了強化學習文獻中考慮的許多問題。這也是一個一般難以解決的問題,但對于受限設置,控制理論中的經典方法在動力學和測量模型已知的情況下提供易于處理的解決方案。

當它的組成部分未知并且必須從數據中估計時,我們會研究這個問題。即使在線性動力學的情況下,推理機器學習錯誤對不確定系統演化的影響也是具有挑戰性的。第 2 章介紹了對我們的研究至關重要的線性系統和控制器的背景。它概述了系統級綜合,這是一個最近開發的優化控制框架,使我們能夠以透明和易于分析的方式處理不確定性。

在第 3 章中,我們研究了當系統動力學未知且狀態可以準確觀察時,機器學習如何與控制交互。我們分析了經典最優控制中研究最充分的問題之一,即線性二次調節器 (LQR)。在這種情況下,要控制的系統服從線性動力學,我們希望最小化系統狀態和控制動作的一些二次函數。我們通過考慮狀態和輸入都滿足線性約束的附加要求來進一步研究與安全性的權衡。這個問題已經被研究了幾十年并得到控制。無約束版本在無限時間范圍內具有簡單的封閉形式解決方案,在有限時間范圍內具有高效的動態規劃解決方案。約束版本在模型預測控制 (MPC) 社區中受到了廣泛關注。通過將線性回歸與穩健控制相結合,我們限制了保證安全性和性能所需的樣本數量。

在第 4 章中,我們轉向一個受以下事實啟發的設置:結合豐富的感知傳感模式(例如相機)仍然是控制復雜自主系統的主要挑戰。我們專注于實際場景,其中系統的基本動力學得到了很好的理解,并且與復雜傳感器的交互是限制因素。具體來說,我們考慮控制一個已知的線性動態系統,其部分狀態信息只能從非線性和潛在的高維觀測中提取。我們的方法是通過學習感知圖來設計虛擬傳感器,即從復雜觀察到狀態子集的地圖。表明感知圖中的錯誤不會累積并導致不穩定需要比機器學習中的典型情況更強的泛化保證。我們表明,魯棒控制或足夠密集的數據可以保證這種基于視覺的控制系統的閉環穩定性和性能。

1.2 社交數字系統中的反饋

從信用評分到視頻推薦,許多與人交互的機器學習系統都有時間反饋組件,隨著時間的推移重塑人口。例如,借貸行為可以改變人口中債務和財富的分布。招聘廣告分配機會。視頻推薦塑造興趣。在這些情況下使用的機器學習算法大多經過訓練以優化單個性能指標。此類算法做出的決定可能會產生意想不到的負面影響:利潤最大化貸款可能會對借款人產生不利影響,而假新聞可能會破壞民主制度。

然而,很難圍繞種群和算法之間的動態交互進行明確的建模或規劃。與物理系統不同,存在測量困難、可預測性有限以及將人類價值轉化為數學目標的不確定性。動作通常是離散的:接受或拒絕,選擇要推薦的特定內容。我們的目標是開發一個框架來闡明簡單決策規則的影響,而不是試圖設計一種策略來優化受不正確動態模型影響的可疑目標。因此,我們研究了在不使用最佳控制的完整框架的情況下量化和納入影響因素的方法。這項工作試圖重新構想機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則邁進。

第 5 章側重于相應的決策。從醫療診斷和刑事司法到金融貸款和人道主義援助,后續決策越來越依賴數據驅動的算法。現有的關于自動決策公平性的學術批評無限制的機器學習有可能傷害人口中歷史上代表性不足或弱勢群體。因此,已經提出了各種公平標準作為對標準學習目標的約束。盡管這些限制顯然旨在通過訴諸直覺來保護弱勢群體,但通常缺乏對此效果的嚴格論證。在第 5 章中,我們通過描述群體公平標準的延遲影響來將其置于語境中。通過以幸福的時間衡量來構建問題,我們看到僅靠靜態標準無法確保獲得有利的結果。然后我們考慮一個替代框架:直接對制度(例如利潤)和個人(例如福利)目標進行雙重優化。通過以特定的群體相關方式定義福利,可以通過雙重物鏡等效地看待被約束為遵守公平標準的決策。這種源自約束優化和正則優化之間的等價性的見解表明,公平約束可以被視為平衡多個目標的特例。

第 6 章側重于推薦系統,它提供了一系列不同的挑戰。通過推薦系統,個性化偏好模型可以調解對互聯網上多種類型信息的訪問。針對將被消費、享受和高度評價的表面內容,這些模型主要用于準確預測個人的偏好。提高模型準確性的重點有利于使人類行為變得盡可能可預測的系統——這些影響與極化或激進化等意外后果有關。在第 6 章中,我們試圖通過考慮用戶控制和訪問的概念來形式化一些風險價值。我們研究可達性作為在交互式系統中描述用戶代理的一種方式。我們開發了一種計算上易于處理的指標,可用于在部署之前審核推薦系統的動態屬性。我們的實驗結果表明,準確的預測模型在用于對信息進行分類時,可能會無意中使部分內容庫無法訪問。我們的理論結果表明,沒有內在的權衡,這表明可以設計出在保持準確性的同時提供代理的學習算法。

最終,將數據驅動的自動化集成到重要領域需要我們了解和保證安全、公平、代理和福利等屬性。這是動態和不確定系統中的挑戰。第一部分中介紹的工作朝著建立理論基礎邁出了一步,以保證數據驅動的最優控制的安全性。將重要屬性正式定義為易于處理的技術規范存在進一步的挑戰。對于代理和福祉等定性和上下文概念尤其如此。第二部分介紹的工作朝著評估提出的技術形式和闡明新的形式邁出了一步。為了在反饋系統中實現可信的機器學習,必須沿著這兩個方向取得進展。

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

算法公平性近年來在數據挖掘和機器學習領域引起了廣泛的關注。到目前為止,現有的研究主要集中在發展量化指標來衡量不同保護組之間的算法差異,以及調整算法輸出以減少這種差異的方法。在本文中,我們提出研究模型差異來源的識別問題。不像現有的解釋方法通常學習特征的重要性,我們考慮特征變量之間的因果關系,并提出了一個新的框架,將差異分解為公平意識的因果路徑的貢獻之和,這些路徑連接敏感屬性和最終預測,在圖上。我們還考慮了當這些路徑中的某些邊的方向無法確定時的情況。我們的框架也是模型無關的,適用于各種數量差異度量。對合成數據集和真實數據集的實證評價表明,我們的方法可以對模型差異提供精確和全面的解釋。

付費5元查看完整內容
北京阿比特科技有限公司