国产欧美日韩视频一区二区,一级黄色视频一区,国产成人亚洲综合无码A,亚州欧美日韩国产人成在线,精品人妻喷水白浆一区二区

非線性系統允許我們描述和分析物理和虛擬系統，包括動力系統、電網、機器人和神經網絡。涉及非線性的問題對在不確定性存在的情況下提供安全保證和魯棒性提出了挑戰。本文提供了利用非線性上界和下界知識的方法，解決了參數不確定的魯棒性驗證和優化問題。本文的前半部分發展了由一組非線性等式和不等式約束定義的非凸可行性集的凸約束。凸約束為求解非線性方程組提供了一個閉型凸二次條件。將原約束替換為所提出的條件，可將非凸優化問題求解為一系列凸優化問題，具有可行性和魯棒性保證。我們演示了它在模型預測控制(MPC)、神經網絡的魯棒性驗證、魯棒最優潮流(OPF)問題和機器人運動規劃中的應用。論文的第二部分關注非線性動力系統，并發展了驗證問題的可達性分析和約束輸入約束輸出分析。我們提供了一種基于優化的方法來計算標稱軌跡周圍的可達集。提出的方法使用收縮度量為可達集尋找模板。此外，我們開發了約束輸入-約束輸出分析來表征輸入和輸出信號的峰值量之間的關系。數值實驗證明了它們對一類廣泛的非線性系統的適用性。

//dspace.mit.edu/handle/1721.1/144602

付費5元查看完整內容

相關內容

博士論文

關注 118

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

麻省理工學院 (MIT) · 博士論文 · 奇異值分解 · 強化學習 ·

2022 年 9 月 22 日

[付費5元查看完整內容]【MIT博士論文】通過奇異值分解、端到端基于模型的方法和獎勵塑造的有效強化學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習(RL)為數據驅動決策提供了一個通用框架。然而，正是這種通用性使得這種方法適用于廣泛的問題，也導致了眾所周知的效率低下。在這篇論文中，我們考慮了有趣的決策類所共有的不同屬性，這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說，這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性，以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地，我們展示了如何在Bellman算子中找到相同的結構，我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構，以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后，我們進一步了解基于模型的端到端方法，以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角，我們得到了這些方法的屬性，這些屬性使我們能夠確定它們執行良好的條件。在本文的最后，探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法，通過使用基于潛在的獎勵塑造和提升函數近似，可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

麻省理工學院 (MIT) · 博士論文 · 多智能體強化學習 · 決策 ·

2022 年 9 月 21 日

[付費5元查看完整內容]【MIT博士論文】對抗場景中魯棒且可擴展的多智能體強化學習，123頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在許多現實世界的應用中，多主體決策是一個普遍存在的問題，如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性，以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為，這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法，目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下，一個挑戰是對手實際行為的高度不確定性，包括潛在的欺騙，這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理，對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題，該方法基于一種新的多樣性驅動的信念空間集合訓練技術，用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景，本文提出了一種可擴展的多智能體學習技術，該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新，這大大提高了采樣效率**。此外，本文還提出了一種新的隱式集成訓練方法，該方法利用多任務學習和深度生成策略分布，以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來，可以實現魯棒的、可擴展的離線策略學習。然而，完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此，本文還提出了一種安全的適應方法，既能適應新的對手，又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理，使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策，并通過計算效率學習安全地適應以前未見的對等智能體。

付費5元查看完整內容

決策 · 端到端學習 · 麻省理工學院 (MIT) · 博士論文 ·

2022 年 9 月 1 日

[付費5元查看完整內容]如何穩健決策？MIT最新博士論文《魯棒決策的端到端學習》234頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

由于物理世界是復雜的、模糊的、不可預測的，自主的智能體必須被設計成表現出人類水平的靈活性和通用性——遠遠超出我們顯式編程的能力。這種自主的實現不僅能夠可靠地解決特定的問題，而且還能夠預測可能出現的錯誤，以便制定戰略、適應和持續學習。要想做出如此豐富而復雜的決策，就需要在自主學習生命周期的所有階段重新思考智能的基礎。

在本論文中，我們開發了新的基于學習的方法，以實現自主系統的動態、彈性和穩健決策。通過解決在所有階段出現的關鍵挑戰，從用于訓練的數據，到在這些數據上學習的模型，再到算法，以可靠地適應部署期間的意外事件，來推進野外的魯棒決策。我們首先探索如何通過計算設計豐富的合成環境，能夠模擬連續的難以收集的、分布外的邊緣情況，在訓練和評估期間易于使用。利用這個豐富的數據基礎，我們隨后創建了高效、富有表現力的學習模型，以及優化其表示的必要算法，并克服了代表性不足和具有挑戰性的數據中的不平衡。最后，使用經過訓練的模型，我們將轉向部署設置，在該設置中，我們仍然應該預期我們的系統將面臨在訓練中從未遇到過的全新場景。為此，我們開發了自適應和不確定性感知算法來估計模型的不確定性，并利用它的存在來實現一般化的決策，即使是在存在意外事件的情況下。

付費5元查看完整內容

ICML 2022 · 強化學習 · 策略梯度 ·

2022 年 5 月 21 日

[付費5元查看完整內容]【ICML2022】魯棒強化學習的策略梯度法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法，用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度，它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法，并表明要實現-全局最優，復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境，并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后，我們提供了仿真結果，以證明我們的方法的魯棒性。

付費5元查看完整內容

可信任機器學習 · 反饋系統 · 加州大學伯克利分校 (UC Berkeley) · 博士論文 ·

2022 年 3 月 25 日

[付費5元查看完整內容]Berkeley博士論文《反饋系統中的可信機器學習》203頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【摘要】

機器學習是一種很有前途的處理復雜信息的工具，但它仍然是一個不可靠不可信的控制和決策工具。將為靜態數據集開發的技術應用到現實世界的問題中，需要克服反饋和系統隨時間變化的影響。在這些設置中，經典的統計和算法保證并不總是有效。在部署機器學習系統之前，我們如何預測機器學習系統的動態行為?為了確保可靠可信的行為，本論文采取步驟來發展對反饋設置中出現的權衡和限制的理解。

在第一部分，我們關注機器學習在自動反饋控制中的應用。受物理自治系統的啟發，我們試圖為數據驅動的最優控制器設計建立理論基礎。我們關注的是由線性動力學控制的系統，其未知組件必須從數據中表征出來。研究了經典最優控制問題線性二次調節器(LQR)設定中的未知動力學問題，證明了最小二乘估計和魯棒控制設計過程保證了安全性和有界次最優性。在機器人技術中使用攝像機的啟發下，我們還研究了控制器必須根據復雜的觀察來行動的設置，其中狀態的子集由未知的非線性和潛在的高維傳感器進行編碼。我們提出使用一種感知映射作為近似逆，并表明只要a)控制器是魯棒設計來解釋感知誤差或b)感知映射是從足夠密集的數據中學習到的，由此產生的感知控制環具有良好的特性。

在第二部分，我們將注意力轉移到算法決策系統，其中機器學習模型用于與人反饋。由于測量的困難、有限的可預測性以及將人類價值轉化為數學目標的不確定性，我們避開了最優控制的框架。相反，我們的目標是在一步反饋模型下闡明簡單決策規則的影響。我們首先考慮相應的決策，這是受信用評分中放貸的例子啟發。在一個簡單的影響模型下，我們表明，幾個群體公平約束，提出減輕不平等，可能損害群體，他們的目標是保護。事實上，公平標準可以被視為一個更廣泛框架的特殊案例，用于設計在私人和公共目標之間權衡的決策政策，其中影響和福祉的概念可以直接編碼。最后，我們轉向推薦系統的設置，該系統根據個性化的相關性預測從廣泛的選擇中進行選擇。我們開發了一個基于可達性的新視角，量化了代理和訪問。雖然經驗審計表明，為準確性而優化的模型可能會限制可達性，但理論結果表明，這不是由于固有的權衡，這表明了一條前進的道路。從廣義上講，這項工作試圖重新想象機器學習中普遍存在的預測模型的目標，朝著優先考慮人類價值的新設計原則前進。

1 引言

許多現代數字系統——從汽車到社交媒體平臺——都具有前所未有的測量、存儲和處理數據的能力。機器學習的并行進展推動了從這些數據中受益的潛力，其中巨大的數據集和強大的計算能力推動了圖像識別和機器翻譯等復雜任務的進步。然而，許多應用程序超出了處理復雜信息的范圍，而是基于它采取行動——從分類和轉變為做出決策和采取行動。將針對靜態數據集開發的技術應用于現實世界的問題需要處理隨時間變化的反饋和系統的影響。在這些設置中，經典的統計和算法保證并不總是成立。即使是嚴格評估性能也可能很困難。在部署機器學習系統之前，我們如何預測它們的行為？我們可以設計它們以確保良好的結果嗎？基本的限制和權衡是什么？

在本論文中，我們為各種動態設置開發了原則性技術，以實現可信機器學習的愿景。這項工作借鑒了控制理論中的工具和概念，控制理論在制定動態系統行為的保證方面有著悠久的歷史，優化提供了一種語言來表達目標和權衡，當然還有機器學習，它使用數據來理解和作用于世界。機器學習模型旨在做出準確的預測，無論是關于自動駕駛汽車的軌跡、償還貸款的可能性，還是對新聞文章的參與程度。傳統上，在靜態監督學習的框架中，這些模型一旦被用于采取影響環境的行動，就會成為動態系統的一部分（圖 1）。無論上下文是駕駛自動駕駛汽車、批準貸款還是推薦內容，將學習到的模型整合到策略中都會產生反饋循環。

圖1 盡管機器學習模型通常在大腦中以一個靜態的監督學習框架進行訓練(左)，但當部署時，它們成為反饋循環的一部分(右)。

在動態環境中使用靜態模型存在一些問題。無論是由于分布偏移、部分可觀察性還是錯誤累積，它們的預測能力都可能在反饋設置中失敗。監督學習通常旨在保證良好的平均情況性能，但平均工作良好的車道檢測器仍可能對特定圖像進行錯誤分類并導致崩潰。此外，用于進行準確預測的統計相關性實際上可能包含我們希望避免傳播的偏差或其他有害模式。在貸款決定中考慮申請人的郵政編碼可能在統計上是最優的，但會導致紅線的做法。推薦內容令人反感的視頻可能會增加參與度，但會損害觀看者的心理健康。應對這些挑戰需要仔細考慮如何使用機器學習模型，并設計確保理想結果和對錯誤具有魯棒性的策略。

在接下來的章節中，大致分為兩部分：數據驅動的最優控制和社交數字系統中的反饋。在第一部分中，我們展示了如何結合機器學習和魯棒控制來設計具有非漸近性能和安全保證的數據驅動策略。第 2 章回顧了一個框架，該框架能夠對具有不確定動態和測量誤差的系統進行策略分析和綜合。在第 3 章中，我們考慮了具有未知動力學的線性系統的設置，并研究了具有安全約束的經典最優控制問題的樣本復雜度。在第 4 章中，我們轉而關注復雜傳感模式帶來的挑戰，并為基于感知的控制提供保證。在第二部分中，從物理系統的動力學轉向對社會系統的影響，我們考慮學習與人互動的算法。在第 5 章中，我們描述了后續決策中公平和幸福之間的關系。我們將在第 6 章重點介紹內容推薦的設置，并開發一種在交互系統中表征用戶代理的方法。在本章的其余部分中，我們將介紹和激發后續章節的設置。

1.1 數據驅動的最優控制

在視頻游戲和圍棋中超越了人類的表現后，人們對將機器學習技術應用于規劃和控制重新產生了興趣。特別是，在開發自主系統與物理環境交互的連續控制新技術方面已經付出了相當大的努力。盡管在操縱等領域取得了一些令人印象深刻的成果，但近年來，由于自動車輛控制系統的故障。處理學習模型產生的錯誤不同于傳統的過程和測量噪聲概念。我們如何確保我們新的數據驅動自動化系統安全可信？

在本文的第一部分，我們試圖通過分析簡單的最優控制問題，為機器學習如何與控制接口建立理論理解的基礎。我們開發了基線來描述給定從具有未知組件的系統收集的固定數量的數據可實現的可能控制性能。標準最優控制問題旨在找到使給定成本最小化的控制序列。我們假設一個狀態為的動力系統可以被一個控制作用并服從動力學：

其中是過程噪聲。允許控制動作取決于系統狀態的觀測值，這可能是部分的和不完善的：，其中是測量噪聲。然后最優控制力求最小化：

這里，表示依賴于軌跡的成本函數，輸入允許依賴于所有先前的測量和動作。一般來說，問題（1.1.2）包含了強化學習文獻中考慮的許多問題。這也是一個一般難以解決的問題，但對于受限設置，控制理論中的經典方法在動力學和測量模型已知的情況下提供易于處理的解決方案。

當它的組成部分未知并且必須從數據中估計時，我們會研究這個問題。即使在線性動力學的情況下，推理機器學習錯誤對不確定系統演化的影響也是具有挑戰性的。第 2 章介紹了對我們的研究至關重要的線性系統和控制器的背景。它概述了系統級綜合，這是一個最近開發的優化控制框架，使我們能夠以透明和易于分析的方式處理不確定性。

在第 3 章中，我們研究了當系統動力學未知且狀態可以準確觀察時，機器學習如何與控制交互。我們分析了經典最優控制中研究最充分的問題之一，即線性二次調節器 (LQR)。在這種情況下，要控制的系統服從線性動力學，我們希望最小化系統狀態和控制動作的一些二次函數。我們通過考慮狀態和輸入都滿足線性約束的附加要求來進一步研究與安全性的權衡。這個問題已經被研究了幾十年并得到控制。無約束版本在無限時間范圍內具有簡單的封閉形式解決方案，在有限時間范圍內具有高效的動態規劃解決方案。約束版本在模型預測控制 (MPC) 社區中受到了廣泛關注。通過將線性回歸與穩健控制相結合，我們限制了保證安全性和性能所需的樣本數量。

在第 4 章中，我們轉向一個受以下事實啟發的設置：結合豐富的感知傳感模式（例如相機）仍然是控制復雜自主系統的主要挑戰。我們專注于實際場景，其中系統的基本動力學得到了很好的理解，并且與復雜傳感器的交互是限制因素。具體來說，我們考慮控制一個已知的線性動態系統，其部分狀態信息只能從非線性和潛在的高維觀測中提取。我們的方法是通過學習感知圖來設計虛擬傳感器，即從復雜觀察到狀態子集的地圖。表明感知圖中的錯誤不會累積并導致不穩定需要比機器學習中的典型情況更強的泛化保證。我們表明，魯棒控制或足夠密集的數據可以保證這種基于視覺的控制系統的閉環穩定性和性能。

1.2 社交數字系統中的反饋

從信用評分到視頻推薦，許多與人交互的機器學習系統都有時間反饋組件，隨著時間的推移重塑人口。例如，借貸行為可以改變人口中債務和財富的分布。招聘廣告分配機會。視頻推薦塑造興趣。在這些情況下使用的機器學習算法大多經過訓練以優化單個性能指標。此類算法做出的決定可能會產生意想不到的負面影響：利潤最大化貸款可能會對借款人產生不利影響，而假新聞可能會破壞民主制度。

然而，很難圍繞種群和算法之間的動態交互進行明確的建模或規劃。與物理系統不同，存在測量困難、可預測性有限以及將人類價值轉化為數學目標的不確定性。動作通常是離散的：接受或拒絕，選擇要推薦的特定內容。我們的目標是開發一個框架來闡明簡單決策規則的影響，而不是試圖設計一種策略來優化受不正確動態模型影響的可疑目標。因此，我們研究了在不使用最佳控制的完整框架的情況下量化和納入影響因素的方法。這項工作試圖重新構想機器學習中普遍存在的預測模型的目標，朝著優先考慮人類價值的新設計原則邁進。

第 5 章側重于相應的決策。從醫療診斷和刑事司法到金融貸款和人道主義援助，后續決策越來越依賴數據驅動的算法。現有的關于自動決策公平性的學術批評無限制的機器學習有可能傷害人口中歷史上代表性不足或弱勢群體。因此，已經提出了各種公平標準作為對標準學習目標的約束。盡管這些限制顯然旨在通過訴諸直覺來保護弱勢群體，但通常缺乏對此效果的嚴格論證。在第 5 章中，我們通過描述群體公平標準的延遲影響來將其置于語境中。通過以幸福的時間衡量來構建問題，我們看到僅靠靜態標準無法確保獲得有利的結果。然后我們考慮一個替代框架：直接對制度（例如利潤）和個人（例如福利）目標進行雙重優化。通過以特定的群體相關方式定義福利，可以通過雙重物鏡等效地看待被約束為遵守公平標準的決策。這種源自約束優化和正則優化之間的等價性的見解表明，公平約束可以被視為平衡多個目標的特例。

第 6 章側重于推薦系統，它提供了一系列不同的挑戰。通過推薦系統，個性化偏好模型可以調解對互聯網上多種類型信息的訪問。針對將被消費、享受和高度評價的表面內容，這些模型主要用于準確預測個人的偏好。提高模型準確性的重點有利于使人類行為變得盡可能可預測的系統——這些影響與極化或激進化等意外后果有關。在第 6 章中，我們試圖通過考慮用戶控制和訪問的概念來形式化一些風險價值。我們研究可達性作為在交互式系統中描述用戶代理的一種方式。我們開發了一種計算上易于處理的指標，可用于在部署之前審核推薦系統的動態屬性。我們的實驗結果表明，準確的預測模型在用于對信息進行分類時，可能會無意中使部分內容庫無法訪問。我們的理論結果表明，沒有內在的權衡，這表明可以設計出在保持準確性的同時提供代理的學習算法。

最終，將數據驅動的自動化集成到重要領域需要我們了解和保證安全、公平、代理和福利等屬性。這是動態和不確定系統中的挑戰。第一部分中介紹的工作朝著建立理論基礎邁出了一步，以保證數據驅動的最優控制的安全性。將重要屬性正式定義為易于處理的技術規范存在進一步的挑戰。對于代理和福祉等定性和上下文概念尤其如此。第二部分介紹的工作朝著評估提出的技術形式和闡明新的形式邁出了一步。為了在反饋系統中實現可信的機器學習，必須沿著這兩個方向取得進展。