亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文分為兩個主要部分,在這兩個部分之前,我們分別對時序數據的特征分析做了簡要的介紹。

在第一部分中,我們研究了從非線性混合信號的觀測中恢復多維源信號的經典問題。本文表明,如果混合是由于一個充分可微和可逆但其他任意的非線性函數造成的,并且源的分量信號是統計獨立的,具有“非退化”的二階統計量,則這種恢復是可能的(直到源的原始分量信號的排列和單調縮放)。后一種假設要求源信號滿足三個規則條件之一,這些條件基本上確保源信號足夠遠離在時間上是確定的或恒定的不可恢復極端情況。這些假設涵蓋了許多流行的時間序列模型和隨機過程,允許我們將非線性盲源分離的初始問題重新描述為基于優化的函數逼近的簡單到狀態問題。本文提出通過最小化一種新的目標函數來解決這個近似問題,該目標函數通過類累積量統計有效量化了多個隨機過程之間的相互統計依賴性。這產生了一個可擴展的、直接的非線性獨立分量分析新方法,具有廣泛適用的理論保證,實驗表明該方法具有良好的性能。

在第二部分,我們從統計魯棒性的角度重新審視盲源分離問題。盲源分離(Blind source separation, BSS)旨在從混合信號X = f (S)中恢復未知信號S,且影響變換f可逆且未知。這是一個具有許多實際應用的基本問題,一個基本問題是了解當支持統計先驗假設被違反時,該問題的解決方案將如何表現。在經典的線性混合背景下,本文提出了一個通用框架來分析這種偏離,并量化它們對從x中盲恢復S的影響。在混合X的可能原因空間上引入了一種信息拓撲,并表明,可以以關于該拓撲的顯式連續性保證的形式對通用BSS-解決方案響應其定義結構假設的一般偏差的行為進行有益的分析。這使得可以靈活方便地量化一般模型的不確定性場景,并構成了第一個全面的BSS魯棒框架。該理論完全是建設性的,并用一些統計應用證明了它的有效性。 //ora.ox.ac.uk/objects/uuid:6187ba0d-d569-4f6f-914a-fee34f282d0f

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

本文從最大似然的角度分析了因果推理中的幾個問題。主要涉及兩種原型似然:連續數據的高斯似然和離散數據的多項似然。本文前半部分采用高斯似然進行檢驗和估計。基于因果圖的選擇,在第2章中,我們將使用似然比檢驗(likelihood ratio test, LRT)研究高斯分布下的邊緣獨立性和條件獨立性的檢驗。通過對LRT的漸近分布函數取點極值,引入了一類包絡分布。我們證明這些包絡分布是良好的,并導致一致一致的模型選擇過程。在第三章中,我們考慮在因果充分性和線性條件下總的因果效應的估計。我們推導了一個簡單的遞歸最小二乘估計量作為高斯誤差下的最小二乘估計量,它可以一致估計任何已知的總效應,無論是在點干預還是聯合干預下。此外,當與相當大的一類估計量比較時,該估計量被證明是漸近有效的,即使超出高斯假設。

//digital.lib.washington.edu/researchworks/handle/1773/47710

在后半部分,我們研究了工具變量(IV)模型與離散數據的推理。在第四章中,我們得到了多項抽樣下似然比統計量的非漸近尾界。這樣的界限是通過統計量的力矩產生函數在所有多項參數上一致地定界而建立的,這可以看作是Wilks定理的有限樣本版本。然后,在第5章中,將這些邊界與IV模型的凸參數化相結合,將統計推斷簡化為凸規劃。該方法提供了較強的保證,避免了識別和后選擇推理的困難。以越南征兵抽簽作為單調的工具,對兵役對年收入的分配效應進行了案例研究,說明了該方法。最后,我們研究了潛變量公式中平均處理效果的部分識別,并將其與量子力學中的Bell-CHSH不等式聯系起來。

付費5元查看完整內容

本文提出了計算概率神經網絡局部魯棒性的方法,特別是由貝葉斯推理得到的魯棒性。從理論上講,將貝葉斯推理應用到神經網絡參數的學習中,有望解決頻繁主義學習范式下出現的許多實際困擾問題。特別是,貝葉斯學習允許有原則的架構比較和選擇,先驗知識的編碼,以及預測不確定性的校準。最近的研究表明,貝葉斯學習可以導致更多的對抗魯棒預測。雖然從理論上講是這樣的,并且在具體實例中已經證明了這一點,但提高魯棒性的軼事證據并不能為那些希望在安全關鍵環境中部署貝葉斯深度學習的人提供足夠的保證。雖然有方法可以保證確定性神經網絡的魯棒性,但貝葉斯神經網絡權重的概率性質使這些方法不可操作。本文研究了貝葉斯神經網絡的魯棒性概念,允許同時考慮模型的隨機性和模型決策的魯棒性保證。本文提供了一種方法,可以為給定的貝葉斯神經網絡計算這些數量,這些方法要么對估計的精度有先驗的統計保證,要么有可靠的概率上下界。最后,我們將魯棒性作為神經網絡參數貝葉斯推斷的主要要求,并演示了如何修改似然,以推斷出具有良好魯棒性的后驗分布。對似然的修正使我們的方法對貝葉斯神經網絡的近似推理技術是透明的。

我們使用貝葉斯神經網絡來評估我們提出的方法的實用性,這些神經網絡訓練了幾個真實的數據集,包括空中碰撞避免和交通標志識別。此外,我們評估了使用五種不同近似推理方法近似推斷的貝葉斯后驗分布的魯棒性。我們發現,我們的方法為貝葉斯神經網絡提供了第一個可證明的魯棒性保證,從而使它們能夠部署在安全關鍵場景中。此外,我們提出的神經網絡參數的魯棒貝葉斯推理方法使我們能夠推斷出后驗分布,這大大提高了可證明的魯棒性,即使是在全色圖像上。概述經典計算機科學關注的是如何創建解決給定問題的程序。相應地,經典程序驗證是確保(通常通過形式證明)給定程序在每個實例[6]中正確解決給定問題的任務。近年來,計算機科學家們已經將他們想要解決的問題的類別擴大到那些過于復雜或定義欠佳而無法用經典編程范式處理的任務。在程序不能再由人類設計的地方,它們可以通過示例[57]學習。隨著學習到的解決方案變得比手工編碼的解決方案好得多,它們所應用的領域也變得更加復雜。學習具有最大潛在影響的領域也具有最大的危害風險,這并不奇怪[1,10]。針對這類任務(包括醫療診斷和自動駕駛汽車)的學習解決方案,在部署和獲得公眾信任之前,必須保證其安全性。不幸的是,為這些任務編寫經典程序的障礙也阻礙了它們的正式驗證[79]。此外,檢驗習得解的基本穩定性的初步嘗試揭示了它們顯著的脆弱性[136]。這種脆弱性表現為過度自信、不正確的預測,幾乎對學習算法的每個輸入都可能產生這種預測。

因此,如果我們想要利用機器學習算法的光明未來,我們必須確保它們在部署之前是安全的在這篇論文中,我們將關注到目前為止最流行和最強大的學習算法:深度神經網絡神經網絡是功能強大的函數逼近器,它有望在廣泛的任務中對先進性能的進步做出持續和重要的貢獻。神經網絡已經在諸如醫療診斷和病理以及控制和規劃等安全關鍵領域取得了顯著的強大性能。然而,在這些領域采用神經網絡的主要障礙是它們的預測缺乏可解釋性和可靠性[1]。我們將使用兩個主要漏洞來激發貝葉斯神經網絡(BNNs)的魯棒性研究,BNNs是由貝葉斯規則推斷的參數分布的神經網絡。第一個潛在的漏洞是確定性神經網絡(DNNs)缺乏校準的不確定性,即知道自己不知道什么[81]。當確定性神經網絡用于對統計上偏離訓練數據的數據點進行推斷時,這是一個特別的挑戰。在這種情況下,DNN經常會做出高度自信、不正確的預測,如果依賴這些預測,可能會導致糟糕的行為[104]。第二個弱點是對抗性的例子[136]。一個對抗性的例子是一個輸入,它被精心設計成與自然發生的輸入無法區分,但這會導致神經網絡在輸出中做出錯誤的分類或不安全的更改。在醫學診斷中,這可能是由于病理幻燈片色調的輕微變化而預測患者患有癌癥,或者在自主導航中,這可能是基于照明條件的輕微變化而預測轉向角度的較大變化[105]。對抗攻擊已被證明不僅在圖像分類[58]中存在安全隱患,在音頻識別[163]、惡意軟件識別[126]和自然語言處理[41]中也存在安全隱患。這些對安全性和安全性關鍵型應用程序構成了巨大的安全風險。當然,證明對抗實例的安全性是在安全關鍵環境下部署任何神經網絡的先決條件。

在過去幾年里,證明神經網絡預測的安全性一直是一個重要而活躍的研究領域,并且在有效證明對抗例子不存在方面取得了巨大進展[79,22,152]。雖然這滿足了我們的一個愿望(缺乏對抗性的例子),但確定性神經網絡在校準不確定性方面仍然提供很少的東西。特別是,給定一個確定性神經網絡和一個我們想要分類的輸入,通常的情況是,如果一個對抗的例子存在,那么它被錯誤地分類,置信度非常高[58]。這意味著,基于輸出,無法推斷輸入是否可能不正確或損壞。此外,有關于確定性神經網絡的研究表明,對于許多任務來說,對抗實例的存在是不可避免的[47,46],進一步說,魯棒確定性學習是不可能的[59]。雖然合理的局部驗證(證明不存在對抗性例子)對于向用戶保證在特定情況下的正確性能是必要的,但貝葉斯學習范式提供了一種系統的方法,可以在更一般的水平上減輕這些不可能結果的擔憂。通過引入校準的不確定性,貝葉斯神經網絡在理論和經驗上都被證明對對抗性例子具有更強的魯棒性,并且可以潛在地削弱或擊敗確定性網絡的不可能結果[53,23,7]。因此,在需要安全性和魯棒性證明的安全關鍵場景中,貝葉斯神經網絡似乎是一種自然和可行的部署方案。

盡管貝葉斯神經網絡有許多吸引人的特性,但無法用確定性神經網絡開發的技術直接分析貝葉斯神經網絡[168]。貝葉斯網絡與確定性網絡的主要區別在于前者的參數值具有后驗分布。為了驗證這種模型的魯棒性,必須找到一種方法來執行確定性神經網絡可用的正確性分析,同時以合理的方式考慮到范圍或可能的參數值。這樣做是在安全關鍵場景中安全部署貝葉斯神經網絡的必要前提。在這篇論文中,我們開發了一些工具,允許我們在貝葉斯環境下利用確定性神經網絡的魯棒性量化方面的進展。特別地,我們研究了貝葉斯神經網絡魯棒性的兩個概念,這允許從業者在給定貝葉斯神經網絡部署之前量化其最壞情況的行為。貝葉斯神經網絡魯棒性的第一個概念是概率魯棒性(在第4章中定義)。這允許從業者理解模型固有的隨機性及其對抗魯棒性之間的相互作用,也可以被視為不確定性的最壞情況度量。魯棒性的第二個概念是貝葉斯決策魯棒性。貝葉斯神經網絡除了在其權重上有一個分布之外,還與確定性神經網絡不同,因為我們必須對其預測分布和錯誤決策的風險或損失進行推理,以便做出預測。決策魯棒性考慮了考慮中的貝葉斯模型的決策過程,并允許我們證明即使在對手存在的情況下,也會發布正確的決策。這些定義允許我們量化貝葉斯神經網絡的概率正確性。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容

機器學習模型通常訓練存儲在通過網絡連接的多臺計算機上的數據。由于網絡的穩定性,單臺中央樞紐計算機處理和傳播信息通常是不可行的。克服這一瓶頸的解決方案是考慮類似于點對點和自組織無線網絡的去中心化網絡。也就是說,計算機在同一時間與其他計算機的一個子集通信,然后信息自然地通過網絡傳播。

本文研究了在這種分散框架下產生的模型的統計性能。通過將計算機網絡建模為圖中的代理,我們研究了兩種不同的統計設置:同質性,即存儲在計算機之間的數據遵循相同的分布;異質性,當分布不同時。在齊次環境下,受經驗風險最小化問題的激勵,我們考慮了一個簡單分散算法的學習性能:分布式梯度下降。具體地說,我們證明了在非參數回歸的情況下,可以通過隱式正則化和計算運行時的線性加速來保證學習性能,前提是計算機有足夠的數據量。相比之下,之前的工作主要是通過更通用的共識優化框架來關注優化性能,這并沒有對幕后更精細的統計結構進行編碼。更準確地說,我們演示了這種結構可以用于以下兩方面:允許通過算法參數隱式地控制模型復雜性; 并且由于統計集中的現象,代理所持有的信息可以是相似的。在非均相情況下,考慮了由高光譜解混引起的設置。具體來說,我們考慮同時恢復稀疏信號(與代理相關)的集合,這些稀疏信號以反映網絡拓撲的方式相關。簡而言之,底層分布中的差異是通過反映網絡的總變異懲罰來編碼的。當信號充分相關時,該方法比group lasso風格的方法節省了樣本復雜度。

//ora.ox.ac.uk/objects/uuid:40f1cd4d-4f43-46cf-a633-8301a6383e73

付費5元查看完整內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

幾十年來,研究人員一直在追求一個雄心勃勃的目標:設計出能夠像人類一樣有效地解決問題的計算機模型。人工神經網絡——一種通用的、可優化的模型,最初是受到大腦中的生物神經元的啟發——似乎提供了一個有希望的答案。然而,當前模型的一個重大限制是,它們往往只可靠地精通它們明確訓練過的任務和數據集。如果正在訓練多個任務或數據集,則需要適當地混合和平衡樣本,以便在連續批次的訓練中不會導致前批次學習到的知識的遺忘,這是持續學習的障礙。此外,需要通過成對的輸入目標樣本使訓練網絡的關聯明確,以實現其在期望任務上的最佳性能;當網絡在沒有明確目標的情況下以無監督方式進行訓練時,為了減少數據收集的成本,網絡學到的知識遷移到期望任務的效果明顯差于具有明確關聯的有監督訓練。

所有這些問題都與基本的泛化問題有關,泛化是指盡管面向新類但仍能表現良好的能力。在第二章中,我們討論了在有監督、無監督和持續學習環境下,可以預期產生良好泛化的條件,包括小模型大小和訓練和測試數據之間的相似性。第三章提出了一種預測模型何時不能泛化到測試樣本的方法,推導出泛化邊界,利用模型大小和與訓練數據的相似度來量化預測的可靠性。第四章介紹了一種聚類方法,該方法學習了如何在語義概念之間近似地分離數據,使用的是非監督目標不使用手動標簽。第五章包含了一種不需要專門訓練數據就可以執行目標定位任務的方法,即通過重新利用顯著性映射。第6章包含了一個持續學習的方法,在這個方法中,模型被迫重新考慮之前的知識與新知識并行,第7章使用了一個動態架構來抑制新學習片段對舊知識的干擾。如果沒有這些泛化問題的解決方案,神經網絡就無法從自然順序的、沒有注釋的現實世界數據中實時有效地學習,這限制了它們的部署選項。因此,泛化是一個具有巨大實際意義的問題,從理論上和從生物學啟發學習的角度來看都很有趣。

//ora.ox.ac.uk/objects/uuid:2d7f8f92-d730-40a5-a47c-0acd0998f0d0

付費5元查看完整內容

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

從應用的觀點來看,研究這本書的主要原因是幫助處理描述隨機、時變函數的復雜性。一個隨機變量可以被解釋為一個單一測量的結果。描述單個隨機變量的分布是相當簡單的。它完全由一個單變量的累積分布函數F(x)指定。在計算機上近似地表示一個累積分布函數是比較容易的。幾個隨機變量的聯合分布要復雜得多,一般用一個聯合累積概率分布函數F(x1, x2,…)來描述。它比n個單變量函數復雜得多。一個隨機過程,例如一個通信信道中的時變衰落模型,涉及許多,可能是無限多個隨機變量(在一個觀察區間內的每個時刻t都有一個)。

這本書幫助讀者準備理解和使用以下方法來處理隨機過程的復雜性:

這本書是為伊利諾伊大學香檳分校(University of Illinois at Urbana-Champaign)電子與計算機工程系(Department of Electrical and Computer Engineering)的隨機過程研究生第一學期課程而寫的。本課程假定學生上過概率論課程,在第一章簡要回顧。學生也應該熟悉實際分析和初級線性代數,如極限的概念、導數的定義、黎曼積分和對稱矩陣的對角化。這些主題將在附錄中回顧。最后,學生應該對變換方法和復變分析有一定的熟悉程度,盡管相關章節會對所使用的概念進行回顧。希望一些閱讀這本書的學生會發現,它們有助于理解系統工程的各種技術文獻,包括控制系統、信號和圖像處理、通信理論,以及各種網絡和算法的分析。希望一些學生能繼續設計系統,定義和分析隨機模型。希望其他人會有動力繼續學習概率論,繼續學習測度理論及其在概率論和分析中的應用。

本書的前四章在后面的章節中使用得非常多,所以大多數讀者在繼續閱讀之前應該先閱讀這些章節。第一章主要是對概率論第一課中發現的概念的回顧,重點是公理和期望的定義。希望對基本概率進行更廣泛回顧的讀者可以參考伊利諾斯大學ECE 313的作者筆記。第二章主要介紹隨機變量序列收斂的各種方法,以及概率論的基本極限定理:大數定律、中心極限定理和大偏差的漸近性態。第三章主要討論最小均方誤差估計和正交原理。基于創新序列從幾何角度解釋了卡爾曼濾波。第四章介紹了隨機過程的概念,并簡要介紹了幾個關鍵的例子和隨機過程的分類。本章將介紹馬爾可夫過程和鞅,但在以后的章節中將有更深入的討論。在第4章之后,下面的四個主題可以相互獨立地進行討論。第5章描述了馬爾可夫過程在建模和統計推斷中的使用。應用程序包括自然語言處理。第6章描述了馬爾可夫過程在動力學系統建模和分析中的應用。應用程序包括排隊系統的建模。第7-9章發展了基于均方收斂的隨機過程的演算,接著是線性濾波,正交展開,最后是因果和非因果維納濾波。第10章探討關于過濾的鞅,重點是初等集中不等式和可選抽樣定理。

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容
北京阿比特科技有限公司