亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本論文旨在研究構建更高效且更強大模型的方法,重點聚焦于兩個方面:架構改進與優化方法。我們探討了一系列具有理論依據的架構修改,這些修改要么降低了計算成本,要么引入了有助于更高效模型利用的新特性。此外,我們還研究了現有的優化方法,以加深我們對神經網絡優化的理論理解,并使其更貼近實際應用,從而為未來構建更優的優化器提供更有依據的決策基礎。

在論文的第一部分,我們提出了三種對Transformer模型的增強,以應對處理長序列、提升數據效率和優化推理成本等關鍵挑戰。首先,我們提出了Landmark Attention機制,以提升處理長序列的效率,在我們的實驗中,該方法將推理成本顯著降低了一個大常數因子(達50倍)。通過在注意力機制中引入層級結構,Landmark Attention 能夠在推理階段處理任意長度的輸入,而不受訓練時序列長度的限制。接著,我們提出了DenseFormer架構,它允許后續層訪問前面所有層的輸出。得益于增強的信息流,DenseFormer 在保持與更深Transformer模型相同困惑度(perplexity)的同時,在內存效率和推理速度方面均優于基線模型。我們的實驗還揭示了信息流中意料之外的連貫模式,顯示出遠層激活被結構化重用的現象。最后,我們提出了CoTFormer以提升推理效率,其靈感來自大型語言模型中逐步推理的涌現能力。CoTFormer 通過對一個淺層模型的重復應用,實現了與更深模型相當的準確率。該方法雖然引入了額外計算開銷,但支持按token粒度靈活調整推理成本。我們的結果表明,在訓練自適應CoTFormer時,能在不損失精度的前提下,顯著減少計算成本,因其能自動將計算資源分配給最需要的token。

在論文的第二部分,我們聚焦于提升對神經網絡優化的理解,動因之一即源于在設計自適應CoTFormer優化方法時遇到的挑戰。我們構建了一個理論框架,用于研究參數擾動(parameter perturbation)以及屏蔽參數更新(masking parameter updates)對收斂性的影響。此外,我們通過理論分析與實證實驗,加深了對“大步長對于獲得更優模型至關重要”這一現象的理解。特別是,我們構造了一個受控實驗環境,使得小步長與大步長之間的差異可以被嚴格地觀測和驗證。

關鍵詞:語言模型、效率、優化、神經網絡、Transformers

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。

付費5元查看完整內容

隨著自動化系統的發展,機器學習正日益融入決策過程,并在諸如簡歷篩選、投資組合配置、貸款風險評估和保險審批等應用中為人類決策者提供支持。在本論文中,我探討了將機器學習與決策過程結合時所面臨的各類挑戰,重點關注數據偏差、魯棒性、公平性、異構數據源以及面向決策的建模等問題。在每一章中,我從不同角度研究這些問題,并提出相應的定制算法加以解決。 論文的第一部分聚焦于面向決策的訓練,即在預測模型訓練過程中將最終決策結果納入優化目標。研究表明,端到端學習問題的最優解對應于能引導至貝葉斯最優行為的預測結果。 第二部分則轉向處理預測系統輸出對人類生活產生實際影響的情形,特別是與公平性相關的問題。關于公平性的第一章研究了集中式環境下的群體公平(Group Fairness),并提出了一種包含無偏梯度估計的公平性正則項。這一方法簡化了收斂速率和泛化誤差界的構建,為在群體公平至關重要的現實應用中提供了一種可擴展的保障手段。 另一個與人類相關的數據問題是,出于隱私考慮,這些數據通常無法集中傳輸至服務器。第二章在此基礎上,將公平學習方法擴展至聯邦學習環境,其中不同客戶端持有數據集的不同部分。基于函數追蹤機制,該章節提出了一種適用于全局層面的群體公平性正則項,可與現有多數聯邦學習算法結合使用,且在計算與通信開銷方面要求較低。 論文的最后一部分再次回到決策問題,提出了一種方法,用于在目標領域中整合來自不同(可能存在偏差的)參考分布的信息以做出決策。該方法通過在各個參考分布周圍構造最優傳輸球(Optimal Transport Balls),并對其交集進行優化,從而使決策者能夠在所有參考分布一致的最壞情況分布下做出魯棒決策。 關鍵詞:機器學習、優化、面向決策的學習、公平學習、分布式魯棒優化

付費5元查看完整內容

將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。

首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。

接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。

最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。

付費5元查看完整內容

隨著神經網絡語言模型的廣泛應用,深入理解其內部運行機制的需求日益迫切。本論文旨在揭示大型語言模型(LLMs)內部潛在計算規律,為未來強大AI系統的監測、控制和對齊奠定理論基礎。基于開源語言模型,我們重點探索了四個關鍵領域:神經元層面的概念編碼、模型初始化間學習特征的普適性、時空表征的存在性,以及基礎動力系統建模。第二章改進了最優稀疏分類方法在神經網絡探測中的應用,通過這種稀疏探測技術,我們在全尺寸LLMs中同時發現了單語義神經元(專一編碼單一概念)和多語義神經元(疊加表征多個概念),驗證了簡化模型的預測。第三章通過計算大數據集上神經元激活的成對相關性,系統識別并分類了不同模型初始化間的普適性神經元。研究發現1-5%的神經元具有普適性特征,這些神經元往往具有明確的可解釋性,我們將其劃分為不同的神經元家族。為探究時空表征特性,第四章通過精心構建的現實世界實體數據集分析LLMs激活模式。研究發現模型能夠學習多尺度的線性時空表征,這些表征對提示變化具有魯棒性,且在不同實體類型間保持統一。我們識別出專門編碼空間坐標的"空間神經元"和時間坐標的"時間神經元"。第五章采用最優稀疏回歸技術改進了非線性動力系統稀疏識別(SINDy)框架,在典型微分系統中實現了樣本效率和支持恢復率的提升。基于此改進,我們進一步研究了LLMs在上下文學習中表征動力系統的能力,發現了跟蹤底層系統狀態的內部表征。

付費5元查看完整內容

場景流估計是描述時間上連續觀測之間的三維運動的任務。本論文旨在為構建具有兩個重要特性的場景流估計器奠定基礎:一是可擴展性,即它們能夠通過更多數據和計算資源提升性能;二是靈活性,即它們能夠在多種領域和運動模式中開箱即用,而無需大量的超參數調整。為此,我們解決了該領域中現有方法和評估協議的關鍵局限性。首先,我們提出了ZeroFlow,這是一種可擴展且完全無監督的方法,利用測試時優化的優勢生成高質量的偽標簽,然后用于高效訓練前饋網絡。這種蒸餾流程顯著提高了計算效率,在不依賴昂貴的人工標注的情況下,以數量級更快的推理速度實現了最先進的精度。接下來,我們發現了標準評估指標中的一個系統性缺陷,揭示了先前的場景流方法始終無法捕捉到小型或緩慢移動物體(如行人或騎行者)的運動。為了解決這一問題,我們引入了桶歸一化端點誤差(Bucket Normalized Endpoint Error),這是一種新的類別感知和速度歸一化的評估協議,能夠更準確、更全面地衡量估計器的質量,特別是強調對關鍵小型物體的性能。我們通過提出TrackFlow展示了新評估方法的有效性。TrackFlow是一種出奇簡單但有效的基線方法,它利用了高質量3D檢測器的性能。盡管TrackFlow在現有指標上勉強達到最先進的性能,但在我們改進的評估指標上,可以清楚地看出TrackFlow遠遠強于其他競爭對手。最后,我們提出了EulerFlow,這是一種無監督方法,通過在整個觀測序列上估計常微分方程(ODE),而不僅僅是兩個連續觀測,從而顯著重新定義了場景流估計。EulerFlow在多樣化場景中提供了非常強大的流估計,其簡單的ODE公式能夠在新領域中開箱即用,并實現了包括長時3D點跟蹤在內的新興能力。總的來說,這些貢獻代表了在可擴展、靈活和魯棒的場景流估計方面的重大進展,為未來研究和實際部署奠定了基礎,適用于從自動駕駛到機器人等多種應用中的運動理解。

付費5元查看完整內容

**

**我的論文聚焦于生成模型及其在離散數據中的應用。我們提出了新穎的算法,這些算法融合了最先進的生成模型的洞察和離散數據類型的領域特定知識。我們的算法旨在提高與訓練數據的屬性相似性、改善數據有效性,并提升生成輸出的整體質量。

**論文的第一部分探討了如何使用上下文無關文法將幾何圖像轉換為離散表示。我們討論了在大規模搜索空間中識別合適表示的有效且可擴展的技術。**論文的第二部分研究了變分自編碼器(VAE)在恢復嵌入在低維流形中的高維數據時的表現,評估了它們恢復流形和數據密度的能力。我們將對VAE的探索擴展到離散數據領域,特別是在分子數據生成中的應用。我們發現,一種增強VAE對連續數據流形恢復的算法,同樣顯著提高了離散數據生成的效果。我們利用ChEMBL數據集和兩個包含蛋白質靶標的活性分子小數據集研究了其優點和局限性。

**最后,針對生成穩定的三維分子這一挑戰,論文將一個非可微的化學預言模型——GFN2-xTB,納入去噪過程,以改善幾何結構和穩定性。通過在QM9和GEOM等數據集上的驗證,證明這種方法能夠顯著提高生成分子的穩定性。**生成模型通過學習訓練數據的分布來生成新的數據點。它們在許多領域有廣泛的應用,例如計算機視覺 [Goodfellow et al., 2014, Oord et al., 2016, 2017, Vahdat and Kautz, 2020]、自然語言處理 [Devlin et al., 2018, Radford et al., 2019]。一些生成模型的例子包括生成對抗網絡(GAN)[Goodfellow et al., 2014]、變分自編碼器(VAE)[Kingma and Welling, 2013]、擴散模型 [Ho et al., 2020, Song et al., 2020a, Song and Ermon, 2019, Song et al., 2020b]、自回歸模型和歸一化流 [Rezende and Mohamed, 2015] 等。生成模型將某些變量從一個分布(通常是高斯分布)轉換到一個目標分布,而目標分布是訓練數據集所屬的分布。

Goodfellow 等人(2016)指出,許多現實世界的數據(如圖像和文本)都存在于嵌入在高維空間中的低維流形上。因此,恢復數據所在的低維流形是學習數據分布的重要步驟。生成建模還與表示學習 [Bengio et al., 2013] 相關,其中通過學習輸出數據分布的過程中推斷出一個低維潛在表示,像 VAE 就是一個例子。生成模型有許多著名的應用,如圖像和語言。尤其是條件生成,作為一種有用的功能,已被廣泛應用于商業領域。例如,圖像修復模型 [Yu et al., 2018, Lugmayr et al., 2022] 能夠填補圖像中丟失或損壞的像素,語言條件的圖像生成模型(如 Stable Diffusion [Rombach et al., 2022] 和 Dall-E [Ramesh et al., 2021])能夠根據簡單的指令生成超現實的圖像,而語言翻譯功能已經無處不在于我們的數字生活中。

**生成模型還對程序生成和藥物發現等應用帶來了變革。在代碼生成的基礎模型中,如 Code Llama [Roziere et al., 2023] 和 AlpahCode [Li et al., 2022],現在已經能夠解決競爭級別的編程問題,盡管結果并不總是可靠。在藥物發現領域,機器學習的應用也取得了巨大進展。AlphaFold [Jumper et al., 2021] 可以預測蛋白質的 3D 結構,基于氨基酸序列,并且在結構預測的關鍵評估(CASP)競賽中排名第一,顯著超過了第二名的競爭者。DiffDock [Corso et al., 2022] 將擴散模型應用于蛋白質對接的姿態生成問題,超越了所有以前的方法,包括先前基于搜索的最先進方法。大量生成模型的應用為我們的現代世界帶來了真正的技術變革。****盡管我們在過去幾年取得了許多進展,但仍然面臨許多挑戰。例如,幻覺(hallucination)是生成模型中一個常見的問題,它表現為大型語言模型中的錯誤回答,在藥物發現中則表現為生成的分子在自然界中不存在。如今,生成模型通常具有極大的規模,參數量達到數萬億,因此它們依賴大量優質數據。本文將探索生成建模的機制,特別是 VAE 的相關機制。本文的另一個重點是改善離散數據的生成,尤其是在分子生成和程序合成方面的直接應用。此外,我們還探討能否利用連續數據生成方面的進展和理解來改善離散數據的生成。****生成模型的應用通常涉及生成符合特定目標的全新數據——無論是要與訓練數據在屬性上相似,還是要實現某些條件或無條件的目標。在本文中,我們將深入探討幫助生成模型實現這些目標的方法。本文的兩個核心主題是:i)研究當前生成模型的不足之處,它們如何影響生成質量,以及如何減輕這些影響;ii)如何通過利用領域知識,在計算約束下改善數據生成質量。**以下是本文未來章節的簡要總結:

  • 第二章(基于 Zhou 等人 [2021] 的論文),我們研究了一個程序合成問題,該問題涉及離散數據生成的挑戰。給定一個幾何圖像作為輸入,項目的目標是生成上下文無關文法(CFG)程序,這些程序可用于重建原始圖像。在這項工作中,我們將一個非可微的渲染器視為解碼器,并學習一個可解釋的編碼器,該編碼器利用 CFG 文法生成幾何圖像的低維程序表示。

  • 第三章(基于 Koehler 等人 [2021] 的論文)研究了 VAE 在流形和密度恢復中的行為——對于非線性合成數據,我們發現 VAE 并不保證能夠恢復高維訓練數據所處的底層流形。我們進一步研究了多階段 VAE 的效果,并展示了它可以改善合成數據上的流形恢復。

  • 第四章(基于 Zhou 和 Poczos [2023] 的論文),我們將多階段 VAE(已證明能改善合成數據的流形恢復)應用于分子生成任務。我們展示了在兩個任務中的生成分子屬性的改善:一個基于 ChEMBL 數據集 Mendez et al. [2019] 的通用生成任務,以及一個針對蛋白質靶標的生成任務,在兩個小型分子數據集上進行了微調。

  • 第五章,我們將一個非可微的化學預言器納入去噪過程,該預言器提供分子中每個原子的凈力信息,并利用這些信息指導反向擴散采樣過程,以實現生成樣本的更好穩定性。

** **** **

付費5元查看完整內容

通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。

此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。

付費5元查看完整內容

生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。

我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。

作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。

接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。

然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。

付費5元查看完整內容
北京阿比特科技有限公司