亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

"強化學習(RL)是一個強大的決策制定和通過交互適應性學習的框架。盡管其核心是試錯學習,但它已成為人工智能(AI)研究的關鍵工具。在過去的十年中,RL算法已能夠掌握國際象棋和圍棋等戰略游戲,并控制各種機器人和工業平臺,從運動和操縱到電廠,甚至核聚變反應堆。通過將深度神經網絡(NN)作為函數逼近器納入其中,“深度RL”達到了處理高維狀態和動作空間的能力,并且原則上在任務間有更好的泛化性,使RL解決方案變得多樣化且有前景。然而,使用深度神經網絡帶來了某些警告。RL算法經常面臨由于過擬合和對超參數敏感導致的脆弱性問題,這些問題加劇了典型的RL挑戰,如低樣本效率、處理稀疏獎勵的困難、長期任務的延遲信用分配、對獎勵函數設計的敏感性。在這篇論文中,我們提出了一系列針對RL所面臨的一些問題的新穎貢獻,其最終目標是提高其在連續控制任務中的效率、穩健性和泛化性。具體來說,我們將介紹更穩健的軌跡優化方法,結合NN函數逼近用于策略學習、模型學習和獎勵學習。特別是,這項工作的大部分集中在零階優化用于模型預測控制,我們證明這比基于梯度的軌跡優化器更高效、穩健和可重現。在整篇論文中,我們將展示如何使用零階優化來有效解決稀疏獎勵任務,如何在模仿學習的背景下使用它,以及如何結合模型學習用于不確定性傳播。最后,我們將介紹一種從零開始學習獎勵函數的方法,以純自監督的方式。通過在模擬環境中的廣泛實驗,我們的方法在學習效率和性能上展示了顯著的提升,減少了與環境交互所需的次數,同時仍然實現了接近最優的解決方案。這項工作旨在提供一種解決深度RL挑戰部分問題的可行方法,不依賴于預定義的專家知識,解決學習過程的效率和穩健性問題。”

“雖然我們對于究竟是什么引發了人類的思維和批判性推理尚且遙遠不明,但有證據表明人類行為是通過強化學習引導的。強化學習(RL)的歷史可以追溯到20世紀,當時B.F. Skinner和I. Pavlov對動物進行了一系列關于條件反射的實驗 [1, 2],以理解學習背后的機制。心理學家E. Thorndike已經將動物的反應由其后果所強化的觀點,正式表述為“效果定律” [3]: 在特定情境中產生滿意效果的反應變得更有可能再次發生,在該情境中產生不適效果的反應變得不太可能再次發生。 —— Edward Thorndike Thorndike的效果定律假設動物不是通過推理,而是通過與物理環境的試錯互動來學習,直到獲得成功的結果。這種決策策略以回顧性方式將獎勵與行動聯系起來,與前瞻性觀點相對立,后者認為動物形成環境的場域圖作為學習的指導機制,也稱為“認知地圖” [4, 5]。”

“關于人腦的大量實驗證據表明,行為選擇存在多種機制 [6],決策過程既是反思性的(前瞻性)也是反射性的(回顧性),正如我們所預期的那樣。強化學習理論也以類似的方式發展,現在包括兩個主要分支:無模型(反射性)和基于模型(反思性)RL [7]。無模型RL學習在狀態和行動之間的反應性映射,以增加代理的獎勵,而無需了解環境的基本物理原理。相反,基于模型的RL則學習對世界的內部表征,用于學習每個行動的后果。與基于模型的RL類似,另一種計算性的前瞻性推理方法可以在模型預測控制(MPC)中找到,它在機器人學和許多工業過程中有效使用 [8, 9]。在MPC中,使用已知模型來迭代地優化給定的獎勵,同時考慮規劃范圍內的約束和來自環境的反饋。鑒于其提前規劃的組成部分,MPC也可以被看作是一種反思性決策制定的形式。 在這篇論文的過程中,我們將看到如何將基于模型和無模型的RL與MPC風格的迭代規劃相結合,以創建比單獨組件更強大的控制策略。例如,無模型RL算法能夠從大量數據中快速學習,但對訓練超參數敏感,泛化能力不佳,并且缺乏規劃組件,這可能導致在復雜環境中做出次優決策。另一方面,基于模型的RL方法有可能更靈活,但經常受到與模型估計相關的偏差的困擾,當以自回歸方式使用時,這些偏差可能迅速累積。將基于模型的RL與MPC整合起來可以提供兩全其美的解決方案,因為MPC提供了一個規劃框架,可以納入學習到的世界模型,并在規劃范圍內優化代理的行動。這可以導致更高效的決策制定策略,能夠從經驗中學習,適應不斷變化的環境,并隨著時間的推移優化它們的行為,同時具有反應性以及規避風險的特性。”

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。

在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。

第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。

在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。

付費5元查看完整內容

深度生成模型已經徹底改變了人工智能領域,從根本上改變了我們如何生成模仿或從訓練數據推廣出的新穎對象,以及我們訪問和消費各類信息(如文本、圖像、語音和計算機程序)的方式。它們有潛力徹底改變其他科學領域,從數學問題解決到支持高能物理中快速而準確的模擬,或是使快速天氣預報成為可能。在計算生物學中,生成模型對于改進我們對復雜生物過程的理解、設計新藥物和治療方法、以及預測大流行期間病毒的進化等方面,都擁有巨大的潛力,而這只是眾多應用中的一部分。然而,由于生物對象的固有復雜性,它們帶來了獨特的挑戰,包括龐大的空間、多種補充數據模式,以及高度結構化和相對非結構化組件之間的獨特相互作用。

在這篇論文中,我們開發了幾種由計算生物學中關鍵問題所驅動的深度生成建模框架。鑒于這一努力的跨學科性質,我們首先提供了關于生成建模、不確定性量化、順序決策制定,以及生物學和化學中重要概念的全面背景,以便徹底理解我們的工作。接著,我們深入探討我們貢獻的核心,圍繞三個章節進行構建。第一章介紹了學習生物序列表示的方法,為后續分析打下了基礎。第二章展示了如何利用這些表示來預測生物分子的復雜屬性,重點關注三個具體應用:蛋白質適應性預測、遺傳變異對人類疾病風險的影響,以及病毒免疫逃逸。最后,第三章致力于設計新型生物分子的方法,包括藥物靶點識別、從頭分子優化和蛋白質工程。

這篇論文還對更廣泛的機器學習挑戰,如高維空間中的不確定性量化或高效的變換器架構,作出了幾個方法論貢獻,這些貢獻在其他應用領域也具有潛在價值。我們最后通過總結我們的主要發現,強調當前方法的不足,提出未來研究的可能途徑,并討論該領域內的新興趨勢來結束這篇論文。

付費5元查看完整內容

語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。

在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。

在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。

接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。

雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。

聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。

本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。

付費5元查看完整內容

我們引入了一個解釋黑盒機器學習(ML)模型的框架,發現深度神經網絡的一個失敗模式是過度解釋,并討論如何應用ML方法進行治療設計,包括面向所有變種的COVID-19疫苗。盡管ML模型被廣泛部署并經常獲得比傳統方法更高的準確性,但深度學習模型在功能上很復雜且難以解釋,限制了它們在高風險環境中的應用。除了更安全的部署外,模型解釋還有助于科學發現,經過驗證的基于實驗數據訓練的ML模型可以用來揭示生物機制或通過生物上真實的目標函數設計治療方法,如疫苗的人群覆蓋。對于解釋黑盒ML模型,我們引入了一個與模型無關、忠實于基礎函數并且概念上直觀的方法,稱為“**足夠的輸入子集”(SIS)**方法。

我們用SIS在自然語言、計算機視覺和計算生物學環境中演示了ML模型的解釋。使用SIS框架,我們發現了深度神經網絡的一個新的失敗模式——過度解釋,這可能會妨礙在實際環境中的泛化能力。我們認為過度解釋是由于訓練數據集中存在退化信號引起的。接下來,使用已與實驗性免疫原性數據校準的ML模型,我們開發了一個用于計算設計穩健肽疫苗的靈活框架。我們的框架優化了每個人群中的??次覆蓋率,以激活更廣泛的T細胞免疫反應,考慮到個體之間肽免疫原性的差異,并減少由突變導致的疫苗逃逸的機會。使用這個框架,我們設計了對SARS-CoV-2的疫苗,其人群覆蓋率優于已發布的基線并在關注的變種中得到保留。我們通過我們的疫苗在體內對COVID-19進行的動物挑戰研究驗證了這種方法。這篇論文展示了模型解釋如何使ML方法能夠在生物環境中忠實部署的不同方式。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

機器學習有潛力革新生物學和醫療保健領域,為科學家和臨床醫生提供新工具進行研究,并決定對患者的正確治療。然而,盡管最近的表示學習方法給人一種普遍的黑箱解決所有問題的印象,但研究表明這并非一般情況。盡管模型可以以黑箱方式表現良好,但它們往往存在泛化能力低和對分布偏移敏感的問題。這凸顯了需要開發出考慮到下游應用的方法,并定制以將問題的對稱性納入模型架構的需求。這些歸納偏差對于新數據的性能以及當數據分布發生變化時模型保持穩健至關重要。然而,構建好的模型只是解決方案的一半。為確保模型能夠很好地轉化為臨床應用,他們也需要以這個目標為出發點進行適當的評估。//www.research-collection.ethz.ch/handle/20.500.11850/602440在這篇論文中,我在深入研究生物學、醫學和機器學習交叉處的結構化數據類型的同時,解決了上述問題。在算法貢獻方面,我首先提出了一種新的非線性降維算法,旨在保留多尺度關系。基因組測序的成本降低和測序單個細胞的能力導致生命科學中高維數據呈指數級增長。這樣的數據不能被直觀地理解,因此降維方法,能夠捕捉到生物學中存在的嵌套關系,成為必要工具。其次,我開發了適用于存在不規則采樣數據的臨床應用的方法。傳統的機器學習模型需要將此類數據轉換為固定大小的表示,或者在應用之前對缺失值進行插值。我提出了兩種適用于不規則采樣數據的方法,不需要進行此類預處理步驟。第一種是一種新的從MALDI-TOF光譜中提取峰值的核函數,而第二種是一種可以通過將它們描述為觀察集合應用于不規則采樣時間序列的深度學習模型。第三,我提出了一種擴展圖神經網絡的方法,允許模型考慮全局信息,而不是只要求節點與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用于表示小分子。第三,我展示了對圖神經網絡的擴展,允許模型考慮全局信息,而不是僅僅要求節點僅與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用來表示小分子。為了解決對這類模型的適當評估,我進行了一項關于醫療時間序列模型的詳細研究,重點在于它們在嚴重感染早期預測任務中轉移到其他數據集的能力。此外,我展示了傳統的評估圖生成模型的方法對超參數的選擇高度敏感,這可能導致性能估計偏差。總結來說,我的論文解決了許多在機器學習、醫療保健和生物學交叉點的問題。它演示了如何通過引入更多(領域特定)知識來改進模型,以及在評估這些模型時應關注的地方。

付費5元查看完整內容

在自然語言處理(NLP)領域的最新進展中,大規模預訓練語言模型(PLMs)發揮了重要作用,這些模型基于深度 Transformer 神經網絡。這些PLMs通過在大量無標簽文本上使用自監督學習技術進行模型的整體訓練,同時學習上下文化的單詞表示和語言建模,引發了一種范式轉變,將我們的焦點從為不同任務定制不同模型轉向將一個PLM適應所有任務。研究如何將通用PLM適應到特定的感興趣領域對于PLMs的部署具有重大意義。主流做法是在目標領域的標注數據集上對PLM進行微調,并使用特定任務的頭部。然而,對于大多數目標應用,標注數據有限,甚至在許多資源稀缺的場景中十分稀缺。PLM中的大量參數常常使這些小數據集難以利用語言先驗的力量。因此,即使在同一任務下,當一個在一個數據集上微調的PLM應用到具有一些領域間隙的另一個數據集時,由于過度擬合之前的訓練集,它有時會遇到性能下降。這種現象阻礙了PLMs在實踐中的廣泛應用,尤其是在面對新領域時,需要增強PLMs在適應過程中的泛化性能的方法,而無需請求更多的標注數據。

早期的領域適應方法,利用類似的源領域來提高目標領域上的模型性能,是基于使用傳統神經網絡(如LSTMs)的定制模型開發的。這些模型較淺,需要更長的訓練時間才能收斂,并且與PLMs相比沒有先驗知識。研究表明,一些流行的領域適應方法甚至可能損害PLMs在目標領域上的泛化性能。PLMs的獨特特性,如前所未有的規模、豐富的語言先驗和許多迄今為止未被深入探索的技能,可能成為無法控制的因素,使它們表現出與傳統模型不同的學習行為。為此,需要開發PLMs的算法,以提高它們的領域適應性能,從而加速它們在實際場景中的廣泛應用。

本論文的目標是探索可以高效利用目標領域標簽數據的技術,通過有效地從類似的源領域向目標領域轉移知識,更好地將給定的PLM適應到感興趣的目標領域。為了實現這個目標,我從機器學習流程中的三個角度進行研究,每個角度都假定只有特定的位置可以用可用的計算資源進行更新。也就是說,我們保持所有其他條件不變,只對輸入數據、模型表示和輸出預測分別進行更新。我們展示了如何在每個場景下用目標領域的有限標注數據獲得更好的泛化性能。總的來說,我們提出了一個新的算法,使用領域適應目標生成對抗性擾動,以增強在低資源場景下軟提示調優的可轉移性,一個新的模型優化算法,當優化任務分類器以適應競爭損失時,考慮對抗性領域判別器的下一步梯度,以及一個新的聯邦學習框架,校準條件概率分布,以在不同標簽分布下將同一PLM適應到多個領域。我們在以下章節中詳細介紹了具體問題、相關工作、詳細方法、廣泛實驗和深入討論,并闡明了如何在迎合新興學習范式的同時,依據傳統的機器學習方法。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容

序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標

在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容
北京阿比特科技有限公司