亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們目前正經歷著一場人工智能(AI)革命。生成式AI和特別是大型語言模型(LLMs)的顯著改進正在推動這場革命。然而,這些大規模AI系統雖然強大,但更難理解。一旦訓練完畢,它們的內部工作機制仍然是一個既迷人又可能令人恐懼的謎團。問題在于,作為這些系統的創造者,我們如何理解和控制它們,以及是什么驅動它們的行為。 在本論文中,我將嘗試通過機械解釋性(MI)的工具來理解深度神經網絡的某些特性。這些工具讓人聯想到神經科學家的工具:1)分析腦細胞的連接性(連接組學) 2)測量和分析神經元活動 3)測量在進行中的計算中的主動干預的效果。盡管對大型深度學習模型的嚴格理解尚不可及,但在本論文中,我將提供通過迭代解釋性實現這一目標的可能路徑的證據:一個設計、訓練和分析AI系統的迭代過程,其中通過MI獲得的洞察力導致更強大和更可解釋的模型。 首先,我提供了證據,證明在單獨研究時,可以理解Transformer(用于LLMs的人工神經網絡架構)令人著迷的上下文學習特性。作為第一步,我們分析了在少量回歸數據上訓練的小型Transformer模型的權重。通過使用MI的工具,我們可以逆向工程這些訓練好的Transformer,這些Transformer配備了線性自注意力層,并展示了它們在前向動態中基于梯度下降和上下文數據隱含地學習內部模型。 其次,我將解決這一簡單設置中的一個重要缺陷,并通過訓練自回歸Transformer更接近LLMs。在這里,我們訓練模型來預測由線性動態獲得的元素序列中的下一個元素。同樣,借助神經科學家的工具,我們可以逆向工程這些自回歸模型,并確定模型內部 i)構建優化問題 和 ii)通過基于梯度下降的算法解決這些問題。隱藏在模型權重中的這個算法允許我們在訓練后將模型重新用作上下文學習者。基于這些洞察,我們然后閉合了解釋性循環,并提出了一種新的自注意力層,該層可以在設計時在單個層內解決已識別的優化問題。在提供更好解釋性的同時,我們在簡單實驗和語言建模中展示了性能的改進。 第三,我將展示在元學習和持續學習背景下的另一個迭代解釋性的例子,我們在其中改進了著名的與模型無關的元學習(MAML)的性能和解釋性。MAML的目標是學習一種網絡初始化,使網絡能夠快速適應新任務。基于通過機械解釋性獲得的先前洞察,我們提出了稀疏MAML,這是一種MAML變體,此外還決定主動停止學習某些權重:它學會了在哪里學習。盡管在常見的少樣本分類和持續學習基準中表現出性能改進,稀疏MAML提供了一個成功解釋性循環的另一個例子,因為所學習的解決方案在設計上允許更好的解釋性。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

完全自動駕駛汽車有潛力大幅減少車輛事故,并革命性地改變人們的出行方式及我們的貨物運輸方式。自動駕駛系統面臨的許多主要挑戰來源于眾多需要與其他智能體復雜互動的交通情況。在可預見的未來,自動駕駛汽車將不得不與人類駕駛者和行人共享道路,因此不能依賴中央化的通信來應對這些互動場景。因此,自動駕駛系統需要能夠與表現出不確定行為的未知智能體進行協商和響應。為了解決這些問題,大多數商業自動駕駛堆棧采用模塊化方法,將感知、智能體預測和規劃分為獨立開發的模塊。然而,完全分離預測和規劃使得難以推理其他車輛對于控制自我車輛規劃軌跡的響應。因此,為了維持安全,許多模塊化方法在與其他智能體互動時不得不過于保守。理想情況下,我們希望自動駕駛汽車以自然而自信的方式行駛,同時仍然保持安全。

因此,在本論文中,我們將探索如何在自動駕駛中的高度互動和隨機多智能體場景下,使用深度學習和離線強化學習來執行聯合預測和規劃。首先,我們討論了在離線強化學習(RL)框架中使用深度學習進行聯合預測和閉環規劃的工作。其次,我們討論了直接解決在隨機多模態設置中使用學習模型進行規劃的困難的工作。第三,我們討論了如何通過使用基于變換器的交通預測模型作為我們的世界模型,來擴展到更復雜的多智能體駕駛場景,如在密集交通中合并。最后,我們討論了如何借鑒離線模型為基礎的RL,學習一個高層策略,選擇一套離線預訓練的駕駛技能進行有效控制,而無需額外的在線規劃。

想象這樣一個情景:一輛車在足球比賽后離開擁擠的停車場。大多數司機知道,在車輛挨著車輛的交通中,他們應該通過謹慎地主張自己的空間并推動前進來積極地行動。雖然這對于人類駕駛者來說是直覺的,但這些高度互動密集的場景對當前的自動駕駛汽車來說是一個主要挑戰。在這些情況下,我們需要一個健壯的模型來預測其他智能體可能的行為,以及關鍵地,他們可能如何動態地響應我們自己的行動。

然而,許多自動駕駛系統將周圍智能體的預測和自我車輛的運動規劃分為兩個獨立的過程。這種模塊分離限制了自我車輛預測其他智能體對其行動的反應的潛力,以及它如何能夠動態適應周圍交通的不同行為。因此,這些傳統的分離預測和規劃的方法在互動場景中容易導致次優的計劃,例如在停車場出口或高速公路合并時,如果不考慮這些動態的相互作用的話。為了避免這些問題并統一預測與規劃,自動駕駛汽車需要預測周圍智能體將如何與自我車輛的潛在行動互動,并相應地以閉環方式調整自我車輛的計劃。由于行人和交通的復雜多模態隨機性,進行這些互動預測特別具有挑戰性。其他智能體的軌跡往往強烈依賴于自我車輛直接無法獲取的信息,如他們的預定目標或駕駛風格。根據給定的交通情況,相同的自我車輛軌跡可能會從周圍的智能體那里得到截然不同的響應。例如,在合流到高速公路時,目標車道的車輛可能會為自我車輛讓路、加速以為自我車輛騰出空間,或者無視自我車輛,這取決于它們的駕駛風格和自我車輛的行動。在這篇論文中,我們研究如何使用深度學習模型來解決這些問題,并在這些復雜的隨機環境中進行聯合預測和規劃。

付費5元查看完整內容

在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。

第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。

第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。

總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。

付費5元查看完整內容

機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。

在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。

第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。

在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。

付費5元查看完整內容

深度生成模型已經徹底改變了人工智能領域,從根本上改變了我們如何生成模仿或從訓練數據推廣出的新穎對象,以及我們訪問和消費各類信息(如文本、圖像、語音和計算機程序)的方式。它們有潛力徹底改變其他科學領域,從數學問題解決到支持高能物理中快速而準確的模擬,或是使快速天氣預報成為可能。在計算生物學中,生成模型對于改進我們對復雜生物過程的理解、設計新藥物和治療方法、以及預測大流行期間病毒的進化等方面,都擁有巨大的潛力,而這只是眾多應用中的一部分。然而,由于生物對象的固有復雜性,它們帶來了獨特的挑戰,包括龐大的空間、多種補充數據模式,以及高度結構化和相對非結構化組件之間的獨特相互作用。

在這篇論文中,我們開發了幾種由計算生物學中關鍵問題所驅動的深度生成建模框架。鑒于這一努力的跨學科性質,我們首先提供了關于生成建模、不確定性量化、順序決策制定,以及生物學和化學中重要概念的全面背景,以便徹底理解我們的工作。接著,我們深入探討我們貢獻的核心,圍繞三個章節進行構建。第一章介紹了學習生物序列表示的方法,為后續分析打下了基礎。第二章展示了如何利用這些表示來預測生物分子的復雜屬性,重點關注三個具體應用:蛋白質適應性預測、遺傳變異對人類疾病風險的影響,以及病毒免疫逃逸。最后,第三章致力于設計新型生物分子的方法,包括藥物靶點識別、從頭分子優化和蛋白質工程。

這篇論文還對更廣泛的機器學習挑戰,如高維空間中的不確定性量化或高效的變換器架構,作出了幾個方法論貢獻,這些貢獻在其他應用領域也具有潛在價值。我們最后通過總結我們的主要發現,強調當前方法的不足,提出未來研究的可能途徑,并討論該領域內的新興趨勢來結束這篇論文。

付費5元查看完整內容

隨著社會技術化程度的不斷提升,我們使用機器執行越來越復雜的任務,這些任務范圍從駕駛輔助、視頻會議到探索行星。場景表示,即如何將感官數據轉換為環境的緊湊描述,是使這些系統成功并確保安全的基本屬性。一個有前景的方法是開發基于學習的系統,這些系統能夠根據觀察自我調整。

事實上,近年來深度學習已經徹底改變了計算機視覺領域。特別是更好的模型架構、大量的訓練數據以及更強大的計算設備使得深度學習系統具有前所未有的性能,并且它們現在在許多基準測試中設定了最新技術水平,這些測試范圍從圖像分類、物體檢測到語義分割。盡管這些成功,這些系統的運作方式仍然與人類認知有本質上的不同。特別是,大多數方法在2D領域操作,而人類理解圖像是三維世界的投影。此外,它們通常不遵循場景的組合理解,這對人類推理來說是基本的。在這篇論文中,我們的目標是開發場景表示,使自主代理能夠在復雜環境中穩定、安全地導航和行動,同時在3D中進行組合推理。為此,我們首先提出了一種用于基于深度學習的三維重建和生成建模的新型輸出表示。

我們發現,與以前的表示方法相比,我們基于神經場的方法不需要對3D空間進行離散化,就可以以恒定的內存占用實現任意分辨率的重建。接下來,我們開發了一種可微渲染技術,用于從2D觀察中推斷出這些基于神經場的3D形狀和紋理表示,并發現這使我們能夠擴展到更復雜、現實世界的場景。隨后,我們將我們的新型3D形狀表示與空間和時間上連續的矢量場相結合,以模擬運動中的非剛性形狀。我們觀察到,我們的新型4D表示可用于各種判別和生成任務,范圍從4D重建到4D插值,再到運動轉移。最后,我們開發了一種以對象為中心的生成模型,該模型可以以組合方式生成3D場景,并且允許對生成的場景進行逼真的渲染。我們發現,我們的模型不僅提高了圖像保真度,而且相比之前的工作,在僅從原始、未擺放的圖像集合中訓練的情況下,實現了更可控的場景生成和圖像合成。

付費5元查看完整內容

發現具有所需性質的新分子和新材料對我們成功應對全球挑戰,如氣候危機或新興疾病,至關重要。然而,在幾乎無限且離散的化學搜索空間中進行導航,同時又要尊重一系列多屬性目標,這是極具挑戰性的。在過去的幾十年里,化學工業不僅面臨著生產力下降,而且新材料和分子的研發成本也在不斷攀升。近期,分子生成模型結合虛擬篩選方法在高效、系統地探索化學空間上展示了有希望的結果。人們寄望于這些方法能加速分子的發現過程,特別是當它們與化學合成規劃工具和自動實驗室的機器人硬件配合使用時。然而,大多數生成模型都是針對簡單化、以化學為中心的目標進行優化,忽視了關于分子目標環境的系統級信息,因此不能用于生成條件性的分子以滿足一系列廣泛的目標。這篇論文主要研究如何開發可以根據語義環境進行查詢,靈活生成分子以滿足所需條件的條件性分子生成模型,而無需進行特定的優化。此外,該論文旨在通過開發具有關于連續性質的歸納偏見,且在預測此類性質上表現優秀的分子生成模型,以改進從頭設計和性質預測的“糾纏”。這是通過利用自然語言和有機化學之間的類比來實現的。

作為生成建模的先決條件,這篇論文的第一部分致力于構建分子性質的預測模型。第一章提出了一個簡單而穩健、可解釋的化學語言模型,該模型大量依賴數據增強,并被證明在一系列性質(如毒性)上表現出強大的性能。接下來的一章發展了用于預測蛋白質-配體結合親和力的蛋白質化學度量語言模型,并證明通過從蛋白質序列中去除超過95%的殘基,人類蛋白質激酶的結合親和力預測性能顯著提高。這篇論文的第二部分關注的主要目標是開發條件性分子設計的生成語言模型。利用強化學習優化方案中的性質預測器,得出一個可以在生物分子環境向量(例如,惡性腫瘤的基因表達簽名或一個目標蛋白質)上進行條件設置,并生成對此環境具有高親和力的分子的生成模型。實驗證明,這種方法具有很好的泛化性,即使在缺乏實驗數據的情況下,也能提出具有高選擇性的分子,針對未見過的蛋白質目標。在關于加速分子發現的案例研究中,提出的生成模型被集成到一個完全自動的工作流程中,這個過程涵蓋了回溯合成模型,合成協議生成,以及在機器人硬件上成功進行濕實驗室合成。最后一章提出了一個多任務語言模型,將回歸抽象為條件序列建模問題,從而統一了前面關于分子性質預測和條件生成的工作在同一模型中。這個模型不僅在回歸任務上表現出色,盡管依賴于分類損失,而且還可以同時對任意分子子結構和連續目標性質進行條件設置。如所示,這個模型在條件分子設計中超越了專門的方法,并且可以基于所需的性質引物,無需任何優化,就可以裝飾種子分子、蛋白質或化學反應。這在性質驅動的化學空間局部探索中找到了特別的應用,并為材料設計中的基礎模型鋪平了道路。

總的來說,這篇論文可能通過提供改善被視為下游化學合成和濕實驗室實驗考慮的平均假設質量的方法,為加速分子發現作出貢獻。

付費5元查看完整內容

數十年來,機器人在我們的日常生活中扮演了重要而隱秘的角色。我們每天依賴的許多產品,如汽車和藥品,都是通過機器人自動化生產的。這些系統將以更直接的方式進入我們的日常生活,他們的影響力不可避免地會減小。特別是腿部機器人,近期的進步終于使這些系統商業上可行,并將很快看到它們在物流、景觀工作和在建筑工地上協助工人的角色。然而,隨著它們的持續改進,操作它們的軟件和算法將需要能夠執行目前無法實現的更抽象的任務。毫無疑問,實現這一目標的方式之一將涉及利用機器學習技術的并發進步。

//www.research-collection.ethz.ch/handle/20.500.11850/614549

這篇博士論文正朝著這個目標努力,旨在幫助彌合現代機器人技術和機器學習技術之間的鴻溝。這項研究解決了實現更強大機器人系統所必需的兩個方面,即軟件和算法,并專注于深度強化學習(DRL)技術在解決腿部機器人,特別是四足機器人系統的運動控制問題的應用。為了統一上述領域,我們需要軟件系統能夠利用在Python中實現的DRL算法,并讓需要C++接口的研究人員和開發人員可以使用。因此,這項工作通過引入一個多功能的軟件工具箱,為機器人應用使用DRL算法做出了貢獻。它利用了最先進的機器學習平臺TensorFlow的Python API,用于構建包含神經網絡模型、梯度計算和隨機梯度下降優化器等組件的計算圖。這些圖可以在C++運行時環境中使用,以執行如訓練和部署等圖操作。此外,該工具箱在上述核心元素的基礎上,提供了對DRL的有用抽象,實現了幾種最先進的算法以及其他有用的實用工具。有了這個工具箱,我們提供了一個端到端的解決方案,用于設計、建模、訓練和部署神經網絡策略,這種策略專門為四足機器人ANYmal設計和測試。此外,復雜地形的行動對于有腿的機器人來說構成了重大挑戰。為了讓像ANYmal這樣的系統能夠在這樣的環境中自主運行,它們必須擁有謹慎規劃適合地形的立足點的方法,同時執行保證穩定性的運動。為了解決這個問題,本博士論文通過提出一種解決四足系統穿越非結構化地形的立足點選擇和步態生成問題的新方法,對算法的第二個方面做出了貢獻。這項工作主要圍繞一個框架進行,該框架用于制定馬爾科夫決策過程(MDPs),采用最新的基于模型的軌跡優化技術來評估動態可行性,取代了物理模擬。當與最先進的DRL算法一起使用時,這些MDPs會生成能夠在具有挑戰性的3D環境中規劃基礎姿勢、立足點位置和步態參數序列的地形感知神經網絡策略。這些所謂的步態規劃(GP)網絡,在與其他針對運動規劃和控制問題的最先進方法結合時,會產生有效的行動。這種方法已經在模擬中以及在ANYmal的物理平臺上得到了實驗驗證。

付費5元查看完整內容

深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

人類一生都在學習。他們從一系列的學習經驗中積累知識,記住基本概念,但不會忘記之前所學的知識。同樣,人工神經網絡也在努力學習。他們通常依賴于經過嚴格預處理的數據來學習特定問題的解決方案,如分類或回歸。特別是,如果接受新的訓練,他們會忘記過去的學習經驗。因此,人工神經網絡通常不能處理現實生活中的情況,比如自主機器人必須在線學習以適應新情況并克服新問題,而不忘記過去的學習經驗。持續學習(CL)是機器學習的一個分支,解決了這類問題。持續算法的設計目的是在不遺忘的學習經驗課程中積累和提高知識。在本論文中,我們提出探索具有重放過程的持續算法。重播過程集中了預演方法和生成重播方法。生成式再現是通過生成式模型來記憶過去的學習經驗。排練包括從過去的學習經驗中保存一組核心樣本,以便以后進行排練。回放過程使優化當前學習目標和過去學習目標之間的折衷成為可能,從而在任務設置序列中實現不遺忘的學習。我們表明它們是非常有前途的持續學習方法。值得注意的是,它們能夠用新的知識重新評價過去的數據,并從不同的學習經驗中對抗數據。我們展示了他們通過無監督學習、監督學習和強化學習任務持續學習的能力。

付費5元查看完整內容
北京阿比特科技有限公司