亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著先進計算技術和人工智能的快速發展,復雜系統和應用程序迎來了新紀元,尤其是在自動駕駛汽車(AV)和機器人領域。這些系統越來越多地需要在動態和不確定的環境中自主決策。強化學習(RL)在這一背景下成為了關鍵技術,為通過與環境互動來學習最優決策策略提供了框架。然而,確保這些決策的安全性和可信性仍然是一個重要的挑戰,特別是在安全至關重要的應用場景中,如自動駕駛。本論文針對這一挑戰,提出了創新的基于RL的方法,結構分為三個既獨立又相互關聯的部分,每一部分都專注于安全且可信決策制定中的不同方面。論文的主線是探索和改進RL技術,以確保自主決策系統在復雜、動態環境下的安全性和可靠性。首先,本論文奠定了RL在決策制定中的基礎,特別是在不確定和動態的環境下。該部分聚焦于增強RL,以應對現實世界的復雜性,例如在自動駕駛場景中與不可預測的代理(如人類駕駛員)互動,以及在離線RL設置中處理分布偏移問題。這為理解和提升自主系統在不確定條件下的決策能力奠定了基礎。在第一部分的基礎上,第二部分探討了層次化規劃與RL的集成。該部分重點在于創建一種框架,將不同層次的決策制定相結合,平衡即時的低層次安全問題與高層次戰略目標。該方法旨在應對傳統RL在復雜多代理環境和長時間任務中的局限性,從而在實時決策中展示出更好的適應性和效率。第三部分則呈現了對RL的前瞻性方法,重點在于離線和在線學習方法的整合。這一部分解決了在探索可能代價高昂或危險的場景中,安全有效地訓練RL代理的問題。通過將大規模離線數據(如專家示范)的優勢與在線學習相結合,本部分提出了一個新的框架,以增強RL代理在實際應用中的安全性和性能。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

強化學習(RL)是一種框架,代理通過與環境交互獲取數據驅動的反饋,利用獎懲機制學習如何做出決策。深度強化學習(Deep RL)將深度學習與強化學習相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。在深度RL框架下,我們的機器學習研究社區在使機器能夠在長時間范圍內做出連續決策方面取得了巨大的進展。這些進展包括在Atari游戲中達到超越人類的表現[Mnih等,2015],掌握圍棋并擊敗世界冠軍[Silver等,2017],提供強大的推薦系統[Gomez-Uribe和Hunt,2015,Singh等,2021]。本論文的重點是識別一些阻礙RL代理在特定環境中學習的關鍵挑戰,并改進現有方法,以提高代理的性能、樣本效率以及學習到的策略的泛化能力。

論文的第一部分 我們關注單智能體RL環境中的探索問題,在這種環境中,代理必須與復雜環境交互以達成目標。如果一個代理無法充分探索其環境,它不太可能達到高性能,因為它會錯過關鍵的獎勵,從而無法學習到最優行為。一個關鍵挑戰是稀疏獎勵環境,在這種環境中,代理只有在任務完成后才會收到反饋,使得探索更加困難。我們提出了一種新的方法,能夠實現語義探索,從而在稀疏獎勵任務中提高樣本效率和性能。

論文的第二部分 我們聚焦于合作的多智能體強化學習(MARL),這是對傳統RL設定的擴展,考慮了多個代理在同一環境中為完成共享任務而進行的交互。在需要多個代理高度協調且對失誤有嚴格懲罰的多智能體任務中,當前的最先進MARL方法往往無法學會有用的行為,因為代理容易陷入次優均衡。另一個挑戰是所有代理的聯合動作空間的探索,其規模隨著代理數量呈指數級增長。為了解決這些挑戰,我們提出了創新的方法,如通用價值探索和可擴展的基于角色的學習。這些方法促進了代理之間的更好協調、更快的探索,并增強了代理適應新環境和新任務的能力,展示了零樣本泛化能力,并提高了樣本效率。最后,我們研究了合作型MARL中的獨立策略方法,在該方法中,每個代理將其他代理視為環境的一部分。我們展示了這種方法在流行的多智能體基準測試中表現優于最先進的聯合學習方法。總之,本論文的貢獻顯著改善了深度(多智能體)強化學習的現狀。論文中開發的代理能夠高效地探索其環境,提高樣本效率,學習需要顯著多智能體協調的任務,并實現跨不同任務的零樣本泛化。

付費5元查看完整內容

機器學習模型容易受到多種利用訓練模型數據泄露的攻擊。差分隱私(DP)是量化隱私風險并提供對抗攻擊的可證明保證的黃金標準。然而,在差分隱私下訓練機器學習模型通常會導致顯著的效用下降。本論文研究如何在差分隱私機器學習中有效地從數據中學習并生成數據。

為了在隱私保護的方式下有效地從數據中學習,首先需要識別可以利用的先驗信息類型。首先,我們研究了標簽-DP 設置,即特征信息公開,而標簽信息私有。我們通過利用公共特征來減少噪聲的添加,進而降低噪聲的影響,以此來提高標簽-DP 下的模型效用。其次,我們研究了如何利用合成圖像來改進差分隱私圖像分類。盡管這些合成圖像是在沒有訪問真實圖像的情況下生成的,并且對非隱私訓練幫助有限,我們發現這些合成圖像可以為差分隱私圖像分類提供更好的先驗。我們進一步研究了如何最大化這些合成先驗的使用,以充分釋放它們在改進隱私訓練中的潛力。

第三,我們研究了零階優化的私有化。零階優化已被證明在微調大型語言模型時與 SGD 性能相當,我們提出了 DPZO。我們的關鍵見解是,在零階優化中,從私有數據中派生的信息僅為一個標量。因此,我們只需對這個標量進行私有化。這種方法隱私友好,因為我們只需為標量添加噪聲,而不是對高維梯度加噪。第四,對于差分隱私的合成數據生成,我們研究了在不進行微調的情況下,僅通過訪問大型語言模型 API 來私有地生成數據。我們提出的方法可以為大型語言模型中的上下文學習提供隱私保護,同時支持無限查詢。 綜上所述,本論文探討了如何在差分隱私機器學習中有效地從數據中學習并生成數據,并提供了在實踐中設計隱私保護機器學習模型的方向。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:

貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。

貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。

本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?

//normalization-dnn.github.io

付費5元查看完整內容

強化學習(RL)使智能體能夠通過動態環境中的交互學習最佳決策。深度學習和強化學習的最新進展使得智能體在各個領域都取得了前所未有的成功,并在許多任務中取得了超人的表現。RL和深度學習影響了當今學術界和工業的幾乎所有領域,將它們應用于信息檢索(IR)的興趣越來越大。像谷歌和阿里巴巴這樣的公司已經開始使用基于強化學習的搜索和推薦引擎來個性化他們的服務,并在他們的生態系統中增強用戶體驗。

目前學習RL的在線資源要么專注于理論,犧牲了實踐,要么局限于實踐,缺乏足夠的直覺和理論背景。這個全天的教程是為信息檢索研究人員和實踐者精心定制的,以獲得最流行的RL方法的理論知識和實踐經驗,使用PyTorch和Python Jupyter 筆記本谷歌Colab。我們的目的是讓參加者具備RL的應用知識,幫助他們更好地了解有關RL的最新IR出版物,并使他們能夠使用RL解決自己的IR問題。

我們的教程不需要任何關于該主題的知識,并從基本概念和算法開始,如馬爾科夫決策過程,探索與利用,Q-學習,決策梯度和Actor-Critic算法。我們特別關注強化學習和深度學習的結合,使用深度Q-Network (DQN)等算法。最后,我們描述了如何利用這些技術來解決代表性的IR問題,如“學習排序”,并討論了最近的發展以及對未來研究的展望。

目錄內容: RL Basics and Tabular Q-Learning Deep Q-Network (DQN) 1/2 (presentation) Deep Q-Network (DQN) 2/2 (hands-on) IR Applications using DQN Policy Gradient (REINFORCE) IR Applications using REINFORCE Actor Critic Outlook

付費5元查看完整內容
北京阿比特科技有限公司