亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖自監督學習現已成為預訓練圖基礎模型的首選方法,包括圖神經網絡、圖變換器以及更多最近基于大型語言模型(LLM)的圖模型。圖的結構和屬性中嵌入了多種知識模式,這些模式可用于預訓練,但我們缺乏一個系統的綜述,以圖知識的角度來概覽自監督預訓練任務。在本文中,我們從知識基礎的視角全面綜述并分析了圖基礎模型的預訓練任務,包括微觀(節點、鏈接等)和宏觀知識(簇、全局結構等)。文中涵蓋了總共9個知識類別和25個預訓練任務,以及各種下游任務適應策略。此外,還提供了一個包含詳細元數據的相關論文的廣泛列表,地址為 //github.com/Newiz430/Pretex。

圖在各種真實世界的應用中普遍存在,展示出多樣化的知識模式[Zhang et al., 2022b]。隨著時間的推移,挖掘圖的技術已經從網絡嵌入發展到圖神經網絡(GNNs)、圖變換器以及更多最近的基于大型語言模型(LLM)的圖模型,這些合稱為圖基礎模型[Liu et al., 2023a]。圖上的自監督學習(SSL)已經成為一種強大的方法,用于發現大量未標注數據中的潛在模式[Kipf and Welling, 2016; Velickovi? et al., 2019],如圖1所示。為了實現更好的任務泛化性——圖基礎模型向各種下游任務泛化的關鍵能力,設計了各種類型的無監督預訓練任務,也稱為預文本,用于提取隱藏的監督信號以預訓練圖模型。之后,預訓練模型適應于各種應用場景,如節點分類、鏈接預測和推薦[Wang et al., 2023c]。本文提出了一個全面的綜述,關于圖基礎模型的自監督預訓練策略。我們的貢獻有兩方面。(i) 全面性:據我們所知,這是第一個涵蓋所有類型圖基礎模型的自監督預訓練綜述,包括GNNs、圖變換器和基于LLM的圖模型,使得可以進行統一分析以獲得更深入的見解。現有的綜述在這一領域僅限于一種類型的圖模型,如GNNs[Xia et al., 2022c; Xie et al., 2022b; Liu et al., 2022b]或基于圖的LLMs[Liu et al., 2023a; Jin et al., 2023],導致了一個不完整且分散的視角,忽略了GNNs和LLMs預訓練之間的關系。(ii) 基于知識的視角:現有綜述如[Xie et al., 2022b; Liu et al., 2022b; Liu et al., 2023a]廣泛地將圖SSL方法分類為“生成性(預測性)-對比性”。這種寬泛的分類不足以捕捉圖的獨特特性,圖的結構和屬性中嵌入了多樣化的知識模式。例如,預測鏈接的任務需要了解節點之間的局部關系,而預測簇的任務需要了解整個圖上節點的分布情況。為了更好地分析不同類型的圖自監督預訓練策略,我們提出了一個基于知識的分類法,將預訓練任務根據所利用的知識類型進行分類,如圖2所示:微觀知識(第3節)關注于節點級屬性和節點之間的局部關系,如鏈接和上下文子圖;宏觀知識(第4節)關注于對大部分或整個圖產生影響的大規模模式,如長距離相似性和簇。這樣的基于知識的分類法提供了一個統一的視角,不僅分析現有圖模型的預訓練策略,還有最新的基于LLM的圖模型(第5節),并探索圖基礎模型自監督預訓練的未來方向(第6節)。它為結合不同方法以創建更具泛化性和強大的圖學習者提供了靈感。

付費5元查看完整內容

相關內容

自監督學習(self-supervised learning)可以被看作是機器學習的一種“理想狀態”,模型直接從無標簽數據中自行學習,無需標注數據。

擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。

//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c

擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。

強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。

近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。

本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。

擴散模型的基礎

本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。

**在RL中擴散模型的角色 **

擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。

規劃器

在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。

策略

與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。

**數據合成器 **

除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。

結論

本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。

付費5元查看完整內容

圖形和關系學習方法的一個關鍵組成部分是對輸入圖或關系的向量表示的計算。本教程的出發點是,我們將此計算建模為查詢,將關系對象映射到實數向量空間的領域。然后,我們從這一統一的查詢語言視角重新審視了機器學習社區中關于圖學習方法表達能力的近期工作。在這里,我們考慮與輸入的區分以及函數的近似能力相關的表達能力。最后,我們認為,圖學習和查詢語言之間的橋梁為進一步的研究打開了許多有趣的途徑。

付費5元查看完整內容

近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。

//arxiv.org/abs/2305.16683

付費5元查看完整內容

在過去的幾年中,圖上的深度學習在各個領域取得了顯著的進展。然而,大多數圖學習任務假設圖是靜態的,而現實世界的圖可能會不斷增長或演變。因此,研究如何在不忘記之前學習的知識的情況下,不斷地使圖學習模型適應新的模式/任務是至關重要的。為此,在本教程中,我們將介紹持續圖學習(CGL)的新領域。具體來說,我們將(1)介紹不同的持續圖學習設置,(2)提出CGL中的關鍵挑戰,(3)強調現有的CGL技術,以及(4)討論未來的方向。本教程時長為3小時,包括150分鐘的演示和30分鐘的問答。

現實世界的圖通常是不斷增長或演變的。例如,新類型的論文可能會不斷添加到引文網絡中,而文檔分類器有望不斷適應并能夠對新類型的論文進行分類。在藥物設計研究中,可能會不斷地遇到具有新性質的分子,而分子性質預測器必須不斷地學習新的分子性質。現有的圖學習模型擅長學習新的模式/任務。然而,高可塑性也帶來了災難性遺忘問題,即模型在學習新任務后,對先前學習的任務的性能急劇下降。為此,CGL最近受到越來越多的關注,因此將在本教程中進行深入討論。

由于不同領域的圖形數據形式復雜,我們首先介紹CGL的形式化設置。具體來說,我們將解釋任務增量(task-IL)和類增量(class-IL)場景下的節點級任務和圖級任務。然后,基于這些設置,我們將介紹CGL的關鍵挑戰,以及與傳統的獨立數據(如圖像)上的持續學習的區別。接下來,我們將介紹現有的方法,包括專門為CGL開發的方法,以及適用于CGL的傳統持續學習方法。最后,在分析現有方法優缺點的基礎上,指出尚待解決的挑戰和未來的研究方向。

付費5元查看完整內容

近年來,基于異構信息網絡(HINs)的自監督預訓練方法與傳統的半監督異構圖神經網絡(HGNNs)相比顯示出了良好的競爭力。不幸的是,它們的性能嚴重依賴于精心定制各種策略,以生成高質量的正例和反例,這明顯限制了它們的靈活性和泛化能力。在這項工作中,我們提出了一種新的自監督異構圖預訓練方法SHGP,它不需要生成任何正例或負例。它由兩個共享相同注意力聚合方案的模塊組成。在每次迭代中,Att-LPA模塊通過結構聚類產生偽標簽,這些偽標簽作為自我監督信號,指導Att-HGNN模塊學習對象嵌入和注意系數。這兩個模塊可以有效地相互利用和增強,促進模型學習判別嵌入。在四個真實數據集上的大量實驗證明了SHGP對最先進的無監督基線甚至半監督基線的優越有效性。我們在//github.com/kepsail/SHGP發布源代碼。

付費5元查看完整內容

知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

開發智能和自主學習代理的關鍵挑戰之一是它們與人類有效互動的能力。在本教程中,我們計劃涵蓋交互式代理的理論和實踐基礎。具體而言,在本教程的第一部分中,我們將側重于單獨的人類行為模型,如何使用這些模型進行有效的協調,以及如何優化它們以影響伙伴。在本教程的第二部分,我們將繼續介紹共同適應的環境,在這種環境中,人類的偏好是不穩定的,他們會適應,我們將討論這如何導致新的規范、慣例和平衡的出現。最后,我們將介紹一些方法來推斷人類伴侶的偏好,這些方法使用交互式領域中呈現的一系列離線和在線數據源。在本教程中,我們還將討論自動駕駛、混合自主交通網絡、個人機器人和多智能體游戲中的應用實例。

//icml.cc/Conferences/2022/Schedule?showEvent=18436

付費5元查看完整內容

深度學習在經驗上非常有影響力,但在理論理解上滯后。神經網絡在結構和訓練算法上都比傳統的機器學習模型復雜得多,所以傳統的理論直覺可能不適用。本文旨在從理論上更好地理解深度學習中的泛化問題。在論文的第一部分,我們研究了所有數據都有標簽的監督設置下的泛化。我們的主要工具是泛化界:通過推導和研究泛化界,我們可以深入了解深度學習中影響泛化的各種因素。

首先,我們比較了正則化神經網絡和神經正切核(NTK)的統計特性。通過建立神經網絡常見的正則化訓練損失與基于輸出邊際的泛化界之間的聯系,我們證明了正則化神經網絡比NTK解具有更好的泛化效果。其次,我們基于邊緣的新概念——全層邊緣,推導出神經網絡的新泛化邊界。與傳統的基于規范的泛化測度相比,這些邊界更依賴于數據,更具有深度,并突出了數據依賴的Lipschitzness在泛化中的重要作用。我們以經驗證明,這些邊界對于激勵新的訓練目標和理解和解密現有的正則化策略是有用的。

在論文的第二部分,我們把我們的焦點轉向涉及未標記數據的設置。在這些情況下,很難證明為什么許多算法可以工作,盡管它們有廣泛的經驗成功。

首先,我們研究了視覺設置,并提出了一個理論框架來理解最近的半監督學習和領域適應的自訓練算法。通過利用自然圖像的現實結構屬性,我們表明,在未標記數據上的自訓練導致可證明的準確性增益。此外,我們的理論框架和相關假設可以用來表明,自監督對比學習在線性探針評價下獲得了可證明的良好特征。最后,我們研究了為什么預訓練語言模型可以幫助處理NLP設置中的下游任務。我們通過潛在的潛在變量生成模型來考慮預訓練和下游任務相關的設置。我們表明,當這個生成模型是HMM或記憶增強HMM時,預訓練允許解決下游任務的可證明保證。

//searchworks.stanford.edu/view/14230987

付費5元查看完整內容

對抗訓練是提高模型對抗擾動魯棒性的最有效技術之一。然而,這種方法對模型的全部影響還沒有被很好地理解。例如,雖然對抗訓練可以減少對抗風險(針對對手的預測錯誤),但它有時會增加標準風險(沒有對手時的泛化錯誤)。在本文中,我們關注于分布擾動對手框架,其中對手可以改變訓練數據分布的鄰域內的測試分布。鄰域是通過分布之間的Wasserstein距離定義的,鄰域的半徑是對手操縱能力的度量。我們研究了標準風險和對抗風險之間的權衡,并推導了在特征維數不變的無限數據限制下,在特定類型的模型上可實現的Pareto最優權衡。我們考慮了三種學習設置:1) 線性模型類的回歸; 2) 二元分類下的高斯混合數據模型,用線性分類器分類; 3)用一類隨機特征模型進行回歸(可等效表示為第一層權值為隨機的兩層神經網絡)。我們表明,標準風險和對抗性風險之間的權衡在所有三種情況下都得到了體現。我們進一步描述了Pareto最優權衡曲線,并討論了各種因素,如特征相關性、對手的力量或兩層神經網絡的寬度會如何影響這種權衡。

//www.zhuanzhi.ai/paper/e511cb93baf31c0a8c8549bd4b2a42ef

付費5元查看完整內容
北京阿比特科技有限公司