潛在擴散模型(LDMs)作為一類強大的生成模型,已在圖像合成等領域展示了驚人的成果。然而,訓練高分辨率的擴散模型在像素空間可能極其昂貴。為克服這些限制,潛在擴散模型首先使用自編碼器將高分辨率數據映射到一個壓縮的、通常是低維的潛在空間,然后在該潛在空間中更高效地訓練擴散模型。因此,LDMs在避免過度計算需求的同時實現了高質量圖像合成。此外,具有自編碼器的LDM范式,可針對特定問題和數據進行定制,并在潛在空間中使用獨立的擴散模型,提供了極大的靈活性,適用于架構和模型設計。這使得LDMs能成功擴展到圖像生成之外的各種任務,如視頻合成、3D對象和場景生成、語言建模等。最著名的例子是文本到圖像模型Stable Diffusion,它利用了LDM框架。LDMs在生成模型文獻中已變得非常流行和廣泛使用。
在本教程中,我們旨在提供LDMs的介紹。雖然擴散模型的文獻已經很廣泛,但LDM范式由于其靈活性以及在性能和計算需求之間的出色權衡而特別突出。我們的目標是呈現一個LDM教程,有助于對高效且靈活但富有表現力的生成模型框架感興趣的研究者。我們還將強調加速采樣和可控性的高級技術,并討論LDMs在圖像合成之外的各種應用。此外,一個小組討論將提供這一動態領域的多元視角,并為未來對LDMs的研究提供展望。 本教程專注于潛在擴散模型。對于擴散模型的一般教程,我們推薦參考在CVPR'22和CVPR'23上展示的、已錄制并公開可用的教程。
大型的、過度參數化的模型(如神經網絡)現在是現代機器學習的主力。這些模型通常在有噪聲的數據集上訓練到接近于零的誤差,同時很好地泛化到未見過的數據,這與教科書中關于過擬合風險的直覺形成了對比。與此同時,近乎完美的數據擬合可能在魯棒性、隱私和公平性的背景下存在嚴重的問題。由于過度參數化,經典的理論框架幾乎沒有為導航這些問題提供指導。因此,發展關于過擬合和泛化的新直覺至關重要,這些直覺反映了這些經驗觀察。在本教程中,我們將討論學習理論文獻中的最新工作,這些工作為這些現象提供了理論見解。 參考文獻: * Hastie, Trevor and Montanari, Andrea and Rosset, Saharon and Tibshirani, Ryan J (2022). Surprises in high-dimensional ridgeless least squares interpolation. Annals of Statistics. * Bartlett, Peter L and Long, Philip M and Lugosi, Gabor and Tsigler, Alexander (2020). Benign overfitting in linear regression. PNAS. * Muthukumar, Vidya and Vodrahalli, Kailas and Subramanian, Vignesh and Sahai, Anant (2020). Harmless interpolation of noisy data in regression. IEEE Journal on Selected Areas in Information Theory. * Wang, Guillaume and Donhauser, Konstantin and Yang, Fanny (2022). Tight bounds for minimum ?1-norm interpolation of noisy data. In: AISTATS. * Donhauser, Konstantin and Ruggeri, Nicolo and Stojanovic, Stefan and Yang, Fanny (2022). Fast rates for noisy interpolation require rethinking the effects of inductive bias. In: ICML. * Hsu, Daniel and Muthukumar, Vidya and Xu, Ji (2021). On the proliferation of support vectors in high dimensions. In: AISTATS. * Muthukumar, Vidya and Narang, Adhyyan and Subramanian, Vignesh and Belkin, Mikhail and Hsu, Daniel and Sahai, Anant (2021). Classification vs regression in overparameterized regimes: Does the loss function matter?. Journal of Machine Learning Research. * Frei, Spencer and Vardi, Gal and Bartlett, Peter and Srebro, Nathan and Hu, Wei (2023). Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data. In: ICLR. * Frei, Spencer and Vardi, Gal and L., Peter and Srebro, Nathan (2023). Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from KKT Conditions for Margin Maximization. In: COLT. * Xu, Xingyu and Gu, Yuantao (2023). Benign overfitting of non-smooth neural networks beyond lazy training. In: AISTATS.
一個子圖是通過使用給定圖的頂點和邊的子集構造的。存在許多圖屬性對于子圖是遺傳的。因此,不同社區的研究人員對研究眾多的子圖問題,除了普通的圖問題,給予了很大的關注。在研究子圖問題時提出了許多算法,其中一個常見的方法是通過提取給定圖的模式和結構。由于某些類型的圖的結構復雜,為了提高現有框架的整體性能,最近在處理各種子圖問題時采用了機器學習技術。在本文中,我們對使用機器學習方法解決的五個著名的子圖問題進行了全面的回顧。它們是子圖同構(計數和匹配)、最大公共子圖、社區檢測和社區搜索問題。我們概述了每種提出的方法,并檢查了其設計和性能。我們還探索了每個問題的非學習算法,并進行了簡要的討論。然后,我們建議在這個領域一些有希望的研究方向,希望可以使用類似的策略來解決相關的子圖問題。由于近年來采用機器學習技術有了巨大的增長,我們相信這次調查將為相關的研究社區提供一個很好的參考點。
這本開放獲取的書籍討論了超圖計算的理論和方法。許多數據之間的底層關系可以用圖表來表示,例如在計算機視覺、分子化學、分子生物學等領域。在過去的十年中,人們開發了基于圖的學習和神經網絡方法來處理這類數據,它們特別適合處理關系學習任務。然而,在許多實際問題中,我們關心的對象之間的關系比兩兩之間的關系更復雜。簡單地將復雜的關系壓縮為兩兩的關系必然會導致信息的丟失,這些信息對于學習任務來說可以預期是有價值的。超圖作為圖的一種延伸,已經顯示出與圖相比在建模復雜關系方面的優越性能。近年來,超圖相關的AI方法的研究越來越受到歡迎,這些方法已經被用于計算機視覺、社交媒體分析等。我們將這些嘗試總結為一種新的計算范式,稱之為超圖計算,其目標是使用超圖來表述數據底層的高階關聯,然后針對不同的應用在超圖上進行語義計算。這本書的內容包括超圖計算范式、超圖建模、超圖結構演化、超圖神經網絡以及超圖計算在不同領域的應用。我們在這本書中進一步總結了超圖計算的近期成就和未來的發展方向。
//link.springer.com/book/10.1007/978-981-99-0185-2
圖是通用的數據結構,可以表示來自各種領域(社會、生物醫學、在線事務等)的信息。圖神經網絡(GNNs)是在神經網絡模型中使用圖結構數據的一種令人興奮的方法,這種方法最近非常流行。然而,在大型(和復雜)數據集上實現和運行gnn仍然給機器學習平臺帶來了許多挑戰。感謝您對我們的教程感興趣!本教程的主要目標是幫助從業者和研究人員在TensorFlow設置中實現GNN。具體來說,該教程將主要是實踐,并將引導觀眾通過在異構圖數據上運行現有GNN的過程,并介紹如何實現新的GNN模型。本教程的實踐部分將基于TF-GNN,這是一個用于處理TensorFlow中的圖形結構化數據的庫。
//github.com/tensorflow/gnn/tree/main/examples/tutorials/neurips_2022
基于擴散的生成模型在生成高質量的圖像方面非常有效,生成的樣本在某些指標下常常超過其他模型生成的樣本。然而,這些模型的一個顯著特征是,它們通常需要很長的采樣鏈來生成高保真圖像。這不僅帶來了采樣時間的挑戰,也帶來了通過這些鏈反向傳播的固有困難,以完成諸如模型反演等任務,即近似地找到生成已知圖像的潛在狀態。在本文中,我們從一個不同的角度來看待擴散模型,即一個(深度)平衡(DEQ)不動點模型。具體來說,我們擴展了最近的去噪擴散隱式模型(DDIM;Song et al. 2020),并將整個采樣鏈建模為一個聯合的多元不動點系統。這種設置提供了擴散模型和平衡模型的優雅統一,并顯示出1)單幅圖像采樣的好處,因為它用并行采樣過程取代了典型的全串行采樣過程;2)模型反演,我們可以利用DEQ設置中的快速梯度,更快地找到生成給定圖像的噪聲。該方法也是正交的,因此與用于減少采樣時間或改進模型反演的其他方法互補。我們在多個數據集上演示了我們的方法的強大性能,包括CIFAR10、CelebA和LSUN Bedrooms和Churches。
平面非結構化點的輪廓和形狀重建是一個基本問題,在許多應用中引起了幾十年的研究興趣。涉及的方面包括處理開放、尖銳、多重和非流形輪廓、運行時間和可證明性,以及擴展到3D表面重建的潛力,這導致了許多不同的算法。眾多的重構方法,其優點和重點各不相同,這使得用戶很難為其特定的問題選擇合適的算法。在本教程中,我們詳細介紹了接近圖、基于圖的算法、具有采樣保證的算法。然后,我們展示了針對特定問題類別的算法,例如從噪聲、異常值或尖角重建。評估的示例將展示其結果如何指導用戶為其輸入數據選擇適當的算法。作為一個特殊的應用程序,我們展示了從草圖中重建的線,這些線可以彼此相交。點狀圖案的形狀表征將作為一個與邊界重建密切相關的附加字段顯示出來。
近年來,人們對ConvNet參數化能量生成模型越來越感興趣。ConvNet參數化EBMs框架解決了生成模型中隨之而來的表示、生成、效率和可擴展性的需求。具體來說,與現有流行的生成模型如生成對抗網(generative Adversarial Nets, gan)和變分自動編碼器(Variational Auto-encoders, VAEs)不同,基于能量的生成模型可以將自底向上的表示和自頂向下的生成統一到一個框架中,并通過“綜合分析”進行訓練。不需要招募額外的輔助模型。通過反向傳播可以有效地計算模型參數更新和數據合成。模型可以很容易地設計和放大。這個框架的表達能力和優勢引發了一系列的研究工作,導致了重大的理論和算法的成熟。基于能量的生成模型由于其相對于傳統模型的主要優勢,現在被用于許多計算機視覺任務中。本教程將全面介紹基于能量的生成建模和計算機視覺學習。對潛在的學習目標和抽樣策略將會有一個直觀和系統的理解。本文將介紹基于能量生成框架成功解決的不同類型的計算機視覺任務。除了介紹基于能量的框架和最先進的應用,本教程的目的是使研究人員能夠將基于能量的學習原則應用到計算機視覺的其他環境中。
BERT、GPT 等大規模預訓練模型(PTM)最近取得了巨大成功,成為人工智能領域的里程碑。由于復雜的預訓練目標和龐大的模型參數,大規模 PTM 可以有效地從大量標記和未標記的數據中捕獲知識。通過將知識存儲到大量的參數中并對特定任務進行微調,大量參數中隱式編碼的豐富知識可以使各種下游任務受益,這已通過實驗驗證和實證分析得到廣泛證明。現在人工智能社區的共識是采用 PTM 作為下游任務的支柱,而不是從頭開始學習模型。
在本文中,我們深入研究了預訓練的歷史,尤其是它與遷移學習和自監督學習的特殊關系,以揭示 PTM 在 AI 開發領域中的關鍵地位。此外,我們全面回顧了 PTM 的最新突破。這些突破是由計算能力的激增和數據可用性的增加推動的,朝著四個重要方向發展:設計有效的架構、利用豐富的上下文、提高計算效率以及進行解釋和理論分析。最后,我們討論了 PTMs 的一系列開放問題和研究方向,希望我們的觀點能夠啟發和推動 PTMs 的未來研究。
我們提出了自監督幾何感知(SGP),這是學習特征描述符進行對應匹配的第一個通用框架,無需任何地形圖幾何模型標簽(例如,相機姿態,剛性變換)。我們的第一個貢獻是將幾何感知表述為一個優化問題,在給定大量視覺測量(如圖像、點云)的情況下,將特征描述符和幾何模型聯合優化。在此優化公式下,我們發現視覺領域的兩個重要研究方向,即魯棒模型擬合和深度特征學習,對應于優化一個未知變量塊,同時固定另一個未知變量塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代執行兩種元算法:教師對已知特征進行魯棒模型擬合以生成幾何偽標簽,而學生則在偽標簽的噪聲監督下進行深度特征學習。第三,我們將SGP應用于大型真實數據集上的兩個感知問題,即MegaDepth上的相對攝像機姿態估計和3DMatch上的點云配準。我們證明了SGP達到了最先進的性能,與使用ground-truth標簽訓練的有監督的先知一樣或更好。
線性模型預測控制的工業部署需要一個凸二次規劃(QP)的實時解。QP的顯式解刻畫了MPC控制律的特征,即狀態的分段仿射函數和一些無偏移量控制的穩態目標的計算。眾所周知,顯式控制律的復雜性隨著問題規模的增加呈指數級增長,使得離線描述和在線部署使用顯式控制律對任何合理規模的工業工廠都是難以處理的。最近的觀察表明,以修正線性單元(ReLU)為激活函數的深度神經網絡也代表一個分段仿射函數,這使得它們成為獲得精確逼近顯式MPC控制律的有吸引力的候選對象。通過大型化工實例的數值實驗,驗證了該方法的可擴展性。