亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。

圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。

為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。

在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。

繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。

近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。

盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:

圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。

我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。

我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。

我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。

我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。

付費5元查看完整內容

相關內容

通過潛在空間的對比損失最大限度地提高相同數據樣本的不同擴充視圖之間的一致性來學習表示。對比式自監督學習技術是一類很有前途的方法,它通過學習編碼來構建表征,編碼使兩個事物相似或不同

圖機器學習(Graph ML)近年來取得了重大進展。由于其在處理圖結構數據方面的顯著能力,圖機器學習技術已被廣泛應用于各種領域,包括金融、醫療和交通等關鍵領域。盡管這些技術帶來了社會效益,但近期研究突顯了廣泛使用圖機器學習模型所帶來的重大安全隱患。這些模型缺乏以安全為中心的設計,可能會產生不可靠的預測、表現出較差的泛化能力,并危及數據機密性。在金融欺詐檢測等高風險場景中,這些漏洞可能會危及個人和社會。因此,優先開發安全導向的圖機器學習模型以減輕這些風險并增強公眾對其應用的信心是至關重要的。在這篇綜述論文中,我們探討了增強圖機器學習安全性的三個關鍵方面:可靠性、泛化能力和機密性。我們將對每個方面的威脅進行分類和分析,分為模型威脅、數據威脅和攻擊威脅三個類別。這一新穎的分類法指導了我們對有效保護策略的審查。我們的系統審查為未來開發實用的、安全導向的圖機器學習模型奠定了基礎。此外,我們強調了安全圖機器學習實踐的重要性,并提出了進一步研究這一關鍵領域的有前景方向。 近年來,圖結構數據在包括藥物發現[15]、交通預測[76]和疾病診斷[96]等廣泛的現實應用中變得越來越普遍。在這些領域中,圖機器學習(Graph ML)在建模這些數據和執行基于圖的預測任務中起著關鍵作用[83],[187]。然而,隨著圖機器學習應用范圍的擴大,人們對其潛在安全問題的擔憂也在加劇[37]。如果這些問題得不到充分解決,可能會產生嚴重影響,尤其是在關鍵決策場景中[203]。例如,在金融欺詐檢測中,圖機器學習模型會分析交易網絡,其中節點代表用戶,邊表示交易[151]。數據分布的變化可能會錯誤地將合法交易標記為欺詐[37]。此外,這些模型還可能對用戶隱私構成風險[124]。這些安全問題都會嚴重削弱人們對金融系統的信任。

盡管社會關注日益增加[147],[183],但對圖機器學習(Graph ML)安全性的全面理解仍在形成中。這種缺乏理解阻礙了研究人員和從業者系統地識別和解決與圖機器學習方法相關的基本安全問題。為了縮小這一差距,我們的綜述旨在解決兩個關鍵問題:(1) 圖機器學習安全問題涉及的主要方面是什么?(2) 在每個方面可能出現哪些具體威脅,以及如何有效應對這些威脅?為了解決第一個問題,我們引入了一種新穎的分類法,有助于對圖機器學習中的安全問題進行全面分類。為了解答第二個問題,我們對在我們分類法中確定的每個方面的潛在威脅及其相應的防護措施進行了系統回顧。

我們現在深入探討第一個問題,確定圖機器學習(Graph ML)安全問題的三個關鍵方面:可靠性、泛化能力和機密性。我們分別討論每個方面如下:

(1) 可靠性:圖機器學習模型經常面臨低質量訓練數據的挑戰,這可能源于數據噪聲[47], [188]或惡意攻擊[13], [49]。在此,我們將可靠性定義為模型即使在面對劣質輸入時也能始終產生高質量輸出的能力。可靠性在圖機器學習任務中高質量訓練數據稀缺時尤為關鍵[6], [11]。例如,在藥物發現中,圖機器學習模型預測新化合物的化學性質,并以分子圖的形式建模[91]。這包括評估毒性以排除有嚴重副作用的藥物[115]。由于實驗驗證成本高昂,高質量的訓練數據標簽難以獲得。因此,在面對低質量數據時保持模型的可靠性對于確保準確預測至關重要[75]。 (2) 泛化能力:泛化能力指圖機器學習模型在各種場景中,尤其是在基礎數據分布發生變化時,仍能表現良好的能力[91]。這在新出現的未見過的圖數據頻繁出現的環境中特別重要[175]。例如,在疫情預防中,準確預測未來感染病例對于有效分配醫療資源至關重要[198]。圖機器學習廣泛用于利用不同地理區域(如縣、市、州或國家)之間的遷移路徑連接的拓撲數據來預測確診病例[145]。然而,疫情通常會在不同地區同步爆發,導致圖機器學習模型的訓練和推理數據來自不同區域[128]。這些模型缺乏泛化能力可能導致預測的感染率與實際情況顯著偏離,可能導致醫療資源的錯誤分配。 (3) 機密性:這一方面側重于保護圖機器學習模型的完整性和其處理的敏感數據的隱私[35], [43]。機密性在處理個人數據的圖機器學習應用中特別重要[203]。例如,圖機器學習廣泛用于管理電子健康記錄(EHR),用于疾病診斷和治療預測等任務[107]。在這些應用中,各種信息(如患者姓名和診斷結果)被互相連接形成異構圖[103]。然而,圖機器學習中的機密性面臨的一個重大挑戰是消息傳遞機制的廣泛使用,這促進了節點之間的信息流動[9], [37], [140]。這個過程可能會無意中讓敏感數據到達惡意節點,導致未經授權實體可能泄露私人信息,從而危及患者隱私[54]。 我們接著通過識別三種類型的威脅來解決第二個問題,這些威脅會損害圖機器學習的安全性,適用于之前討論的所有方面。具體來說,威脅包括:(1) 模型威脅,源于為圖結構設計的固有學習機制,如大多數圖機器學習模型中普遍存在的消息傳遞;(2) 數據威脅,源于圖拓撲中節點之間的復雜相互關系;(3) 攻擊威脅,因圖機器學習模型在面對對抗性攻擊時的脆弱性而發生。在本綜述中,我們旨在全面理解每種威脅類型的起源,并系統概述當前的防護技術以減輕這些風險。 貢獻:在本綜述中,我們對圖機器學習中的安全問題進行了全面調查,并以結構化框架組織了圖機器學習安全的關鍵方面(如圖1所示)。此外,我們概述了每個方面的三種安全威脅,并深入探討了在圖機器學習背景下解決這些問題的具體防護技術。總之,我們的工作對研究社區做出了三項重要貢獻。

圖機器學習安全性的新分類法:我們引入了一種新的分類法來分類圖機器學習中的安全問題,詳細說明了三個核心方面:可靠性、泛化能力和機密性。

威脅與防護措施的全面概述:我們識別了所有安全方面共有的三種不同類型的威脅。在此基礎上,我們進一步探討了針對每種特定威脅的防護技術。

圖機器學習安全性的未來研究潛力:我們探討了在圖機器學習領域提升安全性方面的未解決挑戰和新興機會,旨在激發未來的研究項目。

與其他綜述的比較:已有一些綜述調查了圖機器學習的不同類型的安全問題及其對策[61], [80], [91], [147], [167], [182], [210]。然而,這些綜述通常缺乏對圖機器學習安全性的全面理解。其他相關綜述則側重于一個不同但相關的話題:可信度[37], [203]。大多數這些研究主要關注對抗性攻擊,而通常忽視了專門針對圖機器學習和圖數據的安全問題。與上述工作不同,在本綜述中,我們不僅借助新提出的分類法系統回顧了圖機器學習的更廣泛的安全概念,還詳細闡述了不同類型的威脅及其適當的防護技術。我們在表1中提供了詳細的差異比較。

由于圖數據的復雜性,獲取高質量的訓練數據是一個重大挑戰[47], [49]。當模型在質量較差的數據上訓練時,其性能可能會受到嚴重影響[188]。我們將可靠性定義為模型即使在低質量數據上訓練時也能保持一致性能的能力。缺乏可靠性會使模型面臨噪聲或被篡改數據帶來的風險,可能導致錯誤預測。在決策過程中,這個問題尤為關鍵,因為這種不準確可能導致不可接受的結果[42], [67]。例如,在金融欺詐檢測中,準確識別欺詐交易至關重要。缺乏可靠性的模型可能無法檢測到欺詐活動,或錯誤地將合法交易標記為欺詐,從而導致財務損失。因此,增強圖機器學習模型的可靠性對于確保其在關鍵應用中的安全性和可信賴性至關重要,最終減少錯誤結果的風險[120], [126]。

圖機器學習的可靠性可能從多個角度受到影響。首先,模型在處理不確定數據方面的固有限制可能導致在不熟悉情況下的過度自信預測[65]。與圖像或文本數據不同,圖數據涉及節點之間的復雜交互,這些連接中的不確定性會影響模型預測[226]。其次,訓練數據中的異常情況,例如顯著偏離典型分布的節點和圖,對模型性能和可靠性構成重大威脅[6], [47]。由于圖機器學習模型從相鄰節點聚合信息,異常節點可能影響整個圖中學習到的表示,進而影響整體模型可靠性。第三,毒化攻擊涉及將惡意構造的數據插入訓練集以破壞模型的可靠性[93]。在圖拓撲中,攻擊者可以操縱少數節點以不利地影響其他遠處節點,使這些攻擊特別難以檢測[80]。

大多數現有的圖機器學習模型是基于推理時的數據分布與訓練時相同的假設而開發的[91]。然而,由于圖數據結構的復雜性,這一假設在實踐中常常不成立。因此,泛化能力——即在不同數據分布中保持模型性能一致的能力——對于圖機器學習模型的安全部署至關重要。例如,在藥物發現中,圖機器學習模型通常負責預測新藥的毒性,這些新藥可能與訓練數據分布顯著不同。未能有效地泛化到這些新藥會導致不可靠的預測,從而可能危及醫療治療的開發[30], [63]。

盡管泛化能力對于確保圖機器學習模型的安全性至關重要,但實現一致模型泛化能力的過程中存在各種威脅。首先,模型本身的威脅源于其設計中的固有限制,導致模型可能無法有效適應訓練過程中遇到的目標(未標記)分布[111], [222]。當訓練涉及來自不同分布的數據時,設計增強泛化能力的模型對于圖機器學習模型的廣泛應用至關重要[110]。其次,數據威脅源于在訓練過程中未曾見過的數據分布,可能會削弱圖機器學習模型在新場景中的表現[92]。由于在訓練過程中無法觀測到目標分布,圖機器學習模型在有限數據的情況下提升泛化能力變得具有挑戰性。第三,規避攻擊對圖機器學習模型的泛化能力構成重大威脅。這些攻擊在推理過程中故意操縱輸入數據以引發預測錯誤并損害模型安全性[52], [98]。這些威脅從多個角度損害模型的泛化能力,因此需要量身定制的防護技術來解決這些問題。下文中,我們介紹了一些增強圖機器學習模型泛化能力的策略。

在圖機器學習(Graph ML)中,保密性包括對數據、模型預測和模型本身的敏感信息的保護【122】。這種保護對于確保用戶隱私和滿足法律合規性要求至關重要【183】。例如,在使用圖機器學習模型進行社交網絡用戶分類時,必須防止在訓練和推理階段無意泄露用戶信息【22】。

在這里,我們介紹如圖4所示的三種保密性威脅。首先,模型威脅來源于模型固有的設計缺陷,這些缺陷可能通過模型的預測或架構泄露敏感信息,從而引發隱私問題【169】。這一問題在基于圖的模型中特別明顯,因為消息傳遞機制可能無意中暴露來自鄰近節點的敏感信息【22】【41】【141】。其次,當訓練數據分布在多個源時,數據威脅會出現,可能導致敏感信息的無意曝光【70】。鑒于圖數據的結構性,確保每個數據源的保密性是一項重大挑戰【5】【87】。第三,攻擊威脅直接通過未經授權的模型克隆或功能克隆危害模型的保密性【185】。這不僅侵犯了隱私,還違反了知識產權,因為被復制的模型可能會在未經許可的情況下被使用或出售【43】【166】。

結論

在這篇綜述中,我們對快速發展的圖機器學習(Graph ML)領域的安全性進行了全面回顧。由于安全問題日益加劇,這一主題正受到越來越多的關注。我們對Graph ML應用中的三個關鍵安全方面進行了結構化分析:可靠性、可推廣性和保密性。為了增強安全性,我們將每個方面的威脅分類為三種主要類型:數據威脅、模型威脅和攻擊威脅,每種威脅都對Graph ML模型的安全性提出了獨特的挑戰。對于每個識別出的威脅,我們詳細介紹了具體的解決方案,提供了應對這些安全挑戰的研究努力的詳盡匯編。我們的討論將這些見解綜合成一個統一的框架,旨在加深對Graph ML安全性考慮的理解,并引導未來在這一重要領域的研究。此外,我們還強調了實際應用并提出了未來研究的方向。通過這篇綜述,我們的目標不僅是總結現有的Graph ML安全研究,還希望鼓勵進一步的研究,以確保Graph ML技術能夠安全地開發和實施。

付費5元查看完整內容

在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。

擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。

雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。

總結來說,我們的貢獻包括

我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。

我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。

我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。

我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。

本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。

分類法

利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件

在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。

在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。

通用可控文本到圖像生成

除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論

在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。

付費5元查看完整內容

圖學習在各種應用場景中發揮著關鍵作用,并且由于其在建模由圖結構數據表示的復雜數據關系方面的有效性,已經獲得了顯著的關注,這些應用場景包括社交網絡分析到推薦系統。實際上,現實世界中的圖數據通常隨著時間展現出動態性,節點屬性和邊結構的變化導致了嚴重的圖數據分布偏移問題。這個問題由分布偏移的多樣性和復雜性加劇,這些偏移可以顯著影響圖學習方法在降低的泛化和適應能力方面的性能,提出了一個對其有效性構成實質挑戰的重大問題。在這篇綜述中,我們提供了一個全面的回顧和總結,涵蓋了解決圖學習背景下分布偏移問題的最新方法、策略和見解。具體而言,根據在推斷階段分布的可觀測性和在訓練階段充分監督信息的可用性,我們將現有的圖學習方法分類為幾個基本場景,包括圖域適應學習、圖離群分布學習和圖持續學習。對于每個場景,都提出了詳細的分類法,包括對存在的分布偏移圖學習進展的具體描述和討論。此外,我們還討論了在分布偏移下圖學習的潛在應用和未來方向,通過系統分析這一領域的當前狀態。這篇綜述旨在為處理圖分布偏移的有效圖學習算法的開發提供一般指導,并激發在這一領域的未來研究和進展。

圖結構數據在各種真實世界應用領域無處不在,包括社交網絡[1]、[2]、[3]、[4]、[5]、生物網絡[6]、[7]、[8]、[9]、道路網絡[10]、[11]、[12]以及計算機網絡[13]、[14]、[15]。在這些多樣化的領域中,通過邊緣復雜交織的節點之間的復雜關系蘊含著實體、圖結構和整體圖數據模式中的寶貴信息。在這種情況下,圖學習[16]技術應運而生,以更好地分析和理解各種圖類型,為廣泛的圖相關任務提供了有希望的推理能力,涵蓋了藥物發現[8]、[17]、知識圖探索[18]、[19]、社交網絡分析[20]、[21]、推薦系統[22]、[23]和物理運動預測[24]等。

盡管流行的圖學習方法取得了成功,但圖數據中分布偏移的存在對當前方法的能力構成了實質性的限制[25]。這是由于真實世界圖數據的動態和演化性質。例如,社交網絡隨著新用戶的加入和關系的變化而演化,導致節點特征和邊連接的顯著變化,從而使得圖學習模型在推薦系統或趨勢分析上的性能下降[26]。在金融網絡中,實體(如股票、商品或機構)之間的關系會因市場趨勢、經濟政策或全球事件而變化[27]、[28]。一個在歷史市場數據上訓練的圖學習模型可能在實體之間的關系發生變化時表現不佳。在生物學中,代表蛋白質、基因或生態系統中物種相互作用的網絡可能因突變、環境壓力或疾病爆發而改變[29]。預測疾病傳播或基因相互作用的模型必須適應這些變化。此外,交通系統(如道路網絡、航空交通或公共交通系統)由于城市發展、旅行模式的變化或基礎設施修改等因素而經歷變化。這些變化影響了用于優化路線、預測擁堵或規劃新基礎設施的模型[30]。在節點、邊緣和不同圖中觀察到的圖數據的統計分布的這些變化,大大復雜化了圖學習過程,為有效模型部署和在真實世界場景中的應用帶來挑戰。

為此,在這項工作中,我們的重點是在分布偏移的情況下進行圖學習,具體指的是圖數據概率分布的差異可能涵蓋圖組件的所有方面,包括節點特征、圖結構和標簽分布。因此,圖學習模型在測試階段遇到了在以前未見過的圖數據分布上實現精確泛化的困難。

近年來,越來越多的興趣集中于探索分布偏移下圖學習的范式[31]、[3]、[4]、[32]、[25]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40],以使模型能夠在靜態和動態場景中理解圖數據的復雜場景、對象和概念。具體而言,圖數據分布偏移場景可以基于測試階段的分布是否可觀測以及可用的監督信息是否充分來分類。因此,它們可以分為三個主要類別,如圖1所示:

觀察到的偏移:已知測試階段數據,可變監督,其中可能展示出與訓練階段不同的潛在未知分布偏移的觀察到的測試階段圖數據,可用的監督可能充分或不充分

未觀察到的偏移:未知測試階段數據,限制性監督,其中未觀察到的測試階段圖數據分布具有多種多樣的偏移類型,可用的監督通常傾向于不充分

順序時間偏移:時間依賴的,未觀察到的數據,其中未觀察到的測試階段圖數據分布隨時間動態地順序到達。

基于這三種類型的圖數據分布偏移場景,在這項工作中,我們進行了全面的回顧,并提供了現有圖學習方法的系統分類,這些方法應對圖數據中的分布偏移學習挑戰。具體來說,當前的圖學習方法也可以分為三個類別,每個類別對應于特定的分布偏移場景:

圖域適應學習,旨在將圖學習模型從訓練(源)域傳遞到測試(目標)域,并要求它們在具有不同圖數據分布的目標域上表現出熟練的性能[31]、[41]、[42]、[3]、[43]、[4]。→ 觀察到的偏移。

圖離群分布學習,旨在使圖學習模型能夠有效地學習與訓練數據分布不同的測試圖數據和訓練中未見的潛在新類別[44]、[25],使模型具有良好的泛化能力。→ 未觀察到的偏移。

圖持續學習,旨在使圖學習模型能夠在圖數據分布發生變化時吸收新信息,同時精煉現有知識并應對新出現的和以前未見過的任務[45]、[46]。→ 順序時間偏移。

因此,在這篇綜述中,我們的目標是提供對圖數據分布偏移的深入理解,并探討解決分布偏移挑戰的各種圖學習模型和方法。我們將檢查與分布偏移下圖學習相關的關鍵概念、關鍵挑戰、以前的限制和評估協議。此外,我們將討論潛在的現實世界應用并突出這一研究領域內有希望的未來方向。據我們所知,這是第一篇關于圖學習與一般分布偏移場景的全面綜述。盡管如此,我們的工作與幾項專注于圖分布偏移特定方面的先前研究建立聯系也是值得的:Li等[25]回顧了圖離群分布泛化方法,而Yang等[44]回顧了圖離群分布檢測方法,分別是在未觀察到的圖數據偏移場景下的兩種離群分布任務。Yuan等[45]和Febrinanto等[46]在順序時間圖數據偏移場景下回顧了圖持續學習方法和基準測試。相比之下,我們的重點明顯放在更廣泛的分布偏移下圖學習的視角上。這包括更廣泛和更新鮮的方法回顧,以提供更全面的研究路線圖。

我們預見這篇綜述將成為對分布偏移下圖學習感興趣的研究人員和實踐者的重要資源,提供對最新發展和未來研究努力的見解,并促進在模型選擇、架構設計和評估策略領域的知情決策,以持續發展圖學習模型,為學術和工業應用帶來潛在好處。 總結來說,這項綜述工作的核心貢獻可以如下呈現

廣泛的圖分布偏移場景。據我們所知,這是圖學習領域第一篇涵蓋廣泛圖分布偏移場景的綜述工作,有助于深入理解和分析處理多樣化和復雜的圖數據分布偏移案例。

全面的回顧和分類法。我們提供了一個系統的分類法,涵蓋了存在各種分布偏移的現有圖學習進展。這個分類法包括三個關鍵類別:用于可觀察偏移的圖域適應學習,具有已知測試階段圖的;用于未觀察到的偏移的圖離群分布學習,具有未知測試階段圖的;以及用于順序時間偏移的圖持續學習,具有隨時間演化的圖的。

突出實際應用和未來方向。我們強調了圖學習在解決分布偏移方面的實際用途,涵蓋了從科學發現到個性化日常生活推薦的應用。此外,我們確定了幾個有希望的未來研究方向,意圖激勵和推動這一研究領域的進步。

分類與框架

圖3總結了分布偏移下圖學習的一般分類法及本文回顧的相關方法。分類法圍繞著偏移場景和分布偏移下圖學習算法的設計細節展開。首先,根據解釋的偏移場景,分布偏移下的圖學習方法可以被分類為三個類別:圖域適應、離群分布圖學習和持續圖學習。我們進一步考慮不同方法的設計細節,并以層次化的方式對它們進行分類,以便于理解和比較分析。

圖域適應學習的分類法

域適應解決了由于不同域之間數據分布的差異導致模型性能下降的問題,旨在提高模型在目標域上的泛化能力。域適應方法可以進一步分為三種類型:半監督、無監督和測試時圖轉換。 半監督域適應。這些方法側重于使用源域的標記數據以及源域和目標域的未標記數據訓練模型,旨在確保在目標域上的強大性能。 無監督域適應。這些方法專注于在沒有目標域標記數據的情況下進行模型轉移。核心思想是通過特征對齊減少源域和目標域之間的特征分布差異,從而提高模型對目標域的泛化能力。 測試時圖轉換(適應)。這些方法圍繞著在測試期間調整目標域的圖數據以匹配目標域的特性,增強模型對目標域的適應性。

圖離群分布學習的分類法

離群分布(OOD)圖學習解決了從與訓練期間看到的特征不同的圖中學習的挑戰。OOD圖學習可以進一步分為三種類型:圖離群分布泛化、圖離群分布檢測和開放世界圖學習。 圖離群分布泛化。這種類型的OOD圖學習側重于開發能夠很好泛化到具有與訓練中看到的不同特征的圖的模型。目標是確保當面對來自以前未見過的分布的圖時,模型的性能仍然令人滿意。 圖離群分布檢測。在這個場景中,重點是識別或檢測屬于離群分布類別的圖。目標是設計能夠標記或區分與訓練數據分布顯著偏離的圖的模型,可能表明新的或不熟悉的圖模式。 開放世界圖學習。開放世界圖學習處理的是在可能的圖類別集合事先未知的情況下進行學習的挑戰。這意味著模型不僅需要適應新的圖類別,還需要做出將數據分類到已知類別或識別數據屬于新類別的決策。

圖持續學習的分類法

持續圖學習解決了從隨時間到達并持續演化的圖數據流中獲取知識的挑戰。持續圖學習的方法可以進一步分為四個類別:架構方法、正則化方法、復習方法和混合方法。 架構方法。這些方法側重于修改網絡的特定架構、激活函數或算法層,以解決新任務并防止忘記之前的任務。 正則化方法。這些方法通過向損失函數添加正則化項來鞏固學到的知識,限制神經權重的更新方向,以免損害先前任務的性能。 復習方法。這些方法維護一個記憶緩沖區,保存先前任務的信息,并在學習新任務時重播它以減輕災難性遺忘。 混合方法。這些方法結合了多種持續學習方法,以利用多種方法的優勢并提高模型的性能。

在這項工作中,我們對分布變化下圖學習的前沿方法和方法進行了深入的回顧和綜合。基于分布的可觀察性和監督信息的可用性,我們將圖學習方法分為圖域自適應學習、圖分布外學習和圖持續學習,其中每種方法都有詳細的分類和對當前進展的討論。全面的分析,以及對潛在應用和未來研究方向的重點討論,不僅為最先進的方法提供了清晰的路線圖,而且還有助于闡明具有多樣化和復雜分布變化的圖學習技術的有效發展。

付費5元查看完整內容

近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。

因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。

在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。

本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。

 傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。

IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。

IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。

因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。

這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。

付費5元查看完整內容

生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。

//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f

概述

深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。

在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。

2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。

鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。

本綜述范圍

在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。

基礎模型

生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。

計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。

三維形狀生成

目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。

三維感知圖像生成

三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。

6 應用

3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。

7 未來的工作

3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。

通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。

可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。

效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。

訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。

在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。

//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c

引言

醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。

圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。

關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。

在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。

  1. 我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。

  2. 我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。

  3. 我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。

付費5元查看完整內容

本書介紹了在并行和分布式計算平臺上擴展機器學習和數據挖掘方法的代表性方法的集成集合。對并行學習算法的需求是高度特定于任務的:在某些情況下,并行學習算法是由龐大的數據集驅動的,而在另一些情況下,并行學習算法是由模型復雜性或實時性能需求驅動的。為大規模機器學習選擇適合于任務的算法和平臺,需要了解可用選項的好處、權衡和約束。本書提供的解決方案涵蓋了一系列的并行化平臺,從FPGAs和gpu到多核系統和商品集群,并發編程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及學習設置(監督、非監督、半監督和在線學習)。廣泛的并行化的推進樹,支持向量機,譜聚類,信念傳播和其他流行的學習算法,并深入到幾個應用,這本書適合研究人員,學生,和從業者。

付費5元查看完整內容
北京阿比特科技有限公司