神經網絡已被證明是解決許多生活領域中復雜問題的一種高效工具。最近,隨著深度學習的出現,它們的重要性和實用性得到了進一步的加強。神經網絡成功的一個重要條件是選擇合適的激活函數,為模型引入非線性。過去的文獻中提出了許多類型的這些函數,但沒有一個全面的來源包含了它們的詳盡概述。即使根據我們的經驗,這個概述的缺失導致了冗余和無意中重新發現已經存在的激活函數。為了彌補這一缺口,我們的論文提出了一個涉及400種激活函數的廣泛綜述,其規模是之前綜述的幾倍。我們的綜合編纂還引用了這些綜述;然而,其主要目標是提供最全面的激活函數已發表概述和系統化,并鏈接到它們的原始來源。次要目標是更新對這一函數家族的當前理解。
神經網絡 — 尤其是深度學習 — 在解決各個領域中的多樣化挑戰上表現出了顯著的成功。它們被視為最先進的方法,展示了它們解決復雜和錯綜復雜問題的能力。在這些網絡的核心,激活函數(AFs)通過為神經網絡層引入非線性而發揮著重要作用。在沒有非線性AFs的情況下,典型的神經網絡將只能模擬輸入的加權和,限制了它們捕獲數據內部復雜關系的能力。
激活函數的選擇深刻影響網絡的學習和泛化能力,直接影響其在一系列任務中的性能。有效的激活函數具有幾個關鍵特性,如Dubey, Singh, 和 Chaudhuri在[1]中概述的:a) 引入非線性曲率以增強訓練收斂性;b) 在訓練期間保持無阻礙的梯度流;c) 確保對模型計算復雜性的最小增加;d) 保持數據分布以優化網絡訓練。
在過去三十年的文獻中提出了許多激活函數 — 有些在計算復雜性或性能方面比其他函數更高。然而,激活函數的進一步研究受到了缺乏整合列表的阻礙。這一缺口導致了無意中重新發明現有激活函數和獨立提出相同或非常相似的函數,從而導致研究資源的浪費。即使是像Dubey, Singh, 和 Chaudhuri [1] 和 Apicella等人[2]這樣的綜合性調查和回顧,經常遺漏文獻中存在的許多激活函數;此外,這些回顧也有些過時,自那以后出現了許多新的激活函數。這種疏忽可能導致一個AF被冗余地提出為新穎,盡管它之前已經在文獻中被介紹 — 例如,修正冪單元(RePU)(第3.6.39節),雙參數ReLU(DPReLU)(第4.2.20節),截斷修正線性單元(TRec)(第3.6.21節),ReLU-Swish(第3.6.46節)和有界ReLU(BReLU)(第3.6.16節)。通過提供更廣泛的激活函數列表,我們旨在避免這種冗余,并促進神經網絡中激活函數研究的更快進展。 為了解決這個問題,我們努力提供一個廣泛且整合的AFs列表。這項調查旨在防止冗余,消除重新發明已建立AFs的現象,以促進創新,并加速神經網絡領域研究的進步。通過提供一個綜合資源,我們旨在促進該領域內探索AFs的效率和創新。
重要的是,我們的貢獻主要集中在提供一個全面的AFs列表,而不是進行廣泛的基準測試或深入分析。編譯的廣度包括了廣泛的AFs,使得詳細的基準測試或更深入的分析超出了本項工作的范圍。我們的目標是為研究人員提供一個基礎資源,以便在選擇神經網絡的AFs時做出明智的決策,認識到更徹底的探索或詳細分析將需要超出這個全面列表范圍的專門和集中的努力。所呈現的概述僅限于實值激活函數;復值神經網絡(例如,[3–16],簡要概述可見于[17, 18]),雙復值神經網絡(例如,[19]),四元數值神經網絡(例如,[20–24]),光子神經網絡(例如,[25]),模糊神經網絡(例如,[26–31]),概率布爾邏輯的AFs(例如,[32]),量子AFs(例如,[33])等超出了本工作的范圍。1 我們選擇將AFs分為兩大類:固定AFs(第3節)和自適應激活函數(AAFs)(第4節),后者具有一個在網絡中與其他權重一起訓練的參數。雖然存在AFs在實質上是相同的情況,只是在是否存在特定的自適應參數方面有所不同(例如,swish(見第4.4.1節)和SiLU(見第3.3節)),這種分類證明是有價值的。AAFs憑借其參數化,提供了在訓練過程中捕獲數據內復雜關系的額外靈活性層。
幾何圖是一種具有幾何特征的特殊圖形,對于建模許多科學問題至關重要。與通用圖不同,幾何圖通常展現出物理對稱性,如平移、旋轉和反射,使得現有的圖神經網絡(GNNs)處理它們時效率不高。為了解決這個問題,研究人員提出了多種具有不變性/等變性屬性的幾何圖神經網絡,以更好地表征幾何圖的幾何性和拓撲結構。鑒于該領域當前的進展,進行一項關于幾何GNNs的數據結構、模型和應用的全面綜述是必要的。在本文中,基于必要但簡潔的數學預備知識,我們提供了一個從幾何消息傳遞角度對現有模型的統一視角。此外,我們總結了應用及相關數據集,以便于后續研究方法開發和實驗評估的研究。我們還在這篇綜述的最后討論了幾何GNNs的挑戰和未來潛在發展方向。
許多科學問題,特別是在物理和生物化學領域,需要處理以幾何圖形式表示的數據【24】。與典型的圖數據不同,幾何圖還為每個節點分配一種特殊類型的節點特征,以幾何向量的形式存在。例如,一個分子/蛋白質可以被視為一個幾何圖,其中原子的三維位置坐標是幾何向量;在一般的多體物理系統中,粒子的三維狀態(位置、速度或自旋)是幾何向量。值得注意的是,幾何圖展現出平移、旋轉和/或反射的對稱性。這是因為控制原子(或粒子)動力學的物理定律無論我們如何將物理系統從一個地方平移或旋轉到另一個地方都是相同的。處理這類數據時,將對稱性的歸納偏見納入模型設計至關重要,這激發了幾何圖神經網絡(GNNs)研究的動機。 構建允許此類對稱性約束的GNNs一直是方法設計的挑戰。先驅方法如DTNN【222】、DimeNet【135】和GemNet【136】,將輸入的幾何圖轉換為與旋轉或平移不變的距離/角度/二面角基標量,構成不變GNNs家族。注意到不變GNNs表達能力的限制,EGNN【216】和PaiNN【219】在消息傳遞和節點更新中額外涉及幾何向量,以保留每層中的方向信息,從而導致等變GNNs。借助群表示理論作為有用的工具,TFN【242】、SE(3)-Transformer【67】和SEGNN【23】通過將它們視為由高階球面張量參數化的可導向向量,概括了不變標量和等變向量,產生了高度可導向的GNNs。在這些基本方法的基礎上,幾何GNNs在各種系統的多樣化應用中取得了顯著成功,包括物理動力學模擬【67, 216】、分子性質預測【15, 152】、蛋白質結構預測【9】、蛋白質生成【267, 110】和RNA結構排名【245】。圖1展示了幾何GNNs在代表性任務上相對于傳統方法的卓越性能。
為了促進幾何GNNs的研究,本工作提出了一個系統性的綜述,既關注方法也關注應用,其結構如下各節所示:在§ 2中,我們介紹了群論的必要初步知識和等變性/不變性的正式定義;在§ 3中,我們提出幾何圖作為一個通用的數據結構,將在整個綜述中作為真實世界數據與模型(即幾何GNNs)之間的橋梁;在§ 4中,我們將現有模型總結為不變GNNs(§ 4.2)和等變GNNs(§ 4.3),而后者進一步分類為基于標量化的模型(§ 4.3.1)和高度可導向的模型(§ 4.3.2);此外,我們還在§ 4.4中介紹了幾何圖變換器;在§ 5中,我們提供了一個全面的應用集合,這些應用證明了幾何GNNs在基于粒子的物理系統、分子、蛋白質、復合物以及像晶體和RNA等其他領域的成功。
本綜述的目標是通過數據結構、模型設計和應用提供一個全面概覽,構成一個完整的輸入輸出流程,對于希望在各種科學任務上使用幾何GNNs的機器學習實踐者具有指導意義。最近,已經提出了幾個相關的綜述,這些綜述主要關注幾何GNNs的方法論[52]、用于化學數據的預訓練GNNs[276]、分子的表示學習[89, 7],以及人工智能在不同類型科學系統中的通用應用[299]。與它們所有的不同之處在于,本綜述強調幾何圖神經網絡,不僅包含了幾何GNNs的理論基礎,還提供了一個涵蓋物理、生物化學和材料科學等領域相關應用的詳盡總結。同時,我們在§ 6中討論了未來的前景和有趣的研究方向。我們還發布了一個Github倉庫,收集了與幾何GNNs相關的參考資料、數據集、代碼、基準和其他資源。
幾何圖
在許多應用中,我們處理的圖不僅包含拓撲連接和節點特征,還包含一定的幾何信息。再次以分子為例,我們可能還會了解到歐幾里得空間中的一些幾何量度,例如,原子在3D坐標中的位置[4]。這些量度特別引人關注,因為它們封裝了豐富的方向信息,描繪了系統的幾何結構。有了幾何信息,我們可以超越對圖拓撲的有限感知,而是轉向整個系統在3D空間中配置的更廣闊圖景,其中重要信息,如鄰近節點的相對方向和方向量度(如速度),可以被更好地利用。因此,在本節中,我們從幾何圖的定義開始,這些通常被稱為3D圖[24]。 幾何圖是強大且通用的工具,用于在科學任務中建模各種對象,包括小分子[221, 216]、蛋白質[10, 110]、晶體[175, 118]、物理點云[102, 91]等等。我們將在§ 5中提供更多細節。
模型:幾何GNNs
在本節中,我們首先回顧了拓撲圖上消息傳遞神經網絡(MPNN)的一般形式。然后,我們介紹了能夠處理幾何圖的不同類型的幾何GNNs:不變GNNs、等變GNNs,以及幾何圖變換器。最后,我們簡要介紹了討論幾何GNNs表達能力的工作。圖4展示了本節中幾何GNNs的分類。
應用
在本節中,我們系統地回顧了與幾何圖學習相關的應用。我們根據所處理的系統類型對現有方法進行分類,從而將任務分為粒子、(小)分子、蛋白質、分子+分子(Mol+Mol)、分子+蛋白質(Mol+Protein)、蛋白質+蛋白質以及其他領域,如表3所總結的那樣。我們還分別在表4和表5中提供了單實例任務和多實例任務相關數據集的總結。值得一提的是,我們的討論主要集中在使用幾何GNNs的方法上,盡管在某些應用中,其他方法,如基于序列的方法,也可能適用。
結論
在這篇綜述中,我們系統地研究了幾何圖神經網絡(GNNs)的進展,通過數據結構、模型及其應用的視角。我們將幾何圖指定為數據結構,這在幾何信息存在的情況下推廣了圖的概念,并允許在某些轉換下保持關鍵的對稱性。我們將幾何GNNs作為模型來介紹,包括不變GNNs、基于標量化/高度可導向的等變GNNs,以及幾何圖變換器。我們通過數據和任務的分類,詳盡討論了它們的應用,包括物理、生物化學等領域的單實例和多實例任務,以及像材料和RNA這樣的其他領域。我們還討論了幾何GNNs的挑戰和未來潛在的發展方向。
這篇論文探討了對神經網絡表示的結構性約束,作為在神經網絡中編碼先驗知識的一種方式。神經網絡已經證明具有處理感知數據的卓越能力,通過映射感知實體并預測缺失或未來信息。盡管它們在建模方面表現出色,但神經網絡不編碼或表示一般知識或概念,并且通常不提供對被建模對象的理解或洞察。一種可能的使用神經網絡作為允許科學分析和理解的工具的方式是,探討將先驗概念知識與從數據中提取的感知信息相結合的方法。這篇論文檢驗了圖分割、子集、離散變量和微分方程作為特定的結構性約束,對神經網絡表示進行約束,以表示先驗知識,目的是使神經網絡更加可解釋和可分析。
//hdl.handle.net/11245.1/53614a81-69a1-4671-a906-fa0672b29a92
盡管當前的神經網絡模型在許多感知任務上表現出色,但這是以大量數據和計算為代價的。此外,當神經網絡面對與訓練數據不同或相差甚遠的數據時,往往會表現出脆弱性。一種更實際的代表性結構的動機是,通過賦予神經網絡本質上代表任務或手頭數據類型的結構,可能避免或減輕對大型數據集和計算的需求以及神經網絡的缺乏魯棒性。非平凡的任務和數據通常具有內部結構,這種結構在輸入表示中并沒有顯式表示。在圖像中,相鄰像素通常是相關的;視頻通常在相鄰幀中有小的變化;場景由可以移動的對象組成;時間序列可能具有因果或動態關系等。這種結構構成了任務的本質特征,并且不依賴于訓練分布。在沒有對網絡的結構性約束或指導原則的情況下,這樣的網絡可能無法區分對任務本質重要的特征和僅由數據偶然給出的特征。這樣的網絡可能只能檢測數據給出的偶然特征中的模式,并且在尊重某個給定任務的本質特征的分布外數據上表現不佳。另一方面,在神經網絡的內部表示中表示給定任務的本質特征,可能提高模型的魯棒性和效率。學習模型設計的任務是找到可以在模型中整合的適當結構,同時保持結構整合和學習、表示的形式和內容之間正確的平衡,而不退化為手工特征工程。
**研究問題1 可微分圖分割能否在以對象為中心的表示中提高泛化能力? **在第2章中,我們聚焦于圖像和視頻中的以對象為中心的學習問題,并考慮特征之間的圖結構關系。在本章中,我們提出了一種拓撲感知的特征分區方法,將給定場景特征劃分為k個不相交的分區,作為以對象為中心的表示學習方法。對于分區方法,我們建議使用最小s-t圖割,該方法表示為一個線性程序。這種方法是拓撲感知的,因為它明確編碼了圖像圖中的鄰域關系。為了解決圖割問題,我們的解決方案依賴于一個高效、可擴展且可微分的二次規劃近似。針對割問題的特定優化使我們能夠顯著更高效地解決二次規劃問題并計算其梯度,與一般的二次規劃方法相比。以前的以對象為中心的學習方法在紋理場景和物體以及新穎物體形狀存在的情況下通常有困難。在我們的結果中,我們展示了我們的方法在具有紋理場景和物體的對象發現任務上改進了以前的方法,并且在具有新穎和未見過的紋理和形狀的分布外數據上提高了泛化性能。對于我們的第二個研究問題,我們考慮代表一個神經網絡表示自身動態演化的問題,通過一個可解釋且適合分析的生成動態機制來管理。
**研究問題2 神經網絡如何生成明確的、可解釋的、可分析的動態機制來管理網絡自身的內部動態演化? **在第3章中,我們提出了一類新的動態模型,稱為機械神經網絡,它們生成作為一組線性常微分方程(ODEs)的明確內部機制,進而管理內部神經網絡表示的演化。網絡表示的演化是通過解生成的ODEs來計算的。我們展示了可微分優化也可以用來在神經網絡內部有效地解線性ODEs,同時允許相對于ODE參數計算梯度。該模型可以應用于動態數據以及圖像等其他類型的數據,并且在其他神經網絡動態系統模型上有所改進。盡管機制是內部神經網絡表示的一部分,它們也是明確的,這意味著它們可以被理論和實驗分析所研究。接下來,我們探討具有子集操作的神經網絡作為離散結構的下一個示例。作為應用,我們考慮解釋性和子采樣大圖像的任務。在這兩種情況下,問題是是否可以選擇輸入數據示例的一個子集,以某種方式代表原始輸入。在解釋性任務中,選擇的子集是逐實例解釋預測的。在子采樣任務中,選擇的子集是逐數據集的,并且可以看作是原始數據集的替代。以前的方法通常限于小的子集和領域大小。我們的下一個研究問題探索這個任務是否可以快速有效地完成,對于大領域和子集大小。
**研究問題3 條件泊松子集抽樣是否提供了一種相比序列抽樣在神經網絡中更高效且可擴展的替代方案? **在第4章中,我們提出了一種既高效又可擴展到大子集大小的序列抽樣的替代方法。當前神經網絡方法用于抽樣子集通常屬于序列抽樣方法(Tillé, 2006)。使用序列抽樣時,如Gumbel分布這樣的排名分布被用來獨立地對給定全集中的每個元素進行排名,這產生了可能子集上的概率分布。要獲得大小為k的子集樣本,選擇最大(或最小)的k個元素。選擇最大k個元素(Top-k)的操作自然不是連續可微的,并且已經為Top-k操作開發了近似可微分程序。然而,這些方法對于抽樣大子集在時間和內存方面都是昂貴的。此外,使用這些方法時子集大小參數不是可微分的,且使用逐實例子集大小是麻煩的。在這項工作中,我們提出使用泊松和條件泊松抽樣之間的一個可微分替代方案作為序列抽樣的替代方案。這種方法效率高且可擴展,內存和計算成本低,且允許可微分的子集大小。接下來,我們考慮具有離散變量的神經網絡,并考慮正則化高斯函數以近似離散變量。
**研究問題4 高斯函數穩定性是否為訓練具有離散變量的神經網絡提供了一種可行的方法? **在第5章中,我們檢查了使用高斯函數穩定性概念作為訓練具有離散變量的神經網絡的正則化方法。用于學習具有離散變量的網絡的放松方法依賴于手動溫度調整,因為網絡沒有指導性激勵去獲得離散表示。這項工作提出了一種正則化方法,其中放松的程度作為穩定性項包含在損失函數中。粗略地說,高斯函數的噪聲穩定性是衡量其對噪聲的抵抗力的度量。Borell的等周定理(Borell, 1985)指出,對于某個固定體積的有界函數,其范圍為[0, 1],噪聲穩定性由半空間的指示函數最大化。鑒于半空間指示符在高斯空間中最大化噪聲穩定性,我們通過優化穩定性作為將高斯輸入轉換為二進制向量的簡單有效方法來開發我們的方法。在最后一章中,我們從高斯函數的諧波分析的角度考慮了一個層次模型,層次變分自編碼器。
**研究問題5 高斯分析對層次VAE的改進和后驗坍塌的緩解有何建議? **在第6章中,我們從高斯函數分析的角度檢查具有高斯變量的層次變分自編碼器。具有深層隨機層次的變分自編碼器已知存在后驗坍塌的問題,其中頂層回落到先驗并變得獨立于輸入。在本章中,我們提出通過引入一個由高斯分析激發的平滑參數來概括VAE神經網絡,以減少更高頻率分量并因此參數化函數的方差。我們證明,平滑操作在層次VAE目標的KL散度項中引入了偏差-方差權衡。我們進一步展示,在這種平滑下,VAE損失表現出一個相變,其中頂層KL散度在平滑參數的一個臨界值處急劇降至零,對于同一模型跨數據集是相似的。
圖神經網絡(GNNs)在各個領域的圖結構數據學習中展示了顯著的成功。盡管取得了巨大成功,現有工作經常忽視一個關鍵挑戰,即消息傳播的學習能否有效地泛化到代表性不足的圖區域。這些少數區域經常展示不規則的同質性/異質性模式和多樣化的鄰域類分布,導致模糊性。在這項工作中,我們研究了GNNs內的模糊性問題,其對表示學習的影響,以及為對抗這一問題而開發的更豐富的監督信號。我們對GNN進行了細致的評估,分析了不同圖區域中模糊性的存在及其與節點位置的關系。為了消除節點嵌入的模糊性,我們提出了一種新穎的方法,DisamGCL,它利用額外的優化指導來增強表示學習,特別是對于模糊區域中的節點。DisamGCL基于預測的時間不一致性識別模糊節點,并通過以拓撲感知的方式采用對比學習引入消歧規則化。DisamGCL促進節點表示的區分性,并且可以減輕消息傳播引起的語義混合,有效地解決了模糊性問題。經驗結果驗證了DisamGCL的效率,并突出了其在代表性不足的圖區域改善GNN性能的潛力。
張量網絡(TNs)和神經網絡(NNs)是兩種基本的數據建模方法。TNs通過將指數維數轉換為多項式復雜度,被提出作為大規模張量面臨的維數災難的解決方案。因此,它們吸引了量子物理和機器學習領域的許多研究。另一方面,神經網絡是受構成人類大腦的生物神經網絡啟發的計算系統。近年來,神經網絡及其變體在計算機視覺、自然語言處理和機器人研究等各種應用中取得了卓越的性能。有趣的是,盡管這兩種類型的網絡來自不同的觀察,但它們通過TNs和NNs共同的內在多線性結構不可避免地聯系在一起。因此,出現了大量關于TNs和NN結合的思想火花。將"張量網絡與神經網絡"的組合稱為張量神經網絡(tensorial neural networks, TNNs)。**本文從三個方面對TNNs進行了介紹。1)網絡壓縮。TNs可以大大減少神經網絡中的參數,滿足構造有效神經網絡的思想。2)信息融合。TNs可以自然有效地增強神經網絡的能力,對多種模態、視圖或各種數據來源之間的相互作用進行建模。3)量子電路仿真。**TNs可以幫助設計和模擬量子神經網絡(QNNs)。本綜述還研究了改進TNN的方法,研究了用于實現TNN的有用工具箱,并試圖記錄TNN的發展并強調其潛在的未來方向。據我們所知,這是第一次將神經網絡、TNs和量子電路之間的聯系聯系起來的全面綜述。我們在//github.com/tnbar/awesome-tensorial-neural-networks上提供了一個精心策劃的TNNs列表。
1. 引言
**張量是高階數組,表示多個模態源之間的多方向相互作用。**相比之下,向量(即一階張量)和矩陣(即二階張量)分別只能以一種或兩種模式訪問。張量作為一種常見的數據類型,在[1],[2],[3],[4]等場景中得到了廣泛的觀察。例如,功能磁共振成像(fMRI)樣本本質上是四階張量,由隨時間變化的三維體素組成[5],[6],[7]。在量子物理中,用于研究多體量子系統的變分波函數也是高階張量[8],[9]。對于時空交通分析,幾周內從多條道路收集的道路流量/速度信息也可以構建為一個三階張量(road segment×day×time of day)[10]。然而,對于高階張量,當模態數量增加時,張量中的元素總數呈指數增長,導致存儲和處理張量時出現災難。這種現象也被公認為“維數詛咒”[11]。 張量網絡(TNs)。TNs[8],[11],[12]通常是通過張量收縮連接的小尺度張量的可數集合。這些小尺度張量被稱為“分量”、“塊”、“因子”或“核心”。非常大規模的張量可以通過TNs以極度壓縮和分布式的格式近似表示。因此,對以前無法處理的高階張量進行分布式存儲和高效處理是可行的。通過TN方法,可以緩解或完全克服[11]的維數災難問題。常用的TN格式包括CANDECOMP/PARAFAC (CP)[13]、[14]、[15]、Tucker分解[16]、[17]、Blockterm Tucker (BTT)分解[18]、[19]、[20]、矩陣積態(MPS)/張量列(TT)分解[21]、[22]、[23]、[24]、矩陣積算子(MPO)/矩陣張量列(mTT)分解[21]、[22]、[23]、[24]、張量環(TR)分解[25]、樹TN/層次Tucker (HT)分解[26]、投影糾纏對態(PEPS)/張量網格分解[8]、[27],[28],多尺度糾纏重整化[29]等。為了理解TNs相互關聯的結構,TN圖被開發為一種簡單的圖形圖(將在2.2節討論)。TN可以為分析一些計算上不可接受的任務提供一個理論和計算框架。例如,Pan等人基于TNs的低秩結構,[30]能夠在15小時內使用512個圖形處理器(GPU)解決量子隨機電路采樣問題;這個問題之前被認為在最強大的經典電子超級計算機上需要超過10000年的時間,并有效地挑戰了谷歌的量子計算機“Sycamore”的量子霸權。其他應用包括腦分析[31]、量子化學計算[32]、人臉聚類[33]、降維[34]、缺失值估計[35]、潛在因子分析[36]、子空間學習[37]等。
**神經網絡(NNs)。**神經網絡是受生物啟發的學習范式,使機器能夠通過反向傳播從觀察數據中學習知識[38],[39]。多層堆疊的神經網絡,即深度神經網絡[40]、[41],因其強大的從深層結構中捕獲豐富信息的能力,被廣泛應用于人工智能領域。典型的DNN類型包括受限玻爾茲曼機(RBMs)[42]、卷積神經網絡(CNNs)[41]、[43]、循環神經網絡(RNNs)[44]、[45]和transformer[46]、[47]。DNNs目前在計算機視覺[48]和自然語言處理[49]的廣泛應用中達到了最先進的性能。例如,一些CNN架構,如AlexNet [50], VGGNet [51], GoogLeNet[52]和ResNet[53]在ImageNet數據集[54]上贏得了冠軍,展示了解決圖像分類任務的良好潛力。特別是Alphafold[55],[56],這是一種Transformer架構,可以在幾天內識別蛋白質的結構,此前研究人員需要數年時間。最近,Alphafold2[55]、[56]以平均原子精度預測了幾乎所有已知蛋白質的結構。深度學習技術仍在推動多個學科的發展,包括語音識別[57]、DNA突變檢測[58]、結構生物學[55]、[56]、藥物發現[59]、食品安全[60]等。
**張量網絡遇見神經網絡。如上所述,TNs和NN是兩種來自不同起源并在不同方面取得成功的網絡。有趣的是,它們通過它們的多線性數學性質緊密結合而不是相互正交[11]。因此,一種有希望的方法是通過多元線性來整合它們,以達到“整體大于部分的總和”的目標。TNs的主要優點是其緊湊的結構、多條目以及與量子力學的密切聯系,而NN則以其廣泛的應用而聞名[8],[12]。基于這些觀察,可以通過三種方式將TNs和NNs結合起來。(1)網絡壓縮。**神經網絡在各種任務中取得了許多成功[40],[41],[41]。然而,神經網絡仍然存在大量維度的過度線性乘積計算和維數災難[78]。解決這個問題的一個有希望的解決方案是利用TNs的輕量級和多線性特性[68],[78],[79]。其中,TNs可以將NNs的任何張量分解為更小的塊,從而將維度降低到線性復雜度[61],[62]。例如,與使用樸素長短期記憶網絡(LSTM)進行動作識別任務相比,利用TN技術分解權重張量的TR-LSTM[79]模型可以將參數數量壓縮約34000倍,同時性能優于樸素LSTM。 **(2)信息融合。**在實際的數據分析中,多模態數據的高階交互建模對于獲得更好的性能是很重要的。然而,神經網絡通常用于處理單模向量的輸入,因此它們缺乏足夠的表達能力來建模這種高階交互[101]。為了解決這個問題,一種有希望的方法是將TNs嵌入到神經網絡中,作為有效的融合單元,借助多入口屬性[97],[98],[100]來處理多模態數據。以視覺問答(VQA)任務[142]為例,多模態Tucker融合(MUTAN)[101]可以通過Tucker格式框架學習文本表示和視覺表示之間的高級交互。因此,MUTAN通過有效的參數化低秩結構實現了最先進的性能。(3)量子電路仿真。TNs可以作為仿真器,成為經典神經網絡和量子電路之間的橋梁。首先,許多研究建議在量子電路上實現神經網絡,以通過量子計算方案的超并行性來加快其運行速度[143],[144]。然而,目前量子計算機還沒有足夠的能力直接部署神經網絡,這給驗證量子神經網絡(quantum neural networks, QNNs)的可能性能帶來了困難[143]。幸運的是,由于TNs和量子電路[8]之間的等效性,[145],TNs可以成為電子計算機中有效的量子模擬器。詳細地說,量子電路中的輸入量子比特和幺正運算門可以看作張量。門連接也可以被視為TN方案中的張量收縮[145]。利用TNs實現NNs的量子電路模擬,可以在制造出真正強大的量子計算機之前,開啟QNNs探索的新時代。
我們將這種連接TNs和NNs的方法族稱為張量神經網絡(TNNs)。據我們所知,這是第一次將神經網絡、TNs和量子電路之間的聯系聯系起來的全面綜述。TNN及其效用的概述如表1所示。本綜述的其余部分組織如下。第2節提供了張量符號、張量圖和TN格式的基礎知識。第3節討論如何使用TNs來構建緊湊的TNN。第4節探討了使用TNN的高效信息融合過程。第5節討論了TNs在量子電路和TNNs中的一些基本應用。第6節解釋了TNNs的一些訓練和實現技術。第7節介紹了可用于處理TNN的通用而強大的工具箱。
設計和分析時空網絡數據的學習模型對于預測、異常檢測和多智能體協調等任務具有重要意義。圖卷積神經網絡(GCNNs)是一種已建立的從時不變網絡數據學習的方法。圖卷積運算提供了一種原則性的方法來聚合每一層的多分辨率信息,并通過探索圖信號處理工具提供了一定程度的數學分析。這一分析為GCNNs的等方差特性提供了見解;學習濾波器的譜特性以及對圖拓撲中擾動的穩定性,這是由于支持攝動或不確定性引起的。然而,將卷積原則學習和各自分析擴展到時空領域是具有挑戰性的,因為時空數據有更多的內在相關性。因此,為了學習有意義的高階表示,需要有更高的靈活性來聯合捕獲空間和時間依賴性。在此,我們使用乘積圖來表示數據中的時空依賴關系,并引入圖-時間卷積神經網絡(Graph-Time Convolutional Neural Networks, gtcnn)作為一種原則性架構來輔助學習。該方法可用于任何類型的積圖,并引入參數積圖來學習時空耦合。卷積原理進一步允許類似GCNNs的數學處理。特別是穩定性結果表明,GTCNNs對空間擾動是穩定的,但在可分辨性和魯棒性之間存在隱式權衡;也就是說,模型越復雜,穩定性越差。在基準數據集上的大量數值結果證實了我們的發現,并表明GTCNN優于最先進的解決方案。我們預計,GTCNN將是一個起點,更復雜的模型,實現良好的性能,但也從根本上奠定了基礎。 //www.zhuanzhi.ai/paper/fdae650cba790b63edd03eccd71bb7c7
近年來,神經網絡在解決許多問題方面有了巨大的發展。不同類型的神經網絡被引入來處理不同類型的問題。然而,任何神經網絡的主要目標是將非線性可分的輸入數據轉換為更線性可分的抽象特征,使用層次結構。這些層是線性和非線性函數的組合。最流行和常見的非線性層是激活函數(AFs),如Logistic Sigmoid、Tanh、ReLU、ELU、Swish和Mish。本文對深度學習神經網絡中的激活函數AFs進行了全面的綜述和研究。不同類別的AFs,如Logistic Sigmoid和基于Tanh,基于ReLU,基于ELU,和基于Learning。指出了AFs的輸出范圍、單調性和平滑性等特點。并對18種最先進的AFs在不同網絡上的性能進行了比較。本文提出了AFs的見解,以幫助研究者進行進一步的研究,并幫助實踐者在不同的選擇中進行選擇。用于實驗比較的代碼。
近年來,深度學習在解決人臉分析[2][113]、預測評級[74]、情感分析[143]、[152]、高光譜圖像分析[144]、圖像合成和語義處理[1]、數字圖像增強[72]、圖像檢索[33]等具有挑戰性的問題方面取得了巨大的增長。深度學習中已經發展了各種類型的神經網絡來從數據中學習抽象特征,如多層感知器(Multilayer Perceptron, MLP)[30],卷積神經網絡(CNN)[82],[73],循環神經網絡(RNN)[54],生成對抗網絡(Generative Adversarial networks, GAN)[12]。神經網絡的重要方面包括權值初始化[104]、損失函數[130]、正則化[102]、過擬合控制[18]、激活函數[136]和優化[35]。
激活函數在神經網絡[36]中起著非常重要的作用,它通過非線性變換學習抽象的特征。AFs的一些共同性質如下: A)在優化中增加非線性曲率以提高網絡的訓練收斂性; B)它不應該廣泛地增加模型的計算復雜性; C)不妨礙訓練過程中的梯度流動;d)它應該保留數據的分布,以便更好地訓練網絡。近年來,為了實現上述特性,人們已經探索了幾種用于深度學習的AFs。本綜述致力于神經網絡中AFs領域的發展。不同AFs的見解和推理被提出,以使深度學習社區受益。這項綜述的主要貢獻概述如下:
本綜述為廣泛的AFs提供了詳細的分類。它還非常全面地包括了AFs,包括Logistic Sigmoid/Tanh, Rectified Unit, Exponential Unit, 和Adaptive AFs。
本綜述從不同角度對AFs進行分析,為讀者提供最新的AFs。它特別涵蓋了用于深度學習的AFs的進展。
本綜述還通過簡要的重點和重要的討論總結了AFs,以描述其對不同類型數據的適用性(參見表VI)。
將本次綜述與現有綜述/分析進行比較,顯示其重要性(見表七)。
本文還介紹了使用18種最先進的AFs和不同類型網絡在4個不同模式的基準數據集上的性能比較(參見表VIII, IX和XI)。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
由于神經網絡的日益普及,對神經網絡預測的信心變得越來越重要。然而,基本的神經網絡不會給出確定性估計,也不會受到信心過度或不足的影響。許多研究人員一直致力于理解和量化神經網絡預測中的不確定性。因此,不同類型和來源的不確定性已被識別,并提出了各種方法來測量和量化神經網絡中的不確定性。本工作對神經網絡中的不確定性估計進行了全面的概述,綜述了該領域的最新進展,突出了當前的挑戰,并確定了潛在的研究機會。它旨在給任何對神經網絡中的不確定性估計感興趣的人一個廣泛的概述和介紹,而不預設在這一領域有先驗知識。對不確定性的主要來源進行了全面的介紹,并將它們分為可約模型不確定性和不可約數據不確定性。本文介紹了基于確定性神經網絡、貝葉斯神經網絡、神經網絡集成和測試時間數據增強等方法對這些不確定性的建模,并討論了這些領域的不同分支和最新進展。對于實際應用,我們討論不確定性的不同措施,校準神經網絡的方法,并給出現有基線和實現的概述。來自不同領域廣泛挑戰的不同例子,提供了實際應用中有關不確定性的需求和挑戰的概念。此外,討論了當前用于任務和安全關鍵的現實世界應用的方法的實際限制,并展望了未來的步驟,以更廣泛地使用這些方法。
人工神經網絡與其他學科領域聯系日益緊密,人們通過對人工神經網絡層結構的探索和改進來解決各個領域的問題。根據人工神經網絡相關文獻進行分析,綜述了人工神經網絡算法以及網絡模型結構的發展史,根據神經網絡的發展介紹了人工神經網絡相關概念,其中主要涉及到多層感知器、反向傳播神經網絡、卷積神經網絡以及遞歸神經網絡,描述了卷積神經網絡發展當中出現的部分卷積神經網絡模型和遞歸神經網絡中常用的相關網絡結構,分別綜述了各個人工神經網絡算法在相關領域的應用情況,總結了人工神經網絡的未來發展方向。
圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法,它通過將圖廣播操作和深度學習算法結合,可以讓圖的結構信息和頂點屬性信息都參與到學習中,在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性,已成為一種廣泛應用的圖分析方法.然而現有主流的深度學習框架(如Tensorflow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持,這限制了圖神經網絡算法在大規模圖數據上的應用.目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點,探索了大規模圖神經網絡系統的設計和實現方案.本文首先對圖神經網絡的發展進行簡要概述,總結了設計圖神經網絡系統需要面對的挑戰;隨后對目前圖神經網絡系統的工作進行介紹,從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析;最后使用部分已開源的圖神經網絡系統進行實驗評估,從精確度、性能、擴展性等多個方面驗證這些系統的有效性.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311