亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】現在深度學習正在廣泛應用到科學研究中,最近來自哈佛33家單位20位學者發表了《深度學習生物醫學應用10個技巧》,深入細致地講述了正確用好深度學習的準則,非常值得關注!

機器學習是解決問題和任務自動化的一種現代方法。特別是,機器學習關注的是能夠識別數據中的模式并將其用于預測建模的算法的開發和應用,而不是讓領域專家手工開發預測任務的規則。人工神經網絡是一類特殊的機器學習算法和模型,演變成了現在所說的“深度學習”。深度學習包括多層的神經網絡和使它們表現良好的算法。這些神經網絡由人工神經元組成,按層次排列,以人腦為模型,盡管構建模塊和學習算法可能有所不同。每一層接收來自前一層的輸入(第一層代表輸入數據),然后將其自身加權輸出的轉換表示作為輸入傳送到隨后的網絡層。因此,“訓練”神經網絡的過程是調整各層的權重,以最小化作為預測誤差替代的成本或損失函數。損失函數是可微的,因此權重可以自動更新,以試圖減少損失。深度學習使用多層人工神經網絡(因此有了“深度”這個詞)。考慮到過去十年在計算方面的進步,它現在可以應用到大量的數據集和無數的環境中。在很多情況下,與其他方法相比,深度學習可以學習更復雜的關系,并做出更準確的預測。因此,深度學習已經成為機器學習的一個分支領域。在生物學研究的背景下,它已越來越多地用于從高維生物學數據中獲得新的見解[2]。例如,深度學習已被用于預測蛋白質-藥物結合動力學[3],識別合成DNA[4]的起源實驗室,以及揭示遺傳疾病[5]的面部表型。

為了讓有一些機器學習經驗的科學家更容易獲得深度學習的生物應用,我們征求了一群對生物和深度學習有不同興趣的研究人員的意見。這些個人使用GitHub版本控制平臺[6]和Manubot手稿生成工具集[7]共同完成了本文的寫作。我們的目標是在使用深度學習時,清晰地表達出一套實用、易于理解和簡明的指導方針和建議(圖1)。對于剛接觸機器學習的讀者,我們建議在開始深度學習之前,先回顧一下機器學習的一般原則[8]。

在生物研究中使用深度學習的10個技巧的概述。

在我們討論的過程中,有幾個主題變得明確起來:理解和應用機器學習基礎知識作為利用深度學習的基線的重要性,進行廣泛的模型比較和仔細評估的必要性,以及在解釋深度學習產生的結果時需要批判性思維,等等。深度學習和傳統計算方法之間的主要相似之處也變得顯而易見。盡管深度學習是機器學習的一個獨特的子領域,但它仍然是一個子領域。它受制于機器學習固有的許多局限性,機器學習的大多數最佳實踐[9-11]也適用于深度學習。與所有的計算方法一樣,深度學習應該以一種可復制和嚴格測試的系統方式應用。最后,我們整理的技巧范圍從高層指導到最佳實踐。我們希望他們能夠為新的和有經驗的深度學習實踐者提供可操作的、具體的深度學習指導。通過使深度學習更易于在生物研究中使用,我們的目標是提高文獻中深度學習的整體使用和報告質量,并使越來越多的研究人員能夠有效和準確地利用這些先進的技術。

技巧1: 判斷深度學習是否適合你的問題

近年來,在生物學中實施深度學習的項目和出版物數量大幅增加[12-14]。這一趨勢可能是由深度學習在一系列科學問題和數據模式中的有用性所驅動的,并可能有助于深度學習作為幾乎所有建模問題的靈丹妙藥的出現。事實上,神經網絡是通用函數逼近器,并從這種學習任何函數的理論能力中獲得了巨大的力量[15,16]。然而,在現實中,深度學習并不是適用于所有的建模情況,它對數據、計算能力、編程技能和建模專業知識的需求很大,極大地限制了深度學習的應用。 深度學習應該在充分考慮其優勢和劣勢后,才可以用于手頭的問題。在選擇深度學習作為一種潛在的解決方案后,從業者仍然應該考慮傳統方法作為性能基線。

技巧2: 使用傳統方法建立性能基線

與傳統的機器學習方法相比,深度學習要求從業者考慮更多數量和種類的調整參數(即算法設置)。這些設置通常稱為超參數。它們的廣泛性使其很容易陷入執行不必要的復雜分析的陷阱。因此,在將深度學習應用于一個給定的問題之前,理想的方法是在每個研究[11]開始時實現具有較少超參數的更簡單的模型。這些模型包括邏輯回歸、隨機森林、k近鄰、樸素貝葉斯和支持向量機。它們可以幫助建立基線績效預期,以及特定預測問題的難度。雖然從現有文獻中獲得的性能基線也可以作為有用的指南,但使用與深度學習計劃相同的軟件框架的更簡單模型的實現,可以極大地幫助評估數據處理步驟的正確性、性能評估管道、資源需求估計,以及計算性能估計。此外,在某些情況下,甚至可以將更簡單的基線模型與深度神經網絡相結合,因為這種混合模型可以提高泛化性能、模型可解釋性和置信度估計[55,56]。 總之,在實現深度學習模型之前,鼓勵從業者創建和完全調優幾個傳統模型和標準管道

技巧3: 理解訓練深度神經網絡的復雜性

正確地訓練深度神經網絡并非易事。每個階段都有許多不同的選擇和潛在的陷阱。為了得到好的結果,必須經常在各種不同的超參數設置中訓練網絡。由于這些深度網絡的高要求特性,這種訓練可能變得更加困難,這通常需要大量的時間投資到調優和計算基礎設施,以實現最先進的性能[25]。此外,這種實驗通常是嘈雜的,這就需要增加重復,并加劇了深度學習固有的挑戰。總的來說,所有的代碼、隨機種子、參數和結果都必須使用通用的編碼標準和最佳實踐(例如,版本控制[58]和持續集成[59])來謹慎地打包,以保證可復現性和可解釋性[60-62]。對于基于應用的研究,這種組織對于有效地共享研究工作和在新數據可用時保持模型最新的能力也是至關重要的。簡而言之,研究人員應該使用更小更簡單的網絡來實現更快的原型設計,遵循一般的軟件開發最佳實踐來最大化再現性,并檢查軟件文檔來理解默認的選擇

技巧4: 了解你的數據和問題

有一個定義明確的科學問題和一個清晰的分析計劃是實施一個成功的深度學習項目的關鍵。就像沒有明確的終點就不應該進入實驗室開始實驗一樣,深度學習項目也不應該沒有明確的目標就進行。首先,重要的是要評估是否存在能夠使用基于深度學習的方法回答感興趣的生物學問題的數據集。如果是這樣,應在項目中盡早獲取這些數據(和相關的元數據)并審查研究方案。這可以幫助確保數據符合預期,并可以防止稍后在分析過程中發現問題時所浪費的時間和精力。例如,一個發布或資源可能聲稱提供了一個適當的數據集,但在獲取時發現該數據集是不充分的。當數據應該是結構化的時候,它可能是非結構化的,例如樣本分層這樣的關鍵元數據可能會丟失,或者可用的樣本大小可能與預期不同。任何這些數據問題都可能限制研究人員使用深度學習來解決眼前的生物學問題的能力,或者在使用之前可能需要進行調整。數據收集也應該被仔細地記錄下來,或者應該在項目文檔中創建和指定數據收集協議。總的來說,在進行深度學習之前,從業者應該徹底研究他們的數據,并理解其上下文和特性

**技巧5: 選擇適當的數據表示和神經網絡架構 **

神經網絡體系結構是指網絡中的層數、類型以及它們之間的連接方式。雖然研究團體已經建立了一些最佳實踐[72],但架構設計選擇在很大程度上仍然是問題特定的,需要大量的實驗。此外,由于深度學習是一個快速發展的領域,許多建議往往是短暫的,經常被最近的實證結果支持的新見解所取代。許多建議在不同的問題和數據集之間不能很好地泛化,這使問題更加復雜。因此,選擇如何表示數據和設計架構更像是一門藝術,而不是一門科學。也就是說,在實驗時要遵循一些一般原則。從業者應該將神經網絡的架構建立在問題知識的基礎上,并利用類似的現有數據或預訓練的模型

技巧6: 廣泛而系統地調優超參數

在給定至少一個隱層、一個非線性激活函數和大量隱單元的情況下,多層神經網絡可以逼近與輸入輸出變量相關的任意連續函數[16,87]。具有額外隱藏層和不斷增加的整體隱藏單元和可學習的權重參數(所謂的不斷增加的神經網絡“能力”)的更深層架構,允許解決日益復雜的問題。然而,這種容量的增加導致更多的參數需要擬合和超參數需要調優,這在模型訓練過程中會帶來額外的挑戰。一般來說,在將深度神經網絡應用于新的數據或挑戰時,應該期望系統地評估眾多超參數的影響。超參數通常表現為優化算法的選擇、損失函數、學習率、激活函數、隱藏層和隱藏單元的數量、訓練批的大小和權值初始化方案。此外,通過常用技術引入了額外的超參數,以促進對更深層架構的訓練。其中包括正則化懲罰、dropout[88]和批處理歸一化[89],這些方法可以減少在處理深度神經網絡時所謂的消失或爆炸梯度問題的影響**。為了從模型中獲得最佳性能,研究人員應該確保系統地優化訓練數據集上的超參數**,并報告所選的超參數和超參數優化策略。

技巧7: 解決深度神經網絡對數據集過度擬合的趨勢

一般來說,過擬合是機器學習固有的挑戰,也是您在具體應用深度學習時將面臨的最重要的挑戰之一。當一個模型與訓練數據中的模式擬合得如此接近,以至于在它學習的關系中包含了不可泛化的噪聲或非科學相關的擾動時,就會發生過擬合。換句話說,該模型適用的模式過于特定于它所訓練的數據,而不是學習類似數據集之間的一般關系。當一個模型在訓練過程中沒有接觸到的數據上進行測試時,會發生什么情況,這一微妙的區別就更清楚了:就像一個死記硬背考試材料的學生很難正確地回答他們沒有學習過的問題一樣,一個與訓練數據過度契合的機器學習模型在看不見的測試數據上也會表現得很差。深度學習模型特別容易受到過擬合的影響,因為它們具有相對較多的參數和相關的表征能力。就像一些學生可能有更大的記憶潛力一樣,深度學習模型似乎比參數更少的機器學習模型更容易過度擬合。然而,具有大量的參數并不總是意味著神經網絡會過擬合[90]。本質上,從業者應該將數據分成訓練、調優和一次性使用的測試集,以評估模型在數據上的性能,這些數據可以提供對其泛化性能的可靠估計

**技巧8: 深度學習模型可以變得更加透明 **

雖然模型可解釋性是一個寬泛的概念,但在許多機器學習文獻中,它指的是識別影響或影響預測的判別特征的能力。在某些情況下,解釋背后的目標是理解潛在的數據生成過程和生物機制[101]。在其他情況下,目標是理解為什么一個模型會做出它對一個或一組例子所做的預測。機器學習模型在可解釋性方面差異很大: 一些是完全透明的,而另一些則被認為是“黑匣子”,只能進行預測,幾乎沒有能力研究原因。邏輯回歸和決策樹模型通常被認為是可解釋的[102]。相比之下,深度神經網絡通常被認為是最難以簡單解釋的,因為它們可以有許多參數和非線性關系。

提示9: 不要過度解讀預測

在訓練出一個精確的深度學習模型后,很自然地想要用它來推斷關系并為科學發現提供信息。然而,要小心正確地解釋模型的預測。考慮到深度學習模型可能難以直觀地解釋,人們往往傾向于以放縱或不準確的方式過度解釋預測。根據經典的統計學說法“相關性并不意味著因果關系”,深度學習模型的預測很少提供因果關系。準確預測結果并不意味著因果機制已經學會,即使預測非常準確。在一個令人印象深刻的例子中,作者評估了幾種模型預測重癥監護室肺炎患者死亡概率的能力[107,108]。神經網絡模型具有最佳的預測精度。然而,在對基于規則的模型進行擬合以更好地理解其數據的內在關系之后,作者發現醫院數據隱含了“有哮喘(x)=>低風險(x)”的規則。這一規則與醫學理解相矛盾,因為患有哮喘并不會使肺炎好轉!盡管如此,數據支持這一規則,因為有哮喘史的肺炎患者往往接受更積極的治療。因此,神經網絡也學會了根據這一規則進行預測,盡管它與因果或機制無關。因此,根據神經網絡的預測來指導治療決策將是災難性的,即使神經網絡具有很高的預測精度。

技巧10: 積極考慮你工作的道德影響

盡管深度學習在生命科學研究(從基礎生物學和臨床前科學到各種轉化方法和臨床研究)中仍然是一個強大的、變革性的工具,但重要的是對倫理考慮進行評論。例如,盡管深度學習方法通過提高診斷能力和風險評估有助于提高醫療效率,但在與患者年齡、種族和性別相關的模型中可能會無意中引入某些偏見[110]。深度學習從業者可能會使用不能代表不同人群和患者特征的數據集[111],從而導致這些問題。

結論

我們有針對性地提出了一些實用的技巧,強調前沿的見解和描述不斷發展的專業標準。此外,我們的一些觀點側重于防范數據科學和深度學習所固有的風險。這些風險包括對模型的過度解釋和誤讀,較差的泛化性,以及可能傷害他人。然而,我們想要強烈強調的是,當使用道德和負責任的方法時,深度學習技術有潛力在各種不同的環境中增加巨大的價值。畢竟,這些技術已經顯示出了滿足或超過人類和傳統算法性能的非凡能力,并有潛力揭示推動發現和創新的生物醫學見解。通過對研究問題進行批判性思考,計劃保持嚴謹,并識別工作如何在倫理維度上產生深遠的影響,對深度學習采取全面和謹慎的方法,生命科學社區可以推進可再生的、可解釋的、以及豐富和有益于科學家和社會的高質量科學。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要

生物醫學數據收集的最新進展允許收集大量數據集,測量數千到數百萬個單細胞中的數千個特征。這些數據有可能以以前不可能的分辨率推進我們對生物機制的理解。然而,了解這種規模和類型數據的方法很少。盡管神經網絡在監督學習問題上取得了巨大進步,但要使它們對更難表示監督的數據中的發現成為有用,還有很多工作要做。神經網絡的靈活性和表現力有時會成為這些監督較少的領域障礙,從生物醫學數據中提取知識就是這種情況。在生物數據中更常見的一種先驗知識以幾何約束的形式出現。

在本論文中,我們旨在利用這些幾何知識來創建可擴展和可解釋的模型來理解這些數據。將幾何先驗編碼到神經網絡和圖模型中,使我們能夠描述模型的解決方案,因為它們與圖信號處理和最優傳輸領域相關。這些鏈接使我們能夠理解和解釋這種數據類型。我們將這項工作分為三個部分。第一個借用圖信號處理的概念,通過約束和結構化架構來構建更具可解釋性和性能的神經網絡。第二個借鑒了最優傳輸理論,有效地進行異常檢測和軌跡推斷,并有理論保證。第三個研究如何比較基礎流形上的分布,這可用于了解不同的擾動或條件之間的關系。為此,我們設計了一種基于聯合細胞圖上擴散的最佳傳輸的有效近似。總之,這些工作利用我們對數據幾何的先前理解來創建更有用的數據模型。我們將這些方法應用于分子圖、圖像、單細胞測序和健康記錄數據

引言

數據分析領域在不斷變化。有人問是否會有一天我們不再需要新算法,數據分析領域就像從現成的工具中挑選合適的工具并將其應用于一些新數據一樣簡單。答案當然是否定的,只要數據、計算機或問題不斷變化,我們將始終需要新的算法和方法。

數據生成、處理和存儲方面的進步為我們提供了前所未有的從這些數據中學習的能力。在某些領域,幾何數據分析領域試圖利用點之間的局部關系來理解數據。

隨著廉價測序技術的出現,單細胞數據分析領域直到最近才成為可能,使我們能夠同時測量單個細胞的許多特征。這導致來自底層連續流形的非常高維和嘈雜的數據集。這種對數據生成過程的假設是整個工作中的一個共同主題,我們將看到其他先驗知識開始發揮作用,這些先驗最好使用一種或另一種文獻進行描述。

本論文從第 2 章中對圖信號處理、深度學習和最優傳輸的概述開始。雖然這些領域是從不同的文獻中發展而來的,但每個領域都試圖理解從一些基礎度量空間中采樣的點或點的分布如何相互關聯。在本論文中,我們融合了來自這些領域的想法,以深入了解生物醫學數據,重點關注單細胞轉錄組數據以及其他圖形和圖像數據集。這些數據類型的共同點是它們要么在圖數據集中具有點之間的一些內在關系,要么假設是從一些可以在本地表示的底層低維流形中采樣的。

本論文分為三個部分,第一部分側重于融合深度學習和圖信號處理,通過借鑒圖信號處理的思想來制作更具可解釋性的深度學習組件,并借鑒深度學習的思想來制作從圖信號開發性能更高的固有可解釋模型加工。第二部分融合了深度學習和最優傳輸,以創建具有可解釋屬性的深度學習模型。最后,在第三部分中,我們將其完整循環,將最優傳輸和圖形信號處理相結合,以一種基于嵌入的快速方法來優化從底層流形采樣的點的傳輸。這種基于嵌入的方法使我們能夠快速逼近許多分布之間的 Wasserstein 距離,而無需解決成對優化問題。

在第 3 章中,我們首先使用來自圖信號處理的思想提出了一種更具可解釋性的深度學習架構。一層中的神經元在排列下是無序的和等效的,因此從Run-to-Run可能很難找到負責特定功能的神經元。我們通過在給定神經網絡層中的神經元之間施加圖結構來向層添加結構。這導致更多可重復和可解釋的層,其中神經元將通過打破標準架構中權重對稱性而不降低表達性,基于圖結構從Run-to-Run執行相同的功能。

在第 4 章中,我們將深度學習的思想引入幾何散射。先前的工作表明,幾何散射在性能方面與從深度學習文獻中開發的當前圖神經網絡架構具有競爭力 [73],但對新數據不那么靈活,依賴于許多固定參數。在本章中,我們研究了更靈活的幾何散射網絡的好處,我們稱之為可學習幾何散射(LEGS),它允許我們學習固定的散射參數。我們表明這在生物醫學圖中特別有用,其中有各種各樣的圖,從小型密集連接圖到大型稀疏連接圖。事實證明,LEGS 的額外靈活性有助于適應這些不同的數據類型。

在第 5 章中,我們將來自最優傳輸的想法應用于無監督異常檢測問題。這里的目標是給定一個正常點的訓練樣本,建立一個可以檢測異常點的模型。例如,在給定一組狗圖像的圖像中,檢測測試集中的貓。一般來說,這個問題是使用基于重建的方法來解決的,訓練一個容量有限的模型來重建訓練集,然后根據這個模型重建它們的好壞對測試圖像進??行評分,這個想法是模型將無法重建遠離訓練集的點.我們指出了這種方法的三個問題,并提出了一種基于容量受限編碼器的不同方法,該編碼器直接對輸入點進行評分。我們將其與解決 Wasserstein 距離的對偶相關聯,并將其應用于理論以提供模型輸出的保證。

在第 6 章中,我們將稱為連續歸一化流 (CNF) [38] 的特定深度學習模型與動態最優傳輸聯系起來。然后,我們使用它來模擬單個細胞隨時間的軌跡。當前單細胞轉錄組測量的一個問題是它們具有破壞性——測量細胞的狀態會破壞細胞。這使得隨著時間的推移測量單個細胞變得困難。在這里,我們在多個時間點收集人口水平數據,并使用正則化 CNF 推斷單個細胞軌跡。我們表明,我們可以根據單細胞時間序列數據更準確地模擬細胞狀態隨時間的變化。

在第 7 章中,我們將流形上的最優傳輸與該圖上的一系列多尺度擴散聯系起來。通過比較圖上分布的擴散行為,我們可以快速估計推土機的距離,特別是當我們在 Wasserstein 度量中尋找具有多種測地線地面距離的最近鄰分布時。我們展示了如何將現有的多尺度方法推廣到推土機的距離計算中,并在將其擴展到圖形域的同時提高速度和準確性。

在第 8 章中,我們將第 7 章的工作擴展到不平衡最優傳輸,它融合了推土機距離(Earth-Mover distance)和無度量的總變化距離。直觀地說,這允許創建和銷毀(成本)而不是傳輸質量。我們將這種新的不平衡傳輸應用于醫學概念知識圖譜,以理解從患者筆記中提取的概念。

本論文的以下章節基于以下出版物和預印本。完整出版物的鏈接://alextong.net/publications

圖 8.6:使用 TV 距離(頂部)和 UDEMD 距離(底部)在 Snomed-CT 圖上建模為信號的患者嵌入,由患者診斷著色。 UDEMD 更好地組織空間,如 (b-c) 中的選定項、(d) 中的混淆矩陣的差異以及 (e) 中診斷的 k-最近鄰分類精度所指出的那樣。在 (b) 中,請注意 TV 嵌入(頂部)在顯示無法通過診斷區分的顱內出血的患者子集之間產生虛假分離(由于信號中的噪聲)。另一方面,UDEMD 嵌入(底部)顯示了具有此診斷的患者的連續體。對于以綠色顯示的腦腫塊或腫瘤患者也是如此。 (c) UDEMD 嵌入將患有急性冠狀動脈綜合征的患者組織成一個連續的軌跡,出院的患者(較輕的病例)朝向底部,更嚴重的病例朝向頂部。TV嵌入再次分裂了這個軌跡。

付費5元查看完整內容

本書通過有監督、無監督和高級學習技術提供了對機器學習算法的概念理解。本書包括四個部分:基礎、監督學習、非監督學習和高級學習。第一部分提供了基礎材料、背景和簡單的機器學習算法,為學習機器學習算法做準備。第二部分和第三部分提供了對監督學習算法和作為核心部分的無監督學習算法的理解。最后一部分提供了先進的機器學習算法:集成學習、半監督學習、時序學習和強化學習。

提供兩種學習算法的全面覆蓋: 監督和無監督學習; 概述用于解決分類、回歸和聚類的計算范例; 具有構建新一代機器學習的基本技術。

這本書是關于機器學習的概念,理論和算法。在第一部分中,我們通過探索學習理論、評估方案和簡單的機器學習算法,提供了關于機器學習的基本知識。在第二和第三部分中,我們將監督學習算法描述為分類和回歸任務的方法,而無監督學習算法描述為聚類任務的方法。在第四部分,我們討論了特殊類型的學習算法,并將監督算法和非監督算法的混合作為進一步的研究。讀者需要線性代數和向量微積分的基本知識來理解機器學習算法,其中輸入數據總是以數字向量的形式給出。

付費5元查看完整內容

學習使用Python分析數據和預測結果的更簡單和更有效的方法

Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。

機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。

使用線性和集成算法族預測結果

建立可以解決一系列簡單和復雜問題的預測模型

使用Python應用核心機器學習算法

直接使用示例代碼構建自定義解決方案

機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。

付費5元查看完整內容

圖神經網絡(GNNs)最近在人工智能領域變得越來越受歡迎,這是因為它們具有提取相對非結構化數據類型作為輸入數據的獨特能力。盡管GNN體系結構的一些元素在操作上與傳統神經網絡(以及神經網絡變體)的概念相似,但其他元素則不同于傳統的深度學習技術。本教程通過整理和呈現最常見類型的GNNs的動機、概念、數學和應用的詳細信息,向一般深度學習愛好者展示了GNNs的強大功能和新穎之處。重要的是,我們以介紹性的速度簡要地介紹了本教程,并提供了理解和使用GNNs的實用和可訪問的指南。

摘要:

當代人工智能(AI),或者更具體地說,深度學習(DL)近年來被稱為神經網絡(NN)的學習架構所主導。NN變體被設計用于提高某些問題領域的性能;卷積神經網絡(CNN)在基于圖像的任務環境中表現突出,而遞歸神經網絡(RNN)在自然語言處理和時間序列分析空間中表現突出。神經網絡也被用作復合DL框架的組件——它們在生成對抗網絡(GANs)中被用作可訓練的生成器和判別器,在transformers [46]中被用作編碼器和解碼器。雖然在計算機視覺中作為輸入的圖像和在自然語言處理中作為輸入的句子看起來是不相關的,但是它們都可以用一個單一的、通用的數據結構來表示:圖(見圖1)。

形式上,圖是一組不同的頂點(表示項目或實體),這些頂點通過邊(表示關系)選擇性地連接在一起。被設計來處理這些圖的學習架構是有名稱的圖神經網絡(GNN)。輸入圖之間的頂點和邊的數量可以改變。通過這種方式,GNNs可以處理非結構化的、非歐幾里得數據[4],這一特性使得它們在圖形數據豐富的特定問題域中具有價值。相反,基于NN的算法通常需要對具有嚴格定義維數的結構化輸入進行操作。例如,構建一個用于在MNIST數據集上進行分類的CNN,其輸入層必須為28×28個神經元,后續輸入給它的所有圖像大小必須為28×28像素,才能符合這個嚴格的維數要求[27]。

圖作為數據編碼方法的表達性,以及GNNs相對于非結構化輸入的靈活性,推動了它們的研究和開發。它們代表了一種探索相對通用的深度學習方法的新方法,并且它們促進了深度學習方法對數據集的應用,直到最近,這些數據集還不能使用傳統的神經網絡或其他此類算法。

本篇內容結構:

  • (1) 簡明易懂的GNNs入門教程。
  • (2) 具體GNN架構(RGNNs、CGNNs、GAEs)的操作說明,逐步構建對GNN框架的整體理解(分別參見第3、4、5節)。
  • (3) GNN如何應用于現實世界問題領域的完整例子(見附錄B.1、B.2和B.3)。
  • (4) 具體的進一步閱讀建議和先進的文獻(提供在第3、4、5節的最后)。

//deepai.org/publication/a-practical-guide-to-graph-neural-networks

付費5元查看完整內容

深度學習在許多領域已經取得了顯著的成果。現在它在科學領域掀起了波瀾尤其是在生命科學領域。這本實用的書教導了開發人員和科學家如何將深度學習用于基因組學、化學、生物物理學、顯微學、醫學分析和其他領域。

理想的實踐開發人員和科學家準備將他們的技能應用于科學應用,如生物學,遺傳學,和藥物的發現,這本書介紹了幾個深度網絡原語。您將跟隨一個案例研究,研究如何設計將物理、化學、生物學和醫學結合在一起的新療法——這個例子代表了科學界最大的挑戰之一。

學習在分子數據上執行機器學習的基礎知識

  • 理解為什么深度學習是遺傳學和基因組學的強大工具
  • 應用深度學習來理解生物物理系統
  • 簡單介紹一下DeepChem的機器學習
  • 使用深度學習來分析微觀圖像
  • 使用深度學習技術分析醫學掃描
  • 了解變分自編碼器和生成對抗網絡
  • 解釋你的模型在做什么以及它是如何工作的
付費5元查看完整內容
北京阿比特科技有限公司