亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習是一門相對年輕的科學學科,其目標是通過從過去的經驗中學習來達到實現人類決策能力。它是一個跨學科領域,需要統計學、優化學、工程學和計算創新等多方面的知識。在過去的幾十年里,我們見證了機器學習算法的快速發展,這些算法在實踐中取得了顯著的成功,以至于機器學習已經成為解決現代社會中許多具有挑戰性問題的不可或缺的技術。與此同時,計算機科學、統計學、優化學和工程學的研究人員已經開發了機器學習的數學理論,他們致力于建立嚴格的數學基礎,不僅可以解釋當前的算法,還可以激勵未來基于原則的方法。然而,許多現有的理論成果散布在文獻中。雖然有一些入門書籍和綜述文章試圖涵蓋這些理論成果的一部分,但還沒有任何深入的教科書能夠提供對文獻中開發的標準數學工具的全面介紹。

這本書的目標是系統地介紹當前文獻中常用于分析機器學習算法的主要數學技術。由于空間限制,這本書本身并未詳細解釋各種機器學習算法及其應用背景。因此,假定讀者已經熟悉標準的機器學習算法,如支持向量機、決策樹、提升法、神經網絡等。讀者還應具備微積分、線性代數和概率的基本數學知識,以及足夠的數學成熟度來理解嚴格的理論證明。對于這樣的讀者,本書的主要目的是介紹現代數學技術,這些技術常用于分析這些機器學習算法。所選材料的水平足以為讀者提供充足的技術背景和知識,使他們能夠毫不費力地閱讀理論機器學習的研究論文。

這本書中選擇的主題旨在涵蓋當前研究水平上最有用和常見的數學工具和結果。一些更專業的主題(例如主動學習、半監督學習、損失函數一致性、差分隱私等)沒有包括在內,但是掌握了本書所介紹的技術工具的讀者應該能夠毫無困難地緊跟這些主題的當前研究。這本書可用于研究生級別的理論機器學習課程,并可作為從事理論機器學習研究的研究人員的參考資料。雖然最基本的概念以足夠的深度進行了說明,但一些其他當前感興趣的主題則以較少的細節進行介紹。由于主題眾多,一些介紹相對簡潔,而另一些主題則以一種抽象的方式呈現,目的是統一文獻中出現的不同特例。這種抽象和簡潔的表述可能在初次閱讀時導致一些困難。為了減輕這種困難,包含了許多示例,以提供理論結果的具體解釋和適當的背景。還包括了歷史性的評論,以給出本書所涵蓋主題的原始來源,以及對深入理解感興趣的讀者的額外閱讀材料。每章末尾提供的練習可以幫助讀者檢查他們對主要概念的掌握。大多數練習需要對材料有良好的了解,但不難。此外,一些練習旨在為與主文相關但沒有直接涵蓋的主題提供額外信息。

這本書包含兩個主要部分。第一部分,從第1章到第12章,涵蓋了在獨立同分布(iid)設置中監督學習算法的分析。它從獨立變量之和的標準指數尾部不等式開始,然后用幾章的篇幅發展了均勻收斂的技術工具,這是分析機器學習算法的主要數學機制。使用覆蓋數、VC維和Rademacher復雜度等經典概念建立了關鍵結果。這本書的第一部分還涵蓋了最近出現的穩定性分析技術,它可以處理諸如隨機梯度下降等特定的學習過程。作為這些基本數學工具的應用,也以不同程度的細節展示了對包括核方法、加性模型和神經網絡在內的幾種常用機器學習模型的分析。最后,第一部分以第12章的標準下界分析結束,涵蓋了常用的技術,如Fano的不等式和Assouad的引理。還提供了關于最小二乘回歸和密度估計的示例。這本書的第二部分,從第13章開始,涵蓋了順序統計估計問題的分析,包括在線學習、多臂老虎機問題和強化學習。它從將指數尾部不等式和獨立同分布隨機變量的均勻收斂分析推廣到順序設置中的鞅開始。然后在后續章節中描述在線學習、多臂老虎機和強化學習的特定算法及其分析。提供了上界和下界。這本書包含足夠的材料,可用于為期兩個學期的研究生級課程。

這本書包含足夠的材料,可用于為期兩個學期的研究生級課程,每個部分的內容可以作為一個學期的課程。它也可以用于一個學期的課程,涵蓋書中的部分內容。作者已經根據這本書的內容在香港科技大學教授研究生課程。參加這些課程的學生已經學習了基本的機器學習算法,并希望進一步學習分析這些算法的數學工具。

付費5元查看完整內容

相關內容

張潼,男,是一名機器學習、大數據分析領域的國際知名學者。美國新澤西州立大學統計系教授,曾任百度研究院副院長。2017年3月宣布加盟騰訊,任AI Lab主任。

在過去的幾年里,對于分子生物學中的每一個步驟,取得了顯著的進展。雖然我們尚未完全將分子生物學轉變為計算科學,或者將醫學和人類健康變成一門工程學科,但目前的勢頭表明我們離這一愿景只有豐富的額外數據和一些進一步的發展。這種進展在某種程度上與人工智能應用的其他領域有所不同。就個人而言,我相信人工通用智能(AGI),即使是小型哺乳動物的水平,仍然在地平線之外。此外,組合學、離散算法和數學推理并不是LLM(大型語言模型)的強項。這是因為這些模型是前饋架構,不包括循環,除非通過將迄今生成的文本反饋給LLM作為輸入而隱含地產生循環。正如Stephen Wolfram在他優秀的概述中所解釋的,計算不可簡化性保證了這些模型不能做某些事情(Wolfram 2023)。值得一提的是,這種能力的火花正在開始在GPT-4等系統中出現,正如Bubek等人在2023年所描述的那樣。然而,對分子生物學的建模并不需要AGI:它不需要高層次的規劃、主動性或目標,而且僅對組合學和算法推理有有限的需求。相反,對分子生物學的建模需要LLM在以下方面表現出色:學習復雜、嘈雜的序列數據的統計特性,以最佳方式從有損表示中預測這些數據。為了闡明這一觀點,讓我們來看一下在分子生物學中的中心法則的幾個不同階段近期的深度學習突破。

付費5元查看完整內容

拓撲深度學習最新概述文章,值得關注!

拓撲深度學習是一個迅速發展的領域,涉及為支持拓撲域(如單純復合物、胞復合物和超圖)的數據開發深度學習模型,這些拓撲域推廣了在科學計算中遇到的許多領域。在本文中,我們提出了一個統一的深度學習框架,該框架基于一種更豐富的數據結構,包括廣泛采用的拓撲域。具體來說,我們首先引入組合復合物,一種新型的拓撲域。組合復合物可以看作是保持某些期望性質的圖的泛化。與超圖類似,組合復合物對關系集合沒有約束。此外,組合復合物允許構建類似于單純復合物和胞復合物中的分層高階關系。因此,組合復合物泛化并結合了超圖和胞復合物的有用特性,這兩者已經成為促使圖神經網絡向拓撲空間推廣的有前景的抽象。其次,基于組合復合物及其豐富的組合和代數結構,我們開發了一般類的消息傳遞組合復合物神經網絡(CCNNs),主要關注基于注意力的CCNNs。我們描述了CCNNs的排列和方向等變性,并詳細討論了CCNNs中的匯集和反匯集操作。第三,我們評估了CCNNs在與網格形狀分析和圖學習相關的任務上的性能。我們的實驗表明,與專門針對相同任務的最先進的深度學習模型相比,CCNNs具有競爭性的性能。我們的研究結果證明了將高階關系納入不同應用的深度學習模型的優勢。

引言

近年來,用于計算分析的數據量呈指數級增長,包括科學數據以及文本、圖像和音頻等常見數據類型。這大量的數據使得包括物理學、化學、計算社會科學和生物學在內的各個領域得以利用機器學習技術(主要是深度神經網絡)取得重大進展。由于深度神經網絡可以有效地總結和提取大型數據集中的模式,因此它們適用于許多復雜任務。最初,深度神經網絡是為了學習基于規律(歐幾里得)領域的數據而發展起來的,例如圖像中的網格、文本序列和時間序列。這些模型,包括卷積神經網絡(CNNs)[156, 162, 243]、循環神經網絡(RNNs)[249, 13]和變換器(Transformers)[256],在處理這類歐幾里得數據方面已被證明具有很高的效果[117],在各種應用中取得了空前的性能,最近的例子包括聊天機器人(例如 ChatGPT [2])和文本控制的圖像合成[223]。

然而,各個領域的科學數據往往具有不同的結構,并不都是基于規律的歐幾里得域。因此,調整深度神經網絡來處理這類數據一直是個挑戰。在這一背景下,幾何深度學習(GDL)[50, 284, 268]作為深度學習模型在非歐幾里得領域的擴展應運而生。為了實現這一目標,GDL通過幾何規律原理(如對稱性、不變性和等變性)對執行的計算進行限制。GDL的視角使得在處理任意數據域時可以施加適當的歸納偏見,包括集合[215, 217, 81, 283, 138]、網格[45, 187, 46, 154, 242, 267, 196]、流形[45, 187, 46, 154, 242, 267, 196]和圖[232, 101, 284, 268, 46, 196, 49, 150]。特別是圖,由于其在眾多科學研究中的適用性以及它們能夠泛化傳統網格的能力,因而受到了人們的關注。因此,圖神經網絡(GNNs)[49, 150]的發展顯著提高了我們在自然出現圖的多種數據類型中進行建模和分析的能力。

盡管幾何深度學習(GDL)和圖神經網絡(GNNs)取得了成功,但僅從純幾何的角度看待圖形會產生純粹的局部抽象,并無法捕捉數據中的非局部特性和依賴關系。拓撲數據,包括邊(在圖中)、三角形(在網格中)或團的相互作用,在復雜物理系統[30, 161]、交通預測[144]、社會影響[285]、蛋白質相互作用[200]、分子設計[237]、視覺增強[95]、推薦系統[160]和流行病學[82]等眾多新穎應用中自然產生。為了本質上和有效地對這些數據建模,我們必須超越圖形,考慮在某些幾何變換下保持不變的定性空間屬性。換句話說,我們需要考慮數據的拓撲結構[58],以構建能夠從復雜數據中提取語義含義的神經網絡架構。從數據中提取更多全局信息的一種方法是超越基于圖的抽象,考慮圖的擴展,如單純復形、胞復形和超圖,這些概念可以推廣到科學計算中遇到的大多數數據領域[41, 29, 32, 253]。學習從這些拓撲領域支持的數據中學習的機器學習模型的發展[97, 53, 222, 234, 42, 121, 123, 91, 235, 221, 112, 272]是一個迅速增長的新領域,我們將其稱為拓撲深度學習(TDL)。TDL融合了幾個研究領域,包括拓撲數據分析(TDA)[93, 58, 86, 178, 108]、拓撲信號處理[233, 273, 236, 222, 21, 219, 229]、網絡科學[245, 161, 20, 29, 41, 39, 33, 80, 19, 203]和幾何深度學習[278, 56, 99, 177, 27, 197, 26]。

盡管對拓撲深度學習(TDL)的興趣日益增長,但迄今為止尚未建立這些思想的基本原則的更廣泛綜合。我們認為,這種不足阻礙了TDL的進展,因為這使得在不同概念之間建立聯系變得具有挑戰性,阻礙了比較,并使其他領域的研究者難以找到進入TDL的切入點。因此,在本文中,我們旨在提供一個關于TDL原則的基本概述,不僅作為近年來文獻中涌現出的許多令人興奮的想法的統一框架,還作為一個概念性的起點,以促進新想法的探索。最終,我們希望這項工作將有助于TDL的加速發展,我們相信這將成為將深度學習成功轉移到更廣泛應用場景的關鍵推動力。受到代數拓撲[108, 133]中傳統拓撲概念以及高階網絡方面的最新進展[29, 253, 41, 30]的啟發,我們首先引入組合復形(CCs)作為我們TDL框架的主要構建模塊。組合復形構成了一個新穎的拓撲領域,將圖形、單純復形、胞復形和超圖作為特殊情況加以統一,如圖11所示。與超圖類似,CCs(連接復合體)可以在抽象實體集合之間編碼任意集合式關系。此外,CCs允許構建類似于在單純形和胞腔復合體中發現的分層高階關系。因此,CCs將超圖和胞腔復合體的最期待的 特性進行了概括和整合。

此外,我們引入了構建深度神經網絡所需的運算符,以便基于組合復合體學習輸入特征和抽象概括。這些運算符提供了卷積、注意力機制、信息傳遞方案以及實現不變性、等變性或其他幾何規律的方法。具體而言,我們的新穎的前推操作允許在不同維度之間傳遞數據,從而構成了在CCs(連接復合體)上定義高階信息傳遞協議和(非)池化操作的基本構建模塊。由此產生的學習機器,我們稱之為組合復合體神經網絡(CCNNs),如我們的實驗評估中所清楚地展示的那樣,它們能夠學習抽象的高階數據結構。 我們設想我們的貢獻將成為一個平臺,鼓勵研究人員和實踐者擴展我們的CCNNs,并邀請社區在我們的工作基礎上擴展高階領域的TDL(拓撲數據學習)。我們的貢獻如圖1所示,包括以下幾點:

首先,我們將CCs(連接復合體)引入作為TDL(拓撲數據學習)領域。我們描述了CCs及其屬性,并解釋了它們如何概括主要現有領域,例如圖、超圖、單純形和胞腔復合體。因此,CCs可以作為一個統一的起點,實現拓撲數據的表達式表示的學習。

其次,使用CCs作為領域,我們構建了CCNNs,這是一種基于超圖和胞腔復合體的TDL模型的抽象高階信息傳遞神經網絡類,為這些模型提供了統一的藍圖

*基于在CCs上定義的前推操作符,我們為CCNNs引入了卷積、注意力、池化和反池化操作符。

  • 我們對CCNNs的排列和方向等變性進行了形式化和研究,為未來關于CCNNs幾何化的工作鋪平了道路。
  • 我們展示了如何通過圖形符號直觀地構建CCNNs(組合復合體神經網絡)。

第三,我們在實際場景中評估我們的想法

  • 我們發布了我們框架的源代碼,作為三個支持的Python庫:TopoNetX、TopoEmbedX和TopoModelX。
  • 我們展示了CCNNs(組合復合體神經網絡)在各種應用中與最先進的特定任務神經網絡具有競爭性的預測能,包括形狀分析和圖學習。
  • 我們建立了我們的工作與TDA(拓撲數據分析)中經典構造之間的聯系,如映射器[244]。特別地,我們以我們的TDL(拓撲數據學習)框架的方式實現映射器構造,并展示了如何在CCs(連接復合體)上的高階(非)池化中利用它。
  • 我們展示了任何CC可以簡化為一個特殊的圖,稱為Hasse圖。這使得我們可以用基于圖的模型來表征CCNNs的某些方面,從而將高階表示學習簡化為圖表示學習(使用擴大的計算圖)。

付費5元查看完整內容

智能決策技術的進步提升了制造業的效率,開啟了工業4.0時代。工業4.0正在徹底改變公司生產、改進和銷售產品的方式。制造商正在將物聯網(IoT)、云計算和分析、人工智能和機器學習等新技術整合到生產設施中。在過去的幾年中,智能分析已經成為一種解決方案,它可以檢查歷史和實時數據,以發現性能洞察。由于需要分析的數據量每天都在增長,因此需要先進的技術來收集、整理和分析傳入的數據。這種方法使企業能夠發現有價值的聯系和趨勢,并做出提高整體性能的決策。在工業4.0中,智能分析在描述性、預測性和規范性子域方面具有更廣泛的范圍。為此,本書將回顧并強調工業4.0中智能分析面臨的挑戰,并介紹為應對這些挑戰所做的最新進展。//www.routledge.com/Intelligent-Analytics-for-Industry-40-Applications/Pandey-Verma-Rathor-Singh-Singh/p/book/9781032342412

付費5元查看完整內容

機器學習在過去十年取得了重大進展。其最成功的范式是深度神經網絡,由連續表示層組成,其參數通過梯度下降在大規模數據集上進行優化。

深度神經網絡在許多任務上取得了卓越的性能,如物體識別、語言理解和自動駕駛。然而,他們仍然在推理任務中掙扎,這些任務通常需要操作符號并將多個步驟組合起來,例如,求解數學方程或編寫計算機程序。在這篇論文中,我們的目標是彌合這一差距,并教機器以精確、系統、可解釋和魯棒的方式進行推理,以應對現實環境中的模糊性。**本文采用神經符號方法,結合機器學習和符號推理的互補優勢。符號推理具有精確性和系統性。**但它已被限制在可嚴格形式化的領域。相比之下,主要的機器學習方法很靈活,但眾所周知難以解釋,需要大量數據,并且無法在訓練分布之外進行泛化。集成兩種方法的優勢對于構建具有精確和系統泛化能力的靈活推理機至關重要。具體而言,本文從兩個角度研究了神經符號推理。首先,將機器學習應用于與符號推理相關的任務,如自動定理證明(第2章)。其次,將符號推理啟發的歸納偏差引入機器學習模型,以提高其可解釋性、泛化性和數據效率(第3章和第4章)。結果強調了(1)神經符號模型架構,(2)在適當的抽象水平上進行推理,以及(3)明確的、推理的組合表示,如符號證明。 //dataspace.princeton.edu/handle/88435/dsp015q47rr958

付費5元查看完整內容

教育評估、信貸、就業、醫療保健和刑事司法等高風險應用的決策越來越受到數據驅動,并由機器學習模型支持。機器學習模型也使關鍵的信息物理系統,如自動駕駛汽車和機器人手術成為可能。在過去的幾年里,機器學習領域取得了驚人的進展。然而,即使這些技術越來越多地融入我們的生活,記者、活動家和學者仍發現了一些侵蝕這些系統可信度的特征。例如,據報道,一個支持法官審前拘留決定的機器學習模型對黑人被告存在偏見。同樣,據報道,一個支持在一家大型科技公司進行簡歷篩選的模型也對女性有偏見。研究表明,用于胸部x光片疾病計算機輔助診斷的機器學習模型更重視圖像中的標記,而不是患者的解剖細節。自動駕駛汽車的死亡事故發生在不同尋常的條件下,根本的機器學習算法沒有經過訓練。簡而言之,雖然每天都有機器學習算法在某些任務上取得超人成績的新故事,但這些驚人的結果只是在一般情況下。我們在所有情況下信任這些算法所需要的可靠性、安全性和透明度仍然是難以捉摸的。因此,越來越多的人希望在這些系統中擁有更多的公平性、健壯性、可解釋性和透明度。


付費5元查看完整內容

最近,深度學習在許多AI/ML任務中被證明非常成功,但對該技術的理論理解一直滯后。這次報告將調研正在進行的努力,以理解這種方法的成功,包括優化方面和巨大的網絡在微小數據集上不過度擬合的神奇能力。

在過去的十年里,深度學習迅速占據了人工智能和機器學習的主導地位。盡管深度學習在很大程度上是一個“黑盒子”,但不可否認,其取得了顯著的成功。當下,有一個小的分支學科正在發展起來,獲得對深度學習潛在數學特性更好的理解。通過對深度學習在某些具體情況下的最新理論分析的回顧,我們說明了黑盒理論是如何忽略(甚至錯誤地理解)訓練過程中發生的特殊現象的。這些現象也沒有體現在訓練目標函數中。我們認為,通過數學視角來理解這種現象對于未來的全面應用至關重要。

**演講嘉賓:**Sanjeev Arora

**Sanjeev Arora是普林斯頓大學計算機科學Charles C. Fitzmorris教授。**他曾獲得Packard Fellowship(1997)、Simons Investigator Award(2012)、G?del Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成員。

付費5元查看完整內容

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

在過去的幾年里,深度學習方法在從計算機視覺到語音識別的各個領域的廣泛問題上取得了前所未有的成績。目前的研究主要集中在開發網格結構數據的深度學習方法,而許多重要的應用都需要處理圖結構數據。這些幾何數據在計算機圖形學和三維視覺、傳感器網絡、藥物設計、生物醫學、推薦系統、NLP和帶有知識圖的計算機視覺、web應用等領域越來越重要。本次演講的目的是介紹圖上的卷積神經網絡,以及這些新的學習技術的應用。

人類從端粒到端粒的DNA全序列測定始于30年前,最終于2021年完成。這一成就是眾多專家的巨大努力的結果,他們設計了各種工具,并進行了艱苦的手工檢查,以實現第一個無間隙基因組序列。然而,這種方法很難作為一種組裝不同基因組的通用方法,尤其是在數據量大、組裝速度快的情況下。在這項工作中,我們探索了一種不同的方法來解決基因組組裝任務的中心部分,包括解開一個大的組裝圖,從中需要重建基因組序列。我們的主要動機是減少人類工程啟發式,并使用深度學習開發更通用的重建技術。準確地說,我們引入了一種新的學習框架來訓練圖卷積網絡通過找到正確的路徑來解析組裝圖。訓練使用從解析CHM13人類序列生成的數據集進行監督,并在使用真實人類PacBio HiFi讀取數據構建的組裝圖上進行測試。實驗結果表明,在單個染色體生成的模擬圖形上訓練的模型能夠顯著地解析所有其他染色體。此外,該模型在相同的圖表上優于從最先進的\textit{de novo}匯編器手工制作的啟發式。利用圖網絡重建的染色體在核苷酸水平上更準確,報告的contig數量更少,基因組重建分數更高,NG50/NGA50評估指標更高。

付費5元查看完整內容

最近機器學習或人工智能的視覺和自然語言處理方面的進展使個人助理或自動駕駛汽車等新技術的發展成為可能,這將機器學習和人工智能帶到了流行文化的前沿。這些算法進步的積累,以及大量數據集和隨時可用的高性能計算的增加,在將機器學習應用到如此廣泛的學科中發揮了重要作用。鑒于化學科學強調結構和功能之間的關系,無論是在生物化學還是在材料化學中,化學家采用機器學習。《化學中的機器學習》關注以下內容,以啟動您對這一高度相關主題的理解:

//axial.acs.org/2021/06/21/machine-learning-in-chemistry-now-and-in-the-future/

與化學科學最相關的主題是重點。

  • 關注概念而不是技術細節。綜合引用為更多的技術細節提供了資源。

  • 機器學習方法的關鍵細節(不容易,但重要的是理解這些方法的優點和局限性,并確定領域知識最容易應用的地方。

  • 熟悉基本的單變量微積分和線性代數將會很有幫助,盡管我們已經提供了重要的一步一步的推導

付費5元查看完整內容

人工智能(AI)為改善私人和公共生活提供了很多機會,以自動化的方式在大型數據中發現模式和結構是數據科學的核心組件,目前驅動著計算生物學、法律和金融等不同領域的應用發展。然而,這種高度積極的影響也伴隨著重大的挑戰:我們如何理解這些系統所建議的決策,以便我們能夠信任它們?在這個報告中,我們特別關注數據驅動的方法——特別是機器學習(ML)和模式識別模型——以便調查和提取結果和文獻觀察。通過注意到ML模型越來越多地部署在廣泛的業務中,可以特別理解本報告的目的。然而,隨著方法的日益普及和復雜性,業務涉眾對模型的缺陷、特定數據的偏差等越來越關注。類似地,數據科學從業者通常不知道來自學術文獻的方法,或者可能很難理解不同方法之間的差異,所以最終使用行業標準,比如SHAP。在這里,我們進行了一項調查,以幫助行業從業者(以及更廣泛的數據科學家)更好地理解可解釋機器學習領域,并應用正確的工具。我們后面的章節將圍繞一位公認的數據科學家展開敘述,并討論她如何通過提出正確的問題來解釋模型。

//arxiv.org/abs/2009.11698

付費5元查看完整內容
北京阿比特科技有限公司