隨著數字技術的快速成熟和穩定,我們正在被無數的數字實體、連接設備和微服務轟炸。它們有目的地相互作用,以創建龐大的多結構數字數據集。挑戰在于如何將數據轉化為信息和知識。有大量的數據分析方法。隨著產品和工具供應商的不斷貢獻,數據分析的步伐正在獲得急需的速度和智慧。數據科學是一個日益與數據分析相關的領域。有大的、快速的、流式的數據分析平臺、框架、加速器、工具包等,使數據分析更簡單、更快、更實惠。
在大數據世界中,NoSQL和分布式SQL數據庫迅速獲得了市場和腦力份額。圖數據庫是一種突出的NoSQL數據庫。通過圖表的數據表示為可視化和實現一系列新功能奠定了令人振奮的基礎。另一方面,通過人工智能(AI)算法[機器和深度學習(ML/DL)]更快的成熟度和穩定性,分析能力得到了顯著提高。因此,通過直接和獨特的AI算法授權,經典和當前的數據科學范式得到了實質性的進步,擁有了復雜的能力。現在情況有了轉機。將受人工智能啟發的數據科學方法應用于圖結構數據被視為數字世界的一個明確的游戲規則改變者。通過數據科學平臺、框架和引擎從數據堆中提取隱藏的模式、有用的關聯、迫在眉睫的風險、未來的機會和其他有用和可用的見解是新的常態。特別是圖數據的數據科學正獲得特殊的意義,因為人們已經充分認識到,圖和數據科學技術的結合可以帶來許多值得注意的創新和轉變。
圖數據科學是從圖表示的數據中發現知識的一種技術驅動的方法。專家指出,圖數據科學具有帶來一系列業務、技術和用戶用例的內在優勢。在這本書中,我們將涵蓋圖數據科學的各個方面,以及它如何成為數據分析領域的游戲規則改變者。這本書的主要章節是:
圖技術——本章涵蓋了圖理論的概念,為更好地理解圖分析技術和工具建立一個強大和可持續的基礎。討論了不同類型的圖,以及發生在圖技術領域的最新趨勢和轉變。描述圖算法——在理解了圖算法和分析的重要性之后,研究人員和專家提出了許多特定于圖的算法,這些算法使圖分析成為可能。本章介紹了有前途和突出的圖算法,如社區檢測,檢測組聚類或分區選項;中心性(重要性),用于確定網絡中不同節點的重要性;相似度用來評估節點的相似程度;啟發式鏈接預測,估計節點形成關系的可能性;尋路和搜索,尋找最優路徑并評估路徑的可用性和質量。介紹圖分析——正在研究各種收集和清理的數據,以從數據中推斷出隱藏的見解。由于傳統的數據分析方法無法從數據中獲得更深入和決定性的洞見,圖分析越來越受關注。圖分析(也稱為網絡分析)是對客戶、產品、解決方案、服務、運營和設備等實體之間關系的分析。本章重點討論增強圖分析的有前景和潛在的技術。圖數據庫和工具包——圖數據庫是一種數據庫,它將數據之間的關系視為與數據本身同等重要。它們用于執行高級圖分析,方法是連接節點并以用戶可以查詢的圖的形式創建關系(邊)。本章將介紹主流圖數據庫,以及它們如何簡化下一代圖分析。
大規模圖分析方面的專業知識是解決現實世界的重大挑戰的關鍵,從醫療健康到可持續性,再到檢測內部威脅、網絡防御等。本書全面介紹了大規模圖分析,包括學術界、工業界和政府的思想領袖的貢獻。 對于圖數據科學和大規模分析來說,這是一個非常令人興奮的領域,我們有新的新興計算平臺和加速器。隨著我們進入物聯網(IoT)和5G網絡,數百億設備將產生ZB的數據,我們也認識到能源是我們數據移動的一個限制因素,我們的計算將是我們未來需要解決的關鍵組件。將這些類型的問題映射到正確的體系結構可能會產生六個或更多數量級的性能改進。大規模圖分析的專業知識是解決從健康到可持續發展到檢測內部威脅、網絡防御等現實世界重大挑戰的關鍵。
本書面向學術界、國家實驗室和工業界的學生、研究人員和實踐者,他們希望了解大規模圖分析中最先進的算法、模型、框架和軟件。這本書包含了大規模圖分析領域的主要作者的章節的全面集合。這些章節分為五個部分:第一部分:算法:搜索和路徑(第1-2章),第二部分:算法:結構(第3-6章),第三部分:算法和應用(第7-11章),第四部分:模型(第12-14章),第五部分:框架和軟件(第15-20章)。
**機器學習和數據科學, **由一組在該領域的專家撰寫和編輯,這份論文集合反映了機器學習和數據科學的最新和全面的現狀,適用于工業、政府和學術界。
機器學習(ML)和數據科學(DS)是非常活躍的課題,在理論和應用方面都具有廣泛的應用范圍。它們已經成為一個重要的新興科學領域和范式,推動了統計、計算科學和智能科學等學科的研究演變,以及科學、工程、公共部門、商業、社會科學和生活方式等領域的實踐轉型。同時,它們的應用提供了一些重要的挑戰,這些挑戰通常只能通過創新的機器學習和數據科學算法來解決。
這些算法涵蓋了人工智能、數據分析、機器學習、模式識別、自然語言理解和大數據操作等更廣泛的領域。他們還解決了相關的新的科學挑戰,從數據捕獲、創建、存儲、檢索、共享、分析、優化和可視化,到跨異構和相互依賴的復雜資源的集成分析,以更好的決策、協作,并最終創造價值。
在當今自動化、云計算、算法、人工智能和大數據的世界中,很少有話題像數據科學和機器學習那樣相關。它們最近之所以受歡迎,不僅是因為它們適用于現實生活中的問題,還因為它們自然地融合了許多不同的學科,包括數學、統計學、計算機科學、工程學、科學和金融學。對于開始學習這些主題的人來說,大量的計算技術和數學思想似乎是壓倒性的。有些人可能只滿足于學習如何使用現成的方法來應用于實際情況。這本書的目的是提供一個可訪問的,但全面的數據科學和機器學習的概述。它是為任何有興趣獲得更好的理解數學和統計,支持豐富的各種想法和機器學習算法的數據科學。我們的觀點是,計算機語言來來去去,但潛在的關鍵思想和算法將永遠存在,并將形成未來發展的基礎。
數據科學為理解和處理數據提供了必要的語言和技術。它涉及數值數據的設計、收集、分析和解釋,目的是提取模式和其他有用的信息。機器學習與數據科學密切相關,涉及從數據中學習的算法和計算機資源的設計。本書的組織大致遵循數據科學項目的典型步驟:收集數據以獲得關于研究問題的信息;數據的清理、匯總和可視化;數據建模和分析;將關于模型的決策轉化為關于研究問題的決策和預測。由于這是一本以數學和統計為導向的書,大部分重點將放在建模和分析上。
我們從第一章開始,使用Python中的數據操作包、結構化、總結和可視化數據。雖然本章中涉及的材料不需要數學知識,但它為數據科學形成了一個明顯的起點:更好地理解可用數據的性質。在第二章中,我們介紹統計學習的主要成分。我們區分監督和非監督學習技術,并討論我們如何評估(非)監督學習方法的預測性能。統計學習的一個重要部分是數據建模。我們介紹了數據科學中各種有用的模型,包括線性、多元高斯和貝葉斯模型。機器學習和數據科學中的許多算法使用蒙特卡洛技術,這是第3章的主題。蒙特卡洛可以用于模擬、估計和優化。第四章討論了無監督學習,其中我們討論了密度估計、聚類和主成分分析等技術。然后我們將注意力轉向監督式學習然后,我們將在第5章中把注意力轉向監督學習,并解釋一大類回歸模型背后的思想。在其中,我們還描述了如何使用Python的statmodels包來定義和分析線性模型。第6章建立在前一章回歸的基礎上,發展了核方法和正則化的強大概念,這使得第5章的基本思想可以以優雅的方式得到擴展,使用重建核希爾伯特空間的理論。在第7章中,我們繼續進行分類任務,它也屬于監督學習框架,并考慮了各種分類方法,包括貝葉斯分類、線性和二次判別分析、k近鄰和支持向量機。在第8章,我們考慮回歸和分類的通用方法,利用樹結構。最后,在第9章,我們考慮了神經網絡和深度學習的工作方式,并表明這些學習算法有一個簡單的數學解釋。在每一章的末尾都提供了廣泛的練習。
//inferentialthinking.com/chapters/intro.html
數據科學是通過探索、預測和推理,從龐大而多樣的數據集中得出有用的結論。探索包括識別信息中的模式。預測是指利用我們已知的信息,對我們希望知道的值做出有根據的猜測。推論包括量化我們的確定性程度:我們發現的那些模式是否也會出現在新的觀察中?我們的預測有多準確?我們用于探索的主要工具是可視化和描述性統計,用于預測的是機器學習和優化,用于推斷的是統計測試和模型。統計學是數據科學的核心組成部分,因為統計學研究如何在不完整的信息下得出可靠的結論。計算是一個核心組件,因為編程允許我們將分析技術應用于現實世界中出現的大量和多樣化的數據集:不僅是數字,還有文本、圖像、視頻和傳感器讀數。數據科學包含了所有這些東西,但由于應用,它不僅僅是各部分的總和。通過理解一個特定的領域,數據科學家學會對他們的數據提出適當的問題,并正確解釋我們的推理和計算工具提供的答案。
通過本書一步一步地,您將學習如何利用算法思維和代碼的力量,獲得關于當前機器學習方法的力量和局限性的直覺,并有效地將它們應用到實際的業務問題。
為藥物開發人員而不是計算機科學家寫的,這一專論采用了一種系統的方法來挖掘科學數據源,涵蓋了從化合物篩選到先導化合物選擇和個性化藥物的合理藥物發現的所有關鍵步驟。第一部分明確地分為四個部分,討論了不同的可用的數據來源,包括商業和非商業的,而下一節著眼于數據挖掘在藥物發現中的作用和價值。第三部分比較了多藥理學最常見的應用和策略,其中數據挖掘可以大大提高研究工作。書的最后一部分是致力于復合測試的系統生物學方法。
在整本書中,工業和學術藥物發現策略被處理,貢獻者來自兩個領域,使一個知情的決定,何時和哪些數據挖掘工具使用自己的藥物發現項目。
一般來說,從數據庫中提取信息稱為數據挖掘。數據庫是一種數據集合,其組織方式允許方便地訪問、管理和更新其內容。數據挖掘包括數字和統計技術,可以應用于許多領域的數據,包括藥物發現。數據挖掘的功能定義是使用數值分析、可視化或統計技術來識別數據集中重要的數值關系,從而更好地理解數據并預測未來的結果。通過數據挖掘,我們可以得到一個模型,該模型將一組分子描述符與諸如功效或ADMET特性等生物關鍵屬性聯系起來。所得模型可用于預測新化合物的關鍵屬性值,為后續篩選確定優先級,并深入了解化合物的構效關系。數據挖掘模型范圍從簡單的、由線性技術導出的參數方程到復雜的、由非線性技術導出的非線性模型。文獻[1-7]提供了更詳細的信息。
這本書分為四個部分。第一部分涉及藥物發現中使用的不同數據來源,例如,蛋白質結構數據庫和主要的小分子生物活性數據庫。第二部分重點介紹數據分析和數據豐富的不同方法。在這里,我們提出了對HTS數據挖掘和識別不同目標命中的工業見解。另一章展示了強大的數據可視化工具在簡化這些數據方面的優勢,從而促進了它們的解釋。第三部分包括多種藥理學的一些應用。例如,在化學基因組學時代,數據挖掘可以為配體分析和目標捕捉帶來積極的結果。最后,在第四部分,系統生物學方法被考慮。例如,讀者被介紹到綜合和模塊化分析方法,以挖掘大分子和表型數據。結果表明,該方法能夠降低高維數據的復雜性,并為整合不同類型的組學數據提供了一種方法。在另一章中,建立了一套新的方法,定量地衡量化學品對生物系統的生物影響。
本書使用Python向人們介紹編程和算法思維。它非常關注經典算法,但它也提供了一個堅實的理解基本算法解決問題的技術。
本書以高度可讀的方式處理了編程和計算機科學中一些最重要和最具挑戰性的領域。它涵蓋了算法理論和編程實踐,演示了如何在實際的Python程序中反映理論。
介紹了Python語言中內置的知名算法和數據結構,并向用戶展示了如何實現和評估其他算法。
如果你是一個Python愛好者,并希望學習關于算法設計和分析的Python方法所需的一切,這本書正是你所需要的。
優化和機器學習的相互作用是現代計算科學最重要的發展之一。優化的公式和方法在設計從大量數據中提取基本知識的算法方面被證明是至關重要的。然而,機器學習并不僅僅是優化技術的消費者,而是一個快速發展的領域,它本身也在產生新的優化思想。這本書以一種對兩個領域的研究人員都可訪問的方式捕獲了優化和機器學習之間交互的藝術的狀態。
優化方法因其廣泛的適用性和吸引人的理論特性而在機器學習中占有重要地位。當今機器學習模型的復雜性、規模和多樣性日益增加,需要對現有假設進行重新評估。這本書開始了重新評估的過程。它描述了在諸如一階方法,隨機近似,凸松弛,內點方法,和近端方法等已建立的框架。它還專門關注一些新的主題,如正則化優化、魯棒優化、梯度和次梯度方法、分裂技術和二階方法。其中許多技術的靈感來自其他領域,包括運籌學、理論計算機科學和優化子領域。這本書將豐富機器學習社區和這些其他領域以及更廣泛的優化社區之間正在進行的交叉發展。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
Graph Data Science For Dummies將帶您了解圖數據科學的基礎——從定義圖分析和算法到向您展示如何使用它們進行機器學習和解決現實世界的問題。
了解圖表數據科學基礎
用圖表分析做出更好的預測
使用GDS技術升級您的應用程序