找到有合適技能的人。本書闡明了創建高效能數據集成團隊的最佳實踐,使您能夠理解計劃、設計和監視一次性遷移和日常集成系統的技能和需求、文檔和解決方案。
數據的增長是爆炸式的。隨著跨企業系統的多個信息源的不斷到達,將這些系統組合成一個單一的、內聚的、可記錄的單元變得比以往任何時候都更加重要。但是,與其他軟件規程相比,集成的方法有很大的不同,它要求能夠編寫代碼、協作并將復雜的業務規則分解為可伸縮的模型。
數據遷移和集成可能很復雜。在許多情況下,項目團隊將實際的遷移保留到項目的最后一個周末,任何問題都可能導致錯過最后期限,或者在最壞的情況下導致需要在部署后進行協調的數據損壞。本書詳細介紹了如何進行戰略規劃以避免這些最后時刻的風險,以及如何為未來的集成項目構建正確的解決方案。
你會學到什么
這本書是給誰看的
構建相應實踐的執行和集成團隊領導。它也適用于需要額外熟悉ETL工具、集成過程和相關項目可交付成果的集成架構師、開發人員和業務分析人員
首先加速介紹R生態系統、編程語言和工具,包括R腳本和RStudio。通過使用許多例子和項目,這本書教你如何將數據導入R,以及如何使用R處理這些數據。一旦基礎扎實,《實用R 4》的其余部分將深入具體的項目和例子,從使用R和LimeSurvey運行和分析調查開始。接下來,您將使用R和MouselabWeb執行高級統計分析。然后,您將看到在沒有統計信息的情況下R如何工作,包括如何使用R自動化數據格式化、操作、報告和自定義函數。
本書的最后一部分討論了在服務器上使用R;您將使用R構建一個腳本,該腳本可以運行RStudio服務器并監視報表源的更改,以便在發生更改時向用戶發出警報。這個項目包括定期電子郵件提醒和推送通知。最后,您將使用R創建一個定制的個人最重要信息的每日綱要報告,例如天氣報告、每日日歷、待辦事項等等。這演示了如何自動化這樣一個過程,以便用戶每天早上導航到相同的web頁面并獲得更新的報告。
你將學到什么
這本書是給誰的
通過這個緊湊的實用指南,開始使用Python進行數據分析。這本書包括三個練習和一個用正確的格式從Python代碼中獲取數據的案例研究。使用Python學習數據分析還可以幫助您使用分析發現數據中的意義,并展示如何可視化數據。
每一節課都盡可能是獨立的,允許您根據需要插入和退出示例。如果您已經在使用Python進行數據分析,那么您會發現您希望知道如何使用Python來完成許多事情。然后,您可以將這些技術直接應用到您自己的項目中。
如果您不使用Python進行數據分析,那么本書從一開始就帶您了解基礎知識,為您在該主題中打下堅實的基礎。當你閱讀完這本書的時候,你會對如何使用Python進行數據分析有更好的理解。
你將學到什么
這本書是給誰的
想學習使用Python進行數據分析的同學。建議您具有Python方面的經驗,但不是必需的,因為您需要具有數據分析或數據科學方面的經驗。
通過機器學習的實際操作指南深入挖掘數據
機器學習: 為開發人員和技術專業人員提供實踐指導和全編碼的工作示例,用于開發人員和技術專業人員使用的最常見的機器學習技術。這本書包含了每一個ML變體的詳細分析,解釋了它是如何工作的,以及如何在特定的行業中使用它,允許讀者在閱讀過程中將所介紹的技術融入到他們自己的工作中。機器學習的一個核心內容是對數據準備的強烈關注,對各種類型的學習算法的全面探索說明了適當的工具如何能夠幫助任何開發人員從現有數據中提取信息和見解。這本書包括一個完整的補充教師的材料,以方便在課堂上使用,使這一資源有用的學生和作為一個專業的參考。
機器學習的核心是一種基于數學和算法的技術,它是歷史數據挖掘和現代大數據科學的基礎。對大數據的科學分析需要機器學習的工作知識,它根據從訓練數據中獲得的已知屬性形成預測。機器學習是一個容易理解的,全面的指導,為非數學家,提供明確的指導,讓讀者:
通過學習構建一個可以從數據中學習的系統,讀者可以在各個行業中增加他們的效用。機器學習是深度數據分析和可視化的核心,隨著企業發現隱藏在現有數據中的金礦,這一領域的需求越來越大。對于涉及數據科學的技術專業人員,機器學習:為開發人員和技術專業人員提供深入挖掘所需的技能和技術。
《2020技術趨勢報告》(Tech Trends 2020)提出的2020年五大重點趨勢為:
數字孿生:連結現實與數字世界
長期以來,使用虛擬的模型來優化流程、產品或服務的想法并不新鮮。但隨著具有更復雜的仿真和建模能力、更好的互操作性和IoT傳感器以及電力系統可視化的數字化仿真平臺和工具的廣泛使用,使企業逐漸意識到創建更精細、更具動態感的數字化仿真模型成為可能。我們可以看到數字孿生技術能夠在提高生產效率、優化供應鏈、改變預測域維護、有效緩解交通擁堵等領域發揮重要作用。越來越多的企業,特別是那些從產品銷售向產品+服務捆綁銷售轉變的企業,或銷售即服務的企業,正在廣泛應用數字孿生技術。隨著企業能力和成熟度的不斷提升,我們可以預見未來會有更多企業使用數字孿生技術進行流程優化、數據驅動決策,和設計新產品、新服務及業務模型。從長遠來看,要釋放數字孿生技術的全部潛力,需要整合整個生態系統中的所有系統與數據。
架構覺醒
越來越多的技術和首席高管們逐漸意識到,此刻,技術架構領域的科學在戰略上比以往任何時候都更加重要。事實上,為了在被技術創新打亂的市場中保持競爭力,成熟企業就需要不斷改進他們的架構——這個過程可以從改變技術架構師在企業內扮演的角色開始。在接下來的幾個月里,我們期待有更多企業將架構師從傳統象牙塔轉移到新的陣地。這些富有才華但沒有被充分利用的技術人才將通過擔任服務和系統的職責,參與到系統運營當中。這種轉變的目的非常明確:把經驗最豐富的架構師安排到最需要他們的地方,比如,加入設計復雜技術的軟件開發團隊。同時,加大對架構師的人才培養,在整個企業范圍內提升他們的戰略價值,有助于把這一IT崗位的職能演化為數字經濟中的競爭優勢。
技術道德與信任
在不斷變化的趨勢中,先鋒企業越來越意識到,企業內部每一個受技術影響的方面都可能成為取得或失去信任的關鍵。對他們而言,信任更是一個關鍵的企業目標,而不僅是合規或公共關系問題。如今,信任更作為先鋒企業的一個全方位承諾,確保企業內部的技術、流程和人員等各個方面都能夠齊心協力,維持眾多利益相關者所期待的高度信任。企業領導者也開始重新評估他們在產品、服務以及有關數據管理、合作伙伴關系和員工培訓等相關領域的策略是如何構建信任的。CIO們也紛紛強調“技術道德”,并開發出一套工具用來輔助企業:當企業需要引入并使用顛覆性技術時,能夠準確洞察其中的道德困境。同時,那些將企業價值觀和技術道德貫穿整個企業的領導者們正在向世人展示他們“從善”的承諾,這有助于與利益相關者建立長期的互信關系。
人感體驗平臺
越來越多的人工智能(AI)解決方案——將被稱為“情感計算”或“情感AI”——正在重新定義我們感受技術的方式。在接下來的幾個月里,更多的公司將積極響應人們對AI技術日益增長且沒有被滿足的需求,從而更好地了解人類感情并與人類互動。回顧歷史,計算機一直無法將事件與人類的情感或情感因素聯系起來,但這種情況正因創新者目前大規模地將情商(EQ)添加到技術的智商(IQ)中而發生改變。人感體驗平臺就是將人工智能技術、以人為本的設計和目前神經學研究相結合,從而能夠識別人的情緒狀態及背景內容,然后做出適當地響應。事實上,利用人感智能平臺進行認知和大規模使用情感數據的能力確實是企業未來發展的一大重要機遇。
財務與IT的未來
就在技術戰略日漸成為企業業務戰略的核心部分同時,人們對其在改進結果上的要求也有所增加。為了實現這一目標,我們相信會有越來越多的IT和財務領域的領導者將會共同努力,設計靈活的流程與方法,以敏捷速度進行經營管理與創新。無論是為了支持創新、抵御顛覆或實現數字化轉型,IT都需要財務的支持,以便反思并對技術創新進行有效治理,適應敏捷方法,獲得創新資本。同時,避免向支持創新的新型財務、預算和會計流程的過渡一蹴而就。但對于CIO和CFO來說,他們都有強烈的動機去尋找有效資助創新的方法。有些公司已經開始順應這一趨勢,并大力探索未來的各種可能性。他們處于領先地位,而且很可能率先享受到由財務以敏捷的速度資助創新所帶來的競爭優勢。
識別、分析和改進性能低下的查詢,這些查詢會損害用戶體驗并導致業務收入損失。這本書將幫助您通過一個多步驟的過程,使查詢調優成為您日常生活中不可分割的一部分,這個過程包括監視執行時間、識別用于優化的候選查詢、分析它們的當前性能,以及改進它們以更快地交付結果和更少的開銷。作者Jesper Krogh系統地討論了這些步驟以及執行這些步驟的數據源和工具。
MySQL 8查詢性能調優旨在幫助您使用多種策略提高查詢性能。您將了解如何使用傳統的解釋命令和新的解釋分析工具來分析查詢。您還將看到如何使用Visual Explain特性來提供執行計劃的可視化視圖。索引的覆蓋范圍包括索引策略和索引統計信息,您將了解如何使用直方圖來提供關于傾斜數據分布的輸入,優化器可以使用這些數據分布來提高查詢性能。您將了解鎖,以及如何研究鎖問題。您將了解MySQL優化器是如何工作的,包括新的散列連接算法,以及如何在需要時更改優化器的行為以交付更快的執行時間。您將獲得取悅應用程序用戶所需的工具和技能,并從企業計算資源中獲取最大的價值。
你會學到什么
這本書是給誰看的
熟悉MySQL并需要參與查詢調優的數據庫管理員和SQL開發人員。雖然需要一些MySQL經驗,但是不需要預先了解查詢性能調優。
使用谷歌Dialogflow循序漸進、親身實踐地構建可用于生產的企業認知虛擬助理。這本書提供了各種認知技術選擇的概述,并深入探討了認知虛擬代理,以處理各種行業(如旅游和天氣)中復雜的現實生活用例。
您將更深入地研究實現諸如輸入/輸出上下文、后續意圖、操作和參數以及處理復雜的多重意圖等功能的認知虛擬助理的高級功能。通過將您的認知機器人與Facebook messenger集成,您將了解如何與第三方消息傳遞平臺集成。您還將與第三方api集成,以使用webhook豐富您的認知機器人。
使用谷歌Dialogflow的認知虛擬助理消除了認知平臺的復雜性,并提供豐富的指導,您可以在開發自己的認知機器人時使用。本書深入介紹了谷歌對話框流,并從基礎開始,為那些剛開始使用谷歌對話框流的開發人員提供了一個實際的指導。本書中提供的所有代碼都將以腳本和配置文件的形式提供,這允許您嘗試示例并以有趣的方式擴展它們。
你會學到什么
簡介:
機器學習和深度學習以深遠的方式影響著世界,從我們與技術產品的交互方式以及彼此之間的交互方式來看,這些技術正在影響我們的關系,工作方式以及我們如何融入生活。如今,在可預見的將來,智能機器會成為社會文化和社會經濟關系賴以生存的核心。
機器學習可以描述為用于基于特定數據集中變量(也稱為特征或屬性)之間的一組交互作用來預測或分類未來事件的工具和技術。另一方面,深度學習擴展了一種稱為神經網絡的機器學習算法,用于學習計算機難以執行的復雜任務。這些任務可能包括識別面部表情和理解具有各種上下文含義的語言。
數據對機器學習和深度學習的興起以及未來的性能提高至關重要。自二十世紀初以來,生成和存儲的數據量呈指數級增長。龐大數據的增長部分歸因于Internet的興起和處理器的小型化,這些處理器已抑制了“物聯網(IoT)”技術。這些大量的數據使訓練計算機學習不可能使用顯式指令集的復雜任務成為可能。
本書的目的是為讀者提供構建學習模型的基本原理和工具。機器學習和深度學習正在迅速發展,對于初學者而言,機器學習和深度學習常常令人感到困惑和困惑。許多人不知道從哪里開始。本書使初學者可以了解有關感興趣的問題,并利用機器學習和深度學習技術的理論基礎和實際步驟進行深入研究。
本書分為八個部分。其細分如下:
?第1部分:Google Cloud Platform入門
?第2部分:數據科學的編程基礎
?第3部分:機器學習簡介
?第4部分:實踐中的機器學習
?第5部分:深度學習簡介
?第6部分:實踐中的深度學習
?第7部分:Google Cloud Platform上的高級分析/機器學習
?第8部分:在GCP上實現生產化機器學習解決方案
作者介紹:
Ekaba Bisong是T4G的數據主管。 他之前曾在Pythian擔任數據科學家/數據工程師。 此外,他還與卡爾頓大學的智能系統實驗室有項目合作,其研究重點是學習系統(包括自動學習和強化學習),機器學習和深度學習。 Ekaba是Google認證的專業數據工程師和機器學習的Google開發人員專家。
技術顧問:
Vikram Tiwari是Omni Labs,Inc.的聯合創始人,負責處理所有技術。他還是機器學習和Google Cloud Platform的Google Developer Expert。他在各種會議上發表演講,并舉辦有關云和機器學習主題的動手研討會。他喜歡與初創企業和開發人員作為導師合作,以幫助他們應對自己的研究中的各種挑戰。除了工作外,他還在舊金山的Google Developer Group Cloud運營著一個開發人員社區。
Gonzalo Gasca Meza是在GCP機器學習平臺上工作的開發人員程序工程師。他研究方向是TensorFlow和機器學習基礎架構。 Gonzalo擁有牛津大學的計算機科學學士學位和軟件工程碩士學位。加入Google之前,Gonzalo致力于語音和視頻通信的企業級產品。
部分目錄:
簡介: Google一直是引入突破性技術和產品的先驅。在效率和規模方面,TensorFlow也不例外,因此,編寫本書只是向讀者介紹TensorFlow核心團隊所做的這些重要更改。本書著重于機器學習方面的TensorFlow的不同應用,并更深入地探討了方法的最新變化。對于那些想要用TensorFlow進行機器學習的人來說,這本書是一個很好的參考點。本書分為三個部分。第一篇:使用TensorFlow 2.0進行數據處理。第二部分:使用TensorFlow 2.0構建機器學習和深度學習模型。它還包括使用TensorFlow 2.0的神經語言編程(NLP)。第三部分介紹了如何在環境中保存和部署TensorFlow 2.0模型。這本書對數據分析人員和數據工程師也很有用,因為它涵蓋了使用TensorFlow 2.0處理大數據的步驟。想要過渡到數據科學和機器學習領域的讀者也會發現,本書提供了實用的入門指南,以后可能會出現更復雜的方面。書中提供的案例研究和示例使您很容易理解和理解相關的基本概念。本書的優勢在于其簡單性以及將機器學習應用于有意義的數據集。
目錄:
主題: Towards Automatic Machine Learning Pipeline Design
簡介: 數據收集量的迅速增加,使決策的瓶頸迅速從缺乏數據轉向缺乏數據科學家,以幫助分析收集的數據。此外,用于數據分析的新潛在解決方案和方法的發布速度已經超過了人類數據科學家所能遵循的速度。同時,我們注意到數據科學家在分析過程中執行的許多任務都可以自動化。自動機器學習(AutoML)研究和解決方案試圖使部分甚至整個數據分析過程自動化。我們解決了自動化研究中的兩個挑戰: 首先,如何表示適合元學習的ML程序;第二,如何改進自動系統的評估,使之能夠比較各種方法,而不僅僅是預測。為此,我們設計并實現了一個ML程序框架,該框架提供了以標準方式描述ML程序所需的所有組件。該框架是可擴展的,框架的組件之間是解耦的,例如,該框架可以用來描述使用神經網絡的ML程序。我們為執行框架中描述的程序提供參考工具。我們還設計并實現了一個服務,一個元學習數據庫,它存儲由不同的自動化系統生成的執行ML程序的信息。
我們通過測量使用框架與執行直接調用底層庫的ML程序的計算開銷來評估框架。我們注意到框架的ML程序執行時間比不使用該框架的ML程序慢一個數量級,內存使用量是不使用該框架的ML程序的兩倍。 通過比較使用我們的框架的10個不同的AutoML系統,我們展示了我們的框架評估AutoML系統的能力。結果表明,該框架既可以用來描述一組不同的ML程序,又可以用來明確地確定哪個自動化系統生成了最佳的ML程序。在許多情況下,生成的ML程序的性能優于由人類專家編寫的ML程序。