大數據、人工智能(AI)和機器學習(ML)的融合導致了創新藥物開發和醫療健康提供的范式轉變。為了充分利用這些技術進步,必須系統地利用來自不同來源的數據,并利用數字技術和先進的分析技術,以實現數據驅動的決策。數據科學正處于引領這種變革性變革的獨特機會時刻。數據科學、人工智能和藥物開發中的機器學習旨在成為單一的信息來源,涵蓋了藥物研發領域的變化、大數據、人工智能和藥物開發中的ML的新興應用,以及建立強大的數據科學組織以推動生物制藥數字化轉型的廣泛主題。
近年來,生物制藥行業面臨著日益增長的生產力挑戰。雖然在生物醫學研究領域有很多創新,為發現、治療、預防嚴重疾病創造了大量機會,但在早期研究中被認為有希望的候選藥物在臨床開發后期失敗的比例很高。雖然整體研發支出飆升至不可持續的水平,但新藥批準數量卻大幅下降。由于專利到期,以及來自仿制藥和生物仿制藥生產商的競爭,許多依賴重磅藥品來實現收入增長的公司陷入困境。與此同時,醫療支出的增長導致支付方和政策制定者越來越多地要求證明醫療產品的價值,以證明支付的合理性。為了取得成功,制藥公司不僅需要提高藥物靶點發現和臨床試驗的效率,還需要利用真實數據(RWD)影響患者、處方者、支付者和監管決策,以確保更好的患者結果、加速審批和更大的市場準入。
來自不同來源的數據匯集,如基因組圖譜、隨機對照試驗(RCTs)、電子健康記錄(EHRs)、醫療索賠、產品和疾病登記、患者報告結果(PROs)、健康監測設備、人工智能(AI)和機器學習(ML)為制藥公司提供了大量機會,將藥物研發轉變為更高效和數據驅動的模型,并實現以患者為中心的新藥物開發范式。值得注意的是,在藥物發現方面,生物數據的數量、種類和可及性的增加挑戰了理解疾病基礎的傳統分析方法。如果利用得當,這些數據將提供有價值的見解,并將有助于加速藥物發現。其中的關鍵是利用數據科學、AI和ML的進展。AI驅動的方法,如ML和深度學習,在藥物發現方面取得了重大進展,包括生物活性預測、從頭分子設計、合成預測以及組學和成像數據分析。人工智能技術的持續進步將進一步使定制自動化解決方案成為可能,以解決與藥物發現相關的各種具體問題。這種應用不僅有可能縮短藥物開發時間,而且還會產生更安全、更有效的治療方法。
由于越來越嚴格的監管,越來越重視患者安全,以及同行公司之間日益激烈的競爭,臨床開發變得越來越昂貴和競爭激烈。結合RWD, AI和ML可以通過優化研究設計、簡化臨床操作、提高臨床數據質量來提高臨床試驗效率。人工智能和ML技術支持的分析可以用于選擇可能對新療法有反應的患者,或識別那些可能提前退出研究的患者。此外,在單臂研究中,可以使用RWD合成控制臂。此外,人工智能技術有潛力改善臨床試驗的規劃和執行,包括數據驅動設計,以減少臨床試驗方案修改,通過分析識別合格的患者,加快患者招募,選擇快速登記地點,以及基于風險的監測,以減輕數據質量問題。所有這些都可以縮短臨床試驗的持續時間,提高臨床試驗成功的可能性。
作為以患者為中心的藥物開發的關鍵驅動因素,數據科學、AI和ML在數據驅動的決策中發揮著關鍵作用,涉及藥物的相對利益及其在現實環境中的使用,幫助醫生/患者在護理點做出明智的決定,了解治療模式和依從性,獲得競爭對手的信息,并針對服務不足的患者群體。從產品生命周期管理的角度來看,從RWD收集到的有效見解帶來了付款人的價值主張、比較有效性、價格優化、供應鏈和庫存管理,并發現了潛在的新跡象。即使是失敗的藥物,數據科學、人工智能和ML方法的應用也可能導致藥物的重新利用,并幫助發現可能從藥物中受益的患者群體。藥品生產是一個復雜的過程,尤其是生物制品。它也很貴。提高生產效率是提高毛利率最有效的方法之一。現代采樣技術、新的傳感器技術和分析儀可以生成制造過程的復雜數據,需要特殊的分析技術來提取有用的信息內容。人工智能的價值在于,它能夠篩選復雜的數據,在制造過程失控之前預測質量問題,并實現人工過程的自動化。這通常會導致穩健的制造工藝設計、產品缺陷率的降低、質量控制的加強、產能的增加和流程的簡化。近年來,人工智能還在藥品制造的各個方面取得了重大進展,包括工藝設計、質量控制、減少浪費、供應鏈和庫存管理,以及生產線部件的故障預測。
本書旨在提供大數據、人工智能和ML在整個藥物研發領域的新興應用的單一信息來源,并建立一個強大的數據科學組織,推動藥物發現、開發和交付的新方法。本書的貢獻者是經驗豐富的藥學從業者,提供了廣泛的AI應用和數據科學組織構建的第一手經驗。本書共13章。每一章都以本章中闡述的具體主題的總結開始,然后討論挑戰、機遇和技術驅動的制藥創新。
近年來,機器學習(ML)、人工智能(AI)和其他數據驅動技術取得了重大進展,在生物醫學信息學、健康信息學、醫學AI、醫療物品AI (AIoMT)、醫療AI和智能家庭護理等許多領域都取得了令人振奮的進展,將醫療和健康數據分析帶入了一個新時代。這是一個神奇的時代,所有這些現代機器學習和數據分析技術的幾乎所有應用領域都平等地存在著機遇和挑戰。我們很幸運,因為我們現在已經使用不同的先進機器學習技術在醫療診斷和醫療健康服務方面取得了許多最先進的成果。例如,目前許多淺層和深度學習框架和AI技術已經成功地應用于醫療診斷和醫療健康服務。然而,在試圖解決復雜問題時,仍有許多挑戰需要克服,以獲得令人滿意的解決方案。例如,從可靠性、倫理、可解釋性等角度來看,數據驅動AI和黑盒深度神經網絡越來越受到關注。
我們已經看到機器學習、人工智能和其他數據分析(如數據建模、數據挖掘)技術在醫療診斷和醫療保健服務領域的應用越來越多,例如神經生理信號和神經成像處理、癌癥和疾病診斷、醫療健康(如電子健康記錄)和福祉數據分析、流行病診斷和預測,這只是其中的一部分。許多新的方法和算法被開發出來,旨在解決與我們日常生活密切相關或重大影響的現有問題或新興問題。現在是時候推動傳播應用AI和ML技術解決醫療診斷和保健服務領域問題的最新結果和發現了。本書旨在展示數據驅動和基于數據的ML和AI技術的最新進展,重點介紹了方法和算法的實現,包括信號處理和系統識別,數據挖掘,圖像處理和模式識別,以及深度神經網絡及其應用。
簡化數據科學基礎設施,為數據科學家提供從原型到生產的有效路徑。 《高效數據科學基礎》是為數據科學和機器學習應用程序組裝基礎設施的實踐指南。它揭示了Netflix和其他數據驅動公司管理尖端數據基礎設施的過程。
當您使用這個易于遵循的指南時,您將從頭開始設置端到端基礎設施,使用一個完全可定制的流程,您可以很容易地適應您的公司。您將了解如何使用現有的云基礎設施、一堆開源軟件和慣用的Python提高數據科學家的工作效率。在整個過程中,您將遵循以人為中心的方法,重點關注用戶體驗和滿足數據科學家的獨特需求。
第一章: 介紹 第二章: 數據科學的工具鏈 第三章: 介紹Metaflow 第四章: 計算層的擴展 第五章: 實踐可擴展和性能 第六章: 進入生產階段 第七章: 處理數據 第八章: 使用和運作模式 第九章: 使用完整堆棧的機器學習
機器學習和數據科學應用是人類構建的最復雜的工程產品,如果你考慮到驅動它們的全部軟件和硬件堆棧的話。因此,在今天,在21世紀20年代初,構建這樣的應用并不容易,這就不足為奇了。機器學習和數據科學將繼續存在。由高級數據驅動技術驅動的應用程序在各個行業中越來越普遍。因此,顯然需要使構建和操作這樣的應用程序成為一個更輕松、更有紀律的過程。引用阿爾弗雷德·懷特黑德的話:“文明的進步是通過擴展我們無需思考就能執行的重要操作的數量。”這本書教你如何構建一個有效的數據科學基礎設施,它允許用戶試驗創新的應用,將它們部署到生產中,并不斷改進它們,而不需要過多考慮技術細節。沒有一種千篇一律的方法可以適用于所有的用例。因此,本書關注的是通用的、基本的原則和組件,這些原則和組件可以在您的環境中以一種有意義的方式實現。
在過去的十年里,特別是在過去的三年里,隱私已經成為與用戶聯系并消費他們數據的企業的首要和中心。無論是保護數據免受黑客攻擊和入侵,遵守復雜的法規,避免內部員工濫用數據,還是以可衡量的方式解決廣泛的隱私問題,隱私正成為一個重大挑戰,而不是一個利他的業余項目。
具有重大跨職能職責的技術領導必須平衡項目交付和跟蹤,并需要實踐技能和技術來實現隱私。本書將基于我在這方面的十多年經驗提供這樣的技巧。我不得不在有限的環境下匆忙創建隱私和安全程序,修復過去的錯誤,同時與一個既封閉又自主的團隊合作。
這本書將教你通過幫助建立一個數據分類和目錄來將隱私嵌入到你的數據中,開發數據共享技術,這樣你就可以在不損害用戶隱私的情況下進行創新,創建刪除和模糊數據的機制,從法律和技術隱私的角度進行隱私審查,等等。
總而言之,這本書將為領導者們提供他們可以用來建立一個更適合他們公司的隱私程序的技巧,而不是那些價格不菲的現成的一刀切的產品。這些技能將幫助領導者與工程、數據科學、平臺開發等團隊建立聯系,從而使數據隱私成為共同的目標。從那些曾經在那里工作過幾次的人那里獲得這些見解的好處,應該會使這本書成為一個有價值的資源。
為了人性化隱私的概念和海量數據背后的人類,這本書還將提供一系列故事和現實事件的分析,并將它們與有關數據隱私的決策聯系起來。
在數據隱私問題上,你將學習如何:
數據隱私教你設計、開發和衡量隱私程序的有效性。您將從作者尼桑特·巴賈利亞(Nishant Bhajaria)那里學習,他是業界知名的專家,曾在谷歌、Netflix和Uber公司監管隱私。隱私的術語和法律要求都用清晰、無術語的語言解釋。本書對業務需求的不斷了解將幫助您權衡利弊,并確保您的用戶隱私可以在不增加時間和資源成本的情況下得到改善。
//www.manning.com/books/data-privacy
這本書的目的是講述當今世界各地研究人員使用的統計學的故事。這是一個不同的故事,在大多數介紹性的統計書籍,重點教如何使用一套工具,以實現非常具體的目標。這本書的重點在于理解統計思維的基本思想——一種關于我們如何描述世界、如何使用數據做出決定和預測的系統思維方式,所有這些都存在于現實世界的內在不確定性的背景下。它還帶來了當前的方法,這些方法只有在過去幾十年中計算能力的驚人增長才變得可行。在20世紀50年代需要數年時間才能完成的分析,現在在一臺標準的筆記本電腦上只需幾秒鐘就能完成,這種能力釋放了利用計算機模擬以新的、強大的方式提出問題的能力。
這本書也是在2010年以來席卷了許多科學領域的再現危機之后寫成的。這場危機的一個重要根源在于,研究人員一直在使用(和濫用)統計假設檢驗(我將在本書的最后一章詳細說明),這直接與統計教育有關。因此,本書的目標是突出當前統計方法可能存在的問題,并提出替代方案。
人工智能已應用于藥物設計的各種方面,如藥物-蛋白質相互作用預測、藥物療效的發現、確保安全性生物標志物。本綜述提供了在藥物開發的各個階段通過ML工具和技術發現藥物的可行文獻,以加速研究過程,降低臨床試驗的風險和支出。機器學習技術改進了在不同應用中的藥物數據決策,如QSAR分析、hit發現、從頭藥物架構檢索準確的結果。在本綜述中,靶點驗證、預后生物標志物、數字病理學都被認為是存在問題的。ML挑戰必須適用于可解釋性結果不足的主要原因,這可能會限制藥物發現中的應用。在臨床試驗中,必須生成絕對數據和方法學數據,以解決在驗證ML技術、改進決策、提高ML方法的意識以及推斷藥物發現中的風險失敗方面的許多難題。 //pubmed.ncbi.nlm.nih.gov/34393317/
這個更新的第二版提供了機器學習算法和架構設計的指導。它提供了醫療保健領域智能系統的真實應用,并涵蓋了管理大數據的挑戰。
這本書已經更新了在海量數據,機器學習和人工智能倫理的最新研究。它涵蓋了管理海量數據復雜性的新主題,并提供了復雜機器學習模型的例子。來自全球醫療服務提供商的實證研究展示了大數據和人工智能在對抗慢性和新疾病(包括COVID-19)方面的應用。探討了數字醫療、分析和人工智能在人口健康管理中的未來。您將學習如何創建機器學習模型,評估其性能,并在您的組織內運作其結果。來自主要醫療服務提供商的研究覆蓋了全球數字服務的規模。通過案例研究和最佳實踐,包括物聯網,提出了評估人工智能機器學習應用的有效性、適用性和效率的技術。
您將了解機器學習如何用于開發健康智能,其目的是改善患者健康、人口健康,并促進顯著的護理支付方成本節約。
//link.springer.com/book/10.1007/978-1-4842-6537-6#about
你會: 了解關鍵機器學習算法及其在醫療保健中的使用和實現 實現機器學習系統,如語音識別和增強深度學習/人工智能 管理海量數據的復雜性 熟悉人工智能和醫療保健最佳實踐、反饋循環和智能代理
機器學習模型和數據驅動系統正越來越多地用于幫助在金融服務、醫療保健、教育和人力資源等領域做出決策。機器學習應用程序提供了諸如提高準確性、提高生產率和節約成本等好處。這一趨勢是多種因素共同作用的結果,最顯著的是無處不在的連通性、使用云計算收集、聚合和處理大量細粒度數據的能力,以及對能夠分析這些數據的日益復雜的機器學習模型的更好訪問。
開發負責任的人工智能解決方案是一個過程,涉及在人工智能生命周期的所有階段與關鍵利益相關者(包括產品、政策、法律、工程和人工智能/ML團隊,以及最終用戶和社區)進行輸入和討論。在本文中,我們主要關注ML生命周期中用于偏見和可解釋性的技術工具。我們還提供了一個簡短的章節,介紹了AI公平性和可解釋性的限制和最佳實踐。
//pages.awscloud.com/rs/112-TZM-766/images/Amazon.AI.Fairness.and.Explainability.Whitepaper.pdf
《數據科學與機器學習概論》的創建目標是為尋求了解數據科學的初學者、數據愛好者和經驗豐富的數據專業人士提供從頭到尾對使用開源編程進行數據科學應用開發的深刻理解。這本書分為四個部分: 第一部分包含對這本書的介紹,第二部分涵蓋了數據科學、軟件開發和基于開源嵌入式硬件的領域; 第三部分包括算法,是數據科學應用的決策引擎; 最后一節匯集了前三節中共享的概念,并提供了幾個數據科學應用程序示例。
^
By Pakize Erdogmus and Fatih Kayaalp
By Deanne Larson
數據科學和大數據項目的數量正在增長,當前的軟件開發方法受到了挑戰,以支持和促進這些項目的成功和頻率。關于如何使用數據科學算法以及大數據的好處已經有了很多研究,但是關于可以利用哪些最佳實踐來加速和有效地交付數據科學和大數據項目的研究卻很少。大數據的數量、種類、速度和準確性等特點使這些項目復雜化。數據科學家可利用的開源技術的激增也會使情況變得復雜。隨著數據科學和大數據項目的增加,組織正在努力成功交付。本文討論了數據科學和大數據項目過程,過程中的差距,最佳實踐,以及這些最佳實踐如何在Python中應用,Python是一種常見的數據科學開源編程語言。
正如人們所期望的那樣,技術書籍的大部分時間都集中在技術方面。然而,這造成了一種錯覺,即技術在某種程度上是沒有偏見的,總是中性的,因此適合每個人。后來,當產品已經存在時,現實會證明我們不是這樣的。包含和表示在設計和建模階段是至關重要的。在本章中,我們將從架構的角度分析,哪些非功能性需求是最敏感的,以及如何開始討論它們以最大限度地提高我們的軟件產品成功的可能性。
Embedded Systems Based on Open Source Platforms By Zlatko Bundalo and Dusanka Bundalo
The K-Means Algorithm Evolution By Joaquín Pérez-Ortega, Nelva Nely Almanza-Ortega, Andrea Vega-Villalobos, Rodolfo Pazos-Rangel, Crispín Zavala-Díaz and Alicia Martínez-Rebollar
“Set of Strings” Framework for Big Data Modeling By Igor Sheremet
Investigation of Fuzzy Inductive Modeling Method in Forecasting Problems By Yu. Zaychenko and Helen Zaychenko
Segmenting Images Using Hybridization of K-Means and Fuzzy C-Means Algorithms By Raja Kishor Duggirala
The Software to the Soft Target Assessment By Lucia Mrazkova Duricova, Martin Hromada and Jan Mrazek
The Methodological Standard to the Assessment of the Traffic Simulation in Real Time By Jan Mrazek, Martin Hromada and Lucia Duricova Mrazkova
Augmented Post Systems: Syntax, Semantics, and Applications By Igor Sheremet
Serialization in Object-Oriented Programming Languages By Konrad Grochowski, Micha? Breiter and Robert Nowak
本章描述了將對象狀態轉換為一種格式的過程,這種格式可以在當前使用的面向對象編程語言中傳輸或存儲。這個過程稱為序列化(封送處理);相反的稱為反序列化(反編組)進程。它是一種低級技術,應該考慮一些技術問題,如內存表示的大小、數字表示、對象引用、遞歸對象連接等。在本章中,我們將討論這些問題并給出解決辦法。我們還簡要回顧了當前使用的工具,并指出滿足所有需求是不可能的。最后,我們提供了一個新的支持向前兼容性的c++庫。