在信息時代,對大型復雜數據集進行適當的融合是必要的。僅僅處理幾條記錄就已經迫使人腦在數據中尋找模式,并形成其整體圖景,而不是把現實想象成一組單獨的實體,這對處理和分析來說要困難得多。同樣,使用適當的方法來減少計算機上的信息過載,不僅可以提高結果的質量,還可以大大減少算法的運行時間。
眾所周知,依賴于單一信息源的信息系統(例如,從一個傳感器收集的測量數據、單一權威決策者的意見、一個且僅有一個機器學習算法的輸出、單個社會調查者的回答)往往既不準確也不可靠。
聚合理論是一個相對較新的研究領域,盡管古代數學家已經知道并使用各種特定的數據融合方法。自20世紀80年代以來,對聚合函數的研究往往集中在構建和正式的數學分析上,即用不同的方法來總結元素在某個實數區間I=[a, b]的數字列表。這包括不同種類的廣義手段、模糊邏輯連接詞(t-norms,模糊含義)以及協同學。最近,我們觀察到人們對部分有序集合的聚集越來越感興趣,特別是在序數(語言)尺度上。
在面向應用數學的經典聚合理論的開創性專著中,有《聚合函數》: A Guide for Practitioners [49],作者Beliakov, Pradera, and Calvo,以及Grabisch, Marichal, Mesiar, and Pap的聚合函數[230]。我們注意到,聚合理論家所使用的典型數學武器由代數、微積分、秩序和度量理論等已知方法的非常有創意的組合組成(事實上,聚合理論的結果對這些子領域也有很大貢獻)。更重要的是,在以下教科書中,對聚集函數的特定子類進行了深入研究: Klement, Mesiar和Pap撰寫的《三角形規范》[277],Baczyński和Jayaram的《模糊含義》[18],Bullen的《均值及其不等式手冊》[87],以及最近由Beliakov, Bustince和Calvo撰寫的《平均函數實用指南》[39]。我們還將提到Torra和Narukawa的書(《建模決策:信息融合和聚合操作符》[449]),這也許是所列作品中最面向計算機科學的作品。然而,在[49]和[39]中也討論了許多有趣的算法和計算問題。
在2013年西班牙潘普洛納舉行的AGOP--聚合算子國際暑期學校會議上,Bernard De Baets教授在他的全體演講[137]中指出,需要傳達關于所謂聚合2.0的研究。當然,聚合2.0的目的不是要取代或在任何方面貶低非常成功和重要的經典聚合領域,而是要吸引研究者關注新的、更復雜的領域,其中大多數領域不使用計算方法是無法正確處理的。從這個角度來看,數據融合工具可以被嵌入到更大、更復雜的信息處理系統中,從而作為其關鍵組成部分來研究。
適當的復雜數據融合已經引起了不同領域的許多研究人員的興趣,包括計算統計、計算幾何、生物信息學、機器學習、模式識別、質量管理、工程、統計、金融、經濟等。讓我們注意到,它在以下方面起著至關重要的作用:
對數據過程或整個領域的合成描述、
為近似推理任務創建規則庫,
在決策支持系統中達成共識并選擇最佳策略、
缺失值的歸納、
重復數據刪除和合并、
異質數據庫之間的記錄聯系、
自動數據分割算法的構建(例如,比較K-means和分層聚類算法)。
我們觀察到,許多有用的機器學習方法是基于信息實體的適當聚合。特別是,用于分類的一類集合方法在實踐中非常成功,因為假設沒有一個 "弱 "的分類器能像它們整個組一樣表現出色。有趣的是,在Kaggle和類似平臺上的數據挖掘競賽中,許多獲勝的解決方案都是以隨機森林和類似算法為基礎的。更重要的是,例如,神經網絡--通用逼近器--和其他深度學習工具可以被理解為單個融合函數的層次結構。因此,它們也可以被認為是一種聚合技術。我們還應該提到,適當的數據融合對商業企業至關重要。由于許多原因,公司很少急于將他們所擁有的大部分數據集出售給客戶。相反,只有經過仔細預處理和聚合的數據模型才能交付給客戶。
本專著首次嘗試使用成熟的經典聚合框架的方法來整合不同領域的分散結果,向研究人員和從業人員介紹聚合2.0,并指出進一步研究的挑戰和有趣的方向。本報告的結構如下。
然后,我們討論了一般的構造方法,這些方法可以用來從較簡單的函數中導出新的融合函數。此外,我們還介紹了聚合函數與單調性(模糊)度量和積分之間的聯系,并介紹了基于懲罰的和擴展的融合函數的概念。
接著,我們提出了不同的方法,這些方法可以幫助為不同的任務選擇適當的工具。這包括特征化定理、合成數字特征以及從經驗數據中學習融合函數的算法。
此外,我們還介紹了在序數尺度和--更普遍的--有界部分有序集以及名義尺度上的數據聚合的主題。
我們還對積網和字符序列上的聚合感興趣,特別是與漢明距離有關的聚合。
在第3章中,我們重點討論了字符串的聚合問題,即長度不一定一致的圖元。在這種情況下,可以定義各種排序關系,例如,詞法排序。我們感興趣的數據類型包括代表計量信息數據的數字字符串,以及字符字符串,如DNA和蛋白質序列。事實證明,在這樣的領域中最有影響力的數據融合方法可以表示為各種基于字符串距離的懲罰措施的最小化。正因為如此,我們包括了對字符串度量的全面概述。這包括通用編輯、Q-gram和Dinu等級距離的概念。
第4章涉及更復雜的數據類型的聚合:方向性數據、實數區間、模糊數、隨機變量、圖和關系,以及異質數據集。我們將觀察到,數據融合中的一些關鍵思想可以推導出這些類型的數據模型。
最后,在第5章中,我們將討論不同對象的各種數字特征。這個話題不可避免地與數據聚合有關。特別是,我們對概率分布的合成描述、數字列表的傳播、決策者的共識、經濟上的不公平、信息化數據、模糊數字和融合函數本身感興趣。在本章的最后,我們討論了所謂的校驗和,正如它將被證明的那樣,它需要一個與其他措施完全不同的處理。
在附錄中,按照[49]的優秀方法,我們提供了最有趣的算法的實現。為此,我們使用R[397]和C++11編程語言。在后一種情況下,Rcpp包類[177]被用來作為這兩種語言之間的聯系。
除了提供一個關于不同領域的融合函數的全局性簡明觀點("聚合2.0"),本專著的原創性貢獻(在撰寫時尚未發表)包括但不限于
第1章:增量融合函數作為遞歸聚合工具的概括的想法(定義1.121);從經驗數據中學習聚合算子的新方法,包括第1.6.1節中的最小切比雪夫度量擬合任務,第1.6.2.B節中保留輸出排名的最小二乘誤差擬合,應用權重正則化防止模型過擬合,用準算術平均值擬合權重(沒有變量線性化);第1.8節中關于名義尺度上元素聚合的一些說明。
第2章:擴展在[208]中發表的關于d維實數圖元聚合的結果,包括命題2.13、2.14、2.19、2.24、2.32和2.30;在第2節中構建了基于SVD的相似性變換等值融合函數。 2.3;在第2.5.5節中提出了基于懲罰的多維融合函數的框架及其一般性質(特別是命題2.54);一種新的進化算法,用于逼近基于漢明距離的1中心字符序列。
第3章:關于信息計量數據聚合的新結果(命題3.8和3.14),關于此類數據融合工具應滿足的理想屬性清單的建議,第3.2節中數字字符串的新聚合方法。 3,包括假設I=[0, ∞]下的計量信息數據的1-median;計算兩個字符串的中心點的精確算法,以及關于列文斯坦距離的任意數字或字符串的1-median的進化算法,第3.3節中關于字符序列和字符串的融合函數的理想屬性列表。
第4章:第4.6節中的任意有限半計量空間中的快速近似集典范搜索算法。
第5章:第5.2.3節中對多維數字列表的傳播關系[209]的概括,以及新的傳播度量的構造方法列表。
這是一本關于線性代數和矩陣理論的書。雖然它是獨立的,但它最適合那些已經接觸過線性代數的人。我們還假設讀者已經學過微積分。然而,有些可選主題需要更多的分析。我認為線性代數可能是本科數學課程中討論的最重要的主題。這樣做的部分原因是它有助于統一這么多不同的主題。線性代數在分析、應用數學甚至理論數學中都是必不可少的。這是本書的觀點,而不是單純地介紹線性代數。這就是為什么有許多應用程序,其中一些相當不尋常。這本書的特點是在書的早期對決定因素進行了基本的和完整的處理。本書介紹了線性代數中使用的各種數值方法。這樣做是因為這些方法很有趣。這里的演示強調了它們工作的原因。它沒有討論有效地使用這些方法所必需的許多重要的數值考慮。這些考慮可以在數值分析文本中找到。在練習中,你可能偶爾會在開頭看到↑。這意味著你應該看看上面的練習。一些練習循序漸進地展開一個主題。還有一些練習在書中出現了不止一次。我故意這樣做,因為我認為這些說明了非常重要的主題,也因為有些人不會從頭到尾閱讀整本書,而是直接跳到中間。有一個關于Sylvester定理的出現不少于3次。文中也對其進行了證明。Cayley Hamilton定理有很多證明,一些在練習中。為了強調前一章已經完成的內容,本書還包括了一些練習。
//open.umn.edu/opentextbooks/textbooks/210
本書旨在為數學、物理科學、工程和相關領域的學生介紹概率論和數理統計。它基于作者25年的概率教學經驗,旨在幫助學生克服學習該學科的常見困難。這本書的重點是對理論的解釋,主要是用了許多例子。在可能的情況下,提供所述結果的證明。所有章節都以一個簡短的問題列表結束。這本書還包括幾個可選的更高級的主題部分。這本教科書非常適合概率論的第一課。內容:概率、條件概率和獨立隨機變量及其分布、隨機變量的運算、期望值、方差和協方差、隨機分布向量、極限定理、數理統計附錄書目索引。
本書探討了數據科學的基本原理。它考慮了現代數據科學的發展方式和原因。這本書在將數據應用于決策方面比現有的書籍走得更遠。這本書不僅對本科生有用,還能幫助企業主提高決策能力。本書使用現實生活中的例子,探討了基于信息的決策框架的可能性和局限性。 //www.arclerpress.com/book/chemistry/data-science-for-business-and-decision-making-an-introductory-text-for-students-and-practitioners.html 我們生活在一個信息至關重要的世界。它是一種在公開市場上買賣的商品。鑒于信息的重要性,必須確保其投入和產出的質量足夠穩健,以滿足整個社會的需要。在商業領域,信息是最重要的。如今,許多商業決策都依賴于信息。事實上,信息的質量可以直接影響決策的質量。這本書被認為是信息科學的導論。具體來說,本書試圖探索數據科學作為一個新興學科在一個信息社會的更廣泛的背景下。這本書傾向于關注信息在決策中的作用。從這個意義上說,這本書部分駁斥了那些認為商業頭腦完全取決于直覺或直覺的人。科學方法因其精確、有條理而被廣泛應用于各個領域。科學取代了一些曾經是商業決策的主要組成部分的非理性。當然,直覺也有作用,一些不依賴科學的人也能做出出色的決定。唯一的問題是,這些優秀的決定是偶然發生的,而不是經過深思熟慮的過程的結果。
現在是進入數據科學領域的最佳時機。但是你從哪里開始呢?數據科學是一個廣泛的領域,包括統計學、機器學習和數據工程等方面。人們很容易變得不知所措,或最終只學習數據科學的一小部分或單一的方法。
//www.manning.com/books/exploring-data-science
《探索數據科學》由五個章節組成,向你介紹了數據科學的各個領域,并解釋了哪種方法最適合每個領域。《實用數據科學與R》的作者John Mount和Nina Zumel選擇了這些章節來給你展示許多數據領域的大圖景。您將學習時間序列、神經網絡、文本分析等。當您探索不同的建模實踐時,您將看到如何在數據科學中使用R、Python和其他語言的實際示例。
數據科學是一個涉及統計學、機器學習和數據工程等方面的廣泛領域。工具、方法和工作的樣子很大程度上取決于您的問題領域和觀點。我們的書《實用數據科學與R》向讀者介紹了R語言中的基本預測建模。但是,我們的意圖絕不是暗示數據科學家可以將自己限制在一個問題領域或一種實現語言。現在是進入數據科學的大好時機。免費工具和材料的數量激增。存儲和管理大型數據集現在明顯更容易了。然而,這種多樣性似乎勢不可擋,并造成分裂。傳統的統計學家可能不認為文本分析是數據科學,類似地,使用神經網絡分析圖像的人可能不會欣賞經典的統計推理。我們相信你的問題有助于你選擇你的技術。為了說明這個概念,我們把我們的書和曼寧的其他書名中的章節樣本放在一起。它們涵蓋了與數據科學相關的各種主題,突出了各種領域和編程語言。我們希望這些選擇能讓您更好地了解許多可用的工具,以解決特定的數據科學問題。
本書從根本上重新思考了概率論和統計學第一課的微積分。我們提供廣度優先的方法,其中概率論和統計的要點可以在一個學期教授。通過模擬、數據爭論、可視化和統計程序,統計編程語言R在全文中扮演著核心角色。在示例和練習中使用了來自各種來源的數據集,包括許多來自最近的開放源代碼科學文章的數據集。通過模擬給出了重要事實的證明,也有一些正式的數學證明。
這本書是學習數據科學,統計,工程,計算機科學,數學,科學,商業的學生的一個優秀的選擇,或任何學生想要在模擬實踐課程的基礎上。
這本書假設有一個學期的微積分的數學背景,并且在第三章中有一些無窮級數。在第3章和第4章中,積分和無窮級數被用于表示法和說明,但在其他章節中微積分的使用很少。由于強調通過模擬來理解結果(以及對偏離假設的穩健性),本書的大部分內容(如果不是全部的話)無需微積分也能理解。提供了許多結果的證明,并通過模擬為更多的理由,但本文不打算支持一個基于證明的課程。我們鼓勵讀者遵循證明,但通常只有在首先理解結果和為什么它是重要的之后,才想要理解一個證明。
//inferentialthinking.com/chapters/intro.html
數據科學是通過探索、預測和推理,從龐大而多樣的數據集中得出有用的結論。探索包括識別信息中的模式。預測是指利用我們已知的信息,對我們希望知道的值做出有根據的猜測。推論包括量化我們的確定性程度:我們發現的那些模式是否也會出現在新的觀察中?我們的預測有多準確?我們用于探索的主要工具是可視化和描述性統計,用于預測的是機器學習和優化,用于推斷的是統計測試和模型。統計學是數據科學的核心組成部分,因為統計學研究如何在不完整的信息下得出可靠的結論。計算是一個核心組件,因為編程允許我們將分析技術應用于現實世界中出現的大量和多樣化的數據集:不僅是數字,還有文本、圖像、視頻和傳感器讀數。數據科學包含了所有這些東西,但由于應用,它不僅僅是各部分的總和。通過理解一個特定的領域,數據科學家學會對他們的數據提出適當的問題,并正確解釋我們的推理和計算工具提供的答案。
通過本書一步一步地,您將學習如何利用算法思維和代碼的力量,獲得關于當前機器學習方法的力量和局限性的直覺,并有效地將它們應用到實際的業務問題。
這本書涵蓋了用R總結數據的基本探索性技術。這些技術通常在正式建模開始之前應用,可以幫助開發更復雜的統計模型。探索技術對于消除或強化關于世界的潛在假設也很重要,這些假設可以通過你所擁有的數據來解決。我們將詳細介紹R中的繪圖系統以及構造信息數據圖形的一些基本原則。我們還將介紹一些用于可視化高維數據的常見多元統計技術。
這本書教你使用R來有效地可視化和探索復雜的數據集。探索性數據分析是數據科學過程的一個關鍵部分,因為它允許您尖銳地提出問題并改進建模策略。這本書是基于行業領先的約翰霍普金斯數據科學專業,最廣泛訂閱的數據科學培訓項目創建。
//www.worldscientific.com/page/pressroom/2018-07-31-01
這本書提供了一個機器學習和數據挖掘領域的數學分析。典型的計算機科學數學課程的數學分析部分省略了這些非常重要的思想和技術,這些思想和技術對于機器學習的專門領域是不可缺少的,以優化為中心,如支持向量機,神經網絡,各種類型的回歸,特征選擇和聚類。本書適用于研究者和研究生,他們將從書中討論的這些應用領域獲益。
數學分析可以被松散地描述為數學的一個領域,其主要對象是研究函數及其關于極限的行為。術語“函數”指的是實參數實函數的廣義集合,包括函數、運算符、測度等。在數學分析中,有幾個發展良好的領域對機器學習產生了特殊的興趣:拓撲(具有不同的風格:點集拓撲、組合拓撲和代數拓撲),賦范和內積空間的泛函分析(包括巴拿赫和希爾伯特空間),凸分析,優化,等等。此外,像測量和集成理論這樣的學科在統計學中發揮著至關重要的作用,這是機器學習的另一個支柱,在計算機科學家的教育中缺乏。我們的目標是為縮小這一差距做出貢獻,這是對研究感興趣的人的一個嚴重障礙。機器學習和數據挖掘文獻非常廣泛,包括各種各樣的方法,從非正式的到復雜的數學展示。然而,接近研究主題所需要的必要的數學背景通常以一種簡潔和無動機的方式呈現,或者干脆就不存在。本卷機器學習的通常介紹,并提供(通過其應用章節,討論優化,迭代算法,神經網絡,回歸,和支持向量機)的數學方面的研究。
W. Keith Nicholson的《線性代數與應用》,傳統上出版多年,現在作為開放教育資源和Lyryx的一部分發布與開放文本!支持今天的學生和教師需要更多的教科書,這就是為什么尼克爾森博士選擇與Lyryx學習工作。
總的來說,教材的目標是在計算技能,理論和線性代數的應用之間達到平衡。它是線性代數的思想和技術的一個相對先進的介紹,目標是科學和工程學生,他們不僅需要理解如何使用這些方法,而且還需要深入了解為什么他們工作。
它介紹了線性代數的一般思想遠早于競爭保持與線性代數相同的嚴格和簡潔的方法。隨著許多圖表和例子,幫助學生形象化,它也保持與概念的不斷介紹。
課程內容有足夠的靈活性,可以呈現一個傳統的主題介紹,或者允許一個更實用的課程。第1-4章為初學者開設了一學期的課程,而第5-9章為第二學期的課程。這本教科書主要是關于實數線性代數的,在適當的時候提到了復數(在附錄A中回顧)。
近幾十年來,數據缺失的問題引起了廣泛關注。這個新版本由兩個公認的專家在這個問題上提供了一個最新的實用方法處理缺失數據問題。將理論與應用相結合,作者Roderick Little和Donald Rubin回顧了該主題的歷史方法,并描述了缺失值的多元分析的簡單方法。然后,他們提供了一個連貫的理論來分析基于概率的問題,這些概率來自于數據的統計模型和缺失數據的機制,然后他們將該理論應用到廣泛的重要缺失數據的問題。
統計分析與缺失的數據,第三版開始給讀者介紹缺失數據和解決它的方法。它查看創建丟失數據的模式和機制,以及丟失數據的分類。然后,在討論完整案例分析和可用案例分析(包括加權方法)之前,對實驗中缺失的數據進行檢查。新版本擴大了它的覆蓋面,包括最近的工作,如不響應抽樣調查,因果推理,診斷方法,靈敏度分析,在許多其他主題。
2017年,國際統計研究所(International Statistical Institute)將卡爾·皮爾森獎(Karl Pearson Prize)授予了這兩位作者,以表彰他們對統計理論、方法或應用產生深遠影響的研究貢獻。
第三版統計分析缺失的數據,是一個理想的教科書,為本科高年級和/或剛開始研究生水平的學科學生。它也是一個優秀的信息來源,為應用統計學家和在政府行業的從業人員提供參考。