一本嚴謹而全面的教科書,涵蓋了知識圖譜的主要方法,人工智能中的一個活躍和跨學科領域。
知識圖譜領域允許我們從復雜的現實世界數據中建模、處理和得出見解,在過去十年中,它已經成為人工智能的一個活躍的跨學科領域,借鑒了自然語言處理、數據挖掘和語義Web等領域。目前的項目包括預測網絡攻擊、推薦產品,甚至從數千篇關于COVID-19的論文中收集見解。這本教科書提供了該領域的嚴格和全面的覆蓋。它系統地關注主要的方法,包括那些經受住時間考驗的方法和最新的深度學習方法。
在介紹了介紹性和背景材料之后,本文涵蓋了構建知識圖譜、向知識圖譜添加新知識(或在知識圖中精煉舊知識)以及訪問(或查詢)知識圖譜的技術。最后,書中描述了特定的知識圖譜生態系統,與每個生態系統對應的幾個現實世界的應用和案例研究。每一章結尾都有軟件和資源部分,以及建議閱讀的參考書目。章末練習共130個,代表了不同的抽象層次。
本書描述了使信息提供者能夠構建和維護知識圖譜的方法和工具,包括用于手動、半自動和自動構造的知識圖譜;實現;語義標注的驗證與驗證及其與知識圖譜的集成。它還提供了用于半自動和自動管理這些圖譜的基于生命周期的方法,例如評估、錯誤糾正和使用其他靜態和動態資源豐富知識圖譜的方法。
第一章定義了知識圖譜,側重于各種方法的影響,而不是數學精度。第2章詳細介紹了知識圖譜是如何構建、實現、維護和部署的。然后第3章介紹了可以構建在這些知識圖譜之上的相關應用程序層,并解釋了如何使用推理來定義這些圖上的視圖,使其成為開放和面向服務的對話系統的有用資源。第四章討論了知識圖譜技術在電子旅游中的應用以及在其他行業中的用例。最后,第五章對全文進行了總結,并提出了今后的工作方向。附加附錄介紹了用于使schema.org適應特定領域和任務的領域規范的抽象語法和語義。
為了說明所介紹的方法的實際使用,本書討論了幾個重點放在會話界面上的試點,描述了如何利用知識圖譜進行電子營銷和電子商務。它是為高級專業人員和研究人員需要一個簡單的介紹知識圖譜和他們的實施。
《數據科學家的統計基礎:使用R和Python》是一本一學期或兩學期的數學統計入門教材,供培養成為數據科學家的學生使用。它深入介紹了任何數據科學家都應該熟悉的統計科學主題,包括概率分布、描述性和推理統計方法以及線性建模。這本書假設有基本的微積分知識,所以演示可以集中在“為什么它可以工作”以及“如何做它”上。然而,與傳統的“數理統計”教科書相比,這本書較少強調概率論,而更強調使用軟件來實現統計方法和進行模擬來說明關鍵概念。書中所有的統計分析都使用R軟件,還有一個附錄展示了用Python進行的相同分析。
這本書還介紹了現代主題,通常不出現在數理統計文本,但與數據科學家高度相關,如貝葉斯推理,非正態響應的廣義線性模型(例如,邏輯回歸和泊松loglinear模型),和正則模型擬合。將近500個練習被分為“數據分析與應用”和“方法與概念”。附錄介紹了R和Python,并包含了奇數號練習的解決方案。本書的網站擴展了R, Python和Matlab的附錄,以及來自示例和練習的所有數據集。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
本體論工程導論是第一本通用教科書,主要目的是為讀者提供本體論工程的全面介紹概述。第二個目標是在本體論發展中提供說明理論的實踐經驗。
這本書分為三個部分:
第一部分: 語言(主要是第一階謂詞邏輯、描述邏輯和OWL)和自動推理的本體的邏輯基礎。
第二部分: 使用方法和方法開發高質量的本體,使用基礎本體的自頂向下方法,以及從材料中提取盡可能多的有用內容的自底向上方法。
第三部分: 高級主題,精選專業領域,包括基于本體的數據訪問,本體與自然語言之間的交互(多語言本體,受控自然語言),以及帶有額外語言特征的高級建模(模糊和時態本體)。
自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能夠實現人與電腦之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作。
//www.datascienceassn.org/sites/default/files/Natural%20Language%20Processing%20with%20Python.pdf
伯德、克萊恩、洛佩爾編著的這本《Python自然語言處理》是自然語言處理領域的一本實用入門指南,旨在幫助讀者學習如何編寫程序來分析書面語言。《Python自然語言處理》基于Python編程語言以及一個名為NLTK的自然語言工具包的開源庫,但并不要求讀者有Python編程的經驗。全書共11章,按照難易程度順序編排。第1章到第3章介紹了語言處理的基礎,講述如何使用小的Python程序分析感興趣的文本信息。第4章討論結構化程序設計,以鞏固前面幾章中介紹的編程要點。第5章到第7章介紹語言處理的基本原理,包括標注、分類和信息提取等。第8章到第10章介紹了句子解析、句法結構識別和句意表達方法。第11章介紹了如何有效管理語言數據。后記部分簡要討論了NLP領域的過去和未來。
《Python自然語言處理》的實踐性很強,包括上百個實際可用的例子和分級練習。《Python自然語言處理》可供讀者用于自學,也可以作為自然語言處理或計算語言學課程的教科書,還可以作為人工智能、文本挖掘、語料庫語言學等課程的補充讀物。
W. Keith Nicholson的《線性代數與應用》,傳統上出版多年,現在作為開放教育資源和Lyryx的一部分發布與開放文本!支持今天的學生和教師需要更多的教科書,這就是為什么尼克爾森博士選擇與Lyryx學習工作。
總的來說,教材的目標是在計算技能,理論和線性代數的應用之間達到平衡。它是線性代數的思想和技術的一個相對先進的介紹,目標是科學和工程學生,他們不僅需要理解如何使用這些方法,而且還需要深入了解為什么他們工作。
它介紹了線性代數的一般思想遠早于競爭保持與線性代數相同的嚴格和簡潔的方法。隨著許多圖表和例子,幫助學生形象化,它也保持與概念的不斷介紹。
課程內容有足夠的靈活性,可以呈現一個傳統的主題介紹,或者允許一個更實用的課程。第1-4章為初學者開設了一學期的課程,而第5-9章為第二學期的課程。這本教科書主要是關于實數線性代數的,在適當的時候提到了復數(在附錄A中回顧)。
PyTorch是Facebook于2017年初在機器學習和科學計算工具Torch的基礎上,針對Python語言發布的一個全新的機器學習工具包,一經推出便受到了業界的廣泛關注和討論,目前已經成為機器學習從業人員的研發工具。
《PyTorch深度學習》是使用PyTorch構建神經網絡模型的實用指南,內容分為9章,包括PyTorch與深度學習的基礎知識、神經網絡的構成、神經網絡的知識、機器學習基礎知識、深度學習在電腦視覺中的應用、深度學習在序列數據和文本中的應用、生成網絡、現代網絡架構,以及PyTorch與深度學習的未來走向。
《PyTorch深度學習》適合對深度學習領域感興趣且希望一探PyTorch的業內人員閱讀;具備其他深度學習框架使用經驗的讀者,也可以通過本書掌握PyTorch的用法。
Vishnu Subramanian在領導、設計和實施大數據分析項目(人工智能、機器學習和深度學習)方面富有經驗。
擅長機器學習、深度學習、分布式機器學習和可視化等。 在零售、金融和旅行等行業頗具經驗,還善于理解和協調企業、人工智能和工程團隊之間的關系。
為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。
概述
增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展,這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識,有一到兩個數量級的實體。
知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其后端數據中心有一個巨大的知識庫,有助于發現用戶請求(及其上下文)中的實體,并找到簡明的答案。
本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。
這篇文章共分為十章。第2章給出了知識表示的基礎知識,并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。
當前關于機器學習方面的資料非常豐富:Andrew NG在Coursera上的機器學習教程、Bishop的《機器學習與模式識別》 和周志華老師的《機器學習》都是非常好的基礎教材;Goodfellow等人的《深度學習》是學習深度學習技術的首選資料;MIT、斯坦福等名校的公開課也非常有價值;一些主要會議的Tutorial、keynote也都可以在網上搜索到。然而,在對學生們進行培訓的過程中, 我深感這些資料專業性很強,但入門不易。一方面可能是由于語言障礙,另一個主要原因在于機器學習覆蓋 面廣,研究方向眾多,各種新方法層出不窮,初學者往往在各種復雜的名詞,無窮無盡的 算法面前產生畏難情緒,導致半途而廢。
本書的主體內容是基于該研討班形成的總結性資料。基于作者的研究背景,這本書很難說 是機器學習領域的專業著作,而是一本學習筆記,是從一個機器學習 技術使用者角度對機器學習知識的一次總結,并加入我們在本領域研究中的一些經驗和發現。與其說是一本教材,不如說是一本科普讀物, 用輕松活潑的語言和深入淺出的描述為初學者打開機器學習這扇充滿魔力的大門。打開大門以后,我們會發現這是個多么讓人激動人心的 領域,每天都有新的知識、新的思路、新的方法產生,每天都有令人振奮的成果。我們希望這本書 可以讓更多學生、工程師和相關領域的研究者對機器學習產生興趣,在這片異彩紛呈的海域上找到 屬于自己的那顆貝殼。
強烈推薦給所有初學機器學習的人,里面有: 書籍的pdf 課堂視頻 課堂slides 各種延伸閱讀 MIT等世界名校的slides 學生的學習筆記等