關于運動的數據長期以來一直是運動科學家研究和分析的主題。這些數據越來越大的規模和可用性也吸引了機器學習、計算機視覺和人工智能研究人員的注意。然而,這些社區很少相互影響。這個研討會旨在將這些領域的研究人員聚集在一起,以激發跨學科的方法來解決這些問題。研討會圍繞五個不同的主題組織,并以教程和概述形式介紹了關鍵概念,以促進不同背景的研究人員之間的知識交流和基于數據的體育研究方法。通過對具體問題或技術的更深入的介紹,這些內容得到了補充。有一個由實踐者組成的小組討論,討論了將分析應用于實踐的困難和經驗教訓。最后,我們得出了一些結論和下一步的步驟。
隨著數據來源的出現,如賽事數據(如動作的時間和地點)、跟蹤數據(如位置數據)和運動員監測(如生物傳感器、imu、GPS),體育已經成為一個數據極其豐富的領域。這些數據通常廣泛地收集在多個不同的運動項目中,包括專業和娛樂水平。這些數據的出現提出了從理論(如運動建模)和實踐(如頂級運動訓練)角度開發收集數據的需要。問題的解決方案只能通過運動科學與信息學(S&I)和機器學習(ML)社區之間的互動來提供。機器學習正在成為體育分析的一種強大的新范式,因為它提供了理解收集到的數據的新方法。然而,S&I和ML社區傳統上是分開的,各自有自己的議程。研討會的目的是將活躍在這兩個領域的頂尖研究人員和實踐者聚集在一起,以評估他們潛在的協同作用。
我們按照五個不同的主題組織了研討會,每一個主題都是半天到一整天的重點。鑒于參與者在學科方面的背景不同,每個主題都以概述開始,以便讓每個人都在同一頁上。然后是更詳細的陳述。這5個主題是:機器學習與體育運動的結合。本次會議的目標是提供一些機器學習技術(預測建模、文本挖掘)的概述,以及如何將它們應用于體育運動。ML可以發揮作用的說明性應用包括評估球隊和球員的表現,支持體育轉播,評估球迷對規則改變的反應,并幫助減少視頻分析人員的時間負擔。目的是提供運動科學基本概念的概述,以便從機器學習中為研究人員提供信息。基本概念是競賽、訓練與運動員能力的關系,不同運動項目的表現結構,以及運動實踐中對支持的需求。特別是將團隊運動結構解釋為具有突發行為的動態交互過程,認為這是機器學習在運動領域最常見的應用領域。該課程旨在讓參與者接觸到通過分析視覺信息來收集團隊運動信息的實踐。會議開始時概述了計算機視覺在體育領域的一般應用。其中三名主持人來自業界,代表的公司在向分析制作人提供團隊運動(如籃球、足球和冰球)的信息方面具有重要影響力。第四位演講者來自學術界,討論了相機規劃和分析的材料,此外,他本人也參與了業余體育運動中視覺分析方法的技術轉移。這些有經驗的研究人員的講座很好地滿足了總體目標,即讓參與者了解視覺的方法和應用。跨學科視角的戰術會議旨在建立一個共同的理解戰術及其在預測/生成模型的實施。如何在計算機模型中表示總體的長期戰略仍然是一個開放的問題,在概述和貢獻的演示的例子中討論了不同的想法。一個關鍵的挑戰是如何將機器學習模型的結果有效地傳遞給領域專家,這與許多此類模型的黑盒子特性相結合。這一屆會議強調了實現這一目標的各種技術,并舉例說明了各種運動項目,如冰球、乒乓球和足球的練習。這仍然是一個活躍的研究領域,討論了各種經驗教訓和改善領域專家和技術專家之間交流的想法。
人工智能 (AI) 有機會徹底改變美國國防部 (DoD) 和情報界 (IC) 應對不斷變化的威脅、數據泛濫和快速行動的挑戰的方式。開發端到端的人工智能系統需要并行開發不同的部分,這些部分必須協同工作,以提供可供決策者、作戰人員和分析人員使用的功能。這些部分包括數據收集、數據調節、算法、計算、強大的人工智能和人機協作。盡管當今的許多流行媒體都圍繞著算法和計算的進步,但大多數現代人工智能系統都利用了許多不同領域的進步。此外,雖然某些組件可能不像其他組件那樣對最終用戶可見,但我們的經驗表明,這些相互關聯的組件中的每一個都在 AI 系統的成功或失敗中發揮著重要作用。
本文旨在重點介紹端到端 AI 系統中涉及的許多技術。本文的目的是為讀者提供術語、技術細節的概述以及學術界、工業界和政府部門的最新亮點。在可能的情況下,我們會指出可用于進一步閱讀和理解的相關資源。
本報告描述了北約第一個多領域小組IST-173所取得的成果。與會者包括來自不同小組和團體的科學家,以及來自北約機構和軍事利益攸關方、學術界和工業界的科學家,這為AI和軍事決策大數據這一主題創造了第一個利益共同體。該團隊在實踐中證明了一種新的STO方法的可行性,即任務導向研究,以激發公開對話、自我形成的研究合作和跨小組活動。此外,該方法還有助于為人工智能和軍事決策大數據這兩個主要能力領域聯合開發北約首個科技路線圖,以應對北約在這些領域面臨的作戰挑戰。由于新的組織(軍事利益相關者積極參與的多領域團隊)和這種創新方法的應用,確定了一些經驗教訓,應該支持軍事決策AI和大數據的進一步操作。
這是由來自22個國家和72個機構/組織的80位專家撰寫的《預測領域》的百科全書式概述。非常值得關注!
預測一直處于決策和規劃的最前沿。圍繞著未來的不確定性既令人興奮,又具有挑戰性,個人和組織都在尋求風險最小化和公用利益最大化。大量的預測應用需要一系列不同的預測方法來應對現實生活中的挑戰。這篇文章提供了一個非系統的回顧理論和預測的實踐。我們提供了一個廣泛的理論、最先進的模型、方法、原則來準備,產生、組織和評估預測。然后,我們展示了這些理論概念是如何應用于各種現實生活的背景。
我們并不認為這篇綜述是方法和應用的詳盡列表。然而,我們希望我們的百科全書式的介紹將為過去幾十年來所進行的豐富工作提供一個參考點,并為預測理論和實踐的未來提供一些關鍵的見解。由于其百科全書的性質,預期的閱讀模式是非線性的。我們提供交叉參考,讓讀者瀏覽各種主題。我們補充了由大量免費或開源軟件實現和公開可用的數據庫所涵蓋的理論概念和應用。
//www.zhuanzhi.ai/paper/869110de988c2d02edb200ddd53e1219
自從早期人類通過觀察天空來判斷天氣是否適合狩獵以來,天氣預報已經取得了長足的進步,甚至自從獵人能夠得到諸如“氣溫高達40度,有可能下雨”這樣的預報以來。現在,獵人只要看一看智能手機,就能立即得到多個地點每小時的氣溫預報和降雨概率,以及顯示未來幾個小時天氣預報模式的地圖視頻。管理人員、政府官員、投資者和其他決策者可以對日益復雜的情況作出定制的預測,為許多不同類型的重要決策提供信息。自De Gooijer和Hyndman(2006)發表優秀的綜述文章以來的15年里,預測領域在理論和實踐方面都取得了驚人的增長。因此,這篇綜述既及時又廣泛,既有高度理論性又非常實用。
計算技術的快速發展使得分析更大更復雜的數據集成為可能,并激發了人們對分析和數據科學的興趣。預測方法工具箱在規模和復雜性上都有所增長。計算機科學以神經網絡和其他類型的機器學習等方法引領潮流,受到預測者和決策者的極大關注。其他方法,包括統計方法,如貝葉斯預測和復雜回歸模型,也從計算的進步中獲益。而且這些改進并不局限于那些基于計算技術的進步。例如,在“群體智慧”概念的推動下,關于判斷預測的文獻得到了相當大的擴展。
預測的結合或聚合并不是一個新的想法,但最近在預測界得到了越來越多的關注,并且表現得很好。例如,Spyros Makridakis舉辦的M4比賽中表現最好的參賽選手綜合了多種方法的預測。目前已經開發了許多模型來預測COVID-19導致的死亡人數,將這些預測結合起來是有意義的,因為很難知道哪種模型最準確。它與貝葉斯的思想是一致的,因為它可以被視為更新,每個單獨的預測添加到組合預測(也稱為集合)提供一些新的信息。
盡管這些新進展令人興奮,但像ARIMA和指數平滑等老方法仍然很有價值。指數平滑,連同其他簡單的方法,是相當穩健的,不像更復雜的方法容易過度擬合。從這個意義上說,它們的有用之處不僅在于它們自身的優點,還在于它們是包括更復雜方法在內的整體的一部分。如果預測方法不同,預測誤差不高度相關,那么組合預測更有價值。
天氣條件使得天氣預報員的工具箱更大、更復雜,也使得數據集更大、網格更密集,應用領域的模型也得到了改進。這種情況已經發生在大氣模型上,這對制定更好的天氣預報非常重要。關于顧客及其偏好的更詳細的信息可以為經理開發出改進的顧客行為模型。反過來,能夠快速處理所有這些信息的預測方法對于決策的目的是有價值的。這一過程引發了在互聯網上收集信息的熱潮。
風險是決策過程中一個重要的考慮因素,而概率預測可以量化這些風險。概率預測的理論工作已經活躍了一段時間,許多實踐領域的決策者已經接受了概率預測的使用。在貝葉斯方法中,推理和預測在本質上是概率性的,概率預測也可以通過許多其他方式產生。
美國國家氣象局從20世紀60年代開始向公眾發布降水的概率。然而,概率的廣泛應用和傳播是本世紀以來才發展起來的。現在,概率預測越來越多地傳達給公眾,并作為決策的輸入。Nate Silver的FiveThirtyEight.com的報告對選舉、醫學和科學、體育賽事、經濟指標和許多其他領域給出了概率預測,通常會單獨考慮多種預測模型,也會將它們組合在一起。
人們渴望確定性是很自然的。當降水概率預報最初廣泛傳播時,許多人對此非常懷疑,有些人指責預報員套期處理,說“別給我概率”。我想知道是否會下雨”。當然,點數預測通常與概率預測一起給出。當前對概率的頻繁接觸有助于公眾更好地理解、欣賞并對它們感到更舒服。當前世界上COVID-19疫情、巨大火災、大風暴、政治兩極分化、國際沖突等的增加,應該有助于他們認識到我們生活在一個充滿巨大不確定性的時代,量化這些不確定性的預測可能很重要。在可能的情況下,視覺效果會有所幫助,正如俗話所說,一張圖片勝過千言萬語。例如,在預測颶風的速度、嚴重程度和未來路徑時,地圖上的不確定性錐體,以及球隊贏得比賽的概率的時間線,每次比賽后都會迅速更新。
簡而言之,這是預測領域的一個激動人心的時代,所有新的理論發展和預測在實踐中的應用。預測是如此普遍,以至于不可能在一篇文章中涵蓋所有這些發展。本文設法涵蓋了相當多的內容,而且種類繁多。對每種方法進行簡短的介紹,由對理論主題或實踐領域“接近實際”的專家來做,可以很好地提供預測理論和實踐的最新狀況。
預測理論的前提是,當前和過去的知識可以用來預測未來。特別是對于時間序列,人們相信可以在歷史值中識別模式,并在預測未來值的過程中成功地實現它們。然而,人們并不指望能準確預測期貨價格。相反,在預測未來時間段內單個時間序列的許多選項中,有期望值(稱為點預測)、預測區間、百分位數和整個預測分布。這組結果集合起來可以被認為是“預測”。預測過程中還有許多其他潛在的結果。目標可能是預測一個事件,如設備故障,時間序列可能只在預測過程中發揮很小的作用。當預測程序與要在實踐中解決的問題有關時,它們是最好的。理論可以通過理解問題的本質特征來發展。反過來,理論的結果可以導致實踐的改進。
預測的目的是在面對不確定性時改進決策。為了實現這一目標,預測應該提供最可能發生的事情的無偏猜測(預測點),以及不確定性的度量,如預測間隔(PI)。這些資料將有助于作出適當的決定和采取適當的行動。預測應該是一項客觀、冷靜的工作,它是建立在事實、合理的推理和合理的方法之上的。但由于預測是在社會環境中產生的,它們受到組織政治和個人議程的影響。因此,預測往往反映的是愿望,而不是不偏不倚的推測。****
機器學習是關于基于數據的學習、推理和行動。這是通過構建計算機程序來完成的,這些程序可以處理數據,提取有用的信息,對未知屬性做出預測,并建議采取的行動或做出的決定。將數據分析變成機器學習的原因是,這個過程是自動化的,計算機程序是從數據中學習的。這意味著使用通用計算機程序,這些程序根據觀察到的所謂訓練數據自動調整程序的設置,以適應特定的應用程序環境。因此可以說,機器學習是一種通過實例編程的方式。機器學習的美妙之處在于,數據所代表的內容是非常隨意的,我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。上述“通用計算機程序”是指數據的數學模型。也就是說,當我們開發和描述不同的機器學習方法時,我們使用的是數學語言。數學模型描述了與觀測數據對應的相關數量或變量與感興趣的屬性(如預測、動作等)之間的關系。因此,模型是數據的緊湊表示,以精確的數學形式捕捉我們正在研究的現象的關鍵屬性。使用哪個模型通常由機器學習工程師在查看可用數據時產生的見解和從業者對問題的總體理解來指導。在實踐中實現該方法時,將該數學模型轉換為可在計算機上執行的代碼。然而,要理解計算機程序的實際作用,了解其基礎數學也很重要。
這本書的目的是介紹監督機器學習,而不需要在該領域的任何經驗。我們既關注基礎的數學,也關注實踐方面。本書是教科書,不是參考書,也不是編程手冊。因此,它只包含一個仔細(但全面)的監督機器學習方法的選擇,而沒有編程代碼。現在有許多精彩和證據確鑿的代碼包可用,我們深信,在很好地理解數學和內部運行的方法。在這本書中,我們從統計學的角度來討論方法的統計特性。因此,它需要一些統計和概率論的知識,以及微積分和線性代數。我們希望,從頭到尾閱讀這本書將給讀者一個良好的起點,作為一個機器學習工程師工作和/或繼續在該學科的進一步研究。下圖說明了章節之間的主要依賴關系。特別是在第二、三、四章中討論了最基本的主題,我們建議讀者先閱讀這些章節,然后再閱讀后面包含更高級的主題的章節(第5-9章)。第10章超越了機器學習的監督設置,第11章關注于設計一個成功的機器學習解決方案的一些更實際的方面,比前幾章的技術性更少。最后,第十二章(由David Sumpter撰寫)討論了現代機器學習的某些倫理方面。
本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202102/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。
知識表示和推理是人工智能挑戰的核心: 要充分理解智能和認知的本質,使計算機能夠表現出類似人類的能力。早在1958年,約翰·麥卡錫(John McCarthy)就考慮過可以運用常識的人工智能系統。從這些早期工作中,研究人員確信(人工)智能可以被形式化為具有明確知識表征的符號推理,而研究的核心挑戰是弄清楚如何在計算機中表示知識,并使用它的算法來解決問題。
多年以后,這本書調研了構成知識表示和推理領域的大量科學和工程見解。在三個方面取得了進展。首先,研究人員探索了知識表示和推理的一般方法,解決了跨越應用領域的基本問題。其次,研究人員開發了專門的知識表示和推理方法來處理核心領域,如時間、空間、因果關系和行動。第三,研究人員處理了知識表示和推理的重要應用,包括查詢回答、規劃和語義網。因此,本書分為三個部分來涵蓋這些主題。
//www.elsevier.com/books/handbook-of-knowledge-representation/van-harmelen/978-0-444-52211-5
第一部分主要介紹人工智能系統中表示知識的一般方法。它從經典邏輯和定理證明的背景開始,然后轉向擴展經典邏輯的新方法——例如,處理定性的或不確定的信息——并改進其計算可處理性。
第二部分探討了用知識的一些核心領域(包括時間、空間、因果關系和行動)來表示和推理的特殊挑戰。這些挑戰在應用程序領域中普遍存在,因此解決方案必須是通用的和可組合的。
第三部分介紹了知識表示和推理的重要應用。應用領域涵蓋了人工智能的廣度,包括問題回答、語義網、計劃、機器人和多智能體系統。每一項應用都廣泛借鑒了第一部分和第二部分中所述的研究結果。
此外,這25章,組織在三個部分“一般方法”,“專門的表示和“應用”,提供了一個獨特的調研,最好的知識表示已經取得,由幫助塑造領域的研究人員寫。我們希望學生,研究人員和從業者在所有領域的人工智能和認知科學將發現這本書是一個有用的資源。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。