講座題目
社會用戶興趣挖掘:方法與應用:Social User Interest Mining: Methods and Applications
講座簡介
社交網絡上豐富的用戶生成內容提供了建立模型的機會,這些模型能夠準確有效地提取、挖掘和預測用戶的興趣,希望能夠實現更有效的用戶參與、更好質量地提供適當的服務和更高的用戶滿意度。雖然傳統的建立用戶檔案的方法依賴于基于人工智能的偏好獲取技術,這些技術可能被用戶認為是侵入性的和不受歡迎的,但最近的進展集中在確定用戶興趣和偏好的非侵入性但準確的方法上。在本教程中,我們將介紹與有效挖掘用戶興趣相關的五個重要方面: 1)用于提取用戶興趣的信息源 2)文獻中提出的各類用戶興趣簡介 3)為挖掘用戶利益而采用或提議的技術 4)最新方法的可擴展性和資源需求 5)文獻中采用的評估方法,用于驗證挖掘的用戶興趣概要的適當性。我們還將介紹現有的挑戰、開放的研究問題和激動人心的工作機會。
講座嘉賓
Fattane Zarrinkalam博士是Ryerson大學系統、軟件和語義實驗室(LS3)的博士后研究員,她在那里從事與支持語義的社交網絡分析相關的項目。在博士研究期間,她專注于根據社交網絡(尤其是Twitter)上的個人和集體行為來識別社交媒體用戶的興趣。她在CIKM、ESWC和ECIR等場館發表了自己的作品。此外,她還在包括信息檢索、信息處理和管理在內的頂級期刊上發表期刊論文。此外,在她攻讀博士學位期間,她參與了兩項向美國專利局提出的專利申請。
題目: Graph Summarization Methods and Applications: A Survey
摘要:
雖然計算資源的進步使處理大量數據成為可能,但人類識別這些數據模式的能力并沒有相應提高。因此,壓縮和簡化數據的高效計算方法對于提取可操作的見解變得至關重要。特別是,雖然對數據摘要技術進行了廣泛的研究,但直到最近才開始流行對相互關聯的數據或圖進行匯總。這項調查是一個結構化的,全面的概述了最先進的方法,以總結圖形數據。我們首先討論了圖形摘要背后的動機和挑戰。然后,我們根據作為輸入的圖形類型對摘要方法進行分類,并根據核心方法進一步組織每個類別。最后,我們討論了總結在真實世界圖上的應用,并通過描述該領域的一些開放問題進行了總結。
作者簡介:
Yike Liu是密西根大學物理系五年級的博士生,也是計算機科學與工程系的一名碩士研究生。我是葉杰平教授的顧問。主要研究方向是深度學習和強化學習,尤其是在交通數據上的應用。在此之前,從事過基于圖形的機器學習和數據挖掘,特別是圖形總結和圖形聚類,在這些工作中,開發了圖形挖掘算法,幫助更好地理解底層的圖形組織并理解它。
Tara Safavi是密西根大學博士研究生,研究重點是知識表示及其在以人為中心的任務中的使用、評估和解釋,還對更廣泛的AI+社會問題感興趣,比如隱私、偏見和環境可持續性。研究目前得到了美國國家科學基金會(NSF)研究生獎學金和谷歌女性科技創造者獎學金的支持。
講座題目
藥物發現與開發的數據挖掘方法:Data Mining Methods for Drug Discovery and Development
講座簡介
醫學中的硅模型是指直接使用計算方法來支持藥物的發現和開發。機器學習和數據挖掘方法已經成為硅模型的一個組成部分,并且在藥物發現和開發過程的各個階段都顯示出了良好的性能。在本教程中,我們將介紹數據分析方法在藥物研發中的應用。上半年,我們將概述相關數據和分析任務,然后介紹這些任務的啟用數據分析方法。下半部分,我們將描述這些任務的具體應用。本教程將以開放式問題和問答環節結束。
講座嘉賓
Cao (Danica) Xiao 是IQVIA卓越分析中心的機器學習主任。她正帶領IQVIA的北美機器學習團隊推動下一代醫療人工智能。她的團隊致力于各種疾病建模和硅化藥物建模項目(例如,藥物不良反應檢測、藥物重新定位和從頭設計)。她的研究重點是使用機器學習和數據挖掘方法來解決各種現實世界的醫療挑戰。特別是,她對電子健康記錄上的表型、硅化藥物建模中的數據挖掘、生物標記物發現和神經退行性疾病的患者分割感興趣。她的研究成果發表在主要的人工智能會議上,包括KDD、NIPS、ICLR、AAAI、IJCAI、SDM、ICDM、WWW和頂級健康信息學期刊,如《自然科學報告》和JAMIA。在加入IQVIA之前,她曾于2017年至2019年在IBM research擔任AI for Healthcare團隊的研究人員,并于2018年至2019年擔任IBM全球技術展望委員會成員。她于2016年在西雅圖華盛頓大學獲得博士學位。
講座題目
公平意識機器學習:現實挑戰與經驗教訓:Fairness-Aware Machine Learning: Practical Challenges and Lessons Learned
講座簡介
來自不同學科的研究人員和從業人員強調了使用機器學習模型和數據驅動系統所帶來的倫理和法律挑戰,以及由于算法決策系統的偏見,這些系統可能歧視某些群體。本教程概述了過去幾年觀察到的算法偏差/歧視問題,以及在機器學習系統中為實現公平性而吸取的經驗教訓、關鍵法規和法律,以及技術的發展。在為不同的消費者和企業應用開發基于機器學習的模型和系統時,我們將鼓勵采用“按設計公平”的方法(而不是將算法偏差/公平考慮視為事后考慮)。然后,我們將通過展示來自不同技術公司的非專利案例研究,重點關注公平感知機器學習技術在實踐中的應用。最后,根據我們在Facebook、Google、LinkedIn和Microsoft等公司致力于機器學習公平性的經驗,我們將為數據挖掘/機器學習社區提出開放的問題和研究方向。
講座嘉賓
莎拉?伯德(Sarah Bird)領導著人工智能研究與Facebook產品交叉點的戰略項目。她目前的工作集中在人工智能倫理和發展規模負責任人工智能。她還一直致力于開放人工智能系統,是ONNX的共同創造者之一,ONNX是一個用于深度學習模型的開放標準,也是Pythorc1.0項目的領導者。在加入Facebook之前,她曾是微軟紐約研究中心的人工智能系統研究員和微軟數據集團的技術顧問。她是微軟決策服務(Decision Service)背后的研究人員之一,該服務是第一個公開發布的通用強化學習型云系統。她還與人共同創立了微軟人工智能倫理命運研究小組。她擁有加州大學伯克利分校(UC Berkeley)計算機科學博士學位,由戴夫·帕特森(Dave Patterson)、克里斯特·阿薩諾維奇(Krste Asanovic)和伯頓·史密斯(Burton Smith)擔任顧問。Sarah共同組織了多個相關主題的研討會(人工智能、NIPS 2018中的道德、社會和治理問題研討會;NIPS 2018中的機器學習系統研討會;NIPS 2017中的機器學習系統研討會;SOSP 2017中的人工智能系統研討會;NIPS 2016中的機器學習系統研討會),并在2018年伯克利隱私法論壇(Berkeley Privacy Law Forum)上發表了受邀的主題演講(“人工智能與機器學習:Facebook視角”)。
講座題目
假設檢驗與統計聲音模式挖掘:Hypothesis Testing and Statistically-sound Pattern Mining
講座簡介
大量數據集的可用性突出表明,需要計算效率高、統計上可靠的方法來提取模式,同時對結果的質量提供嚴格的保證,特別是在錯誤發現方面。在本教程中,我們將介紹最近的一些方法,這些方法適當地結合了計算和統計方面的考慮,以便有效地從大型數據集中挖掘統計上可靠的模式。我們首先介紹統計假設檢驗中的基本概念,數據挖掘社區中的每個人可能都不熟悉這些概念。然后,我們將解釋如何以不同的方式處理模式挖掘中的計算和統計挑戰。最后,我們描述了這些方法在市場籃分析、子圖挖掘、社會網絡分析和癌癥基因組學等領域的應用。本教程的目的是向觀眾介紹統計假設測試,強調正確平衡模式挖掘的計算和統計方面的重要性,強調這樣做對數據挖掘研究人員的有用性,并鼓勵在這方面的進一步研究。
講座嘉賓
Leonardo Pellegrina是帕多瓦大學信息工程系信息工程專業的博士生,由法比奧·范丁教授和布朗大學客座研究員指導。他的研究活動集中在高效和統計上合理的算法,用于從大數據中發現模式,并應用到計算生物學。
講座題目
虛假新聞研究:理論、發現策略與開放性問題:Fake News Research: Theories, Detection Strategies, and Open Problems
講座簡介
虛假新聞的爆炸性增長及其對民主、正義和公眾信任的侵蝕,增加了對虛假新聞研究的需求。本教程的目標是 (一)明確介紹虛假新聞的概念和特征,以及如何與其他類似概念如虛假/諷刺新聞、mis-/dis信息等進行形式區分,有助于加深對虛假新聞的認識; (二)對跨學科的基本理論進行全面審查,說明如何利用這些理論進行跨學科的虛假新聞研究,促進計算機與信息科學、政治學、新聞學、社會科學、心理學和經濟學等領域的專家協同努力。這樣的協同工作能夠高效、可解釋地發現虛假新聞; (三)系統地從四個角度(即知識、風格、傳播和可信度)提出虛假新聞檢測策略,以及每一個角度利用數據/圖形挖掘、機器學習、自然語言處理、信息檢索等技術的方法 (四)詳細介紹當前虛假新聞研究中存在的問題,揭示其巨大的潛在研究機會,希望能吸引更廣泛領域的研究人員開展虛假新聞檢測工作,進一步促進其發展。 本教程旨在促進一個公平、健康、安全的網絡信息和新聞傳播生態系統,希望能吸引更多的研究人員、工程師和各種興趣的學生進行虛假新聞研究。
講座嘉賓
Reza Zafarani是錫拉丘茲大學EEC的助理教授。Reza的研究興趣是社交媒體挖掘、數據挖掘、機器學習和社交網絡分析。他的研究重點一直放在應對大規模數據分析的挑戰上,以增強大數據的科學發現過程,特別是在社交媒體中。這些挑戰包括沒有基本事實的評估、快速識別大量數據集中的相關信息、利用有限信息進行學習、大規模用戶行為分析和建模,以及跨多個數據源的信息集成和建模。他的研究成果已在各大學術機構發表,并在多家科學機構得到了強調。雷扎是《社交媒體挖掘:導論》一書的主要作者,該書由劍橋大學出版社和SIGKDD探索與傳播前沿聯合編輯編寫。他是亞利桑那州立大學校長創新獎和優秀教學獎的獲得者。
講座題目
深強化學習及其在交通運輸中的應用:Deep Reinforcement Learning with Applications in Transportation
講座簡介
交通領域,特別是移動共享領域,有許多傳統上具有挑戰性的動態決策問題,這些問題有很長的研究文獻,很容易從人工智能(AI)中受益匪淺。一些核心例子包括在線乘車命令調度,它將可用的駕駛員與在共享平臺上請求乘客的行程實時匹配;路線規劃,它規劃行程的起點和終點之間的最佳路線;交通信號控制,它動態和自適應地調整實現低延遲的區域。所有這些問題都有一個共同的特點,即當我們關注某一特定時間范圍內的一些累積目標時,需要做出一系列的決定。強化學習(RL)是一種機器學習范式,它通過與環境的交互和獲取反饋信號,訓練agent學會在環境中采取最佳行動(以獲得的總累積回報衡量)。因此,它是一類求解序列決策問題的優化方法。
講座嘉賓
Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。
論文題目: Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation
論文摘要:
最近關于推薦的研究主要集中在探索最先進的神經網絡,以提高模型的表達能力,同時通常采用負抽樣(NS)策略來提高學習效率。盡管有效,現有方法中有兩個重要問題沒有得到充分考慮:1) NS波動劇烈,基于抽樣的方法在實際應用中難以獲得最優的排序性能;2)盡管異構反饋(如查看、單擊和購買)在許多在線系統中廣泛存在,但大多數現有方法僅利用一種主要類型的用戶反饋,如購買。在這項工作中,我們提出了一種新的非抽樣轉移學習解決方案,命名為高效異構協同過濾(EHCF),用于Top-N推薦。它不僅可以對細粒度的用戶-項目關系進行建模,而且可以從整個異構數據(包括所有未標記的數據)中高效地學習模型參數,并且具有較低的時間復雜度。對三個真實數據集的大量實驗表明,EHCF在傳統(單一行為)和異構場景中都顯著優于最先進的推薦方法。此外,EHCF在培訓效率方面有顯著的改進,使其更適用于真實世界的大型系統。我們的實現已經發布,以促進更有效的基于全數據的神經方法的進一步發展。
論文作者:
張敏博士是清華大學計算機科學與技術系的終身副教授,專門從事網絡搜索和推薦以及用戶建模。她是計算機系智能技術與系統實驗室副主任,清華-MSRA媒體與搜索實驗室執行主任。她還擔任ACM信息系統事務(TOIS)的副編輯,SIGIR 2019教程主席,SIGIR 2018短論文主席,WSDM 2017項目主席等。發表論文100余篇,被引用次3500余次,H指數32分。2016年獲北京市科技獎(一等獎),2018年獲全國高校計算機科學優秀教師獎等。她還擁有12項專利,并與國內外企業進行了大量的合作。
馬少平是清華大學智能技術與系統國家重點實驗室計算機科學與技術系教授,研究領域為智能信息處理, 信息檢索。主要研究興趣是智能信息處理,主要集中在信息檢索與Web信息挖掘等方面,尤其研究基于網絡用戶行為分析的語義挖掘,以改進搜索引擎的性能。
主題: Recommending for Impact:Intentions, Algorithms, and Metrics
簡介: 推薦影響力是什么意思?推薦者運營商的利益與用戶利益之間的矛盾在哪里?我們可以衡量推薦或推薦算法的影響嗎?以及我們如何優化算法以提高影響力?本演講對推薦系統的領域進行了長久的探討,包括以影響為重點的重大發展時期和通過其他目標實現的技術進步時期。在此基礎上,我們著眼于以影響為重點的推薦系統研究的有前途的方向。
嘉賓介紹: Joseph A. Konstan 是麥克奈特大學(McKnight University)的教授,以及明尼蘇達大學科學與工程學院的副院長。他的研究解決了各種人機交互問題,包括個性化(特別是通過推薦系統),發起了在線參與以及設計計算機系統以改善公共衛生,他可能以其在協作過濾推薦器中的工作而聞名(GroupLens項目,該項目獲得了ACM軟件系統獎)。
主題: Building Useful Recommender Systems for Tourists
簡介: 推薦系統是信息搜索和過濾工具,應為要使用的項目提供建議。 最先進的推薦系統利用數據挖掘和信息檢索技術來預測商品在多大程度上適合用戶的需求和需求,但是通常它們最終會提出明顯而無趣的建議,尤其是在復雜領域(例如旅游業)。 在演講中,將介紹典推薦器系統的思想和技術。 我們將討論為游客建立有用的推薦系統所需的一些關鍵要素。 因此,我們將指出推薦系統研究的一些局限性和挑戰。 然后,我們將介紹一些新穎的技術,這些技術利用從觀察到的游客行為中收集的數據來生成更有用的個人和團體推薦。
嘉賓介紹: Francesco Ricci博士是Bozen-Bolzano自由大學(意大利)的正教授兼計算機科學學院院長。他與他人共同編輯了《推薦系統手冊》(Springer,2011年,2015年),并作為ACM推薦系統會議(2007年至2010年)指導委員會主席在社區中積極工作。他(2000年至2006年)曾是ITC-irst(意大利特倫托)的電子商務和旅游業研究實驗室(eCTRL)的高級研究員和技術總監。從1998年到2000年,他是Sodalia s.p.a.的研究和技術部門的系統架構師。