報告主題:Syn-ergy of Data-base Tech-niques and Ma-chine Learn-ing Mod-els for String Sim-il-ar-ity Search and Join
報告摘要:字符串數據無處不在,字符串相似性搜索和連接對于信息檢索,數據集成,數據清理以及大數據分析的應用至關重要。為了支持這些操作,數據庫和機器學習領域中的許多技術已獨立提出。更確切地說,在數據庫研究領域,存在基于過濾和驗證框架的技術,這些技術不僅可以實現高性能,而且還可以為給定的相似度函數提供保證的結果質量。在機器學習研究領域中,字符串相似性處理被建模為識別相似文本記錄的問題。具體來說,深度學習方法使用將文本映射到低維連續向量空間的嵌入技術。 在本教程中,我們回顧了大量關于字符串相似性搜索的研究,并加入了這兩個研究領域。我們將每個領域的研究劃分為不同的類別。對于每個類別,我們都會對相關作品進行全面審查,并介紹這些解決方案的詳細信息。在結束本教程時,我們將為未來的工作指明可行的方向,以結合這兩個領域的技術。
邀請嘉賓: Lin Chunbin是Amazon Web Services(AWS)的軟件工程師,正在研究AWS Redshift。 于2018年在加利福尼亞大學圣地亞哥分校(UCSD)獲得計算機科學博士學位。研究興趣是數據庫管理和大數據管理。 他在SIGMOD,VLDB,VLDB J和TODS等上發表了20多篇期刊和會議論文。
陸嘉恒,芬蘭赫爾辛基大學的副教授。 他的主要研究興趣在于大數據管理和數據庫系統,尤其是對來自現實生活中的高效數據處理,海量數據存儲庫和Web的挑戰。 他撰寫了四本有關Hadoop和NoSQL數據庫的書,并在SIGMOD,VLDB,TODS和TKDE等上發表了70多篇期刊和會議論文。
Jin Wang是美國加州大學洛杉磯分校的四年級博士生。 在加入UCLA之前,他于2015年獲得清華大學計算機科學碩士學位。他的研究興趣主要在于數據管理和文本分析領域。 他在頂級會議和期刊(如ICDE,IJCAI,EDBT,TKDE和VLDB Journal)上發表了10多篇論文。
Chen Li,博士,加州大學歐文分校計算機科學系的教授。 擁有斯坦福大學計算機科學學位。 他的研究興趣是數據管理領域,包括數據密集型計算,查詢處理和優化,可視化以及文本分析。
題目: Graph Summarization Methods and Applications: A Survey
摘要:
雖然計算資源的進步使處理大量數據成為可能,但人類識別這些數據模式的能力并沒有相應提高。因此,壓縮和簡化數據的高效計算方法對于提取可操作的見解變得至關重要。特別是,雖然對數據摘要技術進行了廣泛的研究,但直到最近才開始流行對相互關聯的數據或圖進行匯總。這項調查是一個結構化的,全面的概述了最先進的方法,以總結圖形數據。我們首先討論了圖形摘要背后的動機和挑戰。然后,我們根據作為輸入的圖形類型對摘要方法進行分類,并根據核心方法進一步組織每個類別。最后,我們討論了總結在真實世界圖上的應用,并通過描述該領域的一些開放問題進行了總結。
作者簡介:
Yike Liu是密西根大學物理系五年級的博士生,也是計算機科學與工程系的一名碩士研究生。我是葉杰平教授的顧問。主要研究方向是深度學習和強化學習,尤其是在交通數據上的應用。在此之前,從事過基于圖形的機器學習和數據挖掘,特別是圖形總結和圖形聚類,在這些工作中,開發了圖形挖掘算法,幫助更好地理解底層的圖形組織并理解它。
Tara Safavi是密西根大學博士研究生,研究重點是知識表示及其在以人為中心的任務中的使用、評估和解釋,還對更廣泛的AI+社會問題感興趣,比如隱私、偏見和環境可持續性。研究目前得到了美國國家科學基金會(NSF)研究生獎學金和谷歌女性科技創造者獎學金的支持。
講座題目
從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text
講座簡介
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全面概述最近在這方面的研究和發展。首先,我們介紹了一系列有效的方法,從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。
講座嘉賓
Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、谷歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有豐富的經驗。
課程名稱: CS276: Information Retrieval and Web Search(Spring quarter 2019
課程簡介: 信息檢索(Information Retrieval)是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。 IR是自然語言處理(NLP)領域中的第一個,并且仍然是最重要的問題之一。 網絡搜索是將信息檢索技術應用于世界上最大的文本語料庫-網絡-這是大多數人最頻繁地與IR系統交互的區域。
在本課程中,我們將介紹構建基于文本的信息系統的基本和高級技術,包括以下主題:
講師介紹: Christopher Manning,SAIL 新任負責人,Christopher Manning于1989年在澳大利亞國立大學取得三個學士學位(數學、計算機和語言學),并于 1994 年獲得斯坦福大學語言學博士學位。 他曾先后在卡內基梅隆大學、悉尼大學等任教,1999 年回到母校斯坦福,就職于計算機科學和語言學系,是斯坦福自然語言處理組(Stanford NLP Group)的創始成員及負責人。重返斯坦福之后,他一待就是 19 年。 Manning 的研究目標是以智能的方式實現人類語言的處理、理解及生成,研究領域包括樹形 RNN 、情感分析、基于神經網絡的依存句法分析、神經機器翻譯和深度語言理解等,是一位 NLP 領域的深度學習開拓者。他是國際計算機學會 (ACM)、國際人工智協會(AAAI)、國際計算語言學會(ACL)等國際權威學術組織的 Fellow,曾獲 ACL、EMNLP、COLING、CHI 等國際頂會最佳論文獎,著有《統計自然語言處理基礎》、《信息檢索導論》等自然語言處理著名教材。
Pandu Nayak,谷歌工程師,負責信息檢索方面的研究。 在加入Google之前,我曾是Stratify,Inc.的首席架構師和首席技術官。在那里,幫助開發了成功的Stratify Legal Discovery服務。
論文題目: Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation
論文摘要:
最近關于推薦的研究主要集中在探索最先進的神經網絡,以提高模型的表達能力,同時通常采用負抽樣(NS)策略來提高學習效率。盡管有效,現有方法中有兩個重要問題沒有得到充分考慮:1) NS波動劇烈,基于抽樣的方法在實際應用中難以獲得最優的排序性能;2)盡管異構反饋(如查看、單擊和購買)在許多在線系統中廣泛存在,但大多數現有方法僅利用一種主要類型的用戶反饋,如購買。在這項工作中,我們提出了一種新的非抽樣轉移學習解決方案,命名為高效異構協同過濾(EHCF),用于Top-N推薦。它不僅可以對細粒度的用戶-項目關系進行建模,而且可以從整個異構數據(包括所有未標記的數據)中高效地學習模型參數,并且具有較低的時間復雜度。對三個真實數據集的大量實驗表明,EHCF在傳統(單一行為)和異構場景中都顯著優于最先進的推薦方法。此外,EHCF在培訓效率方面有顯著的改進,使其更適用于真實世界的大型系統。我們的實現已經發布,以促進更有效的基于全數據的神經方法的進一步發展。
論文作者:
張敏博士是清華大學計算機科學與技術系的終身副教授,專門從事網絡搜索和推薦以及用戶建模。她是計算機系智能技術與系統實驗室副主任,清華-MSRA媒體與搜索實驗室執行主任。她還擔任ACM信息系統事務(TOIS)的副編輯,SIGIR 2019教程主席,SIGIR 2018短論文主席,WSDM 2017項目主席等。發表論文100余篇,被引用次3500余次,H指數32分。2016年獲北京市科技獎(一等獎),2018年獲全國高校計算機科學優秀教師獎等。她還擁有12項專利,并與國內外企業進行了大量的合作。
馬少平是清華大學智能技術與系統國家重點實驗室計算機科學與技術系教授,研究領域為智能信息處理, 信息檢索。主要研究興趣是智能信息處理,主要集中在信息檢索與Web信息挖掘等方面,尤其研究基于網絡用戶行為分析的語義挖掘,以改進搜索引擎的性能。
教程題目:Adversarial Machine Learning
教程簡介:
近年來,機器學習在廣泛的行業和應用領域得到了顯著的普及。機器學習技術的許多應用本質上是對抗性的,因為其目標是將“壞的”實例與“好的”實例區分開來。事實上,對抗性的使用遠遠超出了這個簡單的分類示例:對惡意軟件的法醫分析,包括集群、異常檢測,甚至自動駕駛汽車上的視覺系統,都可能受到攻擊。針對這些問題,出現了一個關于對抗性機器學習的新興文獻,它涵蓋了對機器學習算法漏洞的分析,以及產生更健壯學習的算法技術。
本教程將從網絡安全和機器學習研究領域中廣泛調查這些問題和技術。特別考慮了對抗性分類器規避(攻擊者改變行為以避免被檢測到)和訓練數據本身已損壞的問題。還討論了逃避攻擊和中毒攻擊,首先討論了分類器,然后討論了其他學習范例和相關的防御技術。然后,我們考慮用于攻擊和防御神經網絡的專門技術,特別是專注于深度學習技術及其對逆向構建實例的脆弱性。
組織者:
Bo Li是伊利諾伊大學香檳分校計算機科學系的助理教授。她的研究興趣在于對抗性的深度學習、安全性、隱私和博弈論。她開發并分析了可伸縮的健壯學習框架,用于在對抗規避攻擊的環境中學習算法。她還分析了物理世界中對抗學習算法的行為。她是賽門鐵克研究實驗室研究生獎學金的獲得者。她于2016年獲得范德比爾特大學博士學位。
Dawn Song是加州大學伯克利分校電氣工程和計算機科學系的教授。她的研究興趣在于深度學習和安全性。她研究了計算機系統和網絡中的各種安全和隱私問題,包括從軟件安全、網絡安全、數據庫安全、分布式系統安全、應用密碼學到機器學習和安全的交叉領域。她是獲得各種獎項,包括麥克阿瑟獎學金,古根海姆獎學金,NSF事業獎,斯隆研究獎學金,麻省理工學院技術評論TR-35獎,喬治Tallman Ladd研究獎,小川基金會研究獎,李嘉誠基金會女性在科學卓越系列講座獎,教師從IBM研究獎,谷歌和其他主要科技公司,從上會議最佳論文獎。她在加州大學伯克利分校獲得了博士學位。在加入加州大學伯克利分校之前,她曾于2002年至2007年在卡內基梅隆大學(Carnegie Mellon University)擔任助理教授。
Yevgeniy Vorobeychik是圣路易斯華盛頓大學計算機科學與工程學院的副教授。此前,他是桑迪亞國家實驗室的首席研究科學家。2008年至2010年,他是賓夕法尼亞大學計算機與信息科學系的博士后研究員。他獲得了密歇根大學的計算機科學與工程博士學位(2008)和碩士學位(2004),以及西北大學的計算機工程學士學位。他的工作重點是安全與隱私的博弈論建模,對抗機器學習,算法和行為博弈論和激勵設計,優化,基于代理的建模,復雜系統,網絡科學,流行病控制。Vorobeychik博士在2017年獲得了美國國家科學基金會職業成就獎,并受邀發表了ijcai16早期職業聚焦演講。他被提名為2008年ACM博士學位論文獎,并獲得了2008年IFAAMAS杰出論文獎的榮譽獎。
教程ppt下載鏈接: 鏈接://pan.baidu.com/s/1YDWJ2lFhiLRtNDpH4YyZLg 提取碼:ccra
教程題目:Computational Models for Social and Information Network Analysis
教程簡介:
在本教程中,系統地介紹了社會信息網絡的挖掘和學習,涉及的主題從個人到二元交互到群體集體到信息空間。將從微信的真實例子開始教程,解釋在線社交網絡如何影響我們的離線物理世界。然后,我們將全面介紹社會網絡分析的歷史和最新進展,包括用戶分析的方法和算法,用戶行為建模,社會關系和群體建模,影響和信息擴散的結構。并且介紹如何應用計算模型——圖形模型、深度學習和嵌入技術——來挖掘和學習網絡結構。本教程的獨特之處在于,它的目標是向讀者提供以下內容:社會網絡分析中的社會與圖論基礎、將社交網絡研究轉化為在線和移動應用的經驗,包括騰訊微信和游戲、阿里巴巴、XueTangX、AMiner和微軟學術。最后,本教程中介紹的所有工作都保證使用開放代碼,我們還將借此機會發布最大的開放學術圖,其中包含2億個節點和30億個鏈接,用于社會網絡分析。
大綱:
1.社會歷史和信息網絡分析
2.網絡中的社會影響
3.網絡表示學習
4.結論與問答(5分鐘)
組織者:
唐杰,清華大學計算機科學與技術學院教授,康奈爾大學、香港科技大學、南安普頓大學訪問學者。他的興趣包括社會網絡分析、數據挖掘和機器學習。他發表了200多篇期刊/會議論文,擁有20項專利,被引用次數超過1萬次。他是CIKM'16、WSDM'15、ASONAM'15、SocInfo'12的PC聯合主席,是2018年KDD的副主席,ACM TKDD的代理主編,IEEE TKDE/TBD和ACM TKDD/TIST的副主編。他領導的學術社交網絡分析和挖掘項目AMiner.org已經吸引了來自世界220個國家/地區的800多萬個獨立IP訪問。曾獲國家自然科學基金杰出青年學者獎、英國皇家學會-牛頓先進獎學金、牛頓先進獎學金、ACM SIGKDD服務獎。
題目: TextCube: Automated Construction and Multidimensional Exploration
簡介: 當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病歷和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定于領域的文本語料庫自動構建TextCube,并表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注于可擴展,弱監督,獨立于域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。
嘉賓介紹: 韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文600余篇。 韓家煒主頁://hanj.cs.illinois.edu/
Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注于以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。
題目: Machine Learning Meets Big Spatial Data
簡介: 生成數據量的激增推動了可伸縮的機器學習解決方案的興起,從而可以有效地分析此類數據并從中提取有用的見解。同時,近年來,空間數據已經變得無處不在,例如GPS數據。大空間數據的應用涉及廣泛的領域,包括跟蹤傳染病,模擬氣候變化,吸毒成癮等等。因此,通過提供對現有機器學習解決方案的空間擴展或從頭開始構建新的解決方案,人們付出了巨大的努力來支持這些應用程序內部的有效分析和智能。在這個90分鐘的教程中,我們全面回顧了機器學習和大空間數據交匯處的最新技術。我們涵蓋了機器學習三個主要領域中的現有研究工作和挑戰,即數據分析,深度學習和統計推斷,以及兩個高級空間機器學習任務,即空間特征提取和空間采樣。我們還強調了該領域未來研究中存在的開放性問題和挑戰。
嘉賓介紹: Ibrahim Sabek是明尼蘇達大學計算機科學與工程系的博士候選人。 他獲得了理學碩士學位。 他于2017年在同一部門獲得博士學位。他的研究興趣在于大空間數據管理,空間計算和可伸縮機器學習系統之間的交叉領域。 易卜拉欣已獲得ACM SIGSPATIAL 2018最佳論文獎的提名,并獲得了ACM SIGMOD學生研究競賽(SRC)2017決賽階段的資格。在博士期間,他與NEC Labs America和Microsoft Research(MSR)合作 )。 易卜拉欣在ACM TSAS,IEEE ICDE,ACM SIGSPATIAL,IEEE TMC等頂級研究機構發表了許多論文,并在VLDB和ACM SIGMOD上展示了他的工作。
Mohamed F.Mokbel是卡塔爾計算研究所的首席科學家,也是明尼蘇達大學的教授。 他目前的研究興趣集中于大空間數據和應用程序的系統和機器學習技術。 他的研究工作已獲得VLDB十年最佳論文獎,四個會議最佳論文獎和NSF職業獎。 除了在其他社區的一線場所(包括IEEE ICDM和ACM CCS)的教程之外,穆罕默德還在VLDB / SIGMOD / ICDE / EDBT會議上提供了六篇教程。 這些教程都不會與本教程建議重疊。 穆罕默德(Mohamed)是ACM SIGPATIAL的當選主席,目前是分布式和并行數據庫期刊的主編,并且是ACM Books,ACM TODS,VLDB Journal,ACM TSAS和GoeInformatica期刊的編輯委員會成員。
題目: Adversarial Machine Learning
報告簡介: 近年來,機器學習在廣泛的行業和應用中獲得了驚人的普及。機器學習技術的許多應用本質上都是對抗性的。的確,對抗性使用遠遠超出了簡單的分類示例:對惡意軟件的分析將群集,異常檢測甚至自動駕駛車輛的視覺系統結合在一起,都可能受到攻擊。針對這些擔憂,出現了有關對抗性機器學習的新興文獻,既涵蓋了機器學習算法中的漏洞分析,又包括產生更強大學習的算法技術。本教程將調查來自網絡安全和機器學習研究領域的各種問題和技術。特別是,我們考慮了對抗性分類器和訓練數據本身已損壞的問題。我們首先討論分類器,然后討論其他學習范例,以及相關的防御技術,然后,我們考慮用于攻擊和防御神經網絡的專用技術。
嘉賓介紹: Bo Li是伊利諾伊大學香檳分校計算機科學系的助理教授。 她的研究興趣在于對抗性深度學習,安全性,隱私和博弈論。 她已經開發并分析了可擴展的健壯學習框架,用于在對抗環境中學習算法以應對逃避攻擊。 她還分析了物理世界中針對學習算法的對抗行為。
Yevgeniy Vorobeychik是圣路易斯華盛頓大學計算機科學與工程學院的副教授。此前,他是桑迪亞國家實驗室的首席研究科學家。2008年至2010年,他是賓夕法尼亞大學計算機與信息科學系的博士后研究員。他獲得了密歇根大學的計算機科學與工程博士學位(2008)和碩士學位(2004),以及西北大學的計算機工程學士學位。他的工作重點是安全與隱私的博弈論建模,對抗機器學習,算法和行為博弈論和激勵設計,優化,基于代理的建模,復雜系統,網絡科學,流行病控制。Vorobeychik博士在2017年獲得了美國國家科學基金會職業成就獎,并受邀發表了ijcai16早期職業聚焦演講。他被提名為2008年ACM博士學位論文獎,并獲得了2008年IFAAMAS杰出論文獎的榮譽獎。