題目: Machine Learning Meets Big Spatial Data
簡介: 生成數據量的激增推動了可伸縮的機器學習解決方案的興起,從而可以有效地分析此類數據并從中提取有用的見解。同時,近年來,空間數據已經變得無處不在,例如GPS數據。大空間數據的應用涉及廣泛的領域,包括跟蹤傳染病,模擬氣候變化,吸毒成癮等等。因此,通過提供對現有機器學習解決方案的空間擴展或從頭開始構建新的解決方案,人們付出了巨大的努力來支持這些應用程序內部的有效分析和智能。在這個90分鐘的教程中,我們全面回顧了機器學習和大空間數據交匯處的最新技術。我們涵蓋了機器學習三個主要領域中的現有研究工作和挑戰,即數據分析,深度學習和統計推斷,以及兩個高級空間機器學習任務,即空間特征提取和空間采樣。我們還強調了該領域未來研究中存在的開放性問題和挑戰。
嘉賓介紹: Ibrahim Sabek是明尼蘇達大學計算機科學與工程系的博士候選人。 他獲得了理學碩士學位。 他于2017年在同一部門獲得博士學位。他的研究興趣在于大空間數據管理,空間計算和可伸縮機器學習系統之間的交叉領域。 易卜拉欣已獲得ACM SIGSPATIAL 2018最佳論文獎的提名,并獲得了ACM SIGMOD學生研究競賽(SRC)2017決賽階段的資格。在博士期間,他與NEC Labs America和Microsoft Research(MSR)合作 )。 易卜拉欣在ACM TSAS,IEEE ICDE,ACM SIGSPATIAL,IEEE TMC等頂級研究機構發表了許多論文,并在VLDB和ACM SIGMOD上展示了他的工作。
Mohamed F.Mokbel是卡塔爾計算研究所的首席科學家,也是明尼蘇達大學的教授。 他目前的研究興趣集中于大空間數據和應用程序的系統和機器學習技術。 他的研究工作已獲得VLDB十年最佳論文獎,四個會議最佳論文獎和NSF職業獎。 除了在其他社區的一線場所(包括IEEE ICDM和ACM CCS)的教程之外,穆罕默德還在VLDB / SIGMOD / ICDE / EDBT會議上提供了六篇教程。 這些教程都不會與本教程建議重疊。 穆罕默德(Mohamed)是ACM SIGPATIAL的當選主席,目前是分布式和并行數據庫期刊的主編,并且是ACM Books,ACM TODS,VLDB Journal,ACM TSAS和GoeInformatica期刊的編輯委員會成員。
機器學習暑期學校(MLSS)系列開始于2002年,致力于傳播統計機器學習和推理的現代方法。今年因新冠疫情在線舉行,從6月28號到7月10號講述了眾多機器學習主題。本文推薦來自帝國理工學院Michael Bronstein教授講述《幾何深度學習》,166頁ppt系統性講述了幾何深度學習基礎知識和最新進展,非常干貨。
地址: //mlss.tuebingen.mpg.de/2020/schedule.html
作者介紹 Michael Bronstein,倫敦帝國理工學院教授,Twitter 圖機器學習研究負責人,CETI 項目機器學習領導、Twitter 圖機器學習負責人、研究員、教師、企業家和投資者。
幾何深度學習
在過去的幾年,深度學習方法在多個領域取得了前所未有的成就,比如計算機視覺和語言識別。目前研究者主要將深度學習方法應用于歐氏結構數據,然而有些非常重要的應用需要處理非歐氏空間結構的數據,比如圖和流形。這些幾何數據在許多任務重的重要性越來越多高,比如3D視覺、傳感網絡、藥品研發、生物醫藥、推薦系統以及各種web程序。深度學習在這些方面的應用有著明顯的滯后,這是因為處理的對象的非歐性質使得在深層網絡中對其基本操作的定義相當麻煩。
本教程的目的是介紹幾何深度學習在圖和流形數據上的最新成果,并綜述針對這些問題的解決方法、關鍵難點和未來的研究方向。
教程題目:Adversarial Machine Learning
教程簡介:
近年來,機器學習在廣泛的行業和應用領域得到了顯著的普及。機器學習技術的許多應用本質上是對抗性的,因為其目標是將“壞的”實例與“好的”實例區分開來。事實上,對抗性的使用遠遠超出了這個簡單的分類示例:對惡意軟件的法醫分析,包括集群、異常檢測,甚至自動駕駛汽車上的視覺系統,都可能受到攻擊。針對這些問題,出現了一個關于對抗性機器學習的新興文獻,它涵蓋了對機器學習算法漏洞的分析,以及產生更健壯學習的算法技術。
本教程將從網絡安全和機器學習研究領域中廣泛調查這些問題和技術。特別考慮了對抗性分類器規避(攻擊者改變行為以避免被檢測到)和訓練數據本身已損壞的問題。還討論了逃避攻擊和中毒攻擊,首先討論了分類器,然后討論了其他學習范例和相關的防御技術。然后,我們考慮用于攻擊和防御神經網絡的專門技術,特別是專注于深度學習技術及其對逆向構建實例的脆弱性。
組織者:
Bo Li是伊利諾伊大學香檳分校計算機科學系的助理教授。她的研究興趣在于對抗性的深度學習、安全性、隱私和博弈論。她開發并分析了可伸縮的健壯學習框架,用于在對抗規避攻擊的環境中學習算法。她還分析了物理世界中對抗學習算法的行為。她是賽門鐵克研究實驗室研究生獎學金的獲得者。她于2016年獲得范德比爾特大學博士學位。
Dawn Song是加州大學伯克利分校電氣工程和計算機科學系的教授。她的研究興趣在于深度學習和安全性。她研究了計算機系統和網絡中的各種安全和隱私問題,包括從軟件安全、網絡安全、數據庫安全、分布式系統安全、應用密碼學到機器學習和安全的交叉領域。她是獲得各種獎項,包括麥克阿瑟獎學金,古根海姆獎學金,NSF事業獎,斯隆研究獎學金,麻省理工學院技術評論TR-35獎,喬治Tallman Ladd研究獎,小川基金會研究獎,李嘉誠基金會女性在科學卓越系列講座獎,教師從IBM研究獎,谷歌和其他主要科技公司,從上會議最佳論文獎。她在加州大學伯克利分校獲得了博士學位。在加入加州大學伯克利分校之前,她曾于2002年至2007年在卡內基梅隆大學(Carnegie Mellon University)擔任助理教授。
Yevgeniy Vorobeychik是圣路易斯華盛頓大學計算機科學與工程學院的副教授。此前,他是桑迪亞國家實驗室的首席研究科學家。2008年至2010年,他是賓夕法尼亞大學計算機與信息科學系的博士后研究員。他獲得了密歇根大學的計算機科學與工程博士學位(2008)和碩士學位(2004),以及西北大學的計算機工程學士學位。他的工作重點是安全與隱私的博弈論建模,對抗機器學習,算法和行為博弈論和激勵設計,優化,基于代理的建模,復雜系統,網絡科學,流行病控制。Vorobeychik博士在2017年獲得了美國國家科學基金會職業成就獎,并受邀發表了ijcai16早期職業聚焦演講。他被提名為2008年ACM博士學位論文獎,并獲得了2008年IFAAMAS杰出論文獎的榮譽獎。
教程ppt下載鏈接: 鏈接://pan.baidu.com/s/1YDWJ2lFhiLRtNDpH4YyZLg 提取碼:ccra
報告名稱: Deep Geometric Learning of Big Data and Applications
報告摘要: 深度學習技術在計算機視覺,自然語言處理和語音分析方面取得了令人印象深刻的性能。這些任務專注于位于歐幾里得域上的數據,并且針對這些域的數學工具(例如卷積,下采樣,多尺度和局部性)已得到明確定義,并受益于GPU等快速計算硬件。但是,許多基本數據和任務都涉及非歐幾里德領域,而這些領域最初并不是為深度學習方法設計的。例如計算機圖形學中的3D點云和3D形狀,大腦結構連接網絡中的功能性MRI信號,基因組學中基因調控網絡的DNA,量子化學中的藥物設計,高能物理中的中微子檢測以及常見的知識圖理解視覺場景。這一主要局限性促使近年來的研究界將神經網絡推廣到任意的幾何域,例如圖形和流形。卷積,粗化,多分辨率,因果關系等基本操作已通過頻譜和空間方法進行了重新定義。這些非歐氏數據分析問題的最新結果顯示了在許多領域中都有希望的令人振奮的新工具。
該研討會的目標是:1)召集數學家,機器學習科學家和領域專家,以建立這些新興技術的現狀; 2)討論用于分析這些新的深度學習技術的框架; 3)確立新的研究方向以及這些技術在神經科學,社會科學,計算機視覺,自然語言處理,物理學,化學中的應用,以及4)討論了GPU以外的適用于非歐幾里德領域的新計算機處理體系結構。
邀請嘉賓: Jure Leskovec,斯坦福大學計算機科學副教授。 研究重點是對大型社會和信息網絡進行挖掘和建模,它們的演化,信息的傳播以及對它們的影響。 調查的問題是由大規模數據,網絡和在線媒體引起的。
Stanley Osher,加州大學洛杉磯分校 IPAM 數學與計算機科學教授,電氣工程與化學和生物分子工程教授。
報告部分大綱:
報告主題:Syn-ergy of Data-base Tech-niques and Ma-chine Learn-ing Mod-els for String Sim-il-ar-ity Search and Join
報告摘要:字符串數據無處不在,字符串相似性搜索和連接對于信息檢索,數據集成,數據清理以及大數據分析的應用至關重要。為了支持這些操作,數據庫和機器學習領域中的許多技術已獨立提出。更確切地說,在數據庫研究領域,存在基于過濾和驗證框架的技術,這些技術不僅可以實現高性能,而且還可以為給定的相似度函數提供保證的結果質量。在機器學習研究領域中,字符串相似性處理被建模為識別相似文本記錄的問題。具體來說,深度學習方法使用將文本映射到低維連續向量空間的嵌入技術。 在本教程中,我們回顧了大量關于字符串相似性搜索的研究,并加入了這兩個研究領域。我們將每個領域的研究劃分為不同的類別。對于每個類別,我們都會對相關作品進行全面審查,并介紹這些解決方案的詳細信息。在結束本教程時,我們將為未來的工作指明可行的方向,以結合這兩個領域的技術。
邀請嘉賓: Lin Chunbin是Amazon Web Services(AWS)的軟件工程師,正在研究AWS Redshift。 于2018年在加利福尼亞大學圣地亞哥分校(UCSD)獲得計算機科學博士學位。研究興趣是數據庫管理和大數據管理。 他在SIGMOD,VLDB,VLDB J和TODS等上發表了20多篇期刊和會議論文。
陸嘉恒,芬蘭赫爾辛基大學的副教授。 他的主要研究興趣在于大數據管理和數據庫系統,尤其是對來自現實生活中的高效數據處理,海量數據存儲庫和Web的挑戰。 他撰寫了四本有關Hadoop和NoSQL數據庫的書,并在SIGMOD,VLDB,TODS和TKDE等上發表了70多篇期刊和會議論文。
Jin Wang是美國加州大學洛杉磯分校的四年級博士生。 在加入UCLA之前,他于2015年獲得清華大學計算機科學碩士學位。他的研究興趣主要在于數據管理和文本分析領域。 他在頂級會議和期刊(如ICDE,IJCAI,EDBT,TKDE和VLDB Journal)上發表了10多篇論文。
Chen Li,博士,加州大學歐文分校計算機科學系的教授。 擁有斯坦福大學計算機科學學位。 他的研究興趣是數據管理領域,包括數據密集型計算,查詢處理和優化,可視化以及文本分析。
主題:Deep Learning for Graphs: Models and Applications
摘要:圖提供了多種類型的數據的通用表示,而深度學習在表示學習方面顯示了巨大的能力。因此,用圖連接深度學習提供了機會,使各種現實世界問題的通用解決方案成為可能。然而,傳統的深度學習技術對常規網格數據(如圖像和序列)具有破壞性,因此不能直接應用于圖結構數據。因此,將這兩個領域結合起來面臨著巨大的挑戰。在本教程中,我將全面概述圖深度學習的最新進展,包括模型和應用。特別地,我將介紹一些基本概念,回顧最先進算法,并舉例說明各種重要的應用。最后,我將通過討論開放問題和挑戰來總結本教程。
嘉賓簡介:唐繼良(Jiang Tang)自2016年秋季@起擔任密歇根州立大學計算機科學與工程系的助理教授。在此之前,他是Yahoo Research的研究科學家,并于2015年從亞利桑那州立大學獲得博士學位。他的研究興趣包括社交計算,數據挖掘和機器學習及其在教育中的應用。他曾獲得2019年NSF職業獎,2015年KDD最佳論文亞軍和6項最佳論文獎,包括WSDM2018和KDD2016。他是會議組織者(例如KDD,WSDM和SDM)和期刊編輯(例如TKDD)。他的研究成果發表在高排名的期刊和頂級會議論文集上,獲得了數千篇引文(Google學術搜索)和廣泛的媒體報道。
主題: Safe and Fair Machine Learning
簡介:
在這個演講將討論一些我們的未來的工作在一個新的框架設計的機器學習算法,內容包括:1)使得算法的用戶更容易定義他們認為是不受歡迎的行為(例如,他們認為是不公平的,不安全,或者成本);2)提供了一個高信任度保證它不會產生一個解決方案,展示了用戶定義的不受歡迎的行為。
作者簡介:
Philip Thomas是馬薩諸塞大學安姆斯特分校信息與計算機科學學院助理教授,自主學習實驗室聯合主任。之前是卡內基·梅隆大學(CMU)的博士后,2015年,在馬薩諸塞州立大學阿默斯特分校(UMass Amherst)獲得了計算機科學博士學位。主要研究如何確保人工智能(AI)系統的安全性,重點是確保機器學習(ML)算法的安全性和公平性以及創建安全和實用的強化學習(RL)算法。
題目: Combating Fake News: A Data Management and Mining Perspective
簡介: 假新聞是對全球人民的主要威脅,導致人民對政府,新聞和公民社會的信任度下降。社交媒體和社交網絡在公眾中的流行引起了假新聞的蔓延,其中陰謀論,虛假信息和極端觀點盛行。發現假新聞并進行緩解是當今時代的基本問題之一,已引起廣泛關注。盡管事實調查網站(政府網站和大型公司,例如Google,Facebook和Twitter)已經采取了初步措施來解決假新聞,但仍有許多工作要做。本教程的目標是雙重的。首先,我們希望使數據庫社區熟悉其他社區在打擊假新聞方面的工作。我們提供相關領域的最新研究成果,包括檢測,傳播,緩解和干預假新聞。接下來,我們提供數據庫社區研究內容的摘要,并討論如何將其用于抵制假新聞。
嘉賓介紹:
Laks V.S. Lakshmanan是不列顛哥倫比亞大學計算機科學系的教授。 他是BC Advanced Systems Institute的研究員,并于2016年11月被任命為ACM杰出科學家。他的研究興趣涵蓋數據庫系統及相關領域的廣泛主題,包括:關系數據庫和面向對象的數據庫,OLAP和數據倉庫,數據庫挖掘,數據集成,半結構化數據和XML,信息和社交網絡及社交媒體,推薦系統和個性化。
Michael Simpson是不列顛哥倫比亞大學計算機科學系的博士后研究員。 他從維多利亞大學獲得博士學位。 他的研究興趣包括數據挖掘,社交網絡分析以及圖形問題的可伸縮算法設計。
Saravanan(Sara)Thirumuruganathan是HBKU QCRI數據分析小組的科學家。 他在德克薩斯大學阿靈頓分校獲得博士學位。 他對數據集成/清理和用于數據管理的機器學習廣泛感興趣。 Saravanan的工作已入選VLDB 2018/2012最佳論文,并獲得SIGMOD 2018研究重點獎。