徐宗本院士在SIGIR2020的演講,突破機器學習前提的瓶頸,非常硬核,值得學習
徐宗本
西安交通大學教授、陳嘉庚獎獲得者、中國科學院院士
徐宗本教授發表了280余篇關于非線性功能分析,優化,機器學習和大數據研究的學術論文,其中大部分在國際期刊上。他目前的研究興趣包括用于大數據分析,機器學習和數據科學的數學理論和基本算法。徐教授獲得了許多學術獎項,例如,國家自然科學獎(2007年),國家科學技術進步獎(2011年),CSIAM Su Buchin應用數學獎(2008年)和Tan Kah Kee科學獎(信息技術科學,2018年)。應大會委員會的邀請,他在國際數學家大會(ICM 2010)上發表了45分鐘的演講。2011年當選為中國科學院院士。徐宗本院士在7月27日即主會議的首日下午,圍繞“關于機器學習的前提:一個元理論”帶來主題演講。
關于機器學習的前提:一個元理論
機器學習(ML)運行和應用的前提是一系列的前提,這些前提既是AI的巨大成功,也是ML進一步發展的瓶頸。這些前提包括: (一)數據集上損失函數的獨立性假設(假設i); (二)假設空間上的大容量假設,包括解(假設二); (三) 訓練數據高質量的完備性假設(假設三);歐幾里得關于分析框架和方法的假設(假設四)。
在這次演講中,我們報告了我的團隊在如何突破ML的這些預設并推動ML的發展方面所做的努力和取得的進展。對于假設I,我們引入噪聲建模原理,根據數據樣本的分布自適應地設計ML的損失函數,從而為實現ML的健壯性提供了一種通用的方法。對于假設二,我們提出了模型驅動的深度學習方法來定義深度神經網絡(DNN)的最小假設空間,這不僅產生了非常高效的深度學習,而且為DNN的設計、解釋和與傳統的基于優化的方法聯系提供了一種新的方法。對于假設三,我們開發了公理課程學習框架,從一個不完整的數據集,由易到難,一步一步地學習模式,從而為處理非常復雜的不完整數據集提供了可行的方法。最后,對于假設IV,我們引入一般的巴拿赫空間幾何,特別是徐羅奇定理,作為對ML問題進行非歐幾里得分析的可能有用的工具。在每個案例中,我們都提出了其思想、原理、應用實例和文獻。
現代機器學習有兩個明顯的特點:它可以非常強大,也可以非常脆弱。前者不需要贅述。后者指的是現代機器學習算法的性能敏感地依賴于超參數的選擇。這個演講集中在機器學習的連續公式是“適定的”。我們將機器學習和相關的優化過程描述為表現良好的變分問題和類偏微分問題,并證明一些最流行的現代機器學習算法可以作為這些連續問題的離散化恢復。實驗結果表明,該方法對不同的超參數選擇具有更強的魯棒性。我們還討論了如何在這個框架下開發新的算法。
邢波(卡內基梅隆大學機器學習系副主任)的這場talk是一場非常insightful的報告,這場報告的主要點是圍繞我們能不能像當年麥克斯韋統一電磁學一樣來只用幾個方程式就能統一現在眾多的ML/AI算法。最后給出了展望:進入這個ML/AI領域的人不必是專家,或者對這方面有豐富知識的人,他們可以從一個最簡單的equation開始,然后不斷的向上加東西,就像玩樂高一樣,然后創造出非常好的,有用的結果。
摘要: 在處理從數據實例、知識、約束、獎勵、對手到不斷增長的任務范圍內的終身相互作用的廣泛經驗中,當代ML/AI研究已經產生了數以千計的模型、學習范例、優化算法,更不用說無數的逼近啟發式、調優技巧、黑箱神諭,以及以上所有這些的組合。這些成果在推動該領域快速發展的同時,也使得對現有ML技術的全面掌握變得越來越困難,使ML/AI產品的標準化、可重復使用、可重復、可靠和可解釋的實踐以及進一步開發的成本變得非常高,如果可能的話。在這篇演講中,我們從損失、優化求解器和模型架構等方面,給出了一個簡單而系統的ML藍圖,為學習提供了一個統一的數學公式與所有的經驗和任務。該藍圖提供了對各種ML算法的整體理解,指導使用ML以可組合和機械的方式創建問題解決方案,以及用于理論分析的統一框架。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。
傳感器和移動設備的最新進展使城市軌道數據的可用性和收集量空前增加,從而增加了對更有效地管理和分析正在產生的數據的方法的需求。在本次綜述中,我們全面回顧了軌跡數據管理的最新研究趨勢,包括軌跡預處理、軌跡存儲、常用的軌跡分析工具,如查詢空間和空間文本的軌跡數據,以及軌跡聚類。我們還探討了四種密切相關的分析任務,它們通常用于交互式或實時處理的軌跡數據。并首次回顧了深度軌跡學習。最后,我們概述了軌道管理系統應具備的基本質量,以最大限度地提高靈活性。
題目: Causal Inference and Stable Learning
簡介:
在一個常見的機器學習問題中,使用一個根據訓練數據集估計的模型,根據觀察到的特征來預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常利用特征之間微妙的統計關系,這使得它們在應用于測試數據時更容易出現預測錯誤,因為測試數據的分布與訓練數據的分布不同。對于學術研究和實際應用來說,如何建立穩定、可靠的學習模型是至關重要的。因果推理是一種強大的統計建模工具,用于解釋和穩定的學習。因果推理是指基于某一效應發生的條件,對某一因果關系做出結論的過程。在本教程中,我們將重點討論因果推理和穩定學習,旨在從觀察數據中探索因果知識,以提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推理,并介紹一些最近的數據驅動的方法來估計因果效應的觀測數據,特別是在高維設置。摘要為了彌補因果推理與機器學習在穩定學習上的差距,我們首先給出了學習算法的穩定性和魯棒性的定義,然后介紹了一些最近出現的穩定學習算法,以提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來方向,并為穩定學習提供基準。
邀請嘉賓:
張潼,香港科技大學計算機科學與數學教授。此前,他是羅格斯大學(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和騰訊(Tencent)工作。張潼的研究興趣包括機器學習算法和理論、大數據統計方法及其應用。他是ASA和IMS的研究員,曾在主要機器學習期刊的編委會和頂級機器學習會議的項目委員會任職。張潼在康奈爾大學獲得數學和計算機科學學士學位,在斯坦福大學獲得計算機科學博士學位。
崔鵬,清華大學計算機系長聘副教授,博士生導師。2010年于清華大學計算機系獲得博士學位。研究興趣包括社會動力學建模、大規模網絡表征學習以及大數據驅動的因果推理和穩定預測。近5年在數據挖掘及人工智能領域高水平會議和期刊發表論文60余篇,曾5次獲得頂級國際會議或期刊論文獎,并先后兩次入選數據挖掘領域頂級國際會議KDD最佳論文專刊。目前擔任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等國際期刊編委。曾獲得國家自然科學二等獎、教育部自然科學一等獎、電子學會自然科學一等獎、CCF-IEEE CS青年科學家獎、ACM中國新星獎。入選中組部萬人計劃青年拔尖人才,并當選中國科協全國委員會委員。
報告主題: 數據高效性機器學習
報告摘要: 深度學習的最新進展已成功實現了醫學圖像分析(包括病變分割和分類)方面的最新技術。 但是,深度神經網絡(DNN)需要大量帶有高質量注釋的訓練數據,而這些注釋在醫學圖像領域是不可用或昂貴的。 此外,黑匣子深度學習算法缺乏可解釋性,并限制了它們在醫學診斷中的應用。在本演講中,將介紹我們的一系列研究,其中包括:1)一種數據有效方法,該方法將領域知識作為強大的先驗知識整合到了病變分割任務的深度學習框架中。 2)為有效訓練生成代表數據樣本的增強策略,其中基于DNN的當前狀態以主動方式擴展和更新訓練數據集
邀請嘉賓: 英國皇家工程院院士、歐洲科學院院士、英國帝國理工大學教授、香港浸會大學副校長。帝國理工學院Data Mining Research Group及 Discovery Sciences Group的領導者,倫敦E-Science研究中心首席科學家,英國InforSense有限公司董事會主席兼首席執行官,上海生物信息技術研究中心客座教授兼首席科學家。郭教授在云計算、數據挖掘、生物信息學方面的研究處于全球領先位置。1985年本科畢業于清華大學計算機系,1986年碩士畢業于清華大學計算機系,1993年博士畢業于帝國理工大學計算機系,留校工作5 年后就取得了帝國理工計算機系教授的職位。郭毅可教授是清華大學計算機系IV-VENTURE客座教授,上海市首批千人計劃入選者,也是中國計算機學會大數據專家委員會首批委員。
報告主題: 圖像的非監督增強匹配
報告摘要: 當前在使用深度神經網絡識別圖像時,需要標注大量圖像,而這需要耗費大量的人力和時間。為此我們嘗試解決下面問題:給定一些物體的標準圖像,對大量未標注的圖像實現自動的圖像標注。我們以文字識別和交通標示識別問題為例,設計了的新的方法。實驗結果表明我們較好的完成了這些圖像的自動標注。
邀請嘉賓: 清華大學張長水教授
報告主題:城市大腦與邊緣計算
報告摘要:城市大腦是智能城市的決策指揮系統,其決策信息來自于包括攝像頭等視頻傳感器在內的各種感知系統。與人的感知系統中視覺信息占比最大類似,目前監控攝像頭也是城市大腦的最大數據來源。以前,大多數交通監控系統是將攝像頭獲得原始圖像或視頻數據簡單壓縮后傳給城市各級數據中心存儲和處理,但數據利用效率較低。最近幾年,邊緣計算的概念出現后很多系統在攝像頭端進行對象識別或事件分析,由此形成的視頻結構化數據在一定程度上提升了檢索分析的效率,但對已有存量攝像機網絡系統升級帶來很大成本和工程壓力。本報告借鑒人類視覺系統進化歷史的分析,提出城市大腦與邊緣計算的分工與協調機制,使得城市大腦可以分步演進,兼顧攝像機網絡存量和新增市場,逐步達到城市大腦可使用的程度。
嘉賓簡介:中共黨員,遼寧省大連市人,現任中國工程院院士、北京大學教授、鵬城實驗室主任,中國計算機學會理事長,新一代人工智能產業技術創新戰略聯盟理事長,全國專業標準化技術委員會副主任,數字音視頻編解碼技術標準(AVS)工作組組長,國際電氣和電子工程師協會會士(IEEE Fellow)、美國計算機協會會士(ACM Fellow)。1979年至1982年,在哈爾濱科技大學學習(跳級一年),獲本科學位;1982年至1985年,在哈爾濱工業大學學習,獲碩士學位;1985年至1988年,在哈爾濱工業大學學習,獲博士學位;1988年至1991年,在日本東京大學學習,獲博士學位。1985年至1996年,在哈爾濱工業大學工作,被聘為助教、講師、教授,歷任計算機系主任、校長助理。1996年至2006年,在中國科學院所屬單位工作,被聘為研究員、教授、歷任中科院計算所副所長、所長、中科院研究生院常務副院長(2000年至2003年兼任中國科學技術大學副校長)。2006年至今,在北京大學工作,被聘為教授、博雅講席教授,任數字視頻編解碼技術國家工程實驗室主任。2011年當選中國工程院院士。曾任第十屆、十一屆、十二屆全國政協委員,國務院學科評議組計算機學科成員,計算機學報主編;2013年至2018年,在國家自然科學基金委員會工作,任自然科學基金委副主任。2018年至今,被聘為鵬城實驗室主任。曾一次獲得國家技術發明二等獎、五次獲得國家科技進步二等獎、一次獲得國家自然科學二等獎,獲得“2005中國十大教育英才”稱號和中國計算機學會王選獎。
主要從事人工智能應用和多媒體技術、計算機視覺、模式識別與圖像處理、虛擬現實方面的研究,主要著作有《數字視頻編碼技術原理》、《Advanced Video Coding Systems》等。在本領域國際期刊上發表論文200余篇,國際會議論文600余篇。