題目: Visual Recognition and Beyond
報告簡介: 本教程涵蓋了視覺識別研究前沿的主題。 我們將討論來自圖像和視頻的實例級識別的最新進展,詳細介紹視覺識別任務系列中的最新工作。 講座涵蓋了圖像分類,視頻分類,對象檢測,動作檢測,實例分割,語義分割,全景分割和姿勢估計背后的方法和原理。
報告目錄:
嘉賓介紹:
Ross Girshick,是Facebook人工智能研究(FAIR)的一名研究科學家,致力于計算機視覺和機器學習。2012年,他在Pedro Felzenszwalb的指導下獲得了芝加哥大學的計算機科學博士學位。加入FAIR之前,羅斯曾在微軟研究院(Microsoft Research)、雷德蒙(Redmond)和加州大學伯克利分校(University of California, Berkeley)做研究員,他的興趣包括實例級別的對象理解和將自然語言處理與計算機視覺相結合的視覺推理挑戰。他獲得了2017年PAMI青年研究員獎,并以開發R-CNN(基于區域的卷積神經網絡)方法來檢測對象而聞名。2017年,還憑借《面具R-CNN》在ICCV獲得馬爾獎。
,斯坦福大學博士,導師是計算機視覺領域頂級學者李飛飛博士。研究興趣包括計算機視覺和機器學習方面,涉及到視覺推理、視覺和語言,以及使用深層神經網絡生成圖像。Johnson目前是Facebook AI Research的研究科學家。從2019年秋季開始,我將加入密歇根大學計算機科學與工程專業,擔任助理教授。Johnson在2018年夏天完成博士學位,其博士論文組成式視覺智能《Compositional visual intelligence》,195頁詳述采用組合式學習的方法對計算機視覺中圖像描述、視覺問答、文本圖像生成三方面的問題進行了研究,是組合式視覺智能的代表性研究工作。
報告題目:
Apollo, Open Autonomous Driving Platform
報告簡介:
Apollo(阿波羅)是最大的開放式自主駕駛平臺,由自主駕駛社區開發的全套H/W和S/W。我們將介紹阿波羅正在進行的研究,并討論未來的自主駕駛方向。我們將主要討論5個主題:感知、模擬、傳感器融合、定位和控制:1)感知:我們將回顧每個傳感器的優缺點,并討論使用這些傳感器可以實現哪些功能和自治級別。我們還將討論主要問題,以達到L4自主與相機。2)仿真:我們將演示基于游戲引擎的仿真,用于使用相機和激光雷達傳感器訓練和評估感知算法。3)傳感器融合:我們將介紹如何學習每個傳感器的先驗和置信函數,并使用Dempster-Shafer理論融合所有傳感器輸出。4)定位:我們將提出一種融合GNSS、IMU、攝像機和激光雷達的高精度定位算法。5)控制:我們還將解釋如何在規劃中進行多次迭代優化,并介紹一種基于學習的動態控制建模及其在仿真中的應用。
嘉賓介紹:
Tae Eun Choe博士,是百度感知的首席架構師。2007年,他在南加州大學獲得計算機科學博士學位。他的研究興趣包括三維重建、目標檢測和跟蹤、場景理解和視頻到文本。在ObjectVideo,他作為主要調查員領導了多個美國政府項目,包括自動場景理解(ONR SBIR)、多個移動目標的實時跟蹤(Army STTR)和感知、開發和執行數學(ONR BAA)項目。2016年2月,他加入特斯拉,開發并成功實現了自動駕駛儀視覺的商業化。他開發了在線攝像機校準、路徑預測和車道線檢測。從2017年9月起,他在百度美國公司領導阿波羅感知團隊。
Dr. Liang Wang,王亮博士是百度智能駕駛集團(IDG)感知團隊的首席架構師和技術負責人。在IDG,他的研究集中在計算機視覺、機器學習和機器人學的交叉點上,特別強調建立實時感知系統以實現L4自主性。在加入百度之前,他是微軟公司的研究員,在那里他致力于利用計算機視覺技術發明新型人機界面。王亮博士的研究方向包括目標檢測、多傳感器標定/融合、基于圖像的建模/繪制/定位、三維重建、運動結構(SFM)等,在國內外頂級期刊/會議上發表研究論文30余篇,被引用5000余條。
報告題目:
Visual Recognition of Families In the Wild
報告簡介:
親屬關系自動識別具有廣泛的應用價值。首先,協助法醫調查,因為親屬關系是一個強有力的線索,可以縮小搜索空間(例如,知道波士頓爆炸案是兄弟可能有助于更快地確定嫌疑人)。簡言之,這類技術可能帶來許多好處:消費者(例如,自動照片庫管理)、學者(例如,歷史血統和家譜研究)、數據分析儀(例如,基于社交媒體的分析)、調查員(例如,失蹤兒童和人口販運案件——例如,然而,在網上找到的失蹤兒童不太可能出現在任何數據庫中,甚至不太可能是難民。除了基于應用的問題之外,正如已經暗示的,親屬關系是一個強大的線索,可以作為一個人臉屬性,在更一般的人臉識別問題中,能夠大大減少搜索空間。有了我們的FIW數據庫,我們可以以比以往任何時候都大得多的規模提出這一相對較新和具有挑戰性的問題(例如,64.4萬對人臉的親屬關系驗證,而不是只有2000對,1000個家庭的家庭分類,而不是只有101個)。最后,我們也希望FIW能作為一個豐富的資源,進一步將基于人臉識別的問題的語義鴻溝與更廣泛的人機交互激勵聯系起來。
嘉賓介紹:
Joseph Robinson & Ming Shao,獲得電氣和計算機工程學士學位(2014年),并在東北大學(NEU)攻讀計算機工程博士學位,同時兼任兼職教師:設計和教授數據分析本科課程。研究方向是應用機器視覺,重點是人臉、深度學習、多媒體和大型數據庫。此前,帶領球隊首次亮相特雷維德(MED,獲得第三名最佳準確率)。此外,建立了許多圖像和視頻數據集,其中最引人注目的是FIW。擔任各種研討會和挑戰(如NECV17、RFIW@ACM-MM17、RFIW@FG18、AMFG@CVPR18、FacesMM@ICME18)、教程(ACM-MM18)、PC成員(如CVPR、FG、MIRP、MMEDIA、AAAI)、評審員(如IEEE Trans)的組織主席和主持人。在生物醫學電路和系統,圖像處理,模式分析和機器智能)和領導職位,如IEEE@NEU總裁和IEEE SAC R1地區的關系官員。完成了兩項NSF REUs(2010和2011);Analogic Corporation和BBN Technology的合作;在麻省理工學院林肯實驗室(2014)、系統與技術研究(2016和2017)、Snap Inc.(即Snapchat)(2018)和ISMConnect(2019)實習。
Ming Shao,Joseph Robinson
Ross在ICCV2019的通用物體檢測R-CNN框架教,詳實豐富
鏈接: //pan.baidu.com/s/1ZIeeEVgNREqSPaz32uETVw 提取碼: ygfh
Ross Girshick是Facebook人工智能研究院(FAIR)的一名研究科學家,致力于計算機視覺和機器學習的研究。2012年,他在Pedro Felzenszwalb的指導下獲得了芝加哥大學的計算機科學博士學位。加入FAIR之前,Ross曾在微軟研究院(Microsoft Research)、雷德蒙(Redmond)和加州大學伯克利分校(University of California, Berkeley)做研究員,并得到了Jitendra Malik和Trevor Darrell的建議。他的興趣包括實例級別的對象理解和將自然語言處理與計算機視覺相結合的視覺推理挑戰。他獲得了2017年PAMI青年研究員獎,并以開發R-CNN(基于區域的卷積神經網絡)方法來檢測對象而聞名。2017年,Ross還憑借《Mask R-CNN》與何愷明齊獲在ICCV獲得馬爾獎。 個人主頁:
簡介: 該研討會的主要目標是雙重的。 首先是對可視化問答和可視對話的進度進行基準測試。本次研討會的第二個目標是將對可視化問答,對話系統和語言感興趣的研究人員聚集在一起,以共享最新技術和未來方向。 除了邀請知名研究人員發表演講包括:視覺問題解答,視覺對話,(文字)問題解答,(文字)對話系統,常識性知識, 視覺+語言等。
部分嘉賓介紹: Christopher Manning,SAIL 新任負責人,Christopher Manning于1989年在澳大利亞國立大學取得三個學士學位(數學、計算機和語言學),并于 1994 年獲得斯坦福大學語言學博士學位。 他曾先后在卡內基梅隆大學、悉尼大學等任教,1999 年回到母校斯坦福,就職于計算機科學和語言學系,是斯坦福自然語言處理組(Stanford NLP Group)的創始成員及負責人。重返斯坦福之后,他一待就是 19 年。 Manning 的研究目標是以智能的方式實現人類語言的處理、理解及生成,研究領域包括樹形 RNN 、情感分析、基于神經網絡的依存句法分析、神經機器翻譯和深度語言理解等,是一位 NLP 領域的深度學習開拓者。他是國際計算機學會 (ACM)、國際人工智協會(AAAI)、國際計算語言學會(ACL)等國際權威學術組織的 Fellow,曾獲 ACL、EMNLP、COLING、CHI 等國際頂會最佳論文獎,著有《統計自然語言處理基礎》、《信息檢索導論》等自然語言處理著名教材。
Karl Moritz Hermann,DeepMind的研究科學家。 在此之前,曾擔任過Dark Blue Labs的首席執行官。 在進入行業之前,是牛津大學CLG的計算語言學和機器學習的博士后研究員,并在Stephen Pulman和Phil Blunsom的指導下完成了DPhil。 研究方向是ML和CL、 自然語言理解,并且正在嘗試通過對基礎語言習得的研究來在這一領域取得進展。
題目: Capsule Networks for Computer Vision
報告簡介: 膠囊網絡提供了一種有效的方法來建模實體之間的部分對整個關系,并允許學習視點不變表示。 通過這種改進的表示學習,膠囊網絡能夠在多個域中實現良好的性能,而參數數量卻大大減少。 最近,膠囊網絡已顯示出人類動作在視頻中的定位,醫學圖像中的對象分割以及文本分類的最新結果。 本教程將提供對膠囊網絡的基本了解,并且我們將討論其在各種計算機視覺任務中的使用,例如圖像分類,對象分割和活動檢測。
嘉賓介紹:
Mubarak Shah,計算機科學講座教授,UCF計算機視覺研究中心的創始主任。他的研究興趣包括:視頻監視,視覺跟蹤,人類活動識別,擁擠場景的視覺分析,視頻注冊,無人機視頻分析等。Shah博士是IEEE,AAAS,IAPR和SPIE的研究員。 2006年,他被授予飛馬教授獎,這是UCF的最高獎項。他是ACM杰出的演講者。他曾在1997-2000年擔任IEEE杰出訪客發言人,并于1997年獲得IEEE杰出工程教育家獎。他于1999年獲得了哈里斯公司的工程成就獎,并于1995、1997和2000年獲得了聯合國開發計劃署的TOKTEN獎; 1995年和2003年授予教學激勵計劃獎,2003年和2009年授予研究激勵獎,2005年和2006年授予百萬富翁俱樂部獎,2007年授予大學杰出研究員獎,并為2005年ICCV榮譽獎。挑戰問題,并在2005年ACM多媒體會議上獲得最佳論文獎提名。他是視頻計算國際叢書的編輯。 《機器視覺與應用》雜志主編,《 ACM計算調查》雜志副主編。他是IEEE Transactions on PAMI的副編輯,也是《國際計算機視覺視頻計算雜志》特刊的特約編輯。
Rawat博士是UCF計算機視覺研究中心的助理教授。他的研究興趣在于計算機視覺,機器學習,社交計算和多媒體的交叉領域。他于2012年至2017年在新加坡國立大學計算機學院獲得計算機科學博士學位,并在該大學的多媒體分析與綜合實驗室與Mohan Kankanhalli教授一起工作。他的博士論文致力于利用社交媒體和相機傳感器增強用戶的攝影體驗。它的重點是計算媒體美學和對用于攝影的社交媒體圖像的分析。他于2017-2019年在UCF計算機視覺研究中心與Mubarak Shah教授進行了博士后培訓。他于2009年在瓦拉納西IIT-BHU印度理工學院獲得了計算機科學與工程學士學位。在2012年夏季加入NUS之前,他曾于2009年至2012年在印度Mentor Graphics的Praveen Shukla工作。在Veloce Emulation團隊工作。他是乒乓球愛好者,并且在這項運動中贏得了許多獎牌。