【導讀】CVPR 2021最佳論文各獎項公布了:來自德國馬普智能所德國馬普智能所等獲最佳論文,何愷明等獲最佳論文提名。
最佳論文獎
深度生成模型允許在高分辨率下合成照片級真實感圖像。但是對于許多應用來說,這還不夠:內容創造還需要做到可控才行。雖然最近有幾項研究探討了如何解開數據中潛在的變化因素,但大多數研究都是在二維空間中進行的,而忽略了我們的世界是三維的。此外,只有少數研究工作考慮到了場景的組合性質。
本文的關鍵假設是——將合成的三維場景表示合并到生成模型中會導致更可控的圖像合成。將場景表示為合成生成的神經特征場,使我們能夠從背景中分離出一個或多個目標以及單個目標的形狀和外觀,同時在無需任何額外的監督下從非結構化和未使用的圖像集合中進行學習。
將這種場景表示與神經渲染 pipeline 相結合,就可以得到一個快速而逼真的圖像合成模型。本文的實驗證明,我們所提出的模型能夠分離單個目標物體,并允許在場景中平移和旋轉它們以及改變相機姿勢。
論文地址:
//www.zhuanzhi.ai/paper/500de8ca500d7c3d3c0b74a75c7a692a
最佳論文榮譽提名獎
1、《Exploring Simple Siamese Representation Learning》
在無監督視覺表征學習的各種最新模型中,孿生網絡已經成為一種常見的結構。這些模型在避免某些方案崩潰的某些條件下,可以使一個圖像的兩次增強之間的相似度最大化。在本文中,作者報告了令人驚訝的經驗結果,即使用簡單的孿生網絡即使不使用以下任何一項也可以學習有意義的表示形式:(i)負樣本對,(ii)大批量,(iii)動量編碼器。我們的實驗表明,對于損失和結構確實存在崩潰解,但是停止梯度操作在防止崩潰方面起著至關重要的作用。作者提供了關于停止梯度含義的假設,并進一步顯示了驗證它的概念驗證實驗。本文的孿生網絡方法在ImageNet和下游任務上取得了競爭性結果。作者希望這個簡單的基準將激勵人們重新思考孿生體系結構在無監督表示學習中的作用。
論文地址:
2、《Learning High Fideity Depths of Dressed Humans by Wathing Socail Media Dance Videos》
學習穿戴人體幾何的一個關鍵挑戰在 ground truth 實數據(如三維掃描模型)的有限可用性,這導致三維人體重建在應用于真實圖像時性的能下降本文們通過利用一個新的數據資源來應對這一挑戰:大量社交媒跳舞蹈視——,涵蓋了不同的外觀、服裝風格、表演和身份。每一個視頻都描述了一個人的身體和衣服的動態運動,但缺乏3 ground truth實幾何圖形.
為了很好地利用這些視頻,本文提出了一種新的方法來使用局部變換,即將預測的局部幾何體從一幅圖像在不同的時刻扭曲到另一幅圖像。這使得自監督學習對預測實施時間一致性。此外,我們還通過最大化局部紋理、褶皺和陰影的幾何一致性,共同學習深度以及對局部紋理、褶皺和陰影高度敏感的曲面法線。
另外本文的方法是端到端可訓練的,能產生高保真深度估計來預測接近于輸入的真實圖像的精確幾何。本文證明了我們提出的方法在真實圖像和渲染圖像上都優于 SOTA 人體深度估計和人體形狀恢復方法。
論文地址:
最佳學生論文獎
為了更準確的標注數據集,具備該領域的專業知識是必要的,但這可能意味專家們將承擔大量繁重和耗時的工作。這個問題在自動行為分析(automated behavior analysis)中尤為突顯。例如,從視頻跟蹤數據中檢測智能體運動或動作。
為了減少注釋的工作量,我們基于多任務自監督學習,提出了一種用于行為分析的有效軌跡嵌入方法—TREBA。利用該方法專家們可以通過“任務編程”過程來有效地設計任務,即使用程序編碼將領域專家的知識結構化。通過交換數據注釋時間來構造少量編程任務,可以減少領域專家的工作量。我們使用行為神經科學領域的數據集評估了該方法,通過小鼠和果蠅兩個領域內三個數據集的測試,實驗結果表明:通過使用TREBA的嵌入,注釋負擔減少了10倍。該研究結果表明,任務規劃和自監督是減少領域專家注釋工作量的有效方法。
論文地址:
最佳學生論文提名獎
標題: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling 鏈接: code: 圖片
規范的視頻和語言學習方法(例如,視頻問答)規定了一個神經模型,可以從視覺模型的離線提取的密集視頻功能和語言模型的文本功能中學習。這些特征提取器是經過獨立訓練的,通常在與目標域不同的任務上進行訓練,使這些固定特征對于下游任務而言不是最理想的。此外,由于密集視頻特征的高計算量,通常難以(或不可行)將特征提取器直接插入現有方法中以進行微調。為了解決這一難題,本文提出了一個通用框架CLIPBERT,該框架通過使用稀疏采樣(僅使用一個視頻中的一個或幾個稀疏采樣的短片)來實現可負擔的視頻和語言任務的端到端學習。
Time-to-contact (TTC),即物體與觀察者的水平碰撞時間,它是一個強大的路徑規劃工具:擁有比場景中物體的深度、速度和加速度更豐富的信息。TTC的最大優點是只需要一個單目的、未校準的攝像機。不過,回歸每個像素的TTC并不容易,現有的大多數方法對場景的假設都過于簡化。
本文通過一系列簡單的二元分類(binary classifications)來估計TTC,從而解決了這個難題。我們以較低的延遲預測觀察者是否會在一定時間內與障礙物相撞,這通常比精確每個像素的TTC更為關鍵。針對這種情況,我們的方法在6.4毫秒內提供了一個臨時地理圍欄(geofence)——它比現有方法快25倍多。
在計算預算允許的條件下,該方法也可以用任意精細量化(包括連續值)來估計單個像素的TTC。據我們所知,它是第一個在足夠高的幀速率下為實際使用提供TTC信息(二進制或粗略量化)的方法。
本文介紹了一種實時、高分辨率的背景更換技術,該技術可以在GPU上以30fps速度運行4K分辨率和以60fps的速度運行高清分辨率。我們的技術基于背景消光(background matting),通過一個額外的背景幀來恢復alpha蒙版和前景層。該技術最大的挑戰是計算一個高質量的alpha蒙版,即在實時處理高分辨率圖像的同時保留頭發的細節。
為了實現這一目標,我們采用了兩種神經網絡;一個是基礎網絡計算,二是低分辨率的結果,這個結果由第二個網絡在高分辨率的選擇性補丁上進行細化。我們介紹了兩個大規模的視頻和圖像摳圖數據集:VideoMatte240K和PhotoMatte13K/85。實驗證明,該方法與其他現金的背景摳圖模型相比,產生了更高質量結果相比,同時顯著提高了運行速率和分辨率。
SIGIR是人工智能領域智能信息檢索方向最權威的國際會議。最新組委會公布了一系列最佳論文。其中來自荷蘭Radboud大學-Harrie Oosterhuis獨自署名的論文獲得最佳論文,山東大學聶禮強組獲得最佳學生論文。
第44屆國際計算機學會信息檢索大會(The 44rd International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以線上會議形式召開。這次會議共收到720篇長文投稿,僅有151篇長文被錄用,錄用率約21%。
最佳論文
Computationally Efficient Optimization of Plackett-Luce Ranking Models for Relevance and Fairness
Harrie Oosterhuis
地址: //www.zhuanzhi.ai/paper/8115d7d2f9546fdb76d900da6c5ebee6
最近的研究提出了隨機Plackett-Luce (PL)排序模型,作為優化相關性和公平性指標的穩健選擇。與需要啟發式優化算法的確定性模型不同,PL模型是完全可微的。理論上,它們可以通過隨機梯度下降來優化排序指標。然而,在實踐中,梯度的計算是不可行的,因為它需要迭代所有可能的項目排列。因此,實際應用依賴于通過采樣技術來近似梯度。本文介紹了一種新的PL- rank算法,它估計了PL排序模型的相關度和公平性。與基于策略梯度的現有方法不同,PL- rank利用了PL模型和排名度量的特定結構。我們的實驗分析表明,PL-Rank比現有策略梯度具有更大的樣本效率和更低的計算代價,從而在更高的性能下更快地收斂。PL- rank進一步使行業能夠將PL模型用于更相關和更公平的現實排序系統。
最佳學生論文
圖像-文本檢索是信息檢索的基礎和關鍵分支。盡管在銜接視覺和語言方面取得了很大進展,但由于模態內推理和跨模態對齊的困難,這仍然是一個挑戰。現有的模態交互方法在公共數據集上取得了令人印象深刻的效果。然而,他們在交互模式的設計上嚴重依賴于專家經驗和經驗反饋,因此缺乏靈活性。針對這些問題,我們提出了一種新的基于路由機制的模態交互建模網絡,這是第一個統一的、動態的多模態交互框架用于圖像-文本檢索。特別的是,我們首先設計了四種類型的細胞作為基本單元,探索不同層次的形態相互作用,然后將它們密集地連接起來,構建一個路徑空間。為了使模型具有路徑決策的能力,我們在每個單元中集成了一個動態路由器來進行模式探索。由于路由器以輸入為條件,我們的模型可以動態學習不同數據的激活路徑。在Flickr30K和MS-COCO兩個基準數據集上的大量實驗,驗證了我們的模型與幾個最先進的基準相比的優越性。
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
【導讀】第28屆ACM國際多媒體會議(ACM MM)于2020年10月12日至16日在線舉行。剛剛,包括最佳論文,最佳學生論文,最佳demo, 最佳開源軟件在內的所有多媒體領域大獎都已出爐。
ACM國際多媒體會議(ACM International Conference on Multimedia, 簡稱自1993年首次召開以來,ACMMM每年召開一次,已經成為多媒體領域頂級會議,也是中國計算機學會推薦的A類國際學術。會議熱門方向有大規模圖像視頻分析、社會媒體研究、多模態人機交互、計算視覺、計算圖像等等。
最佳論文
標題:PiRhDy: Learning Pitch-, Rhythm-, and Dynamics-aware Embeddings for Symbolic Music (學習考慮音高、節奏和動態的符號音樂嵌入)
作者:Hongru Liang, Wenqiang Lei, Paul Yaozhu Chan, Zhenglu Yang, Maosong Sun, Tat-Seng Chua
摘要:目前,確定性嵌入仍然是計算音樂學中符號音樂深度學習的基本挑戰之一。與自然語言類似,音樂可以被建模為token序列,這促使大多數現有的解決方案探索利用文本嵌入模型來構建音樂嵌入。然而,音樂與自然語言有兩個關鍵的區別:(1)音樂token是多面性的,它包含了音高、節奏和動態信息;(2)音樂上下文是二維的——每個音樂token都依賴于旋律上下文和和聲上下文。在這項工作中,我們提供了一個全面的解決方案,方案包含一個名為PiRhDy的新框架,它無縫地集成了音高、節奏和動態信息。PiRhDy采用一種層次化的策略,它可分解為兩個步驟: (1) token(即音符事件)建模,分開表示音高、節奏和動態,并將它們集成為單個token; (2)上下文建模,利用旋律和和聲知識訓練token嵌入。我們對PiRhDy的各組成部分和子策略進行了深入研究,并在三個下游任務中進一步驗證了嵌入的效果——旋律完成、伴奏建議和類型分類。研究結果表明PiRhDy是符號音樂神經方法的重要進展,也展現出PiRhDy作為廣泛的符號音樂應用預訓練模型的潛力。
論文地址: //dl.acm.org/doi/abs/10.1145/3394171.3414032
最佳學生論文
標題:Learning from the Past: Meta-Continual Learning with Knowledge Embedding for Jointly Sketch, Cartoon, and Caricature Face Recognition(從過去學習: 面向素描、卡通和漫畫人臉聯合識別的知識嵌入元持續學習)
作者: Wenbo Zheng, Lan Yan, Feiyue Wang, Chao Gou
摘要:本文面向一個從不同模態學習的挑戰性任務,解決了針對抽象素描、卡通、漫畫和真實照片的人臉聯合識別問題。由于抽象人臉的顯著差異,建立視覺模型來識別來自這些模式的數據是一項極具挑戰性的工作。我們提出了一個新的框架,稱為知識嵌入元持續學習,以解決素描,卡通和漫畫的人臉聯合識別任務。特別地,我們首先提出了一個深度關系網絡來捕獲和記憶不同樣本之間的關系。其次,我們展示了知識圖的構建,它將圖像和標簽聯系起來,作為元學習者的指導。然后,我們設計了一個知識嵌入機制,以納入知識表示到我們的網絡。最后,為了減輕災難性遺忘,我們使用元連續模型,更新我們的集成模型,提高其預測精度。使用這種元連續模型,我們的網絡可以從過去學習。最后的分類是我們的網絡通過學習比較樣本的特征而獲得的。實驗結果表明,與其他先進的方法相比,我們的方法獲得了更高的性能。
論文地址:
杰出論文獎
論文1:On Learning Sets of Symmetric Elements
論文地址://arxiv.org/pdf/2002.08599.pdf
論文作者:Haggai Maron(英偉達研究院)、Or Litany(斯坦福大學)、Gal Chechik(英偉達、以色列巴伊蘭大學)、Ethan Fetaya(以色列巴伊蘭大學)
從無序集合中學習是一種基本的學習設置,最近這引起了越來越多的關注。這一領域的研究集中于用特征向量表示集合元素的案例,很少關注集合元素本身即遵循其自身對稱性的常見情況。而后者與大量應用具備相關性,如圖像去噪、多視圖 3D 形狀識別與重建等。
這篇論文提出了一種原則性方法來學習一般對稱元素的集合。研究者首先描述了線性層的空間。線性層與元素重排序和元素的內在對稱性具備等變性。
該研究進一步表明,由被稱為 Deep Sets for Symmetric elements layers (DSS) 的層構成的網絡是不變函數和等變函數的通用逼近器。此外,DSS 層很容易實現。
最后,研究者用一系列使用圖像、圖以及點云的實驗,證明該方法比現有的集合學習架構有所改進。
論文2:Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems
論文地址:
論文作者:Kaixuan Wei(北理工)、Angelica Aviles-Rivero(劍橋大學)、Jingwei Liang(劍橋大學)、Ying Fu(北理工)、Carola-Bibiane Schnlieb(劍橋大學)、Hua Huang(北理工)
即插即用(PnP)是將 ADMM 或其他近端算法與高級去噪先驗結合的非凸(non-convex)框架。近來,PnP 取得了巨大的實驗成功,特別是集成了基于深度學習的去噪器。但是,基于 PnP 的方法存在一個關鍵的問題:這些方法需要手動調參。此類方法必須在成像條件和場景內容具備高度差異的情況下獲得高質量結果。
該研究提出了一種免調參的 PnP 近端算法,支持自動設置內部參數,包括懲罰參數、去噪強度以及終止時間。該方法的核心部分是開發一個用于自動搜索參數的策略網絡,該網絡能夠通過混合無模型和基于模型的深度強化學習來高效地學習參數。
研究人員通過數值和視覺實驗表明,該方法學到的策略能夠為不同的狀態定制不同的參數,并且比現有的手動調參更加高效。
此外,該研究還探討了插入式去噪器,它和學得策略一起可達到 SOTA 結果,在線性和非線性的示例逆成像問題中皆是如此,尤其是在壓縮感知 MRI 和相位恢復問題上都取得了不錯的結果。
個人主頁:
另外,這篇論文的第一作者魏愷軒目前就讀于北京理工大學,是一名研二學生。研究興趣為圖像處理、計算機視覺、計算攝影學、計算成像學,在 NEUCOM、CVPR、ICML 等會議上發表論文。
杰出論文榮譽提名獎
本屆杰出論文榮譽提名獎授予了兩篇論文,分別是帝國理工學院、圣彼得堡國立大學等研究者的《Efficiently sampling functions from Gaussian process posteriors》和 OpenAI 研究者的《Generative Pretraining from Pixels》。
論文 1:Efficiently sampling functions from Gaussian process posteriors
論文地址:
論文作者:James T. Wilson(帝國理工學院) 、Viacheslav Borovitskiy(圣彼得堡國立大學)、Alexander Terenin(帝國理工學院)、Peter Mostowsky(圣彼得堡國立大學)、Marc Peter Deisenroth(倫敦大學學院)
該研究發現了一種高斯過程(Gaussian process)分解形式,該分解通過從數據中分離出先驗,從而自然地進行可擴展采樣。在這種因式分解的基礎上,研究者提出了一種易用且通用的快速后驗采樣方法,該方法可以無縫匹配稀疏近似,從而在訓練和測試階段保證可擴展性。
該研究進行了一系列實驗,表明只需要通常成本的一部分即可利用解耦采樣路徑準確地表示高斯過程后驗。
論文 2:Generative Pretraining From Pixels
論文地址:
論文作者:Mark Chen、Alec Radford、Rewon Child、Jeff Wu、Heewoo Jun、Prafulla Dhariwal 、David Luan、Ilya Sutskever(均來自 OpenAI)
受自然語言無監督表示學習進展的啟發,OpenAI 的研究者探究了類似模型是否可以學習圖像的有用表示。具體來說,OpenAI 推出了用于圖像分類的模型 iGPT,并發現該模型似乎能夠理解物體外觀和類別等 2D 圖像特征。那么,iGPT 緣何能夠成功呢?這是因為,在下一像素預測(next pixel prediction)上訓練的足夠大的 transformer 模型最終可能學會生成具有清晰可識別物體的樣本。一旦學會了生成此類樣本,那么通過「合成分析」,iGPT 將知道目標類別。
實驗表明,iGPT 模型的特征在大量的分類數據集上實現了當前 SOTA 性能,以及在 ImageNet 數據集上實現了接近 SOTA 的無監督準確率。
最佳論文:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
最佳論文提出了一種無需外部監督即可從原始單視圖圖像中學習3D變形對象的方法。該方法基于自動編碼器,該自動編碼器將每個輸入圖像分解為深度,反射率,視角和照明。為了在無監督的情況下解構這些組件,作者使用了以下事實:許多對象類別至少在原則上具有對稱結構。
作者通過光照的推理來利用底層對象的對稱性,即使外觀由于陰影而不對稱。接著通過預測對稱概率圖來建模可能(但不一定)對稱的對象,并與模型的其他組件聯合起來進行端到端的學習。實驗表明該方法可以從單視圖圖像中非常準確地恢復人臉,貓臉和汽車的3D形狀,而無需任何監督或預先設定的形狀模型。
最佳論文一作Shangzhe Wu,是來自牛津大學視覺幾何組的二年級學生,由 Andrea Vedaldi 教授指導獲得了 Facebook 研究所的全額獎學金。在 HKUST 讀本科期間,曾與Chi-Keung Tang教授和Yu-Wing Tai 教授合作研究圖像翻譯 / 生成,現在主要的研究方向為無監督 / 自監督的3D 理解。Shangzhe Wu曾于2017年11月 -2018年2月,在騰訊優圖實驗室做機器學習實習生。
最佳學生論文: BSP-Net: Generating Compact Meshes via Binary Space Partitioning BSP-Net:通過二叉空間分割生成緊湊網絡
這篇論文的角度十分新穎,從多邊形網格入手,基于計算機圖形學的經典空間數據結構Binary Space Partitioning(BSP)來設計了一個BSP-Net。這個網絡可通過凸分解來學習表示3D形狀,并且不受監督,因此訓練不需要進行凸形分解。BSP-Net的重建質量有很大的優勢,并且很容易能夠進行參數設置。
論文一作是來自Simon Fraser University的博士一年級學生Zhiqin Chen,師從張皓教授,從事計算機圖形學相關的研究,主要研究方向是幾何建模和機器學習。Chen于2017年從上海交通大學本科畢業,于2019年從Simon Fraser University碩士畢業。