ACM國際多媒體會議(ACM International Conference on Multimedia, 簡稱自1993年首次召開以來,ACMMM每年召開一次,已經成為多媒體領域頂級會議,也是中國計算機學會推薦的A類國際學術。會議熱門方向有大規模圖像視頻分析、社會媒體研究、多模態人機交互、計算視覺、計算圖像等等。
最佳論文
標題:Video Background Music Generation with Controllable Music Transformer(使用可控音樂轉換器進行視頻背景音樂生成)
作者:Shangzhe Di; Zeren Jiang, Si Liu*, Zhaokai Wang, Leyan Zhu, Zexin He, Hongming Liu, Shuicheng Yan
摘要:在本工作中,我們解決了視頻背景音樂生成的任務。以往的一些工作雖然實現了有效的音樂生成,但卻無法針對特定的視頻生成優美的音樂,也沒有考慮到視頻音樂的節奏一致性。為了生成與給定視頻匹配的背景音樂,我們首先建立視頻和背景音樂之間的節奏關系。特別地,我們將視頻中的定時、動作速度和動作顯著性分別與音樂中的節拍、模擬音符密度和模擬音符強度聯系起來。然后我們提出CMT,一個可控的音樂轉換器,使上述節奏特征的局部控制,以及音樂類型和用戶指定的使用樂器的全局控制。客觀和主觀的評價表明,生成的背景音樂與輸入視頻達到了滿意的適配性,同時音樂質量令人印象深刻。
論文地址: //dl.acm.org/doi/10.1145/3474085.3475195
最佳學生論文
標題:aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual Realit(一種主動雙嗅覺顯示器的研發及其與虛擬現實的結合)
作者: You-Yang Hu*, Yao-Fu Jan, Kuan-Wei Tseng, You-Shin Tsai, Hung-Ming Sung, Jin-Yao Lin, Yi-Ping Hung
摘要:在虛擬現實(VR)中加入嗅覺線索將增強用戶在虛擬環境中的沉浸感,而對嗅覺的精確控制將有助于用戶獲得更真實的體驗。在這篇論文中,我們提出了aBio,一個主動的雙嗅覺顯示系統,它將氣味精確地傳遞到特定的位置,而不是將氣味擴散到大氣中。aBio通過雙揚聲器渦旋發生器發射的兩個渦旋環碰撞,為用戶提供自由空氣中的自然嗅覺體驗,并具有緩沖空氣沖擊力的作用。根據不同應用的不同要求,渦流環的碰撞點可以定位在用戶鼻子前方的任意位置。為了驗證我們的設備的有效性,并了解用戶在使用系統中不同參數時的感受,我們進行了一系列的實驗和用戶研究。實驗結果表明,該系統在用戶感知氣味時不受觸覺干擾,且只消耗少量香精油,是一種有效的氣味感知系統。我們相信,通過高效地傳遞氣味,aBio有很大的潛力來提高虛擬現實的存在水平。
論文地址:
SIGIR是人工智能領域智能信息檢索方向最權威的國際會議。最新組委會公布了一系列最佳論文。其中來自荷蘭Radboud大學-Harrie Oosterhuis獨自署名的論文獲得最佳論文,山東大學聶禮強組獲得最佳學生論文。
第44屆國際計算機學會信息檢索大會(The 44rd International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以線上會議形式召開。這次會議共收到720篇長文投稿,僅有151篇長文被錄用,錄用率約21%。
最佳論文
Computationally Efficient Optimization of Plackett-Luce Ranking Models for Relevance and Fairness
Harrie Oosterhuis
地址: //www.zhuanzhi.ai/paper/8115d7d2f9546fdb76d900da6c5ebee6
最近的研究提出了隨機Plackett-Luce (PL)排序模型,作為優化相關性和公平性指標的穩健選擇。與需要啟發式優化算法的確定性模型不同,PL模型是完全可微的。理論上,它們可以通過隨機梯度下降來優化排序指標。然而,在實踐中,梯度的計算是不可行的,因為它需要迭代所有可能的項目排列。因此,實際應用依賴于通過采樣技術來近似梯度。本文介紹了一種新的PL- rank算法,它估計了PL排序模型的相關度和公平性。與基于策略梯度的現有方法不同,PL- rank利用了PL模型和排名度量的特定結構。我們的實驗分析表明,PL-Rank比現有策略梯度具有更大的樣本效率和更低的計算代價,從而在更高的性能下更快地收斂。PL- rank進一步使行業能夠將PL模型用于更相關和更公平的現實排序系統。
最佳學生論文
圖像-文本檢索是信息檢索的基礎和關鍵分支。盡管在銜接視覺和語言方面取得了很大進展,但由于模態內推理和跨模態對齊的困難,這仍然是一個挑戰。現有的模態交互方法在公共數據集上取得了令人印象深刻的效果。然而,他們在交互模式的設計上嚴重依賴于專家經驗和經驗反饋,因此缺乏靈活性。針對這些問題,我們提出了一種新的基于路由機制的模態交互建模網絡,這是第一個統一的、動態的多模態交互框架用于圖像-文本檢索。特別的是,我們首先設計了四種類型的細胞作為基本單元,探索不同層次的形態相互作用,然后將它們密集地連接起來,構建一個路徑空間。為了使模型具有路徑決策的能力,我們在每個單元中集成了一個動態路由器來進行模式探索。由于路由器以輸入為條件,我們的模型可以動態學習不同數據的激活路徑。在Flickr30K和MS-COCO兩個基準數據集上的大量實驗,驗證了我們的模型與幾個最先進的基準相比的優越性。
【導讀】第28屆ACM國際多媒體會議(ACM MM)于2020年10月12日至16日在線舉行。剛剛,包括最佳論文,最佳學生論文,最佳demo, 最佳開源軟件在內的所有多媒體領域大獎都已出爐。
ACM國際多媒體會議(ACM International Conference on Multimedia, 簡稱自1993年首次召開以來,ACMMM每年召開一次,已經成為多媒體領域頂級會議,也是中國計算機學會推薦的A類國際學術。會議熱門方向有大規模圖像視頻分析、社會媒體研究、多模態人機交互、計算視覺、計算圖像等等。
最佳論文
標題:PiRhDy: Learning Pitch-, Rhythm-, and Dynamics-aware Embeddings for Symbolic Music (學習考慮音高、節奏和動態的符號音樂嵌入)
作者:Hongru Liang, Wenqiang Lei, Paul Yaozhu Chan, Zhenglu Yang, Maosong Sun, Tat-Seng Chua
摘要:目前,確定性嵌入仍然是計算音樂學中符號音樂深度學習的基本挑戰之一。與自然語言類似,音樂可以被建模為token序列,這促使大多數現有的解決方案探索利用文本嵌入模型來構建音樂嵌入。然而,音樂與自然語言有兩個關鍵的區別:(1)音樂token是多面性的,它包含了音高、節奏和動態信息;(2)音樂上下文是二維的——每個音樂token都依賴于旋律上下文和和聲上下文。在這項工作中,我們提供了一個全面的解決方案,方案包含一個名為PiRhDy的新框架,它無縫地集成了音高、節奏和動態信息。PiRhDy采用一種層次化的策略,它可分解為兩個步驟: (1) token(即音符事件)建模,分開表示音高、節奏和動態,并將它們集成為單個token; (2)上下文建模,利用旋律和和聲知識訓練token嵌入。我們對PiRhDy的各組成部分和子策略進行了深入研究,并在三個下游任務中進一步驗證了嵌入的效果——旋律完成、伴奏建議和類型分類。研究結果表明PiRhDy是符號音樂神經方法的重要進展,也展現出PiRhDy作為廣泛的符號音樂應用預訓練模型的潛力。
論文地址: //dl.acm.org/doi/abs/10.1145/3394171.3414032
最佳學生論文
標題:Learning from the Past: Meta-Continual Learning with Knowledge Embedding for Jointly Sketch, Cartoon, and Caricature Face Recognition(從過去學習: 面向素描、卡通和漫畫人臉聯合識別的知識嵌入元持續學習)
作者: Wenbo Zheng, Lan Yan, Feiyue Wang, Chao Gou
摘要:本文面向一個從不同模態學習的挑戰性任務,解決了針對抽象素描、卡通、漫畫和真實照片的人臉聯合識別問題。由于抽象人臉的顯著差異,建立視覺模型來識別來自這些模式的數據是一項極具挑戰性的工作。我們提出了一個新的框架,稱為知識嵌入元持續學習,以解決素描,卡通和漫畫的人臉聯合識別任務。特別地,我們首先提出了一個深度關系網絡來捕獲和記憶不同樣本之間的關系。其次,我們展示了知識圖的構建,它將圖像和標簽聯系起來,作為元學習者的指導。然后,我們設計了一個知識嵌入機制,以納入知識表示到我們的網絡。最后,為了減輕災難性遺忘,我們使用元連續模型,更新我們的集成模型,提高其預測精度。使用這種元連續模型,我們的網絡可以從過去學習。最后的分類是我們的網絡通過學習比較樣本的特征而獲得的。實驗結果表明,與其他先進的方法相比,我們的方法獲得了更高的性能。
論文地址:
在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。
【導讀】CCF A類會議多媒體 ACM Multimedia 2020接收論文列表,剛剛已公布,你的文章中了嗎?
據官方博,ACM Multimedia 2020官方今日發布接收論文,共有1698篇論文投稿,共有472篇接受,接受率27.8%。
ACM Multimedia 2020原定于2020年10月12-16日在美國西雅圖舉行。因為疫情原因將在在線虛擬進行。
自1993年召開第一屆學術大會以來,每年的ACM Multimedia(簡稱ACM MM)是國際多媒體領域學術和產業界交流的最頂級盛會,也是中國計算機學會推薦的多媒體領域唯一的A類國際學術會議。熱門方向有大規模跨媒體分析、理解與搜索、多模態人機交互、多媒體系統與推薦、計算視覺、計算圖像、多媒體藝術、社會媒體研究等。ACM Multimedia每年在歐洲、美洲和亞太地區輪流舉辦,如今每年參會者近千人。按照慣例,該會議的主辦權提前三年確定,以便有充裕的時間籌辦。
最佳論文:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
最佳論文提出了一種無需外部監督即可從原始單視圖圖像中學習3D變形對象的方法。該方法基于自動編碼器,該自動編碼器將每個輸入圖像分解為深度,反射率,視角和照明。為了在無監督的情況下解構這些組件,作者使用了以下事實:許多對象類別至少在原則上具有對稱結構。
作者通過光照的推理來利用底層對象的對稱性,即使外觀由于陰影而不對稱。接著通過預測對稱概率圖來建模可能(但不一定)對稱的對象,并與模型的其他組件聯合起來進行端到端的學習。實驗表明該方法可以從單視圖圖像中非常準確地恢復人臉,貓臉和汽車的3D形狀,而無需任何監督或預先設定的形狀模型。
最佳論文一作Shangzhe Wu,是來自牛津大學視覺幾何組的二年級學生,由 Andrea Vedaldi 教授指導獲得了 Facebook 研究所的全額獎學金。在 HKUST 讀本科期間,曾與Chi-Keung Tang教授和Yu-Wing Tai 教授合作研究圖像翻譯 / 生成,現在主要的研究方向為無監督 / 自監督的3D 理解。Shangzhe Wu曾于2017年11月 -2018年2月,在騰訊優圖實驗室做機器學習實習生。
最佳學生論文: BSP-Net: Generating Compact Meshes via Binary Space Partitioning BSP-Net:通過二叉空間分割生成緊湊網絡
這篇論文的角度十分新穎,從多邊形網格入手,基于計算機圖形學的經典空間數據結構Binary Space Partitioning(BSP)來設計了一個BSP-Net。這個網絡可通過凸分解來學習表示3D形狀,并且不受監督,因此訓練不需要進行凸形分解。BSP-Net的重建質量有很大的優勢,并且很容易能夠進行參數設置。
論文一作是來自Simon Fraser University的博士一年級學生Zhiqin Chen,師從張皓教授,從事計算機圖形學相關的研究,主要研究方向是幾何建模和機器學習。Chen于2017年從上海交通大學本科畢業,于2019年從Simon Fraser University碩士畢業。