摘要: 大數據時代背景下,各行各業希望能基于用戶行為數據來訓練推薦模型,為用戶提供精準推薦,所用數據的共性特點為總量龐大、攜帶敏感信息、易于獲取。推薦系統在帶來精準推薦和市場盈利的同時也正在實時分享著用戶的隱私數據,差分隱私保護技術作為一門隱私保護技術, 能夠巧妙地解決推薦應用中存在的隱私泄露問題,其優勢在于不需要考慮攻擊方所具備的任何相關的背景知識、嚴格地對隱私保護進行了定義、提供了量化評估方法來保證數據集(在不同參數條件下)所提供的隱私保護水平具有可比較性。首先簡述了差分隱私的概念和主流推薦算法的近期研究成果, 其次重點分析了差分隱私與推薦算法相結合的應用情況,涉及的推薦算法有矩陣分解、深度學習推薦、協同過濾等,并對基于差分隱私保護的推薦算法的準確性進行了對比實驗; 然后討論了與每種推薦算法結合的使用場景以及目前仍存在的問題,最后對基于差分隱私的推薦算法的未來發展方向提出了有效建議。
隨著互聯網和信息計算的飛速發展,衍生了海量數據,我們已經進入信息爆炸的時代。網絡中各種信息量的指數型增長導致用戶想要從大量信息中找到自己需要的信息變得越來越困難,信息過載問題日益突出。推薦系統在緩解信息過載問題中起著非常重要的作用,該方法通過研究用戶的興趣偏好進行個性化計算,由系統發現用戶興趣進而引導用戶發現自己的信息需求。目前,推薦系統已經成為產業界和學術界關注、研究的熱點問題,應用領域十分廣泛。在電子商務、會話推薦、文章推薦、智慧醫療等多個領域都有所應用。傳統的推薦算法主要包括基于內容的推薦、協同過濾推薦以及混合推薦。其中,協同過濾推薦是推薦系統中應用最廣泛最成功的技術之一。該方法利用用戶或物品間的相似度以及歷史行為數據對目標用戶進行推薦,因此存在用戶冷啟動和項目冷啟動問題。此外,隨著信息量的急劇增長,傳統協同過濾推薦系統面對數據的快速增長會遇到嚴重的數據稀疏性問題以及可擴展性問題。為了緩解甚至解決這些問題,推薦系統研究人員進行了大量的工作。近年來,為了提高推薦效果、提升用戶滿意度,學者們開始關注推薦系統的多樣性問題以及可解釋性等問題。由于深度學習方法可以通過發現數據中用戶和項目之間的非線性關系從而學習一個有效的特征表示,因此越來越受到推薦系統研究人員的關注。目前的工作主要是利用評分數據、社交網絡信息以及其他領域信息等輔助信息,結合深度學習、數據挖掘等技術提高推薦效果、提升用戶滿意度。對此,本文首先對推薦系統以及傳統推薦算法進行概述,然后重點介紹協同過濾推薦算法的相關工作。包括協同過濾推薦算法的任務、評價指標、常用數據集以及學者們在解決協同過濾算法存在的問題時所做的工作以及努力。最后提出未來的幾個可研究方向。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20210502&flag=1
摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。
摘要: 數據稀疏和冷啟動是當前推薦系統面臨的兩大挑戰. 以知識圖譜為表現形式的附加信息能夠在某種程度上緩解數據稀疏和冷啟動帶來的負面影響, 進而提高推薦的準確度. 本文綜述了最近提出的應用知識圖譜的推薦方法和系統, 并依據知識圖譜來源與構建方法、推薦系統利用知識圖譜的方式, 提出了應用知識圖譜的推薦方法和系統的分類框架, 進一步分析了本領域的研究難點. 本文還給出了文獻中常用的數據集. 最后討論了未來有價值的研究方向.
近年來,采用異質信息網絡統一建模推薦系統中不同類型對象的復雜交互行為、豐富的用戶和商品屬性以及各種各樣的輔助信息,不僅有效地緩解了推薦系統的數據稀疏和冷啟動問題,而且具有較好的可解釋性,并因此得到了廣泛關注與應用。據我們所知,本文是首篇專門介紹基于異質信息網絡的推薦系統的綜述。
具體而言,本文首先介紹了異質信息網絡和推薦系統的核心概念和背景知識,簡要回顧了異質信息網絡和推薦系統的研究現狀,并且闡述了將推薦系統建模為異質信息網絡的一般步驟。然后,本文根據模型原理的不同將現有方法分為三類,分別是基于相似性度量的方法、基于矩陣分解的方法和基于圖表示學習的方法,并對每類方法的代表性工作進行了全面的介紹,指出了每類方法的優缺點和不同方法之間的發展脈絡與內在關系。最后,本文討論了現有方法存在的問題,并展望了該領域未來的幾個潛在的研究方向。
1 引言
推薦系統往往面臨著數據稀疏和冷啟動問題,因此無法得到精準的推薦結果。在推薦系統中引入輔助信息可以有效地緩解這些問題。例如社會化推薦根據用戶之間的關系構造社交網絡作為輔助信息,從而能夠在推薦系統中充分利用社會關系對用戶喜好的影響。類似地,基于地理位置的社交推薦構建了用戶與位置之間的關系,通過用戶的位置記錄來捕捉用戶的行為偏好。然而,這些方法僅適用于某種特定類型的輔助信息,不具有普適性。
異質信息網絡是一種通用的融合多源數據的方法。通過將推薦系統視為由不同類型對象和交互構成的異質信息網絡,我們可以建模用戶與商品之間復雜的交互關系,而且可以有效融合屬性和各類輔助信息。基于異質信息網絡的推薦系統在信息融合、探索結構語義等方面具有顯著優勢,不僅可以有效緩解數據稀疏與冷啟動問題,而且有助于提升推薦系統的準確性和可解釋性,因此取得了廣泛的關注與應用。
綜述的章節編排如下:第2章簡要介紹推薦系統和異質信息網絡的相關概念與定義;第3章按照模型原理的不同,對基于異質信息網絡的推薦系統進行分類,并對現有方法進行了系統地梳理與分析;第4章展望了基于異質信息網絡的推薦系統未來研究方向;第5章回顧并總結全文。(在這里,主要展示第3章和第4章的核心內容,其他內容詳見論文原文。)
2 模型分類
目前,研究人員設計了各種適用于異質信息網絡建模的推薦算法。本章根據模型的不同,將現有工作進行分類,如表1所示。 圖片
2.1 基于相似性度量
推薦系統的個性化匹配往往基于對實體相似性的度量,而協同過濾需要基于用戶與商品之間的交互歷史計算相似度。早期的相似性度量算法僅對同質信息網絡定義,然而,這些算法忽視了對象和聯系的不同類型,不適用于建模為異質信息網絡的推薦系統。為了解決這一問題,研究者們提出了一系列用于異質信息網絡中實體相似性度量的算法,主要包括基于隨機游走的方法和基于元路徑的方法。基于這兩類異質信息網絡相似性度量算法,研究者們提出了很多協同過濾算法的變體,本文將這類方法統稱為基于相似性度量的方法。(詳見原文)
2.2 基于矩陣分解
為了解決相似性度量方法存在的時空復雜度高的問題,推薦系統的研究者們提出了矩陣分解模型,其原理是通過分解評分矩陣來提取出用戶和商品的隱向量,然后根據隱向量的相似度進行推薦。傳統的矩陣分解模型在訓練時使用隱向量重構共現矩陣作為優化目標,無法利用異質信息網絡中豐富的語義信息。很多研究者提出適用于異質信息網絡建模的矩陣分解方法,可以分為兩類:基于正則化的方法,和基于神經矩陣分解的方法。與基于相似性度量的方法相比,本節介紹的方法不依賴顯式的路徑可達性,當路徑連接稀疏或嘈雜時也不會失敗。(詳見原文)
2.3 基于圖表示學習
隨著深度學習的發展,基于神經網絡的推薦模型憑借其強大的特征交叉能力以及模型架構設計的靈活性,取得了較好的推薦效果。然而,傳統的神經網絡并不能直接建模圖結構。隨著圖表示學習技術的興起,研究者們嘗試設計融合圖表示學習技術的推薦模型,從而更好地學習圖數據中豐富的結構和語義信息。本節將這類方法統稱為基于圖表示學習的方法,并進一步分為基于兩階段訓練的方法和基于端到端訓練的方法。(詳見原文)
3 未來研究方向
異質信息網絡作為一種融合輔助信息的建模方法,憑借其緩解數據稀疏與冷啟動問題、提升模型性能與可解釋性等方面的優勢,已經在各種各樣的推薦系統模型和推薦任務上得到了應用。然而,基于異質信息網絡的推薦系統仍面臨很多挑戰,本節將介紹幾個潛在的未來研究方向。(詳見原文) 新型的異質圖推薦的模型與應用:基于圖神經網絡的推薦系統模型仍存在過平滑、魯棒性差等缺陷,而目前在圖神經網絡中引入異質信息的方法也仍不夠靈活,如何設計更好的異質圖推薦模型存在挑戰,如何將異質信息網絡用于更多類型的推薦任務也存在挑戰。
面向跨域數據的異質圖推薦:目前的絕大多數工作僅關注在單一異質網絡上的推薦任務,與單圖推薦相比,跨域推薦存在很多額外的挑戰。例如,如何設計源域到目標域的映射函數,如何在利用跨域信息的同時不泄露用戶隱私等,如何應對上述挑戰是未來的研究重點。
面向大規模實時場景的異質圖推薦:真實的推薦系統往往需要處理超大規模的數據,并且對推薦的實時性有較高的要求,因此很多復雜的推薦模型無法直接使用。大規模實時推薦主要面臨兩方面問題:一方面是模型的輕量化,另一方面是模型的動態更新。目前的推薦算法輕量化和動態更新方法主要適用于二分圖,如何將其應用于異質信息網絡存在挑戰。
人工智能和深度學習算法正在高速發展,這些新興技術在音視頻識別、自然語言處理等領域已經得到了廣泛應用。然而,近年來研究者發現,當前主流的人工智能模型中存在著諸多安全隱患,并且這些隱患會限制人工智能技術的進一步發展。因此,研究了人工智能模型中的數據安全與隱私保護問題。對于數據與隱私泄露問題,主要研究了基于模型輸出的數據泄露問題和基于模型更新的數據泄露問題。在基于模型輸出的數據泄露問題中,主要探討了模型竊取攻擊、模型逆向攻擊、成員推斷攻擊的原理和研究現狀;在基于模型更新的數據泄露問題中,探討了在分布式訓練過程中,攻擊者如何竊取隱私數據的相關研究。對于數據與隱私保護問題,主要研究了常用的3類防御方法,即模型結構防御,信息混淆防御,查詢控制防御。綜上,圍繞人工智能深度學習模型的數據安全與隱私保護領域中最前沿的研究成果,探討了人工智能深度學習模型的數據竊取和防御技術的理論基礎、重要成果以及相關應用。
隨著智能移動設備普及化、醫療設備數字化及電子病歷結構化的推進,醫療數據呈現爆發增長的特點。在深入研究探討醫療大數據發展規律,提高對醫療大數據真實價值的認識的同時,如何有效保護數據的隱私安全現已成為廣受關注的重要議題。醫療大數據自身特點以及存儲環境等都為隱私保護帶來了不小的挑戰。首先,介紹了醫療大數據的相關概念以及特點。然后,圍繞醫療大數據生命周期的四個階段數據的采集、存儲、共享以及分析,分別介紹面臨的風險挑戰以及相應的隱私保護技術,并對不同技術的優缺點、適用范圍等進行分析。在數據采集時,匿名技術、差分隱私可以抵御數據集成融合帶來的基于背景知識的攻擊。在存儲階段,醫療大數據多存儲于云平臺,為了數據的機密性和完整性,常使用加密、審計的方法。在數據共享階段,主要使用訪問控制方法來控制獲取數據的對象。在數據分析階段,在機器學習框架下對醫療健康大數據進行隱私保護。最后,針對貫穿醫療大數據生命周期的普遍隱私保護挑戰,從管理的層面提出合理的建議。
深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然語言處理模型的安全問題.針對自然語言處理領域同樣面臨對抗樣本的風險,在闡明對抗樣本相關概念的基礎上,文中首先對基于深度學習的自然語言處理模型的復雜結構、難以探知的訓練過程和樸素的基本原理等脆弱性成因進行分析,進一步闡述了文本對抗樣本的特點、分類和評價指標,并對該領域對抗技術涉及到的典型任務和數據集進行了闡述;然后按照擾動級別對主流的字、詞、句和多級擾動組合的文本對抗樣本生成技術進行了梳理,并對相關防御方法進行了歸納總結;最后對目前自然語言處理對抗樣本領域攻防雙方存在的痛點問題進行了進一步的討論和展望.
深度學習在計算機視覺領域取得了重大成功,超越了眾多傳統的方法.然而,近年來深度學習技術被濫用在假視頻的制作上,使得以Deepfakes為代表的偽造視頻在網絡上泛濫成災.這種深度偽造技術通過篡改或替換原始視頻的人臉信息,并合成虛假的語音,來制作色情電影、虛假新聞、政治謠言等.為了消除此類偽造技術帶來的負面影響,眾多學者對假視頻的鑒別進行了深入的研究,并提出一系列的檢測方法幫助機構或社區來識別此類偽造視頻.盡管如此,目前的檢測技術仍然存在依賴特定分布數據、特定壓縮率等眾多的局限性,遠遠落后于假視頻的生成技術.并且,不同的學者解決問題的角度不同,使用的數據集和評價指標均不統一.迄今為止,學術界對深度偽造與檢測技術仍缺乏統一的認識,深度偽造和檢測技術研究的體系架構尚不明確.在本綜述中,我們回顧了深度偽造與檢測技術的發展,并對現有研究工作進行了系統的總結和科學的歸類.最后,我們討論了深度偽造技術蔓延帶來的社會風險,分析了檢測技術的諸多局限性,并探討了檢測技術面臨的挑戰和潛在研究方向,旨在為后續學者進一步推動深度偽造檢測技術的發展和部署提供指導.
近年來,以 Deepfakes [1]為代表的換臉技術開始在網絡興起.此類技術可將視頻中的人臉替換成目標人物, 從而制作出目標人物做特定動作的假視頻.隨著深度學習技術的發展,自動編碼器、生成對抗網絡等技術逐漸 被應用到深度偽造中.由于 Deepfakes 技術只需要少量的人臉照片便可以實現視頻換臉,一些惡意用戶利用互聯網上可獲取的數據生成眾多的假視頻并應用在灰色地帶,如將色情電影的女主角替換成女明星,給政客、公司高管等有影響力的人偽造一些視頻內容,從而達到誤導輿論,贏得選取,操縱股價等目的.這些虛假視頻內容 極其逼真,在制作的同時往往伴隨著音頻的篡改,使得互聯網用戶幾乎無法鑒別.如果這些深度偽造的內容作為新聞素材被制作傳播,這會損害新聞機構的聲譽和公眾對媒體的信心.更深層次的,當遇到案件偵查和事故取證時,如果缺乏對 Deepfakes 類虛假影像資料的鑒別,將對司法體系產生巨大的挑戰.盡管深度偽造技術有其積極的一面,如“復活”一些去世的人進行影視創作,以及 Zao APP[2]提供大眾換臉娛樂服務等,但是目前負面影響遠遠大于正面,擁有鑒別此類深度偽造視頻的能力變得尤為重要.
為了盡量減少深度偽造技術帶來的影響,消除虛假視頻的傳播,學術界和工業界開始探索不同的深度偽 造檢測技術.相繼有學者構造數據集,展開對 Deepfakes 檢測的多角度研究.臉書公司也聯合微軟一起舉辦全 球 Deepfakes 檢測競賽[3]以推動檢測技術的發展.然而這些 Deepfakes 檢測工作各有側重,存在眾多局限性.針 對本領域的綜述工作還比較缺乏,只有針對早期圖像篡改工作的一些總結[4][5],亟需對現有工作進行系統的整 理和科學的總結、歸類,以促進該領域的研究.
本文首先在第1節中介紹深度偽造的各種相關技術,在第2節中列舉了當下深度偽造研究的數據集,接著 在第 3 節中對現有的深度偽造檢測技術進行系統的總結和歸類.第 4 節我們討論了深度偽造生成和檢測技術 的雙面對抗性,第 5 節我們總結了面臨的挑戰和未來可行的研究方向.最后,在第 6 節,我們對全文的工作進行 總結.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6140&flag=1
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。