大數據分析的一個關鍵挑戰是如何收集大量(標記)數據。眾包旨在通過聚合和估算來自廣泛的客戶/用戶的高質量數據(如文本的情感標簽)來解決這一挑戰。現有的眾包研究集中于設計新的方法來提高來自不可靠/嘈雜客戶端的聚合數據質量。然而,迄今為止,這種眾包系統的安全方面仍未得到充分的探索。我們的目標是在這項工作中填補這一缺口。具體來說,我們表明眾包很容易受到數據中毒攻擊,即惡意客戶端提供精心制作的數據來破壞聚合數據。我們將我們所提議的數據中毒攻擊規劃為一個優化問題,使聚合數據的錯誤最大化。我們在一個合成的和兩個真實的基準數據集上的評估結果表明,所提出的攻擊可以顯著地增加聚合數據的估計誤差。我們還提出了兩種防御來減少惡意客戶端的影響。我們的實證結果表明,所提出的防御方法可以顯著降低數據中毒攻擊的估計誤差。
//www.zhuanzhi.ai/paper/d25992f7a7df3ee1468f244f05a8ba03
知識圖譜(KG)補全被廣泛研究,以解決現代知識圖譜中的不完整性問題(即缺少事實)。知識圖譜中的一個事實被表示為一個三元組(?,??,??),通過一個關系??連接兩個實體?和??。現有的工作主要考慮鏈接預測來解決這個問題,即給定一個三元組中的兩個元素來預測缺失的那個元素,例如(?,??,?)然而,這項任務對三元組中的兩個給定元素有一個強有力的假設,這兩個元素必須是相關的,否則就會導致毫無意義的預測,例如(居里夫人,總部的位置,?)此外,KG補全問題也被表述為一個關系預測任務,即預測給定實體?的關系??。在沒有預測??的情況下,這項任務離完成KG的最終目標還有一步之遙。在此背景下,本文研究了一個實例完成任務,為給定的?提出了??-??對,即(?,?,?)我們提出了一個端到端解決方案,稱為RETA(因為它暗示了給定頭部實體的關系和尾部),由兩個組件組成:RETA- filter和RETA- grader。更準確地說,我們的RETA-Filter首先通過提取和利用KG的模式為給定的?生成候選的??-??對;然后,我們的RETA-Grader使用一個新設計的KG嵌入模型,考慮候選三元組及其對應模式的可信性,對候選??-??對進行評估和排名。我們在三個真實世界的KG數據集上評估我們的方法與相當數量的先進技術的收集。結果表明,我們的RETA-Filter生成了高質量的候選??-??對,在相同的候選質量保證下,候選數量減少了10.61%-84.75%,優于最佳基準技術。此外,我們的RETA-Grader在實例完成任務上也顯著優于最先進的鏈接預測技術,在不同的數據集上提高了16.25%- 65.92%。
城市流量預測從許多方面使得智慧城市的建設受益,例如交通管理和風險評估。但是關鍵先決條件是對城市的細粒度動態有足夠的掌握。因此,與之前的工作僅限于粗粒度數據不同,這篇論文中將城市流量預測的范圍擴展到細粒度,這帶來了一些具體挑戰:1)在細粒度數據中觀察到的網格間的轉移動態使預測變得更加復雜,需要在全局范圍內捕獲網格單元之間的空間依賴性;2)單獨學習外部因素(例如天氣)對大量網格單元的影響是非常具有挑戰性的。為了解決這兩個挑戰,本文中提出了時空關系網(STRN)來預測細粒度的城市流量。首先,骨干網用于學習每個網格單元的高級表示,第二,文中還提出了一個全局關系模塊(GloNet),與現有方法相比,該模塊可以更有效地捕獲全局空間依賴性。第三,模型中設計了一個元學習器,它將外部因素和土地功能(例如POI密度)作為輸入以產生元知識并提高模型性能。論文提出的模型在兩個現實世界的數據集進行了充足的實驗。結果表明,與最新方法相比,STRN減少了7.1%到11.5%的誤差,而使用了更少的參數。
聯邦學習(Federated Learning)是一種新興的保護隱私的機器學習范式,在學術界和行業中都引起了極大的關注。聯邦學習的一大特征是異構性,它來源于參與學習的設備有各種硬件規格、且設備狀態是動態變化的。異構性會對聯邦學習訓練過程產生巨大影響,例如,導致設備無法進行訓練或無法上載其模型更新。不幸的是,這種影響尚未在現有的聯邦學習文獻中進行過系統的研究和量化。本文進行了第一個聯邦學習中異構性影響的實證研究。本文從13.6萬部智能手機中收集了大量數據,這些數據可以真實地反映現實環境中的異構性。本文還構建了一個符合標準聯邦學習協議同時考慮了異構性的聯邦學習平臺。基于以上數據和平臺進行了廣泛的實驗,以比較目前最優的聯邦學習算法在考慮異構性和不考慮異構性下的性能。結果表明,異構性導致聯邦學習的性能顯著下降,包括高達9.2%的準確度下降,2.32倍的訓練時間延長以及公平性受損。此外,本文進行了原因分析,發現設備故障和參與偏差是導致性能下降的兩個潛在根本原因。我們的研究對聯邦學習從業者具有深刻的啟示。一方面,本文的發現表明聯邦學習算法設計師在模型評估過程中有必要考慮異構性。另一方面,本文的發現敦促聯邦學習的系統設計者設計特定的機制來減輕異構性的影響。中心博士生楊程旭為該文第一作者。
點擊率(CTR)預測在推薦系統和在線廣告中起著至關重要的作用。這些應用程序中使用的數據是多字段類別數據,其中每個特征屬于一個字段。字段信息被證明是重要的,在他們的模型中有一些考慮字段的工作。在本文中,我們提出了一種新的方法來有效和高效地建模場信息。該方法是對FwFM的直接改進,被稱為場矩陣分解機(FmFM,或FM2)。在FmFM框架下,我們對FM和FwFM提出了新的解釋,并與FFM進行了比較。除了對交叉項進行修剪外,我們的模型還支持特定領域的可變維度的嵌入向量,這是一種軟修剪。在保持模型性能的同時,我們還提出了一種有效的最小化維數的方法。FmFM模型還可以通過緩存中間向量來進一步優化,它只需要數千次浮點運算(FLOPs)就可以做出預測。實驗結果表明,該算法的性能優于復雜的FFM算法。FmFM模型的性能也可以與DNN模型相媲美,DNN模型在運行時需要更多FLOPs 。
//www.zhuanzhi.ai/paper/39df3ac3e3acb641f86294a4d6acb39f
現有的反事實學習排名(LTR)工作集中于優化基于特征的模型,該模型基于文檔特征預測最優排名。基于bandit算法的LTR方法通常優化表格模型,這些表格模型記住每個查詢的最佳排名。這些類型的模型都有各自的優點和缺點。基于特征的模型在許多查詢(包括那些以前未見過的查詢)中提供了非常健壯的性能,但是,可用的特征往往限制了模型可以預測的排名。相反,表格模型通過記憶可以收斂于任何可能的排名。然而,記憶非常容易產生噪音,這使得表格模型只有在大量用戶交互可用時才可靠。我們能否開發一種穩健的反事實LTR方法,在安全的情況下追求基于記憶的優化? 我們介紹了泛化和專門化(GENSPEC)算法,這是一種魯棒的基于特征的反事實LTR方法,在安全的情況下,它會對每個查詢進行記憶。GENSPEC優化了單個基于特性的模型以實現泛化:跨所有查詢的健壯性能,以及用于專門化的許多表模型:每個表模型都針對單個查詢優化了高性能。GENSPEC使用新穎的相對高可信度邊界來選擇每個查詢部署哪個模型。通過這樣做,GENSPEC成功地實現了專門化表格模型的高性能和基于特征的廣義模型的魯棒性。我們的結果表明,GENSPEC可以在具有足夠點擊數據的查詢上獲得最佳性能,而在數據很少或有噪聲的查詢上具有健壯的行為。
//www.zhuanzhi.ai/paper/b0324110474b3753db34a6296cd76504
異構網絡的表示學習方法為每個節點產生一個低維向量嵌入,通常在所有涉及節點的任務中都是固定的。許多現有的方法關注于以一種與下游應用程序無關的方式獲取節點的靜態向量表示。然而,在實踐中,下游任務(如鏈接預測)需要特定的上下文信息,這些信息可以從與節點相關的子圖中提取出來,作為任務的輸入。為了解決這一挑戰,我們提出了SLiCE,這是一個使用整個圖的全局信息和局部注意驅動機制來學習上下文節點表示的靜態表示學習方法的框架。我們首先通過引入高階語義關聯和屏蔽節點以自監督的方式預訓練我們的模型,然后針對特定的鏈接預測任務微調我們的模型。我們不再通過聚合所有通過元路徑連接的語義鄰居的信息來訓練節點表示,而是自動學習不同元路徑的組合,這些元路徑表征了特定任務的上下文,而不需要任何預先定義的元路徑。SLiCE在幾個公開可用的基準網絡數據集上顯著優于靜態和上下文嵌入學習方法。通過廣泛的評價,我們也證明了上下文學習的可解釋性、有效性和SLiCE的可擴展性。
盡管健壯的深度學習中的現有工作都集中在基于像素級別的小型規范擾動,但這可能無法解決在多個實際設置中遇到的擾動。在許多此類情況下,盡管可能無法獲得測試數據,但可能知道有關擾動類型(例如未知的旋轉度)的廣泛規范。我們考慮一種在看不見的測試域中預期具有魯棒性的設置。但偏離了訓練領域。雖然可能無法確切知道此偏差,但根據屬性先驗地指定了其廣泛的特征。我們提出了一種對抗訓練方法,該方法學習如何生成新樣本,從而最大程度地將分類器暴露于屬性空間,而無需訪問來自測試域的數據。我們的對抗訓練解決了最小-最大優化問題,通過優化內部最大化產生的對抗性擾動的損失,使內部最大化產生對抗性擾動,而外部最小化找到模型參數。我們證明了我們的方法在三種類型的自然擾動上的適用性-與對象相關的移動,幾何變換和常見的圖像破壞。我們的方法使深度神經網絡能夠抵抗各種自然擾動。我們通過展示在MNIST,CIFAR-10和CLEVR數據集的新變體上進行對抗訓練而獲得的深度神經網絡的魯棒性收益,從而證明了所提出方法的有效性。
情感在發現網絡虛假新聞中扮演著重要的角色。在利用情感信號時,現有的方法主要是利用發布者所傳達的新聞內容的情感(即發布者情感)。然而,虛假新聞往往是為了喚起人們的高喚醒或激活人們的情緒,像病毒一樣傳播,因此,新聞評論引起的群眾情緒(即社會情緒)是不可忽視的。此外,還需要探索出版者情緒與社會情緒(即雙重情緒)之間是否存在關系,以及雙重情緒如何在假新聞中出現。在本文中,我們提出了雙重情感特征來挖掘雙重情感及其之間的關系,用于虛假新聞的檢測。我們設計了一個通用的范例,將它插入到任何現有的檢測器作為增強。在三個真實數據集上的實驗結果表明了該特征的有效性。
深度學習是當前機器學習和人工智能興起的核心。隨著深度學習在自動駕駛、門禁安檢、人臉支付等嚴苛的安全領域中廣泛應用,深度學習模型的安全問題逐漸成為新的研究熱點。深度模型的攻擊根據攻擊階段可分為中毒攻擊和對抗攻擊,其區別在于前者的攻擊發生在訓練階段,后者的攻擊發生在測試階段。本文首次綜述了深度學習中的中毒攻擊方法,回顧深度學習中的中毒攻擊,分析了此類攻擊存在的可能性,并研究了現有的針對這些攻擊的防御措施。最后,對未來中毒攻擊的研究發展方向進行了探討。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200403&flag=1
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。