Twitter和Facebook等社交媒體網站連接了數十億人,并為用戶提供了即時分享他們的想法和意見的機會。話雖如此,也有一些不良后果,如網絡騷擾,噴子,網絡欺凌,假新聞和仇恨言論。除此之外,仇恨言論是一個獨特的挑戰,因為它深深扎根于我們的社會,通常與線下暴力聯系在一起。社交媒體平臺依靠當地的主持人來識別仇恨言論并采取必要的行動,但隨著社交媒體上此類內容的大量增加,許多人開始轉向自動的仇恨言論檢測和緩解系統。這種轉變給板塊帶來了一些挑戰,因此,是計算社會科學界探索的重要途徑。
摘要: 隨著互聯網的迅速發展及網絡社會媒體中用戶的增加,通過社會媒體發布和傳播信息的真實性和質量受到日益廣泛的關注.目前大部分公眾已習慣從社會媒體平臺與互聯網獲取新聞,甚至是獲取受到高度關注的話題(如新冠病毒感染癥狀)的信息.鑒于網絡信息生態系統非常嘈雜,充斥著錯誤和虛假信息并經常受到惡意媒介的污染,從中識別真實的信息成為一項艱巨任務.對此,研究者們已開始致力于虛假信息檢測和減緩虛假信息傳播影響方面的工作.討論了網絡信息生態系統中的虛假信息問題,特別是隨著新冠病毒大爆發而來的“信息疫情”.隨后,簡述了虛假信息檢測方法,分析了減緩虛假信息影響的方法,并探討了虛假信息研究中的固有挑戰.最后從跨學科角度闡述了檢測和減緩虛假信息影響的方法和未來研究展望.
在本教程中,我們旨在全面介紹專門為異常檢測(深度異常檢測)而設計的深度學習技術的進展。
深度學習在轉換許多數據挖掘和機器學習任務方面取得了巨大的成功,但由于異常具有一些獨特的特征,如罕見性、異質性、無限性以及收集大規模異常數據的高昂成本,目前流行的深度學習技術并不適用于異常檢測。
通過本教程,讀者將對該領域有一個系統的概述,了解目前最先進的12種不同類型的深度異常檢測方法的主要要點、目標函數、基本假設、優缺點,并認識到其在不同領域的廣泛適用性。我們還討論了當前的深度異常檢測方法可以從多個不同的角度解決和展望該領域的挑戰。
任何對深度學習、異常/離群值/新奇檢測、分布外檢測、帶有有限標記數據的表示學習以及自我監督表示學習感興趣的讀者,都會發現參加本教程非常有幫助。
金融、網絡安全、醫療保健領域的研究人員和從業者也會發現該教程在實踐中有幫助。
異常檢測,幾十年來一直是各個研究領域中一個持續而活躍的研究領域。但仍然有一些獨特的問題、復雜性和挑戰需要先進的方法。近年來,將深度學習應用于異常檢測(即深度異常檢測)已經成為關鍵方向。本文回顧了深度異常檢測方法的研究進展,并對檢測方法進行了分類,包括3個高級類別和11個細粒度類別。本文回顧了檢測方法的主要intuitions、目標函數、基本假設、優勢和劣勢,并討論了他們如何應對上述挑戰。并且進一步討論了一系列未來可能的機遇和應對挑戰的新觀點。
異常檢測,又稱離群值檢測或新穎性檢測,是指檢測與大多數數據實例顯著偏離的數據實例的過程。幾十年來,異常探測一直是一個活躍的研究領域,早期的探測可以追溯到20世紀60年代的[52]。由于在風險管理、合規、安全、金融監控、健康和醫療風險、人工智能安全等廣泛領域的需求和應用日益增長,異常檢測在數據挖掘、機器學習、計算機視覺和統計等各個領域發揮著越來越重要的作用。近年來,深度學習在學習高維數據、時間數據、空間數據和圖形數據等復雜數據的表達表示方面顯示出了巨大的能力,推動了不同學習任務的邊界。深度學習異常檢測,簡稱深度異常檢測,目的是通過神經網絡學習特征表示或異常分數來進行異常檢測。大量的深度異常檢測方法已經被引入,在解決各種現實世界應用中具有挑戰性的檢測問題上,表現出比傳統異常檢測顯著更好的性能。這項工作旨在對這一領域進行全面調研。我們首先討論了異常檢測的問題本質和主要的未解決的挑戰,然后系統地回顧了當前的深度方法及其解決這些挑戰的能力,最后提出了一些未來的機會。
組合優化作為一個問題從根本上不同于識別貓和狗:在無限計算的極限下,這個任務是微不足道的。因此,基于學習的方法的目標是通過學習過去的經驗來減少總計算量,這可能是以犧牲解決方案的質量為代價的。
一個訓練良好的模型可以減少(相關的)搜索空間的有效大小,但是用于推斷模型的計算不能再用于搜索,所以這不是一個有保證的改進。因此,我們應該仔細選擇如何以及在何處應用所學的模型:計算你的失敗,并讓你的失敗有意義!
在這次演講中,我將更深入地討論一些關于這種權衡的實例。我將提出一些挑戰,并提供一些指導方針,可能有助于定義未來的研究方向,以便有效地將深度學習應用于組合優化。
情感在發現網絡虛假新聞中扮演著重要的角色。在利用情感信號時,現有的方法主要是利用發布者所傳達的新聞內容的情感(即發布者情感)。然而,虛假新聞往往是為了喚起人們的高喚醒或激活人們的情緒,像病毒一樣傳播,因此,新聞評論引起的群眾情緒(即社會情緒)是不可忽視的。此外,還需要探索出版者情緒與社會情緒(即雙重情緒)之間是否存在關系,以及雙重情緒如何在假新聞中出現。在本文中,我們提出了雙重情感特征來挖掘雙重情感及其之間的關系,用于虛假新聞的檢測。我們設計了一個通用的范例,將它插入到任何現有的檢測器作為增強。在三個真實數據集上的實驗結果表明了該特征的有效性。
The Battle Against Online Harmful Information: The Cases of Fake News and Hate Speech 社交媒體平臺給了用戶在網上發布內容和表達意見的機會,而且非常快速和簡單。網上發布內容的便利性和社交媒體的匿名性增加了發布有害內容的數量。本教程將重點介紹如何檢測在線發布的有害信息。該指南將特別關注兩類有害信息,虛假新聞和仇恨言論。本教程將從介紹在線有害信息開始,包括不同類型有害信息的定義和特征。然后,我們將介紹和討論不同的方法,已提出的假新聞和仇恨言論檢測。我們還將提供有關評估過程、可用數據集和共享評估任務的細節。本教程最后將討論在線有害信息檢測領域的開放問題和未來方向。
//sites.google.com/view/harmful-inf-detect-cikm20tuto/schedule
不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。
綜述論文:
不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。
【導讀】互聯網的發展是一把雙刃劍,一方面讓人們可以很便捷地獲取和分享信息,另一方面也滋生了假信息泛濫,造成很多嚴重的后果。如何利用人工智能機器學習數據挖掘技術治理緩解虛假信息的影響?是整個研究界關心的話題。最近,亞利桑那州立大學(Arizona State University)的Kai Shu、Huan Liu和賓夕法尼亞州立大學的Suhang Wang和Dongwon Lee共同撰寫關于虛假信息和假新聞檢測的概述進展《Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements》,詳述了虛假信息、錯誤信息、惡意信息的概念的方法體系,值得參閱。
地址:
//www.zhuanzhi.ai/paper/60a812267d38d28ed4d4e33f288a619e
摘要
近年來,由于假新聞等虛假信息的爆炸性增長,尤其是在社交媒體上,已經成為一種全球現象。虛假信息和假新聞的廣泛傳播會造成有害的社會影響。盡管近年來在發現虛假信息和假新聞方面取得了進展,但由于其復雜性、多樣性、多模態性和事實核查或注釋的成本,它仍然是非常具有挑戰性。本章的目的是通過: (1) 介紹社交媒體上信息混亂的類型,并研究它們之間的差異和聯系,為理解這些挑戰和進步鋪平道路; (2) 描述重要的和新興的任務,以打擊虛假信息的表征、檢測和歸因; (3) 討論了利用有限的標記數據檢測虛假信息的弱監督方法。然后,我們提供了本書章節的概述,這些章節代表了三個相關部分的最新進展: (一) 用戶參與信息傳播的混亂; (二) 發現和減少虛假信息的技術; (三) 倫理學、區塊鏈、clickbaits等趨勢問題。我們希望這本書能成為研究人員、實踐者和學生了解問題和挑戰的一個方便的入口,為他們的特定需求學習最先進的解決方案,并快速識別他們領域的新研究問題。
概要
社交媒體已經成為一種流行的信息搜索和新聞消費手段。由于通過社交媒體提供和傳播在線新聞的門檻低、速度快,大量的虛假信息如假新聞變得泛濫。在美國,那些故意提供虛假信息的新聞文章是出于各種各樣的目的而在網上發布的,其目的從經濟利益到政治利益不等。我們以假新聞為例。虛假新聞的廣泛傳播會對個人和社會產生嚴重的負面影響。首先,假新聞會影響讀者對新聞生態系統的信心。例如,在很多情況下,在2016年美國總統大選期間,最受歡迎的假新聞在Facebook上比主流新聞更受歡迎和廣泛傳播。其次,假新聞故意說服消費者接受有偏見或錯誤的信仰,以獲取政治或經濟利益。例如,2013年,美聯社(AP)在推特上發布消息稱巴拉克·奧巴馬(Barack Obama)受傷,導致1300億美元的股票價值在短短幾分鐘內蒸發殆盡。美聯社稱其推特賬戶遭到黑客攻擊。第三,假新聞改變了人們解讀和回應真實新聞的方式,阻礙了他們分辨真假的能力。因此,了解虛假新聞的傳播方式,開發有效、準確的假新聞檢測和干預的數據挖掘技術,緩解虛假新聞傳播的負面影響至關重要。
這本書的目的是把研究人員,從業人員和社會媒體供應商聚集在一起,以了解傳播,改善檢測和減少虛假信息和假新聞在社會媒體。接下來,我們從不同類型的信息無序開始。
1 信息失序 INFORMATION DISORDER
信息失序是近年來備受關注的一個重要問題。社交媒體的開放性和匿名性為用戶分享和交流信息提供了便利,但也使其容易受到不法活動的侵害。雖然新聞學研究了虛假信息和虛假信息的傳播,但是社交網絡平臺的開放性,加上自動化的潛力,使得信息的無序迅速傳播到大量的人群中,這帶來了前所未有的挑戰。一般來說,信息無序可以分為三種主要類型: 虛假信息、錯誤信息和惡意信息[1]。虛假信息是故意散布以誤導和/或欺騙的虛假或不準確的信息。錯誤信息是指一個人沒有意識到它是假的或誤導的,而分享的虛假內容。惡意信息是指為了造成傷害而共享的真實信息。此外,還有一些其他相關類型的信息混亂[2,3]: 謠言是一個故事在人與人之間傳播,其中的真相是未經核實或可疑的。謠言通常出現在模棱兩可或具有威脅性的事件中。當謠言被證明是虛假的,它就是一種虛假信息; 都市傳奇是一個虛構的故事,包含了與當地流行文化相關的主題。都市傳奇的陳述和故事通常是假的。都市傳奇通常描述不尋常的、幽默的或可怕的事件; 垃圾郵件是發送給大量收件人的不請自來的信息,包含不相關或不恰當的信息,是不需要的。
虛假或誤導性信息的傳播往往具有動態性,導致不同類型信息之間的無序交換。一方面,虛假信息會變成錯誤信息。例如,虛假信息制造者可以在社交媒體平臺上故意發布虛假信息。看到這些信息的人可能不知道這些信息是假的,并在他們的社區中使用他們自己的框架來分享這些信息。另一方面,虛假信息也可以轉化為虛假信息。例如,一則諷刺新聞可能被有意地斷章取義,誤導消費者。虛假信息的一個典型例子是假新聞。我們用它作為一個具體的案例研究來說明挖掘虛假信息的問題和挑戰。
圖1: 虛假信息、錯誤信息和惡意信息之間的關系,以及具有代表性的例子。此外,虛假信息和錯誤信息可以相互轉化。
信息扭曲(Information Disorder)的三個類型:
為了理解和研究信息生態系統的復雜性,我們需要一種共同的語言。目前對“假新聞”等簡單化術語的依賴掩蓋了重要的區別,它也過分關注“真實”與“虛假”,而信息扭曲則帶有許多“誤導”的影子。
Misinformation 錯誤信息(Falseness 虛假)
無意錯誤,如不準確的文字說明、日期、統計數據或翻譯,或諷刺性內容被嚴肅對待。
Disinformation 虛假信息(Falseness 虛假、Intent to harm 有意傷害)
捏造或故意操縱的內容。故意制造陰謀論或謠言。
Malinformation 惡意信息(Intent to harm 有意傷害)
為個人或公司利益而不是公眾利益而故意發布私人信息,如報復性的色情內容。故意改變真實內容的上下文、日期或時間。
1.1 假新聞是虛假信息的一個例子
在這一小節中,我們將展示如何通過社交媒體數據來識別、檢測虛假信息(假新聞)并賦予其屬性。假新聞通常指的是那些故意且可證實為虛假的、可能誤導讀者的新聞文章[4,5]。
對于特征描述,目標是了解信息是惡意的,有無害的意圖,還是有其他深刻的特征。當人們創造和傳播虛假信息時,他們通常有一個特定的目的或意圖。例如,在欺騙的背后可能有許多意圖,包括: (1) 說服人們支持個人、團體、想法或未來的行動; (2)說服他人反對個人、團體、思想或者未來的行為; (3)對某個人、團體、想法或未來的行動產生情緒反應(恐懼、憤怒或高興),希望得到支持或反對; (4)教育(例如:,關于疫苗接種威脅);(5) 防止令人尷尬或者犯罪的行為被人相信; (6)夸大某事的嚴重性(例如,政府官員使用私人郵件); (7)混淆過去的事件和活動(例如:在美國,美國是真的登上了月球,還是只是在地球上的沙漠里?或(8)說明發現虛假信息對社交平臺的重要性(如,伊麗莎白·沃倫和馬克·扎克伯格爭論)。在端到端模型中加入特征嵌入,如索賠和證據之間的因果關系,可以使用[6]來檢測意圖,如勸誘影響檢測[7]。一旦我們確定了一篇欺騙性新聞文章背后的意圖,我們就可以進一步了解這一意圖的成功程度: 這一意圖成功達到其預期目的的可能性有多大。我們可以考慮以社會理論為基礎的病毒營銷手段來幫助描述。社會心理學指出,社會影響(新聞文章的傳播范圍)和自我影響(用戶已有的知識)是虛假信息傳播的有效代理。來自社會和自身的更大影響會扭曲用戶的感知和行為,使其相信一篇新聞文章,并無意中參與到其傳播中。計算社會網絡分析[9]可以用來研究社會影響如何影響個人的行為和/或信念暴露在虛假信息和假新聞。
當考慮整個新聞生態系統而不是個人消費模式時,社會動態就會出現,從而導致虛假信息的擴散。根據社交同質性理論,社交媒體用戶傾向于追隨志趣相投的朋友,從而獲得新聞宣傳他們現有的敘述,從而產生回音室效應。為了獲得細粒度的分析,我們可以將傳播網絡按照層次結構進行處理,包括宏觀層面的發布、轉發和微觀層面的回復[10],這表明信息層次傳播網絡中的結構和時間特征在虛假信息和真實新聞之間存在統計學差異。這可以為純粹基于意圖的視角提供特征描述的補充,例如放大虛假信息的優先級,這些虛假信息在與善意的意圖共享后可能很快產生不良影響(例如,最初,幽默)。
檢測的目標是在早期或通過可解釋的因素有效地識別錯誤信息。由于假新聞試圖在新聞內容中傳播虛假信息,因此最直接的檢測方法就是對新聞文章中主要內容的真實性進行檢測,從而判斷新聞的真實性。傳統新聞媒體的假新聞檢測主要依靠對新聞內容信息的挖掘。新聞內容可以有多種形式,如文本、圖像、視頻。研究探索了從單一或組合模式中學習特征的不同方法,并建立了機器學習模型來檢測假新聞。除了與新聞文章內容直接相關的功能外,還可以從社交媒體平臺上新聞消費的用戶驅動的社交參與中衍生出額外的社交上下文功能。社會契約代表了新聞隨時間的擴散過程,它為推斷新聞文章的準確性提供了有用的輔助信息。一般來說,我們想要表現的社會媒體環境主要有三個方面:用戶、生成的帖子和網絡。首先,假新聞很可能由非人類賬戶(如社交機器人或電子人)創建和傳播。因此,通過基于用戶的特征捕獲用戶的個人信息和行為,可以為假新聞檢測[11]提供有用的信息。第二,人們通過社交媒體上的帖子來表達他們對假新聞的情感或觀點,比如懷疑的觀點和聳人聽聞的反應。因此,從帖子中提取基于帖子的特征,通過公眾的反應來幫助發現潛在的假新聞是合理的。第三,用戶在社交媒體上形成不同類型的興趣、話題和關系網絡。此外,假新聞傳播過程往往形成一個回音室循環,突出了提取網絡特征檢測假新聞的價值。
假新聞通常包含多種形式的信息,包括文本、圖像、視頻等。因此,利用多模態信息來提高檢測性能具有很大的潛力。首先,現有的工作側重于提取語言特征,如用于二分類的詞匯特征、詞匯、情感和可讀性,或者學習具有神經網絡結構的神經語言特征,如卷積神經網絡(CNNs)和遞歸神經網絡(RNNs)[12]。其次,視覺線索主要從視覺統計特征、視覺內容特征和神經視覺特征[13]中提取。可視化統計特征表示附加到虛假/真實新聞片段的統計信息。視覺內容特征是描述圖像內容的清晰度、連貫性、多樣性等因素。神經視覺特征是通過神經網絡(如CNNs)來學習的。此外,近年來從圖像中提取視覺場景圖譜以發現常識[14]的研究進展,極大地提高了從視覺內容中提取結構化場景圖的能力。
對于歸因attribution,目標是驗證所謂的來源或提供者和相關的歸因證據。社交媒體中的歸屬搜索是一個新的問題,因為社交媒體缺乏一個集中的權威或機制來存儲和驗證社交媒體數據的來源。從網絡擴散的角度來看,種源識別就是尋找一組關鍵節點,使信息傳播最大化。確定種源路徑可以間接找到起源種源。信息的出處通常是未知的,對于社交媒體上的虛假信息和誤傳,這仍然是一個公開的問題。信息源路徑描述了信息如何從源傳播到沿途的其他節點,包括負責通過中介重新傳輸信息的節點。我們可以利用社會化的特性來追溯[15]的來源。基于度傾向和貼近傾向假設[16],離節點越近的節點,其有較高度中心性的節點越有可能是變送器。在此基礎上,通過圖優化的方法,估計出在給定的種源節點集合上的頂級發射機。我們計劃開發新的算法,可以結合網絡結構以外的信息,如節點屬性和時間信息,以更好地發現源。
深度學習的成功,尤其是深度生成模型,機器生成的文本可以成為一種新的虛假新聞,它流暢、易讀、容易記住,這帶來了新的歸屬來源。例如,通過對抗性訓練,提出了SeqGAN[17]、MaliGAN[18]、LeakGAN[19]、MaskGAN[20]等語言生成模型,并提出了基于Transformer[21]的多任務學習無監督模型,如GPT-2[22]、Grover[23]等語言生成模型。一個重要的問題是考慮機器生成的合成文本,并提出解決方案來區分哪些模型用于生成這些文本。可以對不同文本生成算法的數據進行分類,探索決策邊界。數據集可以從VAE、SeqGAN、TextGAN、MaliGAN、GPT-2、Grover等代表性語言生成模型中獲取。此外,元學習還可以從少量的訓練實例中預測新的文本生成源。此外,一些生成模型如:SentiGAN [24], Ctrl [25], PPLM[26],可以生成程式化的文本,對特定的風格進行編碼,如:emotional, catchy。在預測模型中,消除偽相關是非常重要的。利用對抗式學習從合成文本中分離出風格因素,并開發具有恢復不同文本生成模型之間可轉移特征能力的預測模型。
2 薄弱社會監督力度 THE POWER OF WEAK SOCIAL SUPERVISION
社交媒體讓用戶可以隨時隨地與任何人進行聯系和互動,這也讓研究人員可以用新的視角以前所未有的規模觀察人類的行為。用戶對新聞文章(包括在社交媒體上發布、評論或推薦新聞)等信息的參與,隱含著用戶對新聞的判斷,并可能成為虛假信息和假新聞檢測的標簽來源。
然而,與傳統數據明顯不同的是,社交媒體數據是大規模的、不完整的、嘈雜的、非結構化的,具有豐富的社會關系。這種新的(但較弱的)數據類型要求結合社會理論和統計數據挖掘技術的新的計算分析方法。由于社交媒體參與的性質,我們將這些信號稱為弱社會監督(WSS)。在社會監督較弱的情況下,我們可以學習如何更有效地理解和發現虛假信息和假新聞,具有可解釋性,在早期階段等。一般來說,社交媒體參與主要有三個方面:用戶、內容和關系(參見圖2)。第二,用戶通過發帖/評論來表達自己的觀點和情緒。第三,用戶通過各種社區在社交媒體上形成不同類型的關系。弱社會監督的目標是利用來自社交媒體的信號,獲得對各種下游任務的弱監督。與弱監督類似,我們可以用弱標簽和弱約束的形式來利用弱社會監督。
圖2: 社會監督下學習理解和發現虛假信息和假新聞的示意圖。
2.1 利用WSS理解虛假信息
人類天生就不善于區分錯誤信息和虛假信息。認知理論解釋了這一現象,如樸素實在論和確認偏誤。虛假信息主要是利用新聞消費者的個人弱點來攻擊消費者。由于這些認知偏見,假新聞等虛假信息往往被視為真實。人類對假新聞的脆弱性一直是跨學科研究的主題,這些研究結果為開發越來越有效的檢測算法提供了依據。為了了解虛假信息和假新聞在社交媒體中的影響,我們可以使用技術來描述不同類型WSS的傳播特征:1)來源(可信度/可靠性、信任、立場/世界觀、意圖)[27,28];2)目標社會群體(偏見、人口統計學、立場/世界觀)[11];3)內容特征(語言、視覺、語境、情感基調與密度、長度與連貫性)[5,8];4)它們與網絡交互的性質(例如,內聚的、分離的)[9]。例如,這些理論的影響可以通過測量用戶元數據[11]來量化,從而回答“為什么人們容易受到假新聞的影響?”或者“特定群體的人更容易受到某些類型假新聞的影響嗎?”
社會認同理論等社會理論認為,偏好社會接受和肯定對于一個人的身份和自尊是至關重要的,這使得用戶在消費和傳播新聞信息時更傾向于選擇“社會安全”的選項。根據社交同質性理論,社交媒體上的用戶往往會關注和加好友的人是志趣相投的人,從而得到新聞宣傳他們現有的敘述,產生回音室效應。定量分析是一個有價值的工具,用來驗證這些理論是否、如何以及多大程度上可以預測用戶對假新聞的反應。在[29]中,作者試圖證明新聞分層傳播網絡中的結構和時間視角會影響假新聞消費,這表明在打擊假新聞的斗爭中,社會監督薄弱的額外來源是有價值的。為了獲得細粒度的分析,傳播網絡被處理為層次結構,包括宏觀級別(以發布、轉發的形式)和微觀級別(以回復的形式)的傳播網絡。從結構、時間和語言三個方面分析了虛假新聞與真實新聞在層次傳播網絡上的差異。
2.2 利用WSS檢測虛假信息
發現虛假信息和假新聞提出了獨特的挑戰,使它變得不容易。首先,數據挑戰一直是一個主要的障礙,因為假新聞和虛假信息的內容在主題、風格和媒體平臺上相當多樣化;假新聞試圖用不同的語言風格來歪曲事實,同時嘲諷真實的新聞。因此,獲取帶注釋的假新聞數據是不可擴展的,特定于數據的嵌入方法不足以檢測只有少量標記數據的假新聞。其次,虛假信息和假新聞的挑戰在不斷演變,也就是說,假新聞通常與新出現的、時間緊迫的事件有關,由于缺乏確證的證據或主張,這些事件可能沒有得到現有知識庫(知識庫)的適當驗證。為了解決這些獨特的挑戰,我們可以學習在社會監督薄弱的情況下,在不同的挑戰性場景中,如有效的、可解釋的和早期的檢測策略中,發現虛假信息和假新聞。這些算法的結果為檢測假新聞提供了解決方案,也為研究人員和從業者解釋預測結果提供了見解。
有效偵測虛假信息
圖3: 社會監督下的TriFN學習模型,來自發布者偏差和用戶可信度,用于有效地檢測虛假信息[30]。
其目的是利用微弱的社會監督作為輔助信息,有效地進行虛假信息的檢測。以交互網絡為例,對新聞傳播過程中的實體及其關系進行建模,以發現虛假信息。交互網絡描述了不同實體(如發布者、新聞片段和用戶)之間的關系(見圖3)。考慮到交互網絡,目標是通過建模不同實體之間的交互,將不同類型的實體嵌入到相同的潛在空間中。利用框架trif -relationship for Fake news detection (TriFN)[30],可以利用新聞的合成特征表示來執行虛假信息檢測。
在社會學和認知理論的啟發下,衍生出弱社會監督規則。例如,社會科學研究表明,以下觀察結果有助于我們薄弱的社會監督:人們傾向于與志趣相投的朋友建立關系,而不是與有著相反的偏好和興趣的用戶建立關系。因此,有聯系的用戶更有可能在新聞中分享相似的潛在興趣。此外,對于出版關系,可以探討以下薄弱的社會監督:政治偏見程度高的出版商更容易發布虛假信息。此外,對于傳播關系,我們有:低可信度的用戶更可能傳播虛假信息,而高可信度的用戶不太可能傳播虛假信息。利用非負矩陣因式分解(NMF)等技術,通過對弱社會監督的編碼來學習新聞表征。在真實數據集上的實驗表明,TriFN能夠達到0.87的檢測精度。
圖4: 可解釋虛假信息檢測[31]的社會監督學習deFEND模型。
用解釋來證實虛假信息。以假新聞為例,可解釋虛假信息檢測的目的是獲取top-k可解釋的新聞句子和用戶評論,用于虛假信息的檢測。它有可能改進檢測性能和檢測結果的可解釋性,特別是對于不熟悉機器學習方法的終端用戶。可以看出,新聞內容中并不是所有的句子都是假的,事實上,很多句子是真的,只是為了支持錯誤的索賠句。因此,新聞句子在判斷和解釋一則新聞是否是假的方面可能不是同等重要的。類似地,用戶的評論可能包含一些重要方面的相關信息,這些信息可以解釋為什么一條新聞是假的,而它們提供的信息和噪音可能也較少。可以使用以下較弱的社會監督:與原始新聞片段內容相關的用戶評論有助于發現假新聞并解釋預測結果。在[31]中,它首先使用帶有注意力的雙向LSTM來學習句子和評論表示,然后利用一個叫做dEFEND的句子-評論-注意神經網絡框架(參見圖4)來利用新聞內容和用戶評論來共同捕獲可解釋的因素。實驗表明,dEFEND在準確性(~0.9)和F1(~0.92)。另外,dEFEND可以發現可解釋的注釋,提高預測結果的可表達性。
虛假信息的早期預警。假新聞等虛假信息往往與新出現的、時間緊迫的事件有關,由于缺乏確鑿的證據,現有的知識庫或網站可能無法對這些事件進行核實。此外,在早期階段檢測虛假信息需要利用來自用戶參與的最小信息預測模型,因為廣泛的用戶參與表明更多的用戶已經受到虛假信息的影響。社交媒體數據是多面性的,表明新聞片段與社交媒體傳播者之間存在多種異構關系。首先,用戶的帖子和評論有豐富的人群信息,包括觀點、立場和情緒,這對發現假新聞很有用。之前的研究表明,傳播者之間的矛盾情緒可能預示著虛假新聞的高概率[32,33]。其次,不同的用戶有不同的可信度。最近的研究表明,一些不太可信的用戶更有可能傳播假新聞。這些來自社交媒體的發現很有可能為早期發現假新聞帶來更多信號。因此,我們可以同時利用和學習來自社交媒體的多源頭的弱社會監督(以弱標簽的形式)來推進早期的假新聞檢測。
關鍵思想是,在模型訓練階段,除了有限的干凈標簽外,還使用社會上下文信息來定義弱規則,以獲得弱標記的實例來幫助訓練。在預測階段(如圖5所示),對于測試數據中的任何一條新聞,只需要新聞內容,根本不需要社交活動,因此可以在非常早期的階段發現假新聞。可以使用深度神經網絡框架,其中較低層的網絡學習新聞文章的共享特征表示,而較高層的網絡分別建模從特征表示到每個不同監管源的映射。框架MWSS的目標是,除了干凈的標簽外,聯合開發多個薄弱社會監督的來源。為了提取福利標簽,需要考慮以下幾個方面,包括情感、偏見和可信度。
圖5: MWSS框架,用于從社交媒體數據中進行多重弱監督學習,以便及早發現虛假信息。
假新聞和虛假信息是新興的研究領域,存在一些重要但尚未在當前研究中得到解決(或徹底解決)的公開問題。我們簡要描述有代表性的未來方向如下。
解釋方法。近年來,假新聞的計算機檢測已經產生了一些有希望的早期結果。然而,該研究有一個關鍵部分,即這種檢測的可解釋性。,為什么一條特定的新聞被認為是假的。最近的方法嘗試從用戶評論[31]和web文檔[38]中獲得解釋因子。其他類型的用戶約定(如用戶配置文件)也可以建模以增強可解釋性。此外,解釋為什么人們容易輕信假新聞并傳播它是另一個關鍵的任務。解決這一問題的一種方法是從因果發現的角度,通過推斷有向無環圖(DAG),進一步估計用戶的治療變量及其傳播行為。
神經網絡假新聞的生成與檢測. 假新聞一直是社交媒體上的一個重要問題,而強大的深度學習模型由于具有生成神經假新聞[23]的能力而被放大。在神經假新聞生成方面,最近的進展允許惡意用戶根據有限的信息生成假新聞。生成式對抗網絡(GAN)[19]等模型可以從噪聲中生成長可讀的文本,而GPT-2[22]可以編寫具有簡單上下文的新聞故事和小說。現有的假新聞生成方法可能無法生成風格增強和事實豐富的文本,這些文本保留了與新聞聲明相關的情感/朗朗上口的風格和相關主題。檢測這些神經假新聞首先需要了解這些假新聞的特點和檢測難度。Dirk Hovy等人提出了一種對抗性設置來檢測生成的評論[39]。[23]和[40]提出了神經生成檢測器,它可以對生成器的前一個檢查點上的分類器進行微調。(1)如何利用神經生成模型生成假新聞?我們能區分人工生成和機器生成的假/真新聞嗎?
早期發現虛假信息. 早期發現虛假信息和假新聞是為了防止大量的人受到影響。之前的大部分工作都是學習如何從新聞內容和社會背景中提取特征,建立機器學習模型來檢測假新聞,一般都是考慮了二分類的標準場景。最近的研究考慮了這樣一種情況:很少甚至沒有用戶參與被用來預測假新聞。例如,Qian等人提出生成合成用戶契約來幫助檢測假新聞[41]; Wang等人提出了一個事件不變的神經網絡模型,學習可轉移的特征來預測新出現的新聞片段是否是假的。在2.2節中,我們還討論了如何利用不同類型的WSS對假新聞進行早期檢測。我們可以使用更復雜的方法來增強這些技術,而這些方法依賴于更少的訓練數據,例如,用小樣本學習[42]來早期檢測假新聞。
基于假信息的交叉主題建模。假新聞的內容在話題、風格和媒體平臺[33]上都表現得相當多樣化。對于一個真實世界的假新聞檢測系統來說,由于標簽成本高昂,獲取每個領域(如娛樂和政治是兩個不同的領域)豐富的標簽數據往往是不現實的。因此,假新聞檢測通常在單域設置下進行,并且提出了監督[43]或非監督方法[44,45]來處理有限甚至未標記的域。然而,性能在很大程度上是有限的,因為過度擬合小標記樣品或沒有任何監督信息。此外,在一個領域中學習的模型可能是有偏見的,并且可能在不同的目標領域中表現不好。解決這一問題的一種方法是利用領域適應技術探索輔助信息,將知識從源領域轉移到目標領域。此外,還可以利用諸如對抗性學習等先進的機器學習策略來進一步捕獲主題不變的特征表示,從而更好地檢測新出現的虛假信息。
參考文獻:
[1] Claire Wardle and Hossein Derakhshan. Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe Report, 27, 2017.
[2] Liang Wu, Fred Morstatter, Kathleen M Carley, and Huan Liu. Misinformation in social media: Definition, manipulation, and detection. ACM SIGKDD Explorations Newsletter, 21(2):80–90, 2019.
[3] Xinyi Zhou and Reza Zafarani. Fake news: A survey of research, detection methods, and opportunities. arXiv preprint arXiv:1812.00315, 2018.
[4] Edson C Tandoc Jr, Zheng Wei Lim, and Richard Ling. Defining “fake news” a typology of scholarly definitions. Digital journalism, 6(2):137–153, 2018.