講座題目
虛假新聞研究:理論、發現策略與開放性問題:Fake News Research: Theories, Detection Strategies, and Open Problems
講座簡介
虛假新聞的爆炸性增長及其對民主、正義和公眾信任的侵蝕,增加了對虛假新聞研究的需求。本教程的目標是 (一)明確介紹虛假新聞的概念和特征,以及如何與其他類似概念如虛假/諷刺新聞、mis-/dis信息等進行形式區分,有助于加深對虛假新聞的認識; (二)對跨學科的基本理論進行全面審查,說明如何利用這些理論進行跨學科的虛假新聞研究,促進計算機與信息科學、政治學、新聞學、社會科學、心理學和經濟學等領域的專家協同努力。這樣的協同工作能夠高效、可解釋地發現虛假新聞; (三)系統地從四個角度(即知識、風格、傳播和可信度)提出虛假新聞檢測策略,以及每一個角度利用數據/圖形挖掘、機器學習、自然語言處理、信息檢索等技術的方法 (四)詳細介紹當前虛假新聞研究中存在的問題,揭示其巨大的潛在研究機會,希望能吸引更廣泛領域的研究人員開展虛假新聞檢測工作,進一步促進其發展。 本教程旨在促進一個公平、健康、安全的網絡信息和新聞傳播生態系統,希望能吸引更多的研究人員、工程師和各種興趣的學生進行虛假新聞研究。
講座嘉賓
Reza Zafarani是錫拉丘茲大學EEC的助理教授。Reza的研究興趣是社交媒體挖掘、數據挖掘、機器學習和社交網絡分析。他的研究重點一直放在應對大規模數據分析的挑戰上,以增強大數據的科學發現過程,特別是在社交媒體中。這些挑戰包括沒有基本事實的評估、快速識別大量數據集中的相關信息、利用有限信息進行學習、大規模用戶行為分析和建模,以及跨多個數據源的信息集成和建模。他的研究成果已在各大學術機構發表,并在多家科學機構得到了強調。雷扎是《社交媒體挖掘:導論》一書的主要作者,該書由劍橋大學出版社和SIGKDD探索與傳播前沿聯合編輯編寫。他是亞利桑那州立大學校長創新獎和優秀教學獎的獲得者。
地址: //arxiv.org/abs/1811.00770
假新聞檢測是自然語言處理中一個重要而又具有挑戰性的問題。社交網絡平臺的迅速崛起,不僅極大地增加了信息的可及性,也加速了假新聞的傳播。鑒于網絡內容的海量性,自動檢測假新聞是所有網絡內容提供商都需要解決的一個實際的NLP問題。本文對虛假新聞的檢測進行了綜述。我們的調查介紹了自動識別假新聞的挑戰。我們系統地回顧了為這項任務所開發的數據集和NLP解決方案。我們還討論了這些數據集和問題公式的限制、我們的見解和建議的解決方案。
【導讀】互聯網的發展是一把雙刃劍,一方面讓人們可以很便捷地獲取和分享信息,另一方面也滋生了假信息泛濫,造成很多嚴重的后果。如何利用人工智能機器學習數據挖掘技術治理緩解虛假信息的影響?是整個研究界關心的話題。最近,亞利桑那州立大學(Arizona State University)的Kai Shu、Huan Liu和賓夕法尼亞州立大學的Suhang Wang和Dongwon Lee共同撰寫關于虛假信息和假新聞檢測的概述進展《Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements》,詳述了虛假信息、錯誤信息、惡意信息的概念的方法體系,值得參閱。
地址:
//www.zhuanzhi.ai/paper/60a812267d38d28ed4d4e33f288a619e
摘要
近年來,由于假新聞等虛假信息的爆炸性增長,尤其是在社交媒體上,已經成為一種全球現象。虛假信息和假新聞的廣泛傳播會造成有害的社會影響。盡管近年來在發現虛假信息和假新聞方面取得了進展,但由于其復雜性、多樣性、多模態性和事實核查或注釋的成本,它仍然是非常具有挑戰性。本章的目的是通過: (1) 介紹社交媒體上信息混亂的類型,并研究它們之間的差異和聯系,為理解這些挑戰和進步鋪平道路; (2) 描述重要的和新興的任務,以打擊虛假信息的表征、檢測和歸因; (3) 討論了利用有限的標記數據檢測虛假信息的弱監督方法。然后,我們提供了本書章節的概述,這些章節代表了三個相關部分的最新進展: (一) 用戶參與信息傳播的混亂; (二) 發現和減少虛假信息的技術; (三) 倫理學、區塊鏈、clickbaits等趨勢問題。我們希望這本書能成為研究人員、實踐者和學生了解問題和挑戰的一個方便的入口,為他們的特定需求學習最先進的解決方案,并快速識別他們領域的新研究問題。
概要
社交媒體已經成為一種流行的信息搜索和新聞消費手段。由于通過社交媒體提供和傳播在線新聞的門檻低、速度快,大量的虛假信息如假新聞變得泛濫。在美國,那些故意提供虛假信息的新聞文章是出于各種各樣的目的而在網上發布的,其目的從經濟利益到政治利益不等。我們以假新聞為例。虛假新聞的廣泛傳播會對個人和社會產生嚴重的負面影響。首先,假新聞會影響讀者對新聞生態系統的信心。例如,在很多情況下,在2016年美國總統大選期間,最受歡迎的假新聞在Facebook上比主流新聞更受歡迎和廣泛傳播。其次,假新聞故意說服消費者接受有偏見或錯誤的信仰,以獲取政治或經濟利益。例如,2013年,美聯社(AP)在推特上發布消息稱巴拉克·奧巴馬(Barack Obama)受傷,導致1300億美元的股票價值在短短幾分鐘內蒸發殆盡。美聯社稱其推特賬戶遭到黑客攻擊。第三,假新聞改變了人們解讀和回應真實新聞的方式,阻礙了他們分辨真假的能力。因此,了解虛假新聞的傳播方式,開發有效、準確的假新聞檢測和干預的數據挖掘技術,緩解虛假新聞傳播的負面影響至關重要。
這本書的目的是把研究人員,從業人員和社會媒體供應商聚集在一起,以了解傳播,改善檢測和減少虛假信息和假新聞在社會媒體。接下來,我們從不同類型的信息無序開始。
1 信息失序 INFORMATION DISORDER
信息失序是近年來備受關注的一個重要問題。社交媒體的開放性和匿名性為用戶分享和交流信息提供了便利,但也使其容易受到不法活動的侵害。雖然新聞學研究了虛假信息和虛假信息的傳播,但是社交網絡平臺的開放性,加上自動化的潛力,使得信息的無序迅速傳播到大量的人群中,這帶來了前所未有的挑戰。一般來說,信息無序可以分為三種主要類型: 虛假信息、錯誤信息和惡意信息[1]。虛假信息是故意散布以誤導和/或欺騙的虛假或不準確的信息。錯誤信息是指一個人沒有意識到它是假的或誤導的,而分享的虛假內容。惡意信息是指為了造成傷害而共享的真實信息。此外,還有一些其他相關類型的信息混亂[2,3]: 謠言是一個故事在人與人之間傳播,其中的真相是未經核實或可疑的。謠言通常出現在模棱兩可或具有威脅性的事件中。當謠言被證明是虛假的,它就是一種虛假信息; 都市傳奇是一個虛構的故事,包含了與當地流行文化相關的主題。都市傳奇的陳述和故事通常是假的。都市傳奇通常描述不尋常的、幽默的或可怕的事件; 垃圾郵件是發送給大量收件人的不請自來的信息,包含不相關或不恰當的信息,是不需要的。
虛假或誤導性信息的傳播往往具有動態性,導致不同類型信息之間的無序交換。一方面,虛假信息會變成錯誤信息。例如,虛假信息制造者可以在社交媒體平臺上故意發布虛假信息。看到這些信息的人可能不知道這些信息是假的,并在他們的社區中使用他們自己的框架來分享這些信息。另一方面,虛假信息也可以轉化為虛假信息。例如,一則諷刺新聞可能被有意地斷章取義,誤導消費者。虛假信息的一個典型例子是假新聞。我們用它作為一個具體的案例研究來說明挖掘虛假信息的問題和挑戰。
圖1: 虛假信息、錯誤信息和惡意信息之間的關系,以及具有代表性的例子。此外,虛假信息和錯誤信息可以相互轉化。
信息扭曲(Information Disorder)的三個類型:
為了理解和研究信息生態系統的復雜性,我們需要一種共同的語言。目前對“假新聞”等簡單化術語的依賴掩蓋了重要的區別,它也過分關注“真實”與“虛假”,而信息扭曲則帶有許多“誤導”的影子。
Misinformation 錯誤信息(Falseness 虛假)
無意錯誤,如不準確的文字說明、日期、統計數據或翻譯,或諷刺性內容被嚴肅對待。
Disinformation 虛假信息(Falseness 虛假、Intent to harm 有意傷害)
捏造或故意操縱的內容。故意制造陰謀論或謠言。
Malinformation 惡意信息(Intent to harm 有意傷害)
為個人或公司利益而不是公眾利益而故意發布私人信息,如報復性的色情內容。故意改變真實內容的上下文、日期或時間。
1.1 假新聞是虛假信息的一個例子
在這一小節中,我們將展示如何通過社交媒體數據來識別、檢測虛假信息(假新聞)并賦予其屬性。假新聞通常指的是那些故意且可證實為虛假的、可能誤導讀者的新聞文章[4,5]。
對于特征描述,目標是了解信息是惡意的,有無害的意圖,還是有其他深刻的特征。當人們創造和傳播虛假信息時,他們通常有一個特定的目的或意圖。例如,在欺騙的背后可能有許多意圖,包括: (1) 說服人們支持個人、團體、想法或未來的行動; (2)說服他人反對個人、團體、思想或者未來的行為; (3)對某個人、團體、想法或未來的行動產生情緒反應(恐懼、憤怒或高興),希望得到支持或反對; (4)教育(例如:,關于疫苗接種威脅);(5) 防止令人尷尬或者犯罪的行為被人相信; (6)夸大某事的嚴重性(例如,政府官員使用私人郵件); (7)混淆過去的事件和活動(例如:在美國,美國是真的登上了月球,還是只是在地球上的沙漠里?或(8)說明發現虛假信息對社交平臺的重要性(如,伊麗莎白·沃倫和馬克·扎克伯格爭論)。在端到端模型中加入特征嵌入,如索賠和證據之間的因果關系,可以使用[6]來檢測意圖,如勸誘影響檢測[7]。一旦我們確定了一篇欺騙性新聞文章背后的意圖,我們就可以進一步了解這一意圖的成功程度: 這一意圖成功達到其預期目的的可能性有多大。我們可以考慮以社會理論為基礎的病毒營銷手段來幫助描述。社會心理學指出,社會影響(新聞文章的傳播范圍)和自我影響(用戶已有的知識)是虛假信息傳播的有效代理。來自社會和自身的更大影響會扭曲用戶的感知和行為,使其相信一篇新聞文章,并無意中參與到其傳播中。計算社會網絡分析[9]可以用來研究社會影響如何影響個人的行為和/或信念暴露在虛假信息和假新聞。
當考慮整個新聞生態系統而不是個人消費模式時,社會動態就會出現,從而導致虛假信息的擴散。根據社交同質性理論,社交媒體用戶傾向于追隨志趣相投的朋友,從而獲得新聞宣傳他們現有的敘述,從而產生回音室效應。為了獲得細粒度的分析,我們可以將傳播網絡按照層次結構進行處理,包括宏觀層面的發布、轉發和微觀層面的回復[10],這表明信息層次傳播網絡中的結構和時間特征在虛假信息和真實新聞之間存在統計學差異。這可以為純粹基于意圖的視角提供特征描述的補充,例如放大虛假信息的優先級,這些虛假信息在與善意的意圖共享后可能很快產生不良影響(例如,最初,幽默)。
檢測的目標是在早期或通過可解釋的因素有效地識別錯誤信息。由于假新聞試圖在新聞內容中傳播虛假信息,因此最直接的檢測方法就是對新聞文章中主要內容的真實性進行檢測,從而判斷新聞的真實性。傳統新聞媒體的假新聞檢測主要依靠對新聞內容信息的挖掘。新聞內容可以有多種形式,如文本、圖像、視頻。研究探索了從單一或組合模式中學習特征的不同方法,并建立了機器學習模型來檢測假新聞。除了與新聞文章內容直接相關的功能外,還可以從社交媒體平臺上新聞消費的用戶驅動的社交參與中衍生出額外的社交上下文功能。社會契約代表了新聞隨時間的擴散過程,它為推斷新聞文章的準確性提供了有用的輔助信息。一般來說,我們想要表現的社會媒體環境主要有三個方面:用戶、生成的帖子和網絡。首先,假新聞很可能由非人類賬戶(如社交機器人或電子人)創建和傳播。因此,通過基于用戶的特征捕獲用戶的個人信息和行為,可以為假新聞檢測[11]提供有用的信息。第二,人們通過社交媒體上的帖子來表達他們對假新聞的情感或觀點,比如懷疑的觀點和聳人聽聞的反應。因此,從帖子中提取基于帖子的特征,通過公眾的反應來幫助發現潛在的假新聞是合理的。第三,用戶在社交媒體上形成不同類型的興趣、話題和關系網絡。此外,假新聞傳播過程往往形成一個回音室循環,突出了提取網絡特征檢測假新聞的價值。
假新聞通常包含多種形式的信息,包括文本、圖像、視頻等。因此,利用多模態信息來提高檢測性能具有很大的潛力。首先,現有的工作側重于提取語言特征,如用于二分類的詞匯特征、詞匯、情感和可讀性,或者學習具有神經網絡結構的神經語言特征,如卷積神經網絡(CNNs)和遞歸神經網絡(RNNs)[12]。其次,視覺線索主要從視覺統計特征、視覺內容特征和神經視覺特征[13]中提取。可視化統計特征表示附加到虛假/真實新聞片段的統計信息。視覺內容特征是描述圖像內容的清晰度、連貫性、多樣性等因素。神經視覺特征是通過神經網絡(如CNNs)來學習的。此外,近年來從圖像中提取視覺場景圖譜以發現常識[14]的研究進展,極大地提高了從視覺內容中提取結構化場景圖的能力。
對于歸因attribution,目標是驗證所謂的來源或提供者和相關的歸因證據。社交媒體中的歸屬搜索是一個新的問題,因為社交媒體缺乏一個集中的權威或機制來存儲和驗證社交媒體數據的來源。從網絡擴散的角度來看,種源識別就是尋找一組關鍵節點,使信息傳播最大化。確定種源路徑可以間接找到起源種源。信息的出處通常是未知的,對于社交媒體上的虛假信息和誤傳,這仍然是一個公開的問題。信息源路徑描述了信息如何從源傳播到沿途的其他節點,包括負責通過中介重新傳輸信息的節點。我們可以利用社會化的特性來追溯[15]的來源。基于度傾向和貼近傾向假設[16],離節點越近的節點,其有較高度中心性的節點越有可能是變送器。在此基礎上,通過圖優化的方法,估計出在給定的種源節點集合上的頂級發射機。我們計劃開發新的算法,可以結合網絡結構以外的信息,如節點屬性和時間信息,以更好地發現源。
深度學習的成功,尤其是深度生成模型,機器生成的文本可以成為一種新的虛假新聞,它流暢、易讀、容易記住,這帶來了新的歸屬來源。例如,通過對抗性訓練,提出了SeqGAN[17]、MaliGAN[18]、LeakGAN[19]、MaskGAN[20]等語言生成模型,并提出了基于Transformer[21]的多任務學習無監督模型,如GPT-2[22]、Grover[23]等語言生成模型。一個重要的問題是考慮機器生成的合成文本,并提出解決方案來區分哪些模型用于生成這些文本。可以對不同文本生成算法的數據進行分類,探索決策邊界。數據集可以從VAE、SeqGAN、TextGAN、MaliGAN、GPT-2、Grover等代表性語言生成模型中獲取。此外,元學習還可以從少量的訓練實例中預測新的文本生成源。此外,一些生成模型如:SentiGAN [24], Ctrl [25], PPLM[26],可以生成程式化的文本,對特定的風格進行編碼,如:emotional, catchy。在預測模型中,消除偽相關是非常重要的。利用對抗式學習從合成文本中分離出風格因素,并開發具有恢復不同文本生成模型之間可轉移特征能力的預測模型。
2 薄弱社會監督力度 THE POWER OF WEAK SOCIAL SUPERVISION
社交媒體讓用戶可以隨時隨地與任何人進行聯系和互動,這也讓研究人員可以用新的視角以前所未有的規模觀察人類的行為。用戶對新聞文章(包括在社交媒體上發布、評論或推薦新聞)等信息的參與,隱含著用戶對新聞的判斷,并可能成為虛假信息和假新聞檢測的標簽來源。
然而,與傳統數據明顯不同的是,社交媒體數據是大規模的、不完整的、嘈雜的、非結構化的,具有豐富的社會關系。這種新的(但較弱的)數據類型要求結合社會理論和統計數據挖掘技術的新的計算分析方法。由于社交媒體參與的性質,我們將這些信號稱為弱社會監督(WSS)。在社會監督較弱的情況下,我們可以學習如何更有效地理解和發現虛假信息和假新聞,具有可解釋性,在早期階段等。一般來說,社交媒體參與主要有三個方面:用戶、內容和關系(參見圖2)。第二,用戶通過發帖/評論來表達自己的觀點和情緒。第三,用戶通過各種社區在社交媒體上形成不同類型的關系。弱社會監督的目標是利用來自社交媒體的信號,獲得對各種下游任務的弱監督。與弱監督類似,我們可以用弱標簽和弱約束的形式來利用弱社會監督。
圖2: 社會監督下學習理解和發現虛假信息和假新聞的示意圖。
2.1 利用WSS理解虛假信息
人類天生就不善于區分錯誤信息和虛假信息。認知理論解釋了這一現象,如樸素實在論和確認偏誤。虛假信息主要是利用新聞消費者的個人弱點來攻擊消費者。由于這些認知偏見,假新聞等虛假信息往往被視為真實。人類對假新聞的脆弱性一直是跨學科研究的主題,這些研究結果為開發越來越有效的檢測算法提供了依據。為了了解虛假信息和假新聞在社交媒體中的影響,我們可以使用技術來描述不同類型WSS的傳播特征:1)來源(可信度/可靠性、信任、立場/世界觀、意圖)[27,28];2)目標社會群體(偏見、人口統計學、立場/世界觀)[11];3)內容特征(語言、視覺、語境、情感基調與密度、長度與連貫性)[5,8];4)它們與網絡交互的性質(例如,內聚的、分離的)[9]。例如,這些理論的影響可以通過測量用戶元數據[11]來量化,從而回答“為什么人們容易受到假新聞的影響?”或者“特定群體的人更容易受到某些類型假新聞的影響嗎?”
社會認同理論等社會理論認為,偏好社會接受和肯定對于一個人的身份和自尊是至關重要的,這使得用戶在消費和傳播新聞信息時更傾向于選擇“社會安全”的選項。根據社交同質性理論,社交媒體上的用戶往往會關注和加好友的人是志趣相投的人,從而得到新聞宣傳他們現有的敘述,產生回音室效應。定量分析是一個有價值的工具,用來驗證這些理論是否、如何以及多大程度上可以預測用戶對假新聞的反應。在[29]中,作者試圖證明新聞分層傳播網絡中的結構和時間視角會影響假新聞消費,這表明在打擊假新聞的斗爭中,社會監督薄弱的額外來源是有價值的。為了獲得細粒度的分析,傳播網絡被處理為層次結構,包括宏觀級別(以發布、轉發的形式)和微觀級別(以回復的形式)的傳播網絡。從結構、時間和語言三個方面分析了虛假新聞與真實新聞在層次傳播網絡上的差異。
2.2 利用WSS檢測虛假信息
發現虛假信息和假新聞提出了獨特的挑戰,使它變得不容易。首先,數據挑戰一直是一個主要的障礙,因為假新聞和虛假信息的內容在主題、風格和媒體平臺上相當多樣化;假新聞試圖用不同的語言風格來歪曲事實,同時嘲諷真實的新聞。因此,獲取帶注釋的假新聞數據是不可擴展的,特定于數據的嵌入方法不足以檢測只有少量標記數據的假新聞。其次,虛假信息和假新聞的挑戰在不斷演變,也就是說,假新聞通常與新出現的、時間緊迫的事件有關,由于缺乏確證的證據或主張,這些事件可能沒有得到現有知識庫(知識庫)的適當驗證。為了解決這些獨特的挑戰,我們可以學習在社會監督薄弱的情況下,在不同的挑戰性場景中,如有效的、可解釋的和早期的檢測策略中,發現虛假信息和假新聞。這些算法的結果為檢測假新聞提供了解決方案,也為研究人員和從業者解釋預測結果提供了見解。
有效偵測虛假信息
圖3: 社會監督下的TriFN學習模型,來自發布者偏差和用戶可信度,用于有效地檢測虛假信息[30]。
其目的是利用微弱的社會監督作為輔助信息,有效地進行虛假信息的檢測。以交互網絡為例,對新聞傳播過程中的實體及其關系進行建模,以發現虛假信息。交互網絡描述了不同實體(如發布者、新聞片段和用戶)之間的關系(見圖3)。考慮到交互網絡,目標是通過建模不同實體之間的交互,將不同類型的實體嵌入到相同的潛在空間中。利用框架trif -relationship for Fake news detection (TriFN)[30],可以利用新聞的合成特征表示來執行虛假信息檢測。
在社會學和認知理論的啟發下,衍生出弱社會監督規則。例如,社會科學研究表明,以下觀察結果有助于我們薄弱的社會監督:人們傾向于與志趣相投的朋友建立關系,而不是與有著相反的偏好和興趣的用戶建立關系。因此,有聯系的用戶更有可能在新聞中分享相似的潛在興趣。此外,對于出版關系,可以探討以下薄弱的社會監督:政治偏見程度高的出版商更容易發布虛假信息。此外,對于傳播關系,我們有:低可信度的用戶更可能傳播虛假信息,而高可信度的用戶不太可能傳播虛假信息。利用非負矩陣因式分解(NMF)等技術,通過對弱社會監督的編碼來學習新聞表征。在真實數據集上的實驗表明,TriFN能夠達到0.87的檢測精度。
圖4: 可解釋虛假信息檢測[31]的社會監督學習deFEND模型。
用解釋來證實虛假信息。以假新聞為例,可解釋虛假信息檢測的目的是獲取top-k可解釋的新聞句子和用戶評論,用于虛假信息的檢測。它有可能改進檢測性能和檢測結果的可解釋性,特別是對于不熟悉機器學習方法的終端用戶。可以看出,新聞內容中并不是所有的句子都是假的,事實上,很多句子是真的,只是為了支持錯誤的索賠句。因此,新聞句子在判斷和解釋一則新聞是否是假的方面可能不是同等重要的。類似地,用戶的評論可能包含一些重要方面的相關信息,這些信息可以解釋為什么一條新聞是假的,而它們提供的信息和噪音可能也較少。可以使用以下較弱的社會監督:與原始新聞片段內容相關的用戶評論有助于發現假新聞并解釋預測結果。在[31]中,它首先使用帶有注意力的雙向LSTM來學習句子和評論表示,然后利用一個叫做dEFEND的句子-評論-注意神經網絡框架(參見圖4)來利用新聞內容和用戶評論來共同捕獲可解釋的因素。實驗表明,dEFEND在準確性(~0.9)和F1(~0.92)。另外,dEFEND可以發現可解釋的注釋,提高預測結果的可表達性。
虛假信息的早期預警。假新聞等虛假信息往往與新出現的、時間緊迫的事件有關,由于缺乏確鑿的證據,現有的知識庫或網站可能無法對這些事件進行核實。此外,在早期階段檢測虛假信息需要利用來自用戶參與的最小信息預測模型,因為廣泛的用戶參與表明更多的用戶已經受到虛假信息的影響。社交媒體數據是多面性的,表明新聞片段與社交媒體傳播者之間存在多種異構關系。首先,用戶的帖子和評論有豐富的人群信息,包括觀點、立場和情緒,這對發現假新聞很有用。之前的研究表明,傳播者之間的矛盾情緒可能預示著虛假新聞的高概率[32,33]。其次,不同的用戶有不同的可信度。最近的研究表明,一些不太可信的用戶更有可能傳播假新聞。這些來自社交媒體的發現很有可能為早期發現假新聞帶來更多信號。因此,我們可以同時利用和學習來自社交媒體的多源頭的弱社會監督(以弱標簽的形式)來推進早期的假新聞檢測。
關鍵思想是,在模型訓練階段,除了有限的干凈標簽外,還使用社會上下文信息來定義弱規則,以獲得弱標記的實例來幫助訓練。在預測階段(如圖5所示),對于測試數據中的任何一條新聞,只需要新聞內容,根本不需要社交活動,因此可以在非常早期的階段發現假新聞。可以使用深度神經網絡框架,其中較低層的網絡學習新聞文章的共享特征表示,而較高層的網絡分別建模從特征表示到每個不同監管源的映射。框架MWSS的目標是,除了干凈的標簽外,聯合開發多個薄弱社會監督的來源。為了提取福利標簽,需要考慮以下幾個方面,包括情感、偏見和可信度。
圖5: MWSS框架,用于從社交媒體數據中進行多重弱監督學習,以便及早發現虛假信息。
假新聞和虛假信息是新興的研究領域,存在一些重要但尚未在當前研究中得到解決(或徹底解決)的公開問題。我們簡要描述有代表性的未來方向如下。
解釋方法。近年來,假新聞的計算機檢測已經產生了一些有希望的早期結果。然而,該研究有一個關鍵部分,即這種檢測的可解釋性。,為什么一條特定的新聞被認為是假的。最近的方法嘗試從用戶評論[31]和web文檔[38]中獲得解釋因子。其他類型的用戶約定(如用戶配置文件)也可以建模以增強可解釋性。此外,解釋為什么人們容易輕信假新聞并傳播它是另一個關鍵的任務。解決這一問題的一種方法是從因果發現的角度,通過推斷有向無環圖(DAG),進一步估計用戶的治療變量及其傳播行為。
神經網絡假新聞的生成與檢測. 假新聞一直是社交媒體上的一個重要問題,而強大的深度學習模型由于具有生成神經假新聞[23]的能力而被放大。在神經假新聞生成方面,最近的進展允許惡意用戶根據有限的信息生成假新聞。生成式對抗網絡(GAN)[19]等模型可以從噪聲中生成長可讀的文本,而GPT-2[22]可以編寫具有簡單上下文的新聞故事和小說。現有的假新聞生成方法可能無法生成風格增強和事實豐富的文本,這些文本保留了與新聞聲明相關的情感/朗朗上口的風格和相關主題。檢測這些神經假新聞首先需要了解這些假新聞的特點和檢測難度。Dirk Hovy等人提出了一種對抗性設置來檢測生成的評論[39]。[23]和[40]提出了神經生成檢測器,它可以對生成器的前一個檢查點上的分類器進行微調。(1)如何利用神經生成模型生成假新聞?我們能區分人工生成和機器生成的假/真新聞嗎?
早期發現虛假信息. 早期發現虛假信息和假新聞是為了防止大量的人受到影響。之前的大部分工作都是學習如何從新聞內容和社會背景中提取特征,建立機器學習模型來檢測假新聞,一般都是考慮了二分類的標準場景。最近的研究考慮了這樣一種情況:很少甚至沒有用戶參與被用來預測假新聞。例如,Qian等人提出生成合成用戶契約來幫助檢測假新聞[41]; Wang等人提出了一個事件不變的神經網絡模型,學習可轉移的特征來預測新出現的新聞片段是否是假的。在2.2節中,我們還討論了如何利用不同類型的WSS對假新聞進行早期檢測。我們可以使用更復雜的方法來增強這些技術,而這些方法依賴于更少的訓練數據,例如,用小樣本學習[42]來早期檢測假新聞。
基于假信息的交叉主題建模。假新聞的內容在話題、風格和媒體平臺[33]上都表現得相當多樣化。對于一個真實世界的假新聞檢測系統來說,由于標簽成本高昂,獲取每個領域(如娛樂和政治是兩個不同的領域)豐富的標簽數據往往是不現實的。因此,假新聞檢測通常在單域設置下進行,并且提出了監督[43]或非監督方法[44,45]來處理有限甚至未標記的域。然而,性能在很大程度上是有限的,因為過度擬合小標記樣品或沒有任何監督信息。此外,在一個領域中學習的模型可能是有偏見的,并且可能在不同的目標領域中表現不好。解決這一問題的一種方法是利用領域適應技術探索輔助信息,將知識從源領域轉移到目標領域。此外,還可以利用諸如對抗性學習等先進的機器學習策略來進一步捕獲主題不變的特征表示,從而更好地檢測新出現的虛假信息。
參考文獻:
[1] Claire Wardle and Hossein Derakhshan. Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe Report, 27, 2017.
[2] Liang Wu, Fred Morstatter, Kathleen M Carley, and Huan Liu. Misinformation in social media: Definition, manipulation, and detection. ACM SIGKDD Explorations Newsletter, 21(2):80–90, 2019.
[3] Xinyi Zhou and Reza Zafarani. Fake news: A survey of research, detection methods, and opportunities. arXiv preprint arXiv:1812.00315, 2018.
[4] Edson C Tandoc Jr, Zheng Wei Lim, and Richard Ling. Defining “fake news” a typology of scholarly definitions. Digital journalism, 6(2):137–153, 2018.
講座題目
從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text
講座簡介
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全面概述最近在這方面的研究和發展。首先,我們介紹了一系列有效的方法,從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。
講座嘉賓
Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、谷歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有豐富的經驗。
講座題目
社會用戶興趣挖掘:方法與應用:Social User Interest Mining: Methods and Applications
講座簡介
社交網絡上豐富的用戶生成內容提供了建立模型的機會,這些模型能夠準確有效地提取、挖掘和預測用戶的興趣,希望能夠實現更有效的用戶參與、更好質量地提供適當的服務和更高的用戶滿意度。雖然傳統的建立用戶檔案的方法依賴于基于人工智能的偏好獲取技術,這些技術可能被用戶認為是侵入性的和不受歡迎的,但最近的進展集中在確定用戶興趣和偏好的非侵入性但準確的方法上。在本教程中,我們將介紹與有效挖掘用戶興趣相關的五個重要方面: 1)用于提取用戶興趣的信息源 2)文獻中提出的各類用戶興趣簡介 3)為挖掘用戶利益而采用或提議的技術 4)最新方法的可擴展性和資源需求 5)文獻中采用的評估方法,用于驗證挖掘的用戶興趣概要的適當性。我們還將介紹現有的挑戰、開放的研究問題和激動人心的工作機會。
講座嘉賓
Fattane Zarrinkalam博士是Ryerson大學系統、軟件和語義實驗室(LS3)的博士后研究員,她在那里從事與支持語義的社交網絡分析相關的項目。在博士研究期間,她專注于根據社交網絡(尤其是Twitter)上的個人和集體行為來識別社交媒體用戶的興趣。她在CIKM、ESWC和ECIR等場館發表了自己的作品。此外,她還在包括信息檢索、信息處理和管理在內的頂級期刊上發表期刊論文。此外,在她攻讀博士學位期間,她參與了兩項向美國專利局提出的專利申請。
講座題目
工業中可解釋的人工智能:Fake News Research: Theories, Detection Strategies, and Open Problems
講座簡介
人工智能在決定我們的日常經驗方面越來越發揮著不可或缺的作用。此外,隨著基于人工智能的解決方案在招聘、借貸、刑事司法、醫療和教育等領域的普及,人工智能對個人和職業的影響是深遠的。人工智能模型在這些領域發揮的主導作用導致人們越來越關注這些模型中可能存在的偏見,以及對模型透明度和可解釋性的需求。此外,模型可解釋性是在需要可靠性和安全性的高風險領域(如醫療保健和自動化運輸)和具有重大經濟意義的關鍵工業應用(如預測性維護、自然資源勘探和氣候變化模型。 因此,人工智能研究者和實踐者把注意力集中在可解釋的人工智能上,以幫助他們更好地信任和理解大規模的模型。研究界面臨的挑戰包括(i)定義模型可解釋性,(ii)制定可解釋性任務以理解模型行為并為這些任務制定解決方案,最后(iii)設計評估模型在可解釋性任務中的性能的措施。 在本教程中,我們將概述人工智能中模型的可解釋性和可解釋性、關鍵法規/法律以及作為人工智能/建模語言系統一部分提供可解釋性的技術/工具。然后,我們將重點關注可解釋性技術在工業中的應用,其中我們提出了有效使用可解釋性技術的實際挑戰/指導方針,以及為多個web規模的機器學習和數據挖掘應用部署可解釋模型的經驗教訓。我們將介紹跨不同公司的案例研究,涉及招聘、銷售、貸款和欺詐檢測等應用領域。最后,根據我們在行業中的經驗,我們將確定數據挖掘/機器學習社區的開放性問題和研究方向。
講座嘉賓
Krishna Gade是Fiddler Labs的創始人兼首席執行官,Fiddler Labs是一家企業初創企業,它構建了一個可解釋的人工智能引擎,以解決人工智能中有關偏見、公平性和透明度的問題。克里希納是一位企業家和工程領袖,在創建可擴展平臺和令人愉悅的消費品方面有著豐富的技術經驗,他曾在Facebook、Pinterest、Twitter和微軟擔任高級工程領導職務。他曾多次應邀在著名的從業人員論壇上發表演講,包括在2019年的Strata Data Conference上就解決人工智能中的偏見、公平性和透明度問題發表演講.
講座題目
假設檢驗與統計聲音模式挖掘:Hypothesis Testing and Statistically-sound Pattern Mining
講座簡介
大量數據集的可用性突出表明,需要計算效率高、統計上可靠的方法來提取模式,同時對結果的質量提供嚴格的保證,特別是在錯誤發現方面。在本教程中,我們將介紹最近的一些方法,這些方法適當地結合了計算和統計方面的考慮,以便有效地從大型數據集中挖掘統計上可靠的模式。我們首先介紹統計假設檢驗中的基本概念,數據挖掘社區中的每個人可能都不熟悉這些概念。然后,我們將解釋如何以不同的方式處理模式挖掘中的計算和統計挑戰。最后,我們描述了這些方法在市場籃分析、子圖挖掘、社會網絡分析和癌癥基因組學等領域的應用。本教程的目的是向觀眾介紹統計假設測試,強調正確平衡模式挖掘的計算和統計方面的重要性,強調這樣做對數據挖掘研究人員的有用性,并鼓勵在這方面的進一步研究。
講座嘉賓
Leonardo Pellegrina是帕多瓦大學信息工程系信息工程專業的博士生,由法比奧·范丁教授和布朗大學客座研究員指導。他的研究活動集中在高效和統計上合理的算法,用于從大數據中發現模式,并應用到計算生物學。
論文題目: Imbalance Problems in Object Detection: A Review
論文摘要: 在本文中,我們對物體檢測中的不平衡問題進行了全面回顧。 為了系統地分析問題,我們引入了兩種分類法; 一個解決問題,另一個解決方案。 按照問題的分類法,我們深入討論每個問題,并對文獻中的解決方案提出一個統一而又批判性的觀點。 此外,我們確定了有關現有不平衡問題以及以前未討論過的不平衡問題的主要開放問題。 此外,為了使我們的評論保持最新,我們提供了一個隨附的網頁。
題目: Combating Fake News: A Data Management and Mining Perspective
簡介: 假新聞是對全球人民的主要威脅,導致人民對政府,新聞和公民社會的信任度下降。社交媒體和社交網絡在公眾中的流行引起了假新聞的蔓延,其中陰謀論,虛假信息和極端觀點盛行。發現假新聞并進行緩解是當今時代的基本問題之一,已引起廣泛關注。盡管事實調查網站(政府網站和大型公司,例如Google,Facebook和Twitter)已經采取了初步措施來解決假新聞,但仍有許多工作要做。本教程的目標是雙重的。首先,我們希望使數據庫社區熟悉其他社區在打擊假新聞方面的工作。我們提供相關領域的最新研究成果,包括檢測,傳播,緩解和干預假新聞。接下來,我們提供數據庫社區研究內容的摘要,并討論如何將其用于抵制假新聞。
嘉賓介紹:
Laks V.S. Lakshmanan是不列顛哥倫比亞大學計算機科學系的教授。 他是BC Advanced Systems Institute的研究員,并于2016年11月被任命為ACM杰出科學家。他的研究興趣涵蓋數據庫系統及相關領域的廣泛主題,包括:關系數據庫和面向對象的數據庫,OLAP和數據倉庫,數據庫挖掘,數據集成,半結構化數據和XML,信息和社交網絡及社交媒體,推薦系統和個性化。
Michael Simpson是不列顛哥倫比亞大學計算機科學系的博士后研究員。 他從維多利亞大學獲得博士學位。 他的研究興趣包括數據挖掘,社交網絡分析以及圖形問題的可伸縮算法設計。
Saravanan(Sara)Thirumuruganathan是HBKU QCRI數據分析小組的科學家。 他在德克薩斯大學阿靈頓分校獲得博士學位。 他對數據集成/清理和用于數據管理的機器學習廣泛感興趣。 Saravanan的工作已入選VLDB 2018/2012最佳論文,并獲得SIGMOD 2018研究重點獎。