亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要: 隨著互聯網的迅速發展及網絡社會媒體中用戶的增加,通過社會媒體發布和傳播信息的真實性和質量受到日益廣泛的關注.目前大部分公眾已習慣從社會媒體平臺與互聯網獲取新聞,甚至是獲取受到高度關注的話題(如新冠病毒感染癥狀)的信息.鑒于網絡信息生態系統非常嘈雜,充斥著錯誤和虛假信息并經常受到惡意媒介的污染,從中識別真實的信息成為一項艱巨任務.對此,研究者們已開始致力于虛假信息檢測和減緩虛假信息傳播影響方面的工作.討論了網絡信息生態系統中的虛假信息問題,特別是隨著新冠病毒大爆發而來的“信息疫情”.隨后,簡述了虛假信息檢測方法,分析了減緩虛假信息影響的方法,并探討了虛假信息研究中的固有挑戰.最后從跨學科角度闡述了檢測和減緩虛假信息影響的方法和未來研究展望.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200979

付費5元查看完整內容

相關內容

隨著人工智能技術的飛速發展,深度神經網絡在計算機視覺、信號分析和自然語言處理等領域中都得到了廣泛應用.自然語言處理通過語法分析、語義分析、篇章理解等功能幫助機器處理、理解及運用人類語言.但是,已有研究表明深度神經網絡容易受到對抗文本的攻擊,通過產生不可察覺的擾動添加到正常文本中,就能使自然語言處理模型預測錯誤.為了提高模型的魯棒安全性,近年來也出現了防御相關的研究工作.針對已有的研究,全面地介紹自然語言處理攻防領域的相關工作,具體而言,首先介紹了自然語言處理的主要任務與相關方法;其次,根據攻擊和防御機制對自然語言處理的攻擊方法和防御方法進行分類介紹;然后,進一步分析自然語言處理模型的可驗證魯棒性和評估基準數據集,并提供自然語言處理應用平臺和工具包的詳細介紹;最后總結面向自然語言處理的攻防安全領域在未來的研究發展方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20210304

付費5元查看完整內容

摘要: 近年來,社交網絡上虛假信息傳播愈演愈烈,在政治、經濟、心理學等方面造成了嚴重的社會影響。有效檢測社交網絡中的虛假信息并對其實施控制,是改善社交網絡生態系統質量的重要手段,能為人們營造一個安全、可信的網絡環境。文中首先通過調研近年來國內外社交網絡虛假信息領域的代表性研究,針對虛假信息中的假新聞和謠言,梳理并給出其定義、特征及傳播模型,然后介紹了目前虛假信息檢測及傳播控制的各種手段及方法,最后總結并分析了目前的檢測及控制方法中仍存在的問題,繼而進一步探討和提出了該領域未來的研究方向。

付費5元查看完整內容

情感在發現網絡虛假新聞中扮演著重要的角色。在利用情感信號時,現有的方法主要是利用發布者所傳達的新聞內容的情感(即發布者情感)。然而,虛假新聞往往是為了喚起人們的高喚醒或激活人們的情緒,像病毒一樣傳播,因此,新聞評論引起的群眾情緒(即社會情緒)是不可忽視的。此外,還需要探索出版者情緒與社會情緒(即雙重情緒)之間是否存在關系,以及雙重情緒如何在假新聞中出現。在本文中,我們提出了雙重情感特征來挖掘雙重情感及其之間的關系,用于虛假新聞的檢測。我們設計了一個通用的范例,將它插入到任何現有的檢測器作為增強。在三個真實數據集上的實驗結果表明了該特征的有效性。

//www.zhuanzhi.ai/paper/acb14d78d2e77317043f18024f4c748c

付費5元查看完整內容

基于事件社會網絡(Event-Based Social Network,EBSN)是一種結合了線上網絡和線下網絡的新型社會網絡,近年來得到了越來越多關注,已有許多國內外重要研究機構的研究者們對其進行研究并取得許多研究成果.在EBSN推薦系統中,一個重要任務就是設計出更好、更合理的推薦算法以提高推薦精確度和用戶滿意度,其關鍵在于充分結合EBSN中的各種上下文信息去挖掘用戶、事件和群組的隱藏特征.本文主要對EBSN推薦系統的最新研究進展進行綜述. 首先,概述EBSN的定義、結構、屬性和特征,介紹EBSN推薦系統的基本框架,以及分析EBSN推薦系統與其他推薦系統的區別.其次,對EBSN推薦系統的主要推薦方法和推薦內容進行歸納、總結和對比分析.最后,分析EBSN推薦系統的研究難點及其發展趨勢,并對本文作出總結.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6145&flag=1

付費5元查看完整內容

深度學習在計算機視覺領域取得了重大成功,超越了眾多傳統的方法.然而,近年來深度學習技術被濫用在假視頻的制作上,使得以Deepfakes為代表的偽造視頻在網絡上泛濫成災.這種深度偽造技術通過篡改或替換原始視頻的人臉信息,并合成虛假的語音,來制作色情電影、虛假新聞、政治謠言等.為了消除此類偽造技術帶來的負面影響,眾多學者對假視頻的鑒別進行了深入的研究,并提出一系列的檢測方法幫助機構或社區來識別此類偽造視頻.盡管如此,目前的檢測技術仍然存在依賴特定分布數據、特定壓縮率等眾多的局限性,遠遠落后于假視頻的生成技術.并且,不同的學者解決問題的角度不同,使用的數據集和評價指標均不統一.迄今為止,學術界對深度偽造與檢測技術仍缺乏統一的認識,深度偽造和檢測技術研究的體系架構尚不明確.在本綜述中,我們回顧了深度偽造與檢測技術的發展,并對現有研究工作進行了系統的總結和科學的歸類.最后,我們討論了深度偽造技術蔓延帶來的社會風險,分析了檢測技術的諸多局限性,并探討了檢測技術面臨的挑戰和潛在研究方向,旨在為后續學者進一步推動深度偽造檢測技術的發展和部署提供指導.

近年來,以 Deepfakes [1]為代表的換臉技術開始在網絡興起.此類技術可將視頻中的人臉替換成目標人物, 從而制作出目標人物做特定動作的假視頻.隨著深度學習技術的發展,自動編碼器、生成對抗網絡等技術逐漸 被應用到深度偽造中.由于 Deepfakes 技術只需要少量的人臉照片便可以實現視頻換臉,一些惡意用戶利用互聯網上可獲取的數據生成眾多的假視頻并應用在灰色地帶,如將色情電影的女主角替換成女明星,給政客、公司高管等有影響力的人偽造一些視頻內容,從而達到誤導輿論,贏得選取,操縱股價等目的.這些虛假視頻內容 極其逼真,在制作的同時往往伴隨著音頻的篡改,使得互聯網用戶幾乎無法鑒別.如果這些深度偽造的內容作為新聞素材被制作傳播,這會損害新聞機構的聲譽和公眾對媒體的信心.更深層次的,當遇到案件偵查和事故取證時,如果缺乏對 Deepfakes 類虛假影像資料的鑒別,將對司法體系產生巨大的挑戰.盡管深度偽造技術有其積極的一面,如“復活”一些去世的人進行影視創作,以及 Zao APP[2]提供大眾換臉娛樂服務等,但是目前負面影響遠遠大于正面,擁有鑒別此類深度偽造視頻的能力變得尤為重要.

為了盡量減少深度偽造技術帶來的影響,消除虛假視頻的傳播,學術界和工業界開始探索不同的深度偽 造檢測技術.相繼有學者構造數據集,展開對 Deepfakes 檢測的多角度研究.臉書公司也聯合微軟一起舉辦全 球 Deepfakes 檢測競賽[3]以推動檢測技術的發展.然而這些 Deepfakes 檢測工作各有側重,存在眾多局限性.針 對本領域的綜述工作還比較缺乏,只有針對早期圖像篡改工作的一些總結[4][5],亟需對現有工作進行系統的整 理和科學的總結、歸類,以促進該領域的研究.

本文首先在第1節中介紹深度偽造的各種相關技術,在第2節中列舉了當下深度偽造研究的數據集,接著 在第 3 節中對現有的深度偽造檢測技術進行系統的總結和歸類.第 4 節我們討論了深度偽造生成和檢測技術 的雙面對抗性,第 5 節我們總結了面臨的挑戰和未來可行的研究方向.最后,在第 6 節,我們對全文的工作進行 總結.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6140&flag=1

付費5元查看完整內容

【導讀】互聯網的發展是一把雙刃劍,一方面讓人們可以很便捷地獲取和分享信息,另一方面也滋生了假信息泛濫,造成很多嚴重的后果。如何利用人工智能機器學習數據挖掘技術治理緩解虛假信息的影響?是整個研究界關心的話題。最近,亞利桑那州立大學(Arizona State University)的Kai Shu、Huan Liu和賓夕法尼亞州立大學的Suhang Wang和Dongwon Lee共同撰寫關于虛假信息和假新聞檢測的概述進展《Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements》,詳述了虛假信息、錯誤信息、惡意信息的概念的方法體系,值得參閱。

地址:

//www.zhuanzhi.ai/paper/60a812267d38d28ed4d4e33f288a619e

摘要

近年來,由于假新聞等虛假信息的爆炸性增長,尤其是在社交媒體上,已經成為一種全球現象。虛假信息和假新聞的廣泛傳播會造成有害的社會影響。盡管近年來在發現虛假信息和假新聞方面取得了進展,但由于其復雜性、多樣性、多模態性和事實核查或注釋的成本,它仍然是非常具有挑戰性。本章的目的是通過: (1) 介紹社交媒體上信息混亂的類型,并研究它們之間的差異和聯系,為理解這些挑戰和進步鋪平道路; (2) 描述重要的和新興的任務,以打擊虛假信息的表征、檢測和歸因; (3) 討論了利用有限的標記數據檢測虛假信息的弱監督方法。然后,我們提供了本書章節的概述,這些章節代表了三個相關部分的最新進展: (一) 用戶參與信息傳播的混亂; (二) 發現和減少虛假信息的技術; (三) 倫理學、區塊鏈、clickbaits等趨勢問題。我們希望這本書能成為研究人員、實踐者和學生了解問題和挑戰的一個方便的入口,為他們的特定需求學習最先進的解決方案,并快速識別他們領域的新研究問題。

概要

社交媒體已經成為一種流行的信息搜索和新聞消費手段。由于通過社交媒體提供和傳播在線新聞的門檻低、速度快,大量的虛假信息如假新聞變得泛濫。在美國,那些故意提供虛假信息的新聞文章是出于各種各樣的目的而在網上發布的,其目的從經濟利益到政治利益不等。我們以假新聞為例。虛假新聞的廣泛傳播會對個人和社會產生嚴重的負面影響。首先,假新聞會影響讀者對新聞生態系統的信心。例如,在很多情況下,在2016年美國總統大選期間,最受歡迎的假新聞在Facebook上比主流新聞更受歡迎和廣泛傳播。其次,假新聞故意說服消費者接受有偏見或錯誤的信仰,以獲取政治或經濟利益。例如,2013年,美聯社(AP)在推特上發布消息稱巴拉克·奧巴馬(Barack Obama)受傷,導致1300億美元的股票價值在短短幾分鐘內蒸發殆盡。美聯社稱其推特賬戶遭到黑客攻擊。第三,假新聞改變了人們解讀和回應真實新聞的方式,阻礙了他們分辨真假的能力。因此,了解虛假新聞的傳播方式,開發有效、準確的假新聞檢測和干預的數據挖掘技術,緩解虛假新聞傳播的負面影響至關重要。

這本書的目的是把研究人員,從業人員和社會媒體供應商聚集在一起,以了解傳播,改善檢測和減少虛假信息和假新聞在社會媒體。接下來,我們從不同類型的信息無序開始。

1 信息失序 INFORMATION DISORDER

信息失序是近年來備受關注的一個重要問題。社交媒體的開放性和匿名性為用戶分享和交流信息提供了便利,但也使其容易受到不法活動的侵害。雖然新聞學研究了虛假信息和虛假信息的傳播,但是社交網絡平臺的開放性,加上自動化的潛力,使得信息的無序迅速傳播到大量的人群中,這帶來了前所未有的挑戰。一般來說,信息無序可以分為三種主要類型: 虛假信息、錯誤信息和惡意信息[1]。虛假信息是故意散布以誤導和/或欺騙的虛假或不準確的信息。錯誤信息是指一個人沒有意識到它是假的或誤導的,而分享的虛假內容。惡意信息是指為了造成傷害而共享的真實信息。此外,還有一些其他相關類型的信息混亂[2,3]: 謠言是一個故事在人與人之間傳播,其中的真相是未經核實或可疑的。謠言通常出現在模棱兩可或具有威脅性的事件中。當謠言被證明是虛假的,它就是一種虛假信息; 都市傳奇是一個虛構的故事,包含了與當地流行文化相關的主題。都市傳奇的陳述和故事通常是假的。都市傳奇通常描述不尋常的、幽默的或可怕的事件; 垃圾郵件是發送給大量收件人的不請自來的信息,包含不相關或不恰當的信息,是不需要的。

虛假或誤導性信息的傳播往往具有動態性,導致不同類型信息之間的無序交換。一方面,虛假信息會變成錯誤信息。例如,虛假信息制造者可以在社交媒體平臺上故意發布虛假信息。看到這些信息的人可能不知道這些信息是假的,并在他們的社區中使用他們自己的框架來分享這些信息。另一方面,虛假信息也可以轉化為虛假信息。例如,一則諷刺新聞可能被有意地斷章取義,誤導消費者。虛假信息的一個典型例子是假新聞。我們用它作為一個具體的案例研究來說明挖掘虛假信息的問題和挑戰。

圖1: 虛假信息、錯誤信息和惡意信息之間的關系,以及具有代表性的例子。此外,虛假信息和錯誤信息可以相互轉化。

信息扭曲(Information Disorder)的三個類型:

為了理解和研究信息生態系統的復雜性,我們需要一種共同的語言。目前對“假新聞”等簡單化術語的依賴掩蓋了重要的區別,它也過分關注“真實”與“虛假”,而信息扭曲則帶有許多“誤導”的影子。

Misinformation 錯誤信息(Falseness 虛假)

無意錯誤,如不準確的文字說明、日期、統計數據或翻譯,或諷刺性內容被嚴肅對待。

Disinformation 虛假信息(Falseness 虛假、Intent to harm 有意傷害)

捏造或故意操縱的內容。故意制造陰謀論或謠言。

Malinformation 惡意信息(Intent to harm 有意傷害)

為個人或公司利益而不是公眾利益而故意發布私人信息,如報復性的色情內容。故意改變真實內容的上下文、日期或時間。

1.1 假新聞是虛假信息的一個例子

在這一小節中,我們將展示如何通過社交媒體數據來識別、檢測虛假信息(假新聞)并賦予其屬性。假新聞通常指的是那些故意且可證實為虛假的、可能誤導讀者的新聞文章[4,5]。

對于特征描述,目標是了解信息是惡意的,有無害的意圖,還是有其他深刻的特征。當人們創造和傳播虛假信息時,他們通常有一個特定的目的或意圖。例如,在欺騙的背后可能有許多意圖,包括: (1) 說服人們支持個人、團體、想法或未來的行動; (2)說服他人反對個人、團體、思想或者未來的行為; (3)對某個人、團體、想法或未來的行動產生情緒反應(恐懼、憤怒或高興),希望得到支持或反對; (4)教育(例如:,關于疫苗接種威脅);(5) 防止令人尷尬或者犯罪的行為被人相信; (6)夸大某事的嚴重性(例如,政府官員使用私人郵件); (7)混淆過去的事件和活動(例如:在美國,美國是真的登上了月球,還是只是在地球上的沙漠里?或(8)說明發現虛假信息對社交平臺的重要性(如,伊麗莎白·沃倫和馬克·扎克伯格爭論)。在端到端模型中加入特征嵌入,如索賠和證據之間的因果關系,可以使用[6]來檢測意圖,如勸誘影響檢測[7]。一旦我們確定了一篇欺騙性新聞文章背后的意圖,我們就可以進一步了解這一意圖的成功程度: 這一意圖成功達到其預期目的的可能性有多大。我們可以考慮以社會理論為基礎的病毒營銷手段來幫助描述。社會心理學指出,社會影響(新聞文章的傳播范圍)和自我影響(用戶已有的知識)是虛假信息傳播的有效代理。來自社會和自身的更大影響會扭曲用戶的感知和行為,使其相信一篇新聞文章,并無意中參與到其傳播中。計算社會網絡分析[9]可以用來研究社會影響如何影響個人的行為和/或信念暴露在虛假信息和假新聞。

當考慮整個新聞生態系統而不是個人消費模式時,社會動態就會出現,從而導致虛假信息的擴散。根據社交同質性理論,社交媒體用戶傾向于追隨志趣相投的朋友,從而獲得新聞宣傳他們現有的敘述,從而產生回音室效應。為了獲得細粒度的分析,我們可以將傳播網絡按照層次結構進行處理,包括宏觀層面的發布、轉發和微觀層面的回復[10],這表明信息層次傳播網絡中的結構和時間特征在虛假信息和真實新聞之間存在統計學差異。這可以為純粹基于意圖的視角提供特征描述的補充,例如放大虛假信息的優先級,這些虛假信息在與善意的意圖共享后可能很快產生不良影響(例如,最初,幽默)。

檢測的目標是在早期或通過可解釋的因素有效地識別錯誤信息。由于假新聞試圖在新聞內容中傳播虛假信息,因此最直接的檢測方法就是對新聞文章中主要內容的真實性進行檢測,從而判斷新聞的真實性。傳統新聞媒體的假新聞檢測主要依靠對新聞內容信息的挖掘。新聞內容可以有多種形式,如文本、圖像、視頻。研究探索了從單一或組合模式中學習特征的不同方法,并建立了機器學習模型來檢測假新聞。除了與新聞文章內容直接相關的功能外,還可以從社交媒體平臺上新聞消費的用戶驅動的社交參與中衍生出額外的社交上下文功能。社會契約代表了新聞隨時間的擴散過程,它為推斷新聞文章的準確性提供了有用的輔助信息。一般來說,我們想要表現的社會媒體環境主要有三個方面:用戶、生成的帖子和網絡。首先,假新聞很可能由非人類賬戶(如社交機器人或電子人)創建和傳播。因此,通過基于用戶的特征捕獲用戶的個人信息和行為,可以為假新聞檢測[11]提供有用的信息。第二,人們通過社交媒體上的帖子來表達他們對假新聞的情感或觀點,比如懷疑的觀點和聳人聽聞的反應。因此,從帖子中提取基于帖子的特征,通過公眾的反應來幫助發現潛在的假新聞是合理的。第三,用戶在社交媒體上形成不同類型的興趣、話題和關系網絡。此外,假新聞傳播過程往往形成一個回音室循環,突出了提取網絡特征檢測假新聞的價值。

假新聞通常包含多種形式的信息,包括文本、圖像、視頻等。因此,利用多模態信息來提高檢測性能具有很大的潛力。首先,現有的工作側重于提取語言特征,如用于二分類的詞匯特征、詞匯、情感和可讀性,或者學習具有神經網絡結構的神經語言特征,如卷積神經網絡(CNNs)和遞歸神經網絡(RNNs)[12]。其次,視覺線索主要從視覺統計特征、視覺內容特征和神經視覺特征[13]中提取。可視化統計特征表示附加到虛假/真實新聞片段的統計信息。視覺內容特征是描述圖像內容的清晰度、連貫性、多樣性等因素。神經視覺特征是通過神經網絡(如CNNs)來學習的。此外,近年來從圖像中提取視覺場景圖譜以發現常識[14]的研究進展,極大地提高了從視覺內容中提取結構化場景圖的能力。

對于歸因attribution,目標是驗證所謂的來源或提供者和相關的歸因證據。社交媒體中的歸屬搜索是一個新的問題,因為社交媒體缺乏一個集中的權威或機制來存儲和驗證社交媒體數據的來源。從網絡擴散的角度來看,種源識別就是尋找一組關鍵節點,使信息傳播最大化。確定種源路徑可以間接找到起源種源。信息的出處通常是未知的,對于社交媒體上的虛假信息和誤傳,這仍然是一個公開的問題。信息源路徑描述了信息如何從源傳播到沿途的其他節點,包括負責通過中介重新傳輸信息的節點。我們可以利用社會化的特性來追溯[15]的來源。基于度傾向和貼近傾向假設[16],離節點越近的節點,其有較高度中心性的節點越有可能是變送器。在此基礎上,通過圖優化的方法,估計出在給定的種源節點集合上的頂級發射機。我們計劃開發新的算法,可以結合網絡結構以外的信息,如節點屬性和時間信息,以更好地發現源。

深度學習的成功,尤其是深度生成模型,機器生成的文本可以成為一種新的虛假新聞,它流暢、易讀、容易記住,這帶來了新的歸屬來源。例如,通過對抗性訓練,提出了SeqGAN[17]、MaliGAN[18]、LeakGAN[19]、MaskGAN[20]等語言生成模型,并提出了基于Transformer[21]的多任務學習無監督模型,如GPT-2[22]、Grover[23]等語言生成模型。一個重要的問題是考慮機器生成的合成文本,并提出解決方案來區分哪些模型用于生成這些文本。可以對不同文本生成算法的數據進行分類,探索決策邊界。數據集可以從VAE、SeqGAN、TextGAN、MaliGAN、GPT-2、Grover等代表性語言生成模型中獲取。此外,元學習還可以從少量的訓練實例中預測新的文本生成源。此外,一些生成模型如:SentiGAN [24], Ctrl [25], PPLM[26],可以生成程式化的文本,對特定的風格進行編碼,如:emotional, catchy。在預測模型中,消除偽相關是非常重要的。利用對抗式學習從合成文本中分離出風格因素,并開發具有恢復不同文本生成模型之間可轉移特征能力的預測模型。

2 薄弱社會監督力度 THE POWER OF WEAK SOCIAL SUPERVISION

社交媒體讓用戶可以隨時隨地與任何人進行聯系和互動,這也讓研究人員可以用新的視角以前所未有的規模觀察人類的行為。用戶對新聞文章(包括在社交媒體上發布、評論或推薦新聞)等信息的參與,隱含著用戶對新聞的判斷,并可能成為虛假信息和假新聞檢測的標簽來源。

然而,與傳統數據明顯不同的是,社交媒體數據是大規模的、不完整的、嘈雜的、非結構化的,具有豐富的社會關系。這種新的(但較弱的)數據類型要求結合社會理論和統計數據挖掘技術的新的計算分析方法。由于社交媒體參與的性質,我們將這些信號稱為弱社會監督(WSS)。在社會監督較弱的情況下,我們可以學習如何更有效地理解和發現虛假信息和假新聞,具有可解釋性,在早期階段等。一般來說,社交媒體參與主要有三個方面:用戶、內容和關系(參見圖2)。第二,用戶通過發帖/評論來表達自己的觀點和情緒。第三,用戶通過各種社區在社交媒體上形成不同類型的關系。弱社會監督的目標是利用來自社交媒體的信號,獲得對各種下游任務的弱監督。與弱監督類似,我們可以用弱標簽和弱約束的形式來利用弱社會監督。

圖2: 社會監督下學習理解和發現虛假信息和假新聞的示意圖。

2.1 利用WSS理解虛假信息

人類天生就不善于區分錯誤信息和虛假信息。認知理論解釋了這一現象,如樸素實在論和確認偏誤。虛假信息主要是利用新聞消費者的個人弱點來攻擊消費者。由于這些認知偏見,假新聞等虛假信息往往被視為真實。人類對假新聞的脆弱性一直是跨學科研究的主題,這些研究結果為開發越來越有效的檢測算法提供了依據。為了了解虛假信息和假新聞在社交媒體中的影響,我們可以使用技術來描述不同類型WSS的傳播特征:1)來源(可信度/可靠性、信任、立場/世界觀、意圖)[27,28];2)目標社會群體(偏見、人口統計學、立場/世界觀)[11];3)內容特征(語言、視覺、語境、情感基調與密度、長度與連貫性)[5,8];4)它們與網絡交互的性質(例如,內聚的、分離的)[9]。例如,這些理論的影響可以通過測量用戶元數據[11]來量化,從而回答“為什么人們容易受到假新聞的影響?”或者“特定群體的人更容易受到某些類型假新聞的影響嗎?”

社會認同理論等社會理論認為,偏好社會接受和肯定對于一個人的身份和自尊是至關重要的,這使得用戶在消費和傳播新聞信息時更傾向于選擇“社會安全”的選項。根據社交同質性理論,社交媒體上的用戶往往會關注和加好友的人是志趣相投的人,從而得到新聞宣傳他們現有的敘述,產生回音室效應。定量分析是一個有價值的工具,用來驗證這些理論是否、如何以及多大程度上可以預測用戶對假新聞的反應。在[29]中,作者試圖證明新聞分層傳播網絡中的結構和時間視角會影響假新聞消費,這表明在打擊假新聞的斗爭中,社會監督薄弱的額外來源是有價值的。為了獲得細粒度的分析,傳播網絡被處理為層次結構,包括宏觀級別(以發布、轉發的形式)和微觀級別(以回復的形式)的傳播網絡。從結構、時間和語言三個方面分析了虛假新聞與真實新聞在層次傳播網絡上的差異。

2.2 利用WSS檢測虛假信息

發現虛假信息和假新聞提出了獨特的挑戰,使它變得不容易。首先,數據挑戰一直是一個主要的障礙,因為假新聞和虛假信息的內容在主題、風格和媒體平臺上相當多樣化;假新聞試圖用不同的語言風格來歪曲事實,同時嘲諷真實的新聞。因此,獲取帶注釋的假新聞數據是不可擴展的,特定于數據的嵌入方法不足以檢測只有少量標記數據的假新聞。其次,虛假信息和假新聞的挑戰在不斷演變,也就是說,假新聞通常與新出現的、時間緊迫的事件有關,由于缺乏確證的證據或主張,這些事件可能沒有得到現有知識庫(知識庫)的適當驗證。為了解決這些獨特的挑戰,我們可以學習在社會監督薄弱的情況下,在不同的挑戰性場景中,如有效的、可解釋的和早期的檢測策略中,發現虛假信息和假新聞。這些算法的結果為檢測假新聞提供了解決方案,也為研究人員和從業者解釋預測結果提供了見解。

有效偵測虛假信息

圖3: 社會監督下的TriFN學習模型,來自發布者偏差和用戶可信度,用于有效地檢測虛假信息[30]。

其目的是利用微弱的社會監督作為輔助信息,有效地進行虛假信息的檢測。以交互網絡為例,對新聞傳播過程中的實體及其關系進行建模,以發現虛假信息。交互網絡描述了不同實體(如發布者、新聞片段和用戶)之間的關系(見圖3)。考慮到交互網絡,目標是通過建模不同實體之間的交互,將不同類型的實體嵌入到相同的潛在空間中。利用框架trif -relationship for Fake news detection (TriFN)[30],可以利用新聞的合成特征表示來執行虛假信息檢測。

在社會學和認知理論的啟發下,衍生出弱社會監督規則。例如,社會科學研究表明,以下觀察結果有助于我們薄弱的社會監督:人們傾向于與志趣相投的朋友建立關系,而不是與有著相反的偏好和興趣的用戶建立關系。因此,有聯系的用戶更有可能在新聞中分享相似的潛在興趣。此外,對于出版關系,可以探討以下薄弱的社會監督:政治偏見程度高的出版商更容易發布虛假信息。此外,對于傳播關系,我們有:低可信度的用戶更可能傳播虛假信息,而高可信度的用戶不太可能傳播虛假信息。利用非負矩陣因式分解(NMF)等技術,通過對弱社會監督的編碼來學習新聞表征。在真實數據集上的實驗表明,TriFN能夠達到0.87的檢測精度。

圖4: 可解釋虛假信息檢測[31]的社會監督學習deFEND模型。

用解釋來證實虛假信息。以假新聞為例,可解釋虛假信息檢測的目的是獲取top-k可解釋的新聞句子和用戶評論,用于虛假信息的檢測。它有可能改進檢測性能和檢測結果的可解釋性,特別是對于不熟悉機器學習方法的終端用戶。可以看出,新聞內容中并不是所有的句子都是假的,事實上,很多句子是真的,只是為了支持錯誤的索賠句。因此,新聞句子在判斷和解釋一則新聞是否是假的方面可能不是同等重要的。類似地,用戶的評論可能包含一些重要方面的相關信息,這些信息可以解釋為什么一條新聞是假的,而它們提供的信息和噪音可能也較少。可以使用以下較弱的社會監督:與原始新聞片段內容相關的用戶評論有助于發現假新聞并解釋預測結果。在[31]中,它首先使用帶有注意力的雙向LSTM來學習句子和評論表示,然后利用一個叫做dEFEND的句子-評論-注意神經網絡框架(參見圖4)來利用新聞內容和用戶評論來共同捕獲可解釋的因素。實驗表明,dEFEND在準確性(~0.9)和F1(~0.92)。另外,dEFEND可以發現可解釋的注釋,提高預測結果的可表達性。

虛假信息的早期預警。假新聞等虛假信息往往與新出現的、時間緊迫的事件有關,由于缺乏確鑿的證據,現有的知識庫或網站可能無法對這些事件進行核實。此外,在早期階段檢測虛假信息需要利用來自用戶參與的最小信息預測模型,因為廣泛的用戶參與表明更多的用戶已經受到虛假信息的影響。社交媒體數據是多面性的,表明新聞片段與社交媒體傳播者之間存在多種異構關系。首先,用戶的帖子和評論有豐富的人群信息,包括觀點、立場和情緒,這對發現假新聞很有用。之前的研究表明,傳播者之間的矛盾情緒可能預示著虛假新聞的高概率[32,33]。其次,不同的用戶有不同的可信度。最近的研究表明,一些不太可信的用戶更有可能傳播假新聞。這些來自社交媒體的發現很有可能為早期發現假新聞帶來更多信號。因此,我們可以同時利用和學習來自社交媒體的多源頭的弱社會監督(以弱標簽的形式)來推進早期的假新聞檢測。

關鍵思想是,在模型訓練階段,除了有限的干凈標簽外,還使用社會上下文信息來定義弱規則,以獲得弱標記的實例來幫助訓練。在預測階段(如圖5所示),對于測試數據中的任何一條新聞,只需要新聞內容,根本不需要社交活動,因此可以在非常早期的階段發現假新聞。可以使用深度神經網絡框架,其中較低層的網絡學習新聞文章的共享特征表示,而較高層的網絡分別建模從特征表示到每個不同監管源的映射。框架MWSS的目標是,除了干凈的標簽外,聯合開發多個薄弱社會監督的來源。為了提取福利標簽,需要考慮以下幾個方面,包括情感、偏見和可信度。

圖5: MWSS框架,用于從社交媒體數據中進行多重弱監督學習,以便及早發現虛假信息。

  1. 發展趨勢

假新聞和虛假信息是新興的研究領域,存在一些重要但尚未在當前研究中得到解決(或徹底解決)的公開問題。我們簡要描述有代表性的未來方向如下。

解釋方法。近年來,假新聞的計算機檢測已經產生了一些有希望的早期結果。然而,該研究有一個關鍵部分,即這種檢測的可解釋性。,為什么一條特定的新聞被認為是假的。最近的方法嘗試從用戶評論[31]和web文檔[38]中獲得解釋因子。其他類型的用戶約定(如用戶配置文件)也可以建模以增強可解釋性。此外,解釋為什么人們容易輕信假新聞并傳播它是另一個關鍵的任務。解決這一問題的一種方法是從因果發現的角度,通過推斷有向無環圖(DAG),進一步估計用戶的治療變量及其傳播行為。

神經網絡假新聞的生成與檢測. 假新聞一直是社交媒體上的一個重要問題,而強大的深度學習模型由于具有生成神經假新聞[23]的能力而被放大。在神經假新聞生成方面,最近的進展允許惡意用戶根據有限的信息生成假新聞。生成式對抗網絡(GAN)[19]等模型可以從噪聲中生成長可讀的文本,而GPT-2[22]可以編寫具有簡單上下文的新聞故事和小說。現有的假新聞生成方法可能無法生成風格增強和事實豐富的文本,這些文本保留了與新聞聲明相關的情感/朗朗上口的風格和相關主題。檢測這些神經假新聞首先需要了解這些假新聞的特點和檢測難度。Dirk Hovy等人提出了一種對抗性設置來檢測生成的評論[39]。[23]和[40]提出了神經生成檢測器,它可以對生成器的前一個檢查點上的分類器進行微調。(1)如何利用神經生成模型生成假新聞?我們能區分人工生成和機器生成的假/真新聞嗎?

早期發現虛假信息. 早期發現虛假信息和假新聞是為了防止大量的人受到影響。之前的大部分工作都是學習如何從新聞內容和社會背景中提取特征,建立機器學習模型來檢測假新聞,一般都是考慮了二分類的標準場景。最近的研究考慮了這樣一種情況:很少甚至沒有用戶參與被用來預測假新聞。例如,Qian等人提出生成合成用戶契約來幫助檢測假新聞[41]; Wang等人提出了一個事件不變的神經網絡模型,學習可轉移的特征來預測新出現的新聞片段是否是假的。在2.2節中,我們還討論了如何利用不同類型的WSS對假新聞進行早期檢測。我們可以使用更復雜的方法來增強這些技術,而這些方法依賴于更少的訓練數據,例如,用小樣本學習[42]來早期檢測假新聞。

基于假信息的交叉主題建模。假新聞的內容在話題、風格和媒體平臺[33]上都表現得相當多樣化。對于一個真實世界的假新聞檢測系統來說,由于標簽成本高昂,獲取每個領域(如娛樂和政治是兩個不同的領域)豐富的標簽數據往往是不現實的。因此,假新聞檢測通常在單域設置下進行,并且提出了監督[43]或非監督方法[44,45]來處理有限甚至未標記的域。然而,性能在很大程度上是有限的,因為過度擬合小標記樣品或沒有任何監督信息。此外,在一個領域中學習的模型可能是有偏見的,并且可能在不同的目標領域中表現不好。解決這一問題的一種方法是利用領域適應技術探索輔助信息,將知識從源領域轉移到目標領域。此外,還可以利用諸如對抗性學習等先進的機器學習策略來進一步捕獲主題不變的特征表示,從而更好地檢測新出現的虛假信息。

參考文獻:

[1] Claire Wardle and Hossein Derakhshan. Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe Report, 27, 2017.

[2] Liang Wu, Fred Morstatter, Kathleen M Carley, and Huan Liu. Misinformation in social media: Definition, manipulation, and detection. ACM SIGKDD Explorations Newsletter, 21(2):80–90, 2019.

[3] Xinyi Zhou and Reza Zafarani. Fake news: A survey of research, detection methods, and opportunities. arXiv preprint arXiv:1812.00315, 2018.

[4] Edson C Tandoc Jr, Zheng Wei Lim, and Richard Ling. Defining “fake news” a typology of scholarly definitions. Digital journalism, 6(2):137–153, 2018.

付費5元查看完整內容
北京阿比特科技有限公司