介紹
我們對社交網絡的體驗在短暫的瞬間中閃過,通常不會再回頭。在Instagram上點贊照片,在Facebook上分享別人發布的帖子,或者在WhatsApp上給朋友發消息,不管是什么具體的互動,我們只做一次,之后可能就不會再去想它了。 但從刷屏、點擊到狀態更新,我們的在線生活正被社交媒體公司捕捉,并被一些世界上最大的數據服務器使用。我們產生的數據比以往任何時候都多。從整體上看這些數據點,我們可以對人類行為有更深刻的了解。我們還可以調查這些系統所造成的危害,從檢測虛假的在線參與者(例如,自動的機器人賬戶或散布錯誤信息的虛假檔案)到理解算法是如何隨著時間的推移向瀏覽者展示有問題的內容。如果我們一起看這些數據點,我們可以發現模式、趨勢或異常,并希望能更好地理解我們在網上認識和塑造人類體驗的方式。這本書旨在幫助那些想要從簡單地觀察社交網絡的一個帖子或推特,在更大的,更有意義的范圍內理解它的人。
什么是數據分析?
任何數據分析師的主要目標都是從大量信息中獲得有用的觀點。我們可以把數據分析看作是采訪大量記錄的一種方式:我們可以詢問不尋常的單個事件,或者我們可以觀察長期趨勢。了解一個數據集可能是一個漫長的過程,有各種曲折:它可能需要幾種不同的方法來找到我們的問題的答案,同樣的,它可能需要幾個不同的會見來了解受訪者。 即使我們的問題簡單而集中,要得到答案仍然需要我們做出一些邏輯上和哲學上的抉擇。什么樣的數據集可以用來檢查我們自己的行為,以及我們如何獲得這些數據?如果我們想要確定一個Facebook帖子的受歡迎程度,我們會用反應的數量(喜歡,hahas, wow,等等)來衡量嗎?收到的評論的數量,還是兩種指標的組合?如果我們想要更好地了解人們如何在Twitter上討論一個特定的話題,對相關的tweet進行分類的最佳方式是什么? 因此,雖然分析數據需要一定的技術技巧,但它也是一個創造性的過程,需要我們有意識地、知情地使用我們的判斷。換句話說,數據分析既是科學也是藝術。
誰適合使用這本書?
這本書是為那些以前幾乎沒有編程經驗的人寫的。考慮到社會媒體、互聯網和技術在我們生活中的巨大作用,這本書旨在以一種容易理解和直接的方式探索它們。通過實踐練習,您將學習編程、數據分析和社交網絡的基本概念。在某種程度上,這本書的目標讀者就像我以前的自己一樣,一個對世界充滿強烈好奇的人,但也被充滿術語的論壇、會議和在線教程嚇到了。我們將從宏觀和微觀兩方面入手,研究社交網絡的生態系統以及編寫代碼的細節。編程不僅僅是構建機器人或應用程序的一種方式:它是在一個越來越依賴技術的世界中滿足你好奇心的一種方式。
內容概要
本書的各個章節都是按照數據探索的旅程來構建的。我們將從介紹如何以及在哪里從社交網絡中找到數據開始。畢竟,我們需要數據才能進行分析!然后,在后面的章節中,您將學習處理、探索和分析我們挖掘的數據所必需的工具。
第一部分:數據挖掘
第一章:你需要知道的編程語言,介紹了前端語言(HTML, CSS和JavaScript),以及為什么它們在社交媒體數據挖掘中很重要。您還將通過交互式shell中的實踐練習學習Python的基礎知識。
第2章:從哪里獲取數解釋了什么是api,什么類型的數據可以通過它們訪問,并指導您如何訪問JSON格式的數據。本章還涵蓋了為數據分析制定研究問題的過程。
第3章:用代碼獲取數據,向您展示了如何收集從YouTube API返回的數據,并使用Python將其從JSON重構為電子表格,特別是.csv文件。
第4章:抓取你自己的Facebook數據定義抓取和描述如何檢查HTML以將內容從web頁面結構成數據。本文還介紹了社交媒體公司為用戶提供的數據存檔,以及如何將數據提取到.csv文件中。
第5章:抓取實時站點的解釋抓取網站的道德考慮,并帶領你完成為維基百科頁面撰寫抓取的過程。
第二部分:數據分析
主題: Graph Neural Networks with Continual Learning for Fake News Detection from Social Media
摘要: 盡管已經花費大量精力進行事實核查,但假新聞在社交媒體上的普遍使用對司法,公眾信任以及我們整個社會都產生了深遠影響,仍然是一個嚴重的問題。在這項工作中,我們專注于基于傳播的虛假新聞檢測,因為最近的研究表明,虛假新聞和真實新聞在網絡上的傳播方式不同。具體來說,考慮到圖神經網絡(GNN)處理非歐氏數據的能力,我們使用GNN區分社交媒體上的假新聞和真實新聞的傳播方式。具體來說,我們集中在兩個問題上:(1)在不依賴任何文本信息(例如推文內容,回復和用戶描述)的情況下,GNN如何準確地識別假新聞?眾所周知,機器學習模型容易受到對抗性攻擊,而避免依賴于基于文本的功能會使模型不易受到高級假新聞造假者的操縱。 (2)如何處理看不見的新數據?換句話說,在給定的數據集上訓練的GNN如何在新的且可能完全不同的數據集上執行?如果性能不能令人滿意,我們如何解決該問題而又不從頭開始對整個數據重新訓練模型,而隨著數據量的增長,這在實踐中將變得過高地昂貴?我們在具有數千個帶有標簽新聞的兩個數據集上研究了上述問題,我們的結果表明:(1)GNN確實可以實現可比或更高的性能,而無需任何文本信息即可達到最新方法。 (2)在給定的數據集上訓練的GNN在新的,看不見的數據上可能表現不佳,并且直接增量訓練無法解決問題-在以前的將GNN用于偽造新聞檢測的工作中,尚未解決此問題。為了解決該問題,我們提出了一種方法,該方法通過使用持續學習中的技術逐步訓練GNN,從而在現有數據集和新數據集上均達到平衡的性能。
首先加速介紹R生態系統、編程語言和工具,包括R腳本和RStudio。通過使用許多例子和項目,這本書教你如何將數據導入R,以及如何使用R處理這些數據。一旦基礎扎實,《實用R 4》的其余部分將深入具體的項目和例子,從使用R和LimeSurvey運行和分析調查開始。接下來,您將使用R和MouselabWeb執行高級統計分析。然后,您將看到在沒有統計信息的情況下R如何工作,包括如何使用R自動化數據格式化、操作、報告和自定義函數。
本書的最后一部分討論了在服務器上使用R;您將使用R構建一個腳本,該腳本可以運行RStudio服務器并監視報表源的更改,以便在發生更改時向用戶發出警報。這個項目包括定期電子郵件提醒和推送通知。最后,您將使用R創建一個定制的個人最重要信息的每日綱要報告,例如天氣報告、每日日歷、待辦事項等等。這演示了如何自動化這樣一個過程,以便用戶每天早上導航到相同的web頁面并獲得更新的報告。
你將學到什么
這本書是給誰的
使用Microsoft Excel中流行的數據挖掘技術,更好地理解機器學習方法。
軟件工具和編程語言包接受數據輸入并直接交付數據挖掘結果,對工作機制沒有任何見解,并在輸入和輸出之間造成了鴻溝。這就是Excel可以提供幫助的地方。
Excel允許您以透明的方式處理數據。當您打開一個Excel文件時,數據立即可見,您可以直接使用它。在執行挖掘任務時,可以檢查中間結果,從而更深入地理解如何操作數據和獲得結果。這些是隱藏在軟件工具和編程語言包中的模型構建過程的關鍵方面。
這本書教你通過Excel進行數據挖掘。您將了解當數據集不是很大時Excel在數據挖掘方面的優勢。它可以為您提供數據挖掘的可視化表示,在結果中建立信心。您將手動完成每一個步驟,這不僅提供了一個主動學習體驗,而且還告訴您挖掘過程是如何工作的,以及如何發現數據內部隱藏的模式。
你將學到什么
這本書是給誰的
題目:
Mining Anomalies using Static and Dynamic Graphs
簡介:
在許多情況下,例如安全性,醫療保健,財務和網絡,異常檢測,即稀有或異常模式是一個緊迫的問題。審查欺詐和網絡入侵攻擊之類的異常編碼可疑,欺詐或惡意行為,不僅影響人們做出次優的決策,而且穩定地削弱了他們對業務的信任。這樣,檢測正在進行的異常并警告即將發生的異常的算法對企業和最終用戶都具有很大的影響。本文通過開發可利用連接性和時間信息來檢測異常行為或事件的原理化,可擴展算法,來考慮異常檢測問題。這些方法對于大型動態復雜數據集很有用,這些數據集具有很強的關系和時間特性,多個實體相互交互,并且會隨著時間而發展。如今,此類數據集是在多種多樣的環境中生成的,其示例范圍從電子商務日志到在線社交網絡再到物聯網。 論文的前半部分著重于圖形中的異常檢測,在這些圖中,只有靜態連接信息是已知的。給定一個圖和一些標記的頂點,我們如何推斷其余頂點的標記?例如,我們如何從一小組手動標記的誠實和偽造帳戶中發現Amazon或Facebook上的所有偽造用戶帳戶?與現有文獻相比,我們的工作利用了現實世界圖中的三個關鍵屬性,即頂點和邊類型的異質性,偏度分布和高階結構,可以產生更準確的頂點標記。所提出的算法具有封閉形式的解決方案,嚴格的收斂性保證,可以使用稀疏矩陣運算有效地實現,并且可以隨圖形大小線性縮放。 本文的后半部分著重于從連接結構隨時間變化的數據中挖掘異常。在許多情況下,尤其是與安全和衛生保健有關的情況,新發現或預期的異常的價值在于當下,而不是不久的將來。因此,給定一個隨時間變化的圖表(顯式圖或隱式圖),我們如何才能近乎實時地檢測異常或事件,甚至可能在它們發生之前提早發出警報?我們的算法可以通過僅存儲到目前為止所看到的圖形的簡短摘要并且不需要監督,就可以實時檢測異常圖形的足跡,例如密集子圖的突然出現或消失以及橋邊。我們還展示了如何以在線方式從時間序列數據推斷狀態轉換圖,并使用它來提前警告用戶標記的異常,例如不利的醫療條件。在整個論文中,著重強調的算法不僅(a)在實踐中有效,而且(b)高效,可以在幾秒鐘內在普通筆記本電腦上處理數百萬條邊緣,并且(c)有原則可以進行嚴格的推理,從而為推理,檢測或利用數據相關的見解提供理論上的保證。我們證明了我們的算法在從社交網絡和電子商務到安全和醫療保健的一系列應用中的功效。
BuzzFeed News高級記者Lam Thuy Vo解釋了如何使用Python編程語言以有意義的方式挖掘、處理和分析社交網站上的數據。
虛假的推特賬號影響了總統選舉嗎?關于人類行為,Facebook和Reddit的檔案能告訴我們什么?在《挖掘社交媒體》中,BuzzFeed資深記者Lam Thuy Vo向你展示了如何使用Python和關鍵數據分析工具來挖掘隱藏在社交媒體中的故事。
無論您是專業記者、學術研究者還是公民調查員,您都將學習如何使用技術工具來收集和分析來自社交媒體的數據,從而構建引人注目的、數據驅動的故事。
學習如何:
社交媒體上充斥著成千上萬個隱藏的故事,等著被人講述。學習使用專業人士用來編寫自己的數據驅動的故事的數據偵探工具。
摘要
推薦系統是一種軟件應用程序,它可以幫助用戶在信息過載的情況下找到感興趣的主題。當前的研究通常假設一個一次性的交互范式,其中用戶偏好是根據過去歷史觀察到的行為來估計的,并且按照等級排序的推薦列表是用戶交互的主要的且是單向的形式。對話推薦系統(CRS)采用了一種不同的方法,支持更豐富的交互。例如,這些交互可以幫助改進偏好激發過程,或者允許用戶詢問關于推薦的問題并給出反饋。對CRS的興趣在過去幾年里顯著增加。這種發展主要是由于自然語言處理領域的重大進展,新的語音控制家庭助手的出現,以及聊天機器人技術的增加使用。在本文中,我們詳細介紹了現有的對話推薦方法。我們將這些方法按不同的維度進行分類,例如,根據支持的用戶意圖或用戶在后臺使用的知識。此外,我們還討論了技術方法,回顧了CRS的評估方法,并最終確定了一些在未來值得更多研究的差距。
介紹
推薦系統是人工智能在實踐中最明顯的成功案例之一。通常,這些系統的主要任務是為用戶指出感興趣的潛在主題,例如電子商務網站。因此,它們不僅可以在信息超載的情況下幫助用戶,還可以對服務提供商的業務做出重大貢獻。 在這些實際應用中,推薦是一個一次性的交互過程。通常,底層系統會隨著時間的推移監視其用戶的行為,然后在預定義的導航情況下(例如,當用戶登錄到服務時)提供一組定制的建議。盡管這種方法在各個領域都很常見,也很有用,但是它可能有一些潛在的限制。例如,在許多應用程序場景中,用戶首選項無法從其過去的交互中可靠地估計出來。對于高介入的產品(例如,當推薦一款智能手機時),我們甚至可能完全沒有過去的觀察結果。此外,在一組建議中包含哪些內容可能與上下文高度相關,而且可能很難自動確定用戶的當前情況或需求。最后,另一個假設通常是,當用戶登錄網站時,他們已經知道自己的偏好。然而,這未必是真的。例如,用戶可能只在決策過程中確定他們的首選項,例如,當他們意識到選項的空間時。在某些情況下,他們也可能只在與推薦者的交互過程中了解這塊內容和可用的選項。 對話推薦系統(CRS)是可以幫助解決這些的挑戰中的許多這樣的問題。一般來說,這種系統的總體思想是支持與用戶進行面向任務的多回合對話。例如,在這樣的對話中,系統可以引出用戶當前的詳細偏好,為主題推薦提供解釋,或者處理用戶對所提建議的反饋。 鑒于這類系統的巨大潛力,對CRS的研究已經有了一定的傳統。早在20世紀70年代末,Rich就設想了一個電腦化的圖書管理員,通過用自然語言互動地向用戶提問有關他們的個性和偏好的問題,向他們提出閱讀建議。除了基于自然語言處理(NLP)的接口外,近年來還提出了多種基于表單的用戶接口。CRS中較早的基于這些接口的交互方法之一稱為critiquing,它在1982年就被提出作為數據庫領域的查詢重新制定的一種方法。在critiquing方法中,用戶很快會在對話中看到一個建議,然后可以對這些建議應用預先定義的評論。 基于表單的方法通常很有吸引力,因為用戶可以使用的操作是預先定義的、明確的。然而,這樣的對話也可能出現非自然的,用戶可能在表達他們的偏好的方式上感到約束。另一方面,基于NLP的方法在很長一段時間內受到了現有的限制,例如在處理語音命令的上下文中。然而,近年來,語言技術取得了重大進展。因此,我們現在習慣于向智能手機和數字家庭助手發出語音命令,這些設備的識別精度已經達到了令人印象深刻的水平。與語音助手領域的這些發展相對應,我們注意到聊天機器人技術在最近幾年的快速發展。聊天機器人,無論是簡單的還是復雜的,通常也能處理自然語言,現在廣泛應用于各種應用領域,例如,處理客戶服務請求。 這些技術的進步導致在過去幾年中對CRS的興趣增加。然而,與以前的許多方法相比,我們注意到今天的技術建議更多地是基于機器學習技術,而不是遵循預先定義的對話路徑,用于確定要向用戶詢問的下一個問題。然而,通常在語音助手和聊天機器人的功能與支持真正的對話推薦場景(如系統是語音控制的)所需的功能之間仍然存在差距。 本文從不同的角度對對話推薦系統的文獻進行了綜述。具體地說,我們將討論(i)CRS的交互模式(第3節),(ii)CRS基于的知識和數據(第4節), 和(iii)CRS中典型的計算任務(第5節)。然后,我們討論CRS的評估方法(第6節),最后展望未來的發展方向。
對話系統的特征描述
關于什么是CRS,文獻中沒有一個公認的定義。在這項工作中,我們使用以下定義。 CRS是一個軟件系統,它支持用戶通過多回合的對話來實現推薦相關的目標。
CRS的概念架構:在過去的二十年中,人們提出了各種CRS模型的技術途徑。這些解決方案的技術體系結構的細節取決于系統的功能,例如,是否支持語音輸入。盡管如此,仍然可以確定此類體系結構的許多典型概念組件,如圖1所示。
CRS交互模式
最近對CRS的興趣是由NLP的發展和技術進步(如寬帶移動互聯網接入和智能手機和家庭助手等新設備)推動的。然而,我們對文獻的回顧表明,用戶和CRS之間的交互既不局限于自然語言輸入和輸出,也不局限于特定的設備。
知識和背景數據
根據所選擇的技術方法,CRS必須結合各種類型的知識和背景數據才能發揮作用。顯然,像任何推薦人一樣,必須有關于推薦項目的知識。同樣,推薦的生成要么基于明確的知識,例如推薦規則或約束,要么基于在一些背景數據上訓練的機器學習模型。然而,對話系統通常依賴于其他類型的知識,例如對話中的可能狀態,或者用于訓練機器學習模型的數據,如記錄和轉錄的自然語言推薦對話。
計算任務
在討論了推薦對話中可能的用戶意圖之后,我們現在將回顧CRS的常見的計算任務和技術方法。我們區分(i)主要任務,即那些與推薦過程更直接相關的,例如,計算推薦或確定下一個要問的問題,以及(ii)額外的支持任務。
介紹對話系統的評價
一般情況下,推薦系統可以通過不同的方法從不同的維度進行評價。首先,當系統在其使用上下文中進行評估時,即,當它被部署時,我們通常最感興趣的是通過A/B測試來衡量系統是否達到了設計目標的具體關鍵性能指標(KPI),例如,增加的銷售數字或用戶參與度。其次,用戶研究(實驗室實驗)通常調查與系統感知質量相關的問題。常見的質量維度是建議的適宜性、流程的可感知透明性或易用性。最后,計算性實驗不需要用戶參與評估,而是基于客觀指標來評估質量,例如,通過測量建議的多樣性或計算運行時間來預測測試集中的輔助評級的準確性。同樣的質量維度和研究方法也適用于CRS。然而,在比較面向算法的研究和對話系統的研究時,我們發現評估的主要焦點往往是不同的。由于CRS是高度交互的系統,因此與人機交互有關的問題更常用于這些系統的研究。此外,在測量方法方面,CRS評估不僅關注任務的完成,即,如果建議是合適的或最終被接受的,但也涉及到與談話本身的效率或質量有關的問題。
總結和未來工作
總的來說,我們的研究表明,CRS領域在過去幾年中出現了一定程度的復興,其中最新的方法依賴于機器學習技術,尤其是深度學習和基于自然語言的交互。考慮到語音控制系統(如智能音箱)最近的興起,以及聊天機器人系統的日益普及,我們預計在未來幾年將看到對CRS的更多研究。雖然在某些方面取得了重大進展,但仍有許多領域需要進行更多的研究。在接下來的文章中,我們將概述一些有待解決的問題以及該領域未來可能的發展方向。 第一個問題涉及模式的選擇。盡管近年來,“自然語言”越來越流行,但究竟哪種情況下“自然語言”才是最好的選擇,目前還不完全清楚。需要進行更多的研究來了解哪種模式適合當前給定的任務和情況,或者是否應該向用戶提供替代模式。一個有趣的研究方向還在于解釋用戶的非言語交際行為。此外,完全基于語音的CRS也有一定的局限性,例如,在一個交互周期中提供完整的推薦集合。在這種情況下,用戶可能希望對一組推薦進行總結,因為在大多數情況下,當CRS向用戶推薦過多(例如多于兩三個)選項時,這可能沒有意義。
計算機視覺是許多前沿創新的核心,包括自動駕駛汽車、無人機、增強現實、面部識別等等。由于人工智能和深度學習(DL)的快速發展,每天都有驚人的新的計算機視覺應用程序被開發出來。這本《深度學習視覺系統》教你的概念和工具,建立智能,可擴展的計算機視覺系統,可以識別和反應的對象,在圖像,視頻,和現實生活。有了作者Mohamed Elgendy的專家指導和現實世界項目的說明,您將最終掌握最先進的深度學習技術,這樣您就可以構建、貢獻和領導令人興奮的計算機視覺領域!
對這項技術
通過使用深度神經網絡,人工智能系統根據它們對輸入數據的感知做出決策。基于深度學習的計算機視覺(CV)技術,增強和解釋視覺感知,使圖像識別、生成和分類等任務成為可能。CV的令人興奮的進步已經在包括機器人、自動化、農業、醫療保健和安全在內的廣泛行業中產生了解決方案。在許多情況下,CV被認為比人類視覺更準確,這是一個重要的區別,當你想到CV程序可以檢測皮膚癌或在醫學診斷掃描中發現異常時。無論我們談論的是自動駕駛汽車還是拯救生命的醫療項目,毫無疑問,計算機視覺的深度學習應用正在改變世界。
百度網盤:鏈接: //pan.baidu.com/s/1nhgWcnW4Yf8f40DF3zGdHg 提取碼: 9vzk
關于這本書 深度學習視覺系統教你應用深度學習技術來解決真實世界的計算機視覺問題。DL和CV專家Mohamed Elgendy以其簡單易懂的風格向您介紹了視覺直覺的概念——機器如何學習理解它所看到的東西。然后你將探索不同簡歷應用中的DL算法。你將深入到簡歷解釋系統或管道的不同部分。使用Python、OpenCV、Keras、Tensorflow和Amazon的MxNet,您將發現解決CV問題的高級DL技術。
我們聚焦的應用包括圖像分類、分割、字幕描述、生成以及人臉識別和分析。您還將學習最重要的深度學習體系結構,包括人工神經網絡(ANNs)、卷積網絡(cns)和遞歸網絡(RNNs),您可以將這些知識應用到相關的深度學習學科,如自然語言處理和語音用戶界面。來自Amazon、谷歌和Facebook的真實的、可擴展的項目把這一切都帶回家了。有了這本無價的書,你將獲得必要的技能,以建立驚人的端到端的CV項目,解決現實世界的問題。
里面有什么
目錄:
Part I. DEEP LEARNING FOUNDATION
【導讀】互聯網的發展是一把雙刃劍,一方面讓人們可以很便捷地獲取和分享信息,另一方面也滋生了假信息泛濫,造成很多嚴重的后果。如何利用人工智能機器學習數據挖掘技術治理緩解虛假信息的影響?是整個研究界關心的話題。最近,亞利桑那州立大學(Arizona State University)的Kai Shu、Huan Liu和賓夕法尼亞州立大學的Suhang Wang和Dongwon Lee共同撰寫關于虛假信息和假新聞檢測的概述進展《Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements》,詳述了虛假信息、錯誤信息、惡意信息的概念的方法體系,值得參閱。
地址:
//www.zhuanzhi.ai/paper/60a812267d38d28ed4d4e33f288a619e
摘要
近年來,由于假新聞等虛假信息的爆炸性增長,尤其是在社交媒體上,已經成為一種全球現象。虛假信息和假新聞的廣泛傳播會造成有害的社會影響。盡管近年來在發現虛假信息和假新聞方面取得了進展,但由于其復雜性、多樣性、多模態性和事實核查或注釋的成本,它仍然是非常具有挑戰性。本章的目的是通過: (1) 介紹社交媒體上信息混亂的類型,并研究它們之間的差異和聯系,為理解這些挑戰和進步鋪平道路; (2) 描述重要的和新興的任務,以打擊虛假信息的表征、檢測和歸因; (3) 討論了利用有限的標記數據檢測虛假信息的弱監督方法。然后,我們提供了本書章節的概述,這些章節代表了三個相關部分的最新進展: (一) 用戶參與信息傳播的混亂; (二) 發現和減少虛假信息的技術; (三) 倫理學、區塊鏈、clickbaits等趨勢問題。我們希望這本書能成為研究人員、實踐者和學生了解問題和挑戰的一個方便的入口,為他們的特定需求學習最先進的解決方案,并快速識別他們領域的新研究問題。
概要
社交媒體已經成為一種流行的信息搜索和新聞消費手段。由于通過社交媒體提供和傳播在線新聞的門檻低、速度快,大量的虛假信息如假新聞變得泛濫。在美國,那些故意提供虛假信息的新聞文章是出于各種各樣的目的而在網上發布的,其目的從經濟利益到政治利益不等。我們以假新聞為例。虛假新聞的廣泛傳播會對個人和社會產生嚴重的負面影響。首先,假新聞會影響讀者對新聞生態系統的信心。例如,在很多情況下,在2016年美國總統大選期間,最受歡迎的假新聞在Facebook上比主流新聞更受歡迎和廣泛傳播。其次,假新聞故意說服消費者接受有偏見或錯誤的信仰,以獲取政治或經濟利益。例如,2013年,美聯社(AP)在推特上發布消息稱巴拉克·奧巴馬(Barack Obama)受傷,導致1300億美元的股票價值在短短幾分鐘內蒸發殆盡。美聯社稱其推特賬戶遭到黑客攻擊。第三,假新聞改變了人們解讀和回應真實新聞的方式,阻礙了他們分辨真假的能力。因此,了解虛假新聞的傳播方式,開發有效、準確的假新聞檢測和干預的數據挖掘技術,緩解虛假新聞傳播的負面影響至關重要。
這本書的目的是把研究人員,從業人員和社會媒體供應商聚集在一起,以了解傳播,改善檢測和減少虛假信息和假新聞在社會媒體。接下來,我們從不同類型的信息無序開始。
1 信息失序 INFORMATION DISORDER
信息失序是近年來備受關注的一個重要問題。社交媒體的開放性和匿名性為用戶分享和交流信息提供了便利,但也使其容易受到不法活動的侵害。雖然新聞學研究了虛假信息和虛假信息的傳播,但是社交網絡平臺的開放性,加上自動化的潛力,使得信息的無序迅速傳播到大量的人群中,這帶來了前所未有的挑戰。一般來說,信息無序可以分為三種主要類型: 虛假信息、錯誤信息和惡意信息[1]。虛假信息是故意散布以誤導和/或欺騙的虛假或不準確的信息。錯誤信息是指一個人沒有意識到它是假的或誤導的,而分享的虛假內容。惡意信息是指為了造成傷害而共享的真實信息。此外,還有一些其他相關類型的信息混亂[2,3]: 謠言是一個故事在人與人之間傳播,其中的真相是未經核實或可疑的。謠言通常出現在模棱兩可或具有威脅性的事件中。當謠言被證明是虛假的,它就是一種虛假信息; 都市傳奇是一個虛構的故事,包含了與當地流行文化相關的主題。都市傳奇的陳述和故事通常是假的。都市傳奇通常描述不尋常的、幽默的或可怕的事件; 垃圾郵件是發送給大量收件人的不請自來的信息,包含不相關或不恰當的信息,是不需要的。
虛假或誤導性信息的傳播往往具有動態性,導致不同類型信息之間的無序交換。一方面,虛假信息會變成錯誤信息。例如,虛假信息制造者可以在社交媒體平臺上故意發布虛假信息。看到這些信息的人可能不知道這些信息是假的,并在他們的社區中使用他們自己的框架來分享這些信息。另一方面,虛假信息也可以轉化為虛假信息。例如,一則諷刺新聞可能被有意地斷章取義,誤導消費者。虛假信息的一個典型例子是假新聞。我們用它作為一個具體的案例研究來說明挖掘虛假信息的問題和挑戰。
圖1: 虛假信息、錯誤信息和惡意信息之間的關系,以及具有代表性的例子。此外,虛假信息和錯誤信息可以相互轉化。
信息扭曲(Information Disorder)的三個類型:
為了理解和研究信息生態系統的復雜性,我們需要一種共同的語言。目前對“假新聞”等簡單化術語的依賴掩蓋了重要的區別,它也過分關注“真實”與“虛假”,而信息扭曲則帶有許多“誤導”的影子。
Misinformation 錯誤信息(Falseness 虛假)
無意錯誤,如不準確的文字說明、日期、統計數據或翻譯,或諷刺性內容被嚴肅對待。
Disinformation 虛假信息(Falseness 虛假、Intent to harm 有意傷害)
捏造或故意操縱的內容。故意制造陰謀論或謠言。
Malinformation 惡意信息(Intent to harm 有意傷害)
為個人或公司利益而不是公眾利益而故意發布私人信息,如報復性的色情內容。故意改變真實內容的上下文、日期或時間。
1.1 假新聞是虛假信息的一個例子
在這一小節中,我們將展示如何通過社交媒體數據來識別、檢測虛假信息(假新聞)并賦予其屬性。假新聞通常指的是那些故意且可證實為虛假的、可能誤導讀者的新聞文章[4,5]。
對于特征描述,目標是了解信息是惡意的,有無害的意圖,還是有其他深刻的特征。當人們創造和傳播虛假信息時,他們通常有一個特定的目的或意圖。例如,在欺騙的背后可能有許多意圖,包括: (1) 說服人們支持個人、團體、想法或未來的行動; (2)說服他人反對個人、團體、思想或者未來的行為; (3)對某個人、團體、想法或未來的行動產生情緒反應(恐懼、憤怒或高興),希望得到支持或反對; (4)教育(例如:,關于疫苗接種威脅);(5) 防止令人尷尬或者犯罪的行為被人相信; (6)夸大某事的嚴重性(例如,政府官員使用私人郵件); (7)混淆過去的事件和活動(例如:在美國,美國是真的登上了月球,還是只是在地球上的沙漠里?或(8)說明發現虛假信息對社交平臺的重要性(如,伊麗莎白·沃倫和馬克·扎克伯格爭論)。在端到端模型中加入特征嵌入,如索賠和證據之間的因果關系,可以使用[6]來檢測意圖,如勸誘影響檢測[7]。一旦我們確定了一篇欺騙性新聞文章背后的意圖,我們就可以進一步了解這一意圖的成功程度: 這一意圖成功達到其預期目的的可能性有多大。我們可以考慮以社會理論為基礎的病毒營銷手段來幫助描述。社會心理學指出,社會影響(新聞文章的傳播范圍)和自我影響(用戶已有的知識)是虛假信息傳播的有效代理。來自社會和自身的更大影響會扭曲用戶的感知和行為,使其相信一篇新聞文章,并無意中參與到其傳播中。計算社會網絡分析[9]可以用來研究社會影響如何影響個人的行為和/或信念暴露在虛假信息和假新聞。
當考慮整個新聞生態系統而不是個人消費模式時,社會動態就會出現,從而導致虛假信息的擴散。根據社交同質性理論,社交媒體用戶傾向于追隨志趣相投的朋友,從而獲得新聞宣傳他們現有的敘述,從而產生回音室效應。為了獲得細粒度的分析,我們可以將傳播網絡按照層次結構進行處理,包括宏觀層面的發布、轉發和微觀層面的回復[10],這表明信息層次傳播網絡中的結構和時間特征在虛假信息和真實新聞之間存在統計學差異。這可以為純粹基于意圖的視角提供特征描述的補充,例如放大虛假信息的優先級,這些虛假信息在與善意的意圖共享后可能很快產生不良影響(例如,最初,幽默)。
檢測的目標是在早期或通過可解釋的因素有效地識別錯誤信息。由于假新聞試圖在新聞內容中傳播虛假信息,因此最直接的檢測方法就是對新聞文章中主要內容的真實性進行檢測,從而判斷新聞的真實性。傳統新聞媒體的假新聞檢測主要依靠對新聞內容信息的挖掘。新聞內容可以有多種形式,如文本、圖像、視頻。研究探索了從單一或組合模式中學習特征的不同方法,并建立了機器學習模型來檢測假新聞。除了與新聞文章內容直接相關的功能外,還可以從社交媒體平臺上新聞消費的用戶驅動的社交參與中衍生出額外的社交上下文功能。社會契約代表了新聞隨時間的擴散過程,它為推斷新聞文章的準確性提供了有用的輔助信息。一般來說,我們想要表現的社會媒體環境主要有三個方面:用戶、生成的帖子和網絡。首先,假新聞很可能由非人類賬戶(如社交機器人或電子人)創建和傳播。因此,通過基于用戶的特征捕獲用戶的個人信息和行為,可以為假新聞檢測[11]提供有用的信息。第二,人們通過社交媒體上的帖子來表達他們對假新聞的情感或觀點,比如懷疑的觀點和聳人聽聞的反應。因此,從帖子中提取基于帖子的特征,通過公眾的反應來幫助發現潛在的假新聞是合理的。第三,用戶在社交媒體上形成不同類型的興趣、話題和關系網絡。此外,假新聞傳播過程往往形成一個回音室循環,突出了提取網絡特征檢測假新聞的價值。
假新聞通常包含多種形式的信息,包括文本、圖像、視頻等。因此,利用多模態信息來提高檢測性能具有很大的潛力。首先,現有的工作側重于提取語言特征,如用于二分類的詞匯特征、詞匯、情感和可讀性,或者學習具有神經網絡結構的神經語言特征,如卷積神經網絡(CNNs)和遞歸神經網絡(RNNs)[12]。其次,視覺線索主要從視覺統計特征、視覺內容特征和神經視覺特征[13]中提取。可視化統計特征表示附加到虛假/真實新聞片段的統計信息。視覺內容特征是描述圖像內容的清晰度、連貫性、多樣性等因素。神經視覺特征是通過神經網絡(如CNNs)來學習的。此外,近年來從圖像中提取視覺場景圖譜以發現常識[14]的研究進展,極大地提高了從視覺內容中提取結構化場景圖的能力。
對于歸因attribution,目標是驗證所謂的來源或提供者和相關的歸因證據。社交媒體中的歸屬搜索是一個新的問題,因為社交媒體缺乏一個集中的權威或機制來存儲和驗證社交媒體數據的來源。從網絡擴散的角度來看,種源識別就是尋找一組關鍵節點,使信息傳播最大化。確定種源路徑可以間接找到起源種源。信息的出處通常是未知的,對于社交媒體上的虛假信息和誤傳,這仍然是一個公開的問題。信息源路徑描述了信息如何從源傳播到沿途的其他節點,包括負責通過中介重新傳輸信息的節點。我們可以利用社會化的特性來追溯[15]的來源。基于度傾向和貼近傾向假設[16],離節點越近的節點,其有較高度中心性的節點越有可能是變送器。在此基礎上,通過圖優化的方法,估計出在給定的種源節點集合上的頂級發射機。我們計劃開發新的算法,可以結合網絡結構以外的信息,如節點屬性和時間信息,以更好地發現源。
深度學習的成功,尤其是深度生成模型,機器生成的文本可以成為一種新的虛假新聞,它流暢、易讀、容易記住,這帶來了新的歸屬來源。例如,通過對抗性訓練,提出了SeqGAN[17]、MaliGAN[18]、LeakGAN[19]、MaskGAN[20]等語言生成模型,并提出了基于Transformer[21]的多任務學習無監督模型,如GPT-2[22]、Grover[23]等語言生成模型。一個重要的問題是考慮機器生成的合成文本,并提出解決方案來區分哪些模型用于生成這些文本。可以對不同文本生成算法的數據進行分類,探索決策邊界。數據集可以從VAE、SeqGAN、TextGAN、MaliGAN、GPT-2、Grover等代表性語言生成模型中獲取。此外,元學習還可以從少量的訓練實例中預測新的文本生成源。此外,一些生成模型如:SentiGAN [24], Ctrl [25], PPLM[26],可以生成程式化的文本,對特定的風格進行編碼,如:emotional, catchy。在預測模型中,消除偽相關是非常重要的。利用對抗式學習從合成文本中分離出風格因素,并開發具有恢復不同文本生成模型之間可轉移特征能力的預測模型。
2 薄弱社會監督力度 THE POWER OF WEAK SOCIAL SUPERVISION
社交媒體讓用戶可以隨時隨地與任何人進行聯系和互動,這也讓研究人員可以用新的視角以前所未有的規模觀察人類的行為。用戶對新聞文章(包括在社交媒體上發布、評論或推薦新聞)等信息的參與,隱含著用戶對新聞的判斷,并可能成為虛假信息和假新聞檢測的標簽來源。
然而,與傳統數據明顯不同的是,社交媒體數據是大規模的、不完整的、嘈雜的、非結構化的,具有豐富的社會關系。這種新的(但較弱的)數據類型要求結合社會理論和統計數據挖掘技術的新的計算分析方法。由于社交媒體參與的性質,我們將這些信號稱為弱社會監督(WSS)。在社會監督較弱的情況下,我們可以學習如何更有效地理解和發現虛假信息和假新聞,具有可解釋性,在早期階段等。一般來說,社交媒體參與主要有三個方面:用戶、內容和關系(參見圖2)。第二,用戶通過發帖/評論來表達自己的觀點和情緒。第三,用戶通過各種社區在社交媒體上形成不同類型的關系。弱社會監督的目標是利用來自社交媒體的信號,獲得對各種下游任務的弱監督。與弱監督類似,我們可以用弱標簽和弱約束的形式來利用弱社會監督。
圖2: 社會監督下學習理解和發現虛假信息和假新聞的示意圖。
2.1 利用WSS理解虛假信息
人類天生就不善于區分錯誤信息和虛假信息。認知理論解釋了這一現象,如樸素實在論和確認偏誤。虛假信息主要是利用新聞消費者的個人弱點來攻擊消費者。由于這些認知偏見,假新聞等虛假信息往往被視為真實。人類對假新聞的脆弱性一直是跨學科研究的主題,這些研究結果為開發越來越有效的檢測算法提供了依據。為了了解虛假信息和假新聞在社交媒體中的影響,我們可以使用技術來描述不同類型WSS的傳播特征:1)來源(可信度/可靠性、信任、立場/世界觀、意圖)[27,28];2)目標社會群體(偏見、人口統計學、立場/世界觀)[11];3)內容特征(語言、視覺、語境、情感基調與密度、長度與連貫性)[5,8];4)它們與網絡交互的性質(例如,內聚的、分離的)[9]。例如,這些理論的影響可以通過測量用戶元數據[11]來量化,從而回答“為什么人們容易受到假新聞的影響?”或者“特定群體的人更容易受到某些類型假新聞的影響嗎?”
社會認同理論等社會理論認為,偏好社會接受和肯定對于一個人的身份和自尊是至關重要的,這使得用戶在消費和傳播新聞信息時更傾向于選擇“社會安全”的選項。根據社交同質性理論,社交媒體上的用戶往往會關注和加好友的人是志趣相投的人,從而得到新聞宣傳他們現有的敘述,產生回音室效應。定量分析是一個有價值的工具,用來驗證這些理論是否、如何以及多大程度上可以預測用戶對假新聞的反應。在[29]中,作者試圖證明新聞分層傳播網絡中的結構和時間視角會影響假新聞消費,這表明在打擊假新聞的斗爭中,社會監督薄弱的額外來源是有價值的。為了獲得細粒度的分析,傳播網絡被處理為層次結構,包括宏觀級別(以發布、轉發的形式)和微觀級別(以回復的形式)的傳播網絡。從結構、時間和語言三個方面分析了虛假新聞與真實新聞在層次傳播網絡上的差異。
2.2 利用WSS檢測虛假信息
發現虛假信息和假新聞提出了獨特的挑戰,使它變得不容易。首先,數據挑戰一直是一個主要的障礙,因為假新聞和虛假信息的內容在主題、風格和媒體平臺上相當多樣化;假新聞試圖用不同的語言風格來歪曲事實,同時嘲諷真實的新聞。因此,獲取帶注釋的假新聞數據是不可擴展的,特定于數據的嵌入方法不足以檢測只有少量標記數據的假新聞。其次,虛假信息和假新聞的挑戰在不斷演變,也就是說,假新聞通常與新出現的、時間緊迫的事件有關,由于缺乏確證的證據或主張,這些事件可能沒有得到現有知識庫(知識庫)的適當驗證。為了解決這些獨特的挑戰,我們可以學習在社會監督薄弱的情況下,在不同的挑戰性場景中,如有效的、可解釋的和早期的檢測策略中,發現虛假信息和假新聞。這些算法的結果為檢測假新聞提供了解決方案,也為研究人員和從業者解釋預測結果提供了見解。
有效偵測虛假信息
圖3: 社會監督下的TriFN學習模型,來自發布者偏差和用戶可信度,用于有效地檢測虛假信息[30]。
其目的是利用微弱的社會監督作為輔助信息,有效地進行虛假信息的檢測。以交互網絡為例,對新聞傳播過程中的實體及其關系進行建模,以發現虛假信息。交互網絡描述了不同實體(如發布者、新聞片段和用戶)之間的關系(見圖3)。考慮到交互網絡,目標是通過建模不同實體之間的交互,將不同類型的實體嵌入到相同的潛在空間中。利用框架trif -relationship for Fake news detection (TriFN)[30],可以利用新聞的合成特征表示來執行虛假信息檢測。
在社會學和認知理論的啟發下,衍生出弱社會監督規則。例如,社會科學研究表明,以下觀察結果有助于我們薄弱的社會監督:人們傾向于與志趣相投的朋友建立關系,而不是與有著相反的偏好和興趣的用戶建立關系。因此,有聯系的用戶更有可能在新聞中分享相似的潛在興趣。此外,對于出版關系,可以探討以下薄弱的社會監督:政治偏見程度高的出版商更容易發布虛假信息。此外,對于傳播關系,我們有:低可信度的用戶更可能傳播虛假信息,而高可信度的用戶不太可能傳播虛假信息。利用非負矩陣因式分解(NMF)等技術,通過對弱社會監督的編碼來學習新聞表征。在真實數據集上的實驗表明,TriFN能夠達到0.87的檢測精度。
圖4: 可解釋虛假信息檢測[31]的社會監督學習deFEND模型。
用解釋來證實虛假信息。以假新聞為例,可解釋虛假信息檢測的目的是獲取top-k可解釋的新聞句子和用戶評論,用于虛假信息的檢測。它有可能改進檢測性能和檢測結果的可解釋性,特別是對于不熟悉機器學習方法的終端用戶。可以看出,新聞內容中并不是所有的句子都是假的,事實上,很多句子是真的,只是為了支持錯誤的索賠句。因此,新聞句子在判斷和解釋一則新聞是否是假的方面可能不是同等重要的。類似地,用戶的評論可能包含一些重要方面的相關信息,這些信息可以解釋為什么一條新聞是假的,而它們提供的信息和噪音可能也較少。可以使用以下較弱的社會監督:與原始新聞片段內容相關的用戶評論有助于發現假新聞并解釋預測結果。在[31]中,它首先使用帶有注意力的雙向LSTM來學習句子和評論表示,然后利用一個叫做dEFEND的句子-評論-注意神經網絡框架(參見圖4)來利用新聞內容和用戶評論來共同捕獲可解釋的因素。實驗表明,dEFEND在準確性(~0.9)和F1(~0.92)。另外,dEFEND可以發現可解釋的注釋,提高預測結果的可表達性。
虛假信息的早期預警。假新聞等虛假信息往往與新出現的、時間緊迫的事件有關,由于缺乏確鑿的證據,現有的知識庫或網站可能無法對這些事件進行核實。此外,在早期階段檢測虛假信息需要利用來自用戶參與的最小信息預測模型,因為廣泛的用戶參與表明更多的用戶已經受到虛假信息的影響。社交媒體數據是多面性的,表明新聞片段與社交媒體傳播者之間存在多種異構關系。首先,用戶的帖子和評論有豐富的人群信息,包括觀點、立場和情緒,這對發現假新聞很有用。之前的研究表明,傳播者之間的矛盾情緒可能預示著虛假新聞的高概率[32,33]。其次,不同的用戶有不同的可信度。最近的研究表明,一些不太可信的用戶更有可能傳播假新聞。這些來自社交媒體的發現很有可能為早期發現假新聞帶來更多信號。因此,我們可以同時利用和學習來自社交媒體的多源頭的弱社會監督(以弱標簽的形式)來推進早期的假新聞檢測。
關鍵思想是,在模型訓練階段,除了有限的干凈標簽外,還使用社會上下文信息來定義弱規則,以獲得弱標記的實例來幫助訓練。在預測階段(如圖5所示),對于測試數據中的任何一條新聞,只需要新聞內容,根本不需要社交活動,因此可以在非常早期的階段發現假新聞。可以使用深度神經網絡框架,其中較低層的網絡學習新聞文章的共享特征表示,而較高層的網絡分別建模從特征表示到每個不同監管源的映射。框架MWSS的目標是,除了干凈的標簽外,聯合開發多個薄弱社會監督的來源。為了提取福利標簽,需要考慮以下幾個方面,包括情感、偏見和可信度。
圖5: MWSS框架,用于從社交媒體數據中進行多重弱監督學習,以便及早發現虛假信息。
假新聞和虛假信息是新興的研究領域,存在一些重要但尚未在當前研究中得到解決(或徹底解決)的公開問題。我們簡要描述有代表性的未來方向如下。
解釋方法。近年來,假新聞的計算機檢測已經產生了一些有希望的早期結果。然而,該研究有一個關鍵部分,即這種檢測的可解釋性。,為什么一條特定的新聞被認為是假的。最近的方法嘗試從用戶評論[31]和web文檔[38]中獲得解釋因子。其他類型的用戶約定(如用戶配置文件)也可以建模以增強可解釋性。此外,解釋為什么人們容易輕信假新聞并傳播它是另一個關鍵的任務。解決這一問題的一種方法是從因果發現的角度,通過推斷有向無環圖(DAG),進一步估計用戶的治療變量及其傳播行為。
神經網絡假新聞的生成與檢測. 假新聞一直是社交媒體上的一個重要問題,而強大的深度學習模型由于具有生成神經假新聞[23]的能力而被放大。在神經假新聞生成方面,最近的進展允許惡意用戶根據有限的信息生成假新聞。生成式對抗網絡(GAN)[19]等模型可以從噪聲中生成長可讀的文本,而GPT-2[22]可以編寫具有簡單上下文的新聞故事和小說。現有的假新聞生成方法可能無法生成風格增強和事實豐富的文本,這些文本保留了與新聞聲明相關的情感/朗朗上口的風格和相關主題。檢測這些神經假新聞首先需要了解這些假新聞的特點和檢測難度。Dirk Hovy等人提出了一種對抗性設置來檢測生成的評論[39]。[23]和[40]提出了神經生成檢測器,它可以對生成器的前一個檢查點上的分類器進行微調。(1)如何利用神經生成模型生成假新聞?我們能區分人工生成和機器生成的假/真新聞嗎?
早期發現虛假信息. 早期發現虛假信息和假新聞是為了防止大量的人受到影響。之前的大部分工作都是學習如何從新聞內容和社會背景中提取特征,建立機器學習模型來檢測假新聞,一般都是考慮了二分類的標準場景。最近的研究考慮了這樣一種情況:很少甚至沒有用戶參與被用來預測假新聞。例如,Qian等人提出生成合成用戶契約來幫助檢測假新聞[41]; Wang等人提出了一個事件不變的神經網絡模型,學習可轉移的特征來預測新出現的新聞片段是否是假的。在2.2節中,我們還討論了如何利用不同類型的WSS對假新聞進行早期檢測。我們可以使用更復雜的方法來增強這些技術,而這些方法依賴于更少的訓練數據,例如,用小樣本學習[42]來早期檢測假新聞。
基于假信息的交叉主題建模。假新聞的內容在話題、風格和媒體平臺[33]上都表現得相當多樣化。對于一個真實世界的假新聞檢測系統來說,由于標簽成本高昂,獲取每個領域(如娛樂和政治是兩個不同的領域)豐富的標簽數據往往是不現實的。因此,假新聞檢測通常在單域設置下進行,并且提出了監督[43]或非監督方法[44,45]來處理有限甚至未標記的域。然而,性能在很大程度上是有限的,因為過度擬合小標記樣品或沒有任何監督信息。此外,在一個領域中學習的模型可能是有偏見的,并且可能在不同的目標領域中表現不好。解決這一問題的一種方法是利用領域適應技術探索輔助信息,將知識從源領域轉移到目標領域。此外,還可以利用諸如對抗性學習等先進的機器學習策略來進一步捕獲主題不變的特征表示,從而更好地檢測新出現的虛假信息。
參考文獻:
[1] Claire Wardle and Hossein Derakhshan. Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe Report, 27, 2017.
[2] Liang Wu, Fred Morstatter, Kathleen M Carley, and Huan Liu. Misinformation in social media: Definition, manipulation, and detection. ACM SIGKDD Explorations Newsletter, 21(2):80–90, 2019.
[3] Xinyi Zhou and Reza Zafarani. Fake news: A survey of research, detection methods, and opportunities. arXiv preprint arXiv:1812.00315, 2018.
[4] Edson C Tandoc Jr, Zheng Wei Lim, and Richard Ling. Defining “fake news” a typology of scholarly definitions. Digital journalism, 6(2):137–153, 2018.