圖機器學習(Graph ML)近年來取得了重大進展。由于其在處理圖結構數據方面的顯著能力,圖機器學習技術已被廣泛應用于各種領域,包括金融、醫療和交通等關鍵領域。盡管這些技術帶來了社會效益,但近期研究突顯了廣泛使用圖機器學習模型所帶來的重大安全隱患。這些模型缺乏以安全為中心的設計,可能會產生不可靠的預測、表現出較差的泛化能力,并危及數據機密性。在金融欺詐檢測等高風險場景中,這些漏洞可能會危及個人和社會。因此,優先開發安全導向的圖機器學習模型以減輕這些風險并增強公眾對其應用的信心是至關重要的。在這篇綜述論文中,我們探討了增強圖機器學習安全性的三個關鍵方面:可靠性、泛化能力和機密性。我們將對每個方面的威脅進行分類和分析,分為模型威脅、數據威脅和攻擊威脅三個類別。這一新穎的分類法指導了我們對有效保護策略的審查。我們的系統審查為未來開發實用的、安全導向的圖機器學習模型奠定了基礎。此外,我們強調了安全圖機器學習實踐的重要性,并提出了進一步研究這一關鍵領域的有前景方向。 近年來,圖結構數據在包括藥物發現[15]、交通預測[76]和疾病診斷[96]等廣泛的現實應用中變得越來越普遍。在這些領域中,圖機器學習(Graph ML)在建模這些數據和執行基于圖的預測任務中起著關鍵作用[83],[187]。然而,隨著圖機器學習應用范圍的擴大,人們對其潛在安全問題的擔憂也在加劇[37]。如果這些問題得不到充分解決,可能會產生嚴重影響,尤其是在關鍵決策場景中[203]。例如,在金融欺詐檢測中,圖機器學習模型會分析交易網絡,其中節點代表用戶,邊表示交易[151]。數據分布的變化可能會錯誤地將合法交易標記為欺詐[37]。此外,這些模型還可能對用戶隱私構成風險[124]。這些安全問題都會嚴重削弱人們對金融系統的信任。
盡管社會關注日益增加[147],[183],但對圖機器學習(Graph ML)安全性的全面理解仍在形成中。這種缺乏理解阻礙了研究人員和從業者系統地識別和解決與圖機器學習方法相關的基本安全問題。為了縮小這一差距,我們的綜述旨在解決兩個關鍵問題:(1) 圖機器學習安全問題涉及的主要方面是什么?(2) 在每個方面可能出現哪些具體威脅,以及如何有效應對這些威脅?為了解決第一個問題,我們引入了一種新穎的分類法,有助于對圖機器學習中的安全問題進行全面分類。為了解答第二個問題,我們對在我們分類法中確定的每個方面的潛在威脅及其相應的防護措施進行了系統回顧。
我們現在深入探討第一個問題,確定圖機器學習(Graph ML)安全問題的三個關鍵方面:可靠性、泛化能力和機密性。我們分別討論每個方面如下:
(1) 可靠性:圖機器學習模型經常面臨低質量訓練數據的挑戰,這可能源于數據噪聲[47], [188]或惡意攻擊[13], [49]。在此,我們將可靠性定義為模型即使在面對劣質輸入時也能始終產生高質量輸出的能力。可靠性在圖機器學習任務中高質量訓練數據稀缺時尤為關鍵[6], [11]。例如,在藥物發現中,圖機器學習模型預測新化合物的化學性質,并以分子圖的形式建模[91]。這包括評估毒性以排除有嚴重副作用的藥物[115]。由于實驗驗證成本高昂,高質量的訓練數據標簽難以獲得。因此,在面對低質量數據時保持模型的可靠性對于確保準確預測至關重要[75]。 (2) 泛化能力:泛化能力指圖機器學習模型在各種場景中,尤其是在基礎數據分布發生變化時,仍能表現良好的能力[91]。這在新出現的未見過的圖數據頻繁出現的環境中特別重要[175]。例如,在疫情預防中,準確預測未來感染病例對于有效分配醫療資源至關重要[198]。圖機器學習廣泛用于利用不同地理區域(如縣、市、州或國家)之間的遷移路徑連接的拓撲數據來預測確診病例[145]。然而,疫情通常會在不同地區同步爆發,導致圖機器學習模型的訓練和推理數據來自不同區域[128]。這些模型缺乏泛化能力可能導致預測的感染率與實際情況顯著偏離,可能導致醫療資源的錯誤分配。 (3) 機密性:這一方面側重于保護圖機器學習模型的完整性和其處理的敏感數據的隱私[35], [43]。機密性在處理個人數據的圖機器學習應用中特別重要[203]。例如,圖機器學習廣泛用于管理電子健康記錄(EHR),用于疾病診斷和治療預測等任務[107]。在這些應用中,各種信息(如患者姓名和診斷結果)被互相連接形成異構圖[103]。然而,圖機器學習中的機密性面臨的一個重大挑戰是消息傳遞機制的廣泛使用,這促進了節點之間的信息流動[9], [37], [140]。這個過程可能會無意中讓敏感數據到達惡意節點,導致未經授權實體可能泄露私人信息,從而危及患者隱私[54]。 我們接著通過識別三種類型的威脅來解決第二個問題,這些威脅會損害圖機器學習的安全性,適用于之前討論的所有方面。具體來說,威脅包括:(1) 模型威脅,源于為圖結構設計的固有學習機制,如大多數圖機器學習模型中普遍存在的消息傳遞;(2) 數據威脅,源于圖拓撲中節點之間的復雜相互關系;(3) 攻擊威脅,因圖機器學習模型在面對對抗性攻擊時的脆弱性而發生。在本綜述中,我們旨在全面理解每種威脅類型的起源,并系統概述當前的防護技術以減輕這些風險。 貢獻:在本綜述中,我們對圖機器學習中的安全問題進行了全面調查,并以結構化框架組織了圖機器學習安全的關鍵方面(如圖1所示)。此外,我們概述了每個方面的三種安全威脅,并深入探討了在圖機器學習背景下解決這些問題的具體防護技術。總之,我們的工作對研究社區做出了三項重要貢獻。
圖機器學習安全性的新分類法:我們引入了一種新的分類法來分類圖機器學習中的安全問題,詳細說明了三個核心方面:可靠性、泛化能力和機密性。
威脅與防護措施的全面概述:我們識別了所有安全方面共有的三種不同類型的威脅。在此基礎上,我們進一步探討了針對每種特定威脅的防護技術。
圖機器學習安全性的未來研究潛力:我們探討了在圖機器學習領域提升安全性方面的未解決挑戰和新興機會,旨在激發未來的研究項目。
與其他綜述的比較:已有一些綜述調查了圖機器學習的不同類型的安全問題及其對策[61], [80], [91], [147], [167], [182], [210]。然而,這些綜述通常缺乏對圖機器學習安全性的全面理解。其他相關綜述則側重于一個不同但相關的話題:可信度[37], [203]。大多數這些研究主要關注對抗性攻擊,而通常忽視了專門針對圖機器學習和圖數據的安全問題。與上述工作不同,在本綜述中,我們不僅借助新提出的分類法系統回顧了圖機器學習的更廣泛的安全概念,還詳細闡述了不同類型的威脅及其適當的防護技術。我們在表1中提供了詳細的差異比較。
由于圖數據的復雜性,獲取高質量的訓練數據是一個重大挑戰[47], [49]。當模型在質量較差的數據上訓練時,其性能可能會受到嚴重影響[188]。我們將可靠性定義為模型即使在低質量數據上訓練時也能保持一致性能的能力。缺乏可靠性會使模型面臨噪聲或被篡改數據帶來的風險,可能導致錯誤預測。在決策過程中,這個問題尤為關鍵,因為這種不準確可能導致不可接受的結果[42], [67]。例如,在金融欺詐檢測中,準確識別欺詐交易至關重要。缺乏可靠性的模型可能無法檢測到欺詐活動,或錯誤地將合法交易標記為欺詐,從而導致財務損失。因此,增強圖機器學習模型的可靠性對于確保其在關鍵應用中的安全性和可信賴性至關重要,最終減少錯誤結果的風險[120], [126]。
圖機器學習的可靠性可能從多個角度受到影響。首先,模型在處理不確定數據方面的固有限制可能導致在不熟悉情況下的過度自信預測[65]。與圖像或文本數據不同,圖數據涉及節點之間的復雜交互,這些連接中的不確定性會影響模型預測[226]。其次,訓練數據中的異常情況,例如顯著偏離典型分布的節點和圖,對模型性能和可靠性構成重大威脅[6], [47]。由于圖機器學習模型從相鄰節點聚合信息,異常節點可能影響整個圖中學習到的表示,進而影響整體模型可靠性。第三,毒化攻擊涉及將惡意構造的數據插入訓練集以破壞模型的可靠性[93]。在圖拓撲中,攻擊者可以操縱少數節點以不利地影響其他遠處節點,使這些攻擊特別難以檢測[80]。
大多數現有的圖機器學習模型是基于推理時的數據分布與訓練時相同的假設而開發的[91]。然而,由于圖數據結構的復雜性,這一假設在實踐中常常不成立。因此,泛化能力——即在不同數據分布中保持模型性能一致的能力——對于圖機器學習模型的安全部署至關重要。例如,在藥物發現中,圖機器學習模型通常負責預測新藥的毒性,這些新藥可能與訓練數據分布顯著不同。未能有效地泛化到這些新藥會導致不可靠的預測,從而可能危及醫療治療的開發[30], [63]。
盡管泛化能力對于確保圖機器學習模型的安全性至關重要,但實現一致模型泛化能力的過程中存在各種威脅。首先,模型本身的威脅源于其設計中的固有限制,導致模型可能無法有效適應訓練過程中遇到的目標(未標記)分布[111], [222]。當訓練涉及來自不同分布的數據時,設計增強泛化能力的模型對于圖機器學習模型的廣泛應用至關重要[110]。其次,數據威脅源于在訓練過程中未曾見過的數據分布,可能會削弱圖機器學習模型在新場景中的表現[92]。由于在訓練過程中無法觀測到目標分布,圖機器學習模型在有限數據的情況下提升泛化能力變得具有挑戰性。第三,規避攻擊對圖機器學習模型的泛化能力構成重大威脅。這些攻擊在推理過程中故意操縱輸入數據以引發預測錯誤并損害模型安全性[52], [98]。這些威脅從多個角度損害模型的泛化能力,因此需要量身定制的防護技術來解決這些問題。下文中,我們介紹了一些增強圖機器學習模型泛化能力的策略。
在圖機器學習(Graph ML)中,保密性包括對數據、模型預測和模型本身的敏感信息的保護【122】。這種保護對于確保用戶隱私和滿足法律合規性要求至關重要【183】。例如,在使用圖機器學習模型進行社交網絡用戶分類時,必須防止在訓練和推理階段無意泄露用戶信息【22】。
在這里,我們介紹如圖4所示的三種保密性威脅。首先,模型威脅來源于模型固有的設計缺陷,這些缺陷可能通過模型的預測或架構泄露敏感信息,從而引發隱私問題【169】。這一問題在基于圖的模型中特別明顯,因為消息傳遞機制可能無意中暴露來自鄰近節點的敏感信息【22】【41】【141】。其次,當訓練數據分布在多個源時,數據威脅會出現,可能導致敏感信息的無意曝光【70】。鑒于圖數據的結構性,確保每個數據源的保密性是一項重大挑戰【5】【87】。第三,攻擊威脅直接通過未經授權的模型克隆或功能克隆危害模型的保密性【185】。這不僅侵犯了隱私,還違反了知識產權,因為被復制的模型可能會在未經許可的情況下被使用或出售【43】【166】。
結論
在這篇綜述中,我們對快速發展的圖機器學習(Graph ML)領域的安全性進行了全面回顧。由于安全問題日益加劇,這一主題正受到越來越多的關注。我們對Graph ML應用中的三個關鍵安全方面進行了結構化分析:可靠性、可推廣性和保密性。為了增強安全性,我們將每個方面的威脅分類為三種主要類型:數據威脅、模型威脅和攻擊威脅,每種威脅都對Graph ML模型的安全性提出了獨特的挑戰。對于每個識別出的威脅,我們詳細介紹了具體的解決方案,提供了應對這些安全挑戰的研究努力的詳盡匯編。我們的討論將這些見解綜合成一個統一的框架,旨在加深對Graph ML安全性考慮的理解,并引導未來在這一重要領域的研究。此外,我們還強調了實際應用并提出了未來研究的方向。通過這篇綜述,我們的目標不僅是總結現有的Graph ML安全研究,還希望鼓勵進一步的研究,以確保Graph ML技術能夠安全地開發和實施。
生成式人工智能(GenAI)在近年來取得了顯著進展,并在計算機視覺和計算設計等不同領域的各種生成任務中表現出色。許多研究人員嘗試將GenAI集成到可視化框架中,利用其卓越的生成能力來執行不同操作。同時,近期在GenAI領域的重大突破,如擴散模型和大型語言模型,也極大地提升了GenAI4VIS的潛力。 從技術角度來看,本文回顧了以往利用GenAI的可視化研究,并討論了未來研究的挑戰與機遇。具體而言,我們涵蓋了不同類型的GenAI方法在不同可視化任務中的應用,包括序列生成、表格生成、空間生成和圖生成技術,并將這些任務總結為四個主要階段:數據增強、視覺映射生成、風格化和交互。對于每個具體的可視化子任務,我們展示了典型的數據和具體的GenAI算法,旨在提供對最新GenAI4VIS技術及其局限性的深入理解。 此外,基于綜述,我們討論了評估、數據集以及端到端GenAI與生成算法之間差距這三個主要方面的挑戰和研究機會。通過總結不同的生成算法、它們的當前應用及其局限性,本文旨在為未來的GenAI4VIS研究提供有用的見解。
VizDeck [1]。可視化是通過渲染空間或抽象數據的圖形表示來輔助探索性數據分析的過程。最近,許多研究人員嘗試將人工智能(AI)應用于可視化任務[2, 3, 4, 5, 6]。特別是由于可視化本質上涉及對原始數據的表示和交互,許多可視化研究人員開始采用快速發展的生成式人工智能(GenAI)技術,這是一種通過學習現有的人造樣本生成合成內容和數據的AI技術[7, 8]。近幾年,GenAI在人工智能領域嶄露頭角,對各種研究和應用領域如工件設計和交互設計產生了深遠而廣泛的影響(例如[9, 10, 11])。 最近,多模態AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得沒有傳統藝術和設計技能的普通用戶可以通過簡單的文本提示輕松生成高質量的數字繪畫或設計。在自然語言生成方面,大型語言模型如GPT [14]和LLaMa [15]也展示了驚人的對話、推理和知識嵌入能力。在計算機圖形學領域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潛力。GenAI的獨特優勢在于其靈活的能力,可以基于從現實世界數據中隱含獲得的知識進行數據建模和設計生成。這一特性使GenAI成為一種變革力量,能夠減輕傳統計算方法的工作負擔和復雜性,并通過比以往方法更具創意的生成結果擴展設計的多樣性。 GenAI的巨大潛力在其增強和簡化數據可視化過程中的操作能力中尤為明顯。從數據處理到映射階段及其后,GenAI可以在數據推理和增強、自動可視化生成以及圖表問答等任務中發揮關鍵作用。例如,自動可視化生成在當前的GenAI方法浪潮之前一直是研究重點,為非專業用戶提供了一種有效進行數據分析和創建視覺表示的方法(例如[17, 18])。傳統上,自動可視化方法依賴于基于設計原則的專家設計規則[19]。然而,這些方法受到基于知識系統的限制,難以在復雜規則或過于簡化的目標函數中全面整合專家知識[20]。GenAI的出現引入了一種范式轉變,不僅提高了效率,還在一個前所未有的技術進步時代提供了一種更直觀和可訪問的可視化方法。
盡管GenAI表現出色,但在可視化應用中它可能面臨許多挑戰,因為可視化有其獨特的數據結構和分析需求。例如,可視化圖像的生成與自然或藝術圖像的生成有顯著不同。首先,GenAI在可視化任務中的評估比自然圖像生成更復雜,因為需要考慮許多超出圖像相似性的因素,如效率[21]和數據完整性[22]。其次,與在具有簡單注釋的大型數據集上訓練的通用GenAI任務相比,可視化任務的多樣性和復雜性需要更復雜的訓練數據[23],這更難以策劃。第三,傳統可視化管道與強規則約束之間的差距使得與端到端GenAI方法的完全整合變得困難。這些獨特的特性使得利用最新的通用預訓練GenAI模型來實現特定可視化生成變得不那么直接。因此,了解以前的工作如何利用GenAI進行各種可視化應用,面臨的挑戰是什么,尤其是如何調整GenAI方法以適應這些任務是很重要的。
雖然之前的一些綜述涵蓋了AI在可視化中的一般應用[3],但據我們所知,沒有研究專門集中在綜述GenAI方法在可視化中的應用。本文廣泛綜述了文獻并總結了為可視化開發的AI驅動生成方法。我們根據具體任務將各種GenAI方法分類,這些任務對應于可視化生成的不同階段。通過這種方式,我們收集了81篇關于GenAI4VIS的研究論文。我們特別關注在特定任務中使用的不同算法,希望幫助研究人員理解最新技術的發展及其挑戰。我們還討論并突出潛在的研究機會。 本文的結構如下。第二部分概述了我們綜述的范圍和分類,并定義了關鍵概念。從第三部分到第六部分,每一部分對應于GenAI在可視化管道中的一個階段。具體來說,第三部分討論了GenAI在數據增強中的應用。第四部分總結了利用GenAI進行視覺映射生成的工作。第五部分重點介紹了GenAI如何用于風格化和與可視化的交流。第六部分涵蓋了支持用戶交互的GenAI技術。第三至第六部分的每個小節涵蓋了該階段中的一個特定任務。為了全面理解當前GenAI方法如何處理特定結構的數據以及在特定任務中仍然存在的挑戰,小節的結構分為兩部分:數據和算法以及討論。最后,第七部分討論了未來研究的主要挑戰和研究機會。
范圍與分類
范圍與定義
生成式人工智能(GenAI)是一種通過分析訓練樣本,學習其模式和分布,然后創建逼真仿制品的AI技術。GenAI利用生成建模和深度學習(DL)的進步,通過利用現有的文本、圖形、音頻和視頻等媒體,在大規模上生成多樣化的內容[7, 8]。GenAI的一個關鍵特征是通過從數據中學習而不是通過顯式編程來生成新內容。
** GenAI方法分類**
盡管生成目標在文本、代碼、多媒體到3D生成等不同領域有所不同,但生成的具體算法實際上依賴于數據結構,這些數據結構在不同領域中表現出共同的特征。特別是在GenAI4VIS應用中,基于數據結構的分類可以促進對不同可視化任務中涉及的不同類型數據的算法的更具體理解。這里,我們概述了與數據可視化相關的典型數據結構的不同類型GenAI。
為了對收集到的文章進行分類和組織,我們借鑒了描述不同基本階段的經典可視化管道[25]。然而,由于GenAI被應用于不同于傳統操作的更廣泛場景中,我們也修改了該管道以涵蓋一些最新的研究主題,包括數據增強、視覺映射生成、風格化和交互。值得注意的是,數據轉換部分被概括為數據增強的概念,這一術語靈感來自McNabb等人的研究[26]。此外,由于很少有GenAI用于可視化的工作專注于基本視圖轉換,我們將此部分替換為更廣泛的風格化與交流概念。在不同階段下,我們進一步將工作分類為具體任務,如圖1所示。
由于GenAI4VIS的廣泛多樣化應用,不同GenAI方法與任務之間沒有明確的一對一關系。然而,我們可以觀察到一些有趣的關聯。首先,序列生成主要應用于視覺映射或與交互相關的任務。這是因為如翻譯模型和最新的大型語言模型(LLMs)或視覺-語言模型在生成指定視覺映射的代碼序列或交互流程和輸出序列方面非常有用。其次,表格生成主要用于數據增強。這是因為具有屬性列的表格數據是可視化的最常見初始輸入數據,通過數據增強(如代理數據生成)可以為后續任務帶來好處。接下來,圖生成也主要用于數據增強,因為數據推理和增強可以促進圖數據的后續分析。然而,盡管其使用相對較少,它在視覺映射和風格化方面具有巨大潛力,因為圖結構(如知識圖譜或場景圖)可以優化視覺編碼和布局。最后,空間生成主要應用于數據增強和風格化任務。這是因為2D和3D數據(如圖像和體數據)也是VIS4AI和SciVis應用中常見的輸入類型,而將基本圖表修飾為風格化圖表則依賴于基于圖像的生成方法。圖2通過桑基圖展示了GenAI4VIS任務與方法之間的關系,并例示了不同方法涉及的具體數據類型。表1進一步列出了每種數據結構和任務的詳細方法。
近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。
圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。
為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。
在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。
繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。
近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。
盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:
圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。
我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。
我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。
我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。
我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。
圖神經網絡(GNNs)越來越多地應用于許多高風險任務中,因此,近來人們對它們的公平性越來越關注。研究表明,GNNs往往會對某些由敏感屬性如性別和種族劃分的人群做出歧視性決策。盡管近期的工作致力于提高它們的公平性能,但這通常需要可以獲取的人口統計信息。由于法律限制,這在現實世界場景中極大地限制了它們的適用性。為解決這個問題,我們提出了一種不依賴人口統計信息的方法,通過知識蒸餾來學習公平的GNNs,即FairGKD。我們的工作是由這樣一個實證觀察所激發的:在部分數據(即,只有節點屬性或拓撲數據)上訓練GNNs可以提高它們的公平性,盡管這犧牲了一定的效用。為了在公平性和效用性能之間做出平衡的權衡,我們采用了一組公平專家(即,在不同部分數據上訓練的GNNs)來構建合成教師,該教師蒸餾出更公平且富有信息的知識以指導GNN學生的學習。在幾個基準數據集上的實驗表明,FairGKD不需要訪問人口統計信息,顯著提高了GNNs的公平性,同時保持了它們的效用。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。
圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。
1. 引言
對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。
**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。
**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。
圖2:四種主流技術下的圖級學習時間線。
**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:
在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。
B.圖級深度神經網絡(GL-DNNs):
傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。
C.圖級圖神經網絡(GL-GNNs):
GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。
D .圖池化:
圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。
以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言
在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。
盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。
**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:
**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。
安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。
**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。
**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。
具體而言,我們的貢獻總結如下:
據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。
創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。
3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。
近年來,機器學習在人工智能中扮演著越來越重要的角色。此外,在網上購物、虛擬個人助理、推薦系統等領域,它正迅速成為我們日常生活的一部分。數據與機器學習算法的結合推動了這些人工智能方法的廣泛應用。然而,對所處理的數據存在敏感性和隱私方面的擔憂。這在醫療保健和金融等領域尤為突出。保護隱私的機器學習通過對敏感數據的私有計算來緩解這些隱私挑戰。然而,這個過程并非微不足道或沒有權衡。
在這篇論文中,我們專注于設計有效和高效的協議,以促進端到端隱私保護機器學習,特別是神經網絡訓練和推理。我們主要關注多方計算和非加密原語,如用于私有計算的聯邦學習。我們首先設計了一個高效的雙方安全訓練和預測框架QUOTIENT。QUOTIENT受益于標準神經網絡訓練的整體適應,使其成為加密友好的訓練過程,同時還提供了用于安全計算的定制混合MPC協議。接下來,我們引入聯邦學習來支持對未標記數據進行高度分散的訓練。我們激發了“豎井”的想法,以確保優越的隱私和跨子群體的隔離。為了完成技術貢獻,我們提出了一個MPC友好的秘密安全承諾方案,以啟用認證預測。更具體地說,這有助于在推理時對訓練過的模型強制執行非功能約束,如公平性、可解釋性和安全性,使過程更公平。我們設計、實現并對所有這些框架進行基準測試,以展示計算、通信和準確性方面的性能提升。我們以一個用戶研究來結束論文,該研究聚焦于增強可用性、效率、協助設計和幫助確保在保護隱私的計算框架中的公平性。這項研究采用半結構化訪談的形式,對隱私保護計算生態系統中的各種利益相關者進行訪談。
對于我們的協議,我們在速度上提高了一個數量級以上的技術水平,同時在準確性和通信方面取得了顯著的進步。用戶研究為純技術貢獻提供了豐富的社會技術視角。本文將理論、實踐和評估相結合,作為一個多角度的框架,激勵有效、高效和公平的隱私保護機器學習的設計、開發和進一步研究。
機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:
貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。
貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。