Transformer 模型的崛起顯著推動了機器學習模型的發展。大規模語言模型(LLMs)通過對海量數據進行訓練,并依托強大的計算資源,統一了傳統的自然語言處理(NLP)范式,能夠通過將多種下游任務整合到生成工作流中,來有效處理這些任務。在現實世界的影響方面,LLMs 已經徹底改變了研究人員、開發人員和用戶的可訪問性和可用性。此外,LLMs 極大地降低了人工智能的應用門檻,為應用程序和用戶提供了預訓練的語言理解與指令跟隨能力。因此,強大的 LLMs 為各個領域帶來了新的可能性,包括智能體、智能助手、聊天機器人和搜索引擎。然而,這些模型的廣泛可用性和可訪問性也帶來了潛在的風險,包括惡意使用和隱私問題。使 LLMs 具有價值的自由生成工作流也可能被濫用,從而危及隱私或用于有害目的。盡管已經做出了大量努力以提升 LLMs 的可信度,解決其安全性和隱私問題,但新型攻擊經常被提出,旨在繞過現有的防御機制,并將 LLMs 用于惡意用途。因此,針對 LLMs 的可信度,惡意攻擊者和防御者之間存在持續的博弈,許多重大挑戰仍未被發現。為了全面研究 LLMs 的可信度問題,我們識別了新型的攻擊,集中于信息泄露問題,改進了防御機制以應對各種攻擊,并通過實證評估攻擊在有無防御的情況下的效果。對于已識別的攻擊,我們重點關注向量數據庫中的信息泄露問題,研究嵌入的隱私泄露。除了嵌入信息泄露外,我們還演示了如何通過越獄提示詞攻擊 LLMs,進而恢復私密的訓練數據。在討論了攻擊后,我們提出了新的防御方法,以防止嵌入中的信息泄露。最后,我們實現了一個基準測試,用于實證評估攻擊在有無防御情況下的表現。我們進行了大量實驗,以驗證我們發現的攻擊與防御的有效性。我們的評估基準結果揭示了攻擊假設與防御假設之間未曾察覺的差距。
預訓練語言模型(LMs)基于 Transformer 架構,標志著自然語言處理(NLP)領域變革時代的開始。通過在特定任務數據上微調預訓練的 LMs,可以在廣泛的任務上實現無與倫比的性能[98]。目前,生成式大規模語言模型(LLMs)通過將多種自然語言處理任務整合到一個全面的文本生成框架中,展現了卓越的能力。這些 LLMs,包括 OpenAI 的 GPT-4 [112]、Anthropic 的 Claude 3 和 Meta 的 Llama 3 [3],在理解和生成自然語言方面展現了最先進的表現。因此,盡管沒有額外的微調,這些 LLMs 在預定義任務和現實世界挑戰中依然占據主導地位[129, 33, 12, 112, 113, 68, 21]。除了生成可讀文本,LLMs 還能夠自動化許多跨領域的任務,使其成為編程和藝術設計等應用中不可或缺的工具。此外,LLMs 展現了令人印象深刻的泛化能力,能夠處理未見過的任務。在適當的指令(提示)和示范下,LLMs 甚至能夠理解特定的上下文或處理新任務,而無需進一步的微調[30, 200, 75, 169, 134]。因此,將 LLMs 融入各種應用場景,從科學研究到智能助手,具有廣闊的前景。然而,LLMs 的開放式生成也帶來了內容安全和數據隱私方面的固有脆弱性。在內容安全方面,惡意攻擊者可能會操控 LLMs 的指令,使其輸出有害的響應。提示注入攻擊[160, 121, 97, 144, 96, 52]和越獄攻擊[84, 36, 141, 167]能夠引導 LLMs 輸出攻擊者希望的任何內容。在數據隱私方面,LLMs 可能會泄露其敏感的訓練數據。在提高性能的背后,LLMs 以巨大的模型規模吞噬了海量的訓練數據。即便是 API 級別訪問 LLMs,也可能導致個人身份信息(PII)的意外泄露[84, 99, 60, 19, 202, 163]。安全性和隱私風險引發了廣泛的討論和批評,關于如何合理使用人工智能的議題已成為焦點。作為回應,政府已更新或提出新的關于生成式人工智能的法規。這些新法規,如《歐盟人工智能法案》、通用數據保護條例(GDPR)和《加利福尼亞消費者隱私法案(CCPA)》都強調了人工智能模型的合理使用,以實現社會公益。盡管存在風險,將多種應用整合到 LLMs 中已成為日益增長的趨勢。這些整合賦予 LLMs 有效解決數學問題的工具(如 ChatGPT + Wolfram Alpha)、解釋格式化文件的能力(如 ChatPDF),并通過使用搜索引擎響應用戶查詢以減少幻覺(如新 Bing)。然而,當 LLMs 與外部工具(如搜索引擎)結合時,領域特定的隱私和安全風險也隨之而來。例如,正如[84]中討論的,惡意攻擊者可能會利用新 Bing 將受害者的個人身份信息(PII)與部分數據關聯起來。因此,LLMs 中存在的完整安全性和隱私問題仍然不明確。本論文的最終目標是提升 LLMs 在內容安全和數據隱私方面的可信度。因此,本文的重點集中在以下幾個方面的攻擊、防御和評估:
//pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf 深度神經網絡在人工智能各個領域取得了顯著的成功。其成功的關鍵因素之一是它們從數據中學習有效特征表示的能力,這使得它們與傳統的機器學習方法有所不同。本論文探討了特征學習在神經網絡訓練中的出現,并展示了其在基礎模型適應下游應用中的關鍵作用。
首先,我們提供了關于神經網絡中特征學習出現的理論見解。我們展示了網絡在早期訓練階段可以使用最小的參數有效地學習與類別相關的模式,從而避免了傳統方法中常見的維度災難。我們的分析揭示了這一能力來源于網絡能夠利用輸入數據的固有結構。我們為通過梯度下降訓練的兩層網絡開發了一個統一的分析框架,刻畫了特征學習如何超越核方法進行發生。我們將研究擴展到Transformer架構,分析了單層Transformer中的傅里葉特征,并揭示了模型規模與上下文學習行為之間的關系。我們的研究發現,較大的模型覆蓋了更多的隱藏特征,而較小的模型則強調重要特征,導致了不同的上下文學習行為。 基于這些理論見解,我們為基礎模型開發了實際應用。我們引入了核范數正則化以提高領域泛化能力,展示了在各種任務中一致的性能提升。我們通過一種新型正則化方法解決了對比學習中普適性和標簽效率之間的權衡問題。此外,我們提出了回環Transformer,用于實現多步梯度下降的上下文學習,并開發了GemFilter算法,利用早期層的注意力特征來加速大型語言模型推理。 本論文推動了我們對神經網絡中特征學習的理解,并提供了改善基礎模型性能的實際方法,從而開發出更高效、更有效的機器學習系統。**
大型語言模型(LLMs),如ChatGPT,由于其非凡的對話技巧和智能,在過去幾年中迅速滲透到人們的工作和日常生活中。ChatGPT已成為人類歷史上用戶數量增長最快的軟件,并成為下一代人工智能應用的重要基礎模型。然而,LLMs的生成并非完全可靠,它們經常產生包含事實錯誤、偏見和毒性的內容。鑒于其龐大的用戶數量和廣泛的應用場景,這些不可靠的響應可能會導致許多嚴重的負面影響。本文介紹了我博士研究期間在語言模型可靠性領域的探索性工作,從自動化軟件測試和自然語言處理的角度研究LLMs的正確性、無毒性和公平性。 首先,為了衡量LLMs的正確性,我們提出兩個新的測試框架:FactChecker和LogicAsker,分別用于評估事實知識和邏輯推理的準確性。FactChecker通過從大規模知識庫中檢索事實三元組來構建知識圖譜,然后根據知識圖譜生成各種類型的問題以及預期答案,用來作為測試用例。LogicAsker是一個最小功能測試框架,它首先通過收集邏輯學中的所有基本原理和定律來構建原子技能集合,然后通過將標準邏輯表達式轉換為自然語言來生成推理問題作為測試用例。我們的測試框架可以自動且全面地生成測試用例,并有效地揭示最先進的LLMs(如ChatGPT和LLaMa)的失敗之處。此外,我們還證明了生成的測試用例可以提高LLM的事實正確性和邏輯推理能力。 其次,針對LLMs的無毒性,我們介紹了兩項針對LLMs的紅隊測試工作。首先,我們發現LLMs的保護措施——文本內容審核軟件,在面對用戶有意的擾動時不夠穩健,無法通過審核。我們引入了MTTM,一個用于文本內容審核軟件的蛻變測試框架,其蛻變關系是有毒句子在經過語義保留的擾動后仍應被識別為有毒。實驗結果表明,MTTM可以發現商業內容審核軟件中的錯誤,并提高其可靠性。其次,我們發現所有先前的安全基準以及對齊都僅限于一種語言,例如英語。我們建立了第一個用于LLMs的多語言安全基準XSafety,涵蓋了十種語言中14個常見的安全問題,這些語言跨越了幾個語系,并發現所有LLMs對非英語查詢產生的不安全響應明顯多于英語查詢。此外,我們提出了一種簡單有效的提示方法,通過增強安全對齊的跨語言泛化來提高LLM的多語言安全性。 第三,為了評估LLMs的公平性,我們提出了兩個評估框架BiasAsker和XCulturalBench,分別用于衡量LLMs的社會偏見和文化偏見。我們首先介紹BiasAsker,一個用于識別和衡量對話式AI系統中社會偏見的自動化框架。BiasAsker可以生成不同類型的問題來從5,021個有偏見的屬性角度衡量對841個群體的偏見態度。在10個商業系統和模型上的實驗表明了BiasAsker的有效性。然后,我們確定了LLMs中存在的文化偏見問題,這是由于模型訓練和對齊中主要使用英語數據所致,并引入了XCulturalBench,一個多語言文化相關基準,包含具體(例如節日和歌曲)和抽象(例如價值觀和觀點)的文化對象。實證結果表明,具有代表性的GPT模型存在嚴重的文化偏見問題。我們還表明,在模型開發和部署中采用兩種直接的方法可以顯著緩解LLMs中的文化偏見問題。
AI工程:基于基礎模型構建應用
在人工智能(AI)的發展過程中,基礎模型(Foundation Models)已成為推動技術創新的重要力量。這些模型,通常具有大規模的參數量和強大的泛化能力,能夠通過遷移學習應用于多個領域,并已成為AI工程應用中的核心組件。基礎模型在許多實際應用中顯示了其卓越的性能,尤其是在自然語言處理(NLP)、計算機視覺(CV)和多模態學習等領域,逐漸成為構建復雜AI系統的基礎。 隨著基礎模型的快速發展和廣泛應用,AI工程面臨了全新的機遇與挑戰。構建AI應用程序不僅要求對基礎模型有深刻的理解,還需要解決諸如模型優化、數據準備、訓練效率、模型推理和部署等技術難題。本文旨在探討如何將基礎模型應用于AI工程的實際構建中,涵蓋從模型訓練到部署的全過程。 1. 基礎模型概述
基礎模型通常是指那些通過大規模無監督學習(如自監督學習、自回歸學習)進行訓練,并能夠適應多種任務的預訓練模型。這些模型能夠通過微調(fine-tuning)進行快速適應,以執行多種具體的任務。近年來,隨著大型預訓練模型(如GPT-3、BERT、DALL-E和CLIP)的崛起,AI的應用領域迎來了革命性的進步。 基礎模型的一個關鍵特點是它們的通用性——即能夠應用于多個領域并取得顯著的效果。例如,GPT系列模型通過對海量文本數據的預訓練,能夠在文本生成、翻譯、問答和摘要等任務中展現出強大的性能。同樣,DALL-E和CLIP等視覺-語言模型在生成圖像和進行圖像理解時也具有非常高的效率。 2. 基礎模型在AI工程中的應用
AI工程主要關注如何將AI技術轉化為實際可用的應用程序,基礎模型作為構建這些應用程序的關鍵技術,涉及的領域包括自然語言處理、計算機視覺、語音識別、推薦系統等。在AI工程的實際應用中,基礎模型的能力被充分發揮,并通過以下幾個步驟進行實際部署: * 模型訓練和微調: 在具體任務上,基礎模型往往通過微調來適應特定需求。通過遷移學習,基礎模型可以從不同領域的知識中進行學習,并在多個任務中獲得最佳性能。 * 數據準備: 盡管基礎模型已經通過海量數據進行預訓練,但在實際應用中,數據的質量和多樣性對模型效果至關重要。為確保基礎模型能夠適應實際任務,需要對數據進行精細的篩選和處理。 * 推理與部署: 基礎模型的推理能力可以通過優化計算資源(如硬件加速、分布式計算)來提升。在實際部署過程中,可能需要將模型集成到各種平臺上,包括移動設備、Web應用和云服務。
3. 持續的挑戰與未來發展
盡管基礎模型在AI應用中取得了顯著進展,但在實際應用中仍面臨許多挑戰。基礎模型通常需要極高的計算資源,這對訓練和推理效率提出了很大的挑戰。此外,模型的可解釋性和公平性也是AI工程中亟需解決的問題。隨著基礎模型的規模和復雜性的不斷增加,如何在保持性能的同時,降低計算成本和提高可解釋性,成為未來AI工程發展的關鍵方向。 未來的發展趨勢可能包括: * 更高效的模型: 研究人員正在致力于通過模型壓縮、量化和蒸餾等方法,提高模型在推理過程中的效率,使其能夠在資源有限的設備上運行。 * 跨領域融合: 隨著多模態學習的進展,基礎模型將能夠更好地融合語言、視覺、聲音等多個領域的知識,提升在復雜應用場景下的表現。 * AI倫理和可解釋性: 隨著AI在各行業中的普及,如何確保AI模型的透明度、公平性以及避免模型偏見,成為行業和研究者關注的焦點。
4. 結語
基礎模型的崛起為AI工程帶來了新的機遇與挑戰。通過合理應用這些強大的預訓練模型,AI工程師可以構建出高效、智能的應用程序,推動各行各業的技術革新。然而,要使這些技術真正應用到實際場景中,還需要解決計算資源、數據處理、模型優化等一系列問題。隨著技術的不斷發展,基礎模型將會在未來AI工程中扮演更加重要的角色,推動智能應用的廣泛普及和發展。
隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
圖結構數據在各個領域中廣泛存在,表示實體之間有價值的關系信息。然而,大多數深度學習技術,如卷積神經網絡(CNN)和循環神經網絡(RNN),都是針對網格結構數據設計的,難以處理圖數據。這引發了對使用圖神經網絡(GNNs)進行圖表示學習的日益興趣。GNNs通常通過消息傳遞將圖結構融入神經網絡層中。然而,圖神經網絡仍面臨諸多挑戰,如缺乏嚴格的基準、模型表達能力的局限性和較差的可擴展性。 本論文旨在通過解決這些關鍵問題,推動圖表示學習的發展。首先,它開發了全面的基準,用于標準化評估GNNs。這包括中等規模的任務,涵蓋社交網絡、計算機視覺和組合優化等領域中節點、邊和圖分類的監督和半監督學習。論文還引入了一個專門設計的全新基準,用于測試大規模圖中長距離交互建模的能力。
其次,論文致力于開發新的GNN架構,以提高圖上的學習表現和泛化能力。它通過引入圖形領域的歸納偏差(如利用稀疏性和設計Laplacian位置編碼)將Transformer網絡擴展到圖結構數據領域。另一種技術通過使用具有信息量的圖擴散特征,在GNN中分別學習結構和位置表示。這顯著增強了模型的能力。
最后,論文解決了圖模型(尤其是圖Transformer)在大規模圖上擴展的問題。它研究了設計原則,如整合高效的局部和全局圖表示。基于此,提出了一個可擴展的圖Transformer框架。該框架通過引入新穎的鄰域采樣和全局注意機制,捕捉大規模圖中的局部結構和全局依賴關系。
總體而言,通過嚴格的基準測試、富有表現力的架構和可擴展的模型,本論文在多個方面對推動圖結構數據上的深度學習做出了重要貢獻。這些技術為GNN在處理復雜關系數據的實際應用中鋪平了道路。
圖結構無處不在,從電子商務到知識圖譜,抽象出個體數據實體之間的交互。運行在圖結構數據上的各種實際應用程序需要為圖的每個部分——節點、邊、子圖和整個圖——提供有效的表示,以編碼其基本特征。近年來,圖上的深度學習(Deep Learning on Graphs,DLG)通過學習圖表示,在各個領域取得了突破性進展,成功捕捉了圖中潛在的歸納偏差。然而,這些突破性的DLG算法在應用于實際場景時,有時會面臨一些局限性。首先,由于只要在存在實體交互的領域中都可以構建圖,因此實際中的圖往往是多樣化的。因此,每一個新的應用程序都需要領域專家的參與和繁瑣的超參數調優工作,以找到最優的DLG算法。其次,實際中的圖的規模不斷擴大,甚至達到數十億節點,同時還伴隨著未過濾的噪聲。這要求在實現DLG應用之前進行冗余的預處理,例如圖采樣和噪聲過濾。接下來,實際中的圖大多是專有的,而許多DLG算法往往假設它們可以完全訪問外部圖,以學習其分布或提取知識,進而轉移到其他圖。最后,語言和視覺領域的單模態基礎模型的出現,促進了多種模態的集成,導致了帶有多種模態的節點和邊的多模態圖的形成。然而,在多模態圖上進行學習,同時利用每種模態的基礎模型的生成能力,仍然是DLG中的一個開放性問題。在本論文中,我提出從四個維度使DLG更加實用:1)自動化,2)可擴展性,3)隱私性,4)多模態性。首先,我們在消息傳遞框架下自動化算法搜索和超參數調優。然后,我們提出對每個節點的鄰域進行采樣,以調節計算成本,同時自適應地過濾掉針對目標任務的噪聲鄰居,以應對可擴展性問題。針對隱私問題,我們重新定義了包括圖生成和遷移學習在內的傳統問題定義,使其意識到實際圖的專有性和隱私受限的特點。最后,我提出了一種新的多模態圖學習算法,該算法建立在單模態基礎模型之上,并基于多模態鄰居信息生成內容。隨著人類收集的數據在規模和多樣性上的增加,個體元素之間的關系在規模和復雜性上呈指數級增長。通過使DLG更加可擴展、隱私認證和多模態,我們希望能夠更好地處理這些關系,并對廣泛的領域產生積極的影響。
//ra.adm.cs.cmu.edu/anon/2024/abstracts/24-139.html
在計算機視覺和自然語言處理領域取得的近期成功中,現實世界數據的一個關鍵方面——關系信息——在AI模型中仍然未得到充分探索。傳統模型主要在訓練和推理過程中單獨處理單個數據實體,例如一張圖片或一句話。相反,許多現實世界的應用本質上涉及富含關系結構的數據,這些數據自然可以表示為圖,其中節點代表數據實體,邊則編碼了它們之間的關系。通過理解圖中每個數據實體的關系,我們能夠全面了解它與其他實體的相關性或聯系。例如,在電子商務中,一個產品的上下文不僅僅通過其描述來解讀,還可以通過電子商務圖中相鄰節點的用戶評論、商家信息或共同購買的產品來分析。圖上的深度學習(Deep Learning on Graphs,DLG)提出了多種深度學習方法,通過捕捉圖中的潛在歸納偏差來學習節點、邊、子圖和圖的有效表示【20,75】。DLG在多個領域取得了突破,從傳統的圖應用,如電子商務/社交平臺中的產品/好友推薦【88,176】、社交網絡中的虛假信息檢測【10】、金融交易網絡中的欺詐檢測【156】等,到新興的圖應用,包括導航應用中的ETA預測【29】、流行病學中的疫情預測【22,112】以及生物學中的藥物開發【70】。
DLG旨在通過圖結構和鄰域信息學習理解這個相互關聯的世界,并改進對每個數據實體的理解。然而,當我們嘗試在實踐中實現DLG時,會面臨源自現實世界圖特征的諸多挑戰。
鑒于超參數調優、可擴展性、隱私性和多模態等四個阻礙DLG廣泛應用于現實世界中的挑戰,我定義了新的問題,旨在解決這些挑戰,并提出了可以在現實世界圖上部署的實用解決方案。
大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。
參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。