人工智能模型的成功依賴于大量、多樣化和高質量數據集的可用性,由于數據稀缺、隱私問題和高成本,獲取這些數據可能面臨挑戰。合成數據作為一種解決方案應運而生,通過生成模仿現實世界模式的人造數據。本文提供了合成數據研究的概覽,討論了其應用、挑戰和未來方向。我們呈現了先前藝術作品的實證證據,以證明其有效性,并強調確保其事實性、保真度和無偏見性的重要性。我們強調需要負責任地使用合成數據,以構建更強大、包容和可信的語言模型。
//www.zhuanzhi.ai/paper/23dede415fe236688f496c1c456a1265
人工智能(AI)技術的迅速發展導致其在眾多領域得到廣泛應用,從助手代理(例如,Adept AI的ACT-1)和軟件開發(例如,Cognition Lab的Devin)到醫療保健(Singhal等人,2022年)和金融(Zheng等人,2022年)。然而,AI模型的成功在很大程度上依賴于大量、多樣化和高質量數據集的可用性,用于訓練和評估。由于數據稀缺(Babbar和Sch?lkopf,2019年)、隱私問題(Abay等人,2019年)以及數據收集和注釋的高成本(Gilardi等人,2023b),獲取此類數據集可能是一個重大挑戰。悲觀者預測,到2050年我們將耗盡新鮮的文本數據,到2060年將耗盡圖像數據(Villalobos等人,2022年)。合成數據已經成為解決這些挑戰的有希望的解決方案(Nikolenko,2021年)。合成數據指的是通過算法(Saxton等人,2019年)、生成模型(Borisov等人,2022年;Meng等人,2022年)或甚至模擬(Liu等人,2023c;Vezhnevets等人,2023年)而非直接由人類創建的,模仿現實世界數據特征和模式的人造數據。通過利用合成數據,我們不僅可以克服現實世界數據的限制,還可以解鎖發展更健壯、可靠和公平AI模型的潛力(Lu等人,2023年;Lucini,2021年)。合成數據的許多好處之一是它可以大規模生成,為AI模型提供豐富的訓練和測試數據。這在現實世界數據稀缺或難以獲取的領域尤其寶貴(例如,涵蓋所有條件的天氣數據(Lam等人,2023年;Li等人,2023a))。其次,合成數據可以根據特定需求進行定制,例如通過引入控制變異來確保不同類別的平衡表征(例如,在多語言學習中增加低資源語言的權重(Przystupa和Abdul-Mageed,2019年))。這種對數據特征的控制水平可以提高模型性能和泛化能力。第三,合成數據可以通過創建匿名化或去標識化數據集來幫助緩解隱私問題,這些數據集不包含敏感的個人信息(El Emam等人,2020年;Howe等人,2017年)。這在醫療保健等領域至關重要,在這些領域中,患者隱私至關重要(Dahmen和Cook,2019年;Wei等人,2019年)。盡管合成數據具有潛力,但也存在需要解決的挑戰。其中之一是確保合成數據的事實性和保真度(Heusel等人,2017年;Wood等人,2021年),因為在虛假、幻覺或有偏見的合成數據上訓練的模型可能無法推廣到現實世界情境(Guarnera等人,2020年;Van Breugel等人,2023年)。研究人員必須開發復雜的生成模型和評估指標,以創建準確反映現實世界數據中復雜模式和關系的合成數據。另一個挑戰是,如果合成數據設計和驗證不當,可能會放大偏見或引入新的偏見(Barbierato等人,2022年;Gupta等人,2021年)。我們認為,嚴格的測試和公平性評估是必要的,以減輕這些風險。在本文中,我們追蹤了合成數據研究的當前狀態,并討論了當前的最佳實踐和經驗教訓。本文的其余部分組織如下。第2節提供了合成數據生成技術及其在模型訓練中的應用的概述,呈現案例研究和實證證據。第3節討論了合成數據在評估中的用途。第4節討論了合成數據的挑戰和局限性,在第5節中,我們概述了潛在的解決方案和未來研究方向。
2. 合成數據在訓練中的應用
合成數據通過模擬真實世界收集的真實數據生成,已被證明是一種有效且相對低成本的真實數據替代品。本節探討了幾個利用合成訓練數據的顯著領域。
2.1. 推理
數學。最近在語言模型(LMs)的數學推理方面的進展促使了各種提升數學相關任務性能的方法的發展。其中一種方法是在針對數學的預訓練數據上訓練,例如Minerva(Lewkowycz等人,2022年)、Llemma(Azerbayev等人,2023年)和DeepSeekMath(Shao等人,2024年)。另一種主流方法是生成模擬目標基準的訓練或驗證集的合成問題和答案。例如,WizardMath(Luo等人,2023a)利用GPT-3.5進行一系列操作以提高問題和答案的復雜性,而MetaMath(Yu等人,2023)通過語義重述、自我驗證和逆向推理等不同方式改寫MATH和GSM8K的問題。GAIR-Abel(Chern等人,2023)發現增強答案的格式對最終性能至關重要,以問題的釋義開始,然后逐步解答的答案表現優于普通格式。Xwin-Math(Li等人,2024)進一步將合成SFT數據擴展到一百萬例,并發現LLaMA-2 7B模型(Touvron等人,2023)仍可從數據擴展中受益。MMIQC(Liu和Yao,2024)組成了一個數據集包,將SFT風格數據(通過問題-答案重述或直接來自MetaMath)與一部分高質量的數學預訓練數據(如OpenWebMath(Paster等人,2023))結合起來。擴大生成合成數學數據是一個直接的過程,但確保生成的數學數據的正確性仍然是實踐者面臨的重大挑戰。AlphaGeometry(Trinh等人,2024)是最近解決這一問題的嘗試,該模型通過使用1億個合成數據點進行訓練,提出解決方案并指導符號演繹引擎驗證解決復雜幾何問題時每個分支的正確性。通過結合合成數據的力量和嚴格的驗證過程,AlphaGeometry實現了與人類奧林匹克金牌得主相當的解題能力,展示了這種方法在處理復雜數學推理任務中的潛力。編碼。與數學不同,合成數據用于代碼推理可以自然地將執行結果與結構化代碼結合起來,因為正確代碼的一個要求是可執行的。在增強編碼的模型中,CodeRL(Le等人,2022年)提出了一種演員-評論家方法,通過對合成代碼樣本的反饋信號改進預訓練語言模型。Haluptzok等人(2022年)提出了一種自我改進策略,其中模型生成自己的合成難題-解決方案對。這些對然后由真實解釋器驗證并過濾,之后用于微調語言模型。Shypula等人(2023年)進一步提出了一個框架,利用模擬環境和自我改進合成數據生成及CoT提示等適應策略進行代碼優化。Yang等人(2024年)開發了InterCode,一個旨在增強交互式代碼生成的框架,在這個框架中,代碼作為動作,執行反饋作為觀察。Reflexion(Shinn等人,2024年)利用外部或內部模擬的語言反饋信號來提高語言模型的代碼推理能力。關于合成SFT數據,Code Alpaca包含一個由20K代碼指令自動生成的數據集,這些指令通過將SELF-INSTRUCT(Wang等人,2022a)應用于ChatGPT的21個種子任務生成。WizardCoder(Luo等人,2023b)引入Code Evol-Instruct來指導ChatGPT,通過啟發式提示增強合成數據的復雜性和多樣性。同時,Magicoder(Wei等人,2023c)開發了OSS-INSTRUCT,從開源代碼片段生成75K多樣化的合成指令樣本。其他推理任務。合成數據在其他推理任務中也帶來了令人印象深刻的表現。例如,Wei等人(2023a)通過將自然語言標簽替換為任意符號,增強現有自然語言數據集,生成了超過50萬個合成示例。使用這些合成數據進行監督微調顯著提高了模型在未見過的上下文學習和算法推理任務上的性能。STaR(Zelikman等人,2022年)生成合成的思維過程理由,并過濾掉那些導致錯誤答案的理由,以微調語言模型,提高其推理能力。在物理推理領域,Mind’s Eye(Liu等人,2022年)采用了一種新穎的方法,通過合成“文本描述 → 渲染代碼”的數據訓練文本到代碼模型。這使得模型能夠將文本問題轉換為渲染代碼,然后在物理引擎(即DeepMind MuJoCo(Todorov等人,2012年))中執行。渲染結果被注入上下文中,即使是小型語言模型也能借助Mind’s Eye實現與100倍大的模型相當的性能。
2.2. 工具使用和規劃
通過合成軌跡學習使用工具。合成數據也是一種強大的方法,可以通過模擬軌跡使LMs學習使用工具的能力,因為收集真實世界中的人類使用工具的數據可能既耗時又不實際,并且調用工具的實際分布可能是偏斜的。例如,LaMDA(Thoppilan等人,2022年)不僅在網頁文檔上進行了訓練,還在眾包工作者與模型本身之間的交互數據上進行了訓練,合成數據中注明了調用適當工具的信息。這一訓練過程使LaMDA能夠發展出使用計算器進行算術、使用搜索引擎進行實時信息搜索和使用機器翻譯進行翻譯的能力。類似地,Toolformer(Schick等人,2024年)學習決定調用哪些API及傳遞什么參數,通過在模板生成的數據上訓練,而Galactica(Taylor等人,2022年)將API調用數據融入預訓練混合中。ToolAlpaca(Tang等人,2023年)是一個旨在自動生成多樣化工具使用語料庫的新穎框架,通過構建多代理模擬環境并讓代理反復選擇并使用工具。這些例子展示了合成軌跡在使LMs獲得使用工具的能力和提高其在各種領域的推理能力方面的潛力。在合成環境中學習規劃。自治機器智能(LeCun,2022年)中代理的一個重要特征是規劃——將復雜任務分解為子任務并以獎勵最優的方式完成子任務的能力(Kambhampati等人,2024年)。合成數據在這里可以作為一種寶貴的工具,因為它可以作為從模擬器收集的反饋信號(Park等人,2023年),并且在其上的學習可以使代理意識到可供性(Ahn等人,2022年;Liang等人,2022年)。例如,Inner Monologue(Huang等人,2022年)利用模擬環境生成的自然語言形式反饋教導基于LLM的機器人規劃。他們發現這種反饋顯著提高了在模擬和真實世界領域的高級指令完成率。為了組成大量現實的規劃任務(例如,“重新排列桌子上的物品以匹配給定場景。”),VIMA(Jiang等人,2022年)創建了一個稱為VIMA-Bench的多模態模擬環境,支持可擴展的物品和紋理集合。在Minecraft游戲中,Voyager(Wang等人,2023年)部署了多個基于GPT-4的代理與合成環境交互,發現代理能夠更快地解鎖新技能并在合成反饋的幫助下更有效地完成規劃。
2.3 多模態
從視覺到文本的逆向渲染。視覺-語言對齊數據側重于準確地將視覺輸入與LLM(通常通過視覺編碼器)對齊。自從CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)以來,網絡抓取的圖像-標題對在過去幾年中一直是最受歡迎的多模態對齊數據。然而,網絡抓取的圖像-文本對通常很嘈雜,并且只具有粗粒度的對應關系,不足以在語言中對圖像的細節進行定位。在文檔、屏幕、圖表和圖解等領域,這種精細的對齊最方便地可以通過構建圖像渲染引擎的數據合成流水線獲得。Pix2Struct(Lee等人,2023年)使用Web服務器將HTML代碼渲染成網站截圖,并且訓練任務是將遮蓋的截圖逆向渲染回完整的HTML代碼。MatCha(Liu等人,2023b年)和DePlot(Liu等人,2023a年)將表格數據渲染成圖表,使用Python繪圖庫,并通過給出渲染圖像并生成代碼和/或表格數據來預訓練基礎模型。Si等人(2024年)和Lauren?on等人(2024年)在將網頁截圖轉換為代碼實現的任務上對合成生成的HTML和CSS文件進行訓練。在合成數據上微調的模型可以在從互聯網抓取的現實數據上合理地泛化。Borkman等人(2021年)提議使用物理引擎或游戲引擎(例如Unity)作為合成數據生成器,以幫助計算機視覺研究。多模態指令跟隨。多模態LLMs的下游應用需要推理和指令跟隨能力。這類數據通常是長形式的問題響應對,人類創建此類數據成本高昂。LLaVA(Liu等人,2024b年)使用現有的圖像標題提示GPT-4(僅文本模式)編寫多樣化和長形式的提示-答案對。在多模態LLM訓練期間,使用圖像和提示作為輸入,而可以隱藏標題和邊界框信息。除了圖像標題外,其他圖像屬性信息來源,如對象邊界框(Zhao等人,2023年)、OCR(Zhang等人,2023d年)和逆渲染圖表(Carbune等人,2024年;Masry等人,2023年)都可以適用于此類圖像屬性+文本LLM重寫合成數據流水線。
2.4 多語言
回譯增強。許多多語言語言模型使用回譯作為數據增強方法,從單語數據源創建合成的平行訓練數據(Bi等人,2021年;Caswell等人,2019年;Liao等人,2021年;Marie等人,2020年;Pham等人,2021年;Sennrich等人,2016年;Xu等人,2022年;Zheng等人,2020年)。例如,Sennrich等人(2016年)將單語目標數據回譯成源語言數據,提供額外的平行訓練樣本,以實質性改善翻譯任務。研究人員還探索了回譯的不同抽樣方法(例如,束搜索、受限抽樣、不受限抽樣)及其比較效果(Edunov等人,2018年;Gra?a等人,2019年;Sennrich等人,2016年)。Xu等人(2022年)強調了合成數據的權重和質量對最佳NMT性能的重要性,并提出了一種優化搜索方法與伽馬得分比例的方法,以平衡估計的重要性權重和質量。然而,基于回譯的合成數據生成也存在一些局限性。例如,合成數據的質量和多樣性取決于回譯方法的性能。如果合成數據過于嘈雜或不夠多樣化,性能提升將受限(Chauhan等人,2022年;Epaliyana等人,2021年)。大規模生成多語言問題和答案。最近的研究探索了生成和利用合成多語言問題-答案(QA)對以提高語言模型在多語言和跨語言問題解答中的性能(Abulkhanov等人,2023年;Asai等人,2021年;Chi等人,2020年;Kumar等人,2019年;Li和Callison-Burch,2023年;Riabi等人,2021年)。一種方法是將現有的單語問題和/或答案翻譯成其他語言(Asai等人,2021年)。另一種方法涉及使用問題生成(QG)模型根據答案和/或源文本以跨語言方式生成合成問題(Chi等人,2020年;Kumar等人,2019年;Riabi等人,2021年)。最近的努力還集中在聯合生成多種語言的問題和答案上,以獲得更大的靈活性(Li和Callison-Burch,2023年;Shakeri等人,2021年)。例如,Shakeri等人(2021年)在QA生成任務和多語言遮蔽語言建模任務的混合上對預訓練的多語言T5模型(Xue等人,2020年)進行微調,以產生多種語言的合成QA對。這些努力通常表明,訓練在合成QA對上的語言模型在多語言QA和信息檢索基準測試上表現得更好。
3. 在評估中使用合成數據
合成數據在不同視角的評估中被廣泛使用: 事實性。AI系統可能會生成沒有基于事實知識或數據的信息或響應,導致誤導性或虛假內容的產生,這種現象正式稱為幻覺(Ji等人,2023)。事實性評估旨在確保AI系統輸出的知識與其訓練數據和知識庫提供的知識一致(Ji等人,2023;張等人,2023c)。早期基于統計的幻覺評估方法依賴于n-gram來直接計算輸入和輸出內容之間的詞匯重疊(Dhingra等人,2019;Wang等人,2020)。然而,這些方法有限制,因為它們只考慮詞匯重疊,沒有考慮語義或句子意義(Ji等人,2023),使它們不適合評估更復雜形式的幻覺。后續保證方法從統計方法轉向基于模型的方法,與基于令牌差異的方法相比,這些方法更為穩健(Honovich等人,2021)。雖然這些基于模型的評估方法比它們的前身更先進,但仍有局限性。例如,模型只能輸出幻覺的程度,可能難以指出具體錯誤(Falke等人,2019)。Feng等人(2023a)提議將LLM生成與知識圖譜上的隨機游走相結合,生成用于事實性的合成評估數據,這些數據能識別圖中的實體和關系。Wei等人(2024)創建了一個名為LongFact的合成數據集,用于長形事實性評估,并使用谷歌搜索作為基準源和LLM進行自動判斷,以實現人類水平的準確性但成本大大降低(Min等人,2023)。
安全性。紅隊測試是評估AI模型的安全性和健壯性的一種強大技術(Casper等人,2023b;Ganguli等人,2022)。通過生成設計來引發未對齊或有害輸出的多樣化和現實場景(Casper等人,2023a),紅隊測試可以暴露AI系統的漏洞和弱點(Perez等人,2022)。例如,Perez等人(2023)使用LMs生成數據集來評估其他LMs的行為。他們最終生成了154個高質量數據集,并由人類驗證,發現新的逆向縮放案例,即LMs隨著大小增加而變差。Hubinger等人(2024)利用合成數據在大規模觸發LMs的后門攻擊;他們發現LMs可以表現出欺騙行為,并在此類攻擊下創造出安全的假象,而標準的“安全訓練”無法輕易消除這種欺騙。這些方法展示了使用AI輔助擴大人類監督的可行性(Bowman等人,2022),處理復雜問題和未見領域。
輔助人類評估。最近的研究表明,在許多情況下,大規模LMs(LLMs)的合成判斷可以作為實際人類評估的合格、快速和低成本的替代品(Gilardi等人,2023a)。使用GPT-4作為評判,Alpaca Eval(Li等人,2023b)和MT Bench(Zheng等人,2023)是兩個流行的基準測試,用來衡量基于LM的ChatBot的綜合能力。在編碼任務中,合成環境是幫助人類評估的常見選擇,因為人類可以通過實際執行和對運行日志的分析更高效地進行評估。Gu等人(2024)提出了CRUXEval,一個由CodeLLaMA-34B生成的800個Python函數組成的代碼執行推理基準。同樣,Liu等人(2024a)引入了CodeMind,一個框架,用來衡量LLMs在獨立執行推理(IER)、依賴執行推理(DER)和規范推理(SR)上的代碼推理能力。所有這些基于合成數據的評估都與真實人類判斷有強烈的相關性。
合成數據的挑戰與局限
盡管合成數據提供了許多好處和應用,但認識到并解決與其使用相關的潛在挑戰和限制至關重要。本節將深入探討合成數據周圍的三個重大問題:
合成數據誤用可能導致錯誤信息的擴散。合成數據的潛在誤用是一個重要問題,必須解決以確保AI系統的負責任開發。當前AI模型越來越能夠生成類似人類的數據,從文本(Gemini-Team等人,2023,2024),圖像(Ramesh等人,2022;Saharia等人,2022b),到視頻(例如,OpenAI SORA)。當合成數據用來冒充真實人物、操縱公共意見或影響政治過程時,這可能特別危險。此外,合成數據驅動的錯誤信息的傳播可能會侵蝕對合法信息來源的信任,使人們越來越難以區分真相和謬誤(Byman等人,2023;Rid,2020)。為了降低這些風險,對研究人員、開發人員和政策制定者來說,制定清晰的合成數據生成和使用的道德準則和最佳實踐至關重要,包括強大的檢測和對抗合成錯誤信息的機制(Groh等人,2022)。通過積極應對這些挑戰,我們可以利用合成數據的好處,同時最小化其潛在的危害。
合成數據可能導致AI對齊的模糊不清。在對齊AI模型中使用合成數據的增加(例如,Constitutional AI (Bai等人,2022))可能引入重大的模糊性和不確定性。AI對齊的目標是確保AI系統的行為與人類價值觀和意圖一致。然而,合成數據是人工生成的,而不是從現實世界來源收集的,可能無法準確代表人類價值觀和偏好的細微差別(Zhou等人,2024)。這種差異可能導致AI模型從有偏見的(Feng等人,2023b;Liu等人,2021)、無根據的(Liu等人,2022;Patel和Pavlick,2022)或不代表現實世界情境的數據中學習(Ji等人,2023;Weidinger等人,2021)。因此,受合成數據訓練的AI系統可能表現出與人類期望不一致的行為,可能導致意外后果甚至有害行為(Anderljung等人,2023;Zou等人,2023)。此外,合成數據引入的模糊性可能使解釋和理解AI模型的決策過程變得復雜(Lightman等人,2023),進一步增加確保對齊的難度。為了降低這些風險,研究人員必須仔細考慮在對齊研究中使用合成數據的局限性和潛在缺陷,并開發出驗證和測試受此類數據訓練的AI模型的健壯方法。
使用合成數據訓練使評估去污染更加困難。在模型訓練中使用合成數據對公平評估提出了重大挑戰。評估基準通常通過引用公共文本來源(如課程網站或論壇)來創建。因此,可以認為所有公開可用的基準測試案例可能偶爾會被包括在LLMs的預訓練數據中(Gao等人,2021;Hoffmann等人,2022)。使用合成數據加劇了這個問題而不是緩解它。盡管社區提出了幾種檢測此類評估污染的技術,如min-??% prob(Shi等人,2023),檢查??長尾詞的概率,但當模型使用合成數據訓練時,這些令牌級去污染方法是不充分的。合成數據可能包括基準數據的改寫版本(Mattern等人,2023;Oren等人,2023),使令牌級去污染無效。除了開發更先進的評估污染檢測技術外,我們建議模型開發者投資創建和維護內部和受保護的評估基準。這些專有基準應該被小心保護以防泄漏,并確保評估過程的完整性。
未來工作的方向
隨著合成數據領域的不斷發展,未來的研究和開發有幾個有前景的方向。本節概述了三個需要進一步探索的關鍵領域: 合成數據的擴展。許多經過過度訓練的小型語言模型(例如,Mistral系列模型(Jiang等人,2023年)和Gemma系列模型(Gemma-Team等人,2024年))的印象深刻的表現證明了使用大量令牌進行訓練的必要性(甚至超過了計算最優的chinchilla法則(Rae等人,2021年))。然而,使用合成數據進行訓練是否有類似的結論仍是一個未解決的問題,因為合成數據的質量可能不如現實世界的數據(Yu等人,2024年)。未來的研究應該調查合成數據的規模化法則,并確定合成樣本的數量和質量之間的最佳平衡。這種探索可以幫助我們了解在大規模語言模型訓練中利用合成數據的最有效策略,可能導致更高效和更具成本效益的方法(Muennighoff等人,2024年)。
進一步提高合成數據的質量和多樣性。盡管現有生成合成數據的方法顯示出前景,但在創造高質量、具有真實屬性的合成樣本方面仍有改進空間,這些樣本能夠密切模仿現實世界數據。未來的研究應該專注于開發新的高級技術(或基于現有技術如生成對抗網絡(GANs)(Goodfellow等人,2020年)或擴散模型(Ho等人,2020年)),這些技術可以控制和操縱生成數據的特定屬性,使得創建多樣化和可定制的合成數據集成為可能。此外,研究人員應探索可以將領域特定知識整合進來的方法,以確保生成的數據遵循目標領域中存在的底層約束和模式(例如,通過檢索增強生成(RAG)(Borgeaud等人,2022年;Lewis等人,2020年))同時保持數據質量。通過推進歸因合成數據生成的最新技術,我們可以為隱私保護分析(Assefa等人,2020年)和跨多個領域的模型訓練(例如,醫療保健領域的合成醫學圖像(Frid-Adar等人,2018年;Wei等人,2019年)和金融領域的模擬交易軌跡(Zheng等人,2022年))解鎖新的機會。
朝向高保真和更高效的可擴展監督。隨著AI模型變得日益復雜和自主,使用傳統的依賴人類監督或真實世界數據的監督方法來監控和評估它們的行為變得具有挑戰性(Amodei等人,2016年)。未來的研究應探索使用合成數據對這些先進系統進行高保真的可擴展監督。現有方法通常在社會迭代中模擬某些場景,如辯論(Leike等人,2018年)、反思(Zhang等人,2023a)或修訂(Liu等人,2023c)以獲取合成數據,而新的方法可以涵蓋更全面的場景和更多的模態(Sun等人,2023年),因為最近的研究發現許多僅涵蓋范圍狹窄(Cheng等人,2023年)或過于簡化(Zhou等人,2024年)的場景的模擬問題。展望未來,另一個增長方向可能是如何更高效地實現可擴展的監督——鑒于我們完全控制合成數據的生成,我們可能可以提供更有針對性的監督,而使用更少的合成數據。隨著對有效的AI治理和監管的需求增長,合成數據將在啟用更可信的可擴展監督機制中發揮越來越重要的作用,這些機制促進AI技術的健壯、負責任和安全部署,以造福社會(Askell等人,2021年;Bowman等人,2022年)。
結論
合成數據已經成為解決數據稀缺、隱私擔憂和AI開發高成本問題的有前景的解決方案。通過生成逼真和多樣化的數據集,合成數據使得在各個領域的大規模AI模型的訓練和評估成為可能。隨著我們接近人類水平甚至超人類水平的智能,獲取合成數據變得更加關鍵,因為模型需要比平均人類質量更好的數據才能進步。然而,確保合成數據的事實性、保真性和無偏見仍是一個關鍵挑戰。未來關于合成數據的研究方向可以關注提高生成模型的保真性和可控性,并開發標準化的評估和污染協議及工具。我們還可以探索將合成數據與其他技術整合以及在其他領域的應用。盡管存在挑戰,但合成數據在推進AI研究方面的潛在好處是顯著的。通過負責任和有效地利用合成數據,我們可以構建更強大、更包容、更可信的AI系統,造福整個社會。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。
圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。
近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。
貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。
**LLM作為增強器 **
圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。
LLM作為預測器
這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。
GNN-LLM 對齊
對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。
結論
近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。
因果模型與深度學習的融合引入了越來越復雜的數據集,例如圖像內或文本組件間的因果關聯,這已經成為一個重點研究領域。然而,將原始的因果概念和理論擴展到如此復雜的非統計數據上已經遭遇了嚴重的挑戰。為此,我們的研究從因果結構和表示的角度提出將因果數據重新定義為三個不同的類別:確定數據、半確定數據和不確定數據。確定數據主要涉及在傳統因果場景中使用的統計數據,而半確定數據指的是與深度學習相關的一系列數據格式,包括時間序列、圖像、文本等。不確定數據是一個新興的研究領域,由我們從數據形式的進展中推斷出來。為了全面展示這三種數據范式,我們詳細闡述了它們的正式定義、數據集中表現出的差異、解決途徑以及研究的發展。我們總結了關于確定數據和半確定數據的眾多研究工作中的關鍵任務和成就,為不確定數據提供了一條研究路線圖,從其當前的研究難題開始。最后,我們分類并調研了在這三種范式中目前使用的關鍵數據集。
1 引言
因果模型位于機械模型和統計模型之間[204]。與統計模型一樣,它們使用數據驅動的方法分析系統組件之間的關系[79, 124, 150]^1。然而,它們具有在分布轉移中保持穩健性的能力[242],這意味著因果模型可以在非??.??.??.環境中保持準確性[176, 179, 203, 221]。例如,考慮在兩種不同的實驗條件下同一系統的聯合分布??(??, ??)。在統計模型中,這兩個聯合分布可能不相等。但是,通過因果地將它們分解為??(??)??(??|??)這種因子化,我們可能會得到一個穩健的分布??(??|??),它可能代表在此系統中??是??的原因。當我們學習了所有組件之間的關系時,我們實際上獲得了機械模型中找到的????/????等價物。 另一個由??.??.??. 數據驅動的領域是機器學習,它與因果模型有著密切的關系。機器學習在廣泛的??.??.??. 數據集[53, 137, 163, 205]上取得了顯著的成功,例如最近鄰分類器[217]、支持向量機[93]和神經網絡[242]。然而,在機器學習中準確識別的對象,在因果模型中經常無法達到相同的正確性和無偏性水平[58, 82]。當面對違反??.??.??. 假設的任務時,機器學習顯得很脆弱[128, 148, 200]。隨著機器學習,特別是深度學習,在更廣泛的場景中的應用,這一問題變得更加明顯。因此,兩個領域之間產生了交叉污染:深度學習方法和因果發現。憑借對大量??.??.??. 數據的高效利用和開發,深度學習促進了在眾多場景中的因果發現任務的出現,而因果模型,通過干預和解耦,逐漸彌補了深度學習的泛化能力和可解釋性。因此,因果模型逐漸被應用于與深度學習相關的數據類型,如計算機視覺[7, 85, 87, 171]、自然語言處理[99, 224, 267]和語音識別[70, 170, 280]。 存在幾篇調查論文,討論如何從多種場景或深度學習方法中發現因果模型。在表1中,我們列出了一些代表性的調查及其重點評述。有些評述關注于因果推斷方法,例如基于匹配的方法[226]、基于樹的方法和基于集成的方法[12],以及動態治療制度方法[30]。其他評論關注于因果模型的構建框架,如Granger因果模型[9, 78, 166, 213]、潛在結果框架[72, 127, 268],和結構因果模型[54, 84, 111, 204]。有些評論考察了因果分析在各種領域的應用范圍,如時間序列數據[9, 166]、醫療數據[199],以及機器學習的多模態數據[54, 111, 204]。
另外,我們從兩個新的角度對這些研究進行分類:基于因果模型的結構是否固定,我們將其分類為單一結構[12, 54, 72, 77, 111, 127, 175, 199, 202, 204, 226, 244, 268]和多結構研究[9, 30, 78, 84, 166, 213];基于因果變量是否需要轉化為深度表示,我們將其分類為單值[9, 30, 77, 78, 84, 127, 166, 175, 199, 213, 226, 244, 268]和多值[12, 54, 72, 111, 202, 204]變量研究。結構和變量是深度學習的兩個關鍵特征。如果因果發現任務涉及多結構數據類型,相應的深度神經網絡應考慮不同結構樣本的區分度[35, 119, 253, 269],甚至構建參數共享模塊,這可以促進學習不同結構之間的動態性和不變性[252, 272, 292]。相反,當處理包括多值變量的數據類型時,因果變量轉化為深度表示,其中幾種統計優點需要重新審查,包括因果表示的不精確映射[228, 243, 264]、缺乏獨立性和可采樣性[49, 59, 281],以及因果強度的估計[118, 220, 238, 248]。然而,尚未有一個綜合性的評論總結了從這兩個角度的研究,導致研究人員在將深度學習應用于因果發現時,面對各種數據類型,對于使用哪種因果推斷框架和處理存在混淆。
因此,我們提出了三種數據范式,每種范式都是由結構數量和變量復雜性的組合產生的。以單一結構因果模型和單值變量為特點的數據范式被稱為確定數據范式。以多結構因果模型和多值變量為特點的數據范式被稱為不確定數據范式。半確定數據范式位于確定和不確定范式之間,捕獲了單一結構因果模型和多值變量,或多結構因果模型和單值變量的組合。令人驚訝的是,在確定和半確定領域已有大量的研究,而在不確定數據范式中則缺乏重大進展。
為了詳細討論確定性和半確定性數據范式中的現有工作,以及不確定性數據范式中的研究空白,我們的調研做出了以下貢獻
? 在第2節中,我們介紹了與因果數據相關的擴展概念和術語。 * 此外,在第3節中,我們為三個數據范式提出了定義,并分析了它們在因果發現的計算過程中的差異。 ? 在第4節和第5節中,我們分別總結了確定性和半確定性數據范式中的現有工作。 ? 在第6節中,我們介紹了不確定數據所面臨的挑戰,并提出了相應的理論路線圖。我們討論了如何解決因果可區分性、混雜因子的解耦和因果一致性等理論問題。 ? 在第7節中,我們匯編了三種數據范式的常用數據集。我們提供了關于數據集大小和與之相關的典型任務的信息。
在此部分,我們展示了基于單結構和單值數據類型的研究進展,通過介紹與數據范式相關的不同任務及其對應的現有工作。
基于觀測變量的因果發現:
該任務旨在通過各種方法恢復觀測變量的完整且無混雜的因果模型或部分因果模型。 * 我們概述了傳統的因果發現方法(例如,基于約束的方法、基于評分的方法和基于SCM的方法),以及結合深度學習的近期工作。
帶有混雜因子的因果發現:
該任務旨在在各種混雜因子存在的假設下估計和恢復因果模型(例如,假設混雜因子對所有觀測變量都有普遍影響,或者假設只有一個混雜因子作為觀測變量的父節點存在)。 * 這些研究包括基于圖形因果模型和SCM的方法。
因果效應估計: * 該任務旨在估計當治療目標的值發生變化時,觀測目標的值實現理想值的過程。這個任務需要恢復因果模型作為前提,或者將因果模型的見解與效果估計結合起來。 * 這些研究主要依賴于潛在結果框架,特別是Rubin因果模型(RCM)。它們可以根據Review [268]中提供的分類進行分類,包括重新加權方法、分層方法、匹配方法、基于樹的方法、基于表示的方法、多任務方法和元學習方法。
在此部分,我們提供了與半確定數據范式相關的任務和現有工作的概述,展示了在兩種數據類型上取得的研究進展:單結構 & 多值 和多結構 & 單值數據。 多結構 & 單值數據類型:
這類數據的主要關注點是時間序列數據。這類任務的目標是確定多個時間成分之間的因果關系(其中因果結構可能在不同的樣本中有所不同)。 * 按照Review [78]的分類方法,這些任務進一步分為多變量時間序列和事件序列,具體取決于校準數據的存在。 單結構 & 多值數據類型:
它包括與多值數據模態相關的各種任務,例如與圖像、文本、語音和表示相關的任務。 * 這些任務有著不同的高級領域,涉及識別、分類、生成、提取和區分。然而,共同的領域是在較低層次的多值數據中恢復一個固定的(可能只包含基本部分)因果模型。
盡管多種結構和多值變量組合帶來的挑戰,我們旨在分別探討兩者的觀點。換句話說,當討論由多結構引起的問題時,我們假設多值數據導致了?? : S → X. ?? : X → X?的存在;同樣地,多值數據假設變量??不能通過統計強度來解決。
結論
在本文中,我們從因果結構和因果表示兩個角度重新定義現有的因果數據,使其能夠適當地嵌入到深度學習的理論和方法中,形成一個完整且全面的領域。
首先,我們重新定義了基本概念,如因果模型、因果變量和因果表示,并介紹了現有數據在結構和表示方面的差異。具體來說,我們使用“多結構數據”來表示因果結構不唯一的情況,“單一結構數據”表示具有固定因果結構的情況。我們使用“多值變量”來指代需要深度表示進行因果變量計算的數據,而“單值變量”則涵蓋了以數值形式存在的統計數據,無需深度表示。基于結構和表示的差異,我們定義了三種不同的數據范式:確定數據(單結構和單值)、半確定數據(單結構和多值,或多結構和單值)和不確定數據(多結構和多值)。我們通過它們的形式來 exemplify 它們的差異,分析它們在分辨率路徑方面面臨的不同問題,并總結它們在研究發展中的各自發展方向。
確定數據和半確定數據作為成熟的研究領域,已經與各種任務相關,以突出它們當前的應用場景。確定數據主要涉及因果發現、帶有潛在混淆因子的因果發現和因果效應估計。半確定數據主要關注與時間序列、圖像、文本、其他模態和深度表示相關的因果數據。然而,不確定數據仍處于起步階段。我們考慮結構和表示來為基于現有研究問題處理同時的多結構和多值數據設想路線圖。
最后,我們整理了三種數據范式中常用的數據集,簡要介紹了它們的屬性,并總結了它們的應用領域。 我們提出的三種數據范式幾乎涵蓋了所有因果模型,尤其是包括圖像和文本等非結構化輸入在內。我們希望這三種數據范式能為讀者提供更廣泛的因果洞察。當面對特定的因果數據時,他們可以按照本次審查中的分類來捕獲數據類型的關鍵特征和挑戰,從而確定深度模型和因果理論的基線。
本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。
視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。
在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。
**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。
在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。
?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。
正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。
在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。
學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:
標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。
僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。
多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。
最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。
基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等
根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。
第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。
多智能體強化學習(MARL)是一種廣泛使用的人工智能(AI)技術。然而,當前的研究和應用需要解決其可擴展性,非平穩性,以及可信度的問題。本文旨在回顧MARL的方法和應用,并指出未來十年的研究趨勢和遠景。首先,本文總結了MARL的基本方法和應用場景。其次,本文概述了相應的研究方法及其在實際應用MARL時需要解決的安全性,魯棒性,泛化性,以及倫理約束的局限性。特別地,我們認為,未來十年,可信的MARL將成為熱門的研究主題。此外,我們認為考慮人類互動對于MARL在各種社會中的實際應用至關重要。因此,本文還分析了將MARL應用于人機交互時的挑戰。
1. 引言
由于其在解決序列決策任務中的巨大潛力,強化學習(RL)得到了廣泛的探索[88, 107, 129, 131, 168, 169, 197, 216, 218]。Kaelbling等人在1996年指出[76],RL將在游戲和機器人技術中得到廣泛應用。Mnih等人[130]提出深度強化學習(DRL),將具有推理能力的強化學習和具有代表性能力的深度學習(RL)結合起來,訓練出的智能體在各種雅達利游戲中的表現超過了人類玩家。Silver等人在2007年使用RL解決圍棋游戲[180],并在2016年提出使用深度神經網絡和蒙特卡洛樹搜索的AlphaGo[179]。在機器人技術方面,DRL也取得了如四足運動[92, 233]等突出的發展。最新的ChatGPT在全世界范圍內都是眾所周知的,并且使用了與RL相關的技術。自DRL提出以來的20年間,游戲和機器人技術的研究興趣一直在不斷提高。RL的前瞻性應用總結在[76]中。
在整合人類因素時,我們需要考慮的不僅僅是智能體的協作,還要考慮智能物理信息系統與人類文明的互動。在將MARL應用于人機交互時,我們提出了四個挑戰:由于人類干預而產生的非馬爾可夫性質,人類行為的多樣性,復雜的異質性,以及多人多機的可擴展性。本文與其他相關綜述的區別列在表1中。本文的大綱顯示在圖1中。接下來的這個調查組織如下。在第2部分,我們給出了MARL的相關定義,并總結了典型的研究方法。第3部分展示了MARL的具體應用場景。第4部分總結了可信MARL的定義、相關研究和局限性。在第5部分,我們指出了人類兼容的MARL面臨的挑戰。第6部分對整篇文章進行了總結。
2. 方法
強化學習(RL)智能體旨在通過與環境的嘗試和錯誤交互,最大化總的折扣預期獎勵。馬爾可夫決策過程(MDP)有助于為序列決策定義模型。在多智能體系統(MAS)中,每個智能體都通過與環境的嘗試和錯誤接觸解決序列決策問題。然而,它比單智能體場景更復雜,因為環境返回的下一個狀態和獎勵都基于所有智能體的聯合行動,這使得對于任何智能體來說環境都是非馬爾可夫的。隨機博弈(SG)可以用來模擬多智能體序列決策問題。
**3 多智能體強化學習的應用 **
通過MARL,智能體能夠學習并與彼此溝通,從而實現更有效的任務完成和更好的決策結果。這種方法廣泛應用于工程和科學,例如,智能交通,無人駕駛飛機,智能信息系統,公共衛生和智能醫療診斷,智能制造,金融貿易,網絡安全,智能教育,以及科學研究中的強化學習。
**3.1 智能交通 **
智能交通利用物聯網(IoT)和人工智能等先進技術來提高安全性,提高交通效率,并減少其對環境的負面影響。在基于MARL的智能交通中,我們描述了兩個已知的場景:交通燈控制和自動駕駛,并展示了人類在這些智能系統中的作用。這個應用與強化學習方法之間的對應關系顯示在表2中。
**3.2 無人駕駛飛行器 **
在基于MARL的無人駕駛飛行器(UAVs)應用中,我們描述了三個已知的場景:集群控制[124, 158, 207, 210, 222-224],環境監控[75, 134, 148, 204],以及協同運輸[66, 74, 177]。這個應用與強化學習方法之間的對應關系顯示在表3中。
**3.3 智能信息系統 **
MARL在智能信息系統中具有巨大的應用潛力,包括自然語言處理(NLP)[13, 83, 98, 104, 120, 183, 195, 226],編程生成[26, 104, 178],以及推薦系統[40, 51, 72, 231, 245]。基于SARL的技術已在NLP和編程生成中得到研究,我們將總結這些研究并指出MARL在這些應用中的顯著優點。這個應用與強化學習方法之間的對應關系顯示在表4中。
**3.4 公共衛生和智能醫療診斷 **
MARL在公共衛生和智能醫療診斷中得到了廣泛的探索和應用。例如,MARL可以應用于COVID-19的預測和管理、醫療圖像處理和疾病診斷,以提高疾病預防、診斷和治療的效率和準確性。這個應用與強化學習方法之間的對應關系顯示在表5中。
**3.5 智能制造 **
智能制造是將先進技術(如物聯網、人工智能等)整合到制造過程中,以優化生產過程。對于智能制造,MARL是一種有前景的方法。在智能制造的背景下,MARL可以作為生產調度、車間工業機器人控制、質量控制和設備維護的工具,實現智能高效的生產過程[97]。這個應用與強化學習方法之間的對應關系顯示在表6中。
**3.6 金融交易 **
金融交易是一項挑戰性的活動,需要快速判斷并適應不斷變化的市場條件。過去的單智能體方法和深度學習技術已經無法滿足市場的期望。MARL通過結合各種智能體之間的合作與競爭,為應對金融交易中的困難提供了新的思路。我們從投資組合管理[60, 95, 123, 150, 175]、交易策略優化[79, 143, 156, 157]和風險管理[6, 34, 49]的角度總結了MARL在金融交易中的應用。這個應用與強化學習方法之間的對應關系顯示在表7中。
**3.7 網絡安全 **
網絡安全是當今社會面臨的重要問題,攻擊者利用各種技術和手段侵入計算機系統和網絡,威脅到個人、組織和國家的安全。MARL是一種有前景的方法,可以應用在網絡安全領域,主要應用在入侵檢測[54, 118, 118, 132, 172, 173]和網絡資源優化[103, 135, 145, 186, 190]。這個應用與強化學習方法之間的對應關系顯示在表8中。
**3.8 智能教育 **
智能教育利用物聯網和人工智能將學習過程數字化,并根據特定學生的學習風格和特點提供個性化的學習體驗和支持。傳感器可以用來捕捉學生的學習行為和數據。通信使學生與教師之間以及學生之間的協作學習實現實時互動。人工智能可以用來分析學習行為,提供個性化學習和評價教學。虛擬現實技術使得場景重建、實驗模擬和遠程教學變得更加容易。在基于MARL的智能教育中,我們總結了現有的技術[31, 48, 112, 194]。教育4.0旨在將人工智能技術融入學生自主學習的每個階段,以提高學習過程中的興趣和效果[19, 46, 170]。Tang和Hare[194]創建了一個自適應輔導游戲,讓學生在沒有教師指導的情況下個性化學習。為了優化學生學習,該系統使用Petri網圖結構監控學生在游戲中的進展,使用強化學習智能體適應性地改變系統行為以響應學生表現。然后,他們應用Petri網和層次化強化學習算法,基于上述游戲個性化學生的幫助[48]。該算法可以幫助教師根據學生的需求,為他們在游戲中提供定制的指導和反饋,使他們通過將游戲中的任務分解為幾個階段,逐漸掌握復雜的知識和技能。該算法可以幫助教育工作者為游戲中的學生提供定制的支持和反饋,通過將游戲中的任務分為多個層次,逐漸掌握復雜的知識和技能。[112]和[31]都使用傳感器收集的數據監測學生的學習進度,并使用強化學習技術為學生提供個性化的學習建議。
3.9 科學領域的強化學習
近年來,人工智能在科學領域的應用已經成為熱門話題,人工智能被高度評價為實現科學進步的關鍵工具[127]。強化學習已經在化學、物理和材料研究等領域展示出顯著的科學潛力,尤其在探索未知的物理現象等挑戰中,強化學習被證明是解決這些挑戰的關鍵工具。這個應用和強化學習方法之間的對應關系顯示在表9中。Seo等人[171]利用強化學習來控制KSTAR托卡馬克的前饋??。Degrave等人[22]介紹了一種創新的強化學習方法,使托卡馬克聚變裝置的磁控系統能夠自主學習,從而實現對各種等離子體配置的精確控制,大大減少了設計工作量,是強化學習在聚變領域的開創性應用。Bae等人[5]引入了一種科學多智能體強化學習(SciMARL),用于在湍流模擬中發現壁面模型,大大降低了計算成本,同時復制了關鍵流量,并提供了對湍流模擬的前所未有的能力。強化學習的科學研究提供了更多的可能性,我們相信未來強化學習在科學應用中的范圍將會更廣。
4 展望
盡管多智能體強化學習(MARL)在許多領域都已表現出優越的性能,但一些問題,如安全性、魯棒性和泛化能力,限制了MARL在實際環境中的應用。我們認為,要想最大化地利用未來實踐應用中MARL的優越性,首先需要解決這些問題,并需要考慮到人類社會的道德約束。本節回顧了在四個方面的研究現狀:安全性、魯棒性、泛化能力和道德約束,并討論了未來研究需要解決的差距。
4.1 多智能體強化學習的安全性
隨著多智能體強化學習(MARL)的日益普及,確保這些系統的安全性的需求日益突出。在MARL中,一個智能體的行動可能會對任務或其他參與的智能體造成傷害。因此,開發安全的MARL方法的需求迫在眉睫。為了在MARL中實現安全,一種常見的方法是在訓練過程中添加約束。通過引入安全性約束,可以鼓勵智能體避免可能導致任務失敗或對其他智能體造成傷害的不安全行動。已經有很多關于強化學習安全性的綜述,如[35],[39]和[225]所總結的。然而,目前還沒有關于MARL安全性的系統性綜述,而且關于這個話題的研究相對較少。在本節中,我們給出了在[38]中使用的安全MARL的定義。
4.2 多智能體強化學習的魯棒性
在分類任務中,深度學習的魯棒性已有一系列的研究 [36, 58, 69, 71, 142]。強化學習是一個序列決策問題,其中在一個時間步的錯誤分類并不等同于期望最小的獎勵。在多智能體強化學習(MARL)中,任何智能體的決策失敗都可能導致團隊任務失敗,這使得MARL的魯棒性研究具有挑戰性。此外,MARL在現實世界的應用中面臨各種挑戰,例如環境的不確定性,其他智能體的政策不確定性,以及傳感器噪聲。所有這些因素都可能導致訓練的模型表現不佳或者失敗。因此,提高MARL的魯棒性至關重要,這將有助于確保模型在各種情況下都能穩定可靠地運行。以下是關于魯棒MARL的相關定義。我們使用了[253]和[241]的定義。
4.3 多智能體強化學習的泛化
在MARL領域,泛化涉及到智能體將其在特定環境或場景中學到的知識和技能,無需進行大幅度的修改或重新訓練,就能轉移到新的、多樣的環境或場景中的能力。有幾個調查研究了強化學習的泛化 [87, 201, 225, 247]。在SARL的泛化中,各種技術如領域隨機化[133, 160, 165],因果推理[82, 167, 237],以及元學習[3, 27, 77]已被用來解決泛化問題。然而,與單智能體設置相比,對MARL的泛化研究相對較少。在這方面,我們從兩個角度,即多任務學習和sim2real,提供了相關工作的概述,如圖4所示。
4.4 遵循道德約束的學習
隨著AI技術的不斷發展,考慮AI系統的道德含義變得越來越重要[4]。MARL系統涉及多個智能體的互動,其行為可能對現實世界產生重大影響。因此,確保MARL系統的設計和訓練考慮到道德因素至關重要。我們將有關MARL的道德約束的研究總結為隱私保護、公平性和透明度,如圖5所示。
5. 人機協同多智能體強化學習面臨的挑戰
人機協同物理系統(HCPS)是基于物理系統(CPS)發展起來的,它融合了計算機科學、自動化技術、通信科學等領域[9, 115]。本文第3節總結的MARL應用是HCPS的典型應用。人類被視為HCPS的重要組成部分,因此,MARL算法的設計需要考慮人的因素。除了可擴展性和非平穩性的挑戰之外,HCPS中的MARL面臨著許多額外的挑戰,這是由于人類、物理系統和計算機系統之間的相互作用導致的。
6. 結論
本文綜述了MARL的基本方法,并對MARL在智能交通、無人機、智能信息系統、公共健康與智能醫療診斷、智能制造、金融貿易、網絡安全、智慧教育、科學強化學習等各個領域的相關研究進行了綜述。為了更好地服務于人類社會,有必要發展一個值得信賴的MARL。從安全性、魯棒性、泛化性和倫理約束等角度定義了可信MARL,并總結了這些領域的當前研究和局限性。最后,討論了在MARL中考慮HCPS時面臨的其他挑戰,這對其在人類社會的實際應用至關重要。希望本文能夠對各種研究方法和應用場景進行全面綜述,鼓勵和推動MARL在人類社會中的應用,更好地服務于人類。
深度學習在基因組學領域顯示出了驚人的前景;然而,該學科缺乏熟練的深度學習導引書。這本書將幫助研究人員和數據科學家從其他人群中脫穎而出,并通過發展必要的技能集解決基因組學中的現實問題。本書從基本概念的介紹開始,強調了深度學習在基因組學處理大數據方面的力量。首先,您將了解傳統的基因組學分析,然后過渡到最先進的基于機器學習的基因組學應用,最后深入到基因組學的深度學習方法。這本書涵蓋了研究界普遍使用的所有重要的深度學習算法,并詳細介紹了它們是什么、如何工作以及它們在基因組學中的實際應用。這本書專門用了一整節的時間來操作深度學習模型,這將為研究人員和任何深度學習實踐者提供必要的動手教程,從基因組學大數據集構建、調整、解釋、部署、評估和監控深度學習模型。
深度學習是機器學習的一個子集,它基于人工神經網絡,利用大量數據進行代表性學習。機器學習是人工智能的一個子組成部分,它包括復雜的算法,使機器能夠模仿人類智能自動執行人類任務。深度學習和機器學習都有助于自動從數據中檢測有意義的模式,而無需顯式編程。機器學習和深度學習已經完全改變了我們現在的生活方式。我們如此依賴它們,以至于我們很難想象哪一天不以這樣或那樣的方式使用它們,無論是通過垃圾郵件過濾、產品推薦或語音識別。機器學習,特別是深度學習,已經被科學界采用在諸如生物學、基因組學、生物信息學和計算生物學等領域。下一代測序(NGS)等高通量技術(HTS)對基因組學做出了重大貢獻,以前所未有的規模以單堿基對分辨率研究復雜的生物現象,促進了大數據基因組學時代的到來。為了從這些大數據中獲得有意義的、新穎的生物學見解,目前大多數算法都是基于機器學習的,而最近的深度學習方法比最先進的基于規則的算法在基因組學相關的特定任務中提供更高水平的準確性。鑒于機器學習和深度學習在基因組學中的感知和應用的增長趨勢,研究專業人員、科學家和管理人員需要對這個令人興奮的領域有很好的了解,以使他們擁有必要的工具、技術和通用指南,以幫助他們選擇機器學習和深度學習方法,以處理基因組學數據,并加快生命科學和生物技術相關行業的數據驅動決策。 這本書旨在為基因組應用實際介紹機器學習和深度學習,可以將基因組數據轉化為新穎的生物學見解。它提供了理論基礎和實踐部分,讓您了解如何在生命科學和生物技術行業的現實應用中利用機器學習和深度學習。這本書涵蓋了目前在其他教科書中沒有的一系列主題。本書還包括將機器學習和深度學習應用到現實場景時的挑戰、陷阱和最佳實踐。本書的每一章都有用Python編寫的代碼,使用行業標準的機器學習和深度學習庫以及像Keras這樣的框架,讀者可以在他們的工作環境中再現這些代碼。本書旨在滿足學術界和工業界的研究人員、生物信息學家和數據科學家的需求,他們希望在基因組應用中利用機器學習和深度學習技術,從大數據集中提取見解。已經在生命科學和生物技術領域立足的管理者和領導者不僅會發現這本書很有用,而且還可以采用這些方法來識別模式,提出預測,從而為各自公司的數據驅動決策做出貢獻。
這本書分為三個不同的部分。第一部分介紹了基因組數據分析和機器學習的基本原理。在這一部分,我們將介紹基因組數據分析的基本概念,并討論什么是機器學習,為什么它對基因組學很重要,以及機器學習將給生命科學和生物技術行業帶來什么價值。第二部分將把讀者從機器學習過渡到深度學習,并向他們介紹深度學習的基本概念和各種深度學習算法,使用現實世界的例子將原始基因組數據轉化為生物學見解。最后一部分將描述如何使用開源工具操作深度學習模型,為最終用戶提供預測。在本部分中,您將學習如何使用Python和行業標準庫構建和調優最先進的機器學習模型,從大量多模態基因組數據集中獲得生物學見解,以及如何在AWS和Azure等多個云平臺上部署這些模型。最后一部分的最后一章完全致力于基因組學深度學習方法目前面臨的挑戰和潛在的陷阱,以及如何使用最佳實踐避免它們。
隨著時間的推移,從汽車、制藥到電子商務和銀行,大型網絡數據已經在大多數行業中無處不在。盡管最近做出了一些努力,但以有效和可擴展的方式在不斷變化的數據上使用時間圖神經網絡仍然是一項挑戰。本次演講展示了euroanova的研究軌跡之一。我們提供了直接適用于實際用例的相關持續學習方法的概述。由于可解釋性已成為值得信賴的AI的核心要素,我們引入了最先進的方法,用于解釋節點、鏈接或圖級預測。
隨著機器學習模型越來越多地用于在醫療保健和刑事司法等高風險環境中幫助決策者,確保決策者(最終用戶)正確理解并因此信任這些模型的功能是很重要的。本報告旨在讓學生熟悉可解釋和可解釋ML這一新興領域的最新進展。在本報告中,我們將回顧該領域的重要論文,理解模型可解釋和可解釋的概念,詳細討論不同類別的可解釋模型(如基于原型的方法、稀疏線性模型、基于規則的技術、廣義可加性模型),事后解釋(黑箱解釋包括反事實解釋和顯著性圖),并探索可解釋性與因果關系、調試和公平性之間的聯系。該課程還將強調各種應用,可以極大地受益于模型的可解釋性,包括刑事司法和醫療保健。
來自臺灣國立清華大學吳尚鴻副教授主講的《大規模機器學習》教程,內容包括深度學習概述與學習理論。
本課程介紹深度學習的概念和實踐。課程由三個部分組成。在第一部分中,我們快速介紹了經典機器學習,并回顧了一些需要理解深度學習的關鍵概念。在第二部分中,我們將討論深度學習與經典機器學習的不同之處,并解釋為什么它在處理復雜問題如圖像和自然語言處理時是有效的。我們將介紹各種CNN和RNN模型。在第三部分,我們介紹了深度強化學習及其應用。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
目錄內容:
簡介: 特征工程在機器學習、數據挖掘和數據分析中起著關鍵作用。本文提供了特征工程的一般定義,以及該領域的主要問題、方法和挑戰的概述。特征工程在大數據分析中起著關鍵作用。沒有數據,機器學習和數據挖掘算法就無法工作。如果沒有表示基礎數據對象的功能,大數據分析則幾乎不能實現,并且這些算法的結果質量在很大程度上取決于可用特征的質量。數據通常以各種形式存在,如圖像、文本、圖形、序列和時間序列。表示數據對象的常見方法是使用特征矢量。即使由特征向量表示的數據可能仍然需要新的有效特征。特征工程涉及滿足生成和選擇基于特征向量的有效數據表示的需求。
本書目錄:
下載鏈接: 鏈接://pan.baidu.com/s/1rshWh8-ST_Mtkw525mz-yQ
提取碼:4abr