大型語言模型的出現標志著人工智能領域的一次革命性突破。得益于前所未有的訓練規模和模型參數,大型語言模型的能力得到了顯著提升,從而在理解、語言合成和常識推理等方面達到了與人類相似的表現。這種在通用AI能力上的重大飛躍將從根本上改變個性化服務的實施模式。
首先,它將改變人類與個性化系統之間的交互方式。大型語言模型不再是像傳統的推薦系統和搜索引擎那樣的被動信息過濾介質,而是為主動用戶參與提供了基礎。在這樣一個新的基礎上,可以主動探索用戶的請求,并以自然、互動和可解釋的方式提供用戶所需的信息。
其次,它還將大大擴展個性化服務的范圍,使其從僅僅收集個性化信息發展到提供個性化服務的復合功能。通過利用大型語言模型作為通用界面,個性化系統可以將用戶的請求編譯為計劃,調用外部工具(例如搜索引擎、計算器、服務API等)的功能來執行這些計劃,并整合這些工具的輸出,完成端到端的個性化任務。如今,大型語言模型仍在快速發展,而在個性化應用中還大都未被探索。
因此,我們認為現在是時候審視個性化服務的挑戰以及用大型語言模型來解決它們的機會了。特別是,我們在這篇展望性論文中專門討論了以下幾個方面:現有個性化系統的發展和挑戰、大型語言模型新出現的能力,以及如何利用大型語言模型進行個性化的潛在方法。
大型語言模型的出現[1]在理解人類表達方面顯示出了顯著的進步,深刻地影響了AI社區。這些模型配置了大量的數據和大規模的神經網絡,展示了在理解人類語言和生成與我們相似的文本方面的卓越能力。其中的能力包括推理[2]、少次學習[3]以及在預訓練模型中融合大量的世界知識[1]。這標志著人工智能領域的一個重大突破,導致了我們與機器互動的革命。因此,大型語言模型在從自然語言處理和機器翻譯到創意內容生成和聊天機器人開發的各種應用中都變得不可或缺。特別是ChatGPT的推出,受到了人類社區的廣泛關注,促使人們反思大型語言模型的變革力量及其推動AI能夠達到的界限的潛力。這種顛覆性的技術承諾改變我們在無數領域與AI的互動和利用方式,為創新打開了新的可能性和機會。隨著這些語言模型繼續進步和發展,它們有望塑造人工智能的未來,使我們能夠探索未知領域并在人機合作中發掘更大的潛力。
個性化,即根據個人喜好量身定制體驗的藝術,是連接人類與機器之間差距的一個關鍵且動態的紐帶。在當今的技術驅動世界中,個性化在增強用戶與各種數字平臺和服務的互動和參與中起到了關鍵的作用。通過適應個人的偏好,個性化系統賦予機器滿足每個用戶獨特需求的能力,從而使互動更為高效和愉快。此外,個性化不僅僅是內容推薦;它涵蓋了用戶體驗的各個方面,包括用戶界面、交流風格等。隨著人工智能的不斷進步,個性化在處理大量互動和多樣化的用戶意圖方面變得越來越復雜。這要求我們開發更先進的技術來應對復雜的場景,提供更加愉快和滿意的體驗。對改進個性化的追求是由希望更好地了解用戶并滿足他們不斷變化的需求的愿望驅動的。隨著技術的發展,個性化系統很可能會繼續演變,最終創造出一個人機交互無縫融入我們生活的每一個方面的未來,為我們的日常生活提供個性化和量身定制的體驗。
大型語言模型,憑借其深入和廣泛的能力,有潛力革命化個性化系統,改變人類的互動方式并擴大個性化的范圍。人機之間的交互不再僅僅可以被分類為主動和被動,就像傳統的搜索引擎和推薦系統一樣。然而,這些大型語言模型不僅僅是簡單的信息過濾,它們還提供了多樣化的附加功能。具體來說,系統會主動和全面地探索用戶的意圖,使用戶和系統之間能夠通過自然語言進行更直接和無縫的溝通。與依賴于抽象且難以解釋的基于ID的信息表示的傳統技術不同,大型語言模型能夠更深入地理解用戶的確切需求和興趣。這種更深入的理解為更高質量的個性化服務鋪平了道路,以更精細和有效的方式滿足用戶的需求和偏好。此外,通過大型語言模型的能力,各種工具的整合得到了極大的增強,大大擴展了個性化系統的可能性和應用場景。通過將用戶需求轉化為計劃,包括理解、生成和執行它們,用戶可以訪問各種各樣的信息和服務。重要的是,用戶并不知道后臺發生的復雜轉換過程,因為他們體驗到的是一個無縫的端到端模型。從這個角度來看,大型語言模型在個性化方面的潛力尚未被充分探索。
本文探討了個性化中的挑戰,并探索了使用大型語言模型的潛在解決方案。在現有的相關工作中,LaMP [4] 為訓練和評估語言模型在信息檢索系統中生成個性化輸出引入了一個新的基準。另一方面,其他相關的調查[5]、[6]、[7]主要關注傳統的個性化技術,如推薦系統。從學習機制的角度,LLM4Rec [5] 深入探討了用于推薦的區分性LLM和用于推薦的生成性LLM。關于LLM適應推薦系統的"在哪里"和"如何",Li等人[6]關注了工業推薦階段的整體流程。而Fan等人[7]則進行了一項重點關注預訓練、微調和提示方法的回顧。雖然這些工作討論了像Bert和GPT這樣的預訓練語言模型以便于分析,但他們對大型語言模型的新興能力關注有限。本文旨在通過檢查大型語言模型在個性化背景下的獨特和強大的能力來填補這一空白,并進一步用工具擴展個性化的范圍。
本綜述的其余部分的組織結構如下:我們在第2節回顧了個性化和大型語言模型,以概述其發展和挑戰。然后,我們在第3節仔細討論了大型語言模型在個性化中的潛在作用,包括簡單利用新興能力以及與其他工具的復雜集成。我們還討論了將大型語言模型適應于個性化時可能遇到的挑戰。
大型語言模型用于個性化
在接下來的部分中,我們深入探討了大型語言模型在個性化方面的潛力,從簡單的使用情境,如利用詞匯知識作為特征,到與其他工具模塊更為復雜的集成,使其起到代理的作用。具體來說,我們關注于新興能力的進展,從基礎的世界知識和理解用戶意圖開始,發展到高級的推理能力。我們探索了大型語言模型如何有助于構建一個知識庫,豐富關于各種項目的常識知識。此外,我們還討論了大型語言模型的理解能力如何賦予內容解釋者和解釋者對交互的深入分析能力。此外,我們還觀察了利用大型語言模型的推理能力為系統推理者提供推薦結果的嘗試。這些越來越復雜的能力使得大型語言模型與其他工具模塊的復雜利用成為可能,使它們更好地理解用戶意圖并滿足用戶指令。因此,我們還探討了大型語言模型與其他個性化工具的集成,包括工具學習、會話代理和個性化內容創建者。本章的概述如圖1所示。我們的全面調查旨在提供對當前格局的更深入的了解,并闡明將大型語言模型整合到個性化中所帶來的機會和挑戰。
大模型即知識庫
大型語言模型(Large Language Models,簡稱LLMs)檢索事實知識作為顯式知識庫的能力 [38], [39], [40], [41], [42], [43], [40], [41], [44], [45], [46] 已引起了廣泛的討論,這為在推薦系統內構建更為全面的知識圖譜提供了機會。回溯到 [38] 的工作,大型語言模型在存儲事實信息,如實體和常識,以及將常識可靠地轉移給下游任務方面展示了其令人印象深刻的能力。現有的知識圖譜方法難以處理不完整的KGs [47] 和利用文本語料構建KGs [48],許多研究者嘗試利用LLMs的能力來解決這兩個任務,即知識圖譜的補全 [49] 和知識圖譜的構建 [50]。對于知識圖譜的補全,這是指在給定的知識圖譜中缺失事實的任務,近期的努力已致力于為知識圖譜編碼文本或生成事實。MTL-KGC [51] 對文本序列進行編碼以預測元組的可能性。MEMKGC [52] 預測了三元組的掩碼實體。StAR [53] 使用暹羅文本編碼器分別對實體進行編碼。GenKGC [54] 使用僅解碼器的語言模型直接生成尾實體。TagReal [55] 從外部文本語料庫中生成高質量的提示。AutoKG [48] 直接采用了LLMs,例如ChatGPT和GPT-4,并設計了定制提示以預測尾實體。至于另一個重要任務,即知識圖譜的構建,這是指創建知識的結構化表示,LLMs可以應用于構建知識圖譜的過程中,包括實體發現 [56], [57], coreference resolution [58], [59] 和關系抽取 [60], [61]。LLMs還可以實現端到端的構建 [62], [50], [42], [63], [55],直接從原始文本構建KGs。LLMs允許知識提取構建知識圖譜。symbolic-kg [64] 從GPT3中提取常識事實,然后微調小型學生模型以生成知識圖譜。這些模型已經展示了存儲大量知識的能力,為提高知識圖譜的范圍和深度提供了一個可行的選擇。此外,這些進展促使人們研究從LLMs到知識圖譜的存儲知識的直接轉移,消除了對人類監督的需求。這項有趣的研究揭示了利用尖端的大型語言模型自動完成知識圖譜的可能性。
LLMs 作為內容解釋器
基于內容的推薦器為緩解推薦系統中的稀疏反饋問題提供了有效的解決方案。通過利用物品的屬性和特性,這些系統對其屬性有了更深入的了解,促使與用戶偏好的準確匹配。然而,在基于內容的推薦中使用的內容特性也可能表現出稀疏性。僅僅依賴推薦的監督信號,如點擊和瀏覽,可能不能充分利用這些特性的潛在好處。為了克服這一挑戰,語言模型作為強大的基本算法出現,它們在處理文本特性時充當內容解釋器。他們的利用增強了推薦系統的有效性,有效地理解和解釋文本內容,從而改進了推薦。
結論
總的來說,大型語言模型的出現在人工智能領域代表了一個重大的突破。它們在理解、語言分析和常識推理方面的增強能力為個性化打開了新的可能性。在本文中,我們從幾個角度討論了大型語言模型適應個性化系統的時機。我們已經觀察到,從利用大型語言模型的低級能力來提高性能,到利用它們在與外部工具的復雜互動中進行端到端任務的潛力,這種進展都有所進化。這種演變有望徹底改變個性化服務的提供方式。我們也承認,將大型語言模型集成到個性化系統中帶來的開放性挑戰。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
過去的十年,我們見證了大量的工作利用可視化(VIS)的力量來解釋機器學習(ML)模型。相應的研究主題,VIS4ML,正在快速地發展。為了更好地組織這些龐大的工作,并闡明VIS4ML的發展趨勢,我們通過這次調查為這些研究提供了一個系統的回顧。由于數據質量極大地影響了ML模型的性能,我們的調查特別從數據的角度總結VIS4ML的工作。首先,我們將機器學習模型處理的常見數據分為五種類型,解釋每種類型的獨特特點,并強調那些擅長從它們中學習的ML模型。其次,從大量的VIS4ML工作中,我們提煉出六項在ML流程的不同階段操作這些數據類型的任務(即,數據為中心的任務),以理解、診斷和優化ML模型。最后,通過研究143篇調查論文在五種數據類型、六個數據為中心的任務及其交叉點的分布,我們分析了潛在的研究方向,并設想了未來的研究趨勢。
//www.zhuanzhi.ai/paper/468f07cc2f87eea04d54489bc7482dcf
近期,機器學習(ML)[1],尤其是深度學習(DL)[2], [3],的成功引起了研究者的極大關注。ML呈現出了一個普遍趨勢,即模型變得越來越強大,但這往往以解釋性逐漸降低為代價。隨著對ML模型安全性和可靠性的擔憂增加,它們的較差的解釋性開始阻止它們在許多關鍵安全的應用中被采用,例如醫學診斷[4]、[5]和自動駕駛[6]、[7]。為了減輕這個問題,近期已經投入了大量的可視化(VIS)努力來解釋可解釋的人工智能(XAI [8]),例如,擾動數據實例以探測ML模型的決策邊界[9]、[10],訓練可解釋的代理來模擬ML模型的行為[11]、[12],從ML模型中提取中間數據以打開黑箱[13]、[14]等。這些工作構成了一個新的研究領域,即VIS4ML,而且這個蓬勃發展的領域中每年發布的論文數量正在增加。本調查的目標是系統地回顧它們并闡明它們的發展趨勢。與此同時,從以模型為中心到以數據為中心發展ML模型的趨勢正在上升[15]。盡管我們生活在大數據的時代,但數據中仍然存在許多質量問題,如噪聲標簽[16]、缺失項[17]和不平衡的數據分布[18]。隨著建模技術變得越來越成熟,對ML開發者來說,顯然可以從改進數據而不是模型中獲得更多的性能提升。因此,隨著ML模型的快速穩定演進,近期對改進ML模型的數據質量的研究越來越受到關注[15]。這也與著名的諺語“垃圾進,垃圾出”相呼應,即,如果沒有高質量的輸入數據,我們永遠無法得到令人滿意的ML模型。從ML領域轉向數據中心建模的轉變也激發了許多開創性的VIS工作,這些工作通過數據策劃、校正和凈化來檢查和提高數據質量[16]、[19]、[20]。
為了促進這一新興且有前景的方向,我們重新審視并從數據的角度系統地回顧現有的VIS4ML工作,以揭示已經進行的努力和仍然存在的機會。這樣的回顧將有助于激發更多的VIS4ML想法并推動更多以數據為導向的創新。我們的數據中心調查旨在通過揭示它們關注的數據類型以及如何操作數據來解釋、診斷和完善ML模型,系統地回顧最新的VIS4ML工作。該調查從以下三個方面進行。首先,我們確定ML模型處理的最常見的數據類型,它們的獨特特點,以及如何定制ML模型以更好地從中學習(第4節)。其次,針對應用于確定的數據類型的操作,我們提出了六個以模型理解、診斷和完善為總體目標的數據中心VIS4ML任務[21]、[22](第5節)。第三,通過研究不同數據類型、VIS4ML任務及其交集上調查論文的分布,我們總結了正在進行的研究趨勢,并揭示了有前景的VIS4ML研究方向(第6節)。本調查的貢獻主要有兩方面。首先,我們為VIS4ML提供了一個以數據為中心的分類,并按照這一分類全面回顧了最新的工作。分類和回顧幫助研究者更好地理解數量日益增長的VIS4ML工作,從一個新的角度重新審視它們,并鼓勵研究者提出更多以數據為中心的VIS4ML工作。其次,從不同分類子類別的調查論文的覆蓋范圍來看,我們揭示了哪些數據類型、VIS4ML任務或數據任務組合尚未得到充分探索,從而指出了有前景的研究方向,并為這個蓬勃發展的領域提供了新的想法。我們還使用SurVis[23]開發了一個關于此調查的交互式網頁,
網址為:
我們的數據中心綜述是從兩個方面進行的:(1) VIS4ML工作關注的數據類型;(2) 如何操作這些數據來解釋、診斷或完善ML模型。這兩方面的分類經歷了多次迭代。我們在這里簡要總結一些關鍵的迭代,以解釋我們的調查原理。對于“什么”部分,我們首先按照ML執行流程(圖3(a, b))確定了ML模型的操作數據為輸入、中間和輸出數據[40]。然后,我們嘗試基于他們對三種數據類型的解釋焦點來標記VIS4ML論文。但是,在進行了一些初始的標注后,我們發現幾乎所有的VIS4ML論文都涵蓋了輸入和輸出數據,其中一些使用了中間數據,而其他一些則沒有。這種分類很快退化為兩個基本上反映工作是特定于模型的(使用中間數據)還是與模型無關的(不使用中間數據)的類別。由于這個分類在早期的調查中已經被引入,我們沒有繼續這個嘗試。后來,我們試圖從數據庫領域借用數據分類,并將數據分類為結構化和非結構化。但經過一些標記實踐,我們注意到,VIS4ML工作中的大多數數據都是非結構化的(例如,圖像、文本和圖表)。使用這種分類無法揭示每種數據類型的獨特特性(例如,空間或順序)并導致了非常不平衡的數據類型分布。經過更多的探索,并受到ML模型定制處理的底層數據特性的啟發(例如,CNNs/RNNs擅長處理空間/順序數據),我們最終提出了我們當前的數據分類(詳見第4節)。
對于“如何”部分,我們最初的分類是根據他們采用的VIS技術對論文進行分組(例如,節點鏈接圖和散點圖)。這似乎是最直接的選擇。但是,我們很快意識到,確定的VIS技術對任何數據分析主題都是通用的,不能反映VIS4ML的獨特性,也與我們的數據中心視角不一致。受Munzner的嵌套模型[41]的啟發,我們接著將注意力轉向VIS4ML論文的需求分析部分。在這里,我們發現要求大多是面向任務的。因此,我們轉向檢查現有的VIS任務分類,如第2節所總結。然而,大多數這些任務分類不是特定于VIS4ML的,而是適用于任何數據分析應用。經過幾次更多的分類迭代,我們意識到,描述個別VIS4ML論文中的需求的句子揭示了VIS應該如何為ML服務。從這些句子中,我們提取了動詞,即應用于ML數據的操作,并合并相似的操作來確定最具代表性的操作。最后,我們得出了六個特定于VIS4ML的任務(詳見第5節)。此外,這些任務也是數據中心的,因為需求分析句子的對象始終與ML操作數據的三種類型有關。為了明確建立所識別的數據和任務之間的聯系,我們在圖3(b)和圖3(d)之間用綠色、橙色和藍色的箭頭連接它們。
我們的數據中心分類法根據相應的ML模型關注的數據類型以及如何操作這些數據(即VIS4ML任務)來審查VIS4ML論文,以理解、診斷和完善ML模型,具體包括:
數據類型 (第4節):我們確定了輸入到ML模型中的常見數據類型,描述了它們的獨特特性,并解釋了ML模型是如何被定制的,以便更好地從這些數據中學習。這些數據類型包括:表格、順序、多維數組、圖形和多模態數據(如圖3(c)所示)。
數據中心任務 (第5節):關注于對這五種數據類型進行的操作,我們提取了六種數據中心的VIS4ML任務:展示、探索、評估、比較、生成和改進數據。前五項通常用于模型理解/診斷。生成任務與改進任務一起也用于模型精煉(參見圖3(d))。
第4節和第5節詳細描述了我們的數據/任務分類法,每個子類別都由一個或多個代表性的VIS作品示例化。由于不可能為所有143篇論文提供示例,我們在表1和2中對它們進行了總結。第6節展示了論文在數據類型、數據中心任務及其交集方面的分布,揭示了當前的研究趨勢和潛在的未來方向。最后,我們在第7節討論了我們調查的一些固有局限性,然后在第8節對其進行了總結。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。
多智能體強化學習(MARL)是一種廣泛使用的人工智能(AI)技術。然而,當前的研究和應用需要解決其可擴展性,非平穩性,以及可信度的問題。本文旨在回顧MARL的方法和應用,并指出未來十年的研究趨勢和遠景。首先,本文總結了MARL的基本方法和應用場景。其次,本文概述了相應的研究方法及其在實際應用MARL時需要解決的安全性,魯棒性,泛化性,以及倫理約束的局限性。特別地,我們認為,未來十年,可信的MARL將成為熱門的研究主題。此外,我們認為考慮人類互動對于MARL在各種社會中的實際應用至關重要。因此,本文還分析了將MARL應用于人機交互時的挑戰。
1. 引言
由于其在解決序列決策任務中的巨大潛力,強化學習(RL)得到了廣泛的探索[88, 107, 129, 131, 168, 169, 197, 216, 218]。Kaelbling等人在1996年指出[76],RL將在游戲和機器人技術中得到廣泛應用。Mnih等人[130]提出深度強化學習(DRL),將具有推理能力的強化學習和具有代表性能力的深度學習(RL)結合起來,訓練出的智能體在各種雅達利游戲中的表現超過了人類玩家。Silver等人在2007年使用RL解決圍棋游戲[180],并在2016年提出使用深度神經網絡和蒙特卡洛樹搜索的AlphaGo[179]。在機器人技術方面,DRL也取得了如四足運動[92, 233]等突出的發展。最新的ChatGPT在全世界范圍內都是眾所周知的,并且使用了與RL相關的技術。自DRL提出以來的20年間,游戲和機器人技術的研究興趣一直在不斷提高。RL的前瞻性應用總結在[76]中。
在整合人類因素時,我們需要考慮的不僅僅是智能體的協作,還要考慮智能物理信息系統與人類文明的互動。在將MARL應用于人機交互時,我們提出了四個挑戰:由于人類干預而產生的非馬爾可夫性質,人類行為的多樣性,復雜的異質性,以及多人多機的可擴展性。本文與其他相關綜述的區別列在表1中。本文的大綱顯示在圖1中。接下來的這個調查組織如下。在第2部分,我們給出了MARL的相關定義,并總結了典型的研究方法。第3部分展示了MARL的具體應用場景。第4部分總結了可信MARL的定義、相關研究和局限性。在第5部分,我們指出了人類兼容的MARL面臨的挑戰。第6部分對整篇文章進行了總結。
2. 方法
強化學習(RL)智能體旨在通過與環境的嘗試和錯誤交互,最大化總的折扣預期獎勵。馬爾可夫決策過程(MDP)有助于為序列決策定義模型。在多智能體系統(MAS)中,每個智能體都通過與環境的嘗試和錯誤接觸解決序列決策問題。然而,它比單智能體場景更復雜,因為環境返回的下一個狀態和獎勵都基于所有智能體的聯合行動,這使得對于任何智能體來說環境都是非馬爾可夫的。隨機博弈(SG)可以用來模擬多智能體序列決策問題。
**3 多智能體強化學習的應用 **
通過MARL,智能體能夠學習并與彼此溝通,從而實現更有效的任務完成和更好的決策結果。這種方法廣泛應用于工程和科學,例如,智能交通,無人駕駛飛機,智能信息系統,公共衛生和智能醫療診斷,智能制造,金融貿易,網絡安全,智能教育,以及科學研究中的強化學習。
**3.1 智能交通 **
智能交通利用物聯網(IoT)和人工智能等先進技術來提高安全性,提高交通效率,并減少其對環境的負面影響。在基于MARL的智能交通中,我們描述了兩個已知的場景:交通燈控制和自動駕駛,并展示了人類在這些智能系統中的作用。這個應用與強化學習方法之間的對應關系顯示在表2中。
**3.2 無人駕駛飛行器 **
在基于MARL的無人駕駛飛行器(UAVs)應用中,我們描述了三個已知的場景:集群控制[124, 158, 207, 210, 222-224],環境監控[75, 134, 148, 204],以及協同運輸[66, 74, 177]。這個應用與強化學習方法之間的對應關系顯示在表3中。
**3.3 智能信息系統 **
MARL在智能信息系統中具有巨大的應用潛力,包括自然語言處理(NLP)[13, 83, 98, 104, 120, 183, 195, 226],編程生成[26, 104, 178],以及推薦系統[40, 51, 72, 231, 245]。基于SARL的技術已在NLP和編程生成中得到研究,我們將總結這些研究并指出MARL在這些應用中的顯著優點。這個應用與強化學習方法之間的對應關系顯示在表4中。
**3.4 公共衛生和智能醫療診斷 **
MARL在公共衛生和智能醫療診斷中得到了廣泛的探索和應用。例如,MARL可以應用于COVID-19的預測和管理、醫療圖像處理和疾病診斷,以提高疾病預防、診斷和治療的效率和準確性。這個應用與強化學習方法之間的對應關系顯示在表5中。
**3.5 智能制造 **
智能制造是將先進技術(如物聯網、人工智能等)整合到制造過程中,以優化生產過程。對于智能制造,MARL是一種有前景的方法。在智能制造的背景下,MARL可以作為生產調度、車間工業機器人控制、質量控制和設備維護的工具,實現智能高效的生產過程[97]。這個應用與強化學習方法之間的對應關系顯示在表6中。
**3.6 金融交易 **
金融交易是一項挑戰性的活動,需要快速判斷并適應不斷變化的市場條件。過去的單智能體方法和深度學習技術已經無法滿足市場的期望。MARL通過結合各種智能體之間的合作與競爭,為應對金融交易中的困難提供了新的思路。我們從投資組合管理[60, 95, 123, 150, 175]、交易策略優化[79, 143, 156, 157]和風險管理[6, 34, 49]的角度總結了MARL在金融交易中的應用。這個應用與強化學習方法之間的對應關系顯示在表7中。
**3.7 網絡安全 **
網絡安全是當今社會面臨的重要問題,攻擊者利用各種技術和手段侵入計算機系統和網絡,威脅到個人、組織和國家的安全。MARL是一種有前景的方法,可以應用在網絡安全領域,主要應用在入侵檢測[54, 118, 118, 132, 172, 173]和網絡資源優化[103, 135, 145, 186, 190]。這個應用與強化學習方法之間的對應關系顯示在表8中。
**3.8 智能教育 **
智能教育利用物聯網和人工智能將學習過程數字化,并根據特定學生的學習風格和特點提供個性化的學習體驗和支持。傳感器可以用來捕捉學生的學習行為和數據。通信使學生與教師之間以及學生之間的協作學習實現實時互動。人工智能可以用來分析學習行為,提供個性化學習和評價教學。虛擬現實技術使得場景重建、實驗模擬和遠程教學變得更加容易。在基于MARL的智能教育中,我們總結了現有的技術[31, 48, 112, 194]。教育4.0旨在將人工智能技術融入學生自主學習的每個階段,以提高學習過程中的興趣和效果[19, 46, 170]。Tang和Hare[194]創建了一個自適應輔導游戲,讓學生在沒有教師指導的情況下個性化學習。為了優化學生學習,該系統使用Petri網圖結構監控學生在游戲中的進展,使用強化學習智能體適應性地改變系統行為以響應學生表現。然后,他們應用Petri網和層次化強化學習算法,基于上述游戲個性化學生的幫助[48]。該算法可以幫助教師根據學生的需求,為他們在游戲中提供定制的指導和反饋,使他們通過將游戲中的任務分解為幾個階段,逐漸掌握復雜的知識和技能。該算法可以幫助教育工作者為游戲中的學生提供定制的支持和反饋,通過將游戲中的任務分為多個層次,逐漸掌握復雜的知識和技能。[112]和[31]都使用傳感器收集的數據監測學生的學習進度,并使用強化學習技術為學生提供個性化的學習建議。
3.9 科學領域的強化學習
近年來,人工智能在科學領域的應用已經成為熱門話題,人工智能被高度評價為實現科學進步的關鍵工具[127]。強化學習已經在化學、物理和材料研究等領域展示出顯著的科學潛力,尤其在探索未知的物理現象等挑戰中,強化學習被證明是解決這些挑戰的關鍵工具。這個應用和強化學習方法之間的對應關系顯示在表9中。Seo等人[171]利用強化學習來控制KSTAR托卡馬克的前饋??。Degrave等人[22]介紹了一種創新的強化學習方法,使托卡馬克聚變裝置的磁控系統能夠自主學習,從而實現對各種等離子體配置的精確控制,大大減少了設計工作量,是強化學習在聚變領域的開創性應用。Bae等人[5]引入了一種科學多智能體強化學習(SciMARL),用于在湍流模擬中發現壁面模型,大大降低了計算成本,同時復制了關鍵流量,并提供了對湍流模擬的前所未有的能力。強化學習的科學研究提供了更多的可能性,我們相信未來強化學習在科學應用中的范圍將會更廣。
4 展望
盡管多智能體強化學習(MARL)在許多領域都已表現出優越的性能,但一些問題,如安全性、魯棒性和泛化能力,限制了MARL在實際環境中的應用。我們認為,要想最大化地利用未來實踐應用中MARL的優越性,首先需要解決這些問題,并需要考慮到人類社會的道德約束。本節回顧了在四個方面的研究現狀:安全性、魯棒性、泛化能力和道德約束,并討論了未來研究需要解決的差距。
4.1 多智能體強化學習的安全性
隨著多智能體強化學習(MARL)的日益普及,確保這些系統的安全性的需求日益突出。在MARL中,一個智能體的行動可能會對任務或其他參與的智能體造成傷害。因此,開發安全的MARL方法的需求迫在眉睫。為了在MARL中實現安全,一種常見的方法是在訓練過程中添加約束。通過引入安全性約束,可以鼓勵智能體避免可能導致任務失敗或對其他智能體造成傷害的不安全行動。已經有很多關于強化學習安全性的綜述,如[35],[39]和[225]所總結的。然而,目前還沒有關于MARL安全性的系統性綜述,而且關于這個話題的研究相對較少。在本節中,我們給出了在[38]中使用的安全MARL的定義。
4.2 多智能體強化學習的魯棒性
在分類任務中,深度學習的魯棒性已有一系列的研究 [36, 58, 69, 71, 142]。強化學習是一個序列決策問題,其中在一個時間步的錯誤分類并不等同于期望最小的獎勵。在多智能體強化學習(MARL)中,任何智能體的決策失敗都可能導致團隊任務失敗,這使得MARL的魯棒性研究具有挑戰性。此外,MARL在現實世界的應用中面臨各種挑戰,例如環境的不確定性,其他智能體的政策不確定性,以及傳感器噪聲。所有這些因素都可能導致訓練的模型表現不佳或者失敗。因此,提高MARL的魯棒性至關重要,這將有助于確保模型在各種情況下都能穩定可靠地運行。以下是關于魯棒MARL的相關定義。我們使用了[253]和[241]的定義。
4.3 多智能體強化學習的泛化
在MARL領域,泛化涉及到智能體將其在特定環境或場景中學到的知識和技能,無需進行大幅度的修改或重新訓練,就能轉移到新的、多樣的環境或場景中的能力。有幾個調查研究了強化學習的泛化 [87, 201, 225, 247]。在SARL的泛化中,各種技術如領域隨機化[133, 160, 165],因果推理[82, 167, 237],以及元學習[3, 27, 77]已被用來解決泛化問題。然而,與單智能體設置相比,對MARL的泛化研究相對較少。在這方面,我們從兩個角度,即多任務學習和sim2real,提供了相關工作的概述,如圖4所示。
4.4 遵循道德約束的學習
隨著AI技術的不斷發展,考慮AI系統的道德含義變得越來越重要[4]。MARL系統涉及多個智能體的互動,其行為可能對現實世界產生重大影響。因此,確保MARL系統的設計和訓練考慮到道德因素至關重要。我們將有關MARL的道德約束的研究總結為隱私保護、公平性和透明度,如圖5所示。
5. 人機協同多智能體強化學習面臨的挑戰
人機協同物理系統(HCPS)是基于物理系統(CPS)發展起來的,它融合了計算機科學、自動化技術、通信科學等領域[9, 115]。本文第3節總結的MARL應用是HCPS的典型應用。人類被視為HCPS的重要組成部分,因此,MARL算法的設計需要考慮人的因素。除了可擴展性和非平穩性的挑戰之外,HCPS中的MARL面臨著許多額外的挑戰,這是由于人類、物理系統和計算機系統之間的相互作用導致的。
6. 結論
本文綜述了MARL的基本方法,并對MARL在智能交通、無人機、智能信息系統、公共健康與智能醫療診斷、智能制造、金融貿易、網絡安全、智慧教育、科學強化學習等各個領域的相關研究進行了綜述。為了更好地服務于人類社會,有必要發展一個值得信賴的MARL。從安全性、魯棒性、泛化性和倫理約束等角度定義了可信MARL,并總結了這些領域的當前研究和局限性。最后,討論了在MARL中考慮HCPS時面臨的其他挑戰,這對其在人類社會的實際應用至關重要。希望本文能夠對各種研究方法和應用場景進行全面綜述,鼓勵和推動MARL在人類社會中的應用,更好地服務于人類。
本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。
縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)
由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)
巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)
Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/
知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。
//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5
從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。
知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。
預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:
知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。
對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。
我們的貢獻總結如下:
建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。
概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。
**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。
**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。
**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。
來自香港科技大學、IDEA、中科院、清華、微軟等發表《視覺語言智能》綜述論文,從時間的角度對視覺語言智能進行了全面的研究。非常值得關注!
本文從時間的角度對視覺語言智能進行了全面的研究。這項研究的靈感來自于計算機視覺和自然語言處理的顯著進展,以及從單一模態處理到多模態理解的最新趨勢。我們將這一領域的發展總結為三個時期,即任務特定方法,視覺語言預訓練(VLP)方法,以及由大規模弱標記數據訓練的大模型。我們首先以一些常見的VL任務為例,介紹了特定于任務的方法。然后我們重點介紹了VLP方法,并全面回顧了模型結構和訓練方法的關鍵組成部分。之后,我們展示了最近的工作是如何利用大規模的原始圖像-文本數據來學習語言對齊的視覺表示,這種視覺表示在零或少數樣本學習任務中得到了更好的泛化。最后,我們討論了在模態協同、統一表示和知識整合方面的一些潛在的未來趨勢。我們相信這篇綜述將有助于人工智能和ML的研究人員和實踐者,特別是那些對計算機視覺和自然語言處理感興趣的人。
引言
計算機視覺(CV)和自然語言處理(NLP)是人工智能(AI)的兩個分支,它們專注于在視覺和語言上模擬人類智能。近十年來,深度學習在這兩個領域極大地推進了單模態學習,并在一系列任務上取得了最先進的成果。深度學習的顯著進步的核心在于快速發展的GPU和大規模數據集的可用性,這允許在大規模上加速深度模型的訓練。
隨著深度學習的發展,我們看到了一系列功能強大的神經網絡的發展。傳統的神經網絡通常是多層感知器(MLP),由多個堆疊的線性層和非線性激活組成(Rosenblatt, 1957, 1961)。LeCun等人(1998)提出了卷積神經網絡(CNN),將平移不變特性作為對2D視覺輸入更好的誘導偏差,這啟發了大量的深度神經網絡,包括AlexNet (Krizhevsky et al., 2012)、VGGNet (Simonyan and Zisserman, 2015a)、googlet (Szegedy et al., 2015)、和ResNet (He et al., 2016a)。另一個突出的突破是自然語言處理(NLP)領域的循環神經網絡(RNN),它提出了循環細胞用于順序數據建模(Rumelhart et al., 1985; Hochreiter and Schmidhuber, 1997a)。為了緩解長序列訓練中梯度的消失和爆炸問題,提出了RNN的一種變體LSTM (Hochreiter and Schmidhuber, 1997a)和LSTM的一種更高效的版本GRU (Chung et al., 2014)。NLP的另一個重大突破是Transformer (Vaswani et al., 2017),它利用注意力機制追求更好的語言表征。使用多個堆疊的注意力層,Transformer可以以高并行性在全局范圍內融合語言標記上的信息,這有利于強大的表示和大規模的訓練。
雖然在單一模態領域取得了令人鼓舞的進展,但現實世界的問題往往涉及多種模態。例如,自動駕駛汽車應該能夠處理人類的命令(語言)、交通信號(視覺)、道路狀況(視覺和聲音)。即使是單模態學習也能從多模態學習中受益。例如,語言學習需要感知,而感知是許多語義公理的基礎(Bisk et al., 2020)。感知是人類理解物質世界的方式,決定了人類語言背后的假設。因為我們都聽到和看到同樣的事情,我們會留下一些知識作為常識,這些知識在我們的語言中是不成文的(Bisk et al., 2020)。即使局限于語言,言語也比文本包含更多有用的信息,例如,韻律可以暗示情感。注意到多模態感知在多模態和單模態任務中都有幫助,有大量的研究工作。多模的領域內, 視覺和語言的集成得到太多的關注, 因為視覺是人類最重要的感知理解環境和l語言對齊視覺特征可以極大地提高視覺任務的表現和視覺語言任務。此外,視覺語言智能的普及還得益于該領域豐富的數據集和基準。
解決許多特定于任務的VL問題的動力推動了VL學習的初步發展。這些VL問題包括圖像描述、視覺問答(VQA)、圖像-文本匹配等。Xu et al. (2015); Karpathy et al. (2014); Vinyals et al. (2015)集成了一個CNN圖像編碼器和一個RNN文本解碼器用于圖像描述。Antol et al. (2015); Yang et al. (2016); Anderson et al. (2018b) 通過將圖像和文本映射到相同的潛在空間并從潛在表征中預測答案來解決VQA任務。Kiros et al. (2014); Karpathy et al. (2014); Huang et al. (2016); Lee et al. (2018)通過計算圖像和文本在句子級別或標記級別上的相似度來進行圖像-文本匹配。這些模型是為各種數據集的特定問題量身定制的,每個模型只能解決一個任務。
受普遍存在的語言(Devlin et al., 2018)和視覺的預訓練和微調的啟發,視覺和語言跨學科領域迎來了一個新時代:通過圖像-文本對的預訓練來學習視覺和語言的聯合表征。VLP模型的興起主要是受到了架構設計和訓練方法中的語言模型的啟發。例如,最近的許多研究(Li et al., 2019b; Lu et al., 2019; Zhang et al., 2021; Tan and Bansal, 2019; Li et al., 2020b; Yu et al., 2020; Chen et al., 2020)采用了BERT-like (Devlin et al., 2018)架構和訓練方法。由于缺乏足夠大規模的人工標注數據,VL學習的發展面臨著嚴峻的挑戰。最近,一些研究(Radford et al., 2021; Jia et al., 2021; Wang et al., 2021; Li et al., 2021b)通過采用對比學習和利用大規模網絡爬行數據學習視覺語言特征,打破了這一限制,這些特征可用于零樣本學習。
VL領域的快速發展推動了對該領域現有研究的全面綜述。本文旨在提供一個結構化的綜述,在VL領域的最新進展,以幫助研究人員獲得一個整體的視圖,并更好地理解最近的研究。我們將VL學習的發展分為三個階段。第一個是從2014年到2018年,專門的模型被設計用于不同的任務。第二個時代是2019年至2021年,在此期間,通過對標記良好的VL數據集進行預訓練,學習視覺和語言的聯合表征。最后,隨著2021年CLIP的出現,第三個時代開始了(Shen等人,2021年),研究人員尋求在更大的弱標記數據集上預先訓練VL模型,并通過預訓練VL獲得強大的零樣本/少樣本視覺模型。
回顧VL智能的整個發展過程,我們發現總體目標是學習良好的視覺表征。一個好的視覺表示應該具有(Li et al., 2021b)中總結的三個屬性,即對象級、語言對齊和語義豐富。對象級意味著視覺和語言特性的粒度應該分別與對象級和詞級一樣細。語言對齊強調與語言對齊的視覺特征可以幫助完成視覺任務。語義豐富是指不受領域限制地從大規模數據中學習表示。在VL的第一個時代,研究工作的目的是解決具體的問題,而不是學習上述好的表征。在第二個時代,研究人員訓練模型的圖像-文本對,以獲得語言對齊的視覺特征。這個時代的一些作品采用檢測到的區域作為圖像表示,學習對象級的特征。只有在第三時代,研究人員才能處理大規模的數據集和預訓練的語義豐富的特征。
據我們所知,這是第一次從時間段的角度總結研究的VL綜述。本文的其余部分組織如下。我們從VL中的一些特定于任務的問題開始,如第二節中的圖像標題、VQA和圖像-文本檢索。然后,我們在第三節中全面解釋了預訓練增強的視覺-語言聯合表征學習。在第六節中,我們展示了一些直接從原始圖像-文本數據學習語言對齊的視覺表示的工作,以及大規模的視覺語言訓練。
VLP方法發展概覽
與特定任務問題的比較。任務分為四類。對于每個任務,我們總結了輸入、輸出、數據集、度量和主流方法。
未來發展
在過去的幾年中,我們見證了VLP模型如何擴展到使用大量弱標記和更多樣化的數據。在未來,模型和數據將繼續擴大,以實現更強的模態協作,甚至統一表示。此外,知識的整合可以進一步增強VLP模型的泛化能力。在本節中,我們將討論這些未來的趨勢。
模態合作
除了利用VL數據集改進跨模態任務外,模態合作還出現在訓練前以提高單模態任務和多模態任務的性能。模態合作是幫助不同模態的人互相幫助,學習更好的表現。例如,用視覺數據改進語言任務,用單模態數據改進跨模態任務
通用統一模態
由于Transformer架構,研究人員在單模態和多模態表示學習方面都取得了顯著進展。在前幾節中,我們討論了多模態表示和模態合作,它們以不同的方式連接視覺和語言。一個更雄心勃勃的目標是建立一個通用的表示模型,它可以統一多種模態。
VL+知識
許多VL任務需要常識和事實信息超出訓練數據集。
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。