亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)的迅速發展為在多種應用領域利用人工智能提供了新機遇,包括網絡安全領域。隨著網絡威脅的數量和復雜性不斷增長,迫切需要能夠自動檢測漏洞、分析惡意軟件并響應攻擊的智能系統。在這項綜述中,我們對LLMs在網絡安全(LLM4Security)中的應用進行了全面的文獻回顧。通過全面收集超過30,000篇相關論文,并系統分析來自頂級安全和軟件工程領域的127篇論文,我們旨在提供一個關于LLMs如何被用于解決網絡安全領域多樣化問題的整體視角。

通過我們的分析,我們識別出幾個關鍵發現。首先,我們觀察到LLMs被應用于網絡安全的廣泛任務中,包括漏洞檢測、惡意軟件分析、網絡入侵檢測和釣魚檢測。其次,我們發現這些任務中用于訓練和評估LLMs的數據集往往在大小和多樣性上有限,這突顯了需要更全面和具有代表性的數據集的必要性。第三,我們識別出幾種將LLMs適應特定網絡安全領域的有希望的技術,如微調、遷移學習和領域特定的預訓練。最后,我們討論了LLM4Security未來研究的主要挑戰和機遇,包括需要更多可解釋和可說明的模型、解決數據隱私和安全問題的重要性,以及利用LLMs進行主動防御和威脅狩獵的潛力。

總體而言,我們的綜述提供了LLM4Security當前最先進狀態的全面概述,并識別了未來研究的幾個有希望的方向。我們相信,這項綜述中呈現的見解和發現將有助于增加LLMs在網絡安全應用方面的知識體系,并為在該領域工作的研究人員和實踐者提供寶貴的指導。

1 引言

在過去十年中,自然語言處理(NLP)的快速發展主要得益于大型語言模型(LLMs)的發展。通過利用變換器架構[205]和在大量文本數據上的訓練,像BERT[49]、GPT-3,4[147, 149]、PaLM[40]、Claude[15]和Chinchilla[78]這樣的LLMs在廣泛的NLP任務中取得了顯著的表現,包括語言理解、生成和推理。這些基礎模型學習了豐富的語言表征,可以通過最小的微調來適應下游應用,實現了如開放域問答[1]、對話系統[151, 230]和程序合成[5]等領域的突破。特別是在網絡安全這一重要領域,LLMs開始顯示出潛力。隨著網絡威脅的數量和復雜性的增長,迫切需要智能系統自動檢測漏洞、分析惡意軟件并響應攻擊[19, 35, 137]。近期的研究已經探索了LLMs在廣泛的網絡安全任務中的應用,即此后稱為LLM4Security。在軟件安全領域,LLMs已被用于從自然語言描述和源代碼中檢測漏洞,以及生成安全相關的代碼,如補丁和漏洞利用代碼。這些模型在識別易受攻擊的代碼片段和為常見漏洞類型生成有效補丁方面表現出高精度[29, 39, 64]。在代碼級分析之外,LLMs還被應用于理解和分析更高層次的安全文檔,如安全政策和隱私政策,幫助分類文件和檢測潛在違規[74, 134]。在網絡安全領域,LLMs已展示出從網絡流量數據中檢測和分類各種類型攻擊的能力,包括DDoS攻擊、端口掃描和僵尸網絡流量[9, 10, 139]。惡意軟件分析是LLMs顯示出前景的另一個關鍵領域,模型被用于基于文本分析報告和行為描述對惡意軟件家族進行分類,以及檢測惡意域名和URLs[22, 122]。LLMs還在社交工程領域被用于通過分析電子郵件內容和識別欺騙性語言模式來檢測和防御釣魚攻擊[89, 171]。此外,研究人員正在探索使用LLMs來增強安全系統本身的魯棒性和復原力,通過生成對抗性樣本來測試安全分類器的魯棒性,并模擬現實攻擊場景以用于培訓和評估[30, 178, 197]。這些多樣的應用展示了LLMs在通過處理和提取大量非結構化文本的洞見、從龐大數據集中學習模式以及生成用于測試和培訓的相關示例方面,提高網絡安全實踐的效率和效果的顯著潛力。

盡管已有幾項寶貴的努力在文獻中對LLM4Security進行了調查[42, 50, 140, 229],鑒于這一方向工作的日益增多,這些研究通常具有更加聚焦的范圍。許多現有的綜述主要集中于審查LLMs可以應用的任務類型,而沒有提供關于這些任務的其他關鍵方面的廣泛分析,如所使用的數據和領域特定技術[145, 231],如表1所示。例如,Divakaran等人[50]僅分析了LLMs在各種安全任務中的前景和挑戰,分別討論了每個任務的特點。然而,它缺乏對這些安全任務的要求與數據之間的聯系以及LLMs在領域特定技術中的應用的洞察。 為了解決這些限制并提供對LLM4Security最新研究的深入了解,我們進行了一項系統而廣泛的文獻調查。通過全面收集38,112篇相關論文并系統分析來自頂級安全和軟件工程領域的127篇論文,我們的調查旨在提供一個關于LLMs如何被用于解決網絡安全領域多樣化問題的整體視角。除了識別LLMs正在使用的任務類型外,我們還檢查了每種情況中使用的具體數據集、預處理技術和領域適應方法。這使我們能夠提供不同方法的優勢和限制的更細致分析,并識別未來研究最有前景的方向。具體來說,我們專注于回答四個關鍵研究問題(RQs):

**? RQ1:哪些LLMs被用于支持安全任務? ** **? RQ2:哪些類型的安全任務已通過基于LLM的方法得到了促進? ** **? RQ3:使用了哪些領域規范技術來適應LLMs到安全任務? ** ? RQ4:在將LLMs應用到安全任務時,數據收集和預處理有何不同?

對于每個研究問題,我們提供了對調查論文中使用的方法、數據集和評估協議的細致分析。我們識別常見主題并按不同維度對論文進行分類,以提供景觀的結構化概覽。此外,我們強調當前方法的主要挑戰和限制,以指導未來的研究彌補這些差距。我們相信我們的調查可以為在NLP、AI和網絡安全交叉領域工作的研究人員提供寶貴的資源。此項工作的貢獻總結如下: ?** 我們進行了一項全面的系統性文獻綜述(SLR),以調查LLM4Security的最新研究,提供了當前景觀的映射**。我們的搜索涵蓋了超過38,112篇論文,通過進一步基于質量和相關性的篩選,我們保留了127篇論文以供后續詳細審查。 ?** 我們制定了四個關鍵RQs**,以了解LLM在安全中的各個不同維度的應用,包括使用的LLM類型、得到促進的安全任務、領域規范技術以及數據收集和預處理的差異。 ? 我們分析了127篇選定論文在會議地點和時間上的分布,揭示了特別是在2022-2023年LLM4Security研究的迅速增長,并對主流LLMs在安全領域的使用特征進行了分類。 調查按以下框架進行。我們在第2節概述了我們的調查方法,包括搜索策略、包含/排除標準和數據提取過程。第3至6節可以找到對四個研究問題的分析和發現。第7至8節探討了我們結果的約束和意義,同時也識別了未來研究的有前景的方向。最后,第9節總結了本文。

在這項研究中,我們進行了一項系統性文獻綜述(SLR),以調查LLM4Security的最新研究。這項綜述旨在提供一個全面的景觀映射,識別LLMs如何被部署以增強網絡安全措施。根據既定的SLR指南[98, 163],我們的方法論被結構化為三個關鍵階段,如圖2所示:規劃(§2.1)、執行(§2.2, §2.3)和報告(§2.4),每個階段都被精心設計以確保對這一新興領域的研究狀態進行全面覆蓋和深入分析。

規劃 最初,我們制定了精確的研究問題,以理解LLMs如何在安全任務中被利用、所得益處及相關挑戰。隨后,我們制定了一個詳細的協議,描述了我們的搜索策略,包括具體的數據庫和關鍵詞、包含和排除標準以及數據提取。每位合作者都審查了這一協議,以增強其穩健性并與我們的研究目標保持一致。 執行 我們精心設計了文獻搜索,以確保全面性,采用了手動和自動策略,跨越多個數據庫,涵蓋了廣泛的研究。識別的每項研究都經歷了嚴格的篩選過程,最初基于標題和摘要,隨后對全文進行徹底審查,以確保符合我們預定義的標準。為了防止忽視相關論文,我們還對收集的論文進行了前向和后向滾動式引用搜索。 報告 我們通過結構化的敘述呈現我們的發現,輔以流程圖和表格等視覺輔助工具,提供了現有文獻的清晰和全面概覽。討論深入探討了我們的發現的含義,解決了LLMs革新網絡安全實踐的潛力,并識別了需要進一步調查的空白。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。

軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。

論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么

(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR

(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進

總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合

(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

游戲智能體的發展在推進向人工通用智能(AGI)的道路上扮演著至關重要的角色。大型語言模型(LLMs)及其多模態對應物(MLLMs)的進展為在復雜的電腦游戲環境中賦予游戲智能體類似人類的決策能力提供了前所未有的機會。本文從一個全面的視角對基于LLM的游戲智能體進行了綜述。首先,我們介紹了基于LLM游戲智能體的概念架構,圍繞六個基本功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們調研了文獻中記錄的現有代表性的基于LLM游戲智能體,這些智能體在方法論和跨六大游戲類型的適應性靈活性方面進行了探討,包括冒險、溝通、競爭、合作、模擬以及制作與探索游戲。最后,我們展望了這一新興領域未來研究和發展的方向。維護并可訪問的相關論文精選列表位于://github.com/git-disl/awesome-LLM-game-agent-papers。

智能在代理與環境的互動中以及作為感覺運動活動的結果而出現。 ——體現認知假說 [1] 大型語言模型(LLMs),如ChatGPT [2]所示,代表了自然語言理解(NLU)和生成性人工智能(Gen-AI)中的一個重要里程碑。通過在包含數百億參數的大量多樣化網絡來源上進行生成性訓練,LLMs展示了從龐大文本語料庫中概括知識的驚人能力,并以接近人類水平的NLU表現展示對話智能。多模態LLMs(MLLMs),如GPT-4V [3]和Gemini [4]的出現,標志著另一個里程碑,使LLMs能夠感知和理解視覺輸入。我們推測,LLM技術的成功為追求類人人工通用智能(AGI)提供了前所未有的機會:以前認為僅限于人類的認知能力,如推理、規劃和反思,以及自我控制、自我理解和自我改進的程度,現在通過適當提示集成了內置認知智能的LLMs來實現。

我們將基于LLM的智能體(LLMA)定義為一個智能實體,它使用LLMs1作為執行類人決策過程的核心組件 [5]。盡管LLMAs能夠進行類似人類的認知處理,但現有LLMAs與類人AGI之間的區別是顯而易見的:當前的LLMAs依賴于解碼和概括來自預訓練數據的預先存在的知識 [6],而AGI能夠通過在現實世界中的實驗和經驗發現和學習新知識 [7; 8]。受到人類嬰兒智力發展過程的啟發,體現認知假說 [1] 假設智能體的智能源于觀察和與其環境的互動,即,將智能體植入一個集成了物理、社會和語言經驗的世界對于促進有利于發展類人智能的條件至關重要。

數字游戲被認為是培養AI智能體的理想環境,因為它們具有復雜性、多樣性、可控性、安全性和可復制性。從經典的國際象棋和撲克游戲 [9; 10; 11] 到現代視頻游戲如Atari游戲 [12]、星際爭霸II [13]、Minecraft [14] 和DOTA II [15],長期以來一直是推進AI研究的工具。與基于傳統強化學習(RL)的智能體 [10; 16; 17; 18] 不同,這些智能體通過行為級策略學習做出決策,目標是最大化預期獎勵,構建能夠運用認知能力獲得游戲玩法基本洞察力的基于LLM的游戲智能體(LLMGAs)可能更貼近AGI的追求。 先前關于LLMs [19; 20; 21] 或LLMAs [22; 23; 24] 的綜述論文主要關注審查行業和學術研究團隊開發的現有LLMs,以及LLMAs的一般應用,較少關注游戲代理領域。同時期的綜述論文 [25; 26] 顯著強調了游戲開發,并涵蓋了有限數量的LLMGAs出版物。為了彌補這一差距,本文試圖對LLMGAs的最新發展進行全面和系統的綜述。具體而言,本綜述分為三個相輔相成的部分:首先,我們提供了一個統一的參考框架,在其中我們描述了構建LLMGAs所需的基本模塊,涵蓋六個核心功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們介紹了一個將現有文獻分類為六個游戲類別的分類法,包括冒險、競爭、合作、模擬和制作與探索。對于每個類別,我們描述了技術挑戰、支持的游戲環境,以及常用的優化策略。在第三部分和最后一部分,我們設想LLMGAs未來進步的不同方向。

總之,這篇綜述論文作為對LLMGAs文獻的全面回顧,提供了六個游戲類別的分類,以增強理解并促進各種LLMGAs的開發和評估。它旨在促進這一新興研究領域的進步,并激發LLMGAs的研究和開發中的進一步創新。鑒于這是一個新興且蓬勃發展的研究領域,這篇綜述論文將持續更新,以跟蹤最新研究。維護并可訪問的相關文獻精選列表位于

統一的LLMGAs架構

圖1提供了LLMGAs的概念架構,包括六個基本功能組件及其工作流程:對于每個游戲步驟,感知模塊捕獲游戲狀態信息,為智能體理解其當前環境提供必要的數據。思考模塊處理感知到的信息,基于推理、規劃和反思生成思考,以便做出明智的決策。記憶作為一個外部存儲,過去的經驗、知識和精心挑選的技能被保留,并可以為將來使用而檢索。角色扮演模塊使智能體能夠在游戲中模擬特定角色,展示與每個角色的特征和目標一致的可信行為。行動模塊將生成的文本決策轉換為可執行的動作,允許智能體有效地與游戲元素互動和操縱。學習模塊通過在游戲環境中積累的經驗和互動,不斷改善智能體的認知和游戲技能。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容

度量和緩解合成(源)數據與真實場景(目標)數據之間的差異是領域自適應語義分割的核心問題。近年來,已有工作通過在源域引入深度信息來增強幾何和語義知識遷移,但僅基于二維估計深度無法提取物體的位置和形狀等內在三維信息。本文提出一種新的幾何感知域適應網絡(GANDA),利用更緊湊的3D幾何點云表示來縮小域差距。首先,利用源域的輔助深度監督獲取目標域的深度預測,實現結構-紋理解纏;除了深度估計,顯式利用RGB-D圖像生成的點云上的3D拓撲結構,以進一步在目標域中進行坐標顏色解纏和偽標簽細化。此外,為了改進目標域上的二維分類器,我們進行了源域到目標域的域不變幾何自適應,統一了兩個域上的二維語義和三維幾何分割結果。請注意,我們的GANDA在任何現有UDA框架中都是即插即用的。定性和定量的實驗結果表明,該模型在GTA5→Cityscapes和SYNTHIA→Cityscapes數據集上的性能均優于目前的先進水平。

//www.zhuanzhi.ai/paper/e213cce10ef9b5c4515fa8924aa8fd44

付費5元查看完整內容

深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0059156

付費5元查看完整內容

對于容量快速增長、日趨多元化的大數據,業界亟需開發可行性更好的存儲工具。為滿足大數據存儲需求,存儲機制已經形成從傳統數據管理系統到NoSQL技術的結構化轉移。然而,目前可用的大數據存儲技術無法為持續增長的異構數據提供一致、可擴展和可用的解決方案。在科學實驗、醫療保健、社交網絡和電子商務等實際應用中,存儲是大數據分析的第一步。截至目前,亞馬遜、谷歌和阿帕奇等公司形成了大數據存儲方案的行業標準,但尚未有關于大數據存儲技術性能和容量提升的深入調查和文獻報告。本文旨在對目前可用于大數據的最先進的存儲技術進行全面調查,提供了一個明確的大數據存儲技術分類方法,以幫助數據分析師和研究人員了解和選擇更適合其需求的存儲機制。我們使用布魯爾的CAP定理比較和分析了現有存儲方法,評估了不同存儲架構的性能,討論了存儲技術的意義、應用及其對其他類別數據的支持。為了加快部署可靠和可擴展的存儲系統,文中還突出了未來研究面臨的幾個挑戰。

//www.jzus.zju.edu.cn/article.php?doi=10.1631/FITEE.1500441

付費5元查看完整內容
北京阿比特科技有限公司