亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

過去幾十年里,數據量激增,為依賴數據的學習型AI技術奠定了基礎。對話代理(通常稱為AI聊天機器人)在很大程度上依賴這些數據來訓練大型語言模型(LLM),并在響應用戶提示時生成新的內容(知識)。隨著OpenAI的ChatGPT的問世,基于LLM的聊天機器人在AI社區中樹立了新的標準。本文對基于LLM的聊天機器人的演變和部署進行了完整的綜述。我們首先總結了基礎聊天機器人的發展歷程,接著是LLM的演變,然后概述了當前使用中的以及開發階段的基于LLM的聊天機器人。鑒于AI聊天機器人作為生成新知識的工具,我們探討了它們在各個行業的多樣化應用。隨后,我們討論了開放性挑戰,考慮到用于訓練LLM的數據以及生成知識的濫用可能引發的諸多問題。最后,我們展望了未來,以提高它們在眾多應用中的效率和可靠性。通過梳理關鍵里程碑和當今基于LLM的聊天機器人的現狀,我們的綜述邀請讀者深入探討這個領域,反思下一代聊天機器人將如何重塑對話式AI。

近幾年,數據的指數級增長改變了數字信息的世界。2023年,全球創建、捕獲、復制和消費的數據總量約為120澤字節,預計到2024年將達到147澤字節,到2025年將超過180澤字節【1】。圖1展示了2010年至2023年數據量的增加情況,并預測了2024年和2025年的數據量。這一數據生態系統的快速擴展為人工智能(AI)領域的突破性創新鋪平了道路,促成了多種機器學習模型的發展。其中,大型語言模型(LLM)由于其在理解、生成和處理人類語言方面的卓越能力而成為一個重要的子集【2】。

在AI驅動的聊天機器人時代【15】–【17】,LLM在推動對話能力和實現類人互動方面發揮了關鍵作用【2】【7】。數據的顯著增長和計算知識的進步提高了基于LLM的聊天機器人的功能,使其在各個領域變得越來越受歡迎和廣泛采用。它們在理解和回應人類語言時所具備的前所未有的上下文相關性和準確性,以及處理大量信息流的能力,使其成為教育【18】–【20】、研究【21】–【23】、醫療保健【8】【24】【25】等諸多領域的必備工具。鑒于基于LLM的聊天機器人的巨大潛力和前景,其不斷增長的使用量和必要的優化帶來了諸多挑戰,需要進行深入的研究和評估。隨著基于LLM的聊天機器人領域的快速擴展,學者、專業人士和新手都面臨著大量的研究文獻。因此,我們的工作為應對這些不斷變化的需求提供了一份及時且完整的基于LLM的聊天機器人的綜述。

在LLM和基于LLM的聊天機器人出現之前,對話式AI面臨著諸多挑戰。早期的聊天機器人在上下文理解和領域特異性方面有限,往往提供不準確的回應。缺乏復雜的語言理解限制了它們進行類人交互的能力,導致用戶體驗顯得機械化和不連貫。在各個行業的可擴展性也存在問題,因為處理大量信息流并實時響應是個挑戰。LLM的出現徹底改變了聊天機器人,并開啟了AI驅動的交互新紀元。2023年3月,OpenAI推出了其最新的杰作GPT-4(也稱為ChatGPT Plus【29】),繼2022年11月ChatGPT 3.5首次亮相以來引發的熱議之后【30】【31】。圖2展示了自初次發布以來ChatGPT(藍色)的人氣指數,其相比于其他廣泛使用的技術(如黃色的5G、綠色的物聯網和紅色的區塊鏈)具有明顯優勢。其創新能力引發了前所未有的人氣激增,標志著AI驅動通信的新篇章。在相關發展中,谷歌于2023年2月6日宣布推出其首個基于LLM的聊天機器人BARD【32】,并于3月21日提供早期訪問【33】。此外,還有許多其他基于LLM的聊天機器人正在開發中。鑒于這些技術的深遠影響,本文綜述旨在提供關于基于LLM的聊天機器人的發展、行業應用、主要挑戰以及提高其有效性和可靠性的策略的精簡且最新的概述。我們的目標是將這些多樣化的研究整合成一篇結構合理的綜述,以便深入理解基于LLM的聊天機器人,并為讀者提供未來研究的指南。

A. 現有綜述、評論和案例研究

多篇文章回顧了基于LLM的聊天機器人的廣泛應用,突出了它們的重大影響和在各個領域所帶來的復雜挑戰。本文將討論其中的一些文章,并展示我們的綜述如何擴展和區別于它們。

【5】探討了AI和聊天機器人在學術領域的使用及其對研究和教育的倫理影響,研究了這些技術對教育評估完整性的影響及其轉變學術研究的潛力,并提出了有效解決方案以緩解教育和研究領域的倫理挑戰和可能的濫用問題。

【6】通過案例研究探討了ChatGPT如何提升在線學習。研究結果表明,學生們更傾向于使用這些代理來進行教育活動,認為其提供了更互動和更有吸引力的學習環境。Koubaa等【7】詳細審查了ChatGPT的技術創新,并在他們的綜述中開發了一種獨特的分類法,用于研究分類,探索了ChatGPT在各個領域的應用。此外,他們還強調了顯著的挑戰和未來探索的方向。【8】系統性地回顧了ChatGPT在醫療保健中的應用,重點關注教育、研究和實踐。作者概述了ChatGPT在科學寫作和個性化學習中的革命性潛力,同時批判性地分析了其優點,并承認存在的重大問題,如倫理和準確性問題。另一篇評論文章【9】評估了ChatGPT在教育中的影響,指出其在經濟學、編程、法律、醫學教育和數學等學科中的不同表現。文章突出了這一工具的潛力和挑戰,如準確性問題和抄襲,并建議更新評估方法和教育政策,以負責任地使用這些工具。【10】的作者通過虛擬和面對面的反饋進行了一項探索性調查,分析了ChatGPT在教育、醫療保健和研究中的影響。調查顯示,ChatGPT可以提高個性化學習、臨床任務和研究效率。他們還解決了主要的倫理和實際問題,建議在部署AI時要謹慎并遵循嚴格的倫理指南以應對這些挑戰。同樣,【11】對ChatGPT進行了全面分析,重點關注其演變、廣泛應用和主要挑戰。與【10】通過調查直接獲取反饋不同,【11】通過匯總現有研究的發現來評估ChatGPT的影響和挑戰,提供了更普遍的視角,而不涉及初級數據收集。進一步探討,【12】和【13】深入研究了ChatGPT的廣泛跨學科應用。【12】匯集了多個學科的見解,評估了其在市場營銷、教育和醫療保健等領域的影響,而【13】則引入了ChatGPT研究的分類法,詳細介紹了其在醫療保健、金融和環境科學等領域的應用。此外,這兩篇文章都討論了倫理考慮和實際部署方面的基本挑戰。另一篇近期文章【14】通過單一案例研究方法評估了ChatGPT和Bing Chat在化學教育中的有效性。研究分析了這些工具與模擬學生之間的廣泛互動,以提高創造力、解決問題的能力和個性化學習。研究結果顯示,兩者都是有價值的“思考代理”,但ChatGPT在提供更全面和上下文相關的回應方面明顯優于Bing Chat。

與現有工作不同,我們的綜述不僅關注具體的聊天機器人,還涵蓋了包括BARD、Bing Chat和Claude在內的各種模型。此外,我們探索了多個領域的應用,討論了各種挑戰,每個挑戰都詳細分類。表I總結了所討論文章的發現,便于對其貢獻進行比較理解。

B. 我們的貢獻

我們的綜述旨在回答以下問題:

  • 聊天機器人如何從簡單的自動化系統發展到今天的基于LLM的變體?LLM的基礎性進步如何自LLM時代之前重新定義了聊天機器人的能力?

  • 基于LLM的聊天機器人在不同領域的關鍵應用是什么?它們如何影響這些領域的運營動態和用戶交互?

  • 基于LLM的聊天機器人的廣泛使用帶來了哪些挑戰?這些挑戰如何影響其性能和可靠性?

  • 基于LLM的聊天機器人需要哪些技術改進?如何通過實施倫理指南確保其負責任的使用? 在回答這些問題時,我們提供了對聊天機器人歷史的全面概述。此外,我們討論了LLM的基礎知識,重點介紹了基于Transformers的自注意力機制和GPT模型中的創新特性,如上下文學習和鏈式思維(CoT)提示。接著,我們提供了基于LLM的聊天機器人的詳細分類,按其在教育、研究和醫療保健等領域的功能和應用進行組織。我們還承認它們在軟件工程和金融中的日益重要性。接下來,我們從技術方面探討了開放性挑戰,涵蓋了知識的時效性問題以及幻覺等問題,同時還考慮了數據透明度、偏見、隱私風險和不公平等倫理問題。然后,我們從學術濫用、過度依賴和錯誤信息傳播等角度探討了濫用問題。最后,我們討論了基于LLM的聊天機器人的未來展望,從技術改進如模型優化到遵循倫理指南和在各個領域推廣負責任的使用。我們的貢獻總結如下:

  • 與大多數專注于特定聊天機器人或其有限方面的文章不同,我們的綜述涵蓋了多種基于LLM的模型,包括ChatGPT、BARD、Bing Chat等。

  • 雖然大多數文章專注于單個聊天機器人在一個或多個領域的應用,而沒有詳細分類,但我們的綜述擴展到多個應用領域的各種聊天機器人。我們提供了詳細的應用分類法,結構化且深入地探索了不同聊天機器人在教育、研究、醫療保健、軟件工程和金融等領域的表現。

  • 我們從技術、倫理和濫用角度討論了若干開放性挑戰。此外,我們圍繞知識和數據這兩個LLM的核心支柱構建了討論。這種方法展示了聊天機器人與廣泛訓練數據的交互及其后續生成新內容(知識)之間的動態關系。 綜述的其余部分安排如下:第二部分介紹了聊天機器人的基礎年、LLM的興起及基于LLM的聊天機器人的概述。第三部分重點介紹了這些聊天機器人在教育、研究和醫療保健中的應用,還涵蓋了軟件工程和金融等雜項應用。第四部分探討了這些聊天機器人固有的挑戰,第五部分探索了該領域的未來展望。最后,第六部分總結了綜述的主要發現和整體貢獻。圖3展示了我們綜述的提綱。

付費5元查看完整內容

相關內容

受大型語言模型(LLM)快速發展的啟發,LLM代理已發展到能夠執行復雜任務的階段。LLM代理現在廣泛應用于各個領域,處理大量數據以與人類互動并執行任務。LLM代理的廣泛應用展示了其顯著的商業價值;然而,這也暴露了其安全和隱私漏洞。在當前階段,非常需要對LLM代理的安全和隱私進行全面研究。本次調查旨在全面概述LLM代理面臨的新出現的隱私和安全問題。我們首先介紹LLM代理的基本知識,然后對威脅進行分類和分析。接著,我們討論這些威脅對人類、環境和其他代理的影響。隨后,我們回顧現有的防御策略,最后探討未來的發展趨勢。此外,調查結合了多樣的案例研究,以便更易于理解。通過強調這些關鍵的安全和隱私問題,本次調查旨在激發未來研究,以增強LLM代理的安全性和隱私性,從而在未來應用中提高其可靠性和可信度。

受到大型語言模型(LLM)快速發展的啟發,LLM智能體已經發展到能夠執行復雜任務的階段。LLM智能體基于GPT-4 [67]、Claude 3 [6] 和Llama 3 [5] 等大型語言模型,利用其所訓練的海量文本數據執行各種任務,從自然語言理解和生成到更復雜的決策制定、問題解決以及以人類方式與用戶互動等[95]。LLM智能體在眾多應用中都能見到,包括虛擬助手、客戶服務機器人和教育工具,因為它們能夠以高級水平理解和生成人類語言[22, 99, 115]。LLM智能體的重要性在于其能夠通過自動化需要人類理解和互動的任務,轉變各個行業。它們能夠提高生產力、改善用戶體驗并提供個性化的幫助。此外,它們從海量數據中學習的能力使得它們能夠不斷改進和適應新任務,成為在快速發展的技術環境中的多功能工具[107]。

為了直觀地展示LLM智能體如何整合到實際場景中,可以參考圖1所示的例子。此圖展示了一個像素化的虛擬城鎮來模擬LLM智能體應用。該城鎮包括現實生活中的聚集場所,如商店、辦公室、餐館、博物館和公園。每個LLM智能體充當獨立的居民,扮演各種角色并執行不同的功能,行為與社區中的真實人類非常相似。這些智能體可以手動控制以與特定角色互動并完成任務,或自主運行,按照自己的計劃行事并通過在虛擬社區中的互動獲取新知識。

LLM智能體的部署由于其在各個領域的廣泛應用,導致其用戶基礎廣泛且具有高商業價值。鑒于LLM智能體仍處于早期階段,其顯著的商業和應用價值使其成為攻擊者的有吸引力的目標。然而,由于LLM智能體建立在LLM之上,它們容易受到針對LLM的攻擊。例如,越獄攻擊可以繞過LLM的安全和審查功能,生成有爭議的回應。這種威脅被LLM智能體繼承,使得攻擊者能夠采用各種方法對智能體執行越獄攻擊。然而,與靜態LLM不同,LLM智能體具有動態能力,其即時響應可以影響未來的決策和行動,從而帶來更廣泛的風險。此外,LLM智能體的獨特功能,例如在任務執行過程中思考和利用工具的能力,使其容易受到針對智能體的特定攻擊。例如,當LLM智能體使用外部工具時,攻擊者可以操縱這些工具的功能以泄露用戶隱私或執行惡意代碼。根據智能體的應用領域,此類攻擊可能對物理安全、金融安全或整體系統完整性構成嚴重威脅。

本文將LLM智能體面臨的安全威脅分為繼承自LLM的攻擊和特定于智能體的獨特威脅。繼承自LLM的威脅可以進一步分為技術漏洞和故意的惡意攻擊。技術漏洞包括幻覺、災難性遺忘和誤解等問題[107],這些問題源于初始模型的創建并受到模型結構的影響。這些漏洞可能導致用戶在長時間使用LLM智能體時觀察到錯誤輸出,影響用戶信任和決策過程。此外,技術漏洞還可能為惡意攻擊提供機會。目前,針對LLM的惡意攻擊包括數據盜竊和響應篡改,例如數據提取攻擊和一系列調優的指令攻擊[119]。

針對LLM智能體的特定威脅,我們受到了LLM智能體工作流程的啟發,該流程包括智能體的思考、行動和感知[40]。這些威脅可以分為知識中毒、功能操縱和輸出操縱。知識中毒涉及污染LLM智能體的訓練數據和知識庫,導致創建者故意加入惡意數據。這可以輕易地通過有害信息欺騙用戶,甚至引導他們走向惡意行為。輸出操縱干擾智能體的思考和感知階段的內容,影響最終輸出。這可以導致用戶接收到經過精心設計的偏見或欺騙信息,從而誤導他們。功能操縱利用LLM智能體使用的接口和工具執行未經授權的操作,如第三方數據盜竊或執行惡意代碼。

LLM智能體的研究仍處于初期階段。當前的研究主要集中在針對LLM的攻擊上,而缺乏全面討論智能體特定的安全和隱私問題的綜述,這些問題呈現出更復雜的場景。進行本次調查的動機是提供LLM智能體相關隱私和安全問題的全面概述,幫助研究人員理解和緩解相關威脅。

本次調查旨在:

  • 強調當前威脅:識別并分類LLM智能體面臨的新興威脅。
  • 探討現實世界影響:通過考慮涉及人類、環境和其他智能體的現實場景,詳細說明這些威脅的影響。
  • 分析緩解策略:討論現有的緩解策略,確保LLM智能體的負責任開發和部署。
  • 指導未來研究:作為未來研究工作的基礎,旨在增強更先進架構和應用的LLM智能體的隱私和安全。 通過解決這些方面,本次調查旨在提供對LLM智能體所面臨的獨特挑戰的深入理解,并促進更安全和可靠的通用人工智能(AGI)系統的發展。

本文的結構如下:第二部分將深入探討LLM智能體的基本方面,包括其定義、結構和能力。第三部分將識別并分類LLM智能體面臨的新興威脅,討論從基礎LLM繼承的威脅和特定于智能體的獨特威脅,并為每個類別提供詳細的示例和場景。第四部分將詳細說明這些威脅的現實世界影響,探討這些威脅如何影響用戶、環境和其他智能體,突出未減輕風險的潛在后果。第五部分將回顧現有的緩解策略和解決方案,以應對上述威脅。第六部分將討論當前研究的空白并提出未來的趨勢。第七部分將總結全文。

付費5元查看完整內容

在設備上的大型語言模型(LLMs)指的是在邊緣設備上運行LLMs,由于其卓越的隱私保護、降低的延遲和節省帶寬而引起了極大的興趣。然而,與強大的云中心相比,邊緣設備的有限容量本質上限制了在設備上運行LLMs的能力。為彌補基于云和設備上的AI之間的差距,移動邊緣智能(MEI)通過在移動網絡邊緣提供AI能力,相對于云計算,改善了隱私和延遲,從而提供了一種可行的解決方案。MEI位于設備上AI和基于云的AI之間,具有無線通信和比終端設備更強大的計算資源。本文提供了一個關于利用MEI進行LLMs的當代調查。我們首先介紹LLMs的基礎知識,從LLMs和MEI開始,接著是資源高效的LLM技術。然后,我們通過幾個關鍵應用程序來展示在網絡邊緣部署LLMs的必要性,并提供MEI用于LLMs(MEI4LLM)的架構概述。隨后,我們深入探討了MEI4LLM的各個方面,廣泛覆蓋了邊緣LLM緩存和交付、邊緣LLM訓練和邊緣LLM推理。最后,我們確定了未來的研究機會。我們旨在激勵該領域的研究人員利用移動邊緣計算來促進LLMs在用戶近端的部署,從而釋放LLMs在各種隱私和延遲敏感應用中的潛力。

關鍵詞:大型語言模型,基礎模型,移動邊緣計算,邊緣智能,6G,分裂學習。

A. 背景

大型語言模型(LLMs)的最近出現標志著人工智能(AI)技術在實現通用智能方面的一個里程碑。LLMs在各個領域表現出色,不僅能生成文本響應,還能執行多模態內容分析、摘要和泛化等任務。例如,GPT-4多模態模型接受圖像和文本輸入,并在各種專業和學術基準上展示出人類水平的表現。除了這些有時被稱為基礎模型的通用模型外,LLMs還可以微調以適應特定行業和應用場景。例如,Google設計的醫療LLM Med-PaLM M [1],基于涵蓋文本、圖像、基因組學等豐富數據模態提供高質量的答案。Google DeepMind還開發了機器人轉換器2(RT-2)[2],這是一種用于控制機器人的視覺-語言-動作AI模型。廣泛的用例展示了LLMs對日常生活的深遠影響。

由于計算、存儲和內存成本相關,現有的LLMs大多局限于云數據中心提供服務。遺憾的是,基于云的LLM服務帶來了固有的缺陷,包括數據隱私泄露、高帶寬成本和長服務延遲。用戶必須上傳他們的數據以利用云中心的資源來訪問LLM服務,這通常會導致顯著的通信延遲。此外,上傳私人數據對用戶隱私構成嚴重風險,尤其是在隱私敏感的應用(如智能健康)中。鑒于這些問題,設備上LLM部署引起了越來越多的興趣,促使主要行業參與者之間的競爭加劇。例如,Google在Pixel 8 Pro智能手機上推出了分別具有18億和32.5億參數的Gemini Nano [3]。高通計劃在Snapdragon旗艦智能手機和個人電腦上推出Llama 2支持[4]。設備上LLM部署使得敏感個人數據(如端到端加密消息和健康數據)得以本地處理。這也為機器人規劃和自動駕駛等延遲敏感應用提供了低響應時間。這些顯著優勢推動了LLMs從云中心向移動設備的持續轉移。

B. 動機:從云LLMs到設備上LLMs再到MEI LLMS

盡管設備上LLM正在成為一個快速增長的領域,但設備上LLMs的廣泛部署面臨嚴峻限制。具體而言,邊緣設備上的計算、內存和存儲資源的稀缺大大限制了設備上LLM的規模。一方面,現有的工業努力集中于子10B(100億參數)LLMs,因為設備上部署需要大量資源。例如,依賴于4位模型并具有18億和32.5億參數的Google Gemini Nano,只能支持相對“基礎”的功能,如文本摘要、智能回復建議和語法檢查[3]。然而,隨著所需功能變得更加復雜,在設備上部署更大規模的LLMs變得必要,這會顯著增加設備上LLM推理的開銷。另一方面,設備上微調為個性化和上下文感知AI鋪平了道路,作為優越AI性能的基本構建塊。然而,由于訓練成本通常比AI推理更為密集,現有的設備上LLM產品不包含設備上訓練(微調)功能。 為解決上述困境,移動邊緣計算提供了一種有前景的解決方案。6G移動網絡旨在通過利用網絡賦能的計算能力(例如基站),為各種移動設備提供低延遲AI推理和訓練服務,這形成了一種被稱為“移動邊緣智能(MEI)”的范式。MEI位于設備上AI和基于云的AI之間,具有無線通信和適度規模的計算資源。換句話說,它比邊緣設備更強大,但不如云中心強大。由于邊緣設備和邊緣服務器之間的距離較短,可以支持大規模LLMs且服務延遲較低。同時,6G邊緣可以通過利用邊緣服務器上更強大的內存、能量和計算能力,在不斷演變的環境中持續微調LLMs。因此,6G移動邊緣預計將在推動LLMs到邊緣設備方面起到至關重要的作用。

C. 與先前調查的比較及我們的貢獻

LLMs的部署比傳統深度神經網絡(DNNs)如卷積神經網絡(CNNs)資源需求更高,這是將LLMs引入網絡邊緣的主要障礙。本調查論文旨在提供關于這一匯聚趨勢(即MEI和LLMs)的當代調查,主要從資源高效部署的角度,包括網絡邊緣的存儲效率、計算效率和通信效率。本論文不同于關于高效LLM訓練/微調和推理的先前調查論文,如[5],[7],[9],[11]-[15]。這些論文大多關注于提高計算效率,而忽略了通信對LLM訓練、推理和緩存交付的影響,這是移動邊緣網絡中的一個顯著瓶頸。本論文還不同于現有的關于LLM邊緣部署的調查/文章,如[6],[8],[10],[16]。這些論文探討了云邊協同的LLM賦能的AI服務提供,但沒有討論資源高效部署,如參數高效微調、分裂推理/學習和高效LLM緩存和交付及其與無線邊緣網絡的相互作用。最后,本調查論文與關于“用于網絡的LLMs”[17],[18]的論文有根本不同,這些論文的設計目標是利用LLMs優化邊緣網絡,而不是利用邊緣計算支持LLMs。與一些相關調查/論文的比較見表I。本論文的主要貢獻總結如下:

  • 我們展示了驅動LLMs在網絡邊緣部署的應用場景。雖然LLMs的用例在其他地方已被廣泛討論,但我們將強調基于服務要求在移動邊緣提供這些應用的必要性或好處。

  • 我們提供了第一份關于6G邊緣網絡如何促進LLM緩存和交付、訓練和推理的綜合調查,包括邊緣LLM緩存和交付、邊緣LLM訓練和邊緣LLM推理。我們將特別關注LLMs的資源高效部署,以提高LLMs在網絡邊緣的存儲、通信和計算效率。

  • 我們確定了LLMs與移動邊緣智能集成的幾個關鍵研究方向,包括綠色邊緣AI和LLMs的安全邊緣AI。

如圖1所示,調查的組織結構如下。第二節概述LLMs和MEI,第三節介紹最新的資源高效LLM技術。第四節展示了四個關鍵應用,證明在網絡邊緣部署LLMs的必要性。在第五節中,我們提出了支持LLMs在網絡邊緣部署的MEI4LLM框架。該框架包括AI原生架構、參數共享LLM緩存和交付、分布式LLM訓練/微調和分布式LLM推理。第六、七、八節分別探討了考慮存儲效率、計算效率和通信效率的高效邊緣LLM緩存和交付、邊緣LLM訓練和邊緣LLM推理技術。最后,我們在第九節概述未來研究機會,并在第十節給出結論。

II. 預備知識I:LLMs和MEI概述

**A. 大型語言模型

  1. Transformer:LLMs主要基于Transformer架構構建。Transformer [19]在自然語言處理(NLP)領域引發了顯著的范式轉變,在廣泛的語言任務中表現出色,包括文本分類[20]、機器翻譯[21]和問答系統[22]。例如,雙向編碼器表示(BERT)[23]在問答任務中取得了最先進的性能,展示了高效捕捉上下文信息的優越性。Transformer的突破不僅限于NLP,還在計算機視覺領域取得了巨大成功。Transformer模型及其變種已廣泛應用于各種圖像處理任務,如圖像識別[24]、目標檢測[25]和圖像分割[26]。例如,視覺Transformer(ViT)[24]將圖像分割為不重疊的塊,并利用Transformer編碼器提取特征,較傳統的卷積神經網絡(CNNs)具有更高的檢測準確性[27]。

Transformers的工作原理如下。與遞歸神經網絡(RNNs)中用于短期上下文和順序處理的遞歸連接不同,Transformers采用自注意力機制來全面捕捉序列元素之間復雜的依賴關系,從而學習長程關系。Transformer架構設計的核心在于編碼器-解碼器架構,由具有多頭自注意力機制的堆疊層組成。這些機制優先處理輸入序列中的不同元素,增強模型有效生成輸出令牌的能力。此外,每一層都包含前饋網絡(FFNs)和層歸一化。編碼器將輸入序列轉換為上下文豐富的表示,而解碼器利用這些表示生成輸出序列,同時考慮輸入和先前生成的令牌。

自注意力是Transformer的核心。Transformers內嵌的自注意力機制克服了RNNs固有的短期上下文限制,全面把握長程依賴關系,增強其捕捉序列中復雜關系的能力。雖然注意力模塊已廣泛用于前饋和遞歸網絡[28],[29],但Transformers完全依賴注意力機制,并采用獨特的實現方式(即多頭注意力(MHA))進行并行化優化,促進了高復雜度模型和大規模數據集的可擴展性。其他替代方法,如硬注意力[30],本質上是隨機的,這需要蒙特卡羅采樣來進行注意力位置采樣。此外,與卷積或遞歸網絡[31]-[33]相比,Transformer對問題結構的先驗知識要求最少。這一特性使其適合通過在大規模未標注數據集上的預訓練任務進行模型預訓練[19],[23],從而編碼出高度表達性和可泛化的表示。這些表示有效捕捉給定數據集中的實體關系,為后續下游任務的監督微調奠定基礎。2) LLMs:Transformer的可擴展性推動了LLMs的興起。各種LLMs基于Transformer架構構建和演變。目前,AI行業的主要參與者致力于打造他們的LLMs并將其應用于各個領域。例如,OpenAI開發了備受推崇的聊天LLM GPT-3 [34],在各種NLP任務中表現出色,如文本生成和機器翻譯。Google推出了醫療LLM Med-PaLM [35],能夠提供專家級的醫療指導和診斷。Facebook提出了創新的圖像分類LLM DEiT [36],結合自監督學習與Transformer架構,在有限標注數據下實現了種族級別的圖像分類性能。這些LLMs在互聯網上的廣泛和多樣的數據集上進行訓練[37]。

LLM架構可分為三類:僅編碼器LLMs、編碼器-解碼器LLMs和僅解碼器LLMs。僅編碼器LLMs,如ALBERT [38],僅由編碼器組件組成,通常基于高級架構如Transformer [19]。編碼器負責處理輸入序列,為每個令牌生成上下文化表示。盡管缺少用于生成輸出序列的解碼器,僅編碼器LLMs在各種NLP任務中仍表現出色,如文本分類、句子相似度計算和語言理解,因其高效的特征提取能力和可適應的表示。編碼器-解碼器LLMs,以T5模型為代表[39],在NLP領域代表了一項重要進展,在其架構中集成了編碼器和解碼器組件。編碼器處理輸入序列以生成上下文化表示,而解碼器利用這些表示生成輸出序列,通常以序列到序列的方式。編碼器-解碼器LLMs廣泛應用于機器翻譯、文本摘要和問答等任務,因其捕捉復雜語言結構和上下文依賴關系的能力。僅解碼器LLMs,以著名的GPT系列[34],[40]為代表,構成LLMs的一個重要分支。僅解碼器LLMs采用自回歸解碼,這在僅解碼器和編碼器-解碼器LLMs中廣泛使用,根據序列中的先前令牌生成輸出序列。這種架構設計使其特別適合于生成文本的任務,如語言生成、文本補全和對話響應生成。3) 多模態LLMs:由于傳統LLMs [41]-[43]主要應用于文本數據,對LLMs的單模態模型訓練限制了它們理解超越文本的其他數據類型的能力。例如,傳統的LLMs如GPT-3和BERT [23]僅依賴于文本輸入。然而,在許多現實場景中,語言理解不僅限于文本上下文,還包括視覺線索、聽覺信號和來自多種傳感器的上下文感知信息。 為解決上述問題,學術界和工業界廣泛研究了多模態LLMs的范式,如圖2所示,將文本、圖像和音頻等各種模態融合到一個統一的框架中,釋放處理多種數據類型的潛力。例如,GPT-4 [40]擅長同時處理圖像和文本輸入,在各種基準測試中展示了與人類相當的表現。在圖像描述任務中,GPT-4利用圖像和相關文本數據生成更精確和生動的描述,而在語音識別任務中,它將語音信號與文本信息結合以改進語音理解和轉換。多模態感知在追求通用AI中起著關鍵作用,因為處理復雜的現實數據需要能夠跨模態信息融合和交互學習的AI模型,從而提升多個感知領域的訓練性能。

多模態LLMs繼承了LLMs強大的學習能力,通過集成各種模態的基礎模型來賦能多樣而復雜的多模態任務。LLMs提供了強大的語言生成、零樣本遷移能力和上下文學習,而其他模態的基礎模型提供了其他數據類型的信息表示[45],[46]。由于各種模態的基礎模型分別進行預訓練,構建多模態LLMs的主要挑戰在于如何連接這些模型以實現高性能的協同訓練/推理。該領域的主要研究集中在通過多模態預訓練[47],[48]和多模態指令微調[49],[50]精煉模態對齊。多模態預訓練通過訓練模型以多模態數據集,如XText [51],學習跨模態的通用表示。在訓練過程中,模型通過優化預定義目標來關聯不同模態的信息,從而實現模態間的對齊。這種對齊增強了模型對跨模態任務的理解能力,帶來更好的性能。多模態指令微調是一種基于預訓練模型的微調方法,旨在提高模型在特定任務上的表現。它將模型與一個或多個與模態相關的任務結合,然后使用模態標注數據微調模型以提高其與模態特定任務的對齊。這使得模型能夠通過遵循新的指令來賦能未見過的任務,從而提高模型的零樣本性能和泛化能力。4) 生成性/交互性AI:LLMs的快速發展對各種應用,尤其是生成性AI(GAI)和交互性AI(IAI)產生了深遠影響。GAI專注于創建包括圖像、文本、音樂和視頻在內的廣泛內容[52],統稱為AI生成內容(AIGC)。通過利用在高質量數據集上訓練的多模態LLMs,GAI能夠根據輸入文本有效地創建優質AIGC[53]。另一方面,IAI可以視為GAI的下一個階段。IAI在聊天機器人和虛擬助手等應用中響應用戶查詢,同時通過用戶交互使AI代理能夠適應,從而不斷提高準確性[54],[55]。通過利用強大的LLMs和GAI的內容生成優勢,IAI使AI代理能夠模擬人類交互,并與用戶生成有意義和動態的對話[56],[57]。在這方面,LLMs也被視為IAI的基石,因為它們促進了復雜的交互對話。 為使AI代理能夠生成更準確和最新的響應,可以將檢索增強生成(RAG)集成到LLMs中以賦能IAI和GAI[58]。具體而言,LLMs在生成響應時使用輸入序列從外部知識源檢索相關數據,從而提高內容生成性能[59],[60]。例如,Google將RAG與Gemini結合,以增強LLMs在特定任務上生成更準確和上下文相關響應的能力[61]。將RAG集成到LLMs中的主要優勢有兩個。首先,通過連接到富含最新信息的知識源,RAG將LLMs建立在最真實、最準確和最新的內容上,減少了生成輸出中“幻覺”的可能性,并消除了頻繁適應LLMs的需要。其次,RAG使用戶能夠驗證模型響應的來源,提高了可信度[62]。5) LLMs的工業進展:LLMs在工業中取得了顯著進展,得益于深度學習算法的成熟[63]-[65]、計算能力的增加和大規模數據集的可用性。主要技術公司,包括OpenAI、Google、Microsoft和Meta,已在LLMs研究和開發方面進行了大量投資,導致了GPT系列[34],[40]和BERT [23]等著名模型的創建。這些模型在語言翻譯、文本生成、問答和情感分析等一系列NLP任務中表現出色。此外,多模態LLMs已超越其最初的NLP領域,在醫療保健、自動駕駛和智慧城市等多個行業中表現出色。例如,在醫療保健領域,Med-PaLM [35]被設計用于醫學圖像分析、臨床文檔處理和患者診斷,幫助醫療專業人員進行準確的診斷和治療決策。在自動駕駛領域,DriveMLM [66]彌合了語言決策和車輛控制命令之間的差距,使得在現實模擬器中實現閉環自動駕駛。可以看出,LLMs的普及為多個行業提供了巨大的價值。

最近在設備上LLMs的進展引起了業界的關注。例如,Meta提出了一種名為MobileLLM的設備上LLM,利用深而薄的架構、嵌入共享和分組查詢注意力機制[67]。Google引入了一種新的指令微調方法,用于構建以移動為中心的文本重寫LLM[68]。然而,與大型模型的強大LLMs相比,設備上LLMs往往表現不佳。例如,Google的Gemini Nano-1設計用于設備上部署,僅包含1.8億參數,采用4位格式,從較大的Gemini模型中提取[69]。由于其緊湊的尺寸,當這種小型LLM的能力不足以滿足邊緣設備的需求時,這些設備可能仍需要上傳數據以訪問大規模LLMs,即在邊緣服務器上。

**B. 移動邊緣智能

移動邊緣智能(MEI)作為一個將AI與移動邊緣計算相結合的有前景的范式,正在改變移動服務和應用的格局[70]-[73]。MEI的發展源于各種技術進步的融合,包括物聯網(IoT)設備的普及、移動網絡的部署和AI算法的成熟[70],[74]-[76]。這些發展使MEI能夠克服傳統云中心架構的限制,通過在網絡邊緣提供本地化的AI訓練/推理和數據處理能力。 通過集成AI和通信,MEI框架使移動網絡能夠提供超越通信的服務,為萬物智能奠定了堅實基礎。沿著這條線,“集成AI和通信”的使用案例已包含在6G的IMT框架建議中[77]。在標準化方面,電信標準化組織3GPP和ITU分別在其白皮書中描述了邊緣智能的前景。ITU-3172 [78]闡明了基于ML應用程序的延遲敏感性要求,將機器學習(ML)功能托管在網絡邊緣的必要性。在3GPP第18版5G標準化中,MEI旨在支持分布式學習算法、分裂AI/ML和高效的AI模型分發[79]。詳細信息如下。首先,邊緣學習(如聯邦學習)將在邊緣網絡中得到全面支持,這使得邊緣服務器能夠聚合來自多個分布式邊緣設備的模型更新和知識,從而提高AI/ML模型的性能。其次,通過5G邊緣網絡進行分裂AI/ML可以促進在設備上部署計算密集型、能源密集型、隱私敏感和延遲敏感的AI應用程序。例如,在邊緣分裂推理中,一個AI模型被劃分為子模型,計算密集型和能源密集型的子模型被卸載到5G邊緣服務器(例如基站)。邊緣服務器可以使用邊緣側子模型和來自邊緣設備的上傳中間數據執行推理。最后,高效的AI模型下載確保了當邊緣設備需要適應新的AI任務和環境時,AI模型可以低延遲地傳送到邊緣設備。例如,當駕駛環境發生變化時,自動駕駛車輛需要在1秒內從5G邊緣服務器下載新的AI模型。為了將基于網絡的AI算法集成到5G網絡中,MEI框架需要滿足邊緣服務器和邊緣設備之間高速和穩定數據鏈路的需求。這些鏈路可以為持續上傳中間數據/模型更新到邊緣服務器提供高且恒定的上行數據速率,并在邊緣設備需要及時下載AI模型時提供高下行數據速率。此外,MEI的核心在于利用數據源與邊緣計算設備(如智能手機、筆記本電腦和可穿戴設備)之間的接近性,在數據源附近實現智能決策。與傳統的集中式架構相比,這種分布式計算范式具有許多優勢,包括減少延遲、改善帶寬利用、保護數據隱私和增強對網絡故障的抵抗力。 在應用方面,MEI在智能醫療、自動駕駛和智慧城市等各個領域具有重要意義[80]。例如,在醫療保健領域,MEI支持實時監測患者健康數據,并在緊急情況下提供及時干預。同樣,在智慧城市中,MEI有助于智能交通管理、環境監測和能源優化,從而促進可持續發展并提高生活質量。邊緣智能還在工業中取得了顯著進展,特別是隨著邊緣計算技術的普及和5G網絡的出現。微軟、谷歌、亞馬遜和NVIDIA等領先企業開發了邊緣AI平臺,以支持實時AI服務。對于邊緣AI賦能的物聯網應用,微軟的“Azure IoT Edge”、谷歌的“Cloud IoT”、亞馬遜的“Web Services IoT”和NVIDIA的“EGX”提供了邊緣AI平臺,以在廣泛的應用中提供實時AI服務,從實時視頻分析[81]、智能家居[82]到工業物聯網[83]。

**C. MEI4LLM的經驗教訓

顯然,MEI4LLM只是MEI的一個特殊案例。然而,在邊緣訓練和部署大量LLMs的需求可以成為MEI發展的關鍵動力。一方面,下一代MEI的原則,包括推動AI和通信的全面集成,與邊緣LLMs的需求高度一致。另一方面,LLMs的極端資源需求推動了MEI的邊界。具體而言,MEI4LLM必須具備以下特征:1)原生支持模型分割和跨互聯邊緣節點的并行訓練/推理,以促進超大規模模型的部署;2)集成設計的無線網絡和資源高效的LLM訓練/推理技術,如參數高效微調和令牌(表示)縮減(將在第七節和第八節中介紹),以使LLMs的部署成本效益高。本質上,與傳統MEI相比,MEI4LLM主要關注資源管理和高效AI技術的集成設計,以在有限的通信-計算資源下支持LLMs,這將是本調查論文的重點,也是該領域的研究主題。

II. 預備知識II:資源高效LLM技術

毋庸置疑,由于LLMs的巨大規模和計算復雜性,在邊緣設備/服務器上部署LLMs進行訓練/推理面臨若干關鍵挑戰: * 過高的計算開銷:據報道,GPT-4每次前向傳遞生成一個令牌大約需要560萬億浮點運算[84]。然而,先進的A100 GPU每秒提供的計算能力僅為19.5萬億浮點運算[85]。這表明,使用單個A100 GPU進行一次前向傳遞生成一個令牌大約需要28秒。此外,反向傳播通常比前向傳遞需要更多的計算資源[86],這意味著在設備上進行訓練將更加具有挑戰性。 * 巨大的存儲/內存需求:一方面,在邊緣設備上緩存LLMs會消耗大量的存儲資源。專門設計用于設備上部署的LLMs甚至擁有數十億個參數,例如,Google的設備上Gemini Nano-2擁有32.5億個參數。另一方面,在訓練過程中使用常用的Adam優化器通常需要12倍于推理所需的內存資源[87],這對于內存有限的移動設備來說是不可接受的。這些因素表明,在邊緣設備上部署LLMs進行訓練和推理對邊緣設備的存儲和內存資源提出了嚴格要求。 * 高能耗:邊緣設備中有限的電池容量阻礙了LLMs在邊緣設備上的部署。例如,使用llama.cpp(最輕量級的設備上LLM引擎之一)在小米11智能手機上運行一個量化為INT4且具有130億參數的LLM,會導致約56焦耳/令牌的能耗[88]。這意味著如果在智能手機上部署LLM,電池容量為3000mAh且輸出電壓為3.7V的智能手機只能生成大約700個令牌。如果在邊緣設備上進行LLM訓練/微調,處理的數據量將更少。

為減輕上述挑戰,本節將回顧資源高效LLM部署的相關技術,這些技術總結如圖3所示。相關工作的比較見表II。值得注意的是,本節討論的方法可以降低在邊緣設備、邊緣服務器或設備-服務器協作中部署LLMs的復雜性。因此,這些關鍵技術構成了MEI4LLM及其后續各節的基礎。

V. MEI4LLM概述

將LLMs推向網絡邊緣是一種持續發展的趨勢,結合第四節中的關鍵應用和第三節中介紹的資源高效技術,通過在網絡邊緣部署LLMs,邊緣設備可以與邊緣服務器協作進行學習和推理,從而大大緩解邊緣設備資源的稀缺性。根據6G時代的“NET4AI”(網絡為AI服務)愿景[159],本節概述了支持LLMs部署的MEI框架,稱為MEI4LLM,如圖6所示。MEI4LLM包括以下基本組件。

**A. AI原生架構

下一代邊緣網絡將以端到端(E2E)的方式支持AI服務。6G的目標應該是在最小化通信、計算、存儲和能量需求的情況下,支持包括LLMs在內的AI,以實現卓越的性能。為此,6G常被設想為“任務導向”的架構。設計目標可以是通過在多種資源約束下實現最佳的分布式計算、特征提取和資源分配方案來最小化LLMs輸出令牌的交叉熵,而不是最大化吞吐量或最小化延遲。 要實現這一目標,網絡虛擬化對于提高資源利用率、靈活性和可管理性至關重要。遵循軟件定義網絡的設計原則,MEI4LLM特設一個中央控制器,協調網絡范圍內的計算資源和數據傳輸,實現控制和數據平面的解耦。通過收集全球網絡知識,如LLMs的準確性、各種量化級別、用戶對LLM服務的需求、信道條件、用戶電池狀態和計算資源可用性,控制器在分布式邊緣計算系統中劃分和協調模型訓練/推理和交付,跨越邊緣路由器和服務器交換中間粉碎數據(即中間激活和反向傳播梯度)、模型參數或用戶數據。 進一步,邊緣網絡將演變成“神經邊緣”[159],在此處,神經網絡層在邊緣節點之間分布進行協同計算。類似于云數據中心中的許多GPU支持大規模LLMs,MEI4LLM必須具有靈活和模型分割的特點,以便在分布式邊緣設備和服務器之間進行訓練和推理。空中接口和網絡設計應本地支持聯邦學習、分裂學習和分裂推理等AI模型,包括LLMs。由于模型訓練和推理對數據包錯誤具有魯棒性,任務導向的無線傳輸,例如在切割層的粉碎數據,可以通過適當的錯誤控制進行,以實現最佳的效率-可靠性權衡。大規模模型的最佳模型分割、放置和數據路由應在邊緣網絡上協同支持。 最后,可以實施信息中心網絡,以確保在邊緣網絡上無縫傳輸模型、特征和數據,從而實現LLMs的高效交付。在這方面,MEI4LLM應支持LLM參數塊命名和基于名稱的傳輸協議。通過為每個LLM參數塊分配名稱,MEI4LLM架構中的中央控制器可以將參數請求轉發到其緩存的位置,從而減少跨網絡和到最終用戶的大規模模型交付的延遲和帶寬消耗。

**B. 參數共享的LLM緩存和交付

考慮到邊緣設備的有限存儲容量和頻繁的模型微調,LLMs應在邊緣網絡內從其位置快速交付到需要的地方。此外,考慮到RAG,外部知識源也應緩存于網絡邊緣,以確保在需要LLM應用時及時獲取數據/知識。模型/數據交付可以通過有線回程或無線接入網絡進行。LLMs的緩存和交付必須利用參數塊可以在各種下游LLMs之間共享[112],[160],甚至在同一LLM內重用[38]的事實。這一獨特特性使得通過減少重復LLM參數塊的緩存和交付成本,實現高效的邊緣LLM緩存和低延遲LLM交付,正如我們將在第六節中展示的那樣。為了實現快速模型交付,MEI4LLM可以構建一個查找表,為LLM參數塊分配名稱以便于內容搜索和管理,遵循信息中心網絡的原則。通過這樣做,MEI4LLM范式將LLMs放置在適當的位置,從附近的邊緣服務器檢索所需的LLMs,并實現LLM參數塊到移動用戶的路由/多播。

**C. 分布式LLM訓練(微調)

可以預見,6G MEI系統可以高效地微調LLMs以適應本地環境。邊緣LLM微調可以在推理精度下降或當地環境變化后一段時間觸發。例如,LLM賦能的虛擬助手應定期進行微調,以更好地適應新聞媒體中的新趨勢、當地頂級餐館和熱門景點,從而改善決策和與用戶的互動。LLM賦能的移動健康應用應個性化,以提供更好的預測和健康或健身建議。 在下一代移動網絡中,邊緣LLM訓練必須回答兩個問題:1)如何保護用戶隱私和數據所有權,2)如何通過邊緣節點的協作支持大規模模型訓練。為了增強用戶數據隱私,聯邦學習(FL)和分裂學習(SL)是兩種在網絡邊緣實現的有前途的分布式學習框架。具體而言,FL允許邊緣設備在本地訓練模型,僅與邊緣服務器共享模型參數以進行聚合,從而在不共享個人數據的情況下利用集體智慧。或者,可以實施SL及其變體分裂聯邦學習(SFL),以啟用設備-服務器協同訓練而不共享本地原始數據,這特別適用于邊緣設備的大規模LLM微調[161],因為模型分割允許在不同的邊緣節點之間進行工作負載平衡。為了有效支持密集的訓練,可以將第III節中詳述的各種資源高效訓練技術與FL或SL結合。這些討論將在第七節中提供。

**D. 分布式LLM推理

為了適應資源密集型的LLMs,邊緣服務器和邊緣設備必須根據通信-計算工作負載和隱私需求協調一致地進行分布式推理。邊緣推理有不同的方式。服務器上的推理需要用戶上傳原始數據到服務器。這種方法消除了邊緣設備上的計算負擔,但可能會侵犯用戶的隱私需求。例如,多模態LLMs可能會在家庭環境中收集敏感的音頻和視頻數據,用戶通常不愿分享。相反,設備上的推理保護隱私并消除了通信成本,但對邊緣設備施加了密集的計算工作負荷。分裂推理是一種關鍵的AI推理框架,在3GPP 5G技術規范中[79]被廣泛應用,邊緣設備和服務器持有部分AI模型。分裂推理涉及從邊緣設備上傳特征到邊緣服務器進行共同推理。 為了促進LLM推理,MEI4LLM可以根據通信-計算資源狀態和隱私需求,通過適當選擇這些方案來定制消費者服務,如第八節詳細說明的那樣。

付費5元查看完整內容

隨著軟件系統變得日益復雜,IT運維的人工智能(AIOps)方法已廣泛應用于軟件系統故障管理,以確保大規模分布式軟件系統的高可用性和可靠性。然而,這些方法仍面臨諸多挑戰,例如缺乏跨平臺的通用性和跨任務的靈活性。幸運的是,近年來大型語言模型(LLMs)的進展可以顯著解決這些挑戰,已經有許多方法被提出以探索這一領域。然而,目前尚無全面綜述討論基于LLM的AIOps與傳統AIOps方法之間的差異。因此,本文對LLM時代的故障管理AIOps技術進行了全面綜述。內容包括AIOps故障管理任務的詳細定義、AIOps的數據源以及用于AIOps的LLM方法。此外,該綜述還探討了AIOps子任務、適用于不同AIOps子任務的具體LLM方法,以及該領域的挑戰和未來發展方向,旨在推動其發展和應用。

1 引言

如今,軟件系統變得日益復雜。這些系統通常為數以億計的用戶提供服務,即使是輕微的軟件故障也會因服務中斷或服務質量下降而導致重大損失。因此,大規模分布式軟件系統需要確保24/7不間斷服務,具備高可用性和可靠性。然而,由于其龐大的規模和復雜的操作邏輯,這些軟件系統經常會遇到難以檢測、定位和診斷的故障。一旦發生故障,分析和調試系統錯誤變得更加困難。因此,提高故障診斷效率,快速識別系統故障,定位根本原因,并及時修復它們,對于確保大規模分布式軟件系統的高可用性和可靠性至關重要。 隨著人工智能(AI)的發展,Gartner在2016年首次提出了IT運維的人工智能(AIOps)[103]。AIOps利用機器學習(ML)或深度學習(DL)算法分析來自各種操作工具和設備的大量數據,實時自動檢測和響應系統問題,從而增強了信息技術(IT)運維的能力和自動化水平。因此,AIOps故障管理(FM)已成為確保軟件系統高可用性和可靠性的主流方法。

1.1 為什么LLMs對AIOps故障管理有益?

盡管上述基于ML或DL的AIOps故障管理方法在軟件系統運維方面有了顯著的幫助,但它們仍面臨以下幾個挑戰:

需要復雜的特征提取工程:這些AIOps方法通常需要廣泛的預處理和特征工程從原始數據中提取有用信息。它們在理解和處理數據方面能力有限,特別是在處理日志和追蹤等非結構化數據時,表現相對較弱。

缺乏跨平臺通用性:傳統AIOps模型通常專門為特定的軟件系統進行調優和訓練。一旦采用不同的軟件系統,甚至對原系統進行微小的更改,模型的性能會顯著下降,即使執行相同的任務也是如此。

缺乏跨任務靈活性:由于模型知識和輸出的單一性,AIOps模型一次只能執行一個任務。例如,在根本原因分析(RCA)任務中,一些工作旨在識別問題的原因[79, 119, 141],而其他工作則集中在識別涉及的軟件組件[50, 93, 126]。在實際場景中,必須同時運行多個模型才能完成整個RCA任務。

模型適應性有限:隨著軟件系統的變化,基于深度學習的AIOps方法通常需要頻繁的模型訓練和更新以適應新的數據和環境。雖然有許多在線學習方法[1, 42, 72, 86]可用于解決這個問題,但這一過程不僅耗費時間和精力,還可能導致模型在處理突發事件時響應延遲。

自動化水平受限:當前基于深度學習的AIOps方法在自動化操作和智能決策方面表現出相對有限的能力。雖然某種程度的自動化是可實現的,但仍需要大量的人工干預和配置。特別是在自動修復方面,目前的努力主要停留在事件分診[114, 142]或解決方案推薦[78, 127, 158]。

預訓練于自然語言理解任務的大型語言模型(LLMs)為解決這些限制提供了一個有前途的途徑。(1) 由于其強大的自然語言處理能力,LLMs可以有效處理和理解非結構化數據,往往無需先前的特征提取。(2) 基于大量跨平臺數據進行訓練,LLMs具備很強的通用性和邏輯推理能力。(3) 由于輸出自然語言,LLMs提供了很大的靈活性,使其能夠同時執行多個AIOps任務,例如識別問題的原因和涉及的軟件組件。(4) 利用其預訓練,LLMs展示了強大的適應能力,并且可以通過檢索增強生成(RAG)等方法不斷吸收外部更新的知識,通常無需重新訓練。(5) 由于其強大的腳本生成能力和自動調用外部工具的能力,LLMs可以實現更高水平的自動化。

1.2 為什么需要在LLMs時代對AIOps故障管理進行綜述?

眾多文獻綜述總結了AIOps的研究。這些工作要么基于傳統的機器學習或深度學習算法,而不使用基于LLM的方法[19, 97, 107, 131],要么沒有對AIOps故障管理全過程中的所有任務進行系統總結[118]。一些綜述甚至可能沒有專門關注AIOps領域內的故障管理[23, 30, 151]。

總而言之,針對LLM時代AIOps故障管理的綜合研究是缺乏的。然而,如1.1節所示,基于LLM的方法為AIOps任務提供了顯著的優勢。在本研究中,我們提出了第一個全面的綜述,涵蓋了大型語言模型背景下AIOps故障管理的整個過程。本綜述包括AIOps故障管理任務的詳細定義、AIOps的數據源以及用于AIOps的LLM方法。此外,我們深入探討了AIOps子任務及其適用于不同AIOps子任務的具體LLM方法。此綜述旨在為研究人員提供對LLM方法在AIOps中的深入理解,促進不同方法之間的比較和對比。同時,它也為有興趣應用基于LLM的AIOps方法的用戶提供指導,幫助他們在不同應用場景中選擇合適的算法。

**本綜述的組織結構

本綜述的結構如下:第2節介紹了必要的基礎知識,包括AIOps任務的數據源、AIOps的LLM方法及故障管理的AIOps任務。第3至第6節根據AIOps任務的具體分類,詳細描述了LLM時代四類AIOps任務的新特征和方法:數據預處理、故障感知、根本原因分析和自動修復。第7節探討了基于LLM的AIOps在故障管理中的持續挑戰和潛在的未來研究方向。第8節對本綜述進行總結。

付費5元查看完整內容

近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。

我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。

大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。

人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:

  • 反饋來源:偏好反饋的質量和規模對于人類偏好學習至關重要,而反饋收集的來源可以極大地影響它們。最近的人類偏好學習方法不僅從人類那里收集偏好反饋,還從模擬人類的方式中收集,探索高質量和大規模之間的平衡。
  • 反饋形式:偏好反饋的形式決定了其信息密度和收集難度,從而也影響了偏好反饋的質量和規模。人類偏好學習工作中采用的反饋形式大致包括自然適合偏好表達但信息量較少的相對關系,以及更能反映人類偏好的絕對屬性,但更難收集。不同形式的結合可以進一步增加偏好反饋的信息密度。
  • 偏好建模:偏好建模旨在從偏好反饋中獲得偏好模型,提供可推廣和直接可用的人類偏好信號以對齊LLMs。各種偏好建模方法專注于獲取具有數值輸出的偏好模型。一些工作還探索了具有自然語言輸出的偏好建模方法。除了明確獲得任何偏好模型外,另一類研究通過直接使用反饋數據作為偏好信號來隱式建模人類偏好,以間接偏好建模目標對齊LLMs或利用對齊的LLMs提供偏好信號。
  • 偏好使用:偏好使用是根據偏好信號的指導調整基礎LLMs的階段,使LLMs與人類意圖對齊。根據偏好信號使用的具體目標,最近的方法可以分為四大類:基于人類反饋的強化學習(RLHF),最大化LLM輸出的總體預期獎勵分數;在首選輸出上的監督微調(SFT),最大化人類偏好輸出樣本的生成概率;偏好引導的對比學習,增加更偏好的輸出的生成概率,同時減少不太偏好的輸出的生成概率;以及偏好條件的微調和生成,最大化由相應偏好信號條件生成的輸出的生成概率。
  • 評估:最后,全面評估LLMs的遵循人類意圖的能力對于驗證人類偏好學習的有效性至關重要。現行的評估協議分為三類:開放形式基準,評估LLMs對多樣化指令響應的人類偏好而不提供標準答案;自動評估,在具有標準標簽的一組任務上使用自動指標評估LLMs;以及定性分析,直接檢查對一些代表性指令的每個響應。 值得注意的是,本綜述涵蓋了雖然不是特定于LLMs但可用于對齊LLMs的人類偏好學習研究工作,從經典強化學習等領域提供見解。我們進一步總結了近期在對齊LLMs與人類意圖方面取得的關鍵進展,并討論了當前未解決的挑戰和未來研究的可能前景,包括多元化人類偏好學習、可擴展的LLMs對齊監督、語言無關的LLM對齊、多模態互補對齊、LLM對齊進展的全面評估以及對欺騙性對齊的實證研究。我們希望這篇綜述能幫助研究人員發現人類偏好在LLM對齊中的運作機制,通過對前沿研究工作的回顧,啟發他們在對齊LLMs和其他AI系統方面實現與人類意圖的對齊。

本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。

付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容
北京阿比特科技有限公司