亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLM)的出現極大地革新了網頁搜索。 基于 LLM 的搜索智能體的興起,標志著信息檢索向更深層次、更動態、更自主化方向的關鍵轉變。這類智能體能夠理解用戶意圖和環境上下文,并通過動態規劃執行多輪檢索,將搜索能力擴展到遠超傳統網頁搜索的范圍。 以 OpenAI 的 Deep Research 為代表的前沿案例,凸顯了它們在深度信息挖掘和真實世界應用中的巨大潛力。 本文首次對搜索智能體進行了系統性分析,從體系結構、優化方法、應用場景和評測方式四個維度,對現有研究進行了全面的分析與分類,最終識別出該領域中的關鍵開放挑戰,并提出了有前景的未來研究方向。 我們的資料庫可在以下地址獲取://github.com/YunjiaXi/Awesome-Search-Agent-Papers。

1 引言

**

**

大型語言模型(LLM)的出現,開啟了自然語言處理的新紀元,并從根本上改變了包括網頁搜索在內的眾多領域(Wang et al., 2024b; Zhao et al., 2023; Hadi et al., 2023; Xi et al., 2025c; Lin et al., 2025a, 2024; Xi et al., 2025b, 2024a)。如圖 1 所示,傳統網頁搜索需要用戶在結果列表中手動篩選和整合相關信息(Lin et al., 2021; Dai et al., 2021; Fu et al., 2023)。隨著 LLM 的興起,出現了LLM 增強搜索這一新范式,其中 LLM 會改寫用戶查詢以提升搜索準確性(Ma et al., 2023b; Liu and Mozafari, 2024; Xi et al., 2024b),或對搜索結果進行摘要以加快理解過程,即傳統的檢索增強生成(RAG)(Gao et al., 2023; Fan et al., 2024)。然而,這種集成方式往往是靜態的,因為 LLM 依賴于單輪或基于規則的迭代搜索,難以有效處理復雜且動態變化的上下文。

LLM 智能體的出現帶來了關鍵轉變,催生了搜索智能體(Zhang et al., 2024b)。借助自主性,搜索智能體能夠掌控整個搜索流程,更有效地利用上下文進行自適應推理與動態檢索。在這一范式中,搜索成為一種主動行為,不再局限于網頁,而是擴展到更廣泛的信息源,例如私有數據庫以及智能體內部的經驗。具體而言,搜索智能體可定義為:一種能夠理解用戶意圖與環境上下文、自動規劃搜索策略、從多樣化來源執行多輪動態檢索,并整合信息以提供全面洞見的 LLM 智能體。業界領先的解決方案,如 OpenAI 的 Deep Research(OpenAI, 2025)、Gemini(Gemini, 2025)以及 Perplexity(Perplexity, 2025),充分展示了搜索智能體在深度信息挖掘與商業化方面的潛力。

鑒于這些快速發展,本文從多個視角對搜索智能體進行首次系統性綜述,圍繞如何搜索如何優化如何應用以及如何評測四個維度展開分析。與近期僅聚焦于特定子領域或單一視角的綜述不同,例如強調從大量信息檢索生成專業報告的 Deep Research(Xu and Peng, 2025; Huang et al., 2025b)或關注推理與 RAG 結合的研究(Liang et al., 2025; Gao et al., 2025),我們的工作全面剖析了搜索智能體的全流程,包括其搜索結構、優化方法、應用場景、評測體系及面臨的挑戰,并對各部分的代表性工作與發展趨勢進行了深入分析。

本文結構如下:第 2 節介紹搜索智能體的任務定義;第 3 節“如何搜索”探討智能體如何擴展搜索輪次并利用復雜的搜索結構(如并行、順序與混合)來確定查詢內容;第 4 節“如何優化”討論搜索智能體的多種優化方法,包括調參與無調參手段;第 5 節“如何應用”闡述搜索智能體的廣泛應用領域,涵蓋智能體內部增強(如推理、記憶與工具使用)與外部應用(如數學、醫學與金融);第 6 節“如何評測”介紹搜索智能體的評測方法,包括相關數據集與指標;最后,第 7 節總結當前的挑戰并展望未來的研究方向。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

**預訓練生成模型,尤其是大語言模型(LLMs),為用戶與計算機的交互提供了全新的方式。**盡管早期的自然語言生成(NLP)研究和應用主要集中在特定領域或特定任務上,但當前的大語言模型及其應用(如對話系統、智能體)在多任務和多領域之間表現出廣泛的通用性。盡管這些模型在訓練階段被設計為有幫助、符合人類偏好(例如無害性),但對其施加強健的“護欄”仍是一個具有挑戰性的問題。即使已經防范了基礎的攻擊方式,像其他復雜軟件系統一樣,LLMs 仍可能面臨利用精巧對抗性輸入發起攻擊的風險。 本教程全面介紹了為大語言模型開發的關鍵“護欄”機制,同時涵蓋了評估方法論和詳盡的安全評估協議——包括對 LLM 驅動應用的自動紅隊測試(auto red-teaming)。我們的目標是超越對單一提示攻擊(prompt attack)和評估框架的討論,轉而聚焦于如何在復雜對話系統中實施護欄策略,尤其是在這些系統中嵌入了 LLM。 我們致力于提供一份關于大語言模型在生產環境中部署風險的前沿且全面的綜述。盡管主要關注如何有效防御安全性與可信性威脅,我們也討論了一個較新的方向:如何在對話和話題層面施加引導,包括遵守自定義策略。此外,我們還分析了由 LLM 支持的對話系統所引入的新型攻擊向量,例如規避對話引導的方法等。

付費5元查看完整內容

大型語言模型(LLMs)已在多種任務中展現出卓越的能力,但其本質仍是靜態的,無法將其內部參數自適應地調整以應對新任務、演化的知識領域或動態的交互環境。隨著LLMs越來越多地部署于開放式、交互式環境中,這種靜態特性已成為關鍵瓶頸,迫切需要能夠實時進行自適應推理、行動與進化的智能體。這種范式的轉變——從擴展靜態模型到發展自我進化的智能體——引發了人們對能夠從數據、交互與經驗中持續學習和適應的架構與方法的廣泛關注。 本文首次系統而全面地回顧了自我進化智能體這一研究方向,圍繞三個基礎維度構建了該領域的整體框架:進化什么、何時進化、以及如何進化。我們考察了智能體各組成部分(如模型、記憶、工具、架構)中的進化機制,按照時間階段(如測試時內部適應、測試之間的適應)對適應方法進行分類,并分析了指導進化式適應的算法與架構設計(如標量獎勵、文本反饋、單智能體與多智能體系統)。此外,我們還整理了面向自我進化智能體的評估指標與基準任務,重點介紹了該范式在編程、教育與醫療等領域的應用,并指出了其在安全性、可擴展性與共進化動態方面所面臨的關鍵挑戰與未來研究方向。 通過提供一個結構化的理解與設計框架,本綜述為推動自適應、穩健且多樣化的智能體系統在學術研究與實際應用中的發展奠定了基礎,并最終為實現人工超級智能(ASI)鋪平道路——在那一目標中,智能體能夠自主進化,在廣泛任務上實現或超越人類水平的智能表現。 地址:

//arxiv.org/pdf/2507.21046

1 引言

“存活下來的物種,并不是最聰明的,也不是最強壯的,而是最能適應環境變化的物種。” —— 查爾斯·達爾文 大型語言模型(LLMs)已在廣泛任務中展現出卓越的能力。然而,它們本質上仍是靜態的【1】,在面對新任務、演化中的知識領域或動態的交互上下文時,無法調整其內部參數以適應環境。隨著LLMs越來越多地被部署到開放式、交互式環境中,這一局限正日益成為關鍵瓶頸。在這些場景中,傳統的知識檢索機制往往無法滿足需求,由此催生了能夠實時動態適應其感知、推理與行為的智能體。對動態、持續適應能力的迫切需求,標志著人工智能領域正在經歷一場概念上的轉變:從擴展靜態模型轉向構建自我進化智能體(self-evolving agents)。這類智能體能夠從實時數據、交互和經驗中不斷學習,從而打造出更加穩健、多樣化且具備應對復雜動態現實世界問題能力的系統【2】。這一范式的變革正在推動我們走向一條充滿前景與變革潛力的發展路徑——通往人工超級智能(ASI):屆時,智能體不僅能以不可預測的速度從經驗中學習與進化,還能在廣泛任務中展現出媲美甚至超越人類的智能水平【3】。 與靜態的LLMs無法適應新穎且不斷變化的上下文不同,自我進化智能體旨在通過從真實世界反饋中持續學習來克服這些局限。這一發展進程正在重塑我們對“智能體”的理解。作為一個核心概念,自我進化智能體將成為通往人工超級智能的先驅,作為中介推動智能的終極演化,如圖1所示。近期的研究不斷聚焦于構建具備持續學習與適應能力的智能體架構,包括最新的智能體框架【4】、提示工程策略【5】及多種進化優化方式。盡管已有一定進展,現有綜述大多僅將智能體的進化機制作為完整智能體系統中的次要組成部分進行討論。過去的綜述主要提供了面向通用智能體發展的系統性回顧,而對于自我進化機制在受限場景中的具體實現探討仍然有限【1, 6】。例如,Luo等人【1】討論了諸如自我學習與多智能體共進化等多種進化方式,而Liu等人【6】則從工具與提示等不同組件的角度出發,介紹了進化機制。此外,也有部分研究專注于語言模型本身的演化過程【7】,但尚未有系統性的綜述專門聚焦于自我進化智能體作為一個獨立且重要的研究范式。這一缺口使得多個基礎性問題仍有待深入探討: —— 智能體的哪些方面應當進化? —— 進化應在何時發生? —— 又應如何在實踐中實現進化? 據我們所知,本文是首個專注于自我進化智能體的系統性、全面性綜述,旨在為理論研究與實踐部署提供清晰的發展路線。我們圍繞“進化什么、何時進化、如何進化”三個核心問題,構建了一個結構化的分析框架來深入理解該領域。具體來說: * 我們系統性地考察了智能體的各個組成部分,包括模型、記憶、工具及其工作流,分析了其各自的進化機制(第3節:進化什么); * 接著,我們按照時間維度將現有的進化方法進行劃分,并結合不同學習范式(如監督微調、強化學習與推理時進化)進行歸類(第4節:何時進化); * 然后,我們總結了指導智能體進化的多種信號來源(如文本反饋、標量獎勵),以及可實現進化的架構(如單智能體與多智能體系統)(第5節:如何進化); * 此外,我們還回顧了當前用于評估自我進化智能體的指標與基準任務,強調了評估機制與智能體共進化的重要性(第6節); * 并進一步探討了該范式在代碼生成、教育、醫療等領域的關鍵應用(第7節); * 最后,我們識別出當前面臨的關鍵挑戰,并提出了具有前景的研究方向,以推動自我進化智能體的發展(第8節)。

通過沿著這些相互獨立但相輔相成的維度,對自我進化過程進行系統性拆解,本文提供了一個結構化且具實踐指導意義的框架,幫助研究者更系統地分析、比較并設計更加穩健且具適應性的智能體系統。我們的主要貢獻如下: * 我們建立了一個統一的理論框架,以“進化什么、如何進化、何時進化”三個基本維度為核心,刻畫了智能體系統中的自我進化過程,并為未來自我進化智能體的系統設計提供了明確的指導。 * 我們進一步探討了適用于自我進化智能體的評估基準與環境,強調了與適應性、穩健性及現實世界復雜性相關的新興指標與挑戰。 * 我們展示了多個現實世界中的關鍵應用案例,涵蓋自動化軟件開發、個性化教育、醫療健康與智能虛擬助手等領域,驗證了自我進化智能體的實踐潛力。 * 我們明確了若干關鍵的開放性挑戰與未來研究方向,重點強調了安全性、個性化、多智能體共進化與系統可擴展性等方面。

綜上所述,本文旨在為研究人員與從業者提供一個更為系統的分類框架,用以理解、比較并推進自我進化智能體在不同視角下的研究。隨著基于LLM的智能體逐步進入關鍵任務應用場景,深入理解其進化動態已成為不可忽視的需求,其意義不僅限于學術研究,更關系到工業部署、監管制定以及更廣泛的社會影響。

付費5元查看完整內容

神經網絡的端到端優化帶來了人工智能的巨大進展,這些進展有望顛覆我們生活的許多方面。與此同時,端到端的工程方法有助于確保這些人工智能系統保持在用戶和開發者的控制之下。設計目標和威脅模型為基準和指標提供了依據,這些又反過來影響訓練目標和數據,進而影響神經架構和算法。我將討論這一方法的多種實際方法和考慮因素,包括多模態的優勢、評估基于規則的行為、確保廣泛能力模型的挑戰、構建穩健的控制通道和保障措施等內容。 在過去幾年中,人工智能領域已從一個僅僅是令人興奮且充滿潛力的研究領域,發展成了世界上最強大技術公司之間的國際軍備競賽。其資源已增長到天文數字,目前由OpenAI和軟銀宣布的價值5000億美元的數據中心基礎設施合資企業為這一領域設定了新的高點。 我在GPT-3發布幾個月后開始研究生學習,當時關于大型語言模型(LLM)是否能為現實世界帶來經濟價值仍是一個公開的辯論話題。OpenAI的GPT-3 API在當時對除了像Harvey和Jasper這樣的一小部分冒險創業公司外,幾乎對所有人來說只是學術興趣的對象。而今天,辯論的焦點已經轉移到是否任何有經濟價值的勞動在不久的將來將不會被人工智能自動化的問題上。 許多領先的人工智能研究人員認為,由自主AI系統完全取代人類是一種嚴肅的可能性。Geoffrey Hinton甚至預測,未來30年內AI導致人類滅絕的概率為10%到20%。與此同時,許多領域內的人仍然對從狹窄、封閉的基準測試中推斷出來的戲劇性結論持深刻懷疑態度。Yann LeCun自信地宣稱,LLM是“通往人類水平AI的繞行路”,并將有關存在性風險的討論斥為“AI末日主義”。然而,盡管存在如此廣泛的意見分歧,LeCun和Hinton都呼吁在人工智能系統中構建防護欄和更強的可控性,全球各國政府也已成立顧問機構,以跟蹤先進AI的風險和后果。 事實上,雖然很少有人能就確切的預測和政策建議達成一致,但許多人共享建立可信賴AI系統的目標。 當前的AI系統在許多方面仍然存在不足之處,例如決策的可解釋性,或者它們與人類價值觀的一致性。許多問題是社會技術問題,我們甚至尚未達成明確的目標共識。但可信賴性另一個關鍵方面,即AI系統的安全性和可控性,包含了令人興奮且定義清晰的技術問題。圍繞這些問題,研究社區已經識別出了許多有前景的進展方向。通過解決這些問題,我們將能更好地為管理更強大的未來AI系統做好準備,并實現理想的社會和經濟成果。

1.1 安全性與可控性

構建一個可控的AI系統意味著什么?在我看來,主要有三個標準。一個可控的AI系統應當: 1. 遵循用戶指定的目標和提供的上下文 1. 在合理條件下具有穩健的泛化能力 1. 抵抗對其目標進行劫持的企圖

與LLM的早期階段相比,人工智能領域在這些標準上取得了顯著進展,但同時仍有許多工作待完成。

**目標與上下文

用戶可能會指定一些非正式的高層次目標,或是精確的低層次目標。這里所說的“用戶”是廣義的,包括最終消費者、第三方應用開發者和初期研究者。在用戶的明確指示不足時,系統應當依賴相關上下文,例如與用戶的先前互動,來推斷出正確的行動方案。 如今,許多系統在理解明確指令方面做得相當不錯,但在適當整合大量上下文信息方面仍有很長的路要走。當前聊天機器人的“記憶”功能主要依賴關鍵詞或嵌入式搜索,這種方法可能會忽視間接相關的上下文信息,例如隱性偏好或獨特的術語。

**穩健的泛化

一個條件集是否合理,取決于系統設計者構建系統的意圖以及用戶對這些意圖的理解。例如,自動駕駛車輛需要應對各種可能的駕駛條件,聊天機器人必須在長時間、多輪對話中保持連貫性。 AI系統龐大的訓練語料庫賦予了它們在訓練分布內進行泛化的能力,但我們仍然看到在訓練中沒有很好表示的條件下,性能表現極為不均。對于某些應用,確實可以“讓全世界都包含在分布內”,即收集一個涵蓋所有可能部署設置的訓練數據集。但對于許多復雜領域,這種強行推進的方法是不可行的。

**抵抗劫持

未經授權的方可能會試圖修改系統的原始目標,方法包括覆蓋明確的指令或在上下文窗口中插入惡意內容,從而將模型的行為引導向不同的目標。在LLM之前,對抗性機器學習研究主要集中在計算機視覺模型或自動駕駛應用上。研究人員提出了許多不同的攻擊方法,其中許多假設了不切實際的威脅模型,比如攻擊者擁有模型架構和權重的全部知識,但現實中有效的攻擊也廣泛存在于文獻中。研究界的共識是,這方面的工作迄今未能提供有意義的解決方案。 今天,模型提供商通常會將行為限制訓練到模型中,以防生成違反使用政策的內容。然而,這些防護欄往往容易通過“AI越獄”被繞過。雖然新發布的模型現在對常見的越獄攻擊具有更強的抗性,但紅隊競賽表明,任何模型都無法完全抵抗決心強烈的攻擊者。隨著我們繼續為AI系統引入額外的能力,如多語言和視覺識別,可能的攻擊數量呈組合式增長。 本論文的第一章《自監督與語言-圖像預訓練的結合(SLIP)》源于我在與Meta的FAIR研究小組合作期間進行的一系列復制實驗。我們沿襲了OpenAI的CLIP項目的做法,這是一個真正具有突破性的項目,發布于2021年,它將計算機視覺領域引入了網頁規模的數據策劃和預訓練,成為了當前所有視覺和語言模型的第一個共同祖先,包括像DALL-E和Stable Diffusion這樣的文本到圖像模型,以及像GPT-4和Gemini這樣的多模態LLM。在對一部分公開數據進行的小規模實驗中,我們發現,將自監督學習與圖像和標題對比學習相結合,能夠在不同的評估環境和視覺識別任務中,顯著提高圖像表示質量。后來的視覺和語言預訓練方法增加了越來越多的訓練目標,這一趨勢我們雖然無法聲稱是我們開創的,但無疑是我們在早期階段就識別出來的。 在展示這項工作時,我結識了Waymo的應用研究團隊,并在一次夏季研究實習中繼續沿著這個方向深入,探索如何將SLIP等預訓練的視覺表示應用于自動駕駛汽車。第二章《MoST:用于運動預測的多模態場景標記化》呈現了這項研究的成果,我們在其中解決了預測附近道路使用者(如其他汽車、騎行者、行人等)的運動軌跡的問題,這是Waymo在其汽車中部署的模塊化自動駕駛架構的關鍵組成部分。通過將豐富的高維圖像和點云特征與之前運動預測模型所依賴的符號化對象和場景表示結合,我們能夠提高模型預測的準確性和穩健性。如今,Waymo的汽車在路上使用的更先進版本的這種方法,將許多傳感器和感知信號引入了上下文中。 此時,預訓練的規模已遠遠超過了即使是裝備精良的學術研究小組在行業中的資源,我決定在LLM領域探索新的方向。在最初的GPT-4 API發布中,隱藏著一個很少使用的請求參數,叫做“系統消息”,用于向模型傳達更高優先級的指令。我意識到,如果應用開發人員要實際使用這個功能來定制LLM以適應他們的特定用例,那么模型必須可靠地遵守系統消息中指定的任何規則,即使這些規則與用戶指令相沖突。第三章《LLM能遵循簡單規則嗎?》中,我開發了一個評估方法,用于衡量LLM在像玩石頭剪子布這樣的簡單交互場景中,遵循可驗證規則的能力。我們的研究表明,各種簡單而巧妙的用戶消息都能說服即使是最強大的模型違反原始規則。當時,只有一小部分LLM支持系統消息或指令,但即便如此,這些模型也無法始終如一地遵循我們的規則。一年后,幾乎所有模型都聲稱支持系統消息或指令,并且系統提示已成為“編程”LLM應用程序的普遍認可方法。然而,研究界仍然缺乏對系統提示在滿足開發人員和用戶期望的所有角色中的可靠性進行全面評估的方法。在《系統提示魯棒性深入分析》中,我們整理了一個評估套件,衡量系統提示在不同設置中的可靠性。例如,我們設計了一個評估,包含多輪對話,模型需要處理不同數量的需求,如裝飾名字或為場景描述添加特定的修飾語。我們還建立了對不同系統提示、沖突的用戶消息、對抗性攻擊、干擾性無關輸入以及代理工具調用應用程序的系統提示魯棒性評估。我們的結果表明,盡管最大的最新模型能夠更加可靠地遵循系統提示,但它們仍然未能達到傳統編程語言所能提供的可靠性水平。最后,我們還從一組第三方系統提示中收集了演示和偏好數據集,這些提示來自于各種在線來源。我們對這些數據集進行微調,能夠顯著提高模型對系統提示的遵守能力,證明了更系統化的數據收集能夠顯著提高模型表現,甚至超過了用于開發像Qwen和LLama這樣的模型的復雜后期訓練方法。

付費5元查看完整內容

在過去的幾十年里,人工智能(AI)在“特定能力”(即封閉世界,如人工環境或特定現實任務)上取得了諸多成功。這種定義明確的狹窄能力帶來了兩個顯著優勢:一是有清晰的成功標準,二是有機會收集大量示例數據。成功標準不僅可以判斷機器是否完成了目標,還能揭示機器未達成目標的具體原因。因此,人類設計者可以逐一修復問題,直到機器在特定任務上表現得足夠好。進一步來說,大量收集的示例數據也降低了修復問題的難度(依據中心極限定理)。

那么,封閉世界中的成功能否遷移到廣闊的開放世界呢?在開放世界中,機器需要以更少的示例和更少的人類先驗知識(如圖靈測試所要求)完成任何人類可能執行的任務。答案是否定的。因為在特定任務中獲得的能力對處理其他任務幾乎沒有幫助,針對特定任務制定的有價值標準在面對更廣泛、未知的任務時也無能為力。此外,由于在未知任務中缺乏充足的示例數據,中心極限定理無法為我們提供支持。最終,人類設計者也失去了“調試儀”,無法通過不斷修補來“破解”開放世界中的 AI 系統。 要實現面向開放世界的 AI,需要不同于構建封閉世界 AI 的獨特學習原則和創新技術。本論文探索了構建開放世界 AI 所需的重要學習原則,包括豐富特征(類比為一套龐大的工具箱)、解耦表示(類比為一套井然有序的工具箱)以及推理時學習(類比為一只靈活運用工具的手)。在這些學習原則的指導下,論文進一步提出了利用這些原則的創新方法,并進行了大量大規模實驗以驗證這些學習原則的有效性。 關鍵詞—— 開放世界 AI、豐富特征、預測性解耦、推理時學習、分布外問題、上下文學習、基于記憶的模型、記憶拼圖(v2)。

付費5元查看完整內容

機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。

本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

自個人計算設備問世以來,智能個人助理(IPAs)已成為研究人員和工程師關注的關鍵技術之一,旨在幫助用戶高效獲取信息、執行任務,并為用戶提供更智能、便利和豐富的交互體驗。隨著智能手機和物聯網的發展,計算和傳感設備已無處不在,極大地擴展了智能個人助理的功能邊界。然而,由于缺乏用戶意圖理解、任務規劃、工具使用、個人數據管理等能力,現有的智能個人助理在實用性和可擴展性方面仍然有限。 近年來,以大型語言模型(LLMs)為代表的基礎模型的出現為智能個人助理的發展帶來了新機遇。憑借強大的語義理解和推理能力,LLM可以使智能體自主解決復雜問題。在這篇論文中,我們重點關注個人LLM智能體,這些基于LLM的智能體深度集成了個人數據和個人設備,用于個人助理。我們設想,個人LLM智能體將成為即將到來的時代的主要軟件范式。為了實現這一愿景,我們首先討論了關于個人LLM智能體的幾個重要問題,包括它們的架構、能力、效率和安全性。我們首先總結了個人LLM智能體架構中的關鍵組件和設計選擇,接著深入分析了從領域專家收集的意見。接下來,我們討論了實現智能、高效和安全的個人LLM智能體的幾個關鍵挑戰,以及全面調查了解決這些挑戰的代表性解決方案。

//www.zhuanzhi.ai/paper/f194758bfec3a7bf2f03927270c51daa

科幻小說描繪了許多引人注目的智能個人助理(IPAs)角色,這些軟件智能體可以增強個人的能力、完成復雜任務,甚至滿足情感需求。這些智能智能體代表了大多數人關于人工智能(AI)的幻想。隨著個人設備(如智能手機、智能家居設備、電動汽車等)的廣泛應用和機器學習技術的進步,這種幻想逐漸成為現實。今天,許多移動設備內嵌了IPA軟件,如Siri [1]、Google Assistant [2]、Alexa [3]等。這些智能智能體與用戶緊密相連,能夠訪問用戶數據和傳感器,控制各種個人設備,并訪問與私人賬戶關聯的個性化服務。 然而,當今的智能個人助理仍然受到靈活性和可擴展性的限制。它們的智能水平遠遠不夠,特別是在理解用戶意圖、推理和任務執行方面。目前大多數智能個人助理僅限于在限制領域內執行任務(例如,內置應用程序中的簡單功能)。一旦用戶請求超出這些邊界的任務,智能體就無法準確理解和執行動作。改變這種情況需要顯著擴展智能體的能力,以支持更廣泛和更靈活的任務范圍。然而,目前的IPA產品很難大規模支持任務。目前的大多數IPAs需要遵循特定的預定義規則來完成任務,例如開發者定義或用戶演示的步驟。因此,開發者或用戶必須明確指定他們希望支持的功能,以及定義任務執行的觸發器和步驟。這種方法本質上限制了對更廣泛任務范圍的擴展性,因為支持更多任務需要大量的時間和勞動成本。一些方法嘗試通過監督學習或強化學習[4、5、6]自動學習支持任務。然而,這些方法也依賴于大量的手動演示和/或獎勵函數的定義。

近年來,大型語言模型(LLMs)[7]的出現為IPAs的發展帶來了全新的機遇,展示了解決智能個人助理可擴展性問題的潛力。與傳統方法相比,如ChatGPT、Claude等大型語言模型展示了獨特的能力,如指令遵循、常識推理和零樣本泛化。這些能力是通過在龐大的語料庫(超過1.4萬億詞)上進行無監督學習并隨后通過人類反饋進行微調來實現的。利用這些能力,研究人員已經成功地采用大型語言模型來賦能自主智能體(即LLM智能體),旨在通過自動制定計劃和使用工具(如搜索引擎、代碼解釋器和第三方API)來解決復雜問題。 作為一種獨特類型的智能智能體,IPAs也有可能通過LLMs實現顯著提高的可擴展性、能力和實用性。我們稱這種由LLM驅動的智能個人助理為個人LLM智能體。與普通LLM智能體相比,個人LLM智能體更深入地參與個人數據和移動設備,并更明確地設計為協助人類而不是取代人類。具體來說,協助用戶的主要方式是減少他們日常生活中重復、枯燥和低價值的勞動,讓用戶專注于更有趣和有價值的事情,從而提高他們工作和生活的效率和質量。個人LLM智能體可以建立在現有的軟件堆棧(例如,移動應用、網站等)之上,同時帶來無處不在的智能自動化能力的新鮮用戶體驗。因此,我們期望個人LLM智能體在AI時代成為個人計算設備的主要軟件范式,如圖1所示。

盡管個人LLM智能體的未來充滿希望,但相關研究仍處于起步階段,呈現出許多復雜性和挑戰。本文首先討論了實施個人LLM智能體的路線圖、設計選擇、主要挑戰及可能的解決方案。特別是,我們主要關注個人LLM智能體中與“個人”部分相關的方面,包括分析和利用用戶的個人數據、使用個人資源、在個人設備上的部署以及提供個性化服務。將LLM的通用語言能力直接整合到IPA中并不在本文的討論范圍內。 我們首先對個人LLM智能體的領域專家進行了調查。我們邀請了25位主要公司的首席架構師、董事總經理和/或高級工程師/研究員,他們正在研究IPAs和/或個人設備上的LLMs。我們詢問了這些專家關于在面向消費者的產品中整合LLMs的機會和挑戰的看法。基于我們對專家見解的理解和分析,我們總結了一個簡單且通用的個人LLM智能體架構,在該架構中,個人數據(用戶上下文、環境狀態、活動歷史、個性等)和個人資源(移動應用、傳感器、智能家居設備等)的智能管理和利用起著至關重要的作用。管理和利用這些個人對象的能力區分了個人LLM智能體的智能。受到自動駕駛的L1-L5智能級別的啟發,我們還給出了個人LLM智能體的五個智能級別的分類。 我們的發現還突出了實現這種個人LLM智能體的幾個主要技術挑戰,這些挑戰可以分為基本能力、效率以及安全性和隱私性三個方面。我們進一步深入這些方面,詳細解釋了挑戰,并對可能的解決方案進行了全面調查。具體而言,對于每個技術方面,我們簡要說明其與個人LLM智能體的相關性和重要性,然后將其分解為幾個主要研究問題。例如,個人LLM智能體的基本能力包括任務執行、上下文感知和記憶。智能體的效率主要由LLM推理效率、定制效率和記憶檢索效率決定。個人LLM智能體的安全性和隱私問題可以歸類為數據保密性、決策可靠性和系統完整性。對于每個研究問題,我們總結了與該問題相關的主要技術,并簡要介紹了相關工作。由于個人LLM智能體技術的范圍很廣,我們只包括了最相關或最近的工作,而不是試圖涵蓋所有相關方法。

本文的主要內容和貢獻可以總結如下

  1. 我們總結了現有智能個人助理在工業界和學術界的現狀,同時分析了它們在LLM時代的主要限制和未來趨勢。
  2. 我們從LLM和個人智能體領域的高級領域專家那里收集了洞見,提出了一個通用的系統架構和個人LLM智能體智能級別的定義。
  3. 我們回顧了個人LLM智能體的三個重要技術方面的文獻,包括基本能力、效率和安全性與隱私。

我們將個人LLM智能體定義為一種特殊類型的基于LLM的智能體,它與個人數據、個人設備和個人服務深度集成。個人LLM智能體的主要目的是協助終端用戶,幫助他們減少重復和繁瑣的工作,更多地專注于有趣和重要的事務。遵循這一定義,通用的自動化方法(提示、計劃、自我反思等)與普通基于LLM的智能體相似。我們關注與“個人”部分相關的方面,例如個人數據的管理、智能手機應用的使用、部署到資源受限的個人設備等。

基于我們對個人LLM智能體所需特性的討論,我們首先總結了支持這些特性的主要組件,如圖4所示。 毫無疑問,個人LLM智能體的核心是一個基礎模型(大型語言模型或其他變體,為簡單起見,我們稱之為LLM),它連接了所有其他組件。首先,LLM是支持為用戶服務的不同技能的基礎,包括直接執行用戶請求的響應技能(如問答、天氣檢查、事件安排等)和在沒有明確用戶命令的情況下提供服務的主動技能(如生活記錄、管理用戶注意力、活動推薦等)。

其次,為了支持這些技能,LLM管理著各種本地資源,包括移動應用、傳感器和物聯網設備。例如,智能體可能通過與智能手機天氣應用的互動來完成天氣檢查。與此同時,許多人提到了個人LLM智能體提供個性化和感知上下文服務的重要性。因此,LLM應該維護有關用戶的信息,包括當前用戶上下文(狀態、活動、位置等)和歷史用戶記憶(資料、日志、個性等)。為了操縱這些資源、上下文和記憶,還希望使用專用的管理系統,如向量數據庫與LLM結合使用。

付費5元查看完整內容
北京阿比特科技有限公司