亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

每天都會生成大量的非結構化文本數據,涵蓋從新聞文章到科學論文等內容。如何從這些文本數據中挖掘結構化知識依然是一個關鍵的研究問題。最近,大語言模型(LLMs)憑借其卓越的文本理解能力和指令跟隨能力,為文本挖掘領域帶來了新的希望。通常有兩種利用LLMs的方法:一是通過人工標注的訓練數據對LLMs進行微調,這需要大量的人工投入,難以擴展;二是在零樣本或少樣本的情況下提示LLMs,這種方法無法充分利用海量文本數據中的有用信息。因此,在大語言模型時代,如何從海量文本數據中自動挖掘結構化知識仍然是一個挑戰。在本教程中,我們將介紹使用語言模型進行結構化知識挖掘的最新進展,重點介紹弱監督學習方法。我們將涵蓋以下主題:

  1. 大語言模型的介紹,它是近期文本挖掘任務的基礎;
  2. 本體構建,自動從海量語料庫中豐富本體;
  3. 在平面和層次化標簽空間中的弱監督文本分類;
  4. 弱監督信息抽取,提取實體和關系結構。//yzhan238.github.io/kdd24-tutorial/ 幻燈片
  • 介紹
  • 第一部分:文本分析中的語言基礎模型
  • 第二部分:分類體系的構建與豐富
  • 第三部分:弱監督文本分類
  • 第四部分:弱監督信息抽取
  • 結論

付費5元查看完整內容

相關內容

作為人工智能領域最先進的技術之一,檢索增強生成(RAG) 技術能夠提供可靠且最新的外部知識,為眾多任務帶來了巨大的便利。特別是在AI生成內容(AIGC)時代,RAG強大的檢索能力可以提供額外的知識,幫助現有的生成式AI生成高質量的輸出。最近,大型語言模型(LLMs)在語言理解和生成方面展現了革命性的能力,但它們仍面臨固有的局限性,如幻覺和過時的內部知識。鑒于RAG在提供最新且有用的輔助信息方面的強大能力,檢索增強的大型語言模型(RA-LLMs) 應運而生,利用外部的權威知識庫,而不是單純依賴模型的內部知識,從而增強LLMs的生成質量。

在本教程中,我們全面回顧了現有的關于檢索增強大型語言模型(RA-LLMs)的研究工作,涵蓋了三個主要技術視角:架構、訓練策略和應用。作為基礎知識,我們簡要介紹了LLMs的基本原理及其最近的進展。接著,為了展示RAG對LLMs的實際意義,我們按應用領域對主流相關工作進行分類,詳細說明了每個領域面臨的挑戰及RA-LLMs的對應能力。最后,為了提供更深刻的見解,我們討論了當前的局限性以及未來研究的幾個有前景的方向。

我們的綜述論文:《RAG-Meets-LLMs: 邁向檢索增強的大型語言模型》

付費5元查看完整內容

網絡應用程序是用戶訪問信息、執行各種任務和與內容互動的重要界面。傳統的網絡設計主要關注用戶界面和靜態體驗。隨著大型語言模型(LLM)的出現,我們正在這些平臺中整合由LLM驅動的智能體,這標志著一種范式轉變。這些智能體引入了類似人類的關鍵能力,如記憶和計劃,使其在完成各種任務時表現得更像人類,有效地增強用戶參與度并在網絡應用程序中提供定制化的互動體驗。 在本教程中,我們將介紹在各種網絡應用中使用LLM驅動的智能體的前沿技術,如網絡挖掘、社交網絡、推薦系統和對話系統。我們還將探索在這些代理中無縫整合的現有挑戰,并暗示可能徹底改變我們與網絡平臺互動方式的未來研究方向。

根據選定參考文獻中列出的代表性論文集,本教程大約有25%的內容涉及六位主講人中至少一位的工作。教程的其他部分將通過盡可能多地討論其他研究人員的相關工作,提供對教程主題的全面概述。

**2.1 大型語言模型驅動的智能體背景

自主人工智能智能體長期被視為通向人工通用智能(AGI)的墊腳石,具有自主執行任務的能力。傳統方法采用啟發式策略函數,這些函數通常缺乏在開放域場景中的人類水平的熟練度,主要是由于啟發式的限制和訓練數據的約束。最近,大型語言模型在向人類智能邁進方面取得了令人印象深刻的進展[32]。這一進展促使將大型語言模型作為開發自主人工智能智能體的核心組件的趨勢日益增長[34, 35, 37, 52]。 * 基于LLM的智能體架構。現有基于LLM的人工智能智能體的架構可以歸納為一個整合框架,最近的綜述文獻[39]對人工智能智能體進行了廣泛的覆蓋。這種統一結構包括四個主要模塊:分析、記憶、規劃和行動。分析模塊確定智能體的角色,而記憶和規劃模塊使智能體置身于動態環境中,促進回憶和未來行動的策略制定。然后,行動模塊將決策轉化為具體輸出。值得注意的是,分析模塊同時影響記憶和規劃模塊,進而指導行動模塊。 * 基于LLM的工具學習。基于LLM的工具學習旨在融合專業工具的能力和大型語言模型,使基于LLM的智能體能夠使用外部工具,從而帶來更好的自主問題解決能力。最近的研究突出了基礎模型在工具利用方面的熟練度,如網頁搜索自動化[31]、在線購物[45]、神經模型整合[37]、計算機任務執行[23]以及具體化機器人學習[2, 20]。

**2.2 大型語言模型驅動的智能體在社交網絡中的應用

社交網絡通過允許人們分享觀點和交換信息來連接不同的人。近年來,許多人工智能技術被用來解決社交網絡問題,如用戶連接預測[47]和社會信息傳播[4],其關鍵挑戰在于理解人類內在的認知過程和行為模式。最近,通過學習大量的網絡知識,大型語言模型在實現人類水平智能方面取得了顯著成功。這為解決社交網絡問題提供了新的思路,已有幾次嘗試將基于LLM的智能體引入這一領域。

社交網絡模擬與基于LLM的智能體。社交網絡模擬是一個基本問題。如果能準確模擬社交網絡,那么其底層機制和運行規則就可以輕松理解和利用。然而,由于人類思維的內在性質,預測人們在社交網絡中的行為相當困難。最近有幾次嘗試[16, 26, 33]利用基于LLM的智能體解決這一問題。這些論文的關鍵在于利用大型語言模型作為用戶的大腦,并設計分析、記憶和規劃模塊,使大型語言模型表現得像人類。

社交網絡問題解決與基于LLM的智能體。另一研究方向是將基于LLM的智能體與社交網絡相結合,解決特定問題。人們利用智能體發現社會系統動態[17],分析不同智能體之間的社會原則[3]等。這一方向仍在迅速發展中,我們預見未來將有更多有前景的工作出現。

**2.3 大型語言模型驅動的智能體在推薦系統中的應用

推薦系統在當今信息傳播中扮演著關鍵角色,主動塑造個體偏好[25]。隨著大型語言模型的最新進展,由大型語言模型驅動的智能體在自主互動和用戶偏好理解方面取得了顯著成就[29]。這種印象深刻的能力一方面可以用來在推薦系統中模擬真實的人類行為,無論是在個體還是人群層面,通過擴大其部署范圍。另一方面,它為利用大型語言模型驅動的智能體構建新一代個性化推薦者開辟了可能性[44]。

用戶行為模擬與大型語言模型驅動的智能體。在推薦系統中模擬用戶行為是一個復雜的任務,需要深入理解人類的偏好和行為模式[5, 40, 49]。彌合這一差距不僅需要整合針對推薦環境量身定制的智能體模塊,還需要適應這種環境的多模態本質[27, 48]。因此,由大型語言模型驅動的智能體必須配備并進一步微調以實現多模態理解,以逼近真實世界用戶互動的真實度。

推薦智能體。雖然現代推薦系統擅長利用用戶行為數據預測特定領域的推薦,但它們通常缺乏解釋其推薦、參與用戶對話和整合豐富用戶數據的能力[21]。為了創建一個動態和互動的推薦系統,大型語言模型作為“大腦”,而推薦模型則充當工具[30, 42]。這一研究方向致力于為推薦生態系統開發面向用戶的推薦智能體[38]。

**2.4 大型語言模型驅動的對話智能體

大型語言模型驅動的對話智能體[13]不僅重新定義了用戶互動,還引入了推動傳統網絡互動邊界的創新功能。

付費5元查看完整內容

Machine Intelligence Research

知識在人工智能發展中起著至關重要的作用。近年來,大規模語言模型(LLMs)取得了令人矚目的進展,引發了人們對語言模型獲取、維護、更新和使用知識方面的極大關注。盡管已經存在大量的相關研究,但學界對于知識如何在語言模型的學習、調整和應用過程中流動的完整生命周期,仍然缺乏整體性的觀點,這可能會阻礙人們深入了解各個研究方向之間的聯系,以及認識到現有研究中所存在的局限性。因此,本綜述將語言模型視作一個大規模的知識系統,將知識在大規模語言模型中的生命周期劃分為五個關鍵階段,研究語言模型中的知識在構建、維護和使用過程中如何流動和循環。為此,**本文系統性地回顧了知識在語言模型中生命周期的各個階段的代表性研究,總結了當前每個階段的核心挑戰和主要局限性,并討論了未來潛在的發展方向。**相關成果已發表于《機器智能研究(英文)》2024年第2期中。****

圖片來自Springer

全文下載:

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun

全文導讀

從根本上來說,人工智能是一門研究知識的科學--如何表示、獲取和使用知識的科學。 ---尼爾森(1974年)

知識是通向高級智能的關鍵。一直以來,模型如何獲取、存儲、理解和應用知識一直都是機器智能領域的重要研究課題。近年來,大規模語言模型(LLMs)取得了飛速的發展。通過在大規模無標注語料庫上進行自監督預訓練,再通過指令微調和強化學習等手段與人類偏好對齊,大規模語言模型在不同領域、任務、數據集中表現出了遠超以往方法的泛化和遷移能力,從而在人工智能領域取得了令人矚目的成就。

大規模語言模型的成功引起了人們對其隱含知識的極大關注。許多研究都已經在關注大規模語言模型如何獲取、維護和使用知識。基于此,研究者們探索了許多新的研究方向。例如,知識注入旨在將顯式結構化知識注入LLM的參數中;知識探測用于評估存儲在LLM參數中的知識類型和數量;知識編輯旨在修改LLM中不正確的或者過時的知識。

盡管有大量的相關研究,但目前的研究主要還是集中在知識在語言模型中的某一特定階段,而對知識如何在整個模型學習、調整和應用階段中循環缺乏一個統一視角。由于缺乏這種全面的研究,研究者們難以充分理解不同知識型任務之間的聯系,發現LLM知識生命周期中不同階段之間的相關性,以及探索現有研究的不足和局限性。例如,雖然許多研究致力于評估預訓練語言模型中的知識,但很少有研究探討為什么語言模型可以在沒有任何知識監督的情況下從純文本中學習海量的知識,以及語言模型表示和存儲這些知識背后的機制。同時,許多研究嘗試向LLM顯示注入各類結構化知識,但少有研究嘗試深入研究模型潛在的知識獲取機制來幫助LLM更好地從純文本中學習特定種類的知識。因此,該領域內的研究可能會過度關注某幾個方向,而難以全面理解、維護和控制LLM中的知識,從而限制相關研究的進一步改進和應用。

本綜述提出從知識工程的角度系統回顧大規模語言模型中與知識相關的研究。受認知科學和知識工程研究的啟發,本文將大規模語言模型視為基于知識的系統,并研究知識在語言模型中的獲取、維護和使用的完整生命周期。具體來說,本文將大規模語言模型中知識的生命周期分為以下五個關鍵階段,如圖 1 所示:

? 知識獲取:旨在研究語言模型從文本或其他知識源中學習各類知識的方法和機制。 ? 知識表示:旨在研究各種知識在語言模型參數中編碼、存儲和分布的規律和機制。 ? 知識探測:旨在探究語言模型中包含知識的種類,以及對相應知識規模的量化分析。 ? 知識編輯:旨在編輯或者刪除語言模型中存儲的特定知識。 ? 知識應用:旨在將大規模語言模型中的知識應用于真實場景中。

圖 1 語言模型知識生命周期的五個關鍵時期

對于每個階段,本文系統性地梳理了現有的研究,總結了主要挑戰和局限性,并討論了未來的發展方向。基于一個統一的視角,本文能夠幫助理解和利用語言模型知識生命周期不同階段之間的密切聯系,而不是將其視為獨立的任務。例如,了解語言模型的知識表示機制對研究人員設計更好的知識獲取目標和知識編輯策略具備啟發性的價值。提出可靠的知識探測方法可以幫助研究者們找到更適合不同語言模型的應用場景,并深入了解其局限性,從而促進其進一步的改進。我們希望通過該綜述全面總結當前研究的進展、挑戰和局限,幫助研究人員從新的視角更好地理解整個領域,并從整體性角度闡明如何更好地規范、表示和應用語言模型中的知識的未來方向。

本文貢獻總結如下:

  1. 本文將大規模語言模型視作一個新時代的知識系統,并將大規模語言模型中知識的生命周期劃分為五個關鍵階段。
  2. 如圖2所示,針對每個階段,本文系統性地回顧了現有研究,總結了每個研究方向的主要挑戰和不足。
  3. 在此基礎上,本文討論了當前研究的局限性,并闡明了未來的潛在發展方向。

圖 2 大模型知識生命周期的分類系統

· 本文作者 ·

全文下載:

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun BibTex:

@Article {MIR-2022-10-329, author={ Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun }, journal={Machine Intelligence Research}, title={The Life Cycle of Knowledge in Big Language Models: A Survey}, year={2024}, volume={21}, issue={2}, pages={217-238}, doi={10.1007/s11633-023-1416-x}}

付費5元查看完整內容

如何探索CV中的AGI?華為這篇論文進行了論述

人工智能社區一直在追求被稱為通用人工智能(AGI)的算法,這些算法可以應用于任何類型的現實世界問題。最近,由大型語言模型(LLMs)驅動的聊天系統嶄露頭角,并迅速成為在自然語言處理(NLP)中實現AGI的有力候選,但是在計算機視覺(CV)中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜,但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中,我們從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們,統一性是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出,CV的根本弱點在于缺乏從環境中學習的范式,然而NLP已經在文本世界中完成了這項任務。然后,我們設想了一個流程,將一個CV算法(即,一個代理)放置在世界級的、可交互的環境中,預先訓練它根據其行動預測未來的幀,然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大,對此,我們分享了我們對未來研究方向的觀點。

1. 引言

世界正在見證向人工通用智能(AGI)的史詩般的奧德賽,我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是,在自然語言處理(NLP)中,已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為,這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型(LLMs)建立的,并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊,可以完成諸如解決數學問題、生成視覺內容等復雜任務,反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面(例如,講述科學事實和命名人物之間的關系)存在已知的弱點,但這些開創性的研究已經顯示出一個明確的趨勢,即將NLP中的大多數任務統一到一個系統中,這反映了對AGI的追求。 與自然語言處理(NLP)中統一化的快速進展相比,計算機視覺(CV)領域離統一所有任務的目標還很遠。常規的CV任務,如視覺識別、追蹤、字幕、生成等,大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統,可以用統一的提示機制處理各種CV任務,但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如,為了在物體檢測和語義分割中報告高識別準確率,最好的策略是在強大的骨干網絡上設計特定的頭部模塊,但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然,統一化是CV的趨勢。近年來,這個方向有許多努力,我們大致將它們分為五個研究主題,即(i) 基于視覺-語言對齊的開放世界視覺識別,(ii) 用于通用視覺識別的“分割任何物體”任務,(iii) 統一視覺任務的通用視覺編碼,(iv) LLM引導的視覺理解,以增強CV中的邏輯,以及(v) 多模態對話,以促進視覺-語言交互。這些工作都顯示出統一化的希望,但是,它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。

因此,產生了兩個問題:(1)為什么在CV中實現統一如此困難?(2)我們可以從GPT和LLMs中學到什么來實現這個目標?為了回答這些問題,我們重新審視GPT,將其理解為在文本世界中建立一個環境,并允許一個算法(或代理)通過交互學習。計算機視覺研究缺乏這樣的環境。因此,算法無法模擬世界,所以它們只能采樣世界,并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后,代理任務不再能夠表示CV算法的能力;越來越明顯的是,繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析,我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理:這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務:在這個階段,可能需要引入人類的指令,這對應于NLP中的指令微調階段。可選地,可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關,包括3D環境建立、視覺預訓練、強化學習和具身CV。但是,現有的工作大多是初步的,我們預期需要大量的努力,才能使它成為解決現實世界問題的有效范式。

本文的其余部分組織如下。首先,在第2部分,我們簡要介紹了AGI的歷史和思想,并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分,我們展示了GPT的能力,這是一種最先進的NLP算法,被認為是AGI的火花。然后,在第4部分,我們根據CV研究的當前狀態,分析了在計算機視覺中實現AGI為什么困難,并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分,我們在那里設想了一種將CV推向AGI的流程,并基于此對未來的研究方向進行了一些評論。最后,在第6部分,我們對本文進行了總結并分享了我們的思考。

2. CV:AGI的下一個戰場

人類基于多種數據模式感知世界。我們都知道,我們學到的大約85%的東西是通過我們的視覺系統。因此,鑒于NLP社區已經展現了AGI的前景,自然而然地將計算機視覺(CV)或多模態(至少包括視覺和語言領域)視為AGI的下一個戰場。在此,我們提供兩個額外的評論來補充上述陳述。首先,顯然,CV是NLP的超集,因為人們閱讀文章是首先通過識別捕獲圖像中的字符,然后理解內容。換句話說,CV(或多模態)的AGI應該覆蓋NLP的所有AGI能力。其次,我們認為在許多情況下,僅依靠語言是不夠的。例如,當人們試圖找到關于一個未知對象(例如,動物、時尚等)的詳細信息時,最好的方式是拍攝一張圖片并用它進行在線搜索;純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子,如我們將在第4.3節中看到,不總是容易指出場景中的細粒度語義(用于識別或圖像編輯),并且以視覺友好的方式思考更有效,例如,使用一個點或框來定位一個對象,而不是說一些像“穿著黑色夾克,在黃色汽車前站著和另一個人交談”的人這樣的話。

我們期望有一個CV算法能解決一般性任務,可能通過與環境的交互。注意,這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統,接收來自人類的通用命令并產生所需的結果。但是,當前的CV狀態還很初級。如圖7所示,CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。

**統一化是趨勢 **

下面,我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。

**開放世界視覺識別 **

在很長一段時間里,大多數CV算法只能識別出現在訓練數據中的概念,導致了一個“封閉世界”的視覺概念。相反,“開放世界”的概念指的是CV算法能夠識別或理解任何概念,無論它是否以前出現過。開放世界的能力往往通過自然語言引入,因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務,如圖像字幕 [73],[74] 和視覺問題回答 [91],[92],[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近,隨著視覺語言預訓練(例如 CLIP [13] 和 ALIGN [94])的出現,將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75],[76],[77] 和視覺問題回答 [11],[76],[95] 提供了更簡單的管道,而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如,圖像分類可以通過簡單地將查詢圖像與一組模板(也被稱為“提示”)匹配來完成,說一張{某物}的照片,其中某物可以是任何(因此是開放世界的)概念,比如貓或西伯利亞雪橇犬,并將結果設置為匹配得分最高的候選者。除了原始版本之外,研究人員開發了名為“學習提示”的算法 [96],[97] 來提高分類準確性。后來,該方法從圖像分類繼承到物體檢測 [87],[98],語義分割 [88],[99],實例分割 [100],全景分割 [101],[102],并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益,這些模型經過增強的定位預訓練 [103],[104]。開放世界視覺識別與零樣本視覺識別密切相關,因為它們都試圖將識別能力泛化到訓練集中未出現的概念。

"分割任何事物"任務

"分割任何事物"任務 [14] 最近被引入作為一個通用模塊,將原始圖像像素聚類為多個組,其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示,并為每個提示或每個提示的組合產生一些掩碼和分數。該模型,SAM,在一個包含約1000萬圖像的大規模數據集上進行了訓練,能夠轉移到廣泛的分割任務,包括醫學圖像分析 [111],[112],[113],偽裝對象分割 [110],[114],3D對象分割 [108],對象跟蹤 [115],以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用,例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼,并將分割的單元輸入到開放集分類算法中進行圖像標記 [107],[117]。

技術上,SAM的關鍵在于提示機制和數據閉合,即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分,但仍然存在許多未解決的問題。例如,關于SAM的上游和下游模塊(如果SAM確實是管道的一部分)仍然不清楚,而且SAM可能會嚴重受到像素級外觀的影響,例如,手臂可以精確地在衣服的邊界處從軀干上分割出來,這意味著顏色是分割的主導因素。總的來說,SAM可能已經過度適應了"分割任何事物"任務本身,從而削弱了其分類能力。

通用視覺編碼

另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異,例如,對象檢測需要一組邊界框,而語義分割需要對整個圖像進行密集預測,這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的,自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示,對象檢測結果(即邊界框)可以被形式化為自然語言和坐標,然后轉換為視覺模型的輸出標記。在稍后的版本,pix2seq-v2 中,他們將表示形式一般化,以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16],[122],[123] 任務。

LLM指導的視覺理解

視覺識別可以非常復雜,尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型(視覺-語言預訓練模型用于視覺問題回答[11],[76],[95])來說,按照人類容易理解的程序生成答案是困難的。為了緩解這個問題,一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前,在Transformer架構出現之前,研究人員提出使用長短期記憶模型(LSTM)[72]生成程序,以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候,LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近,大型語言模型(尤其是GPT系列)的出現使得任意問題的轉換成為可能。具體來說,GPT可以以不同的方式與人類交互。例如,它可以將基本識別結果總結為最終答案[125],或者生成代碼[18],[124]或自然語言腳本[19]來調用基本視覺模塊。因此,視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效,例如,詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯,但它們尚未展示出協助基本視覺識別模塊的能力。也就是說,一旦基本的識別結果錯誤(例如,檢測算法錯過了一些小的和/或部分遮擋的對象),答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯(例如,算法可以按照順序算法來檢測每個對象,或者被常識[127]指導來解決難題),可能是在LLMs的幫助下,從而提升基本的視覺識別。

多模態對話

多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答,其中構建了各種簡單問題的數據集 [128],[129],[130]。隨著LLMs的快速發展,通過對預訓練的視覺和語言模型進行微調,實現了多輪問答 [11],[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近,在GPT系列中開發的一種新的范式,稱為指導學習 [4],已被繼承用于提高多模態對話的質量 [20],[46]。其思想是提供一些參考數據(例如,對象、描述)來自于基準標注或識別結果,并要求GPT模型生成指導數據(即,豐富的問答對)。通過這些數據(無需參考),用于視覺和語言的基礎模型可以通過輕量級的網絡模塊(例如,Q-former [11])相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準,但作為一個由語言引導的任務,它也具有開放世界視覺識別中分析的弱點(見第4.2.1節)。我們期望豐富查詢形式的方法(例如,使用通用的視覺編碼方法,參見第4.2.3節)可以將多模態對話推向更高的水平。

3 未來:從環境中學習

上述分析要求我們為計算機視覺(CV)的強大代理制定一個新的范式。在本節中,我們將我們的觀點和洞見轉化為一個假想的流程,回顧與這個流程相關的現有工作,并基于這個流程對未來的研究方向提出評論。

圖14展示了我們的想法。這個流程包括三個階段:第0階段建立環境,第1階段進行預訓練,第2階段進行微調。在需要的時候,微調后的模型可以被用于傳統的視覺識別任務。下面,我們將詳細描述每個階段。

?** 第0階段:建立環境**。正如前面的分析,高質量的環境對于計算機視覺(CV)中的人工通用智能(AGI)是非常必要的。這里的"高質量"概念包括但不限于豐富性(應該有充足和多樣化的環境)、真實性(視覺外觀和其他代理的行為應接近真實世界)以及交互性的豐富性(代理可以通過與環境交互來執行廣泛的任務)。

?** 第1階段:生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理(NLP)中的 GPT 任務(預測下一個詞元)的最大區別在于,未來的幀取決于代理的行動(在 NLP 中,預訓練的文本語料庫保持不變),所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是,由于計算機視覺(CV)是自然語言處理(NLP)的超集(參見第4.1節前的段落),預訓練的計算機視覺模型的大小(例如,參數的數量)應該比自然語言處理模型大幾個數量級。

第2階段:指導微調。預訓練模型被指導完成真實世界的任務,遵循人類的指示。直觀上說,代理與環境之間允許的交互類型有很多,包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是,應該收集更多的指示數據,這也對應于基礎計算機視覺模型的大小。

? 可選:下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力,例如,為了完成一個非常簡單的任務,比如"給我買一杯咖啡",模型必須至少學會(i) 安全地四處探索,(ii) 識別咖啡店在哪里,(iii) 用語言與店員交流,并且(iv) 抓取買到的咖啡。這樣的模型,當適當地提供提示時,應該輸出期望的感知結果,包括追蹤另一個代理(以避免與其碰撞),開放集的視覺識別(用于找到酒吧和買到的咖啡)等等。這與通過合成進行分析的想法[136]有關。

4 結論

在這篇論文中,我們討論了如何推動計算機視覺(CV)算法向人工通用智能(AGI)發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力,然后我們繼承了來自自然語言處理(NLP),尤其是 GPT 系列的想法和洞見。我們的結論是,計算機視覺缺乏一個可以從環境中學習的范式,為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。

付費5元查看完整內容

首篇時序預訓練綜述!

時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。

最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述

? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。

3. 實驗結果與分析

在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。

6. 結論

在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

文本數據在網絡上無處不在且海量:新聞報道、社交媒體帖子、維基百科文章等每天都在網上創建和更新。雖然它們包含豐富的信息和知識,但在文本密集型應用中有效利用它們仍然是一個公開的挑戰。預訓練語言模型(PLM)的最新進展已經徹底改變了文本挖掘和處理:通過在從網絡獲得的大規模文本語料庫上預訓練神經架構,然后將其表示轉移到特定任務的數據中,可以有效利用在網絡規模語料庫中編碼的知識,從而顯著提高下游任務的性能。PLM最常見的自適應方法是預訓練-微調范式,其中PLM在下游任務標記的數據上進行進一步訓練。然而,這種范式的主要挑戰是,對PLM的全監督微調通常需要大量的人工標注,而在實踐中獲取這些標注是昂貴的。

在本教程中,我們將介紹從網絡規模的語料庫中學習的預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本文專注于不需要大量人工標注的弱監督方法,包括(1)作為下游任務基礎的預訓練語言模型,(2)用于從大規模文本語料庫中發現主題的無監督和種子引導方法,以及(3)用于文本分類和高級文本挖掘任務的弱監督方法。

付費5元查看完整內容

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。

本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?

//normalization-dnn.github.io

付費5元查看完整內容

不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。

綜述論文:

不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。

//www.zhuanzhi.ai/paper/8329095368761f81a7849fe5457949ed

付費5元查看完整內容
北京阿比特科技有限公司