AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實 體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給 定目標的能力。AI Agent 和大模型的區別在于,大模型與人類之間的交互是基于 prompt 實現的,用戶 prompt 是否清晰明確會影響大模型回答的效果。而 AI Agent 的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動。和傳統的 RPA 相比,RPA 只能在給定的情況條件下,根據程序內預設好的流程來進行工作的處 理,而 AI Agent 則可以通過和環境進行交互,感知信息并做出對應的思考和行動。
大語言模型的浪潮推動了 AI Agent 相關研究快速發展,AI Agent 是當前通往 AGI 的主要探索路線。大模型龐大的訓練數據集中包含了大量人類行為數據,為模擬類 人的交互打下了堅實基礎;另一方面,隨著模型規模不斷增大,大模型涌現出了上 下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 AI Agent 的核心大腦,就可以實現以往難以實現的將復雜問題拆解成可實現的子任 務、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容 量限制等,通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決 策和執行能力的智能體,成為了當前通往 AGI 的主要研究方向。
一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組 件部分。AI Agent 可能會成為新時代的開端,其基礎架構可以簡單劃分為 Agent = LLM + 規劃技能 + 記憶 + 工具使用,其中 LLM 扮演了 Agent 的“大腦”,在這個 系統中提供推理、規劃等能力。
AI Agent 發展迅速,出現多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領 域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent 研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。目前已經 涌現了在游戲領域大放異彩的英偉達 Voyager 智能體、能夠幫助個人完成簡單任務 的 Agent 助理 HyperWrite、以及主打個人情感陪伴的 AI 助理 Pi 等多款優秀的 Agent 成果,AI Agent 的研究進展迅速。
“Agent+”有望成為未來產品的主流,有望在多個領域實現落地應用。我們認為, AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用” 和“好用”,“Agent+”的產品將會越來越多,未來將有望成為 AI 應用層的基本架 構,包括 to C、to B 產品等。
2B 和垂直領域仍是 AI Agents 容易率先落地的方向,用戶對 Agent 的認知正在形 成,初創企業正在卡位。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企 業環境是更加適合 Agent 建立起對某一個垂直領域認知的場景。當前關于 AI Agent 的研究主要還是以學術界和開發者為主,商業化產品極少,但是用戶對于 Agent 的 關注度正在提升,可能未來幾年間就會涌現出大量以 Agent 作為核心的產品應用到 各行各業。目前,已經有一些初創公司開始以企業的智能體平臺作為主要的產品研 發方向,例如瀾碼科技正在打造基于 LLM 的企業級 Agent 平臺。
由于離線多智能體強化學習面臨著分布偏移問題和多智能體環境中常見的高維度問題的耦合效應,所以非常具有挑戰性,導致動作超出分布(OOD)和價值過高估計現象極為嚴重。為了減輕這個問題,我們提出了一種新的多智能體離線RL算法,名為CounterFactual Conservative Q-Learning(CFCQL),用于進行保守的價值估計。CFCQL不是將所有智能體視為高維單一實體并直接對其應用單一智能體方法,而是以反事實的方式為每個智能體分別計算保守正則化,然后線性組合它們,以實現整體保守價值估計。我們證明,盡管它仍然具有低估特性和單一智能體保守方法的性能保證,但引入的正則化和安全政策改進邊界獨立于智能體數量,因此理論上優于上述直接處理方法,特別是當智能體數量較大時。我們還在包括離散和連續動作設置在內的四個環境中進行了實驗,這些環境包括現有的和我們制作的數據集,實驗表明CFCQL在大多數數據集上勝過現有方法,甚至在其中一些數據集上以顯著優勢勝出。
理解強化學習(RL)智能體的新出現行為可能是困難的,因為此類智能體通常在復雜環境中使用高度復雜的決策程序進行訓練。這導致了強化學習中各種可解釋性方法的產生,這些方法旨在協調智能體的行為和觀察者預期的行為之間可能出現的差異。最近的大多數方法都依賴于領域知識(這可能并不總是可用的),依賴于對智能體策略的分析,或者依賴于對底層環境的特定元素的分析(通常建模為馬爾可夫決策過程(Markov Decision Process, MDP))。我們的關鍵主張是,即使底層的MDP不是完全已知的(例如,轉移概率沒有被準確地學習)或不是由智能體維護的(即,轉移概率不是由智能體維護的)。,當使用無模型方法時),它仍然可以被利用來自動生成解釋。出于這個目的,我們建議使用正式的MDP抽象和轉換(以前在文獻中用于加速搜索最優策略)來自動生成解釋。由于這種轉換通常基于環境的符號表示,它們可以表示預期和實際智能體行為之間差距的有意義的解釋。我們正式地定義了這個問題,提出了一類可以用來解釋突發行為的變換,并提出了能夠有效地尋找解釋的方法。我們將在一組標準基準上演示該方法。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。
最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:
對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;
預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。
此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。
為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。
該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。
此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。
基于隱含結構推理網絡的事件因果關系識別
Knowledge-Enriched Event Causality Identification via Latent Structure Induction Networks
傳統的事件關系抽取方法僅利用文本語義推斷事件關系,忽略了背景知識。很多情況下僅僅利用文本語義很難判斷出事件之間的關系。如何在復雜的真實應用場景中,同時利用文本和知識聯合推斷事件關系,是迫切亟待需要解決的問題。
知識圖譜中除了包含事件的描述性知識,還包含事件之間的關聯知識,這類知識對預測事件因果關系非常有幫助。本文采用基于隱含結構歸納網絡和事件關聯知識的事件因果關系抽取。首先,從知識圖譜中獲得事件之間的關聯知識,在知識圖譜中,事件之間的關聯知識一般由一條多跳路徑組成,由于路徑上有很多與因果無關的知識,并且由于知識圖譜的不完備性,很多有用的知識沒有標注出來,因此直接使用多跳路徑進行因果推理并不是最優的。為了降低因果無關知識的影響以及捕獲潛在的有用的知識,我們提出一個隱含結構歸納網絡,能夠基于事件之間的關聯知識自動地學出一個最優的推理結構。基于歸納出的推理結構,我們執行因果關系推理,從而預測出事件的因果關系。
可學習知識引導的事件因果關系識別數據增強方法
事件因果關系識別(Event Causality Identification, ECI)旨在識別文本中事件之間的因果關系,可以為許多自然語言處理任務提供重要線索,如邏輯推理、問答系統等。ECI任務通常被建模為一個分類問題,即識別一個句子中兩個事件之間是否存在因果關系。
目前大多數ECI方法采用監督學習的范式。雖然這些方法取得了很好的性能,但通常需要大規模的標注訓練數據。然而,現有的事件因果關系識別數據集相對較少。小規模的標注數據集阻礙了高性能事件因果關系識別模型的訓練,無法提供充足的訓練數據支撐模型準確理解文本中的事件關系語義。
本文探索了一個知識融合的數據增強方法,利用大量抽取的因果相關事件生成新訓練數據,解決ECI任務訓練數據缺失問題。該方法包含兩個框架,知識增強的事件因果關系數據自動標注框架和知識引導的事件因果關系數據生成框架。其中,知識引導的事件因果關系數據生成框架(Learnable Data Augmentation framework, LearnDA),利用對偶學習機制,將事件因果關系識別器和數據生成器對偶約束,從識別過程中學習如何生成任務相關的新數據,從生成過程中學習如何更準確地理解因果語義,生成高質量表達事件因果語義的新訓練數據。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
聯邦學習(Federated Learning)是一種新興的保護隱私的機器學習范式,在學術界和行業中都引起了極大的關注。聯邦學習的一大特征是異構性,它來源于參與學習的設備有各種硬件規格、且設備狀態是動態變化的。異構性會對聯邦學習訓練過程產生巨大影響,例如,導致設備無法進行訓練或無法上載其模型更新。不幸的是,這種影響尚未在現有的聯邦學習文獻中進行過系統的研究和量化。本文進行了第一個聯邦學習中異構性影響的實證研究。本文從13.6萬部智能手機中收集了大量數據,這些數據可以真實地反映現實環境中的異構性。本文還構建了一個符合標準聯邦學習協議同時考慮了異構性的聯邦學習平臺。基于以上數據和平臺進行了廣泛的實驗,以比較目前最優的聯邦學習算法在考慮異構性和不考慮異構性下的性能。結果表明,異構性導致聯邦學習的性能顯著下降,包括高達9.2%的準確度下降,2.32倍的訓練時間延長以及公平性受損。此外,本文進行了原因分析,發現設備故障和參與偏差是導致性能下降的兩個潛在根本原因。我們的研究對聯邦學習從業者具有深刻的啟示。一方面,本文的發現表明聯邦學習算法設計師在模型評估過程中有必要考慮異構性。另一方面,本文的發現敦促聯邦學習的系統設計者設計特定的機制來減輕異構性的影響。中心博士生楊程旭為該文第一作者。