在過去的一年中,基于大型語言模型(LLMs)的AI智能體迅速成為最令人興奮但也頗具爭議的話題之一。有人認為這是下一次技術革命的開端,而另一些人則認為這些智能體不過是LLMs的簡單包裝。在本教程中,我們希望認真審視并調和這些不同的觀點,同時將新一代AI智能體放在更廣泛的AI發展歷史中進行合理定位。我們認為,當代AI智能體與以往幾代(如邏輯智能體或神經網絡智能體)在質量上存在顯著差異。通過集成LLM,這些智能體獲得了一種全新的能力,即利用語言作為推理和交流的媒介,從而大幅提升了它們的表達能力和適應性。因此,我們認為它們最適合被稱為語言智能體,因為語言是它們最顯著的特性。 語言在推動人類認知進化中起到了關鍵作用,而AI似乎也在沿著類似的路徑前進。然而,目前針對語言智能體的定義、理論基礎、應用、風險及未來方向的系統性討論仍然較少。本前沿教程旨在填補這一空白,提供對語言智能體的全面探討。
需要注意的是,本教程并非相關工作的全面綜述,也不是專注于代碼框架的實踐指南。
通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。
此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。
參與者將學習高級技術和模型,這些技術和模型能夠對圖像中的視覺因素進行解耦,并將這些因素進行組合,以生成更有意義的表示。解耦與組合被認為是實現人工智能(AI)對世界進行根本性理解,并最終達到通用人工智能(AGI)的可能途徑之一。具體來說,我們將涵蓋以下主題:
第1部分:解耦表示學習(DRL) 第2部分:潛在語義發現 第3部分:解耦與等變性 第4部分:AGI的組合與解耦
手術視頻-語言預訓練(VLP)由于知識領域的差異和多模態數據的稀缺,面臨獨特的挑戰。本研究旨在通過解決手術講解視頻中的文本信息丟失問題,以及手術VLP的時空挑戰,來縮小這一差距。我們提出了一種分層知識增強方法,并設計了一種新的流程編碼的手術知識增強視頻-語言預訓練框架(PeskaVLP)來應對這些問題。知識增強使用大型語言模型(LLM)來優化和豐富手術概念,從而提供全面的語言監督,降低過擬合的風險。PeskaVLP將語言監督與視覺自監督相結合,構建難負樣本,并采用基于動態時間規整(DTW)的損失函數,來有效理解跨模態的流程對齊。基于多個公開的手術場景理解和跨模態檢索數據集的大量實驗表明,我們提出的方法顯著提高了零樣本遷移性能,并為手術場景理解的進一步發展提供了通用的視覺表示。
本教程全面概述了大型語言模型(LLMs)在對抗攻擊下暴露的脆弱性——這是一個可信機器學習中新興的跨學科領域,結合了自然語言處理(NLP)和網絡安全的視角。我們強調了單模態LLM、多模態LLM以及集成LLM的系統中現有的脆弱性,重點關注旨在利用這些弱點并誤導AI系統的對抗攻擊。 研究人員一直在通過將模型與預期原則對齊來應對這些安全問題,采用了如指令微調和通過人類反饋進行強化學習等技術。理想情況下,這些對齊的LLM應該是有幫助且無害的。然而,過去的研究表明,即使是那些經過安全訓練的模型也可能受到對抗攻擊的影響,例如在ChatGPT或Bard等模型上頻繁出現的“越獄”攻擊就證明了這一點。 本教程概述了大型語言模型,并描述了它們是如何進行安全對齊的。隨后,我們根據不同的學習結構組織現有研究,涵蓋了文本攻擊、多模態攻擊以及其他攻擊方法。最后,我們分享了對脆弱性潛在原因的見解,并提出了可能的防御策略。
//llm-vulnerability.github.io/
大型語言模型(LLMs)的架構和能力正在迅速發展,隨著它們更加深入地集成到復雜系統中,審查其安全屬性的緊迫性也在增加。本文調研了對LLMs進行對抗攻擊的研究,這是可信機器學習中的一個新興跨學科領域,結合了自然語言處理和安全性的視角。先前的研究表明,即使是通過指令微調和人類反饋強化學習等方法進行安全對齊的LLM,也可能受到對抗攻擊的影響,這些攻擊利用了模型的弱點并誤導AI系統,正如在ChatGPT和Bard等模型上頻繁出現的“越獄”攻擊所證明的那樣。在本次調研中,我們首先概述了大型語言模型,描述了它們的安全對齊,并根據不同的學習結構對現有研究進行了分類:文本攻擊、多模態攻擊,以及專門針對復雜系統(如聯邦學習或多智能體系統)的其他攻擊方法。我們還對研究中關注脆弱性根本來源和潛在防御措施的工作進行了全面評述。為了讓該領域對新手更具可及性,我們對現有工作進行了系統回顧,構建了對抗攻擊概念的結構化分類,并提供了包括在第62屆計算語言學協會年會(ACL’24)上相關主題的演示幻燈片等附加資源。
大規模模型(LMs)的迅速演進,無論是聚焦于語言還是多模態,已在學術界和工業界引起了廣泛關注。但盡管對這一迅速發展領域的興趣激增,關于它們在不同有影響力場景下的能力和潛力的系統性綜述卻非常稀缺。本文致力于幫助彌合這一差距,提供對當前LM在復雜游戲玩法場景及仍存在挑戰的全面審視。在此,我們尋求系統性地綜述基于LM的智能體(LMAs)的現有架構,總結它們的共性、挑戰以及任何其他見解。此外,我們展示了我們對于推進LM在游戲中發展的有前景的未來研究方向的看法。我們希望幫助研究人員清晰地理解該領域,并在這一高影響力的研究方向上激發更多興趣。相應的資源,將持續更新,可在我們的GitHub倉庫中找到。
//www.zhuanzhi.ai/paper/4c2e685ea8f431dcb1d1b398d5726b04
大規模模型(LMs)的發展,包括語言和多模態模型,在自然語言處理和計算機視覺領域是一個重要的進步。最近在LMs方面的進步導致了在各種應用中的顯著成就,包括文本生成[93]、圖像理解[91]和機器人技術[16]。這些進展促使研究人員探索使用LMs“作為”執行復雜任務的代理,其中許多基于LM的代理(LMAs)在很多情況下展示出與傳統訓練方法相比有趣的泛化能力[61;70]。LMs所展現的能力導致了人們對其在游戲玩法應用中的濃厚興趣。這種興趣在像Minecraft[37]這樣的流行游戲中尤為明顯,其中LMs處理復雜、動態環境的潛力正在被積極探索。在追求人工通用智能(AGI)研究的背景下,數字游戲因其提供需要高級推理和認知能力的復雜挑戰而被認為是重要的,作為評估代理和系統能力的理想基準[79;6]。在游戲環境中的數據獲取過程在成本效益、可控性、安全性和多樣性方面相比真實世界的實驗具有優勢,同時保留了重大挑戰。盡管即便在學術界之外嘗試分析或形式化游戲AI代理及其組件并非最近的現象[42;43;44],但研究LMAs在復雜游戲環境中的表現對于界定它們當前的局限性和評估朝著自主性、泛化能力的進步、指導新架構的設計以及更接近潛在AGI的方向非常關鍵。此外,這篇綜述代表了對游戲玩家代理和大模型的首次全面考察,旨在通過提供對最近將LMAs與游戲玩法應用集成的嘗試(例如,作為主玩家、協助人類玩家、控制NPCs)的概覽,以及對它們進行情境化和對比,并識別剩余的開放挑戰,以催化該領域的后續研究。 人腦功能作為一個復雜的信息處理系統,首先將感官信息轉化為感知表征,然后使用這些表征來構建對世界的了解并做出決策,最后通過行動實施決策[13]。由于這一抽象序列反映了在游戲玩法代理中觀察到的典型迭代周期,即感知(§2)、推理(§3)和行動(§4),我們在這篇綜述中采用了類似的組織結構。圖1展示了核心綜述結構,覆蓋了如何將感官信息轉化為行動的本質,以及LMs在每一步驟中可以扮演的角色。感知涉及將游戲過程中的原始觀察信息轉化為可行的見解,支持后續的交互。最初的研究集中在通過文本理解語義信息[64;83],而更近期的工作集中在整合視覺信息(例如,[91])。推理涵蓋了游戲代理的關鍵能力,包括記憶、學習、推理、反思和決策;通常建立在一個全面的認知框架上。這個框架適應于各種應用背景,這意味著并非每個場景都需要所有個別組件。特別是,記憶是關于有效存儲和檢索學習知識以增強常識和游戲特定見解的[94;24]。學習通常涉及通過經驗和多代理系統中的協作努力獲得技能和策略適應[14]。推理是處理和綜合信息以解決問題的過程[48]。在復雜游戲中的決策要求多跳推理[34]和長期規劃[24],結合序列任務分解和協作決策,以有效應對動態游戲。而反思意味著自我改進的過程,代理基于反饋評估和調整它們的策略[64]。這些組件使得LMs賦能的代理能夠在現代數字游戲的動態和演化環境中有效行動。行動涵蓋了與游戲環境的互動回饋,即代理響應游戲狀態和環境反饋執行的操作。使用生成式編碼執行行為,采用技術如迭代提示[64]、角色特定工程[14]或代碼生成[64;62]。對話互動涵蓋代理-代理和人-代理通信,采用協作框架[12],和對動態互動的對話驅動控制[77]。通過例如使用有向無環圖(DAG)的結構方法來強調代理的行為一致性,用于邏輯行動進程[78],結合反饋機制以適應環境[94],并通過策略如強化學習(RL)來加強一致的行動選擇[84]。這些方法使LMAs不僅能夠處理復雜任務,還能適應行為以保持與游戲目標在動態游戲環境中的一致性和對齊。 盡管如此,在所有階段(以及在其他游戲場景中)仍然存在挑戰。在LMAs中尤其重要的四個挑戰包括:i)解決在批判代理和結構化推理中的幻覺問題[24;78];ii)通過迭代學習或反饋(例如,[32])糾正錯誤;iii)將學習到的知識泛化到未見任務,可能使用零射學習或結構化適應性[64;90];以及iv)可解釋性,這要求透明的決策過程。雖然這些在多樣化的AI系統中得到展示,它們也突顯了LMs針對游戲環境的特定需求的內在限制的影響。 這篇綜述的結構概覽如圖2所示。在§2、§3和§4中,我們回顧現有基于LM的游戲代理如何處理感知、推理和行為。在§5中,我們分析在這三個階段中遇到的共同挑戰。最后,在§6中,我們討論進一步發展通用游戲玩法代理的未來開放研究方向。
**感知 **
從游戲世界中感知原始觀察并提取信息對于后續的反思和行動選擇至關重要。感知的主要功能是將多模態空間轉化為代理的輸入,這包括視覺(§2.2)、語義(§2.1)和音頻。基于文本的游戲主要側重于玩家之間的溝通和互動,通常通過文本或口語來解謎、揭示隱藏信息或識別角色身份,像狼人殺[83;84]和阿瓦隆[66;38;31]這樣的游戲是典型的例子。數字游戲[64;7],通過整合多模態感知渠道,提供了更豐富和更沉浸式的體驗,使玩家能夠更深入地參與到游戲世界中。然而,不幸的是,現有文獻中很少有努力致力于將音頻數據整合到LMs的訓練中或優化游戲代理。這仍然是未來探索的一個話題(§6)。 **推理 **
由于其在支持自主性、反應性、主動性和社交功能[81]方面的潛力,LMs被認為是智能代理認知框架的核心組成部分。 不同的游戲階段呈現出不同的需求。 在游戲的初始階段,代理需要吸收基本的常識和游戲特定的背景知識(通過預訓練或即時感知)。在游戲過程中,代理的角色擴展到綜合過去的游戲事件、管理知識存儲和檢索(§3.1),以及承擔核心認知功能,如信息學習(§3.2)、推理(§3.3)、決策制定(§3.4)和反思(§3.5)。此外,代理不斷更新或改善其知識庫以應對未來的挑戰。 **行動 **
在這一節中,我們將探討LMs如何在游戲環境中展現出類似人類的行動,包括特定行為的執行(§4.1)、與人類或其他代理的交流(§4.2),以及如何確保這些行動的一致性(§4.3)。這些代理利用生成式編程技術、與環境的互動反饋以及與其他代理或人類玩家的復雜對話交換來執行任務和解決游戲中的挑戰。 LMAs在游戲中操作的行動空間可以大致分為三種不同的類型,每種類型都有其獨特的挑戰和交互與控制的機會。這些類別范圍從純粹的語言參與到直接操縱游戲控制,不僅定義了LMAs可用的行動范圍,也塑造了用于導航它們的策略和技術。i) 文本基礎交互。第一個類別包括純粹的語言交互,主要關注玩家之間的語言溝通和互動。這些游戲,如狼人殺(例如,[83])和阿瓦隆(例如,[66]),圍繞對話、決策制定和文本信息的解釋。在這些環境中,LMAs需要理解和生成自然語言,通過文本與玩家和游戲敘事進行交流。這要求對語言細微差別、玩家意圖的深刻理解,以及制定可以影響游戲結果的響應能力。ii) API或預定義行動。第二個類別涉及通過APIs或預定義行動操縱游戲環境,提供了一種更結構化的游戲機制方法。示例包括在Voyager中使用Mineflayer JavaScript API進行動作控制[64],以及GITM選擇通過手寫腳本實現的結構化動作[94]。這種方法需要理解游戲的機制,并能夠策略性地選擇和序列化行動以實現期望的結果,但受益于游戲特定API提供的額外語義和控制。iii) 通過IO操作的直接控制。第三個類別代表了最沉浸式的交互形式:僅通過輸入設備,如鼠標和鍵盤的直接控制。VPT[5]和Cradle[62]使用與用戶相同的IO設備操作,例如,鼠標和鍵盤,其輸入空間在視覺觀察(§2.2)中討論。這種方法最接近模擬人類游戲體驗,LMAs在更高的抽象層級執行行動,導航菜單,和操縱物品,就像人類玩家一樣。這代表了一種更通用的交互形式,需要大量的認知處理和運動技能的整合。這些類別展示了LMAs在游戲中的多功能性和潛力,從文本游戲的純認知和語言挑戰到直接控制的物理和戰術需求。
大型語言模型最近在許多自然語言處理基準測試中提高了技術水平。最新一代的模型可以應用于各種任務,幾乎不需要專門的訓練。該技術為數據管理上下文中的應用程序創造了各種機會。本教程將向參與者介紹語言模型的基本背景,討論使用語言模型的不同方法,并對可用的庫和api進行概述和簡短演示。生成自然語言的模型和GPT-3 Codex等完成程序代碼或從自然語言指令生成代碼的模型都將被考慮在內。最后,本教程將討論數據庫社區最近的研究,這些研究利用了傳統數據庫系統環境中的語言模型,或提出了基于它們的新系統架構。本教程針對數據庫研究人員。不需要有語言模型的背景知識。本教程的目標是向數據庫研究人員介紹最新一代的語言模型,以及它們在數據管理領域中的用例。
最近,隨著大型“語言模型”的出現,自然語言處理(NLP)領域發生了革命性的變化,這些“語言模型”使用大量的無標記文本[35]進行訓練。給定足夠多的訓練數據和可訓練的參數,這樣的模型能夠處理廣泛的任務,很少或不需要專門的訓練[2]。這種模型在數據庫領域的應用范圍非常廣泛。它的范圍從新的接口[25,30]到新的系統架構[29],基于最新一代語言模型支持的數據表示和處理機制。本教程的目的是向數據庫研究人員介紹這些模型提供的可能性,提供使它們可訪問的庫和api的指針[22,35],并回顧數據庫社區利用這些模型的最新研究。本教程將介紹處理和生成自然語言文本的語言模型[4,6],以及從自然語言描述[3]生成程序代碼的最新模型。它將包括例子和現場演示,為與會者提供對可解決問題范圍的直覺。
神經網絡已經成為現代人工智能的重要組成部分。盡管如此,它們通常都是黑盒,它們的行為可能出人意料,并產生出人意料的錯誤結果,比如對抗性的例子。在本教程中,我們將介紹神經網絡驗證問題,其目的是正式保證神經網絡的特性,如魯棒性、安全性和正確性。我們的教程涵蓋了驗證問題的理論基礎和最先進算法的介紹。此外,我們還將為用戶友好的神經網絡驗證工具箱提供實踐編碼教程,允許從業者輕松地將正式的驗證技術應用到他們的定制應用中。
我們的教程包括在谷歌Colab中編碼演示。我們將演示通用的auto_LiRPA庫和獲獎的α,β-CROWN驗證器的使用。
知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。
知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。
可解釋人工智能(xAI)是近年來出現的一個有趣的問題。許多研究人員正試圖從不同的角度和有趣的結果來處理這個問題。然而,我們在理解這些類型的模型方面仍處于起步階段。在未來的幾年里,深度學習模型的開放性將被討論。在經典的人工智能方法中,我們經常遇到深度學習方法。這些深度學習方法可以根據數據集大小、數據集質量、用于特征提取的方法、用于深度學習模型的超參數集、激活函數和優化算法得出高效的結果。然而,目前的深度學習模型還存在一些重要的不足。這些基于人工神經網絡的模型是黑盒模型,它概括傳輸給它的數據并從數據中學習。因此,輸入和輸出之間的關系是不可觀察的。這是人工神經網絡和深度學習模型的一個重要開放點。由于這些原因,有必要認真研究黑盒模型的可解釋性和可解釋性。
報告題目:
Deep Reinforcement Learning for Computer Vision
報告簡介:
近年來,深度強化學習作為機器學習的基本技術之一得到了發展,并成功地應用于各種計算機視覺任務(表現出最先進的性能)。在本教程中,我們將概述深度強化學習技術的趨勢,并討論如何使用它們來提高各種計算機視覺任務的性能(解決計算機視覺中的各種問題)。首先,我們簡要介紹了深度強化學習的基本概念,并指出了在不同的計算機視覺任務中所面臨的主要挑戰。其次,介紹了一些用于計算機視覺任務的深度強化學習技術及其種類:策略學習、注意感知學習、不可微優化和多智能體學習。第三,介紹了深度強化學習在計算機視覺不同領域的應用。最后,我們將討論深度強化學習中的一些開放性問題,以說明未來如何進一步發展更先進的計算機視覺算法。
嘉賓介紹:
Jiwen Lu,副教授,中國清華大學,自動化系。清華大學自動化系副教授,2015.11-至今,新加坡高級數字科學中心研究科學家,2011.3-2015.11,2003.7-2007.7西安理工大學信息科學系助理講師。
Liangliang Ren ,清華大學博士生,研究方向是計算機視覺與機器學習、度量學習與深度強化學習