手術視頻-語言預訓練(VLP)由于知識領域的差異和多模態數據的稀缺,面臨獨特的挑戰。本研究旨在通過解決手術講解視頻中的文本信息丟失問題,以及手術VLP的時空挑戰,來縮小這一差距。我們提出了一種分層知識增強方法,并設計了一種新的流程編碼的手術知識增強視頻-語言預訓練框架(PeskaVLP)來應對這些問題。知識增強使用大型語言模型(LLM)來優化和豐富手術概念,從而提供全面的語言監督,降低過擬合的風險。PeskaVLP將語言監督與視覺自監督相結合,構建難負樣本,并采用基于動態時間規整(DTW)的損失函數,來有效理解跨模態的流程對齊。基于多個公開的手術場景理解和跨模態檢索數據集的大量實驗表明,我們提出的方法顯著提高了零樣本遷移性能,并為手術場景理解的進一步發展提供了通用的視覺表示。
本教程全面概述了大型語言模型(LLMs)在對抗攻擊下暴露的脆弱性——這是一個可信機器學習中新興的跨學科領域,結合了自然語言處理(NLP)和網絡安全的視角。我們強調了單模態LLM、多模態LLM以及集成LLM的系統中現有的脆弱性,重點關注旨在利用這些弱點并誤導AI系統的對抗攻擊。 研究人員一直在通過將模型與預期原則對齊來應對這些安全問題,采用了如指令微調和通過人類反饋進行強化學習等技術。理想情況下,這些對齊的LLM應該是有幫助且無害的。然而,過去的研究表明,即使是那些經過安全訓練的模型也可能受到對抗攻擊的影響,例如在ChatGPT或Bard等模型上頻繁出現的“越獄”攻擊就證明了這一點。 本教程概述了大型語言模型,并描述了它們是如何進行安全對齊的。隨后,我們根據不同的學習結構組織現有研究,涵蓋了文本攻擊、多模態攻擊以及其他攻擊方法。最后,我們分享了對脆弱性潛在原因的見解,并提出了可能的防御策略。
//llm-vulnerability.github.io/
大型語言模型(LLMs)的架構和能力正在迅速發展,隨著它們更加深入地集成到復雜系統中,審查其安全屬性的緊迫性也在增加。本文調研了對LLMs進行對抗攻擊的研究,這是可信機器學習中的一個新興跨學科領域,結合了自然語言處理和安全性的視角。先前的研究表明,即使是通過指令微調和人類反饋強化學習等方法進行安全對齊的LLM,也可能受到對抗攻擊的影響,這些攻擊利用了模型的弱點并誤導AI系統,正如在ChatGPT和Bard等模型上頻繁出現的“越獄”攻擊所證明的那樣。在本次調研中,我們首先概述了大型語言模型,描述了它們的安全對齊,并根據不同的學習結構對現有研究進行了分類:文本攻擊、多模態攻擊,以及專門針對復雜系統(如聯邦學習或多智能體系統)的其他攻擊方法。我們還對研究中關注脆弱性根本來源和潛在防御措施的工作進行了全面評述。為了讓該領域對新手更具可及性,我們對現有工作進行了系統回顧,構建了對抗攻擊概念的結構化分類,并提供了包括在第62屆計算語言學協會年會(ACL’24)上相關主題的演示幻燈片等附加資源。
在本文中,我們考慮了多目標強化學習,這在具有多個優化目標的許多實際問題中出現。我們采用最大-最小框架來解決這一問題,重點關注多個目標之間的公平性,并在最大-最小框架下開發了相關理論和實用的無模型算法。所開發的理論在多目標強化學習方面提供了理論上的進步,而提出的算法在性能上顯著優于現有的基準方法。
在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。
我們提出了一種新穎的預訓練范式——強監督截屏預訓練(S4),用于視覺-語言模型,該模型使用來自大規模網頁截屏渲染的數據。使用網頁截屏可以解鎖視覺和文本提示的寶庫,這些提示在使用圖像-文本對時不存在。在S4中,我們利用HTML元素的固有樹結構層次和空間定位,精心設計了10個預訓練任務,這些任務具有大規模注釋數據。這些任務類似于不同領域的下游任務,且注釋獲取成本低。我們證明,與當前的截屏預訓練目標相比,我們創新的預訓練方法顯著提升了圖像到文本模型在九個不同且流行的下游任務中的性能——在表格檢測上提高了高達76.1%的性能,并且在小部件標題生成上至少提高了1%。
近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。
由于大規模模型的端到端訓練,視覺和語言預訓練的成本變得越來越令人望而卻步。本文提出BLIP-2,一種通用而有效的預訓練策略,從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺-語言預訓練。BLIP-2通過一個輕量級的查詢Transformer彌合了模式差距,該Transformer分兩個階段進行預訓練。第一階段從凍結的圖像編碼器中引導視覺-語言表示學習。第二階段從一個凍結的語言模型中引導視覺到語言的生成學習。BLIP-2在各種視覺語言任務上取得了最先進的性能,盡管可訓練參數比現有方法少得多。例如,所提出模型在零樣本VQAv2上的表現比Flamingo80B高出8.7%,可訓練參數減少了54倍。還展示了該模型的零樣本圖像到文本生成的新興能力,可以遵循自然語言指令。
//www.zhuanzhi.ai/paper/07f6ce13e18cd1dc714cf3d3f88d1e56
大型語言模型最近在許多自然語言處理基準測試中提高了技術水平。最新一代的模型可以應用于各種任務,幾乎不需要專門的訓練。該技術為數據管理上下文中的應用程序創造了各種機會。本教程將向參與者介紹語言模型的基本背景,討論使用語言模型的不同方法,并對可用的庫和api進行概述和簡短演示。生成自然語言的模型和GPT-3 Codex等完成程序代碼或從自然語言指令生成代碼的模型都將被考慮在內。最后,本教程將討論數據庫社區最近的研究,這些研究利用了傳統數據庫系統環境中的語言模型,或提出了基于它們的新系統架構。本教程針對數據庫研究人員。不需要有語言模型的背景知識。本教程的目標是向數據庫研究人員介紹最新一代的語言模型,以及它們在數據管理領域中的用例。
最近,隨著大型“語言模型”的出現,自然語言處理(NLP)領域發生了革命性的變化,這些“語言模型”使用大量的無標記文本[35]進行訓練。給定足夠多的訓練數據和可訓練的參數,這樣的模型能夠處理廣泛的任務,很少或不需要專門的訓練[2]。這種模型在數據庫領域的應用范圍非常廣泛。它的范圍從新的接口[25,30]到新的系統架構[29],基于最新一代語言模型支持的數據表示和處理機制。本教程的目的是向數據庫研究人員介紹這些模型提供的可能性,提供使它們可訪問的庫和api的指針[22,35],并回顧數據庫社區利用這些模型的最新研究。本教程將介紹處理和生成自然語言文本的語言模型[4,6],以及從自然語言描述[3]生成程序代碼的最新模型。它將包括例子和現場演示,為與會者提供對可解決問題范圍的直覺。
簡介
本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。
背景:預訓練
機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。
為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。
在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。
受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。
GPT-GNN模型
要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?
本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。
由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。
在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,
在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。
我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。
為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。
實驗
我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。
第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。
總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。
我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。
題目:
Probabilistic Video Prediction from Noisy Data with a Posterior Confidence
簡介:
我們從一系列嘈雜的輸入中研究了概率視頻預測的新研究問題,這很有用,因為在實際的時空預測應用中很難保證輸入幀的質量。它也具有挑戰性,因為它涉及兩個級別的不確定性:來自噪聲觀測的感知不確定性和正向建模中的動力學不確定性。在本文中,我們通過端到端訓練模型,稱為貝葉斯預測網絡(BP-Net)。與先前在隨機視頻預測中假設時空一致性并因此無法處理感知不確定性的工作不同,BP-Net在集成框架中對兩個不確定性水平進行建模。此外,與以前的工作僅能提供未分類的未來幀估計不同,BP-Net利用可微的順序重要性抽樣(SIS)方法基于基礎物理狀態的推論做出未來的預測,從而根據SIS重要性權重,即置信度。我們的實驗結果表明,BP-Net在根據嘈雜數據預測未來幀方面明顯優于現有方法。
教程簡介: 最近AI對話技術的飛躍式發展,無疑與越來越復雜的深度學習算法有關,而深度學習算法所捕捉到的模式是由各種數據收集機制生成的。因此,本教程的目標是雙重的。首先,它旨在讓學術界熟悉基于統計學的對話系統算法設計的最新進展,其中包括開放性領域和基于任務的對話范例。本教程的重點是介紹對話系統端到端的學習機制,以及它們與更加常見的模塊系統之間的關聯。從理論上講,從數據中學習端到端可以為對話系統提供無縫的、空前的可移植性,有著非常廣闊的應用前景。從實踐的角度來看,該領域仍然存在大量的研究挑戰和機會:在本教程中,我們會分析理論和實踐之間的差異,并介紹當前端到端對話學習的主要優勢和實踐中的局限性。
目錄:
下載鏈接: //pan.baidu.com/s/1qV4uQItQSZj0kWsXa4QgPg 提取碼: kk3v