大型語言模型(LLMs,或稱為類固醇版的N-gram模型),最初是為了通過在前面一串詞的上下文中反復預測下一個詞而進行訓練的,現在已經吸引了人工智能(以及全世界)社區的關注。部分原因在于它們能夠對幾乎所有人類知識領域的提示生成有意義的完成句。這種極度的多功能性也引發了一種說法,即這些預測性文本補全系統可能具有抽象推理和規劃的能力。在這個教程中,我們將對LLMs在規劃任務中的能力進行深入探討,無論是在自主模式還是在輔助模式中。我們特別感興趣的是,在廣泛研究的AI規劃社區的問題和框架的背景下,描述這些能力(如果有的話)。
本教程將指出LLMs在生成通常需要解決子目標交互的組合搜索的計劃時的基本限制,并展示LLMs作為AI規劃社區開發的健全規劃者的補充技術的實際應用。除了介紹我們在這個領域的工作,我們還提供了許多相關工作的批判性調查,包括來自規劃社區以外的研究者的工作。
這個教程預計將涵蓋的主題包括:大型語言模型的背景,以及LLM的使用模式,包括提示技術 在規劃中區分使用變換器架構與預訓練的LLM的方法 提及Word2vec以規劃,決策變換器,我們正在進行的使用GPT2進行微調,學習驗證器的工作 LLM與規劃 - 自主模式 用自然語言或直接的PDDL進行提示;微調的效果;思維鏈提示等 LLM作為規劃的啟發式/想法生成器 與基于案例和輕量級規劃的連接 通過提示LLM進行搜索 自動化與人工驅動的提示(以及后者的聰明漢斯問題) LLM作為模型獲取技術 LLM作為支持各種類型規劃的工具 不完全指定(高度分離)的目標;HTN規劃;“廣義規劃” 在強化學習環境中使用LLM(以獲得獎勵,偏好)
現代語義分割增量學習方法通常基于密集標注來學習新的類別。盡管取得了很好的結果,但逐像素標記是昂貴和耗時的。弱增量語義分割學習(WILSS)是一項新穎而吸引人的任務,旨在從廉價且廣泛可用的圖像級標簽中學習分割出新的類別。盡管效果相當,但圖像級標簽無法提供定位每個分割的細節,這限制了WILSS的性能。這啟發我們思考如何改進和有效利用給定圖像級標簽的新類的監督,同時避免忘記舊類。本文提出一種新的數據高效的WILSS框架FMWISS。本文提出基于預訓練的協同分割,以提取互補的基礎模型的知識,以生成密集的偽標簽。用師生架構進一步優化了有噪聲的偽掩碼,其中插件式教師用提出的密集對比損失進行了優化。提出了基于內存的復制粘貼增強,以改善舊類的災難性遺忘問題。在Pascal VOC和COCO數據集上的實驗結果表明,FMWISS在15-5 VOC的數據集上取得了70.7%和73.3%的性能提升,分別比當前最好的方法提升了3.4%和6.1%。 //antoyang.github.io/vid2seq.html
類增量學習(class incremental learning, CIL)旨在在類別數量逐步增加的情況下訓練分類模型。CIL模型面臨的一個內在挑戰是穩定性與可塑性的權衡,即CIL模型既要保持穩定性以保留舊知識,又要保持可塑性以吸收新知識。然而,現有的CIL模型都不能在不同的數據接收設置中實現最佳權衡——通常,從一半開始訓練(TFH)設置需要更大的穩定性,但從頭開始訓練(TFS)需要更大的可塑性**。設計了一種在線學習方法,可以在不知道先驗設置的情況下自適應地優化權衡。**首先引入了影響權衡的關鍵超參數,例如知識蒸餾(KD)損失權重、學習率和分類器類型。然后,將超參數優化過程建模為一個在線馬爾可夫決策過程(MDP)問題,并提出了一種具體的算法來求解該問題。本文采用局部估計獎勵和經典bandit算法Exp3[4]來解決將在線MDP方法應用于CIL協議時存在的問題。所提出方法在TFH和TFS設置中不斷改進表現最好的CIL方法,例如,與最先進的[23]相比,在ImageNet-Full上將TFH和TFS的平均精度提高了2.2個百分點。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
用于文本摘要任務的序列級對比學習模型 Sequence Level Contrastive Learning for Text Summarization
論文摘要:自動摘要的目的是把一篇長的文檔重寫成一段簡短的摘要保留原始文本最關鍵的信息。這個任務有一個特性即摘要是原始文檔的一個短的版本并且跟原始文檔有相近的意思。基于這個觀察,我們提出了序列級別的對比學習模型 SeqCo(Sequence-level Contrastive Learning);具體來說,我們把原始文檔、人工標注的摘要及模型生成的摘要看作同一個語義表示的三個不同視角并在訓練過程中最大化這三者表示之間的相似性。自動評測和人工評測實驗表明 SeqCo 在多個摘要數據集上可以進一步提升基線模型 BART 的效果及提升摘要的原文忠誠度。
預訓練跨語言模型(Pre-Trained Cross-Lingual Language Model)是通過在大規模多語言語料上進行預訓練得到,其展現了在不同語言間優秀的遷移能力。這類模型通常由多語言詞表以及 Transformer 編碼器組成,可以將不同語言的文本編碼進統一的表示空間。盡管大多數預訓練單語模型和跨語言模型中使用的 Transformer 編碼器結構幾乎相同,但它們的詞表有較大的區別。現有預訓練單語模型的詞表一般包含 30K 到 60K 子詞單元,與此同時,XLM-R[1] 及 mT5[2] 等模型使用包含 250K 子詞單元的多語言詞表來表示上百種語言,雖然有些子詞單元是跨語言共享的,但是每個語言分配的語言特定子詞單元平均不超過 2.5K 個,用來表示一種語言依然是相對不足的。并且常用的多語言詞表是通過 BPE 或 unigram 語言模型等算法在多語言語料上學習得到,這些算法在詞表構建過程中更傾向于選擇在不同語言之間共享的子詞單元,如使用拉丁字母和西里爾字母的語言[3],而選中語言特定子詞單元的概率較低。對于這些算法而言,很難確定是否已經為每種語言分配了足夠的詞表大小,使得每種語言都能被充分表示。此外,相比于單語模型,跨語言模型中的大詞表不僅會降低預訓練速度,同時也會導致模型參數量增加。
為了解決上述問題,本文首先提出 VoCap 詞表構建算法得到一個更大的多語言詞表,在構建過程中綜合考慮每種語言的語言特定詞匯能力及預訓練語料大小為每種語言分配合適的詞表大小。對于進一步加大跨語言模型中的多語言詞表所帶來的預訓練速度降低的問題,本文提出基于 k 近鄰的目標采樣方法,通過近似估計訓練目標中的 softmax 函數來提升跨語言模型預訓練效率。XTREME benchmark[4] 上實驗結果表明,基于 VoCap 方法構建的多語言詞表要優于之前的詞表,基于 k 近鄰的目標采樣方法在達成可比性能的同時,大幅度提升了跨語言模型的預訓練效率。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
預訓練跨語言語言模型(Pretrained Cross-Lingual Language Model)在自然語言推斷、問答、序列標注等諸多任務上展現了強大的跨語言遷移能力。例如,僅用英語的問答訓練數據來微調預訓練跨語言語言模型,得到的模型就可以直接在多個語言上實現問答任務。以往的跨語言預訓練任務更關注句子級別的對齊,隱式地鼓勵跨語言對齊,而忽略了顯示的詞級別的細粒度的對齊。
在本文中,微軟亞洲研究院的研究員們將詞級別的跨語言對齊引入預訓練,并提出了一個新的跨語言預訓練任務:去噪聲詞對齊(Denoising word alignment),來訓練 XLM-Align 模型。
在訓練過程中,對翻譯句對交替進行詞對齊自標注和去噪聲詞對齊。詞對齊自標注(Word alignment self-labeling)是指將輸入的翻譯句對的詞對齊問題轉化為最優傳輸問題,并在訓練過程中在線得到輸入句對的詞對齊標注;去噪聲詞對齊則是指隨機地將輸入句對中的詞進行掩蓋,然后使用指針網絡預測翻譯句對原始的詞對齊關系。
研究員們在 XTREME 多語言理解評價基準上進行了驗證,包括序列標注、問答、句子分類等。實驗使用“跨語言遷移”(Cross-lingual transfer)的實驗設置——模型用英文的訓練數據微調,但在多種語言的測試集上進行測試。如表13所示,XLM-Align 在7項任務上都超越了 XLM-R_base,且取得了最好的平均分數。
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。