亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型可以生成流暢的文本,并可以按照自然語言指令解決各種任務,而無需特定任務的訓練。然而,要控制它們的生成以滿足不同應用所需的各種約束條件是非常困難的。在這項工作中,我們提出了INSTRUCTCTG,這是一個受控文本生成框架,它通過依據約束條件的自然語言描述和演示來結合不同的約束條件。特別地,我們首先通過一組現成的自然語言處理工具和簡單的啟發式方法來提取自然文本中的潛在約束條件。然后,我們將這些約束條件轉化為自然語言指令,以形成弱監督的訓練數據。通過在輸入之前添加約束條件的自然語言描述和一些演示,我們微調了一個預訓練的語言模型,以包括各種類型的約束條件。與現有的基于搜索或基于評分的方法相比,INSTRUCTCTG 對不同類型的約束條件更加靈活,并且對生成質量和速度的影響要小得多,因為它不修改解碼過程。此外,INSTRUCTCTG 還允許模型通過使用指令調整的語言模型的少量樣本任務泛化和上下文學習能力來適應新的約束條件而無需重新訓練。代碼將在 //github. com/MichaelZhouwang/InstructCTG 上提供。

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議。 2023年7月23日至29日周六在夏威夷會議中心舉行。

通過提示,大規模預訓練模型變得更具表達力和威力,在近年來受到了顯著的關注。盡管這些大型模型具有零射擊能力,但總的來說,仍需要標簽數據來使它們適應下游任務。為了克服這個關鍵的限制,我們提出了一個無監督的微調框架,直接在未標記的目標數據上微調模型或提示。我們演示了如何通過對齊從提示和目標數據中提取的離散分布,將我們的方法應用于語言增強視覺和掩蔽語言模型。為了驗證我們的方法的適用性,我們在圖像分類、情感分析和自然語言推理任務上進行了大量實驗。在13個與圖像相關的任務和15個與語言相關的任務中,我們的方法都取得了比基線更好的一致性改善。PyTorch的代碼可以在//github.com/korawat-tanwisuth/POUF上找到。

付費5元查看完整內容

**本文提出ODISE:基于開放詞匯擴散的全景分割,將預訓練的文本-圖像擴散和判別模型統一起來,以執行開放詞匯全景分割。**文本到圖像擴散模型已經顯示出了生成具有多種開放詞匯語言描述的高質量圖像的顯著能力。這表明它們的內部表示空間與現實世界中的開放概念高度相關。另一方面,像CLIP這樣的文本-圖像判別模型擅長將圖像分類為開放詞匯表標簽。本文建議利用這兩個模型的凍結表示來對實際環境中的任何類別進行全景分割。所提出方法在開放詞匯表全景任務和語義分割任務上都明顯優于之前的技術水平。特別是,在僅進行COCO訓練的情況下,所提出方法在ADE20K數據集上達到了23.4 PQ和30.0 mIoU,比之前的最先進水平有8.3 PQ和7.9 mIoU的絕對提升。項目頁面可以在這個https URL中找到。

//www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849

付費5元查看完整內容

低數據環境下的視覺識別需要深度神經網絡從有限的訓練樣本中學習廣義表示。最近,基于CLIP的方法顯示出有希望的少樣本性能,得益于對比性語言-圖像預訓練。提出問題,是否可以通過級聯更多樣化的預訓練知識來進一步輔助少樣本表示學習。本文提出CaFo,一種級聯的基礎模型,融合了各種預訓練范式的各種先驗知識,以實現更好的少樣本學習。CaFo融合了CLIP的語言對比知識、DINO的視覺對比知識、DALL-E的視覺生成知識和GPT-3的語言生成知識。具體來說,CaFo的工作原理是“提示,生成,然后緩存”。首先,利用GPT-3為具有豐富下游語言語義的提示片段產生文本輸入。然后,通過DALL-E生成合成圖像,以在不需要任何人工的情況下擴展少樣本訓練數據。最后,提出一種可學習的緩存模型來自適應地融合CLIP和DINO的預測結果。通過這種合作,CaFo可以充分釋放不同預訓練方法的潛力,并將它們統一起來,以執行最先進的少樣本分類。代碼可以在//github.com/ZrrSkywalker/CaFo上找到。

付費5元查看完整內容

最近的工作表明,來自在線來源的非結構化文本(文檔)可以作為零樣本圖像分類的有用輔助信息。然而,這些方法需要訪問像維基百科這樣的高質量來源,并且僅限于單一來源的信息。在網絡規模的文本上訓練的大型語言模型(LLM)顯示出令人印象深刻的能力,可以將其所學的知識用于多種任務。本文提供了一種使用LLM為零樣本圖像分類模型提供文本監督的新視角。LLM提供了來自不同注釋器的一些文本描述作為示例。LLM以這些示例為條件,為每個類生成多個文本描述(稱為視圖)。所提出的模型I2MVFormer用這些類視圖學習多視圖語義嵌入,用于零樣本圖像分類。類的每個文本視圖都提供了補充信息,允許模型學習高度區分性的類嵌入。與基線模型相比,I2MVFormer更擅長使用LLM的多視圖文本監督。I2MVFormer在三個公共基準數據集上建立了一種新的無監督語義嵌入的零樣本圖像分類技術。

//www.zhuanzhi.ai/paper/bd64e48df69d1d0d94391b703ac2d14c

付費5元查看完整內容

導讀:本文將參考上述綜述論文,從預訓練語言模型應用于文本生成任務的三個挑戰出發:

如何對輸入數據進行編碼并保持語義,使其與預訓練語言模型進行融合; 如何設計通用且合適的預訓練語言模型架構,使其作為生成函數; 如何優化生成函數,并保證生成文本滿足特殊屬性。 并詳細列舉目前每個挑戰下的研究進展。

文本生成是目前自然語言處理領域一項非常重要但具有挑戰性的任務,它的目的是希望生成可讀的自然語言文本,比較有代表性的應用,例如對話系統、文本摘要和機器翻譯等。

目前,深度神經模型在文本生成研究中已取得重大進展,其優勢在于深度神經網絡可以端到端地學習輸入數據到輸出文本的語義映射,而不需要人工參與進行特征工程。但是,深度神經模型往往具有大量的參數,而大部分文本生成任務數據集都非常小,因此深度神經網絡非常容易在這些數據集上過擬合,導致其無法在實際應用中進行泛化。

隨著預訓練語言模型(Pretrained Language Models, PLMs)范式的蓬勃發展,越來越多的研究將其運用到各種自然語言處理任務中以取得SOTA效果,例如BERT解決語言理解和GPT解決語言生成。通過在大規模語料集上進行預訓練,預訓練語言模型可以準確地理解自然語言并以自然語言的形式流暢表達,這兩項都是完成文本生成任務的重要能力。

付費5元查看完整內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

文本生成是目前自然語言處理(NLP)領域一個非常重要且有挑戰的任務。文本生成任務通常是以文本作為輸入(例如序列,關鍵詞),通過將輸入文本數據處理成語義表示,生成可以理解的自然語言文本。幾個具有代表性的文本生成任務,例如機器翻譯,文件摘要,對話系統。自從2014年Seq2Seq框架提出以來,文本生成迅速成為研究熱點,包括一系列經典而有效的模型,例如循環神經網絡(RNN),卷積神經網絡(CNN),Transformer。基于這些模型,注意力機制(attention)和拷貝機制(copy/pointer-generator)的提出也極大促進了文本生成的研究。但是,研究人員發現,傳統的文本生成任務只依靠輸入文本進行生成,缺乏更加豐富的“知識”信息,因此生成的文本往往非常乏味,缺少有意思的內容。例如在對話系統中,如果只提供一段輸入文本而沒有其他上下文,對話機器人往往會回答“我也是一樣”,“我聽不懂你在說什么”等。相比之下,人類通過從外界獲取、學習和儲存知識,可以迅速理解對話里的內容從而做出合適的回復。所以,“知識”對于文本生成任務而言,可以超越輸入文本中的語義限制,幫助文本生成系統生成更加豐富、有意思的文本。在文本生成任務中,“知識”是對輸入文本和上下文的一種“補充”,可以由不同方法和信息源獲得,包括但不限于關鍵詞,主題,語言學特征,知識庫,知識圖譜等,可以參考下圖1中的 Information Sources。這些“知識”可以通過不同的表示方法學習到有效的知識表示,用于增強文本生成任務的生成效果,這就被稱為知識增強的文本生成(Knowledge-Enhanced Text Generation)。因此,知識增強的文本生成主要有兩個難點:如何獲取有用的知識(圖1 Information Sources),以及如何理解并借助知識促進文本生成(圖1 Methods)。接下來的內容將主要圍繞著這兩個問題進行展開。

付費5元查看完整內容
北京阿比特科技有限公司