亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于知識的視覺問答(VQA)需要圖像以外的外部知識來回答問題。早期的研究從顯式知識庫(KBs)中檢索所需的知識,但這些知識往往會引入與問題無關的信息,從而限制了模型的性能。最近的工作試圖使用大型語言模型(即GPT-3[3])作為隱式知識引擎,以獲取必要的知識進行回答。盡管這些方法取得了令人鼓舞的結果,但由于提供的輸入信息不足,它們并沒有充分激活GPT-3的能力。**本文提出prophet——一個概念簡單的框架,旨在用答案啟發式方法提示GPT-3進行基于知識的VQA。**首先,在沒有外部知識的情況下,在特定的基于知識的VQA數據集上訓練了一個普通的VQA模型。然后,從模型中抽取兩類互補答案啟發:答案候選和答案感知示例。最后,將兩類答案啟發編碼到提示信息中,使GPT-3能夠更好地理解任務,從而提高其能力。Prophet在兩個具有挑戰性的基于知識的VQA數據集OK-VQA和A-OKVQA上明顯優于所有現有的最先進方法,在它們的測試集上分別取得了61.1%和55.7%的準確率。

//www.zhuanzhi.ai/paper/041ce0c21c2475799872dddbbfef55df

付費5元查看完整內容

相關內容

CVPR 2023大會將于 6 月 18 日至 22 日在溫哥華會議中心舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,創下新紀錄,今年接收了 2360 篇論文,接收率為 25.78%。作為對比,去年有 8100 多篇有效投稿,大會接收了 2067 篇,接收率為 25%。

 當涉及到部署深度視覺模型時,這些系統的行為必須是可解釋的,以確保對其可靠性和公平性的信心。評估深度學習模型的一種常見方法是用感興趣的屬性構建一個標記的測試集,并評估它的表現如何。然而,創建一個平衡的測試集(即對所有重要特征進行均勻采樣的測試集)通常是耗時、昂貴且容易出錯的。我們試圖解決的問題是:在沒有標注測試集的情況下,我們能否評估深度學習模型對任意視覺屬性的敏感性?** 本文認為,零樣本模型診斷(ZOOM)是可能的,而不需要測試集或標記。**為了避免對測試集的需要,系統依賴于生成模型和CLIP。其關鍵思想是使用戶能夠選擇一組提示(與問題相關),系統將使用生成模型自動搜索語義反事實圖像(即在二進制分類器的情況下翻轉預測的合成圖像)。評估了多個視覺領域的幾個視覺任務(分類、關鍵點檢測和分割),以證明所提出方法的可行性。廣泛的實驗表明,所提出方法能夠產生反事實圖像,并在不需要測試集的情況下為模型診斷提供靈敏度分析。

//www.zhuanzhi.ai/paper/92ba5a252cdba0c1fcee262c68baad9a

付費5元查看完整內容

低數據環境下的視覺識別需要深度神經網絡從有限的訓練樣本中學習廣義表示。最近,基于CLIP的方法顯示出有希望的少樣本性能,得益于對比性語言-圖像預訓練。提出問題,是否可以通過級聯更多樣化的預訓練知識來進一步輔助少樣本表示學習。本文提出CaFo,一種級聯的基礎模型,融合了各種預訓練范式的各種先驗知識,以實現更好的少樣本學習。CaFo融合了CLIP的語言對比知識、DINO的視覺對比知識、DALL-E的視覺生成知識和GPT-3的語言生成知識。具體來說,CaFo的工作原理是“提示,生成,然后緩存”。首先,利用GPT-3為具有豐富下游語言語義的提示片段產生文本輸入。然后,通過DALL-E生成合成圖像,以在不需要任何人工的情況下擴展少樣本訓練數據。最后,提出一種可學習的緩存模型來自適應地融合CLIP和DINO的預測結果。通過這種合作,CaFo可以充分釋放不同預訓練方法的潛力,并將它們統一起來,以執行最先進的少樣本分類。代碼可以在//github.com/ZrrSkywalker/CaFo上找到。

付費5元查看完整內容

最近的工作表明,來自在線來源的非結構化文本(文檔)可以作為零樣本圖像分類的有用輔助信息。然而,這些方法需要訪問像維基百科這樣的高質量來源,并且僅限于單一來源的信息。在網絡規模的文本上訓練的大型語言模型(LLM)顯示出令人印象深刻的能力,可以將其所學的知識用于多種任務。本文提供了一種使用LLM為零樣本圖像分類模型提供文本監督的新視角。LLM提供了來自不同注釋器的一些文本描述作為示例。LLM以這些示例為條件,為每個類生成多個文本描述(稱為視圖)。所提出的模型I2MVFormer用這些類視圖學習多視圖語義嵌入,用于零樣本圖像分類。類的每個文本視圖都提供了補充信息,允許模型學習高度區分性的類嵌入。與基線模型相比,I2MVFormer更擅長使用LLM的多視圖文本監督。I2MVFormer在三個公共基準數據集上建立了一種新的無監督語義嵌入的零樣本圖像分類技術。

//www.zhuanzhi.ai/paper/bd64e48df69d1d0d94391b703ac2d14c

付費5元查看完整內容

在保持訓練前序列模型的靈活性的同時,整合外部知識是否有利于常識推理仍然是一個開放的問題。為了研究這個問題,我們開發了生成的知識提示,它包括從語言模型中生成知識,然后在回答問題時提供知識作為額外的輸入。我們的方法不需要任務特定的監督來進行知識整合,也不需要訪問結構化知識庫,但它提高了大規模、最先進的模型在四個常識推理任務上的性能,在數值常識(NumerSense)、一般常識(CommonsenseQA 2.0)、以及科學常識(QASC)基準。生成的知識提示突出了大規模語言模型作為外部知識的靈活來源,以提高常識推理。我們的代碼可以在github.com/anonymous_repo上找到。

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

會話代理面臨的一個挑戰是,它們無法識別用戶命令的未聲明的假設,這對于人類來說是一項微不足道的任務,因為它們具有常識。為了實現這一目標,本文提出了一個面向會話代理的零樣本常識推理系統。我們的推理器從滿足if-(狀態),then-(動作),because-(目標)的一般模板的用戶命令中發現未聲明的假設。我們的推理器使用最先進的基于transformer的生成常識知識庫(KB)作為其推理背景知識的來源。我們提出了一種新穎的迭代知識查詢機制,利用符號邏輯規則從神經知識庫中提取多跳推理鏈,大大減少了搜索空間。與迄今為止收集到的任何KBs類似,我們的常識知識庫很容易丟失知識。因此,我們提出了一種新的動態問題生成策略,以對話方式從人類用戶中引出缺失的知識,該策略為人類用戶生成并呈現上下文化的查詢。我們通過用戶研究來評估該模型,與SOTA相比,該模型的成功率提高了35%。

//arxiv.org/abs/2109.08544

付費5元查看完整內容

本文提出了一個簡潔而有效的基于知識到文本轉換的常識問答模型框架,在多個標準的常識問答數據集上進行了深入的測試和分析,并為知識增強的常識問答提供了高性能的基準模型。實驗顯示:①基于知識到文本轉換的常識問答模型是有效且魯棒的;②融合外部知識對于常識問答任務依然有較大潛力;③目前的常識問答模型還遠不能充分發揮知識的潛力——與使用標準知識解釋的模型相比,現有模型均有較大性能差距。

付費5元查看完整內容
北京阿比特科技有限公司