亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們考慮的任務是在廣泛的語義類別中,由自然音頻樣本引導生成多樣化且真實的視頻。對于這個任務,視頻需要在全局和時間上與輸入音頻對齊:在全局上,輸入音頻與整個輸出視頻在語義上相關聯;在時間上,輸入音頻的每個片段與該視頻的相應片段相關聯。我們利用了現有的基于文本條件的視頻生成模型和一個預訓練的音頻編碼器模型。所提出的方法基于一個輕量級適配器網絡,它學習將基于音頻的表示映射到文本到視頻生成模型所期望的輸入表示。因此,它也能實現基于文本、音頻,以及我們所能確定的首次,基于文本和音頻的視頻生成。我們在三個數據集上廣泛驗證了我們的方法,這些數據集展示了音頻視頻樣本的顯著語義多樣性,并進一步提出了一個新的評估指標(AV-Align),以評估生成視頻與輸入音頻樣本的對齊程度。AV-Align基于在兩種模態中檢測和比較能量峰值。與最近的最先進方法相比,我們的方法生成的視頻與輸入聲音在內容和時間軸上更好地對齊。我們還展示了我們的方法生成的視頻具有更高的視覺質量和更多樣化。代碼和樣本可在以下網址獲取://pages.cs.huji.ac.il/adiyoss-lab/TempoTokens。

付費5元查看完整內容

相關內容

對比視覺-語言預訓練,即CLIP,展現了在感知開放世界視覺概念方面的顯著潛力,實現了有效的零樣本圖像識別。然而,基于CLIP的小樣本學習方法通常需要在少量樣本上進行離線微調參數,這導致了更長的推理時間和在某些領域過擬合的風險。為了應對這些挑戰,我們提出了Meta-Adapter,一種輕量級的殘差風格適配器,用以指導少樣本在線細化CLIP特征。通過少量的訓練樣本,我們的方法可以實現有效的小樣本學習能力,并且在沒有額外微調的情況下泛化到未見過的數據或任務,達到了具有競爭力的性能和高效率。我們的方法不需要復雜的附加功能,就在八個圖像分類數據集上平均超過了最新的在線小樣本學習方法3.6%的性能,并且具有更高的推理速度。此外,我們的模型簡單靈活,可作為直接適用于下游任務的即插即用模塊。在無需進一步微調的情況下,Meta-Adapter在開放詞匯的對象檢測和分割任務中取得了顯著的性能提升。

//www.zhuanzhi.ai/paper/988c88672e1bfafaceee944b23e8228e

付費5元查看完整內容

高容量預訓練模型的出現已經徹底改變了計算機視覺中的問題解決方式,從訓練特定任務的模型轉變為調整預訓練的模型。因此,有效地將大型預訓練模型適應到下游任務中已經成為一個突出的研究領域。現有的解決方案主要集中在設計輕量級的適配器以及它們與預訓練模型的交互上,目的是最小化需要更新的參數數量。在本研究中,我們提出了一種新穎的適配器重組 (ARC) 策略,從一個全新的角度解決有效地預訓練模型的適應問題。我們的方法考慮了適應參數的可重用性,并引入了一個參數共享方案。具體來說,我們利用對稱的下/上投影來構建瓶頸操作,這些操作在各個層之間共享。通過學習低維度的重新縮放系數,我們可以有效地重新組合層適應的適配器。這種在適配器設計中的參數共享策略允許我們在保持滿意的性能的同時顯著減少新參數的數量,從而為壓縮適應成本提供了一個有前景的方法。我們使用各種視覺變壓器變體,在24個下游的圖像分類任務上進行了實驗來評估我們的方法。結果表明,我們的方法在減少參數數量的同時,實現了引人注目的遷移學習性能。

我們的代碼可在以下地址找到://github.com/DavidYanAnDe/ARC。

付費5元查看完整內容

通過提示,大規模預訓練模型變得更具表達力和威力,在近年來受到了顯著的關注。盡管這些大型模型具有零射擊能力,但總的來說,仍需要標簽數據來使它們適應下游任務。為了克服這個關鍵的限制,我們提出了一個無監督的微調框架,直接在未標記的目標數據上微調模型或提示。我們演示了如何通過對齊從提示和目標數據中提取的離散分布,將我們的方法應用于語言增強視覺和掩蔽語言模型。為了驗證我們的方法的適用性,我們在圖像分類、情感分析和自然語言推理任務上進行了大量實驗。在13個與圖像相關的任務和15個與語言相關的任務中,我們的方法都取得了比基線更好的一致性改善。PyTorch的代碼可以在//github.com/korawat-tanwisuth/POUF上找到。

付費5元查看完整內容

基于擴散的生成性圖模型已被證明在生成高質量的小圖上非常有效。然而,他們需要更具可擴展性才能生成包含數千個節點并期望圖統計的大圖。在這項工作中,我們提出了EDGE,一種新的基于擴散的生成性圖模型,用于處理大圖的生成任務。為了提高計算效率,我們通過使用一種離散擴散過程鼓勵圖的稀疏性,該過程在每個時間步隨機刪除邊,最終得到一個空圖。EDGE在每個去噪步驟中只關注圖中的一部分節點。它比以前的基于擴散的模型做出更少的邊預測。此外,EDGE允許顯式地模擬圖的節點度,進一步提高模型的性能。實證研究顯示,EDGE比競爭方法更高效,能夠生成包含數千個節點的大圖。它在生成質量上也超過了基線模型:我們方法生成的圖的圖統計數據與訓練圖的更相似。

//www.zhuanzhi.ai/paper/cc59405ca6fa98d54ead7fd468e1015e

付費5元查看完整內容

論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院

付費5元查看完整內容

三維目標檢測通常涉及復雜的訓練和測試流程,這需要對單個數據集的大量領域知識。根據目前非最大抑制二維目標檢測模型,提出了一種基于點云的三維目標檢測體系結構。我們的方法將三維目標檢測建模為動態圖上傳遞的消息,將DGCNN框架泛化到預測一組目標。在我們的構建中,我們去掉了通過對象置信聚合或非最大抑制進行后處理的必要性。為了便于從稀疏點云中進行目標檢測,我們還提出了一種定制的集到集蒸餾方法。該方法以置換不變的方式將教師模型和學生模型的輸出進行對齊,顯著簡化了三維檢測任務的知識提取。我們的方法在自動駕駛基準上達到了最先進的性能。我們還提供了豐富的檢測模型和蒸餾框架分析。

//www.zhuanzhi.ai/paper/a640a10b49d0bc63bf25776559035d43

付費5元查看完整內容

對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。

//www.zhuanzhi.ai/paper/8d2e55a9222e9441dfb651d02d3bdb1c

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

由不同的隨機初始化訓練的神經網絡權重集合,被稱為深度集合,實現了最先進的精度和校準。最近引入的批量集成提供了一個更有效的參數替換。在本文中,我們不僅設計了權值,而且設計了超參數,以改善這兩種情況下的技術狀況。為了獲得不依賴預算的最佳性能,我們提出了超深集合,這是一個簡單的過程,涉及對不同超參數的隨機搜索,它們本身在多個隨機初始化中分層。其強大的性能突出的好處,結合模型的重量和超參數多樣性。在批量集成和自調優網絡的基礎上,進一步提出了參數高效的超批量集成。該方法的計算和內存成本明顯低于典型的集成。在圖像分類任務上,通過MLP、LeNet和Wide ResNet 28-10架構,我們的方法在深度和批處理集成上都有所改進。

//www.zhuanzhi.ai/paper/e7ca9fa3f26bba7844c576a522f29c63

付費5元查看完整內容

我們提出了一種單一圖像視圖合成方法,允許從單一輸入圖像生成新的場景視圖。這是一個挑戰,因為它需要從一個單一的圖像全面理解3D場景。因此,目前的方法通常使用多幅圖像,在地面真實深度上訓練,或者局限于合成數據。為此,我們提出了一種新穎的端到端模型;它被訓練在真實的圖像上,沒有使用任何真實的3D信息。為此,我們引入了一種新的可微點云渲染器,用于將潛在的3D點云特征轉換為目標視圖。我們的細化網絡對投影特征進行解碼,插入缺失區域,生成逼真的輸出圖像。我們的生成模型內部的3D組件允許在測試時對潛在特征空間進行可解釋的操作,例如,我們可以從單個圖像動畫軌跡。與以前的工作不同,我們可以生成高分辨率的圖像,并推廣到其他輸入分辨率。我們在Matterport、Replica和RealEstate10K數據集上超越基線和前期工作。

付費5元查看完整內容
北京阿比特科技有限公司