亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

開放詞匯3D物體檢測最近因其在自動駕駛和機器人領域的廣泛應用而受到廣泛關注,旨在有效識別之前未見過的新類別。然而,現有的基于點云的開放詞匯3D檢測模型受限于高昂的部署成本。在本研究中,我們提出了一種新穎的開放詞匯單目3D物體檢測框架,稱為OVM3D-Det,該框架僅使用RGB圖像訓練檢測器,使其在成本效益和可擴展性方面具有優勢,并能夠利用公開數據。與傳統方法不同,OVM3D-Det不需要高精度的LiDAR或3D傳感器數據作為輸入,也不需要用于生成3D邊界框。相反,它采用開放詞匯的2D模型和偽LiDAR自動標注RGB圖像中的3D物體,促進了開放詞匯單目3D檢測器的學習。然而,直接使用偽LiDAR生成的標簽訓練3D模型是不夠的,因為從噪聲點云中估計的邊界框往往不精確,且嚴重遮擋的物體會進一步影響效果。為了解決這些問題,我們提出了兩項創新設計:自適應偽LiDAR侵蝕和基于大語言模型的先驗知識進行的邊界框精細調整。這些技術有效地校準了3D標簽,并使得僅用RGB圖像進行3D檢測器訓練成為可能。大量實驗表明,OVM3D-Det在室內和室外場景中均優于基線方法。代碼將公開發布。

付費5元查看完整內容

相關內容

在對大規模視頻-語言模型(VLMs)進行預訓練的過程中,盡管在各種下游視頻-語言任務中展示了巨大的潛力,現有的VLMs仍可能存在一些常見的局限性,例如粗粒度的跨模態對齊、時間動態的欠建模以及視頻-語言視圖的脫節。在本研究中,我們針對這些問題提出了一種細粒度的結構時空對齊學習方法(即Finsta),以增強VLMs的表現。

首先,我們使用細粒度的場景圖(SG)結構來表示輸入文本和視頻,并將這兩種模態統一到一個整體場景圖(HSG)中,以橋接兩種模態之間的差異。然后,我們構建了一個基于SG的框架,其中文本場景圖(TSG)通過圖Transformer進行編碼,而視頻動態場景圖(DSG)和整體場景圖(HSG)則通過一種新穎的循環圖Transformer進行空間和時間特征傳播。此外,我們還設計了一種時空高斯差分圖Transformer,以增強對物體在空間和時間維度上變化的感知。

接下來,基于TSG和DSG的細粒度結構特征,我們分別進行以物體為中心的空間對齊和以謂詞為中心的時間對齊,從而在空間性和時間性上增強視頻-語言的基礎。我們將該方法設計為一個即插即用的系統,可以集成到現有的經過良好訓練的VLMs中以進一步增強表示能力,而無需從頭開始訓練或在下游應用中依賴場景圖注釋。

在6個代表性的視頻-語言建模任務和12個數據集的標準和長視頻場景中,Finsta在細調和零樣本設置中持續改進了現有的13個高性能VLMs,并顯著刷新了當前的最先進的終端任務性能。

//www.zhuanzhi.ai/paper/221d21a6861c4635f618bc1cc84cfbd0

付費5元查看完整內容

我們提出了一種新算法,跨情境課程(CEC),以提高Transformer智能體的學習效率和泛化能力。CEC的核心是將跨情境的經驗置入Transformer的上下文中,從而形成課程的基礎。通過順序地構建在線學習試驗和混合質量的示范,CEC構建了封裝學習進展和跨情境中的熟練度提高的課程。這種協同作用結合了Transformer模型的強大模式識別能力,從而提供了一個強大的跨情境關注機制。在兩個代表性的場景下展示了CEC的有效性:一個涉及多任務強化學習與離散控制,如在DeepMind Lab中,課程捕捉到在個體和逐漸復雜的設置中的學習進展;另一個涉及模仿學習與混合質量的數據進行連續控制,如在RoboMimic中,課程捕捉到示范者專業知識的提高。在所有情況下,由CEC產生的策略都表現出卓越的性能和強大的泛化能力。為了促進Transformer智能體學習的研究,代碼已在項目網站cec-agent.github.io上開源。

付費5元查看完整內容

由于離線多智能體強化學習面臨著分布偏移問題和多智能體環境中常見的高維度問題的耦合效應,所以非常具有挑戰性,導致動作超出分布(OOD)和價值過高估計現象極為嚴重。為了減輕這個問題,我們提出了一種新的多智能體離線RL算法,名為CounterFactual Conservative Q-Learning(CFCQL),用于進行保守的價值估計。CFCQL不是將所有智能體視為高維單一實體并直接對其應用單一智能體方法,而是以反事實的方式為每個智能體分別計算保守正則化,然后線性組合它們,以實現整體保守價值估計。我們證明,盡管它仍然具有低估特性和單一智能體保守方法的性能保證,但引入的正則化和安全政策改進邊界獨立于智能體數量,因此理論上優于上述直接處理方法,特別是當智能體數量較大時。我們還在包括離散和連續動作設置在內的四個環境中進行了實驗,這些環境包括現有的和我們制作的數據集,實驗表明CFCQL在大多數數據集上勝過現有方法,甚至在其中一些數據集上以顯著優勢勝出。

//www.zhuanzhi.ai/paper/87817b0ed2fee90a1f0cb765e25d5a38

付費5元查看完整內容

近期,使用掩碼自編碼器的自監督學習因其能有效產生圖像或文本表示而日益受到歡迎,這些表示可以應用于多種下游任務,無需重新訓練。然而,我們觀察到當前的掩碼自編碼器模型在圖數據上缺乏良好的泛化能力。為了解決這一問題,我們提出了一個名為GiGaMAE的新型圖掩碼自編碼器框架。與現有的掩碼自編碼器不同,這些編碼器通過顯式重構原始圖組件(例如,特征或邊)來學習節點表示,在本文中,我們提議協同重構有信息性和整合性的潛在嵌入。通過考慮 encompassing 圖的拓撲結構和屬性信息的嵌入作為重建目標,我們的模型可以捕獲更為泛化和全面的知識。此外,我們引入了一個基于互信息的重建損失,該損失可以有效地重建多個目標。這個學習目標使我們能夠區分從單一目標中學到的獨有知識和多個目標共享的常見知識。我們在三個下游任務上評估了我們的方法,使用了七個數據集作為基準。大量實驗顯示,GiGaMAE相對于最先進的基線表現出色。我們希望我們的結果將為圖結構數據上的基礎模型設計提供啟示。我們的代碼可在以下網址找到: //github.com/sycny/GiGaMAE。

付費5元查看完整內容

在這篇論文中,我們提出了用于學習和應用多源知識圖譜(KG)嵌入的“聯合預訓練和局部重訓”框架。我們的動機是,不同的KG包含可以改進KG嵌入和下游任務的互補信息。我們在鏈接的多源KG上預訓練一個大型的教師KG嵌入模型,并將知識蒸餾到針對特定任務的KG的學生模型中。為了實現不同KG之間的知識轉移,我們使用實體對齊來構建一個連接預訓練KG和目標KG的鏈接子圖。這個鏈接子圖被重新訓練,進行從教師到學生的三級知識蒸餾,即特征知識蒸餾,網絡知識蒸餾和預測知識蒸餾,以生成更有表現力的嵌入。教師模型可以被重復用于不同的目標KG和任務,無需從頭開始訓練。我們進行了大量的實驗來展示我們的框架的有效性和效率。

//www.zhuanzhi.ai/paper/7c51aae482b4dfe47e2d387915dbcf24

付費5元查看完整內容

由于大規模模型的端到端訓練,視覺和語言預訓練的成本變得越來越令人望而卻步。本文提出BLIP-2,一種通用而有效的預訓練策略,從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺-語言預訓練。BLIP-2通過一個輕量級的查詢Transformer彌合了模式差距,該Transformer分兩個階段進行預訓練。第一階段從凍結的圖像編碼器中引導視覺-語言表示學習。第二階段從一個凍結的語言模型中引導視覺到語言的生成學習。BLIP-2在各種視覺語言任務上取得了最先進的性能,盡管可訓練參數比現有方法少得多。例如,所提出模型在零樣本VQAv2上的表現比Flamingo80B高出8.7%,可訓練參數減少了54倍。還展示了該模型的零樣本圖像到文本生成的新興能力,可以遵循自然語言指令。

//www.zhuanzhi.ai/paper/07f6ce13e18cd1dc714cf3d3f88d1e56

付費5元查看完整內容

知識圖譜(KG)嵌入已經成為不完備知識圖譜推理的主流方法,但由于其固有的淺層和靜態架構的限制,難以處理日益受到關注的復雜邏輯查詢,包括邏輯運算符、imputed邊、多源實體和未知中間實體。在這項工作中,我們提出了知識圖譜轉換器(kgTransformer),它具有掩碼的預訓練和微調策略。我們設計了一種KG三重變換方法,使Transformer能夠處理KGs,并通過混合專家(mix -of- experts, MoE)稀疏激活進一步加強了這種方法。然后,我們將復雜的邏輯查詢表述為掩碼預測,并引入兩階段掩碼訓練前策略以提高可移植性和泛化性。在兩個基準測試上的大量實驗表明,kgTransformer在9個域內和域外推理任務上可以始終優于基于KG嵌入的基準和高級編碼器。此外,kgTransformer可以通過提供完整的推理路徑來解釋給定的答案,從而具有可解釋性。

//keg.cs.tsinghua.edu.cn/jietang/publications/KDD22-Liu-et-al-KG-Transformer.pdf

付費5元查看完整內容

在線連續學習(Online continuous learning, Online CL)研究從無任務邊界的在線數據流中學習順序任務的問題,旨在適應新數據的同時緩解對過去任務的災難性遺忘。本文提出了一種對比視覺Transformer(CVT)框架,該框架設計了一種基于Transformer結構的focal對比學習策略,以實現在線學習的更好的穩定性-可塑性權衡。具體地說,我們設計了一種新的外部注意力機制,隱式地捕捉了之前的任務信息。此外,每節課都有可學習的重點,可以積累上節課的知識,緩解遺忘。基于可學習的重點,我們設計了焦點對比損失,以重新平衡對比學習之間的新和過去的課程和鞏固以前學習表征。此外,CVT包含一個雙分類器結構,用于解耦學習電流類和平衡所有觀察類。大量的實驗結果表明,我們的方法在在線CL基準測試中以更少的參數實現了最先進的性能,并有效地緩解了災難性的遺忘。

//arxiv.org/abs/2207.13516

付費5元查看完整內容

會話情緒識別(ERC)的目標是檢測每個話語的情緒標簽。最近的研究已經證明,以有意義的順序輸入訓練實例,而不是隨機考慮它們,可以提高模型的性能,基于此,我們提出了一個ercorient混合課程學習框架。我們的框架包括兩個課程:(1)對話水平課程(CC);(2)話語水平課程(UC)。在CC中,我們基于對話中的“情感轉移”頻率構建難度測量器,然后根據難度測量器返回的難度分數將對話安排在“易到難”模式中。UC則從情緒相似度的角度來實現,逐步增強了模型識別困惑情緒的能力。在提出的模型無關的混合課程學習策略下,我們觀察到現有的各種ERC模型的顯著性能提升,并且我們能夠在四個公共ERC數據集上實現新的最先進的結果。

//www.zhuanzhi.ai/paper/99e93cf8c4fdca76e734c63a16d18e94

付費5元查看完整內容

人工智能技術在醫學影像領域的應用是醫學研究的熱點之一。然而,這一領域最近的成功主要依賴于大量仔細注釋的數據,而對醫學圖像進行注釋是一個昂貴的過程。在本文中,我們提出了一種新的方法,稱為FocalMix,據我們所知,這是第一個利用半監督學習(SSL)的最新進展來進行3D醫學圖像檢測的方法。我們對兩個廣泛應用的肺結節檢測數據集LUNA16和NLST進行了廣泛的實驗。結果表明,與最先進的監督學習方法相比,我們提出的SSL方法可以通過400個未標記的CT掃描實現高達17.3%的實質性改進。

付費5元查看完整內容
北京阿比特科技有限公司