3D資產生成正在受到大量關注,這一趨勢受到了最近文本引導的2D內容創造成功的啟發。現有的文本到3D方法使用預訓練的文本到圖片擴散模型在一個優化問題中使用或對其在合成數據上進行微調,這通常會導致非真實感的3D對象而沒有背景。在這篇論文中,我們提出了一種方法,利用預訓練的文本到圖片模型作為先驗,并學習在單一去噪過程中從真實世界數據生成多視圖圖像。具體來說,我們提議將3D體積渲染和跨幀注意力層集成到現有文本到圖片模型的U-Net網絡的每個塊中。此外,我們設計了一個自回歸生成過程,能在任何視點渲染更具3D一致性的圖像。我們在現實世界對象的數據集上訓練我們的模型,并展示了它生成具有各種高質量形狀和紋理在真實環境中實例的能力。與現有方法相比,我們方法生成的結果是一致的,并且具有較好的視覺質量(FID降低30%,KID降低37%)。
大型語言模型(LLMs)對于機器學習應用變得越來越重要。然而,使LLMs與我們的意圖保持一致可能是具有挑戰性的,特別是當我們想要生成優先于其他內容的內容,或者當我們希望LLM以某種難以描述的風格或語調響應時。為了應對這一挑戰,我們提出了一種使用對比例子來更好描述我們意圖的方法。這涉及提供展示真實意圖的正面例子,以及展示我們希望LLMs避免的特征的負面例子。負面例子可以從標記數據中檢索,由人類編寫,或由LLM本身生成。在生成答案之前,我們要求模型分析這些例子,以教會自己需要避免什么。這一推理步驟為模型提供了用戶需求的適當闡述,并引導它生成更好的答案。我們在合成和真實世界數據集上測試了我們的方法,包括StackExchange和Reddit,發現與標準的少次數提示相比,它顯著提高了性能。
近期,使用掩碼自編碼器的自監督學習因其能有效產生圖像或文本表示而日益受到歡迎,這些表示可以應用于多種下游任務,無需重新訓練。然而,我們觀察到當前的掩碼自編碼器模型在圖數據上缺乏良好的泛化能力。為了解決這一問題,我們提出了一個名為GiGaMAE的新型圖掩碼自編碼器框架。與現有的掩碼自編碼器不同,這些編碼器通過顯式重構原始圖組件(例如,特征或邊)來學習節點表示,在本文中,我們提議協同重構有信息性和整合性的潛在嵌入。通過考慮 encompassing 圖的拓撲結構和屬性信息的嵌入作為重建目標,我們的模型可以捕獲更為泛化和全面的知識。此外,我們引入了一個基于互信息的重建損失,該損失可以有效地重建多個目標。這個學習目標使我們能夠區分從單一目標中學到的獨有知識和多個目標共享的常見知識。我們在三個下游任務上評估了我們的方法,使用了七個數據集作為基準。大量實驗顯示,GiGaMAE相對于最先進的基線表現出色。我們希望我們的結果將為圖結構數據上的基礎模型設計提供啟示。我們的代碼可在以下網址找到: //github.com/sycny/GiGaMAE。
最近的工作表明,來自在線來源的非結構化文本(文檔)可以作為零樣本圖像分類的有用輔助信息。然而,這些方法需要訪問像維基百科這樣的高質量來源,并且僅限于單一來源的信息。在網絡規模的文本上訓練的大型語言模型(LLM)顯示出令人印象深刻的能力,可以將其所學的知識用于多種任務。本文提供了一種使用LLM為零樣本圖像分類模型提供文本監督的新視角。LLM提供了來自不同注釋器的一些文本描述作為示例。LLM以這些示例為條件,為每個類生成多個文本描述(稱為視圖)。所提出的模型I2MVFormer用這些類視圖學習多視圖語義嵌入,用于零樣本圖像分類。類的每個文本視圖都提供了補充信息,允許模型學習高度區分性的類嵌入。與基線模型相比,I2MVFormer更擅長使用LLM的多視圖文本監督。I2MVFormer在三個公共基準數據集上建立了一種新的無監督語義嵌入的零樣本圖像分類技術。
擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。
//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272
最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。
對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
最近的對比表示學習方法依賴于估計一個上下文的多個視圖之間的互信息。例如,我們可以通過應用數據增強獲得給定圖像的多個視圖,或者我們可以將序列分割成包含序列中某個步驟的過去和未來的視圖。MI的下界比較容易優化,但當評估大量的MI有強烈的低估偏見。我們提出將完整的MI估計問題分解為一個較小的估計問題。這個表達式包含一個無條件和條件MI項的和,每個測量總的MI的適度塊,這有助于通過對比界近似。為了使和最大化,我們給出了條件MI的一個比較下界,它可以有效地逼近。我們將我們的一般方法稱為互信息分解估計(DEMI)。我們證明了DEMI可以捕獲比標準的非分解對比界在綜合設置更大數量的MI,并在視覺域的對話生成學習更好的表示。
我們提出了GNNAutoScale (GAS),一個擴展任意消息傳遞GNN到大型圖的框架。GAS通過利用之前的訓練迭代的歷史嵌入來修剪計算圖的整個子樹,從而在不丟失任何數據的情況下,使輸入節點大小的GPU內存消耗保持不變。雖然現有的解決方案由于邊緣的子采樣或不可訓練的傳播而削弱了消息傳遞的表達能力,但我們的方法被證明能夠保持原始GNN的表達能力。我們通過提供歷史嵌入的近似誤差邊界來實現這一點,并展示了如何在實踐中加強它們。經驗表明,我們的框架PyGAS (PYTORCH geometry 的一個易于使用的擴展)的實際實現是既快速又內存效率高的,學習表現性節點表示,其性能與非擴展對應的性能非常相似,并在大規模圖上達到了最先進的性能。
圖卷積網絡(GCN)已經成為協同過濾的最新技術。然而,其推薦的有效性的原因還沒有很好地理解。現有的將GCN用于推薦的工作缺乏對GCN的深入消融分析,GCN最初是為圖分類任務而設計的,并配備了許多神經網絡操作。然而,我們實證發現,兩種最常見的設計-特征轉換和非線性激活-對協同過濾的性能貢獻很小。更糟糕的是,包括他們增加了訓練的難度,降低了推薦的效果。在這項工作中,我們的目標是簡化GCN的設計,使其更簡潔,更適合推薦。我們提出了一個新的模型LightGCN,它只包含GCN中最重要的組件——鄰域聚合——用于協同過濾。具體來說,LightGCN通過在用戶-項目交互圖上線性傳播用戶和項目嵌入來學習它們,并使用在所有層上學習到的嵌入的加權和作為最終的嵌入。這種簡單、線性、簡潔的模型更容易實現和訓練,在完全相同的實驗設置下,比神經圖協同過濾(NGCF)——一種最先進的基于GCN的推薦模型——有了顯著的改進(平均大約16.0%的相對改進)。從分析和實證兩方面進一步分析了簡單LightGCN的合理性。我們的實現在TensorFlow和PyTorch中都可用。