亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。

自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。

在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。

然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。

在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。

本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。

基于PLM的CTG主要方法

 從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。

基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。

結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。

付費5元查看完整內容

相關內容

自然語言處理(NLP)的目標是促進計算機與人類語言之間的通信,使計算機能夠處理和分析大量的自然語言數據。語言的層次結構長期以來一直是語義分析的關鍵方面,并被認為是可以增強NLP任務結果的基礎知識。納入層次結構可以幫助NLP模型理解語言組件之間的關系并有效傳達意義。 本論文旨在增強語言模型對文本層次結構的理解。為此,我們建議使用一個深層次的RNN模型,該模型考慮到層次信息并使用潛在指標來表示層次結構。此外,采用了一個層次注意機制來提高模型的性能和可解釋性。

為了解決計算復雜性并優化潛在指標,我們提出了各種統計訓練方法。我們進一步研究了如何將模型擴展到一個序列到序列的模型,并提供了一個預訓練模型的實用方法和一個層次解碼方法,以增強其在文本生成任務(如翻譯)中的性能。 具體來說,我們的方法包括以下步驟:首先,我們區分顯式和隱式的層次信息,并通過使用多尺度RNN和層次注意機制創建一個納入這兩種信息的層次RNN模型。其次,為了進一步改進模型,我們通過期望最大化(EM)算法整合潛在指標,使用Bootstrap抽樣方法減少計算復雜性,并實施分層訓練以進行更深層次的RNN。第三,我們將層次語言模型擴展到翻譯任務的層次序列到序列模型。為了克服在生成過程中潛在指標的不穩定性,我們使用遮罩訓練來預訓練序列到序列模型,并提議一個結合遮罩預測和層次信息的層次解碼方法。

此外,我們通過在各種NLP任務中的表現展示了我們方法的優越性。我們的方法達到了與大型語言模型相當的結果,同時提供了更高的可解釋性。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

基礎模型如ChatGPT和GPT-4由于其新興的能力,如少量提示、多步推理、指令跟隨和模型校準,在學術界和工業界都受到了極大的關注。這樣的能力過去只能通過特別設計的模型獲得,例如使用知識圖譜的模型,但現在可以通過基礎模型在更大的規模上實現。

隨著基礎模型的能力的增加,它們的大小也以遠遠超過摩爾定律的速度增長。例如,2018年發布的BERT大型模型是一個334M參數模型。而2022年發布的Pathways Language Model (PaLM)是一個540B參數模型,這在短短4年內增加了超過三個數量級。基礎模型的訓練需要大量的計算能力。例如,使用多個A100芯片的單一最先進的GPU機器訓練BERT模型可能需要幾天,而在大型多實例GPU集群上訓練GPT-3模型可能需要幾個月的時間來完成估計的3*10^23 flops。

本教程提供了對支持新AI芯片的基礎模型訓練和推理的最新進展的概述。它回顧了建模方面的進展,重點是Transformer架構,并介紹了支持訓練和服務基礎模型的系統架構。這包括編程語言框架如PyTorch和TensorFlow、圖編譯器、3D并行性,以及像GPU H100、TPU和Trainium這樣的加速器。最后,該教程介紹了我們使用不同系統訓練基礎模型的經驗。

1.1 從模型到比特

1.1.1 算法概覽。 我們涵蓋了廣泛使用的深度學習(DL)架構,包括遞歸和卷積神經網絡,以及穩定的擴散模型和Transformer架構(例如,僅編碼器、僅解碼器、編碼器-解碼器和多模態模型)。我們概述了常見的訓練和推理任務,如預訓練、微調、推理和評估。我們介紹了高級建模技術,如不同的注意機制、訓練目標及其實現細節。 1.1.2 系統概覽。 有效地訓練大規模的基礎模型需要在所有層面上都有強大的系統支持。在前端,我們需要在DL框架中適當地表示模型和分布式處理策略。在中端,模型執行需要廣泛的性能優化,如圖重寫、內核融合、內核優化、計算和通信重疊等。在后端,模型將在某種硬件上運行,該硬件按照某種網絡拓撲連接。在這個環節中,我們將概述每一層中出現的挑戰。

1.2 使用模型并行化訓練基礎模型

在這一節中,我們將討論用于跨多臺機器訓練擁有數十億參數的模型的現代分布式訓練技術,包括完全分片數據并行(FSDP)[16, 15]、Deepspeed Zero [11, 10]、張量并行化[4, 7, 14]和流水線并行化[3, 6]。這些技術在使大型神經網絡的訓練成為可能方面起到了關鍵的作用。我們將研究和比較與特定模型架構緊密集成的方法的局限性,以及依賴于底層ML框架快速演變的內部接口的技術。最后,我們將介紹可以用來使用這些技術訓練模型的開源庫。

1.3 案例研究

在四個案例研究中,我們將介紹不同基礎模型的特點以及在新興AI加速器上運行它們時出現的挑戰。我們將介紹包括BERT[2]、RoBERTa[5]和DistilBERT[13]在內的“BERT系列”模型、GPT2[8]和GPT-3[1]、文本到文本轉移變換器(T5)[9]和穩定擴散[12]。在對每種架構簡要介紹之后,我們將分享我們在不同加速器上訓練這些模型的經驗。我們將以對有興趣在新興AI芯片上訓練或評估模型的實踐者的實際建議和注意事項來結束本教程。

講者:

Jun (Luke) Huan 是AWS AI實驗室的首席科學家。煥博士的研究領域是AI和數據科學。他已經發表了超過160篇的同行評審的文章并指導了11名博士學生完成學業。在加入AWS之前,他在百度研究院工作,并曾創建了一個AI初創公司StylingAI Inc。在進入工業界之前,他在堪薩斯大學的EECS部門擔任教授。煥博士還在美國的NSF工作過,負責其大數據項目。 Yida Wang 是亞馬遜的AWS AI團隊的首席科學家。他的研究領域包括系統、高性能計算和大數據分析。他目前專注于深度學習系統的研究,特別是編譯和優化深度學習模型。 Youngsuk Park 是AWS AI實驗室的高級應用科學家。他的研究興趣集中在機器學習、基礎模型、優化和決策制定等方面。在加入AWS之前,他在Stanford University完成了電氣工程的碩士和博士學位。 Aashiq Muhamed 在AWS AI實驗室工作,專注于優化深度學習系統。在加入AWS AI實驗室之前,他在Amazon Search工作,并在Stanford University進行研究生學習。 Rahul Solanki 在亞馬遜的AWS Neuron團隊工作。他目前的工作重點是構建可以高效地在AI加速器上進行深度學習模型訓練和推理的框架和工具。他從Georgia Institute of Technology獲得了碩士學位。 Christian Bock 是AWS AI實驗室的應用科學家。他的研究興趣主要集中在語言模型的可解釋性以及其在各個領域的應用上。他在ETH Zurich完成了博士學位。

付費5元查看完整內容

Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。

Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

最近,語義技術和人工智能(AI)的結合為構建能夠識別更精確結果的智能系統提供了新的技術。語義人工智能在知識圖譜中處于這一創新發展的前沿,通過圖形映射或基于語料庫的本體學習,揭示了機器學習在擴展知識圖譜中的作用。通過符號AI和統計AI的結合,如基于機器學習的實體提取、文本挖掘方法、語義知識圖譜和相關推理能力,確保高效的結果。本書是首次探索語義人工智能和知識圖譜的著作。內容涵蓋了從神經符號AI、可解釋AI和深度學習到知識發現與挖掘,以及知識表示與推理等多個主題。作為對人工智能和數據挖掘領域的研究人員和初學者學者的重要貢獻,本書是對語義人工智能在知識圖譜中的開創性探索。

付費5元查看完整內容

多模態表示學習是一種學習從不同模態及其相關性中嵌入信息的技術,已經在視覺問答(Visual Question Answering, VQA)、視覺推理自然語言(Natural Language for Visual Reasoning, NLVR)和視覺語言檢索(Vision Language Retrieval, VLR)等領域取得了顯著的成功。在這些應用中,來自不同模態的跨模態交互和互補信息對于高級模型執行任何多模態任務至關重要,如理解、識別、檢索或優化生成。研究人員提出了不同的方法來解決這些任務。

//www.zhuanzhi.ai/paper/e354713123ff3c4d72713e37300d0784

**基于transformer的架構的不同變體在多種模態上表現出色。本綜述介紹了關于深度學習多模態架構的進化和增強,以處理各種跨模態和現代多模態任務的文本、視覺和音頻特征的全面文獻。**本文總結了(i)最近任務特定的深度學習方法,(ii)預訓練類型和多模態預訓練目標,(iii)從最先進的預訓練多模態方法到統一架構,以及(iv)多模態任務類別和未來可能的改進,可以設計出更好的多模態學習。為新研究人員準備了一個數據集部分,涵蓋了預訓練和微調的大多數基準。最后,探討了面臨的主要挑戰、差距和潛在的研究方向。與我們的綜述相關的不斷更新的論文列表保存在

1. 引言

**多模態系統利用兩個或多個輸入模態,如音頻、文本、圖像或視頻,來產生與輸入不同的輸出模態。**跨模態系統是多模態系統的一個分支,它利用一種模態的信息來增強另一種模態的性能。例如,多模態系統將使用圖像和文本模態來評估情況并執行任務,而跨模態系統將使用圖像模態來輸出文本模態[1,2]。視聽語音識別(AVSR)[3]、檢測模因[4]中的宣傳和視覺問答(VQA)[5]都是多模態系統的例子。多模態表示學習技術通過分層處理原始異構數據來縮小不同模態之間的異構鴻溝。來自不同模態的異構特征以上下文信息[6]的形式提供額外的語義。因此,互補信息可以通過多種模態學習到。例如,視覺模態可以通過在AVSR中提供[7]唇動來幫助語音識別。最近的深度學習方法的高級變體通過在表示空間中映射不同的模態,解決了經典的多模態挑戰(相關性、翻譯、對齊、融合)。

近年來,大量針對特定任務的深度學習方法提升了不同多模態任務的性能[8]。最近,由于語義豐富的表示和大規模公開可用模型[9],自然語言處理(NLP)和計算機視覺(CV)的預訓練和微調的實現得到了最大的關注。**本文回顧了深度多模態學習方法的演變,并討論了使主干對各種下游任務具有魯棒性所需的預訓練的類型和目標。**大多數預訓練方法都基于Transformer,這提出了統一架構的想法,以處理所有下游任務的所有模態[10]。本綜述全面介紹了最近幾種預訓練和統一架構的方法,以及它們在基準、應用和下游任務評估上的性能。

**去年,已經發表了一些關于視覺語言預訓練的研究[11,12]。相比之下,我們涵蓋了在最近的工作[13]中展示的視覺、語言和音頻預訓練模型的架構細節。**除了討論預訓練類型外,我們還回顧了預訓練目標的通用和多模態版本。此外,我們總結了最近的統一架構(通用模型),這些架構消除了對不同下游任務的微調,最終減少了時間和計算復雜性。與最近的調研相反,我們更關注由視覺和音頻模式增強的NLP應用,例如情感分析、文檔理解、假新聞檢測、檢索、翻譯和其他推理應用。圖1展示了本次調研中包含的深度學習多模態論文的分類百分比。該柱狀圖顯示了每年互聯網上深度學習多模態方法的發展和可用性。本次調研的貢獻如下: 我們對多模態表示學習技術進行了全面的調研,以有效的方式彌合語言、視覺和音頻輸入之間的差距。

解決多模態的特定任務和基于transformer的預訓練架構的發展。 * 詳細闡述了預訓練類型、多模態學習的高級預訓練目標、詳細的架構討論和比較。 * 統一架構的開發,以解決所有下游任務的多種模式進行調研。 * 我們開發了深度多模態架構和復雜多模態應用的分類。 * 數據集部分描述了用于預訓練、微調和評估多模態方法的所有基準的綜合信息,為初學者提供了現成的詳細信息。 * 最后,闡述了該領域的主要挑戰、開放缺口和可能的未來預測。

2. 多模態深度學習方法

本節介紹了多模態架構的眾多變體,主要分為特定任務架構和預訓練-微調架構(管道如圖2所示)。圖3展示了第3節的分類。第3.1節是本研究中提到的任務的首字母縮略詞。第3.2節全面總結了特定任務的方法,這些方法是近年來轉變為大規模預訓練方法的先進多模態方法的基礎。第3.3節演示了在多模態數據集上訓練的預訓練過程、類型、目標和SOTA框架,以執行增強的NLP和跨模態任務。此外,本文最后還詳細介紹了最近獲得關注的統一體系結構。第3.4小節對SOTA方法在各種多模態任務上產生的結果進行了比較討論。

3. 多模態應用

本節展示了由深度學習架構增強的多模態應用程序的分類細節,如圖4所示。多模態任務分為主要類別:理解、分類、檢索和生成。針對每個多模態應用,討論了最佳性能架構的基準、評估指標、描述和比較。

付費5元查看完整內容

深度監督學習算法通常需要大量的標記樣本才能達到令人滿意的性能。為避免收集和標記過多樣本帶來的昂貴成本,提出自監督學習(SSL)作為無監督學習的一個子集,在沒有任何人工標注標簽的情況下,從大量未標記樣本中學習良好的特征。SSL是近年來的研究熱點,相關算法層出不窮。然而,很少有全面的研究解釋不同SSL變體之間的聯系以及它們是如何演變的。**文中試圖從算法、理論、應用、3個主要趨勢和開放問題等方面對SSL的各種方法進行綜述。**首先,詳細介紹了大多數SSL算法的動機,并比較了它們的共性和差異;其次,研究了與SSL相關的理論問題。討論了SSL在圖像處理、計算機視覺(CV)以及自然語言處理(NLP)等領域的典型應用;最后討論了SSL的3個主要發展趨勢和有待進一步研究的問題。在//github.com/guijiejie/SSL上可以找到一些有用的材料。

1. 引言深度監督學習算法在計算機視覺(computer vision, CV)和自然語言處理(natural language processing, NLP)等領域取得了令人滿意的性能。監督學習算法通常需要大量的標記樣本才能獲得更好的性能。由于以下兩個主要原因,在ImageNet等大規模數據庫上訓練的模型被廣泛用作預訓練模型,然后進行微調以用于其他任務(表1)。首先,在不同的大規模數據庫上學習到的參數提供了一個很好的起點。因此,在其他任務上訓練的網絡可以更快地收斂。其次,在大規模數據庫上訓練的網絡已經學習到相關的層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務中的示例數量較少或訓練標簽有限時。**不幸的是,在許多真實的數據挖掘和機器學習應用中,雖然可以找到許多未標記的訓練樣本,但通常只有有限的標記樣本。**標記的示例通常是昂貴、困難或耗時的,因為它們需要有經驗的人類注釋人員的努力。例如,在web用戶特征分析中,可以很容易地收集到大量的web用戶特征,但標注這些數據中的非盈利用戶或盈利用戶需要檢查、判斷,甚至是耗時的跟蹤任務,需要有經驗的人工評估人員執行,成本非常高。另一方面,在醫療領域,無標簽樣本可以很容易地從常規體檢中獲得。然而,對如此多的病例進行逐一診斷,給醫學專家帶來了沉重的負擔。例如,為了進行乳腺癌診斷,放射科醫生必須為大量容易獲得的高分辨率乳房x光片中的每個焦點分配標簽。這個過程通常非常低效和耗時。此外,監督學習方法存在虛假關聯和泛化誤差,容易受到對抗攻擊。為了緩解監督學習的兩個局限性,許多機器學習范式被提出,如主動學習、半監督學習和自監督學習(SSL)。本文主要討論SSL。SSL算法被提出,用于從大量未標記的實例中學習良好的特征,而無需使用任何人工標注。SSL的一般流程如圖1所示。在自監督預訓練階段,設計預定義的前置任務供深度學習算法求解,并根據輸入數據的某些屬性自動生成用于前置任務的偽標簽。然后,訓練深度學習算法來學習解決前置任務;在自監督預訓練過程完成后,學習到的模型可以作為預訓練模型進一步遷移到下游任務(特別是當只有相對較少的樣本可用時),以提高性能并克服過擬合問題。

由于在自監督訓練期間不需要人工標注來生成偽標簽,SSL算法的一個主要優點是它們可以充分利用大規模未標記數據。使用這些偽標簽進行訓練的自監督算法取得了有希望的結果,自監督和監督算法在下游任務中的性能差距縮小了。Asano et al.[1]表明,即使在單一圖像上,SSL也可以令人驚訝地產生泛化良好的低級特征。SSL[2] -[19]最近受到越來越多的關注(圖2)圖靈獎獲得者,在第八屆國際學習表征會議(ICLR 2020)上做了主題演講,他的演講題目是“the future is self - supervised”。Yann LeCun和Yoshua Bengio都獲得了圖靈獎,他們說SSL是人類級別的智能[20]的關鍵。谷歌學者表示,目前已經發表了大量與SSL相關的論文。例如,2021年發表了大約18,900篇與SSL相關的論文,每天大約有52篇論文,或每小時超過兩篇論文(圖2)。為了防止研究人員迷失在如此多的SSL論文中,并整理最新的研究成果,我們試圖及時提供這一主題的調研。

本文的其余部分組織如下。第2-7節從算法、理論、應用、三個主要趨勢、開放問題和性能比較的角度介紹SSL,如表2所示。最后,第8節對調研進行了總結。

付費5元查看完整內容

機器閱讀理解(MRC)旨在教機器閱讀和理解人類語言,這是自然語言處理(NLP)的長期目標。隨著深度神經網絡的爆發和上下文語言模型(contextualized language models-CLM)的發展,MRC的研究經歷了兩個重大突破。作為一種現象,MRC和CLM對NLP社區有很大的影響。在本次調查中,我們提供了有關MRC的全面,比較性綜述,涵蓋了有關以下方面的總體研究主題:1)MRC和CLM的起源和發展,尤其著重于CLM的作用;2)MRC和CLM對NLP社區的影響;3)MRC的定義,數據集和評估;4)從人類認知過程的角度出發,從兩階段編碼器-解碼器解決架構的角度來看,一般的MRC架構和技術方法;5)以前的重點,新興的話題以及我們的經驗分析,其中我們特別關注在MRC研究的不同時期有效的方法。我們建議對這些主題進行全視圖分類和新的分類法。我們得出的主要觀點是:1)MRC促進了從語言處理到理解的進步;2)MRC系統的快速改進極大地受益于CLM的開發;3)MRC的主題正逐漸從淺的文本匹配轉變為認知推理。

本教程對機器閱讀理解進行了全面和比較的綜述,旨在訓練機器對真實數據的閱讀理解能力,這是人工智能的一個主要目標。討論涵蓋了背景、發展、影響、數據集、典型的和最先進的技術、經驗評估和最近的趨勢,特別關注最近的高級預先訓練的語言模型的作用。

付費5元查看完整內容

在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。

在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。

在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。

//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。

然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。

在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。

最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。

根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。

在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。

為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:

  • 我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。

  • 我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。

  • 我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。

  • 我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。

  • 我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。

付費5元查看完整內容

在計算機視覺領域,對抗網絡(GANs)在生成逼真圖像方面取得了巨大的成功。最近,基于GAN的技術在基于時空的應用如軌跡預測、事件生成和時間序列數據估算中顯示出了良好的前景。雖然在計算機視覺中對GANs提出了一些評論,但沒有人考慮解決與時空數據相關的實際應用和挑戰。在這篇文章中,我們對GANs在時空數據方面的最新發展進行了全面的回顧。我們總結了在時空數據中流行的GAN架構,以及用GANs評估時空應用程序性能的常見做法。最后,提出了未來的研究方向,希望能對相關研究者有所幫助。

//arxiv.org/abs/2008.08903

概述:

時空屬性在交通運輸(shao2017travel)、社會科學(kupilik2018spatio)、犯罪學(rumi2019crime)等各個領域都很常見,其中,傳感器和大數據的激增迅速改變了時空屬性。大量的時空(ST)數據需要適當的處理技術來建立有效的應用。通常,處理表格數據或圖形數據的傳統方法在應用于時空數據集時表現不佳。原因主要有三層(wang2019deep): (1) ST數據通常是連續空間,而表或圖數據往往是離散的; (2) ST數據通常同時具有空間和時間屬性,其中數據相關性較復雜,傳統技術難以捕捉; (3) ST數據具有高度的自相關性,通常不像傳統數據那樣獨立生成數據樣本。

隨著深度學習的普及,許多神經網絡(如卷積神經網絡(CNN) (krizhevsky2012imagenet),遞歸神經網絡(RNN) (mikolov2010recurrent), Autoencoder (AE) (hinton2006 reduce),圖卷積網絡 (GCN) (kipf2016gcn))被提出并在ST數據建模方面取得了顯著的成功。ST數據的深度學習之所以被廣泛采用,是因為它在層次特征工程能力方面顯示出了潛力。在本次調研中,我們關注的是深度學習領域最有趣的突破之一——生成對抗網絡(GANs) (goodfellow2014generate)及其在ST數據方面的潛在應用。

GAN是一種對抗學習生成真實數據的生成模型。它由兩個組件(goodfellow2014)組成:generator G和discriminator D。G捕獲數據分布并從潛在變量z生成真實數據,D估計來自真實數據空間的數據概率。GAN采用了零和非合作博弈的概念,其中G和D被訓練為相互競爭,直到達到納什均衡。GAN在各領域獲得了相當大的關注,包括圖像(例如,圖像翻譯(isola2017image)超分辨率(ledig2017photo),聯合圖像生成(liu2016coupled),對象檢測(ehsani2018segan),改變面部屬性(donahue2017semantically))、視頻(例如,視頻一代(vondrick2016generating)),自然語言處理(例如,文本生成(lin2017adversarial),文本圖像(zhang2017stackgan))。

然而,直接使用圖像或視頻生成并不適用于ST數據的建模,如交通流、區域降雨和行人軌跡。一方面,圖像生成通常考慮輸入和輸出圖像之間的外觀,不能充分處理空間變化。另一方面,視頻生成考慮了圖像間的空間動態,但是,當對下一幅圖像的預測高度依賴于前一幅圖像時,時間變化沒有得到充分考慮(saxena2019d)。因此,將GANs成功應用于ST數據需要探索新的方法。

最近,GANs開始應用于ST數據。GANs在ST數據上的應用主要包括生成去識別的時空事件(saxena2019d);jin2019crime),時間序列歸責(luo2018multivariate;,軌跡預測(gupta2018;kosaraju2019), 圖表示 (wang2018;bojchevski2018)等。盡管GANs在計算機視覺領域取得了成功,但將GANs應用于ST數據預測具有挑戰性(saxena2019d)。例如,利用額外的信息,如景點(PoI),天氣信息在以前的研究中仍然是未觸及的。此外,與研究者可以依靠對生成的實例進行可視化檢查的圖像不同,GANs對ST數據的評估仍然是一個未解決的問題。在ST數據上采用傳統的GAN評價指標(saxena2019d;esteban2017real)。

一些研究回顧了最近關于ST數據或GAN在不同領域的應用問題的文獻。與從傳統關系數據挖掘模式相比,建模ST數據特別具有挑戰性,因為除了實際測量之外,它還具有空間和時間屬性。Atluri等人(atluri2018spatio)回顧了ST數據建模的流行問題和方法。提供了不同類型ST數據的分類、定義和描述數據實例的方法,以確定實際應用程序中任何類型ST數據的相關問題。他們還列出了通常研究的ST問題,并回顧了處理不同ST類型的獨特屬性的問題。Want等人(wang2019deep)回顧了將深度學習應用于ST數據挖掘任務的最新進展,并提出了一個利用深度學習模型解決ST數據建模問題的流程。Hong等人(hong2019生成)從不同的角度解釋了GANs,并列舉了常用的用于多任務的GAN變體。在(pan2019recent)中討論了GANs的最新進展,Wang et al. (wang2019生)提出了一種用于計算機視覺領域的GANs分類。特別是,Yi等人(yi2019生)回顧了GANs在醫學成像中的最新進展。

然而,上述工作回顧了ST數據建模問題或GANs在計算機視覺領域的最新進展。盡管許多研究者(saxena2019d;esteban2017real;gupta2018social;luo20192;已經用GANs對ST數據進行建模,在這個領域還沒有相關的調查來解決在ST數據應用中使用GANs的潛力。本文第一次全面概述了ST數據中的GANs,描述了GANs有希望的應用,并確定了在不同ST相關任務中成功應用尚需解決的一些挑戰。

付費5元查看完整內容
北京阿比特科技有限公司