亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

轉載機器之心專欄****機器之心編輯部

在自然語言處理(Natural Language Processing,NLP)領域,Transformer 模型因其在序列建模中的卓越性能而受到廣泛關注。然而,Transformer 及在其基礎之上的大語言模型(Large Language Models,LLMs)都不具備有效長度外推(Length Extrapolation)的能力。這意味著,受限于其訓練時預設的上下文長度限制,大模型無法有效處理超過該長度限制的序列。

文本續寫和語言延展是人類語言的核心能力之一,與之相對的,長度外推是語言模型智能進化的重要方向,也是在大模型時代最為高效的將模型的能力遷移到長序列數據的重要方法,對該問題的研究兼具理論價值和應用價值。因此,大量的相關工作持續涌現,在不斷擴展語言模型能力邊界的同時,也呼喚一篇系統性的綜述來對這一領域進行概覽。

基于此,哈爾濱工業大學的研究者們從位置編碼(Position Encoding, PE)的角度出發,全面地總結了 Transformer 模型在長度外推方面的研究進展,系統地回顧了各種旨在增強 Transformer 長度外推能力的方法,主要包括可外推的位置編碼和基于這些位置編碼的拓展方法。

論文鏈接://arxiv.org/abs/2312.17044

可外推的位置編碼

**

**

由于 Transformer 自身具有置換不變性(Permutation Invariance),無法直接捕獲每個詞在序列中的位置信息,因此使用位置編碼將序列中元素順序信息融入Transformer成為一種常見做法。根據位置編碼表示的是序列中元素的絕對位置信息還是相對位置信息,業界將位置編碼分為絕對位置編碼(Absolute Position Encoding,APE)和相對位置編碼(Relative Position Encoding,RPE),其主要區別如下圖所示(左圖表示 APE,右圖表示 RPE)。

考慮到現有研究表明這一分類對模型的外推能力有重要影響,我們根據這一分類來對本節內容進行劃分。

絕對位置編碼

在原始的 Transformer 論文中,位置編碼是通過正弦和余弦函數生成的,這些函數將位置映射到模型的表示空間中。Transformer 的作者猜想這種正弦位置編碼可以有效外推,但是后來的研究成果否定了這一猜想。盡管如此,作為 Transformer 的第一個 PE,正弦 APE 對之后的 PE 產生了重大影響。

為了增強 Transformer 模型的外推能力,研究人員要么通過隨機位移將位移不變性融入正弦 APE 中,要么生成隨位置平滑變化的位置嵌入并期望模型能夠學會推斷這一變化函數。基于這些思想的方法展現出比正弦 APE 更強的外推能力,但仍無法達到 RPE 的水平。原因之一是,APE 將不同的位置映射到不同的位置嵌入,外推意味著模型必須推斷出不曾見過的位置嵌入。然而,這對于模型來說是一項艱巨的任務。因為在廣泛的預訓練過程中重復出現的位置嵌入數量有限,特別是在 LLM 的情況下,模型極易對這些位置編碼過擬合。

相對位置編碼

由于 APE 在長度外推上的表現難以令人滿意,而 RPE 天然地由于其位移不變性具備更好的外推能力,并且人們普遍認為上下文中單詞的相對順序更重要。近年來,RPE 已成為編碼位置信息的主要方法。

早期的 RPE 來自于對正弦位置編碼的簡單修改,并常常結合裁剪或分箱策略來避免出現分布外的位置嵌入,這些策略被認為有利于外推。此外,由于 RPE 解耦了位置和位置表示之間的一對一對應關系,因此將偏差項直接添加到注意力公式中成為將位置信息集成到 Transformer 中的一種可行甚至更好的方法。這種方法要簡單得多,并且自然地解開了值(value)向量和位置信息的糾纏。然而,盡管這些偏置方法具有很強的外推性,但它們無法表示 RoPE(Rotary Position Embedding,旋轉位置編碼)中那樣復雜的距離函數。因此,盡管 RoPE 的外推性較差,但由于其優異的綜合性能,成為近來 LLMs 最主流的的位置編碼。論文中介紹的全部可外推 PE 如表 1 所示。

大模型時代的外推方法

為了增強 LLMs 的長度外推能力,研究者們基于現有的位置編碼提出了多種方法,主要分為位置插值(Position Interpolation)和隨機化位置編碼(Randomized Position Encoding)兩大類別。

位置插值方法

位置插值方法通過在推理時對位置編碼進行縮放,使得原本超出模型訓練長度的位置編碼在插值后落入已訓練位置區間。由于其卓越的外推性能和極低的開銷,位置插值方法引起了研究界的廣泛興趣。此外,與其他外推方法不同,位置插值方法已經廣泛出現在開源模型中,例如 Code Llama、Qwen-7B 和 Llama2。然而,目前的插值方法僅僅關注 RoPE,如何通過插值使采用其他 PE 的 LLM 具備更好的外推能力仍需探索。

隨機化位置編碼

簡單來說,隨機化 PE 只是通過在訓練期間引入隨機位置來將預訓練的上下文窗口與較長的推理長度解耦,從而提高了較長上下文窗口中所有位置的曝光度。值得注意的是,隨機化 PE 的思想與位置插值方法有很大不同,前者旨在使模型在訓練過程中觀察到所有可能的位置,而后者試圖在推理過程中對位置進行插值,使它們落入既定的位置范圍內。出于同樣的原因,位置插值方法大多是即插即用的,而隨機化 PE 通常需要進一步微調,這使得位置插值更具吸引力。然而,這兩類方法并不互斥,因此可以結合它們來進一步增強模型的外推能力。

挑戰與未來方向

**評測與基準數據集:**在早期研究中,對 Transformer 外推能力的評估來自各下游任務的性能評價指標,如機器翻譯的 BLEU;隨著 T5、GPT2 等語言模型逐漸統一自然語言處理任務,語言建模所使用的困惑度成為外推的評價指標。然而,最新的研究已經表明困惑度無法揭示下游任務的性能表現,因而亟需專用的基準數據集與評測指標來推動長度外推領域的進一步發展。

**理論解釋:**目前的長度外推相關工作大都是實證性的,盡管有一些解釋模型成功外推的初步嘗試,但堅實的理論基礎仍未建立,究竟有哪些因素影響且如何影響長度外推性能仍然是一個懸而未決的問題。

**其他方法:**正如本文所述,現有的長度外推工作大多集中在位置編碼視角下,但不難理解,長度外推需要系統性設計。位置編碼是其中一個關鍵的組成部分,但絕非唯一的組成部分,更廣闊的視野將進一步為這一問題帶來激勵。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

Text to SQL( 以下簡稱Text2SQL),是將自然語言文本(Text)轉換成結構化查詢語言SQL的過程,屬于自然語言處理-語義分析(Semantic Parsing)領域中的子任務。在大模型時代怎么做?這篇綜述調研了最新進展。

自然語言處理的出現徹底改變了用戶與表格數據的交互方式,實現了從傳統查詢語言和手動繪圖到更直觀的基于語言的接口的轉變。大型語言模型(LLMs),如ChatGPT及其后繼者的崛起,進一步推進了這一領域,為自然語言處理技術開辟了新的途徑。這份綜述為我們提供了關于表格數據的自然語言接口查詢與可視化的全面概覽,它允許用戶使用自然語言查詢與數據進行交互我們介紹了這些接口背后的基本概念和技術,特別強調了語義解析,這是從自然語言到SQL查詢或數據可視化命令的關鍵技術。接下來,我們深入探討了從數據集、方法、指標和系統設計的角度看Text-to-SQL和Text-to-Vis問題的最新進展。這包括對LLMs的影響的深入分析,強調它們的優勢、局限性和未來改進的潛力。通過這份綜述,我們希望為那些對在大型語言模型時代的數據交互感興趣的研究者和從業者提供一個發展與應用自然語言接口的路線圖。

表格數據或結構化數據在今天的數字時代構成了許多領域的基石,包括商業、醫療健康和科學研究[57],[81]。然而,有效且高效地與大量的結構化數據互動以提取有價值的見解仍然是一個關鍵挑戰。傳統的交互方法,如使用結構化查詢語言進行查詢或手動繪制可視化,通常需要相當高的技術專長,從而限制了它們對更廣泛用戶群的可訪問性[2]。

隨著自然語言處理技術的出現,我們與結構化數據的交互方式開始發生變化。這些技術促進了自然語言接口的開發,使表格數據查詢和可視化變得更加直觀和易于訪問。通過這些接口,用戶可以使用自然語言查詢和命令從數據庫中提取信息或生成數據的視覺表示[47],[93]。這種轉向基于語言的接口的變化標志著簡化數據交互的重大進步,使其更加用戶友好,對非技術用戶更加可訪問。

支撐這些基于語言的接口的基礎技術根植于語義解析任務,它將自然語言查詢轉化為為在結構化數據庫上執行而定制的正式表示形式[50]。盡管為此目的已經引入了各種正式語言和功能表示,例如Prolog、Datalog和FunQL,但在表格數據交互中,有兩種尤為主導:用于數據查詢的SQL和用于數據可視化的可視化規范。SQL已經成為查詢關系數據庫的事實標準,提供了全面的操作來檢索和操作數據。可視化規范提供了一種結構化的方式來表示復雜的可視化,使其成為數據可視化過程的一個組成部分。考慮到它們的重要性和廣泛的使用,這次綜述將主要關注這兩種表示,深入探討將自然語言轉化為SQL和可視化規范的任務的挑戰和進展。在這種情境下,Text-to-SQL任務[133]充當將用戶查詢轉化為SQL指令的橋梁,而Text-to-Vis任務[71]則促進了從用戶可視化請求到可視化規范的轉化。

這兩個語義解析任務的發展多年來已經發生了顯著的演變,受到機器學習和自然語言處理技術的推動。早期的方法通常依賴于基于規則或基于模板[1],[50]的系統和淺層解析技術。然而,這些方法在處理復雜的查詢和可視化方面都存在困難,并對用戶輸入的特定措辭敏感。引入神經網絡和深度學習方法帶來了性能的重大飛躍。這些方法,通常基于序列到序列的模型[53],能夠捕獲數據中更復雜的模式,并對輸入的變化更加穩健。然而,它們仍然需要大量的訓練數據,并且在處理領域外的查詢時會遇到困難。像BERT[16]、T5[85]、GPT[79]這樣的預訓練語言模型(PLMs)的崛起標志著該領域的一個轉折點。憑借其在大量文本數據上進行預訓練的能力,PLMs在包括Text-to-SQL和Text-to-Vis在內的一系列自然語言處理任務中都取得了顯著的成功。最近,像ChatGPT這樣的大型語言模型(LLMs)的出現以及提示工程技術的探索為開發更有效且用戶友好的自然語言數據交互接口打開了新的途徑。

對于表格數據查詢和可視化的自然語言界面的跨學科研究融合了多個研究方面,如自然語言處理和數據挖掘,進展經常沿著多樣且不同的軌跡進行。盡管其重要性逐漸增加,但尚未有單一的研究全面回顧了查詢和可視化任務的語義解析問題的系統和統一方式。隨著這個領域的不斷發展和增長,有越來越大的需求來組織研究景觀,分類當前的工作,并識別知識空白。 雖然之前已經有一些努力總結了這個領域的進展,但它們主要關注了查詢和可視化的早期方法以及后續的深度學習發展[1]、[14]、[47]、[53]、[93],但并沒有提供這些相互關聯領域的綜合視圖。此外,據我們所知,沒有現有的調查涵蓋了大型語言模型(LLMs)在這些領域的最近進展。像ChatGPT及其后續版本等LLMs的深遠影響在數據查詢和可視化的自然語言界面上是一個迅速增長的領域,需要更多的關注和探索。 本次調查旨在通過提供表格數據查詢和可視化的自然語言界面的詳細概述來填補這些空白。我們從過去二十年的關鍵期刊和會議中收集參考文獻,涵蓋了自然語言處理、人機交互、數據挖掘和可視化。我們的搜索受到諸如“自然語言界面”、“可視化”和“文本到SQL”等術語的指引,我們還探討了被引用的出版物以捕獲基礎性的貢獻。我們旨在解決一系列關鍵的研究問題,可以指導我們對表格數據和可視化的自然語言界面的理解

**? 自然語言界面隨著時間的推移是如何發展的? **

**? 最近的進展,特別是LLMs,是如何影響這個領域的? **

**? 現有方法的固有優點和缺點是什么? **

通過這次綜素,我們希望通過廣泛的文獻綜述和分析為這些問題提供有見地的答案。我們將深入研究功能表示、數據集、評估指標和系統架構,特別強調LLMs的影響。我們的目標是呈現一個關于現有技術狀態的清晰簡潔的概述,強調現有方法的優點和局限性,同時探索未來增強的可能途徑。

表格數據查詢和可視化的自然語言界面包括多種組件,每個組件在技術框架中都起到關鍵作用,如圖3所示。

? 數據集。數據集在訓練和評估這些界面的性能中起到至關重要的作用。數據集可以是單輪的,即提出一個沒有任何先前上下文的查詢,或者是多輪的,其中一系列查詢以會話方式提出。還有各種類型的數據集旨在評估系統的不同方面,如處理復雜查詢、領域外查詢的能力等。 ? 方法。構建自然語言界面的方法隨著時間的推移而演變。早期的方法是基于規則的,使用預定義的規則將自然語言查詢轉化為功能表示。隨著神經網絡的出現,序列到序列模型變得受歡迎,提供了更多的靈活性來處理各種查詢。像BERT[16]和GPT[79]這樣的預訓練語言模型的崛起標志著這個領域的重大進展。最近,像ChatGPT這樣的大型語言模型的出現,以及對提示工程技術的探索,為開發更有效的數據交互自然語言界面打開了新的途徑。 ?** 評估指標**。評估指標用于衡量這些界面的性能。這些可以是基于字符串的,將生成的功能表示與基準真相進行比較,或基于執行的,將在數據庫上執行生成的表示的結果與預期結果進行比較。有時也使用手動評估來評估像系統的可用性這樣的方面。 ? 系統設計。系統架構是自然語言界面的關鍵組成部分,涉及將用戶查詢轉化為可操作輸出的基礎機制。從基于規則到端到端的設計范式提供了各種解決方案和權衡,就靈活性、可解釋性和準確性而言。 這些組件中的每一個都為表格數據查詢和可視化的自然語言界面的有效性和可用性作出貢獻。

本綜述的后續部分將更詳細地深入這些組件,討論它們的角色,使用的各種方法和技術以及每個領域的最新進展

**結論 **

在這次綜述中,我們深入探討了表格數據查詢和可視化的自然語言界面,深入了解這一領域的復雜性、其演變和它所解決的挑戰。我們從基礎問題定義追蹤到最新的方法。我們強調了推動這些界面的多樣數據集的重要性,并討論了衡量其效果的指標。通過探索系統架構,我們檢查了不同系統設計的差異。最后,我們的目光轉向未來,指向大型語言模型時代的有前途的研究方向。隨著這個動態領域的演變,我們的探索為其當前的狀態、挑戰和潛力提供了一個簡潔的快照。

付費5元查看完整內容

針對圖數據的Transformer正在被越來越廣泛地研究,并在許多學習任務中取得成功。圖歸納偏差對于Graph Transformers至關重要,之前的工作通過使用信息傳遞模塊和/或位置編碼來加入這些偏差。然而,使用信息傳遞的Graph Transformers繼承了信息傳遞的已知問題,并且與在其他領域中使用的Transformers顯著不同,這使得研究進展的遷移變得更加困難。另一方面,沒有使用信息傳遞的Graph Transformers在較小的數據集上的表現通常較差,在這種情況下,歸納偏差更為重要。為了彌合這個鴻溝,我們提出了Graph Inductive bias Transformer(GRIT)—一種新的Graph Transformer,它在不使用信息傳遞的情況下融合了圖歸納偏差。GRIT基于幾個從理論和實證上都得到證明的架構變化,包括:使用隨機游走概率初始化的學習相對位置編碼,一種可以更新節點和節點對表示的靈活的注意力機制,以及在每一層注入度信息。我們證明GRIT是有表現力的——它可以表示最短路徑距離和各種圖傳播矩陣。GRIT在各種圖數據集中實現了最新的實證性能,這顯示了不使用信息傳遞的Graph Transformers所能夠帶來的強大能力。

付費5元查看完整內容

DiffRec: 擴散推薦模型(SIGIR'23)

TLDR: 本文將擴散模型應用于推薦系統中,提出了一種新穎的擴散推薦模型 DiffRec 以實現個性化推薦,并提出兩個變體 L-DiffRec 與 T-DiffRec將其推廣至大規模推薦場景與時序信息建模中,三個數據集上的實驗結果驗證了該方法的優越性。

論文:Diffusion Recommender Model (SIGIR'23)

代碼:

摘要

生成式推薦模型,如生成對抗網絡(GANs)和 變分自編碼器(VAEs),被廣泛應用于建模用戶交互的生成過程。然而,這些生成式模型都存在固有的局限性,如GANs 的訓練過程不穩定,VAEs 的表達能力受限等問題,這導致模型難以對復雜的用戶交互(各種干擾因素導致交互含有噪聲)進行精確的建模。鑒于擴散模型(Diffusion Model, DMs)在圖像生成方面相比于傳統生成模型的顯著優勢,我們提出了擴散推薦模型(Diffusion Recommender Model, DiffRec),以去噪的方式學習用戶交互的生成過程。為了保留用戶交互歷史中的個性化信息,DiffRec 減少了擴散過程中添加的噪聲,并且避免像圖像合成領域一樣,將用戶交互破壞為純噪聲。此外,為了應對推薦系統的實際應用場景所面臨的挑戰:大規模物品預測將消耗大量計算資源,以及用戶偏好會隨時間變化,我們提出 DiffRec 的兩個變體。L-DiffRec 對物品聚類并進行維度壓縮,在隱空間中進行擴散過程;T-DiffRec 根據交互時間先后對用戶的交互賦予不同的權重以編碼時序信息。我們在三個數據集上進行了廣泛的實驗,實驗結果和進一步的分析驗證了 DiffRec 及其兩個變體的優越性。

研究動機

生成式推薦模型(GANs, VAEs)通常假設用戶與物品間的交互行為(例如,點擊)是由某些潛在因素(例如,用戶偏好)決定的,而這與真實世界中交互的生成過程一致,該類模型因此取得了顯著的成功。當前的生成式推薦主要分為兩類:

  1. 基于 GAN 的模型采用生成器估計用戶的交互概率,并利用對抗訓練優化模型參數,但對抗訓練通常不穩定,導致模型難以獲得令人滿意的性能;
  2. 基于 VAE 的模型使用編碼器來近似潛在因素的后驗分布,并最大化被觀測交互的似然函數,如圖 1(a) 所示。在推薦領域中,盡管 VAEs 的性能往往優于 GANs,但該類模型需要在后驗分布的可解性與模型的表示能力間進行權衡。

圖1. VAE, DiffRec, L-DiffRec 模型結構圖以及推薦系統的目標

擴散模型,如圖 1(b) 所示,在前向過程中通過逐步添加高斯噪聲以破壞圖像信息,反向過程中逐步去噪以重構信息;該前向過程滿足后驗分布的可解性,同時也使得利用神經網絡逐步建模復雜分布成為可能,這緩解了 VAEs 所面臨的問題。同時,推薦系統的目標與擴散模型是相吻合的,這是因為推薦系統本質上是基于帶噪聲的歷史交互(比如錯誤的負樣本和錯誤的正樣本)來推斷未來的交互概率,如圖 1(c) 所示。因此,擴散模型在推薦領域有著巨大的潛力,能夠利用其強大的表示能力更準確地建模復雜的交互生成過程。

模型介紹

DiffRec

圖2. DiffRec 概述:柱狀圖表示某用戶與所有物品的交互概率

如圖 2 所示,DiffRec 主要由兩部分組成:對于給定的用戶歷史交互,(1) 前向過程加入高斯噪聲逐步破壞交互信息;(2) 反向過程中模型逐步去噪并恢復原始信息。通過逐步學習上述的去噪過程,DiffRec 能夠模擬復雜的交互生成過程,同時減輕真實世界中的噪聲所帶來的影響。DiffRec 訓練與推斷偽代碼見圖 4。

此外,與圖像生成任務不同,為保證用戶的個性化信息,我們在訓練時并沒有將用戶交互破壞為純噪聲,并且在訓練和推斷時均減少了前向過程中添加的噪聲,這類似于 MultiVAE [1] 中利用 $\beta$ 來控制先驗約束的強度。

圖4. DiffRec 訓練與推斷偽代碼

L-DiffRec

生成式模型通常需要同時預測用戶與所有物品的交互概率,該過程對計算資源的大量消耗限制了模型在工業界中的應用。為降低計算成本,我們基于 DiffRec 提出其變體 L-DiffRec。如圖 5 所示,L-DiffRec 首先基于物品表示(LightGCN 訓練所得)采用 k-means 對物品進行聚類,根據聚類結果將交互歷史進行相應劃分,進一步通過多個編碼器對每類交互進行維度壓縮,隨后在隱空間中進行擴散模型的前向與反向過程,再通過多個解碼器映射回真實維度進行排序與推薦。

圖5. L-DiffRec 模型結構圖

T-DiffRec

由于用戶的喜好可能隨著時間發生變化,故向推薦模型中引入時序信息是非常重要的。我們認為用戶最近交互的物品更能反應用戶當前的喜好,故依據交互時間先后賦予交互不同的權重以編碼時序信息。該策略可應用于 DiffRec 和 L-DiffRec 分別得到 T-DiffRec 和 LT-DiffRec。

實驗分析

我們在三個公開數據集(Amazon-book, Yelp, ML-1M)上基于不同設定進行實驗以驗證 DiffRec 的優越性。

DiffRec

實驗結果表明多數生成式模型能夠取得比 MF 和 LightGCN 更好的性能,且 DiffRec 在三個數據集上均能取得優于其他基線模型的性能。此外,我們在基礎實驗之上對 DiffRec 進行進一步分析,實驗結果驗證了前述關于個性化推薦與模型預測目標的猜想。

L-DiffRec

為驗證 L-DiffRec 在推薦性能與節約計算資源上的效果,我們選取主實驗中性能最好的 MultiVAE 進行對比,實驗結果表明,L-DiffRec 能夠取得與 DiffRec 相當的性能,而其所需的計算資源大大減少。

T-DiffRec

我們將 T-DiffRec 和 LT-DiffRec 與當前 SOTA 的序列推薦模型 ACVAE [2] 相比較,實驗結果表明 T-DiffRec 能夠有效建模時序信息,盡管其模型參數相對較多,但顯存消耗遠少于 ACVAE。

總結

本工作中,我們基于擴散模型提出一種新型的生成式推薦范式——擴散推薦模型(DiffRec),并針對推薦系統在實際應用場景中所面臨的挑戰提出基于 DiffRec 的兩種變體:L-DiffRec 和 T-DiffRec,并在三個數據集上的實驗結果驗證了 DiffRec 及其變體的優越性。本工作為生成式推薦開辟了一個新的研究方向,在此基礎上還有許多值得探索的內容:(1) 為 L-DiffRec 和 T-DiffRec 設計更好的維度壓縮和時序信息建模策略;(2) 基于 DiffRec 探索可控推薦;(3) 嘗試更多的先驗假設(例如,除高斯分布外的其它噪聲分布假設)以及不同的模型結構。

參考文獻

[1] Xiaopeng Li and James She. 2017. Collaborative variational autoencoder for recommender systems. In KDD. ACM, 305–314

[2] Zhe Xie, Chengxuan Liu, Yichi Zhang, Hongtao Lu, Dong Wang, and Yue Ding. 2021. Adversarial and contrastive variational autoencoder for sequential recommendation. In WWW. ACM, 449–459.

付費5元查看完整內容

最先進的神經網絡架構設計的最新進展正在向Transformer模型發展。這些模型在計算機視覺、自然語言處理和語音識別的廣泛應用中取得了卓越的準確性。自從Transformer模型最初被引入以來,這種趨勢在過去幾年中一直是一致的。然而,最近Transformer模型推理所需的計算量和帶寬正在以顯著的速度增長,這使得它們在延遲敏感的應用程序中的部署具有挑戰性。因此,人們越來越關注提高Transformer模型的效率,方法從更改架構設計,一直到開發專用的特定領域加速器。**本文調研了高效Transformer推理的不同方法,包括:(i)分析和剖析現有Transformer架構中的瓶頸及其與之前卷積模型的異同;(ii) Transformer架構對硬件的影響,包括層歸一化、Softmax和GELU等非線性操作以及線性操作對硬件設計的影響;(iii)優化固定Transformer架構的方法;(iv)為Transformer模型找到正確的映射和操作調度的挑戰;(v)通過使用神經架構搜索調整架構來優化Transformer模型的方法。**最后,在開源的全棧深度神經網絡加速器生成器Gemmini上進行了案例研究,并與之前的基準測試結果相比,展示了這些方法是如何產生改進的。發現與上述方法相結合的全棧協同設計方法可以導致高達88.7倍的加速比。

1. 引言

深度學習模型在訓練和推理過程中已經擴展到數十億個參數和數十億個乘累加(MAC)操作。因此,人們對高效計算這些模型以及在資源受限的邊緣設備上部署這些計算和內存密集型工作負載的興趣越來越濃厚。這些邊緣設備有嚴格的能量和內存限制,相應的利用深度學習模型的應用程序通常也有實時延遲限制。CPU和GPU在通用性能計算平臺中都是常用的,它們的優勢是無處不在且能夠支持各種工作負載和操作。然而,這種靈活性是以降低效率為代價的。深度學習模型由少量不同的操作組成,這些操作會重復數百萬或數十億次,因此通常不需要很高的靈活性。此外,雖然現代CPU和GPU可以并行執行多個操作,但它們缺乏利用深度學習模型中的海量數據重用機會的能力。 對快速、高效計算的需求,使用少量不同的操作,以及數據重用的機會,這些結合在一起,導致了深度學習使用硬件加速器。這與學術界開發的許多研究加速器相似[34,37,39,40,59,69,70,81,169]。隨著硬件加速器的發展,用于部署各種深度學習算法的軟件框架[3,32,98,167]和編譯器[33,161,185]也得到了增強和成熟。這些工具使深度學習算法能夠在加速器上執行,并執行映射優化,以提高整個深度學習流水線的性能和效率。然而,快速發展的深度學習算法仍在不斷引入對軟硬件支持及其協同優化的新需求,以滿足各種部署約束。 **最近,transformer和大型語言模型[22,44,52,58,86,173-175,177,190,198]在解決各種自然語言處理(NLP)任務方面的流行,在加速器和框架的設計方面提出了一套全新的挑戰。**人們也越來越關注提高Transformer推理的效率,特別是由于它們的規模和運行時復雜性不斷增長。然而,與更知名的卷積神經網絡(CNN)架構相比,人們仍然缺乏對Transformer架構的工作負載特征的了解,從而缺乏有效運行這些模型所需的設計原則。例如,與傳統的以CNN為重點的設計相比,transformer主要由矩陣乘法(matmuls)和內存密集型的非線性操作組成。此外,Transformer模型的計算圖和數據流比CNN更復雜,具有更多類型的操作節點,以及更多的數據流拆分和連接。所有這些挑戰都要求我們對當前的硬件和軟件解決方案進行全面的分析,以及Transformer推理的各種設計權衡。進行這樣的分析將使我們能夠對高效運行transformer的需求建立全面和全面的理解。

本文工作有兩個方面的貢獻:(1)分析Transformer的運行時特性,并調查高效Transformer推理的不同方法;(2)在全棧深度神經網絡(DNN)加速器生成器Gemmini[70]上應用所調查的方法進行案例研究。本文工作的長期目標是描述硬件和軟件堆棧中的不同因素,以優化Transformer推理。關于我們的第一個貢獻,本文涵蓋了端到端深度學習推理的不同層次,特別關注transformer。這包括:Transformer架構的運行時特征和瓶頸的分析和profiling(第2節)。包括Transformer架構的非線性操作對其設計的影響(第3節)?優化策略,如修剪和量化,以進一步提高固定Transformer架構的性能(第4節)?Transformer架構中操作的映射和調度及其相關挑戰(第5節)?通過自動化神經架構搜索過程設計和適應Transformer架構,以提高硬件效率(秒。6)。

Transformer模型架構和性能瓶頸

在本節中,我們將從高層次地介紹Transformer架構的各個組成部分。首先討論了多頭注意力和前饋模塊、transformer中使用的非線性操作,以及編碼器/解碼器模型之間的差異,在2.1節中。在2.2節中,我們使用算法分析這些不同塊對硬件性能的影響,并對每個組件進行分析建模和直接profiling。

**硬件設計

**到目前為止,在第2節中,我們已經對Transformer架構的運行時特性和瓶頸進行了分析。現在將重點轉移到高效Transformer推理的全棧解決方案,從設計高效的硬件開始。第3.1節概述了為DNN使用特定領域加速器的基本原理,以及在大多數DNN加速器中使用的基本架構和數據流。第3.2節重點介紹了加速transformer的現有工作。第3.3節隨后提供了使用分析模型的分析,以評估transformer在典型加速器上的運行情況。最后,第3.4節提供了一個案例研究,說明了為transformer構建典型加速器的過程。總的來說,本節會給出相關的性能分析,并從全棧的角度為選定的硬件決策提供依據。請注意,我們這里只關心如何有效地推斷DNN。特別是,為高效的模型訓練設計硬件超出了本文的范圍。

** 模型優化**

給定一個已經設計和訓練好的DNN模型,一個重要的問題是,是否仍然有可能通過算法來提高模型在目標硬件平臺上的效率,通過將模型改編為更友好的硬件格式。在本節中,我們將分別在第4.1節和4.2節中討論流行的現成模型優化方法,量化和稀疏性(即剪枝)。然后,在第4.3節中,我們概述了特定于transformer的優化方法,以提高特定于transformer的特征(如注意和非線性操作)的性能。

將transformer映射到硬件

為了在目標硬件架構上執行Transformer塊,必須將其映射到執行所需的計算和通信的硬件指令中。在映射過程中所做的選擇對性能有很大影響。然而,可能映射空間的大小使找到最優映射變得困難,這需要使用仔細考慮的探索、啟發式或基于學習的方法。在本節中,我們將介紹5.1節中的映射問題。我們將在第5.2節討論高效執行transformer所需的關鍵映射決策。我們在第5.3節中概述了現有映射技術的分類,在第5.4節中概述了對不同映射的性能進行建模的技術。最后,在5.5節中,我們將介紹mapper在使用transformer時需要注意的問題。

付費5元查看完整內容

最近在代碼弱點識別方面的努力,除了抽象語法樹等更多的結構性特征外,還注重在源代碼文本上訓練統計機器學習(ML)模型,作為特征空間。LLVM中間表示法(IR)可以通過標準化代碼、減少詞匯量以及消除關于語法和內存的一些上下文敏感性來幫助ML模型。我們研究了LLVM IR對訓練統計和機器學習模型的好處,包括詞包模型、BiLSTM和一些品種的轉換模型。我們將這些基于LLVM IR的模型與基于源代碼C的模型在兩組不同的數據上進行了比較:合成數據和更自然的數據。我們發現,雖然使用LLVM IR特征并不能產生比基于C語言的模型更準確的模型,但我們能夠識別出上下文特定的LLVM IR和C語言標記,這些標記有助于表明存在的弱點。此外,對于一個給定的數據集,我們發現在使用更復雜、更耗時的模型之前,任何統計或ML模型是否有利于代碼弱點的識別,詞包模型可以成為強有力的指標。

付費5元查看完整內容

主題模型是當下文本挖掘中最主要的技術之一,廣泛應用于數據挖掘、文本分類以及社區發現等。由于其出色的降維 能力和靈活地易擴展性,成為自然語言處理領域的一個熱門研究方向。Blei 等人提出了以 Lantent Dirichlet Allocation(LDA) 為代表的概率主題建模方法,在該模型中主題可以看作是單詞的概率分布,主題模型通過單詞項在文檔級的共現信息進而 提取出與文檔語義相關的主題,實現將高維的單詞空間映射到低維的主題空間來完成對目標文本數據的降維處理,開創了 文本挖掘研究的新方向。其中 LDA 作為一種概率生成模型很容易被擴展為其它各種形式的模型,鑒于層次主題模型的應 用價值、理論意義和未來的發展潛力,本文首先系統性的對 LDA 模型進行介紹,進而對基于 LDA 模型的各類擴展模型進 行詳細分類,并對其中各類的典型代表進行詳細介紹,指出了各個概率主題模型被提出的原因以及其模型的具體形式、所 具有的優缺點、適宜解決的問題等,進而又指出近年來,主題模型的典型的應用場景,此外,本文還對目前概率主題模型 常用的幾個公認的數據集、評測方法以及典型實驗結果進行詳細介紹,并在最后指明了概率主題模型進一步研究中需要解 決的問題以及未來可能的發展方向。

//cjc.ict.ac.cn/online/bfpub/hynx-202131103858.pdf

付費5元查看完整內容

在多源知識圖譜(KGs)中尋找等價實體是KGs集成的關鍵步驟,也稱為實體對齊(EA)。然而,現有的EA方法大多效率低下,伸縮性差。最近的總結指出,其中一些甚至需要幾天的時間來處理包含20萬個節點(DWY100K)的數據集。我們認為過于復雜的圖編碼器和低效的負采樣策略是造成這種現象的兩個主要原因。本文提出了一種新的KG編碼器-雙注意匹配網絡(Dual- AMN),該網絡不僅能對圖內和圖間信息進行智能建模,而且大大降低了計算復雜度。此外,我們提出了歸一化的硬樣本挖掘損失來平滑選擇硬負樣本,減少了損失偏移。在廣泛應用的公共數據集上的實驗結果表明,該方法具有較高的精度和效率。在DWY100K上,我們的方法的整個運行過程可以在1100秒內完成,比之前的工作至少快10倍。我們的方法在所有數據集上的性能也優于之前的工作,其中????????@1和??????從6%提高到13%。

//www.zhuanzhi.ai/paper/3d0a0bf7905b28afbdffaa48e0d640c3

付費5元查看完整內容
北京阿比特科技有限公司