亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

許多實際應用需要對長序列時間序列進行預測,例如用電計劃。長序列時間序列預測(LSTF)對模型的預測能力要求很高,即能夠高效捕獲輸出和輸入之間精確的長程依賴。近年來的研究表明,Transformer 具有提高預測能力的潛力。然而,Transformer 存在幾個嚴重的問題,因而無法直接應用于 LSTF,比如二次時間復雜度、高內存使用率以及編碼器 - 解碼器架構的固有局限。

為解決這些問題,該研究為 LSTF 設計了一個基于高效 transformer 的模型——Informer,該模型具備三個特征:

1)ProbSparse 自注意力機制,其時間復雜度和內存使用達到 O(L log L),在序列依賴對齊方面具有不錯的性能; 2)自注意力蒸餾通過將級聯層輸入減半來突出注意力,并且能夠高效地處理極長的輸入序列; 3)盡管生成風格解碼器在概念上非常簡單,但它會在一次前向操作中預測較長的時序序列,而不是逐步預測,這極大地提高了長序列預測的推斷速度。

付費5元查看完整內容

相關內容

探索 - 利用(exploration-exploitation)是多智能體學習(MAL)中強大而實用的工具,但其效果遠未得到理解。為了探索這個目標,這篇論文研究了 Q 學習的平滑模擬。首先,研究者認為其學習模型是學習「探索 - 利用」的最佳模型,并提供了強大的理論依據。具體而言,該研究證明了平滑的 Q 學習在任意博弈中對于成本模型有 bounded regret,該成本模型能夠明確捕獲博弈和探索成本之間的平衡,并且始終收斂至量化響應均衡(QRE)集,即有限理性下博弈的標準解概念,適用于具有異構學習智能體的加權潛在博弈。

該研究的主要任務轉向衡量「探索」對集體系統性能的影響。研究者在低維 MAL 系統中表征 QRE 表面的幾何形狀,并將該研究的發現與突變(分歧)理論聯系起來。具體而言,隨著探索超參數隨著時間的演化,系統會經歷相變。在此過程中,給定探索參數的無窮小變化,均衡的數量和穩定性可能會發生劇烈變化。在此基礎上,該研究提供了一種形式理論處理方法,即如何調整探索參數能夠可驗證地產生均衡選擇,同時對系統性能帶來積極和消極(以及可能無限)的影響。

//www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a

付費5元查看完整內容

摘要

Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領域都產生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現了大量的Transformer模型變體,研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現有文獻進行綜述,既有利于社區,又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性,這可能阻礙模型在許多設置的可伸縮性。最近,為了解決這個問題,出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況,當模型運行的加速器的內存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓練和推理期間的失敗次數。特別是對于設備上的應用,模型應該能夠在有限的計算預算下運行。在這篇綜述中,我們提到了Transformer在內存和計算方面的效率,當它們被用于建模大型輸入時。

有效的自我注意力模型在建模長序列的應用中是至關重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自我注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新,我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法,并通過技術創新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領域都有應用的Transformer模型,試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹,并繪制了它們之間的聯系。

付費5元查看完整內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

Transformer模型(基于論文《Attention is All You Need》)遵循與標準序列模型相同的一般模式,即從一個序列到另一個序列的注意力模型。

輸入語句通過N個編碼器層傳遞,該層為序列中的每個單詞/令牌生成輸出。解碼器關注編碼器的輸出和它自己的輸入(自我注意)來預測下一個單詞。

實踐證明,該Transformer模型在滿足并行性的前提下,對許多順序-順序問題具有較好的求解質量。

在這里,我們要做的情感分析,不是順序到順序的問題。所以,只使用Transformer編碼器。

References Attention Is All You Need

SEQUENCE-TO-SEQUENCE MODELING WITH NN.TRANSFORMER AND TORCHTEXT

Transformer model for language understanding

付費5元查看完整內容
北京阿比特科技有限公司