亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

經典算法和神經網絡等機器學習系統在日常生活中都很豐富。經典的計算機科學算法適合精確地執行精確定義的任務,例如在一個大圖中找到最短路徑,而神經網絡允許從數據中學習,以預測更復雜的任務,如圖像分類中最可能的答案,這不能簡化為一個精確的算法。為了更好地利用這兩個世界,本文探索了將這兩個概念結合起來,從而得到更健壯、更好的性能、更可解釋、更高效的計算和更高效的數據架構。本文提出了算法監督的概念,使神經網絡能夠從算法中學習或與算法結合。當將算法集成到神經體系結構時,重要的是算法是可微的,這樣的體系結構可以端到端訓練,梯度可以通過算法以有意義的方式傳播回來。為了使算法具有可微性,本文提出了一種通過擾動變量和封閉逼近期望值來連續松弛算法的通用方法,即:,不需要采樣。此外,本文還提出了可微算法,如可微排序網絡、可微呈現器和可微邏輯門網絡。最后,本文提出了用算法學習的其他訓練策略。h微ttps://www.zhuanzhi.ai/paper/8c415ddbac1f3d1c24e4bb5436caf786

Felix Petersen 研究興趣是具有可微算法的機器學習。例如,我已經做了一個使算法可微的通用框架,并且也關注了可微排序和可微渲染。雖然通過傳播分布來使算法可微分非常有趣,但我也喜歡通過神經網絡傳播分布,這可以提高不確定性估計、魯棒性和公平性。 我在康斯坦茨大學的視覺計算小組(Oliver Deussen教授)工作,并與Christian Borgelt, Hilde Kuehne, Mikhail Yurochkin等人合作。

四千年前,埃及人發明了兩個數字相乘的算法,這是[21]算法的最早記錄。1843年,Ada Lovelace發布了第一個算法計算機程序,并設想了計算機在藝術和音樂等方面的現代應用,而當時這樣的計算機甚至還沒有制造出來[22,23]。一個世紀后的1943年,麥卡洛克和皮茨根據對大腦生物過程的觀察,設計了第一個神經網絡的數學模型。近十年來,基于人工神經網絡的方法在研究中受到了廣泛關注。這種復蘇可以歸因于硬件[25]、軟件[26-29]、卷積網絡[30,31]的發展以及深度學習在許多任務(如圖像分類[32,33])上的優勢。 如今,經典算法和神經網絡等機器學習系統在日常生活中都很豐富。雖然經典的計算機科學算法適合精確執行精確的任務,如在一個大圖中找到最短路徑,但神經網絡允許從數據中學習,以預測更復雜的任務(如圖像分類)中最可能的答案,這不能簡化為一個精確的算法。為了達到這兩個世界的最佳效果,在這篇論文中,我們探索了將經典計算機科學算法和神經網絡,或者更一般地說,機器學習相結合。這將導致更魯棒、更好的性能、更可解釋、更高效的計算和更高效的數據架構。文中提出了一種可證明正確的嵌入算法,實現了模型的魯棒性。用一種快速算法代替神經網絡的一部分,降低神經網絡的計算復雜度,可以提高模型的計算性能。此外,在精確度方面,性能可以提高,因為有更小的潛在錯誤,并且領域知識支持網絡。相應地,這些模型也可以更容易解釋,因為算法的輸入通常(根據定義)是可解釋的。最后,由于算法監督是一種典型的弱監督學習,監督水平降低,模型的數據/標簽效率更高。通常,神經網絡使用隨機梯度下降(SGD)或預處理SGD方法進行訓練,如Adam優化器[34]。這些方法基于計算損失函數相對于模型參數的梯度(即導數)。這個梯度表示損失的最陡上升方向。由于最小化損失改進了模型,我們可以(在模型的參數空間中)沿著梯度相反的方向進行優化,即梯度下降。使用反向傳播算法[35]可以有效地計算損失相對于模型參數的導數,在當今的深度學習框架[26,29]中,該算法被實現為向后模式自動微分。 基于梯度的學習要求所有涉及的操作都是可微分的; 然而,許多有趣的操作,如排序算法是不可微的。這是因為像if這樣的條件語句是分段不變的,也就是說,它們的導數為0,除了在真和假之間的轉換(即“跳轉”)之外,它們的導數是未定義的。因此,使用(不可微分)算法進行基于梯度的學習通常是不可能的。因此,在這項工作中,我們專注于通過連續松弛使算法可微。連續松弛的基本思想是在算法中引入一定程度的不確定性,例如,它可以使if語句中的真和假平滑過渡,使算法完全可微。我們注意到,當超越反向傳播時,例如,通過RESGRO損失,如第七章所介紹的,可微性和平滑性不是嚴格必要的,但仍然是可取的。我們還注意到,在這項工作中,將無梯度優化算法與基于梯度的神經網絡學習結合在一起,可微分算法通常優于無梯度方法。

可微算法學習可以分為2個學科: I可微算法,即研究如何通過算法反向傳播并獲得有意義的梯度。I算法監督(Algorithmic Supervision),將算法知識融入到神經網絡模型的訓練中。可微算法學習是機器學習中一個相對較新的領域。具體來說,除了一些個人早期的作品外,可微算法和算法監督領域在2018年取得了進展。我們已經在圖1.1的調查直方圖中可視化了這一點。在這里,我們將所有關于可微算法的相關工作分為應用算法監督的和不應用算法監督的(左)。進一步,我們將它們分類為wrt。他們提出或應用的可微算法。我們注意到,作者在2018年提出并開始了可微算法的研究,即在該領域形成之初。我們還注意到,該領域正在發展,最近才看到對現實問題的直接應用。

本論文共分為8章:各章按時間順序依次展開,具體來說,第2章介紹了3-6章構建的核心思想和方法。第7章介紹了備選的優化方法,因此在很大程度上獨立于第2 - 6章的時間流程,但建議從第2章和第3章中獲取知識,以便深入理解應用程序。 第一章介紹了可微算法學習的核心思想,并涵蓋了重要的相關工作和應用。 第二章詳細介紹了可微算法和算法監督的一般方法。為此,這一章給出了可微算法的一般概述,并可以視為引言的延伸。接下來的章節以本章的思想為基礎,每一章都更深入地討論了一類特定的可微算法。 第三章研究了可微排序和排序方法,重點研究了可微排序網絡。我們首先介紹可微排序方法,并通過仔細的理論分析,得出改進的可微排序算子。 第四章介紹了可微top-k方法,在概念上建立了可微排序和排序方法。特別地,我們引入了可微top-k網絡,這是對top-k算子可微排序網絡的改進。在可微top-k的基礎上,我們提出了top-k分類學習,并在ImageNet分類任務上取得了優異的性能。 第五章介紹了可微呈現。我們介紹了可微渲染的各種方法,并提出了廣義可微渲染器GenDR,它(至少近似地)包含了大多數現有的可微渲染器,還可以推廣到新的可微渲染器。本章附有圖書館。 第六章提出了可微邏輯門網絡,它是邏輯門網絡的一種松弛,因此可以訓練。這允許極快的推理速度,因為由此產生的邏輯門網絡可以在普通硬件上本機執行,因為這種硬件首先在邏輯門上操作。這是一個可微分算法的例子,它可以被訓練,并不一定與算法監督有關。 第七章討論了備選的優化策略。具體來說,它討論了分裂反向傳播,一種基于正則化的通用兩階段優化算法,它允許使用不同于用于優化神經網絡的優化器來優化算法損失。分裂反向傳播還允許將神經網絡本身分裂為多個部分,并可以擴展到多個分裂,然后所有的訓練都可以端到端,即使子部分是用替代優化器訓練的,甚至是不可微的。 在第八章,我們總結了本文的主要貢獻,并討論了未來的研究方向。

付費5元查看完整內容

相關內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

這一系列講座將討論概率模型,并關注來自統計學的問題,機器學習和使用統計物理學工具和技術的約束優化問題。我們的目標是展示統計物理的一些方法是如何推導出許多數學問題的精確答案的。正如阿基米德所指出的,一旦給出了這些答案,即使它們是通過啟發式方法得到的,嚴格地證明它們是更簡單的(但仍然不是微不足道的)。在過去的幾十年里,理論物理和應用數學之間的興趣和方法越來越多,統計物理和計算機科學中的許多理論和應用工作都依賴于自旋玻璃的統計物理的聯系。本講座的目的是介紹進入這一快速發展領域所必需的背景知識。

乍一看,物理學與最小化和概率推理問題有任何聯系似乎令人驚訝。兩者之間的聯系在于吉布斯(或波爾茲曼)分布,這是統計力學的基本對象。從統計和優化的角度來看,我們將對兩類問題感興趣:a)最小化成本函數和b)從分布中抽樣。在這兩種情況下,統計物理學的方法,或者更準確地說是玻爾茲曼測量方法,被證明是方便的。

《統計物理學》中有一部分恰好聚焦于這一課題:無序系統和自旋玻璃領域。自旋玻璃是磁鐵,其中每對粒子之間的相互作用強度是隨機的。從70年代末開始,隨著山姆·愛德華茲爵士和諾貝爾獎得主p·w·安德森的開創性工作,無序系統和自旋玻璃的統計物理學發展成為一種多用途的理論,擁有強大的啟發式工具,如復制和空腔方法。就其本身而言,使用統計物理學方法來研究計算機科學中的一些問題的想法并不新鮮。例如,它是模擬退火的靈感來源。Anderson早在1986年就利用這種聯系來研究優化問題,PI也利用這種聯系成功地研究了隨機滿意度和著色等問題。

在這堂課中,我們希望用一種跨學科的方法來解決這些問題,這將利用數學物理學和統計力學的工具,也利用信息理論和優化的工具。建模策略和分析源于凝聚態物理模型中相變的研究。然而,它的大部分目標和應用屬于機器學習、計算機科學和統計數據處理領域。

付費5元查看完整內容

人工智能(AI)的幾個主要創新(如卷積神經網絡,經驗回放)是基于關于大腦的發現。然而,基礎的大腦研究結果花了很多年才首次得到鞏固,并花了更多時間轉移到人工智能上。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物,因此,機械性的理解離我們更遠。

在這篇論文中,我們提出了一個數據驅動的框架,通過建立人們理解語言的大腦記錄和自然語言處理(NLP)計算機系統之間的直接聯系來規避這些限制。我們提出的證據表明,這種聯系對神經語言學和NLP都有好處。具體來說,這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴上下文和任務的科學發現,并且我們提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。這些調查還有助于認知建模方面的進展,這些進展可能在語言研究之外還有用。總之,這篇論文涉及多學科的調查,對認知神經科學、神經語言學和自然語言處理做出了貢獻。

引言

人腦是一個了不起的信息處理系統,能夠從少數例子中學習,在學習新的事實和技能的同時保留以前學到的事實和技能,并理解任何長度、任何語言的文本。長期以來,它一直是人工智能(AI)和機器學習(ML)領域的靈感來源。例如,早期視覺系統中細胞感受野和信息處理層次的發現(Hubel等人,1968年)導致了卷積神經網絡的發明(Fukushima等人,1982年),徹底改變了計算機視覺,而發現在海馬體中回放先前的經驗有助于記憶鞏固(McNaughton,1983年)激發了經驗回放的發展(McClelland等人,1992年)(也見(Lin,1992年)),在DeepMind的AlphaGo(Silver等人,2016年)首次戰勝人類圍棋世界冠軍后,它已成為深度強化學習的主力。在這些案例中,關于大腦功能的基本發現花了很多年才首次鞏固,而要轉移到人工智能上則需要更多的時間(例如,視覺系統的發現花了10年才鞏固,而要轉移到人工智能上又需要10年以上)。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物體,因此,機械性的理解就更遙遠了。

在這篇論文中,我們提出了一個數據驅動的框架,通過在大腦和自然語言處理(NLP)計算機系統之間建立直接聯系來規避這些限制。我們在圖1.1中對這個數據驅動的框架的基礎進行了可視化。我們提出的證據表明,這種數據驅動的連接對神經語言學和NLP都有好處。具體來說,我們表明這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴語境和任務的科學發現,并提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。

圖1.1: 我們的數據驅動方法的可視化。我們首先將自然文本,如一本書的一章,逐字逐句地呈現給一個人,同時她的大腦活動被大腦成像設備,如fMRI記錄下來。我們將相同的文本作為輸入給自然語言處理(NLP)計算機系統,如BERT(Devlin等人,2018)。接下來,我們從NLP系統的特定中間層提取該文本的表征,我們觀察由同一文本引起的大腦記錄。最后,我們計算這兩個文本表征之間的一致性--一個來自NLP系統,一個來自大腦記錄。大腦記錄和NLP系統之間的一致性是通過學習一個函數f來估計的,該函數預測每個大腦源(如體素、傳感器-時間點等)的活動是NLP系統對所呈現文本的表述函數。這個函數通常被建模為一個線性函數,并使用標準的機器學習技術學習。關于這種方法的更多細節,請參考第三章。

NLP系統作為人類語言理解的模型生物體

當閱讀 "獎杯不適合放在棕色的手提箱里,因為它太大了 "這個句子時,盡管有一個模棱兩可的代詞 "它",它既可以指獎杯,也可以指手提箱,但我們還是能理解這個句子的意思(Levesque等人,2012)。我們知道所指的是獎杯。如果這個句子是 "獎杯不適合放在棕色的手提箱里,因為它太小了",那么我們就會推斷出所指的是手提箱。大腦是如何處理這些句子并將現實世界的意義賦予它們的?為了解決這個問題,有一些基本的初步問題需要回答,即哪些信息在大腦中的什么地方和什么時候被處理,以了解這些信息是如何在不同的位置和時間點上被聚合的。

利用記錄語言處理過程中人腦活動的神經影像設備,神經科學家在回答 "什么"、"哪里 "和 "什么時候 "的問題上取得了進展。例如,研究人員發現,單個單詞的含義分布在大腦皮層中,但在不同的人中是一致的(Mitchell, Shinkareva等人, 2008; Wehbe, Murphy等人, 2014; Huth, Heer等人, 2016年),一組被稱為 "語言網絡 "的大腦區域支持語言理解(Fedorenko, Hsieh等人, 2010; Fedorenko and ThompsonSchill, 2014),以及一個詞的意思在第一次閱讀后的200到600ms之間被處理(Salmelin, 2007; Skeide等人)。然而,在語言理解過程中,大腦是如何在不同的位置和時間點上匯總信息的,仍然空白。

同時,自然語言處理(NLP)領域創造了一些計算系統,這些系統以特定的方式匯總單詞的含義,以執行特定的語言任務,如預測句子中即將出現的單詞。然而,目前還不清楚這些計算系統是否真正理解句子的含義,以及NLP系統的 "如何 "與大腦的 "如何 "是否相同。在這篇論文中,我們認為,盡管NLP系統與人腦不同,但神經語言學可以從使用NLP系統作為人腦在語言理解過程中如何聚集信息的模型生物中獲益。模型生物體使研究特定的大腦功能更加容易,因為它們允許直接干預,而由于道德或實際原因,在人類身上很難做到這一點。例如,大鼠被用作研究空間表征的神經成分的模型生物,因為它們的探索行為和它們的尺寸,可以在自由行為中進行神經記錄(Yartsev,2017)。但是,是什么讓一個特定的生物體成為特定功能的好模型?我們認為,一個好的模型生物體要滿足三個特性。1)它執行特定的功能,2)它提供了一個比直接在人腦中研究該功能更容易的平臺,以及3)模型生物體中的功能可以與人腦中的類似功能相關。

在這篇論文中,我們提供了證據,證明NLP系統滿足了大腦中語言理解的良好模型生物的第二和第三屬性。第二個屬性可以說是NLP系統對神經語言學最重要的好處--能夠對NLP系統進行具體干預,并觀察這些干預如何影響其與大腦的一致性。就像在動物模型生物體中一樣,研究人員可以在NLP系統中消減現有的信息通路或引入新的信息通路。這些干預措施允許研究人員對NLP系統中包含的信息進行因果推斷,而這在對真實大腦的非侵入性神經科學研究中是不可能的。在這篇論文中,我們提供了一個使用NLP系統中的干預措施來研究超詞義神經基礎的研究案例:語言的多詞義是超越單個詞的意義的。為了測量干預前和干預后NLP系統與大腦的一致性,我們表明我們可以使用編碼模型,這些模型被訓練來預測大腦記錄,作為從NLP系統獲得的文本表征的函數。編碼模型提供了一種方法,將來自NLP系統的文字表征與人們理解語言的大腦記錄聯系起來,從而滿足了一個好的模型生物體的第三個屬性。

大腦引導的NLP系統

一個好的模型生物體的第一個屬性是什么?一個好的大腦語言理解模型生物體必須理解語言。一個NLP系統真的能理解語言嗎?為了回答這個問題,我們可以研究量化語言理解的不同方法,并觀察到NLP系統在其中一些指標上表現良好,但在其他指標上則不然。例如,一個NLP系統非常善于預測句子中即將出現的單詞,但可能會錯誤地得出結論,"我把沉重的桌子放在書上,它就壞了 "這個句子中的 "它 "指的是 "桌子 "而不是 "書"(Trichelair等人,2018),因為它大概已經知道桌子壞了比書壞了更經常出現在上下文中。這種超越詞語關聯的推理困難是NLP系統目前面臨的挑戰。同樣,如果我們在NLP系統中逐句輸入一本書的章節,NLP系統的內部狀態就會偏向于最近處理的文本(Goodfellow等人,2016)。越往后的章節,NLP系統的記憶就越差(Khandelwal等人,2018;Dai等人,2019)。這是一個問題,因為理解現實的語言需要我們有時解決長期的依賴關系。評估NLP系統編碼長范圍語境的能力,以及提高這種能力,是一個活躍的研究領域。

與NLP系統形成鮮明對比的是,一個人在閱讀一本書的一章時,會記住該章最開始的信息(例如有助于理解人物之間關系的背景信息)。因此,我們提出的一個關鍵問題是:我們能否利用我們擁有的唯一能真正理解語言的處理系統--人腦--來評估,甚至可能改進這些NLP系統能夠編碼的信息?為了探究語言理解過程中人腦中的信息,我們沿用了幾十年的神經科學工作,使用腦成像設備(fMRI和MEG)對人們逐字閱讀文本時的大腦活動進行采樣。然后我們在NLP系統中進行不同的干預,觀察其與大腦記錄的一致性如何變化。我們觀察到,一個特定的干預措施,即強迫NLP系統在匯總所有單詞的含義時給予同等的權重,改善了與大腦記錄的一致性,也改善了NLP系統在新數據分布上的表現。這是第一個證據,表明人們理解語言的大腦記錄可以用來改善流行的神經網絡NLP系統的泛化性能。

雖然NLP系統還不能完美地理解語言,但在過去的三年里,它們在語言理解的許多相關指標方面有了明顯的改善。重要的是,NLP系統不是一成不變的,未來能夠導致對語言的理解更像人類的改進,將導致更好的模型生物體。鼓勵在NLP系統中進行更像人類語言理解的未來工作可能會研究顯性記憶模塊在整合和保持語言信息中的作用,并可能整合來自多種感官模式的信息,如視覺和聽覺。

1.1 論文陳述和大綱

這篇論文是圍繞著以下論述展開的:在大腦中的語言處理和機器中的語言處理之間建立數據驅動的聯系可以改善提升。1)通過計算建模,我們對大腦中語言處理的機械理解;2)通過轉移大腦的洞察力,提高自然語言處理模型的泛化性能。

第二章詳細介紹了以前的相關神經語言學發現,論文中使用的腦成像記錄模式和數據集,以及多個論文章節中通用的NLP系統。

第三章詳細介紹了現有的訓練編碼模型的方法,這些模型被用來建立大腦中的語言和機器中的語言之間的數據驅動的聯系,并測量它們的一致性。進一步討論了編碼模型的局限性,特別是在作為復雜表征函數進行訓練時,如從NLP系統中獲得的表征。最后,它提出了兩個新的衡量標準,能夠對大腦中的信息處理進行更精確的科學推斷,并在兩個自然的fMRI數據集中對其進行驗證。

第四章為論文的第一個論述提供了支持,通過對NLP系統的干預來研究語言的多詞意義的神經基礎,這超出了單個詞的意義,我們稱之為超詞意義(Toneva, Mitchell等人, 2020)。我們對NLP系統進行干預,將這種超詞義從單個詞的意義中分離出來。通過使用fMRI記錄,我們發現被認為是處理詞匯層面意義的樞紐也保持著超詞的意義,這表明詞匯和組合語義的共同基底。然而,令人驚訝的是,我們發現超詞意義很難在腦電圖中檢測到。相反,腦電圖的記錄被最近閱讀的單個單詞所特有的信息所顯著預測。fMRI和MEG結果之間的差異表明,超詞意義的處理可能是基于神經機制,與同步細胞發射無關,就像MEG信號一樣。

第五章還為計算模型如何能導致大腦中語言的科學發現提供了支持。在這一章中,我們通過預測毫秒級分辨率的腦電活動作為名詞語義和任務的函數來研究問題任務對具體名詞處理的影響(Toneva, Stretcu等人, 2020)。這項工作提供了第一個預測大腦記錄作為觀察到的刺激物和問題任務的功能方法。使用我們提出的方法,我們表明,納入任務語義(即提出的具體問題)大大改善了對腦電圖記錄的預測,跨參與者。這種改善發生在參與者第一次看到這個詞之后的475-550ms,這相當于被認為是一個詞的語義處理的結束時間。這些結果表明,只有一個詞的語義處理的結束時間是依賴于任務的。

第六章為論文的第二個論述提供支持。在這一章中,我們開發了一種方法,利用先前的神經語言學證據來評估NLP模型的表征中是否存在特定大腦相關信息(Toneva and Wehbe, 2019)。該方法在神經成像設備和NLP模型中向人逐字呈現相同的文本,并測量網絡衍生的表征與相關腦區大腦記錄的吻合程度。這項工作表明,我們可以使用這種方法和功能磁共振成像捕捉到的大腦活動快照,來揭示4個流行的預訓練NLP模型得出的表征中有多少上下文被編碼。我們進一步表明,改變一個最先進的預訓練模型以更好地預測fMRI記錄也大大改善了其對新數據分布的概括性能。這些結果是第一個證據,表明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。

1.2 貢獻

本論文的貢獻可以概括為以下幾點。

  • 第三章:我們從概念上分解了兩個腦源、實驗刺激和所選刺激表征之間共享變異可能的基本關系。

  • 第三章:我們提出了常用方法在區分這些不同關系方面的局限性,并提出了兩種可以區分它們的新方法,利用模擬數據和兩個自然實驗的fMRI數據提供證據。

  • 第四章:我們介紹了一種基于計算模型的新方法,該方法對NLP系統進行干預,以便將整體的意義與部分的意義分開來捕捉。這種方法允許以以前不可能的方式研究大腦中復雜和組成的多詞含義。

  • 第四章:我們確定了在腦電圖中可檢測到的信息類型的潛在限制。雖然高時間成像分辨率是達到理解語言處理的機械水平的關鍵,但我們的研究結果表明,要檢測長距離的語境信息,可能需要使用除MEG以外的其他模式。

  • 第五章:我們提供了第一個可以預測大腦記錄的方法,作為觀察到的刺激物和問題任務的函數。這很重要,因為它不僅會鼓勵神經科學家制定關于問題對刺激物處理的影響的機械性計算假說,而且會使神經科學家通過評估這些假說與大腦記錄的吻合程度來檢驗這些不同假說。

  • 第五章:我們表明,整合了任務和刺激表征的模型比不考慮任務語義的模型具有明顯更高的預測性能,并將任務語義的影響主要定位在刺激呈現后475-650ms的時間窗口。

  • 第六章:我們提出了一種解釋NLP表征的新方法,并發現轉化器的中間層比其他層更善于預測大腦活動,而且轉化器-XL的性能不會隨著上下文的增加而降低,與其他流行的測試模型'不同。我們發現,在BERT的早期層中用統一的注意力取代預訓練的注意力會導致對大腦活動的更好預測。

  • 第六章:我們表明,當BERT被改變以更好地與大腦記錄保持一致時(通過在早期層用均勻的注意力取代預訓練的注意力),它也能在探測其句法理解的NLP任務中表現得更好(Marvin等人,2018)。這些結果是第一個證據,證明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。

付費5元查看完整內容

機器學習技術為提取信息和數據之間的潛在關系以及通過處理現有信息來訓練模型來預測未來事件提供了具有成本效益的替代方法。《高效學習機器》探討了機器學習的主要主題,包括知識發現、分類、遺傳算法、神經網絡、核心方法和生物啟發技術

Mariette Awad和Rahul Khanna的綜合方法將理論闡述、設計原則和高效機器學習的實際應用結合在一起。他們的經驗重點,表達在他們的樣本算法的密切分析貫穿全書,旨在裝備工程師,工程學生和系統設計師設計和創建新的和更有效的機器學習系統。高效學習機器的讀者將學習如何識別和分析機器學習技術可以為他們解決的問題,如何實現和部署樣本問題的標準解決方案,以及如何設計新的系統和解決方案。

計算性能、存儲、記憶、非結構化信息檢索和云計算方面的進步,與新一代機器學習范式和大數據分析共同發展,作者在其傳統前身的概念背景下提出了這些概念。Awad和Khanna探索了深度神經網絡、分層時間記憶和皮質算法的深度學習技術的當前發展。

《自然》建議使用復雜的學習技術,使用簡單的規則來產生具有適應性、進化和分布式特性的高度智能和有組織的行為。作者研究了最流行的生物啟發算法,以及一個分布式數據中心管理的示例應用程序。他們還討論了用于解決多目標優化問題的機器學習技術,在這個問題中,現實世界系統中的解決方案是受約束的,并根據它們對多個目標的總體表現進行評估。關于支持向量機及其擴展的兩章重點介紹了機器學習核心的分類和回歸技術的最新改進。

//link.springer.com/book/10.1007/978-1-4302-5990-9#toc

付費5元查看完整內容

在本章中,我們將討論神經網絡(NN) 的一些復雜之處,NN也是深度學習(DL) 的基 石。我們將討論神經網絡的數學基礎、架構和訓練過程。本章的主要目的是讓你對神經網絡有一個系統的了解。通常 ,我們從計算機科學的角度來看待它們一將其看作由許多不同步驟 / 組件組成的機器學習(ML) 算法(甚至可以看作一個特殊實體)。我們通過神經元、層等思考 的方式獲得一些認知(至少我第一次了解這個領域時是這樣做的)。這是一種非常有效的方式. 在這種理解水平上.我們可以做出令人印象深刻的事情。然而.這也許不是正確的方法。神 經 網 絡 具 有 堅 實 的 數 學 基 礎 . 如 果 我 們 從 這 個 角 度 來 研 究 它 , 就 能 以 更 基 礎 、 更 優 雅 的 方 式 來 定 義 和 理 解 它 。因 此 , 本 章 將 從 數 學 和 計 算 機 科 學 的 角 度 強 調 神 經 網 絡 之 間 的 比 較 。如 果 你 已 經 熟 悉 這 些 , 可 以 跳 過 本 章 。盡 管 如 此 , 我 還 是 希 望 你 能 發 現 一 些 你以前不知道的有趣的地方

付費5元查看完整內容

【導讀】圖神經網絡依然是當下的研究熱點之一。DeepMind研究科學家Petar Veli?kovi?在Twitter上開放了自己的劍橋大學博士論文《深度神經網絡結構的》,共有147頁pdf,里面涵蓋了出名的圖神經網絡GAT和Deep Graph Infomax的經典工作。

Petar Veli?kovi?,DeepMind研究科學家。在Pietro Lio的指導下獲得了劍橋大學的計算機科學博士學位。我的研究興趣包括設計操作非平凡結構數據(如圖)的神經網絡架構,以及它們在算法推理和計算生物學中的應用。特別地,我是Graph Attention Network(圖注意力網絡)的第一作者和Deep Graph Infomax的第一作者。我的研究已經在ZDNet等媒體上發表。

//petar-v.com/

深層神經網絡結構的復興

摘要:

使用深度神經網絡的機器學習(“深度學習”)允許直接從原始輸入數據學習復雜特征,完全消除了學習流程中手工“硬編碼”的特征提取。這促使了計算機視覺,自然語言處理,強化學習和生成模型的相關任務性能的提升。這些成功案例幾乎都是與大量帶有標記的訓練樣本(“大數據”)密切相關的,這些示例展示了簡單的網格狀結構(例如文本或圖像),可通過卷積或循環層加以利用。這是因為神經網絡的自由度非常大,使得它們的泛化能力容易受到過度擬合等影響。然而,在許多領域,廣泛的數據收集并不總是合適的,負擔得起的,甚至是可行的。此外,數據通常以更復雜的結構組織起來——大多數現有的方法都會簡單地拋棄這種結構。這類任務的例子在生物醫學領域非常豐富。我假設,如果深度學習要在這樣的環境中充分發揮其潛力,我們需要重新考慮“硬編碼”方法——通過結構性歸納偏差,將輸入數據中的固有結構假設直接整合到我們的架構和學習算法中。在本文中,我通過開發三個注入結構的神經網絡架構(操作稀疏多模態和圖結構的數據)和一個基于結構的圖神經網絡學習算法直接驗證了這一假設,證明了超越傳統基線模型和算法的性能提升。

地址:

論文結構:

本文主要貢獻的概述。首先,提出了兩種具有特殊結構誘導偏差的多模態學習早期融合模型;一個用于網格結構輸入模式(X‐CNN[176]),另一個用于順序輸入模式(X‐LSTM[177])。接下來,圖卷積層的理想結構偏差在圖注意力網絡(GAT[174])模型中得到了應用,并且第一次同時得到了滿意的結果。最后,通過Deep Graph Infomax (DGI[175])算法成功地引入了局部互信息最大化,將其作為一個無監督學習目標用于圖的結構輸入,允許在學習節點表示時結合圖卷積編碼器引入非常強大的結構誘導偏差。

付費5元查看完整內容

摘要:

本文將優化描述為一個過程。在許多實際應用中,環境是如此復雜,以致于無法制定一個全面的理論模型,并使用經典算法理論和數學優化。采取一種穩健的方法是必要的,也是有益的,方法是應用一種不斷學習的優化方法,在觀察到問題的更多方面時從經驗中學習。這種將優化視為一個過程的觀點在各個領域都很突出,并在建模和系統方面取得了一些驚人的成功,現在它們已經成為我們日常生活的一部分。

作者介紹:

Elad Hazan是普林斯頓大學計算機科學教授。他于2015年從Technion畢業,當時他是該校運籌學副教授。他的研究重點是機器學習和優化的基本問題的算法設計和分析。他的貢獻包括合作開發用于訓練學習機器的AdaGrad算法,以及第一個用于凸優化的次線性時間算法。他曾(兩次)獲得2012年IBM Goldberg最佳論文獎,以表彰他對機器學習的次線性時間算法的貢獻。2008年,他還獲得了歐洲研究理事會(European Research Council)的一筆撥款、瑪麗?居里(Marie Curie)獎學金和谷歌研究獎(兩次)。他是計算學習協會的指導委員會成員,并擔任COLT 2015的項目主席。

//www.cs.princeton.edu/~ehazan/

付費5元查看完整內容
北京阿比特科技有限公司