人工智能(AI)的幾個主要創新(如卷積神經網絡,經驗回放)是基于關于大腦的發現。然而,基礎的大腦研究結果花了很多年才首次得到鞏固,并花了更多時間轉移到人工智能上。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物,因此,機械性的理解離我們更遠。
在這篇論文中,我們提出了一個數據驅動的框架,通過建立人們理解語言的大腦記錄和自然語言處理(NLP)計算機系統之間的直接聯系來規避這些限制。我們提出的證據表明,這種聯系對神經語言學和NLP都有好處。具體來說,這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴上下文和任務的科學發現,并且我們提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。這些調查還有助于認知建模方面的進展,這些進展可能在語言研究之外還有用。總之,這篇論文涉及多學科的調查,對認知神經科學、神經語言學和自然語言處理做出了貢獻。
人腦是一個了不起的信息處理系統,能夠從少數例子中學習,在學習新的事實和技能的同時保留以前學到的事實和技能,并理解任何長度、任何語言的文本。長期以來,它一直是人工智能(AI)和機器學習(ML)領域的靈感來源。例如,早期視覺系統中細胞感受野和信息處理層次的發現(Hubel等人,1968年)導致了卷積神經網絡的發明(Fukushima等人,1982年),徹底改變了計算機視覺,而發現在海馬體中回放先前的經驗有助于記憶鞏固(McNaughton,1983年)激發了經驗回放的發展(McClelland等人,1992年)(也見(Lin,1992年)),在DeepMind的AlphaGo(Silver等人,2016年)首次戰勝人類圍棋世界冠軍后,它已成為深度強化學習的主力。在這些案例中,關于大腦功能的基本發現花了很多年才首次鞏固,而要轉移到人工智能上則需要更多的時間(例如,視覺系統的發現花了10年才鞏固,而要轉移到人工智能上又需要10年以上)。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物體,因此,機械性的理解就更遙遠了。
在這篇論文中,我們提出了一個數據驅動的框架,通過在大腦和自然語言處理(NLP)計算機系統之間建立直接聯系來規避這些限制。我們在圖1.1中對這個數據驅動的框架的基礎進行了可視化。我們提出的證據表明,這種數據驅動的連接對神經語言學和NLP都有好處。具體來說,我們表明這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴語境和任務的科學發現,并提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。
圖1.1: 我們的數據驅動方法的可視化。我們首先將自然文本,如一本書的一章,逐字逐句地呈現給一個人,同時她的大腦活動被大腦成像設備,如fMRI記錄下來。我們將相同的文本作為輸入給自然語言處理(NLP)計算機系統,如BERT(Devlin等人,2018)。接下來,我們從NLP系統的特定中間層提取該文本的表征,我們觀察由同一文本引起的大腦記錄。最后,我們計算這兩個文本表征之間的一致性--一個來自NLP系統,一個來自大腦記錄。大腦記錄和NLP系統之間的一致性是通過學習一個函數f來估計的,該函數預測每個大腦源(如體素、傳感器-時間點等)的活動是NLP系統對所呈現文本的表述函數。這個函數通常被建模為一個線性函數,并使用標準的機器學習技術學習。關于這種方法的更多細節,請參考第三章。
當閱讀 "獎杯不適合放在棕色的手提箱里,因為它太大了 "這個句子時,盡管有一個模棱兩可的代詞 "它",它既可以指獎杯,也可以指手提箱,但我們還是能理解這個句子的意思(Levesque等人,2012)。我們知道所指的是獎杯。如果這個句子是 "獎杯不適合放在棕色的手提箱里,因為它太小了",那么我們就會推斷出所指的是手提箱。大腦是如何處理這些句子并將現實世界的意義賦予它們的?為了解決這個問題,有一些基本的初步問題需要回答,即哪些信息在大腦中的什么地方和什么時候被處理,以了解這些信息是如何在不同的位置和時間點上被聚合的。
利用記錄語言處理過程中人腦活動的神經影像設備,神經科學家在回答 "什么"、"哪里 "和 "什么時候 "的問題上取得了進展。例如,研究人員發現,單個單詞的含義分布在大腦皮層中,但在不同的人中是一致的(Mitchell, Shinkareva等人, 2008; Wehbe, Murphy等人, 2014; Huth, Heer等人, 2016年),一組被稱為 "語言網絡 "的大腦區域支持語言理解(Fedorenko, Hsieh等人, 2010; Fedorenko and ThompsonSchill, 2014),以及一個詞的意思在第一次閱讀后的200到600ms之間被處理(Salmelin, 2007; Skeide等人)。然而,在語言理解過程中,大腦是如何在不同的位置和時間點上匯總信息的,仍然空白。
同時,自然語言處理(NLP)領域創造了一些計算系統,這些系統以特定的方式匯總單詞的含義,以執行特定的語言任務,如預測句子中即將出現的單詞。然而,目前還不清楚這些計算系統是否真正理解句子的含義,以及NLP系統的 "如何 "與大腦的 "如何 "是否相同。在這篇論文中,我們認為,盡管NLP系統與人腦不同,但神經語言學可以從使用NLP系統作為人腦在語言理解過程中如何聚集信息的模型生物中獲益。模型生物體使研究特定的大腦功能更加容易,因為它們允許直接干預,而由于道德或實際原因,在人類身上很難做到這一點。例如,大鼠被用作研究空間表征的神經成分的模型生物,因為它們的探索行為和它們的尺寸,可以在自由行為中進行神經記錄(Yartsev,2017)。但是,是什么讓一個特定的生物體成為特定功能的好模型?我們認為,一個好的模型生物體要滿足三個特性。1)它執行特定的功能,2)它提供了一個比直接在人腦中研究該功能更容易的平臺,以及3)模型生物體中的功能可以與人腦中的類似功能相關。
在這篇論文中,我們提供了證據,證明NLP系統滿足了大腦中語言理解的良好模型生物的第二和第三屬性。第二個屬性可以說是NLP系統對神經語言學最重要的好處--能夠對NLP系統進行具體干預,并觀察這些干預如何影響其與大腦的一致性。就像在動物模型生物體中一樣,研究人員可以在NLP系統中消減現有的信息通路或引入新的信息通路。這些干預措施允許研究人員對NLP系統中包含的信息進行因果推斷,而這在對真實大腦的非侵入性神經科學研究中是不可能的。在這篇論文中,我們提供了一個使用NLP系統中的干預措施來研究超詞義神經基礎的研究案例:語言的多詞義是超越單個詞的意義的。為了測量干預前和干預后NLP系統與大腦的一致性,我們表明我們可以使用編碼模型,這些模型被訓練來預測大腦記錄,作為從NLP系統獲得的文本表征的函數。編碼模型提供了一種方法,將來自NLP系統的文字表征與人們理解語言的大腦記錄聯系起來,從而滿足了一個好的模型生物體的第三個屬性。
一個好的模型生物體的第一個屬性是什么?一個好的大腦語言理解模型生物體必須理解語言。一個NLP系統真的能理解語言嗎?為了回答這個問題,我們可以研究量化語言理解的不同方法,并觀察到NLP系統在其中一些指標上表現良好,但在其他指標上則不然。例如,一個NLP系統非常善于預測句子中即將出現的單詞,但可能會錯誤地得出結論,"我把沉重的桌子放在書上,它就壞了 "這個句子中的 "它 "指的是 "桌子 "而不是 "書"(Trichelair等人,2018),因為它大概已經知道桌子壞了比書壞了更經常出現在上下文中。這種超越詞語關聯的推理困難是NLP系統目前面臨的挑戰。同樣,如果我們在NLP系統中逐句輸入一本書的章節,NLP系統的內部狀態就會偏向于最近處理的文本(Goodfellow等人,2016)。越往后的章節,NLP系統的記憶就越差(Khandelwal等人,2018;Dai等人,2019)。這是一個問題,因為理解現實的語言需要我們有時解決長期的依賴關系。評估NLP系統編碼長范圍語境的能力,以及提高這種能力,是一個活躍的研究領域。
與NLP系統形成鮮明對比的是,一個人在閱讀一本書的一章時,會記住該章最開始的信息(例如有助于理解人物之間關系的背景信息)。因此,我們提出的一個關鍵問題是:我們能否利用我們擁有的唯一能真正理解語言的處理系統--人腦--來評估,甚至可能改進這些NLP系統能夠編碼的信息?為了探究語言理解過程中人腦中的信息,我們沿用了幾十年的神經科學工作,使用腦成像設備(fMRI和MEG)對人們逐字閱讀文本時的大腦活動進行采樣。然后我們在NLP系統中進行不同的干預,觀察其與大腦記錄的一致性如何變化。我們觀察到,一個特定的干預措施,即強迫NLP系統在匯總所有單詞的含義時給予同等的權重,改善了與大腦記錄的一致性,也改善了NLP系統在新數據分布上的表現。這是第一個證據,表明人們理解語言的大腦記錄可以用來改善流行的神經網絡NLP系統的泛化性能。
雖然NLP系統還不能完美地理解語言,但在過去的三年里,它們在語言理解的許多相關指標方面有了明顯的改善。重要的是,NLP系統不是一成不變的,未來能夠導致對語言的理解更像人類的改進,將導致更好的模型生物體。鼓勵在NLP系統中進行更像人類語言理解的未來工作可能會研究顯性記憶模塊在整合和保持語言信息中的作用,并可能整合來自多種感官模式的信息,如視覺和聽覺。
這篇論文是圍繞著以下論述展開的:在大腦中的語言處理和機器中的語言處理之間建立數據驅動的聯系可以改善提升。1)通過計算建模,我們對大腦中語言處理的機械理解;2)通過轉移大腦的洞察力,提高自然語言處理模型的泛化性能。
第二章詳細介紹了以前的相關神經語言學發現,論文中使用的腦成像記錄模式和數據集,以及多個論文章節中通用的NLP系統。
第三章詳細介紹了現有的訓練編碼模型的方法,這些模型被用來建立大腦中的語言和機器中的語言之間的數據驅動的聯系,并測量它們的一致性。進一步討論了編碼模型的局限性,特別是在作為復雜表征函數進行訓練時,如從NLP系統中獲得的表征。最后,它提出了兩個新的衡量標準,能夠對大腦中的信息處理進行更精確的科學推斷,并在兩個自然的fMRI數據集中對其進行驗證。
第四章為論文的第一個論述提供了支持,通過對NLP系統的干預來研究語言的多詞意義的神經基礎,這超出了單個詞的意義,我們稱之為超詞意義(Toneva, Mitchell等人, 2020)。我們對NLP系統進行干預,將這種超詞義從單個詞的意義中分離出來。通過使用fMRI記錄,我們發現被認為是處理詞匯層面意義的樞紐也保持著超詞的意義,這表明詞匯和組合語義的共同基底。然而,令人驚訝的是,我們發現超詞意義很難在腦電圖中檢測到。相反,腦電圖的記錄被最近閱讀的單個單詞所特有的信息所顯著預測。fMRI和MEG結果之間的差異表明,超詞意義的處理可能是基于神經機制,與同步細胞發射無關,就像MEG信號一樣。
第五章還為計算模型如何能導致大腦中語言的科學發現提供了支持。在這一章中,我們通過預測毫秒級分辨率的腦電活動作為名詞語義和任務的函數來研究問題任務對具體名詞處理的影響(Toneva, Stretcu等人, 2020)。這項工作提供了第一個預測大腦記錄作為觀察到的刺激物和問題任務的功能方法。使用我們提出的方法,我們表明,納入任務語義(即提出的具體問題)大大改善了對腦電圖記錄的預測,跨參與者。這種改善發生在參與者第一次看到這個詞之后的475-550ms,這相當于被認為是一個詞的語義處理的結束時間。這些結果表明,只有一個詞的語義處理的結束時間是依賴于任務的。
第六章為論文的第二個論述提供支持。在這一章中,我們開發了一種方法,利用先前的神經語言學證據來評估NLP模型的表征中是否存在特定大腦相關信息(Toneva and Wehbe, 2019)。該方法在神經成像設備和NLP模型中向人逐字呈現相同的文本,并測量網絡衍生的表征與相關腦區大腦記錄的吻合程度。這項工作表明,我們可以使用這種方法和功能磁共振成像捕捉到的大腦活動快照,來揭示4個流行的預訓練NLP模型得出的表征中有多少上下文被編碼。我們進一步表明,改變一個最先進的預訓練模型以更好地預測fMRI記錄也大大改善了其對新數據分布的概括性能。這些結果是第一個證據,表明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。
本論文的貢獻可以概括為以下幾點。
第三章:我們從概念上分解了兩個腦源、實驗刺激和所選刺激表征之間共享變異可能的基本關系。
第三章:我們提出了常用方法在區分這些不同關系方面的局限性,并提出了兩種可以區分它們的新方法,利用模擬數據和兩個自然實驗的fMRI數據提供證據。
第四章:我們介紹了一種基于計算模型的新方法,該方法對NLP系統進行干預,以便將整體的意義與部分的意義分開來捕捉。這種方法允許以以前不可能的方式研究大腦中復雜和組成的多詞含義。
第四章:我們確定了在腦電圖中可檢測到的信息類型的潛在限制。雖然高時間成像分辨率是達到理解語言處理的機械水平的關鍵,但我們的研究結果表明,要檢測長距離的語境信息,可能需要使用除MEG以外的其他模式。
第五章:我們提供了第一個可以預測大腦記錄的方法,作為觀察到的刺激物和問題任務的函數。這很重要,因為它不僅會鼓勵神經科學家制定關于問題對刺激物處理的影響的機械性計算假說,而且會使神經科學家通過評估這些假說與大腦記錄的吻合程度來檢驗這些不同假說。
第五章:我們表明,整合了任務和刺激表征的模型比不考慮任務語義的模型具有明顯更高的預測性能,并將任務語義的影響主要定位在刺激呈現后475-650ms的時間窗口。
第六章:我們提出了一種解釋NLP表征的新方法,并發現轉化器的中間層比其他層更善于預測大腦活動,而且轉化器-XL的性能不會隨著上下文的增加而降低,與其他流行的測試模型'不同。我們發現,在BERT的早期層中用統一的注意力取代預訓練的注意力會導致對大腦活動的更好預測。
第六章:我們表明,當BERT被改變以更好地與大腦記錄保持一致時(通過在早期層用均勻的注意力取代預訓練的注意力),它也能在探測其句法理解的NLP任務中表現得更好(Marvin等人,2018)。這些結果是第一個證據,證明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。
近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來
注意力是一種能夠通過選擇性地關注某一信息而忽略其他可感知信息來處理人類有限的處理瓶頸的喚醒狀態。幾十年來,注意力的概念和功能在哲學、心理學、神經科學和計算機領域都得到了研究。目前,這一特性已經在深度神經網絡中得到了廣泛的研究。現在有許多不同的神經注意力模型,在過去的六年中已經成為一個非常活躍的研究領域。本研究從注意力理論的角度,對主要的神經注意力模型進行了批判性的分析。在這里,我們提出了一個分類法,它與深度學習之前的理論方面相印證。我們的分類法提供了一個組織結構,提出了新的問題,并構建了對現有注意力機制的理解。特別是,從心理學和神經科學經典研究中提取的17個標準被制定出來,用于定性比較和批判性分析在一組650多篇論文中發現的51個主要模型。此外,我們強調了幾個尚未被探索的理論問題,包括討論生物學的合理性,強調了當前的研究趨勢,并為未來提供見解。
注意力是一種能夠通過選擇性地關注某一信息而忽略其他可感知信息[1]來處理有限的處理瓶頸的喚醒狀態。根據James[2],注意力可以被認為是一種內在的力量,自發地或自愿地創造一種感官或運動性質的心理期望,有利于刺激的感知和反應的產生。這種內在的力量也可以理解為一種認知需求,因為在任何時候,環境呈現的感知信息都超過了所能支持的范圍,不可能同時對所有的外部刺激做出所有的運動動作。在自然界中,注意力是關系到一切形式生命生存的基本活動,是生物認知進化的長期過程。在進化尺度最低的生物中,注意力主要表現在感知、選擇和調節環境相關刺激。這種機制對物種的延續和進化起著決定性的作用,因為它的特征是能夠在環境中感興趣的地點安頓下來,并識別可能的獵物、捕食者或競爭對手。在人類的認知周期中,注意力內在地存在于大腦中,從感知刺激、組織復雜的心理過程到做出決策。
幾十年來,一些科學領域一直在關注理解注意力的作用。在心理學方面,早在1890年就有研究在尋找反映人類大腦中注意力過程表現的行為相關性,例如監視時間[3],非注意力盲點[4],注意力眨眼[5],認知處理的反應時間[6],以及過濾外部刺激的選擇性能力[7]。認知神經科學研究已經采用了侵入性和非侵入性的方法,如神經解剖/神經生理學技術、腦電圖、正電子發射斷層掃描(PET)和功能磁共振成像(fMRI),以捕捉關于注意障礙[8]的見解。神經生理學家試圖研究神經元如何對表示感興趣的外部刺激作出反應。最后,計算神經科學家從不同的角度捕捉所有的見解,并支持現實的計算模型來模擬和解釋注意力行為,尋求理解如何,在哪里和何時發生注意力過程或需要[10]。
受這些研究的啟發,計算機科學家在20世紀90年代首次提出了計算機系統的注意力機制,以解決當時存在的算法的高計算復雜性所固有的性能限制。最初,幾個注意力視覺模型用于物體識別[11],圖像壓縮[12],圖像匹配[13],圖像分割[12],目標跟蹤、主動視覺[14]和識別[11]的靈感來自于特征整合理論——這是最早將視覺注意形式化的理論之一——在該理論中,系統會從單獨觀察的場景中提取一組簡單的特征,在隨后的步驟中,刺激的整合發生,支持識別環境中的相關物體。隨后,視覺注意力成為一種能夠為機器人決策提供必要環境信息的工具。因此,幾個機器人導航系統[15],SLAM[16]和人機交互[17]集成注意力來提高這些自主代理的性能。
人工智能作為提高深度神經網絡性能的一個基本概念,在過去的十年中引起了科學家們的關注。在深度學習中,Attention帶來了一種受人腦啟發的計算新形式,這與今天的神經網絡所做的完全不同。注意力機制使網絡更易于擴展,更簡單,促進多模態,并減少了長期空間和時間依賴帶來的信息瓶頸。目前,注意力接口集中在兩個主要的發展和研究前沿,即可以很容易地插入到經典DL架構和端到端注意力網絡中,注意力在整個架構中都內在地存在。注意力接口通常是對卷積和遞歸操作的補充,允許控制來自神經結構的特定部分或其他外部認知元素(如外部記憶、預訓練層)的資源和內部或外部信息的動態流動。端到端注意力網絡代表了深度學習的主要進展。自然語言處理的先進方法,多模態學習,以及通過圖神經網絡的非結構化數據學習使用端到端注意力方法。目前,許多針對DL的研究在最多樣化的應用領域中使用了注意力結構,因此,自2014年以來,我們已經能夠在主要出版物庫中發表了6000多篇論文。
主要神經注意力模型總結。因素依次為: 選擇性(f1)、分割(f2)、定向(f3)、持續性(f4)、選擇性感知(f5)、選擇性認知(f6)、基于位置(f7)、基于對象(f8)、基于特征(f9)、任務導向(f10)、時間導向(f11)、無狀態(f12)、有狀態(f13)、硬狀態(f14)、軟狀態(f15)。在基于位置的列(f7)中: 隱藏狀態/數據嵌入(H)、外部存儲單元格(EM)、特征地圖(FM)、輸入數據(I)和其他(O)。在基于特征的列(f9)中: 視覺(V)、語言(L)、記憶細胞(MC)、隱藏狀態(H)和其他(O)。
盡管在計算機、心理學、神經科學、甚至哲學的各個領域都有大量的研究,但歷史問題是注意力在大腦中無處不在,因為沒有一個單一的注意力中心,這使得研究的概念和方面非常抽象,難以驗證。當一組相關概念和想法變得難以管理時,分類法是有用的。通過分類學,可以對不同的方面進行分類和系統的研究。在心理學和神經科學中,這個問題仍然存在,但已經有一些理論和分類被一些認知行為研究者廣泛接受。具體來說,在深度學習中,沒有基于注意力的理論概念的分類,因為存在的少數幾個概念遠遠不是理論概念,而且在給定的范圍[23][24]中非常具體。從這個意義上說,一個由基于心理學和神經科學概念的分類法支持的統一的注意力框架是必要的,以闡明不同的注意力機制如何在DL中發揮作用,促進新的研究機會的可視化。因此,我們的目標是在本工作中為讀者提供一個神經網絡的注意力分類,基于對注意力的各種理論見解和深度學習[1]之前的幾個相關研究。
這項綜述提出了一個分類法,證實了在深度學習之前的注意力理論方面。在分類法的基礎上,提出并討論了該領域的主要神經注意力模型。作為我們工作的主要貢獻,我們強調:
從2014年到現在的主要關鍵發展。RNNSearch[34]呈現第一注意力機制。神經圖靈機[37]和記憶網絡[89]引入了記憶和動態流控制。RAM[38]和DRAW[40]學會了將多一瞥、視覺注意力和順序處理結合起來。空間變換器[25]引入了一個模塊,以增加CNN對變化的魯棒性。展示,參加和告訴[41]創造了多模態的注意力。指針網絡[42]將注意力呈現為一個指針。BiDAF[47]、HAN[53]和DCN[55]提出了將數據與不同層次級別對齊的注意力技術。ACT[51]介紹了計算時間的主題。神經變換器[18]是第一個具有端到端注意力方法的自我注意力神經網絡。GATs[20]在GNN中引入了注意力。BERT[90]、GPT-2[91]、GPT-3[92]和DALLE[93]是語言模型和文本-圖像生成技術的最新進展。最后,BRIMs[72]學會了自下而上和自上而下信號的結合。
隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。
本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
數據科學是設計從大量數據中提取知識的算法和管道。時間序列分析是數據科學的一個領域,它感興趣的是分析按時間順序排列的數值序列。時間序列特別有趣,因為它讓我們能夠可視化和理解一個過程在一段時間內的演變。他們的分析可以揭示數據之間的趨勢、關系和相似性。存在大量以時間序列形式包含數據的領域:醫療保健(心電圖、血糖等)、活動識別、遙感、金融(股票市場價格)、工業(傳感器)等。
在數據挖掘中,分類是一項受監督的任務,它涉及從組織到類中的帶標簽的數據中學習模型,以便預測新實例的正確標簽。時間序列分類包括構造用于自動標注時間序列數據的算法。例如,使用健康患者或心臟病患者的一組標記的心電圖,目標是訓練一個模型,能夠預測新的心電圖是否包含病理。時間序列數據的時序方面需要算法的發展,這些算法能夠利用這種時間特性,從而使傳統表格數據現有的現成機器學習模型在解決底層任務時處于次優狀態。
在這種背景下,近年來,深度學習已經成為解決監督分類任務的最有效方法之一,特別是在計算機視覺領域。本論文的主要目的是研究和發展專門為分類時間序列數據而構建的深度神經網絡。因此,我們進行了第一次大規模的實驗研究,這使我們能夠比較現有的深度學習方法,并將它們與其他基于非深度學習的先進方法進行比較。隨后,我們在這一領域做出了大量的貢獻,特別是在遷移學習、數據增強、集成和對抗性攻擊的背景下。最后,我們還提出了一種新的架構,基于著名的Inception 網絡(谷歌),它是目前最有效的架構之一。
我們在包含超過100個數據集的基準測試上進行的實驗使我們能夠驗證我們的貢獻的性能。最后,我們還展示了深度學習方法在外科數據科學領域的相關性,我們提出了一種可解釋的方法,以便從運動學多變量時間序列數據評估外科技能。
深度學習序列分類概述
在過去的二十年中,TSC被認為是數據挖掘中最具挑戰性的問題之一(Yang and Wu, 2006; Esling and Agon, 2012)。隨著時間數據可用性的增加(Silva et al.,2018),自2015年以來已有數百種TSC算法被提出(Bagnall et al.,2017)。由于時間序列數據具有自然的時間順序,幾乎在每一個需要某種人類認知過程的任務中都存在時間序列數據(Langkvist, Karlsson, and Loutfi, 2014)。事實上,任何使用考慮到排序概念的已注冊數據的分類問題都可以被視為TSC問題(Cristian Borges Gamboa, 2017)。時間序列在許多實際應用中都遇到過,包括醫療保健(Gogolou等,2018)和人類活動識別(Wang et al.,2018;到聲學場景分類(Nwe, Dat, and Ma, 2017)和網絡安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA檔案中數據集類型的多樣性(Dau等,2019;Bagnall et al,2017)(最大的時間序列數據集儲存庫)展示了TSC問題的不同應用。
【導讀】Yoon Kim今年從哈佛大學計算機博士畢業,他是現已經引用7000多次EMNLP論文的TextCNN作者,他的博士論文《自然語言的深度潛在變量模型》,探討了深度學習和潛在變量建模的結合使用,以更好地理解自然語言處理,即計算機解釋人類語言的研究。并獲得了首屆計算機科學杰出博士學位論文獎。值得關注學習!
Yoon Kim 獲得了哈佛大學約翰·保爾森工程與應用科學學院頒發的首屆計算機科學杰出博士學位論文獎。
Kim的論文題為《自然語言的深度潛在變量模型》,探討了深度學習和潛在變量建模的結合使用,以更好地理解自然語言處理,即計算機解釋人類語言的研究。
潛變量模型將學習問題分離為獨立的部分,而深度學習可以為這些部分學習復雜的、不尋常的函數。通過結合這些技術,Kim的方法比其他方法更能“理解”語言。
“Yoon的研究生工作在自然語言處理和機器學習研究方面取得了罕見的成就,這些研究在研究和工業領域得到了廣泛應用,同時也保持了嚴謹的科學性。作為一個研究生,他的結果已經廣泛用于文本分類、大型自然語言處理模型壓縮的設備如手機,他甚至寫了開源軟件部署到主要翻譯公司,”前計算機科學助理教授和Yoon的導師Alexander Rush說, 。”他的論文探討一個具有挑戰性的問題,他已經工作了幾年,如何學習語言背后的潛在屬性結構語法和局部分析,使用一種方法稱為深度生成模型。這是非常漂亮的工作,這種論文將在未來幾年為這個主題提供參考。”
其個人獨自署名論文 TextCNN 谷歌學術論文引用已經到7275。。。
在開始他的研究生工作之前,Kim在康奈爾大學獲得數學和經濟學學士學位,在哥倫比亞大學獲得統計學碩士學位,在紐約大學獲得數據科學碩士學位。
他將加入麻省理工學院電子工程和計算機科學系,擔任助理教授。
Yoon的論文描述了他在過去幾年里所進行的一項研究計劃,以恢復語言的潛在結構,并提供了他的思想的廣泛應用。他的方法顯示出一種概念上的簡單性,掩蓋了其技術上的豐富性和數學上的復雜性。他已經被視為應用于自然語言的深度學習領域的領導者,他產生的思想已經成為該領域的標準實踐。Yoon完全有資格獲得計算機科學學位論文獎。”
微軟計算機科學教授、計算機科學領域主席埃迪·科勒(Eddie Kohler)解釋說,今年早些時候,哈佛計算機科學決定正式認可當年最優秀的博士論文。學院的一個委員會從一組被提名的學生中選出了優勝者,這些學生是根據所有畢業學生的博士委員會的意見提名的。
該獎項將每篇論文作為一個整體進行評估,并考察研究質量、潛在影響和報告質量。
科勒說:“我們為我們所有的學生感到驕傲,我們為Yoon在哈佛完成這項開創性的工作感到驕傲。”
//www.seas.harvard.edu/news/2020/06/kim-receives-inaugural-dissertation-award
自然語言的深度潛在變量模型
理解自然語言涉及到從表面形式提取意義的復雜底層過程。在自然語言的計算模型中對這種現象進行操作化的一種方法是通過概率潛在變量模型,它可以在概率框架中對觀察到的和未觀察到的感興趣變量之間的結構依賴進行編碼。另一方面,深度學習提供了一種替代的計算方法來建模自然語言,通過表達性全局模型的端到端學習,任務所需的任何現象都被隱式地捕獲在神經網絡的隱藏層中。本論文探討了自然語言處理應用中深度學習和潛在變量建模的綜合。我們研究一類被稱為深度潛在變量模型,它用神經網絡參數化概率潛在變量模型的組成部分,從而保持了潛在變量模型的模塊化,同時利用了深度學習的最新進展所帶來的豐富參數化。我們實驗了不同系列的深度潛在變量模型,以針對廣泛的語言現象(從單詞對齊到解析樹),并將它們應用于核心自然語言處理任務,包括語言建模、機器翻譯和無監督解析。
我們還研究了在語言應用中使用深度潛在變量模型時出現的學習和推理的關鍵挑戰。學習這類模型的標準方法是通過平攤變分推理,訓練一個全局推理網絡對潛在變量進行近似的后驗推理。然而,平攤變分推理的直接應用通常不足以滿足許多感興趣的應用,我們考慮幾種對標準方法的擴展,從而改進學習和推理。總之,每一章都提供了一個為建模語言的特定方面而定制的深度潛在變量模型,并開發了一個攤銷變分推理的擴展,以解決潛在變量模型所帶來的特殊挑戰。我們預期這些技術將廣泛適用于其他感興趣的領域。
第二章簡要概述了潛在變量模型,精確和近似推理,以及神經網絡機械在整個論文中使用。
第三章探討了一個具有完全自回歸生成模式的句子的連續潛變模型。我們研究了這類模型中常見的后塌陷模式,并提出了一種改進的半平攤方法來進行近似推理,以減輕后塌陷。
第四章給出了神經機器翻譯中注意力的潛在變量形式化,它是由傳統統計機器翻譯系統中的對齊驅動的。除了學習這類模型的傳統方法外,我們還試驗了連續放松的方法。
第五章討論了基于語法的語言模型的學習問題,其中潛在空間對應于句子的解析樹集。我們證明后驗正則化通過一個結構化推理網絡提供適當的歸納偏差,以促進有意義的樹結構的出現。
第六章用當代參數化和推理技術回顧了語法歸納。我們將經典的動態規劃算法與平攤變分推理相結合,表明這種瓦解的變分推理方法可以訓練出更豐富的語法,超越傳統的上下文無關的假設。
最后,第七章對未來進行了總結和展望。
簡介:
為了提供對機器閱讀理解(MRC)中現有任務和模型的調查,本報告回顧:1)一些具有代表性的簡單推理和復雜推理MRC任務的數據集收集和性能評估; 2)用于開發基于神經網絡的MRC模型的體系結構設計,注意機制和提高性能的方法; 3)最近提出了一些轉移學習方法,以將外部語料庫中包含的文本樣式知識合并到MRC模型的神經網絡中; 4)最近提出的一些知識庫編碼方法,用于將外部知識庫中包含的圖形樣式知識合并到MRC模型的神經網絡中。 此外,根據已經取得的成就和仍然存在的不足,本報告還提出了一些尚待進一步研究的問題。
目錄:
機器閱讀理解(MRC)要求機器閱讀上下文并根據其對上下文的理解回答一組相關問題。作為自然語言處理(NLP)中具有挑戰性的領域,MRC吸引了人工智能界的關注。近年來,許多MRC任務已經建立,以促進該領域的探索和創新。這些任務在數據集收集和性能評估方面差異很大,但是在此報告中,根據所需推理過程的復雜性,它們大致分為兩類:
本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文,主要研究兩個NLP任務:關系提取和主題建模。本文將神經網絡和主題模型兩種互補的學習范式結合在一個神經復合模型中,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
慕尼黑大學自19世紀以來便是德國和歐洲最具聲望大學之一,也是德國精英大學、U15大學聯盟和歐洲研究型大學聯盟成員,其社會科學、人文科學、物理,化學,生命科學,醫學,數學等領域均在國際上享有盛名。本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文。
自然語言處理(Natural language processing,NLP)涉及構建計算技術,允許計算機自動分析和有意義地表示人類語言。隨著數字時代數據的指數增長,基于NLP的系統的出現使我們能夠通過廣泛的應用程序,如網絡搜索引擎、語音助理等,輕松地訪問相關信息。為了實現這一目標,幾十年來的一項長期研究一直集中在NLP和機器學習交叉的技術上。
近年來,深度學習技術利用了人工神經網絡(ANNs)的表現力,在廣泛的NLP任務中取得了最先進的性能。深度神經網絡(DNNs)可以從輸入數據中自動提取復雜的特征,從而為手工特征工程提供了一種替代方法。除了ANN之外,概率圖形模型(PGMs)、圖論和概率方法的耦合還具有描述系統隨機變量之間因果結構的能力,并捕捉到不確定性的原則概念。考慮到DNNs和PGMs的特點,它們被有利地結合起來建立強大的神經模型,以了解數據的潛在復雜性。
傳統的基于機器學習的NLP系統采用了淺層計算方法(如SVM或Logistic回歸),并依賴于手工特征,這類方法耗時、復雜且往往是不夠完整的。基于深度學習和神經網絡的方法最近在機器翻譯、文本分類、命名識別、關系提取、文本相似性等NLP任務上取得了較好的效果。這些神經模型可以從訓練數據中自動提取有效的特征表示。
本文主要研究兩個NLP任務:關系提取和主題建模。前者的目的是識別句子或文檔中實體或名詞之間的語義關系。成功地提取語義關系有助于構建結構化知識庫,在網絡搜索、問答、推薦引擎等下游NLP應用領域很有用。另一方面,主題建模的任務旨在理解文檔集合中的主題結構。主題建模是一種流行的文本挖掘工具,它可以自動分析大量的文檔集合,并在不實際閱讀的情況下理解主題語義。主題建模分別生成用于文檔理解和信息檢索的Word集群(即主題)和文檔表示。
本質上,關系提取和主題建模主要基于從文本中學習到的表示的質量。在本文中,我們提出了特定于任務的學習表示神經模型,并分別在監督和非監督機器學習范式領域進行關系提取和主題建模任務。更具體地說,我們在開發NLP任務的神經模型方面做出了以下貢獻:
神經關系提取:首先,我們提出了一種新的基于遞歸神經網絡的table-filling體系結構,以便在句子中聯合執行實體和關系提取。然后,我們進一步擴展了跨句子邊界實體之間關系的提取范圍,并提出了一種新的基于依賴關系的神經網絡體系結構。這兩個貢獻在于機器學習的監督范式。此外,我們還在構建一個受缺乏標記數據約束的魯棒關系提取器方面做出了貢獻,其中我們提出了一種新的弱監督引導技術。考慮到這些貢獻,我們進一步探索了遞歸神經網絡的可解釋性,以解釋它們對關系提取的預測。
神經主題建模:除了有監督神經體系結構外,我們還開發了無監督神經模型,以學習主題建模框架中有意義的文檔表示。首先,我們提出了一種新的動態主題模型,它捕獲了隨著時間的推移的主題。接下來,我們在不考慮時間依賴性的情況下建立了靜態主題模型,其中我們提出了神經主題建模體系結構,這些體系結構也利用外部知識,即Word嵌入來解決數據稀疏性。此外,我們還開發了神經主題模型,其中包含了使用單詞嵌入和來自許多來源的潛在主題的知識遷移。最后,我們通過引入語言結構(如語序、局部句法和語義信息等)來改進神經主題建模。它處理傳統主題模型中的詞袋問題。本節中提出的神經NLP模型是基于PGMs、深度學習和ANN交叉技術。
在這里,神經關系提取的任務使用神經網絡來學習通常在句子級別上的表示,而不訪問更廣泛的文檔上下文。然而,主題模型可以訪問跨文檔的統計信息。因此,我們將兩種互補的學習范式結合在一個神經復合模型中是有利的,它由一個神經主題和一個神經語言模型組成,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
總的來說,我們在本論文中的研究貢獻擴展了基于NLP的系統,用于關系提取和主題建模任務,同時具有最先進的性能。