亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這篇論文探討了如何通過將實體信息納入神經網絡模型來增強自然語言理解。它解決了三個關鍵問題:

  1. 利用實體進行理解任務:本文引入了Entity-GCN模型,該模型在一個圖上執行多步推理,其中節點代表實體提及,邊代表關系。這種方法在一個多文檔問答數據集上取得了最先進的結果。

  2. 使用大型語言模型識別和消歧實體:該研究提出了一種新穎的系統,通過逐字生成實體名稱來檢索實體,克服了傳統方法的局限性,并顯著減少了內存占用。該方法還擴展到了多語言環境,并進一步優化了效率。

  3. 解釋和控制模型中的實體知識:本文提出了一種事后解釋技術,用于分析神經模型各層的決策過程,允許對知識表示進行可視化和分析。此外,提出了一種編輯實體事實知識的方法,使得在無需昂貴的重新訓練的情況下能夠修正模型預測。

實體在我們表示和匯總知識的方式中處于中心地位。例如,像維基百科這樣的百科全書是按實體組織的(例如,每篇維基百科文章對應一個實體)。書面百科全書已有約兩千年的歷史(例如,《自然史》可以追溯到公元77年),在此期間,它們在形式、語言、風格及許多其他方面都有了很大的發展。《百科全書,或科學、藝術和工藝詳解詞典》(在1751年至1772年間于法國出版;狄德羅和達朗貝爾,1751)和《大英百科全書》(在1768年至1771年間于蘇格蘭出版;斯梅利,1768)通常被認為是現代歷史上第一部印刷的百科全書,并定義了信息傳播的重大變革。盡管內容和語言可能有所不同,但通過實體、類別和交叉引用組織信息的基本方式在幾個世紀以來幾乎沒有改變。以這種方式組織世界知識對人類來說是自然且方便的,但對機器來說如何呢?機器學習算法能否利用我們的分類方式?我們能否構建能夠連接不同知識點或區分模糊概念的計算機算法?雖然這些復雜問題目前還沒有明確的答案,但在本文中,我們將論證,向自然語言處理(NLP)算法提供關于實體性質的額外信息,可以提高其在許多有用應用中的性能。

讓我們從一個利用實體進行多文檔問答的例子開始。在這種情況下,用戶向信息系統提出問題,該系統需要在文檔庫中搜索答案。此外,我們假設需要跨多個文檔進行分析和推理,因為在單個文檔中找不到簡單的答案。圖1.1展示了在這種情況下獲得答案的機器輔助過程。正如我們從中看到的那樣,機器進行的過程旨在模仿人類的行為,這似乎是一種合理的策略。我們假設將這種復雜任務分解為可學習的子步驟會導致整體系統的改進和人類可解釋性。我們可以使用客觀指標來驗證這一任務是否如此。

用于自然語言理解的實體 為了研究上述問題,在第三章中,我們探討了如何利用實體來解決自然語言理解(NLU)。我們引入了一種依靠在多個文檔內外傳播的信息進行“推理”的神經模型。我們的假設是,通過引用實體進行“推理”(學習)步驟使模型輸出預測,將使其學會處理復雜問題的合理且更具普遍性的策略。文本中出現的實體提及進行了注釋,這使得測試我們的假設變得更容易。然后,我們將任務框定為圖上的推理問題。這些提及是圖的節點,而邊則編碼了不同提及之間的關系(例如,文檔內和跨文檔的共指關系)。圖卷積網絡(GCN)應用于這些圖,并經過訓練以執行多步推理。我們展示了使用額外的實體信息可以實現一種可擴展且緊湊的方法,在開發時(即2018年)在一個流行的多文檔問答數據集WikiHop上取得了最先進的結果。 第三章的發現為更有趣的問題打開了大門,因為我們貢獻的一個限制因素是所有實體的提及都作為輸入提供給模型。檢索文本中實體提及的能力對于知識密集型任務(如開放領域問答和對話)至關重要。因此,一個自然的問題出現了:我們如何利用語言模型來識別和消歧文本中的實體?

使用語言模型在文本中查找實體 實體鏈接(EL;Bunescu & Pa?ca,2006;Cucerzan,2007;Dredze等,2010;Hoffart等,2011;Le & Titov,2018)是NLP中的一項基本任務,用作文本理解的構建模塊(Févry等,2020b;Verga等,2020)。它包括將非結構化文本中的實體提及錨定到知識庫(KB)標識符(例如,維基百科文章)。實體鏈接在多個領域有廣泛應用,涵蓋開放領域問答(De Cao等,2019b;Nie等,2019;Asai等,2020)、對話(Bordes等,2017;Wen等,2017;Williams等,2017;Chen等,2017b;Curry等,2018;Sevegnani等,2021)、生物醫學系統(Leaman & Gonzalez,2008;Zheng等,2015)、信息抽取(Sarawagi,2008;Martinez-Rodriguez等,2020)等。在圖1.2中,我們展示了將提及鏈接到知識庫中相關實體的例子。

盡管之前有大量關于實體檢索的研究(例如,Hoffart等,2011;Piccinno & Ferragina,2014;Huang等,2015;Le & Titov,2018;Logeswaran等,2019;Broscheit,2019;Wu等,2020,僅舉幾例),但大多數當前解決方案的一個共同設計選擇是:實體與唯一的原子標簽相關聯,可以將檢索問題解釋為跨這些標簽的多類分類。輸入和標簽之間的匹配通過雙編碼器(Wu等,2020;Karpukhin等,2020)計算:輸入的密集向量編碼與實體信息(如標題和描述)的編碼之間的點積。這種形式化允許使用現代最大內積搜索庫(Johnson等,2019)進行亞線性搜索,從而支持從大型實體數據庫中檢索。在第四章中,我們提出了一種新穎的方法:第一個通過逐字生成其唯一名稱(從左到右,自回歸方式)來檢索實體的系統。我們的模型緩解了當時廣泛采用的現代模型(4)可能忽略文本和知識庫中實體之間的細粒度交互的限制。此外,我們顯著減少了當前系統的內存占用(最多15倍),因為我們的編碼器-解碼器架構的參數隨詞匯量的變化而不是實體數量的變化而變化。我們還將我們的方法擴展到一個包含100多種語言的大型多語言環境(第五章)。在這種環境中,我們對盡可能多語言的實體名稱進行匹配,這允許利用源輸入和目標名稱之間的語言連接。最后,我們還提出了一種非常高效的方法,可以在文本片段中的所有潛在提及上并行化自回歸鏈接。這樣的系統依賴于一個淺層且高效的解碼器,使得模型速度提高超過70倍且沒有性能下降(第六章)。

語言模型的可解釋性和可控性 第四、五和六章的發現為許多子領域的許多有趣應用打開了大門。我們研究的一個引人注目的方面是,它表明系統的大部分收益來自模型回憶起其在語言建模預訓練和任務特定微調過程中獲得的實體名稱記憶的能力。不幸的是,這種能力是有代價的。因為大多數(如果不是全部)基于深度學習的語言模型都是黑箱函數。因此,我們不能完全理解它們的預測,也不能確定它們是推理還是記憶。當它們記憶時,我們通常也不能輕松地控制添加、刪除或修改這些記憶的方式和位置。這些反思引出了下一個研究問題:我們如何解釋和控制模型內部關于實體的知識?

為此,在第七章中,我們介紹了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。我們的系統學習屏蔽向量子集,同時保持可微性。這不僅讓我們能夠繪制歸因熱圖,還能分析決策在網絡層中的形成方式。我們使用該系統研究了BERT模型(Devlin等,2019a)在情感分類和問答任務中的表現,并展示了該技術也可以應用于第三章提出的基于圖的模型。最后,我們還提出了一種可以用于編輯語言模型中實體事實知識的方法,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測(第八章)。

貢獻 本論文的主要貢獻可總結如下: 1. 我們引入了一種依靠在多個文檔內外傳播的信息進行推理的神經模型。我們將其框定為圖上的推理問題。實體提及是該圖的節點,而邊則編碼了不同提及之間的關系。 1. 我們提出了一個系統,通過生成實體的唯一名稱(自回歸方式)來識別文本中的實體并將其鏈接到外部知識庫中,支持100多種語言。我們采用受限生成方法,將這種生成自回歸模型用作分類器。 1. 我們提出了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。 1. 我們開發了一種方法,可以編輯語言模型內部的實體事實知識,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測。

大多數(如果不是全部)研究結果表明,實體在自然語言處理中的核心作用,我們鼓勵在更多任務中納入實體信息的研究。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

現代機器學習模型的脆弱性引起了學術界和公眾的廣泛關注。在本論文中,我們將系統研究幾種機器學習模型的理解與改進,包括平滑模型和通用表征網絡。我們特別關注表征魯棒性的研究,將其定義為給定網絡在隱含空間中的“魯棒性”(或廣義上的可信屬性)。對于通用表征網絡,這對應于表征空間本身,而對于平滑模型,我們將網絡的logits視為目標空間。表征魯棒性是許多可信賴AI領域的基礎,例如公平性和魯棒性。

在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。

**1.1 研究動機

深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。

**1.1.1 機器學習模型的表征魯棒性

表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡

。因此,我們將直接將網絡的

視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。

付費5元查看完整內容

大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。

參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。

付費5元查看完整內容

本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。

付費5元查看完整內容

科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。

本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。

在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容

自然現象的不可約復雜性促使圖神經網絡成為執行圖結構數據上表示學習任務的標準模型。盡管它們捕捉局部與全局模式的能力十分出色,但與長距離和高階依賴相關的問題為這些模型帶來了相當大的挑戰。本工作通過首先識別負面影響圖神經網絡在學習強依賴于長距離交互事件的表示時性能的各個方面,來應對這些挑戰。特別是,當圖神經網絡需要在遠距離節點之間聚合消息時,消息傳遞機制會將指數級增長的信息量過度壓縮到靜態向量中。 值得注意的是,對于某些類別的圖(即路徑、樹、網格、環形和梯形),底層的連通性允許消息沿著邊緣傳遞,而不會遇到來自其他路徑的顯著干擾,從而將信息的增長量控制在線性級別上。 當底層圖不屬于上述類別時,會出現過度壓縮現象,因為信息的傳播發生在通過邊緣相連的節點之間,這導致了計算圖反映節點的連通性。這一現象導致節點對來自圖遠端的信息變得不敏感。為了提供一種緩解此類瓶頸的新架構設計視角,一個統一的理論框架揭示了網絡的寬度、深度和圖拓撲對消息傳遞神經網絡中過度壓縮現象的影響。 然后,論文轉向通過拓撲神經網絡利用高階交互。憑借多關系歸納偏見,拓撲神經網絡通過更高維度的結構傳遞消息,有效地提供信息流的快捷方式或額外路線。通過這種構建,底層的計算圖不再與輸入圖結構耦合,從而緩解了上述瓶頸,同時也考慮了高階交互。受到圖注意力網絡中開發的掩蔽自監督學習機制以及由單純形和胞腔復合體提供的豐富連通性的啟發,提出了兩種不同的注意力架構:單純形注意力網絡和胞腔注意力網絡。 這些架構背后的理念是利用特定排列的節點組內單純形或胞腔復合體提供的擴展鄰域概念。特別是,這些拓撲注意力網絡利用底層復合體的上下鄰接性來設計能夠衡量來自不同區域信息重要性的各向異性聚合。通過這樣做,它們捕捉到傳統圖神經網絡可能錯過的依賴關系。 最后,通過增強的細胞同構網絡引入了一個高階結構之間的通信方案,它通過讓一個胞腔復合體的所有細胞從它們的下層鄰域接收消息來增強拓撲消息傳遞方案。這種升級使得在胞腔復合體內的節點組之間,特別是以環狀結構排列的,能夠直接互動。這種增強的方案為高階和長距離交互提供了更全面的表示,展示了在大規模和長距離基準測試上的非常高性能。 在深度學習的不斷演進的景觀中,數據中存在的關系模式已變得至關重要,用以解決圖結構數據的表示學習任務。本論文從這一視角出發,探索了拓撲神經網絡的領域,強調了代數拓撲學領域的概念與在離散拓撲空間上執行表示學習任務之間的協同作用。本工作的目標結構旨在確保在理解高階交互及其在推進神經架構方面的角色上具有深度和廣度。

具體而言,本論文的目標是:

  • 基礎知識:深入圖論和代數拓撲學領域,了解如何利用圖、單純形復合體和胞腔復合體來構建高級神經架構,以在拓撲空間上執行表示學習任務(第2章)。
  • 當代GNNs的挑戰:解析圖神經網絡(GNNs),指出它們的局限性,特別強調過度壓縮現象。通過理解網絡深度、寬度和拓撲的影響,本論文為展示拓撲方法如何在處理長距離交互時緩解圖神經網絡的瓶頸奠定了基礎(第3章)。
  • 設計拓撲擴展:開發新型的拓撲神經網絡架構,如單純形注意力網絡、胞腔注意力網絡和增強的拓撲消息傳遞(CIN++),這些架構融合了代數拓撲的原則,以納入長距離和高階交互(第4章)。
  • 實證評估:對所提出的模型進行實驗評估,實證地確認這些主張,并將所提出的架構與該領域現有的最先進方法進行比較,突出了在結構化學習場景中納入拓撲方法的優勢和有效性(第5章)。
  • 更廣泛的視角:討論拓撲神經網絡在各個領域的影響,同時也討論其限制,并提供未來的發展方向(第6章)。

付費5元查看完整內容

這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。

將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。

我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。

這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。

付費5元查看完整內容

屬性圖是對現實系統建模的有力工具,它存在于社會科學、生物學、電子商務等許多領域。這些系統的行為大多由它們對應的網絡結構定義或依賴于它們。由于這些系統迅速融入到人類生活的各個方面,以及它們對人類行為的深刻影響,圖分析已經成為一個重要的研究方向。圖結構數據包含了來自網絡連通性和節點補充輸入特征的豐富信息。機器學習算法或傳統的網絡科學工具在同時利用網絡拓撲和節點特征方面存在局限性。圖神經網絡(GNNs)提供了一個有效的框架,將兩種信息源結合起來,為包括節點分類、鏈接預測等在內的廣泛任務產生精確的預測。

圖數據集的指數增長推動了復雜GNN模型的發展,引起了對處理時間和結果可解釋性的關注。另一個問題來自于收集大量帶注釋的數據來訓練深度學習GNN模型的成本和局限性。除了采樣問題外,數據中異常實體的存在可能會降低擬合模型的質量。在本文中,我們提出了新的技術和策略來克服上述挑戰。首先,我們提出了一種適用于簡單圖卷積(SGC)的靈活正則化方案。該框架在呈現稀疏擬合參數向量集的同時,繼承了SGC快速高效的特性,有利于識別重要的輸入特征。其次,我們研究收集訓練樣本的有效程序,并制定指示性措施及量化指引,以協助從業員選擇最佳抽樣策略以獲取數據。然后對現有的GNN模型進行改進,以完成異常檢測任務。該框架具有較好的準確性和可靠性。最后,我們嘗試將靈活的正則化機制應用于鏈接預測任務。

//stars.library.ucf.edu/etd2020/1068/

付費5元查看完整內容

本文沒有描述一個工作系統。相反,它提出了一個關于表示的單一想法,允許幾個不同群體的進步被組合成一個虛構的系統,稱為GLOM。這些進展包括transformers、神經域、對比表示學習、蒸餾和膠囊。GLOM回答了這個問題: 具有固定架構的神經網絡如何將圖像解析為具有不同結構的部分整體層次結構?其思想是簡單地使用相同向量的島嶼來表示解析樹中的節點。如果GLOM能夠正常工作,那么當將其應用于視覺或語言時,它將顯著提高類transformer系統產生的表示的可解釋性。

//arxiv.org/abs/2102.12627

有強有力的心理學證據表明,人們將視覺場景解析為部分整體的層次結構,并將部分和整體之間的視不變空間關系建模為他們分配給部分和整體的內在坐標系之間的坐標轉換[Hinton, 1979]。如果我們想讓神經網絡像人類一樣理解圖像,我們需要弄清楚神經網絡是如何代表部分-整體層次結構的。這是困難的,因為一個真正的神經網絡不能動態分配一組神經元來表示解析樹中的一個節點。神經網絡無法動態分配神經元是一系列使用“膠囊”模型的動機[Sabour et al., 2017, Hinton et al., 2018, Kosiorek et al., 2019]。這些模型假設一組被稱為膠囊的神經元將永久地專注于發生在圖像特定區域的特定類型的一部分。然后,可以通過激活這些預先存在的特定于類型的封裝的子集以及它們之間的適當連接來創建解析樹。本文描述了一種非常不同的方法,使用膠囊來表示神經網絡中的部分-整體層次結構。

盡管本文主要關注單個靜態圖像的感知,但GLOM最容易理解為處理幀序列的管道,因此靜態圖像將被視為相同幀序列。

GLOM體系結構由大量的列組成,這些列都使用完全相同的權重。每一列都是一個空間本地自動編碼器的堆棧,它學習在一個小圖像補丁中發生的多級表示。每個自動編碼器使用多層自底向上編碼器和多層自頂向下解碼器將一層上的嵌入轉換為相鄰層上的嵌入。這些級別對應于部分-整體層次結構中的級別。例如,當顯示一張臉的圖像時,單個列可能會匯聚到表示鼻孔、鼻子、臉和人的嵌入向量上。圖1顯示了不同級別的嵌入如何在單個列中交互。

付費5元查看完整內容

學習跨句關系是文檔摘要提取的關鍵步驟,目前已有多種研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,這種神經網絡具有更復雜的結構來捕獲句子之間的關系。我們提出了一種基于異構圖的提取摘要神經網絡,該網絡包含除句子外的不同粒度的語義節點。這些額外的節點充當句子之間的中介,豐富了跨句關系。此外,通過引入文檔節點,我們的圖結構在從單文檔設置到多文檔設置的自然擴展方面具有靈活性。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要,并對其進行全面的定性分析來研究其好處的人。代碼將在Github上發布。

付費5元查看完整內容
北京阿比特科技有限公司