亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

神經網絡自動化了在計算機上表示對象及其關系的過程,包括從家庭用品到分子的一切。通過將不同實例轉換為共享的表示空間來獲得新的表示,其中數據的變化可以使用簡單的幾何量度量,如歐幾里得距離。本論文研究了這一空間的幾何結構及其對學習過程關鍵屬性的影響,包括獲得新技能所需的數據量、預測何時會失敗,以及學習的計算成本。我們檢驗了神經網絡表示的幾何結構的兩個基礎方面。 第一部分設計并研究了考慮到數據在表示空間中的位置的學習算法。專注于對比自監督學習,我們設計了a) 困難實例采樣策略和b) 控制模型學習哪些特征的方法。每種方法都在關鍵特性上產生了改進,如訓練速度、泛化和模型可靠性。

第二部分研究了如何使用非歐幾里得幾何來構建尊重物理數據中出現的對稱性和結構的網絡架構,為學習提供了強大的歸納偏差。具體來說,我們使用諸如實射影平面和光譜體這樣的幾何空間來構建a) 能夠尊重特征向量對稱性的可證明強大的神經網絡,這對于在圖結構數據上構建變壓器是重要的,以及b) 解決圖上的組合優化問題的神經網絡,如尋找大團或小割,這些問題在分子工程和網絡科學中出現。

計算機上對世界觀察的描述影響了計算問題解決過程的所有部分。因此,發現更適合簡單計算過程的描述或表示,幾十年來一直是計算科學進步的一個關鍵且持續的驅動力。與所有其他計算過程一樣,人工智能系統提取和使用的數據表示方式對其行為產生了關鍵影響,例如獲得新技能所需的數據量、預測何時會失敗,以及其學習的速度。

然而,現代基于深度學習的人工智能系統最重要的優勢之一是它們能夠處理基本的感知輸入,如圖像的單個像素,并在內部決定保留哪些來自像素級特征的信息,以及丟棄哪些。

除了自動化表示獲取之外,深度學習系統的另一個關鍵優勢是能夠在單一、連貫的空間中表示不同的數據點。例如,生活在極大的、高維空間中的圖像(例如,免疫組織化學圖像通常大小為1024×1024×3或更大)被轉換為相對較小、緊湊的幾千維空間。這種表示空間允許數據之間的比較,而這個空間的幾何屬性,如距離、方向和角度,不僅捕捉單個對象,還捕捉對象之間的關系。

然而,這種幾何性質通常是浮現的。也就是說,它不是直接學習的,而是作為使用低粒度監督(如類標簽)的端到端系統中的一個中間步驟學習的。這篇論文的目標是探索更明確編程這種幾何性質的思路、方法和新方向。通過明確處理,希望能夠更大程度地控制表示空間的屬性,使得使用這個空間來推理世界變得更加容易。 這篇論文有兩個主要部分。第一部分研究對比表示學習,這是一種學習歐幾里得結構表示的通用框架。本部分從第二章開始,概述了貫穿整篇論文的對比學習的一般介紹。然后,第三章提出以下問題:對比學習的負樣本應該如何生成?負樣本是對比學習中兩個關鍵設計選擇之一,但大多數以前的負樣本采樣方法都是簡單的,例如,隨機均勻采樣。我們引入了根據它們在表示空間中的位置采樣負樣本的技術。通過以位置依賴的方式采樣負樣本,我們能夠生成更有信息量的樣本,加速學習并提高最終表示空間的質量,以用于下游任務。在第四章中,我們更仔細地檢查對比學習模型實際編碼了哪些輸入數據特征——在許多可能性中。不出所料,我們展示了正負樣本的生成方式影響特征學習,并概述了理解這種關系的直觀方法。更令人驚訝的是,我們還發現調整采樣的明顯方法——例如,調整負樣本的難度——并沒有帶來明確的勝者。不同的采樣方法在某些下游任務上表現更好,在其他任務上表現更差。作為回應,我們探索了使用表示空間幾何性質修改樣本的新原則。我們的隱式特征修改方法擾亂嵌入,以去除用于解決對比任務的任何特征,然后要求模型使用新特征重新解決對比任務。這迫使模型尋找新的和不同的特征來使用,從而鼓勵模型不忽略它之前可能忽略的輸入數據的某些方面。 第五章退一步重新考慮表示空間應該具有的結構。除了編碼數據之間的相似性,第五章還論證了將數據的復雜變換編碼為嵌入空間中的可預測、簡單變換也是有價值的。具體來說,我們引入了一種訓練方法,該方法強制數據的增強——裁剪、旋轉等——對應于球形嵌入空間的正交變換。我們發現我們的方法導致了改進的下游性能,以及對其他對比方法不敏感的數據特征的增加敏感性。

本節的最后一章,第六章,探討了大規模的對比學習。隨著模型參數和數據集大小擴展到數億甚至數十億,考慮模型性能的擴展不僅僅是重要的,還有訓練它們的成本。性能可靠地擴展,但成本增長過快的訓練方法最終會輸給性能增長更慢,但成本增長更慢的方法。由于對比學習在大規模時相對昂貴,因為它使用了每個批次樣本的兩個完整副本。另一個重新出現的訓練方法——掩碼自編碼器(MAE)——非常高效,因為它只使用每個批次樣本的25%的一個副本,但性能相對較差,特別是對于少樣本的下游任務。我們的貢獻是引入了CAN,一種對比學習和MAE的混合體,享有更好的效率-性能權衡。與對比學習相比,它的成本降低了70%,同時性能優于對比學習和MAE。對CAN的一個重要解釋是幾何的:MAE學習了強大的嵌入,但由于它具有非線性的視覺變壓器解碼器,這可能輕易地撤銷非線性變換,因此未能以線性可分的方式安排其幾何結構。通過向MAE的嵌入空間添加對比成分(即,在解碼器之前),CAN迫使嵌入之間的歐幾里得距離具有意義,從而大大提高了少樣本性能。

這篇論文的第二部分探索了表示空間幾何性質與問題結構之間的關系。第七章考慮對稱性,特別是特征向量的對稱性(例如,符號對稱性:如果??是特征向量,那么???也是)。特征向量在機器學習中廣泛使用。特別是對于圖上的學習,譜理論多年來為許多問題提供了堅實的數學基礎。這在當今仍然延續,圖的拉普拉斯特征向量被廣泛用作構建圖上變壓器的節點位置編碼。然而,符號對稱性(以及當特征值的重數大于1時出現的更一般的基礎對稱性)是一個問題,因為神經網絡對符號變化不變,因此在輸入數據的不相關變化下不可靠地改變預測。

為了解決這個問題,我們引入了一個符號不變的架構SignNet和一個基礎不變的BasisNet——這些模型內置了特征向量的對稱性。我們的模型在使用拉普拉斯位置編碼時顯著提高了性能,并且在數學上非常強大:SignNet可以近似所有符號不變函數。SignNet的表達能力基于其嵌入空間的幾何結構。我們展示了特征向量的理想空間是空間R??/{?1, +1},通過將??和???粘合在一起成為一個點,消除了符號歧義。關鍵的是,這個商空間是一個被廣泛研究的流形,稱為實射影平面。使用實射影平面的幾何屬性——特別是,它可以在一個2??維歐幾里得空間中被渲染——我們能夠設計SignNet的各個部分,以便它們始終在歐幾里得空間中處理向量,但這些歐幾里得空間以某種方式連接起來,以反映實射影平面,由此我們得出了普適表達性的結果。對BasisNet的分析也以同樣的方式進行,但使用相應的商空間,即Grassmanian。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。

我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。

在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。

最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。

然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:

(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。

(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。

付費5元查看完整內容

本論文旨在開發算法和系統,以實現可擴展的協作幾何估計,專注于解決上述技術挑戰。論文的第一部分考慮了在完全分布式通信架構下的幾何估計,其中代理直接相互通信,不依賴中央服務器。為此,論文提出了分布式位姿圖優化算法,目標是在異步通信下實現可證明的全局最優性和收斂性。利用開發的算法,論文進一步開發了一個分布式同時定位與映射(SLAM)的完整系統,并在大規模城市環境中演示了該系統,其中多達8個地面機器人在總長近8公里的區域內巡航。論文的第二部分解決了在服務器-客戶端架構下的幾何估計問題,其中服務器在協作優化過程中協調通信。為此,論文提出了一種通信效率高的求解器,能夠在大幅減少通信的情況下實現大規模協作映射。此外,還開發了專門的協作旋轉平均和平移估計求解器,這些求解器利用光譜圖理論方法實現快速收斂。這些算法貢獻,加上開源代碼和數據集,促進了在復雜環境中可擴展的多代理感知系統的發展。

付費5元查看完整內容

人類智能的一個重要方面是能夠從簡單的想法中組合出越來越復雜的概念,從而實現快速學習和知識的適應。盡管目前的AI系統表現出色,但在這一領域卻有所欠缺,通常無法解決超出其訓練分布范圍的任務。本論文的工作旨在通過將組合性納入深度神經網絡來彌補這一差距,從而增強它們解決新穎和復雜任務的能力,例如根據復雜的規范生成2D圖像和3D資產,或使仿人代理執行多種家庭活動。這篇論文的影響深遠,因為組合性在生物學、機器人技術和藝術制作等領域有眾多應用。通過顯著提高AI系統的組合性能力,這項研究將為不同研究領域中更高效的數據和更強大的模型鋪平道路。

"組合性是現代AI系統所缺少的人類智能的一個關鍵方面。構建概念的能力:結合模式、思想和子目標來構建對世界的結構化表示,然后通過操縱個別組成部分來推理世界,體現在關鍵的認知能力中。人類可以將個別觀察結果融入復雜的知識和信念結構中,對復雜計劃進行小范圍的針對性調整,想象基本情景的替代方案,并創造出受現有作品啟發的新技術或藝術。此類組合能力在AI系統中基本上尚未實現,但實現這一點可能是解鎖主要AI能力(如持續學習、可控和穩健行為、高級規劃、反事實推理和更強大的泛化)的關鍵之一。 本論文專注于開發表現出組合能力的神經網絡,以解決廣泛的任務,如圖像生成、問題回答、數學推理、機器人操控和體現決策。目標是使網絡能夠解決在訓練過程中未曝露的概念、目標或技能組合的任務。 我們對組合AI的研究涵蓋以下兩個軸心:先驗知識和組合結構。先驗知識描述了模型在培訓過程中學習的基本概念和能力集合。在大量數據上訓練的大型深度學習模型[131, 125, 13]包含豐富的先驗知識,但它們缺乏實現組合性的另一個關鍵組成部分——組合結構。為了構建組合結構,我們提出了組合算子來組合基本概念。將組合算子應用于預訓練模型,使我們能夠顯著提高AI系統的組合生成能力。

本論文的前兩部分介紹了如何構建組合結構。第一部分:構思概念和目標:我們開發了可以組合概念或目標以產生高度可控和復雜、細致行為的神經網絡。第二部分:模型組合:我們組合來自不同領域的預訓練模型,以在沒有任何訓練或微調的情況下產生強大的跨模態能力。在第三部分:轉移組合性中,我們介紹了如何通過從預訓練模型轉移知識來以數據高效的方式實現先驗知識。"

付費5元查看完整內容

知識圖譜(KGs),通過實體和關系來表示世界知識,在真實世界的應用中無處不在。除了它們的結構特性,KGs還提供豐富的文本信息,因為實體通常對應于具有特定名稱和描述的現實世界對象。盡管這些信息很重要,但在現有研究中大部分都被忽視或未被充分探討。本論文旨在通過利用預訓練的語言模型(PLMs)將文本信息整合到KGs的建模中,這些模型在捕捉自然語言的語義意義上已經展現出了有效性。

此目標分為兩個互補的部分提高KGs的質量以及利用KGs解決用戶查詢。 在第一部分,我們專注于通過文本獲取KGs。我們從一個同時學習KGs和文本的向量表示的預訓練框架開始。它具有相互增強的KG-文本雙模塊,實現了在關系提取和實體分類上的強大結果(第2章)。為了解決大型KGs的可擴展性挑戰,我們提出了一個增強檢索的文本生成模型,用于KG的完成。它利用KGs中語義相關的三元組來指導缺失實體的生成,展現了最先進的性能,同時保持了低內存使用(第3章)。 在第二部分,我們將注意力轉向利用KGs進行關鍵的問答(QA)任務。在答案來源于KGs的設定中,我們提出了一個框架,該框架同時生成邏輯查詢和文本答案,以產生更準確和穩健的結果(第4章)。然后我們擴展到答案主要來自文本語料庫而不是KGs的場景。我們提出的方法利用KGs構建文本段落之間的鏈接。這種結構信息被利用來重新排列并修剪每個問題的相關段落,顯著降低了計算成本(第5章)。最后,我們處理不完整的KGs的設定。我們介紹了第一個基準數據集,用于評估KG完成方法對問題回答的影響。我們的實驗強調了共同研究KGs的獲取和應用的必要性(第6章)。 真實世界中的對象并不是孤立存在的;它們之間存在語義聯系。例如,一種藥物可以與疾病相關,作為其治療方法,而一家公司可以與一個電子游戲相關,作為其開發者。知識圖譜(KGs)捕獲了這些聯系,并將它們表示為圖結構。在KGs中,對象被稱為實體(節點),而它們之間的連接被稱為關系(邊)。KG內的基本單元被稱為三元組,由三個元素組成:頭實體、關系和尾實體,例如(Elden Ring,由...開發,FromSoftware),這表達了電子游戲Elden Ring是由游戲公司FromSoftware開發的。KGs的圖結構允許它們展示真實世界對象之間的各種連接,并促進復雜的查詢和分析。此外,KGs專注于捕獲重要對象上的關鍵連接,并消除不正確或不相關的細節。鑒于這些好處,KGs已被應用于各種真實世界的場景,如問題回答[118]、信息檢索[64]和推薦系統[104],并且在財務[26]、營銷[27]、醫學[82]等不同領域中實施。 KGs的重要性在機器學習領域引起了廣泛的關注。許多研究主要集中在KGs的結構上,同時將實體或關系僅表示為索引,從而忽略了它們的文本信息。例如,實體Elden Ring只是被表示為一個隨機的唯一索引,如1203,沒有語義意義,忽略了其文本名稱“Elden Ring”和描述“Elden Ring是2022年由FromSoftware開發的動作角色扮演游戲...”。這既妨礙了KGs的獲取,也妨礙了其應用。例如,考慮從文本聲明中提取三元組的過程。當遇到像“FromSoftware因開發電子游戲Elden Ring而獲得廣泛認可”這樣的陳述時,添加或驗證文本豐富的三元組(“Elden Ring”,“由...開發”,“FromSoftware”)要比純粹基于索引的三元組(1203,47,1580)容易得多。同樣,當應用KGs來幫助用戶的文本查詢,如“我可以在PS5上玩Elden Ring嗎?”時,擁有文本豐富的三元組(“Elden Ring”,“平臺”,“PlayStation 5”)便于生成準確的答案。如果沒有這樣的文本信息,將文本句子或用戶查詢與純實體和關系索引對齊可能會成為一個復雜的障礙。這些示例強調了KGs中文本信息的基本作用。它不僅簡化了關系數據的獲取,而且還增強了KGs在真實世界應用中的功能。

為了有效地利用這種文本信息,需要進行語義級的理解。再次考慮這個查詢:“我可以在PS5上玩Elden Ring嗎?”為了準確回應這樣的查詢,模型必須識別出“PS5”是指實體PlayStation 5,而短語“在...上玩...”對應于關系平臺。然后,模型可以找到相應的三元組(Elden Ring, 平臺, PlayStation 5)并提供正確的答案。這種解釋超越了純粹的詞匯識別;它要求理解文本信息的基礎語義。在真實世界情境中,這種理解尤為關鍵,因為KGs通常有正式和有限的命名約定,而用戶查詢或陳述可能是非正式和多樣的。

本論文旨在開發新型模型,有效利用文本語義在知識圖譜的獲取和應用中。它基于現有的預訓練語言模型(PLMs)[9, 22, 77]所奠定的基礎,這些模型在文本語義建模中已顯示出其優勢。PLMs在大規模語料庫上進行預訓練,通過預測后續或被掩蓋的詞語來學習語言的表示。利用深度學習架構,如基于變換器[97]的模型,它們作為強大的特征提取器,并可以輕松適應各種下游任務。然而,由于PLMs是為非結構化文本序列設計的,它們在結構化的知識圖譜上的應用呈現出重大挑戰。為了應對這一挑戰,我們的論文通過兩個重要的關注部分來進行:1)通過文本獲取知識圖譜,重點是構建更準確和全面的知識圖譜;2)使用知識圖譜回答文本問題,目標是應用知識圖譜解決用戶查詢。

付費5元查看完整內容

連續數據和離散數據之間的差異是計算機科學、數學以及認知科學等相關領域的一個基本問題。歷史上,大部分計算都是在離散領域進行的,但連接主義提供了一種使用連續向量表示數據的替代技術,這種替代技術在過去十年深度學習的崛起中愈發突出。本論文探索了將連續的高維數據(像深度學習那樣成功地處理)轉換為離散的緊湊表示(如傳統計算所用)的技術。五個主要章節每一個都介紹了一個新的技術,這些技術都有助于實現這個目標,但也可以作為一個獨立的研究項目來閱讀。這些技術主要涉及深度學習和聚類,并且,與一般的表示學習一致,主要(但不完全)處于無監督的環境中。有些章節分別關注深度學習或聚類,以形成連續數據的離散表示。其他章節則探討如何在一個單一的端到端學習系統中結合深度學習和聚類。這樣的組合本身就涉及到連續和離散之間的交界,因為深度學習操作的是前者,而聚類操作的是后者。能夠在連續和離散的世界之間搭建橋梁,也符合人工智能模擬人類智能的原始目標,因為人類認知的重要部分就是在連續和離散的世界之間的運動。我們的感官輸入主要是連續的,但我們使用的自然語言和推理裝置大都是離散的。有朝一日能夠像人類一樣思考和行動的機器也必須學會做同樣的事。

付費5元查看完整內容

神經架構搜索(NAS)是最近提出的一種自動設計網絡架構的方法。NAS不是手動設計網絡架構,而是以數據驅動的方式自動找到最佳架構。盡管NAS取得了令人印象深刻的進展,但在實踐中仍遠未被廣泛采用為架構設計的通用范式。本文旨在開發有原則的NAS方法,可以自動化神經網絡的設計,并盡可能減少人工在架構調優方面的工作。為了實現這一目標,我們專注于開發更好的搜索算法和搜索空間,這兩者對NAS的性能都很重要。

在搜索算法方面,首先提出了一種基于貝葉斯優化(BO)的高效NAS框架;本文提出一種方法來學習網絡體系結構域上的嵌入空間,使得為體系結構域定義一個核函數成為可能,這是將BO應用于NAS的必要組件。提出了一種鄰域感知的NAS公式,以提高NAS發現的體系結構的泛化性。所提出的公式具有足夠的通用性,適用于各種搜索算法,包括基于采樣的算法和基于梯度的算法。

對于搜索空間,本文首先將NAS擴展到發現卷積細胞以外的注意力細胞。本文提出一種時空注意力單元的搜索空間,以注意力操作為主要構建塊。所發現的注意力單元不僅優于人工設計的注意力單元,而且在不同模態、骨干或數據集上表現出很強的泛化能力。基于committee的模型(集合或級聯)是高效模型的一個被忽視的設計空間。從現成的預訓練模型中簡單地構建committee,可以匹配或超過最先進模型的精度,同時大大提高了效率。最后,通過對不同基于激光雷達的三維目標檢測算法的比較,指出了成本控制的重要性。其次,如果允許使用類似的延遲,一個通常被認為已經顯著超過的簡單基線在Waymo開放數據集上的性能幾乎可以與最先進方法的性能相匹配。

//www.ri.cmu.edu/publications/search-algorithms-and-search-spaces-for-neural-architecture-search/

付費5元查看完整內容

從數據中發現隱藏的偏微分方程(PDEs)和算子是機器學習和數值分析之間的一個重要前沿課題。介紹了線性偏微分方程格林函數學習的理論結果和深度學習算法,并對偏微分方程格林函數學習技術進行了嚴格論證。導出了一個理論上嚴格的算法來獲得學習率,它表征了近似學習與橢圓偏微分方程相關的格林函數所需的訓練數據量。該結構通過將隨機奇異值分解擴展到非標準高斯向量和Hilbert-Schmidt算子,利用層次矩陣利用格林函數的低秩層次結構,連接了PDE學習和數值線性代數領域。引入有理神經網絡,由具有可訓練有理激活函數的神經網絡組成。這些網絡的高組成結構,結合有理逼近理論,意味著有理函數比標準激活函數具有更高的逼近冪。此外,有理神經網絡可能具有極點并具有任意大的值,這非常適合逼近具有奇點的函數,如格林函數。最后,結合格林函數和有理神經網絡的理論成果,設計了一種從數據中發現格林函數的人類可理解的深度學習方法。這種方法補充了最先進的PDE學習技術,因為可以從學習到的格林函數中獲得廣泛的物理知識,如主導模、對稱和奇點位置。本文旨在通過將標準數學領域(如數值線性代數、概率和偏微分方程分析)與現代深度學習技術相結合,了解是否可以從數據中發現偏微分方程(PDEs)。我們著重學習與線性偏微分方程相關的格林函數從一對強迫函數和解。推導了挖掘問題規律性的理論邊界,提出了一種實用的深度學習算法。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。

在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。

由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。

許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。

在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。

在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。

付費5元查看完整內容

向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。

付費5元查看完整內容
北京阿比特科技有限公司