亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,深度神經網絡架構在自然語言處理(NLP)領域取得了顯著成就。通過放大模型大小并在互聯網上可用的大量文本數據上進行自監督預訓練,即使在提供少量具體示例時,也解鎖了泛化和復雜推理能力。然而,NLP的大部分進展都是基于靜態學習范例進行的,其中模型在固定數據集上進行一次訓練以學習特定技能,并在此后保持固定。在本論文中,我們將注意力轉向NLP的交互式智能體,即與動態環境或用戶互動的基于語言的模型。在三個不同的應用領域,(i)基于文本的游戲,(ii)查詢重構,以及(iii)對話,我們調查并開發與不同形式的自適應環境互動的智能體。論文分為三部分,反映了三個應用領域。在第一部分,我們為基于文本的游戲開發了一個深度強化學習(RL)智能體,該智能體能夠在結構相似但帶有新對象和指令的游戲家族中進行泛化。第二部分重點關注查詢重構,我們從兩個角度進行研究。首先,我們考慮學習搜索問題,其中智能體被訓練為使用自然語言與信息檢索(IR)系統互動。觀察IR組件的結果,它調整初始用戶查詢并收集一個改進的證據文檔集。在此設置中,我們開發了兩個學習成功的交互式搜索策略的智能體:一個通過純強化學習訓練的模型,另一個通過(自我)監督學習。在隨后的章節中,我們將注意力轉向神經檢索模型,并為交互式查詢建議開發智能體。為此,我們訓練了一個查詢解碼器模型,該模型在共享段落-查詢嵌入空間中的給定點生成相應的文本形式的查詢。我們使用此解碼器生成方向性查詢細化的合成數據集,我們使用它來訓練一個強大的重構模型。在論文的最后部分,我們提出了不同的方法來開發對話智能體。我們建議模塊化對話模型的架構,以輸出隨后的模塊所基于的中間文本序列。首先,我們表明,在對話響應之前生成知識輸出作為中間步驟可以增加在開放域對話中的知識利用和事實正確性。接下來,我們開發了一個依次生成(i)搜索引擎查詢,(ii)知識輸出,以及(iii)最終響應的單一模型。我們表明,它在知識為基礎的對話上超越了先前的最先進的對話模型,并在主題提示完成上超越了具有大量參數的模型。最后,我們探討在部署后如何改進對話模型,并提出了一個目標,該目標允許在其生成的二進制標記示例上迭代訓練語言模型。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。

我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。

在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。

最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。

然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:

(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。

(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。

付費5元查看完整內容

機器學習(ML)和人工智能(AI)在各種領域取得了卓越的、超越人類水平的表現:計算機視覺、自然語言處理和蛋白質折疊等等。直到最近,大多數進展都采用了一種以模型為中心的方法,主要關注于改進神經網絡架構(如ConvNets、ResNets、transformers等)以及用于訓練這些模型的優化過程(如批歸一化、丟棄、神經結構搜索等)。相對較少的注意力被付在了用于訓練這些模型的數據上,盡管眾所周知,ML在高質量數據上具有關鍵依賴性,用“垃圾進,垃圾出”這個短語來簡潔地表達這一事實。隨著越來越大型和更復雜的模型的回報逐漸減小(如Nvidia和微軟的MT-NLG模型具有5300億參數),研究人員開始意識到采取以數據為中心的方法以及開發研究這些模型的燃料——數據本身的原則性方法的重要性。

除了提高任務性能外,以數據為中心的視角還使我們能夠考慮到社會關鍵因素,如數據隱私。在這篇論文中,我們將對ML數據管道中的幾個關鍵點進行批判性審視:模型訓練之前、期間和之后。在模型訓練之前,我們將探討數據選擇的問題:應該使用哪些數據來訓練模型,我們期望模型在什么類型的數據上工作?隨著我們進入模型訓練,我們將關注與我們的ML系統與其部署環境的交互作用可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及某些被建模群體的動態性質。特別是當我們的模型用于做出對社會有影響的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,從而導致性能下降。最后,盡管在模型訓練之前和之間遵循最佳實踐,但可能會出現我們希望在訓練后刪除某些數據影響的情況。如何以計算有效的方式實現這一點?這篇論文涵蓋了每個前述問題的新穎解決方案,重點強調了每個提出的算法的可證保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

付費5元查看完整內容

機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。

付費5元查看完整內容

新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。

時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?

付費5元查看完整內容

在自然語言處理(NLP)領域的最新進展中,大規模預訓練語言模型(PLMs)發揮了重要作用,這些模型基于深度 Transformer 神經網絡。這些PLMs通過在大量無標簽文本上使用自監督學習技術進行模型的整體訓練,同時學習上下文化的單詞表示和語言建模,引發了一種范式轉變,將我們的焦點從為不同任務定制不同模型轉向將一個PLM適應所有任務。研究如何將通用PLM適應到特定的感興趣領域對于PLMs的部署具有重大意義。主流做法是在目標領域的標注數據集上對PLM進行微調,并使用特定任務的頭部。然而,對于大多數目標應用,標注數據有限,甚至在許多資源稀缺的場景中十分稀缺。PLM中的大量參數常常使這些小數據集難以利用語言先驗的力量。因此,即使在同一任務下,當一個在一個數據集上微調的PLM應用到具有一些領域間隙的另一個數據集時,由于過度擬合之前的訓練集,它有時會遇到性能下降。這種現象阻礙了PLMs在實踐中的廣泛應用,尤其是在面對新領域時,需要增強PLMs在適應過程中的泛化性能的方法,而無需請求更多的標注數據。

早期的領域適應方法,利用類似的源領域來提高目標領域上的模型性能,是基于使用傳統神經網絡(如LSTMs)的定制模型開發的。這些模型較淺,需要更長的訓練時間才能收斂,并且與PLMs相比沒有先驗知識。研究表明,一些流行的領域適應方法甚至可能損害PLMs在目標領域上的泛化性能。PLMs的獨特特性,如前所未有的規模、豐富的語言先驗和許多迄今為止未被深入探索的技能,可能成為無法控制的因素,使它們表現出與傳統模型不同的學習行為。為此,需要開發PLMs的算法,以提高它們的領域適應性能,從而加速它們在實際場景中的廣泛應用。

本論文的目標是探索可以高效利用目標領域標簽數據的技術,通過有效地從類似的源領域向目標領域轉移知識,更好地將給定的PLM適應到感興趣的目標領域。為了實現這個目標,我從機器學習流程中的三個角度進行研究,每個角度都假定只有特定的位置可以用可用的計算資源進行更新。也就是說,我們保持所有其他條件不變,只對輸入數據、模型表示和輸出預測分別進行更新。我們展示了如何在每個場景下用目標領域的有限標注數據獲得更好的泛化性能。總的來說,我們提出了一個新的算法,使用領域適應目標生成對抗性擾動,以增強在低資源場景下軟提示調優的可轉移性,一個新的模型優化算法,當優化任務分類器以適應競爭損失時,考慮對抗性領域判別器的下一步梯度,以及一個新的聯邦學習框架,校準條件概率分布,以在不同標簽分布下將同一PLM適應到多個領域。我們在以下章節中詳細介紹了具體問題、相關工作、詳細方法、廣泛實驗和深入討論,并闡明了如何在迎合新興學習范式的同時,依據傳統的機器學習方法。

付費5元查看完整內容

多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。

付費5元查看完整內容

深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。

付費5元查看完整內容

以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。

具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。

我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。

//www.research-collection.ethz.ch/handle/20.500.11850/523269

付費5元查看完整內容
北京阿比特科技有限公司