亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

知識圖譜(KGs)正在重塑關于世界信息的表示、組織和利用的范式。知識圖譜提供了豐富的語義信息,并已成為人工智能(AI)的驅動力之一。KG的研究主要有兩個重要方向:一是構建和提高知識圖譜的質量,二是深入探討知識圖譜的廣泛應用。近年來,圖神經網絡(GNNs)也取得了顯著進展。GNN是一類適用于圖領域的深度學習技術,在許多任務中表現出令人鼓舞的性能。盡管已有研究嘗試將GNN應用于KG相關任務,但模型功能設計、可擴展性問題、因傳導性而只能預測訓練中觀察到的實體的局限性,以及基準質量等方面仍存在諸多挑戰。在本論文中,我們針對利用GNN進行知識圖譜的深度學習,考察了歸納性知識圖譜補全和知識增強推薦任務,提出了新的基于GNN的方法以應對這些挑戰。我們的廣泛實證評估顯示,所提出的方法在多種基準任務上優于最先進的方法,并能夠在實際應用中實現高效的訓練和測試。 我們還進一步探討了KG補全問題,通過重新審視傳導性設定下的基準測試。特別地,我們提出了一種新的方法來生成基準,以幫助實證評估模型捕捉推理模式的能力。我們的研究結果突顯了理論結果與實際推理能力之間的差距。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

圖結構數據在各個領域中廣泛存在,表示實體之間有價值的關系信息。然而,大多數深度學習技術,如卷積神經網絡(CNN)和循環神經網絡(RNN),都是針對網格結構數據設計的,難以處理圖數據。這引發了對使用圖神經網絡(GNNs)進行圖表示學習的日益興趣。GNNs通常通過消息傳遞將圖結構融入神經網絡層中。然而,圖神經網絡仍面臨諸多挑戰,如缺乏嚴格的基準、模型表達能力的局限性和較差的可擴展性。 本論文旨在通過解決這些關鍵問題,推動圖表示學習的發展。首先,它開發了全面的基準,用于標準化評估GNNs。這包括中等規模的任務,涵蓋社交網絡、計算機視覺和組合優化等領域中節點、邊和圖分類的監督和半監督學習。論文還引入了一個專門設計的全新基準,用于測試大規模圖中長距離交互建模的能力。

其次,論文致力于開發新的GNN架構,以提高圖上的學習表現和泛化能力。它通過引入圖形領域的歸納偏差(如利用稀疏性和設計Laplacian位置編碼)將Transformer網絡擴展到圖結構數據領域。另一種技術通過使用具有信息量的圖擴散特征,在GNN中分別學習結構和位置表示。這顯著增強了模型的能力。

最后,論文解決了圖模型(尤其是圖Transformer)在大規模圖上擴展的問題。它研究了設計原則,如整合高效的局部和全局圖表示。基于此,提出了一個可擴展的圖Transformer框架。該框架通過引入新穎的鄰域采樣和全局注意機制,捕捉大規模圖中的局部結構和全局依賴關系。

總體而言,通過嚴格的基準測試、富有表現力的架構和可擴展的模型,本論文在多個方面對推動圖結構數據上的深度學習做出了重要貢獻。這些技術為GNN在處理復雜關系數據的實際應用中鋪平了道路。

付費5元查看完整內容

表示學習對于開發健壯的視覺系統至關重要。這一學習過程的有效性在很大程度上取決于數據的質量和數量。合成數據在靈活性、可擴展性和可控性方面具有獨特的優勢。最近生成式模型的進展使得合成逼真的圖像和高質量文本成為可能,大大提高了合成數據的可行性。盡管有這些進展,合成數據在表示學習和視覺識別任務中的應用仍然落后,使用合成數據訓練的模型與使用真實數據訓練的模型之間存在明顯的性能差距。在本論文中,我們展示了我們最近為縮小這一差距并利用合成數據訓練最先進的表示模型所做的努力。我們首先利用來自大型語言模型的合成文本來增強視覺-語言模型的訓練。接著,我們探索了由文本到圖像模型生成的合成圖像,研究了這些圖像在用于監督模型訓練時適用的縮放規律。我們還引入了一種專為合成圖像設計的多正樣本對比損失,展示了它們在表示學習中相對于真實圖像的優勢。最后,我們提出了一個全新框架,使用純合成文本和圖像訓練視覺模型,實現了卓越的性能,在包括細粒度分類和語義分割等任務中超越了使用真實圖像訓練的最先進模型。這些工作為在表示學習中推進生成式模型并解決關鍵計算機視覺任務奠定了堅實的基礎,標志著在利用合成數據提升數據中心人工智能生態系統中表示學習的進步。

數據的質量和數量在訓練視覺模型中起著至關重要的作用。歷史上,研究的重點一直放在創建大型、精心策劃的圖像數據集上,這些數據集在圖像層面帶有分類標簽,用于訓練監督模型 [105, 40, 180, 152]。著名的例子包括 CIFAR [105] 和 ImageNet [40]。盡管創建這些數據集在較小規模上是有效的,但將其擴展到數億個樣本時會面臨顯著的挑戰。這些挑戰包括大規模策劃所需的密集勞動,以及隨著數據集規模的擴大,噪聲和質量問題增加的潛在風險。

最近,使用語言監督訓練視覺表示模型的興趣逐漸增加 [93, 144]。以 CLIP [144] 等模型為代表,這一轉變超越了像 ImageNet 這樣的數據集中固定的、預定義的類別。訓練這些模型需要大量的圖像-文本對數據集。發展趨勢包括從創建包含數百萬圖像-文本對的 Conceptual Captions 數據集 [169],到包含數十億對的 LAION 數據集 [165]。然而,這種方法并非沒有挑戰。大規模的數據來源,通常通過網絡抓取,帶來了顯著的噪聲。可擴展性問題仍然存在。此外,這些數據集的巨大規模在存儲和數據傳輸方面也帶來了實際困難。例如,LAION-2B 需要數十TB的磁盤空間,下載可能需要數天甚至數周。

幸運的是,生成模型的最新突破為合成數據生成引入了新的可能性。生成模型產生的合成數據在表示學習中越來越有用,原因有以下幾點:首先,隨著大規模語言模型和文本到圖像模型的發展,合成數據的質量得到了改善。這些模型現在能夠生成逼真且富有創造性的文本以及高質量的圖像。其次,它們具有帶寬效率優勢,因為只需傳輸模型,而不需要傳輸整個數據集。例如,Stable Diffusion [154] 這樣的模型僅占用約 5 GB 的磁盤空間,這相比龐大的 LAION-2B 數據集要高效得多。然而,這種效率的代價是需要額外的計算資源來按需生成合成數據。第三,它們通過顯著減少數據集策劃所需的人力勞動,促進了更輕松的可擴展性。由于數據是由模型生成的,因此擴展數量比收集和標注現實世界的數據更容易。最后,也是最令人興奮的,它們允許通過輸入文本來控制生成的內容。這種能力有可能生成新的組合,并且無需額外成本即可提供類別標簽或成對的文本監督。

考慮到合成數據的眾多優勢,本論文旨在探討一個簡單但雄心勃勃的問題:是否有可能使用合成數據訓練最先進的表示模型?在整個工作中,我們將探索這一核心問題,并展示如何通過合成數據訓練模型可以在廣泛研究的計算機視覺任務上取得卓越表現。

通過系統地解決與合成數據相關的挑戰和機遇,本論文旨在為機器學習研究的發展做出貢獻,并提供關于合成數據作為訓練有效表示模型的新來源的寶貴見解。

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容

在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。

我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。

總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知

隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。

一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。

場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。

本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。

付費5元查看完整內容

近年來,深度神經網絡(DNNs)在多種計算機視覺任務中取得了巨大進步,如圖像分類、對象檢測、語義分割等。然而,DNNs的重大成功是以大量密集標記的訓練圖像為代價的,這些訓練圖像的建立極其昂貴且耗時。一種繞開這種限制的方法是利用現有相關數據集(稱為“源域”)中的已標注圖像進行網絡訓練。不幸的是,在源域上訓練的DNNs在應用于“目標域”時往往會因為分布不匹配而導致性能急劇下降。在這種情況下,域間的遷移學習(或稱知識遷移)是可取且必要的。

在本論文中,我們探討了用于視覺識別的轉導性遷移學習,其中標記的源域數據和未標記的目標域數據的數據分布不同,而源任務和目標任務是相同的。更具體地,我們調查了三種代表性的轉導性遷移學習類型,包括域泛化、無監督域適應和無源無監督域適應。

在域泛化中,給定標記的源域數據,目標是學習一個泛化的視覺識別模型,該模型在未見過的目標域數據上表現良好。換句話說,域泛化旨在學習域不變特征(或可遷移特征),而無需在訓練中使用目標域數據。在本論文中,我們提出了一種新穎的域泛化方法,有效地在頻率空間隨機化源域圖像,鼓勵DNNs學習風格不變的視覺特征,以便在未見過的目標域中表現良好。

在無監督域適應中,給定標記的源域數據和未標記的目標域數據,目標是學習一個適應性的視覺識別模型,該模型在目標域數據上表現良好。與域泛化不同,在無監督域適應的遷移學習設置中,未標記的目標域數據在訓練期間是可訪問的。因此,無監督域適應主要關注于利用未標記的目標域數據來提高網絡性能。在本論文中,我們開發了四種新穎的無監督域適應技術,有效地將知識從標記的源域傳遞到未標記的目標域。更具體地,我們在未標記的目標域數據上設計了不同的無監督損失,以學習在目標域中表現良好的模型。 在無源無監督域適應中,給定一個源訓練模型和未標記的目標域數據,目標是適應源訓練模型以在未標記的目標域數據上表現良好。與無監督域適應不同,在無源無監督域適應的遷移學習設置中,標記的源域數據在訓練期間是不可訪問的,我們的目標是在不訪問源域數據的情況下適應源訓練模型以適應目標數據分布。在這樣的遷移學習設置下,唯一傳遞的信息是一個便攜的源訓練模型,這在很大程度上緩解了數據隱私、數據可攜帶性和數據傳輸效率的擔憂。為此,我們提出了一種新穎的無源無監督域適應方法,利用歷史源假設來彌補這種遷移學習設置中源域數據的缺失。 在各種視覺識別基準測試中的實驗結果表明,我們提出的遷移學習方法取得了卓越的性能,實現了跨不同域的DNNs的遷移。

付費5元查看完整內容

深度學習已經徹底改變了科學研究,并被用于在越來越復雜的場景中做出決策。隨著強大的能力的增長,對透明度和可解釋性的需求也在增長。可解釋人工智能領域旨在為AI系統的預測提供解釋。然而,AI可解釋性的最新進展遠未令人滿意。

例如,在計算機視覺中,最著名的事后解釋方法生成像素級的熱圖,覆蓋在輸入域上,旨在可視化圖像或視頻的單個像素的重要性。我們認為,這種密集的歸因圖對非專家用戶來說解釋性較差,因為解釋形成的領域——我們可能在熱圖中識別出形狀,但它們只是像素的斑點。事實上,輸入域更接近于數碼相機的原始數據,而不是人類用來交流的可解釋結構,例如物體或概念。

在這篇論文中,我們提出超越密集特征歸因,通過采用結構化內部表示作為更可解釋的解釋域。從概念上講,我們的方法將深度學習模型分為兩部分:感知步驟,輸入密集表示;推理步驟,學習執行手頭任務。兩者之間的接口是對應于明確定義的物體、實體和概念的結構化表示。這些表示作為解釋模型預測的可解釋域,使我們能夠朝著更有意義和信息豐富的解釋邁進。

提出的方法引入了幾個挑戰,比如如何獲得結構化表示,如何將它們用于下游任務,以及如何評估結果解釋。本論文包含的工作解決了這些問題,驗證了方法并為該領域提供了具體貢獻。在感知步驟中,我們探討了如何從密集表示中獲得結構化表示,無論是通過使用領域知識手動設計它們,還是通過無監督地從數據中學習它們。在推理步驟中,我們探討了如何將結構化表示用于從生物學到計算機視覺的下游任務,以及如何評估學到的表示。在解釋步驟中,我們探討了如何解釋在結構化域中運作的模型的預測,以及如何評估結果解釋。總的來說,我們希望這項工作能激發對可解釋AI的進一步研究,并幫助彌合高性能深度學習模型與現實世界應用中對透明度和可解釋性需求之間的差距。

人工智能系統在商業、科學和社會的各個領域得到了廣泛應用。特別是由于性能的快速提升,深度學習模型現在能夠在復雜場景中支持甚至取代人類專家。然而,強大的能力伴隨著巨大的責任,人工智能(AI)的日益普及引發了對透明度和可解釋性的增長需求。確實,使用高精度檢測癌癥很有用,但AI醫生必須能夠向患者解釋其診斷,并與其他醫生合作。同樣,一家公司可能開發了一個用于自動駕駛的杰出系統,但在公共道路上部署之前,需要說服監管機構其行為是安全且可預測的。 透明度、解釋和可解釋性是可解釋人工智能(XAI)的重點。盡管在理解深度學習模型和解釋其決策方面取得了重大進展,但XAI的最新狀態遠未令人滿意。例如,計算機視覺中最著名的解釋方法產生的熱圖被疊加到圖像或視頻上,以突出重要區域。我們稱之為密集特征歸因的這種可視化類型,對模型識別什么(紋理、部分、物體等)和如何推理(屬性、關系等)提供的洞察很少。我們將這種局限性歸因于解釋形成的領域。實際上,對于大多數深度學習模型,解釋域與輸入域相對應,它更接近于感官數據(例如原始像素),而不是人類用于推理和交流的可解釋結構(例如物體或概念)。 本論文的目標是超越密集特征歸因,轉而采用結構化表示作為更可解釋的解釋域。我們通過分離感知步驟(將密集輸入轉換為結構化表示)和推理步驟(使用結構化表示進行預測)來實現這一目標。這種分離使我們能夠就結構化表示解釋預測,這比密集輸入更具可解釋性。 在這個引言章節中,我們對我們的方法進行了背景闡述:第1.1節提供了可解釋人工智能的介紹,包括其概念和需求;第1.2節描述了表示方法,無論是密集的還是結構化的,在解釋深度學習模型中的作用。最后,第1.3節對提出的方法進行了正式闡述,并概述了本論文各章節中的發展情況。

付費5元查看完整內容

關系數據在現代計算中無處不在,并驅動跨多個領域的幾個關鍵應用程序,如信息檢索、問題回答、推薦系統和藥物發現。因此,人工智能(AI)的一個主要研究問題是建立以有效和可靠的方式利用關系數據的模型,同時注入相關的歸納偏差和對輸入噪聲的魯棒性。近年來,圖神經網絡(GNNs)和淺節點嵌入模型等神經模型在關系結構的學習表示方面取得了重大突破。然而,這些系統的能力和局限性還沒有被完全理解,在賦予這些模型可靠性保證、豐富它們的關系歸納偏差以及將它們應用于更具挑戰性的問題設置方面仍存在一些挑戰。在這篇論文中,我們研究了關系數據的學習和推理。更具體地說,我們從理論上和實證上分析了現有模型的性質和局限性,并提出了改進關系歸納偏差和表征能力的新方法。

//ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53

1. 引言以神經網絡為動力的深度學習系統已經在各種具有挑戰性的任務上取得了突破性的成果,如計算機視覺[96]和機器翻譯[160]。深度學習模型在最少人為干預的情況下從數據中學習模式,并在其訓練集之外進行經驗歸納。因此,在多個領域應用深度學習系統的興趣越來越大。沿著這些思路,近年來一個突出的研究前沿是將深度學習應用到關系數據中。從根本上說,關系數據將信息表示為一組通過語義意義關系連接的實體。例如,可以將在線市場上的產品、賣家和用戶表示為實體,并將交易描述為跨上述三種實體類型的三元關系,例如,Alice從Charlie那里購買了一個球。關系數據的一個流行的特例是圖結構,其中關系最多是二進制的。在這種情況下,關系可以被視為定義(標記)圖實體之間的邊,這些實體本身構成了圖節點。關系表示非常通用,并且出現在各種應用程序領域中。例如,社交網絡中的用戶根據他們的互動(友誼、關注、點贊)成對連接,可以被視為一個圖結構。這同樣適用于引文網絡中的論文[153,154]及其引文連接,以及分子,其中原子可以被視為實體,它們的鍵可以表示為二進制關系。事實上,關系數據封裝了幾個傳統數據域。例如,圖像是網格形狀的圖形的一種特殊情況,其中相鄰的像素由一條邊連接,序列是一系列實體,這些實體的邊連接著連續的實體。鑒于關系數據的普遍存在和圖結構的普遍存在,構建強大的關系機器學習模型是一個重要的研究問題,其分支涉及多個任務,如信息檢索[182]、問題回答[20]、推薦系統[173]和藥物發現[60]。廣義上講,機器學習任務可以分為三大類:

1. 節點級的任務。給定一個帶有未標記或部分標記節點的輸入圖,節點級任務旨在預測節點屬性,例如,對于沒有預標記屬性的節點,預測一個類或一個值。例如,在引用網絡中,論文(輸入圖中的實體)具有內容特征,并且通過二元引用關系與其他論文相連,預測論文的主題就是一個節點分類任務。

2. Graph-level任務。給定一個輸入圖,圖級任務尋求基于節點特征、邊和整體輸入圖結構預測全局圖屬性,如類或值。這些任務在分子圖中非常突出,包括幾個圖性質預測問題,如毒性分類和零點振動能(ZPVE)回歸[140]。

3.Edge-level任務。給定一個輸入圖,邊級任務旨在預測現有邊的未知邊屬性,或者更常見的是,基于現有邊和節點特征預測圖中缺失的邊。對于后一種情況,當輸入圖是單關系圖時,該問題稱為鏈接預測,如引用網絡,當輸入圖是多關系圖時,該問題稱為知識圖譜補全(KGC)。在本文中,我們研究了關系數據(圖結構和更一般的關系數據)的學習和推理,并提出了幾個模型和框架,以理論分析和結果支持,以提高該領域模型的關系歸納偏差和表示能力。更具體地說,我們系統地研究現有模型,證明它們的理論屬性和結果,并提出擴展和新模型,以(i)可證明地捕獲和/或強加豐富的關系歸納偏差,(ii)更好地理解現有模型的表現力和表征局限性,以及(iii)將現有模型和方法擴展到與推理和推理相關的新穎的、具有挑戰性的應用領域。

付費5元查看完整內容

視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。

付費5元查看完整內容

這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。

//dspace.mit.edu/handle/1721.1/143249

付費5元查看完整內容
北京阿比特科技有限公司