亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。

付費5元查看完整內容

隨著機器人在自主檢查、家庭輔助和搜救等更廣泛挑戰中的應用超越工業環境,人們對其在越來越大、無結構和未知環境中自主導航和執行有意義任務的需求也在增長。盡管硬件、傳感和計算技術的改進使機器人具有更強的靈活性和感知能力,但其軟件,特別是自主映射和導航能力,仍然是一個顯著的瓶頸。體積地圖提供了一個通用、安全且與任務無關的環境表示,但其過高的計算和內存需求限制了其在小型和經濟實惠機器人上的實際使用。、 本博士論文研究了使用自適應表示作為解決這些挑戰的方法,重點是增強體積地圖的可擴展性、效率和準確性。認識到體積地圖的價值取決于它們對下游任務的益處,我們研究了局部和全局規劃作為兩個代表性應用。利用層次化、多分辨率的方法,本研究旨在根據任務的需求動態平衡細節和計算成本之間的權衡。 本論文的主要貢獻是開發了一種名為wavemap的數學上嚴格的多分辨率映射框架,該框架根據環境幾何調整地圖分辨率而不依賴于啟發式方法。MRA理論保證了使用小波分解,新觀測可以安全且高效地以由粗到細的方式整合到地圖中。通過計算效率的提高以及積分器的早期停止標準,我們可以使用更復雜的測量模型,從而更好地捕捉細小物體,提高機器人操作的安全性和可靠性。該框架在合成和真實數據上進行了廣泛評估,證明了其在高效重建大規模環境的同時精確捕捉細節的能力。除了在可擴展性和地圖質量方面的顯著改進外,該框架的靈活性也使其能夠應用于各種傳感器和應用場景。 我們的第二和第三個貢獻是開發了高效的反應性避障方法和確定性全局路徑規劃方法,利用層次化表示和算法以及wavemap框架,實現了在復雜環境中快速、可靠的導航。在不同真實環境的地圖上進行的實驗評估以及在微型空中車輛上的部署,證明了這些方法在效率、準確性和靈活性方面優于現有方法,強調了其在顯著推進機器人映射和導航領域中的潛力。 總之,本博士論文為機器人領域中體積映射和規劃的挑戰提出了一個全面的解決方案,為更多自主、高效和多功能的機器人系統在多樣化和變化環境中的操作鋪平了道路。

付費5元查看完整內容

近年來,自然語言生成的許多工作依賴于深度學習,通常使用帶有軟注意機制的神經網絡從數據中選擇顯著方面,然后構建流暢的自然語言文本。然而,在對數據的自然描述中,人類通常會提到更高級別的模式,這可能需要對數據進行復雜的計算。在許多情況下,僅使用軟注意機制的神經模型難以提取這些模式。此外,用戶可能會發現這些模型難以解釋和控制。在本論文中,我提出了一種通過在數據和文本上引入某些類型的離散層級操作的方法,以實現基礎自然語言生成。與僅使用注意力機制相比,這種層級操作可以更好地對數據中的復雜模式建模,揭示可解釋的中間計算,并實現可控的生成。

在論文的前半部分,我將討論在不同的基礎自然語言生成任務中向神經模型添加特定的離散層級操作,如圖像和表格標題生成、對話響應生成以及構建多跳問題回答的推理鏈。這些任務涵蓋了各種數據模態(包括圖像、表格數據、數值數據和知識庫)。在論文的后半部分,我將描述用于文本解碼器中的內容規劃的層級方法,研究詩歌生成中的押韻模式以及用于連貫敘事文本生成的離散計劃。

付費5元查看完整內容

在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。

在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。

我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。

直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。

最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。

新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。

本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。

第一部分:深度神經架構的高效訓練策略

在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。

**第二章

我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。

**第三章

我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。

第二部分:通過可微優化增強訓練

在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。

**第四章

我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。

**第五章

我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。

付費5元查看完整內容

"強化學習(RL)是一個強大的決策制定和通過交互適應性學習的框架。盡管其核心是試錯學習,但它已成為人工智能(AI)研究的關鍵工具。在過去的十年中,RL算法已能夠掌握國際象棋和圍棋等戰略游戲,并控制各種機器人和工業平臺,從運動和操縱到電廠,甚至核聚變反應堆。通過將深度神經網絡(NN)作為函數逼近器納入其中,“深度RL”達到了處理高維狀態和動作空間的能力,并且原則上在任務間有更好的泛化性,使RL解決方案變得多樣化且有前景。然而,使用深度神經網絡帶來了某些警告。RL算法經常面臨由于過擬合和對超參數敏感導致的脆弱性問題,這些問題加劇了典型的RL挑戰,如低樣本效率、處理稀疏獎勵的困難、長期任務的延遲信用分配、對獎勵函數設計的敏感性。在這篇論文中,我們提出了一系列針對RL所面臨的一些問題的新穎貢獻,其最終目標是提高其在連續控制任務中的效率、穩健性和泛化性。具體來說,我們將介紹更穩健的軌跡優化方法,結合NN函數逼近用于策略學習、模型學習和獎勵學習。特別是,這項工作的大部分集中在零階優化用于模型預測控制,我們證明這比基于梯度的軌跡優化器更高效、穩健和可重現。在整篇論文中,我們將展示如何使用零階優化來有效解決稀疏獎勵任務,如何在模仿學習的背景下使用它,以及如何結合模型學習用于不確定性傳播。最后,我們將介紹一種從零開始學習獎勵函數的方法,以純自監督的方式。通過在模擬環境中的廣泛實驗,我們的方法在學習效率和性能上展示了顯著的提升,減少了與環境交互所需的次數,同時仍然實現了接近最優的解決方案。這項工作旨在提供一種解決深度RL挑戰部分問題的可行方法,不依賴于預定義的專家知識,解決學習過程的效率和穩健性問題。”

“雖然我們對于究竟是什么引發了人類的思維和批判性推理尚且遙遠不明,但有證據表明人類行為是通過強化學習引導的。強化學習(RL)的歷史可以追溯到20世紀,當時B.F. Skinner和I. Pavlov對動物進行了一系列關于條件反射的實驗 [1, 2],以理解學習背后的機制。心理學家E. Thorndike已經將動物的反應由其后果所強化的觀點,正式表述為“效果定律” [3]: 在特定情境中產生滿意效果的反應變得更有可能再次發生,在該情境中產生不適效果的反應變得不太可能再次發生。 —— Edward Thorndike Thorndike的效果定律假設動物不是通過推理,而是通過與物理環境的試錯互動來學習,直到獲得成功的結果。這種決策策略以回顧性方式將獎勵與行動聯系起來,與前瞻性觀點相對立,后者認為動物形成環境的場域圖作為學習的指導機制,也稱為“認知地圖” [4, 5]。”

“關于人腦的大量實驗證據表明,行為選擇存在多種機制 [6],決策過程既是反思性的(前瞻性)也是反射性的(回顧性),正如我們所預期的那樣。強化學習理論也以類似的方式發展,現在包括兩個主要分支:無模型(反射性)和基于模型(反思性)RL [7]。無模型RL學習在狀態和行動之間的反應性映射,以增加代理的獎勵,而無需了解環境的基本物理原理。相反,基于模型的RL則學習對世界的內部表征,用于學習每個行動的后果。與基于模型的RL類似,另一種計算性的前瞻性推理方法可以在模型預測控制(MPC)中找到,它在機器人學和許多工業過程中有效使用 [8, 9]。在MPC中,使用已知模型來迭代地優化給定的獎勵,同時考慮規劃范圍內的約束和來自環境的反饋。鑒于其提前規劃的組成部分,MPC也可以被看作是一種反思性決策制定的形式。 在這篇論文的過程中,我們將看到如何將基于模型和無模型的RL與MPC風格的迭代規劃相結合,以創建比單獨組件更強大的控制策略。例如,無模型RL算法能夠從大量數據中快速學習,但對訓練超參數敏感,泛化能力不佳,并且缺乏規劃組件,這可能導致在復雜環境中做出次優決策。另一方面,基于模型的RL方法有可能更靈活,但經常受到與模型估計相關的偏差的困擾,當以自回歸方式使用時,這些偏差可能迅速累積。將基于模型的RL與MPC整合起來可以提供兩全其美的解決方案,因為MPC提供了一個規劃框架,可以納入學習到的世界模型,并在規劃范圍內優化代理的行動。這可以導致更高效的決策制定策略,能夠從經驗中學習,適應不斷變化的環境,并隨著時間的推移優化它們的行為,同時具有反應性以及規避風險的特性。”

付費5元查看完整內容

計算機視覺系統自從分類手寫數字的時代以來取得了巨大的進步。特別是,監督學習已經成為解決科研之外任務的普遍方法。這些系統被部署在從自動駕駛汽車到自動醫療診斷和天氣預報等多個行業的眾多產品中。這些進步可以歸因于深度學習算法、專業庫和專用硬件的進步,以及用于模型訓練的大型標注數據集的增加。然而,仍然存在一些任務,其中僅僅捕獲和標注更多數據的標準范式并不是一個可行的解決方案。 在這篇論文中,我們調查如何最好地利用多模態數據來解決獲取足夠質量或完整性數據困難的計算機視覺任務。我們專注于兩個特定任務:引導式超分辨率和細粒度分類。引導式超分辨率涉及通過將低分辨率數據與輔助模態結合來進行放大,而細粒度分類需要利用邊際信息,使分類算法能夠捕捉到細粒度類別之間細微的外觀差異。最初,我們在缺乏地面真實數據的情況下為引導式超分辨率提供解決方案。首先,我們提出了一種將引導式超分辨率視為學習從引導到源域的像素到像素映射的新穎無監督公式。我們使用多層感知器參數化來保留高頻細節。其次,我們提出了一種新穎的混合模型,以在保持解決測試時優化問題的嚴謹性的同時,最好地利用深度學習方法。關鍵是一個可微分優化層,它作用于一個學習的親和圖,確保目標對源的高保真度,因此對未見域具有高泛化性。隨后,我們提出了一種自動識別社區科學家照片中細粒度植物標本的統一方法。該方法旨在利用社區科學家觀察中通常可用的各種先驗知識,包括地理和時間背景以及植物分類學,以學習跨類似物種的可轉移表示。最后,我們提出了2021年半地球植物標本館數據集,這是我們作為機器學習競賽的一部分創建的一個大型策劃和開放獲取的植物標本數據集,以鼓勵進一步研究從照片中自動識別細粒度植物物種。 近年來,計算機視覺領域取得了顯著進步。當然,這些進步可以歸因于深度學習研究、專業庫和專用硬件的進展,但最重要的是,這些進步得益于大量數據的可用性,例如像ChatGPT(OpenAI,2022年)和Stable Diffusion(Rombach等,2021年)這樣的生成模型分別在互聯網上爬取了數十億的文本和圖像進行訓練。 然而,并非所有任務都能使用現成的互聯網規模數據集來解決。許多重要問題,如自動檢測惡性腫瘤、評估自然災害造成的損害或繪制瀕危物種的地理分布,仍然是放大數據收集不是解決方案的挑戰。這些挑戰可以大致分為兩類。首先,由于傳感器捕獲它們的固有技術限制,感知特定模態存在困難,例如遙感器如航空或衛星成像或主動傳感器如激光掃描儀、ToF相機或MRI掃描儀。其次,觀察罕見事件或特定數據類型的多樣性困難,因為在現實世界的數據收集工作中不經常遇到某些場景或類別。例如,捕捉所有容易發生事故的駕駛場景,或收集所有生物物種的足夠數據就是這種情況。

為了解決數據收集質量挑戰性應用中傳感器可用性的限制,一個可行的解決方案是利用更常見的傳感器捕獲的數據來增強傳感器的輸出。這種設置在許多計算機視覺任務中都很常見,特別是在低分辨率傳感器與捕獲不同模態圖像的高分辨率傳感器配對時。這項任務,被稱為引導式超分辨率,涉及在高分辨率引導圖像的幫助下增加低分辨率源圖像的分辨率。一個常見的實際應用是在RGB圖像的指導下對深度圖進行超分辨率。這種配置在配備有深度傳感器和常規攝像機的各種設備上都能找到,如增強/虛擬現實頭戴式顯示器(AR,VR),現代手持設備,機器人和自動駕駛汽車。事實上,消費級深度攝像頭捕獲的深度圖分辨率較低;類似地,激光掃描儀獲得的稀疏深度測量可以在相對較大的印記上進行平均。相反,即使是入門級相機現在也能以非常高的分辨率捕獲圖像。這種設置也經常用于環境監測,例如樹高、生物量或物種分布概率等關鍵指標的地圖通常可用的分辨率遠低于現代遙感器的地面采樣距離(Keil和Jetz,2014年,Metzger等,2022年)。因此,一個自然的問題是如何利用這些系統捕獲的成對圖像來提高低分辨率傳感器的質量,從高分辨率傳感器傳輸細節。 獲取大量高質量注釋的挑戰甚至可能比數據收集過程本身更加困難。這是至關重要的,因為監督學習在計算機視覺的成功中發揮了核心作用,可以追溯到深度學習早期的開創性工作,如AlexNet(Krizhevsky等,2012年)贏得ImageNet ILSVRC-2012挑戰賽(Deng等,2009a)。事實上,全球數據標注市場預計到2028年將達到82.2億美元(Grand View Research),凸顯了其重要性。例如ImageNet這樣的基準通常為每個類提供大量的訓練圖像,在這種設置下,分類算法取得了令人印象深刻的結果。然而,一旦我們減少每個訓練類的圖像數量,它們的性能就會迅速下降。然而,由于各種原因,簡單地收集更多數據和注釋并不總是可行的。例如,自然界展示了物種的長尾分布,導致大量類別不平衡,某些物種罕見或難以觀察。此外,某些地區數據的可用性變化和觀察者偏見可能會進一步加劇獲取全面注釋的難度,如圖1.1所示。此外,標注這些數據集需要專業的分類學專業知識,因此許多這些觀察結果仍未標注。這是大多數描述生物多樣性的大型圖像集合的現實,例如那些從相機陷阱、社區科學家觀察、無人機調查或植物標本館(Tuia等,2022年,Bebber等,2010年)中獲得的。因此,我們認為自動物種識別工具的需求迫切。這項任務,通常被稱為細粒度分類,涉及將圖像分類為更廣泛類別內的子類別,例如物種,并且以區分基于微妙視覺線索的標本為特征。我們認為,僅憑外觀信息不足以區分細粒度類別,因為學習這種微妙模式的數據有限。幸運的是,物種觀察通常伴隨著側面信息,例如捕獲圖像的時空背景,這些信息可以與環境先驗結合使用。這個問題再次強調了開發利用多模態數據來增強自動識別標本的方法的需要。

付費5元查看完整內容

人工智能,尤其是機器學習的子領域,已經看到了向數據驅動的模型的范式轉變,這些模型從數據中學習并適應。這在自然語言處理和計算機視覺等多個領域都帶來了前所未有的進步,很大程度上歸因于深度學習,一種特殊的機器學習模型。深度學習通過一系列的計算層從原始數據中學習相關特征,從而在某種程度上超越了傳統方法。

本論文通過研究這些模型的結構與它們處理的數據中的固有結構之間的關系,探討了深度學習的理論基礎。我們特別提問:是什么驅動了深度學習算法的效能,并使它們擊敗了所謂的維度詛咒——即由于數據點與增加的維數呈指數級增加的需要而在高維中通常學習函數的困難?是它們利用數據結構來學習數據的相關表示的能力嗎?不同的結構是如何利用不同的數據結構的?為了解答這些問題,我們提出數據的結構可以通過其不變性——即與手頭的任務無關的方面來有效地表征。

我們的方法對深度學習采取了一種實證方法,將實驗研究與物理啟發的玩具模型相結合。這些簡化的模型使我們能夠研究和解釋我們在深度學習系統中觀察到的復雜行為,提供對它們內部工作的洞察,目標是彌合理論與實踐之間的差距。具體地說,我們計算淺層全連接網絡的嚴格泛化誤差率,表明它們通過學習線性不變性(即對輸入空間中無關的線性方向變得不敏感)能夠表現良好。但是,我們表明這些網絡結構在學習非線性不變性(如旋轉不變性或輸入的平滑變形的不變性)時可能表現不佳。這一結果說明,如果所選擇的架構不適合某個任務,它可能會過度擬合,使得表示不被學習的核方法可能成為更好的選擇。

然而,現代的架構,如卷積神經網絡,特別適合學習真實數據中存在的非線性不變性。例如,在圖像分類中,物體或特征的確切位置可能對于識別它并不重要。這一屬性導致了對小的變形的不變性。我們的研究結果表明,對變形更為不變的神經網絡往往性能更高,突顯了利用這種不變性的重要性。

付費5元查看完整內容

深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。

然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。

機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。

想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容
北京阿比特科技有限公司