亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度神經網絡,尤其是大語言模型(LLMs),在廣泛的任務中展現了顯著的成功;然而,其訓練過程計算密集,需要大量的數據和計算資源。即使是對預訓練的LLMs進行特定任務的微調,也常常帶來顯著的計算成本。本論文從凸優化的視角出發,推進了對神經網絡的理論理解和實際優化。我們首先提出了一個基礎性結果:兩層ReLU網絡的正則化訓練問題可以重新表述為凸優化問題。這種凸優化公式化闡明了優化景觀,刻畫了所有全局最優解和Clarke穩定點,并將模型性能與超參數選擇解耦。借鑒壓縮感知中最稀疏線性模型的恢復,我們證明了過參數化神經網絡本質上學習能夠有效解釋數據的簡單模型,并通過在隨機生成數據集中觀察到的相變現象支持了這一結論,從而確立了其卓越的泛化能力。將強對偶性概念擴展到深層網絡,我們提出了一種并行架構,能夠在修改正則化的情況下實現全局最優訓練,同時也為標準架構中非零對偶間隙的存在提供了見解。通過將正則化ReLU網絡的訓練與NP難問題Max-Cut聯系起來,我們嚴格分析了訓練到全局最優的計算復雜度,得出了NP難證明,并為特定類型的數據集開發了高效的多項式時間近似算法。即使在缺乏顯式正則化的情況下,梯度流的隱式正則化也會驅動收斂到非凸最大間隔問題的全局最優解。我們通過利用隨機幾何代數對大語言模型(LLMs)進行微調,展示了凸優化的實際應用。我們進一步通過凸幾何和對偶視角分析了用于訓練兩層ReLU網絡的非凸次梯度流,表明其隱式偏差與凸正則化一致,并在對偶變量滿足特定條件時證明了其收斂到全局最優解。最后,我們提出了一種半定規劃(SDP)松弛方法,用于近似具有平方ReLU激活的兩層網絡中的Wasserstein梯度,確保在特定條件下的緊密松弛,并展示了其在貝葉斯推斷和COVID-19參數估計中的有效性。這些發現填補了關鍵的理論空白,并引入了具有深遠意義的創新方法,推動了我們對神經網絡訓練過程的理解。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

包括大型語言模型(LLMs)和擴散模型在內的大規模模型的快速發展,正在改變人工智能的格局,但其廣泛部署仍受計算效率、內存帶寬和資源利用等關鍵瓶頸的制約。本文系統性地研究了這些挑戰,并提出了多種新方法,在不同的大模型推理任務中優化推理性能,在速度、內存和計算需求之間實現平衡,同時不犧牲輸出質量。 對于 LLMs,一個核心瓶頸是自回歸解碼過程中的內存帶寬限制:順序生成 token 會因模型參數的重復傳輸而帶來大量開銷。為此,我們提出 Medusa 框架,通過增加并行解碼頭并采用基于樹的注意力機制,實現同時預測多個 token,從而減少 2.3–2.8× 的解碼步驟,在保持輸出質量的前提下顯著加速推理。 此外,我們還針對高效部署多個微調模型的問題,提出 BitDelta 方法,將微調模型的權重差(delta)壓縮為 1 位(single bit),在不降低性能的前提下將 GPU 內存占用減少超過 10×,從而支持高效的多租戶部署,實現定制化模型的更快、更經濟的服務。 除了面向硬件的優化,我們還探索了系統級的協同優化,以提升大模型推理的整體效率。ToolMaker 提出了一個閉環框架,由一個強大的 LLM 生成可復用的工具(如 Python 函數),再由更輕量的模型調用這些工具進行問題求解。這種在資源密集的工具創建與成本更低的工具使用之間的分工,有助于降低推理成本并提升模型的可擴展性。 在擴散模型領域,由于分辨率提升會顯著增加計算成本,我們提出 Distrifusion 分布式推理框架,利用擴散步驟間的時間一致性(temporal coherence),復用預計算的特征圖,并通過流水線機制減少通信開銷,從而在多 GPU 環境下實現最高 6.1× 的加速。進一步地,SVDQuant 提出針對擴散模型的 4 比特量化方法,能夠利用現代張量核心(tensor cores)顯著提升計算吞吐量,同時不降低圖像質量。 總體而言,這些工作針對不同模型架構與部署場景的關鍵瓶頸提出了系統性的解決方案,并已在工業界得到廣泛應用。

付費5元查看完整內容

持續學習依然是機器學習領域的一項長期挑戰。成功實現持續學習需要不斷吸收新的知識,同時保留仍然有用的舊知識。在本論文中,我們提出了一種連貫的持續學習目標:在每個時間步受到計算資源限制的前提下,最大化無限時域平均回報。這一框架使我們能夠系統性地分析持續學習智能體的設計與評估,超越僅僅依賴準確率保持或可塑性等零散指標的方法。 論文的第一部分聚焦于基礎工具與理論視角的構建,包括:對智能體狀態的信息論建模、智能體容量的量化方法,以及持續學習中穩定性–可塑性權衡的形式化定義。第二部分則提出了多種新算法:一種用于緩解神經網絡可塑性退化的再生式正則化方法;Conformal Sympow——一種基于Transformer的模型,借助學習型門控與數據依賴旋轉機制,實現了高效的長上下文推理;以及一種以多樣性驅動的強化學習方法,使智能體具備對環境擾動的少樣本魯棒性。

綜上,這些工作有助于將持續學習確立為一個有原則、可操作的機器學習子領域,推動理論與實踐的融合。

付費5元查看完整內容

人類在日常生活中通過多種感官與環境互動:視覺用于感知和理解環境,身體意識用于定位,語言用于交流和語義理解,觸覺則用于接觸反饋。同樣地,機器人在面對非結構化的真實世界環境中的操作任務時,也需要具備類似的多感官整合能力

本論文探討了如何融合多種感知輸入,以提升機器人在現實世界中操縱物體的能力。通過整合視覺(為機器人提供詳細的空間信息)、本體感覺(提供身體位置反饋)、語言(理解并執行指令)以及觸覺(提供精細接觸信息),我開發了安全、高效且具有良好泛化能力的機器人系統。 論文中的研究貢獻涵蓋多個方向,包括:感知-運動控制運動規劃模仿學習機械搜索富接觸操作任務以及多模態對齊,整體目標是提升機器人在跨模態感知、推理與行動能力,突破單一感知模態的局限。 研究首先從視覺與本體感知的融合出發,以增強機器人在分布偏移條件下的控制魯棒性,并通過基于擴散模型的軌跡生成方法提升規劃效率。接著,提出了一種基于**“下一個 token 預測”機制的上下文模仿學習方法**,使機器人能通過 prompt(提示)快速適應新任務。 隨后,論文將視覺與語言的融合引入到遮擋物體的機械搜索與通用操作任務中。借助大型視覺-語言模型(Vision-Language Models),實現了更強的語義推理能力,從而獲得更有效的操作策略。 進一步地,我研究了觸覺傳感在高精度操作任務(如工業插接與布料處理)中的應用,提出了自監督策略學習視覺-觸覺預訓練方法,顯著提升了任務成功率。 最后,我構建了一個新的對齊視覺、觸覺與語言的多模態數據集,以支持機器人領域的多模態學習研究。 通過理論分析、仿真實驗與真實機器人實驗,本論文全面展示了多模態感知如何增強機器人操作任務中的泛化能力、適應性與安全性//www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html

付費5元查看完整內容

數學優化是一種廣泛應用于各領域的強大決策工具,其中混合整數優化(Mixed-Integer Optimization, MIO)在求解大規模問題中發揮著關鍵作用。然而,當約束條件或目標函數難以明確表達或設計時,優化模型常常面臨顯著挑戰。本文提出了一種結合約束學習的優化(Optimization with Constraint Learning, OCL)框架,融合機器學習(ML)技術以推斷并嵌入未知的約束與目標函數到MIO模型中。 本論文將OCL方法應用于人道主義援助的供應鏈優化,展示了如何將“食品可接受性”這一學習得到的約束條件融入模型,以確保受援者不僅喜歡食物,還能夠正確準備這些食品。此外,論文還通過兩個具有代表性的案例進一步證明了OCL框架的通用性:放射治療優化可解釋人工智能(XAI)。在放射治療場景中,OCL通過集成對輻射毒性風險的預測模型,實現了癌癥治療方案的個性化設計,在優化治療效果的同時最大程度降低患者風險。在XAI應用中,針對已擬合的機器學習模型,OCL框架可用于生成可操作的反事實解釋,滿足諸如接近性、多樣性與對環境不確定性的魯棒性等質量標準。 所提出的OCL框架在確保計算效率與全局最優性的同時,具有良好的可擴展性,為實踐者與研究人員提供了易于應用的工具。通過優化與機器學習的深度融合,本研究推動了數據驅動決策方法的發展,并為未來基于數據的優化研究奠定了理論與實踐基礎。

付費5元查看完整內容

深度神經網絡,尤其是大型語言模型(LLMs),在廣泛的任務中展現了顯著的成功;然而,其訓練過程計算密集,需要大量的數據和計算資源。即使是對預訓練的LLMs進行特定任務的微調,也常常會帶來顯著的計算成本。本論文從凸優化的角度,推進了對神經網絡的理論理解和實際優化。我們從一個基礎性結果出發,即兩層ReLU網絡的正則化訓練問題可以重新表述為凸優化問題。這種凸優化公式化闡明了優化景觀,刻畫了所有全局最優解和Clarke駐點,并將模型性能與超參數選擇解耦。通過與壓縮感知中最稀疏線性模型恢復的類比,我們證明了過參數化神經網絡本質上學習能夠有效解釋數據的簡單模型,這一結論得到了在隨機生成數據集中觀察到的相變現象的支持,從而確立了其卓越的泛化能力。將強對偶性概念擴展到深度網絡,我們提出了一種并行架構,使得在修改后的正則化下能夠實現全局最優訓練,同時也為標準架構中非零對偶間隙的存在提供了見解。通過將其與NP難的最大割問題聯系起來,我們嚴格分析了訓練正則化ReLU網絡到全局最優的計算復雜性,得出了NP難性證明,并為特定類型的數據集開發了高效的多項式時間近似算法。即使在缺乏顯式正則化的情況下,梯度流的隱式正則化也會驅動收斂到非凸最大間隔問題的全局最優解。我們通過利用隨機幾何代數進行大型語言模型(LLMs)的微調,展示了凸優化的實際應用。我們進一步通過凸幾何和對偶性視角分析了用于訓練兩層ReLU網絡的非凸次梯度流,表明其隱式偏差與凸正則化一致,并在對偶變量的某些條件下證明了其收斂到全局最優解。最后,我們提出了一種半定規劃(SDP)松弛,以近似具有平方ReLU激活的兩層網絡中的Wasserstein梯度,確保在特定條件下的緊密松弛,并展示了其在貝葉斯推斷和COVID-19參數估計中的有效性。這些發現彌合了關鍵的理論空白,并引入了具有深遠意義的創新方法,推動了我們對神經網絡訓練過程的理解。

付費5元查看完整內容

本論文研究了多模態基礎模型在開發和訓練中的關鍵挑戰,重點關注當前監督微調(SFT)方法的局限性,并探索強化學習(RL)在實現魯棒泛化方面的潛力。研究工作分為兩個主要部分:第一部分:理解監督微調下多模態基礎模型的局限性盡管多模態大語言模型(MLLMs)在基準任務上表現出色,但在需要更深層次理解或適應新情境的看似簡單任務中,它們常常表現出令人驚訝的弱點。本論文首先研究了 MLLMs 中的災難性遺忘現象,即在新任務上進行微調可能導致模型在先前學習任務上的性能顯著下降。我們引入了多模態評估框架(EMT),這是一種新穎的評估方法,旨在系統性地評估這種遺忘現象。研究結果表明,即使是利用強大預訓練視覺編碼器的 MLLMs,在經過 SFT 后,在基本圖像分類任務上的性能也會顯著下降。此外,我們深入探討了 MLLMs 在視覺方面的具體缺陷。我們提出了多模態視覺模式基準(MMVP),這是一組精心設計的視覺問答任務,旨在探測這些模型的視覺基礎能力。結果顯示,當前最先進的 MLLMs 存在系統性缺陷,突顯了底層視覺編碼器(如 CLIP)的弱點與整體模型性能之間的強相關性。這些發現表明,當前的 SFT 方法雖然在任務特定適應方面有效,但可能不足以賦予 MLLMs 強大的視覺理解能力和保留先前習得知識的能力。第二部分:利用強化學習實現魯棒泛化認識到 SFT 的局限性后,本論文進一步探索了強化學習(RL)在實現更魯棒和可泛化的多模態智能方面的潛力。我們提出了一種新穎的框架,用于通過 RL 微調大型視覺-語言模型(VLMs),使其能夠在需要視覺理解和語言推理的任務上進行端到端訓練。該框架的一個關鍵組成部分是引入了思維鏈(CoT)提示,利用 VLMs 固有的推理能力來促進更高效的探索和學習。我們對 RL 和 SFT 進行了對比分析,重點關注對未見規則變化和新視覺情境的泛化能力。結果表明,與 SFT 相比,RL 微調始終能帶來更優越的泛化性能。通過 RL 訓練的模型在規則修改的任務上表現更好,能夠更有效地適應視覺輸入的變化,甚至展現出增強的底層視覺識別能力。此外,我們研究了推理時計算的作用,證明在 RL 訓練期間增加驗證迭代次數可以進一步提高泛化能力。這突顯了 SFT 雖然為指令遵循提供了必要的基礎,但 RL 對于在復雜、動態環境中實現魯棒、適應性強的性能至關重要。總結本論文提供了有力的證據,表明當前基于 SFT 的多模態基礎模型訓練存在局限性,并展示了 RL 在克服這些局限性方面的巨大潛力,為開發更具泛化能力和智能的 AI 系統鋪平了道路。

付費5元查看完整內容

本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:

SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。

本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。

付費5元查看完整內容

隨著人工智能在醫學實踐中的逐步融合,對數據高效模型的需求變得尤為重要,特別是在醫學領域獲取大量標注數據集的高成本和復雜性背景下。本論文圍繞三個核心主題展開:

  1. 利用主動學習解決標簽稀缺問題:主動學習被用來戰略性地選擇最具信息量的數據點進行標注,從而最大化有限標注資源的效用。該研究提出了一種新穎的對抗表示主動學習框架,有效結合了對抗學習和主動學習,提升了在有限標注數據場景下模型的性能。此外,通過一個集中于醫學癥狀識別的應用案例,該研究展示了如何通過主動學習應對遠程醫療環境中長尾、多標簽分布的挑戰。
  2. 利用半監督學習和領域適應最大化未標注數據的利用:本論文通過開發方法,推動了半監督學習領域的前沿研究,充分利用醫學環境中大量未標注數據的優勢。所提出的AdaEmbed半監督領域適應模型解決了領域偏移問題,使得在某一臨床環境中訓練的AI模型能夠有效適應新的未標注領域。通過在不同手術室之間遷移手術活動識別模型,本主題進一步探討了領域適應在實現可泛化AI解決方案中的重要性。
  3. 通過預訓練基礎模型提升模型的魯棒性和效率:為了克服數據有限的問題并增強模型的魯棒性,本論文探討了在醫療應用中使用預訓練模型和基礎模型。通過開發一種基于視頻的AI系統評估面部癱瘓,展示了如何利用預訓練組件提供準確且標準化的評估。此外,通過對創傷護理文檔的結構化分析,使用大規模語言模型展示了AI如何將非結構化的臨床筆記轉化為有組織、可操作的見解,從而提高創傷護理的效率和效果。

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容
北京阿比特科技有限公司