亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(Large Language Models, LLMs)已深刻改變了代碼相關任務的實現方式。然而,大多數代碼 LLM 忽視了編程語言中的結構性模式。本文圍繞具備代碼結構感知能力的 LLM展開研究,提出了多種新穎的方法、基準測試和預訓練策略,表明顯式的結構建模能顯著提升 LLM 的編程能力。 首先,我們提出 ADELT,一種可將代碼結構轉換與 API 關鍵字翻譯解耦的轉譯器(transpiler)。ADELT 在無需平行語料的條件下實現了最先進的跨語言代碼轉譯效果,展示了結構感知的重要性。 為了嚴格評估模型的結構理解能力,我們構建了 SAFIM,一個面向語法感知填充(Syntax-Aware Fill-in-the-Middle, FIM)任務的基準數據集。我們對15個主流 LLM 進行了評測,挑戰了“大模型 = 高性能”的觀點,強調預訓練策略與數據質量的重要性。SAFIM 有望成為該領域未來研究的基礎工具。 隨后,我們提出了兩種結構感知的預訓練范式。AST-T5 將抽象語法樹(AST)集成進 T5 風格的編碼器-解碼器模型,在代碼修復和轉譯任務中表現優于現有基線方法。而針對僅解碼架構,我們提出 AST-FIM,通過 AST 引導的掩碼機制更好地平衡了填充任務(FIM)與從左至右(Left-to-Right, L2R)生成之間的權衡,在保持 L2R 能力的同時,在代碼補全任務上顯著優于傳統方法。 綜上所述,我們證明了代碼結構感知能夠增強 LLM 在代碼生成、理解與轉換方面的能力。本文的貢獻涵蓋轉譯框架、評測基準與預訓練技術,構建了一條將代碼結構整合進 LLM 的研究路徑圖。

付費5元查看完整內容

相關內容

機器學習(ML)系統正日益部署在高風險領域中,在這些場景下,可靠性至關重要。隨著這些系統從研究原型走向真實世界的決策角色,它們識別并響應不確定性的能力變得尤為關鍵。本論文探討了不確定性估計如何提升機器學習的安全性與可信度,重點關注選擇性預測這一范式——在模型置信度較低時主動放棄預測。

我們首先展示,模型的訓練軌跡中蘊含著可用于不確定性估計的豐富信號,而無需修改模型架構或損失函數。通過集成訓練過程中的中間檢查點預測結果,我們提出了一種輕量級、事后(post-hoc)棄答機制,能夠識別不可靠預測。該方法可適用于分類、回歸和時間序列任務,可直接疊加在已有模型之上,避免了深度集成(deep ensembles)帶來的高額訓練成本,同時保留了其大部分效果。在多個選擇性預測基準任務上,該方法達到了當前最優性能,為那些重新訓練成本高昂或受限的場景提供了實用方案。 這種被動、事后的方法還天然滿足數據隱私這一可信 AI 的關鍵要求。由于僅需觀察訓練軌跡,我們的方法可與差分隱私(DP)等形式化隱私保障完全兼容。這一獨特優勢使我們能夠研究一個重要的權衡問題:隱私約束會如何影響模型估計自身不確定性的能力?我們發現,許多常規方法在 DP 噪聲下性能退化,產生不可靠的置信度評分;相比之下,我們基于軌跡的方法保持穩健。為公平評估這一權衡,我們提出了一個新框架,可隔離隱私對不確定性質量的影響,從而更有意義地比較隱私敏感場景下的選擇性預測方法。 這些結果引出了對選擇性預測性能理論極限的探討。我們提出了有限樣本下的選擇性分類差距分解(selective classification gap decomposition)——即模型精度–覆蓋率曲線偏離理想(oracle)曲線的分解,并識別出五類關鍵誤差來源:貝葉斯噪聲、近似誤差、排序誤差、統計波動和殘差項。該分解揭示了可以縮小差距的杠桿(如校準、模型容量、額外監督),并解釋了為什么單純的事后校準無法消除排序缺陷,從而激發了基于更可靠不確定性信號的預測重排序方法。

這一分析為診斷并修復模型的良性誤差來源提供了藍圖。然而,它假設模型的不確定性信號雖有缺陷,但仍然真實反映了其內部狀態。這促使我們進一步研究當不確定性信號被惡意篡改以誤導下游決策時會發生什么。我們展示了,排序和校準機制本身可能被對手操控,在特定區域或特定用戶群體中人為增加不確定性,從而在保持高預測性能的同時實現隱蔽的拒絕服務。這類攻擊直接利用了我們識別的誤差來源,且難以通過標準評估檢測。為此,我們提出防御方案,將校準審計與可驗證推理相結合,以驗證棄答是否源于真實的不確定性,從而保障其完整性。這一發現突顯了一個更廣泛的觀點:可信 ML 不僅依賴于高質量的不確定性估計,還必須防范其被操縱。 綜上所述,本論文系統研究了不確定性的估計、評估與防護路徑,推動構建更可靠的機器學習系統。最終,所得到的系統不僅能做出準確預測,還能在必要時果斷地說:“我不知道”。

付費5元查看完整內容

包括大型語言模型(LLMs)和擴散模型在內的大規模模型的快速發展,正在改變人工智能的格局,但其廣泛部署仍受計算效率、內存帶寬和資源利用等關鍵瓶頸的制約。本文系統性地研究了這些挑戰,并提出了多種新方法,在不同的大模型推理任務中優化推理性能,在速度、內存和計算需求之間實現平衡,同時不犧牲輸出質量。 對于 LLMs,一個核心瓶頸是自回歸解碼過程中的內存帶寬限制:順序生成 token 會因模型參數的重復傳輸而帶來大量開銷。為此,我們提出 Medusa 框架,通過增加并行解碼頭并采用基于樹的注意力機制,實現同時預測多個 token,從而減少 2.3–2.8× 的解碼步驟,在保持輸出質量的前提下顯著加速推理。 此外,我們還針對高效部署多個微調模型的問題,提出 BitDelta 方法,將微調模型的權重差(delta)壓縮為 1 位(single bit),在不降低性能的前提下將 GPU 內存占用減少超過 10×,從而支持高效的多租戶部署,實現定制化模型的更快、更經濟的服務。 除了面向硬件的優化,我們還探索了系統級的協同優化,以提升大模型推理的整體效率。ToolMaker 提出了一個閉環框架,由一個強大的 LLM 生成可復用的工具(如 Python 函數),再由更輕量的模型調用這些工具進行問題求解。這種在資源密集的工具創建與成本更低的工具使用之間的分工,有助于降低推理成本并提升模型的可擴展性。 在擴散模型領域,由于分辨率提升會顯著增加計算成本,我們提出 Distrifusion 分布式推理框架,利用擴散步驟間的時間一致性(temporal coherence),復用預計算的特征圖,并通過流水線機制減少通信開銷,從而在多 GPU 環境下實現最高 6.1× 的加速。進一步地,SVDQuant 提出針對擴散模型的 4 比特量化方法,能夠利用現代張量核心(tensor cores)顯著提升計算吞吐量,同時不降低圖像質量。 總體而言,這些工作針對不同模型架構與部署場景的關鍵瓶頸提出了系統性的解決方案,并已在工業界得到廣泛應用。

付費5元查看完整內容

數學優化是一種廣泛應用于各領域的強大決策工具,其中混合整數優化(Mixed-Integer Optimization, MIO)在求解大規模問題中發揮著關鍵作用。然而,當約束條件或目標函數難以明確表達或設計時,優化模型常常面臨顯著挑戰。本文提出了一種結合約束學習的優化(Optimization with Constraint Learning, OCL)框架,融合機器學習(ML)技術以推斷并嵌入未知的約束與目標函數到MIO模型中。 本論文將OCL方法應用于人道主義援助的供應鏈優化,展示了如何將“食品可接受性”這一學習得到的約束條件融入模型,以確保受援者不僅喜歡食物,還能夠正確準備這些食品。此外,論文還通過兩個具有代表性的案例進一步證明了OCL框架的通用性:放射治療優化可解釋人工智能(XAI)。在放射治療場景中,OCL通過集成對輻射毒性風險的預測模型,實現了癌癥治療方案的個性化設計,在優化治療效果的同時最大程度降低患者風險。在XAI應用中,針對已擬合的機器學習模型,OCL框架可用于生成可操作的反事實解釋,滿足諸如接近性、多樣性與對環境不確定性的魯棒性等質量標準。 所提出的OCL框架在確保計算效率與全局最優性的同時,具有良好的可擴展性,為實踐者與研究人員提供了易于應用的工具。通過優化與機器學習的深度融合,本研究推動了數據驅動決策方法的發展,并為未來基于數據的優化研究奠定了理論與實踐基礎。

付費5元查看完整內容

本論文研究了多模態基礎模型在開發和訓練中的關鍵挑戰,重點關注當前監督微調(SFT)方法的局限性,并探索強化學習(RL)在實現魯棒泛化方面的潛力。研究工作分為兩個主要部分:第一部分:理解監督微調下多模態基礎模型的局限性盡管多模態大語言模型(MLLMs)在基準任務上表現出色,但在需要更深層次理解或適應新情境的看似簡單任務中,它們常常表現出令人驚訝的弱點。本論文首先研究了 MLLMs 中的災難性遺忘現象,即在新任務上進行微調可能導致模型在先前學習任務上的性能顯著下降。我們引入了多模態評估框架(EMT),這是一種新穎的評估方法,旨在系統性地評估這種遺忘現象。研究結果表明,即使是利用強大預訓練視覺編碼器的 MLLMs,在經過 SFT 后,在基本圖像分類任務上的性能也會顯著下降。此外,我們深入探討了 MLLMs 在視覺方面的具體缺陷。我們提出了多模態視覺模式基準(MMVP),這是一組精心設計的視覺問答任務,旨在探測這些模型的視覺基礎能力。結果顯示,當前最先進的 MLLMs 存在系統性缺陷,突顯了底層視覺編碼器(如 CLIP)的弱點與整體模型性能之間的強相關性。這些發現表明,當前的 SFT 方法雖然在任務特定適應方面有效,但可能不足以賦予 MLLMs 強大的視覺理解能力和保留先前習得知識的能力。第二部分:利用強化學習實現魯棒泛化認識到 SFT 的局限性后,本論文進一步探索了強化學習(RL)在實現更魯棒和可泛化的多模態智能方面的潛力。我們提出了一種新穎的框架,用于通過 RL 微調大型視覺-語言模型(VLMs),使其能夠在需要視覺理解和語言推理的任務上進行端到端訓練。該框架的一個關鍵組成部分是引入了思維鏈(CoT)提示,利用 VLMs 固有的推理能力來促進更高效的探索和學習。我們對 RL 和 SFT 進行了對比分析,重點關注對未見規則變化和新視覺情境的泛化能力。結果表明,與 SFT 相比,RL 微調始終能帶來更優越的泛化性能。通過 RL 訓練的模型在規則修改的任務上表現更好,能夠更有效地適應視覺輸入的變化,甚至展現出增強的底層視覺識別能力。此外,我們研究了推理時計算的作用,證明在 RL 訓練期間增加驗證迭代次數可以進一步提高泛化能力。這突顯了 SFT 雖然為指令遵循提供了必要的基礎,但 RL 對于在復雜、動態環境中實現魯棒、適應性強的性能至關重要。總結本論文提供了有力的證據,表明當前基于 SFT 的多模態基礎模型訓練存在局限性,并展示了 RL 在克服這些局限性方面的巨大潛力,為開發更具泛化能力和智能的 AI 系統鋪平了道路。

付費5元查看完整內容

本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:

SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。

本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。

付費5元查看完整內容

對比學習最近已成為一種強大的無監督表示學習方法,在多個領域取得了令人印象深刻的實證成功。盡管這些方法在實踐中表現有效,但要全面理解它們的理論基礎仍然是一個重大挑戰。本論文旨在通過提供一個基于接近現實場景假設的原則性調查,彌合對比學習的實證成功與理論理解之間的鴻溝。我們引入了一個受譜圖理論啟發的新分析框架,證明了對比學習在隱式地對由數據分布定義的概念圖上執行譜聚類。我們表明,對比學習所學習的表示與圖的鄰接矩陣的特征函數一致,從而為下游線性分類任務的性能提供了可證明的保證。我們擴展了這一框架,正式刻畫了一個現象,即在對比學習表示上訓練的線性分類器可以成功地跨領域遷移。此外,我們還正式刻畫了模型架構的歸納偏置如何導致表示在不同下游任務中的性能差異。

高質量的數據表示可以作為各種實際機器學習應用的基礎,涵蓋從搜索到面向新任務和新領域的數據高效適應等多個方面。許多成功的表示學習算法在很大程度上依賴于監督學習,而監督學習需要對數據進行昂貴且耗時的標注 [Salakhutdinov 和 Hinton,2007]。

與昂貴且有限的標注數據相比,互聯網上存在大量豐富且廉價的未標注數據。無監督表示學習旨在從沒有預先存在標簽的數據中發現模式,并生成能夠捕捉原始數據本質特征的表示。這種方法為訓練可遷移的數據表示提供了有希望的路徑,這些表示可以有效地適應各種下游任務。

特別是,對比學習最近作為一種強大的從未標注數據中學習表示的方法出現。對比學習的核心思想是“正對”(positive pairs)的概念,即語義上相近的成對數據點,可以直接從未標注數據中構造,而無需人工標注。相應地,還有“負對”(negative pairs)的概念,即通常語義上無關的成對數據點。在計算機視覺領域,正對通常由兩個通過數據增強從同一原始圖像生成的圖像組成,而負對則由兩個獨立隨機采樣的圖像組成。給定正對和負對,對比學習通過鼓勵正對的表示更加接近,同時使負對的表示遠離來學習數據點的表示。 許多對比學習方法使用孿生網絡(Siamese Networks)[Bromley 等,1993] 來學習特征,其中兩個具有共享權重的神經網絡應用于正對中的兩個數據點,表示是神經網絡對原始輸入的輸出。SimCLR 的開創性工作 [Chen 等,2020b] 表明,利用孿生網絡結構的對比學習表示可以在下游分類任務中取得與監督學習競爭的線性探測準確率。一些后續工作 [Chen 和 He,2020,Grill 等,2020,Bardes 等,2021] 探索了不同的損失目標和正則化技術,旨在減少算法中一些看似隨意且不自然的方面,例如停止梯度操作(即在訓練過程中通過孿生網絡的一條分支停止梯度反向傳播)或大批量大小的必要性。然而,它們大多仍圍繞孿生網絡結構這一核心思想展開。

這些方法取得了令人印象深刻的實證成功,通常超過了完全監督模型的性能,而無需標注數據。此外,學習到的表示通常具有良好的結構,例如線性可分性,在這些表示上訓練的線性分類器能夠在下游分類問題上表現良好。這些方法的驚人簡單性和對比學習表示中編碼的結構似乎表明該方法利用了數據分布通過正對構造定義的一些內在屬性。然而,開發對這些自監督表示為何如此有效的全面理論理解仍然是一個重大挑戰。需要超越經典統計學習理論的新數學框架來全面解釋它們的表現,而對比學習中廣泛使用的深度神經網絡進一步增加了分析的復雜性。

先前的工作嘗試通過信息理論的視角解釋對比學習的成功 [Tsai 等,2020,Tosh 等,2021]。這一理論框架關注于通過學習的表示捕獲的信息。從直觀上講,在初始化時,神經網絡的輸出捕獲了數據點的隨機子集信息。在訓練過程中,表示將捕獲正對之間更多共享的信息,并丟棄那些特定于正對中某一數據點的信息。如果共享信息包含了大部分與下游任務相關的信息,那么最終學習到的表示也將捕獲這些信息,從而具備解決下游任務所需的足夠信息。然而,由于多個表示可以包含相同的信息,但具有非常不同的幾何結構,因此該框架缺乏保證,無法確保使用簡單(例如線性)模型高效地解決下游任務。

如果對數據做出更多假設,便能解決這一限制。一個相對較強的假設是條件獨立性設置,其中給定類別標簽,正對是條件獨立的。例如,Arora 等 [2019] 表明,在給定類別標簽的條件獨立性下,對比學習算法可以在下游線性分類任務中實現較小的誤差。一些后續工作(例如,Lee 等 [2020])將這一思想擴展到正對在某些潛在變量上條件獨立的設置,這些潛在變量可能具有比類別標簽更細粒度的含義。然而,在計算機視覺應用中的實際算法中,正對通常由同一圖像的兩個增強組成,因此它們是高度相關的。它們可能只有在條件化于非常復雜的隱藏變量(如原始自然圖像)時才獨立,這可能使得之前的結果無法有意義地應用。

本論文旨在在反映現實世界的較少限制假設下,對對比學習進行原則性的理論研究。本論文的一個關鍵貢獻是提出了一種新的對比損失——我們稱之為譜對比損失——它作為更廣泛使用的 InfoNCE 損失的代理,后者在理論上較難分析。我們的實驗證明,譜對比損失捕獲了標準對比損失的大部分性能,同時使我們能夠建立一個受譜圖理論啟發的分析框架。 第三章介紹了我們基于譜圖理論理解對比學習成功的一般理論框架。為了建立我們的理論框架,我們引入了一個群體層級的“正對圖”,該圖捕捉了對比學習管道中的正對結構。在這個圖中,節點對應于所有出現在正對中的數據點,邊表示哪些節點對實際上形成正對。通過將數據置于這個圖的上下文中,我們能夠利用一些圖論(特別是譜圖理論)中的思想和工具來分析對比學習。 我們的關鍵洞察是,認為對比學習可以被視為隱式地在正對圖上執行譜聚類。譜聚類 [Ng 等,2001] 是一種流行的聚類算法,具有悠久的歷史。其核心思想是,給定任何圖,可以對圖的拉普拉斯矩陣進行譜分解,并使用特征向量在圖中找到近似最優的聚類。運行譜聚類需要對整個拉普拉斯矩陣進行操作,當圖非常大時,這可能計算上非常昂貴。 在正對圖的背景下,圖中的節點數基本上是數據分布中所有數據點的數量,因此可能非常龐大。然而,幸運的是,我們的結果表明,存在一個損失函數,使得最小化該損失函數等同于隱式執行圖拉普拉斯矩陣的譜分解。這個損失函數在精神上與許多對比損失相似,并且可以通過正對和負對進行有效采樣,因此我們稱其為譜對比損失。 我們證明,通過最小化譜對比損失學習到的表示與圖的鄰接矩陣的特征向量對齊,從而繼承其聚類結構。在對正對圖中的聚類與下游任務類別對齊的溫和假設下,來自不同下游類別的數據的對比表示將是線性可分的。值得注意的是,我們的框架不需要依賴先前對比學習理論工作中所依賴的嚴格條件獨立性假設 [Arora 等,2019,Tosh 等,2021]。 我們分析了使用譜對比損失學習到的表示進行線性分類的性能。在對正對圖進行溫和擴展假設的情況下,我們證明,當表示維度超過圖中聚類的數量時,在線性分類器上訓練的表示可以以高精度恢復真實標簽。我們進一步表明,譜對比損失可以通過經驗數據成功最小化,只需多項式數量的未標注樣本。我們的有限樣本分析利用標準泛化界限,證明所需的未標注樣本數量與所選函數類的 Rademacher 復雜度成比例。 第四章基于這一框架,研究了對比學習在分布變化下的表現。特別是,我們研究了對比學習如何幫助解決無監督領域自適應問題,在該問題中,給定有標簽的源領域和未標注的目標領域(具有相同類別標簽),我們希望在目標領域實現高分類準確率。我們正式分析了“線性遷移性”這一經驗現象,即在源領域對比表示上訓練的線性分類器在目標領域上表現良好,其中該表示通過在源領域和目標領域的聯合數據集上進行對比學習訓練。事實上,這種簡單的方法已經被證明能夠實現與多個最先進的領域自適應算法 [Shen 等,2022b] 競爭的性能。 我們證明,線性遷移性是在跨領域關系的弱假設下產生的:即,同類別的跨領域點之間比不同類別的跨領域點之間更相關。直觀地說,這意味著,盡管源領域和目標領域可能存在顯著的分布差異,但類別之間的相對相似性在跨領域中得到了保留。在這個假設下,我們證明了在源領域表示上學到的線性分類器(使用一種新的預處理平均方法)可以在目標領域的分類任務中成功地表現。

我們的結果表明,對比表示不僅捕捉了類內結構,還捕捉了不同類別之間的相對幾何結構。這與先前關于無監督領域自適應的理論工作有所不同,后者通常要求更強的假設,例如有界密度比或顯式的源目標重疊 [Sugiyama 等,2007,Ben-David 等,2010,Zhang 等,2019,Zhao 等,2019a]。

為了支持我們的理論發現,我們提出了一種改進的線性評估方法,用于無監督領域自適應與對比表示。我們的方法通過直接對類內表示進行平均并應用預處理矩陣來學習線性分類器。我們在多個標準領域自適應基準數據集上驗證了該方法的有效性,證明其優于先前的最先進方法。

第五章研究了神經網絡模型架構在對比學習中的作用。我們不再將神經網絡視為黑箱函數逼近器,而是明確描述了架構的歸納偏置如何塑造學習到的表示。

我們引入了“最小可實現聚類”的概念,以捕捉架構所施加的約束。盡管正對圖可能展示了大量的自然聚類,但架構可能只能實現其中的一部分聚類。我們證明,對比學習只恢復那些與架構兼容的聚類。因此,低維的對比表示即使在整個正對圖中的聚類數量很大時,仍然可以在下游任務中取得成功。 我們在多個合成數據分布上實例化了我們的理論,證明了架構的歸納偏置可以顯著減少所需的表示維度。例如,在具有少量不變特征和大量虛假特征的超立方體數據分布上,我們證明,當下游標簽依賴于單一的不變維度時,線性對比表示就足夠了,而 ReLU 網絡則能夠處理更復雜的標簽函數。我們為其他架構提供了更多示例,包括 Lipschitz 連續函數和卷積網絡。在每種情況下,我們展示了對比學習的樣本復雜度與可實現聚類的數量成比例,而不是與自然聚類的總數成比例。

為了支持我們的理論,我們提出了一種實證方法來估計可實現聚類的數量,并將其應用于具有 ResNet-18 架構的 CIFAR-10 數據集。我們的實驗驗證了架構施加的約束導致可實現聚類的數量相對較小,這與我們的理論預測一致。

本論文的其余部分組織如下:第三章展示了我們的對比學習譜框架,包括群體層級損失的分析、有限樣本泛化界限和實驗證明。第四章將該框架擴展到領域自適應設置,正式刻畫了對比表示的線性遷移性,引入了改進的線性評估方法,并展示了其實證有效性。第五章分析了歸納偏置在對比學習中的作用,引入了最小可實現聚類的概念,并在合成數據分布上實例化了理論,為架構約束提供了實證支持。最后,第六章總結了論文內容并討論了未來的研究方向。

付費5元查看完整內容

通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。

此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。

付費5元查看完整內容

因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容
北京阿比特科技有限公司