亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

端到端自動語音識別(E2E ASR)在過去十年中取得了顯著進展。然而,在將這些語音識別系統應用于真實世界場景時,仍然面臨諸多實際挑戰。本文探討了與語音識別系統效率和可靠性相關的四個關鍵問題:(1)多語種語音識別中的數據稀缺問題;(2)代表性不足的語音樣本;(3)資源受限環境下的部署難題;(4)識別結果的不可靠性。

開發多語種語音識別(MASR)模型為提升低資源語言的識別性能提供了一個有前景的方向。為緩解語言干擾問題,我們引入了一個包含多種監督與自監督訓練目標的單階段訓練過程,結合層級信息路徑。同時,我們認為持續的語言學習對于提升MASR的訓練效率至關重要。我們構建了一個參數高效的語言擴展框架,使現有MASR模型能夠拓展支持新語言。

對于代表性不足的語音樣本,即使是大型語音識別模型也需要進行適應。為提高適應效率,我們提出了一種稀疏共享的低秩適應(LoRA)方法,特別適用于使用少量目標領域數據對大型模型進行高效適應。 此外,在資源受限的設備上部署大型模型具有挑戰性。我們設計了一種基于相關性度量的快速層剪枝算法,用以剔除語音識別聲學模型中的冗余層,從而提升推理效率。

另一方面,我們也認識到在具有挑戰性的場景中識別錯誤是難以完全避免的。為此,我們研究了神經網絡置信度度量方法,為語音識別輸出提供可靠性指標。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。

付費5元查看完整內容

機器學習算法及其他統計技術被廣泛應用于利用個人信息進行推斷,但為此目的構建的系統可能對隱私和社會公平造成不利影響。近期研究提出了旨在在保護個人隱私的同時完成這些推斷的技術。本文綜述旨在:1)開發評估機器學習系統及“隱私保護”分析方法社會影響的途徑;2)理論化這些評估在追究機器學習系統設計者和運營者責任中的作用。 第一部分聚焦于旨在保護隱私的機器學習及其他分析系統技術的影響。第一章評估了差分隱私公共人口普查統計數據對基于證據的政策的影響,發現盡管統計不確定性導致教育資金分配上的不平等,但為保護隱私而注入的噪聲可能遠小于現有數據誤差的影響(Steed, Liu 等,2022)。第二章量化了噪聲對大量社會科學研究關鍵發現的影響。第三章基于定性訪談,構建了隱私保護分析方法采納的扎根理論,揭示了采納組織如何可能將對隱私的認知與其具體實施細節相分離的過程(Steed & Acquisti,2025)。 第二部分探討了評估機器學習系統社會公平性的途徑,以及將評估作為問責機制的應用。第四章提出了一種量化圖像嵌入中刻板印象關聯的方法,并展示了無監督圖像生成模型自動學習到種族、性別及交叉偏見(Steed & Caliskan,2021)。第五章對人工智能(AI)審計工具的數據集進行了分類,并訪談了35位審計從業者,發現從業者在AI問責所需工具——包括危害發現與倡導工具——方面資源較為匱乏(Ojewale 等,2025)。 算法系統,尤其是機器學習(ML)系統,在隱私和社會公平方面引發了嚴重的社會關注。這些系統被用于金融、刑事司法、醫療保健以及內容審核等重要決策領域;但往往,這些系統無法正常運行(Raji, Kumar 等,2022)。它們基于通過大規模社會經濟監控機制收集的海量個人數據,對個體進行統計推斷(Zuboff,2019;Cohen,2019;FTC工作人員,2024);這一安排持續加劇了歧視、不平等及其他社會危害(Benjamin,2020;Skinner-Thompson,2020)。面對隱私問題,組織紛紛采用更多算法技術以在執行統計分析的同時保護個人隱私;雖然理論上具有前景,但這些“隱私保護”技術的實際影響尚不確定。 防止和糾正算法系統的不利影響部分依賴于持續且有影響力的實證評估。本文綜述旨在:1)開發評估機器學習系統及“隱私保護”分析方法社會影響的途徑;2)理論化這些評估在追究機器學習系統設計者和運營者責任中的作用。 本文的研究成果融合了當代技術政策中的兩個關鍵領域:數據隱私和“人工智能”(AI)問責。成熟的信息隱私和數據保護機制——尤其是在歐盟——側重于通過限制組織處理個人數據的方式來維護個人隱私權。各行各業及政府部門正率先部署差分隱私、聯邦學習等方法,以協調依賴統計推斷的商業模式與現代隱私法規及消費者對隱私的訴求。但這些技術在理論和實施上均較為復雜,其在隱私和數據保護政策中的角色仍未明朗。第一部分探討了這些“隱私保護”系統的采用及其影響。 相比之下,專門針對AI系統社會影響的監管尚不成熟。但政策關注度顯著提升,尤其是在應對使用機器學習技術生成文本和圖像的產品熱度時。美國和歐洲最近的政策提案及已實施的立法,特別強調將獨立評估算法系統作為問責機制:即根據社會期望對算法系統性能作出重要判斷的能力(Birhane 等,2024)。第二部分聚焦于AI審計的實踐。

付費5元查看完整內容

本論文旨在研究構建更高效且更強大模型的方法,重點聚焦于兩個方面:架構改進與優化方法。我們探討了一系列具有理論依據的架構修改,這些修改要么降低了計算成本,要么引入了有助于更高效模型利用的新特性。此外,我們還研究了現有的優化方法,以加深我們對神經網絡優化的理論理解,并使其更貼近實際應用,從而為未來構建更優的優化器提供更有依據的決策基礎。

在論文的第一部分,我們提出了三種對Transformer模型的增強,以應對處理長序列、提升數據效率和優化推理成本等關鍵挑戰。首先,我們提出了Landmark Attention機制,以提升處理長序列的效率,在我們的實驗中,該方法將推理成本顯著降低了一個大常數因子(達50倍)。通過在注意力機制中引入層級結構,Landmark Attention 能夠在推理階段處理任意長度的輸入,而不受訓練時序列長度的限制。接著,我們提出了DenseFormer架構,它允許后續層訪問前面所有層的輸出。得益于增強的信息流,DenseFormer 在保持與更深Transformer模型相同困惑度(perplexity)的同時,在內存效率和推理速度方面均優于基線模型。我們的實驗還揭示了信息流中意料之外的連貫模式,顯示出遠層激活被結構化重用的現象。最后,我們提出了CoTFormer以提升推理效率,其靈感來自大型語言模型中逐步推理的涌現能力。CoTFormer 通過對一個淺層模型的重復應用,實現了與更深模型相當的準確率。該方法雖然引入了額外計算開銷,但支持按token粒度靈活調整推理成本。我們的結果表明,在訓練自適應CoTFormer時,能在不損失精度的前提下,顯著減少計算成本,因其能自動將計算資源分配給最需要的token。

在論文的第二部分,我們聚焦于提升對神經網絡優化的理解,動因之一即源于在設計自適應CoTFormer優化方法時遇到的挑戰。我們構建了一個理論框架,用于研究參數擾動(parameter perturbation)以及屏蔽參數更新(masking parameter updates)對收斂性的影響。此外,我們通過理論分析與實證實驗,加深了對“大步長對于獲得更優模型至關重要”這一現象的理解。特別是,我們構造了一個受控實驗環境,使得小步長與大步長之間的差異可以被嚴格地觀測和驗證。

關鍵詞:語言模型、效率、優化、神經網絡、Transformers

付費5元查看完整內容

如何構建通用機器人系統? 觀察視覺和語言等領域,其共同主題是通過大規模、精心策劃的數據集進行端到端學習。然而,在機器人技術中,僅靠規模可能不足以應對機器人任務的多模態性、缺乏易于獲取的數據以及在物理硬件上部署的安全性和可靠性挑戰。與此同時,當今一些最成功的機器人系統本質上是模塊化的,能夠利用每個模塊的獨立泛化能力來表現優異。受這些特性的啟發,本論文旨在通過將這些組件整合為一個整體來解決構建通用機器人代理的任務:將模塊化與大規模學習相結合,以實現通用機器人控制。我們首先獨立探討這兩個方面。第一個問題是:如何在學習系統中構建模塊化和層次結構? 我們的關鍵見解是,與其讓代理端到端地學習層次結構和低級控制,不如通過規劃顯式地強制模塊化,從而實現更高效、能力更強的機器人學習。接下來,我們探討規模在構建通用機器人系統中的作用。為了有效擴展,神經網絡需要大量多樣化數據、適應數據的表達性架構以及生成數據的監督來源。為此,我們利用一種強大的監督來源:經典規劃算法,這些算法可以廣泛泛化,但運行成本高,并且需要訪問完美的特權信息才能在實踐中表現良好。我們使用這些規劃算法在模擬中監督大規模策略學習,以生成通用代理。最后,我們考慮如何將模塊化與大規模策略學習統一起來,以構建能夠執行零樣本長期操作的自主現實世界機器人系統。我們提出通過緊密集成模塊化高層和中層規劃、學習的局部控制、程序化場景生成以及用于模擬到現實遷移的大規模策略學習的關鍵要素來實現這一目標。我們證明,這種方法可以產生強大的結果:一個單一的通用代理可以僅通過文本指令解決現實世界中具有挑戰性的長期操作任務。//arxiv.org/abs/2503.06814

付費5元查看完整內容

真實世界中的時間序列數據通常復雜且難以通過傳統分析方法處理。深度學習在應對這種復雜性方面展現了很大的潛力,但針對時間序列數據的有效方法仍在不斷開發之中。特別是,常用的序列到序列框架未能充分利用時間層次結構,在長序列解碼方面表現不佳。本文通過結合時間層次結構,探索了先進的深度學習技術,以實現更有效的時間序列分析。首先,我們提出了一種具有多分辨率集成解碼的遞歸自編碼器。該方法使用粗到細的融合機制,進行多分辨率時間融合,結合多個解碼專家。另一方面,一類表示學習通過假設高維隱空間中的一個超球體,避免了序列解碼。我們通過引入具有多重時間尺度的時間層次一類表示,擴展了現有的一類方法。這種方法能夠在統一的一類學習框架中捕捉豐富的正常模式。此外,我們還探索了一種基于自適應多輪掩蔽對比學習框架,以提高一類表示學習的效果。時間層次結構還可以應用于時間序列擴散模型。我們首先開發了兩種條件生成機制,以增強這些擴散模型。然后,我們提出利用多分辨率分析,從時間序列中順序提取細到粗的趨勢用于前向擴散,同時去噪過程以一種從易到難的非自回歸方式進行。實驗結果表明,將時間層次信息集成到深度學習模型中,在各類時間序列任務中,包括正常性建模和生成預測,相比最先進的方法更為有效。

時間序列建模是許多現實世界應用中的核心問題,如銷售預測[16]、天氣預測[17]、醫療保健[18]、地震檢測[19]、交通管理[20]和天文學[21]。有效的人工智能方法用于時間序列建模,預計能夠應對以下挑戰:

  • 非線性動態: 時間序列數據通常表現出復雜的非線性時間依賴關系。建模這些非線性動態對于理解潛在的時間模式和做出準確預測至關重要。
  • 噪聲觀測: 真實世界中的時間序列數據容易受到噪聲、異常值和測量誤差的影響。這些因素可能會顯著影響建模過程,掩蓋真實信號,從而導致不準確的預測。
  • 非平穩性: 時間序列表現出非平穩性,即數據的統計特性隨著時間發生變化。這是一個挑戰,因為傳統的建模技術通常假設數據是平穩的,可能無法捕捉到不斷變化的動態。
  • 多分辨率結構: 時間序列數據通常具有多分辨率結構,模式和依賴關系在不同的尺度或頻率下發生。有效捕捉這些多分辨率結構對于理解數據的復雜動態至關重要。

機器學習方法廣泛應用于人工智能領域,通常分為判別模型和生成模型。判別方法,包括監督學習、無監督學習和強化學習,在該領域發揮了重要作用。然而,傳統的機器學習方法在進行時間序列建模時,通常過于依賴數據表示或特征工程。這種對手動特征工程的依賴使得將機器學習技術應用于各種時間序列任務變得勞動密集且耗時。因此,對于能夠最小化大量特征工程需求的端到端深度學習算法的需求日益增長。此外,長時間序列數據中的復雜時間動態對深度生成模型的開發構成了重大挑戰。盡管該領域取得了一些進展,但為時間序列創建強大的生成模型仍然非常復雜。不同時間步之間復雜的交互和依賴關系使得準確捕捉潛在的生成過程變得具有挑戰性。開發能夠有效捕捉時間動態并生成逼真的時間序列樣本的深度生成模型仍是一個持續的研究領域。本文通過結合時間層次結構特征,探索了先進的深度學習技術,以實現更有效的時間序列分析。具體來說,我們為真實世界中的時間序列應用開發了新的表示學習方法和條件生成模型,包括異常檢測和長期預測。前者任務要求具有從給定數據建模正常性(normality)的強大能力,使模型能夠捕捉正常的時間序列表示,并在測試過程中識別未知或未見的異常。另一方面,后者任務旨在通過歷史觀測的引導,建模未來值的條件分布。與傳統的機器學習方法不同,深度學習方法本質上是數據驅動的。它們通過使機器或算法能夠直接從數據中自動學習相關特征,努力消除手動特征工程的需求。這一特性使得深度學習技術近年來越來越受到關注和重視。盡管深度學習在計算機視覺和自然語言處理等領域的應用已經得到了廣泛研究[22],但其在時間序列分析中的應用相對較少,研究也較為有限。如圖1.1(a)所示,通用的深度學習框架以端到端的方式從輸入X到輸出Y建立映射(記作F,參數為Θ),即: 在表示學習方法(b)中,其輸出通常是一個壓縮的固定長度表示向量Z。表示Z預計以監督或無監督的方式捕捉X的判別性模式。這個過程有助于在時間序列中發現有意義的特征。與表示學習方法相比,時間序列生成建模(c)直觀上旨在從先驗分布學習到一個映射,生成真實時間序列分布。通過利用給定條件(例如歷史觀測)的引導并捕捉時間序列中的統計特性,模型能夠生成具有與真實數據相似特征的未來時間序列樣本。通過將時間序列建模任務劃分為這兩個不同的類別——時間序列表示學習和生成建模——我們能夠系統全面地研究現有的基于深度學習的時間序列分析方法。

付費5元查看完整內容

通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。

此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。

然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。

本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。

付費5元查看完整內容

隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。

付費5元查看完整內容
北京阿比特科技有限公司