亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本論文聚焦于序貫決策與自適應實驗設計中的基本挑戰,提出了具有堅實理論基礎的算法,并在樣本復雜度與實際性能上均取得了顯著提升。我們的研究貢獻主要分為兩個方面:用于學習的新型采樣機制,以及面向因果推斷的自適應方法。 第一個方面關注于提升學習效率的采樣策略,適用于不同問題場景。我們提出了多臂老虎機中的遷移學習算法,該算法能夠基于源任務與目標任務之間的觀測相似度,自適應地調整知識遷移程度,并提供理論保證,使得算法能夠在“完美遷移”與“從零學習”之間平滑過渡。我們還將偏好學習中的主動探索形式化為一個上下文對決老虎機問題,并基于再生核希爾伯特空間(RKHS)方法設計了具有多項式遺憾界的算法,其應用包括基于人類反饋的強化學習與直接偏好優化。

第二個方面著重于高效因果推斷的自適應實驗設計方法。我們提出了 截斷二階矩跟蹤(Clipped Second Moment Tracking) 算法,該算法在有限樣本遺憾上實現了指數級改進,將依賴從 O(√T) 降低至 O(log T),同時保持對問題參數的多項式依賴。我們還提出了 樂觀策略跟蹤(Optimistic Policy Tracking) 方法,該方法通過原則化的樂觀設計有效利用漸近最優的 增廣逆概率加權(AIPW)估計器,展示了如何將多臂老虎機理論中的方法成功遷移到因果推斷領域。 在整個研究中,我們強調了漸近性能與有限樣本性能之間的差距,并提出了既能提供理論保證又能帶來實際改進的算法方法。本論文的貢獻推動了序貫決策領域的最新進展,通過彌合理論與實踐的鴻溝,在包括臨床試驗、在線實驗以及人機交互等多個重要應用領域取得了突破。

付費5元查看完整內容

相關內容

持續學習依然是機器學習領域的一項長期挑戰。成功實現持續學習需要不斷吸收新的知識,同時保留仍然有用的舊知識。在本論文中,我們提出了一種連貫的持續學習目標:在每個時間步受到計算資源限制的前提下,最大化無限時域平均回報。這一框架使我們能夠系統性地分析持續學習智能體的設計與評估,超越僅僅依賴準確率保持或可塑性等零散指標的方法。 論文的第一部分聚焦于基礎工具與理論視角的構建,包括:對智能體狀態的信息論建模、智能體容量的量化方法,以及持續學習中穩定性–可塑性權衡的形式化定義。第二部分則提出了多種新算法:一種用于緩解神經網絡可塑性退化的再生式正則化方法;Conformal Sympow——一種基于Transformer的模型,借助學習型門控與數據依賴旋轉機制,實現了高效的長上下文推理;以及一種以多樣性驅動的強化學習方法,使智能體具備對環境擾動的少樣本魯棒性。

綜上,這些工作有助于將持續學習確立為一個有原則、可操作的機器學習子領域,推動理論與實踐的融合。

付費5元查看完整內容

機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。

付費5元查看完整內容

隨著自動化系統的發展,機器學習正日益融入決策過程,并在諸如簡歷篩選、投資組合配置、貸款風險評估和保險審批等應用中為人類決策者提供支持。在本論文中,我探討了將機器學習與決策過程結合時所面臨的各類挑戰,重點關注數據偏差、魯棒性、公平性、異構數據源以及面向決策的建模等問題。在每一章中,我從不同角度研究這些問題,并提出相應的定制算法加以解決。 論文的第一部分聚焦于面向決策的訓練,即在預測模型訓練過程中將最終決策結果納入優化目標。研究表明,端到端學習問題的最優解對應于能引導至貝葉斯最優行為的預測結果。 第二部分則轉向處理預測系統輸出對人類生活產生實際影響的情形,特別是與公平性相關的問題。關于公平性的第一章研究了集中式環境下的群體公平(Group Fairness),并提出了一種包含無偏梯度估計的公平性正則項。這一方法簡化了收斂速率和泛化誤差界的構建,為在群體公平至關重要的現實應用中提供了一種可擴展的保障手段。 另一個與人類相關的數據問題是,出于隱私考慮,這些數據通常無法集中傳輸至服務器。第二章在此基礎上,將公平學習方法擴展至聯邦學習環境,其中不同客戶端持有數據集的不同部分。基于函數追蹤機制,該章節提出了一種適用于全局層面的群體公平性正則項,可與現有多數聯邦學習算法結合使用,且在計算與通信開銷方面要求較低。 論文的最后一部分再次回到決策問題,提出了一種方法,用于在目標領域中整合來自不同(可能存在偏差的)參考分布的信息以做出決策。該方法通過在各個參考分布周圍構造最優傳輸球(Optimal Transport Balls),并對其交集進行優化,從而使決策者能夠在所有參考分布一致的最壞情況分布下做出魯棒決策。 關鍵詞:機器學習、優化、面向決策的學習、公平學習、分布式魯棒優化

付費5元查看完整內容

將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。

首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。

接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。

最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。

付費5元查看完整內容

摘要

本論文關注于強化學習(RL),其中決策代理通過與環境的交互并接收獎勵反饋來學習理想的行為。從交互中學習決策與大多數機器學習范式不同,強化學習代理不僅需要學習如何收集數據以指導未來的決策,還需要學習最大化累積獎勵的期望行為。這些過程被稱為探索和利用。本文的重點是強化學習中的探索問題,并提出了引導代理高效收集數據、平衡探索與利用的創新解決方案。 論文的第一部分關注于在稀疏獎勵環境中單智能體強化學習的探索問題。在這種環境下,單個決策代理通過與環境的交互學習,并且很少(或幾乎不)從環境中獲得非零獎勵。在這種挑戰性環境中,一個常見的探索方法是引入內在獎勵,通過內在獎勵激勵代理進行探索。然而,通過引入這個第二優化目標,代理需要顯式并小心地平衡內在獎勵的探索目標與環境中外在獎勵的利用目標。為了解決這個問題,我們提出了分解強化學習(DeRL)。在DeRL中,代理為探索和利用學習獨立的策略,以適應這兩種策略的不同目標。探索策略通過內在獎勵進行訓練,用于收集有價值的數據以供利用策略使用,而利用策略則在收集的數據上進行訓練,以解決任務。我們展示了DeRL在樣本效率和對探索與利用之間權衡的超參數的魯棒性方面,優于現有的內在動機驅動的探索方法。 在論文的后續部分,我們將重點轉向多智能體強化學習(MARL)中的探索問題。在MARL中,多個決策代理通過與共享環境的交互共同學習。本文關注于需要代理合作的環境,即代理需要學習協調其行為以達成共同目標。與單智能體強化學習相比,這一額外的考慮使得學習過程和探索變得更加復雜,因為現在需要考慮代理之間的交互。本文對MARL的第一個貢獻是對十種算法在25個合作性共享獎勵環境中的綜合基準測試。作為這一研究的一部分,我們開源了EPyMARL,一個擴展了現有PyMARL代碼庫的MARL代碼庫,增加了更多的算法、支持更多環境,并增強了可配置性。在分析這一基準測試后,我們識別出MARL中存在的挑戰,尤其是在獎勵信息稀缺的環境中如何高效訓練代理進行合作。針對這一挑戰,我們提出了共享經驗的演員-評論員算法(SEAC)。SEAC利用許多多智能體環境中的對稱性,跨代理共享經驗,并通過演員-評論員算法從所有代理的集體經驗中進行學習。在實驗中,我們證明了經驗共享顯著提高了學習效率,并幫助代理同時學習多種技能。然而,對于基于價值的算法,經驗共享的效果不如預期,因為這些算法的代理不會顯式學習策略。 為了引導基于價值的MARL算法的探索,我們提出了多智能體探索的集成價值函數(EMAX)。EMAX為每個代理訓練一組價值函數,并引導代理的探索朝向可能需要多個代理協作的狀態和動作。通過這種方式,代理能夠更高效地協調其行為,我們證明了EMAX作為三種常見基于價值的MARL算法的擴展,可以顯著提高訓練的樣本效率和穩定性。 最后,本文展示了一個案例研究,討論了MARL在倉庫物流自動化中的應用。本章是與Dematic GmbH的行業合作成果,我們在其中形式化了倉庫物流問題,并提出了一個雙重解決方案來應對這一環境的可擴展性挑戰。我們的方法利用多智能體學習架構的層次化分解,并屏蔽掉被認為無效的動作。通過這些技術,簡化了個體代理的學習目標,使MARL代理能夠更高效地學習,并在更多代理和位置的較大倉庫實例中擴展,同時超越了行業標準啟發式算法和傳統MARL算法的性能。

付費5元查看完整內容

本論文研究了深度學習的顯著成功。它提出了一種觀點:與其開發黑箱式的泛化界限,更有成效的理解現代深度學習成功的方法,是通過神經網絡在特定領域中靈活性與結構之間的精巧互動。在這些領域中,我們可以通過以下兩個方面來理解現代深度學習: (1) 適應數據中的結構,(2) 利用其結構(如架構、預訓練初始化等)進行適應。我們通過理論和實證相結合的方式建立這一觀點。

我們首先審視傳統的學習理論工具:泛化界限。具體而言,我們研究了算法穩定性作為解釋梯度下降在過參數化神經網絡中表現的可能框架。我們提供了實證證據,表明均勻穩定性并未以足夠強度出現,因此無法解釋神經網絡的泛化表現。

接著,與其關注如何馴服深度學習的靈活性,我們將深度學習的靈活性重新定義為在結構足夠時能夠進行有效適應的強大能力。論文的剩余部分,我們仔細研究了三個關鍵場景——在圖像數據上的卷積神經網絡、在基本算法任務上的簡單 Transformer,以及在自然語言數據上的預訓練語言模型——這些場景展示了神經網絡在數據中適應結構和利用其結構快速靈活地進行適應的卓越能力。通過這三種場景,回溯了過去六年訓練方法和范式的演變。

與我們最初所討論的黑箱式泛化方法所呈現的悲觀圖景不同,我們通過這些場景提倡一種更加機械化且細致入微的理解方式,探討神經網絡在特定領域中靈活性與結構之間的互動關系。

付費5元查看完整內容

生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。

我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。

作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。

接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。

然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容
北京阿比特科技有限公司