亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。

本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。

本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。

所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。

付費5元查看完整內容

序貫決策制定是機器學習應用中的自然模型,學習者需實時進行在線決策,并通過序列數據學習以優化未來決策。經典研究聚焦于兩類問題變體:基于隨機或對抗性數據分布的場景,以及基于學習者可獲得的部分或完整反饋的設定。隨著大型在線市場的興起,序貫學習方法日益應用于復雜多智能體系統,其中智能體可能采取策略性行為以實現自身目標。這為序貫決策問題增添了新維度——學習者須考量戰略智能體的行為模式(這些智能體可能試圖引導其未來決策以符合自身利益)。本論文旨在從雙重視角設計有效的在線決策算法:一是面向需在戰略智能體與有限反饋環境中學習的系統設計者;二是尋求優化自身目標的戰略智能體。

第一部分聚焦重復拍賣場景,設計拍賣方能在戰略競拍者存在下有效學習的機制,并反向探討智能體如何在重復拍賣中競價或實施數據投毒攻擊以最大化自身收益。第二部分研究反饋獲取成本高昂的在線學習場景,提出受主動學習技術啟發的算法——通過將少量信息量更高的樣本提前處理,使學習者在僅對極少量數據點查詢反饋的情況下,達到與最優在線算法相當的決策性能。第三部分針對隨機多臂老虎機問題提出新學習目標,旨在促進個體與群體基于能力的公平機會分配。

付費5元查看完整內容

多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。

第一章
 本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。

第二章:基于圖神經網絡的多機器人覆蓋控制
 本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。

第三章:具備任務優先級關系的多機器人協調協作
 本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。

第四章:在線環境下的多機器人協調協作
 本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。

付費5元查看完整內容

本研究致力于提升人機協同導航能力,使機器人團隊與人類作為整體單元協同移動并完成任務。通常情況下,團隊協同導航受預定義標準操作程序(SOP)的強約束,該程序為成員行動路徑與任務執行提供高層級指導。本研究提出"受限集體運動(CCM)"概念,描述團隊成員如何在環境約束與應用約束平衡下,通過隊內與跨隊導航執行聯合任務。該研究推進機器人在城市搜救、火場人員搜索、軍事建筑物清剿等場景中與人類協同作業的能力。引入機器人可降低人員風險,同時提升團隊執行關鍵任務(如向受困者輸送救援裝備)的效能。現有研究多聚焦純模型驅動方法實現復雜協同導航,但需人工編碼規則,耗費大量領域知識且易導致非自然行為。

本論文創新性融合高層級模型驅動知識表征與低層級行為克隆技術,實現人機團隊協同導航的CCM。采用Unity游戲引擎開展仿真實驗驗證,結果表明:所設計方法可學習高層級行為要素(準確率達88%),并掌握低層級機器人控制行為(準確率達89%)。據現有文獻,此為首個將經典AI方法與前沿機器學習相結合的人機協同導航研究范式。該成果不僅提升協同導航效能,更為聯合制造、社會輔助機器人等協作型人機應用提供技術啟示。

付費5元查看完整內容

深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。

本文的主要貢獻概述如下:

  • 在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;

  • 在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;

  • 在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。

付費5元查看完整內容

異構多智能體系統由不同的自主智能體組成,這些智能體可以通過互動和合作來實現復雜的目標。從社會群體的形成到互聯網等技術系統的形成,人類歷史表明,在相互關聯的系統中可以實現更強大的功能。因此,預計人工智能和自主性的進步將導致各種類型的能力越來越強的機器人和軟件代理進行互動,以提高其能力。

在物流、救災和社會關懷等應用中,這些異構智能體可以為系統帶來不同的視角、技能和資源,增強系統的適應性、穩健性和創造性。然而,盡管好處多多,人們并不清楚在這種情況下什么是異構性,也不清楚如何在系統設計中將異構性作為一種屬性。不回答這些問題,多智能體系統的全部優勢就有可能無法實現,其集體行為要么令人驚訝,要么在最壞的情況下對其服務對象造成損害。

本論文探討了理解異質性在多智能體系統中含義的必要性,以及在系統設計中有效使用不同智能體類型的工具和技術。論文探討了上下文、任務和智能體之間的交互,以及智能體類型的數量和分布如何影響異質性的定義和衡量異質性的方法。

研究還探討了一般設計原則,以促進應用程序之間的知識轉移,從而減少開發時間和失敗風險。研究了基于信息論的 “賦權 ”和 “進化 ”測量方法的應用無關技術,以便在任何類型的智能體之間建立成功的互動。此外,還探討了多樣性的影響、特征和生態框架等概念與人工系統的相關性。

通過更全面地了解多智能體系統中的異質性,本研究有助于開發既能充分利用異質性智能體的優勢,又能最大限度地減少因混合智能體類型而產生的潛在負面影響的系統。

主要貢獻

  • 對異質性進行廣泛調查,總結不同作者的處理方法和觀點,并對人工系統中異質性的用途和來源進行分類

  • 一種分布式控制器,它能使多個牧羊人在不直接通信的情況下進行協調,并使用反應行為(無路徑規劃)使牧羊人在不分割羊群的情況下在行進路線之間移動

  • 證明了在群體任務中使用異構智能體的好處與它們之間的相互作用有關,而且對于同一任務,這些相互作用可能導致更大的異構性對性能有利或不利

  • 基于潛在場的人群行為模型,其行為取決于過去的互動,并與群體任務相匹配

  • 群策群力任務的績效與流行的異質性衡量標準之間的相關性

  • 證明異質智能體之間的互動類型可導致系統行為發生疊加或突發變化

  • 比較解決一維覓食中空間干擾的四種不同機制,包括種群中不同數量的異質性和選擇異質性特征的影響

  • 將 “賦權 ”發展成一種基于團隊的措施,用于基于目標的情景,討論設計者在將 “賦權 ”應用于真實情景時可能遇到的挑戰,并將 “賦權 ”與基于性狀的方法進行比較,以解決一維覓食中的空間干擾問題

  • 不確定情況下牧羊的解決方案,該方案利用進化來創建可學習其他智能體類型的智能體

圖 3.1: 智能體的互動可以用強度和方向來定義。圖中顯示了五種類型的智能體和兩種類型的社會互動。在 a) 中,互動對象是與該智能體自身類型相匹配的其他智能體,形成雙向互動;而在 b) 中,每個智能體都與一種非自身類型的智能體進行社會互動,形成單向互動。如果互動強度為正,智能體就會被其目標群體所吸引,而如果互動強度為負,則會導致智能體被其目標群體所排斥

付費5元查看完整內容

強化學習(RL)是一種框架,在這種框架中,智能體通過與環境的交互,以行動獎勵或懲罰的形式獲得數據驅動的反饋,從而學會做出決策。深度 RL 將深度學習與 RL 相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。利用深度 RL 框架,我們的機器學習研究界在使機器能夠在長時間范圍內做出連續決策方面取得了巨大進步。這些進步包括在雅達利(Atari)游戲中實現超人性能[Mnih 等人,2015],掌握圍棋游戲,擊敗人類世界冠軍[Silver 等人,2017],提供強大的推薦系統[GomezUribe 和 Hunt,2015, Singh 等人,2021]。本論文的重點是找出一些阻礙 RL 智能體在其特定環境中學習的關鍵挑戰,并改進方法,從而提高智能體的性能、改善樣本效率以及學習到的智能體策略的普適性。

在論文的第一部分,我們將重點放在單智能體 RL 設置中的探索上,在單智能體 RL 設置中,智能體必須與復雜的環境交互以追求目標。不探索環境的智能體不可能獲得高性能,因為它會錯過關鍵獎勵,因此無法學習到最佳行為。一個關鍵的挑戰來自于獎勵稀少的環境,在這種環境中,智能體只有在任務完成后才會收到反饋,這使得探索更具挑戰性。我們提出了一種能進行語義探索的新方法,從而提高了樣本效率和稀疏獎勵任務的性能。

在論文的第二部分,我們將重點放在合作式多智能體強化學習(MARL)上,這是對通常的 RL 設置的擴展,我們考慮多個智能體在同一環境中為共同的任務進行交互。在多智能體任務中,各智能體之間需要進行大量協調,并對協調失誤進行嚴格懲罰,而最先進的 MARL 方法往往無法學習到有用的行為,因為各智能體會陷入次優平衡狀態。另一個挑戰是在所有智能體的聯合行動空間中進行探索,而這一空間會隨著智能體數量的增加而呈指數級增長。為了應對這些挑戰,我們提出了通用價值探索和可擴展的基于角色的學習等創新方法。這些方法有助于改善智能體之間的協調,加快探索速度,并增強智能體適應新環境和新任務的能力,展示零鏡頭泛化能力,從而提高樣本效率。最后,我們研究了合作式 MARL 中基于獨立策略的方法,其中每個智能體都將其他智能體視為環境的一部分。我們表明,在一個流行的多智能體基準上,這種方法的表現優于最先進的聯合學習方法。

總之,本論文的貢獻大大提高了深度(多智能體)強化學習的最新水平。本論文中開發的智能體可以高效地探索其環境以提高采樣效率,學習需要大量多智能體協調的任務,并在各種任務中實現零點泛化。

付費5元查看完整內容

強化學習(RL)在人工智能(AI)領域取得了一些最令人矚目的進展。強化學習從深度神經網絡的出現中獲益匪淺,深度神經網絡使學習代理能夠在日益復雜的環境中逼近最優行為。特別是,競爭性 RL 的研究表明,在對抗環境中競爭的多個智能體可以同時學習,以發現它們的最優決策策略。

近年來,競爭性 RL 算法已被用于訓練各種游戲和優化問題的高性能人工智能。了解訓練這些人工智能模型的基本算法對于利用這些工具應對現實世界的挑戰至關重要。網絡安全領域正在考慮將競爭性 RL 的新興研究成果應用于現實世界。

為了利用 RL 開發自動化網絡行動(ACO) 工具,可以使用各種環境模擬網絡安全事件。其中許多 ACO 環境都是在過去三年中開源的。這些新環境促進了探索人工智能在網絡安全方面潛力的研究。這些環境中的現有研究通常是片面的:紅方或藍方智能體接受訓練,針對具有固定策略的靜態對手優化決策。

通過只針對一個對手或一組靜態對手進行訓練,學習型人工智能在面對場景中其他所有可能的對手時都無法保持高性能。競爭性 RL 可用來發現對抗環境中任何潛在對手的最佳決策策略。然而,在這些新興的 ACO 模擬中還沒有嘗試過。本論文的目的是使用競爭性 RL 訓練智能體,使其在模擬 ACO 環境中接近博弈論中的最優策略。

圖 4:虛構游戲過程中使用的系統概覽,包括actor-critic框架和對手采樣。切換代理和對手,為對手的策略庫訓練新策略。

付費5元查看完整內容

多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。

本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。

對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。

我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。

由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。

任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。

然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。

我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。

付費5元查看完整內容

機器學習是一門相對年輕的科學學科,其目標是通過從過去的經驗中學習來達到實現人類決策能力。它是一個跨學科領域,需要統計學、優化學、工程學和計算創新等多方面的知識。在過去的幾十年里,我們見證了機器學習算法的快速發展,這些算法在實踐中取得了顯著的成功,以至于機器學習已經成為解決現代社會中許多具有挑戰性問題的不可或缺的技術。與此同時,計算機科學、統計學、優化學和工程學的研究人員已經開發了機器學習的數學理論,他們致力于建立嚴格的數學基礎,不僅可以解釋當前的算法,還可以激勵未來基于原則的方法。然而,許多現有的理論成果散布在文獻中。雖然有一些入門書籍和綜述文章試圖涵蓋這些理論成果的一部分,但還沒有任何深入的教科書能夠提供對文獻中開發的標準數學工具的全面介紹。

這本書的目標是系統地介紹當前文獻中常用于分析機器學習算法的主要數學技術。由于空間限制,這本書本身并未詳細解釋各種機器學習算法及其應用背景。因此,假定讀者已經熟悉標準的機器學習算法,如支持向量機、決策樹、提升法、神經網絡等。讀者還應具備微積分、線性代數和概率的基本數學知識,以及足夠的數學成熟度來理解嚴格的理論證明。對于這樣的讀者,本書的主要目的是介紹現代數學技術,這些技術常用于分析這些機器學習算法。所選材料的水平足以為讀者提供充足的技術背景和知識,使他們能夠毫不費力地閱讀理論機器學習的研究論文。

這本書中選擇的主題旨在涵蓋當前研究水平上最有用和常見的數學工具和結果。一些更專業的主題(例如主動學習、半監督學習、損失函數一致性、差分隱私等)沒有包括在內,但是掌握了本書所介紹的技術工具的讀者應該能夠毫無困難地緊跟這些主題的當前研究。這本書可用于研究生級別的理論機器學習課程,并可作為從事理論機器學習研究的研究人員的參考資料。雖然最基本的概念以足夠的深度進行了說明,但一些其他當前感興趣的主題則以較少的細節進行介紹。由于主題眾多,一些介紹相對簡潔,而另一些主題則以一種抽象的方式呈現,目的是統一文獻中出現的不同特例。這種抽象和簡潔的表述可能在初次閱讀時導致一些困難。為了減輕這種困難,包含了許多示例,以提供理論結果的具體解釋和適當的背景。還包括了歷史性的評論,以給出本書所涵蓋主題的原始來源,以及對深入理解感興趣的讀者的額外閱讀材料。每章末尾提供的練習可以幫助讀者檢查他們對主要概念的掌握。大多數練習需要對材料有良好的了解,但不難。此外,一些練習旨在為與主文相關但沒有直接涵蓋的主題提供額外信息。

這本書包含兩個主要部分。第一部分,從第1章到第12章,涵蓋了在獨立同分布(iid)設置中監督學習算法的分析。它從獨立變量之和的標準指數尾部不等式開始,然后用幾章的篇幅發展了均勻收斂的技術工具,這是分析機器學習算法的主要數學機制。使用覆蓋數、VC維和Rademacher復雜度等經典概念建立了關鍵結果。這本書的第一部分還涵蓋了最近出現的穩定性分析技術,它可以處理諸如隨機梯度下降等特定的學習過程。作為這些基本數學工具的應用,也以不同程度的細節展示了對包括核方法、加性模型和神經網絡在內的幾種常用機器學習模型的分析。最后,第一部分以第12章的標準下界分析結束,涵蓋了常用的技術,如Fano的不等式和Assouad的引理。還提供了關于最小二乘回歸和密度估計的示例。這本書的第二部分,從第13章開始,涵蓋了順序統計估計問題的分析,包括在線學習、多臂老虎機問題和強化學習。它從將指數尾部不等式和獨立同分布隨機變量的均勻收斂分析推廣到順序設置中的鞅開始。然后在后續章節中描述在線學習、多臂老虎機和強化學習的特定算法及其分析。提供了上界和下界。這本書包含足夠的材料,可用于為期兩個學期的研究生級課程。

這本書包含足夠的材料,可用于為期兩個學期的研究生級課程,每個部分的內容可以作為一個學期的課程。它也可以用于一個學期的課程,涵蓋書中的部分內容。作者已經根據這本書的內容在香港科技大學教授研究生課程。參加這些課程的學生已經學習了基本的機器學習算法,并希望進一步學習分析這些算法的數學工具。

付費5元查看完整內容
北京阿比特科技有限公司