專家系統(expert system,ES)是人工智能另一個最早的和主要的應用研究領域。20世 紀70年代中期,專家系統的開發獲得成功。正如專家系統的先驅費根鮑姆(Feigenbaum) 所說:專家系統的力量是從它處理的知識中產生的,而不是從某種形式主義及其使用的參 考模式中產生的。這正符合一句名言:知識就是力量。到80年代,專家系統在全世界得到 迅速發展和廣泛應用。現在,專家系統并不過時,而是不斷更新,被稱為“21世紀知識管理 和決策的技術。
顧名思義,專家控制系統是一個應用專家系統技術的控制系統,也是一個典型的和廣泛 應用的基于知識的控制系統。海斯?羅思(Hayes Roth)等在1983年提出專家控制系統。 他們指出,專家控制系統的全部行為能被自適應地支配;為此.該控制系統必須能夠取復解 釋當前狀況,預測未來行為?診斷出現問題的原因.制定補救(校正)規劃.并監控規劃的執 行,確保成功。關于專家控制系統應用的第一次報道是在1984年,它是一個用于煉油的分 布式實時過程控制系統。奧斯特洛姆 ( A s i r d m )等在 1 9 8 6年發表了題為“專家控制” (Expert Control)的論文。從此之后,更多的專家控制系統獲得開發與應用。專家系統和智 能控制兩者都是以模仿人類智能為基礎的.而且都涉及某些不確定性問題。專家控制既可 包括高層控制(決策與規劃),又可涉及低層控制(動作與實現)。
本章主要討論如下5個問題.即專家系統基本原理、專家系統的主要類型及其結構、專 家控制系統的結構與類型、專家控制器的設計以及專家控制系統的應用實例等。下面我們 將逐一對它們加以介紹。
【導讀】佛羅里達大學電子與計算機工程系教授Sean Meyn撰寫的新書稿《強化學習與控制系統》,重點講述了與強化學習最相關的控制基礎,以及基于這些基礎的RL算法設計的大量工具。
Sean Meyn,佛羅里達大學電子與計算機工程系教授兼Robert C. Pittman杰出學者主席,認知與控制實驗室主任,佛羅里達可持續能源研究所所長。Sean于1982年獲得加利福尼亞大學洛杉磯分校數學學士學位,于1987年獲得麥吉爾大學電子工程博士學位。他的學術研究興趣包括決策和控制的理論與應用,隨機過程和優化。他在這些主題上的研究獲得了許多獎項,并且是IEEE會士。
為了定義強化學習(RL),首先需要定義自動控制。例如,在你的日常生活中,可能包括你的汽車巡航控制,你的空調恒溫器,冰箱和熱水器,以及現代的衣物烘干機的決策規則。有收集數據的傳感器,有收集數據以了解世界狀態的計算機”(汽車以正確的速度行駛嗎?毛巾還濕嗎?),根據這些測量結果,由計算機驅動的算法會發出命令來調整需要調整的東西:油門、風扇速度、加熱盤管電流,或者……更令人興奮的例子包括太空火箭、人造器官和微型機器人來進行手術。RL的目標是真正自動的自動控制:沒有任何物理學或生物學或醫學知識,RL算法調整自己成為一個超級控制器: 最平穩的飛行進入太空,和最專業的微型外科醫生! 這個夢想在大多數應用中肯定是遙不可及的,但最近的成功故事鼓舞了工業界、科學家和新一代學生。繼2015年擊敗歐洲圍棋冠軍樊麾之后,DeepMind的AlphaGo再次刷新了世界紀錄。不久之后的新聞是令人震驚的AlphaZero續集,它在“沒有任何專家幫助的情況下”自學下國際象棋和圍棋。這在現在看來已經不是什么新鮮事了,似乎每個月都會有新的突破。
今天的強化學習有兩個同等重要的基礎: 1. 最優控制:兩個最著名的RL算法,TD-和q -學習,都是關于逼近最優控制的核心價值函數。2. 統計和信息理論。RL中的loration是本書的一大焦點,它強調了最優控制的幾何性質,以及為什么創建可靠的學習算法并不困難。我們不會忽視第二個基礎: 動機和成功的啟發式將在不深入研究理論的情況下進行解釋。讀者將學到足夠的知識,開始嘗試自制的計算機代碼,并擁有一個大的算法設計選擇庫。在完成這本書的一半之前,我希望學生能對為什么這些算法被期望是有用的以及為什么它們有時會失敗有一個扎實的理解。
本書的重點是與強化學習最相關的控制基礎,以及基于這些基礎的RL算法設計的大量工具。
自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1
數據驅動的發現正在徹底改變復雜系統的建模、預測和控制。這本教科書匯集了機器學習、工程數學和數學物理,將動態系統的建模和控制與現代數據科學方法相結合。它強調了科學計算領域的許多最新進展,使數據驅動的方法能夠應用于各種復雜系統,如湍流、大腦、氣候、流行病學、金融、機器人和自主。旨在在工程和物理科學的高級本科和開始研究生,文本提出了從介紹到藝術的狀態的一系列主題和方法。
主要特點:
深入的工作示例與全面的開源代碼
對復雜概念及其應用的簡明易懂的解釋
廣泛的在線補充包括練習,案例研究,課程視頻,數據和補充代碼
第一部分:降維與變換
盡管測量和計算的分辨率迅速提高,但許多復雜系統在數據中表現出主導的低維模式。模式提取涉及到找到坐標變換,從而簡化系統。的確,數學物理的豐富歷史是以坐標變換為中心的(例如,譜分解、傅里葉變換、廣義函數等),盡管這些技術在很大程度上僅限于簡單的理想化幾何和線性動力學。獲得數據驅動轉換的能力為將這些技術推廣到具有更復雜幾何和邊界條件的新研究問題提供了機會。
這本書的這一部分將調查兩個最強大和普遍的算法轉換和減少數據:奇異值分解(SVD)和傅立葉變換。數據可以在這些轉換后的坐標系統中壓縮,這一事實使建模和控制的高效傳感和緊湊表示成為可能。因此,第三章涉及到利用這種低維結構的稀疏采樣方法。
第二部分:機器學習和數據分析
機器學習是基于數據優化技術的。目標是找到一個低秩子空間來最優地嵌入數據,以及回歸方法來聚類和分類不同的數據類型。因此,機器學習提供了一套有原則的數學方法,用于從數據中提取有意義的特征,即數據挖掘,以及將數據分成不同的有意義的模式,可以用于決策制定、狀態估計和預測。具體來說,它從數據中學習并根據數據做出預測。對于商業應用程序,這通常被稱為預測分析,它處于現代數據驅動決策制定的前沿。在一個集成系統中,如自主機器人,各種機器學習組件(例如,處理視覺和觸覺刺激)可以被集成,形成我們現在所說的人工智能(AI)。明確地說,人工智能建立在集成的機器學習算法之上,而機器學習算法又從根本上植根于優化。
第三部分:動力學和控制
數據驅動的發現正在徹底改變我們建模、預測和控制復雜系統的方式。現代最緊迫的科學和工程問題是不服從經驗模型或基于第一性原理的推導的。研究人員越來越多地轉向數據驅動的方法,用于各種復雜系統,如動蕩、大腦、氣候、流行病學、金融、機器人和自主。這些系統通常是非線性的、動態的、空間和時間的多尺度的、高維的,具有主導的潛在模式,應該為感知、預測、估計和控制的最終目標進行特征化和建模。借助現代數學方法,以及前所未有的可用數據和計算資源,我們現在能夠解決以前無法實現的挑戰問題。
第四部分:簡化訂單模型(ROMs)
適當的正交分解(POD)是應用于偏微分方程(PDEs)的SVD算法。因此,它是研究復雜時空系統最重要的降維技術之一。這樣的系統典型的例子是非線性偏微分方程,它規定了在給定的物理、工程和/或生物系統中感興趣的數量在時間和空間上的進化。POD的成功與一個普遍存在的現象有關:在大多數復雜系統中,有意義的行為被編碼在動態活動的低維模式中。POD技術試圖利用這一事實,以生產能夠精確建模控制復雜系統的完整時空演化的低秩動力系統。具體來說,簡化階模型(ROMs)利用POD模式將PDE動力學投影到低階子空間,在這些子空間中,控制PDE模型的模擬可以更容易地進行評估。重要的是,ROM產生的低秩模型在計算速度方面有了顯著的改進,潛在地使昂貴的PDE系統蒙特卡羅模擬、參數化PDE系統的優化和/或基于PDE的系統的實時控制成為可能。