學科背景
自20世紀50年代以來,模式識別已發展成為一個學科(Discipline)或研究領域(Field of study)。O.G. Selfridge在1957年一個會議上從計算機科學角度給出了一個定義:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式識別是從無關細節的背景中提取有意義特征的過程)。King Sun Fu(傅京孫)在1982年出版的《Applications of Pattern Recognition》編著第一章說The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式識別問題是指對過程或事件的分類和/或描述。過程或事件可以是物理上的物體或抽象的事件如精神狀態。具有相似特點的過程或事件組成類別)。這個定義對模式識別的技術(分類、描述)和模式、類別都表達的非常明確。
綜合模式識別認知、功能作用和計算原理等方面的特點,我們可以給出一個更加全面的定義:模式識別學科研究如何使機器(包括計算機)模擬人的感知功能,從環境感知數據中檢測、識別和理解目標、行為、事件等模式。同時定義模式為數據中具有一定特點的目標、行為或事件,具有相似特點的模式組成類別(class, category)。單個模式又稱為樣本(sample)或樣例(instance)。
20世紀50年代是計算機模式識別正式登場的時期。1957年C.K. Chow發表的用于文字識別的統計決策方法是典型的統計模式識別方法,該文獻給出了貝葉斯決策(包括最小風險決策、最大后驗概率決策、帶拒識的最小風險決策)的基本框架。早期的一些代表性工作或重要事件還包括:1957年Rosenblatt研制的感知機(Perceptron);1965年N.L. Nilsson發表的關于學習機器的著作(里面主要內容是模式分類);1966年第一個以模式識別為主題的研討會;1968年發表的模式識別研究綜述;1968年國際期刊Pattern Recognition創刊;Fukunaga和Duda & Hart分別于1972年和1973年發表的模式識別經典教材。70年代是模式識別研究快速發展的一個時期,傅京孫提出句法模式識別方法并形成了理論方法體系。
模式識別的國際組織在上世紀70年代正式成立。根據國際模式識別協會(IAPR)歷史介紹,第一屆國際模式識別聯合大會(IJCPR,1980年以后改名為ICPR)于1973年召開,第二屆在1974年召開,以后每兩年舉辦一次。IAPR于1974年IJCPR期間開始籌建,1976年IJCPR期間召開了第一次執委會會議,1977年開始接受會員申請, 在1978年IJCPR期間召開了第一次Governing Board(主席團)會議,宣告IAPR正式成立。
20世紀80年代,模式識別方法發展的最大亮點是多層神經網絡的引入。1986年Rumelhart等人發表了誤差反向傳播(Back-propogation, BP)算法(其實Paul Werbos在其1974年的博士論文中描述了BP算法,沒有引起太多注意)。BP算法使多層神經網絡作為模式分類器具有自學習能力,其隱層神經元具有特征提取功能,因而迅速成為一種主流的模式識別方法。卷積神經網絡首先在1990年提出。支持向量機于1995年出現,由于其克服了多層神經網絡訓練的局部極值問題,具有更好的泛化性能,逐漸成為新的主流方法。
90年代到21世紀初,模式識別和機器學習(模式分類器設計是一個學習問題,因此大多機器學習研究面向模式識別)領域多種新的方法興起,典型的有多分類器系統(早期工作出現在1990年,后來發展成為集成學習方向)。在模式識別中發揮重要作用的半監督學習、多標簽學習、多任務學習、遷移學習和領域自適應(與領域自適應類似的分類器自適應早在上世紀60年代就已經有嘗試)、以馬爾科夫隨機場和條件隨機場為典型代表的概率圖模型等均興起于這個時期。
2006年以后,深度學習(深度神經網絡方法)逐漸成為主流,并陸續在多數模式識別應用任務中大幅超越傳統模式識別方法(基于人工特征提取的分類方法)的性能。深度學習的方法最早發表在2006年,后來陸續提出了一系列改進訓練收斂性和泛化性能的深度神經網絡模型和訓練算法,包括不同的訓練方法或正則化方法、不同的卷積神經網絡結構、循環神經網絡、self-attention網絡、圖卷積網絡等。2012年深度卷積神經網絡在大規模圖像分類競賽Imagenet中取得巨大成功,從此推動深度學習的研究和應用進入高潮。深度學習的優越性能從視覺領域延伸到自然語言處理領域,開始在機器翻譯、閱讀理解、自動問答等語言理解任務中大幅超越基于統計語言模型的方法。
目前,深度學習方法仍然在模式識別和人工智能領域占據統治地位。但是隨著研究的深入和應用的擴展,深度學習方法的不足也越來越凸顯,如小樣本泛化能力不足、可解釋性不足、魯棒性(穩定性)差、語義理解和結構理解能力弱,連續學習中遺忘嚴重,等等。針對這些缺陷學術界在不斷探索新的模型(包括與知識規則和傳統模式識別方法的結合)和學習算法等,研究和應用都還在不斷向前發展。比如,面向開放環境的魯棒模式識別、可解釋性神經網絡、面向小樣本學習和可解釋性的模塊化神經網絡、結合感知和符號推理的模型、自監督學習、連續學習(又稱終生學習)等。
模式識別和人工智能不同分支領域(機器學習、計算機視覺、自然語言處理、數據挖掘等)高度交叉。模式識別中的分類、聚類等問題也是機器學習的主要研究內容。機器學習領域把Nilsson(1965年)和Duda & Hart(1973年)的早期著作當作是機器學習的代表作,這兩本書其實主要是關于模式識別的。Bishop在他2006年出版的《Pattern Recognition and Machine Learning》一書前言中說:Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field.(模式識別來源于工程,機器學出生長于計算機科學。兩者可以看作是同一個領域的兩個面)。傅京孫在1971年出版一本編著名稱也叫Pattern Recognition and Machine Learning。機器學習作為一個研究領域,出現比較晚一些。1980年代才有以Machine Learning為題的專著和大會(ICML第一屆在1980年)。
計算機視覺的主要研究內容是圖像、視頻的分析、識別與理解,與模式識別也是高度交叉的,尤其目標和行為識別是典型的模式識別問題,因此計算機視覺中大量使用模式識別的理論和方法(如分類和學習方法)。1973年《Pattern Classification and Scene Analysis》中的Scene Analysis是典型的計算機視覺的工作。70年代以來IJCPR(1980年改名ICPR)會議中都有大量的圖像處理與分析的論文。一般認為,David Marr于1982年出版的專著《Vision》標志著計算機視覺領域正式形成。計算機視覺領域的典型活動計算機視覺與模式識別大會(CVPR)開始于1983年,國際計算機視覺大會(ICCV)開始于1987年。在這些會議中,傳統模式識別領域中的一般圖像分析與識別(包括形狀分析、目標識別、文檔圖像分析和文字識別)甚至一般分類器學習的工作也開始大量出現。
模式識別與機器學習、計算機視覺、語言處理、數據挖掘等領域的高度重疊和交叉說明學科領域是隨著歷史不斷分化和融合的。目前這些相關領域互相學習借鑒、相互促進,未來會結合更加緊密。
模式識別學科發展報告的內容組織
2018-2019年,模式識別國家重點實驗室承擔了中國科學院學部學科發展戰略研究項目“模式識別發展戰略研究”。鑒于過去60多年模式識別的理論方法和應用都產生了巨大進展,而在通信、傳感和計算軟硬件技術不斷發展、應用場景漸趨復雜開放的新形勢下,又面臨很多新的理論和技術問題,本項目希望對模式識別領域的發展歷史進行全面梳理,整理出至今在學術屆或應用中產生了重大影響的主要研究進展,并且面向未來,提煉出具有重要理論價值或應用需求的值得研究的問題,供模式識別學術界參考,以期對未來基礎研究和應用研究產生指導,產出具有重大理論價值或應用價值的研究成果。
實驗室邀請國內本領域科研一線的研究者進行了多輪研討交流,并經實驗室內幾十名研究人員撰寫整理,提煉出模式識別領域過去50項重要研究進展和未來30項重要研究問題,分模式識別基礎、計算機視覺、語音語言信息處理、模式識別應用技術四個方向分別介紹。模式識別基礎理論和方法是研究的核心,主要研究內容包括分類決策基礎理論、多種分類器設計和學習方法、特征學習、聚類分析等。計算機視覺是機器感知中最重要的部分(人和機器從環境獲得信息的最大通道是視覺感知),視覺感知數據是模式識別處理的最重要的對象。主要研究內容包括圖像處理與分割、圖像增強與復原、三維視覺、場景分析、目標檢測與識別、行為識別等。語言信息(包括語音和文本信息)是一類重要的模式信息,語言信息處理是模式識別和機器感知的一種重要形式,自然語言處理(文本理解)發展出了自己的理論方法體系,當前與聽覺和視覺感知的交叉日趨緊密,且與模式識別和機器學習的方法越來越近。模式識別技術在社會生活中應用非常廣泛,本報告不介紹那些單純應用模式識別技術的場景或技術,而是選擇性地介紹跟模式識別理論方法研究結合緊密(比如針對/結合應用場景研究模式識別方法和技術)的應用問題,如生物特征識別、遙感圖像分析、醫學圖像分析、文檔圖像分析和文字識別、多媒體計算等。
現在發布該報告第一版,包括各個研究進展和研究問題的簡介,希望獲得學術界的反饋和修改建議。未來將對各個進展/問題條目做詳細描述,整理成一本書正式出版。