從手機解鎖、小區門禁到餐廳吃飯、超市收銀,再到高鐵進站、機場安檢以及醫院看病,人臉、虹膜、指紋等生物特征已成為人們進入萬物互聯世界的數字身份證。生物特征識別賦予機器自動探測、捕獲、處理、分析、識別數字化生理或行為信號的高級智能,是一個典型而又復雜的模式識別問題,一直處于人工智能技術發展前沿,在新一代人工智能規劃、“互聯網+”行動計劃等國家戰略中具有重要地位。由于生物特征識別涉及公眾利益攸關的隱私、道德、法律等問題,近期也引起了廣泛的社會關注。本文系統綜述了生物特征識別學科發展現狀、新興方向、存在問題和可行思路,深入梳理了人臉、虹膜、指紋、掌紋、靜脈、聲紋、步態、行人重識別以及多模態融合識別的研究進展,以人臉為例重點介紹了生物特征識別領域近些年受到關注的新方向——對抗攻擊和防御、深度偽造和反偽造,最后剖析總結了生物特征識別領域存在的三大挑戰問題——“感知盲區”、“決策誤區”和“安全紅區”。我們認為必須變革和創新生物特征的傳感、認知、安全機制才有可能取得復雜場景生物識別學術研究和技術應用的根本性突破,破除現有生物識別技術的弊端,朝著“可感”、“可知”、“可信”的新一代生物特征識別總體目標發展。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2023&journal_id=jig
在第四屆數字中國建設峰會“大數據論壇”上,國家工業信息安全發展研究中心副主任何小龍發布了《中國數據要素市場發展研究報告(2020~2021)》(以下簡稱“報告”)。
“十三五”時期是我國大數據產業蓬勃發展的階段,根據國家工業信息安全發展研究中心產值測算數據,截至2020年底,我國大數據產業規模已達萬億元。隨著我國大數據產業與實體經濟深度融合、產業發展不斷壯大,數據作為生產要素的屬性不斷凸顯。如何實現數據要素市場化配置,激活數據要素潛在價值,推動與實體經濟繼續深度融合,是“十四五”期間我國需要面臨的重要課題之一。
國家工業信息安全發展研究中心通過專家訪談、企業調研、案頭研究等方式開展數據要素市場相關研究,結合自有的逾5000家企業大數據案例庫對報告界定的產值規模進行了測算和分析,在報告中提出了數據要素及數據要素市場的邊界,梳理了國內外數據要素市場發展現狀,重點從市場概況、政策脈絡、產業圖譜及市場運行機制等角度,并結合相應的產值規模、技術水平、產品和服務、商業模式等情況,闡釋了我國數據要素市場的發展現狀,分析了現階段我國數據要素市場存在的問題及未來發展趨勢,提出了對策與建議。
近年來,區塊鏈技術的創新發展和廣泛應用已成為社會生活、生產方式向數字化轉型的一個重要核心。如今,區塊鏈技術應用已延伸到疫情管控、智能健康醫療、數字金融、能源區塊鏈、物聯網、智能制造、供應鏈管理、數字資產交易等多個領域,區塊鏈的分布式共享賬本、密碼算法、共識機制、激勵層、合約層、數據層、網絡層、以及可追溯、可證明性、永恒性、權威性保證等主要功能也是關鍵技術和挑戰所在。
本報告分析了區塊鏈全球發展態勢、國內發展現狀,國內外區塊鏈技術預見、工程難題、標準制定,涵蓋區塊鏈底層技術、跨鏈技術、交換技術、軟硬協同技術、關鍵密碼學技術以及相關監管架構、系統脆弱性分析和政策建議等。報告內容豐富、真實、深厚,有覆蓋全面和關鍵側重,可作為高校、研究機構以及金融、能源、政務服務、司法、醫療健康、產品溯源、智慧城市、物流等區塊鏈應用行業發展和政府部門政策制定的參考。
//www.china-cic.cn/upload/202012/05/4e4d16d7e620490db221f2cb0446f2a7.pdf
導讀:工業智能以工業數據為基礎,人工智能算法為核心,其他先進信息技術為輔助,通過對工業產業鏈中的各個環節、對象進行深度滲透與改造,面向工業場景提供綜合智能技術解決方案,從而達到重塑工業形態、提升工業能效的目的,也即以增量帶動存量,以創新引領革新。工業智能促使工業產業形態躍遷,智能化、網絡化、信息化將成為工業產業下一階段的新標簽,通過重塑工業形態、提高生產效率、優化資源配置、創新生產模式,工業智能將通過綜合智能技術釋放工業產業的巨大潛力。
《工業智能前沿報告》分析了工業智能在全球范圍的發展態勢,并對我國工業智能發展現狀進行解讀,從政策、產業、技術等多視角分析工業智能核心要素。報告針對工業智能所涉及的人工智能數據、算法、模型及其與5G、多模態計算等先進信息技術融合等方面進行具體分析,闡述工業智能發展中相應的技術趨勢以及現存的工程難題,通過研究現有問題,指出工業智能的發展瓶頸和突破方向。最后,給出工業智能發展的相關政策建議,展望工業智能的重要方向。
本文結合工業自動化和信息技術在工業革命中的作用以及制造與生產全流程決策、控制以及運行管理的現狀和智 能化發展方向的分析, 提出了發展工業人工智能的必要性. 通過對人工智能技術的涵義、發展簡史和發展方向的分析以及自 動化與人工智能研究與應用的核心目標、實現方式、研究對象與研究方法等方面的對比分析, 提出了工業人工智能技術的涵 義. 通過對工業人工智能和工業自動化的研究對象與研究目標對比分析, 提出了工業人工智能的研究方向和研究思路與方法。
學科背景
自20世紀50年代以來,模式識別已發展成為一個學科(Discipline)或研究領域(Field of study)。O.G. Selfridge在1957年一個會議上從計算機科學角度給出了一個定義:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式識別是從無關細節的背景中提取有意義特征的過程)。King Sun Fu(傅京孫)在1982年出版的《Applications of Pattern Recognition》編著第一章說The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式識別問題是指對過程或事件的分類和/或描述。過程或事件可以是物理上的物體或抽象的事件如精神狀態。具有相似特點的過程或事件組成類別)。這個定義對模式識別的技術(分類、描述)和模式、類別都表達的非常明確。
綜合模式識別認知、功能作用和計算原理等方面的特點,我們可以給出一個更加全面的定義:模式識別學科研究如何使機器(包括計算機)模擬人的感知功能,從環境感知數據中檢測、識別和理解目標、行為、事件等模式。同時定義模式為數據中具有一定特點的目標、行為或事件,具有相似特點的模式組成類別(class, category)。單個模式又稱為樣本(sample)或樣例(instance)。
20世紀50年代是計算機模式識別正式登場的時期。1957年C.K. Chow發表的用于文字識別的統計決策方法是典型的統計模式識別方法,該文獻給出了貝葉斯決策(包括最小風險決策、最大后驗概率決策、帶拒識的最小風險決策)的基本框架。早期的一些代表性工作或重要事件還包括:1957年Rosenblatt研制的感知機(Perceptron);1965年N.L. Nilsson發表的關于學習機器的著作(里面主要內容是模式分類);1966年第一個以模式識別為主題的研討會;1968年發表的模式識別研究綜述;1968年國際期刊Pattern Recognition創刊;Fukunaga和Duda & Hart分別于1972年和1973年發表的模式識別經典教材。70年代是模式識別研究快速發展的一個時期,傅京孫提出句法模式識別方法并形成了理論方法體系。
模式識別的國際組織在上世紀70年代正式成立。根據國際模式識別協會(IAPR)歷史介紹,第一屆國際模式識別聯合大會(IJCPR,1980年以后改名為ICPR)于1973年召開,第二屆在1974年召開,以后每兩年舉辦一次。IAPR于1974年IJCPR期間開始籌建,1976年IJCPR期間召開了第一次執委會會議,1977年開始接受會員申請, 在1978年IJCPR期間召開了第一次Governing Board(主席團)會議,宣告IAPR正式成立。
20世紀80年代,模式識別方法發展的最大亮點是多層神經網絡的引入。1986年Rumelhart等人發表了誤差反向傳播(Back-propogation, BP)算法(其實Paul Werbos在其1974年的博士論文中描述了BP算法,沒有引起太多注意)。BP算法使多層神經網絡作為模式分類器具有自學習能力,其隱層神經元具有特征提取功能,因而迅速成為一種主流的模式識別方法。卷積神經網絡首先在1990年提出。支持向量機于1995年出現,由于其克服了多層神經網絡訓練的局部極值問題,具有更好的泛化性能,逐漸成為新的主流方法。
90年代到21世紀初,模式識別和機器學習(模式分類器設計是一個學習問題,因此大多機器學習研究面向模式識別)領域多種新的方法興起,典型的有多分類器系統(早期工作出現在1990年,后來發展成為集成學習方向)。在模式識別中發揮重要作用的半監督學習、多標簽學習、多任務學習、遷移學習和領域自適應(與領域自適應類似的分類器自適應早在上世紀60年代就已經有嘗試)、以馬爾科夫隨機場和條件隨機場為典型代表的概率圖模型等均興起于這個時期。
2006年以后,深度學習(深度神經網絡方法)逐漸成為主流,并陸續在多數模式識別應用任務中大幅超越傳統模式識別方法(基于人工特征提取的分類方法)的性能。深度學習的方法最早發表在2006年,后來陸續提出了一系列改進訓練收斂性和泛化性能的深度神經網絡模型和訓練算法,包括不同的訓練方法或正則化方法、不同的卷積神經網絡結構、循環神經網絡、self-attention網絡、圖卷積網絡等。2012年深度卷積神經網絡在大規模圖像分類競賽Imagenet中取得巨大成功,從此推動深度學習的研究和應用進入高潮。深度學習的優越性能從視覺領域延伸到自然語言處理領域,開始在機器翻譯、閱讀理解、自動問答等語言理解任務中大幅超越基于統計語言模型的方法。
目前,深度學習方法仍然在模式識別和人工智能領域占據統治地位。但是隨著研究的深入和應用的擴展,深度學習方法的不足也越來越凸顯,如小樣本泛化能力不足、可解釋性不足、魯棒性(穩定性)差、語義理解和結構理解能力弱,連續學習中遺忘嚴重,等等。針對這些缺陷學術界在不斷探索新的模型(包括與知識規則和傳統模式識別方法的結合)和學習算法等,研究和應用都還在不斷向前發展。比如,面向開放環境的魯棒模式識別、可解釋性神經網絡、面向小樣本學習和可解釋性的模塊化神經網絡、結合感知和符號推理的模型、自監督學習、連續學習(又稱終生學習)等。
模式識別和人工智能不同分支領域(機器學習、計算機視覺、自然語言處理、數據挖掘等)高度交叉。模式識別中的分類、聚類等問題也是機器學習的主要研究內容。機器學習領域把Nilsson(1965年)和Duda & Hart(1973年)的早期著作當作是機器學習的代表作,這兩本書其實主要是關于模式識別的。Bishop在他2006年出版的《Pattern Recognition and Machine Learning》一書前言中說:Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field.(模式識別來源于工程,機器學出生長于計算機科學。兩者可以看作是同一個領域的兩個面)。傅京孫在1971年出版一本編著名稱也叫Pattern Recognition and Machine Learning。機器學習作為一個研究領域,出現比較晚一些。1980年代才有以Machine Learning為題的專著和大會(ICML第一屆在1980年)。
計算機視覺的主要研究內容是圖像、視頻的分析、識別與理解,與模式識別也是高度交叉的,尤其目標和行為識別是典型的模式識別問題,因此計算機視覺中大量使用模式識別的理論和方法(如分類和學習方法)。1973年《Pattern Classification and Scene Analysis》中的Scene Analysis是典型的計算機視覺的工作。70年代以來IJCPR(1980年改名ICPR)會議中都有大量的圖像處理與分析的論文。一般認為,David Marr于1982年出版的專著《Vision》標志著計算機視覺領域正式形成。計算機視覺領域的典型活動計算機視覺與模式識別大會(CVPR)開始于1983年,國際計算機視覺大會(ICCV)開始于1987年。在這些會議中,傳統模式識別領域中的一般圖像分析與識別(包括形狀分析、目標識別、文檔圖像分析和文字識別)甚至一般分類器學習的工作也開始大量出現。
模式識別與機器學習、計算機視覺、語言處理、數據挖掘等領域的高度重疊和交叉說明學科領域是隨著歷史不斷分化和融合的。目前這些相關領域互相學習借鑒、相互促進,未來會結合更加緊密。
模式識別學科發展報告的內容組織
2018-2019年,模式識別國家重點實驗室承擔了中國科學院學部學科發展戰略研究項目“模式識別發展戰略研究”。鑒于過去60多年模式識別的理論方法和應用都產生了巨大進展,而在通信、傳感和計算軟硬件技術不斷發展、應用場景漸趨復雜開放的新形勢下,又面臨很多新的理論和技術問題,本項目希望對模式識別領域的發展歷史進行全面梳理,整理出至今在學術屆或應用中產生了重大影響的主要研究進展,并且面向未來,提煉出具有重要理論價值或應用需求的值得研究的問題,供模式識別學術界參考,以期對未來基礎研究和應用研究產生指導,產出具有重大理論價值或應用價值的研究成果。
實驗室邀請國內本領域科研一線的研究者進行了多輪研討交流,并經實驗室內幾十名研究人員撰寫整理,提煉出模式識別領域過去50項重要研究進展和未來30項重要研究問題,分模式識別基礎、計算機視覺、語音語言信息處理、模式識別應用技術四個方向分別介紹。模式識別基礎理論和方法是研究的核心,主要研究內容包括分類決策基礎理論、多種分類器設計和學習方法、特征學習、聚類分析等。計算機視覺是機器感知中最重要的部分(人和機器從環境獲得信息的最大通道是視覺感知),視覺感知數據是模式識別處理的最重要的對象。主要研究內容包括圖像處理與分割、圖像增強與復原、三維視覺、場景分析、目標檢測與識別、行為識別等。語言信息(包括語音和文本信息)是一類重要的模式信息,語言信息處理是模式識別和機器感知的一種重要形式,自然語言處理(文本理解)發展出了自己的理論方法體系,當前與聽覺和視覺感知的交叉日趨緊密,且與模式識別和機器學習的方法越來越近。模式識別技術在社會生活中應用非常廣泛,本報告不介紹那些單純應用模式識別技術的場景或技術,而是選擇性地介紹跟模式識別理論方法研究結合緊密(比如針對/結合應用場景研究模式識別方法和技術)的應用問題,如生物特征識別、遙感圖像分析、醫學圖像分析、文檔圖像分析和文字識別、多媒體計算等。
現在發布該報告第一版,包括各個研究進展和研究問題的簡介,希望獲得學術界的反饋和修改建議。未來將對各個進展/問題條目做詳細描述,整理成一本書正式出版。