【導讀】如何進一步理解貝葉斯分類器以及與互信息分類器的區別是機器學習中的重要基礎知識。涉及到的基礎問題一是處理不平衡數據背后的數學原理是什么。二是如何驗證貝葉斯大腦猜想。本章給出了初步研究進展。
美籍華人學者周紹康(Chow,C.K.)1957年開創式將貝葉斯方法引入模式識別研究中,其它重要學術貢獻還有:融合拒識智能決策于分類問題中與共同提出“周-劉”樹的方法。這些都是創造知識的經典范例。本人正是受益于他1970年研究工作并擴展為不同拒識閾值(T_r1≠T_r2)情況下導出新的理論公式,更具一般性和圖解釋性(第13,14,16頁)。目前教科書中通常是以單交叉點圖(第14頁中圖)示意二值分類。其中三個定理擴充了機器學習與信息理論方面的基礎知識。第一定理給出了不平衡數據下貝葉斯分類器將失效的證明。第二定理給出了代價矩陣中獨立參數個數。這是參數可辨識性(即關于模型參數能否被惟一確定性質)研究內容。定理證明中應用了復合函數中獨立參數個數上界是其中最小尺寸參數集的維數,可以理解為木桶原理中的短板決定木桶容量。該方式證明有利于延伸到對多類分類代價矩陣中獨立參數個數的理解。第三定理給出了第二章中第3作業的解答。應用修正互信息定義不僅可以簡單地解決問題,在非拒識情況下與原始互信息定義等價。它是否會引入其它問題還值得讀者思考。
如果將貝葉斯分類與互信息分類視為兩種不同數學原理,如第5章中第13頁,代表了兩種不同驅動力機制(力學方式思考)。要理解第44頁中給出的例題為回答上面兩個基礎問題很有意義。處理不平衡數據要求小類樣本被多數正確識別(第1章中第38頁)。例題數值結果表明貝葉斯分類器是失效的。這樣一個反例即可以推翻貝葉斯為大腦統一理論的猜想。例題的重要發現是熵原理支撐了“物以稀為貴”這樣的分類決策(第54-55頁)。另一方面我們要理解證實某數學原理為統一理論則必須要窮舉。這通常是無法做到的。本人建議應用“猜想(conjecture)”的說法(如第1章第33頁)。這部分仍然需要讀者質疑”。對于大數據下的不平衡數據學習,對應代價敏感學習我們首次提出了代價缺失學習(即沒有代價方面信息)。雖然已經有其它的代價缺失學習方法(如AUC, 幾何平均等),但是只有互信息分類器能夠處理拒識學習(第57頁)。建議要思考這個“獨門絕技”方法的內涵。信息論不僅能夠深化解釋性,而且還為發展新的工具提供原理性的方法。
第30,43頁: 解釋為什么在拒識分類中應用代價矩陣會有解釋不一致性問題。這里以二值分類為例,會存在兩組參數是代表了同一個分類器。而第一組對應了誤差代價固定且相同,只是拒識代價不同。第二組對應了拒識代價固定且相同,只是誤差代價不同。這種現象被稱為解釋不一致性。由此會在應用中產生混亂的解釋結果。而應用拒識閾值可以獲得唯一解釋性。
第32頁: 希望同學們明白知識創新并非只是“高大上”的產物,只要是有心人,是可以預期獲得的。由張曉晚博士發展的的拒識分類ROC曲線(第32頁中右圖)就是這樣的實例。這是可以進入機器學習教科書中嶄新基礎知識。已有研究是應用三維方式描述拒識情況。而二維ROC曲線不僅常規應用,而且解釋性更直接與簡單(相關點給出的斜率計算公式解釋與獨立參數個數的解釋)。要理解對于同一個ROC曲線,左右圖是有關聯的。左圖只是右圖中拒識率為零的特殊情況。另一方面,左圖ROC曲線中黑點位置應該位于右圖ROC兩個黑點之間的曲線中(滿足第13頁中不等式關系)。為避免數據構成的ROC經驗曲線導出代價矩陣中有負值情況,應用中采用ROC凸包曲線(ROCCH,第49頁)常規方法。
第45,52頁: 應用互信息分類器可以根據數據分布獲得拒識閾值方面的信息。考慮到拒識分類常規應用中人們習慣應用代價矩陣。我們提出了代價矩陣計算方法,并保證解釋一致性。該方法提出了兩步計算方式。第一步是應用互信息分類器對數據按照非拒識分類計算,計算結果可以唯一確定一個代價參數。第二步 是應用互信息分類器對數據按照拒識分類計算,獲得拒識閾值具體值兩個(T_r1與T_r2)。根據第13頁中拒識閾值與代價參數之間的關系,以及其中四個代價參數已知(見第45頁),可以唯一確定剩余兩個固定代價參數。由此確保代價矩陣是唯一結果,實現了解釋一致性。
作業:
在第32頁左圖中,當類別趨于極端不平衡情況時,貝葉斯分類器會位于ROC曲線中的什么位置?互信息分類器結果會怎樣?
討論題:第54頁中是基于“物以稀為貴”語義的分類討論,有否應用中會與此相反?這時應該建議什么樣的學習目標?
思考題(第58頁):拒識分類是人類決策中的重要智能方式之一。你會怎樣找出優化方式的拒識閾值?人們一般是這樣給出嗎?
【導讀】本章是應用信息指標對拒識分類結果進行評價考察的內容,在不平衡數據學習中首次同時考察了“誤差類別(error types)”與“拒識類別(reject types)”。
拒識分類體現人類智能決策方式,也是大數據中“分而治之”的重要方法之一,以實現快速篩選與減少風險的雙重目標。如第4頁中的醫學診斷,圖中的U即是“拒識”也是“疑似病人”。值此機會,特別致謝那些奮戰在疫情前線的所有醫護人員,志愿者與工作人員們。正如著名演員周星馳先生2月21日對四川前往武漢的第一批醫療隊隊長雷波醫生說的“看到你們為了挽救生命全副武裝的緊箍咒,你們是我心中的蓋世英雄”。向英雄們致敬!
各種傳統評價指標在拒識分類應用中已經失效。英國劍橋大學Mackay教授在其2003年經典著作中以兩個例題(第8頁)指出了拒識分類評價這個問題(在此致謝楊余久博士告知我有關信息)。書中建議應用互信息指標來評價考察兩個例題,但未有展開研究。基于該思想,我們擴展到更多信息指標來綜合考察,并將拒識分類延伸到區分“誤差類別”與“拒識類別”的研究內容。由于問題復雜性,我們簡化為四個例題來同時考察“誤差類別”與“拒識類別”(第11頁)。可以具體看到傳統分類評價指標已經無法“合理”判定拒識分類結果。針對問題,我們首先提出拒識分類中要有三組“元準則(即關于準則之上的準則,也可以理解為是一種廣義約束)”來滿足“合理”評價(第12-15頁)。然后應用24個信息指標來考察四個例題以及多類別分類。我們稱為指標(或準則)而非度量是因為有些指標并非符合度量屬性。其中只有第2個信息指標更為“合理”。我們首次推導了信息指標為極值時對應的分類情況,即三個定理。第18頁圖示了分類性能與信息指標極值之間的關聯關系。對于理解兩種學習目標中的極值情況十分重要。當完全正確分類時可以對應信息指標極值,但是反之則不然。這也意味著單純應用信息指標不能確保正確分類。應用中同時需要分類性能指標來完成輔助評價。
第6頁: 對于有拒識二值分類中混淆矩陣,我們建議統一應用這樣2x3的矩陣元素方式表示,這樣能夠確保第一類錯誤以及第一類拒識都在矩陣中位于第一行中,并與統計學中第一類錯誤定義內涵保持一致。注意有些表示方法(如[1])擴展到拒識情況后將無法實現上述要求。
第26頁: 該圖給出了熵界分析的又一種表達方式,也是基于二值分類建立了信息指標與分類性能指標的關聯。該圖應用了三維表示,其中兩個信息指標為獨立變量,且熵界形狀固定并與類別比例無關(考慮為什么)。這個熵界分析對應非貝葉斯誤差情況。其中互信息I=0時,對應的混淆矩陣中四個元素的關系如同第24頁Case 4中所表達。
第32-36頁: 驗證NI_2符合第三元準則并進一步數值考察。可以發現NI_2還能在大類別比例趨于極端時,大類一個樣本錯誤代價與小類的一個樣本拒識代價之間的大小關系會發生變化(其中代價是指互信息損失)。這種變化應是合理的。此例題結果很具啟迪性。說明一個熵的概念可以同時兼容“誤差類別”與“拒識類別”之間的平衡。而傳統經驗指標處理該類問題必須要應用“誤差”與“拒識”兩個概念。
第38頁: 考察了主要分類性能指標及24個信息指標與三個元準則之間的關系。目前沒有一個傳統性能指標能夠處理拒識分類并可以考察拒識類別。其中信息指標NI_2的具體定義見第七章。互信息指標不滿足第一元準則,具體實例見第37頁中M19-與M20例題。想想該現象根源是什么?
作業:
討論題:如果將多類分類混淆矩陣對角線元素總和視為兩個隨機變量的相似性度量,應用該度量為橫軸,混淆矩陣的互信息為縱軸。那么你認為它們之間的關系曲線大體上是什么形狀,是單調的嗎?(提示:先考慮兩個端點,之后應用定理3。)
討論題:定理3是否意味應用互信息為相似性度量工具會有問題?包括應用在圖像配準或特征選擇中?
思考你能否發展出一種指標可以全部滿足三個元準則嗎?
附錄
這里介紹我與董未名教授合作發表的一篇觀點文章“格數致知:走向對世界的深度認知”[1]。“格數致知”說法是借鑒古代東西方哲人思想后,將東西方智慧相融合的一種創新嘗試。它的具體解釋是:“推究事物之內在本源,獲取知識之數學表達”。我們以人工智能發展背景來討論,在強調數學工具必要性同時,也指出應用方面與本質方面可能存在的問題。這個世界本質上是屬于無監督(沒有標準答案)學習為內涵,人類對世界認知猶如“盲人摸象”(如第一章第54頁)或“坐井觀天”,我們需要依賴大數據從更高維度以數學方式去認知真實世界[2]。
此課教學我們特別強調“個人思考”。個人見解可容錯,獨立思考方有成。第一章中我們有“學而不思則罔,思而不學則殆”的英文翻譯(第一章第27頁)。這是查閱翻譯反復推敲后給出個人見解。其中加上關鍵詞“知識”,明確了“學”與“思”的目標對象是什么 。由此正好契合于考察機器學習或人工智能研究。2017年3月深度學習開創者之一楊立昆(Yann LeCun)教授訪問我們模式識別國家重點實驗室并做精彩講座之后,我提問中包括向他介紹了這個翻譯,并認為目前深度學習或阿爾法狗似乎缺少“思”的部分。他的反應是頭一次聽到這樣有道理的古代東方說法。由此可以理解學習前人是為了不斷發展。向世界介紹并發展東方文化中的科學內涵應是中國學者的使命?東方特色講究“包容(本質是“人文”)”,西方特色講究“科學”。兩種文化無有對錯而只含利弊。學習西方文化不應丟棄東方文化優勢。我喜歡中國文化哲理,比如“厚德載物”,“和而不同”、“仁者愛人”、“天人合一”、“天下為公”、“修身齊家治國平天下”等思想,可以看到東方智慧中一種“大我”、"大愛”以及“大美”之境界。“包容”與“科學”傳統應是“互補而非競爭(模糊理論之父扎德對不同理論學派的用語[3])”。當世界變為地球村時,人類社會之間的“包容”以及“中庸之道”是否會并變得更為重要?我們應該向社會學家費孝通先生學習,從“天下大同”創新為“各美其美,美人之美,美美與共,天下大同”思想。要理解從來沒有一門學科會像人工智能學科這樣需要各種學科的“綜合”思考。沒有人文精神指導下的科學研究會否走偏?人類如何不成為自己創造工具下的奴隸?這些都為我們提供了更大的創新研究空間。
鼓勵同學們發展宏觀層面開放與跨領域思考的嘗試,只是碩士或博士論文中如果沒有“小心求證”工作可要小心喲?
Zadeh, L. A., "Discussion: Probability theory and fuzzy logic are complementary rather than competitive", Technometrics, 37(3), 271-276, 1997.
【導讀】熵界分析是建立信息類學習目標與傳統經驗類學習目標(如誤差)之間關系的基礎理論內容。熵界分析對于理解兩種學習目標十分重要。二值分類(如支持向量機)是機器分類學習中最為基本的單元。在第三章中我們圖示了二值分類的熵界。這只是對熵界從機器學習角度的初始理解。本章給出了在機器學習背景下推導熵界的全新理論知識,說明信息論與機器學習綜合后可以獲得共同進展。
首先,我們區別考慮貝葉斯誤差與非貝葉斯誤差兩種情況的熵界分析。由于多數分類器是以非貝葉斯方法出現,如深度學習,支持向量機,決策樹等。因此非貝葉斯誤差熵界分析更為重要。而傳統信息論研究中僅考慮貝葉斯誤差。其次,新的熵界分析是從聯合概率分布為初始條件,應用優化方式導出上下界。而傳統方法是從條件概率分布為初始條件,應用不等式方法推導熵界(如第三章中的Fano下界)。再有,新方法能夠建立條件熵與誤差類別(e_1與e_2)之間關聯,增加了對誤差方面更全面的解釋性。而傳統分析中只能有總誤差(e=e_1+e_2)方面信息理解。最后,對于原有Fano下界發現的新知識(或解釋)有:該界不僅對應兩個隨機變量是獨立情況(互信息等于零,或條件熵為最大),也可以對應非獨立情況(互信息不等于零)。對于原有Kovalevskij上界發現的新知識有:對于貝葉斯誤差情況,新推導的上界為嚴格解、比Kovalevskij上界更緊且只有兩點經過Kovalevskij上界(第19頁)。
第4-10頁:要理解貝葉斯誤差在機器學習情況下只是理論上存在,因為我們無法獲得數據中實際概率分布信息。在此我們是通過分類問題中給定的混淆矩陣推出聯合概率分布的估計(第10頁)。只有當總誤差e大于最小類別比率p_min時,我們才能判定這是非貝葉斯誤差(想想為什么)。否則是無法判定,因此通常該e可以對應貝葉斯誤差或非貝葉斯誤差情況(第8頁)。
第25-26頁: 這是王泳博士首次推導了互信息與分類準確率A、召回率R、精確率P之間的熵界分析。從數學關系表達上講,應該用兩個獨立變量更為正確。而實際推導結果顯示,應用這三個變量A、R、P表達,方可獲得這樣更為簡潔的數學表達式。這三個變量構成冗余關系,即任一個變量可以由其它兩個變量導出。第26頁圖首次給出了熵界分析的另一種表達方式。其中熵界形狀是與類別比例相關,并能夠變化。這個熵界分析隱含為非貝葉斯誤差情況。
第40頁: 這頁包擴了本人的三個作品。一個工具箱,兩個圖標設計。工具箱適用于多分類問題中24個信息指標計算,因此讀者可以驗證課件中的全部例題。并可以輸入你個人的任意混淆矩陣進行計算。工具箱需求在Scilab開源平臺上運行,這是與Matlab十分相似的軟件。讀者可以自行下載有關軟件。如果應用其它類平臺,可以參照工具箱中代碼自行編寫。這些作品除了源自個人喜歡之外,還有一種“不甘”心態:中國人不是天生的盜版者或搭車人,我們會成為被世人尊重的創造者。只是要早明白這個道理并實踐。其中圖標OpenPR對應我們模式識別國家重點實驗室于2011年開展的“開放模式識別項目”。希望研究者能夠提供相關的軟件與工具箱或數據等,以促進相關領域學術交流與積累。
作業:
對第26頁圖示中NI=1時的情況給出有關分類結果的解釋。
對第5.5中全部實例應用個人實際數值計算來考察正確否?給出個人對實例中熵界的內涵及其分類方面的解釋。
思考你能否推出三類別分類的熵界分析公式嗎?
附錄(用于課間交流話題):
這里分享我個人與開源軟件相遇后的經歷說明人生當要:向大師學習,走創新之路。2001年由于工作原因我了解到法國科學家發展的開源軟件Scilab。興奮之后是一種共鳴:開源世界,精彩繽紛,大可作為。事實上,我在1980-1983年期間碩士研究生工作就極大地受益于美國加州大學伯克利分校兩位學者Wilson與Bathe(師生關系)1974年發布的開放源碼有限元程序SAP-4軟件(向他們致敬并特別致謝北京大學力學系幾位老師的教學推廣工作)。向開源原理與歷史學習激勵我們編寫了一份教材:《科學計算自由軟件-SCILAB教程》,(清華大學出版社, 2003年1月,在此感謝趙星博士與康孟珍博士)。就我所知,這應是國內第一本包含版權協議與開源內容的計算機教材。體現了思想原理大于技術細節的教學理念。我們中法實驗室LIAMA在與國內多所大學合作從2001年起舉辦研討會,2002年起增加軟件競賽之后(在此感謝所有曾支持或參與推廣Scilab活動的人員),我個人參照Linux企鵝圖標方式為Scilab設計了海鸚(Puffin)吉祥物(在此感謝張之益老師相助完成圖標計算機繪制)。其中采用卡通形象的海鸚高昂著頭寓意:“創開源,我自豪”。英文解釋語為“Be Proud of Developing Open Source”[1]。這個說法也是針對當時微軟企業在國內推銷產品時的用語:“用正版,我自豪”。而我理解應是“用正版,我坦然。創開源,我自豪”的價值觀。同學們的參賽作品讓我們看到了中國學生是太優秀了。可惜的是我們教育機構及老師們引導工作是否做到位了?我個人也是出國留學后才逐步明白“走創新之路”道理[2],經歷了懵懂到開竅的過程。許多創造可能不是能力問題,而是觀念問題。學生時代如果有了好的知識產權文化并具體實踐開源軟件,中國發展是否能有另一番景象?
最后建議讀者了解一下大西洋海鸚[3],它猶如大熊貓一樣可愛。而法文維基百科海鸚欄目中還介紹了我的作品[4]。特別感謝法國兩位科學家對自由軟件Scilab與海鸚吉祥物作出的進一步詮釋[5]。讀者還可以看到更多開源軟件的吉祥物[6],是不是很好玩?不知你會有否沖動也設計一個吉祥物?
【導讀】在信息論或機器學習教學中,通常不包含熵估計內容。由于現代通訊應用中是數字通訊,對于離散隨機變量,熵估計方法成熟,因此不是問題。而在機器學習或大數據處理中,大量數據是以連續隨機變量方式出現(如圖像、語音等)。而對連續隨機變量及其混合隨機變量,目前熵估計仍然處于方法研究發展階段。機器學習傳統教學中會包括分布估計,而不包括熵估計內容。我們知道熵估計類似于隨機變量分布估計,需求大量且在低維數據中方可獲得較好的近似解。熵估計或分布估計均屬于“生成式(discriminative)學習”,會比“判別式(generative)學習”更難于處理,且預測結果誤差更大。熵估計可以被認為是信息論與機器學習“綜合”中的最大障礙。而這些障礙有些是本質性的,比如高維數據情況下的維數災難(Curse of Dimensionality)問題。當估計結果很差時,基于信息論機器學習方法將不可能有效。比如對同樣一組數據,應用不同估計方法或不同內部參數會有很大不同結果。因此可以認為基于信息論機器學習中,熵與其它信息量估計是關鍵性的基礎問題。因此本教學中,增加該章為獨立內容。我們認為對抗網絡(GAN)中的“生成式”方法結合“判別式”方法是賦予智能機器進化功能中的重要學習方式,其中信息論會扮演重要角色(想想為什么)。該章是講解熵與其它信息量估計這樣基礎問題與必要知識,由此也理解為什么近年來這個主題研究開始活躍起來。
第17-22頁: 在第一章中我們介紹了美國佛羅里達大學Principe教授是國際上首次提出“信息論機器學習(ITL)”理論框架的學者。基于此框架他們團隊發展了許多基礎性的原創工作。這里主要是他們關于二次Renyi熵中的部分貢獻。其中從物理視角提出信息勢、信息勢場、信息力的定義(第19頁),并與二次Renyi熵建立關聯的學術思想十分重要并具啟迪性。本人理解這是對機器學習從信息論角度提供解釋性的重要基礎。其中給我的啟迪是未來要打通機器學習、信息論、物理原理之間的關聯。第22頁中的要點也可以理解為熵估計方法中期望的性質。
第30-37頁: 我認為MIC方法給出了信息論中互信息定義擴展應用與估計方法創新的典型樣例。他們首先發現現有指標應用中的問題,然后提出基于信息論為基礎思想的指標,再后對這個指標提出需求滿足兩個啟發式屬性。這是一種頂層的先驗知識。我們將其稱為“元準則”,即關于準則之上的準則。最后是發展了具體MIC方法并從數據實驗中表明該方法是基本符合兩個啟發式屬性。希望讀者能夠從從這個研究樣例中“悟”出一種個人總結的方法論?