來源| 麻省理工學院
編輯| 專知翻譯整理
揭開機器學習系統的神秘面紗
麻省理工學院的研究人員創造了一種技術,可以用自然語言自動描述單個神經元在神經網絡中的作用。
01 研究成果在頂級會議【ICLR 2022】發表
標題 Natural Language Descriptions of Deep Visual Features
作者 Evan Hernandez, Sarah Schwettmann, David Bau, Teona Bagashvili, Antonio Torralba, Jacob Andreas
摘要 深度網絡中的一些神經元專門識別輸入的高度特定的感知、結構或語義特征。在計算機視覺中,存在用于識別對顏色、紋理和對象類別等單個概念類別作出反應的神經元的技術。但是這些技術的范圍有限,只能標記任何網絡中的一小部分神經元和行為。是否有可能對神經元級計算進行更豐富的表征?我們引入了一個程序(稱為 MILAN,用于神經元的互信息引導語言注釋),該程序使用開放式、組合式自然語言描述自動標記神經元。給定一個神經元,MILAN 通過搜索一個自然語言字符串來生成一個描述,該字符串使與神經元處于活動狀態的圖像區域的逐點互信息最大化。MILAN 生成細粒度的描述,捕捉學習特征中的分類、關系和邏輯結構。這些描述在各種模型架構和任務中與人工生成的特征描述高度一致,有助于理解和控制學習模型。我們重點介紹自然語言神經元描述的三種應用。首先,我們使用 MILAN 進行分析,表征視覺模型中對屬性、類別和關系信息有選擇性的神經元的分布和重要性。其次,我們使用 MILAN 進行審計,在旨在掩蓋這些特征的數據集上訓練的模型中顯示對受保護類別(如種族和性別)敏感的神經元。最后,我們使用 MILAN 進行編輯。
02 成果解讀
神經網絡有時被稱為黑盒,因為盡管它們可以在某些任務上勝過人類,但即使是設計它們的研究人員也常常不了解它們如何或為什么工作得這么好。但是,如果在實驗室外使用神經網絡,也許可以對有助于診斷心臟病的醫學圖像進行分類,了解該模型的工作原理有助于研究人員預測其在實踐中的表現。
麻省理工學院的研究人員現在已經開發出一種方法,可以揭示黑盒神經網絡的內部工作原理。以人腦為模型,神經網絡被排列成處理數據的互連節點或“神經元”層。新系統可以自動生成對這些單個神經元的描述,以英語或其他自然語言生成。
例如,在經過訓練以識別圖像中動物的神經網絡中,他們的方法可能將某個神經元描述為檢測狐貍的耳朵。與其他方法相比,他們的可擴展技術能夠為單個神經元生成更準確和更具體的描述。
在新論文中,該團隊表明,這種方法可用于審核神經網絡以確定它學到了什么,甚至可以通過識別然后關閉無用或不正確的神經元來編輯網絡。
“我們想創建一種方法,讓機器學習從業者可以為這個系統提供他們的模型,它會從模型神經元的角度,用語言告訴他們它所知道的關于該模型的一切。這可以幫助您回答基本問題,“我的模型是否知道一些我沒想到它會知道的東西?” 麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 的研究生和主要作者 Evan Hernandez 說的論文。
合著者包括 CSAIL 的博士后 Sarah Schwettmann;David Bau,剛從 CSAIL 畢業的東北大學計算機科學助理教授;Teona Bagashvili,CSAIL 的前訪問學生;Antonio Torralba,Delta Electronics 電氣工程和計算機科學教授,CSAIL 成員;和資深作者 Jacob Andreas,CSAIL 的 X 聯盟助理教授。
03 自動生成描述
大多數幫助機器學習從業者了解模型如何工作的現有技術要么描述整個神經網絡,要么要求研究人員識別他們認為單個神經元可能關注的概念。
Hernandez 和他的合作者開發的系統被稱為 MILAN(神經元的互信息引導語言注釋),改進了這些方法,因為它不需要預先列出概念,并且可以自動生成網絡中所有神經元的自然語言描述. 這一點尤其重要,因為一個神經網絡可以包含數十萬個單獨的神經元。
MILAN 生成針對計算機視覺任務(如對象識別和圖像合成)訓練的神經網絡中的神經元的描述。為了描述給定的神經元,系統首先檢查該神經元在數千張圖像上的行為,以找到該神經元最活躍的一組圖像區域。接下來,它為每個神經元選擇一種自然語言描述,以最大化圖像區域和描述之間稱為逐點互信息的量。這鼓勵了描述每個神經元在更大網絡中的獨特作用。
“在經過訓練對圖像進行分類的神經網絡中,將有大量不同的神經元來檢測狗。但是有很多不同類型的狗和狗的很多不同部位。因此,即使“狗”可能是對許多這些神經元的準確描述,它的信息量也不是很大。我們想要對神經元正在做什么非常具體的描述。這不僅僅是狗;這是德國牧羊犬耳朵的左側,”Hernandez說。
該團隊將 MILAN 與其他模型進行了比較,發現它生成了更豐富、更準確的描述,但研究人員更感興趣的是了解它如何幫助回答有關計算機視覺模型的特定問題。
04 分析、審查和編輯神經網絡
首先,他們使用 MILAN 來分析哪些神經元在神經網絡中最重要。他們為每個神經元生成描述,并根據描述中的單詞對它們進行排序。他們慢慢地從網絡中移除神經元,看看它的準確性如何變化,并發現在描述中包含兩個非常不同的詞(例如花瓶和化石)的神經元對網絡不太重要。
他們還使用 MILAN 來審核模型,看看他們是否學到了一些意想不到的東西。研究人員采用在人臉模糊的數據集上訓練的圖像分類模型,運行 MILAN,并計算有多少神經元仍然對人臉敏感。
“以這種方式模糊面部確實減少了對面部敏感的神經元數量,但遠未消除它們。事實上,我們假設其中一些面部神經元對特定的人口群體非常敏感,這非常令人驚訝。這些模型以前從未見過人臉,但它們內部卻發生了各種面部處理,”Hernandez 說。
在第三個實驗中,該團隊使用 MILAN 通過查找和刪除檢測數據中不良相關性的神經元來編輯神經網絡,這導致網絡在表現出相關性問題的輸入上的準確性提高了 5%。
雖然研究人員對 MILAN 在這三個應用程序中的表現印象深刻,但該模型有時給出的描述仍然過于模糊,或者當它不知道它應該識別的概念時會做出錯誤的猜測。
他們計劃在未來的工作中解決這些限制。他們還希望繼續增強 MILAN 能夠生成的描述的豐富性。他們希望將 MILAN 應用于其他類型的神經網絡,并用它來描述神經元組的作用,因為神經元協同工作以產生輸出。
“這是一種自下而上的可解釋性方法。目標是使用自然語言生成功能的開放式組合描述。我們希望利用人類語言的表達能力來生成對神經元所做的更自然和豐富的描述。能夠將這種方法推廣到不同類型的模型是我最興奮的事情,”Schwettmann 說。
“對任何可解釋人工智能技術的最終測試是它是否可以幫助研究人員和用戶就何時以及如何部署人工智能系統做出更好的決策,”安德烈亞斯說。“我們距離能夠以一般方式做到這一點還有很長的路要走。但我樂觀地認為,米蘭——以及更廣泛地使用語言作為解釋工具——將成為工具箱中有用的一部分。”
這項工作的部分資金來自 MIT-IBM Watson AI Lab 和 SystemsThatLearn@CSAIL 計劃。
Some neurons in deep networks specialize in recognizing highly specific perceptual, structural, or semantic features of inputs. In computer vision, techniques exist for identifying neurons that respond to individual concept categories like colors, textures, and object classes. But these techniques are limited in scope, labeling only a small subset of neurons and behaviors in any network. Is a richer characterization of neuron-level computation possible? We introduce a procedure (called MILAN, for mutual-information-guided linguistic annotation of neurons) that automatically labels neurons with open-ended, compositional, natural language descriptions. Given a neuron, MILAN generates a description by searching for a natural language string that maximizes pointwise mutual information with the image regions in which the neuron is active. MILAN produces fine-grained descriptions that capture categorical, relational, and logical structure in learned features. These descriptions obtain high agreement with human-generated feature descriptions across a diverse set of model architectures and tasks, and can aid in understanding and controlling learned models. We highlight three applications of natural language neuron descriptions. First, we use MILAN for analysis, characterizing the distribution and importance of neurons selective for attribute, category, and relational information in vision models. Second, we use MILAN for auditing, surfacing neurons sensitive to human faces in datasets designed to obscure them. Finally, we use MILAN for editing, improving robustness in an image classifier by deleting neurons sensitive to text features spuriously correlated with class labels.
來源| 麻省理工學院 編輯| 專知翻譯整理
機器學習模型的解釋方法效果如何? 開發了一種方法來測試理解機器學習模型的流行方法是否正常工作
01 研究成果在頂級會議【AAAI 2022】發表
標題
Do Feature Attribution Methods Correctly Attribute Features?
作者
Yilun Zhou, Serena Booth, Marco Tulio Ribeiro, Julie Shahx
摘要
特征歸因方法在可解釋的機器學習中很流行。這些方法計算每個輸入特征的屬性以表示其重要性,但對“屬性”的定義沒有達成共識,導致許多競爭方法幾乎沒有系統評估,特別是由于缺乏基本事實屬性而變得復雜。為了解決這個問題,我們提出了一個數據集修改程序來誘導這種基本事實。使用這個過程,我們評估了三種常見的方法:顯著性圖、基本原理和注意力。我們發現了幾個缺陷,并為越來越多的證據添加了新的觀點,這些證據質疑這些方法在野外數據集上應用的正確性和可靠性。我們進一步討論了可能的補救途徑,并推薦了新的歸因方法,以便在部署之前針對基本事實進行測試。
paper
//www.zhuanzhi.ai/paper/ff9e8c12cebe8c704d5f64ec64b594ab
code
?
想象一個醫生團隊使用神經網絡在乳房 X 線照片中檢測癌癥。即使這種機器學習模型似乎表現良好,它也可能專注于與腫瘤意外相關的圖像特征,如水印或時間戳,而不是腫瘤的實際跡象。
為了測試這些模型,研究人員使用“特征歸因方法”,這些技術應該告訴他們圖像的哪些部分對神經網絡的預測最重要。但是,如果歸因方法遺漏了對模型很重要的特征怎么辦?由于研究人員不知道從哪些特征開始很重要,因此他們無法知道他們的評估方法是無效的。
為了幫助解決這個問題,麻省理工學院的研究人員設計了一個修改原始數據的過程,以便他們確定哪些特征對模型實際上很重要。然后他們使用這個修改后的數據集來評估特征歸因方法是否能夠正確識別這些重要特征。
他們發現,即使是最流行的方法也經常會遺漏圖像中的重要特征,并且有些方法幾乎無法像隨機基線那樣執行。這可能會產生重大影響,特別是如果將神經網絡應用于醫療診斷等高風險情況。如果網絡不能正常工作,并且試圖捕捉此類異常的嘗試也不能正常工作,人類專家可能不知道他們被錯誤模型誤導,主要作者、電氣工程和計算機科學研究生 Yilun Zhou 解釋說在計算機科學和人工智能實驗室(CSAIL)。
“所有這些方法都被廣泛使用,特別是在一些真正高風險的場景中,比如通過 X 射線或 CT 掃描檢測癌癥。但這些特征歸因方法一開始就可能是錯誤的。他們可能會突出顯示與模型用來進行預測的真實特征不對應的東西,我們發現這種情況經常發生。如果你想使用這些特征歸因方法來證明模型正常工作,你最好首先確保特征歸因方法本身正常工作,”他說。
Zhou 與 EECS 研究生 Serena Booth、微軟研究院研究員 Marco Tulio Ribeiro 和資深作者 Julie Shah 共同撰寫了這篇論文,后者是麻省理工學院航空航天學教授和 CSAIL 交互式機器人組主任。
02 專注于功能
在圖像分類中,圖像中的每個像素都是神經網絡可以用來進行預測的特征,因此它可以關注數百萬個可能的特征。例如,如果研究人員想設計一種算法來幫助有抱負的攝影師改進,他們可以訓練一個模型來區分專業攝影師拍攝的照片和休閑游客拍攝的照片。該模型可用于評估業余照片與專業照片的相似程度,甚至提供改進的具體反饋。研究人員希望該模型能夠在訓練期間專注于識別專業照片中的藝術元素,例如色彩空間、構圖和后期處理。但碰巧一張專業拍攝的照片可能包含攝影師姓名的水印。
“顯然,我們不想告訴有抱負的攝影師,水印是成功事業所需要的一切,因此我們希望確保我們的模型專注于藝術特征而不是水印的存在。使用特征歸因方法來分析我們的模型很誘人,但歸根結底,并不能保證它們能正常工作,因為模型可以使用藝術特征、水印或任何其他特征,”Zhou 說。
“我們不知道數據集中那些虛假的相關性是什么。可能有很多不同的東西可能對一個人來說是完全察覺不到的,比如圖像的分辨率,”Booth 補充道。“即使我們無法察覺,神經網絡也可能會提取這些特征并使用它們進行分類。這是根本問題。我們不太了解我們的數據集,但也無法很好地了解我們的數據集。”
研究人員修改了數據集以削弱原始圖像和數據標簽之間的所有相關性,從而保證原始特征不再重要。
然后,他們為圖像添加一個新特征,該特征非常明顯,神經網絡必須專注于它才能進行預測,例如不同圖像類別的不同顏色的明亮矩形。
“我們可以自信地斷言,任何獲得真正高置信度的模型都必須關注我們放入的那個彩色矩形。然后我們可以看看所有這些特征歸因方法是否急于突出該位置而不是其他一切,”Zhou 說。
03 “特別令人震驚”的結果
他們將這種技術應用于許多不同的特征歸因方法。對于圖像分類,這些方法會產生所謂的顯著性圖,它顯示了分布在整個圖像中的重要特征的集中度。例如,如果神經網絡正在對鳥類的圖像進行分類,則顯著性圖可能會顯示 80% 的重要特征集中在鳥喙周圍。
在去除圖像數據中的所有相關性后,他們以多種方式處理照片,例如模糊圖像的某些部分、調整亮度或添加水印。如果特征歸因方法正常工作,那么幾乎 100% 的重要特征應該位于研究人員操作的區域周圍。
結果并不令人鼓舞。沒有一種特征歸因方法接近 100% 的目標,大多數幾乎沒有達到 50% 的隨機基線水平,有些甚至在某些情況下表現比基線差。因此,即使新特征是模型可以用來進行預測的唯一特征,特征歸因方法有時也無法識別。
“在所有不同類型的虛假相關中,這些方法似乎都不是非常可靠。這尤其令人擔憂,因為在自然數據集中,我們不知道哪些虛假相關可能適用,”Zhou說。“這可能是各種因素。我們認為我們可以相信這些方法告訴我們,但在我們的實驗中,似乎很難相信它們。”
他們研究的所有特征歸因方法都比不存在異常更能檢測異常。換句話說,這些方法比識別圖像不包含水印更容易找到水印。因此,在這種情況下,人類更難以信任給出負面預測的模型。
該團隊的工作表明,在將特征歸因方法應用于現實世界模型之前對其進行測試至關重要,尤其是在高風險情況下。
“研究人員和從業者可能會使用特征歸因方法等解釋技術來建立一個人對模型的信任,但除非首先對解釋技術進行嚴格評估,否則這種信任是無法建立的,”Shah 說。“一種解釋技術可以用來幫助校準一個人對模型的信任,但校準一個人對模型解釋的信任同樣重要。”
未來,研究人員希望使用他們的評估程序來研究可能導致虛假相關性的更微妙或現實的特征。他們想要探索的另一個工作領域是幫助人類理解顯著性圖,以便他們可以根據神經網絡的預測做出更好的決策。
這項研究部分得到了美國國家科學基金會的支持。
來源|麻省理工學院新聞辦公室 編輯|專知翻譯整理
?研究人員發現一些計算機視覺系統處理圖像的方式與人類通過眼角看到的方式之間存在相似之處。
也許計算機視覺和人類視覺有更多的共同點?
麻省理工學院的研究表明,某種類型的強大計算機視覺模型感知視覺表示的方式類似于人類使用周邊視覺的方式。這些模型被稱為對抗性魯棒模型,旨在克服添加到圖像數據中的細微噪聲。
研究人員發現,這些模型學習轉換圖像的方式類似于人類外圍處理中涉及的某些元素。但由于機器沒有視覺外圍,計算機視覺模型的工作很少集中在外圍處理上,資深作者、大腦、思維和機器中心的博士后 Arturo Deza 說。
“這似乎是周邊視覺,以及正在進行的紋理表示,已被證明對人類視覺非常有用。所以,我們的想法是,也許對機器也有一些用途,”核心作者、電氣工程和計算機科學系的研究生 Anne Harrington 說。
結果表明,設計一個包含某種形式的外圍處理的機器學習模型可以使模型能夠自動學習對圖像數據中的一些細微操作具有魯棒性的視覺表示。Deza 補充說,這項工作還可以幫助闡明人類外圍處理的目標,這些目標仍然沒有得到很好的理解。
該研究成果在國際頂會(ICLR 2022)上發表(如下)。
【Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks】:最近的工作表明,深度神經網絡 (DNN) 訓練數據集中的特征約束驅動了對抗性噪聲的魯棒性(Ilyas 等人,2019 年)。通過圖像處理,這種對抗性魯棒網絡學習的表示也被證明比非魯棒網絡在人類感知上更一致(Santurkar 等人,2019 年,Engstrom 等人,2019 年)。盡管看起來更接近人類視覺感知,但尚不清楚穩健 DNN 表示中的約束是否與人類視覺中發現的生物約束相匹配。人類視覺似乎依賴于外圍基于紋理/摘要的統計表示,這已被證明可以解釋諸如擁擠 (Balas et al., 2009) 和視覺搜索任務 (Rosenholtz et al., 2012) 等現象。為了了解對抗性魯棒優化/表示與人類視覺相比如何,我們使用類似于 Freeman & Simoncelli, 2011, Wallis et al., 2016 和 Deza et al., 2019 的 metamer 任務進行了心理物理學實驗,我們評估了人類的表現如何觀察者可以區分為匹配對抗性魯棒表示而合成的圖像與非魯棒表示和周邊視覺的紋理合成模型(Texforms a la Long et al., 2018)。我們發現,隨著刺激在外圍呈現得更遠,魯棒表示和紋理模型圖像的可辨別性降低到接近機會的表現。此外,魯棒和紋理模型圖像的性能在參與者中顯示出相似的趨勢,而在非魯棒表示上的性能在整個視野中變化很小。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。
【雙重視覺】
人類和計算機視覺系統都具有所謂的中心凹視覺,用于檢查高度詳細的物體。人類還擁有周邊視覺,用于組織廣闊的空間場景。Deza 說,典型的計算機視覺方法試圖模擬中央凹視覺——這是機器識別物體的方式——并且傾向于忽略周邊視覺。
但是中央凹計算機視覺系統容易受到攻擊者添加到圖像數據中的對抗性噪聲的影響。在對抗性攻擊中,惡意代理會巧妙地修改圖像,因此每個像素都發生了非常細微的變化——人類不會注意到差異,但噪音足以欺騙機器。例如,一張圖像對人類來說可能看起來像一輛汽車,但如果它受到對抗性噪聲的影響,計算機視覺模型可能會自信地將其誤分類為蛋糕,這可能會對自動駕駛汽車產生嚴重影響。
為了克服這個漏洞,研究人員進行了所謂的對抗性訓練,他們創建了經過對抗性噪聲操縱的圖像,將它們輸入神經網絡,然后通過重新標記數據并重新訓練模型來糾正其錯誤。
“僅僅進行額外的重新標記和訓練過程似乎就與人類處理產生了很多感知上的一致性,”Deza 說。
他和 Harrington 想知道這些經過對抗訓練的網絡是否健壯,因為它們編碼的對象表示類似于人類周邊視覺。因此,他們設計了一系列心理物理人體實驗來檢驗他們的假設。
【檢測時間】
他們從一組圖像開始,并使用三種不同的計算機視覺模型從噪聲中合成這些圖像的表示:一個“正常”機器學習模型,一個經過訓練具有對抗魯棒性的模型,一個專門設計用于解釋了人類外圍處理的某些方面,稱為 Texforms。
該團隊在一系列實驗中使用了這些生成的圖像,參與者被要求區分原始圖像和每個模型合成的表示。一些實驗還讓人類區分來自相同模型的不同對隨機合成圖像。
參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的遠端,在他們周圍的不同位置閃爍。在一個實驗中,參與者必須在一系列圖像中識別出奇怪的圖像,這些圖像一次只閃爍幾毫秒,而在另一個實驗中,他們必須匹配在他們的中央凹處呈現的圖像,兩個候選模板圖像放置在他們的外圍。
在實驗中,參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的另一邊閃爍,在他們周圍的不同位置,就像這些動畫 gif 一樣。在一項實驗中,參與者必須在一系列圖像中識別出奇怪的圖像,這些圖像一次只閃爍幾毫秒。由研究人員提供。
在這個實驗中,研究人員讓人類將中心模板與兩個外圍模板之一進行匹配,而他們的眼睛不會從屏幕中心移開。由研究人員提供。
當合成圖像顯示在遠處時,參與者在很大程度上無法區分對抗性魯棒模型或 Texform 模型的原始圖像。標準機器學習模型并非如此。
然而,最引人注目的結果可能是人類所犯的錯誤模式(作為刺激在外圍的位置的函數)在所有使用來自 Texform 模型的刺激的實驗條件和對抗性穩健的模型。這些結果表明,對抗性穩健模型確實捕捉到了人類外圍處理的某些方面,Deza 解釋說。
研究人員還計算了特定的機器學習實驗和圖像質量評估指標,以研究每個模型合成的圖像之間的相似性。他們發現對抗性魯棒模型和 Texforms 模型生成的模型最相似,這表明這些模型計算相似的圖像轉換。
“我們正在闡明人類和機器如何犯同樣類型的錯誤,以及為什么會犯這種錯誤,”Deza 說。為什么會發生對抗性魯棒性?是否存在我們尚未在大腦中發現的機器對抗魯棒性的生物學等效物?”
Deza希望這些結果能激發該領域的更多工作,并鼓勵計算機視覺研究人員考慮構建更多受生物啟發的模型。
這些結果可用于設計具有某種模擬視覺外圍的計算機視覺系統,可以使其對對抗性噪聲具有自動魯棒性。這項工作還可以為機器的開發提供信息,這些機器能夠通過使用人類外圍處理的某些方面來創建更準確的視覺表示。
“我們甚至可以通過嘗試從人工神經網絡中獲取某些屬性來了解人類視覺,”Harrington 補充道。
以前的工作已經展示了如何隔離圖像的“穩健”部分,在這些圖像上的訓練模型使它們不太容易受到對抗性失敗的影響。達姆施塔特工業大學心理學研究所和認知科學中心的感知教授托馬斯沃利斯解釋說,這些強大的圖像看起來像是真實圖像的加擾版本。
“為什么這些強大的圖像看起來像它們的樣子?Harrington 和 Deza 使用仔細的人類行為實驗來表明,人們看到這些圖像與外圍原始照片之間差異的能力在質量上與從受生物啟發的人類外圍信息處理模型生成的圖像相似,”Wallis 說,誰沒有參與這項研究。“Harrington 和 Deza 提出,學習忽略外圍一些視覺輸入變化的相同機制可能是為什么穩健的圖像看起來像它們的樣子,以及為什么對穩健的圖像進行訓練會降低對抗敏感性。這個有趣的假設值得進一步研究,并且可以代表生物和機器智能研究之間協同作用的另一個例子。”
這項工作得到了麻省理工學院大腦、思想和機器中心和洛克希德馬丁公司的部分支持。
深度學習(DL)是一個快速發展的領域,在執行傳統上只有人類才能完成的任務時,它已經顯示出驚人的結果。這類任務的例子包括圖像分類、生成圖像的自然語言描述、自然語言翻譯、語音到文本和文本到語音的轉換。學習深度學習(這本書,以后稱為LDL)會讓您快速了解這個主題。它教DL如何工作,它可以做什么,并給你一些實踐經驗,總體目標是為你的進一步學習打下堅實的基礎。
在這本書中,我們使用像這樣的綠色文本框來突出我們認為特別重要的概念。這樣做的目的是確保您不會錯過關鍵概念。讓我們首先指出,我們認為深度學習很重要。
你們將學習感知器和其他人造神經元。它們是促成DL革命的深層神經網絡的基本構件。您將學習完全連接的前饋網絡和卷積網絡。您將應用這些網絡來解決實際問題,例如基于大量變量預測房價,或識別圖像屬于哪個類別。圖P-1顯示了這些類別和圖像的示例。您還將了解如何使用捕獲已編碼單詞的一些語義的編碼來表示自然語言中的單詞。然后,您將使用這些編碼與循環神經網絡一起創建一個基于神經的自然語言翻譯程序。如圖P-2所示,這個翻譯人員可以自動將簡單句子從英語翻譯成法語或其他類似語言。
最后,您將學習如何構建一個結合圖像和語言處理的圖像描述網絡。該網絡以圖像為輸入,自動生成圖像的自然語言描述。我們剛才描述的是LDL的主要描述。在整個旅程中,您將了解許多其他細節。此外,我們還將以一些其他重要的主題作為結尾。我們還提供了深入討論主題集合的附錄。
深度神經網絡擅長于尋找解決大型數據集上復雜任務的層次表示。我們人類如何理解這些學習得到表示?在這項工作中,我們提出了網絡解剖,一個分析框架,系統地識別在圖像分類和圖像生成網絡中個別隱藏單元的語義。首先,我們分析一個在場景分類方面受過訓練的卷積神經網絡(CNN),并發現匹配不同對象概念集的單元。我們發現網絡已經學習了許多在場景類分類中起關鍵作用的對象類。其次,我們使用類似的分析方法來分析生成對抗網絡(GAN)模型訓練生成場景。通過分析激活或停用小組單元時的變化,我們發現對象可以在適應上下文的同時從輸出場景中添加或刪除。最后,我們將分析框架應用于理解敵對攻擊和語義圖像編輯。
主題: Neural Topological SLAM for Visual Navigation
摘要: 本文研究了圖像目標導航的問題,該問題涉及在以前看不見的新型環境中導航到目標圖像指示的位置。 為了解決這個問題,我們設計了空間的拓撲表示,以有效利用語義并提供近似的幾何推理。 表示的核心是具有關聯語義特征的節點,這些節點使用粗略的幾何信息相互連接。我們描述了基于監督學習的算法,該算法可以在噪聲激勵下構建,維護和使用此類表示。 在視覺和物理逼真的模擬中的實驗研究表明,我們的方法建立了有效的表示形式,可以捕獲結構規律性并有效解決長視距導航問題。 與研究該任務的現有方法相比,我們觀察到相對改進了50%以上。
題目: Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models
摘要: 最近基于Transformer的大規模預訓練模型已經徹底改變了視覺和語言(V+L)研究。ViLBERT、LXMERT和UNITER等模型通過聯合圖像-文本預訓練在大量的V+L基準上顯著提高了技術水平。然而,人們對這些令人印象深刻的成功背后的內在機制知之甚少。為了揭示這些強大的模型的場景背后的秘密,我們提出的Value(視覺和語言理解評估),是一個精心設計的探索任務(如視覺算法,視覺檢測的關系,語言探索任務)可概括的標準預訓練V+L模型,旨在解讀多通道的內部運作訓練的(例如,個人的隱性知識獲得關注,通過上下文化的多模態嵌入學習的固有的跨模態對齊)。通過這些探測任務對每個原型模型體系結構進行大量的分析,我們的主要觀察結果如下:(i)預訓練的模型顯示出在推理過程中專注于文本而非圖像的傾向。(ii)存在一種注意力頭子集,專門用于捕捉跨模態交互。(iii)在預訓練的模型中學習注意力矩陣,顯示與圖像區域和文本單詞之間的隱對齊一致的模式。(iv)繪制的注意力模式揭示了圖像區域之間的視覺解釋關系。純粹的語言知識也有效地編碼在注意力頭中。這些都是有價值的見解,有助于指導未來的工作,以設計更好的模型架構和目標的多模態預訓練。
論文主題: Deep Semantic Segmentation of Natural and Medical Images: A Review
論文摘要: (醫學)圖像語義分割任務包括將圖像的每個像素(或幾個像素)分類為一個實例,其中每個實例(或類別)對應于一個類。此任務是場景理解概念的一部分,或更好地解釋全局 圖像的上下文。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放射治療或改進的放射診斷。在這篇綜述中,我們將領先的基于深度學習的醫學和非醫學圖像分割解決方案分為六大類:深度架構、基于數據合成、基于損失函數、序列模型、弱監督和多任務方法。此外,針對每一組,我們分析了這些組的每一個變體,并討論了當前語義圖像分割方法的局限性和未來的研究方向。