深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。
在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。
在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。
//dspace.mit.edu/handle/1721.1/140022
機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。
首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。
然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。
最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。
雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。
在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。
由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。
許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。
在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。
在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。
由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。
//dspace.mit.edu/handle/1721.1/144745
我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。
接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。
最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。
由于物理世界是復雜的、模糊的、不可預測的,自主的智能體必須被設計成表現出人類水平的靈活性和通用性——遠遠超出我們顯式編程的能力。這種自主的實現不僅能夠可靠地解決特定的問題,而且還能夠預測可能出現的錯誤,以便制定戰略、適應和持續學習。要想做出如此豐富而復雜的決策,就需要在自主學習生命周期的所有階段重新思考智能的基礎。
在本論文中,我們開發了新的基于學習的方法,以實現自主系統的動態、彈性和穩健決策。通過解決在所有階段出現的關鍵挑戰,從用于訓練的數據,到在這些數據上學習的模型,再到算法,以可靠地適應部署期間的意外事件,來推進野外的魯棒決策。我們首先探索如何通過計算設計豐富的合成環境,能夠模擬連續的難以收集的、分布外的邊緣情況,在訓練和評估期間易于使用。利用這個豐富的數據基礎,我們隨后創建了高效、富有表現力的學習模型,以及優化其表示的必要算法,并克服了代表性不足和具有挑戰性的數據中的不平衡。最后,使用經過訓練的模型,我們將轉向部署設置,在該設置中,我們仍然應該預期我們的系統將面臨在訓練中從未遇到過的全新場景。為此,我們開發了自適應和不確定性感知算法來估計模型的不確定性,并利用它的存在來實現一般化的決策,即使是在存在意外事件的情況下。
在計算機視覺和自然語言處理等領域的成功應用推動下,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種將深度學習應用于臨床前藥物發現的新型方法。
首先,我們提出了一種設計分子連接物的生成方法,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法。通過一系列的案例研究,我們證明了我們的方法在支架跳躍、片段連接和針對嵌合體(PROTAC)設計中的應用。然后,我們將這一框架擴展到包括物理意義上的三維結構信息,為生成過程提供更豐富的先驗,并將我們的方法應用于分子闡述任務,如R-group設計。
然后,我們將注意力轉向預測模型,特別是基于結構的虛擬篩選。我們發現用于一般計算機視覺任務的卷積神經網絡(CNN)的進展也適用于基于結構的虛擬篩選。此外,我們提出了兩種技術,將特定領域的知識納入這一框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。
最后,我們研究了如何使用生成方法來改善基于結構的虛擬篩選中所使用的訓練和基準集。我們提出了一種深度學習方法,根據用戶的偏好規格生成誘餌,以控制誘餌偏差或構建具有確定偏差的集合。我們表明,我們的方法極大地減少了這種集合中包含的偏差。我們驗證了我們生成的分子對于基于對接的方法來說比以前的誘餌更具有挑戰性,可以與生物活性化合物分開。此外,我們表明,基于CNN的結構化虛擬篩選方法可以在這類化合物上進行訓練。
藥物是各種醫療狀況的關鍵治療手段,也是一個正常運作的衛生系統的重要組成部分(世界衛生組織,2010)。然而,目前有許多醫療需求,包括現有的和新出現的,現有藥物都無法滿足(Kaplan 等,2013)。最近由當前冠狀病毒大流行(COVID-19,Rosa等人,2020)引起的世界范圍內的緊急情況,進一步強調了在未滿足的醫療需求發生時迅速有效地解決這些需求的能力。
開發新的治療方法是一個極具挑戰性的多階段過程,涉及許多學科,通常需要多年才能完成。平均而言,每個新療法估計要花費15-30億美元,這取決于如何計算,(Avorn,2015;DiMasi等,2016)并需要超過十年的時間(Paul等,2010)。2008-16年,FDA平均每年批準31種新藥(U.S. Food and Drug Administration, 2018a)。這些數字沒有改善,因此,目前的做法被稱為不可持續(Moors等人,2014;安永會計師事務所,2017)。
藥物研發的大部分成本來自于失敗的高幾率,投入足夠的時間和財政資源遠不能保證成功。最近的一項研究發現,所有藥物開發項目中只有13.8%最終獲得批準,而治療罕見疾病的藥物,也被稱為 "孤兒藥",總體成功率低至6.2%(Wong等人,2018)。失敗的原因有很多,我們將在第1.3.1節詳細討論。藥物開發中的高成本和低生產率是一個長期存在的問題,對于這個問題的解決是至關重要的(Myers和Baker,2001)。
計算機輔助藥物設計(CADD)被認為有可能加速這一過程并降低開發新療法的費用(Ou-Yang等,2012)。然而,盡管在整個藥物發現工作流程中廣泛采用了計算方法,但成本仍在持續增加(DiMasi等人,2003;Avorn,2015;DiMasi等人,2016),生產率持續低下(Khanna,2012)。我們仍然非常需要新的技術和方法來徹底改變藥物發現。
最近,在深度學習興起的推動下,人們對人工智能在廣泛領域的應用重新產生了興趣。雖然深度學習的許多核心原理在幾十年前就被提出來了(如Rosenblatt,1958;Fukushima,1980;Rumelhart等人,1986),但直到2012年,這些技術的力量和有效性才被證明,這就是現在所稱的 "ImageNet時刻"。在一年一度的ImageNet大規模視覺識別挑戰賽中,Krizhevsky等人(2012年)通過采用深度神經網絡,比下一個最好的競爭者高出41%。人們普遍認為,這一突破是由前所未有的標記數據的可用性和計算能力的結合而實現的。這導致基于學習的系統在圖像識別(He等人,2015)、單人游戲(Mnih等人,2015)和雙人游戲(包括圍棋(Silver等人,2016;Silver等人,2017)、國際象棋(Silver等人,2018)和《星際爭霸II》(Vinyals等人,2019)方面與人類相匹配,甚至經常超過人類。
這些進展迅速引起了化學信息學領域的注意,并報道了幾個早期的有希望的結果。2013年,深度神經網絡是默克公司分子活性挑戰中表現最好的模型(Ma等人,2015年),而在2015年的Tox21毒性數據挑戰中也取得了類似的結果(Mayr等人,2016年)。
基于學習的算法在藥物發現中有著悠久的歷史。早期的定量結構活性關系(QSAR)模型首次描述于20世紀60年代初(Hansch等人,1962),并已成為普遍現象(Salt等人,1992)。然而,傳統的機器學習和經典的統計方法通常要求目標輸入的明確特征化,如分子或蛋白質-配體復合物,以一維向量的形式(Klambauer等,2019)。這一要求導致僅在分子特性預測方面就開發了數百種描述符(例如Deng等人,2004;Zhang等人,2006;Durrant和McCammon,2011)。然而,深度學習方法的一個優勢被認為是其成功的關鍵,它能夠消除抽象的需要,并允許直接學習更多的數據類型(Klambauer等人,2019)。
最后,上面討論的QSAR模型通常是定制的模型,在一個特定的藥物發現項目的背景下,根據少量的數據構建。因此,雖然很有用,但它們并不具有普遍的適用性,而且往往不能超越具體的化學系列。在其他領域(如ImageNet,Deng等人,2009)的成功表明,通用模型的一個關鍵要求是足夠的數據(Halevy等人,2009;Sun等人,2017)。在過去的十年中,公開的分子活性和生化數據(如Kim等人,2015;Papadatos等人,2015)以及結構數據(Berman等人,2000;Burley等人,2019)數量迅速增加,這主要是由于關注度的提高和新實驗技術的出現(如高通量篩選,Inglese等人,2007)。
最近在蛋白質結構預測領域取得的成功就是一個例子,AlphaFold(Senior等人,2020)和AlphaFold 2(Jumper等人,2020)分別在CASP 13和14中的表現達到了頂峰(Kryshtafovych等人,2019),這說明了這些數據的可用性在其他方面是不可能的。雖然在將深度學習應用于藥物發現方面存在許多挑戰,這些挑戰將在第1.5節中進一步討論,但這是一個令人難以置信的發展,進一步突出了深度學習的前景。
本論文的重點是為藥物發現過程開發深度學習方法。在這一章中,我們首先討論了機器學習的幾個關鍵發展,并介紹了兩個可以在化學信息學中使用的一般深度學習方法。然后,我們簡要地總結了藥物發現過程,并討論了計算方法是如何用于藥物發現的。我們重點討論了這些方法如何被用來篩選大型虛擬化合物庫,以尋找最初的熱門分子。然后,我們描述了計算方法,特別是基于機器學習的方法,如何被用來設計新的化合物,并強調了分子設計的幾個常見挑戰。最后,我們概述了本論文的結構和主要貢獻。
機器學習在藥物發現中的挑戰很多,橫跨所有領域,包括數據、算法、政治和實踐。在此,我們將簡要地談一談。
首先是依賴昂貴的(在時間和成本方面)實驗數據進行訓練和驗證。這與深度學習在圍棋(Silver等人,2016)或國際象棋(Silver等人,2018)等游戲中的成功形成對比,在這些游戲中,訓練數據可以在模擬中完美生成。這促使人們開發出能夠從少量數據中學習的方法(例如,少數射擊學習,Altae-Tran等人,2017)或有效利用其他可用數據(例如,轉移學習,Pan和Yang,2010;元學習,Maudsley,1979)。進一步的算法挑戰來自于生物和化學數據的性質,包括這些數據的格式(如圖表,第1.2.2節)以及固有的噪聲。
一個關鍵的挑戰是我們如何對成功進行量化。盛行的人類主導的過程遠非無懈可擊(見第1.3.2節),但目前還無法量化藥物化學的成功(Green等人,2018)。有鑒于此,算法成功的標準是什么?一些人告誡說,不要把計算方法的門檻定得太高(Green等人,2018)。
最后,實現機器學習方法的全部影響將需要投入大量的資源。在真實世界的藥物發現項目中進行實驗驗證是評估機器學習在藥物化學中的貢獻和確定需要改進的領域的關鍵下一步。
在本章中,我們強調了藥物發現所面臨的挑戰,并促使機器學習的應用成為一種部分解決方案。我們討論了幾個關鍵的機器學習方法在藥物發現中的應用。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新型方法學。
在第二章中,我們提出了一種生成方法來設計分子連接物,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法,也就是以前解決這個問題的事實方法。通過一系列的案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。
在第三章中,我們擴展了我們的連接物設計框架,以納入物理意義上的三維結構信息,為生成過程提供更豐富的先驗。此外,我們證明了我們的方法可以應用于分子闡述任務,如R組設計,只需改變訓練集,無需對方法進行其他修改。
在第四章中,我們將注意力轉向預測性建模和基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的CNN方法的進展也適用于SBVS。此外,我們提出了兩種技術來將特定領域的知識納入這個框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明了平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。
在第五章中,我們研究了如何使用生成方法來改進SBVS中使用的訓練和基準集。我們提出了一種深度學習方法,該方法可以根據用戶的偏好規格生成誘餌,以控制誘餌的偏差或構建具有定義偏差的集合。我們表明,我們的方法大大減少了這種集合中包含的偏見。我們驗證了我們生成的分子對于對接方法來說比以前的誘餌更具有挑戰性,可以與活性物質分離。此外,我們表明,基于CNN的SBVS方法可以在這類化合物上進行訓練。
最后,在第六章,我們總結了這項工作的結果。我們討論了主要的結論,并描述了本論文以后可能開展的工作。
機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。
//dspace.mit.edu/handle/1721.1/143362
機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。
在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。
因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。
深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。
在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。
//arxiv.org/pdf/2112.01423.pdf
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html
在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。
在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。
在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。