亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

發現具有所需性質的新分子和新材料對我們成功應對全球挑戰,如氣候危機或新興疾病,至關重要。然而,在幾乎無限且離散的化學搜索空間中進行導航,同時又要尊重一系列多屬性目標,這是極具挑戰性的。在過去的幾十年里,化學工業不僅面臨著生產力下降,而且新材料和分子的研發成本也在不斷攀升。近期,分子生成模型結合虛擬篩選方法在高效、系統地探索化學空間上展示了有希望的結果。人們寄望于這些方法能加速分子的發現過程,特別是當它們與化學合成規劃工具和自動實驗室的機器人硬件配合使用時。然而,大多數生成模型都是針對簡單化、以化學為中心的目標進行優化,忽視了關于分子目標環境的系統級信息,因此不能用于生成條件性的分子以滿足一系列廣泛的目標。這篇論文主要研究如何開發可以根據語義環境進行查詢,靈活生成分子以滿足所需條件的條件性分子生成模型,而無需進行特定的優化。此外,該論文旨在通過開發具有關于連續性質的歸納偏見,且在預測此類性質上表現優秀的分子生成模型,以改進從頭設計和性質預測的“糾纏”。這是通過利用自然語言和有機化學之間的類比來實現的。

作為生成建模的先決條件,這篇論文的第一部分致力于構建分子性質的預測模型。第一章提出了一個簡單而穩健、可解釋的化學語言模型,該模型大量依賴數據增強,并被證明在一系列性質(如毒性)上表現出強大的性能。接下來的一章發展了用于預測蛋白質-配體結合親和力的蛋白質化學度量語言模型,并證明通過從蛋白質序列中去除超過95%的殘基,人類蛋白質激酶的結合親和力預測性能顯著提高。這篇論文的第二部分關注的主要目標是開發條件性分子設計的生成語言模型。利用強化學習優化方案中的性質預測器,得出一個可以在生物分子環境向量(例如,惡性腫瘤的基因表達簽名或一個目標蛋白質)上進行條件設置,并生成對此環境具有高親和力的分子的生成模型。實驗證明,這種方法具有很好的泛化性,即使在缺乏實驗數據的情況下,也能提出具有高選擇性的分子,針對未見過的蛋白質目標。在關于加速分子發現的案例研究中,提出的生成模型被集成到一個完全自動的工作流程中,這個過程涵蓋了回溯合成模型,合成協議生成,以及在機器人硬件上成功進行濕實驗室合成。最后一章提出了一個多任務語言模型,將回歸抽象為條件序列建模問題,從而統一了前面關于分子性質預測和條件生成的工作在同一模型中。這個模型不僅在回歸任務上表現出色,盡管依賴于分類損失,而且還可以同時對任意分子子結構和連續目標性質進行條件設置。如所示,這個模型在條件分子設計中超越了專門的方法,并且可以基于所需的性質引物,無需任何優化,就可以裝飾種子分子、蛋白質或化學反應。這在性質驅動的化學空間局部探索中找到了特別的應用,并為材料設計中的基礎模型鋪平了道路。

總的來說,這篇論文可能通過提供改善被視為下游化學合成和濕實驗室實驗考慮的平均假設質量的方法,為加速分子發現作出貢獻。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

這篇論文研究了離散DGM的原理和應用。深度生成模型(DGM)是一種深度神經網絡,能夠建模高維概率分布并生成隨機樣本。在DGM的各種應用中,有些涉及固有的離散組件,這推動了對離散隨機變量的建模需求;例如,文本建模和具有離散變量的控制。離散性引起了關于離散DGM設計的基本問題。如何訓練一個離散DGM?其應用是什么?如何進行大規模的離散建模和預測?我們從重新參數化的角度研究了離散DGM的訓練。重新參數化是一種用DGM建模的隨機變量的梯度估計方法。由于梯度估計的高方差,這是具有挑戰性的。受到Straight-Through Gumbel-Softmax估計器的基本屬性的啟發,我們提出了一種新的重新參數化方法,稱為Gapped Straight-Through估計器,以減少方差而不產生重新采樣開銷。我們還介紹了離散重新參數化在強化學習(RL)中的應用,用于電力系統控制,其中控制變量是整數。我們對這個應用有兩方面的貢獻:電力系統的RL環境和一個帶有整數重新參數化方案的RL算法。環境構建確定了系統的實際選擇。已經發布了這個環境的開源包,并在電力研究社區中使用。電力系統的RL算法包括DDPG風格的策略梯度和對整數動作的重新參數化。 最后,我們從Transformer的核化視角探討大規模的生成性文本建模。我們觀察到,相對位置嵌入(RPE)對于Transformer在長序列上的良好表現是至關重要的。然而,RPE的理論框架仍然缺失。因此,我們通過條件正定(CPD)核來形式化RPE的核化版本。CPD核的多樣性使我們能夠推導出各種能夠實現長度外推的RPE(在短序列上訓練,但在長序列上測試)。實驗表明,對數變種在三個大型語言建模數據集上都實現了出色的外推效果。

付費5元查看完整內容

//searchworks.stanford.edu/view/14784050

盡管語言模型(LMs)在現實應用中無處不在(例如,網頁搜索,文本自動完成和內容生成),但大多數LMs并沒有針對人類用戶與LMs的交互進行優化,也沒有在這方面進行評估。為了解決這一缺口,本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求:在給定周圍環境的情況下提出內容。為了支持這種需求,我們提出了一種訓練方法,使任何預先訓練過的LMs都能完成填空任務,有助于更好地促進人機交互。其次,我們構建了一個平臺,CoAuthor,用于捕獲人機交互的交互痕跡。通過CoAuthor,我們展示了如何收集大規模交互數據集并分析這些痕跡,從而對LM在語言,思想發展和協作方面的能力提供獨特的見解。最后,我們提出了一個新的評估框架,人工智能語言交互評估(HALIE),該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后,我們討論了這個領域的開放性挑戰和未來的發展方向。

在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理(NLP)領域正在經歷一個不斷變化和創新的時代,本論文旨在捕捉該領域的一個快照,并從這個不斷變化的景觀中研究一種永恒的質量:設計和評估用于人類交互的語言模型(LMs)。自我開始博士研究以來,LMs至少可以說發展迅猛。在2017年,構建LM的最常見方式是選擇一個特定任務,收集一個定制的數據集,設計一個定制的模型,并從頭開始訓練定制的模型,正如我在我第一個項目中所演示的那樣(Lee等人,2019)。到了2023年,即使沒有NLP或編程的先前知識,我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示,快速“構建”并與LMs進行交互,以執行廣泛的任務,正如我在后續項目中所演示的那樣(Lee等人,2022a,b,Bommasani等人,2023)。

然而,盡管近期的語言模型(LMs)具有前所未有的能力和廣泛的應用(Radford等人,2019; Brown等人,2020; Rae等人,2021; Zhang等人,2022; Chowdhery等人,2022; Lieber等人,2021; OpenAI, 2022, 2023),但在NLP領域的大部分現有LM研究主要側重于非交互場景:給定一個輸入文本,模型生成一個輸出文本,只關注輸出的質量。在這種情況下,人類的參與要么被忽視,要么限于特定的目的或形式,如對模型輸出的人類評估(Ribeiro等人,2020; Kiela等人,2021)或像對話那樣的嚴格交互(Paranjape等人,2020; Thoppilan等人,2022; Shuster等人,2022)。幾乎所有的基準測試,即使是那些包含了多樣任務的基準測試(Gehrmann等人,2021; Hendrycks等人,2021; Liang等人,2022),也都采取了這種非交互的視角。與此相反,我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例,與其構建一個孤立運作的模型(即,將預定義的問題作為模型輸入,并將模型輸出與靜態基準中的預定義答案進行比較),我更注重交互場景。在這種場景下,用戶參與到一個迭代的過程中,寫下問題,詢問(或查詢)模型,解讀并處理模型輸出,根據輸出調整他們的問題,并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學(Lee等人,2022a)。我努力開發的LM并不是可以自行生成整個故事的模型(圖1.1a),而是能夠增強和支持我們的寫作過程的模型(圖1.1b),可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart(1962)、Skagestad(1993, 1996)、Shneiderman和Maes(1997)、Horvitz(1999)、Hassani等人(2020)、Brynjolfsson(2022)、Shneiderman(2022)的觀點相吻合,其最終目標是增強人類能力,而不是自動化它們(即,智能增強)。 對于人機交互(HCI)社區來說,近期的語言模型(LMs)為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互(Calderwood等人,2020;Buschek等人,2021;Wang等人,2021;Chen等人,2021;Chakrabarty等人,2022;Ippolito等人,2022;Valencia等人,2023)。為了研究LMs的生成能力,HCI中最傳統的方法是情境詢問,邀請并訪問用戶(Calderwood等人,2020;Clark等人,2018b;Gero和Chilton,2019;Wu等人,2020, 2022;Yang等人,2019a)。然而,由于情境詢問的時間和資源密集性,它在捕捉LM能力的主觀解釋方面更有效,而在涵蓋多樣化的上下文方面則較為欠缺。 我的研究核心是交互跡線,即在人類用戶和LMs交互過程中展開的事件序列(圖1.1b)。這些跡線包含了各種行為,包括按鍵操作,光標移動,系統查詢,以及通過系統建議進行導航。它們包含豐富的信息,捕獲了人機交互的動態性,提供了對LMs在交互場景中能力的深入了解。例如,通過檢查用戶查詢的頻率,我們可以量化用戶對LMs的依賴程度,以及LM響應的幫助程度。此外,交互跡線還能讓我們了解用戶在與LMs交互時采取的策略,以及交互的時間屬性。最后但同樣重要的是,利用交互跡線可以覆蓋各種上下文,因為設計者可以一次性大規模捕捉人機交互,并將其重復使用并多次回放以便于分析。 我相信,通過利用這些交互跡線,NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。 這篇論文包括以下章節: ? 第二章通過提供有關語言模型(LMs)、人機交互和人機交互在寫作中的設計空間的背景,為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境,即寫作的修訂過程,并關注了大多數LMs無法直接解決的用戶需求。具體來說,我們提出了一種訓練方法,使LMs能夠填補空白(即,文本填充)。 ?** 第四章介紹了CoAuthor,這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集,產生了一個豐富且可以重復分析的數據集。通過使用這個數據集,我展示了如何通過檢查這些交互跡線,對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架,即人工智能基于語言的交互評估(HALIE),它定義了交互系統的基本組成部分,并引入了新的評估指標,用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景,使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰,以激發更深入的研究和創新**。 論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究(2020),該研究在2020年的計算語言學協會(ACL)上發表。第四章基于Lee等人的材料(2022a),該材料在2022年的人機交互系統會議(CHI)上發表。第五章基于Lee等人的研究(2022b),該研究目前正在審查中。

付費5元查看完整內容

數十年來,機器人在我們的日常生活中扮演了重要而隱秘的角色。我們每天依賴的許多產品,如汽車和藥品,都是通過機器人自動化生產的。這些系統將以更直接的方式進入我們的日常生活,他們的影響力不可避免地會減小。特別是腿部機器人,近期的進步終于使這些系統商業上可行,并將很快看到它們在物流、景觀工作和在建筑工地上協助工人的角色。然而,隨著它們的持續改進,操作它們的軟件和算法將需要能夠執行目前無法實現的更抽象的任務。毫無疑問,實現這一目標的方式之一將涉及利用機器學習技術的并發進步。

//www.research-collection.ethz.ch/handle/20.500.11850/614549

這篇博士論文正朝著這個目標努力,旨在幫助彌合現代機器人技術和機器學習技術之間的鴻溝。這項研究解決了實現更強大機器人系統所必需的兩個方面,即軟件和算法,并專注于深度強化學習(DRL)技術在解決腿部機器人,特別是四足機器人系統的運動控制問題的應用。為了統一上述領域,我們需要軟件系統能夠利用在Python中實現的DRL算法,并讓需要C++接口的研究人員和開發人員可以使用。因此,這項工作通過引入一個多功能的軟件工具箱,為機器人應用使用DRL算法做出了貢獻。它利用了最先進的機器學習平臺TensorFlow的Python API,用于構建包含神經網絡模型、梯度計算和隨機梯度下降優化器等組件的計算圖。這些圖可以在C++運行時環境中使用,以執行如訓練和部署等圖操作。此外,該工具箱在上述核心元素的基礎上,提供了對DRL的有用抽象,實現了幾種最先進的算法以及其他有用的實用工具。有了這個工具箱,我們提供了一個端到端的解決方案,用于設計、建模、訓練和部署神經網絡策略,這種策略專門為四足機器人ANYmal設計和測試。此外,復雜地形的行動對于有腿的機器人來說構成了重大挑戰。為了讓像ANYmal這樣的系統能夠在這樣的環境中自主運行,它們必須擁有謹慎規劃適合地形的立足點的方法,同時執行保證穩定性的運動。為了解決這個問題,本博士論文通過提出一種解決四足系統穿越非結構化地形的立足點選擇和步態生成問題的新方法,對算法的第二個方面做出了貢獻。這項工作主要圍繞一個框架進行,該框架用于制定馬爾科夫決策過程(MDPs),采用最新的基于模型的軌跡優化技術來評估動態可行性,取代了物理模擬。當與最先進的DRL算法一起使用時,這些MDPs會生成能夠在具有挑戰性的3D環境中規劃基礎姿勢、立足點位置和步態參數序列的地形感知神經網絡策略。這些所謂的步態規劃(GP)網絡,在與其他針對運動規劃和控制問題的最先進方法結合時,會產生有效的行動。這種方法已經在模擬中以及在ANYmal的物理平臺上得到了實驗驗證。

付費5元查看完整內容

生物過程的基本理解是現代醫學和技術的主要支柱之一。生物機制是復雜的隨機系統,盡管經過了幾個世紀的嚴格科學研究,但我們對其仍知之甚少。近年來,機器學習(ML)已成為識別復雜數據集中感興趣模式的強大框架。然而,在生命科學的廣泛背景下,這類方法的影響仍然有限**。本研究旨在優化機器學習的實用性,加速基本生物問題的研究**。首先,我們提出從孤立的數據策劃轉向大規模多用途隊列的范式轉變,即使在人類實驗最嚴格的情況下也是如此。通過Brain TreeBank(一種與顱內神經記錄對齊的自然語言多模態數據集)揭示了這種方法的潛力。TreeBank提供了探測語言環境依賴性和大腦中表征的時空動態所需的分辨率和廣度。其次,我們主張機器學習可解釋性對加速生物學理解的重要性。我們開發了一種可解釋的通用工具,用于在多個分辨率下建模離散隨機過程并估計輸出確定性。我們通過在整個癌癥基因組中建模體細胞突變模式來展示該方法的實用性,并將其擴展到37種癌癥的突變率圖譜。該方法的置信區間和增加的敏感性確定了可能驅動編碼和非編碼區基因組癌癥生長的突變集。總之,這項研究展示了計算方法如何克服生物數據中獨特的挑戰以及生物問題如何推動計算方法的發展。

付費5元查看完整內容

//edoc.ub.uni-muenchen.de/28766/

遷移學習旨在將在特定領域中解決特定任務時所學到的知識分別遷移到其他任務或領域中。雖然這種范式早在2010年代初就被應用于計算機視覺領域,但大約五年后,它徹底改變了自然語言處理領域。本文論述了在應用和研究這類模型體系結構時必須考慮和注意的三個關鍵方面。這項工作的第一部分解決了預訓練語言模型公平比較的定義的關鍵方面。與經典的機器學習相反,定義模型本質上是什么并不簡單,因為模型不僅是架構,而且還包括完整的預訓練過程(預訓練文本語料庫和大量的計算能力)。除此之外,模型大小也起著至關重要的作用,因為有時對于一些從業人員或設備來說,它可能會非常大,這就是為什么在比較最先進的(SOTA)模型時,也應該考慮它。第一篇有貢獻的文章提高了對上述問題的認識,并在執行或評估模型比較時提出了潛在的規避措施。

在第二部分中,評估了幾種最先進的架構在一組復雜任務上的有用性。對于貢獻的第二篇文章,在將開放式問題的答案自動分類到一組預定義類別的任務上評估了模型的性能。這展示了社會科學家普遍面臨的一個(極端)多標簽分類任務。與此同時,還提供了用于機器學習目的的美國全國選舉研究(ANES 2008)的完全可重復的數據準備。第三個貢獻是將預訓練模型應用于假新聞檢測任務,特別關注模型微調時對超參數的敏感性。給出了不同凍結技術、批量大小和序列長度以及學習率調度的實驗和網格搜索結果。第四和第五篇貢獻文章展示了工業用例:前者是關于試圖通過持續的語言模型預訓練來合并來自外部語料庫的特定領域知識,目的是使語言模型成為特定領域的一種知識庫。訓練過程中固定間隔的評估已經顯示出部分有希望的結果。后一個項目旨在建立一個管道,嚴重依賴預訓練(德語)語言模型,以衡量客戶中心的概念。關于汽車保險的非結構化客戶反饋根據所處理的方面和各自的調性進行分類,然后(視覺上)總結在一個雷達圖中。第六個貢獻,試圖為縮小一個很大的研究差距做出貢獻:預訓練模型的特定語言評估。本文在(基于方面的)情感分析任務上評估了目前現有的德語和多語言預訓練架構,使得最先進結果的大幅增加。

第三部分通過展示基準研究的實驗結果來完善本文的范圍。在第七篇也是最后一篇文章中,縮小版的語言模型在一組約束外部因素的任務上進行了基準測試,這些外部因素包括計算能力預算和預訓練文本語料庫的大小。

付費5元查看完整內容

盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。

本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。

第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。

付費5元查看完整內容

黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。

**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。

本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。

付費5元查看完整內容

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容
北京阿比特科技有限公司