Machine Intelligence Research
知識在人工智能發展中起著至關重要的作用。近年來,大規模語言模型(LLMs)取得了令人矚目的進展,引發了人們對語言模型獲取、維護、更新和使用知識方面的極大關注。盡管已經存在大量的相關研究,但學界對于知識如何在語言模型的學習、調整和應用過程中流動的完整生命周期,仍然缺乏整體性的觀點,這可能會阻礙人們深入了解各個研究方向之間的聯系,以及認識到現有研究中所存在的局限性。因此,本綜述將語言模型視作一個大規模的知識系統,將知識在大規模語言模型中的生命周期劃分為五個關鍵階段,研究語言模型中的知識在構建、維護和使用過程中如何流動和循環。為此,**本文系統性地回顧了知識在語言模型中生命周期的各個階段的代表性研究,總結了當前每個階段的核心挑戰和主要局限性,并討論了未來潛在的發展方向。**相關成果已發表于《機器智能研究(英文)》2024年第2期中。****
全文下載:
The Life Cycle of Knowledge in Big Language Models: A Survey
Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun
全文導讀
從根本上來說,人工智能是一門研究知識的科學--如何表示、獲取和使用知識的科學。 ---尼爾森(1974年)
知識是通向高級智能的關鍵。一直以來,模型如何獲取、存儲、理解和應用知識一直都是機器智能領域的重要研究課題。近年來,大規模語言模型(LLMs)取得了飛速的發展。通過在大規模無標注語料庫上進行自監督預訓練,再通過指令微調和強化學習等手段與人類偏好對齊,大規模語言模型在不同領域、任務、數據集中表現出了遠超以往方法的泛化和遷移能力,從而在人工智能領域取得了令人矚目的成就。
大規模語言模型的成功引起了人們對其隱含知識的極大關注。許多研究都已經在關注大規模語言模型如何獲取、維護和使用知識。基于此,研究者們探索了許多新的研究方向。例如,知識注入旨在將顯式結構化知識注入LLM的參數中;知識探測用于評估存儲在LLM參數中的知識類型和數量;知識編輯旨在修改LLM中不正確的或者過時的知識。
盡管有大量的相關研究,但目前的研究主要還是集中在知識在語言模型中的某一特定階段,而對知識如何在整個模型學習、調整和應用階段中循環缺乏一個統一視角。由于缺乏這種全面的研究,研究者們難以充分理解不同知識型任務之間的聯系,發現LLM知識生命周期中不同階段之間的相關性,以及探索現有研究的不足和局限性。例如,雖然許多研究致力于評估預訓練語言模型中的知識,但很少有研究探討為什么語言模型可以在沒有任何知識監督的情況下從純文本中學習海量的知識,以及語言模型表示和存儲這些知識背后的機制。同時,許多研究嘗試向LLM顯示注入各類結構化知識,但少有研究嘗試深入研究模型潛在的知識獲取機制來幫助LLM更好地從純文本中學習特定種類的知識。因此,該領域內的研究可能會過度關注某幾個方向,而難以全面理解、維護和控制LLM中的知識,從而限制相關研究的進一步改進和應用。
本綜述提出從知識工程的角度系統回顧大規模語言模型中與知識相關的研究。受認知科學和知識工程研究的啟發,本文將大規模語言模型視為基于知識的系統,并研究知識在語言模型中的獲取、維護和使用的完整生命周期。具體來說,本文將大規模語言模型中知識的生命周期分為以下五個關鍵階段,如圖 1 所示:
? 知識獲取:旨在研究語言模型從文本或其他知識源中學習各類知識的方法和機制。 ? 知識表示:旨在研究各種知識在語言模型參數中編碼、存儲和分布的規律和機制。 ? 知識探測:旨在探究語言模型中包含知識的種類,以及對相應知識規模的量化分析。 ? 知識編輯:旨在編輯或者刪除語言模型中存儲的特定知識。 ? 知識應用:旨在將大規模語言模型中的知識應用于真實場景中。
圖 1 語言模型知識生命周期的五個關鍵時期
對于每個階段,本文系統性地梳理了現有的研究,總結了主要挑戰和局限性,并討論了未來的發展方向。基于一個統一的視角,本文能夠幫助理解和利用語言模型知識生命周期不同階段之間的密切聯系,而不是將其視為獨立的任務。例如,了解語言模型的知識表示機制對研究人員設計更好的知識獲取目標和知識編輯策略具備啟發性的價值。提出可靠的知識探測方法可以幫助研究者們找到更適合不同語言模型的應用場景,并深入了解其局限性,從而促進其進一步的改進。我們希望通過該綜述全面總結當前研究的進展、挑戰和局限,幫助研究人員從新的視角更好地理解整個領域,并從整體性角度闡明如何更好地規范、表示和應用語言模型中的知識的未來方向。
本文貢獻總結如下:
圖 2 大模型知識生命周期的分類系統
· 本文作者 ·
全文下載:
The Life Cycle of Knowledge in Big Language Models: A Survey
Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun BibTex:
@Article {MIR-2022-10-329, author={ Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun }, journal={Machine Intelligence Research}, title={The Life Cycle of Knowledge in Big Language Models: A Survey}, year={2024}, volume={21}, issue={2}, pages={217-238}, doi={10.1007/s11633-023-1416-x}}
人工智能(AI)的進步正在快速改變我們的世界,系統現在在從游戲玩耍到科學發現等領域匹敵甚至超越了人類的能力。這一進展的大部分可以追溯到機器學習(ML),特別是深度學習以及其在數據中發現有意義的模式和表示的能力。然而,AI中的真正智能需要不僅僅是原始的預測能力;它需要一種有原則的方法來在不確定性下做決策。這凸顯了概率機器學習的必要性,它通過概率論和貝葉斯推理提供了一種系統的框架來推理未知。
高斯過程(GPs)是一種典型的概率模型,具有靈活性、數據效率和良好校準的不確定性估計。它們對許多順序決策算法至關重要,特別是貝葉斯優化(BO),它已經成為優化昂貴和復雜的黑盒目標函數的不可或缺的工具。盡管已經投入了大量的努力來提高GPs的可擴展性,但在實踐中,與神經網絡(NNs)相比,性能差距仍然存在,主要是因為GPs缺乏表示學習能力。這是GPs的其他自然不足之一,它阻礙了BO解決關鍵的現實世界優化挑戰的能力。
這篇論文旨在在概率方法中釋放深度學習的潛力,并相互借鑒深度學習的概率觀點。其中的貢獻包括改進近似方法,以彌合GPs和NNs之間的差距,提供了一種新的BO公式,可以無縫地容納深度學習方法,以解決復雜的優化問題,以及對圖像風格轉移的一類強大的深度生成模型進行概率解釋。通過豐富深度學習和概率ML之間的相互作用,這篇論文推動了AI的基礎,并促進了更有能力和可靠的自動決策系統的發展。
在不斷發展的技術和戰略分析領域,有兩個領域因其深遠的影響和有趣的可能性而脫穎而出:人工智能 (AI) 和博弈論。乍一看,它們可能看起來很不同——人工智能是計算機科學的一個分支,致力于創造智能機器,而博弈論則是研究競爭環境中的戰略決策。然而,當這兩個領域融合在一起時,它們開啟了一個新的可能性領域,徹底改變了我們處理和解決復雜戰略問題的方式。
人工智能和博弈論的交集不僅僅是一個技術聯盟;它代表了我們對戰略、決策和預測分析的理解的范式轉變。人工智能帶來了其無與倫比的計算能力、處理大量數據集的能力和先進的算法。另一方面,博弈論為理解競爭和合作互動的動態提供了一個框架,無論是在個人、公司還是國家之間。它們共同創建了一個強大的工具包,用于駕馭錯綜復雜的戰略決策世界。
在當今數字時代,這種融合尤為有效,因為數字時代數據豐富,計算能力不斷擴展。人工智能的學習、適應和決策能力越來越類似于人類的戰略思維,這是博弈論的一個核心方面。隨著人工智能系統變得越來越復雜,它們不僅在學習下國際象棋或圍棋等游戲。盡管如此,它們也被應用于戰略互動至關重要的現實世界場景——從金融市場到國際外交。
在本文中,我們將踏上人工智能和博弈論的探索之旅。我們將深入研究它們的歷史背景,研究人工智能如何用于解決復雜的博弈論問題,并展望這個令人興奮的跨學科領域的未來。通過了解人工智能和博弈論之間的協同作用,我們可以深入了解戰略決策的未來——一個機器競爭和制定戰略的未來。
人工智能在戰略博弈和博弈論領域的旅程始于不起眼但意義重大的一步。最早的里程碑之一是IBM的“深藍”(Deep Blue)的誕生,這是一款國際象棋計算機,在1997年擊敗了世界冠軍加里·卡斯帕羅夫(Garry Kasparov)。這一事件標志著一個關鍵時刻,展示了人工智能在掌握需要深入戰略思維的游戲方面的潛力。
繼深藍之后,人工智能領域繼續發展,處理更復雜的游戲。一個里程碑式的成就是谷歌DeepMind的AlphaGo,它在2016年擊敗了世界冠軍圍棋選手李世石。圍棋,一個以其大量可能的位置和對直覺的依賴而聞名的游戲,對人工智能來說是一個重大挑戰。AlphaGo的勝利證明了人工智能在學習和制定戰略方面的先進能力,遠遠超出了蠻力計算。
在這些發展的同時,人工智能開始納入博弈論的原理。博弈論的理性決策者之間沖突與合作的數學模型為人工智能算法模擬和分析戰略互動提供了一個框架。這種整合使人工智能能夠超越游戲,應用于現實世界的場景,如經濟建模、政治戰略和社會行為分析。
機器學習是人工智能的一個子集,專注于構建從數據中學習的系統,機器學習的集成進一步推動了人工智能的能力。強化學習等技術,人工智能系統通過執行動作和觀察結果來學習決策,在開發能夠在動態環境中適應和優化策略的人工智能方面發揮了重要作用。
人工智能在預測博弈論中的應用標志著另一個重要的里程碑。人工智能系統經過訓練,可以預測戰略場景中的結果,考慮眾多變量和潛在策略。事實證明,這種能力在金融和經濟等領域非常寶貴,在這些領域,預測市場趨勢和消費者行為至關重要。
隨著人工智能系統越來越善于制定戰略,出現了倫理方面的考慮,特別是在軍事戰略和監視等敏感領域的使用方面。隨著我們邁向未來,圍繞人工智能在戰略決策中的道德使用問題的辯論仍然是一個關鍵的討論。
人工智能在博弈論中的應用在很大程度上延伸到了經濟學和政治學領域。在經濟學中,人工智能算法用于模擬市場行為、模擬競爭性商業場景和優化定價策略。在政治學中,人工智能有助于模擬選舉策略、外交談判和沖突解決。
示例:市場分析中的人工智能 考慮一個簡單的市場場景,公司在價格上競爭。人工智能算法可用于模擬該市場并預測均衡價格。
在政治戰略方面,人工智能可以模擬選舉場景,考慮選民偏好、競選策略和媒體影響等因素。這些模擬有助于了解選舉政治的動態,并制定有效的競選策略。 、
機器學習是人工智能的一個動態子集,它大大增強了博弈論的預測能力。通過分析模式和學習數據,機器學習模型可以預測各種博弈論場景中的結果,為戰略決策過程提供有價值的見解。
在博弈論中,預測建模涉及根據歷史數據和概率算法預測玩家的行動和反應。神經網絡、決策樹和強化學習算法等機器學習模型擅長處理這些復雜的場景。它們可以處理龐大的數據集,找出可能無法立即顯現的模式和戰略,為戰略規劃提供預測優勢。
在商業競爭戰略領域,機器學習模型被用來模擬市場情景,預測各種戰略舉措的結果。例如,公司可以利用這些模型來預測競爭對手對新產品發布、定價變化或營銷活動的反應。這種預測能力使企業能夠更有效地制定戰略,在激烈的市場競爭中領先一步。
人工智能(AI)在行為博弈論領域發揮著越來越重要的作用,行為博弈論是一門結合了經濟學、心理學和戰略決策學等元素的學科。人工智能在這一領域的貢獻圍繞著理解和預測博弈論背景下的人類行為,為個人如何在戰略情況下做出決策提供了新的視角。
行為博弈論傳統上依賴心理學見解來解釋為什么人們有時會在戰略博弈中做出非理性或意想不到的決策。人工智能,尤其是機器學習模型,通過分析大量的行為數據,加強了對這一問題的理解。這些模型可以識別人類決策中的模式和異常現象,而這些模式和異常現象在傳統分析中可能并不明顯。例如,人工智能有助于理解為什么人們在某些博弈中會偏離納什均衡,或者為什么他們會在經典博弈論預測會出現競爭的情況下進行合作。
考慮一下 "最后通牒博弈"(Ultimatum Game),這是行為經濟學中的一個標準實驗。如果第二個玩家拒絕這個提議,那么兩個玩家都將一無所獲。雖然傳統博弈論認為任何非零提議都應被接受,但人類玩家經常會拒絕他們認為不公平的提議。人工智能模型可以分析此類博弈的數據,預測在什么情況下提議有可能被接受或拒絕,從而深入了解人類的公平與合作觀念。
人工智能的預測能力在涉及復雜人類互動的游戲中尤其有用。通過分析類似游戲的歷史數據,人工智能可以預測玩家在未來游戲中可能的行為。這種能力不僅在學術上很有意義,在市場研究、政治競選和談判策略等領域也有實際應用。
展望未來,人工智能(AI)與博弈論的交匯蘊含著實現變革性突破的巨大潛力。人工智能技術的飛速發展與博弈論的深刻見解相結合,有望徹底改變各行各業和全球政治的戰略決策方式。
在戰略規劃領域,人工智能分析復雜情景和預測結果的能力將變得越來越復雜。我們可以預見,人工智能系統不僅能模擬商業和經濟領域的可能戰略,還能積極提出最佳行動方案。例如,人工智能可以預測市場波動并提出庫存策略建議,從而徹底改變供應鏈管理;人工智能驅動的交易算法可以預測市場變化并做出實時反應,從而改變金融市場。
在全球政治中,人工智能在博弈論中的作用可以為解決沖突和外交談判帶來開創性的方法。可以開發人工智能系統來模擬國際沖突,并根據歷史數據、當前的政治氣候和潛在的未來情景提出解決方案。這些系統可以協助人類外交官了解不同外交戰略可能產生的結果,幫助預防沖突和促進全球合作。
人工智能系統能夠在戰略規劃和談判方面勝過人類,這一前景帶來了令人興奮和充滿挑戰的可能性。在商業領域,這種人工智能可以談判合同、優化交易,甚至參與高層決策過程。然而,這也帶來了有關透明度、公平性以及人類判斷在關鍵決策過程中的作用等倫理方面的考慮。
當我們結束對人工智能(AI)與博弈論動態融合的探索時,我們顯然站在了戰略分析與決策新時代的懸崖邊上。從人工智能在戰略博弈中的歷史里程碑、先進的經濟應用、對人類行為的深刻洞察,到人工智能在博弈論中的未來猜想,我們描繪了一幅快速發展的圖景,其中蘊含著豐富的潛力,也充滿了挑戰。
回顧歷程: 我們的旅程始于對歷史的回顧,追溯人工智能從掌握國際象棋和圍棋等棋類游戲到解決經濟學和政治學中復雜博弈論問題的演變過程。這些里程碑不僅展示了人工智能日益增長的實力,也為人工智能更深入地融入戰略決策奠定了基礎。
人工智能在經濟和政治中的作用: 我們深入研究了人工智能在博弈論中的高級經濟應用,探討了人工智能模型如何徹底改變市場分析、消費者行為預測和競爭性商業戰略。在政治領域,人工智能在外交談判和沖突解決建模方面的潛力預示著未來人工智能將在維護全球和平與穩定方面發揮至關重要的作用。
人工智能視角下的人類行為:人工智能在行為博弈論中的探索揭示了人工智能如何促進我們對人類決策的理解。通過分析有關人類行為的大量數據集,人工智能已開始揭示我們如何在戰略背景下做出選擇的復雜性,為從實驗經濟學到社會心理學等領域提供了寶貴的見解。
猜測人工智能的未來影響: 展望未來,我們推測了人工智能在博弈論中的未來,并設想了可能改變行業、重塑全球政治以及重新定義戰略談判性質的突破。人工智能在戰略規劃方面超越人類的潛力既帶來了令人興奮的可能性,也帶來了重大的倫理問題。
平衡技術進步與倫理責任: 當我們擁抱人工智能和博弈論的進步時,我們也必須認識到其對倫理和社會的影響。在將人工智能融入戰略決策過程時,必須堅持透明、公平和維護人類判斷力的原則。人工智能在博弈論中的未來不僅關乎技術實力,還關乎用人工智能增強人類智慧,從而創造一個更具戰略性、更知情、更合作的世界。
用心創新,擁抱未來: 總之,人工智能與博弈論的交叉代表著一個充滿無限可能的前沿領域。它有望徹底改變我們處理和解決復雜戰略問題的方式,為理解和塑造我們周圍的世界提供新的工具。在我們前進的過程中,我們必須以審慎的創新態度對待這一前沿領域,確保人工智能和博弈論的進步能夠為更大的利益服務,并以道德原則為指導,深刻理解其對社會的影響。
參考來源:Enrique J. ávila Mu?oz
來自哈工大社會計算與信息檢索研究中心等《思維鏈推理》研究綜述,系統地組織了當前的研究,包括XoT的構建、XoT的結構變體和增強的XoT
思維鏈推理是人類智能的基礎認知過程,在人工智能和自然語言處理領域引起了極大的關注。然而,這一領域依然缺乏全面的研究綜述。為此,我們邁出了第一步,仔細而廣泛地呈現了這一研究領域的深入綜述。我們使用X-of-Thought來廣義地指代思維鏈。具體而言,我們按照方法的分類系統地組織了當前的研究,包括XoT的構建、XoT的結構變體和增強的XoT。此外,我們還描述了XoT的前沿應用,涵蓋了規劃、工具使用和精餾。我們還會討論挑戰并探討一些未來的方向,包括忠實性、多模態和理論。我們希望這篇綜述對于尋求在思維鏈推理領域創新的研究人員來說是一份寶貴的資源。
經過預訓練的語言模型(PLMs)能夠從無標簽文本中自動學習通用表示,并通過在下游任務上進行微調來取得出色的性能(Devlin 等,2019;Raffel 等,2020;Radford 和 Narasimhan,2018)。最近,擴大語言模型的規模不僅顯著提高了性能,而且還帶來了許多驚喜,例如突現能力(Wei 等,2022a;Schaeffer 等,2023)。因此,自然語言處理的范式正在從預訓練與微調轉向預訓練與上下文學習。然而,迄今為止,大型語言模型(LLMs)在一些復雜推理任務上,例如數學推理(Cobbe 等,2021;Patel 等,2021)、常識推理(Talmor 等,2021;Mihaylov 等,2018)等,仍有相當大的提升空間。
為了利用 LLMs 處理復雜推理任務,Wei 等(2022b)擴展了上下文學習,通過逐步推理過程首次引入了思維鏈(CoT)提示的概念。Kojima 等(2022)發現,在提示中簡單地加入一個神奇的短語“讓我們一步一步地思考”,使得 LLMs 能夠在沒有任何人工注釋推理過程的情況下進行零樣本思維鏈推理。這些研究凸顯了思維鏈在增強模型的復雜推理能力和提高其推理和規劃能力方面的重要性。
隨后,關于 X-of-thought(XoT)的大量工作在 NLP 社區中如雨后春筍般涌現,例如自動 XoT 構建(Kojima 等,2022;Zhang 等,2023a;Xu 等,2023)、XoT 結構變體(Chen 等,2022a;Ning 等,2023;Lei 等,2023;Yao 等,2023b)等。注意,為了與原始的 CoT 進行區分,我們廣義地使用 XoT 來指代 CoT,這是一個用于逐步推理方法的集合術語。然而,這些方法和數據集尚未經過系統性的審查和分析。為了填補這一空白,我們提出了這項工作,對 XoT 家族進行全面和詳細的分析。在本文中,我們首先介紹相關背景和初步情況(§2)。此外,我們仔細地從多個角度對 XoT 系列的工作進行分類,并完成了深入分析(§4),包括 XoT 構建方法(§4.1)、XoT 結構變體(§4.2)和 XoT 增強方法(§4.3)。然后,我們提供了 XoT 在前沿領域的實際應用(§5)。為了激發 XoT 的后續工作,我們提供了對該領域未來研究可能的方向的見解(§6)。最后,我們比較并討論了現有的方法(§7)。
Benchmarks
在本節中,我們通過三個不同的分類來探索思維鏈推理:思維鏈的構建(§4.1)、思維鏈的結構變體(§4.2)和思維鏈的增強方法(§4.3)。
經過深入分析,我們將思維鏈的構建分為三個類別:1)手動XoT,2)自動XoT,和3)半自動XoT,以下進行描述。
1.1 手動XoT
盡管大型語言模型通過提示執行少數示例的上下文學習,但它們在推理任務上仍然受到限制。為了探索大型語言模型的潛在推理能力,一種標準方法是在演示中提供不同形式的思維。 Wei等人(2022b)首先通過手動提供自然語言形式的理由來演示,提出了思維鏈提示(少數示例CoT)。為了進一步確保推理過程的確定性,并減少推理路徑和答案之間的不一致性,PAL(Gao等人,2023)和PoT(Chen等人,2022a)利用編程語言作為注釋理由,將問題解決轉變為可執行的Python程序。同時,為了充分發揮自然語言和編程語言的優勢,并提高推理輸出的信心,MathPrompter(Imani等人,2023)使用零樣本思維鏈提示生成多個代數表達式或Python函數,這些表達式或函數可以相互驗證并提高結果的可靠性。此外,由于演示中樣本的推理復雜性,例如具有更多推理步驟的鏈,導致性能的提高,Fu等人(2023a)提出了基于復雜性的提示,其中對高復雜性的理由進行投票以得出最終答案。 手動構建的思維鏈方法通過向演示中添加不同類型的逐步中間推理過程來擴展上下文學習。它們允許LLMs模仿并生成推理路徑。盡管手動XoT方法為人類理解提供了更大的可解釋性和可信度,并且在復雜任務上表現優異,即數學推理、常識推理、符號推理等,但手動注釋理由需要顯著的成本,并且存在諸如演示選擇和任務泛化的困難。因此,其他作品試圖以自動的方式構建推理路徑。
1.2 自動XoT
思維鏈提示(Wei等人,2022b)在少數設置中通過任務特定的范例引出了LLMs的復雜推理能力,這限制了其可擴展性和泛化性。為了減少手工制作的少數范例的成本,Kojima等人(2022)通過在問題之后引入一個神奇的短語“Let’s think step by step”,提出了零樣本CoT,這使得LLMs能夠以零樣本的方式生成推理鏈。然而,零樣本CoT的推理路徑質量差,伴隨著許多錯誤。由于演示的多樣性在推理鏈生成中起著重要作用,Auto-CoT(Zhang等人,2023a)通過聚類和代表性范例選擇自動生成演示,這改善了演示的多樣性,并始終匹配或超過了少數示例CoT的性能。Xu等人(2023)提出Reprompting,通過迭代地使用吉布斯抽樣來找到有效的CoT提示。同時,推理鏈中的一些錯誤來自于遺漏步驟的錯誤,Wang等人(2023f)通過設計一個計劃將整個任務劃分為更小的子任務,并根據計劃用更詳細的指令執行子任務,將零樣本CoT擴展到計劃并解決(PS)提示。此外,PoT(Chen等人,2022a)也探索了如Codex這樣的語言模型,通過逐步添加“Let’s write a Python program…”來生成可執行的Python程序,以零樣本設置解決數學問題,這減輕了中間推理步驟中的錯誤。 與手動XoT不同,使用零樣本提示工程或采樣的自動XoT具有可擴展性,并且可以在不需要人工干預的情況下在域之間泛化。然而,由于缺乏人類對齊,自動生成的思維鏈遇到了諸如質量差、錯覺和事實不一致性等挑戰。因此,以半自動方式構建XoT是必要的,這將在§1.1.3中介紹。
半自動XoT方法融合了手動和自動構建方法的優點。Shao等人(2023)提出了合成提示,該方法利用少量人工標注的例子,通過一種交替的前向-后向過程,引導模型生成更多的例子,并選擇有效的演示來引出更好的推理,減輕AutoCoT中人的對齊缺乏的問題。盡管之前的工作解決了手動標注的問題,但演示選擇也可以顯著影響性能。 Automate-CoT (Shum等人,2023)采用方差降低策略的強化學習來估計在黑箱語言模型中每個例子的重要性,引出更好的演示選擇。同樣,Lu等人(2023b)提出PromptPG,它利用策略梯度學習來選擇表格推理中的演示。
最原始的思維鏈是一種用自然語言描述中間推理步驟的鏈結構。在本節中,我們將介紹修改原始鏈結構的結構變體,包括鏈結構變體、樹結構變體和圖結構變體。 樹結構:原始鏈結構固有地限制了探索范圍。通過整合樹結構和樹搜索算法,模型獲得了在推理過程中高效探索和回溯的能力。但是,當前的thought-of-tree在任務選擇上有很大的局限性,每個任務都需要特定的提示設計。 圖結構:與樹相比,圖引入了循環和環,帶來了更復雜的拓撲關系,并允許建模更復雜的推理。
3 XoT增強方法
在本節中,我們將介紹XoT增強方法。總之,我們將概述五個類別,分別是加入驗證和細化(§4.3.1)、問題分解(§4.3.2)、利用外部知識(§4.3.3)、投票和排名(§4.3.4)、提高效率(§4.3.5)。
3.1 驗證和細化:鏈式思考推理往往傾向于產生錯誤的推理步驟,其中間推理步驟的錯誤會觸發一系列的錯誤。 3.2 問題分解:X-of-thought推理的本質在于其分步解決問題。 Wang等人(2022a)迭代地從模型中獲取知識,取得了多跳QA方面的進展。
3.3 外部知識:模型內的參數化知識是有限且過時的。引入外部知識可以緩解這種現象。
3.4 投票和排名:由于生成過程中的固有隨機性,LLM推理表現出一些隨機性和不確定性。通過多次采樣策略,可以有效減輕這個問題。
3.5 效率:LLM推理和手動注釋推理鏈
結論
在本文中,我們對現有的關于思維鏈推理(X-of-thought reasoning)的研究進行了廣泛的調查,提供了該領域的全面回顧。我們引入了廣義思維鏈(X-of-Thought)的概念,并從多個角度審視了在思維鏈推理方面的進展。另外,我們也探討了思維鏈在尖端領域的應用。我們還突出了當前這一研究面臨的挑戰,并提供了未來的展望。據我們所知,這項調查代表了對思維鏈推理的首次系統探索。我們的目標是為對思維鏈推理感興趣的研究者提供全面的概覽,希望這份調查能推動該領域的進一步研究。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
//searchworks.stanford.edu/view/14784050
盡管語言模型(LMs)在現實應用中無處不在(例如,網頁搜索,文本自動完成和內容生成),但大多數LMs并沒有針對人類用戶與LMs的交互進行優化,也沒有在這方面進行評估。為了解決這一缺口,本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求:在給定周圍環境的情況下提出內容。為了支持這種需求,我們提出了一種訓練方法,使任何預先訓練過的LMs都能完成填空任務,有助于更好地促進人機交互。其次,我們構建了一個平臺,CoAuthor,用于捕獲人機交互的交互痕跡。通過CoAuthor,我們展示了如何收集大規模交互數據集并分析這些痕跡,從而對LM在語言,思想發展和協作方面的能力提供獨特的見解。最后,我們提出了一個新的評估框架,人工智能語言交互評估(HALIE),該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后,我們討論了這個領域的開放性挑戰和未來的發展方向。
在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理(NLP)領域正在經歷一個不斷變化和創新的時代,本論文旨在捕捉該領域的一個快照,并從這個不斷變化的景觀中研究一種永恒的質量:設計和評估用于人類交互的語言模型(LMs)。自我開始博士研究以來,LMs至少可以說發展迅猛。在2017年,構建LM的最常見方式是選擇一個特定任務,收集一個定制的數據集,設計一個定制的模型,并從頭開始訓練定制的模型,正如我在我第一個項目中所演示的那樣(Lee等人,2019)。到了2023年,即使沒有NLP或編程的先前知識,我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示,快速“構建”并與LMs進行交互,以執行廣泛的任務,正如我在后續項目中所演示的那樣(Lee等人,2022a,b,Bommasani等人,2023)。
然而,盡管近期的語言模型(LMs)具有前所未有的能力和廣泛的應用(Radford等人,2019; Brown等人,2020; Rae等人,2021; Zhang等人,2022; Chowdhery等人,2022; Lieber等人,2021; OpenAI, 2022, 2023),但在NLP領域的大部分現有LM研究主要側重于非交互場景:給定一個輸入文本,模型生成一個輸出文本,只關注輸出的質量。在這種情況下,人類的參與要么被忽視,要么限于特定的目的或形式,如對模型輸出的人類評估(Ribeiro等人,2020; Kiela等人,2021)或像對話那樣的嚴格交互(Paranjape等人,2020; Thoppilan等人,2022; Shuster等人,2022)。幾乎所有的基準測試,即使是那些包含了多樣任務的基準測試(Gehrmann等人,2021; Hendrycks等人,2021; Liang等人,2022),也都采取了這種非交互的視角。與此相反,我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例,與其構建一個孤立運作的模型(即,將預定義的問題作為模型輸入,并將模型輸出與靜態基準中的預定義答案進行比較),我更注重交互場景。在這種場景下,用戶參與到一個迭代的過程中,寫下問題,詢問(或查詢)模型,解讀并處理模型輸出,根據輸出調整他們的問題,并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學(Lee等人,2022a)。我努力開發的LM并不是可以自行生成整個故事的模型(圖1.1a),而是能夠增強和支持我們的寫作過程的模型(圖1.1b),可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart(1962)、Skagestad(1993, 1996)、Shneiderman和Maes(1997)、Horvitz(1999)、Hassani等人(2020)、Brynjolfsson(2022)、Shneiderman(2022)的觀點相吻合,其最終目標是增強人類能力,而不是自動化它們(即,智能增強)。 對于人機交互(HCI)社區來說,近期的語言模型(LMs)為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互(Calderwood等人,2020;Buschek等人,2021;Wang等人,2021;Chen等人,2021;Chakrabarty等人,2022;Ippolito等人,2022;Valencia等人,2023)。為了研究LMs的生成能力,HCI中最傳統的方法是情境詢問,邀請并訪問用戶(Calderwood等人,2020;Clark等人,2018b;Gero和Chilton,2019;Wu等人,2020, 2022;Yang等人,2019a)。然而,由于情境詢問的時間和資源密集性,它在捕捉LM能力的主觀解釋方面更有效,而在涵蓋多樣化的上下文方面則較為欠缺。 我的研究核心是交互跡線,即在人類用戶和LMs交互過程中展開的事件序列(圖1.1b)。這些跡線包含了各種行為,包括按鍵操作,光標移動,系統查詢,以及通過系統建議進行導航。它們包含豐富的信息,捕獲了人機交互的動態性,提供了對LMs在交互場景中能力的深入了解。例如,通過檢查用戶查詢的頻率,我們可以量化用戶對LMs的依賴程度,以及LM響應的幫助程度。此外,交互跡線還能讓我們了解用戶在與LMs交互時采取的策略,以及交互的時間屬性。最后但同樣重要的是,利用交互跡線可以覆蓋各種上下文,因為設計者可以一次性大規模捕捉人機交互,并將其重復使用并多次回放以便于分析。 我相信,通過利用這些交互跡線,NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。 這篇論文包括以下章節: ? 第二章通過提供有關語言模型(LMs)、人機交互和人機交互在寫作中的設計空間的背景,為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境,即寫作的修訂過程,并關注了大多數LMs無法直接解決的用戶需求。具體來說,我們提出了一種訓練方法,使LMs能夠填補空白(即,文本填充)。 ?** 第四章介紹了CoAuthor,這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集,產生了一個豐富且可以重復分析的數據集。通過使用這個數據集,我展示了如何通過檢查這些交互跡線,對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架,即人工智能基于語言的交互評估(HALIE),它定義了交互系統的基本組成部分,并引入了新的評估指標,用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景,使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰,以激發更深入的研究和創新**。 論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究(2020),該研究在2020年的計算語言學協會(ACL)上發表。第四章基于Lee等人的材料(2022a),該材料在2022年的人機交互系統會議(CHI)上發表。第五章基于Lee等人的研究(2022b),該研究目前正在審查中。
本次文獻匯報分享一篇2021年3月哈佛大學的研究人員發表于《EXPERT OPINION ONDRUG DISCOVERY》的文章[1]。
前言
簡介:近年來,人工智能(Artificialintelligence,AI)在計算機視覺、自然語言處理和游戲等領域取得了巨大進展。在藥物發現領域,盡管已經有一些人工智能模型成功應用于ADME/T和活性預測,但仍然存在一個關鍵的挑戰:這些預測模型是否具有可泛化性?
涵蓋的領域:作者總結了藥物早期發現階段用于ADMET性質預測的人工智能模型的相關概念,進一步討論了人工智能部署的適用性領域和數據集構建問題。進一步回顧了多任務、遷移和元學習的作用,這些學習框架利用輔助數據來克服泛化問題。
專家意見:作者的結論是,將可靠和信息豐富的人工智能模型集成到藥物發現流程中,最有前途的方向是將學習特征表示、深度學習和新穎的學習框架結合起來。這樣的方案能很好地解決藥物發現相關的數據集稀疏和不完整的問題。
介紹
人工智能技術和深度學習(deeplearning,DL)技術已經在計算機視覺、自然語言處理、圍棋游戲等多種領域產生了令人難以置信的結果。人工智能的廣泛應用給藥物的發現和重新利用帶來了很大的希望,具有里程碑意義的案例包括新抗生素halicin的發現,以及AlphaFold2從序列到蛋白質結構的成功預測。盡管歷年來大型人工智能模型的訓練成本和資源消耗都很高,但計算機技術的創新已經打破了這些障礙。 從人工智能中受益的藥物發現的關鍵領域之一是ADME/T性質預測,通過定量結構活性關系(quantitative structure–activity relationship,QSAR)模型來預測多種性質,從簡單的物理化學性質到復雜的藥代動力學(pharmacokinetic,PK)、藥效學和毒理學特性。重要的PK端點包括清除率、通透性和穩定性;重要的藥效學端點包括藥物靶標特異性和選擇性;重要的毒理學端點包括細胞色素P450誘導和hERG抑制。
預測模型的可用性是非常重要的,決定了化學家和生物學家是否能在臨床中選擇最有可能成功的候選藥物。這些計算工具可以降低候選藥物的流失率和研究成本,從而降低新藥的價格,減輕病人的負擔。 有許多的研究評估了新興的人工智能模型與傳統的機器學習和化學信息學模型。默克公司舉辦了一個Kaggle競賽,挑戰參賽者為15個不同的QSAR數據集建立模型。獲勝的項目使用的是深度神經網絡(deep neural network,DNN)。2015年,Ma等分析了這些結果,發現深度神經網絡的簡單應用通常優于隨機森林(random forests,RFs)。2018年,Mayr等使用ChEMBL數據庫對機器學習模型進行了詳細的藥物靶點預測比較,類似地發現DNN優于RFs,以及支持向量機(support vector machines,SVMs)、k-最近鄰(K-nearest-neighbors,KNN)、樸素貝葉斯(Na?veBayes,NB)和相似集成方法(a similarity ensemble approach,SEA)。
未來的挑戰在于提高人工智能的泛化能力,即從很少的數據推廣到更廣泛的化學空間。在某種程度上,這是一個固有的、棘手的問題;畢竟,人工智能模型只能基于現有數據進行預測。而且,藥物發現的數據非常稀疏,在廣闊的可能性化學空間中只有很少的實驗數據點,而且根據分析的準確性和靈敏度,常常是帶有噪聲的,但這一挑戰并非不可克服。
目前有很多工具和案例研究可以成功地對數據稀缺的環境建模。因此,開發用于性質預測的人工智能模型仍有很大的潛力。
人工智能分子性質預測正在迅速發展。盡管新模型多種多樣,但每一種模型都有相同的兩部分結構:(1)分子表征方法,它以計算機可讀的格式對化合物進行編碼;(2)人工智能算法,它基于分子表示法進行預測。這些是決定人工智能模型的準確性和可泛化性的決定性因素。
分子表征
在QSAR建模的早期歷史中,分子描述符是人工定制的,用于非常小的數據集的特定模型框架。如果研究人員知道一個特定的性質依賴于一個特定的描述符,那么他們就可以使用那個描述符。然而,在大多數情況下,其中的關系更加復雜,包含了多種因素的組合。因此,當研究人員開始處理更大、更多樣化的數據集時,對通用描述符的需求變得非常明顯。多年來,研究人員開發和測試了許多類型的描述符。
描述符的選擇應該遵守一下規定:首先,描述符應謹慎選擇和刪減,以避免過擬合。第二,描述符應該盡可能具有多樣性。不同的描述符集合涵蓋了物理化學空間的不同部分,必須確保一組描述符為特定的性質而建立,并且描述符能夠擴展和泛化狹窄的訓練集。第三,描述符在描述符空間中應該盡可能地相互正交。這使得模型具有更強的可解釋性,同時也避免了將冗余的信息合并到模型中。
選擇正確的描述符的困難很大程度上在于第一點和第二點之間的沖突。特別是在預測具有未知的或定義不清的數據框架的小型數據集時,很難找到一組合理的避免模型過擬合的描述符,同時仍包含模型作出準確預測所需的所有信息。
選擇合適的分子描述符是一個特征工程問題。近來,某些模型試圖通過直接從化合物的結構中學習特征表示來克服特征選擇的缺點,通常表示為分子圖、圖理論矩陣或SMILES。使用學習得到的特征而不是設計的特征已經成為近來人工智能的一個基本主題。例如,在計算機視覺領域的重大突破ImageNet,它使用DL和大量的卷積層,而不是手工設計的特征。同樣,在DeepMind的AlphaGo中,人工智能也沒有使用任何預先設定好的動作序列。
然而,學習后的特征表示方法仍然面臨困難。一個關鍵的限制是,一個模型需要大量的數據才能學習特征并且不過度擬合。
表1 小分子最常用和最有用的分子表示(表格翻譯自原文)
人工智能算法
類似于分子表示,人工智能算法可以大致分為使用特征工程或特征學習。SVM、KNN、RF、線性回歸和MLP模型屬于特征工程;CNN、RNN和MPNN以及Transformers屬于特征學習。這種劃分并不完全明確,許多已學習特征的模型也將分子描述符作為輸入。 在特征工程模型之外,MLP已被證明至少與支持SVM、KNN、RFs和線性回歸模型相匹配,甚至經常在溶解度、細胞生長抑制、logD和CLINT等數據集上優于SVM、KNN、RFs和線性回歸模型。雖然Ma等和Korotcov 等研究都同意MLPs優于所有其他模型,但Korotcov等發現,在hERG端點上,DNNs的表現更差,而Ma等發現DNNs的表現明顯更好。盡管它們的模型架構略有不同,但這些差異只會帶來適度的改變,不會對性能產生顯著的變化。事實上,主要的區別在于Korotcov等人在他們的訓練集中使用了大約500種化合物,而Ma等人使用了大約50000種化合物。也就是說,在大型復雜數據集上,特征學習模型比特征工程模型表現得更好。
表2 預測分子性質最常用和最有用的機器學習算法(表格翻譯自原文)
數據質量和適用性領域****************
1.適用領域****************
模型的適用領域(The applicability domn,AD)指模型可以合理應用于預測的響應空間和描述符空間。藥物發現空間正在擴展到小分子以外,面向的是更具有挑戰性的、新的靶標。Hanser等人將AD的概念擴展到如圖1所示的模型的決策域(decision domain,DD)。圖1是一個層級結構,定義了一個空間,在這個空間中,模型可以在三個方面做出預測:(1)適用性,(2)可靠性,(3)可判定性。適用性衡量模型所要求的預測是否符合預期。可靠性衡量模型在其訓練集中是否被給予足夠的信息來做出明智的預測。可判定性衡量的是一個決策的實際有用程度。雖然沒有明確說明,但大多數AD方法都可應用這個框架,這為分析模型的泛化性提供了一個有用的方法。
**圖1 三級決策域層級結構及限制其泛化的因素(圖片來自原文)**2.數據質量
對于實際的模型構建,數據是最基本的限制。在藥物發現過程中的數據集生成較為困難,每個實驗數據點都必須由生物學家和化學家來測量,這需要時間和資源。高通量初級試驗的數據較多,而資源密集型的PK/PD和毒性端點所包含的數據較少,這些端點在候選藥物選擇的后期階段更為重要。 藥物發現中的數據量與人工智能的其他領域進行對比:在計算機視覺中,ImageNet擁有120萬個數據點用于圖像識別;在GPT3的自然語言處理中,研究人員使用了5000億個文本數據標記。這種數量的數據對于任何端點來說都是難以獲得的,PubChem的所有生物活性數據量也只有大約2.7億個。盡管數據增強是一項強大的技術,即通過創建額外的樣本以供模型學習,例如,通過采樣不同的SMILES或同一化合物的不同構象,然而這并不能改變化合物的實驗數據有限這一事實,因此無法表示新穎的化學物質。 還有一些更具體的、影響泛化性的因素。數據集可能會有很大的誤差,或者偏向于特定的結構或端點值。另外,噪聲數據集的問題降低了每個數據點的可靠性,從而降低了整個模型的可靠性。同時,模型不能比它所訓練的實驗數據更準確。因此,對于任何試驗數據源,必須與領域專家一起仔細評估試驗的穩健性和可靠性,以確定如何在模型構建中使用它。
3.數據集構建
近年來,無論是在工業領域還是公共領域,藥物發現相關的數據量都有了很大的增長。在PubChem、ChEMBL和ZINC等數據庫中存在的數據集,可供大眾使用。制藥公司有自己的內部專有數據庫。為了創建更大、更全面的數據庫,以構建更精確的模型,人們一直在努力將這些專有數據庫集中在一起。其中規模最大的是MELLODDY,這是一個由10家制藥公司組成的聯盟,它使用聯邦學習(federated learning,FL)來訓練人工智能模型。 然而,許多數據集往往是異構的,因此不能直接應用模型。在篩選過程中,必須非常小心,如果匯總數據,則必須聘請領域專家。此外,數據歸一化過程必須統一應用到整個數據集。在執行數據管理之后,數據分割的選擇,創建訓練、測試和驗證集,對于生成可泛化模型也至關重要。
********學習框架
為了克服這些數據問題,研發人員提出了遷移學習、多任務學習和元學習框架。這些框架都建立在分子性質預測任務彼此相似這一假設的基礎上,這些模型的基礎思想是,通過給人工智能模型提供其他任務的額外信息,可以讓它在某些特定任務中表現得更好。此類任務基于的假設是,所有的分子性質預測任務都植根于某些物理、化學和生物系統。
1.遷移學習
通過遷移學習,模型將知識從一個任務推廣到另一個任務,以提高模型的適用性和可判定性。這種方法已經在一定程度上被用于調整全局模型以創建局部模型的實踐中,兩種最常見的遷移學習方法是:一、基于功能,其中一個模型學習一些分子表示,然后用于其他模型,二、基于參數,一個模型在一個任務上訓練,然后它的權重作為近似解,微調至不同的任務。
2.多任務學習
多任務學習是一個單一的人工智能模型在同一時間預測一個化合物的許多不同的屬性。這個框架背后的核心概念是,人工智能模型將在它所預測的每個屬性之間共享信息。在適用性領域方面,假設我們有一種化合物,我們想要預測它的某些性質,而該化合物沒有類似的化合物與實驗數據。如果我們訓練一個單任務模型,它就會脫離適用性領域。但對于多任務學習,假設可能存在不同性質的類似化合物的實驗數據,人工智能模型可以利用這些信息做出明智的預測。
3.元學習
在元學習框架中,創建了一個二階模型,二階模型接收任務的數據,然后輸出另一個人工智能模型的規范,然后在任務上進行訓練。這些規范可以是模型的類型、要使用的超參數或權值初始化。 **圖2 以下部分的圖形表示:(a)遷移學習模型;(b)多任務學習模型;(c)元學習模型(表格來自原文)
**總結
關鍵ADME/Tox端點和活性預測的人工智能模型對早期藥物發現過程具有很高的應用價值,因為它們將加速臨床選擇更安全、更有效的藥物,最終降低經濟成本。仍然存在的關鍵挑戰是數據的可用性和依賴于數據的模型的泛化性。 必須仔細評估數據的偏差或噪聲,仔細地進行一致化處理,以構建穩健的數據集。在構建數據集之后,必須開發模型,以便從數據中最好地歸納并做出適當的預測。雖然目前選擇使用哪些組件來創建模型還沒有明確的答案,但總體趨勢是向學習特征表示和深度學習模型發展,并且被集成在一些元學習、遷移學習或多任務學習框架下。
**參考文獻 **[1] HUANG D Z, BABER J C, BAHMANYAR S S. The challenges of generalizability in artificial intelligence for ADME/Tox endpointand activity prediction. Expert Opinion on Drug Discovery, 2021, 16(9):1045-1056.
供稿:張滿湛
**校稿:張夢婷/馮紫燕編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
計算機視覺(Computer Vision)是一門多學科科學,致力于讓機器具備“看”的能力。 這個問題是很具有挑戰性的,因為我們從現實的視覺世界中觀察到了巨大的復雜性和外觀的變化。迄今為止,機器學習技術提供了最有有效的方法來設計具有人類圖像理解能力的系統。今天為大家再來了劍橋大學Alex Kendall的博士論文-計算機視覺深度學習中的幾何結構與不確定性。
針對一些核心計算機視覺問題,包括語義分割,實例分割,深度預測,定位,立體視覺和視頻場景理解等等問題,論文中的介紹了一些端到端深度學習架構。這些的框架優于傳統方法,并在許多具有挑戰性的計算機視覺問題上具有很不錯的效果。