高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。
黑盒AI模型的激增促使需要解釋其內部機制并證明它們的可靠性,特別是在高風險應用領域,如醫療保健和自動駕駛。由于缺乏可解釋AI(XAI)的嚴格定義,開發了大量與可解釋性、可解讀性和透明度相關的研究,以從不同角度解釋和分析模型。因此,面對一長串的論文,要全面了解XAI研究的所有方面變得具有挑戰性。考慮到神經網絡在AI研究中的流行,我們將關注范圍縮窄到XAI研究的一個特定領域:基于梯度的解釋,這可以直接用于神經網絡模型。在這篇綜述中,我們系統地探索了迄今為止基于梯度的解釋方法,并引入了一個新的分類體系,將它們分為四個不同的類別。然后,我們按時間順序介紹技術細節的精髓,并強調算法的演變。接下來,我們引入人類和量化評估來衡量算法性能。更重要的是,我們展示了XAI的一般挑戰和基于梯度解釋的特定挑戰。我們希望這篇綜述能幫助研究人員理解最新進展及其相應的缺點,這可能會激發他們在未來工作中解決這些問題的興趣。
如今,我們目睹了在各個領域內神經網絡模型的顯著激增,例如,計算機視覺 [28, 43, 54]、自然語言處理 [10, 53, 97]、機器人學 [9, 47] 和醫療保健 [36, 75]。由于它們不透明的決策過程,AI模型可能會對少數民族表現出偏見或做出意外且可能災難性的錯誤。例如,ProPublica報告稱,COMPAS司法系統對非洲裔美國人的被告存在偏見,預測他們重新犯罪的可能性較高 [35]。Ribeiro等人 [70] 觀察到,模型在背景中存在雪的情況下區分狼和哈士奇犬。因此,迫切需要闡明內部過程,理解決策機制,并增強用戶對AI系統的信任。 可解釋AI(XAI)指的是一系列旨在推理和理解模型行為、提供洞見以糾正模型錯誤/偏見,并最終使用戶接受并信任模型預測的技術。根據Guidotti等人 [26] 的分類,如圖1所示,XAI可以被分類為以下方面:先驗解釋和事后解釋。先驗解釋努力開發用戶可以直接理解的透明模型,無需額外的解釋工具,例如,決策樹 [69] 和決策規則 [31]。事后解釋旨在通過利用輸入特征與模型預測之間的關系來解釋訓練過的黑盒模型。事后解釋可以進一步分為模型解釋 [13, 45]、結果解釋 [70, 84] 和模型檢查 [18, 23]。模型解釋涉及使用在全局級別上可解釋和透明的模型來近似黑盒模型的整體邏輯。結果解釋專注于探索特定預測的背后原因,屬于局部級別。模型檢查旨在提供視覺和文本表示,以便于理解模型的工作機制。 在結果解釋中通常采用兩種方法:特征歸因(也稱為特征重要性方法)和反事實解釋。特征歸因直接識別輸入特征對模型輸出的重要性,而反事實解釋探索輸入空間中的最小且有意義的擾動,以回答輸入值的哪些變化可能會影響模型的預測。為了更深入地探索兩種方法之間的聯系,我們引用了Kommiya Mothilal等人的研究 [42]。
1.1 本綜述的目的
由于缺乏一個普遍且嚴格的可解釋AI(XAI)定義,大量與可解釋性、可解讀性、透明度及其他相關概念的研究都屬于XAI領域。在谷歌學術上搜索“可解釋AI”關鍵詞會得到超過200,000個結果,這給在單一出版物內全面闡述XAI的所有方面帶來了巨大挑戰。盡管已有許多關于XAI的綜述文章或書籍章節 [2, 5, 11, 14, 14, 21, 26, 30, 51,58, 73, 85],但大多數僅簡要描述并展示了XAI的某個特定子領域,如基于梯度的特征歸因的早期工作。這種對特定子領域的欠充分探索激勵我們全面概述基于梯度解釋的最新進展。先前的綜述旨在幫助從業者快速掌握XAI的各個方面,而我們的綜述文章深入探討了基于梯度解釋方法的算法細節。通過這樣做,我們的目的是幫助研究人員在更多應用中采用適當的方法,并在這一狹窄領域內促進創新突破。 基于不同的方法論途徑,特征歸因包含以下研究分支:基于擾動的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81, 84]。然而,在本文中,我們專注于基于梯度的方法,出于以下考慮。
梯度的直覺。梯度量化了輸入特征中的無窮小變化如何影響模型預測。因此,我們可以利用梯度及其變體有效地分析特征修改對模型預測結果的影響。
神經網絡的無縫集成。神經網絡在各個領域獲得了極大的流行度和令人印象深刻的性能。在模型訓練后,可以通過反向傳播輕松獲得梯度。因此,基于梯度的解釋能夠直接解釋神經網絡,無需對模型本身進行任何更改。
滿足公理化屬性。由于缺乏真實基準,特征歸因方法可能會產生不同的解釋,這導致了確定哪個解釋更可信的挑戰。基于梯度的解釋是有意設計來滿足某些公理化原則的,例如敏感性和完整性,確保產生合理且期望的解釋。
1.2 我們的貢獻
我們綜述的貢獻總結如下:
我們提出了一個新穎的分類體系,系統地將基于梯度的特征歸因分為四組。隨后,我們介紹了每組算法的研究動機和技術細節的要點。
我們全面概述了一系列廣泛接受的評估指標,包括人類評估和客觀指標,使得可以定量和定性地比較各種解釋方法的性能。
我們總結了XAI中的一般研究挑戰以及基于梯度解釋特有的特定挑戰,這些挑戰可能會滋養并為未來工作中的潛在改進奠定基礎。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。
表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。
深度學習已經成功應用于許多應用領域,但其在時間序列預測方面的優勢顯現較慢。例如,在著名的 Makridakis(M)競賽中,傳統統計或機器學習技術的混合應用直到最近才開始表現突出。隨著深度學習的最新架構進展(例如,帶有注意力機制的編碼器-解碼器、變換器和圖神經網絡)被應用于時間序列預測,深度學習開始展現顯著優勢。然而,在大流行病預測領域,深度學習模型仍面臨挑戰:時間序列長度不足以進行有效訓練、對累積的科學知識缺乏認識、以及模型的可解釋性問題。為此,基礎模型(具有廣泛預訓練的大型深度學習模型)的開發使得模型能夠理解模式和獲得知識,這些知識可以在廣泛訓練數據變得可用之前應用于新的相關問題。此外,深度學習模型還可以利用包括知識圖譜和用科學領域知識微調的大型語言模型等大量知識。目前,正在研究如何將這些知識利用或注入到深度學習模型中。在這篇綜述中,我們回顧了幾種最新的建模技術,并提出了進一步工作的建議。1 引言
過去四年對 COVID-19 的經歷向像國家科學基金會(NSF)和疾病控制與預防中心(CDC)這樣的組織清楚地表明,我們需要為下一次大流行做更好的準備。截至 2024 年 1 月 13 日星期六,僅在美國,COVID-19 就造成了 6,727,163 例住院和 1,169,666 例死亡(美國首例 1/15/2020,美國首次死亡 2/29/2020)。下一次大流行可能會更具傳染性,帶來更大的影響。有一些顯著的成功,例如能夠比以往方法更快開發的信使 RNA 疫苗。然而,檢測大流行開始和預測其軌跡的記錄還有改進的空間。 大流行病準備包括持續監測的需求。在復雜的隨機系統中預測罕見事件非常困難。從出現前到流行病再到大流行的過渡,只有在事后才能清楚地看到。使用模型進行大流行預測也非常重要。由于其高影響和可能造成的生命損失,復雜的模型被用于預測颶風的未來。大流行的影響可能會更大。與天氣預報一樣,準確的大流行預測需要三件事:(1)模型的收集,(2)準確的數據收集,以及(3)數據同化。如果這三者中的任何一個出現問題,準確性就會下降。準確性下降時,干預和控制機制無法最優化地應用,導致公眾的挫敗感。 在 COVID-19 大流行期間,數據每天都在收集,但如圖 1 所示,存在一個非常強烈的每周模式,主導了新增死亡曲線,這是報告流程的人為影響。另外,注意住院人數和重癥監護病房(ICU)患者數量似乎是很好的領先指標。 由于每日死亡人數的鋸齒形模式,一些建模研究發現使用每周數據更好。在 COVID-19 后期,日報停止,只剩下每周報告。不幸的是,這意味著用于訓練深度學習模型的數據大大減少。應用的建模技術是統計的、機器學習的或基于理論的腔室模型,這些模型是對易感-感染-康復(SIR)或易感-暴露-感染-康復(SEIR)模型的擴展。這些狀態之間的轉換由微分方程控制,其速率常數可以從數據中估計。不幸的是,估計例如處于暴露狀態的個體的人口可能非常困難。另外兩個類別,統計和機器學習(包括深度學習和基礎模型),可以說更適應可用數據,因為它們尋找重復的模式、依賴過去和領先指標。兩者都可以被構建為多變量時間序列(MTS)預測問題,盡管 MTS 分類和異常檢測的相關問題也非常重要。然而,與理論的聯系是可取的,可能會導致更好的長期預測,以及對現象的更深入理解。這導致了對理論指導的數據科學(TGDS)[52, 82]和物理信息神經網絡(PINN)[51]的研究。統計和機器學習技術相互補充。例如,建模研究應該有可靠的基線模型,根據我們的研究,應該包括隨機游走(RW)、自回歸(AR)和季節性、自回歸、整合、移動平均帶外部變量(SARIMAX)。當訓練數據有限時,SARIMAX 通常與深度學習模型競爭。如果使用每周數據,那么在大流行的早期階段,訓練數據將是有限的,正是準確預測最需要的時候。像 SARIMAX 這樣的基線也可以幫助進行超參數調整,因為有足夠的數據,人們會期望深度學習模型表現良好;SARIMAX 的結果可以幫助衡量這一點。此外,SARIMAX 已被用于數據增強,以幫助訓練深度學習模型[42]。 展望未來,這篇擴展了 [80] 的綜述論文提出了一個問題:人工智能(AI),特別是深度學習,如何被用于提高大流行病準備和預測,以便更好地深度學習模型、更可解釋的模型、使用大型語言模型(LLM)訪問科學文獻、開發和使用知識庫和知識圖譜,以及更好和持續的評估大流行干預和控制。
本文的其余部分組織如下:第 2 節提供了 MTS 預測的兩波改進的概述。第 3 節重點關注了最近在 MTS 預測方面的進展,著眼于變換器和相關建模技術。這些建模技術越來越努力更好地捕捉時間動態,并傾向于成為國家級 COVID-19 預測的頂尖表現者。第 4 節重點關注了最近在空間-時間域中的 MTS 預測進展,各種類型的圖神經網絡在這里有自然的吸引力。這些建模技術傾向于應用于州級 COVID-19 數據。第 5 節討論了用于時間序列預測的基礎模型,即大型預訓練深度學習模型。第 6 節討論了各種形式的知識,如知識圖譜,它是預測模型的自然補充。這些知識可以用于提高預測準確性,檢查預測的合理性(特別是長期預測的問題),指導建模過程,并幫助解釋建模結果。第 7 節給出了當前文獻中發現的幾種建模技術的有效性比較的元研究。最后,第 8 節給出了總結,包括展望未來 MTS 可能的發展方向。
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
理解強化學習(RL)智能體的新出現行為可能是困難的,因為此類智能體通常在復雜環境中使用高度復雜的決策程序進行訓練。這導致了強化學習中各種可解釋性方法的產生,這些方法旨在協調智能體的行為和觀察者預期的行為之間可能出現的差異。最近的大多數方法都依賴于領域知識(這可能并不總是可用的),依賴于對智能體策略的分析,或者依賴于對底層環境的特定元素的分析(通常建模為馬爾可夫決策過程(Markov Decision Process, MDP))。我們的關鍵主張是,即使底層的MDP不是完全已知的(例如,轉移概率沒有被準確地學習)或不是由智能體維護的(即,轉移概率不是由智能體維護的)。,當使用無模型方法時),它仍然可以被利用來自動生成解釋。出于這個目的,我們建議使用正式的MDP抽象和轉換(以前在文獻中用于加速搜索最優策略)來自動生成解釋。由于這種轉換通常基于環境的符號表示,它們可以表示預期和實際智能體行為之間差距的有意義的解釋。我們正式地定義了這個問題,提出了一類可以用來解釋突發行為的變換,并提出了能夠有效地尋找解釋的方法。我們將在一組標準基準上演示該方法。
近年來,機器學習(ML)算法一直是重要研究對象。算法可以被改進以獲得更好的泛化精度和效率的思想,在ML中開啟了許多子學科[66]。其中一個學科研究利用量子理論獲得學習算法的優勢并實現所謂的量子優勢的可能性[53]。實現量子優勢的方法之一是通過量子工具表示數據,例如使用哈密爾頓理論[30];通過從多個數據輸入和多個模型推斷[60],同時從大量數據中學習。通過使用最近在量子數值優化方面的進展,也可以實現量子優勢,這可能在類似梯度下降的計算中使用[7]。然而,對于過渡到量子計算領域的機器學習科學家來說,如果沒有額外的培訓或準備,甚至是理解和應用量子計算背后的一些概念,可能都是特別困難的。
我們寫這篇文章的目的是收集并連貫地介紹量子力學[39,40]中的一些最相關的基本概念及其背后必要的數學概念,還有一些ML概念,以方便讀者建立必要的聯系,同時確定一些應用、算法和其他圍繞這個被稱為量子機器學習新學科的領域。
這篇綜述文章的結構如下。第2節介紹了關于量子力學、量子計算、ML的基本概念,以及關于范式的量子機器學習。第3節,我們留下了一些QML領域未來幾年將發展的應用;以及觀點和評論。第4節是結論。
傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。
分布式向量表示或嵌入將可變長度的文本映射到密集的固定長度的向量,并捕獲可以轉移到下游任務的先驗知識。盡管嵌入式已經成為基于深度學習的NLP任務中一般和臨床領域中文本表示的事實上的標準,但是還沒有一篇調查論文對嵌入式在臨床自然語言處理中的應用進行詳細的回顧。在這篇調查論文中,我們討論了各種醫學語料庫及其特點、醫學規范,并對流行的嵌入式模型進行了簡要的概述和比較。我們對臨床包埋進行分類,并詳細討論每種包埋類型。我們討論了各種評估方法,并提出了可能的解決方案,以應對臨床嵌入治療中的各種挑戰。最后,我們總結了一些未來的方向,將推進臨床嵌入式研究。