亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

合成數據與生成式人工智能

《合成數據與生成式人工智能》涵蓋了機器學習的基礎,結合現代方法解決復雜問題,以及合成數據的系統生成與應用。重點關注可擴展性、自動化、測試、優化和可解釋性(可解釋人工智能)。例如,回歸技術——包括邏輯回歸和Lasso回歸——作為一種方法進行介紹,而不使用高級線性代數。置信區域和預測區間使用參數化自助法(parametric bootstrap)構建,而不依賴于統計模型或概率分布。模型(包括生成模型和混合模型)主要用于創建豐富的合成數據,以測試和基準化各種方法。

  • 強調算法的數值穩定性和性能(計算復雜度)
  • 聚焦于可解釋人工智能/可解釋機器學習,廣泛使用合成數據和生成模型,這是該領域的新趨勢
  • 包含一種新的、更簡便的構建置信區域的方法,避免使用統計學,為強大且知名的XGBoost技術提供了一種簡單的替代方案
  • 涉及數據清洗的自動化,優先考慮在可能的情況下提供更簡便的解決方案
  • 包含專門章節,完全介紹合成數據的應用:使用鉆石-方塊算法生成分形狀地形,以及模擬由重力束縛并隨時間演化的合成星團

回顧

提供了關于機器學習基礎的全面介紹,包括解決復雜問題的現代方法 作者簡介

文森特·格蘭維爾博士(Dr. Vincent Granville)是數據科學和機器學習領域的開創者,Data Science Central(于2020年被TechTarget收購)聯合創始人,MLTechniques.com創始人,曾任風投資助的高管、作者及專利擁有者。格蘭維爾博士曾在Visa、富國銀行、eBay、NBC、微軟和CNET等公司工作,此外,他還曾在劍橋大學和國家統計科學研究所(NISS)擔任博士后研究員。格蘭維爾博士曾在《數論學報》、《皇家統計學會學報》和《IEEE模式分析與機器智能學報》上發表過文章,并且是《開發分析人才:成為數據科學家》(Wiley)一書的作者。格蘭維爾博士現居華盛頓州,熱衷于研究隨機過程、動力系統、實驗數學和概率數論。他曾被《福布斯》雜志評為“20位大數據影響者”之一。

付費5元查看完整內容

相關內容

AI工程:基于基礎模型構建應用

在人工智能(AI)的發展過程中,基礎模型(Foundation Models)已成為推動技術創新的重要力量。這些模型,通常具有大規模的參數量和強大的泛化能力,能夠通過遷移學習應用于多個領域,并已成為AI工程應用中的核心組件。基礎模型在許多實際應用中顯示了其卓越的性能,尤其是在自然語言處理(NLP)、計算機視覺(CV)和多模態學習等領域,逐漸成為構建復雜AI系統的基礎。 隨著基礎模型的快速發展和廣泛應用,AI工程面臨了全新的機遇與挑戰。構建AI應用程序不僅要求對基礎模型有深刻的理解,還需要解決諸如模型優化、數據準備、訓練效率、模型推理和部署等技術難題。本文旨在探討如何將基礎模型應用于AI工程的實際構建中,涵蓋從模型訓練到部署的全過程。 1. 基礎模型概述

基礎模型通常是指那些通過大規模無監督學習(如自監督學習、自回歸學習)進行訓練,并能夠適應多種任務的預訓練模型。這些模型能夠通過微調(fine-tuning)進行快速適應,以執行多種具體的任務。近年來,隨著大型預訓練模型(如GPT-3、BERT、DALL-E和CLIP)的崛起,AI的應用領域迎來了革命性的進步。 基礎模型的一個關鍵特點是它們的通用性——即能夠應用于多個領域并取得顯著的效果。例如,GPT系列模型通過對海量文本數據的預訓練,能夠在文本生成、翻譯、問答和摘要等任務中展現出強大的性能。同樣,DALL-E和CLIP等視覺-語言模型在生成圖像和進行圖像理解時也具有非常高的效率。 2. 基礎模型在AI工程中的應用

AI工程主要關注如何將AI技術轉化為實際可用的應用程序,基礎模型作為構建這些應用程序的關鍵技術,涉及的領域包括自然語言處理、計算機視覺、語音識別、推薦系統等。在AI工程的實際應用中,基礎模型的能力被充分發揮,并通過以下幾個步驟進行實際部署: * 模型訓練和微調: 在具體任務上,基礎模型往往通過微調來適應特定需求。通過遷移學習,基礎模型可以從不同領域的知識中進行學習,并在多個任務中獲得最佳性能。 * 數據準備: 盡管基礎模型已經通過海量數據進行預訓練,但在實際應用中,數據的質量和多樣性對模型效果至關重要。為確保基礎模型能夠適應實際任務,需要對數據進行精細的篩選和處理。 * 推理與部署: 基礎模型的推理能力可以通過優化計算資源(如硬件加速、分布式計算)來提升。在實際部署過程中,可能需要將模型集成到各種平臺上,包括移動設備、Web應用和云服務。

3. 持續的挑戰與未來發展

盡管基礎模型在AI應用中取得了顯著進展,但在實際應用中仍面臨許多挑戰。基礎模型通常需要極高的計算資源,這對訓練和推理效率提出了很大的挑戰。此外,模型的可解釋性和公平性也是AI工程中亟需解決的問題。隨著基礎模型的規模和復雜性的不斷增加,如何在保持性能的同時,降低計算成本和提高可解釋性,成為未來AI工程發展的關鍵方向。 未來的發展趨勢可能包括: * 更高效的模型: 研究人員正在致力于通過模型壓縮、量化和蒸餾等方法,提高模型在推理過程中的效率,使其能夠在資源有限的設備上運行。 * 跨領域融合: 隨著多模態學習的進展,基礎模型將能夠更好地融合語言、視覺、聲音等多個領域的知識,提升在復雜應用場景下的表現。 * AI倫理和可解釋性: 隨著AI在各行業中的普及,如何確保AI模型的透明度、公平性以及避免模型偏見,成為行業和研究者關注的焦點。

4. 結語

基礎模型的崛起為AI工程帶來了新的機遇與挑戰。通過合理應用這些強大的預訓練模型,AI工程師可以構建出高效、智能的應用程序,推動各行各業的技術革新。然而,要使這些技術真正應用到實際場景中,還需要解決計算資源、數據處理、模型優化等一系列問題。隨著技術的不斷發展,基礎模型將會在未來AI工程中扮演更加重要的角色,推動智能應用的廣泛普及和發展。

付費5元查看完整內容

摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。

關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。

人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。

為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。

然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:

  • 我們提供了MXAI方法的歷史總結和分析,包括傳統機器學習方法和基于LLMs的當前MXAI方法。
  • 我們分析了跨時代的方法,涵蓋數據、模型和事后可解釋性,以及相關的數據集、評估指標、未來挑戰和發展方向。
  • 我們回顧了現有方法,總結了當前的研究方法,并從歷史演變的角度提供了對未來發展的洞見和系統全面的視角。

生成式大型語言模型時代

這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。

**A. 數據可解釋性

  1. 解釋數據集:大型語言模型(LLMs)可以通過交互式可視化和數據分析有效地解釋數據集。LIDA [241] 通過生成與語法無關的可視化圖表和信息圖,幫助理解數據的語義,列舉相關的可視化目標,并生成可視化規范。其他方法 [242]–[245] 通過分析數據集來增強數據集的可解釋性。通過結合多模態信息和強大的自然語言處理能力,LLMs可以提供全面、深入、定制化和高效的數據解釋 [13]。Bordt等人 [246] 探討了LLMs在理解和與“玻璃盒”模型互動中的能力,識別異常行為并提出修復或改進建議。重點在于利用多模態數據的可解釋性來增強這些過程。
  2. 數據選擇:數據選擇在這一時代至關重要。它提高了模型的性能和準確性,減少了偏差,增強了模型的泛化能力,節省了訓練時間和資源,并提升了可解釋性,使得決策過程更加透明,有助于模型改進 [302]。多模態C4 [247] 通過整合多個句子-圖像對并實施嚴格的圖像過濾,提高了數據集的質量和多樣性,排除了小型、不規則比例的圖像以及包含人臉的圖像。這種方法強調了文本-圖像的相關性,增強了多模態模型訓練的魯棒性和可解釋性。還提出了一種基于啟發式混合數據過濾的生成式AI新范式,旨在增強用戶沉浸感并提高視頻生成模型與語言工具(例如ChatGPT [3])之間的互動水平 [248]。該方法使得從單個文本或圖像提示生成交互式環境成為可能。除了上述內容外,還有一些工作旨在提高模型對分布變化和超出分布數據的魯棒性 [249],[250]。
  3. 圖形建模:盡管多模態大型語言模型(MLLMs)可以處理和整合來自不同模態的數據,但它們通常是隱式地捕捉關系。相比之下,圖形建模通過顯式表示數據節點(例如圖像中的對象、文本中的概念)及其關系(例如語義關聯、空間關系),來更直觀地理解復雜數據關系。一些方法 [251]–[253] 將圖形結構與LLMs結合,通過多模態整合提升了復雜任務的性能和模型的可解釋性。

**B. 模型可解釋性

  1. 過程解釋:在這一時代,MXAI的過程解釋強調了多模態上下文學習(ICL)和多模態思維鏈(CoT)。ICL的突出之處在于它能夠通過使用人類可理解的自然語言指令來避免對大量模型參數進行廣泛更新 [303]。Emu2 [254] 通過擴展多模態模型生成,增強了任務無關的ICL。Link context learning(LCL) [304] 關注因果推理,以提升多模態大型語言模型(MLLMs)的學習能力。[255] 提出了多模態ICL(M-ICL)的綜合框架,適用于DEFICS [256] 和OpenFlamingo [257]等模型,涵蓋了多種多模態任務。MM-Narrator [258] 利用GPT-4 [240] 和多模態ICL生成音頻描述(AD)。進一步的ICL進展和新的多模態ICL變種由 [259] 探討。MSIER [260] 使用神經網絡選擇能夠提高多模態上下文學習效率的實例。多模態CoT解決了單模態模型在復雜任務中的局限性,在這些任務中,單靠文本或圖像無法全面捕獲信息。文本缺乏視覺線索,而圖像缺少詳細描述,這限制了模型的推理能力 [305]。多模態CoT通過整合和推理多種數據類型,如文本和圖像 [261]–[264],來解決這一問題。例如,圖像識別可以分解為逐步的認知過程,構建生成視覺偏見的網絡鏈,這些偏見在每一步都被加到輸入的詞嵌入中 [261]。Zhang等人 [262] 首先從視覺和語言輸入中生成推理依據,然后將其與原始輸入結合進行推理。混合推理依據 [306] 使用文本推理來引導視覺推理,通過融合特征提供連貫且透明的答案解釋。
  2. 內在可解釋性:在這一小節中,我們探討了多模態大型語言模型(MLLMs)的內在可解釋性,重點是兩類主要任務:多模態理解和多模態生成 [307]。多模態理解任務包括圖像-文本、視頻-文本、音頻-文本和多模態-文本理解。在圖像-文本理解中,BLIP-2 [2] 通過兩階段的預訓練過程增強了解釋性,將視覺數據與文本數據對齊,從而提高了圖像描述的連貫性和相關性。LLaVA [308] 通過將圖像-文本對轉換為與GPT-4 [240] 兼容的格式,并將CLIP的視覺編碼器與LLaMA的語言解碼器對接進行微調,生成了指令跟隨數據。像LLaVA-MoLE [309]、LLaVA-NeXT [271] 和LLaVA-Med [272]等變種在此基礎上進行了增強,針對特定領域和任務做出了改進。對于視頻-文本理解,與圖像不同,視頻具有時間維度,需要模型處理靜態幀并理解它們之間的動態關系。這增加了多模態模型的復雜性,但也提供了更豐富的語義信息和更廣泛的應用場景。VideoChat [273] 構建了一個以視頻為中心的指令數據集,強調時空推理和因果關系。該數據集增強了時空推理、事件定位和因果推理,整合了視頻和文本,從而提高了模型的準確性和魯棒性。Dolphins [274] 結合視覺和語言數據來解讀駕駛環境,并與駕駛員自然互動。它提供了清晰且具有相關性的指令,為其建議生成解釋,并通過不斷學習新經驗來適應不斷變化的駕駛條件。對于音頻-文本理解,音頻數據由于其時間序列的性質,需要模型能夠解析和理解時間動態。這擴展了多模態理解的能力。Salmonn [275] 將預訓練的基于文本的LLM與語音和音頻編碼器整合到一個統一的多模態框架中。這種設置使得LLMs能夠直接處理和理解普通音頻輸入,增強了多模態可解釋性,并提供了有關文本和音頻數據關系的洞察。盡管如此,Salmonn在實現全面音頻理解方面仍面臨挑戰。相比之下,Qwen-audio [276] 通過開發大規模音頻-語言模型來推動該領域的發展。通過利用大量的音頻和文本數據集,Qwen-audio提高了模型處理和解釋多樣聽覺輸入的能力,從而推動了多模態理解的邊界,并在各種音頻相關任務中展現了強大的表現。

結論

本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。

付費5元查看完整內容

生成式人工智能(GAI)和大語言模型(LLM)是以無監督或半監督方式運行的機器學習算法。這些算法利用現有內容,如文本、照片、音頻、視頻和代碼,生成新內容。其主要目標是生成真實且新穎的材料。此外,它們在生成新材料的數量上沒有限制。新材料可以通過應用程序接口(APIs)或自然語言接口生成,例如OpenAI開發的ChatGPT和Google開發的Bard。 生成式人工智能(AI)領域的獨特之處在于其發展和成熟過程極為透明,公眾可以廣泛觀察其進展。目前的人工智能時代受到有效利用其能力以提升企業運營的要求影響。具體而言,屬于生成式AI范疇的大語言模型(LLM)能力,具有重新定義創新和生產力極限的潛力。然而,企業在努力引入新技術的同時,可能會危及數據隱私、長期競爭力和環境可持續性。 本書深入探討生成式人工智能(GAI)和LLM。它考察了生成AI模型的歷史與演變發展,以及由這些模型和LLM產生的挑戰和問題。本書還討論了基于生成AI的系統的必要性,并探討了為生成AI模型開發的各種訓練方法,包括LLM預訓練、LLM微調和基于人類反饋的強化學習。此外,它探討了與這些模型相關的潛在用例、應用和倫理考慮。本書最后討論了生成AI的未來方向,并呈現了多項案例研究,突顯生成AI和LLM的應用。

付費5元查看完整內容

機器學習算法深度剖析

了解機器學習算法的工作原理是任何嚴肅的機器學習工程師的必備技能。《機器學習算法深度剖析》一書中,您將深入探討數十種機器學習算法的實際實現,包括:

  • 蒙特卡洛股票價格模擬
  • 使用平均場變分推斷進行圖像去噪
  • 隱馬爾可夫模型的EM算法
  • 不平衡學習、主動學習和集成學習
  • 超參數調優的貝葉斯優化
  • 聚類應用中的狄利克雷過程K均值
  • 基于逆協方差估計的股票聚類
  • 使用模擬退火的能量最小化
  • 基于ResNet卷積神經網絡的圖像搜索
  • 使用變分自編碼器的時間序列異常檢測 《機器學習算法深度剖析》深入探討了當今一些最令人興奮的機器學習算法的設計和基本原理。特別是對概率算法的強調,您將學習貝葉斯推理和深度學習的基礎知識。您還將探索機器學習的核心數據結構和算法范式。每個算法都通過數學和實際實現全面講解,讓您看到它們的工作原理及其實際應用。購買本書的紙質版將包括來自Manning Publications的PDF和ePub格式的免費電子書。

技術介紹

了解機器學習算法的工作原理,以便有效地排除模型故障并提高其性能。本書引導您從最重要的機器學習算法的核心數學基礎到它們的Python實現,特別關注基于概率的方法。

關于本書

《機器學習算法深度剖析》解剖并解釋了各種應用中的數十種算法,包括金融、計算機視覺和自然語言處理。每個算法都經過數學推導,并附有Python的實踐實現以及詳盡的代碼注釋和信息圖表。您會特別欣賞作者Vadim Smolyakov對蒙特卡洛和馬爾可夫模型的貝葉斯算法的清晰解讀。

內容包括

  • 蒙特卡洛股票價格模擬
  • 隱馬爾可夫模型的EM算法
  • 不平衡學習、主動學習和集成學習
  • 超參數調優的貝葉斯優化
  • 時間序列中的異常檢測

讀者對象

適合熟悉線性代數、概率和基礎微積分的機器學習從業者。

作者簡介

Vadim Smolyakov是微軟企業與安全DI研發團隊的數據科學家。

目錄

第一部分

  1. 機器學習算法
  2. 馬爾可夫鏈蒙特卡洛
  3. 變分推斷
  4. 軟件實現 第二部分5. 分類算法 6. 回歸算法 7. 選定的監督學習算法第三部分8. 基本的無監督學習算法 9. 選定的無監督學習算法第四部分10. 基本的深度學習算法 11. 高級深度學習算法

背面簡介

《機器學習算法深度剖析》深入探討了機器學習算法的“如何”和“為何”。對于每一類算法,您將從數學原理開始,到Python的實踐實現。您將探索機器學習領域的數十個例子,包括金融、計算機視覺、自然語言處理等。每個例子都附有詳細的推導、細節、代碼示例和圖表。讀完本書后,您將了解主要算法的內部工作原理,成為更優秀的機器學習從業者。

讀者對象

適合熟悉線性代數、概率和基礎微積分的中級機器學習從業者。

作者簡介

Vadim Smolyakov是微軟企業與安全DI研發團隊的數據科學家。他曾是麻省理工學院計算機科學與人工智能實驗室的AI博士研究生,研究興趣包括貝葉斯推理和深度學習。在加入微軟之前,Vadim在電子商務領域開發了機器學習解決方案。

付費5元查看完整內容

構建能與世界互動的自主代理是人工智能(AI)的核心。本論文引入了“語言代理”,這是一類新的代理,它們利用大型語言模型(LLMs)進行推理以采取行動,標志著與傳統通過廣泛規則設計或學習的代理的一種轉變。它分為三個部分開發:

第一部分通過介紹基于與大規模、真實世界計算環境(如互聯網或代碼接口)的互動的一組新的AI問題和基準,激發了對語言代理的需求。這些“數字自動化”任務為減輕繁瑣的勞動和改善我們的生活提供了巨大的價值,但對于以前的代理或LLM方法在開放式自然語言和長期決策方面提出了重大挑戰,這需要新的方法論。 第二部分為語言代理奠定了方法論基礎,其核心思想是應用LLM推理來實現多功能和可泛化的代理行動和計劃,這也通過外部反饋和內部控制增強了LLM的推理,使其更加扎根和深思熟慮。我們展示了語言代理能解決多種語言和代理任務(特別是在第一部分提出的數字自動化任務),并在先前基于LLM的方法和傳統代理上取得了顯著的改進。 第三部分綜合了第一部分和第二部分的洞察,并概述了一個有原則的語言代理框架。該框架提供了模塊化抽象,以組織各種基于LLM的方法作為代理,理解它們與人類認知的差距,并激發并開發新方法,朝向通用目的的自主代理。從基礎的經驗任務和方法到統一的概念框架,本論文建立了語言代理作為AI研究前沿的一個獨特且嚴謹定義的領域的研究。

構建能與各種環境互動的自主代理是人工智能(AI)的核心問題[266]。從高層次上來說,這篇論文提出了一種全新的代理類型和一種全新的環境類型(圖1.1): ? 現有的代理要么主要遵循特定領域的規則來行動(基于規則的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定領域數據上進行訓練以行動(基于學習的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本論文介紹了語言代理,這些代理利用語言模型進行推理以行動,這減輕了構建傳統代理所需的密集型特定領域努力,并且在各種領域中實現了少量樣本的泛化。這代表了構建通用自主代理目標的一個重大步驟。 ? 現有代理要么與人類或物理世界互動(實用但不可擴展),要么與游戲或模擬互動(可擴展但不實用)。這篇論文引入了數字自動化,一種新型任務,其中代理與大規模真實世界數字環境(如互聯網)互動。這為代理在開放式行動和長期視野上做出決策提供了新的挑戰,同時也提供了巨大的機會來減輕我們的數字勞動并發現新知識。 傳統代理和環境有什么問題?在傳統基于規則或基于學習的代理可能也能感知和用語言行動的情況下,“語言代理”的定義是什么?為什么我們必須轉向大規模真實世界數字環境來進一步發展,而不是使用傳統的代理測試床如游戲?我將簡要使用文本冒險游戲領域來闡述這些點并激發論文的其余部分。

付費5元查看完整內容

來自微軟和人大《生物分子和自然語言的多模態學習》綜述

生物分子建模與自然語言(BL)的整合已經成為一個前景光明的跨學科領域,位于人工智能、化學和生物學的交匯處。這種方法利用文本數據源中包含的關于生物分子的豐富、多面的描述來增強我們的基本理解,并使下游計算任務成為可能,如生物分子屬性預測。將通過自然語言表達的細膩敘述與通過各種分子建模技術描述的生物分子的結構和功能特性的融合,為全面表示和分析生物分子開辟了新途徑。通過將圍繞生物分子的上下文語言數據納入其建模中,BL旨在捕捉一個全面視角,包括通過語言傳達的象征性質以及量化的結構特性。在這篇綜述中,我們提供了通過生物分子和自然語言的交叉建模所取得的最新進展的廣泛分析。(1)我們首先概述了采用的生物分子的技術表示,包括序列、二維圖和三維結構。(2)然后我們深入探討了有效多模態整合語言和分子數據源的基本原理和主要目標。這包括探索機器學習框架,如基于GPT的預訓練和多流神經網絡,以及表示學習的各個方面,如網絡架構、訓練任務和策略。(3)隨后我們調研了到目前為止在這個發展中的研究領域中啟用的實際應用,重點是屬性預測、分子描述的生成和從文本中檢索生物分子數據的用例。(4)我們還匯編和總結了可用的資源和數據集,以促進未來的工作。(5)展望未來,我們確定了幾個有前景的研究方向,值得進一步探索和投資,以繼續推進該領域的發展。最終,通過這一全面分析,我們旨在為生物學、化學和AI領域的跨學科研究者提供當前狀態和BL未來潛力的徹底基礎。相關資源和內容在更新中 //github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling。

生物研究領域長期以來一直認識到徹底理解生物分子(如分子和蛋白質)在推進藥物發現、人類理解以及其他與生物分子相關的應用中的至關重要性。作為化學物質的基本單元,分子在生化反應和細胞功能中發揮重要作用,而蛋白質則因其在結構支持、酶催化、信號傳導等多種功能中的關鍵作用而至關重要。因此,這些實體是現代生物研究的基石。

生物分子可以以多種形式表示,以計算方式建模其結構和屬性。一種常見的表示是生物序列,將生物分子編碼為如核苷酸或氨基酸等單體的線性鏈。例如,分子可以通過簡化的分子輸入行條目系統(SMILES)表示,蛋白質通常由FASTA序列表示。如ChemBERTa、ProtTrans和ESM等基于序列的方法在建模這些序列屬性方面取得了成功。此外,生物分子可以通過將原子表示為節點,化學鍵表示為邊的2D圖來建模。基于圖的方法如MolCLR和Graphormer利用圖神經網絡(GNNs)來學習從圖結構到功能映射。除了序列和基于圖的編碼外,通過實驗或預測確定的分子和蛋白質的3D結構/構象也可以作為深度學習技術的輸入。例如,AlphaFold、ProteinMPNN和Uni-Mol利用3D坐標數據來建模結構屬性。

盡管這些基于深度學習的表示方法對于從不同抽象層次捕獲固有的生物分子特征非常有力,但它們通常忽視了如生物醫學文獻和數據庫等豐富的外部知識來源。例如,PubMed包含大量關于生物分子的注釋和詳細實驗發現的出版物。像PubChem和UniProtKB這樣的資源同樣匯編了已知生物分子的無數屬性、功能和相互作用。直覺上,這些外部知識來源提供了生物分子的廣泛多面向文本描述,提供了從分子表示中缺失的語言上下文。然而,當前的生物分子建模范式在系統利用這些豐富的語言數據構建更全面模型的能力上受到限制。 在計算機視覺(CV)和自然語言處理(NLP)技術融合的背景下,多模態建模取得了顯著進展。如PaLM、BLIP2和LLaVA等模型有效地整合了圖像和文本等不同數據類型,以開發對復雜現實世界領域的更豐富理解。在此勢頭上建立,尤其是像GPT-4、LLaMA和Alpaca這樣的大型預訓練語言模型(LLMs)的發展,激發了對生物分子和自然語言聯合建模的新興興趣。

最近在這一領域開發的模型,如MolT5、BioT5和KEDD,將生物分子的文本描述直接納入其預訓練目標。這使得模型能夠學習捕捉結構和語言視角下的生物分子的多面向表示。這些先進技術促進的集成建模提供了對生物功能、屬性和活動的更深入見解。例如,屬性預測、生物醫學自然語言處理和分子檢索等領域的下游任務已經從這些聯合表示中受益。特別是,基于強大的BERT架構的KV-PLM模型擅長學習分子-文本對齊,并通過其集成的生物分子-語言表示在相關任務上展現出了比傳統方法更優的性能。

雖然通過像BioT5和KV-PLM這樣的方法在聯合建模生物分子和自然語言方面取得了顯著進展,但目前這個領域缺乏一個全面調查進展和正在開發的各種方法的統一資源。為了填補這一空缺,我們提出了一個關于生物分子和語言的跨模態整合的廣泛綜述,我們將其稱為跨生物分子-語言(BL)建模。

通過這篇綜述,我們的目標是為生物學、化學和人工智能交叉領域的跨學科和AI4Science研究人員提供當前技術、挑戰和未來方向的深入理解,這是這個迅速發展的研究領域內的內容。我們提供了生物分子表示方法、多模態整合算法、表示學習框架以及從BL中受益的多樣化應用領域的詳盡分析。我們還討論了可用的生物分子和語言數據集以促進進一步進展。圖1中的分層樹狀圖促進了對BL領域中使用的多樣化方法的結構化理解。

此外,我們確定了有前景的研究途徑和開放的挑戰,這些挑戰值得進一步探索。通過整合BL現有作品的見解,我們旨在為科學社區提供一個基礎參考。我們希望這篇全面的綜述能夠幫助指導并催化推動該領域向前發展的新調查,最終通過結構和語言知識的多模態整合支持通過增強的生物分子特征化、發現和理解。 這篇全面的綜述如下組織:在第2節中,我們首先深入檢查了該領域中使用的常見生物分子表示技術,包括1D序列、2D圖和3D結構。第3節則從知識表示和機器學習的角度實證分析了不同數據模態之間的關系,并探索了它們整合的動因。第4節深入研究了所使用的突出機器學習框架,如基于GPT的預訓練和多流神經網絡架構。第5節進一步詳細討論了表示學習方法論,分析了網絡架構設計、訓練目標和學習策略等方面。接下來在第6節中,我們調查了到目前為止啟用的實際應用,重點是預測建模、生成建模和信息檢索等領域。第7節提供了公開可用的數據集、模型和基準結果的匯編。在第8節中,我們確定了開放挑戰和未來方向,例如提高模型的可解釋性和泛化能力。最后,在第9節中我們總結了我們的發現,并通過概述幾個有前景的研究途徑來結束。通過對過去的工作、當前技術和未來展望的系統闡述,我們旨在為AI和科學社區提供一個全面的資源。

生物分子表示

在本節中,我們簡潔回顧了生物分子的各種表示及相關建模方法。一般來說,語言文本、分子和蛋白質的模態可以用不同的表示來觀察,如1D序列、2D圖和3D結構。不同模態及其表示方法的總結在圖3中呈現。此外,本節介紹的不同模態的現有BL模型開發的時間順序概述在圖2中展示。這些模型的介紹和更多細節貫穿整個綜述。

跨模型

跨模型的直覺 跨模型整合生物分子與自然語言旨在克服傳統生物分子表示固有的局限性。盡管現有的表示方法可以有效捕捉生物分子的固有屬性,但它們常常忽略了可以進一步豐富理解的外部知識。這種外部知識,可通過生物學文獻、數據庫和知識圖譜等各種格式訪問,提供了對生物分子更廣泛的生物學背景和功能方面的全面描述和見解。例如,考慮一個分子M,其毒性特征在科學文本中有詳細描述。基于這類文本預訓練的模型裝備有推斷類似新分子M'的潛在毒性的能力。此外,語言為生物分子設計提供了一種更靈活的媒介。通過生物分子和語言的集成建模,模型可以利用廣泛的生物學知識來執行與生物分子相關的任務,實現對分子生成和編輯的更細致控制。這種整合促進了對廣闊分子空間的探索,允許創造具有所需屬性的新生物分子。為了更好地說明,我們在圖4中展示了這些模態的序列表示如何在跨模型中整合。與單一模態建模不同,分子(SMILES)和蛋白質(FASTA)的序列表示被整合成一個包含自然語言描述的包裹句子,這提供了更豐富的上下文信息,以便更好地理解分子和蛋白質。

跨模型的目標

整合生物分子與外部知識源的主要目標是開發能夠理解和預測生物分子在生物學上下文中的復雜行為和相互作用的模型。通過結合內在的分子特征和外部文本信息,這些模型可以獲得生物分子的更全面表示。我們探索了體現整合目標的三種不同方法:表示學習、指令跟隨和代理/助理模型,每種方法都獨特地貢獻于該領域(見圖5以獲得視覺理解)。

學習框架

Transformer架構已成為BL領域大多數現代模型框架的基石。在本節中,我們首先介紹用于BL的傳統Transformer模型,包括僅編碼器/解碼器和編碼器-解碼器架構。此外,我們探討了用于BL的創新Transformer變體,包括利用基礎大型語言模型(LLMs)與外部編碼器和模態投影器的PaLM-E風格模型,以及采用多個編碼器處理不同模態的雙/多流模型。這些架構的概覽展示在圖6中。后續部分將詳細闡述這些模型。

Transformer架構通過其自注意力(Self-Attention)機制有效捕獲序列內元素之間的長距離依賴關系,這使得其在處理復雜序列數據,如文本、蛋白質序列或分子結構時表現出色。在BL領域,這一特性尤為重要,因為它允許模型同時考慮生物分子的結構特性和相關的語言描述,提供一種整合不同數據模態的有效方法。 僅編碼器或僅解碼器的Transformer架構專注于單一任務,如序列分類或生成任務。而編碼器-解碼器架構則更適用于翻譯任務,能夠將一個模態的信息轉換為另一個模態的表達,例如從自然語言描述生成分子的SMILES表示。

PaLM-E風格模型和雙/多流模型進一步擴展了Transformer的應用,通過引入額外的編碼器或投影器來增強模型處理多模態數據的能力。這些變體模型通過整合更廣泛的生物學知識和數據,旨在提高模型在生物分子預測、生成和解釋任務中的性能。

這些不同的Transformer架構為BL領域帶來了靈活性和創新,允許研究人員探索從基本的表示學習到復雜的多模態整合和交互任務的廣泛應用。隨著這些模型在詳細解析生物分子的復雜性和多樣性方面的不斷發展,它們在促進生物學發現和應用中的潛力也在增長。

表示學習

在本節中,我們討論了使用生物分子和文本數據進行BL預訓練中流行的任務和策略。這包括單模態預訓練和跨模態預訓練。

單模態預訓練專注于增強對單一模態的理解,包括分子、蛋白質和文本數據,以提高模型在特定領域內的性能。相比之下,跨模態預訓練旨在在這些不同模態之間建立相互聯系,促進跨領域的更加整合的理解。在這里,我們詳細闡述了在研究社區內獲得廣泛接受的訓練任務和策略。另外,我們在7.1節中列舉了各種預訓練數據資源。

單模態預訓練任務通常涉及如語言模型訓練、序列分類或序列到序列的轉換,這些任務專注于提升模型在處理特定類型數據時的能力,如理解文本語義、預測蛋白質結構或識別分子屬性。

跨模態預訓練任務則設計更為復雜的策略,如聯合嵌入學習、對齊任務或模態轉換任務,這些任務旨在提高模型對不同數據類型之間相互關系的理解,從而增強模型的泛化能力和跨模態推理能力。例如,一個跨模態預訓練任務可能要求模型根據文本描述生成相應的分子結構,或者從分子結構中提取出與文本描述匹配的特征。 在表示學習中采用的策略包括自監督學習、對比學習和多任務學習等。自監督學習通過生成任務或填空任務來促使模型捕獲數據內在的模式和結構。對比學習則通過比較正樣本對和負樣本對來學習數據中的區分性特征。多任務學習通過同時訓練模型在多個相關任務上表現良好,以提升模型的通用性和魯棒性。

通過這些表示學習的任務和策略,BL模型能夠更有效地捕獲生物分子的復雜性和文本數據的豐富性,從而在各種生物學和醫學應用中實現更準確的預測和分析。隨著預訓練數據資源的不斷擴展和表示學習方法的持續創新,我們預期BL領域將繼續取得顯著進展,為生物學研究和藥物發現帶來新的洞察和機會。

結論 我們提供了對生物分子與自然語言整合這一新興領域的深入綜述。我們從詳細介紹各種生物分子表示開始,如圖和序列,強調它們在生物學研究中的重要性。然后,我們討論了整合背后的直覺和目標,強調將生物分子數據與自然語言相結合以增強理解和獲得新見解的好處。接著,我們探索了不同的學習框架,如基于GPT的訓練和多流建模,并深入到表示學習的復雜性中,涵蓋了訓練任務和策略等方面。我們還展示了這種集成方法已被證明有益的各種應用。此外,我們編譯了關于數據集/基準、模型和代表性基準總結的資源,以促進該領域的研究和開發。盡管取得了顯著進展,該領域仍面臨著幾個挑戰,呼吁未來進一步的努力。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

Andrew Ng是機器學習的先驅、Landing AI的創始人兼首席執行官,也是谷歌Brain的前團隊負責人。最近,他在未來以數據為中心的人工智能虛擬會議上發表演講,討論了一些負責任的以數據為中心的人工智能開發的實用技巧。

本演講將深入探討適用于非結構化數據的以數據為中心的AI技巧

一個人工智能系統由兩部分組成:模型-算法或一些代碼-數據。對于大多數數據科學家(包括我自己)來說,機器學習研究人員的主導模式是下載一個固定的數據集,并在模型上進行迭代。這已經成為一種慣例,這是對這種以模型為中心的方法的成功的肯定。多虧了這種以模型為中心的AI開發模式,今天的“代碼”或模型基本上是一個已解決的問題。

這種對模型的強調將我們帶到了高性能模型架構被廣泛使用的地方。然而,系統工程數據集的方法是滯后的。今天,我發現使用工具、流程和原則來系統地設計數據來提高人工智能系統的性能要有用得多。就在過去的4-5個月里,以數據為中心的人工智能運動獲得了很大的發展勢頭,現在“以數據為中心的人工智能”這個術語出現在許多公司的主頁上,而在此之前它幾乎是不存在的。

付費5元查看完整內容

本書介紹了在并行和分布式計算平臺上擴展機器學習和數據挖掘方法的代表性方法的集成集合。對并行學習算法的需求是高度特定于任務的:在某些情況下,并行學習算法是由龐大的數據集驅動的,而在另一些情況下,并行學習算法是由模型復雜性或實時性能需求驅動的。為大規模機器學習選擇適合于任務的算法和平臺,需要了解可用選項的好處、權衡和約束。本書提供的解決方案涵蓋了一系列的并行化平臺,從FPGAs和gpu到多核系統和商品集群,并發編程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及學習設置(監督、非監督、半監督和在線學習)。廣泛的并行化的推進樹,支持向量機,譜聚類,信念傳播和其他流行的學習算法,并深入到幾個應用,這本書適合研究人員,學生,和從業者。

付費5元查看完整內容
北京阿比特科技有限公司