如何構建通用機器人系統? 觀察視覺和語言等領域,其共同主題是通過大規模、精心策劃的數據集進行端到端學習。然而,在機器人技術中,僅靠規模可能不足以應對機器人任務的多模態性、缺乏易于獲取的數據以及在物理硬件上部署的安全性和可靠性挑戰。與此同時,當今一些最成功的機器人系統本質上是模塊化的,能夠利用每個模塊的獨立泛化能力來表現優異。受這些特性的啟發,本論文旨在通過將這些組件整合為一個整體來解決構建通用機器人代理的任務:將模塊化與大規模學習相結合,以實現通用機器人控制。我們首先獨立探討這兩個方面。第一個問題是:如何在學習系統中構建模塊化和層次結構? 我們的關鍵見解是,與其讓代理端到端地學習層次結構和低級控制,不如通過規劃顯式地強制模塊化,從而實現更高效、能力更強的機器人學習。接下來,我們探討規模在構建通用機器人系統中的作用。為了有效擴展,神經網絡需要大量多樣化數據、適應數據的表達性架構以及生成數據的監督來源。為此,我們利用一種強大的監督來源:經典規劃算法,這些算法可以廣泛泛化,但運行成本高,并且需要訪問完美的特權信息才能在實踐中表現良好。我們使用這些規劃算法在模擬中監督大規模策略學習,以生成通用代理。最后,我們考慮如何將模塊化與大規模策略學習統一起來,以構建能夠執行零樣本長期操作的自主現實世界機器人系統。我們提出通過緊密集成模塊化高層和中層規劃、學習的局部控制、程序化場景生成以及用于模擬到現實遷移的大規模策略學習的關鍵要素來實現這一目標。我們證明,這種方法可以產生強大的結果:一個單一的通用代理可以僅通過文本指令解決現實世界中具有挑戰性的長期操作任務。//arxiv.org/abs/2503.06814
在過去的幾十年里,機器人已經展現出卓越的能力,從執行外科手術到探索太空,成就斐然。盡管取得了諸多進展,機器人仍未普及到我們的日常生活中;相反,它們仍局限于執行那些人類可以預先窮舉所有可能情境的任務。實現機器人自主性的核心挑戰在于物理世界的多樣性與不可預測性。人類在不斷面對新情境時,能夠迅速適應并作出反應。那么,我們是否也能通過讓機器人在線學習來自真實世界的經驗,使其能夠應對這個充滿不確定性的世界?
強化學習為通過與環境的交互和反饋進行學習提供了理論框架。在本論文中,我們研究了將強化學習應用于非實驗室環境下的真實機器人系統所面臨的挑戰,并在此過程中提出了算法解決方案、開展了實證分析,并構建了驗證其有效性的實用訓練系統。我們首先構建了一個用于腿式機器人運動學習的系統,結合了模擬預訓練、自主故障恢復、多任務訓練、機載傳感器與高樣本效率的強化學習方法,實驗證明,少量的真實世界實踐即可在非結構化環境中實現有效的微調。
接下來,我們展示了如何利用更復雜的獎勵函數實現高效學習,這些獎勵源于現實世界中普遍可用的監督信號:人類偏好。我們進一步簡化了假設條件,探索了在真實世界中直接進行學習的方式,構建了一個系統,使四足機器人能夠完全基于真實經驗在各種自然環境中學會行走。
最后,我們將目光投向更復雜任務的學習,重點在于如何利用先驗知識。我們首先擴展了高效學習框架,使其能夠有效吸收離線的、質量不一的數據。我們探討了該方法在機器人應用中的實用性,實驗顯示該方法能夠實現靈活的高動態四足運動,如奔跑跳躍與雙足行走等復雜行為。最后,我們進一步探索了**基礎模型(foundation models)如何將語言條件操控(language-conditioned manipulation)**能力遷移到現實世界中的新場景。
近年來,生成式人工智能領域經歷了前所未有的增長,其背后主要驅動力是大規模基礎模型的發展。然而,這一進展也帶來了一個關鍵瓶頸:基礎模型的開發正變得日益昂貴且排他,原因在于其高度依賴經過精心策劃的大規模數據集。大型科技公司投入巨額資源來收集和清洗用于預訓練和適應的大規模數據集。這種以數據為中心的壁壘不僅加劇了資源密集型企業研究與學術界之間的差距,也進一步加重了基礎模型“黑箱化”的問題。 即便是大型企業,這種數據策劃方式也最終會消耗掉大部分高質量數據,難以實現可擴展性。與此同時,大量包含噪聲、弱信號和偏差的不完美數據資源依然觸手可及且成本低廉,然而在傳統范式下,基于這些數據訓練的模型往往在性能上遜于基于精心策劃數據訓練的模型。
隨著人工智能日益塑造我們的世界并持續擴張,我們正面臨一個根本性挑戰:我們如何將這些充滿缺陷的不完美數據,從限制轉化為推動AI民主化發展的機遇?這種以數據為中心的民主化進程,不僅能提升AI開發的可及性,也將催生更加穩健、適應性更強的基礎模型,使其更能反映現實數據的復雜性與多樣性。
我的論文正是圍繞這一挑戰展開,提出了“感知不完美的人工智能”(Imperfection-Aware AI)這一范式轉變,使AI系統能夠有效利用廉價且不完美的數據資源。將基礎模型訓練置于多樣且真實世界的不完美數據中,天然地使其暴露于人類生成內容的復雜性與細節,從而提升模型應對真實世界變異的能力。通過將傳統視為缺陷的“不完美數據訓練”轉化為優勢,我們可以推動構建更穩健、更具倫理性且具有普適適應能力的AI系統,為全球研究者和開發者提供可及的AI技術。
為實現這一愿景,我的研究重點圍繞以數據為中心的方法展開,旨在理解基礎模型在不完美數據訓練下的“物理機制”,緩解由數據缺陷帶來的潛在不良影響,并充分利用各種不完美數據和標簽以實現更穩健的學習能力:
探索預訓練數據不完美性的影響:我研究了不同類型的數據缺陷(如損壞、偏差、多樣性)如何在預訓練過程中影響基礎模型的“物理行為”。我的研究是最早揭示預訓練過程中引入一定程度數據不完美性有助于模型泛化能力的工作之一。這一發現從根本上改變了我們對不完美數據的看法——它不再是需要被消除的障礙,而是一種可用于提升模型穩健性并推動AI民主化的寶貴資源。
理解與緩解災難性繼承(Catastrophic Inheritance):盡管利用不完美數據有助于AI的民主化,我們仍需深入理解其局限性。我提出了“災難性繼承”這一全新研究方向,用以探索預訓練數據中的缺陷如何傳遞并影響下游任務。我開發了開源評估工具,并設計了微調方法以緩解其負面影響,確保模型在使用不完美數據訓練的前提下,依然具備可靠性與泛化能力。
利用不完美數據與標簽進行遷移學習:為真正實現AI開發的可及性,我提出了一系列穩健學習方法,能夠有效利用現有的不完美數據與標簽,促進模型在下游任務上的高效適應。值得一提的是,我的工作首次提出了一個通用框架,能夠統一處理14種以上的弱監督與噪聲監督形式,為實際場景中僅有混合不完美數據的情況下,實現可擴展的遷移學習提供了可能。
本論文旨在為理解基礎模型時代下的數據不完美性提供重要見解,將不完美數據學習技術落地應用,并激勵相關領域的后續研究。
在過去十年中,深度學習領域取得了令人矚目的成功。如今,神經網絡模型幾乎主導了所有主流基準測試排行榜,不僅被廣泛部署于現實世界場景中,甚至在某些任務上已達到超越人類的水平。然而,這些模型在多個方面仍然脆弱,常常會出現意料之外的失敗,其可靠性與可信度問題仍遠未得到徹底解決。 在本論文中,我們提出:若要推動神經模型的進一步發展,僅僅關注其準確率已不再足夠,更需要系統地理解模型的錯誤模式,以深入探究剩余錯誤存在的原因以及如何有效緩解這些問題。
論文的第一部分提出了一個自動化的錯誤分類框架,能夠對 IMAGENET 模型的所有預測錯誤進行分類,標注其錯誤類型與嚴重程度。借助該框架,我們對超過 900 個模型的錯誤分布進行了全面評估,發現 top-1 準確率與多標簽準確率是各類錯誤比例的強預測指標。特別地,我們觀察到,隨著模型準確率的提升,嚴重錯誤的比例顯著下降,這表明傳統準確率指標可能低估了模型實際性能與進步的程度。
接著,我們進一步展示該分析框架的實用性,具體應用于研究 IMAGENET 模型在不同擾動條件下的錯誤分布。我們發現,在常見自然擾動(如隨機噪聲、模糊、天氣變化與數字擾動)下,錯誤分布趨勢與原始干凈圖像非常相似,并呈現出一致的擴展特性。相對而言,標準的非定向 PGD(Projected Gradient Descent)攻擊所引發的嚴重錯誤比例反而更低,這一發現令人驚訝,也揭示了自然擾動與對抗擾動在錯誤分布上的根本差異。
基于上述發現,我們設計了若干種 PGD 攻擊變體,這些變體能夠誘發更嚴重的錯誤并顯著降低模型的對抗魯棒性。在將其中一種攻擊方法融入對抗訓練后,我們得到了更加準確且在某些設置下嚴重錯誤比例更低的模型。
最后,在論文的第三部分,我們從錯誤分類與分析轉向錯誤緩解,尤其聚焦于公平性問題——目標是構建在不同個體與群體之間不產生歧視的模型。為此,我們提出了一種基于生成建模、對抗訓練與隨機平滑技術的表示學習方法,以實現并驗證圖像數據在高維空間下的個體公平性(individual fairness)。 我們希望本論文的研究成果能夠激勵更多研究者將錯誤分析工具納入機器學習模型的開發周期,從而推動模型向著更安全、更可靠的方向發展。
端到端自動語音識別(E2E ASR)在過去十年中取得了顯著進展。然而,在將這些語音識別系統應用于真實世界場景時,仍然面臨諸多實際挑戰。本文探討了與語音識別系統效率和可靠性相關的四個關鍵問題:(1)多語種語音識別中的數據稀缺問題;(2)代表性不足的語音樣本;(3)資源受限環境下的部署難題;(4)識別結果的不可靠性。
開發多語種語音識別(MASR)模型為提升低資源語言的識別性能提供了一個有前景的方向。為緩解語言干擾問題,我們引入了一個包含多種監督與自監督訓練目標的單階段訓練過程,結合層級信息路徑。同時,我們認為持續的語言學習對于提升MASR的訓練效率至關重要。我們構建了一個參數高效的語言擴展框架,使現有MASR模型能夠拓展支持新語言。
對于代表性不足的語音樣本,即使是大型語音識別模型也需要進行適應。為提高適應效率,我們提出了一種稀疏共享的低秩適應(LoRA)方法,特別適用于使用少量目標領域數據對大型模型進行高效適應。 此外,在資源受限的設備上部署大型模型具有挑戰性。我們設計了一種基于相關性度量的快速層剪枝算法,用以剔除語音識別聲學模型中的冗余層,從而提升推理效率。
另一方面,我們也認識到在具有挑戰性的場景中識別錯誤是難以完全避免的。為此,我們研究了神經網絡置信度度量方法,為語音識別輸出提供可靠性指標。
我們每天都與計算機互動。盡管如今操作計算機的用戶體驗已經變得前所未有的簡單,但仍存在一些障礙,阻礙用戶充分發揮其潛力。其中一個例子是編程語言的學習曲線。程序員一直夢想著有更簡單、更智能的工具來輔助他們的工作,從而使開發變得更加輕松。不懂編程的終端用戶也將受益于一種更自然的方式來指導計算機完成某些定制任務,即將計算機轉變為他們的個人智能體,以高度的自主性和指令執行能力完成各種任務。這與我們如何輕松地用自然語言(如英語)表達目標和愿望形成了鮮明對比。 在本論文中,我們提出將自然語言與編程語言以及日常生活在線環境中的可執行操作相連接。這項工作的預期目標是構建模型、環境和評估方法,既用于編程任務中的代碼生成,也用于日常生活和工作場所中的大型語言模型(LLM)智能體,特別關注利用大規模數據源和外部知識進行模型預訓練和檢索增強模型。我們從四個角度探討這一問題,構成了論文的四個部分。在第一部分中,我們探索代碼生成模型的預訓練。接下來,在第二部分中,我們進行代碼生成的人類研究。然后,在第三部分中,我們改進檢索增強模型。最后,在第四部分中,我們探索將 LLM 作為智能體的交互式使用。
機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。
本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。
多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法:
在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能。
許多日常任務要求我們與他人互動。互動或合作使我們能夠結合各自的優勢,從而實現個人無法單獨完成的更多目標。
同樣,當我們嘗試自動化這些任務時,僅依靠一個機器人可能是不可能的或代價過高的。然而,協調多個機器人是困難的:從多機器人系統的大規模狀態空間的計算挑戰,到如何將一個操作員的輸入映射到多個機器人上,互動的多個層面可能在人與人之間的互動中較為微妙,但在與機器人協作時,必須明確加以解決。 本論文的目標是解決這些問題中的一些最重要的挑戰。 我們首先探討與單一機器人系統和多機器人系統的直接遙操作相關的一些挑戰。通過操作性優化和零空間投影方案,我們提高了多臂系統避免奇異性并更快速跟隨操作員輸入的能力。我們提出了一種快速的局部優化方案,以及利用牛頓法的二階優化,并比較了兩者的性能,展示了該方法在真實的ABB YuMi雙臂機器人上的表現。接下來,我們將系統擴展到移動機器人。雖然移動機器人在許多方面優于固定基礎系統,但它們也引入了額外的復雜性。我們研究了非完整約束滑模轉向機器人(非全向輪驅動機器人)的驅動動力學,以及操作臂姿態和載荷如何影響轉向能力。此外,我們引入了避免機器人間碰撞、翻車避免和能夠在高度受限的環境中移動的術語。我們將綜合方法部署到多個配備UR5e操作臂的Clearpath Husky平臺,并展示它如何改善開環性能,超越傳統的控制方案。 最后,我們更詳細地探討了用戶如何與多機器人系統互動。 我們比較了基于平板的增強現實(AR)解決方案與HoloLens混合現實(MR)頭戴設備。通過向研究參與者呈現不同的觸摸互動以及支持手部追蹤的手勢,我們比較了他們在多個任務中的表現,目標是引導一組小型差速驅動機器人。我們比較了不同任務中的客觀和主觀表現,發現特別是空間互動在三維用戶界面中受益明顯。
總之,我們探索并研究了人類與機器人之間的相互作用,旨在實現多機器人系統中有效且直觀的互動。 我們提高了機器人跟隨用戶輸入的能力,提出了一種方法論用于復雜的非完整約束多機器人系統的軌跡優化,并研究了基于手勢的與移動機器人直觀交互的方式。我們將這些方法部署到實際的機器人中,期望將其應用于未來的建筑工地或倉庫,以改善未來工作場所的效率。
//www.research-collection.ethz.ch/handle/20.500.11850/707468
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。
然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。
本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。