AlphaGo和ChatGPT可能是過去十年中人工智能領域最重要的兩項突破。這些技術得益于在序列決策(例如,規劃、搜索和強化學習)以及基礎模型(例如,基于互聯網數據訓練的語言和視頻生成模型)方面的研究。本論文提出了在現實世界決策任務背景下,利用具有廣泛知識的基礎模型的新技術、算法和框架,這些研究將影響對話代理的構建、機器人控制和科學發現等應用。本論文從離線環境中的傳統決策制定開始,逐步通過表示學習和生成建模引入更廣泛的互聯網規模數據。論文強調了理論基礎與實際應用的結合。本論文的主要貢獻包括離線強化學習的算法進步、面向決策制定的表示學習改進、作為強化學習替代的全新生成建模技術,以及基于互聯網規模的生成代理和生成模擬器,所有這些都旨在增強基礎模型的決策能力,并使之相輔相成。通過廣泛的實證和理論分析,本論文表明,基礎模型在得到適當利用時,可以顯著提高決策任務的效果。這些發現為將機器學習模型與現實世界應用整合提供了新的方向,為更智能、適應性更強、效率更高的系統鋪平了道路。 在過去的十年中,人工智能(AI)領域的兩項重要突破包括2016年人工智能圍棋玩家AlphaGo擊敗人類選手李世乭 [21],以及2022年部署的人工智能聊天機器人ChatGPT [22]。這些技術進步得益于在序列決策和基礎模型方面的研究。在序列決策中,目標是讓計算機(代理)自動決定一系列動作(例如,在哪里放置圍棋子),并且讓計算機基于來自環境的反饋(例如圍棋比賽的結果)自動改進這些決策。機器學習在序列決策中的方法涉及訓練決策策略,即基于當前觀測(例如圍棋棋盤)選擇動作的策略,通過試驗和錯誤的方式進行訓練。這種方法在環境支持無限訪問的游戲場景中表現良好,但在現實世界中超越游戲場景的規模時卻難以實現,因為在現實環境中無限訪問是不切實際的。即使在游戲場景中,先前在序列決策中的工作大多集中在任務特定或“白板”設置中,缺乏先驗知識 [23]。因此,先前的序列決策工作在泛化和樣本效率方面通常表現不佳,例如解決單個Atari游戲需要7個GPU天的交互游戲時間 [24]。 最近,基礎模型(定義為使用自監督學習在大規模數據上訓練的大型機器學習模型 [25])在互聯網上的大量數據上進行了訓練。例如,自回歸語言模型 [26, 27]通過從互聯網抓取的文本數據來預測給定前述單詞(標記)后的下一個單詞(標記)。類似地,視頻生成模型 [28, 29]通過從互聯網抓取的視頻數據,在給定語言輸入和/或前述幀的情況下,預測下一幀。因此,這些模型能夠生成高度逼真的自然語言和視頻。然而,模仿互聯網內容并不是這些模型的最終目標。這些模型的最終目標是解決現實世界中的任務,如回答人們的問題和模擬現實世界的交互。為了實現這一目標,這些模型生成的內容必須由人類控制。如何引導這些模型根據用戶反饋生成理想的內容,以及如何使這些模型做出一系列決策以完成某些復雜任務(例如構建網站),是序列決策的核心問題。將基礎模型研究和序列決策研究結合起來具有巨大的優勢。一方面,基礎模型中的廣泛知識可以提高決策算法的樣本效率和泛化能力。另一方面,決策算法可以對原本與任務無關的基礎模型進行任務特定的優化。本論文研究了基礎模型在決策制定中的技術、框架和算法,并展示了如何將基礎模型中的廣泛知識有效轉化為任務特定的決策,以更好地解決廣泛的問題和應用。 本論文通過從傳統的決策制定技術開始,研究在離線數據集設置下的基礎模型在決策制定中的應用,隨后逐步引入更廣泛的數據,最終整合互聯網規模的視覺和語言數據。我們將對利用基礎模型解決序列決策問題的理論方面和實際應用方面給予高度關注。本論文的工作基于先前關于序列決策的研究思想,但新提出的方法展示了更高的全面性和可擴展性。 本章的其余部分組織如下。第1.1節介紹了基礎模型,這是一種在互聯網規模數據上訓練的機器學習模型。本節討論了訓練基礎模型的常見技術,包括表示學習和生成建模。隨后描述了基礎模型的局限性,包括指令遵循、長時間推理、多步驟規劃和多模態處理。然后概述了本論文如何通過結合決策制定技術來應對其中的一些挑戰。第1.2節描述了序列決策的典型設置和常見的決策制定算法,包括模仿學習、強化學習、搜索和規劃。接下來,本節重點介紹了序列決策的主要瓶頸,包括樣本效率和缺乏良好的視覺和文本表示。最后,簡要介紹了本論文如何通過結合基礎模型來應對這些挑戰。第1.3節闡述了本論文的貢獻,并總結了其結構。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
這篇論文探討了自動化推理和大型語言模型(LLMs),通過創新算法研究如何提高這兩個領域的效率和有效性。論文由三個主要部分組成,每一部分都關注人工智能的不同但相互關聯的方面。 在第一部分,論文深入探討了自動化推理領域,該領域通過計算方法模仿人類的邏輯推理。研究解決了該領域中的重大挑戰,特別是隨著問題復雜性的增加,計算需求呈指數級增長的情況。值得注意的是,這一部分強調了可滿足性模理論(SMT)方面的進展,重點是提高在復雜性增加時的解決效率。論文通過探索理論組合、代數數據類型和序列,貢獻了更高效的推理框架。
轉到第二部分,焦點轉向LLMs,它們在各種應用中變得至關重要,從內容生成到企業決策支持。盡管LLMs功能強大,但由于巨大的計算資源需求和用戶提示的多樣性,實現這些模型的高效部署仍是一個挑戰。這部分論文提出了新穎的算法和服務基礎設施,旨在優化LLMs的性能,特別是在減少延遲和提高實時應用吞吐量方面。創新如FlexGen和S-LoRA被引入,旨在使LLMs在個人計算設備上更加可用,并提供個性化的高吞吐量服務。這一部分還介紹了虛擬令牌計數器(VTC),一種新穎的公平調度算法,確保在高需求的LLM推理環境中公平分配資源,解決服務公平性的問題。
論文的第三部分將前兩部分橋接起來,展示了將形式驗證和代碼生成與LLMs集成的初步結果。該集成旨在利用兩個領域的優勢,創建更強大和多功能的AI系統。
引言
本論文展示了實現自動推理和大型語言模型(LLM)系統高效算法的幾種方法。本章將首先描述這兩個領域中的問題及其效率挑戰,然后概述論文中提出的研究貢獻。
1.1 問題與動機
1.1.1 符號推理與神經網絡
人工智能研究傳統上遵循兩種主要范式:符號推理和神經網絡。符號推理,也稱為符號AI,利用邏輯和知識表示來解決問題。這種方法在需要顯式規則和推理的任務中表現出色,但在處理復雜的非結構化數據時可能會遇到困難。相反,神經網絡則松散地受到大腦結構的啟發,擅長模式識別和從大量數據中學習。然而,神經網絡在推理過程中可能不透明,導致其可解釋性較差。隨著研究的進展,越來越多的研究集中在結合這兩種方法,利用符號推理和神經網絡的優勢,開發更強大和多功能的AI系統。為了充分利用每種方法的優勢,運行它們需要高效的算法和系統。在本論文中,我們首先分別關注加速自動推理的技術(第一部分)和加速大型語言模型推理的技術(第二部分)。然后,在第三部分中,我們展示了利用兩者力量的初步結果。 1.1.2 自動化推理與效率挑戰
自動化推理通過計算方法模擬人類邏輯推理的挑戰。該領域致力于開發能夠自動分析和操作邏輯表達式等形式化表示的算法。這種能力遠遠超出簡單計算,允許計算機處理具有復雜邏輯結構的問題。 自動化推理的應用領域與其解決的問題一樣多樣。在軟件和硬件設計中,自動化推理工具用于確保電路的正確性。通過分析組件之間的邏輯關系,這些工具可以識別設計中的潛在錯誤和邏輯不一致,防止在開發過程中出現昂貴的錯誤。同樣,自動化推理在形式驗證中也起著關鍵作用,這是一種通過數學證明關鍵系統中不存在錯誤的技術。在這里,自動化推理工具仔細分析系統的規范和行為,確保其遵循所需屬性,消除意外故障的可能性。 自動化推理的關鍵挑戰之一是解決時間問題。隨著所處理問題復雜性的增加,找到解決方案所需的計算資源可能呈指數級增長。這在可滿足性模理論(SMT)領域尤為突出,在該領域中,任務是確定給定的一階邏輯公式相對于背景理論(如線性算術或位向量)是否可滿足。SMT問題的解決時間可能高度可變,取決于具體理論、公式的復雜性以及底層SMT求解器的性能。自動化推理研究人員在開發更高效的算法和啟發式方法以應對這一挑戰方面取得了顯著進展,但該領域中許多問題的固有復雜性意味著解決時間仍然是一個關鍵考慮因素。
1.1.3 大型語言模型與服務挑戰
基礎模型,特別是大型語言模型(LLM),已成為各種應用的核心,徹底改變了各行業中任務的處理和執行方式。除了它們的功能外,LLMs已演變為廣泛使用的服務,受到從個人用戶到大型企業的多樣化客戶的采用。這種廣泛的應用在多個領域中尤為明顯,從個人助手和創意內容生成到高級企業數據分析和決策支持。盡管LLMs具有巨大的力量和能力,但關鍵在于利用它們的潛力來增強人類生活和生產力。 盡管大型語言模型(LLM)提供了引人注目的能力,但將其有效部署于實際應用中仍存在顯著挑戰。主要障礙在于硬件資源限制。LLMs由于其復雜的架構和龐大的參數空間,在推理過程中需要大量計算資源。此外,用戶提示的不確定性破壞了傳統的優化技術。與具有控制格式的訓練數據不同,用戶提示在長度和復雜性上可能有很大差異。此外,由于LLM生成的迭代性質,實現實時應用的低延遲和高吞吐量變得困難。與單步任務不同,LLM可能需要多次來回交流才能完成一個響應。這些因素需要開發專門的服務基礎設施和新穎的調度算法,以優化LLM性能并提供無縫的用戶體驗。
1.2 我們的方法
1.2.1 走向高效且具表現力的SMT求解
可滿足性模理論(SMT)求解在自動化推理中是一種強大的技術,專門解決結合命題邏輯和背景理論的問題。與只處理真假命題的經典命題邏輯不同,SMT結合了可判定的一階邏輯理論,如算術或等式約束。這允許對涉及整數、實數或特定數據結構的問題進行推理。SMT求解器通過系統地探索搜索空間,在指定的理論下評估公式的真值。由于將邏輯與這些理論相結合的內在復雜性,高效的求解算法和專門的決策過程對于解決現實世界的SMT問題至關重要。可滿足性模理論(SMT)求解的最新技術不斷發展,重點是提高效率和處理日益復雜的問題。盡管已經取得了令人矚目的進展,但對于高度復雜的SMT問題實現可處理的解決時間仍然是一個活躍的研究領域。 本論文的第一部分涵蓋了這一范圍內的三個研究課題,包括更好地理解和提高理論組合的效率以及利用代數數據類型和序列的兩種特定理論。在第二章中,我們對SMT中禮貌組合的研究做出了兩項貢獻。首先是一個困難結果,通過展示一個禮貌理論但不是強禮貌的例子,揭示了禮貌和強禮貌之間的區別。第二項貢獻是對禮貌組合方法的優化,借鑒了Nelson-Oppen方法。我們展示了在某些條件下,可以減少禮貌組合所需的枚舉安排的復雜性。在第三章中,我們研究了數據類型理論,并證明其是強禮貌的,展示了如何使用禮貌組合將其與其他任意不相交的理論相結合。在第四章中,我們介紹了一種用于推理向量的序列理論。與使用現有的數組理論相比,新的序列理論更具表現力,并且推理速度更快。
1.2.2 走向高效且公平的LLM服務
LLM的一個不可避免的方面是使其能夠被各個領域的更多用戶訪問。擴大訪問的目的是賦能各類個人和組織,使他們能夠利用這些強大的工具滿足其獨特的應用和需求。本論文的第二部分探討了如何提高LLM對所有用戶的可訪問性。自2022年底LLM在日常生活中被廣泛使用以來,對更易于訪問的LLM的需求不斷增長,這包括:(1)能夠在個人計算機上運行LLM,(2)訪問個性化服務,以及(3)需要公平的資源分配以防止重度用戶的壟斷。
第五章(FlexGen)旨在解決第一個需求:在個人計算機上運行LLM。由于高計算和內存需求,傳統上只能通過多個高級加速器實現,在內存有限的設備上運行LLM需要卸載,除了傳統的模型壓縮優化外。盡管激進的卸載會嚴重影響推理延遲,但FlexGen受到對批處理延遲不敏感任務的需求的驅動。它開始研究在有限資源下的高吞吐量LLM推理。它聚合了GPU、CPU和磁盤的內存和計算資源,并展示了如何在給定設置中獲得最佳的卸載策略。我們的方法也是第一個提出使用4位量化KV緩存的,這與卸載策略相結合,使吞吐量比以前的方法高出100倍。
第六章(S-LoRA)旨在解決第二個需求:個性化LLM服務。低秩適應(LoRA)技術可以提供高效的、任務特定的適應,從一個基礎模型中創建許多適配器,以實現成本效益高的個性化服務。LoRA適配器通過將適配器與模型參數合并來提供服務,這使得單個適配器的低延遲成為可能,但在同時服務多個適配器時會降低整體吞吐量。S-LoRA探索了LoRA適配器的可擴展服務,通過更好的內存管理、為異構批處理定制的CUDA內核和新穎的張量并行策略,實現了高吞吐量的多適配器服務。與之前的引擎相比,S-LoRA的吞吐量提高了4倍,服務的適配器數量增加了幾個數量級。
第七章(VTC)旨在解決第三個需求:公平地為用戶服務。LLM推理服務在高需求下處理各種請求。為了保持公平,大多數主要服務實施請求速率限制,防止任何單個客戶端壟斷隊列。然而,這種基本的公平方法在容量可用時可能導致服務未充分利用和客戶體驗不佳。我們展示了如何將傳統網絡和操作系統中的公平排隊概念應用于LLM服務領域,達到令牌粒度的公平性。我們定義了LLM服務中的公平性問題,并提出了虛擬令牌計數器(VTC)算法,這是一種具有理論保證的新型公平調度算法。廣泛的評估展示了VTC在保持公平性方面的有效性,與傳統方法相比,為更加公平高效的LLM服務系統鋪平了道路。
本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。
機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。
在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。
第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。
在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。
動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。
動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。
當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。
最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。
雷達在惡劣條件下以及遠程的感測能力使其成為移動機器人應用中視覺和激光雷達的有價值的替代品。然而,雷達復雜、與場景相關的感測過程和顯著的噪聲缺陷使得使用雷達具有挑戰性。超越迄今為止文獻中占主導地位的經典基于規則的方法,本論文探討了在機器人學的一系列任務中深入且數據驅動的解決方案。
首先,開發了一種深度方法,用于將原始傳感器測量映射到占用概率的網格地圖,其性能顯著超越了經典的過濾方法。捕捉到占用狀態的分布,此外還允許識別和管理預測中的不確定性。該方法完全使用從激光雷達自動生成的部分標簽進行訓練,無需手動標記。
接下來,提出了一個深度模型,用于從模擬的高程圖生成隨機雷達測量值。該模型通過學習前向和后向過程來進行訓練,結合使用對抗性和周期性一致性約束與部分對齊損失,使用激光雷達生成的標簽。通過忠實地復制雷達的感測過程,可以使用在模擬中容易獲得的標簽,為下游任務訓練新模型。在這種情況下,模擬雷達測量值上訓練的分割模型在真實世界中部署時,其性能接近完全在真實世界測量值上訓練的模型。
最后,探討了應用于雷達測距任務的深度方法的潛力。學習的特征空間與經典的相關掃描匹配過程相結合,并針對姿態預測進行優化,使得所提出的方法在性能上顯著超越了之前的最新技術。通過概率性的考慮,姿態的不確定性也得到了成功的描述。在此成功的基礎上,利用傅里葉變換的性質分離了平移和角度的搜索。結果顯示,這種解耦搜索在運行時間性能上有了顯著的提升,使得該方法可以在CPU和嵌入式設備上實時運行,同時仍與文獻中提出的其他雷達測距方法保持競爭力。
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。