近年來,深度學習(Deep Learning, DL)模型及其技術的迅猛發展,推動了其在多種任務與模態中的性能取得顯著進步。盡管模型整體能力持續增強,但我們對其內部推理過程的理解仍然有限,尤其是在面對系統性的不一致或錯誤——即邏輯或推理模式上的缺陷時。這類不一致性可能表現為輸出之間的自相矛盾、無法在相似任務間進行泛化,或在特定語境中得出錯誤結論。由于其可能源于模型內部過程的高度不透明、訓練數據中的偏差與不平衡,或任務本身的復雜性,檢測與衡量這類推理偏差本身就是一項挑戰。 在缺乏有效方法來檢測、量化與緩解這類錯誤的前提下,深度學習模型存在被部署時出現偏差、易被攻擊,或缺乏邏輯可靠性的重大風險。 本論文旨在針對上述問題,提出一系列適用于知識圖譜、自然語言與圖像任務中的推理型深度學習模型的創新方法。首先,本文提出了兩種技術,用于檢測和量化自然語言與圖像處理模型中因內部過程不透明所導致的預測不一致性。我們在設計的對抗性實驗設置中對多類模型進行系統評估,這些設置明確暴露模型的內部推理過程,從而使我們得以量化模型中的顯著推理偏差。 為緩解訓練數據中的偏見導致的不一致性,本文還提出了一種數據高效的采樣方法,以提升模型的公平性與性能;同時,提出一種合成數據集生成方法,用于在低資源場景下更嚴格地評估與提升模型的推理能力。 最后,論文還提出了兩種新穎技術,用于優化模型在自然語言與知識圖譜等復雜推理任務中的表現。這些方法不僅直接增強了模型的性能,還提升了推理過程的可解釋性與行為的忠實性。 總的來說,本論文通過系統地量化并緩解推理不一致性,構建了一個通用框架,以提升深度學習模型在各類任務與模態下的魯棒性、公平性與可解釋性。
機器學習(ML)模型正越來越多地在關鍵場景中做出或輔助決策,這些場景包括金融市場、電子商務以及物理世界。然而,從機器學習預測轉向機器學習決策時會面臨額外的挑戰:往往需要推理世界中其他個體的激勵,戰略性地利用信息,并推斷因果關系,而這一切通常發生在僅有部分反饋的情況下。此外,這些問題在現實決策情境中往往會相互疊加,從而要求學習者能夠同時加以處理。 本論文旨在為存在信息不對稱和結果不確定性的戰略環境下的學習與決策奠定數學基礎。通過將算法博弈論、信息經濟學、在線算法、因果推斷等工具和方法與傳統機器學習方法相結合,本研究提出了新的框架與算法,用于理解和優化動態多智能體環境中的算法決策過程。
本論文的第一部分研究了在不同形式的額外信息可用時的激勵下學習問題。主要貢獻包括:第一個關于具有附加信息的 Stackelberg 博弈學習框架及其可證明保證、博弈中的元學習方法,以及利用信息設計提供算法救濟(algorithmic recourse)的框架。論文的第二部分探討了在存在結果不確定性時,帶有激勵約束的學習所面臨的額外挑戰。我們提出了兩種流行因果推斷方法(工具變量回歸和合成控制)的策略感知(strategy-aware)版本,以及在更現實的反饋結構下的新型戰略分類算法。 近年來,機器學習(ML)系統在諸多領域取得了廣泛關注的成功,包括語言建模 [84]、計算機視覺 [297] 和藥物發現 [206]。這些突破得益于在大規模標注數據集上的訓練,使得 ML 模型能夠準確預測感興趣的量,例如文本序列中的下一個 token、圖像內容或蛋白質結構。 然而,盡管準確預測是一項重要能力,在許多實際應用中,最終目標是做出優質的下游決策。因此,基于機器學習的決策被視為一個自然的前沿方向。 從 ML 預測轉向 ML 決策時,會出現額外的挑戰:當 ML 模型的決策會影響他人時(例如在算法招聘與貸款 [270, 64] 中),這些個體會有動機采取戰略性行為。不同個體還可能擁有不同的信息來源,從而在決策時影響其行動。在這些領域中運行的算法智能體必須能夠可靠地處理多源信息,同時還需推理自身與他人之間的信息不對稱。更復雜的是,許多現實世界的決策任務缺乏標準監督學習所假設的清晰、結構化反饋。模型往往并非為每個決策接收到明確的標簽,而只能觀察到噪聲大且間接的獎勵信號,從而使得評價決策質量與有效學習更加困難。 上述每一類挑戰都已有大量研究,但往往是孤立展開的。算法博弈論研究如何設計能夠考慮自利型智能體戰略行為的系統 [284]。近年來,這一方向與機器學習相交,探索學習算法在戰略環境中的表現。異質與不對稱信息的挑戰則通過經濟學中的信息設計 [63]展開,旨在理解如何披露信息以影響博弈與市場中的行為。最后,多臂賭博機(bandits)[327, 233]文獻則聚焦于在不確定性下進行決策的學習算法設計。 這些領域提供了寶貴的見解,也構成了本論文的研究基礎。然而,要在真實世界中利用 ML 進行決策,往往需要一種綜合性方法,將這些視角加以結合。因此,本論文旨在通過融合算法博弈論、信息設計、因果推斷和多臂賭博機等方法與傳統 ML 技術,建立嚴謹的數學基礎,用于應對戰略性與不確定性環境下的數據驅動決策。 第二章涵蓋了本論文的背景知識。第 2.1 節介紹了算法博弈論中的基本概念,包括同時博弈與 Stackelberg 博弈。這些博弈模型為研究在目標與信息不一致環境中個體的競爭與合作互動提供了結構化方式。第 2.2 節介紹了在線學習的基礎,即數據按序到達而非一次性給出,正如許多重復決策場景中那樣。由于數據分布可能隨時間變化,在線學習智能體必須能夠在(部分)反饋下動態更新策略。最后,第 2.3 節討論了合成控制方法,它在因果推斷和面板數據的反事實推理中扮演關鍵角色,而面板數據在許多決策情境中自然出現。 本論文的第二部分提出了在帶激勵的學習中,如何利用不同類型的信息來改進決策的新算法。第 3 章和第 4 章研究了 Stackelberg 博弈中的附加信息問題。在第 3 章中,我們證明了與無附加信息的情形不同,在最壞情況下無悔學習(no-regret learning)不可能實現。受此啟發,我們提出了在兩個自然放松條件下的學習算法。第 4 章進一步研究了在僅有賭博機反饋(bandit feedback)而非完全反饋的條件下,如何在 Stackelberg 博弈中學習。這一環境需要新的算法技巧,我們展示了如何將問題歸約為領導者效用“對偶空間”中的上下文賭博機問題,并進一步將該方法應用于組合式二價拍賣中的競價學習,以及公共與私有狀態下的在線 Bayesian 說服(persuasion)問題。 第 5 章研究了博弈中的另一類額外信息:來自相似歷史博弈的序列。在此,我們首次為多類經典博弈(包括雙人零和博弈、一般和博弈及 Stackelberg 博弈)建立了元學習(meta-learning)保證。具體而言,我們得到的收斂速率依賴于所遇博弈序列間的自然相似性度量,同時在博弈序列完全任意時,能夠回收已知的單博弈保證。 第二部分的最后兩章研究了在激勵下學習時的私有信息作用。第 6 章展示了如何戰略性地披露信息,以向受到算法決策影響的個體提供一種“算法救濟”(algorithmic recourse)。第 7 章則研究了在對被說服的戰略型智能體存在不確定性的情況下的學習與說服問題。 本論文的第三部分聚焦于在激勵與不確定性下學習的新算法。第 8 章研究了當智能體對算法決策做出戰略性回應時,ML 模型所能觀察到的反饋類型。先前工作假設智能體的標簽在決策后可見,但這一假設在招聘與貸款等高風險領域往往不現實。我們提出了在弱反饋(稱為“apple tasting”或單側反饋)條件下的學習與決策算法。 第 9-11 章探討了激勵下的因果推斷。第 9 章通過觀察到部署的模型可被視為一種工具變量(instrument),其影響個體的可觀測特征但不直接作用于結果,從而建立了戰略響應與工具變量回歸之間的新聯系。這一視角使得在存在戰略行為時仍可用工具變量回歸估計因果關系。第 10 章研究了在戰略行為存在時合成控制的表現。我們證明合成控制在此環境下無法準確估計因果關系,但若明確建模戰略行為,則可修改以在下游決策任務中獲得良好表現。第 11 章回到合成控制環境,并提出了在智能體存在戰略行為且治療服從性(treatment compliance)無法保證時的因果參數估計算法。這需要同時推理激勵、不確定性與信息不對稱,并借助第 6、7 章討論的說服文獻中的工具與技巧。 最后,本論文在結論部分強調了未來值得探索的方向。
在現代機器學習中,海量數據通常來源于多樣且分布式的源頭,這使得分布式訓練成為一種核心范式,尤其適用于諸如聯邦學習(Federated Learning, FL)等大規模應用場景。然而,在分布式訓練中存在兩大關鍵挑戰:提升通信效率以及保護訓練過程中使用的敏感數據的隱私。本論文針對這兩個挑戰,深入探討了通信效率、差分隱私與優化算法之間的相互關系,這些要素對于實現可擴展、高效且具備隱私保護能力的分布式學習至關重要。 我們首先針對分布式優化中的通信效率問題,提出了 Rand-Proj-Spatial 方法——一種基于稀疏化的、通信高效的分布式向量均值估計器。該方法利用子采樣隨機哈達瑪變換(Subsampled Randomized Hadamard Transform, SRHT)進行隨機投影,從而在客戶端間挖掘相關性,相較于傳統稀疏化方法,在估計精度與通信成本之間實現了更優平衡。 隨后,我們聚焦于預測任務中的差分隱私問題,提出了 DaRRM 框架,一種統一的私有多數集成(private majority ensembling)方法。DaRRM 通過優化一個數據依賴型的噪聲函數,在滿足固定隱私預算的前提下提升算法實用性,在私有圖像分類任務中表現出強勁的實驗性能。 最后,我們考察了差分隱私與優化之間的耦合關系,分析了現有 差分隱私打亂梯度(DP-ShuffleG) 方法在解決私有經驗風險最小化(ERM)問題時的局限性,并提出了一種混合算法 Interleaved-ShuffleG。該方法引入公開數據以降低經驗過度風險,并通過新穎的理論分析與跨多個數據集和基準的優越實證結果加以支持。 綜上所述,本論文在通信效率與隱私保護優化算法的理解與設計方面取得了重要進展,為構建可擴展、安全的分布式學習系統提供了理論基礎與實踐路徑。
語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。
在過去的幾十年里,人工智能(AI)在“特定能力”(即封閉世界,如人工環境或特定現實任務)上取得了諸多成功。這種定義明確的狹窄能力帶來了兩個顯著優勢:一是有清晰的成功標準,二是有機會收集大量示例數據。成功標準不僅可以判斷機器是否完成了目標,還能揭示機器未達成目標的具體原因。因此,人類設計者可以逐一修復問題,直到機器在特定任務上表現得足夠好。進一步來說,大量收集的示例數據也降低了修復問題的難度(依據中心極限定理)。
那么,封閉世界中的成功能否遷移到廣闊的開放世界呢?在開放世界中,機器需要以更少的示例和更少的人類先驗知識(如圖靈測試所要求)完成任何人類可能執行的任務。答案是否定的。因為在特定任務中獲得的能力對處理其他任務幾乎沒有幫助,針對特定任務制定的有價值標準在面對更廣泛、未知的任務時也無能為力。此外,由于在未知任務中缺乏充足的示例數據,中心極限定理無法為我們提供支持。最終,人類設計者也失去了“調試儀”,無法通過不斷修補來“破解”開放世界中的 AI 系統。 要實現面向開放世界的 AI,需要不同于構建封閉世界 AI 的獨特學習原則和創新技術。本論文探索了構建開放世界 AI 所需的重要學習原則,包括豐富特征(類比為一套龐大的工具箱)、解耦表示(類比為一套井然有序的工具箱)以及推理時學習(類比為一只靈活運用工具的手)。在這些學習原則的指導下,論文進一步提出了利用這些原則的創新方法,并進行了大量大規模實驗以驗證這些學習原則的有效性。 關鍵詞—— 開放世界 AI、豐富特征、預測性解耦、推理時學習、分布外問題、上下文學習、基于記憶的模型、記憶拼圖(v2)。
在過去十年中,深度學習領域取得了令人矚目的成功。如今,神經網絡模型幾乎主導了所有主流基準測試排行榜,不僅被廣泛部署于現實世界場景中,甚至在某些任務上已達到超越人類的水平。然而,這些模型在多個方面仍然脆弱,常常會出現意料之外的失敗,其可靠性與可信度問題仍遠未得到徹底解決。 在本論文中,我們提出:若要推動神經模型的進一步發展,僅僅關注其準確率已不再足夠,更需要系統地理解模型的錯誤模式,以深入探究剩余錯誤存在的原因以及如何有效緩解這些問題。
論文的第一部分提出了一個自動化的錯誤分類框架,能夠對 IMAGENET 模型的所有預測錯誤進行分類,標注其錯誤類型與嚴重程度。借助該框架,我們對超過 900 個模型的錯誤分布進行了全面評估,發現 top-1 準確率與多標簽準確率是各類錯誤比例的強預測指標。特別地,我們觀察到,隨著模型準確率的提升,嚴重錯誤的比例顯著下降,這表明傳統準確率指標可能低估了模型實際性能與進步的程度。
接著,我們進一步展示該分析框架的實用性,具體應用于研究 IMAGENET 模型在不同擾動條件下的錯誤分布。我們發現,在常見自然擾動(如隨機噪聲、模糊、天氣變化與數字擾動)下,錯誤分布趨勢與原始干凈圖像非常相似,并呈現出一致的擴展特性。相對而言,標準的非定向 PGD(Projected Gradient Descent)攻擊所引發的嚴重錯誤比例反而更低,這一發現令人驚訝,也揭示了自然擾動與對抗擾動在錯誤分布上的根本差異。
基于上述發現,我們設計了若干種 PGD 攻擊變體,這些變體能夠誘發更嚴重的錯誤并顯著降低模型的對抗魯棒性。在將其中一種攻擊方法融入對抗訓練后,我們得到了更加準確且在某些設置下嚴重錯誤比例更低的模型。
最后,在論文的第三部分,我們從錯誤分類與分析轉向錯誤緩解,尤其聚焦于公平性問題——目標是構建在不同個體與群體之間不產生歧視的模型。為此,我們提出了一種基于生成建模、對抗訓練與隨機平滑技術的表示學習方法,以實現并驗證圖像數據在高維空間下的個體公平性(individual fairness)。 我們希望本論文的研究成果能夠激勵更多研究者將錯誤分析工具納入機器學習模型的開發周期,從而推動模型向著更安全、更可靠的方向發展。
經過十年的蓬勃發展,視頻理解領域的發展已到達一個關鍵節點,單純依賴海量數據和復雜架構已不再是應對所有場景的萬能解決方案。普遍存在的數據不平衡問題阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化(如長尾不平衡和擾動不平衡)時性能顯著下降。這一現實促使研究人員尋求替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則應運而生,旨在揭示觀察到的相關性背后的真實因果模式。本論文聚焦于語義視頻理解領域,探索因果建模在推動兩項基礎任務——視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)中的潛力。主要貢獻提出干預式視頻關系檢測方法(IVRD)針對VidVRD中關系長尾不平衡的問題,我們提出了一種名為IVRD的干預式視頻關系檢測方法。盡管尾部關系信息豐富,但由于其在數據集中稀缺,難以預測。具體而言,我們以分層方式構建了一組關系原型,迫使關系推理模塊專注于實體間動態交互的視覺內容,而非依賴對象與關系標簽之間的虛假相關性。通過引入因果推理,IVRD為在長尾不平衡情況下提升視頻理解提供了有前景的方向,使模型能夠更好地泛化到現實場景中,其中罕見或不頻繁的關系可能對場景的整體理解至關重要。提出視頻問答的不變基礎模型(IGV)我們提出了視頻問答的不變基礎模型(Invariant Grounding for VideoQA, IGV),這是一個模型無關的學習框架,旨在解決答案環境中虛假相關性帶來的負面影響。IGV通過定位問題關鍵(因果)場景來發現因果推理模式。具體而言,它利用因果場景與答案之間的關系在環境變化時保持不變的特性,并強調移除因果場景會導致回答問題失敗。通過定位這些關鍵場景,IGV迫使VideoQA模型專注于準確推理所需的視覺內容,同時屏蔽環境的負面影響,從而顯著提升骨干模型的推理能力。提出視頻問答的等變基礎模型(EIGV)為了進一步提升魯棒性和視覺可解釋性,我們在IGV的基礎上提出了等變基礎模型(Equivariant Grounding for VideoQA, EIGV)。EIGV額外引入了等變性,鼓勵回答過程對因果場景和問題的語義變化敏感。相比之下,不變基礎模型要求回答對環境場景的變化不敏感。這兩種正則化方法協同工作,區分因果場景與環境,同時通過呈現視覺-語言對齊提供更高的透明度。通過結合不變和等變基礎模型的優勢,EIGV為VideoQA創建了一個更魯棒且可解釋的框架。提出視頻問答的時空合理化方法(STR)我們發現了視頻問答的時空合理化方法(Spatio-Temporal Rationalization, STR),以解決長視頻和多對象樣本(即復雜VideoQA)的低準確率問題。由于當前的VideoQA實踐(包括預訓練模型,如SeVila [158])大多使用短視頻片段(約15秒)和少量實體(約2個)進行訓練,它們在復雜視頻(超過80秒和5個對象)上的遷移能力較差。其原因是長視頻不可避免地引入了大量冗余和虛假相關性,因為存在大量與問題無關的環境對象。針對這一挑戰,我們首先強調了建模問題關鍵時間點和空間對象的重要性,然后引入了時空合理化(STR)方法,利用可微分選擇模塊通過跨模態交互自適應地收集問題關鍵的時間點和對象。結合更合理的候選答案解碼策略,STR有效識別了與問題無關的幀和對象作為因果模式,從而提升了預測性能,尤其是在復雜場景中。局限性本論文的一個局限性在于對識別出的因果場景的評估。在整個研究中,我們依賴問答(QA)的整體性能作為發現因果場景質量的間接指標,其依據是更準確的因果場景定位可能提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,必須承認,基于因果場景的直接定量測量將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中尚未實現此類測量。因此,未來的研究將致力于建立一個專門針對因果場景的評估基準,涉及對支撐回答過程的視覺元素進行人工標注。這一舉措將有助于對因果場景發現進行更全面和嚴格的評估。總結我們的貢獻拓展了因果建模在語義視頻理解中的前沿,賦能AI系統掌握因果模式,并在具有挑戰性的視頻理解任務中提升性能。
人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。
雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。
I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,
這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,
通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,
這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。
人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。
然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。
模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。
在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。
為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。
增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。
LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。