亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(Reinforcement Learning)作為一種機器學習技術,已在解決復雜的序列決策問題中取得顯著進展。許多實際任務涉及多個智能體,并需要通過序列決策策略以達成共同目標,例如倉庫自動化、自動駕駛及游戲對抗等。為了為所有智能體學習合適的策略,這類問題可建模為多智能體系統,并通過多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)進行求解。

然而,在多智能體場景下優化策略仍面臨諸多挑戰,主要原因在于智能體行為的復雜性以及環境動態的非平穩性。首先,在部分可觀測環境中,多智能體行為的復雜性顯著增加了策略優化的難度。此外,智能體行為的動態變化及其與其他智能體之間的交互會不斷改變環境狀態和智能體觀察結果,在開放環境下更為復雜。再者,現實中的多智能體任務往往需要在個體目標與整體目標之間實現權衡,這也進一步增加了決策制定的復雜度。 本博士論文旨在針對三類關鍵的多智能體研究問題提出解決方案,內容涵蓋從理論分析到實際應用。具體研究內容如下:

我們首先研究了在部分可觀測環境中學習高效策略的問題。我們關注的情境是:一組智能體在信息受限(無法觀測對手信息)的前提下與另一組智能體(即對手)展開對抗合作。為解決該問題,我們提出了一種新穎的多智能體分布式actor-critic算法,實現基于本地信息的對手建模。該方法中,actor維持一個“推測性對手模型”(speculative opponent model),利用自身的觀測、動作和獎勵來預測對手行為并據此決策。critic則建模策略的回報分布,從而評估actor表現并指導對手建模的訓練。大量實驗表明,在無對手數據的情況下,我們的方法依然能準確建模其行為,并在性能與收斂速度上優于現有基線方法。

其次,在某些環境中,智能體的隊友數量及其策略會隨著市場需求變化而動態變化,使得智能體必須能夠適應多種任務組合。針對這一挑戰,我們提出了一種基于強化學習的方法,使得控制智能體能夠在開放環境中與動態隊友展開協作。我們設計了一種“雙重團隊狀態推理模型”,以在部分可觀測條件下捕捉當前團隊狀態并輔助合理決策。針對隊友策略的多樣性,我們首先引入基于“中餐館過程”(Chinese Restaurant Process)的模型,將不同隊友策略歸類為多個簇,提升對當前團隊狀態的識別效率。隨后,采用異構圖注意力神經網絡(Heterogeneous Graph Attention Networks)學習團隊狀態的表示,進一步支持多變隊友數量與行為的建模。實驗結果表明,該方法在多種臨時協作任務中相較現有方法具有更快的收斂速度與更優的性能表現。 最后,在諸如路徑規劃、倉儲管理等現實任務中,決策者不僅要追求整體最優,還需兼顧各智能體之間的個體公平性。在此類多目標優化任務中,如何在學習效率與公平性之間實現平衡成為一大難題,尤其當前多數方法仍局限于仿真環境。為此,我們提出了一種創新性的多智能體強化學習方法,以實現個體目標與集體目標的協同優化。在多個合成與真實數據集上的實驗結果表明,該方法不僅優于現有的深度強化學習(DRL)方法,同時在優化速度上也明顯快于傳統啟發式算法,展示出在公平性與效率兼顧下的現實可用性。此方法為將“公平性”納入實際多智能體應用提供了有效路徑,推動了物流等行業中更公正、高效的智能決策系統發展。

綜上所述,本文圍繞多智能體決策制定中的三類核心研究問題展開,分別對應部分可觀測性、開放式環境以及個體-集體目標沖突等挑戰。針對這些問題,論文提出了三套創新的MARL方法,能夠在復雜環境下實現高效策略訓練與優化表現。此外,本文還在MARL關鍵模塊方面作出探索性設計,包括馬爾可夫決策過程(MDP)建模、策略網絡、訓練算法以及推理方法等。這些貢獻顯著提升了協作式MARL的性能與效率,樹立了新的性能基準。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

貝葉斯實驗設計(Bayesian Experimental Design, BED) 已成為一種優雅的形式化方法,用于理解在實驗代價不可忽視且高效設計至關重要的情境下,不同實驗設計的價值。值得注意的是,近年來,采用深度學習深度強化學習(D(R)L)技術來獲取有效實驗設計的研究興趣日益增長。驅動這些技術參與的主要動機在于:它們有潛力在無需高昂測試時計算成本的情況下,提供高信息量的實驗設計。 盡管近年來關于 D(R)L 在 BED 中的探索顯示出良好的初步前景,但本文的一個核心觀察是:訓練性能良好的 BED 策略仍然極具挑戰性。具體來說,我們發現即便在中等規模的問題上,BED 智能體也需要大量樣本才能學到有效的策略。我們將這種學習困難歸因于:在自適應實驗過程中,隨著推理的推進,后驗信念空間的爆炸性增長,這使得泛化變得極為困難。如何設計能高效應對這種信念爆炸的智能體,迄今在 BED 文獻中鮮有涉及,而這正是本文的主要研究重點。 我們展示了 BED 文獻中常用的標準狀態表示和網絡架構選擇——例如全連接網絡、卷積架構和 Transformers——在面對信念爆炸時并不適合高效學習。為此,我們提出利用等變網絡(equivariant networks),以利用 BED 任務中固有的對稱性與結構。我們為離散信念狀態連續信息集表示分別開發了專門的等變架構,并表明在這兩種場景中,這些網絡都顯著優于標準基線。值得注意的是,這些等變網絡還在測試時展現了對新的、更大規模 BED 域的穩健泛化能力——這是諸如 Transformers 等傳統架構所難以實現的。 我們的研究還揭示了 BED 等變性的一些結構性細節,可能為未來進一步提升樣本效率提供啟發。例如,除了全局等變性,我們還在更深的 BED 軌跡中觀察到豐富的子空間等變性。雖然我們的連續信息集模型并未直接利用這些更深層的子空間等變性,但我們展示了:在離散化信念空間的等變網絡中利用這些結構是直接可行的。 除 BED 場景之外,在論文的最后部分,我們還探討了如何訓練等變網絡,以在提供后驗預測不確定性時顯著提升樣本效率,相較以往的神經過程模型(Neural Process)。我們提出了圖 Transformer 神經過程(Graph Transformer Neural Process),作為一種針對平穩隨機過程的高效模型。實驗表明,它在樣本效率上遠超此前的神經過程模型,同時在測試時的分布偏移下也表現得更為穩健。 最后,我們概述了若干未來工作方向——其中最重要的包括:開發能同時保留全局等變性和離散模型所捕獲的更深子空間等變性的連續信息集網絡;克服連續 BED Q 函數景觀中的策略優化難題;以及開發更穩健的策略,用于在異質任務族之間攤銷 BED 策略。通過證明等變性在訓練高效 BED 策略中的重要性,本研究為將 BED 擴展到更復雜、更結構化的任務環境奠定了堅實基礎,在這些環境中,數據效率與泛化仍然是關鍵約束。

付費5元查看完整內容

機器學習(ML)模型正越來越多地在關鍵場景中做出或輔助決策,這些場景包括金融市場、電子商務以及物理世界。然而,從機器學習預測轉向機器學習決策時會面臨額外的挑戰:往往需要推理世界中其他個體的激勵,戰略性地利用信息,并推斷因果關系,而這一切通常發生在僅有部分反饋的情況下。此外,這些問題在現實決策情境中往往會相互疊加,從而要求學習者能夠同時加以處理。 本論文旨在為存在信息不對稱和結果不確定性的戰略環境下的學習與決策奠定數學基礎。通過將算法博弈論、信息經濟學、在線算法、因果推斷等工具和方法與傳統機器學習方法相結合,本研究提出了新的框架與算法,用于理解和優化動態多智能體環境中的算法決策過程。

本論文的第一部分研究了在不同形式的額外信息可用時的激勵下學習問題。主要貢獻包括:第一個關于具有附加信息的 Stackelberg 博弈學習框架及其可證明保證、博弈中的元學習方法,以及利用信息設計提供算法救濟(algorithmic recourse)的框架。論文的第二部分探討了在存在結果不確定性時,帶有激勵約束的學習所面臨的額外挑戰。我們提出了兩種流行因果推斷方法(工具變量回歸和合成控制)的策略感知(strategy-aware)版本,以及在更現實的反饋結構下的新型戰略分類算法。 近年來,機器學習(ML)系統在諸多領域取得了廣泛關注的成功,包括語言建模 [84]、計算機視覺 [297] 和藥物發現 [206]。這些突破得益于在大規模標注數據集上的訓練,使得 ML 模型能夠準確預測感興趣的量,例如文本序列中的下一個 token、圖像內容或蛋白質結構。 然而,盡管準確預測是一項重要能力,在許多實際應用中,最終目標是做出優質的下游決策。因此,基于機器學習的決策被視為一個自然的前沿方向。 從 ML 預測轉向 ML 決策時,會出現額外的挑戰:當 ML 模型的決策會影響他人時(例如在算法招聘與貸款 [270, 64] 中),這些個體會有動機采取戰略性行為。不同個體還可能擁有不同的信息來源,從而在決策時影響其行動。在這些領域中運行的算法智能體必須能夠可靠地處理多源信息,同時還需推理自身與他人之間的信息不對稱。更復雜的是,許多現實世界的決策任務缺乏標準監督學習所假設的清晰、結構化反饋。模型往往并非為每個決策接收到明確的標簽,而只能觀察到噪聲大且間接的獎勵信號,從而使得評價決策質量與有效學習更加困難。 上述每一類挑戰都已有大量研究,但往往是孤立展開的。算法博弈論研究如何設計能夠考慮自利型智能體戰略行為的系統 [284]。近年來,這一方向與機器學習相交,探索學習算法在戰略環境中的表現。異質與不對稱信息的挑戰則通過經濟學中的信息設計 [63]展開,旨在理解如何披露信息以影響博弈與市場中的行為。最后,多臂賭博機(bandits)[327, 233]文獻則聚焦于在不確定性下進行決策的學習算法設計。 這些領域提供了寶貴的見解,也構成了本論文的研究基礎。然而,要在真實世界中利用 ML 進行決策,往往需要一種綜合性方法,將這些視角加以結合。因此,本論文旨在通過融合算法博弈論、信息設計、因果推斷和多臂賭博機等方法與傳統 ML 技術,建立嚴謹的數學基礎,用于應對戰略性與不確定性環境下的數據驅動決策。 第二章涵蓋了本論文的背景知識。第 2.1 節介紹了算法博弈論中的基本概念,包括同時博弈與 Stackelberg 博弈。這些博弈模型為研究在目標與信息不一致環境中個體的競爭與合作互動提供了結構化方式。第 2.2 節介紹了在線學習的基礎,即數據按序到達而非一次性給出,正如許多重復決策場景中那樣。由于數據分布可能隨時間變化,在線學習智能體必須能夠在(部分)反饋下動態更新策略。最后,第 2.3 節討論了合成控制方法,它在因果推斷和面板數據的反事實推理中扮演關鍵角色,而面板數據在許多決策情境中自然出現。 本論文的第二部分提出了在帶激勵的學習中,如何利用不同類型的信息來改進決策的新算法。第 3 章和第 4 章研究了 Stackelberg 博弈中的附加信息問題。在第 3 章中,我們證明了與無附加信息的情形不同,在最壞情況下無悔學習(no-regret learning)不可能實現。受此啟發,我們提出了在兩個自然放松條件下的學習算法。第 4 章進一步研究了在僅有賭博機反饋(bandit feedback)而非完全反饋的條件下,如何在 Stackelberg 博弈中學習。這一環境需要新的算法技巧,我們展示了如何將問題歸約為領導者效用“對偶空間”中的上下文賭博機問題,并進一步將該方法應用于組合式二價拍賣中的競價學習,以及公共與私有狀態下的在線 Bayesian 說服(persuasion)問題。 第 5 章研究了博弈中的另一類額外信息:來自相似歷史博弈的序列。在此,我們首次為多類經典博弈(包括雙人零和博弈、一般和博弈及 Stackelberg 博弈)建立了元學習(meta-learning)保證。具體而言,我們得到的收斂速率依賴于所遇博弈序列間的自然相似性度量,同時在博弈序列完全任意時,能夠回收已知的單博弈保證。 第二部分的最后兩章研究了在激勵下學習時的私有信息作用。第 6 章展示了如何戰略性地披露信息,以向受到算法決策影響的個體提供一種“算法救濟”(algorithmic recourse)。第 7 章則研究了在對被說服的戰略型智能體存在不確定性的情況下的學習與說服問題。 本論文的第三部分聚焦于在激勵與不確定性下學習的新算法。第 8 章研究了當智能體對算法決策做出戰略性回應時,ML 模型所能觀察到的反饋類型。先前工作假設智能體的標簽在決策后可見,但這一假設在招聘與貸款等高風險領域往往不現實。我們提出了在弱反饋(稱為“apple tasting”或單側反饋)條件下的學習與決策算法。 第 9-11 章探討了激勵下的因果推斷。第 9 章通過觀察到部署的模型可被視為一種工具變量(instrument),其影響個體的可觀測特征但不直接作用于結果,從而建立了戰略響應與工具變量回歸之間的新聯系。這一視角使得在存在戰略行為時仍可用工具變量回歸估計因果關系。第 10 章研究了在戰略行為存在時合成控制的表現。我們證明合成控制在此環境下無法準確估計因果關系,但若明確建模戰略行為,則可修改以在下游決策任務中獲得良好表現。第 11 章回到合成控制環境,并提出了在智能體存在戰略行為且治療服從性(treatment compliance)無法保證時的因果參數估計算法。這需要同時推理激勵、不確定性與信息不對稱,并借助第 6、7 章討論的說服文獻中的工具與技巧。 最后,本論文在結論部分強調了未來值得探索的方向。

付費5元查看完整內容

獎勵函數在強化學習(Reinforcement Learning, RL)中具有核心地位,引導智能體實現最優決策。由于強化學習任務通常具備高度復雜性,因此需要精心設計的獎勵函數,既能有效驅動學習過程,又能避免引發意料之外的行為后果。有效的獎勵設計旨在提供有助于智能體快速收斂至最優行為策略的學習信號。設計獎勵的挑戰在于:如何使其與任務目標保持一致、激勵期望行為并抑制不良行為,這一過程本身就極具難度。 本論文深入探討了獎勵信號在強化學習中的關鍵作用,重點分析其對智能體行為及學習動態的影響,同時系統討論了如延遲、模糊或復雜獎勵信號所帶來的挑戰。在本研究中,我們從多個維度研究了獎勵塑形(Reward Shaping)的問題。 首先,我們從“教師/專家”視角出發(即“教師驅動”方式),研究如何設計信息豐富且可解釋的獎勵信號。在此場景中,專家掌握最優策略及其對應的價值函數,并據此設計獎勵信號,以加速智能體向最優策略的收斂過程。 其次,我們在教師驅動方法基礎上提出了一種新穎的自適應可解釋獎勵設計方法。在該方法中,專家會根據學習者當前的策略動態調整獎勵函數,從而確保學習方向的對齊與最優性進展。 最后,我們提出一種元學習(Meta-Learning)方法,使智能體能夠在沒有專家參與的情況下在線自我設計獎勵信號(即“智能體驅動”)。該方法綜合考慮了智能體的學習過程與探索行為,從而構建了一個自我改進的反饋機制,實現獎勵信號的自主生成與優化。

付費5元查看完整內容

在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。

在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。

//dspace.mit.edu/handle/1721.1/158802

付費5元查看完整內容

隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。

付費5元查看完整內容

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。

在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。

在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。

與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。

付費5元查看完整內容

序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標

在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199

付費5元查看完整內容
北京阿比特科技有限公司