亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去的十年里,深度學習,特別是大語言模型(LLMs)的變革性崛起,激發了各個領域的專家深入思考人工智能(AI)如何革新他們的領域。在這段時間里,通用基礎模型而非狹窄且高度專業化的任務特定系統,開始成為主流范式。在醫療健康領域,AI系統已經在多種實際應用場景中得到了廣泛實施,盡管這些系統可能沒有經過充分的評估和驗證。事實上,它們在處理自然語言方面的卓越能力——自然語言在醫學中是知識和溝通的關鍵媒介——表明這些現代基礎模型在醫療領域中可能具有巨大的潛力。然而,仍然需要更好地研究和理解它們的優點、局限性和魯棒性,特別是在更現實和臨床相關的環境中。本文聚焦于兩類關鍵的自然語言驅動的基礎模型——對比語言圖像預訓練(CLIP)模型和大語言模型(LLMs)——并探討這些模型如何編碼和傳遞有用的臨床知識,用于如胸部X光解讀、鑒別診斷、病史采集和臨床管理等任務。總體而言,本文旨在進一步增進我們對自然語言基礎模型在醫學中的潛力的集體理解,同時強調需要進行大量的進一步研究,以應對現實世界的挑戰,并理解這些系統可以安全有效地實施的范圍。

在第一章中,我提供了一些相關背景的概述,包括對比語言-圖像預訓練模型、大語言模型及其在醫學領域的評估。在第二章中,我們通過在預訓練過程中應用一種新穎的正則化技術,改進了CLIP架構,以用于胸部X光解讀,并使用該模型進行胸部X光發現的零樣本識別。在第三章中,我們考察了CLIP風格模型的可靠性。首先,我們評估了它們對捷徑學習的魯棒性,以理解文本自監督可能帶來的保護效果。接著,我們探索了如何利用共形預測來控制零樣本分類性能,并為這些CLIP風格模型預見兼容輸入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的開發,這是一個經過模擬醫學對話微調的對話診斷AI。我們在兩項隨機研究中評估了AMIE的診斷能力;首先是在具有挑戰性的臨床病理會議(CPC)案例中,其次是在虛擬文本基礎的客觀結構化臨床考試(OSCE)中。在第五章中,我們探討了AMIE在兩個子專業領域的管理推理能力:遺傳性心血管疾病和乳腺腫瘤學。在這些研究中,我們設計了特定領域的案例管理評估,并將AMIE的表現與在子專業評估下的全科醫生進行比較,同時研究其潛在的輔助效應。

//dspace.mit.edu/handle/1721.1/158802

付費5元查看完整內容

相關內容

貝葉斯實驗設計(Bayesian Experimental Design, BED) 已成為一種優雅的形式化方法,用于理解在實驗代價不可忽視且高效設計至關重要的情境下,不同實驗設計的價值。值得注意的是,近年來,采用深度學習深度強化學習(D(R)L)技術來獲取有效實驗設計的研究興趣日益增長。驅動這些技術參與的主要動機在于:它們有潛力在無需高昂測試時計算成本的情況下,提供高信息量的實驗設計。 盡管近年來關于 D(R)L 在 BED 中的探索顯示出良好的初步前景,但本文的一個核心觀察是:訓練性能良好的 BED 策略仍然極具挑戰性。具體來說,我們發現即便在中等規模的問題上,BED 智能體也需要大量樣本才能學到有效的策略。我們將這種學習困難歸因于:在自適應實驗過程中,隨著推理的推進,后驗信念空間的爆炸性增長,這使得泛化變得極為困難。如何設計能高效應對這種信念爆炸的智能體,迄今在 BED 文獻中鮮有涉及,而這正是本文的主要研究重點。 我們展示了 BED 文獻中常用的標準狀態表示和網絡架構選擇——例如全連接網絡、卷積架構和 Transformers——在面對信念爆炸時并不適合高效學習。為此,我們提出利用等變網絡(equivariant networks),以利用 BED 任務中固有的對稱性與結構。我們為離散信念狀態連續信息集表示分別開發了專門的等變架構,并表明在這兩種場景中,這些網絡都顯著優于標準基線。值得注意的是,這些等變網絡還在測試時展現了對新的、更大規模 BED 域的穩健泛化能力——這是諸如 Transformers 等傳統架構所難以實現的。 我們的研究還揭示了 BED 等變性的一些結構性細節,可能為未來進一步提升樣本效率提供啟發。例如,除了全局等變性,我們還在更深的 BED 軌跡中觀察到豐富的子空間等變性。雖然我們的連續信息集模型并未直接利用這些更深層的子空間等變性,但我們展示了:在離散化信念空間的等變網絡中利用這些結構是直接可行的。 除 BED 場景之外,在論文的最后部分,我們還探討了如何訓練等變網絡,以在提供后驗預測不確定性時顯著提升樣本效率,相較以往的神經過程模型(Neural Process)。我們提出了圖 Transformer 神經過程(Graph Transformer Neural Process),作為一種針對平穩隨機過程的高效模型。實驗表明,它在樣本效率上遠超此前的神經過程模型,同時在測試時的分布偏移下也表現得更為穩健。 最后,我們概述了若干未來工作方向——其中最重要的包括:開發能同時保留全局等變性和離散模型所捕獲的更深子空間等變性的連續信息集網絡;克服連續 BED Q 函數景觀中的策略優化難題;以及開發更穩健的策略,用于在異質任務族之間攤銷 BED 策略。通過證明等變性在訓練高效 BED 策略中的重要性,本研究為將 BED 擴展到更復雜、更結構化的任務環境奠定了堅實基礎,在這些環境中,數據效率與泛化仍然是關鍵約束。

付費5元查看完整內容

強化學習(Reinforcement Learning)作為一種機器學習技術,已在解決復雜的序列決策問題中取得顯著進展。許多實際任務涉及多個智能體,并需要通過序列決策策略以達成共同目標,例如倉庫自動化、自動駕駛及游戲對抗等。為了為所有智能體學習合適的策略,這類問題可建模為多智能體系統,并通過多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)進行求解。

然而,在多智能體場景下優化策略仍面臨諸多挑戰,主要原因在于智能體行為的復雜性以及環境動態的非平穩性。首先,在部分可觀測環境中,多智能體行為的復雜性顯著增加了策略優化的難度。此外,智能體行為的動態變化及其與其他智能體之間的交互會不斷改變環境狀態和智能體觀察結果,在開放環境下更為復雜。再者,現實中的多智能體任務往往需要在個體目標與整體目標之間實現權衡,這也進一步增加了決策制定的復雜度。 本博士論文旨在針對三類關鍵的多智能體研究問題提出解決方案,內容涵蓋從理論分析到實際應用。具體研究內容如下:

我們首先研究了在部分可觀測環境中學習高效策略的問題。我們關注的情境是:一組智能體在信息受限(無法觀測對手信息)的前提下與另一組智能體(即對手)展開對抗合作。為解決該問題,我們提出了一種新穎的多智能體分布式actor-critic算法,實現基于本地信息的對手建模。該方法中,actor維持一個“推測性對手模型”(speculative opponent model),利用自身的觀測、動作和獎勵來預測對手行為并據此決策。critic則建模策略的回報分布,從而評估actor表現并指導對手建模的訓練。大量實驗表明,在無對手數據的情況下,我們的方法依然能準確建模其行為,并在性能與收斂速度上優于現有基線方法。

其次,在某些環境中,智能體的隊友數量及其策略會隨著市場需求變化而動態變化,使得智能體必須能夠適應多種任務組合。針對這一挑戰,我們提出了一種基于強化學習的方法,使得控制智能體能夠在開放環境中與動態隊友展開協作。我們設計了一種“雙重團隊狀態推理模型”,以在部分可觀測條件下捕捉當前團隊狀態并輔助合理決策。針對隊友策略的多樣性,我們首先引入基于“中餐館過程”(Chinese Restaurant Process)的模型,將不同隊友策略歸類為多個簇,提升對當前團隊狀態的識別效率。隨后,采用異構圖注意力神經網絡(Heterogeneous Graph Attention Networks)學習團隊狀態的表示,進一步支持多變隊友數量與行為的建模。實驗結果表明,該方法在多種臨時協作任務中相較現有方法具有更快的收斂速度與更優的性能表現。 最后,在諸如路徑規劃、倉儲管理等現實任務中,決策者不僅要追求整體最優,還需兼顧各智能體之間的個體公平性。在此類多目標優化任務中,如何在學習效率與公平性之間實現平衡成為一大難題,尤其當前多數方法仍局限于仿真環境。為此,我們提出了一種創新性的多智能體強化學習方法,以實現個體目標與集體目標的協同優化。在多個合成與真實數據集上的實驗結果表明,該方法不僅優于現有的深度強化學習(DRL)方法,同時在優化速度上也明顯快于傳統啟發式算法,展示出在公平性與效率兼顧下的現實可用性。此方法為將“公平性”納入實際多智能體應用提供了有效路徑,推動了物流等行業中更公正、高效的智能決策系統發展。

綜上所述,本文圍繞多智能體決策制定中的三類核心研究問題展開,分別對應部分可觀測性、開放式環境以及個體-集體目標沖突等挑戰。針對這些問題,論文提出了三套創新的MARL方法,能夠在復雜環境下實現高效策略訓練與優化表現。此外,本文還在MARL關鍵模塊方面作出探索性設計,包括馬爾可夫決策過程(MDP)建模、策略網絡、訓練算法以及推理方法等。這些貢獻顯著提升了協作式MARL的性能與效率,樹立了新的性能基準。

付費5元查看完整內容

深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。

付費5元查看完整內容

自然語言處理(NLP)領域的最新進展顯著提升了語言模型的能力,吸引了學術界和工業界研究者的高度關注。這些模型在大量文本數據集上進行訓練,在各種語言任務中表現出色,如翻譯、摘要、問答和對話生成。支撐這些發展的核心是數據,作為NLP的命脈,尤其在當前的大型語言模型需要龐大的數據集才能有效學習和生成精確輸出的背景下,數據的作用更加至關重要。本論文聚焦于面向數據的優化方法,旨在提升語言模型在各種NLP應用中的性能。它提出了創新的方法,改進模型對數據的攝取和處理方式,從而在實際應用中取得了顯著的進展。 本研究通過深入探討NLP中數據驅動的各個方面,涵蓋數據的數量和質量。通過自上而下的方法,本研究跨越了數據生命周期的各個環節,涉及數據的利用、增強和構建。在數據利用方面,研究首先在有限數據下調整模型,然后利用無標簽數據的潛力,通過持續學習提升模型性能。轉向數據增強部分,研究通過提升合成生成數據的質量,以鞏固模型的知識,為持續學習提供支持。接著,設計了一種方法控制指令數據的復雜性,并研究其對大型語言模型性能的影響。在數據構建方面,研究首先開發了一個因果完備的大規模預訓練語料庫,專門針對文檔基礎的對話任務。除此之外,本研究還利用大型語言模型的能力,創建了多種工具的指令數據集,從而賦予模型工具使用的能力。 總之,本論文對數據驅動的NLP研究做出了貢獻,系統地涵蓋了數據處理的完整周期。本論文提出的創新方法旨在顯著提升語言模型的能力,并改善其在各種實際場景中的應用效果。

付費5元查看完整內容

//arxiv.org/pdf/2411.17992

機器學習,特別是神經網絡,現如今廣泛應用于許多領域,如貸款評估、搜索結果和招聘推薦。這些系統通常提供自動化決策,影響著大多數人的生活。近年來,自然語言處理(NLP)應用特別受到關注,尤其是非常高效的通用模型的出現,特別是聊天系統,這些系統現在被廣泛使用,甚至普通公眾也能直接使用它們。

不幸的是,這些系統并非沒有缺陷。僅在招聘系統中,就有性別歧視的案例,比如簡歷中“國際象棋俱樂部成員”受到青睞,而“女性國際象棋俱樂部成員”則被忽視,或者某些系統認為計算機科學學位是醫院打字員的必要資格。雖然前者可能通過分析模型的性別偏差并加以修正來緩解,但后者過于具體,可能只能通過解釋模型的預測來揭示。 可解釋性 是一個研究領域,致力于用人類可以理解的術語解釋模型和數據集。其目標通常是防止不良行為,正如上述例子所示。不幸的是,這個領域經常面臨提供錯誤解釋的問題,即解釋并未反映模型的真實情況。例如,解釋表明哪些輸入詞語很重要,可能并不比隨便指出隨機詞語更有價值。當解釋真實反映模型時,這種解釋被稱為“忠實解釋”。 不幸的是,衡量一個解釋是否忠實(忠實度指標)非常具有挑戰性,因為我們無法得到真實的標準答案。一個重要的原因是,模型通常太復雜,人類難以理解,因此無法判斷解釋是否忠實于模型。更糟糕的是,設計不當的忠實度指標可能會給出錯誤的信心,而錯誤的解釋則可能會給出對模型行為的虛假信心。因此,本論文的核心研究問題是:“如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋?” 在可解釋性領域,目前有兩種主要的范式來回答這個問題:內在范式和后驗范式。 內在范式認為“只有在架構上設計為可以解釋的模型才能被解釋”,而后驗范式認為“可以且應該在模型訓練完成后生成解釋,以避免任何性能影響”。 通過分析現有文獻并提出新的忠實度指標,本論文認為這兩種范式都未能取得有效的進展。后驗解釋的忠實度經常受到批評,而內在模型要么實際上并非內在的,要么由于過于受限,無法成為高性能的通用模型。 因此,本論文假設該領域應通過結合兩種現有范式的優點,發展出新的范式來回答核心研究問題。具體來說,本論文設計了無需架構約束的可解釋模型,這樣這些模型仍然是通用且高性能的。特別地,本文提出了兩種潛在的范式,即“忠實度可度量模型”(FMMs)和“自解釋”。FMMs直接回答核心研究問題,而自解釋目前尚未完全解答該問題,但可能在未來解決。 忠實度可度量模型(FMMs) 是本論文提出的新范式,它將內在范式的“設計可解釋的模型”重新表述為“設計能夠便捷且可靠地測量忠實度的模型”。如本論文所示,這比內在范式提出的目標要容易得多,因為它不要求架構約束。該范式的具體展示應用于重要性度量——即指出每個輸入特征在做出預測時的重要性。對于這類解釋,FMMs只需對訓練過程進行小幅修改,即在訓練時隨機屏蔽輸入標記。 這種訓練過程使得我們可以使用忠實度擦除指標:“如果一個特征確實重要,那么如果去掉該特征,模型的預測應該會發生顯著變化。” 這個指標不能應用于任何模型,因為去除特征(例如詞語或標記)會導致分布外問題。然而,這種FMM支持去除特征,因此使得該指標得以應用。由于現在忠實度測量變得既便宜又可靠,因此可以優化解釋,以達到最大的忠實度。因此,FMMs變得間接地內在可解釋,但無需架構約束,并且還回答了如何衡量忠實度,從而回答了核心研究問題。 自解釋 是另一種新興范式,這些解釋直接作為模型的輸出生成。這類解釋因聊天系統的興起而變得流行,這些系統通常會以自然語言的形式闡明它們發出的解釋。然而,由于自解釋的自由形式,評估其忠實度極為困難。此外,由于這些模型也存在幻覺問題,因此有充分的理由對此保持懷疑。盡管如此,這些解釋仍然非常普遍,并且常常被當作真理接受,包括研究人員在內。為了評估這一新范式的可行性,本文還提出并評估了自解釋的忠實度指標。研究結果表明,類似于后驗解釋,它們是模型和任務相關的。 本文還研究了后驗和內在解釋的忠實度,發現結論與模型和任務的依賴性相同。然而,當使用忠實度可度量模型時,即便使用相同的后驗解釋方法,且在相同的數據集和基礎模型上,也得出了不同的結論。 這得出一個總體結論:忠實度默認是依賴于模型和任務的。然而,即便是對模型進行簡單修改,如隨機屏蔽訓練數據集(如在忠實度可度量模型中所做的),也能極大地改變局面,從而得到一致忠實的解釋。我們提供了一些建議,說明如何也可以通過自解釋來實現這一點。此外,利用忠實度可度量模型,本文證明了有可能確定新的可解釋性范式,克服過去的局限,并回答如何為復雜的通用神經網絡自然語言處理模型提供并確保忠實的解釋這一核心研究問題。

付費5元查看完整內容

隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。

付費5元查看完整內容

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。

在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。

我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。

直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。

最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。

新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。

本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。

第一部分:深度神經架構的高效訓練策略

在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。

**第二章

我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。

**第三章

我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。

第二部分:通過可微優化增強訓練

在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。

**第四章

我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。

**第五章

我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。

付費5元查看完整內容

"強化學習(RL)是一個強大的決策制定和通過交互適應性學習的框架。盡管其核心是試錯學習,但它已成為人工智能(AI)研究的關鍵工具。在過去的十年中,RL算法已能夠掌握國際象棋和圍棋等戰略游戲,并控制各種機器人和工業平臺,從運動和操縱到電廠,甚至核聚變反應堆。通過將深度神經網絡(NN)作為函數逼近器納入其中,“深度RL”達到了處理高維狀態和動作空間的能力,并且原則上在任務間有更好的泛化性,使RL解決方案變得多樣化且有前景。然而,使用深度神經網絡帶來了某些警告。RL算法經常面臨由于過擬合和對超參數敏感導致的脆弱性問題,這些問題加劇了典型的RL挑戰,如低樣本效率、處理稀疏獎勵的困難、長期任務的延遲信用分配、對獎勵函數設計的敏感性。在這篇論文中,我們提出了一系列針對RL所面臨的一些問題的新穎貢獻,其最終目標是提高其在連續控制任務中的效率、穩健性和泛化性。具體來說,我們將介紹更穩健的軌跡優化方法,結合NN函數逼近用于策略學習、模型學習和獎勵學習。特別是,這項工作的大部分集中在零階優化用于模型預測控制,我們證明這比基于梯度的軌跡優化器更高效、穩健和可重現。在整篇論文中,我們將展示如何使用零階優化來有效解決稀疏獎勵任務,如何在模仿學習的背景下使用它,以及如何結合模型學習用于不確定性傳播。最后,我們將介紹一種從零開始學習獎勵函數的方法,以純自監督的方式。通過在模擬環境中的廣泛實驗,我們的方法在學習效率和性能上展示了顯著的提升,減少了與環境交互所需的次數,同時仍然實現了接近最優的解決方案。這項工作旨在提供一種解決深度RL挑戰部分問題的可行方法,不依賴于預定義的專家知識,解決學習過程的效率和穩健性問題。”

“雖然我們對于究竟是什么引發了人類的思維和批判性推理尚且遙遠不明,但有證據表明人類行為是通過強化學習引導的。強化學習(RL)的歷史可以追溯到20世紀,當時B.F. Skinner和I. Pavlov對動物進行了一系列關于條件反射的實驗 [1, 2],以理解學習背后的機制。心理學家E. Thorndike已經將動物的反應由其后果所強化的觀點,正式表述為“效果定律” [3]: 在特定情境中產生滿意效果的反應變得更有可能再次發生,在該情境中產生不適效果的反應變得不太可能再次發生。 —— Edward Thorndike Thorndike的效果定律假設動物不是通過推理,而是通過與物理環境的試錯互動來學習,直到獲得成功的結果。這種決策策略以回顧性方式將獎勵與行動聯系起來,與前瞻性觀點相對立,后者認為動物形成環境的場域圖作為學習的指導機制,也稱為“認知地圖” [4, 5]。”

“關于人腦的大量實驗證據表明,行為選擇存在多種機制 [6],決策過程既是反思性的(前瞻性)也是反射性的(回顧性),正如我們所預期的那樣。強化學習理論也以類似的方式發展,現在包括兩個主要分支:無模型(反射性)和基于模型(反思性)RL [7]。無模型RL學習在狀態和行動之間的反應性映射,以增加代理的獎勵,而無需了解環境的基本物理原理。相反,基于模型的RL則學習對世界的內部表征,用于學習每個行動的后果。與基于模型的RL類似,另一種計算性的前瞻性推理方法可以在模型預測控制(MPC)中找到,它在機器人學和許多工業過程中有效使用 [8, 9]。在MPC中,使用已知模型來迭代地優化給定的獎勵,同時考慮規劃范圍內的約束和來自環境的反饋。鑒于其提前規劃的組成部分,MPC也可以被看作是一種反思性決策制定的形式。 在這篇論文的過程中,我們將看到如何將基于模型和無模型的RL與MPC風格的迭代規劃相結合,以創建比單獨組件更強大的控制策略。例如,無模型RL算法能夠從大量數據中快速學習,但對訓練超參數敏感,泛化能力不佳,并且缺乏規劃組件,這可能導致在復雜環境中做出次優決策。另一方面,基于模型的RL方法有可能更靈活,但經常受到與模型估計相關的偏差的困擾,當以自回歸方式使用時,這些偏差可能迅速累積。將基于模型的RL與MPC整合起來可以提供兩全其美的解決方案,因為MPC提供了一個規劃框架,可以納入學習到的世界模型,并在規劃范圍內優化代理的行動。這可以導致更高效的決策制定策略,能夠從經驗中學習,適應不斷變化的環境,并隨著時間的推移優化它們的行為,同時具有反應性以及規避風險的特性。”

付費5元查看完整內容
北京阿比特科技有限公司