亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習(ML)模型正越來越多地在關鍵場景中做出或輔助決策,這些場景包括金融市場、電子商務以及物理世界。然而,從機器學習預測轉向機器學習決策時會面臨額外的挑戰:往往需要推理世界中其他個體的激勵,戰略性地利用信息,并推斷因果關系,而這一切通常發生在僅有部分反饋的情況下。此外,這些問題在現實決策情境中往往會相互疊加,從而要求學習者能夠同時加以處理。 本論文旨在為存在信息不對稱和結果不確定性的戰略環境下的學習與決策奠定數學基礎。通過將算法博弈論、信息經濟學、在線算法、因果推斷等工具和方法與傳統機器學習方法相結合,本研究提出了新的框架與算法,用于理解和優化動態多智能體環境中的算法決策過程。

本論文的第一部分研究了在不同形式的額外信息可用時的激勵下學習問題。主要貢獻包括:第一個關于具有附加信息的 Stackelberg 博弈學習框架及其可證明保證、博弈中的元學習方法,以及利用信息設計提供算法救濟(algorithmic recourse)的框架。論文的第二部分探討了在存在結果不確定性時,帶有激勵約束的學習所面臨的額外挑戰。我們提出了兩種流行因果推斷方法(工具變量回歸和合成控制)的策略感知(strategy-aware)版本,以及在更現實的反饋結構下的新型戰略分類算法。 近年來,機器學習(ML)系統在諸多領域取得了廣泛關注的成功,包括語言建模 [84]、計算機視覺 [297] 和藥物發現 [206]。這些突破得益于在大規模標注數據集上的訓練,使得 ML 模型能夠準確預測感興趣的量,例如文本序列中的下一個 token、圖像內容或蛋白質結構。 然而,盡管準確預測是一項重要能力,在許多實際應用中,最終目標是做出優質的下游決策。因此,基于機器學習的決策被視為一個自然的前沿方向。 從 ML 預測轉向 ML 決策時,會出現額外的挑戰:當 ML 模型的決策會影響他人時(例如在算法招聘與貸款 [270, 64] 中),這些個體會有動機采取戰略性行為。不同個體還可能擁有不同的信息來源,從而在決策時影響其行動。在這些領域中運行的算法智能體必須能夠可靠地處理多源信息,同時還需推理自身與他人之間的信息不對稱。更復雜的是,許多現實世界的決策任務缺乏標準監督學習所假設的清晰、結構化反饋。模型往往并非為每個決策接收到明確的標簽,而只能觀察到噪聲大且間接的獎勵信號,從而使得評價決策質量與有效學習更加困難。 上述每一類挑戰都已有大量研究,但往往是孤立展開的。算法博弈論研究如何設計能夠考慮自利型智能體戰略行為的系統 [284]。近年來,這一方向與機器學習相交,探索學習算法在戰略環境中的表現。異質與不對稱信息的挑戰則通過經濟學中的信息設計 [63]展開,旨在理解如何披露信息以影響博弈與市場中的行為。最后,多臂賭博機(bandits)[327, 233]文獻則聚焦于在不確定性下進行決策的學習算法設計。 這些領域提供了寶貴的見解,也構成了本論文的研究基礎。然而,要在真實世界中利用 ML 進行決策,往往需要一種綜合性方法,將這些視角加以結合。因此,本論文旨在通過融合算法博弈論、信息設計、因果推斷和多臂賭博機等方法與傳統 ML 技術,建立嚴謹的數學基礎,用于應對戰略性與不確定性環境下的數據驅動決策。 第二章涵蓋了本論文的背景知識。第 2.1 節介紹了算法博弈論中的基本概念,包括同時博弈與 Stackelberg 博弈。這些博弈模型為研究在目標與信息不一致環境中個體的競爭與合作互動提供了結構化方式。第 2.2 節介紹了在線學習的基礎,即數據按序到達而非一次性給出,正如許多重復決策場景中那樣。由于數據分布可能隨時間變化,在線學習智能體必須能夠在(部分)反饋下動態更新策略。最后,第 2.3 節討論了合成控制方法,它在因果推斷和面板數據的反事實推理中扮演關鍵角色,而面板數據在許多決策情境中自然出現。 本論文的第二部分提出了在帶激勵的學習中,如何利用不同類型的信息來改進決策的新算法。第 3 章和第 4 章研究了 Stackelberg 博弈中的附加信息問題。在第 3 章中,我們證明了與無附加信息的情形不同,在最壞情況下無悔學習(no-regret learning)不可能實現。受此啟發,我們提出了在兩個自然放松條件下的學習算法。第 4 章進一步研究了在僅有賭博機反饋(bandit feedback)而非完全反饋的條件下,如何在 Stackelberg 博弈中學習。這一環境需要新的算法技巧,我們展示了如何將問題歸約為領導者效用“對偶空間”中的上下文賭博機問題,并進一步將該方法應用于組合式二價拍賣中的競價學習,以及公共與私有狀態下的在線 Bayesian 說服(persuasion)問題。 第 5 章研究了博弈中的另一類額外信息:來自相似歷史博弈的序列。在此,我們首次為多類經典博弈(包括雙人零和博弈、一般和博弈及 Stackelberg 博弈)建立了元學習(meta-learning)保證。具體而言,我們得到的收斂速率依賴于所遇博弈序列間的自然相似性度量,同時在博弈序列完全任意時,能夠回收已知的單博弈保證。 第二部分的最后兩章研究了在激勵下學習時的私有信息作用。第 6 章展示了如何戰略性地披露信息,以向受到算法決策影響的個體提供一種“算法救濟”(algorithmic recourse)。第 7 章則研究了在對被說服的戰略型智能體存在不確定性的情況下的學習與說服問題。 本論文的第三部分聚焦于在激勵與不確定性下學習的新算法。第 8 章研究了當智能體對算法決策做出戰略性回應時,ML 模型所能觀察到的反饋類型。先前工作假設智能體的標簽在決策后可見,但這一假設在招聘與貸款等高風險領域往往不現實。我們提出了在弱反饋(稱為“apple tasting”或單側反饋)條件下的學習與決策算法。 第 9-11 章探討了激勵下的因果推斷。第 9 章通過觀察到部署的模型可被視為一種工具變量(instrument),其影響個體的可觀測特征但不直接作用于結果,從而建立了戰略響應與工具變量回歸之間的新聯系。這一視角使得在存在戰略行為時仍可用工具變量回歸估計因果關系。第 10 章研究了在戰略行為存在時合成控制的表現。我們證明合成控制在此環境下無法準確估計因果關系,但若明確建模戰略行為,則可修改以在下游決策任務中獲得良好表現。第 11 章回到合成控制環境,并提出了在智能體存在戰略行為且治療服從性(treatment compliance)無法保證時的因果參數估計算法。這需要同時推理激勵、不確定性與信息不對稱,并借助第 6、7 章討論的說服文獻中的工具與技巧。 最后,本論文在結論部分強調了未來值得探索的方向。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

在現代機器學習中,海量數據通常來源于多樣且分布式的源頭,這使得分布式訓練成為一種核心范式,尤其適用于諸如聯邦學習(Federated Learning, FL)等大規模應用場景。然而,在分布式訓練中存在兩大關鍵挑戰:提升通信效率以及保護訓練過程中使用的敏感數據的隱私。本論文針對這兩個挑戰,深入探討了通信效率、差分隱私與優化算法之間的相互關系,這些要素對于實現可擴展、高效且具備隱私保護能力的分布式學習至關重要。 我們首先針對分布式優化中的通信效率問題,提出了 Rand-Proj-Spatial 方法——一種基于稀疏化的、通信高效的分布式向量均值估計器。該方法利用子采樣隨機哈達瑪變換(Subsampled Randomized Hadamard Transform, SRHT)進行隨機投影,從而在客戶端間挖掘相關性,相較于傳統稀疏化方法,在估計精度與通信成本之間實現了更優平衡。 隨后,我們聚焦于預測任務中的差分隱私問題,提出了 DaRRM 框架,一種統一的私有多數集成(private majority ensembling)方法。DaRRM 通過優化一個數據依賴型的噪聲函數,在滿足固定隱私預算的前提下提升算法實用性,在私有圖像分類任務中表現出強勁的實驗性能。 最后,我們考察了差分隱私與優化之間的耦合關系,分析了現有 差分隱私打亂梯度(DP-ShuffleG) 方法在解決私有經驗風險最小化(ERM)問題時的局限性,并提出了一種混合算法 Interleaved-ShuffleG。該方法引入公開數據以降低經驗過度風險,并通過新穎的理論分析與跨多個數據集和基準的優越實證結果加以支持。 綜上所述,本論文在通信效率與隱私保護優化算法的理解與設計方面取得了重要進展,為構建可擴展、安全的分布式學習系統提供了理論基礎與實踐路徑。

付費5元查看完整內容

在過去的幾十年里,人工智能(AI)在“特定能力”(即封閉世界,如人工環境或特定現實任務)上取得了諸多成功。這種定義明確的狹窄能力帶來了兩個顯著優勢:一是有清晰的成功標準,二是有機會收集大量示例數據。成功標準不僅可以判斷機器是否完成了目標,還能揭示機器未達成目標的具體原因。因此,人類設計者可以逐一修復問題,直到機器在特定任務上表現得足夠好。進一步來說,大量收集的示例數據也降低了修復問題的難度(依據中心極限定理)。

那么,封閉世界中的成功能否遷移到廣闊的開放世界呢?在開放世界中,機器需要以更少的示例和更少的人類先驗知識(如圖靈測試所要求)完成任何人類可能執行的任務。答案是否定的。因為在特定任務中獲得的能力對處理其他任務幾乎沒有幫助,針對特定任務制定的有價值標準在面對更廣泛、未知的任務時也無能為力。此外,由于在未知任務中缺乏充足的示例數據,中心極限定理無法為我們提供支持。最終,人類設計者也失去了“調試儀”,無法通過不斷修補來“破解”開放世界中的 AI 系統。 要實現面向開放世界的 AI,需要不同于構建封閉世界 AI 的獨特學習原則和創新技術。本論文探索了構建開放世界 AI 所需的重要學習原則,包括豐富特征(類比為一套龐大的工具箱)、解耦表示(類比為一套井然有序的工具箱)以及推理時學習(類比為一只靈活運用工具的手)。在這些學習原則的指導下,論文進一步提出了利用這些原則的創新方法,并進行了大量大規模實驗以驗證這些學習原則的有效性。 關鍵詞—— 開放世界 AI、豐富特征、預測性解耦、推理時學習、分布外問題、上下文學習、基于記憶的模型、記憶拼圖(v2)。

付費5元查看完整內容

強化學習(Reinforcement Learning)作為一種機器學習技術,已在解決復雜的序列決策問題中取得顯著進展。許多實際任務涉及多個智能體,并需要通過序列決策策略以達成共同目標,例如倉庫自動化、自動駕駛及游戲對抗等。為了為所有智能體學習合適的策略,這類問題可建模為多智能體系統,并通過多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)進行求解。

然而,在多智能體場景下優化策略仍面臨諸多挑戰,主要原因在于智能體行為的復雜性以及環境動態的非平穩性。首先,在部分可觀測環境中,多智能體行為的復雜性顯著增加了策略優化的難度。此外,智能體行為的動態變化及其與其他智能體之間的交互會不斷改變環境狀態和智能體觀察結果,在開放環境下更為復雜。再者,現實中的多智能體任務往往需要在個體目標與整體目標之間實現權衡,這也進一步增加了決策制定的復雜度。 本博士論文旨在針對三類關鍵的多智能體研究問題提出解決方案,內容涵蓋從理論分析到實際應用。具體研究內容如下:

我們首先研究了在部分可觀測環境中學習高效策略的問題。我們關注的情境是:一組智能體在信息受限(無法觀測對手信息)的前提下與另一組智能體(即對手)展開對抗合作。為解決該問題,我們提出了一種新穎的多智能體分布式actor-critic算法,實現基于本地信息的對手建模。該方法中,actor維持一個“推測性對手模型”(speculative opponent model),利用自身的觀測、動作和獎勵來預測對手行為并據此決策。critic則建模策略的回報分布,從而評估actor表現并指導對手建模的訓練。大量實驗表明,在無對手數據的情況下,我們的方法依然能準確建模其行為,并在性能與收斂速度上優于現有基線方法。

其次,在某些環境中,智能體的隊友數量及其策略會隨著市場需求變化而動態變化,使得智能體必須能夠適應多種任務組合。針對這一挑戰,我們提出了一種基于強化學習的方法,使得控制智能體能夠在開放環境中與動態隊友展開協作。我們設計了一種“雙重團隊狀態推理模型”,以在部分可觀測條件下捕捉當前團隊狀態并輔助合理決策。針對隊友策略的多樣性,我們首先引入基于“中餐館過程”(Chinese Restaurant Process)的模型,將不同隊友策略歸類為多個簇,提升對當前團隊狀態的識別效率。隨后,采用異構圖注意力神經網絡(Heterogeneous Graph Attention Networks)學習團隊狀態的表示,進一步支持多變隊友數量與行為的建模。實驗結果表明,該方法在多種臨時協作任務中相較現有方法具有更快的收斂速度與更優的性能表現。 最后,在諸如路徑規劃、倉儲管理等現實任務中,決策者不僅要追求整體最優,還需兼顧各智能體之間的個體公平性。在此類多目標優化任務中,如何在學習效率與公平性之間實現平衡成為一大難題,尤其當前多數方法仍局限于仿真環境。為此,我們提出了一種創新性的多智能體強化學習方法,以實現個體目標與集體目標的協同優化。在多個合成與真實數據集上的實驗結果表明,該方法不僅優于現有的深度強化學習(DRL)方法,同時在優化速度上也明顯快于傳統啟發式算法,展示出在公平性與效率兼顧下的現實可用性。此方法為將“公平性”納入實際多智能體應用提供了有效路徑,推動了物流等行業中更公正、高效的智能決策系統發展。

綜上所述,本文圍繞多智能體決策制定中的三類核心研究問題展開,分別對應部分可觀測性、開放式環境以及個體-集體目標沖突等挑戰。針對這些問題,論文提出了三套創新的MARL方法,能夠在復雜環境下實現高效策略訓練與優化表現。此外,本文還在MARL關鍵模塊方面作出探索性設計,包括馬爾可夫決策過程(MDP)建模、策略網絡、訓練算法以及推理方法等。這些貢獻顯著提升了協作式MARL的性能與效率,樹立了新的性能基準。

付費5元查看完整內容

近年來,深度學習(Deep Learning, DL)模型及其技術的迅猛發展,推動了其在多種任務與模態中的性能取得顯著進步。盡管模型整體能力持續增強,但我們對其內部推理過程的理解仍然有限,尤其是在面對系統性的不一致或錯誤——即邏輯或推理模式上的缺陷時。這類不一致性可能表現為輸出之間的自相矛盾、無法在相似任務間進行泛化,或在特定語境中得出錯誤結論。由于其可能源于模型內部過程的高度不透明、訓練數據中的偏差與不平衡,或任務本身的復雜性,檢測與衡量這類推理偏差本身就是一項挑戰。 在缺乏有效方法來檢測、量化與緩解這類錯誤的前提下,深度學習模型存在被部署時出現偏差、易被攻擊,或缺乏邏輯可靠性的重大風險。 本論文旨在針對上述問題,提出一系列適用于知識圖譜、自然語言與圖像任務中的推理型深度學習模型的創新方法。首先,本文提出了兩種技術,用于檢測和量化自然語言與圖像處理模型中因內部過程不透明所導致的預測不一致性。我們在設計的對抗性實驗設置中對多類模型進行系統評估,這些設置明確暴露模型的內部推理過程,從而使我們得以量化模型中的顯著推理偏差。 為緩解訓練數據中的偏見導致的不一致性,本文還提出了一種數據高效的采樣方法,以提升模型的公平性與性能;同時,提出一種合成數據集生成方法,用于在低資源場景下更嚴格地評估與提升模型的推理能力。 最后,論文還提出了兩種新穎技術,用于優化模型在自然語言與知識圖譜等復雜推理任務中的表現。這些方法不僅直接增強了模型的性能,還提升了推理過程的可解釋性與行為的忠實性。 總的來說,本論文通過系統地量化并緩解推理不一致性,構建了一個通用框架,以提升深度學習模型在各類任務與模態下的魯棒性、公平性與可解釋性

付費5元查看完整內容

深度學習因其卓越的高維特征表示學習能力而變得越來越受歡迎。許多算法和模型已經被開發出來,以增強深度學習在各種現實任務中的應用,包括圖像分類、自然語言處理和自動駕駛。然而,深度學習模型容易受到后門威脅的影響,攻擊者通過操控訓練過程或數據,導致模型在含有特定觸發器的惡意樣本上做出錯誤預測,同時在正常樣本上保持正常性能。隨著深度學習的發展,包括不斷演化的訓練方案以及對大規模訓練數據的需求,后門領域的新威脅不斷出現。另一方面,后門也可以被用來保護深度學習模型,例如通過水印技術。在本論文中,我們從三個新穎的角度深入探討了后門技術。

在論文的第一部分,我們展示了新興的深度學習訓練方案可能引入新的后門風險。具體而言,預訓練的自然語言處理(NLP)模型可以輕松地適應多種下游語言任務,顯著加速語言模型的開發。然而,預訓練模型成為這些下游模型的單點故障。我們提出了一種新的任務無關的后門攻擊方法,針對預訓練的NLP模型,在這種攻擊中,攻擊者無需事先了解下游任務即可將后門植入預訓練模型中。任何從這個惡意模型轉移的下游模型將繼承后門,即使在經過廣泛的遷移學習后,這揭示了預訓練基礎模型在面對后門攻擊時的嚴重脆弱性。 在論文的第二部分,我們開發了適應新威脅場景的創新后門攻擊方法。深度學習模型的快速擴展需要大規模的訓練數據,其中大部分是未標注的,并外包給第三方進行注釋。為了確保數據安全,大多數數據集對訓練樣本是只讀的,防止添加輸入觸發器。因此,攻擊者只能通過上傳惡意注釋來實現數據中毒。在這種實際場景中,所有現有的數據中毒方法都無法在輸入中添加觸發器。因此,我們提出了新的后門攻擊方法,這些方法僅通過中毒標簽而不修改任何輸入樣本來實現。

在論文的第三部分,我們利用后門技術主動保護我們的深度學習模型,特別是在知識產權保護方面。考慮到深度學習任務的復雜性,生成一個訓練良好的深度學習模型需要大量的計算資源、訓練數據和專業知識。因此,保護這些資產并防止版權侵權至關重要。受到后門攻擊的啟發,后門攻擊可以通過精心設計的樣本誘發目標模型特定的行為,已經提出了幾種水印方法來保護深度學習模型的知識產權。模型所有者可以訓練他們的模型,以便對某些精心制作的樣本產生獨特的輸出,并利用這些樣本進行所有權驗證。盡管為監督學習的深度學習模型設計了各種提取技術,但在將它們應用于深度強化學習模型時會遇到挑戰,因為模型特性和場景的不同。因此,我們提出了一種新的水印方案,以保護深度強化學習模型免受未經授權的分發。與傳統深度學習模型中使用空間水印不同,我們設計了時間水印,這種水印在盡量減少對受保護深度強化學習模型潛在影響和損害的同時,能夠實現高保真度的所有權驗證。 總之,本論文探討了深度學習技術發展過程中后門威脅的演變,并研究了如何利用后門技術在知識產權保護中發揮積極作用。

付費5元查看完整內容

優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。

然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。

本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。

付費5元查看完整內容

優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。

付費5元查看完整內容

盡管深度學習有著廣泛的應用,但在實際應用中仍面臨穩健性挑戰,尤其是在訓練和測試分布不一致的情況下。訓練和測試分布之間的差異原因包括人類行為的逐漸變化或服務使用環境的人口統計學差異。雖然獲取預期分布變化的標注數據可能非常困難,但未標注樣本相對便宜且數量充足。

我的研究利用目標領域的未標注數據,識別目標領域和源領域之間的結構關系,然后利用這些關系來適應和評估模型。本論文討論的工作涉及理論和實證上理解深度模型的行為,并利用這些見解開發穩健的方法。特別是,本論文調查了我在以下三個問題上的工作:

Q1:如何在分布變化的情況下適應模型?如果沒有對分布變化性質的假設,這項任務是不可能完成的。我的研究重點是制定在實際環境中出現的分布變化場景的假設,并通過利用未標注數據來改進和適應深度模型。論文的第一部分和第二部分詳細探討了這一研究。

Q2:在沒有標注數據的情況下,如何評估模型的性能?深度學習模型會無聲地失敗,即它們無法標記不確定的決策。為了構建可靠的機器學習系統,獲得準確性的證明與增強系統的穩健性同樣重要。第三部分討論了我在這方面的研究,并提出了利用未標注數據預測模型準確性的技術。

Q3:如何利用基礎模型來解決分布變化帶來的挑戰?基礎模型(如視覺語言模型)在廣泛的任務中表現出色。然而,這些模型也由于虛假關聯、圖像與文本對齊差等原因缺乏穩健性。此外,隨著互聯網數據的演變,這些模型也會變得過時,提出了保持它們更新的新的挑戰。第四部分討論了我對基礎模型行為的理解以及在分布變化下提高其穩健性的技術。

總體而言,本論文通過開發利用未標注數據在分布變化下適應和評估模型的技術,拓展了穩健機器學習的前沿。這里展示的工作是朝著在分布變化面前開發穩健機器學習全面工具包邁出的一步。

付費5元查看完整內容

與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。

付費5元查看完整內容

生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。

這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。

總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。

付費5元查看完整內容
北京阿比特科技有限公司