亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大規模機器學習是許多人工智能近期成功的核心,例如AlphaGo、BERT、DALL-E、GitHub Copilot、AlphaCode和ChatGPT。這些大規模模型無疑是強大的,但訓練成本也非常高昂。為了降低成本,我們將順序決策制定融入到機器學習模型的訓練中。順序決策制定長期以來一直是獨立領域的關注焦點(例如,強化學習和多臂老虎機)。我們觀察到順序決策制定問題也出現在多種不同設置下的機器學習模型訓練中。我們展示了通過精心解決這些問題可以提高訓練效率,從而減少訓練時間。根據具體的訓練設置,決策內容涉及如何(a)選擇向量的坐標,(b)從訓練集中選擇示例,或(c)在不同機器之間路由令牌。在這篇論文中,我們考慮了包括推薦系統、分布式學習、課程學習和變換器模型在內的多種訓練設置。我們為每種訓練設置設計了定制的決策制定策略,并通過大量實驗展示了訓練時間的縮短以及通常更高的準確性。

在過去幾年中,機器學習模型變得越來越強大,在許多現實世界應用中取得了前所未有甚至超越人類的表現。例如,得益于機器學習的進步,AlphaGo成為了第一個在圍棋游戲中擊敗世界冠軍的電腦程序[210]。BERT在多個自然語言任務(如問答)中實現了超越人類的性能[53]。DALL-E是一個革命性的工具,能夠基于文本提示生成多種風格的逼真圖像[180]。GitHub Copilot依賴于Codex模型,為包括Python、JavaScript、PHP和Shell在內的十多種編程語言提供高質量的代碼補全服務[32]。另一個代碼生成系統AlphaCode,在具有挑戰性的編程競賽中,在5000多名參與者中的預估排名可達前54%[133]。最近,OpenAI發布了ChatGPT,這是一種可以以前所未有的方式與人類互動的聊天機器人,例如回答后續問題和承認錯誤[1]。

盡管這些激動人心的應用橫跨游戲、編程語言生成、計算機視覺和自然語言理解等多個領域,但它們有一個共同點:都依賴于大規模機器學習模型。例如,AlphaCode使用的最大模型包含410億個參數[133]。BERT在其早期版本中有3.4億個參數[53],并通過使用新的混合專家(MoE)設計進一步擴展到3950億參數[64]。DALL-E和GitHub Copilot的基礎模型GPT-3包含1750億個參數[25]。ChatGPT是基于GPT-3.5系列的模型進行微調的,其中包含高達1750億個參數[1]。實際上,大規模機器學習模型一直是機器學習進步的基礎,因為已經觀察到,隨著模型越來越大,其性能(例如,準確性)也越來越好。然而,更大的模型需要更多的數據和更長的訓練時間,因此導致非常高的訓練成本。例如,據估計,使用256個NVIDIA A100 GPU訓練一個含1780億參數的GPT-3模型需要168天[163]。據報道,訓練AlphaCode模型需要數百個petaFLOPS天[133]。

本篇論文的目標是開發方法,以降低大規模機器學習算法的運行成本。具體而言,我們借鑒了順序決策制定領域的技術。正如我們稍后將詳細說明的那樣,我們觀察到在多種不同設置下的機器學習模型訓練過程中出現了順序決策制定。通過仔細解決這些順序決策制定問題,我們的方法通過降低計算復雜性來改進訓練程序,從而縮短了訓練時間。

付費5元查看完整內容

相關內容

密歇根大學是美國的一所頂尖公立院校,被譽為中西部的哈佛。密歇根大學的主校區在底特律的衛星城安娜堡,綽號是狼獾。它成立于1817年,被稱為公立大學的典范,是公立常青藤之一。

在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。

第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。

第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。

總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。

付費5元查看完整內容

在過去的十年里,深度學習取得了令人興奮的進展。隨著大型基礎模型的不斷發展和在現實生活中的應用,一個重要的問題是,我們如何使這些昂貴、難以解讀的模型更加高效和可靠。在這篇論文中,我們提出了一系列基于共形預測的基本技術來構建和部署有效的深度學習系統。共形預測是一種模型不可知且無分布的不確定性估計框架。我們開發了理論和實踐,利用不確定性估計來構建適應性模型,這些模型運行成本更低,具有理想的性能保證,且通用性足以在許多現實世界場景中表現良好。在實證研究中,我們主要關注自然語言處理(NLP)應用,同時對計算機視覺、藥物發現和醫學領域的任務進行了大量拓展。

近年來,深度學習方法的穩步進展已導致在自然語言處理(Devlin et al., 2019; Brown et al., 2020; Schulman et al., 2023)、計算機視覺(He et al., 2015; Dosovitskiy et al., 2021)、計算化學(Jumper et al., 2021)以及預測醫學(Yala et al., 2021; Mikhael et al., 2023)等領域廣泛且有時是革命性的突破。這一進展的重要部分可以歸因于規模:在前所未有的數據量上訓練的大型基礎模型改變了許多預測任務的建模和解決方式。同時,隨著這些模型開始滲透到現實生活應用中,新的挑戰開始出現。特別是,最優秀的現代模型的巨大計算占用使得運行成本高昂,甚至這些最好的模型在部署期間也不可避免地會犯下有害的錯誤。 在這篇論文中,我們基于共形預測開發了嚴格的統計工具,以幫助解決這些相互關聯的挑戰的多個方面。共形預測(Vovk et al., 2005)是一個日益受到機器學習社區歡迎的不確定性估計框架,因其有利的模型不可知、無分布、有限樣本保證而受到青睞。我們在共形預測的基礎上提出了幾項基本的理論和實證進步,幫助用戶安全地使用在真實世界中出現的困難但常見情況下部署的模型。同時,我們還展示了如何利用這些不確定性估計技術通過采取相反的方法來做出更高效的預測:對于簡單的輸入,采用不那么保守的方式,并選擇使用更便宜、更簡單的函數來做出預測——但仍確保對模型整體性能的任何降級都嚴格限制在一定范圍內。

在大型神經網絡中的高效計算如變壓器(Transformers,Vaswani et al., 2017b)等大型多層神經網絡已成為解決自然語言處理等任務的事實標準方法。然而,盡管它們表現出色,但它們通常巨大的計算負擔使得運行成本高昂。關于它們效率的擔憂引發了該領域的大量研究(Schwartz et al., 2020a)。使模型更高效通常不是免費的:加速推斷的簡單技術可能會導致對依賴維度的不可預測打擊,如模型準確性,特別是在更難、少數群體子集的最壞情況下。然而,一個關鍵的洞察是,這種退化可以從輸入到輸入變化——并非所有示例都需要相同的計算量(例如,可以使用簡單函數來推斷它們的標簽)。我們開發了允許神經網絡中根據輸入示例的復雜性進行自適應計算的技術,并提供了精確的概率上界,用于可能遭受的誤差增加。

嚴謹的、通用目的的不確定性估計使模型更高效運行使它們能夠在計算限制可能是限制因素的實際場景中更廣泛地部署。然而,隨著模型在現實世界中的更廣泛部署,它們有可能犯下昂貴的錯誤。大多數現代系統輸出單一預測——無論是實值、標簽、自由形式生成的文本、結構化對象還是其他響應變量。然而,對于許多應用程序,用有意義的不確定性估計來豐富這種預測也至關重要(Amodei et al., 2016; Jiang et al., 2012, 2018; Rajpurkar et al.,2018)。在敏感的高風險應用中(如醫學應用),顯示置信度指標(實際反映模型是否可能正確或錯誤)與獲得高準確性一樣重要。不確定性估計也在用戶無法輕易驗證答案本身并必須盲目信任時相關。例如,大多數機器翻譯系統用戶無法知道特定翻譯是否準確。可靠的不確定性估計可以緩解這些錯誤的一些負面后果。一個意識到自己不確定性的模型可以用來(1)告訴用戶它有多確信某個概率,(2)說它確信正確答案是幾個選項之一,或者(3)完全放棄預測,以轉而依賴于不同的模型或人類。在這篇論文中,我們探索了這些方向的幾個,并在共形預測的基礎上建立了用于校準具有可證明性能保證的集合值不確定性估計的額外重要基礎。具體而言,我們提出了對共形預測的擴展,這些擴展可以可證明地控制各種類型的風險,更適合于具有非唯一答案的大標簽空間,適用于具有有限校準數據的少數鏡頭設置進行驗證,以及在具有約束的實際問題中應用時通常更有用。

付費5元查看完整內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。

在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。

在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。

//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092

記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"

"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"

"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。

利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"

導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"

付費5元查看完整內容

機器學習(ML)的訓練將繼續增長,消耗更多的計算周期,其推斷將在更多種類的設備上擴展,而且其功能將在更多的領域中得到應用。未來的一些核心目標是使ML模型高效,從而使其保持實用性并能夠被訓練和部署,并開啟具有新功能的新應用領域。我們描述了一些針對硬件的算法的最新發展,以提高ML模型的效率與質量之間的權衡,并為它們裝備長時間的上下文信息

//searchworks.stanford.edu/view/14784052

在第2章中,我們關注結構化稀疏性,這是一種自然的方法來減輕大型ML模型的計算和內存成本。我們描述了一種關于可學習的快速變換的工作,由于它們的表現能力和效率,產生了一些首批稀疏訓練方法,可以在實際計時(2×)中加速大型模型而不影響其質量。

在第3章中,我們關注長序列的高效Transformer訓練和推斷。我們描述了FlashAttention,一種快速且內存高效的算法,用于計算注意力而無需近似。通過在不同層次的內存結構之間仔細地讀/寫計算,FlashAttention比現有最好的注意力實現快2-4倍,使用的內存少10-20倍,使我們能夠訓練具有8倍更長上下文的更高質量的Transformers。FlashAttention現在廣泛用于一些最大的研究實驗室和公司。

在第4章中,我們研究了狀態空間模型,這是一種為長期記憶設計的有前途的架構。當我們試圖理解為什么早期的狀態空間模型在語言建模任務上表現不佳時,我們提出了簡單的乘法交互來擴展它們的表現能力。我們還設計了對硬件友好的算法來訓練它們。結果,我們能夠訓練達到千億參數規模的狀態空間模型,展示了一種與語言建模中占主導地位的Transformers競爭的新型模型。我們總結了ML和系統中的一些令人興奮的方向,如軟硬件協同設計、用于科學AI的結構化稀疏性以及用于新AI工作流程和模態的長上下文。

付費5元查看完整內容

我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。

研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。

從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。

在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。

我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。

在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。

DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。

付費5元查看完整內容

機器學習(ML)的最新進展改變了世界。過去是人類主宰規則,現在是機器儲存數據并做出決定。雖然這一變化帶來了真正的好處,但它已經實現了大量基于人類的交互自動化,使其易于操作。研究已經確定,機器學習模型非常容易受到對抗性擾動,特別是對其輸入的更改,這些更改對人類來說是無法察覺的,但會迫使它們以意想不到的方式作業。在本文中,我們采取了一種相當非正統的方法來研究機器學習安全,并通過計算機安全的角度來研究機器學習的現狀。我們發現了大量潛伏在系統安全和機器學習交叉領域的新攻擊和問題。接下來,我們描述了文獻的現狀,強調了我們仍然缺少重要知識的地方,并描述了該領域的幾個新的貢獻。該領域的一些特征使當前的安全方法變得不太適用,使現代機器學習系統容易受到各種各樣的攻擊。我們的主要貢獻是對機器學習的可用性攻擊——針對推理或模型訓練延遲的攻擊。我們還解釋了攻擊者如何利用與模型環境的許多其他交集。一個重要的見解是,必須理解、承認機器學習模型的固有局限性,并通過在更大系統中使用組件來補償控制進行緩解。

機器學習(ML)徹底改變了現代計算機系統,因此,更多的任務現在是完全自動化和模型驅動的。盡管深度神經網絡的性能令人印象深刻,但人們很快發現,底層模型是極其敏感的,攻擊者可以找到微小的,有時甚至無法察覺的擾動,以控制底層模型的行為。圖1 - 1展示了這種對抗性示例的一個例子——一個輸入樣本,旨在迫使模型將鳥瞰圖視為一輛汽車。(每個像素顏色的微小擾動被放大,使它們在這些圖像中可見。)這一發現導致了對抗性機器學習領域的誕生,在那里我們研究如何攻擊和防御ML模型。起初,這主要是由對基礎數學的研究和構建不太敏感的函數(如對抗性訓練)驅動的。然而,令人驚訝的是,這對嵌入模型的大型系統的安全性影響甚微,因為相同的模型仍然容易受到其他攻擊者的攻擊,也容易受到減少效用的影響。在實踐中,使用不那么敏感的近似函數并不一定會提高或降低安全性。攻擊者很少受到擾動大小的限制,并且可能更喜歡獲得模型的控制權,而不是根據某些學術指標保持攻擊不可察覺。

//www.repository.cam.ac.uk/handle/1810/338197

這種認識導致了一個新領域的創建——機器學習的安全性——在這里,我們不是孤立地觀察ML,而是在其環境、依賴項和需求的上下文中分析它。我們在博士期間一直在做的工作對這一文獻做出了早期貢獻,特別是開創了三種新的攻擊和防御類型。

付費5元查看完整內容

機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作

付費5元查看完整內容

在過去的十年里,深度學習取得了巨大的成功,但在權值更新和訓練樣本數量方面,實際有用的深度模型的訓練仍然非常低效。為了解決這些問題的一個方面,本文研究了持續學習設置,該模型利用一系列的任務,利用之前的知識來快速學習新任務。持續學習的主要挑戰是,在為新任務更新模型時,避免模型災難性地忘記之前的信息。

//ora.ox.ac.uk/objects/uuid:7a3e5c33-864f-4cfe-8b80-e85cbf651946

為此,本文首先提出了一種持續學習算法,通過正則化兩個連續任務的條件似然之間的kl -散度來保留之前的知識。結果表明,這種正則化對網絡權值施加了二次懲罰,該懲罰基于上一個任務的最小曲率。其次,本文提出了一種更有效的持續學習算法,利用對過去任務的情景記憶作為約束,這樣當對新任務進行權重更新時,情景記憶的損失不會增加。結果表明,使用情景記憶約束目標比正則化網絡參數更有效。此外,為了提高學習新任務的速度,提出了使用組合任務描述符的聯合嵌入模型,大大提高了正向遷移。基于情景記憶的持續學習目標通過直接在損失函數中使用記憶來簡化。盡管它傾向于記憶出現在微小情景記憶中的數據,結果算法顯示出比使用記憶作為約束的算法更好的泛化。分析認為,這種驚人的概化是由于新任務數據帶來的正則化效應。然后利用該算法對合成數據和真實數據進行持續學習。為此,提出了一種方法,通過優化重放緩沖區上的事后遺忘損失,為每個任務生成合成數據點。設計了一個嵌套的持續學習優化目標,有效地利用這些綜合點來減少基于記憶的持續學習方法的遺忘。最后,本文提出了一種持續學習算法,在不重疊的特征子空間中學習不同的任務。通過保持不同任務的子空間相互正交來最小化重疊,可以減少這些任務表示之間的干擾。

付費5元查看完整內容

機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。

//searchworks.stanford.edu/view/13874839

付費5元查看完整內容
北京阿比特科技有限公司