亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于圖的機器學習是一種新興的數據分析方法,適用于可以通過實體之間的成對關系很好地建模的數據。這包括社交網絡、道路網絡、蛋白質-蛋白質相互作用網絡和分子等示例。盡管大量研究致力于設計新型機器學習模型,但對我們現有工具的理論屬性的關注較少。在這篇論文中,我們專注于基于圖的機器學習模型的魯棒性屬性,特別是譜圖濾波器和圖神經網絡。魯棒性是處理噪聲數據、保護系統免受安全漏洞的侵害以及在某些情況下,對可遷移性等方面至關重要的屬性。我們特別關注與基礎圖的拓撲結構相關的魯棒性這一具有挑戰性和組合性的問題。論文的第一部分提出了穩定性界限,以幫助理解基于圖的模型對哪些拓撲變化具有魯棒性。除了理論成果,我們還進行實驗來驗證這一理論提供的直覺。在第二部分中,我們提出了一種靈活且查詢高效的方法,用于對圖分類器進行黑盒對抗性攻擊。對抗性攻擊可以被視為對模型不穩定性的搜索,并為輸入與決策邊界之間提供了一個上限。在論文的第三部分和最后部分,我們提出了一種新的圖分類器魯棒性證書。使用一種可以在不同干擾級別對圖的各個部分進行驗證的技術,我們提供了對給定模型具有魯棒性的干擾的精細理解。我們相信這篇論文中的發現提供了新的見解,并激勵了進一步研究基于圖的機器學習模型的穩定性和不穩定性。

圖是一種通用的數據結構,它使用邊來模擬實體之間的二元互動,這些實體在圖中被建模為節點(也稱為頂點)。現實世界中的許多類型的數據存在于圖域上,或可以被建模為存在于圖域上,例如在傳感器、生物和社會網絡中收集的數據。在過去的十年中,信號處理和機器學習社區開發了大量工具來分析和學習存在于圖結構域上的數據。圖信號處理(GSP)社區將圖視為信號生存的不規則域,并通過概括和適應信號處理思想來分析這些數據,以開發工具如譜圖濾波器和譜圖神經網絡[36, 111, 101, 50, 121, 43, 100]。另一方面,深度學習社區通過設計基于消息傳遞的神經網絡來處理圖上的學習,這些神經網絡適用于圖域,特別是考慮到所需的不變性和等變性屬性[18, 57, 7, 62, 19]。

盡管不斷增加的建模方法和旨在處理圖結構數據的架構,但對它們的屬性和特性的關注較少。很少有論文致力于這些模型的理論分析。即使從實證角度來看,大多數模型也僅僅是基于它們的預測準確性進行評估。 在這篇論文中,我們專注于基于圖的機器學習模型的魯棒性屬性,包括來自圖信號處理社區的主要工具——譜圖濾波器,以及圖機器學習社區中最常用的工具——圖神經網絡。

魯棒性可以有多種含義,因此我們首先提供本論文中采用的高層定義。具體來說,我們旨在理解輸入圖在推理時的小干擾效應。如果這些干擾不會在模型的輸出中造成大的變化,我們稱模型對這些干擾具有魯棒性。我們將考慮并討論采用不同魯棒性定義的其他工作,并在上下文中概述它們的含義。更廣泛地說,魯棒性覆蓋我們的定義和其他上下文意味著機器學習流程中的小變化會在機器學習流程的其他部分引起小變化。 關于基礎圖的魯棒性研究有許多動機。我們提供了一個非詳盡的列表,為每個實例提供一個實際的現實世界例子:

從噪聲數據推斷的圖。大腦活動可以通過功能性腦網絡來建模,其中節點代表感興趣的腦區,邊緣是根據功能性磁共振成像(fMRI)生成的時間序列數據推斷出來的。在這種情況下,我們期望時間序列數據包含隨機不確定性,這反過來會導致推斷出的圖噪聲大且可能不可靠。因為這種拓撲噪聲是由原始數據中不希望的噪聲引起的,因此希望圖的噪聲具有魯棒性是可取的。

對抗魯棒性。基于圖的模型可能部署在存在不良行為者的環境中。例如,可以將在線社交網絡建模為一個圖,而不良行為者在這個領域的存在是公認的。不良行為者可能試圖通過故意制造干擾來操縱模型,例如通過向其他賬戶發送連接請求來添加邊,或通過創建假冒檔案來添加節點。在這里,我們希望我們的模型即使在最壞的情況下(即不良行為者濫用模型時)也能表現良好。

可遷移性。考慮使用3D掃描儀數字化的物理對象,形成點云。這個點云可以使用三角化算法轉換成圖,生成網格圖。在這種情況下,圖方便地表示幾何對象。然而,由于環境中的輕微變化,如照明或相機或對象的精確位置,對同一對象的兩次掃描可以給出不同的網格圖。在這些情況下,底層實體的圖表示不是唯一的。然而,希望模型能為代表同一底層實體的圖產生相同或相似的表示。這個屬性更廣泛地被稱為可遷移性。魯棒性對于可遷移性是必需的,因為模型未能適應輸入中的即使是小變化,我們也不能期望它適應大變化。

進化圖。時態圖是拓撲結構隨時間逐漸變化的圖。例如,可以通過底層資產價格的相關性來建模金融網絡。因為資產的相關性可能在很長一段時間內變得更加相關或不相關,圖的拓撲結構會隨時間演變。在這種情況下,通常希望模型給出的表示也能隨時間逐漸變化。

部分可觀測性。有時我們擁有的圖數據只部分代表圖中節點之間的底層關系。例如,一個在線社交網絡為我們提供了現實世界友誼的近似。這是一個近似,因為現實生活中不是朋友的人可能會在社交網絡上連接,而現實生活中的朋友可能還沒有在在線平臺上連接。在許多情況下,我們希望學到的表示能捕捉到人們的現實世界友誼,盡管只有通過在線友誼圖的部分知識。 盡管有許多動機研究基礎拓撲變化的魯棒性,但很少有研究致力于理解基于圖的機器學習和圖信號處理模型的這些魯棒性屬性。在這篇論文中,我們提出了五個技術章節,解決了這種理解的局限性。我們將考慮通過各種視角對許多常用模型的拓撲擾動的魯棒性。我們將解決尚未探索但重要的挑戰,即將拓撲屬性與穩定性聯系起來,即圖的特定特征的變化如何影響魯棒性。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

近期在深度學習模型方面的進步在各種計算機視覺任務中展示了令人印象深刻的能力,這鼓勵了將這些模型整合到真實世界的視覺系統中,例如智能設備。這種整合帶來了新的挑戰,因為模型需要滿足復雜的真實世界要求。本論文致力于構建實用的深度學習模型,我們關注視覺系統中的兩個主要挑戰:數據效率和變異性。我們通過提供一個通用的模型適應框架來解決這些問題,該框架擴展了模型的實用功能。

在論文的第一部分,我們探索了用于高效表示的模型適應方法。我們闡述了不同類型的高效數據表示的好處,包括來自視頻編解碼器的壓縮視頻模態、低比特特征以及稀疏化的幀和文本。通過使用這種高效的表示,系統復雜性如數據存儲、處理和計算可以大大減少。我們系統地研究了提取、學習和利用這些表示的各種方法,提出了新方法來使機器學習模型適應它們。提出的方法包括一個具有粗到細蒸餾訓練策略的壓縮域視頻識別模型、一個針對低比特視頻和語言理解的任務特定特征壓縮框架,以及一個可學習的令牌稀疏化方法,用于稀疏化人類可解釋的視頻輸入。我們展示了在各種應用中以更實用和高效的方式表示視覺數據的新視角。 論文的第二部分關注開放環境挑戰,我們探索了模型適應新的、未見過的類別和領域。我們考察了當前識別模型中的實際限制,并引入了各種方法來增強模型在處理開放識別場景中的能力。這包括一個用于管理新類別和異常值的負面設想框架,以及一個用于處理未見領域數據的多域轉換方法。我們的研究顯示了一條朝向模型在真實世界應用中通過多樣化數據環境導航的有希望的軌跡。

//academiccommons.columbia.edu/doi/10.7916/hz0n-pa15

付費5元查看完整內容

在近年來,模仿學習(IL)領域取得了顯著進展,研究人員已將這種機器學習技術應用于機器人學、自動駕駛汽車、醫療保健和游戲玩法等多個領域。每個領域都通過開發和應用新方法解決特定于其領域的獨特問題,為該領域的進步做出了貢獻。在本論文中,我們重點關注在兩個具有獨特挑戰的領域中的IL應用。 第一個應用涉及學習模仿混合整數線性規劃(MILP)求解器的高精度啟發式算法,盡管準確,但由于計算效率低下而不實用。第二個應用涉及開發一個IL框架,通過使用新開發的主動接觸追蹤(PCT)框架,通過智能手機應用準確預測個體的傳染性,克服了傳統接觸追蹤方法的限制。

我們基于可管理環境(例如,模擬器)的動態設計IL框架,目的是將學習的模型轉移到更大的未見環境。這些框架的開發需要考慮和解決幾個挑戰。這些挑戰包括納入領域特定的歸納偏見,確保模型對分布偏移的魯棒性,以及設計適合部署的輕量級模型。通過解決這些挑戰,我們希望不僅為IL的進步做出貢獻,還為應用它的領域帶來新的和改進的解決方案。

為了模仿混合整數線性規劃(MILP)求解器的專家啟發式,我們識別并解決了現有模仿學習(IL)框架的兩個主要缺點。首先,我們提出的圖神經網絡(GNNs)在計算上開銷巨大但非常精確,而它們的運行性能在缺少GPU的情況下會降低。這種情況可能出現,因為MILP求解器只能在CPU上運行。為了解決這個問題,我們提出了新的架構,這些架構在GNNs的表現力和多線性感知器的低成本計算之間進行了權衡,同時提出了訓練協議,使模型能夠抵抗分布的變化。使用這些技術訓練的模型實現了高達26%的運行時間改進。第二個問題是無法捕捉觀測之間的依賴性以訓練GNNs。我們的研究揭示了專家啟發式中經常出現的“回顧”現象,即在子節點處的最佳決策往往是父節點的次佳決策。為了將這一現象納入損失函數中,我們提出了一種新的損失函數,更準確地模仿了這種啟發式,使模型的運行時間提高了高達15%。

最終,在 COVID-19 大流行期間,世界各國面臨一個難題,即是要開放經濟還是優先保護生命。作為回應,數字接觸追蹤應用程序應運而生。然而,為了避免侵犯用戶隱私,大多數應用依賴于一個具有有限智能的隔離與否界面,無法精確了解通知接收者的風險級別。這種方法導致了警報疲勞,使用戶更不可能遵循推薦。為了解決這些問題,同時保持用戶隱私和復雜的風險評估模型,我們提出了主動接觸追蹤(PCT)框架。我們的框架重新利用用戶通信來傳遞關于估計風險的信息,即“風險消息”。這些消息,連同個人信息(例如,醫療歷史或癥狀),用于風險估計模型,以輸出發送給其他用戶的風險消息。根據估計的風險,向用戶顯示分級通知(例如,小心行事或避免不必要的行為)。使用基于代理的模型(ABM)和一個簡單的可解釋的基于規則的模型,我們證明了基于規則的 PCT 在經濟-公共健康權衡方面優于現有應用。

在后續工作中,我們轉向深度學習來設計風險估計模型。雖然強化學習本來是理想的選擇,但計算成本高昂的ABM(代理基模型)排除了其使用。因此,我們采用了模仿學習框架來訓練深度學習模型,具體來說,我們提出了幾種集合變換器的變體。我們還使用了領域隨機化,通過使用ABM的幾種隨機實例收集觀測數據,以確保模型對嵌入ABM中的假設保持魯棒性。此外,我們使用迭代訓練以確保模型對自我引起的分布轉移保持魯棒性。總體來說,我們展示了基于深度學習的PCT(預測性控制技術)優于基于規則的PCT。為了完成我們的提議,我們建議一個迭代過程,用于應用部署和ABM校準,以彌合從ABM到實際部署的差距。

付費5元查看完整內容

盡管形式各異的視覺數據(如圖片和視頻)的呈指數級增長,為我們解釋周圍環境提供了前所未有的機會,自然語言依然是我們傳遞知識和信息的主要方式。因此,目前迫切需要構建一個框架來實現不同模態信息之間的交互。在這篇論文中,我研究了實現多模態信息有效交互的三個方向第一個方向關注于構建具有相似語義意義信息的一致性表示。更具體地說,在高維語義空間中,相似信息的表示應該在適當的范圍內彼此接近,不論它們的模態如何。第二個方向是實現圖像視覺屬性與相應語義詞之間的有效關聯,這首先要求網絡能夠識別圖像和文本中的不同語義信息,然后允許它們進行交互。第三個方向是構建一個輕量級架構的模型,用于處理來自多個域的輸入。這是因為當網絡涉及多模態信息時,可能需要大量增加可訓練參數的數量,其目的是允許網絡全面學習捕捉具有域間差異的信息之間的相關性。需要大量計算資源的要求可能會極大地阻礙框架的部署,這對于現實世界應用中的實現來說是不切實際的。這些方向的貢獻如下。

首先,為了有一個一致的表示,生成網絡采用了對比學習和聚類學習,其中對比學習可以最大化由給定數據集提供的成對實例之間的互信息,而聚類學習可以將具有相似語義意義的實例分組到同一個簇中,并將不同的實例推得彼此遠離。通過這樣做,可以構建一個結構化的聯合語義空間,在這個空間內,具有相似語義意義的實例可以在適當的范圍內緊密地聚集在一起,以確保不論其模態如何,都能有一個一致的表示。

其次,為了實現多模態信息之間的有效關聯,提出了三種不同的方法,有效地將圖像視覺屬性與相應的語義文本描述相關聯,使網絡學習理解文本和圖像信息的語義意義,然后實現有效的交互。更特別的是,為了探索相關性,我首先研究了基于單詞級別注意力的連接,并輔以補充的單詞級別鑒別器,其中注意力允許網絡學習識別與相應語義詞對齊的特定圖像視覺屬性,而補充的單詞級別鑒別器提供細粒度的訓練反饋,以允許網絡正確捕捉這種關聯。然后,介紹了文本-圖像仿射組合,采用仿射變換將文本和圖像特征結合在生成過程中,使網絡具有區域選擇效應,有選擇地將文本所需的圖像屬性融合到生成流程中,并保留與文本無關的內容。此外,提出了一種半參數的記憶驅動方法,它結合了參數技術和非參數技術的優點。非參數組成部分是一個存儲庫,由訓練數據集構建而成的預處理信息庫,而參數組成部分是一個神經網絡。通過這樣做,參數方法可以實現高度表達模型的端到端訓練的好處,非參數技術允許網絡在推理時充分利用大型數據集。

第三,提出了兩種解決方案來減輕由于不同模態輸入而需要的網絡計算資源成本,允許網絡在各個領域中輕松實施。更具體地說,我們改進了條件GAN中生成器和鑒別器的能力,以避免盲目增加網絡的可訓練參數數量,并構建了一個單向鑒別器,將兩個訓練目標(即獲得更好的圖像質量和文本-圖像語義對齊)結合到一個方向(即提高融合特征的質量)中,以減少條件GAN中的冗余。這項工作為構建一個輕量級框架鋪平了道路,該框架旨在實現多模態信息之間的有效交互,并且也可以輕松部署在各種真實世界的應用中。

引言

視覺感知是人類解釋周圍環境的最重要能力之一。每天,人類消耗的視覺信息量令人難以置信,他們觀看視頻、拍照、欣賞繪畫以及在社交媒體上分享。例如,YouTube每天幾乎有50億視頻被觀看;僅Instagram每天就有超過9500萬照片被上傳。如此大量的視覺數據的可用性為研究人員提供了前所未有的機會來構建各種視覺解釋和合成方法,如(1)物體/場景分類(He等,2016年;Simonyan和Zisserman,2014年;Szegedy等,2015年,2016年;Zhou等,2014年b),(2)物體檢測(Girshick等,2014年;Long等,2015年;Ren等,2015年;Ronneberger等,2015年;Howard等,2017年;Redmon等,2016年),(3)圖像描述(Donahue等,2015年;Xu等,2015年),(4)視覺問題回答(Andreas等,2016年;Johnson等,2017年;Lu等,2016年;Nam等,2017年;Antol等,2015年;Anderson等,2018年;Yang等,2016年),(5)文本到圖像生成(Reed等,2016年b;Xu等,2018年;Zhang等,2017年a,2018年a),(6)圖像到圖像翻譯(Isola等,2017年;Park等,2019年;Wang等,2018年;Zhu等,2017年),(7)文本引導的圖像操作(Dong等,2017年;Li等,2020年a,c;Nam等,2018年),(8)故事可視化(Li等,2019年c;Song等,2020年;Maharana等,2021年;Maharana和Bansal,2021年)等等。這些方法旨在實現多模態表征之間的跨域轉換,例如,將非視覺數據(如自然語言描述或場景圖)轉換成視覺信息(如視頻或圖像),反之亦然,并旨在實現它們之間的有效交互。 在這篇論文中,我專注于探索實現多模態信息(例如,語言和視覺信息)之間有效交互的原則,包括(1)如何在一個聯合語義空間中為這些信息構建一致的表示,(2)如何有效地連接并融合來自不同模態的特征,以及(3)如何減輕計算需求以實現有效的交互。我的研究可以在許多領域啟用無數潛在的應用,包括設計、視頻游戲、藝術、建筑和醫學診斷等等。

為了實現多模態信息之間的有效交互,首先,重要的是對具有相似語義含義的信息有一個一致的表征。這是因為來自不同領域的信息可能有它們自己的表征形式,因此,在一個高維語義空間中,這些特征的位置可能會彼此相距甚遠,即使它們表達的是相似的語義含義。即使是來自同一領域的信息也會發生這種情況(Mikolov等人,2013年),例如,對于意思相同但使用同義詞的兩個句子,比如“貓”和“小貓”,它們在語義空間中的表征可能不會完全相同。當特征的維度增加時,這種情況可能會變得更糟,這是由維度的詛咒(Bellman,1966年)引起的:隨著特征或維度的數量增長,我們需要準確概括的數據量呈指數增長。所以,一個問題出現了:如何為具有相似語義含義的同一領域或不同領域的信息構建一致的表征?這一點很重要,因為具有一致的表征意味著具有相似語義含義的信息可以在高維語義空間中有固定且接近的位置,因此即使來自不同模態的信息也可以在空間中的適當范圍內容易地從一個轉換到另一個,這與本論文實現多模態信息之間有效交互的目標是一致的。

為了考慮實例之間的相似性,我們首先從對比學習中尋求幫助,對比學習是自監督表征學習的一個強大方案(Oord等人,2018年;He等人,2020年;Chen等人,2020年;Zhang等人,2021年),它可以通過對比正樣本對和負樣本對來強化不同增強下的表征一致性。然而,對比學習并沒有考慮樣本的語義信息和語義相似性,它簡單地將兩個樣本視為正樣本對,只要它們位于將通過網絡傳播的訓練樣例的相同位置(即在同一個批次中),并且當它們在不同的批次中時視為負樣本對,而不考慮它們的語義信息。通過這種做法,學到的表征可能會受到相當大的影響。例如,簡單采用對比學習可能會將具有相似語義含義但在不同批次中的實例推得相距甚遠,從而可能破壞它們之間的語義一致性。

為了考慮樣本之間的相似性,聚類算法(Alwassel等人,2020年;Asano等人,2020年;Caron等人,2020年;Li等人,2020年d)可以補救上述問題,聚類算法將相似的實例(即具有相似語義含義的實例)分組到同一個簇中,并將不同的實例推到不同的簇中。因此,對比學習和聚類學習互為補充,采用對比學習可以讓我們更好地探索跨模態的互信息,并且使用聚類學習將具有相似語義含義的信息分組到同一個簇中,從而實現一致的表征。更多細節將在第三章中呈現。

在為具有相似語義含義的同一或不同模態信息建立了一致的表征之后,另一個問題出現了:如何實現這些信息之間的有效交互?更具體地說,如何有效地構建圖像中的視覺特征與句子中相應的語義詞之間的連接?這是因為機器需要理解給定文本描述的語義含義,并且識別特定的圖像區域,然后它才能生成具有文本要求的對象和屬性的圖像,或者修改特定的圖像區域以匹配給定的文本描述。

為了實現不同模態信息之間的有效交互,提出了三種方法:(1)基于詞級注意的連接,輔以補充的詞級鑒別器提供細粒度的訓練反饋,(2)文本-圖像仿射組合模塊,以及(3)基于記憶的方法。這些方法使網絡能夠有效地將圖像區域的視覺屬性與相應的語義詞聯系起來。更多細節將在第四章中呈現。

在有了一個框架以實現多模態信息之間的有效交互之后,又出現了一個問題:這個框架能否在大多數設備中輕松部署?更具體地說,有可能開發一個不依賴昂貴計算資源的框架嗎?這主要是因為,當一個網絡涉及到不同模態的信息時,可能需要大量增加可訓練參數的數量,這旨在讓網絡能夠全面學習捕捉多模態信息之間的相關性,并彌合領域差距。需要大量計算資源的要求可能會大大阻礙這個框架的部署,這對于實際應用中的實現來說是不切實際的。為了解決這些問題,我們提出提高基于GAN網絡的生成器和鑒別器的能力,并重新思考條件GAN中鑒別器的架構,而不是盲目地通過增加大量的可訓練參數來增加網絡的特征維度。更多細節將在第五章中呈現。

付費5元查看完整內容

機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。

然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。

作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。

付費5元查看完整內容

處理具有空間結構、時間依賴性或離散值的復雜數據類型通常是統計學和機器學習領域的一大挑戰。近年來,分析非標準數據類型的方法論和理論工作的需求日益增加,例如,分析收集到的蛋白質結構、基因相互作用、社交網絡或物理傳感器的數據。在這篇論文中,我將提出一種方法,并為分析兩種源于交互現象的離散數據提供理論保證,即時間點過程和圖。一方面,時間點過程是用于模擬事件數據的隨機過程,即作為時間或空間中的離散點出現的數據,在這些點上發生了某種現象。這些離散過程的一些最成功的應用包括在線消息、金融交易、地震和神經元峰值。這些過程之所以流行,主要是因為它們能夠模擬在時間上和空間上相距較遠的事件之間未觀察到的相互作用和依賴關系。然而,點過程的統計方法通常依賴于估計一個潛在的、未被觀察到的、隨機的強度過程。在這種情況下,設計靈活的模型和一致的估計方法通常是一項具有挑戰性的任務。

另一方面,圖是由節點(或代理)和邊(或鏈接)組成的結構,其中邊表示兩個節點之間的交互或關系。圖無處不在,用于模擬現實世界中的社交、交通和流動網絡,其中邊可以對應虛擬交換、地點之間的物理連接或地理區域間的遷移。此外,圖還用于表示時間序列之間的相關性和領先-滯后關系,以及隨機對象之間的局部依賴性。圖是典型的非歐幾里得數據的示例,需要制定適當的距離度量、相似性函數和生成模型。在深度學習社區中,圖在幾何深度學習領域變得特別受歡迎。結構和依賴性都可以通過時間點過程和圖來建模,盡管前者主要作用于時間域,而后者概念化空間交互。然而,一些統計模型結合了圖和點過程,以考慮空間和時間依賴性。例如,時間點過程已被用于模擬時間圖中邊和節點的生成時間。此外,一些多元點過程模型具有一個潛在的圖參數,用于控制過程組件之間的成對因果關系。在這篇論文中,我將特別研究這樣一個模型,稱為Hawkes模型,以及隨時間演變的圖。本論文旨在設計能夠在時間點過程和圖的背景下提供靈活性的推斷方法。這篇手稿以綜合形式呈現,包括四個主要章節和兩個附錄。第2章和第3章致力于研究廣義Hawkes點過程模型中的貝葉斯非參數推斷方法。第2章為現有方法提供理論保證,而第3章還提出、分析和評估了一種新的變分貝葉斯方法。其他主要章節介紹并研究了圖上的兩個估計問題的無模型推斷方法,即第4章的符號圖聚類問題的譜方法,以及第5章的時間圖上的網絡變化點檢測任務的深度學習算法。此外,第1章提供了關于點過程和圖的介紹和背景知識。第6章以對本手稿中的工作進行總結和批判性思考,并提出未來研究的建議來結束這篇論文。最后,附錄包含兩篇補充論文。第一篇位于附錄A,是在2020年3月COVID-19爆發后開始的,是將離散時間的Hawkes模型應用于大流行期間第一波的與COVID-19相關的死亡統計。第二篇工作位于附錄B,是在2021年于Amazon Research實習期間進行的,提出了一種用于多變量時間序列的異常檢測模型的可解釋性方法。

付費5元查看完整內容

在過去的十年中,機器學習在許多具有挑戰性的基準上取得了驚人的成功。然而,我們的機器學習模型是否準備好離開這個實驗室環境,并安全地部署在高風險的現實世界應用程序中?本文通過開發和應用新的框架,使現代機器學習系統更魯棒,從而采取措施使這一愿景成為現實。特別是,我們在這類系統的兩種主要脆弱性模式:對抗性示例和后門數據中毒攻擊方面取得了進展。具體來說,在本文的第一部分中,構建了一種對抗樣本的防御方法,這是第一個在自適應對手面前提供非平凡的對抗魯棒性的方法。在第二部分中,開發了一個后門數據投毒攻擊框架,并展示了在自然假設下,我們的理論結果如何激勵算法標記和刪除經驗上成功的潛在投毒示例。最后,簡要探索了初步證據,表明該框架也可以應用于其他數據模態,如表格數據,以及其他機器學習模型,如決策樹的集成。近年來,機器學習,特別是深度學習,在具有挑戰性的人工智能基準上取得了巨大的進步,從計算機視覺[KSH12]到玩游戲[SHS+18],從自然語言處理[BMR+20]到機器人[ABC+20],再到自動駕駛汽車,都取得了令人印象深刻的結果。這些成功給我們帶來了希望,在未來,普適的ML系統將乏味的體力和腦力任務自動化,甚至增強和改善我們的健康、智能和社會。然而,這些令人印象深刻的研究成果和演示是否準備在一個混亂、異構、有時是對抗的世界中轉化為同樣令人印象深刻和有影響力的應用?雖然我們最先進的機器學習模型普遍在各個領域和模態中取得了偉大的結果,但它們在訓練數據中同樣普遍地易受變化的影響——無論是良性的還是對抗的。這篇論文是關于開發原則性的方法來防御特定類型的這種脆弱性。在以下部分中,我們給出了論文的路線圖和我們的主要貢獻。

付費5元查看完整內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

深度學習在經驗上非常有影響力,但在理論理解上滯后。神經網絡在結構和訓練算法上都比傳統的機器學習模型復雜得多,所以傳統的理論直覺可能不適用。本文旨在從理論上更好地理解深度學習中的泛化問題。在論文的第一部分,我們研究了所有數據都有標簽的監督設置下的泛化。我們的主要工具是泛化界:通過推導和研究泛化界,我們可以深入了解深度學習中影響泛化的各種因素。

首先,我們比較了正則化神經網絡和神經正切核(NTK)的統計特性。通過建立神經網絡常見的正則化訓練損失與基于輸出邊際的泛化界之間的聯系,我們證明了正則化神經網絡比NTK解具有更好的泛化效果。其次,我們基于邊緣的新概念——全層邊緣,推導出神經網絡的新泛化邊界。與傳統的基于規范的泛化測度相比,這些邊界更依賴于數據,更具有深度,并突出了數據依賴的Lipschitzness在泛化中的重要作用。我們以經驗證明,這些邊界對于激勵新的訓練目標和理解和解密現有的正則化策略是有用的。

在論文的第二部分,我們把我們的焦點轉向涉及未標記數據的設置。在這些情況下,很難證明為什么許多算法可以工作,盡管它們有廣泛的經驗成功。

首先,我們研究了視覺設置,并提出了一個理論框架來理解最近的半監督學習和領域適應的自訓練算法。通過利用自然圖像的現實結構屬性,我們表明,在未標記數據上的自訓練導致可證明的準確性增益。此外,我們的理論框架和相關假設可以用來表明,自監督對比學習在線性探針評價下獲得了可證明的良好特征。最后,我們研究了為什么預訓練語言模型可以幫助處理NLP設置中的下游任務。我們通過潛在的潛在變量生成模型來考慮預訓練和下游任務相關的設置。我們表明,當這個生成模型是HMM或記憶增強HMM時,預訓練允許解決下游任務的可證明保證。

//searchworks.stanford.edu/view/14230987

付費5元查看完整內容

隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。

本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據

付費5元查看完整內容
北京阿比特科技有限公司