亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于越來越多的高維數據的可用性,最近在機器學習(ML)方面的發展已經重新定義了許多領域的決策制定。然而,由于缺乏高質量數據所導致的ML在決策制定中的不可靠性的斗爭尚未結束,并且在幾乎每一個應用中都是一個重要的障礙。這引起了一些問題,如 (i) 為什么ML方法在新環境中無法復制決策行為? (ii) 為什么ML為現有的專家決策提供不合理的解釋? (iii) 在嘈雜和高維的環境下,我們應該如何做出決策?許多這些問題可以歸因于缺乏一個有效且樣本高效的機器學習方法的基礎模型。本論文介紹了我們的研究努力,致力于在逆向強化學習和強化學習的領域開發模型正則化的ML來解決上述問題,應用于客戶/公司行為分析和投資組合優化。具體來說,通過應用來自合適模型的正則化,我們提出了針對兩個不同目標的方法:(i) 更好地理解和復制人類專家和企業的現有決策;(ii) 在可能沒有足夠的大量高質量數據的情況下,進行更好的順序決策,同時克服這一需求。

機器學習(ML)在許多領域重新定義了決策制定。尖端的ML方法被開發和應用于 (i) 理解現有的決策行為(在逆向強化學習或模仿學習領域)和 (ii) 進行更好的決策制定(在強化學習領域)。例如:? 在醫療領域,ML用于解釋醫生的診斷,甚至提供治療建議 [Komura 和 Ishikawa, 2019, Kononenko, 2001, Sajda, 2006]。 ? 在自主控制中,以ML為驅動的機器人和汽車可以從人類行為中學習 [Codevilla 等人, 2018, Hussein 等人, 2017],并處理各種任務 [Kober 等人, 2013, Shalev-Shwartz 等人, 2016]。 ? 在自然語言處理中,由ML方法訓練的聊天機器人可以與人交談,并回答人們的各種問題 [Cha, Gao 等人, 2022]。 ? 在金融領域,ML被用于理解金融市場和開發更好的交易策略 [Dixon 等人, 2020, Hambly 等人, 2021]。

ML成功的一個關鍵因素是大量的高質量決策數據 [Deng 等人, 2009, Fu 等人, 2020, Yu 等人, 2019b]。有了這些數據,ML模型可以擁有數百萬的參數,處理異質任務,并提供通用的靈活解決方案。然而,ML如何處理沒有足夠高質量數據的問題呢?在這類問題中,收集到的數據可能因為太少的種類而無法學到通用的結果 [Abbring, 2010, Fu 等人, 2017];由于數據收集成本高,數據量可能有限 [Berry 等人, 1996, Newman, 2002, Rust, 1987];數據可能天生就帶有噪音 [Goyal 和 Santa-Clara, 2003]。所有這些問題都迫切需要新的方法來減少ML對數據的高需求。

為了應對高質量數據的缺乏,我們的策略是利用經濟學和金融學中的決策模型。在本論文中,我們重點研究的兩個典型決策模型是動態離散選擇模型 [Aguirregabiria 和 Mira, 2010] 和連續時間金融模型 [Merton, 1969]。這些模型在解釋現有的決策制定和提供決策策略方面都有著悠久的成功歷史。我們的目標是使用這些模型來規范ML方法,使其能夠應對高質量決策數據的缺乏。

? 從方法論上講,我們從經濟和金融模型中導出規范化,并將此類規范化應用于ML方法。我們提出了新的逆向強化學習方法和強化學習方法。

? 從理論上講,我們通過漸進和有限樣本分析來分析所提議的模型規范化方法的性能和優勢。

? 從實證上講,通過使用合成和真實世界的實驗,展示了性能的改進,應用于客戶行為分析、公司行為分析和投資組合優化。

付費5元查看完整內容

相關內容

,又譯 普林斯敦大學,常被直接稱為 普林斯頓,是美國一所私立研究型大學,現為八所常青藤學校之一,綽號為老虎。

近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。

在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。

在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。

//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092

記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"

"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"

"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。

利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"

導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

在海量數據的時代,高效的機器學習算法變得至關重要。然而,許多常見的機器學習算法依賴于在大數據集上計算成本過高的子程序。通常,現有的技術會對數據進行子采樣或使用其他方法來提高計算效率,但這會以引入一些近似誤差為代價。這篇論文表明,往往只需用一種特殊的隨機化方法替代計算密集型的子程序,就能在幾乎不降低質量的情況下獲得足夠的效果。這篇論文的結果是基于自適應采樣文獻中的技術。第1章以一個特定的自適應采樣問題為引子:多臂老虎機中的最佳臂識別。我們首先提供了環境設定和最佳臂識別問題的正式描述。然后,我們介紹了一種名為“連續淘汰”的通用算法,用于解決最佳臂識別問題。在第2章,第3章和第4章,我們將把在第1章中開發的技術應用于不同的問題。在第2章,我們討論了如何將k-medoids聚類問題簡化為一系列的最佳臂識別問題。我們利用這一發現提出了一種基于連續淘汰的新算法,該算法在聚類質量上與先前的最新技術相當,但達到相同解的速度要快得多。在數據生成分布的一般假設下,我們的算法在樣本復雜性上實現了 O( n logn ) 的降低,其中 n 是數據集的大小。

在第3章中,我們分析了訓練基于樹的模型的問題。這類模型的大部分訓練時間都用在分割樹的每個節點上,即確定在哪個特征和相應的閾值處分割每個節點。我們展示了節點分割子程序可以簡化為一個最佳臂識別問題,并介紹了一種訓練樹的最新算法。我們的算法僅依賴于每個可能分割的相對質量,而不是顯式地依賴于訓練數據集的大小,并將數據集大小n的顯式依賴從常用的先前算法的O(n)降低到O(1)。我們的算法通常適用于許多基于樹的模型,如隨機森林和XGBoost。在第4章中,我們研究最大內積搜索問題。我們注意到,與k-medoids和節點分割問題一樣,最大內積搜索問題可以簡化為一個最佳臂識別問題。有了這個觀察,我們為高維數據集中的最大內積搜索問題提出了一個新穎的算法。在對數據的合理假設下,我們的算法將與數據集維數d的顯式比例從O(√d)降低到O(1)。我們的算法具有幾個優點:它不需要對數據進行預處理,能自然處理新增或刪除的數據點,并包含一個超參數來權衡準確性和效率。第5章以總結本論文的貢獻和未來工作的可能方向作為結論。

//searchworks.stanford.edu/view/14783548

付費5元查看完整內容

現代生物醫學數據集——從基因表達的分子測量到病理圖像——為發現新的治療方法和探索有關細胞行為的基本問題提供了希望。對這些復雜的高維數據進行深思熟慮的統計建模,對于闡明可靠的科學發現至關重要。數據分析中一個常見的假設是數據樣本是獨立同分布的。然而,這個假設在實踐中幾乎總是被違背。在生物醫學數據的設置中尤其如此,生物醫學數據通常表現出一定的結構,例如患者的亞群、細胞或組織類型或樣本之間的其他相關結構。

在這項工作中,我提出了數據分析和實驗設計框架,以解釋幾種類型的高度結構化生物醫學數據。這些方法采用貝葉斯模型和相關推理算法的形式,是專門為具有組結構、多種數據模態和樣本空間組織的數據集量身定制的。在第一行工作中,我提出了一個對比降維模型,該模型分解了屬于案例和控制條件的樣本的變異源。其次,提出了一種計算框架,用于將空間分辨的基因組數據對齊到一個共同的坐標系中,該坐標系考慮了樣本之間的空間相關性,并對多種數據模態進行建模。最后,我提出了一系列方法,用于優化設計空間分辨基因組學實驗,這些方法是為這些研究的高度結構化數據收集過程量身定制的。通過開發直接利用這些數據中常見結構類型的模型,并展示這些建模方法在各種數據類型中的優勢,這些工作推進了生物醫學數據分析領域。 //dataspace.princeton.edu/handle/88435/dsp01bn9999982

付費5元查看完整內容

在大型標注數據集上訓練的強大機器學習(ML)模型,推動了自然語言處理和計算機視覺等領域的令人印象深刻的進步。反過來,這些發展導致了ML在醫療健康、電子商務和預測性維護等領域的有效應用。然而,獲得訓練高容量機器學習模型所需的標注數據集,往往是機器學習有前途應用的瓶頸。本文研究了獲取領域知識的替代途徑,并開發了從弱監督中學習的方法,即不完美的和間接的監督形式。我將介紹三種形式的弱監督:成對聯動反饋、程序化弱監督和成對多模態數據。這些形式的信息通常很容易大規模獲取,我開發的方法減少了——在某些情況下消除了——對點真實感注釋的需要。我首先研究了成對監督的效用。我介紹了一種新的約束聚類方法,它使用少量的成對約束來同時學習核和聚類數據。該方法在大量多樣的公開數據集上優于相關方法。接下來,將不完全成對監督引入程序化弱監督標簽模型。我根據經驗表明,僅一個弱成對反饋源就可以顯著提高下游性能。通過引入與弱標簽相協調的輸入分布建模方法,進一步研究了程序化數據標記方法。本文首先介紹了一個框架,在觀察到的弱標簽的基礎上聯合學習標簽和端模型,顯示了端模型在下游測試集上的性能比之前的工作有所改進。接下來,介紹一種融合生成式對抗網絡和程序化弱監督標簽模型的方法,以使兩者都受益,由標簽模型性能和數據生成質量衡量。在本文的最后一部分,我解決了程序性弱監督的一個核心挑戰:專家需要提供標簽規則。首先,介紹了一個交互式學習框架,幫助用戶發現弱監督源,以高效的方式捕獲應用領域領域專家的知識。然后,我通過直接從非結構化自然語言描述中學習來研究完全省去標記功能的機會。特別是,我研究了如何將生物醫學文本與圖像配對用于自監督視覺-語言處理,產生數據高效的表示并實現零樣本分類,而不需要專家定義文本或圖像的規則。這些工作提供了新的方法和框架,以在機器學習模型中更有效地編碼和使用專家領域知識,減少了因需要手工真實注釋而產生的瓶頸。

//www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/

付費5元查看完整內容

貝葉斯不確定性的量化是許多機器學習應用的關鍵元素。為此,開發了近似推理算法[176],以相對較低的成本執行推理。盡管最近將近似推理擴展到"大模型×大數據"機制取得了進展,但仍存在許多公開挑戰。例如,如何正確地量化復雜、不可識別的模型(如神經網絡)的參數不確定性?如何正確處理由缺失數據引起的不確定性,并以可擴展的方式進行學習/推理?此外,如何優化地收集新信息,使缺失數據的不確定性進一步減少,從而做出更好的決策?本文對這些研究問題提出了新的研究方向和新的技術貢獻。本文分為兩個部分(主題A和主題B)。在主題A中,我們考慮在監督學習設置下量化模型的不確定性。為了克服參數空間推理的一些困難,本文提出了一個新的研究方向,稱為函數空間近似推理。也就是說,通過將監督概率模型視為隨機過程(對函數的度量),我們現在可以通過另一類(更簡單的)隨機過程來近似預測函數的真實后驗。為函數空間推理提供了兩種不同的方法,并證明它們返回更好的不確定性估計,以及在復雜模型上改進的經驗性能。在主題B中,我們考慮了無監督學習環境下缺失數據不確定性的量化。本文提出一種基于深度生成模型的缺失數據不確定性量化新方法。它允許我們擺脫傳統方法的計算負擔,并執行準確和可擴展的缺失數據填補。此外,利用生成模型返回的不確定性估計,提出了一個信息論框架,用于高效、可擴展和個性化的主動信息獲取。這使我們能夠最大限度地減少缺失數據的不確定性,并根據新信息做出改進的決策。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

現代機器學習(ML)的核心是高維函數的近似。傳統的方法,如用分段多項式、小波或其他固定基函數的線性組合進行逼近,都面臨著維數(CoD)的問題。我們將提供ML的數學觀點,集中在CoD的問題。我們將討論三個主要問題: 現代ML模型的近似理論和誤差分析,梯度下降算法的動力學和定性行為,以及從連續觀點的ML。我們將看到,在連續的水平上,ML可以被表示為一系列合理的漂亮的變分和類似于方程的問題。現代的ML模型/算法,如隨機特征模型和兩層殘差神經網絡模型,都可以看作是這類連續問題的特殊離散化。我們還將提供一個適合分析高維ML模型和算法的框架,并提供無CoD的結果。最后,我們將討論現代ML成功的基本原因,以及仍有待理解的微妙和神秘之處。

//www.datasig.ac.uk/event/weiman-e

付費5元查看完整內容
北京阿比特科技有限公司