亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。

因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。

隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。

在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

機器學習模型容易受到多種利用訓練模型數據泄露的攻擊。差分隱私(DP)是量化隱私風險并提供對抗攻擊的可證明保證的黃金標準。然而,在差分隱私下訓練機器學習模型通常會導致顯著的效用下降。本論文研究如何在差分隱私機器學習中有效地從數據中學習并生成數據。

為了在隱私保護的方式下有效地從數據中學習,首先需要識別可以利用的先驗信息類型。首先,我們研究了標簽-DP 設置,即特征信息公開,而標簽信息私有。我們通過利用公共特征來減少噪聲的添加,進而降低噪聲的影響,以此來提高標簽-DP 下的模型效用。其次,我們研究了如何利用合成圖像來改進差分隱私圖像分類。盡管這些合成圖像是在沒有訪問真實圖像的情況下生成的,并且對非隱私訓練幫助有限,我們發現這些合成圖像可以為差分隱私圖像分類提供更好的先驗。我們進一步研究了如何最大化這些合成先驗的使用,以充分釋放它們在改進隱私訓練中的潛力。

第三,我們研究了零階優化的私有化。零階優化已被證明在微調大型語言模型時與 SGD 性能相當,我們提出了 DPZO。我們的關鍵見解是,在零階優化中,從私有數據中派生的信息僅為一個標量。因此,我們只需對這個標量進行私有化。這種方法隱私友好,因為我們只需為標量添加噪聲,而不是對高維梯度加噪。第四,對于差分隱私的合成數據生成,我們研究了在不進行微調的情況下,僅通過訪問大型語言模型 API 來私有地生成數據。我們提出的方法可以為大型語言模型中的上下文學習提供隱私保護,同時支持無限查詢。 綜上所述,本論文探討了如何在差分隱私機器學習中有效地從數據中學習并生成數據,并提供了在實踐中設計隱私保護機器學習模型的方向。

付費5元查看完整內容

因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。

付費5元查看完整內容

現代機器學習模型的脆弱性引起了學術界和公眾的廣泛關注。在本論文中,我們將系統研究幾種機器學習模型的理解與改進,包括平滑模型和通用表征網絡。我們特別關注表征魯棒性的研究,將其定義為給定網絡在隱含空間中的“魯棒性”(或廣義上的可信屬性)。對于通用表征網絡,這對應于表征空間本身,而對于平滑模型,我們將網絡的logits視為目標空間。表征魯棒性是許多可信賴AI領域的基礎,例如公平性和魯棒性。

在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。

**1.1 研究動機

深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。

**1.1.1 機器學習模型的表征魯棒性

表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡

。因此,我們將直接將網絡的

視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。

付費5元查看完整內容

這篇論文探討了如何通過將實體信息納入神經網絡模型來增強自然語言理解。它解決了三個關鍵問題:

  1. 利用實體進行理解任務:本文引入了Entity-GCN模型,該模型在一個圖上執行多步推理,其中節點代表實體提及,邊代表關系。這種方法在一個多文檔問答數據集上取得了最先進的結果。

  2. 使用大型語言模型識別和消歧實體:該研究提出了一種新穎的系統,通過逐字生成實體名稱來檢索實體,克服了傳統方法的局限性,并顯著減少了內存占用。該方法還擴展到了多語言環境,并進一步優化了效率。

  3. 解釋和控制模型中的實體知識:本文提出了一種事后解釋技術,用于分析神經模型各層的決策過程,允許對知識表示進行可視化和分析。此外,提出了一種編輯實體事實知識的方法,使得在無需昂貴的重新訓練的情況下能夠修正模型預測。

實體在我們表示和匯總知識的方式中處于中心地位。例如,像維基百科這樣的百科全書是按實體組織的(例如,每篇維基百科文章對應一個實體)。書面百科全書已有約兩千年的歷史(例如,《自然史》可以追溯到公元77年),在此期間,它們在形式、語言、風格及許多其他方面都有了很大的發展。《百科全書,或科學、藝術和工藝詳解詞典》(在1751年至1772年間于法國出版;狄德羅和達朗貝爾,1751)和《大英百科全書》(在1768年至1771年間于蘇格蘭出版;斯梅利,1768)通常被認為是現代歷史上第一部印刷的百科全書,并定義了信息傳播的重大變革。盡管內容和語言可能有所不同,但通過實體、類別和交叉引用組織信息的基本方式在幾個世紀以來幾乎沒有改變。以這種方式組織世界知識對人類來說是自然且方便的,但對機器來說如何呢?機器學習算法能否利用我們的分類方式?我們能否構建能夠連接不同知識點或區分模糊概念的計算機算法?雖然這些復雜問題目前還沒有明確的答案,但在本文中,我們將論證,向自然語言處理(NLP)算法提供關于實體性質的額外信息,可以提高其在許多有用應用中的性能。

讓我們從一個利用實體進行多文檔問答的例子開始。在這種情況下,用戶向信息系統提出問題,該系統需要在文檔庫中搜索答案。此外,我們假設需要跨多個文檔進行分析和推理,因為在單個文檔中找不到簡單的答案。圖1.1展示了在這種情況下獲得答案的機器輔助過程。正如我們從中看到的那樣,機器進行的過程旨在模仿人類的行為,這似乎是一種合理的策略。我們假設將這種復雜任務分解為可學習的子步驟會導致整體系統的改進和人類可解釋性。我們可以使用客觀指標來驗證這一任務是否如此。

用于自然語言理解的實體 為了研究上述問題,在第三章中,我們探討了如何利用實體來解決自然語言理解(NLU)。我們引入了一種依靠在多個文檔內外傳播的信息進行“推理”的神經模型。我們的假設是,通過引用實體進行“推理”(學習)步驟使模型輸出預測,將使其學會處理復雜問題的合理且更具普遍性的策略。文本中出現的實體提及進行了注釋,這使得測試我們的假設變得更容易。然后,我們將任務框定為圖上的推理問題。這些提及是圖的節點,而邊則編碼了不同提及之間的關系(例如,文檔內和跨文檔的共指關系)。圖卷積網絡(GCN)應用于這些圖,并經過訓練以執行多步推理。我們展示了使用額外的實體信息可以實現一種可擴展且緊湊的方法,在開發時(即2018年)在一個流行的多文檔問答數據集WikiHop上取得了最先進的結果。 第三章的發現為更有趣的問題打開了大門,因為我們貢獻的一個限制因素是所有實體的提及都作為輸入提供給模型。檢索文本中實體提及的能力對于知識密集型任務(如開放領域問答和對話)至關重要。因此,一個自然的問題出現了:我們如何利用語言模型來識別和消歧文本中的實體?

使用語言模型在文本中查找實體 實體鏈接(EL;Bunescu & Pa?ca,2006;Cucerzan,2007;Dredze等,2010;Hoffart等,2011;Le & Titov,2018)是NLP中的一項基本任務,用作文本理解的構建模塊(Févry等,2020b;Verga等,2020)。它包括將非結構化文本中的實體提及錨定到知識庫(KB)標識符(例如,維基百科文章)。實體鏈接在多個領域有廣泛應用,涵蓋開放領域問答(De Cao等,2019b;Nie等,2019;Asai等,2020)、對話(Bordes等,2017;Wen等,2017;Williams等,2017;Chen等,2017b;Curry等,2018;Sevegnani等,2021)、生物醫學系統(Leaman & Gonzalez,2008;Zheng等,2015)、信息抽取(Sarawagi,2008;Martinez-Rodriguez等,2020)等。在圖1.2中,我們展示了將提及鏈接到知識庫中相關實體的例子。

盡管之前有大量關于實體檢索的研究(例如,Hoffart等,2011;Piccinno & Ferragina,2014;Huang等,2015;Le & Titov,2018;Logeswaran等,2019;Broscheit,2019;Wu等,2020,僅舉幾例),但大多數當前解決方案的一個共同設計選擇是:實體與唯一的原子標簽相關聯,可以將檢索問題解釋為跨這些標簽的多類分類。輸入和標簽之間的匹配通過雙編碼器(Wu等,2020;Karpukhin等,2020)計算:輸入的密集向量編碼與實體信息(如標題和描述)的編碼之間的點積。這種形式化允許使用現代最大內積搜索庫(Johnson等,2019)進行亞線性搜索,從而支持從大型實體數據庫中檢索。在第四章中,我們提出了一種新穎的方法:第一個通過逐字生成其唯一名稱(從左到右,自回歸方式)來檢索實體的系統。我們的模型緩解了當時廣泛采用的現代模型(4)可能忽略文本和知識庫中實體之間的細粒度交互的限制。此外,我們顯著減少了當前系統的內存占用(最多15倍),因為我們的編碼器-解碼器架構的參數隨詞匯量的變化而不是實體數量的變化而變化。我們還將我們的方法擴展到一個包含100多種語言的大型多語言環境(第五章)。在這種環境中,我們對盡可能多語言的實體名稱進行匹配,這允許利用源輸入和目標名稱之間的語言連接。最后,我們還提出了一種非常高效的方法,可以在文本片段中的所有潛在提及上并行化自回歸鏈接。這樣的系統依賴于一個淺層且高效的解碼器,使得模型速度提高超過70倍且沒有性能下降(第六章)。

語言模型的可解釋性和可控性 第四、五和六章的發現為許多子領域的許多有趣應用打開了大門。我們研究的一個引人注目的方面是,它表明系統的大部分收益來自模型回憶起其在語言建模預訓練和任務特定微調過程中獲得的實體名稱記憶的能力。不幸的是,這種能力是有代價的。因為大多數(如果不是全部)基于深度學習的語言模型都是黑箱函數。因此,我們不能完全理解它們的預測,也不能確定它們是推理還是記憶。當它們記憶時,我們通常也不能輕松地控制添加、刪除或修改這些記憶的方式和位置。這些反思引出了下一個研究問題:我們如何解釋和控制模型內部關于實體的知識?

為此,在第七章中,我們介紹了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。我們的系統學習屏蔽向量子集,同時保持可微性。這不僅讓我們能夠繪制歸因熱圖,還能分析決策在網絡層中的形成方式。我們使用該系統研究了BERT模型(Devlin等,2019a)在情感分類和問答任務中的表現,并展示了該技術也可以應用于第三章提出的基于圖的模型。最后,我們還提出了一種可以用于編輯語言模型中實體事實知識的方法,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測(第八章)。

貢獻 本論文的主要貢獻可總結如下: 1. 我們引入了一種依靠在多個文檔內外傳播的信息進行推理的神經模型。我們將其框定為圖上的推理問題。實體提及是該圖的節點,而邊則編碼了不同提及之間的關系。 1. 我們提出了一個系統,通過生成實體的唯一名稱(自回歸方式)來識別文本中的實體并將其鏈接到外部知識庫中,支持100多種語言。我們采用受限生成方法,將這種生成自回歸模型用作分類器。 1. 我們提出了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。 1. 我們開發了一種方法,可以編輯語言模型內部的實體事實知識,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測。

大多數(如果不是全部)研究結果表明,實體在自然語言處理中的核心作用,我們鼓勵在更多任務中納入實體信息的研究。

付費5元查看完整內容

本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容

在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

機器學習模型對抗性攻擊的脆弱性的理解日益重要。在對抗性機器學習中,一個基本問題是在存在所謂的規避攻擊的情況下量化需要多少訓練數據,其中數據在測試時會被損壞。在本論文中,我們采用了“球內精確性”概念,從學習理論的角度研究了對抗性魯棒學習的可行性,考慮樣本復雜性。我們首先得出了兩個負面結果。我們證明,在無分布設置下,任何非平凡的概念類都不能在對手能夠擾動單個輸入位的情況下得到魯棒學習。然后,我們展示了樣本復雜性的下界:單調合取的類以及布爾超立方體上的任何超類,其樣本復雜性至少是對手預算(即每個輸入上可以擾動的最大位數)的指數函數。特別地,這意味著在均勻分布下,不能對那些可以擾動輸入的 ω(log n) 位的對手進行魯棒學習。

作為獲得魯棒性學習保證的第一條途徑,我們考慮限制用于訓練和測試數據的分布類別。我們關注概率分布在輸入數據上滿足Lipschitz條件的學習問題:附近的點具有類似的概率。我們證明,如果對手被限制在擾動 O(log n) 位的情況下,那么可以在對數Lipschitz分布類別的條件下魯棒地學習單調合取類。然后,我們擴展了這一結果,展示了在相同的分布和對抗環境中學習 1-決策列表、2-決策列表和單調 k-決策列表的可行性。最后,我們展示對于每個固定的 k 值,k-決策列表類在 log(n) 有界對手條件下具有多項式樣本復雜性。考慮中間的 k-決策列表子類的優勢在于,我們能夠為這些情況獲得改進的樣本復雜性界限。

作為第二條途徑,我們研究了學習模型,其中學習者通過使用局部查詢獲得了更多的能力。我們首先考慮的學習模型使用局部成員查詢(LMQ),在該模型中,學習者可以查詢接近訓練樣本的點的標簽。我們證明,在均勻分布下,即使在學習者除了隨機示例外還可以訪問LMQ的情況下,對于擾動預算為 O(log n) 的對手,魯棒學習合取類和任何超類對于對數Lipschitz分布仍然不可避免地需要對對手的預算呈指數依賴。面對這個負面結果,我們引入了局部等價查詢預測器,該預測器返回假設和目標概念在訓練樣本中的某個點周圍區域內是否一致,以及如果存在反例的話也會返回反例。我們證明了一個分離結果:一方面,如果查詢半徑 λ 嚴格小于對手的擾動預算 ρ,那么在多種概念類別中是不可能進行無分布魯棒學習的;另一方面,當 λ = ρ 時,我們能夠在無分布環境中開發出魯棒的經驗風險最小化算法。然后,我們基于在線學習保證來限制這些算法的查詢復雜性,并在合取式特殊情況下進一步改進這些界限。接著,我們提供了一個在 {0, 1} n 上的半空間魯棒學習算法。最后,由于在 R n 上的半空間查詢復雜性是無界的,我們轉而考慮具有有界精度的對手,并在這種情況下給出了查詢復雜性的上界。

付費5元查看完整內容

雷達在惡劣條件下以及遠程的感測能力使其成為移動機器人應用中視覺和激光雷達的有價值的替代品。然而,雷達復雜、與場景相關的感測過程和顯著的噪聲缺陷使得使用雷達具有挑戰性。超越迄今為止文獻中占主導地位的經典基于規則的方法,本論文探討了在機器人學的一系列任務中深入且數據驅動的解決方案。

首先,開發了一種深度方法,用于將原始傳感器測量映射到占用概率的網格地圖,其性能顯著超越了經典的過濾方法。捕捉到占用狀態的分布,此外還允許識別和管理預測中的不確定性。該方法完全使用從激光雷達自動生成的部分標簽進行訓練,無需手動標記。

接下來,提出了一個深度模型,用于從模擬的高程圖生成隨機雷達測量值。該模型通過學習前向和后向過程來進行訓練,結合使用對抗性和周期性一致性約束與部分對齊損失,使用激光雷達生成的標簽。通過忠實地復制雷達的感測過程,可以使用在模擬中容易獲得的標簽,為下游任務訓練新模型。在這種情況下,模擬雷達測量值上訓練的分割模型在真實世界中部署時,其性能接近完全在真實世界測量值上訓練的模型。

最后,探討了應用于雷達測距任務的深度方法的潛力。學習的特征空間與經典的相關掃描匹配過程相結合,并針對姿態預測進行優化,使得所提出的方法在性能上顯著超越了之前的最新技術。通過概率性的考慮,姿態的不確定性也得到了成功的描述。在此成功的基礎上,利用傅里葉變換的性質分離了平移和角度的搜索。結果顯示,這種解耦搜索在運行時間性能上有了顯著的提升,使得該方法可以在CPU和嵌入式設備上實時運行,同時仍與文獻中提出的其他雷達測距方法保持競爭力。

付費5元查看完整內容
北京阿比特科技有限公司