亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html

在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。

在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。

在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

摘要

近年來,得益于神經網絡技術特別是注意力深度學習模型的突破,自然語言處理取得了許多令人矚目的成就。然而,自動化的法律文字處理仍然是自然語言處理的一個困難分支。法律句子通常很長并且包含復雜的法律術語。因此,適用于一般文件的模型在處理法律文件時仍然面臨挑戰。我們已經通過我們在這項工作中的實驗驗證了這個問題的存在。在本論文中,我們選擇性地介紹了在自動法律文件處理中改進注意力神經網絡的主要成果。語言模型往往會變得越來越大,但是,如果沒有專家知識,這些模型仍然可能無法適應領域,尤其是對于法律等專業領域。

本論文的三個主要任務是實現改進法律文件處理中注意力模型。首先,我們調查并驗證了在法律等特定領域運行時影響模型性能的因素。這項調查旨在為改進該領域的模型提供更清晰的見解。其次,由于預訓練語言模型是最近自然語言處理中最眾所周知的專注方法,我們提供了創建特定于法律領域的語言模型方法,從而在可靠的數據集上產生最先進的結果。這些模型建立在法律文件數據的特征之上,旨在克服我們之前調查中發現的挑戰。第三,除了讓模型完全從原始數據中學習的方法外,我們提出并證明了使用不同的知識源以不同的方式注入模型以調整其輸出的有效性。這種方法不僅增加了可解釋性,還允許人類控制預訓練的語言模型,并利用該領域發展過程中可用的知識資源,如詞匯、語法、邏輯和法律。

關鍵詞:法律文本處理、注意力神經網絡、深度法律、預訓練語言模型、知識注入

第1章 引言

1.1 引言

法律文件的自動化處理是當今信息社會的迫切需求。除了社交媒體的便利性,我們在這些平臺上的行為可能涉及或導致許多法律效力。Twitter禁止美國前總統唐納德·特朗普在其平臺[57]上發表言論,以及特斯拉不得不雇傭員工來控制其董事長埃隆·馬斯克言論的法律風險,這些都是證明這一現象的典型例子。然而,由于社會和技術原因,自動法律處理系統的質量尚未滿足社會需求。

就社會原因而言,計算機科學是近幾年才取得顯著成果,而法律是國家建國以來數百年來一直依附于人們的領域。規律與人類的發展并存,是長期存在的,對技術沒有任何關聯。此外,法律和計算機科學都是沒有太多共同點的專業學科。因此,計算機科學在法律上的應用可能需要很長時間才能取得突破。

由于技術原因,句子通常很長并且具有復雜的語義結構。人類甚至很難在一讀時理解法律句子的確切含義。在英國、美國、加拿大等國家,法院必須在普通法體系中發揮解釋作用;德國、日本、越南等國民法系需要的指導性文件。此外,法律文件是用自然語言編寫的,這種交流方式并非旨在確保正確性。自然語言中的歧義可能成為任何智能系統的障礙,甚至對人類也是如此。尤其是在具有多層含義的語言中(如漢語、日語、越南語),通過句子理解確切的含義是一個更困難的問題。此外,法律領域使用的詞匯與人們日常交流的詞匯并不完全一致。因此,它可以被認為是我們語言中的一種特殊子語言。

隨著硬件計算能力的增長,深度學習,尤其是注意力模型已經在自然語言處理的許多不同任務中證明了它們的能力。使用這種方法的系統可以很好地執行諸如語音識別、問答和語言生成等精細任務。鑒于這些成就,我們可以期待使用深度學習模型來處理法律領域中更復雜的語言任務。在本論文中,我們選擇性地報告了我們在提高深度學習的性能和可解釋性方面的研究成果,特別是在處理法律文本中的注意力模型(我們簡稱為深度法律處理)。由于法律語言不同于日常語言,因此我們需要對此類數據采取適當的方法。除了性能的提高,論文還為讀者提供了深度法律處理的信息特征。

遷移學習和預訓練的注意力模型是領域適應的魯棒方法。然而,在法律等專業領域,如果不了解領域和數據,這些模型很難產生好的結果。因此,詳細研究將深度學習應用于法律文本處理的可能性和方法對于該領域自動化的發展是有用的信息。本論文將回答的三個主要研究問題包括:

1.哪些因素會影響僅使用提供數據訓練的端到端深度學習模型執行法律文件處理任務的性能?

2.預訓練語言模型已成為深度學習的強大方法之一。法律文本中的哪些特征可用于實施這些模式的成功實例?

3.如何利用現有的知識源注入深度學習模型以獲得更好的性能?可以獲得哪些知識?

為了回答這些問題,我們做出假設并在特定問題中進行測試。對于每個問題,我們提出方法、進行實驗、觀察、分析實驗結果并得出結論。

1.2 動機

1.2.1 深層法律制度的因素分析

本研究的第一個動機是了解影響深層法律制度的因素,并在這些理解的基礎上提出適當的改進。開展本論文中介紹的工作,我們專注于提高深度法律模型的性能和顯性。深度學習模型通常被認為是黑箱,只要有足夠的數據,它們就會達到預期的效果。即便如此,在日常生活的所有領域都很難滿足足夠數據的假設。因此,分析深度法律的特征有助于我們更有效地使用數據。本論文還傳達了有關深度學習模型在法律領域可以執行哪些任務以及在什么條件下表現良好的信息。這項工作也可以被視為提高深度法律模型的可解釋性的努力,這對于將這些模型帶入現實生活中的應用至關重要。

了解可能影響域中系統的因素是良好設計的重要要求。法律領域的數據特征是數據碎片化、法律句子長、專業術語多。因此,我們選擇詳細研究數據量、數據表示方式以及處理數據的模型架構等因素。對于數據量因素,我們在數據有限的問題上進行實驗,提出增加數據的解決方案,并在新環境中比較結果。為了理解數據表示的影響,我們提出了一種方法來評估一般和法律領域中的不同嵌入方法。關于模型架構,我們比較了不同架構在同一個問題上的表現。實驗結果表明,與具有普通架構的預訓練繁瑣語言模型相比,注意力CNN 網絡具有明顯的優勢。

1.2.2 用于深度法律處理的預訓練語言模型

我們的第二個動機是驗證預訓練語言模型在法律領域的能力。近年來,預訓練語言模型得到了普及,并在自然語言處理的各種問題上取得了許多突破。順應這一趨勢,我們為深度法律任務設計了預訓練的語言模型。除了性能(評估模型的重要因素)之外,我們在設計模型時還關注哲學。引入的模型是從影響我們調查的深度法律模型的因素中得出的觀察結果。預訓練的語言模型通常包含訓練數據中存在的偏差,因此通常在非常不同的領域表現不佳。幸運的是,對于法律領域,我們可以利用該領域的數據屬性來訓練或調整這些模型的權重。

從觀察數據表示在法律領域的重要性出發,我們提出了一種名為 BERTLaw 的預訓練語言模型,該模型使用大量法律數據從頭開始訓練。除了在我們的實驗中取得了很好的結果外,這個模型還幫助我們確認了數據表示的重要性。擁有良好的數據表示是強大的深層法律體系的先決條件。除了 BERTLaw 之外,我們還引入了 Paralaw 和 Paraformer,這些模型基于預訓練的語言模型,克服了數據量和模型架構限制的問題。

1.2.3 深度法律模型的知識注入

我們的第三個動機是執行和利用法律和語言知識資源來提高深度法律模型的性能。深度學習模型可以從數據中學習并在廣泛的任務中展示其有效性。但是,僅依靠數據具有三個缺點。首先,模型的質量取決于數據的質量。當非專業用戶過于依賴數據時,這可能很危險。其次,人類將不太可能參與決策過程。這可能導致智能系統濫用權力。第三,這些系統被認為是黑盒,調試它們非常困難。因此,我們研究并提出將知識注入深度學習模型的方法,以指導這些模型的學習和生成過程。

對于語言知識,我們介紹了 HYDRA,這是一種架構,允許單獨訓練 Transformer 模型的注意力頭,然后將它們移植到原始身體上。這種方法可以提高培訓和存儲的成本效益。對于法律知識,我們嘗試了解法律句子的邏輯部分。我們使用一種特殊的機制將這些知識注入到 Transformer 模型的不同層中。最后,利用法律領域的語言生成模型,我們提出了一種利用公平知識來規范該系統輸出的方法。這些發現是使用其他類型的知識資源來改進未來的深度法律模型的基礎。

1.3 貢獻

論文主要有三個價值:性能改進、方法論、理論。首先,本論文中提出的系統都比現有成果具有更好的性能。其中一些在可靠的數據集上取得了最先進的結果。其次,系統的性能改進都是基于對實驗結果的觀察而設計的方法。我們不僅解釋了每章中提出的方法,還概述了構建它們的過程。第三,本論文各部分的結論和討論對于深度法律模型的設計具有理論基礎價值。

圖1.1:論文中提到、分析和解決的主要問題。

論文的主要貢獻包括發現和解決了法律領域深度學習系統的4個常見問題,即數據缺失、領域差異、內容冗長和學習不受控制,如圖1.1所示。除了非架構解決方案外,本文提出的模型都利用了注意力機制。論文還表明,如果沒有適當的方法,注意力模型的力量可能會被浪費。這在注意力CNN、預訓練語言模型和 Paraformer 部分中得到了特別證明。

為此,我們提供了有關法律文本處理中注意力神經網絡的定性和定量信息。我們提出了不同的方法來利用法律文本和補充知識的特征,不僅可以提高這些模型的性能,還可以提高它們的可解釋性。此外,我們提出了定制神經網絡中注意力架構的方法,以實現更好的設計。通過對注意力網絡不同程度的干預以注入專家知識的詳細解釋,本論文也可以作為一個很好的技術參考文檔,供可能關注的人參考。

這項研究可能有助于科學和實踐意義。論文在其內容中提供了深度學習在法律文本處理和相關方面的全貌。此外,本文還將介紹每個深度學習模型中最重要的嵌入方法、訓練任務和架構設計。從實踐的角度來看,這項研究的結果可能有助于將深度學習中最先進的技術引入法律領域。本文檔對于在法律領域尋求深度學習模型的可解釋性但不僅將其用作黑盒的研究人員非常有用。可解釋性是深層法律制度被批準在現實生活中運作的先決條件。

1.4 論文大綱

本論文的目的是分析和改進當前使用深度學習模型處理法律文件的最新技術。首先,我們分析了將端到端深度學習模型應用于法律處理問題的不同方面。通過這樣做,我們獲得了清晰的洞察力,可以為每個特定條件設計有效的模型。其次,我們提出了在法律領域預訓練語言模型以提高其性能的新方法。第三,我們設計了使用專家知識來支持模型在法律領域進行更好的學習和預測的方法。

圖 1.2:論文大綱

論文的大綱如圖 1.2 所示。首先,我們要確認深度學習模型執行法律任務的能力,這通常需要專業知識。我們分析了數據表示、數據量和深度學習模型架構的影響。這一確認是探索深度法律處理知識的第一步。之后,我們進一步發現法律數據的哪些特征可用于預訓練強法律語言模型,這是最近在自然語言處理中取得許多良好成果的多頭注意力網絡家族。在回答這個問題時,會涉及到法律嵌入、法律多語言能力和法律結構表示。最后,我們研究了將知識注入神經網絡以獲得該領域模型的性能和可解釋性的可能性。研究語言知識、法律知識和自學知識來回答這個問題。

在回答研究問題之前,我們在第 1 章專門介紹了研究目標、挑戰以及我們進行這項研究的動機,第 2 章介紹了深度學習、注意力機制和多頭注意力模型的基本知識[62]。在撰寫本文時,這些技術具有很大的影響力。這些知識不僅為讀者閱讀下一章提供了基礎,而且有助于闡明研究的背景。這些技術將來可能會過時并被取代。但是,論文的哲學和方法論仍然具有參考價值。此外,我們還介紹了法律文件的特點、法律文件與日常文本的區別、挑戰和深度學習處理法律文件的優勢。

第 3 章回答了第一個研究問題。我們詳細研究了影響深度學習模型的因素,例如數據表示、數據量和模型架構。在我們對深度學習架構的研究中,我們發現了非常簡單的架構,例如 SCNN [44],它的參數數量很少,仍然可以勝過其他模型。有趣的是,我們還發現 CNN [35] 架構和注意力機制 [33] 的簡單組合在某些特定情況下可以提供比龐大模型更好的結果。本章將回答端到端模型在什么條件下可以在法律文本處理任務中表現良好的問題。

下一個研究問題將在第 4 章中回答。近年來,語言模型已成為深度學習中的一種強大方法。這些模型經過大量數據的預訓練,能夠理解語言并在基準數據中的任務上表現出色。與傳統的 NLP 方法相比,BERT [23]、GPT-3 [13] 和 BART [37] 等模型在 NLP 方面取得了突破。這些模型利用了遷移學習的思想,學習一項任務可以改善另一項任務的結果。許多研究表明,組合和交織任務可以提高模型的效率。在我們的研究中,我們提出了預訓練語言模型的新方法。在法律領域,我們提出的模型(如 BERTLaw [48]、ParaLaw [46])利用組織者提供的標準數據集證明了它們在 COLIEE 2020 和 COLIEE 2021 比賽中的有效性。使用端到端模型(如果垃圾輸入,則垃圾輸出),因此擁有適當的訓練方法對于構建高質量的深度學習模型非常重要。

第 5 章回答了最終的研究問題。除了傳統的訓練和預訓練-微調范式之外,還有第三種方法,知識注入 [47]。這種方法是利用專家知識來支持學習模型和決策。我們可以直接將專家知識以信號的形式輸入模型,而不是向模型提供數據以便它自己學習關系。該方法有助于解決稀疏、含噪的數據問題,并利用專家知識訓練深度學習模型。這種專業知識可以是語言特征或語義特征的形式。通過我們的實驗,我們證明將這種專家知識注入神經網絡將提高模型的性能。此外,這種方法還有助于提高深度學習模型的可問責性和可調試性。

論文的最終目標是展示我們在改進法律文本處理中注意力神經網絡的道路上的工作。第 3 章和第 4 章的內容是我們參與 COLIEE 的結果和觀察。第 5 章介紹了初步研究,試圖增強注意力神經網絡的可解釋性,注意力神經網絡被認為是黑盒子。盡管這項工作做得很細致,但實驗中可能存在盲點,對結果的解釋可能存在偏差。因此,在每項工作中,我們不僅將性能量化為數字,而且對實驗結果進行了更深入的分析。在每一章的最后,我們總結了該章的要點和相關的討論。我們的最終討論和結論將在第 6 章中介紹。本章使讀者能夠理解我們的貢獻,將其視為改進法律文本處理中注意力模型的連貫工作。最后但同樣重要的是,我們概述了可以擴大范圍并將這項研究提升到實際應用的未來方向。

付費5元查看完整內容

【摘 要】

機器學習是一種很有前途的處理復雜信息的工具,但它仍然是一個不可靠不可信的控制和決策工具。將為靜態數據集開發的技術應用到現實世界的問題中,需要克服反饋和系統隨時間變化的影響。在這些設置中,經典的統計和算法保證并不總是有效。在部署機器學習系統之前,我們如何預測機器學習系統的動態行為?為了確保可靠可信的行為,本論文采取步驟來發展對反饋設置中出現的權衡和限制的理解。

在第一部分,我們關注機器學習在自動反饋控制中的應用。受物理自治系統的啟發,我們試圖為數據驅動的最優控制器設計建立理論基礎。我們關注的是由線性動力學控制的系統,其未知組件必須從數據中表征出來。研究了經典最優控制問題線性二次調節器(LQR)設定中的未知動力學問題,證明了最小二乘估計和魯棒控制設計過程保證了安全性和有界次最優性。在機器人技術中使用攝像機的啟發下,我們還研究了控制器必須根據復雜的觀察來行動的設置,其中狀態的子集由未知的非線性和潛在的高維傳感器進行編碼。我們提出使用一種感知映射作為近似逆,并表明只要a)控制器是魯棒設計來解釋感知誤差或b)感知映射是從足夠密集的數據中學習到的,由此產生的感知控制環具有良好的特性。

在第二部分,我們將注意力轉移到算法決策系統,其中機器學習模型用于與人反饋。由于測量的困難、有限的可預測性以及將人類價值轉化為數學目標的不確定性,我們避開了最優控制的框架。相反,我們的目標是在一步反饋模型下闡明簡單決策規則的影響。我們首先考慮相應的決策,這是受信用評分中放貸的例子啟發。在一個簡單的影響模型下,我們表明,幾個群體公平約束,提出減輕不平等,可能損害群體,他們的目標是保護。事實上,公平標準可以被視為一個更廣泛框架的特殊案例,用于設計在私人和公共目標之間權衡的決策政策,其中影響和福祉的概念可以直接編碼。最后,我們轉向推薦系統的設置,該系統根據個性化的相關性預測從廣泛的選擇中進行選擇。我們開發了一個基于可達性的新視角,量化了代理和訪問。雖然經驗審計表明,為準確性而優化的模型可能會限制可達性,但理論結果表明,這不是由于固有的權衡,這表明了一條前進的道路。從廣義上講,這項工作試圖重新想象機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則前進。

1 引 言

許多現代數字系統——從汽車到社交媒體平臺——都具有前所未有的測量、存儲和處理數據的能力。機器學習的并行進展推動了從這些數據中受益的潛力,其中巨大的數據集和強大的計算能力推動了圖像識別和機器翻譯等復雜任務的進步。然而,許多應用程序超出了處理復雜信息的范圍,而是基于它采取行動——從分類和轉變為做出決策和采取行動。將針對靜態數據集開發的技術應用于現實世界的問題需要處理隨時間變化的反饋和系統的影響。在這些設置中,經典的統計和算法保證并不總是成立。即使是嚴格評估性能也可能很困難。在部署機器學習系統之前,我們如何預測它們的行為?我們可以設計它們以確保良好的結果嗎?基本的限制和權衡是什么?

在本論文中,我們為各種動態設置開發了原則性技術,以實現可信機器學習的愿景。這項工作借鑒了控制理論中的工具和概念,控制理論在制定動態系統行為的保證方面有著悠久的歷史,優化提供了一種語言來表達目標和權衡,當然還有機器學習,它使用數據來理解和作用于世界。機器學習模型旨在做出準確的預測,無論是關于自動駕駛汽車的軌跡、償還貸款的可能性,還是對新聞文章的參與程度。傳統上,在靜態監督學習的框架中,這些模型一旦被用于采取影響環境的行動,就會成為動態系統的一部分(圖 1)。無論上下文是駕駛自動駕駛汽車、批準貸款還是推薦內容,將學習到的模型整合到策略中都會產生反饋循環。

圖1 盡管機器學習模型通常在大腦中以一個靜態的監督學習框架進行訓練(左),但當部署時,它們成為反饋循環的一部分(右)。

在動態環境中使用靜態模型存在一些問題。無論是由于分布偏移、部分可觀察性還是錯誤累積,它們的預測能力都可能在反饋設置中失敗。監督學習通常旨在保證良好的平均情況性能,但平均工作良好的車道檢測器仍可能對特定圖像進行錯誤分類并導致崩潰。此外,用于進行準確預測的統計相關性實際上可能包含我們希望避免傳播的偏差或其他有害模式。在貸款決定中考慮申請人的郵政編碼可能在統計上是最優的,但會導致紅線的做法。推薦內容令人反感的視頻可能會增加參與度,但會損害觀看者的心理健康。應對這些挑戰需要仔細考慮如何使用機器學習模型,并設計確保理想結果和對錯誤具有魯棒性的策略。

在接下來的章節中,大致分為兩部分:數據驅動的最優控制和社交數字系統中的反饋。在第一部分中,我們展示了如何結合機器學習和魯棒控制來設計具有非漸近性能和安全保證的數據驅動策略。第 2 章回顧了一個框架,該框架能夠對具有不確定動態和測量誤差的系統進行策略分析和綜合。在第 3 章中,我們考慮了具有未知動力學的線性系統的設置,并研究了具有安全約束的經典最優控制問題的樣本復雜度。在第 4 章中,我們轉而關注復雜傳感模式帶來的挑戰,并為基于感知的控制提供保證。在第二部分中,從物理系統的動力學轉向對社會系統的影響,我們考慮學習與人互動的算法。在第 5 章中,我們描述了后續決策中公平和幸福之間的關系。我們將在第 6 章重點介紹內容推薦的設置,并開發一種在交互系統中表征用戶代理的方法。在本章的其余部分中,我們將介紹和激發后續章節的設置。

1.1 數據驅動的最優控制

在視頻游戲和圍棋中超越了人類的表現后,人們對將機器學習技術應用于規劃和控制重新產生了興趣。特別是,在開發自主系統與物理環境交互的連續控制新技術方面已經付出了相當大的努力。盡管在操縱等領域取得了一些令人印象深刻的成果,但近年來,由于自動車輛控制系統的故障。處理學習模型產生的錯誤不同于傳統的過程和測量噪聲概念。我們如何確保我們新的數據驅動自動化系統安全可信?

在本文的第一部分,我們試圖通過分析簡單的最優控制問題,為機器學習如何與控制接口建立理論理解的基礎。我們開發了基線來描述給定從具有未知組件的系統收集的固定數量的數據可實現的可能控制性能。標準最優控制問題旨在找到使給定成本最小化的控制序列。我們假設一個狀態為的動力系統可以被一個控制作用并服從動力學:

其中是過程噪聲。允許控制動作取決于系統狀態的觀測值,這可能是部分的和不完善的:,其中是測量噪聲。然后最優控制力求最小化:

這里,表示依賴于軌跡的成本函數,輸入允許依賴于所有先前的測量和動作。一般來說,問題(1.1.2)包含了強化學習文獻中考慮的許多問題。這也是一個一般難以解決的問題,但對于受限設置,控制理論中的經典方法在動力學和測量模型已知的情況下提供易于處理的解決方案。

當它的組成部分未知并且必須從數據中估計時,我們會研究這個問題。即使在線性動力學的情況下,推理機器學習錯誤對不確定系統演化的影響也是具有挑戰性的。第 2 章介紹了對我們的研究至關重要的線性系統和控制器的背景。它概述了系統級綜合,這是一個最近開發的優化控制框架,使我們能夠以透明和易于分析的方式處理不確定性。

在第 3 章中,我們研究了當系統動力學未知且狀態可以準確觀察時,機器學習如何與控制交互。我們分析了經典最優控制中研究最充分的問題之一,即線性二次調節器 (LQR)。在這種情況下,要控制的系統服從線性動力學,我們希望最小化系統狀態和控制動作的一些二次函數。我們通過考慮狀態和輸入都滿足線性約束的附加要求來進一步研究與安全性的權衡。這個問題已經被研究了幾十年并得到控制。無約束版本在無限時間范圍內具有簡單的封閉形式解決方案,在有限時間范圍內具有高效的動態規劃解決方案。約束版本在模型預測控制 (MPC) 社區中受到了廣泛關注。通過將線性回歸與穩健控制相結合,我們限制了保證安全性和性能所需的樣本數量。

在第 4 章中,我們轉向一個受以下事實啟發的設置:結合豐富的感知傳感模式(例如相機)仍然是控制復雜自主系統的主要挑戰。我們專注于實際場景,其中系統的基本動力學得到了很好的理解,并且與復雜傳感器的交互是限制因素。具體來說,我們考慮控制一個已知的線性動態系統,其部分狀態信息只能從非線性和潛在的高維觀測中提取。我們的方法是通過學習感知圖來設計虛擬傳感器,即從復雜觀察到狀態子集的地圖。表明感知圖中的錯誤不會累積并導致不穩定需要比機器學習中的典型情況更強的泛化保證。我們表明,魯棒控制或足夠密集的數據可以保證這種基于視覺的控制系統的閉環穩定性和性能。

1.2 社交數字系統中的反饋

從信用評分到視頻推薦,許多與人交互的機器學習系統都有時間反饋組件,隨著時間的推移重塑人口。例如,借貸行為可以改變人口中債務和財富的分布。招聘廣告分配機會。視頻推薦塑造興趣。在這些情況下使用的機器學習算法大多經過訓練以優化單個性能指標。此類算法做出的決定可能會產生意想不到的負面影響:利潤最大化貸款可能會對借款人產生不利影響,而假新聞可能會破壞民主制度。

然而,很難圍繞種群和算法之間的動態交互進行明確的建模或規劃。與物理系統不同,存在測量困難、可預測性有限以及將人類價值轉化為數學目標的不確定性。動作通常是離散的:接受或拒絕,選擇要推薦的特定內容。我們的目標是開發一個框架來闡明簡單決策規則的影響,而不是試圖設計一種策略來優化受不正確動態模型影響的可疑目標。因此,我們研究了在不使用最佳控制的完整框架的情況下量化和納入影響因素的方法。這項工作試圖重新構想機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則邁進。

第 5 章側重于相應的決策。從醫療診斷和刑事司法到金融貸款和人道主義援助,后續決策越來越依賴數據驅動的算法。現有的關于自動決策公平性的學術批評無限制的機器學習有可能傷害人口中歷史上代表性不足或弱勢群體。因此,已經提出了各種公平標準作為對標準學習目標的約束。盡管這些限制顯然旨在通過訴諸直覺來保護弱勢群體,但通常缺乏對此效果的嚴格論證。在第 5 章中,我們通過描述群體公平標準的延遲影響來將其置于語境中。通過以幸福的時間衡量來構建問題,我們看到僅靠靜態標準無法確保獲得有利的結果。然后我們考慮一個替代框架:直接對制度(例如利潤)和個人(例如福利)目標進行雙重優化。通過以特定的群體相關方式定義福利,可以通過雙重物鏡等效地看待被約束為遵守公平標準的決策。這種源自約束優化和正則優化之間的等價性的見解表明,公平約束可以被視為平衡多個目標的特例。

第 6 章側重于推薦系統,它提供了一系列不同的挑戰。通過推薦系統,個性化偏好模型可以調解對互聯網上多種類型信息的訪問。針對將被消費、享受和高度評價的表面內容,這些模型主要用于準確預測個人的偏好。提高模型準確性的重點有利于使人類行為變得盡可能可預測的系統——這些影響與極化或激進化等意外后果有關。在第 6 章中,我們試圖通過考慮用戶控制和訪問的概念來形式化一些風險價值。我們研究可達性作為在交互式系統中描述用戶代理的一種方式。我們開發了一種計算上易于處理的指標,可用于在部署之前審核推薦系統的動態屬性。我們的實驗結果表明,準確的預測模型在用于對信息進行分類時,可能會無意中使部分內容庫無法訪問。我們的理論結果表明,沒有內在的權衡,這表明可以設計出在保持準確性的同時提供代理的學習算法。

最終,將數據驅動的自動化集成到重要領域需要我們了解和保證安全、公平、代理和福利等屬性。這是動態和不確定系統中的挑戰。第一部分中介紹的工作朝著建立理論基礎邁出了一步,以保證數據驅動的最優控制的安全性。將重要屬性正式定義為易于處理的技術規范存在進一步的挑戰。對于代理和福祉等定性和上下文概念尤其如此。第二部分介紹的工作朝著評估提出的技術形式和闡明新的形式邁出了一步。為了在反饋系統中實現可信的機器學習,必須沿著這兩個方向取得進展。

付費5元查看完整內容

本書是對概率編程的研究生水平的介紹。它不僅為希望使用概率編程系統的任何人提供了全面的背景知識,而且還介紹了設計和構建這些系統所需的技術。它面向對概率機器學習和編程語言或理想情況下對概率機器學習和編程語言具有本科水平理解的人。

我們首先討論基于模型的推理,并解釋為什么條件反射是概率機器學習和人工智能領域的核心基礎計算。然后,我們引入一階概率編程語言 (PPL),其程序對應于具有已知的有限隨機變量集的圖形模型。在本 PPL 的上下文中,我們介紹了基本的推理算法并描述了如何實現它們。

然后我們轉向高階概率編程語言。此類語言的程序可以定義具有動態計算圖的模型,這些模型可能不會在每次執行中實例化相同的隨機變量集。推理需要通過重復評估程序來生成樣本的方法。在程序執行和推理控制器之間的接口的上下文中討論了這種語言的基礎算法。

最后,我們考慮概率規劃和可微規劃的交集。我們首先討論自動微分,以及如何使用它來實現基于哈密頓蒙特卡羅的高效推理方法。然后,我們討論在使用神經網絡參數化的程序中基于梯度的最大似然估計,如何通過學習程序后驗的神經近似來分攤推理,以及語言特征如何影響深度概率編程系統的設計。

付費5元查看完整內容

幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。

然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。

本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。

本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

在21世紀,人們與技術互動的方式發生了重大變化,自然語言生成(NLG)發揮著核心作用。智能手機和智能家居設備的用戶現在希望他們的設備能夠了解他們的處境,并在交互中產生自然的語言輸出。本文從人類溝通的三個方面來確定如何讓機器聽起來像人類——風格、內容和結構。本文提供了深度學習的解決方案來控制這些變量在神經文本生成。我首先概述了可以操縱的各種模塊,以進行有效的可控文本生成。我提供了一種使用反向翻譯進行樣式轉換的新穎解決方案,并引入了兩個新任務,將來自非結構化文檔的信息利用到生成過程中。我還為句子排序任務提供了一種新的優雅設計,以學習有效的文檔結構。最后,我提供了一個關于可控制文本生成應用的倫理考慮的討論。提出的工作,我計劃:(I) 提供對各種可控文本生成技術的經驗理解,(ii) 提供對樣式的計算理解并構建有用的樣式表示,(iii) 設計有效的內容基礎生成方式,以及(iv) 探索可控文本生成的更廣泛影響。

//www.cs.cmu.edu/~sprabhum/

付費5元查看完整內容

我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。

希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。

這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。

  • 在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。

  • 在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。

  • 在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。

  • 在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。

付費5元查看完整內容

第一節課的重點是分析今天能夠進行并行計算的典型個人計算機中的算法行為,第二節課的重點是今天能夠進行分布式計算的典型公共云中的此類個人計算機集群中的算法行為。我們將從第1節中簡要介紹的基本原理開始,并努力理解過去幾十年來算法的重大突破。并行計算是指在一臺機器上使用多個處理器和共享內存進行計算。并行計算和分布式計算雖然密切相關,但它們都提出了獨特的挑戰——主要是并行計算情況下的共享內存管理和分布式計算情況下的網絡通信開銷最小化。理解并行計算的模型和挑戰是理解分布式計算的基礎。課程內容反映了這一點,首先在并行環境中涵蓋各種經典的、數值的和圖形的算法,然后在分布式環境中涵蓋相同的主題。目的是強調每個設置帶來的獨特挑戰。

//github.com/lamastex/scalable-data-science/blob/master/read/daosu.pdf

付費5元查看完整內容

深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。

//www.zhuanzhi.ai/paper/396e587564dc2922d222cd3ac7b84288

付費5元查看完整內容
北京阿比特科技有限公司