深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。
在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。
//arxiv.org/pdf/2112.01423.pdf
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。
在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。
在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。
//dspace.mit.edu/handle/1721.1/140022
現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。
本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。
論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險的環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。之后,我將討論如何使系統的行為符合人類的價值觀。最后,我討論了如何使ML系統更安全的開放問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html
在這篇論文中,我們的目標是幫助塑造將促使強大的人工智能系統的過程,并將過程引導到更安全的方向。我們通過讓深度學習系統更安全來做到這一點,因為深度學習的工作可能會轉化為未來的系統。我們總結我們的發現并討論一般的教訓。
在第2章中,我們首先展示了上游功能可以提高安全性。特別是,自監督學習和預訓練可以改善許多安全指標。我們還表明,在大規模設置的尺度異常檢測方法可能存在挑戰。然后,我們展示了大規模的NLP模型在許多安全指標上有很高的性能。接下來,我們展示了盡管視覺模型在很多方面都有能力,但它們仍然可以很容易地通過反向策劃的例子被打破。在下一節中,我們將展示,即使在穩健性中,我們也可以在不改進一般功能的情況下改進安全度量。最后,PixMix表明,一個方法可以在多個安全指標方面接近帕累托最優。在第三章中,我們展示了模型可以模仿人類對規范性陳述的反應,而不僅僅是描述性陳述。這讓我們能夠將帶有道德知識的模型應用于基于文本的互動游戲中。這些模型過濾了其他主體模型,并阻止主體模型采取道德上不受歡迎的行為。這一切都是在沒有提高一般游戲能力的情況下完成的。
在第4章中,我們整合并完善了在以前的論文中探索的各個方向,為提高安全性提供了一個路線圖。本節介紹了“系統安全”,它明確承認社會技術考慮對于提高安全性是必要的。它還將對齊與其他不同的研究目標(如魯棒性和監控)分離開來。通過提供許多可供研究的問題,希望更多的研究人員能夠致力于提高安全性。最后,我們列舉了許多使機器學習系統更安全的新方向。這些都是讓未來強大的人工智能系統更安全的中間步驟。隨著模型的能力越來越強,我們希望研究界能夠更直接地研究先進人工智能系統的尾部風險,包括可能永久削弱人類長期潛力的風險。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
盡管神經網絡在安全設置(如惡意軟件檢測)方面取得了相當大的成功,但事實證明,這種模型很容易受到規避攻擊,即攻擊者對輸入(如惡意軟件)稍加改變以繞過檢測。我們提出了一種新的方法——傅里葉穩定,用于設計具有二值輸入的規避魯棒神經網絡。這種方法與其他形式的防御方法是互補的,它用傅里葉分析工具推導出的健壯的類似物取代了單個神經元的權重。神經網絡中穩定神經元的選擇是一個組合優化問題,我們提出了幾種近似求解方法。我們提供了一個由傅里葉穩定引起的每個神經元精度下降的正式界限,并通過實驗證明了所提出的方法在幾個檢測設置中增強神經網絡的魯棒性的有效性。此外,我們還表明,我們的方法可以有效地與對抗性訓練相結合。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
數據科學是設計從大量數據中提取知識的算法和管道。時間序列分析是數據科學的一個領域,它感興趣的是分析按時間順序排列的數值序列。時間序列特別有趣,因為它讓我們能夠可視化和理解一個過程在一段時間內的演變。他們的分析可以揭示數據之間的趨勢、關系和相似性。存在大量以時間序列形式包含數據的領域:醫療保健(心電圖、血糖等)、活動識別、遙感、金融(股票市場價格)、工業(傳感器)等。
在數據挖掘中,分類是一項受監督的任務,它涉及從組織到類中的帶標簽的數據中學習模型,以便預測新實例的正確標簽。時間序列分類包括構造用于自動標注時間序列數據的算法。例如,使用健康患者或心臟病患者的一組標記的心電圖,目標是訓練一個模型,能夠預測新的心電圖是否包含病理。時間序列數據的時序方面需要算法的發展,這些算法能夠利用這種時間特性,從而使傳統表格數據現有的現成機器學習模型在解決底層任務時處于次優狀態。
在這種背景下,近年來,深度學習已經成為解決監督分類任務的最有效方法之一,特別是在計算機視覺領域。本論文的主要目的是研究和發展專門為分類時間序列數據而構建的深度神經網絡。因此,我們進行了第一次大規模的實驗研究,這使我們能夠比較現有的深度學習方法,并將它們與其他基于非深度學習的先進方法進行比較。隨后,我們在這一領域做出了大量的貢獻,特別是在遷移學習、數據增強、集成和對抗性攻擊的背景下。最后,我們還提出了一種新的架構,基于著名的Inception 網絡(谷歌),它是目前最有效的架構之一。
我們在包含超過100個數據集的基準測試上進行的實驗使我們能夠驗證我們的貢獻的性能。最后,我們還展示了深度學習方法在外科數據科學領域的相關性,我們提出了一種可解釋的方法,以便從運動學多變量時間序列數據評估外科技能。
深度學習序列分類概述
在過去的二十年中,TSC被認為是數據挖掘中最具挑戰性的問題之一(Yang and Wu, 2006; Esling and Agon, 2012)。隨著時間數據可用性的增加(Silva et al.,2018),自2015年以來已有數百種TSC算法被提出(Bagnall et al.,2017)。由于時間序列數據具有自然的時間順序,幾乎在每一個需要某種人類認知過程的任務中都存在時間序列數據(Langkvist, Karlsson, and Loutfi, 2014)。事實上,任何使用考慮到排序概念的已注冊數據的分類問題都可以被視為TSC問題(Cristian Borges Gamboa, 2017)。時間序列在許多實際應用中都遇到過,包括醫療保健(Gogolou等,2018)和人類活動識別(Wang et al.,2018;到聲學場景分類(Nwe, Dat, and Ma, 2017)和網絡安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA檔案中數據集類型的多樣性(Dau等,2019;Bagnall et al,2017)(最大的時間序列數據集儲存庫)展示了TSC問題的不同應用。
題目: Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization
簡介:
在過去的十年中,深度學習證明了計算機視覺和自然語言處理所帶來的挑戰的最新準確性,從而使這些領域發生了革命性變化。深度學習模型現在是自動駕駛,醫學成像和神經機器翻譯等應用程序的基本構建塊。但是,在生產中部署這些模型時,仍然存在許多挑戰。研究人員和從業人員必須解決各種各樣的問題,包括如何有效地設計,培訓和部署資源密集型深度學習模型,以及如何在確保對變化條件的魯棒性的同時使這些方法自動化。本文提供并評估了提高深度學習訓練和推理效率以及底層系統對環境變化的魯棒性的新方法。我們通過關注為優化模型的準確性和資源使用而優化的許多超參數來解決這些問題。這些超參數包括模型架構的選擇,訓練數據集,優化算法,優化算法的超參數(例如學習率和動量)以及訓練時間預算。當前,在實踐中,幾乎所有超參數在訓練之前都進行了一次調整,此后保持不變,然而最佳的超參數值會隨時間變化(例如,隨著訓練的進行或替換用于推理的硬件時)。我們將動態調整應用于傳統上被認為是靜態的超參數。通過三個案例研究,我們表明,使用運行時信息來動態適應傳統上靜態的超參數可以提高機器學習訓練和推理的效率。 首先,我們提出并分析Selective-Backprop,這是一種新的重要采樣方法,它以在線方式對高損失示例進行優先排序。在Selective-Backprop中,被認為具有挑戰性的示例是可調超參數。通過優先處理這些具有挑戰性的示例,Selective-Backprop可以將給定的目標錯誤率訓練到比靜態方法快3.5倍的目標。接下來,我們探索AdaptSB,它是Selective-Backprop的變體,可以動態調整我們對具有挑戰性的示例進行優先級排序的方式。在“選擇性反向傳播”中,分配給難度不同示例的優先級保持不變。在AdaptSB中,我們將分配給不同類別示例的優先級視為可調超參數。通過對數據集和訓練階段動態地調整示例優先級,AdaptSB在出現標簽錯誤的數據集上表現優于Selective-Backprop。 最后,我們提出并分析了Mainstream,這是一種視頻分析系統,可讓并發應用共享共享邊緣資源,以最大程度地提高匯總結果質量。在Mainstream中,我們認為應用程序共享的程度是一個可調參數。 Mainstream在部署時使用更專業的DNN自動確定正確的權衡方案,以提高每幀的準確性并保留更多的非專業基礎模型。結果顯示,與靜態ap方法相比,Mainstream將平均事件檢測F1分數提高了多達87倍。