在自然語言處理(NLP)中,許多任務都涉及到結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對下游任務和人類與機器的分析都是有益的。為了獲得自動模型,主要范式是采用數據驅動的監督學習方式。在這種范式中,主要的瓶頸是手工標注數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新的場景,例如在不同的領域或語言中。如果訓練實例不足以覆蓋目標場景,模型的性能可能會大幅下降,而在所有這些新情境中標注大量的數據實例又是昂貴且低效的。
為了緩解這個問題并減少結構化預測模型對大量標注的依賴,我們需要考慮模型和數據的兩個方面,這些是數據驅動機器學習的主要動力。關于這兩個核心方面,我們研究了三個方向。首先,我們研究了模型設計中的結構化建模,這涉及到如何對復雜的結構化輸出進行建模和預測。這對于通常具有大輸出空間的結構化預測任務尤為重要。此外,在模型和數據的交互上,我們研究了遷移學習,其中相關數據被用來幫助低資源目標任務。 在這種情況下,如何設計對源數據和目標數據資源之間的差異更不敏感的模型對于轉移的成功也是至關重要的。最后,我們探索了有關數據本身的主動學習。當資源有限時,很難獲得大量的標注實例,但標注一小部分是可行的。通過選擇一個有信息量的實例集,可能需要更少的手工標注就能達到令人滿意的性能。這篇論文包括三部分,對應這三個方向。在第一部分,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級完全匹配上帶來了好處,并有更高效的模型。我們進一步擴展了對低資源場景的分析,并研究了結構約束和訓練數據大小的交互。在第二部分,我們研究了一系列相關的結構化任務,發現從相關數據(例如來自同一任務但在不同語言中的數據(跨語言學習)和來自相關任務的數據(多任務學習))得到的監督可以是有益的,特別是如果使用那些對源和目標差異關心較少的模型。最后,在第三部分,我們對NLP中的結構化預測的主動學習進行了系統性的調查。特別地,我們分析了使用部分結構進行標注和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與自學習結合,使用來自主動學習數據池的未標注實例可以帶來進一步的改進。
機器學習和離散優化是計算機科學的兩大支柱,也是廣泛用于商業、科學和技術領域的分析、預測和決策的工具。然而,機器學習和離散優化方法發展的前提在根本上有所不同。學習依賴于數據,并且通常很少或根本不需要人工設計。其優點在于普適性和幾乎全面的適用性,但許多模型無法有效地整合領域知識或特定約束,缺乏可解釋性,且其預測存在不確定性,這在實踐中阻礙了其應用。相反,離散優化的算法通常針對特定應用進行定制,如組合問題。他們精確的形式化提供了洞察和分析,而且他們的輸出通常帶有性能保證。然而,與機器學習不同,離散優化的方法在實例之間不能泛化,這在實際應用中是一個不足。
//www.research-collection.ethz.ch/handle/20.500.11850/629004 鑒于機器學習和離散優化的互補優缺點,很自然地會問到這兩個領域的方法在多大程度上可以有益地結合起來。這是我們在這篇論文中提出的問題,并通過展示用于和用于離散優化的學習方法來肯定地回答這個問題。
在用于離散優化的學習中,我們關注的是涉及離散變量的非監督學習模型的梯度估計。這些模型廣泛存在,并在正則化、可解釋性、模型設計和算法集成方面提供了好處。我們依賴離散優化的高效方法來通過松弛設計這些模型的新梯度估計器,并通過實驗證明它們使學習更加高效、有用和高效。
在用于學習的離散優化中,我們專注于使用機器學習提高整數規劃的分支和界求解器的性能。我們用針對特定應用的學習模型替換這些求解器中用于切割平面選擇和潛水的現有子程序。我們的方法借鑒了模仿學習和生成建模的思想,具有可擴展性和有效性。在一系列實驗中,我們的模型超過了現有的啟發式方法以及競爭的機器學習方法,以促進求解器性能的整體改進。
在自然語言處理(NLP)中,許多任務涉及結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對于人類和機器的下游任務和分析都有益處。為了獲得自動化模型,主要范式是以數據驅動的監督學習方式進行。在這個范式中,主要的瓶頸是手動注釋數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新場景,比如不同的領域或語言。如果訓練實例不足以涵蓋目標場景,模型性能可能會顯著下降,而在所有這些新情況下注釋大量數據實例是昂貴且低效的。 為了減輕這個問題并減少結構化預測模型對大量注釋的依賴,我們需要考慮模型和數據兩個方面,這是數據驅動機器學習的主要驅動力。與這些核心方面相關,我們探討了三個方向。首先,我們研究模型設計中的結構化建模,其中涉及如何對復雜的結構化輸出進行建模和預測。這對于結構化預測任務特別重要,因為這些任務通常具有大的輸出空間。此外,在模型和數據的交互方面,我們研究了遷移學習,其中利用相關數據來幫助低資源的目標任務。在這種情況下,如何設計更不受源數據和目標數據之間差異影響的模型對于遷移的成功也至關重要。最后,我們探討主動學習,重點關注數據本身。當資源有限時,很難獲得大量注釋的實例,但注釋一小部分實例是可行的。通過選擇信息量豐富的實例集的策略,可能只需要較少的手動注釋就可以實現令人滿意的性能。
這篇論文包括三個部分,對應這三個方向。在第一部分中,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級別的完全匹配和更高效的模型方面帶來了好處。我們進一步將分析擴展到低資源情景,并研究結構約束與訓練數據規模之間的交互作用。在第二部分中,我們研究了一系列相關的結構化任務,并發現來自相關數據的監督,例如來自相同任務但不同語言(跨語言學習)以及來自相關任務(多任務學習)的監督,可以是有益的,尤其是在利用那些對源數據和目標數據差異關注較少的模型時。最后,在第三部分中,我們對NLP中的結構化預測進行了系統的主動學習研究。特別是,我們分析了使用部分結構進行注釋和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與使用主動學習數據池中未標記實例的自訓練相結合,可以帶來進一步的改進。
隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。
在現代的統計和機器學習模型中,通常會施加結構約束以提高模型的可解釋性和降低模型復雜性。在這篇論文中,我們展示了一些可擴展的優化方法,用于處理在結構約束下的大規模機器學習問題,特別關注的是非參數統計的形狀約束和高維統計的稀疏性。在第一章中,我們考慮了梯度正則化的凸回歸問題,該問題的目標是在目標變量和協變量之間擬合一個凸函數。我們提出了新穎的大規模算法,這些算法基于近端梯度下降和活動集方法,并為我們提出的算法推導出了新穎的線性收斂保證。從實證結果來看,我們的框架可以在幾分鐘內大致解決?? = 105 和?? = 10的實例。在第二章中,我們開發了一個新的計算框架,用于計算對數凹密度的最大似然估計,這個框架基于平滑技術和逐漸提高精度的適當積分離散化。我們證明了我們的方法的收斂性,并顯示出比早期的凸方法明顯的運行時間改善。在第三章中,我們關注的是高斯圖形模型,該模型旨在從獨立同分布的多元高斯樣本中估計稀疏的精確矩陣。我們通過?0?2-penalized偽似然提出了一種新的估計器。然后,我們設計了一種專門的非線性Branch-and-Bound(BnB)框架,該框架解決了提出的估計器的混合整數編程(MIP)公式。我們的估計器在計算上可以擴展到?? ~ 10,000,并且相比于競爭的?1方法提供了更快的運行時間,同時帶來了優越的統計性能。
在第四章中,我們進一步研究如何改進用于具有?0?2懲罰和一般凸平滑損失的稀疏學習問題的BnB框架。我們在BnB框架內提出了一種新穎的篩選程序,以保證將松弛變量固定為0或1。我們的實驗表明,這種篩選程序可以顯著減少BnB求解器的運行時間。
多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。
如何對不同設置下的序列數據建模是一個跨許多領域的重要機器學習問題,包括對時間序列數據、自然語言文本和事件流的預測。不同字段中的順序數據通常具有不同的特征。例如,自然語言文本可以被視為一個離散變量的序列,而傳感器網絡信號可以被視為一個連續向量空間中的多變量序列。為了在各種各樣的現實世界領域中開發成功的神經網絡模型,我們需要根據數據和問題的性質定制架構和算法。本文設計了新穎高效的神經網絡解決方案,用于序列建模和應用。具體來說,這些貢獻可以分為四部分。
第一部分重點研究了多變量序列數據中變量之間的相關性,如多傳感器的時間序列,并提出了新的算法,即深度可分圖卷積網絡(DSGC)(第二章)[60]和分解遞歸神經網絡(FRNN)(第三章)[63],以利用相關模式,提高預測精度。
第二部分側重于將人類先驗知識用于時序數據依賴模式的時間建模。具體地說,我們提出了一種新的方法,命名為長期和短期時間序列網絡(LSTNet)(第4章)[59],它被證明是特別有效的捕獲各種周期模式在不同的應用。
第三部分著重于序列分類任務中Transformers 的高效算法。具體來說,通過識別常用的Transformer架構中的計算冗余,并提出一種新的替代方案,即漏斗Transformers (第5章)[27],我們實現了更好的計算與精度之間的權衡。
第四部分側重于事件之間時間關系的建模/預測,其中的主要挑戰是從稀疏標記的數據中有效學習。我們通過結合高級數據增強、半監督學習和人類先驗知識的引入來應對這一挑戰(第6章)。因此,我們大大提高了這項任務的最先進性能。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。