自動化工具,如機器學習,在我們的大數據世界中是必不可少的。得益于互聯網以及計算機和存儲技術的各個方面的進步,幾乎每個人在互聯網連接的世界中都有發言權。然而,在我們的物理世界中仍然存在非常真實的物理限制。這種二分法——技術使能的數據看似無限與現實世界的物理限制的碰撞——使自動化工具成為必需品,而由機器學習算法驅動的預測模型就是這樣一種工具。機器學習準確預測未來的人類行為和人類偏好的前景使從業者和研究者都開始將機器學習自動化工具應用于如產品推薦和猜測活動,例如長期工作申請者的成功。然而,由于人的變化無常的本性,試圖開發數學中介來模擬和預測人類行為是充滿挑戰并非直線的任務。為了利用機器學習支持的自動化來幫助減少在更具挑戰性的領域設置中的許多實際應用的規模,一個方法是讓人類和機器以非瑣碎的方式合作。在這篇論文中,我們詳細描述了人類和機器在具有挑戰性的實際應用中合作的各種方式。此外,我們強調了三種可以使用人機合作來在野外使用這些系統時保持或增加實用性并減少實際損害的方式:(i) 人類為計算機提供特定領域的知識,(ii) 計算機為人類提供算法解釋,(iii) 人類和計算機在決策中共同合作。
近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任。我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。
在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。
在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。
//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092
記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"
"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"
"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。
利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"
導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"
如果1609年已經有機器學習技術,開普勒會發現他的定律嗎?還是他會滿足于黑盒回歸模型的準確性,導致牛頓沒有靈感去發現萬有引力定律?在這篇論文中,我將對物理科學領域中機器學習及其用例進行回顧。我將強調科學應用中面臨的一個主要問題:缺乏可解釋性。過度參數化的黑盒模型容易在訓練數據中記住偽相關。這不僅威脅到使用機器學習取得的研究進展,而且剝奪了科學家最強大的工具箱:符號操縱和邏輯推理。考慮到這一點,我將展示一個可解釋機器學習框架,使用物理驅動的歸納偏差和一種名為“符號提煉”的新技術。這些方法的結合使從業者可以將訓練好的神經網絡模型轉換為可解釋的符號表達式。首先,我將討論執行這種提煉的深度學習策略,然后回顧“符號回歸”,這是一種使用進化算法優化符號表達式的算法。尤其是,我將描述我的PySR/SymbolicRegression.jl軟件包,它是一個易于使用的高性能符號回歸包,適用于Python和Julia。與此相關,我將討論一些使這種技術更有效的物理驅動的歸納偏差。在論文的下半部分,我將回顧這種和其他可解釋機器學習技術在天體物理問題上的各種應用。這些包括:宇宙學中的宇宙空洞、計算流體動力學中的子網格尺度建模、最優望遠鏡時間分配、恒星和引力波天文學中人口模型的靈活建模,以及學習有效且概率嚴格的行星不穩定性模型。
像機器學習這樣的自動化工具在我們的大數據世界中是必不可少的。由于互聯網以及計算機和存儲技術在各個方面的進步,幾乎每個人都在互聯網連接的世界中擁有發言權。然而,在我們的物理世界中仍然有非常真實的物理限制。這種二分法——看似無限的技術使數據與現實世界的物理極限發生碰撞——使得自動化工具成為必要,而由機器學習算法驅動的預測模型就是這樣一種工具。機器學習對準確預測未來人類行為和人類偏好的承諾,促使從業人員和研究人員將機器學習自動化工具應用于產品推薦等任務和長期求職成功等投機性活動。然而,由于人類善變的本性,開發數學中介來試圖建模和預測人類行為是具有挑戰性的,并不是一項簡單的任務。利用機器學習支持的自動化的力量,在更具挑戰性的領域中幫助減少許多現實世界應用程序的規模的一種方法是讓人類和機器以非平凡的方式合作。本文描述了人類和機器在具有挑戰性的現實世界應用中合作的各種方式。強調了在實際環境中使用這些系統時,可以使用人機協作來保持或增加效用并減少現實世界的傷害的三種具體方法**:(i)人類使計算機具有特定領域知識,(ii)計算機為人類提供算法解釋,(iii)人類和計算機在決策中共同工作**。論文結構如下:第2章:本章展示了第一種人機協作模式——人類使計算機具有特定領域的知識——如何在平均成績點預測任務中增加機器學習模型的效用。脆弱家庭挑戰(Fragile Families Challenge)是一項大規模協作的社會科學數據挑戰,其目的是了解各種幼兒期變量如何預測兒童的遠期結局。我們描述了應對脆弱家庭挑戰的兩步方法。在第1步中,我們使用各種全自動方法來預測兒童的學業成績。我們擬合了124個模型,其中包括8種模型類型、2種填補策略、2種標準化方法和2種自動變量選擇技術的最可能組合,使用2個不同的閾值。然后,在步驟2中,我們試圖在步驟1的基礎上改進步驟1的結果,在詳細審查碼本的基礎上進行手動變量選擇。通過對學生成功文獻的全面回顧,我們手動選擇了3694個被認為可以預測學業成績的變量,以指導決策過程。使用手動選擇的變量重新估計步驟1中的最佳模型。人工變量選擇改善了步驟1中前10個模型中的大多數,但沒有改善前10個中最好的模型。結果表明,在大多數情況下,受社會科學方法啟發的變量選擇可以顯著提高完全自動訓練的模型。**第3章:本章展示了第二種人機協作模式——計算機為人類提供算法解釋——如何提高機器學習模型在電影推薦任務中的效用并減少其危害。**在一個電影推薦任務上評估了兩種流行的局部可解釋性技術,LIME和SHAP。發現這兩種方法的表現非常不同,這取決于數據集的稀疏性。LIME在數據集的密集段上比SHAP做得更好,而SHAP在稀疏段上做得更好。將這種差異追溯到LIME和SHAP基礎估計量的不同偏差-方差特征。與LIME相比,SHAP在數據的稀疏段中表現出更低的方差。將這種較低的方差歸因于SHAP固有的完整性約束屬性和LIME中的缺失。該約束作為正則化項,因此增加了SHAP估計器的偏差,但降低了其方差,從而導致有利的偏差-方差權衡,特別是在高稀疏性數據設置中。有了這種見解,將相同的約束引入到LIME中,制定了一種新的局部可解釋性框架,稱為完整性約束LIME (CLIMB),優于LIME,比SHAP快得多。**第4章:本章展示了第二種人機協作模式的第二個例子——計算機為人類提供算法解釋。**在通過各種方法生成不透明的機器學習模型的局部解釋時,遇到了評估解釋并確定最佳解釋的問題。評估模型預測的解釋有兩個組成部分,解釋對不透明模型的忠實性和人類對解釋的易用性。本文旨在開發定量的方法,來評估在解釋最先進的電影推薦模型時局部解釋的忠實度。本文提出根據局部解釋和不透明模型之間的近似誤差來定量評估忠實度。本文表明,這種近似誤差可以最小化,以獲得一種新的局部解釋技術。與局部可解釋性研究中采用的公理化方法相比,提出的近似誤差是一種直觀的方法來推理局部解釋方法的行為。因此,我們使用提出的近似誤差來比較廣泛使用的局部解釋方法對不透明模型的忠實度/保真度。最后,為了便于人類理解組件,描述了不同的方式來呈現解釋模型的結果,即通過在變換特征空間中優化相同的近似誤差來簡化特征輸入。**第5章:本章展示了第三種人機協作模式——人類和計算機在決策中一起工作——如何在保持效用的同時降低機器學習模型在圖像個性化任務中的危害。**個性化是大多數web服務應用程序的組成部分,它決定了向每個成員顯示哪些體驗。在工業個性化系統中使用的一個流行的算法框架是上下文盜匪,它試圖在存在隨觀察到的成員的上下文特征而變化的治療效果的情況下學習個性化的治療分配策略。為了保持優化任務的可處理性,這樣的系統可以短視地做出獨立的個性化決策,這些決策可以在成員與Web服務交互的集合中共同創建次優的體驗。本文設計了一系列新的在線學習算法,從個性化中受益,同時優化了許多獨立決策的總體影響。所提出方法選擇性地在任何上下文無關的bandit算法和任何上下文無關的多臂bandit算法之間進行插值,并僅在上下文信息有望比沒有考慮它的決策獲得顯著收益的情況下,才利用上下文信息進行治療決策。除了幫助個性化系統的用戶感覺不那么有針對性外,通過有選擇地依賴上下文來簡化治療分配策略,可以幫助提高學習速率。在幾個數據集上評估了所提出方法,包括一個視頻訂閱web服務,并展示了這種混合策略的好處。第6章: 在本章中,我們描述了人類和機器在脆弱家庭挑戰和推薦系統等具有挑戰性的現實世界應用中合作的各種方式。在本文中,我們討論了上述兩種情況下人機協作的三種具體模式。然而,在對提交給脆弱家庭挑戰(Fragile Families Challenge)的全套17篇研究論文進行文獻綜述和對現有推薦系統研究論文進行文獻綜述后,我們能夠更全面地了解人類和機器在這些環境中合作的各種方式。
魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。
我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。
探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。
幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。
然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。
本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。
本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html
常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作
我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。
希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。
這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。
在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。
在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。
在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。
在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。