在過去的十年里,深度學習展示了卓越的能力,展現了對大規模數據的強烈依賴。這一時期見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集,實現了接近人類水平的性能。然而,當涉及到具身人工智能時,生成真實世界數據變得具有挑戰性且成本高昂,原因在于機器人的脆弱性和有限的速度。相比之下,合成數據和模擬環境提供了一種高效且成本效益高的方法,用于訓練機器人代理并生成精確的監督。因此,合成數據作為可擴展和高質量訓練數據的有希望的解決方案,為具身人工智能代理的出現提供了支持。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于準確捕捉真實世界分布,通過彌合模擬與現實差距(Sim2Real gap)。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效利用它。在這篇論文中,我提出了兩條研究工作線,分別對這兩個方面做出貢獻。第一條研究工作線解決合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發交互式任務的機器人解決方案。iGibson構建了與3D掃描的真實世界家庭互動復制的模擬場景,使對象、布局和互動性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson為材料(包括視覺外觀和動力學特性)和物體形狀提供了領域隨機化程序,同時尊重物體放置的分布并保持互動性。其次,我提出了GINA-3D,一種生成模型,使用來自相機和激光雷達傳感器的真實世界駕駛數據來創建多樣化車輛和行人的逼真3D隱式神經資產。與iGibson相比,后者涉及在構建模擬環境方面的顯著人力努力,GINA-3D利用了直接學習生成與真實世界觀測匹配的合成資產的生成模型。我提出的證據表明,GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。第二條研究工作線集中于有效利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了一個計算任務分類和任務空間地圖。通過利用任務關系,我展示了證據表明,我們可以使用比完全監督方法少至少一個數量級的數據,而且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的表現顯著優于真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于可變形物體操縱的動作條件隱式視覺動力學。通過利用大規模合成數據和幾何與動力學的獨特監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱到目標配置方面取得成功。總結來說,這篇論文研究了合成數據和模擬環境作為具身人工智能的有希望解決方案。所呈現作品的關鍵在于合成數據的仔細生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以彌合模擬訓練和真實世界應用之間的差距,為更有能力和多功能的具身人工智能代理鋪平道路。
在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。
第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。
第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。
總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。
網絡管理對于研究人員和行業來說越來越難以應對。網絡的規模和復雜性正在迅速增長。它們現在必須滿足比以往任何時候都更大的應用集和更大的用戶群,同時還要遵守越來越嚴格的性能要求。面對運行網絡的眾多挑戰,運營商必須超越手動調優算法的時代,轉而采用更自動化的方法——即 AI 驅動的網絡。在尋找更多功能的網絡工具時,許多研究人員已將機器學習(ML)視為網絡系統中的數據驅動、自適應機制的工具。然而,一些實際問題困擾著這樣的發展。我們能否在數據包路徑中運行 ML?運營商必須手動構建每個新的 ML 模型嗎?我們如何納入新的數據?在這篇論文中,我們展示了構建 AI 驅動網絡所需的關鍵組件的構建。我們首先描述了 Taurus 的設計,這是一個平臺,使數據平面 ML 能夠以每個數據包的粒度,在線速率上運行在網絡的數據包路徑中。此外,我們證明了 Taurus 的硬件添加的開銷最小——在我們的原型中,芯片面積不到 4%,功耗不到 3%。接下來,我們討論了 Homunculus,這是一個針對數據平面 ML 平臺(如 Taurus)的編譯器堆棧,它允許自動生成符合資源和性能要求的 ML 模型,這些模型在我們的測試中比手動調整的模型性能提高了高達 16.9%。最后,我們展示了如何組裝這些工具以在網絡中啟用自適應的 ML 循環。網絡中的原始數據的在線標注可以為 Homunculus 提供數據,使網絡能夠從其自身的數據包數據中構建新的 ML 模型。這些模型可以在 Taurus 中部署學習到的策略,為即將出現的 AI 驅動的網絡奠定基礎。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
近年來,從一般物體抓取到手部操作,深度學習實現了許多令人興奮的機器人操作能力。盡管如此,能夠進入以前從未見過的家庭環境,并像人類一樣完成各種任務的典型家用機器人還遠遠不現實。雖然在實現這一目標方面有許多問題要解決,但中心瓶頸之一在于從機器人傳感器輸入中學習控制策略,這些策略可以泛化到新的任務、對象和環境。例如,一個在家做飯的機器人無法負擔從頭開始學習每一道菜,也無法為機器人可能遇到的每個新廚房硬編碼狀態特征。實現這種泛化的一個潛在途徑是在包含許多任務、對象和環境的廣泛數據分布上訓練機器人。事實上,這種將大型、多樣化的數據集與可擴展的離線學習算法(例如,自監督或廉價監督學習)相結合的方法,是自然語言處理(NLP)和視覺最近取得成功的關鍵。然而,直接將此方法擴展到機器人領域并非易事,因為我們既沒有足夠大和多樣化的機器人交互數據集,也不清楚哪種類型的學習算法或監督來源可以使我們從這些數據集中可擴展地學習技能。
本文的目標在于解決這些挑戰,并在機器人操縱的背景下重現大規模數據和學習的方法。
本文的第一部分將討論如何可擴展地收集在物理世界中交互的機器人的大型和多樣化數據集,以及如何在這種離線機器人數據集上有效地預訓練自監督世界模型。然后,我們將探討如何使用這些預訓練的世界模型,通過將它們與規劃相結合來解決任務,首先用于解決長視距操縱任務,其次用于完成自然語言指定的任務。最后,我們將討論如何超越機器人數據,并解鎖存在于網絡上的廣泛數據源,如人類的視頻,以使機器人更有效地學習,特別是通過獎勵學習和視覺預訓練。本文將通過討論公開的挑戰來結束,特別是如何統一模擬、真實世界的數據收集和人類視頻的范式,以實現通用家用機器人的愿景。
**隨著大型模型的發展以及數據的爆炸性增長和可用性,深度學習在眾多現實應用中取得了巨大而廣泛的突破。**然而,深度學習模型通常具有過高的計算和內存成本,不適合在移動設備或邊緣設備上進行實際部署。此外,深度學習模型面臨著學習和快速適應的挑戰,從只有幾個例子來解決新的任務。因此,本文提出了學習計算效率高的模型架構的技術和提高少樣本學習能力的方法。**我們從子空間分析方法及其在特征選擇問題中的應用開始。然后將這些方法擴展到深度神經網絡結構學習(deep neural network structural learning, SL)中,目的是減少冗余參數,以獲得能夠保持甚至提高精度的最優降維模型。**還介紹了基于混合剪枝-再生長技術的更高效的SL方法和可以跨更多維度降低模型的更通用的SL方法。除了靜態模型設計之外,本文還提出了動態神經網絡方法,可以在推理過程中根據不同的輸入動態調整模型權重和結構,以控制計算效率并提高表示能力。除了模型效率外,還提出了訓練模型的技術,可以從幾個例子中快速泛化。本文提出一種少樣本架構自適應方法,通過元學習一個任務感知架構控制器,為不同的少樣本任務定制特定于任務的模型結構。與傳統的NAS方法需要對每個新任務進行單獨的搜索成本不同,所提出方法在一次性元訓練成本后,在幾分鐘內從GPU數據集中直接生成特定于任務的模型結構。最后,提出了一種基于語言輔助表示的掩碼圖像預訓練的跨模態自監督學習框架。由此產生的模型產生了高質量的可遷移表示,提高了許多計算機視覺任務的準確性,并對對抗性/分布外樣本表現出強大的魯棒性。所產生的模型適用于結構學習以獲得更大的計算效率,也適用于低資源任務適應以獲得更好的數據效率。
//dataspace.princeton.edu/handle/88435/dsp01p8418r442
在過去的幾十年里,機器學習在眾多人工智能應用中取得了長足的進步。然而,它的成功主要依賴于在一個封閉的環境中使用大量的離線數據訓練模型,然后在類似的測試環境中對它們進行評估。這意味著大多數機器學習模型無法在很少的觀察下快速適應新環境并在線學習新知識。相比之下,我們的人類大腦可以從在線感官輸入流中學習新的表示、概念和技能。**本文旨在使具有幾個核心能力的機器能夠在開放世界中學習新概念,而無需訪問大量精心策劃的標記數據。**具體來說,它解決了幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據以及不平衡和噪聲數據進行學習。本文提出的算法可以自然地與任何深度神經網絡相結合,并且與網絡架構無關。它們可以為各種開放世界條件提供更大的靈活性和魯棒性,使基于學習的方法適合部署在一般的基于智能體的智能系統中。
1.引言
**機器學習是人工智能領域的核心課題之一。由于許多智能行為不能簡單地由標準程序定義,而不是依靠人工設計的規則,本文使用機器學習來獲得函數逼近,給定許多輸入和輸出觀測。**今天,在機器學習的幫助下,我們的計算機可以識別我們的聲音和筆跡,記住我們的臉,標記我們的照片,翻譯不同的語言,在下棋和圍棋中擊敗我們,并在道路上安全駕駛汽車。就像阿蘭·圖靈在20世紀50年代設想的那樣,今天的計算機使用機器學習來“模擬”兒童的思維,這是一張逐漸充滿各種各樣的知識和表示的白紙。然而,機器的學習過程與兒童的學習過程仍有很大的差距。也許機器學習和人類學習之間最顯著的區別之一是能夠學習自然世界中稀缺數據的任務。如今的機器學習往往依賴于在一個封閉的世界環境中訓練模型,并在大量經過整理的數據中進行評估,然后在類似或相同的測試環境中進行評估。這意味著,與人類不同,標準的機器學習算法無法在很少的觀察下快速適應新環境并在線學習新知識。在本文中,我們將這種期望的能力稱為開放世界學習。 我們如何彌合人類和機器之間的這種明顯差距?我的論文旨在尋求解決方案,使機器能夠在一個開放的世界中學習新概念,而不需要獲取大量的策劃標簽。具體來說,它解決了開放世界學習框架下的幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據、不平衡和噪聲數據、在線和流數據進行學習,所有這些都是今天典型的機器學習管道中沒有考慮的。這些問題的最終解決方案將對我們所有人產生深遠的影響。首先,它將允許未來的智能體在飛行中學習:你未來的家庭機器人將適應你的房子,識別新家具,并學習使用新設備;你的增強現實眼鏡將通過你對世界的視角來學習,這些視角是你過去從未經歷過的;您的個人AI助理將適應您的偏好,并在與您的對話中學習新技能。此外,它將在許多工業應用中節省數百萬小時的工程、標簽和數據管理工作。最后,通過將我們的學習過程投射到計算框架中,這也將是探索理解人類智能的一個里程碑。
本文概述
**本文提出的貢獻,使機器能夠用很少的標記示例獲得新概念,并使它們對許多自然主義和開放世界條件更魯棒。**在過去,有幾種機器學習范式,如小樣本學習、持續學習、自監督學習等,它們都是由使機器學習在開放世界中更加靈活和自適應的大愿景所驅動的。第二章概述了這些課題的背景文獻。具體來說,本文首先討論了各種學習范式,這些范式鼓勵在與訓練不同的環境中進行測試時的學習,例如小樣本學習和持續學習,然后討論了另一個相關研究的思路,旨在從無標簽的示例中學習,例如自監督學習。 然而,這些學習范式通常只專注于一個特定的屬性,如域偏移量或標記數據點的數量。有時,這些性質是正交的,它們的解可以組合在一起,但通常提出的解決方案依賴于一些額外的不現實的假設。例如,標準的半監督學習利用未標記的數據來提高學習模型的質量;然而,它假設未標記的數據與標記的數據來自相同的分布,并且也屬于預定義的類別之一。在另一個例子中,標準的少樣本學習旨在用很少的數據點來學習新類別,但它假設數據點平均分布于在訓練期間從未見過的幾個新類別。或者,類不平衡問題通常假設類標簽是正確的,因此高訓練成本意味著數據點來自少數類。在這些示例中,假設學習環境的其他屬性的解決方案在同時存在多個問題的開放世界中部署時可能會崩潰。因此,本文的核心主題是尋求新的解決方案,以同時解決開放世界的多種特性,如有限的標記數據學習、輸出空間的增量增長、無標記、不平衡和有噪聲的數據。為了實現這一目標,我們不僅需要開發新的學習算法,還需要重新思考定義問題的學習范式。因此,論文的一部分,如第4章和第6章的部分,也旨在定義具有額外自然屬性的新的學習范式或基準。
**用有限的標記數據進行學習的文獻被廣泛稱為少樣本學習。然而,標準的少樣本學習在測試時只處理少量的新類。**在第3章中,我們關注的是增量少樣本學習的問題,模型需要識別訓練時多次出現的舊類別和測試時剛剛引入的新類別。令人驚訝的是,許多只專注于解決新類別的經典少樣本學習方法,實際上在處理結合新舊類別的更現實問題時受到了影響,可能是因為新舊類別的表示彼此不兼容。與直接使用新類樣本的某些特征向量作為分類器權重的傳統方法不同,本文提出的方法是基于連續優化的,通過平衡新舊類帶來的目標來求解權重,并在測試時達到更好的優化解。在整個增量學習新類別的過程中,現實世界的智能體通常會遇到更多的未標記樣本。在第4章中,我們又向前邁進了一步,將未標記數據引入到小樣本學習問題中。本文提出一種半監督少樣本學習的新學習范式,除了在每個學習片段中標記的數據點很少的約束外,還考慮未標記的樣本。本文工作是第一個同時解決半監督學習和少樣本學習的工作。它不僅減少了訓練和測試任務中對標記數據量的依賴,而且解決了干擾因素的問題,即不屬于任何已知類別的類別,因為在經典的半監督學習中不考慮這一問題。本文提出新的少樣本學習模型,可以規避分干擾類的影響,同時仍然設法利用來自未標記數據的有用信息。
**盡管小樣本學習取得了廣泛的成功,但情節通常是從精心策劃的數據集中采樣,而不是從自然世界的噪聲長尾分布中采樣。**我們在第4章中介紹的干擾物例子也可以被認為是一種噪聲訓練數據。在第5章中,我們將研究在標準機器學習環境下的不平衡和噪聲類標簽學習問題。雖然這兩個問題在自然學習環境中普遍發生,但傳統上,它們被分開研究,采用相互矛盾的補救方法。為了解決這一沖突,本文提出了一種數據驅動的示例權重機制,可以在統一的框架下直接應用于這兩個問題。該算法利用干凈和平衡的驗證集來校準訓練樣本權重。該模型還強調了一種同時聯合更新內層和外層循環參數的高效學習方法。少樣本學習通常伴隨著僵化的情景設置,這使得對新概念的持續增量獲取進行建模變得不自然。第6章提出了一種新的在線情境化小樣本學習范式。雖然我們在第3章中研究了新舊類別的組合,但之前的方法主要關注情節的概念,但知識從未隨著時間順序和增量增長。雖然已經有一些努力使這些情節更有順序,就像設置增量類學習一樣,但訓練和測試階段的分離仍然使評估變得繁重。現實世界的智能體不依賴偶發的停止,而是執行在線持續學習,在序列的每個時間步中產生一些輸出預測,通過自上而下的上下文信息流進行調制。新范式包含了許多自然主義屬性,如在線、增量、上下文化、少樣本和半監督,還開發了一個基于室內家庭圖像的新基準,模仿現實世界智能體的視覺輸入流。提出了一種新的模型——上下文原型記憶(context Prototypical Memory, CPM),成功地解決了在有限標記數據下的在線上下文類學習問題。
最后,在第7章中,我們研究了在不使用任何類別標簽的情況下,通過在線視覺輸入流動態學習表示和類別。在前幾章中,學習仍然主要由帶標簽的示例驅動:例如,在第6章中,只有當環境告訴智能體它是一個新類時,新的類別簇才會創建。在本章中,我們將介紹一種算法,該算法允許智能體同時從未標記的數據流中學習表示和類別。這可以被視為發展過程中的一個前階段,因為智能體可以首先通過在沒有標記數據的情況下學習表示和類別來探索環境,然后在一些示例的監督下進行。所提出的模型,在線無監督原型網絡,將用于概念學習的原型網絡與基于聚類的自監督表示學習相結合,并與僅使用在線數據流進行訓練的最先進的自監督視覺表示學習方法相比較。此外,該算法對不均衡分布也具有較強的魯棒性。
目錄內容:
自主決策系統正變得越來越普遍,我們越來越依賴這些系統為我們執行行動。以前,我們主要使用算法來完成簡單的預測任務。目前,我們遇到它們在順序決策場景中導航,在這些場景中,它們被精心設計來選擇導致理想狀態下最大預期性能的行動序列。隨著數據的廣泛可用性、計算能力的提高和學習算法的進步,機器學習正在成為傳統專家精心設計的解決方案的可行替代方案。機器能夠從數據中學習,并建立世界的表示來指導它們的行動。近年來,人工神經網絡已成為非常流行的函數逼近方法。從自動語言翻譯到自動駕駛汽車,計算機智能的許多驚人成就都是基于神經網絡的。特別是,它們與強化學習(RL)的結合使機器能夠學習復雜順序問題的解決方案。 與傳統軟件不同的是,人類幾乎不可能理解神經網絡實現的邏輯,這使得它們成為不透明的模型,并可能阻止它們在安全或關鍵任務應用中使用。在很多情況下,僅僅運行模擬還不足以讓人們對它們建立信心,因為一個故障就可能導致災難性的后果。本文的工作解決了在具有神經網絡組件的機器學習系統中建立信任的挑戰。我們首先介紹神經網絡驗證,這是一種驗證網絡是否具有所需屬性的過程。我們介紹了神經網絡驗證的最新進展,包括我們自己的貢獻,并表明,盡管取得了進展,驗證仍然是一個非常具有挑戰性的問題,目前的算法難以擴展到大型網絡。然后,我們提出了一種可選的方法,該方法將驗證需求合并到模型的設計中。更簡單的模型更容易驗證,我們證明了一些問題可以用二值化神經網絡(BNNs)解決,明顯更簡單的模型,參數可以用1位表示,具有與全精度模型相似的性能。我們提出并演示了一種簡單的混合整數規劃方法來驗證它們,并表明該方法具有良好的可擴展性。最后,我們提出了一種深度強化學習算法,類似于使用BNN作為函數逼近器的深度Q學習算法。我們再次表明,這種方法能夠犧牲少量性能,并獲得可擴展的驗證。
構建高性能的端到端機器學習系統主要包括開發機器學習模型和為感興趣的應用程序收集高質量的訓練數據(假設一個人可以訪問正確的硬件)。盡管在過去幾年里,隨著開源平臺的興起,機器學習模型變得越來越商品化,但管理高質量的標記訓練數據集對許多現實世界的應用來說仍然是昂貴的或不可行的。因此,我們在本文中主要關注數據,特別是如何** (1)通過注入領域特定的先驗知識或利用已為不同任務創建的現有軟件系統和數據集,使用數據高效的機器學習方法減少對標記數據的依賴,(2)有效管理訓練數據并構建相關工具,以最大化數據的效用,(3)通過將數據的結構與嵌入空間的幾何形狀進行匹配,提高嵌入所實現的數據表示的質量**。
我們首先描述了我們在構建數據高效的機器學習方法方面的工作,通過物理驅動的一致性訓練增強、尺度等變展開神經網絡和使用未經訓練的神經網絡弱監督來加速磁共振成像(MRI)重建。然后,我們描述了我們在構建用于自然語言理解的數據高效機器學習方法方面的工作。特別地,我們討論了一種監督對比學習方法用于預訓練的語言模型微調和一種大規模數據增強方法來檢索領域數據。與有效管理訓練數據相關,我們討論了我們提出的用于類表單文檔gather的信息提取系統,并重點討論了訓練數據管理和相關工具中經常被忽略的方面。我們強調了有效管理訓練數據的重要性,表明它至少與機器學習模型在真實數據集的下游提取性能方面的進展一樣關鍵。最后,為了改進各種類型數據的嵌入表示,我們研究了具有異質曲率的空間。我們展示了混合曲率表示為圖和詞嵌入提供了更高質量的表示。此外,我們還研究了如何將Wikidata知識圖譜中的實體嵌入到一個抽象的文本摘要模型中,以增強其真實性。