亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在深度學習重新崛起(2012 年)之后的 5 年里,深度學習取得了長足進步,但其中很大一部分成功是通過在標注數據上對深度神經網絡進行大規模訓練取得的。遷移學習被普遍使用,但實際上,人們對如何有效微調預訓練模型(如在 ImageNet 上預訓練的模型[8])并不十分了解。例如,這些方法很容易受到源數據集數據分布變化(領域變化)的影響,而且在遇到新問題時,往往不清楚從哪里轉移。雖然早期開發的方法涉及無監督、半監督、領域適應和少量學習(包括由該團隊開發的方法),但它們只解決了現實世界中的小部分問題,在實踐中往往無法擊敗僅靠遷移學習的強大基線[9]。

從那時起,情況發生了翻天覆地的變化,該計劃以及整個社區開發的方法使得大規模無標記預訓練與半監督學習相結合,顯著提高了低標記條件下的性能。研究團隊為這項工作做出了巨大的貢獻,從對問題的科學表述和理解,到實用算法的開發,這些算法在既有的學術數據集和評估中都表現出色。

通過使用圖表示法明確表示數據流形的結構來看待這些低標記問題。通過這一視角,提出了一系列創新方案,以回答傳輸什么、如何傳輸以及從哪里傳輸等問題。特別開發了以下方法:1)通過 "特征匹配"(FeatMatch)[13]利用數據流形結構;2)通過 "流形傳輸操作符"(Manifold Transport Operators)[14, 15, 16, 17, 18]利用數據流形結構;3)針對 "零鏡頭學習"(Zero-Shot Learning)的半監督聚類和檢索[19];4)通過檢索進行低標簽字幕制作[20, 21];5)通過 "交叉匹配"(Cross-Match)進行半監督對象檢測;6)在主動學習(Active Learning)方面取得進展。

研究提出的方法已在頂級會議上發表,包括 CVPR、ECCV、NeurIPS ICML、AAAI、UAI 和 TMLR。還產生了重大的實際影響,并開源了許多與論文相關的資源庫,這些資源庫擁有數百顆星,并被廣泛使用。最后,方法在 DARPA 獨立評估中取得了優異成績,經常是表現最好的方法之一。

圖 1:用于系統研究語義轉換(即不同標簽空間)和非語義轉換(即不同模態)的設置。使用一個共同的目標集,可以單獨研究其中一種類型的轉換,也可以同時研究兩種類型的轉換。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

深度學習已經成功應用于許多應用領域,但其在時間序列預測方面的優勢顯現較慢。例如,在著名的 Makridakis(M)競賽中,傳統統計或機器學習技術的混合應用直到最近才開始表現突出。隨著深度學習的最新架構進展(例如,帶有注意力機制的編碼器-解碼器、變換器和圖神經網絡)被應用于時間序列預測,深度學習開始展現顯著優勢。然而,在大流行病預測領域,深度學習模型仍面臨挑戰:時間序列長度不足以進行有效訓練、對累積的科學知識缺乏認識、以及模型的可解釋性問題。為此,基礎模型(具有廣泛預訓練的大型深度學習模型)的開發使得模型能夠理解模式和獲得知識,這些知識可以在廣泛訓練數據變得可用之前應用于新的相關問題。此外,深度學習模型還可以利用包括知識圖譜和用科學領域知識微調的大型語言模型等大量知識。目前,正在研究如何將這些知識利用或注入到深度學習模型中。在這篇綜述中,我們回顧了幾種最新的建模技術,并提出了進一步工作的建議。1 引言

過去四年對 COVID-19 的經歷向像國家科學基金會(NSF)和疾病控制與預防中心(CDC)這樣的組織清楚地表明,我們需要為下一次大流行做更好的準備。截至 2024 年 1 月 13 日星期六,僅在美國,COVID-19 就造成了 6,727,163 例住院和 1,169,666 例死亡(美國首例 1/15/2020,美國首次死亡 2/29/2020)。下一次大流行可能會更具傳染性,帶來更大的影響。有一些顯著的成功,例如能夠比以往方法更快開發的信使 RNA 疫苗。然而,檢測大流行開始和預測其軌跡的記錄還有改進的空間。 大流行病準備包括持續監測的需求。在復雜的隨機系統中預測罕見事件非常困難。從出現前到流行病再到大流行的過渡,只有在事后才能清楚地看到。使用模型進行大流行預測也非常重要。由于其高影響和可能造成的生命損失,復雜的模型被用于預測颶風的未來。大流行的影響可能會更大。與天氣預報一樣,準確的大流行預測需要三件事:(1)模型的收集,(2)準確的數據收集,以及(3)數據同化。如果這三者中的任何一個出現問題,準確性就會下降。準確性下降時,干預和控制機制無法最優化地應用,導致公眾的挫敗感。 在 COVID-19 大流行期間,數據每天都在收集,但如圖 1 所示,存在一個非常強烈的每周模式,主導了新增死亡曲線,這是報告流程的人為影響。另外,注意住院人數和重癥監護病房(ICU)患者數量似乎是很好的領先指標。 由于每日死亡人數的鋸齒形模式,一些建模研究發現使用每周數據更好。在 COVID-19 后期,日報停止,只剩下每周報告。不幸的是,這意味著用于訓練深度學習模型的數據大大減少。應用的建模技術是統計的、機器學習的或基于理論的腔室模型,這些模型是對易感-感染-康復(SIR)或易感-暴露-感染-康復(SEIR)模型的擴展。這些狀態之間的轉換由微分方程控制,其速率常數可以從數據中估計。不幸的是,估計例如處于暴露狀態的個體的人口可能非常困難。另外兩個類別,統計和機器學習(包括深度學習和基礎模型),可以說更適應可用數據,因為它們尋找重復的模式、依賴過去和領先指標。兩者都可以被構建為多變量時間序列(MTS)預測問題,盡管 MTS 分類和異常檢測的相關問題也非常重要。然而,與理論的聯系是可取的,可能會導致更好的長期預測,以及對現象的更深入理解。這導致了對理論指導的數據科學(TGDS)[52, 82]和物理信息神經網絡(PINN)[51]的研究。統計和機器學習技術相互補充。例如,建模研究應該有可靠的基線模型,根據我們的研究,應該包括隨機游走(RW)、自回歸(AR)和季節性、自回歸、整合、移動平均帶外部變量(SARIMAX)。當訓練數據有限時,SARIMAX 通常與深度學習模型競爭。如果使用每周數據,那么在大流行的早期階段,訓練數據將是有限的,正是準確預測最需要的時候。像 SARIMAX 這樣的基線也可以幫助進行超參數調整,因為有足夠的數據,人們會期望深度學習模型表現良好;SARIMAX 的結果可以幫助衡量這一點。此外,SARIMAX 已被用于數據增強,以幫助訓練深度學習模型[42]。 展望未來,這篇擴展了 [80] 的綜述論文提出了一個問題:人工智能(AI),特別是深度學習,如何被用于提高大流行病準備和預測,以便更好地深度學習模型、更可解釋的模型、使用大型語言模型(LLM)訪問科學文獻、開發和使用知識庫和知識圖譜,以及更好和持續的評估大流行干預和控制。

本文的其余部分組織如下:第 2 節提供了 MTS 預測的兩波改進的概述。第 3 節重點關注了最近在 MTS 預測方面的進展,著眼于變換器和相關建模技術。這些建模技術越來越努力更好地捕捉時間動態,并傾向于成為國家級 COVID-19 預測的頂尖表現者。第 4 節重點關注了最近在空間-時間域中的 MTS 預測進展,各種類型的圖神經網絡在這里有自然的吸引力。這些建模技術傾向于應用于州級 COVID-19 數據。第 5 節討論了用于時間序列預測的基礎模型,即大型預訓練深度學習模型。第 6 節討論了各種形式的知識,如知識圖譜,它是預測模型的自然補充。這些知識可以用于提高預測準確性,檢查預測的合理性(特別是長期預測的問題),指導建模過程,并幫助解釋建模結果。第 7 節給出了當前文獻中發現的幾種建模技術的有效性比較的元研究。最后,第 8 節給出了總結,包括展望未來 MTS 可能的發展方向。

付費5元查看完整內容

機器學習幾乎存在于日常生活的每個方面。大量的數據是需要的,但對于特定的問題卻并不總是可用的,這就排除了諸如深度學習和卷積神經網絡等先進方法的使用。歐幾里得網絡(EN)可以用來緩解這些問題。EN被徹底測試,以證明其作為分類算法的可行性,以及其方法可用于增強數據和轉換輸入數據以增加其特征空間維度。最初,人們假設EN可以用來合成數據以增加數據集,盡管這種方法被證明是無效的。下一個研究領域試圖擴大輸入特征空間的維度,以提高額外分類器的性能。這一領域顯示了積極的結果,這支持了更復雜、更密集的輸入將使算法對數據有更多的洞察力并提高性能的假設。人們發現EN作為一個獨立的分類器表現特別好,因為它在21個數據集中的12個取得了最高的準確性。對于剩下的9個,雖然它沒有最高的準確率,但EN的表現與更復雜的算法相當。事實證明,EN還能夠擴大數據集的特征空間,以進一步提高性能。這種策略提供了一種更穩健的分類技術,并在所有數據集之間看到了平均3%的準確性。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?

我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。

這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?

這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。

有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。

  • 撞擊前5.6秒,受害者被列為車輛,由雷達識別
  • 撞擊前5.2秒,受害者被歸類為其他,通過激光雷達
  • 撞擊前4.2秒,根據激光雷達,受害者被歸類為車輛
  • 在撞擊前3.8秒和2.7秒之間,通過激光雷達,在車輛和其他之間交替進行分類
  • 撞擊前2.6秒,根據激光雷達,受害者被歸類為自行車
  • 撞擊前1.5秒,根據激光雷達,受害者被歸類為不知名。
  • 撞擊前1.2秒,根據激光雷達,受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。

請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。

圖 1:基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。

付費5元查看完整內容

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其可以通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

引言

1.1 背景

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。

持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。

一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其能夠通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。

在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

1.2 貢獻

我們的工作對DARPA終身學習機器(L2M)計劃和持續學習社區的貢獻列舉如下:

  • 開發了生成式對抗網絡的持續適應模型(Cong等人,2020)。

    • 影響。所提出的框架優于最先進的方法,其參數和計算成本大大降低。
  • 開發了使用貝葉斯非參數字典權重因子的持續學習(Mehta等人,2021)。

    • 影響。第一個用于持續學習中自適應(數據驅動)模型擴展的無啟發式方法。
  • 為人類和機器的結構化任務分布開發了一個元學習框架(Kumar等人,2020)。

    • 影響。我們發現了一種雙重分離,即人類在結構化(成分)任務中表現更好,而代理(機器)在統計(非成分)任務中表現更好,盡管其復雜性相當。
  • 為鑒別性和生成性持續學習開發了高效的特征轉換(EFTs)(Verma等人,2021年)。

    • 影響。EFTS最大限度地減少了新任務的參數數(比基礎模型少5%),同時允許在類增量設置中進行任務預測。
  • 通過設計和利用參數有效的特征圖轉換,為生成式對抗網絡(GANs)開發了一種持續學習方法。

    • 影響。所提出的方法提供了一種內存效率高的方法來執行有效的持續數據生成,我們表明,特征圖轉換方法優于最先進的持續學習GANs的方法,參數大大減少(Varshney等人,2021)。
  • 開發了第一個用于NER的少許類增量學習的工作(Wang等人,2022a)。

    • 影響。所提出的框架可以用最少的標記數據學習識別新的實體類。
  • 開發了結構化稀疏卷積(SSC),利用圖像的固有結構來減少卷積濾波器的參數(Verma等人,2022)。

    • 影響。與現有的方法不同,SSC過濾器不需要在訓練期間或之后進行額外的修剪。
  • 開發了一個新的任務持續學習框架,該框架不假設任務序列是不同或唯一的,因此需要一個任務相似性識別模塊(Wang等人,2022b)。

    • 影響。我們在不需要訓練新模型的情況下,通過利用任務相似性指標來識別相似的任務,在實踐中取得了很高的任務相似性識別精度。
  • 在機器學習領域產生了9項學術科學貢獻,其中7項已經發表,2項目前正在審查。

    • 影響。我們的論文出現在頂級的機器學習領域,如NeurIPS、ICLR、ICML、AISTATS和ACL。此外,我們所有發表的方法論都有公開的源代碼。詳見表1。
  • 用我們的EFT框架為M21評估分類基準做出了貢獻(Verma等人,2021)。

    • 影響。在不同的指標中表現出有競爭力的性能,即96.6±0.23的Top-1準確率,0.86±0.23的樣本效率,相對于單一任務專家的0.93±0.01的性能,1.21±前向轉移率,以及0.99±0.00的后向轉移率。

下面,我們為每個貢獻提供一個簡短的總結,然后是我們項目產生的公開可用的軟件包的清單,以及一個完整的參考文獻清單,我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。

付費5元查看完整內容

經典算法和神經網絡等機器學習系統在日常生活中都很豐富。經典的計算機科學算法適合精確地執行精確定義的任務,例如在一個大圖中找到最短路徑,而神經網絡允許從數據中學習,以預測更復雜的任務,如圖像分類中最可能的答案,這不能簡化為一個精確的算法。為了更好地利用這兩個世界,本文探索了將這兩個概念結合起來,從而得到更健壯、更好的性能、更可解釋、更高效的計算和更高效的數據架構。本文提出了算法監督的概念,使神經網絡能夠從算法中學習或與算法結合。當將算法集成到神經體系結構時,重要的是算法是可微的,這樣的體系結構可以端到端訓練,梯度可以通過算法以有意義的方式傳播回來。為了使算法具有可微性,本文提出了一種通過擾動變量和封閉逼近期望值來連續松弛算法的通用方法,即:,不需要采樣。此外,本文還提出了可微算法,如可微排序網絡、可微呈現器和可微邏輯門網絡。最后,本文提出了用算法學習的其他訓練策略。h微ttps://www.zhuanzhi.ai/paper/8c415ddbac1f3d1c24e4bb5436caf786

Felix Petersen 研究興趣是具有可微算法的機器學習。例如,我已經做了一個使算法可微的通用框架,并且也關注了可微排序和可微渲染。雖然通過傳播分布來使算法可微分非常有趣,但我也喜歡通過神經網絡傳播分布,這可以提高不確定性估計、魯棒性和公平性。 我在康斯坦茨大學的視覺計算小組(Oliver Deussen教授)工作,并與Christian Borgelt, Hilde Kuehne, Mikhail Yurochkin等人合作。

四千年前,埃及人發明了兩個數字相乘的算法,這是[21]算法的最早記錄。1843年,Ada Lovelace發布了第一個算法計算機程序,并設想了計算機在藝術和音樂等方面的現代應用,而當時這樣的計算機甚至還沒有制造出來[22,23]。一個世紀后的1943年,麥卡洛克和皮茨根據對大腦生物過程的觀察,設計了第一個神經網絡的數學模型。近十年來,基于人工神經網絡的方法在研究中受到了廣泛關注。這種復蘇可以歸因于硬件[25]、軟件[26-29]、卷積網絡[30,31]的發展以及深度學習在許多任務(如圖像分類[32,33])上的優勢。 如今,經典算法和神經網絡等機器學習系統在日常生活中都很豐富。雖然經典的計算機科學算法適合精確執行精確的任務,如在一個大圖中找到最短路徑,但神經網絡允許從數據中學習,以預測更復雜的任務(如圖像分類)中最可能的答案,這不能簡化為一個精確的算法。為了達到這兩個世界的最佳效果,在這篇論文中,我們探索了將經典計算機科學算法和神經網絡,或者更一般地說,機器學習相結合。這將導致更魯棒、更好的性能、更可解釋、更高效的計算和更高效的數據架構。文中提出了一種可證明正確的嵌入算法,實現了模型的魯棒性。用一種快速算法代替神經網絡的一部分,降低神經網絡的計算復雜度,可以提高模型的計算性能。此外,在精確度方面,性能可以提高,因為有更小的潛在錯誤,并且領域知識支持網絡。相應地,這些模型也可以更容易解釋,因為算法的輸入通常(根據定義)是可解釋的。最后,由于算法監督是一種典型的弱監督學習,監督水平降低,模型的數據/標簽效率更高。通常,神經網絡使用隨機梯度下降(SGD)或預處理SGD方法進行訓練,如Adam優化器[34]。這些方法基于計算損失函數相對于模型參數的梯度(即導數)。這個梯度表示損失的最陡上升方向。由于最小化損失改進了模型,我們可以(在模型的參數空間中)沿著梯度相反的方向進行優化,即梯度下降。使用反向傳播算法[35]可以有效地計算損失相對于模型參數的導數,在當今的深度學習框架[26,29]中,該算法被實現為向后模式自動微分。 基于梯度的學習要求所有涉及的操作都是可微分的; 然而,許多有趣的操作,如排序算法是不可微的。這是因為像if這樣的條件語句是分段不變的,也就是說,它們的導數為0,除了在真和假之間的轉換(即“跳轉”)之外,它們的導數是未定義的。因此,使用(不可微分)算法進行基于梯度的學習通常是不可能的。因此,在這項工作中,我們專注于通過連續松弛使算法可微。連續松弛的基本思想是在算法中引入一定程度的不確定性,例如,它可以使if語句中的真和假平滑過渡,使算法完全可微。我們注意到,當超越反向傳播時,例如,通過RESGRO損失,如第七章所介紹的,可微性和平滑性不是嚴格必要的,但仍然是可取的。我們還注意到,在這項工作中,將無梯度優化算法與基于梯度的神經網絡學習結合在一起,可微分算法通常優于無梯度方法。

可微算法學習可以分為2個學科: I可微算法,即研究如何通過算法反向傳播并獲得有意義的梯度。I算法監督(Algorithmic Supervision),將算法知識融入到神經網絡模型的訓練中。可微算法學習是機器學習中一個相對較新的領域。具體來說,除了一些個人早期的作品外,可微算法和算法監督領域在2018年取得了進展。我們已經在圖1.1的調查直方圖中可視化了這一點。在這里,我們將所有關于可微算法的相關工作分為應用算法監督的和不應用算法監督的(左)。進一步,我們將它們分類為wrt。他們提出或應用的可微算法。我們注意到,作者在2018年提出并開始了可微算法的研究,即在該領域形成之初。我們還注意到,該領域正在發展,最近才看到對現實問題的直接應用。

本論文共分為8章:各章按時間順序依次展開,具體來說,第2章介紹了3-6章構建的核心思想和方法。第7章介紹了備選的優化方法,因此在很大程度上獨立于第2 - 6章的時間流程,但建議從第2章和第3章中獲取知識,以便深入理解應用程序。 第一章介紹了可微算法學習的核心思想,并涵蓋了重要的相關工作和應用。 第二章詳細介紹了可微算法和算法監督的一般方法。為此,這一章給出了可微算法的一般概述,并可以視為引言的延伸。接下來的章節以本章的思想為基礎,每一章都更深入地討論了一類特定的可微算法。 第三章研究了可微排序和排序方法,重點研究了可微排序網絡。我們首先介紹可微排序方法,并通過仔細的理論分析,得出改進的可微排序算子。 第四章介紹了可微top-k方法,在概念上建立了可微排序和排序方法。特別地,我們引入了可微top-k網絡,這是對top-k算子可微排序網絡的改進。在可微top-k的基礎上,我們提出了top-k分類學習,并在ImageNet分類任務上取得了優異的性能。 第五章介紹了可微呈現。我們介紹了可微渲染的各種方法,并提出了廣義可微渲染器GenDR,它(至少近似地)包含了大多數現有的可微渲染器,還可以推廣到新的可微渲染器。本章附有圖書館。 第六章提出了可微邏輯門網絡,它是邏輯門網絡的一種松弛,因此可以訓練。這允許極快的推理速度,因為由此產生的邏輯門網絡可以在普通硬件上本機執行,因為這種硬件首先在邏輯門上操作。這是一個可微分算法的例子,它可以被訓練,并不一定與算法監督有關。 第七章討論了備選的優化策略。具體來說,它討論了分裂反向傳播,一種基于正則化的通用兩階段優化算法,它允許使用不同于用于優化神經網絡的優化器來優化算法損失。分裂反向傳播還允許將神經網絡本身分裂為多個部分,并可以擴展到多個分裂,然后所有的訓練都可以端到端,即使子部分是用替代優化器訓練的,甚至是不可微的。 在第八章,我們總結了本文的主要貢獻,并討論了未來的研究方向。

付費5元查看完整內容

在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。

在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。

在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。

//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。

然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。

在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。

最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。

根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。

在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。

為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:

  • 我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。

  • 我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。

  • 我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。

  • 我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。

  • 我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。

付費5元查看完整內容

在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。

//arxiv.org/abs/2007.08199

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容

盡管有很多嘗試[1-6],深度學習的有效性到目前為止還沒有明確的解釋。考慮到神經網絡是一個非常簡單且定義良好的數學對象,這相當令人驚訝[7-9]。使分析變得困難的是深度神經網絡通常是用大量的參數來描述的,例如權重矩陣、偏差向量、訓練數據等。對于這樣的系統,大多數分析技術不是很有用,必須依賴于數字。這種情況與物理中發生的情況非常相似。物理系統(包括經典系統和量子系統)通常可以在自由度很小的時候被精確地解決,但是當自由度很大的時候,這個問題就變得棘手了。幸運的是,有一組思想被證明對于分析具有多個自由度的物理系統非常有用。它是統計力學。本文的重點是將統計力學的方法應用于機器學習。在本節的其余部分,我們將總結主要結果,因為它可能有助于讀者瀏覽本文。

付費5元查看完整內容
北京阿比特科技有限公司