亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在生物學習中,數據不僅被用來提高當前任務的性能,也被用來提高以前遇到的和尚未遇到的任務的性能。與此相反,經典的機器學習,我們定義為從一張白紙開始,只使用手頭的單一任務的數據。雖然典型的遷移學習算法可以提高未來任務的性能,但在學習新任務時,它們在先前任務上的性能會下降(稱為遺忘)。最近許多持續或終身學習的方法都試圖在新任務中保持性能。但是,努力避免遺忘將目標定得過低:終身學習的目標,無論是生物還是人工,都應該是提高過去任務(后向轉移)和未來任務的前向轉移與任何新數據的性能。我們的關鍵見解是,即使在其他任務上訓練的學習者往往不能對當前的任務做出有用的決定,但他們可能已經學會了對這項任務有用的表征。因此,盡管集合決策是不可能的,但只要跨任務的分布足夠相似,集合表征就會有好處。此外,我們可以在準線性空間和時間內將不同任務獨立學習的表征集合起來。因此,我們提出了兩種算法:(1)樹和(2)網絡的表示集合。這兩種算法都在各種模擬和真實的數據場景中展示了前向和后向轉移,包括表格、圖像和口語,以及對抗性任務。這與我們所比較的參考算法形成了鮮明的對比,所有這些算法都不能向前或向后轉移,或者兩者都不能,盡管其中許多算法需要二次空間或時間的復雜性。

付費5元查看完整內容

相關內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容

在這項工作中,我們解決了雷達波形優化和目標跟蹤的問題。提出了一種基于控制論方法的優化波形設計和目標跟蹤算法,其中波形參數是通過最小化跟蹤均方誤差(MSE)而自適應設計的。在這項工作中,采取了幾種方法來提高雷達跟蹤性能。首先,卡爾曼濾波器被用來估計目標位置,用它來優化波形參數。實驗結果表明,所提出的算法有能力在笛卡爾空間內跟蹤飛行目標,它提供了對目標位置和目標速度笛卡爾矢量以及徑向速度的準確估計。該算法根據估計矢量在飛行中調整波形參數。在文獻中,多普勒效應理論被大量用于估計目標速度。在某些條件下,如跟蹤高速目標或惡劣的海洋和天氣條件下,多普勒效應就不那么有效。因此,在這第一個方法中,引入了一種依賴于卡爾曼濾波估計的算法,而不依賴于多普勒效應。一個具有實時自適應參數的低通濾波器被應用于估計的速度矢量,并提取準確的速度估計。此外,從一個現實的角度來解決雷達跟蹤問題,承認目標運動不能像我們提出的使用卡爾曼濾波器那樣用矩陣來描述,因此引入了交互式多模型算法來估計目標位置。通過模擬,我們證明了所提算法的良好性能,并證明波形優化可以提高雷達的跟蹤性能。最后,考慮從兩個天線而不是一個天線收集信息,并使用其中一個數據融合算法,以及IMM算法,我們能夠減少跟蹤誤差,并為跟蹤問題提供一個更穩健可靠的解決方案。

圖 1. 大腦/認知雷達感知-行動周期。

認知被定義為參與認識、學習和理解事物的心理過程。這個定義介紹了定義CR的三個主要成分:

  • 系統與環境持續互動并感知其地標的能力,包括潛在的目標和障礙物;這使得相控陣天線成為CR的主要組成部分,因為它們能夠快速掃描環境。

  • 智能地處理接收到的回波,并提取有關目標和周圍環境的測量值的能力。

  • 能夠提取有關目標和環境的信息,并相應地使用它來做出有關波形和目標運動估計的決定。

認知型雷達在某種程度上模仿了大腦的學習方式,并根據感官采取行動,遵循一個類似的循環:感知、學習、調整、行動。它們不斷地從環境中學習,并作出決定以提高跟蹤性能。類似的循環,即眾所周知的感知-行動循環(PAC),在解釋大腦如何工作或描述一些智能系統的文獻中被多次提及([2][3][4])。引用[2],神經科學家Joaquin Fuster將感知-行動循環描述為 "在處理目標導向行為的過程中,信息從環境到感覺結構,再到運動結構,再次回到環境,再到感覺結構,如此循環往復"。圖1解釋了與認知雷達相關的大腦的運行周期。在這項工作中,我們討論了這個閉環循環的所有步驟,這些步驟制約著CR的性能。提出了一個系統模型,并進一步討論了以估計和波形優化過程為重點的內容。

在文獻中,討論了兩種主要的波形選擇方法:控制論和信息論。在這項工作中,考慮了控制理論方法中的波形選擇標準。雷達波形參數主要通過最小化跟蹤均方誤差(MSE)來確定。

CR有一個閉環的工作循環。該系統依靠接收器的反饋來收集關于目標和環境的知識。這些知識然后被用來優化發射波形,并改進對目標的探測、跟蹤、估計和識別。這個概念在2006年由S.Haykin[1]在文獻中首次提出,他寫道,我們引用[1]"整個雷達系統構成了一個動態的封閉反饋回路,包括發射器、環境和接收器。

CR的運行周期(即上述閉環)從發射器對環境的照射開始。然后,從環境中反彈出來的傳輸波形(即目標回波、雜波等)被接收器截獲。關于目標和環境的有用信息從接收到的回波中提取出來,然后更新一個信息庫(記憶塊),在下一個周期由目標估計器(TE)作為一組關于環境的先驗知識使用。根據TE提供的估計結果,波形被優化。通常考慮用貝葉斯方法來實現目標估計器。

在CR中,提取的信息不僅在接收機層面發揮作用,而且在發射機層面通過改變波形和一些相關參數,如脈沖重復頻率(PRF)、脈沖寬度、脈沖數N和雷達發射時間表來發揮作用。這方面是CR與經典的自適應雷達的區別,后者只能在接收層面使用提取的信息。

波形優化設計作為一個重要的研究課題出現在信號處理界,因為它在許多領域都有廣泛的應用,如通信系統、聲納,以及在我們感興趣的情況下,改善雷達系統的性能。文獻中討論了許多設計標準,其中我們提到了最大信噪比(SINR)標準[9]、最大探測概率標準[14]、最大互感信息(MI)[8]標準和最小化均方誤差標準(MMSE)[10]、[11]。這些設計標準方法可以分為兩類:控制理論方法,其目的是為連續運行的動態系統開發一個控制模型;信息理論方法,更側重于研究信息流和從接收的測量數據中提取更多的目標信息。本文采用了控制理論方法,通過最小化跟蹤MSE來確定最佳波形選擇/設計。

付費5元查看完整內容

人工智能的主要目標之一是構建智能Agent,如計算機游戲中的對手或將包裹送到客戶手中的無人駕駛飛行器。這些智能Agent在各種環境中感知和行動以實現其目標。例如,在電腦游戲的情況下,目標是擊敗玩家。在包裹運送無人機的情況下,目標是將包裹及時送到客戶手中。

Agent感知環境的狀態,并需要決定下一步該做什么。一種可能的方法是強化學習[36],即Agent從與環境的互動中學習。這種方法在一些領域是成功的,在圍棋[60]、《星際爭霸》[66]或Atari游戲[41]中取得了超人的表現。Agent如何在環境中行動的另一種方法是事先創建一個行動計劃。對于一個給定的目標,Agent計算出導致它的行動序列。自動計劃在許多領域都是成功的,如深空1號[4]或火星探測器任務[1]。自動規劃的一個缺點是,當環境意外改變時,Agent通常不能再向目標前進。這種情況要么是隨機發生的,要么是由其他對手Agent的行動引起的。為了明確地推理其他Agent并找到一個穩健的計劃,必須使用博弈論方法[59],如 double-oracle(DO,見圖1)。博弈論算法在實踐中有幾個成功的應用,例如,在物理安全[64]或保護野生動物[19]領域。我們關注的更多案例是戰斗情況,如用無人機保衛核電站,抵御侵略者。

這項工作的主要目標是通過加強幾何推理來推進自動對抗性規劃的算法。盡管規劃域定義語言(PDDL)[39]是一個富有表現力的建模工具,但對行動的結構有一個重要的限制:行動的參數被限制在有限(實際上是明確列舉的)域的值上。這種限制的動機是,它確保了有基礎的行動集合是有限的,而且,忽略持續時間,在一個狀態下的行動選擇的分支因素也是有限的。盡管持續時間參數可以使這種選擇無限大,但很少有規劃者支持這種可能性,而是將自己限制在固定的持續時間上。像吉普車穿越未知寬度的沙漠這樣的問題是無法解決的[32]。

圖 1:對抗性規劃、資源分配、雙預言機算法、幾何導航(從左到右)。

我們提議對PDDL進行擴展,以豐富具有幾何特征的行動。我們實現了能夠將推理提升到空間領域的規劃器,并將其應用于對抗性環境。我們說明這些方法可以解決有趣的問題,并將這項工作應用于任務和運動規劃場景(圖2),以表明我們的工作有很大的潛力,可以重新發明機器人技術中使用任務規劃器的方式。即使沒有對手,幾何學也是有效的,但在DO算法中,規劃器被多次調用以獲得最佳響應,所以作為一個乘數,我們有,如果對手的規劃域是幾何學的,可溶性和擴展性會變得更好。

圖 2:幾何任務-運動規劃:循環、線性近似、檢查運動規劃(從左到右)。

付費5元查看完整內容

自監督學習是指從數據本身產生某種形式的標簽并訓練神經網絡,用來解決某些特定任務或者學習通用的圖像、視頻、語言的特征表達。在學術界,自監督學習被證明可以解決光流預測、深度估計、場景遮擋等問題,不需要額外的人工標簽。另外,基于自監督學習的無監督表征學習近年來也獲得了飛速發展,大有超越有監督表征學習的趨勢。

付費5元查看完整內容

深度神經網絡使現代計算機視覺系統在各種挑戰性任務上的性能達到了新的高度。盡管在準確性和效率方面有較大益處,但深度網絡高度參數化的非線性屬性使得它們非常難以解釋,在有對手或異常數據的情況下容易失敗。這種脆弱性使得將這些模型整合到我們的現實世界系統中令人不安。這個項目有兩條主線:(1)我們通過開發最先進的對抗性攻擊來探索深度神經網絡的脆弱性;(2)我們在具有挑戰性的操作環境中(如在開放世界的目標識別和聯合學習場景中)提高模型的穩健性。這項研究總共發表了九篇文章,每篇文章都推動了各自領域的最新進展。

深度神經網絡在機器學習領域,特別是計算機視覺領域取得了巨大的進步。雖然最近關于這些模型的大部分研究都是為了提高任務的準確性和效率,但人們對深度網絡的穩健性還不是很了解。深度網絡的高度參數化性質既是一種福音也是一種詛咒。一方面,它使性能水平遠遠超過傳統的機器學習模型。另一方面,DNN非常難以解釋,不能提供準確的不確定性概念。因此,在將這些強大的模型整合到我們最信任的系統之前,繼續研究和探索這些模型的漏洞是很重要的。

我們研究的第一條主線是通過制作針對各種模型的強大對抗性攻擊來探索DNN的脆弱性。從攻擊的角度來看,對抗性攻擊不僅引人注目,而且它們也是一種工具,使我們能夠更好地理解和解釋復雜的模型行為。對抗性攻擊還提供了具有挑戰性的穩健性基準,我們可以在未來進行測試。我們的理念是,為了創建高度穩健的模型,我們必須從嘗試充分了解它們目前可能失敗的所有方式開始。在第3.1節中,每項工作都有單獨的動機和解釋。在第3.1.1節中,我們首先討論了一個關于高效模型中毒攻擊的早期項目,該項目強調了具有暴露訓練管道模型的一個關鍵弱點。接下來,我們介紹了一系列的研究項目,這些項目引入并建立在特征空間攻擊的新想法上。這類攻擊被證明在更現實的黑盒攻擊環境中比現有的輸出空間攻擊要強大得多。這些論文在第3.1.2-3.2.4節中涉及。在第3.1.5節中,我們考慮了一個以前沒有考慮過的攻擊背景,其中黑盒目標模型與目標模型不存在類分布重疊。我們表明,即使在這種具有挑戰性的情況下,我們也可以利用對我們的特征分布攻擊的調整來對黑盒模型構成重大威脅。最后,第3.1.6節涵蓋了針對強化學習智能體的一類新的黑盒對抗性攻擊,這是一個未被探索的領域,在基于控制的應用中越來越受歡迎。請注意,這些項目的實驗、結果和分析將在第4.0節的相應章節中討論。

我們第二個研究方向的目標是直接增強DNN的穩健性。正如我們在第一條線中所詳述的,目前對抗性攻擊對基于DNN的系統構成了重大風險。在我們足夠信任這些模型并將其整合到我們最信任的系統(如防御技術)之前,我們必須確保我們考慮到所有可行的數據損壞和變異形式。在第3.2.1節中,我們考慮的第一種情況是在分布式學習環境中制定一個針對數據反轉攻擊的原則性防御。之后,在第3.2.2節中,我們極大地提高了自動目標識別(ATR)模型在開放環境中運行的準確性和穩健性,因為我們不能保證傳入的數據將包含訓練分布中的類別。在第3.2.3節中,我們更進一步,開發了一種內存受限的在線學習算法,通過利用部署環境中的樣本,增強了開放世界環境中ATR模型的穩健性。同樣,這些工作的實驗、結果和討論都包含在第4.0節的相應部分。

付費5元查看完整內容

美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。

本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。

在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。

研究問題

  • 當代 ML 智能體能否被訓練以有效地展示智能任務規劃行為,而不需要數十億可能情況組合的訓練數據?
  • 機器智能體能否學習使用攻擊機、干擾機和誘餌飛機的組合來對抗地對空導彈 (SAM) 的策略?干擾機需要離地空導彈足夠近才能影響它們,但又要保持足夠遠,以免它們被擊落。誘餌需要在正確的時間分散 SAM 對前鋒的注意力。
  • 是否可以建立足夠泛化的表示來捕捉規劃問題的豐富性?吸取的經驗教訓能否概括威脅位置、類型和數量的變化?

主要發現

RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰

  • 純 RL 算法效率低下,容易出現學習崩潰。
  • 近端策略優化是最近朝著解決學習崩潰問題的正確方向邁出的一步:它具有內置約束,可防止網絡參數在每次迭代中發生太大變化。
  • 機器學習智能體能夠學習合作策略。在模擬中,攻擊機與 SAM 上的干擾或誘餌效應協同作用。
  • 經過訓練的算法應該能夠相當容易地處理任務參數(資產的數量和位置)的變化。
  • 很少有關于成功和不成功任務的真實數據。與用于訓練當代 ML 系統的大量數據相比,很少有真正的任務是針對防空飛行的,而且幾乎所有任務都取得了成功。
  • 對于涉及使用大型模擬代替大型數據集的分析,所需的計算負擔將繼續是一個重大挑戰。針對現實威脅(數十個 SAM)訓練現實能力集(數十個平臺)所需的計算能力和時間的擴展仍不清楚。
  • 建立對人工智能算法的信任將需要更詳盡的測試以及算法可驗證性、安全性和邊界保證方面的根本性進步。

建議

  • 未來關于自動化任務規劃的工作應該集中在開發強大的多智能體算法上。RL 問題中的獎勵函數可以以意想不到的方式徹底改變 AI 行為。在設計此類功能時必須小心謹慎,以準確捕捉風險和意圖。
  • 盡管模擬環境在數據稀缺問題中至關重要,但應調整模擬以平衡速度(較低的計算要求)與準確性(現實世界的可轉移性)。
付費5元查看完整內容

摘要

多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。

本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。

為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。

許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。

引言

人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。

在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。

MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。

在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。

付費5元查看完整內容

強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。

強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:

  1. 代理收到觀察和獎勵。
  2. 代理從這種交互中學習并執行一個動作。 這個過程如圖1.2所示。在這種互動過程中,agent的目標是做出決策,使其獲得的長期報酬最大化。

論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。

第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。

第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。

第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。

總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。

付費5元查看完整內容

【導讀】元學習旨在學會學習,是當下研究熱點之一。最近來自愛丁堡大學的學者發布了關于元學習最新綜述論文《Meta-Learning in Neural Networks: A Survey》,值得關注,詳述了元學習體系,包括定義、方法、應用、挑戰,成為不可缺少的文獻。

近年來,元學習領域,或者說“學會學習的學習”,引起了人們極大的興趣。與傳統的人工智能方法(使用固定的學習算法從頭開始解決給定的任務)不同,元學習的目的是改進學習算法本身,考慮到多次學習的經驗。這個范例提供了一個機會來解決深度學習的許多傳統挑戰,包括數據和計算瓶頸,以及泛化的基本問題。在這項綜述中,我們描述了當代元學習的景觀。我們首先討論元學習的定義,并將其定位于相關領域,如遷移學習、多任務學習和超參數優化。然后,我們提出了一個新的分類法,對元學習方法的空間進行了更全面的細分。我們綜述了元學習的一些有前途的應用和成功案例,包括小樣本學習、強化學習和體系架構搜索。最后,我們討論了突出的挑戰和未來研究的有希望的領域。

//arxiv.org/abs/2004.05439

概述

現代機器學習模型通常是使用手工設計的固定學習算法,針對特定任務從零開始進行訓練。基于深度學習的方法在許多領域都取得了巨大的成功[1,2,3]。但是有明顯的局限性[4]。例如,成功主要是在可以收集或模擬大量數據的領域,以及在可以使用大量計算資源的領域。這排除了許多數據本質上是稀有或昂貴的[5],或者計算資源不可用的應用程序[6,7]。

元學習提供了另一種范式,機器學習模型可以在多個學習階段獲得經驗——通常覆蓋相關任務的分布——并使用這些經驗來改進未來的學習性能。這種“學會學習”[8]可以帶來各種好處,如數據和計算效率,它更適合人類和動物的學習[9],其中學習策略在一生和進化時間尺度上都得到改善[10,9,11]。機器學習在歷史上是建立在手工設計的特征上的模型,而特征的選擇往往是最終模型性能的決定因素[12,13,14]。深度學習實現了聯合特征和模型學習的承諾[15,16],為許多任務提供了巨大的性能改進[1,3]。神經網絡中的元學習可以看作是集成聯合特征、模型和算法學習的下一步。神經網絡元學習有著悠久的歷史[17,18,8]。然而,它作為推動當代深度學習行業前沿的潛力,導致了最近研究的爆炸性增長。特別是,元學習有可能緩解當代深度學習[4]的許多主要批評,例如,通過提供更好的數據效率,利用先驗知識轉移,以及支持無監督和自主學習。成功的應用領域包括:小樣本圖像識別[19,20]、無監督學習[21]、數據高效[22,23]、自導向[24]強化學習(RL)、超參數優化[25]和神經結構搜索(NAS)[26, 27, 28]。

在文獻中可以找到許多關于元學習的不同觀點。特別是由于不同的社區對這個術語的使用略有不同,所以很難定義它。與我們[29]相關的觀點認為,元學習是管理“沒有免費午餐”定理[30]的工具,并通過搜索最適合給定問題或問題族的算法(歸納偏差)來改進泛化。然而,從廣義上來說,這個定義可以包括遷移、多任務、特征選擇和模型集成學習,這些在今天通常不被認為是元學習。另一個關于元學習[31]的觀點廣泛地涵蓋了基于數據集特性的算法選擇和配置技術,并且很難與自動機器學習(AutoML)[32]區分開來。在這篇論文中,我們關注當代的神經網絡元學習。我們將其理解為算法或歸納偏差搜索,但重點是通過端到端學習明確定義的目標函數(如交叉熵損失、準確性或速度)來實現的。

因此,本文提供了一個獨特的,及時的,最新的調查神經網絡元學習領域的快速增長。相比之下,在這個快速發展的領域,以往的研究已經相當過時,或者關注于數據挖掘[29、33、34、35、36、37、31]、自動[32]的算法選擇,或者元學習的特定應用,如小樣本學習[38]或神經架構搜索[39]。

我們討論元學習方法和應用。特別是,我們首先提供了一個高層次的問題形式化,它可以用來理解和定位最近的工作。然后,我們在元表示、元目標和元優化器方面提供了一種新的方法分類。我們調查了幾個流行和新興的應用領域,包括少鏡頭、強化學習和架構搜索;并對相關的話題如遷移學習、多任務學習和自動學習進行元學習定位。最后,我們討論了尚未解決的挑戰和未來研究的領域。

未來挑戰:

-元泛化 元學習在不同任務之間面臨著泛化的挑戰,這與傳統機器學習中在不同實例之間進行泛化的挑戰類似。

  • 任務分布的多模態特性
  • 任務族
  • 計算代價
  • 跨模態遷移和異構任務

總結

元學習領域最近出現了快速增長的興趣。這帶來了一定程度的混亂,比如它如何與鄰近的字段相關聯,它可以應用到什么地方,以及如何對它進行基準測試。在這次綜述中,我們試圖通過從方法學的角度對這一領域進行徹底的調查來澄清這些問題——我們將其分為元表示、元優化器和元目標的分類;從應用的角度來看。我們希望這項調查將有助于新人和實踐者在這個不斷增長的領域中定位自己,并強調未來研究的機會。

付費5元查看完整內容
北京阿比特科技有限公司