這個項目的目標是通過利用多模態和多語言信息改進矢量空間語言模型來創造更好的詞匯表征。我們收集了一個大規模的多語言圖像數據集,稱為MMID,它將圖像與98種不同語言的詞聯系在一起(每種語言多達10K個詞,每個詞有100張圖像)。這個數據集讓我們全面分析了視覺相似性是否可以用來識別翻譯,以及這在多大程度上受到語言因素的影響,如語篇和具體性。我們研究了MMID是否可以用來減輕像ImageNet這樣的圖像分類數據集中的地理偏見(例如婚禮在世界不同地區的視覺上是不同的)。我們研究了地理因素對語言對之間的可譯性的影響程度;共同的語系、族群或共同的宗教等因素對視覺相似性的影響比地理因素大,因此通過圖像的可譯性也大。我們還從維基百科上收集了一個數據集,通過聚合帶有多語言標題的共享圖像,為我們提供完整的句子,而不是MMID中的單個單詞。
圖:一個注釋預測示例,上面的源是通過我們的 "wikily"模型翻譯的羅馬尼亞語目標。受監督的源樹是用相交的詞對齊來預測的。
本報告總結了題為 "多模態表征的半監督學習 "的項目的主要發現。這個項目的主要研究者是賓夕法尼亞大學的Chris CallisonBurch教授和波士頓大學的Derry Wijaya教授。執行期為19年6月26日至22年6月14日。這個項目與DARPA項目經理Boyan Onyshkevych正在管理的其他項目廣泛相關,包括DARPA AIDA項目,但它是一項獨立的工作。這個項目是通過DARPA的OpenBAA資助的。這個項目的總預算為428,000美元。
這個項目的目標是通過改進帶有多模態和多語言信息的矢量空間語言模型來創造更好的詞匯表征。這份最終報告將詳細介紹四項研究。
圖:草莓是心理語言學研究中具有高具體性的一個詞的例子。這反映在一致的視覺表示上。
在DARPA終身學習機器(L2M)項目下,我們探索了一種自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。然后,這些開發的算法通過模塊化框架整合在一起,產生了一個同時支持分類和強化學習任務的L2M系統。
我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比,對于該基準的Condensed和Dispersed場景,我們的結果顯示我們的系統有能力大大加快學習速度,平均前向遷移率為4.18和3.55,平均樣本效率為1.32和1.15。除了效率之外,我們的系統還顯示出比單任務專家更有效的性能,相對性能比為1.04和1.03,正向遷移比為1.12和1.04。
我們還通過使用Matterport 3D的機器人尋寶游戲,將這個L2M系統應用于綜合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示,與單任務專家相比,我們的系統學習分類任務的速度和準確性大約是他們的兩倍,顯示出平均相對性能為2.21,平均樣本效率為1.71,同時完全緩解了災難性遺忘。對于該領域的強化學習設置,我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率,這表明我們的終身學習智能體能夠學習新的任務,同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力,其平均前向遷移率為3.11。然而,經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統,我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言,我們的項目產生了110多篇科學出版物,展示了我們的工作和成果,從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子,我們的項目開發了最先進的使用占位預測的視覺導航,贏得了2020年人居署PointNav挑戰賽,并在2022年ICRA會議期間,在觀眾面前展示了服務機器人的實時終身學習的現場演示。
本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目,涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。
我們的項目探索了自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。
在第一階段,我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。
在第二階段,我們開發了一個綜合的、模塊化的框架,將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中,每個方面最有前途的算法被選為該系統中的模塊。然后,我們將這個L2M系統(1)應用于約翰霍普金斯應用物理實驗室(APL)的MiniGrid終身學習基準;(2)通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段,我們還繼續開發了第一階段的個別算法,并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時,我們就把它們過渡到L2M系統的模塊中。
由于這個項目包含了大量的算法(詳見附錄A),本報告將在第3.1節中首先關注綜合的L2M系統,展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后,我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的,首先探討綜合L2M系統在APL MiniGrid(第4.2節)和我們對具身智能體的Scavenger Hunt(第4.3節)的應用中的評價,然后探討本項目下開發的單個算法的評價(第4.4-4.5節)。
我們的工作產生了一些主要的貢獻,在本節中有所描述。為方便起見,我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的,我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度,以及它們對我們應用的必要性。
一個綜合的終身學習框架。 我們開發了一個模塊化的終身學習系統,在現實的服務機器人環境中支持分類和強化學習(RL)任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合,我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊,可以與核心分類和RL管道相結合,包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用,我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。
用于終身深度學習的去卷積因子化CNN(DF-CNN)。在非深度多任務和終身學習方面的現有工作表明,使用模型參數空間的因子化表示進行轉移是成功的,允許更靈活地構建任務模型。受此啟發,我們介紹了一種在卷積神經網絡(CNN)中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5],使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明,DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能,抵抗災難性的遺忘,并表現出反向轉移,從隨后的經驗中改善先前學到的任務,而無需重新訓練。與單任務學習者相比,DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進,擊敗了其他多任務和終身學習基線。
終身策略梯度:無遺忘的快速訓練(LPG-FTW)。 策略梯度(PG)方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中,智能體在其一生中會面臨多個連續的任務,重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法,通過策略梯度直接訓練終身函數近似器,使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明,我們的算法比單任務和終身學習基線學習得更快,收斂得更好,并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中,LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進,比最接近的終身學習方法改進了533%。
快速適應的元優化器(KFO)。 我們開發了一種算法,META-KFO,它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度,但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時,還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習:上層具有轉化底層梯度的同等效果,就好像上層是一個外部元優化器,在一個僅由底層組成的較小的網絡上運行。
高效探索和導航的占位預測(OCCANT)。最先進的導航方法利用空間記憶來概括新的環境,但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測,智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來,智能體就能更迅速地建立起自己的空間意識,這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文,我們的模型成功地預測了一個更廣泛的環境地圖,其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架,利用來自自我中心RGB(D)視圖的語義和幾何背景;(2)一個新的探索策略方法,結合占有率預測,以較少的探索獲得更完整的地圖;(3)成功的導航結果,在蘋果對蘋果的比較中,包括在歸納到一個不相交的數據集中的環境時,比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。
**學習內在獎勵的策略梯度方法(LIRPG)**最佳獎勵問題[6]旨在學習內在獎勵的參數,使所得獎勵達到RL智能體的學習動態,使從某些分布中抽取的任務的壽命(外在)回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上,我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數,并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時,我們通過考慮內在獎勵對策略參數的影響來計算元梯度,用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析,我們展示了我們的方法如何鼓勵在不確定的情況下進行探索,利用對象之間的因果關系,并考慮到非平穩的獎勵。
強化學習的課程策略(CMDP)。 強化學習中的課程學習是一種訓練方法,旨在通過首先在一系列較簡單的任務上進行訓練,并將獲得的知識轉移到目標任務上,從而加快對困難目標任務的學習。自動選擇這樣的任務序列(即課程)是一個開放的問題,也是該領域最近許多工作的主題。在這個項目中,我們以最近的一種課程設計方法為基礎,將課程排序問題表述為馬爾科夫決策過程(MDP)。我們對這一模型進行了擴展,以處理多種遷移學習算法,并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法,并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明,我們的方法產生的課程可以訓練智能體在目標任務上的執行速度,甚至比現有的方法更快。此外,我們最近的進展表明,這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。
目標關系和分布模型(OBJMAP)。 為了幫助定位智能體更有效地解決視覺搜索任務,我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候,一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題,建立一個包含所有看過的目標位置的環境地圖,然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。
組合式終身分類(COMPCLF)和強化學習(COMPRL)。人類智能的一個特點是能夠構建自成一體的知識塊,并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質,學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止,對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作,提出了一個通用的框架,用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段:學習如何最好地結合現有的組件以吸收一個新的問題,以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡,正如我們在分類環境的廣泛評估中所顯示的那樣。然后,我們探索了一種基于神經模塊的RL的特殊形式的組合,并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看,我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法,該方法利用積累的神經組件來加速對未來任務的學習,同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征,當任務大規模多樣化時,比非模數方法提供了82.5%的相對準確性的性能增益。
用于改進目標檢測的視頻中的無監督硬例挖掘(DETFLICK)。 最近,通過使用專注于硬負面例子的訓練目標,即目前被檢測器評為正面或模糊的負面例子,在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時,這些例子會強烈影響參數。不幸的是,它們在訓練數據中往往是稀疏的,而且獲取成本很高。在這項工作中,我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是,在時間上孤立的檢測,即沒有相關的之前或之后的檢測,很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性(以及硬陽性)的簡單程序[11]。我們的實驗表明,在這些自動獲得的例子上重新訓練檢測器,往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗,包括人臉檢測、行人檢測和其他目標類別。
使用自我訓練使目標檢測器自動適應新領域(STSL)。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽,再加上通過使用跟蹤器的時間線索獲得的硬(錯誤分類的)例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失,并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估:在WIDER-Face上訓練的人臉檢測器,由從網上抓取的高質量圖像組成,適用于大規模的監控數據集;在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器,適用于所有其他場景,如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性,通過蒸餾損失使用軟標簽相對于硬標簽的優勢,并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能,對超參數的依賴性最小。
一半和一半。研究視覺常識的新任務和基準(HNH)對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而,現在我們在這些問題上已經取得了一定程度的成功,現在是時候定義新的問題,以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識?我們認為,在不直接可見的情況下,對事物可能存在的位置進行智能評估的能力,是人類和其他智能生物共享的關鍵和普遍的能力,是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子,我們相信它代表了一種技能,在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信,以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中,我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點,我們依賴于這樣一個事實,即一幅圖像的不同視圖描繪的是同一個場景。因此,個別部分可以作為其他部分的背景線索。由于這個原因,我們把這些任務稱為 "一半和一半 "任務[17]。
高效的終身逆向強化學習(ELIRL)。從演示中學習(LfD)的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而,即使是單一的任務,LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體,如果每個任務都單獨學習,這個過程會給用戶帶來很大的負擔。為了解決這一挑戰,我們引入了從演示中終身學習的新問題,這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上,以加速新任務的學習,減少所需的演示量。作為這個問題的解決方案之一,我們提出了第一個反向強化學習的終身學習方法,它通過演示來學習連續的任務,不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。
使用高級共享特征集(SHELS)的任務無關的終身學習。深度神經網絡(DNNs)通常不能在動態開放世界環境中對未見過的類別進行概括,在這種環境中,概念的數量是無限制的。相比之下,人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是,人類通過獨有的(唯一的)基本特征集來描述概念,這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發,我們開發了一個稀疏的高層-排他性、低層-共享特征表示法(SHELS),它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外(OOD)的數據,而通過稀疏的低層特征有效地利用容量,可以容納新的知識。由此產生的方法使用OOD檢測,在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明,在各種基準數據集上,使用SHELS進行新穎性檢測,在統計上比最先進的OOD檢測方法有明顯的改進。此外,我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘,使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。
復合強化學習的基準(CompoSuite)。我們創建了CompoSuite,一個開源的模擬機器人操作基準,用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體,以實現任務目標,同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先,改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務,其中每個任務都需要有意義的不同行為。其次,RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估,并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷,并開辟了新的研究途徑。平均而言,單任務和多任務智能體能夠解決大約40%的任務,而具有明確組成結構的智能體則在此基礎上有所提高,解決了全部基準任務的92%。
用于多智能體強化學習的多智能體-注意力批判(MAAC)。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體,并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題;然而,隨著存在的行為體數量增加,這些方法不能很好地擴展。我們的方法,即多行為體-注意力批評[20],將注意力機制納入集中式批評者,以緩解這一問題。在多智能體領域的實驗表明,相對于最先進的基線而言,性能和可擴展性都有所提高。
用于多智能體強化學習的隨機實體明智因式分解(REFIL)。在智能體的一生中,它可能需要與具有不同能力/技能的智能體團隊合作;然而,在這些智能體的子組中經常出現共同的行為模式。我們提出的方法,即想象學習的隨機實體因式分解(REFIL)[21],試圖利用這些共同模式,通過將價值函數隨機分解為由不相干的實體子組組成的條款,來提高類似團隊的概括性。通過以這種方式構建價值函數預測,我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明,與最先進的基線相比,樣本效率和概括性都有所提高。
解決清道夫服務機器人的隨機旅行購買者問題(STPP)。創造能夠在人類居住的環境中執行通用服務任務的機器人,一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中,我們將這種技能建模為 "尋寶游戲"(Scavenger Hunt,SH),該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中,目標是盡可能快地找到一組物體,給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習(RL)來訓練一個智能體來計劃一個最小成本的路徑,并表明RL智能體可以勝過一系列啟發式算法,實現接近最佳的性能。為了促進對這一問題的研究,我們介紹了一個公開可用的軟件棧和相關網站,使用戶能夠上傳尋寶游戲,機器人可以下載、執行并從中學習,以不斷提高他們在未來游戲中的表現。
基于模型的貝葉斯探索的終身強化學習(VBLRL)。我們提出了一種終身的RL算法,該算法提取了以前遇到的任務中存在的共同結構,以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23],其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步:1)在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性:由描述任務概率分布的世界模型分布捕獲的不確定性,以及由單個任務內(隨機的)動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移,我們將這兩個量的學習過程分開,并保持一個近似于它們的分層貝葉斯后驗。2)執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作,從而提高采樣效率。
關于這些算法的細節將在下一節提供。
美國陸軍未來司令部的士兵致命性(SL)跨職能小組(CFT)正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術,作為陸軍下一代智能班組武器計劃的一部分。
敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出,以保持戰術優勢。這些決定可能是人工智能(AI)技術的強大信息,如AI支持的火力或指揮和控制決策輔助工具。例如,一個士兵發射武器是一個明確的跡象,表明該地區有一個敵對的目標。然而,一個士兵在環境中追蹤一個潛在的目標,然后放下他們的武器,這是一個模糊的、隱含的跡象,表明該目標受到關注,但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中,與士兵狀態相關的隱性標記數據(如光電視頻、位置信息或火力行動)可用于輸入決策輔助工具,以得出真實的戰場背景。然而,需要對這些行動進行更徹底的檢查。此外,來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響,但這些狀態估計或行為指標往往不能以立即可用的形式獲得。
DEVCOM陸軍研究實驗室(ARL)的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時,連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別(HAR)研究。然而,在這項工作中,為了提高行為結果的生態有效性,在眼球追蹤文獻中經常使用的實驗范式被反映出來,將眼球運動和認知推理聯系起來。具體來說,眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件(即固定、囊狀運動和追逐),這可以揭示認知過程和關于環境的客觀內容。在戰斗中,士兵們可能會將他們的目標停留在一個靜態的目標上(固定),當出現新的目標時迅速轉換目標點,有潛在的目標出現(囊狀運動),或者在潛在目標移動時跟蹤他們的目標點(平滑追擊)。
目前,頭戴式眼動跟蹤技術正在開發用于戰斗。然而,與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中,這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時,使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型,根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下,當近距離作戰的士兵與潛在的威脅進行互動時,武器的運動特征被伺機獲得,這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。
論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。
近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其可以通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。
近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。
持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。
一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其能夠通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。
在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。
我們的工作對DARPA終身學習機器(L2M)計劃和持續學習社區的貢獻列舉如下:
開發了生成式對抗網絡的持續適應模型(Cong等人,2020)。
開發了使用貝葉斯非參數字典權重因子的持續學習(Mehta等人,2021)。
為人類和機器的結構化任務分布開發了一個元學習框架(Kumar等人,2020)。
為鑒別性和生成性持續學習開發了高效的特征轉換(EFTs)(Verma等人,2021年)。
通過設計和利用參數有效的特征圖轉換,為生成式對抗網絡(GANs)開發了一種持續學習方法。
開發了第一個用于NER的少許類增量學習的工作(Wang等人,2022a)。
開發了結構化稀疏卷積(SSC),利用圖像的固有結構來減少卷積濾波器的參數(Verma等人,2022)。
開發了一個新的任務持續學習框架,該框架不假設任務序列是不同或唯一的,因此需要一個任務相似性識別模塊(Wang等人,2022b)。
在機器學習領域產生了9項學術科學貢獻,其中7項已經發表,2項目前正在審查。
用我們的EFT框架為M21評估分類基準做出了貢獻(Verma等人,2021)。
下面,我們為每個貢獻提供一個簡短的總結,然后是我們項目產生的公開可用的軟件包的清單,以及一個完整的參考文獻清單,我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。
蛋白質溶解度的預測對于天然蛋白質的基礎研究至關重要,但對于工程或設計的蛋白質的生產和研究也越來越重要,因為工程性能的實驗確認取決于生產的能力。因此,對蛋白質溶解度的準確預測是蛋白質工程師廣泛尋求的。在這里,我們提出了一種新的方法,使用極端梯度提升(XGBoost)算法,通過各種數據源,包括預測的溶劑/可及性、二級結構等,來預測蛋白質的溶解度。我們的模型使用一個標準的保留測試集實現了高水平的性能,總體準確率為72%,是基于序列的機器學習模型中最高的。關鍵的是,我們的系統還產生了對預測很重要的特征信息,利用可解釋的人工智能來提供局部和全局的解釋器。利用這些信息,我們發現某些單肽、二肽和三肽與溶解度密切相關,蛋白質的無序性、相對溶劑可及性和某些二級結構的頻率等指標也是如此,這些指標都是來自其他預測模型的。重要的是,在我們的模型的圖形用戶界面中,我們利用局部解釋來幫助告知預測背后的推理,并建議修改。我們的模型的準確性和可解釋性應該允許快速預測蛋白質的溶解度,特別是對于沒有可靠結構信息的蛋白質和蛋白質家族。這將極大地提高我們通過機器學習指導的方法和其他蛋白質工程策略來實驗生產和研究蛋白質的能力。
圖2. 數據集和模型開發流程圖。來自Rawi等人的序列數據被縮減為15000個訓練集,并在測試集中保留了2000個序列。獲得了基于結構和序列的特征,包括NetSurfP-2.0和各種R軟件包的輸出。XGBoost、RF和Na?ve Bayes模型在匯編的數據集上進行了訓練,在整個訓練過程中通過交叉驗證確定了準確性,最后在保留的(n=2000)Chang等人的測試集上進行了評估。
人們不斷地推動人工智能(AI)盡可能地像人類智能一樣;然而,這是一項艱巨的任務,因為它無法學習超出其目前的理解能力。類比推理(AR)已被提議作為實現這一目標的方法之一。目前的文獻缺乏對心理學啟發的和自然語言處理產生的AR算法的技術比較,這些算法在基于單詞的多選題類比問題上具有一致的指標。評估是基于 "正確性 "和 "良好性 "指標的。對于所有的文本問題,并沒有一個通用的算法。作為視覺類比推理的貢獻,卷積神經網絡(CNN)與AR矢量空間模型Global Vectors(GloVe)在擬議的Image Recognition Through Analogical Reasoning Algorithm(IRTARA)中被整合。IRTARA結果質量是通過定義、類比推理和人為因素評估方法來衡量的。研究表明,AR有可能通過其在文本和視覺問題空間中理解超出其基礎知識概念的能力,促進更多類似人類的人工智能。
在整個娛樂界,人們都認為機器人是人工智能(AI)的化身,幾乎可以立即識別和探測物體。然而,對于今天的人工智能來說,現實是明顯不同的。運行中的人工智能被訓練成能夠理解、識別或對幾個已知的實例采取行動;然而,像人類一樣,對人工智能可能遇到的每個場景進行訓練是不可行的,所以它有一些未知的場景,圖1-1的行數。當付諸實踐時,人工智能可以觀察到或接觸到它知道或不知道的東西(情況、物體等)。其結果是,人工智能的交互涉及圖1-1所示的四類可能的結果之一,基于實體是已知的(庫內)還是未知的(庫外),從正確分類(已知的已知)、錯誤分類(未知的已知)或各種庫外情況(已知的未知和未知的未知)(Situ, Friend, Bauer, & Bihl, 2016)。
圖1-1. 已知和未知矩陣
在圖1-1的三個類別中,至少有一個部分是已知的,然而,人們對探索如何 "學習 "未知的未知數有很大的興趣。未知數的例子是試圖識別一個機器學習(ML)算法以前沒有訓練過的物體。探索這一領域的動機包括自動化系統的不斷增長,以及無法產生能夠在已知-未知情況下評估問題的模型數量(Bihl & Talbert, 2020)。
現代娛樂業將人工智能展示為能夠幾乎立即解決未知的未知問題,正如2004年和2008年的電影《iRobot》和《Wall-E》所展示的那樣。雖然這兩部電影都發生在比現在更晚的未來,但它們給人留下的印象是人工智能比它的真實情況要自如得多。在這兩部電影中,人工智能可以識別極其廣泛的物體和情況,而觀察所需的時間似乎是最少的。這項任務本質上是復雜的,涉及多個人工智能過程,包括圖像識別、未知事物的識別和分類,以及復雜的推理邏輯。在這種情況下使用的人工智能俗稱包括許多涉及模式識別或ML的方法和領域;雖然ML是人工智能的一個子集,但俗稱的人工智能/ML可以用來包括許多能力,從分類和圖像處理到完全機器意識的計算機。
為了更好地說明人工智能在圖像識別方面的狀況,圖1-2.a所示的圖像由人類(即作者)和谷歌云的Vision AI進行評估。如圖1-2.b所示,人類會很容易地識別出天空中的許多煙花,然后,識別出煙花下面的水。對人類觀察者來說,這幅圖像顯然包含了多個物體;然而,視覺人工智能對這一結論感到掙扎。
圖1-2. 煙花圖像
Vision AI包括Vision API,可以對圖像中的各種物體/特征進行分類、識別和檢測(Google, 2021)。使用他們的工具的網絡演示,圖1-2.a所示的同一圖像被通過,并在兩種不同的情況下被評估,物體識別和圖像標簽。Vision AI只對物體進行識別,圖1-3中的綠框表示的是閃電,得分是51%(其中 "得分 "是一個從無信心,0%到高信心,100%的值(Google, 2021))。
圖1-3. 由谷歌云視覺AI分解的煙花圖像(谷歌,2021年)
然而,當試圖只給整個圖像貼上標簽而不是搜索特定的物體時,Vision AI明顯改善了其預測結果。這些結果,即排名、標簽和分數,都顯示在表1-1中。開頭用 "t-"表示的排名代表得分相同。在排名的頂部,這些標簽似乎適合于該圖像,特別是 "煙花 "以96%的分數出現在頂部。有幾個標簽激起了人們對該算法如何工作的好奇心。盡管 "地標 "和 "空間 "的得分是77%,但如果從圖像的表面價值來看,它們是不準確的。有幾個標簽似乎很難被普遍可視化,如 "午夜"、"事件 "和 "假日"。最后,有些標簽可能是準確的,也可能是不準確的,這取決于標簽的使用環境(例如,同音字,如 "光 "的亮度或重量,這兩個詞在這里都很合適),以及圖片的拍攝環境(例如,"除夕"、"排燈 "和 "中國新年")。
表1-1. 谷歌云端視覺AI標簽預測
退一步講,這很可能是一個已知的情況;然而,除了表1-1中的 "煙花 "標簽外,其余的頂級分類(得分大于或等于90%)都在不描述圖像的類別上,例如 "水"、"光 "或 "自然"。這就是圖像分類由于其對它所知道的類/標簽的限制而提供了非常狹窄的結果。能夠準確地解釋或識別這些未知的東西,是目前文獻中非常感興趣的。解決未知數的一個建議是通過應用類比推理(AR),從而通過類比進行推理/學習。
許多圖像分類算法是為2010-2018年的ImageNet大規模視覺識別挑戰賽(ILSVRC)創建的(Russakovsky, et al., 2015; Stanford Vision Lab, 2020)。ILSVRC主要關注三個不同的任務:圖像分類、單一物體定位和物體檢測(個別年份有一些變化)(Russakovsky, et al., 2015)。數據集包括1000個不同的類別,有超過一百萬張訓練圖像、五萬張驗證圖像和十萬至十五萬張測試圖像(Russakovsky, et al.) 2010年和2011年的獲勝者使用了 "淺層 "人工神經網絡(ANNs);然而,從2012年開始,比賽出現了第一個使用深層ANNs的作品,在比賽的生命周期內,深層ANNs一直很受歡迎(Russakovsky, et al., 2015)。這些深度ANNs在圖像分類領域是成功的,但需要大量的時間和高性能的計算資源。這些算法,如應用于ILSVRC的ANNs,是在一定數量的熟悉的實例上訓練出來的,因此可以處理已知的已知事物。然而,當遇到意想不到的查詢時,即一個在最初發布時沒有提出的新圖像類別時,這種算法要么完全不能勝任,要么表現不佳。
此類問題正是AR在改善人工智能結果方面的巨大潛力。AR可以根據算法已經知道的信息,從一個意外的查詢中提取信息。模仿人類使用類比學習的方式,算法也可以做到這一點,而不需要額外的訓練場景,更多的計算資源,和/或不合理地延長所需的運行時間。因此,令人感興趣的是現有的不同類型的AR算法,以及它們如何已經或可以與當前最先進的圖像識別程序相結合。
現有的許多AR算法都專注于語言和視覺領域的各種任務。然而,這些算法往往局限于語言或視覺問題,在利用兩者的信息方面幾乎沒有重疊。此外,許多視覺AR算法都集中在基于幾何的問題上,例如(Polya, 1990; Sadeghi, Zitnick, & Farhadi, 2015),這并不適用于上面提出的圖像分類問題。因此,感興趣的是在圖像識別的背景下使用AR來處理涉及未知數的問題。
圖像識別只是人工智能研究的一小部分;然而,它對日常生活的影響是最大的之一。一些例子包括用于解鎖手機的面部身份識別,圖像到文本的自動字幕生成器,自動駕駛汽車,以及其他許多例子。在這些場景中,不準確和未知的后果大體上從輕微的不便(即不得不手動解鎖手機)到可能危及生命的事件(即,自動駕駛汽車沒有檢測到行人)。隨著人工智能的日常使用的增加和后果的擴大,對能夠處理未知因素的精確人工智能的需求也在增加。
具體到自駕車場景,圖像識別算法需要識別許多不同的東西、物體和/或人,而且越來越不可能為所有可能的現實世界情況收集數據。例如,考慮到一個停車標志,在查看一個停車標志時,各種因素會改變它的表現,如眩光、照明、遮蔽、損壞、陽光角度、背景、油漆質量、外觀角度、安裝高度等等。由于不可能為每一種可能的情況收集數據,更不用說為其他物體收集數據了,所以能夠通過類比推理,認為觀察到的油漆褪色的停車標志與已知的停車標志的樣子相似,然后判斷這可能是一個停車標志,然后指揮汽車停車。
自1954年Polya的工作開始,算法的AR方法首先在1964年Evan的ANALOGY程序中得到發展(Polya, 1990)。從那時起,AR的許多途徑都被探索出來了。與作者的貢獻最相關的技術領域列舉如下
表1-2,列舉了最近的前期工作(2000年及以后)以及作者在本論文(Combs, 2021)或單獨文章(Combs, Bihl, Ganapathy, & Staples, 2022)中進行的研究的實例參考。
表1-2. 以前的技術貢獻和目前的研究貢獻之間的關系圖(在 "重點 "欄中用X表示)。
了解了技術和應用動機,以便更好地嘗試意外的查詢,本論文的目標是通過開發一個類比推理-增強的框架,在存在未知的未知因素的情況下提高圖像識別。圖像識別的發展有很多方式;然而,它們在解釋 "已知 "語料庫之外的能力方面是有限的。由于其結構圍繞著熟悉和不熟悉的場景,AR以前被用來,也將被用來從以前不熟悉的場景中產生信息。為了達到這些目標,研究和開發過程被分成了四個部分。
首先,在第二章中,為了了解AR的現狀,需要對AR的算法有一個全面的了解,包括以文本和視覺問題為中心的算法。由于這是在圖像分類問題的背景下進行的,所以這里也有一個簡短的部分專門討論圖像識別和卷積神經網絡(CNN)的研究。其次,在第三章中,由于文獻中的AR算法種類繁多,我們進行了廣泛的比較,以選擇AR中的最佳品種,進一步用于基于圖像的問題。六種基于文本的AR算法,包括混合算法和連接主義算法,在評估正確性和良好性的兩個指標上進行了比較。接下來,在第四章中,詳細描述了一種新的AR集成算法,用于對未知的未知事物進行圖像分類。這一節談到了用于測試算法的數據集,算法的工作原理(技術描述和3個步驟的演練),最后是算法產生的結果。最后,在第五章中,在選定的 "未知數 "背景下,討論了用于評估結果的兩種自動化方法以及作為基線的第三種基于人類的分析。第六章是論文的結尾,一般性地討論了在圖像分類問題上的研究的新穎性,以及未來關于AR如何在其他未知情況下使用的工作。
自軍用航空問世以來,美國軍方一直對遠程駕駛飛機感興趣。目前的無人駕駛飛機系統(UAS)通常由一架無人駕駛飛機(UAV)與地面控制站配對組成。自20世紀90年代以來,隨著MQ-1“捕食者”無人機的問世,無人機在美國軍事行動中變得無處不在。 美國軍方目前使用幾種不同的大型無人機,包括
?陸軍MQ-1C“灰鷹”, ?美國空軍的MQ-9死神, ?海軍MQ-25“黃貂魚”, ?空軍的RQ-4全球鷹, ?海軍的MQ-4C“海神” ?空軍的RQ-170哨兵。
此外,其他幾個被報道的項目要么正在開發中,要么正在試驗中。這些項目包括空軍的B-21“突襲者”和空軍的RQ-180。隨著國會履行其監督和授權職能,它可能會考慮與UAS項目相關的幾個潛在問題,包括:
?有人駕駛和無人駕駛飛機的成本, ?缺乏公認的后續項目記錄, ?管理整個國防部的無人機系統采購, ?UAS與現有部隊結構的互操作,以及 ?無人機系統國外出口管制。
在美國軍隊中,遠程駕駛飛行器(rpv)通常被稱為無人機(UAVs),被描述為單個飛行器(帶有相關的監視傳感器)或無人機系統(UAS),通常由飛行器與地面控制站(飛行員實際坐在那里)和支持設備組成。1雖然無人機系統通常是作為一架飛機與一個地面系統配對操作的,但國防部(DOD)經常采購帶有一個地面控制站的多架飛機。無人機與地面控制站和通信數據鏈結合,就形成了無人機系統(UAS)。
疲勞是導致水域事故的一個已知因素,降低了操作效率,并影響了作戰人員的健康。戰士認知狀態的實時反饋將允許提高對能力/限制的認識,并根據戰士的準備情況作出適應性決策。使用機器學習(ML)和可穿戴技術的疲勞檢測/預測項目旨在開發一種ML算法,能夠檢測出副交感神經系統(PNS)的變化,這些變化通過使用商用現成(COTS)腕戴設備檢測,進一步可分析認知疲勞。收集了30名參與者(包括一些現役軍人)執行可量化的警戒任務的生物識別數據集,并對操作者的表現指標和認知負荷進行了注釋。麥克沃思(Mackworth )時鐘是一項廣泛用于心理測量研究以量化認知參與和疲勞的警覺性任務,它的變體被用來生成定量的操作者績效指標和離散的認知負荷狀態。在有注釋的生物識別數據集上訓練和驗證了ML模型,以:1)回歸操作者任務表現的準確性,以及2)對認知負荷/任務難度進行分類。一個訓練有素的卷積神經網絡(CNN)回歸模型能夠預測麥克沃思鐘任務表現的準確性,平均絕對誤差在2.5%以內。此外,一個單獨的CNN分類器模型達到了86.5%的二元任務類型分類準確率,不同類型的任務對應著較高和較低的認知負荷。該研究與開發(R&D)工作的下一階段將包括與海軍有關的任務(即船舶導航、軌道管理和其他站崗任務)的額外測試活動,參與者僅包括現役人員。這項工作的最終目標是提供一個可穿戴設備和配套的軟件,能夠檢測和預測各種與海軍有關的任務的認知疲勞,目的是優化作戰人員的表現,以減少用戶的錯誤或最大限度地提高性能。
摘要
遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。
引言
遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。
概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。
與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。
本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
許多視覺和語言的研究集中在一組小而多樣的獨立任務和支持的數據集上,這些數據集通常是單獨研究的;然而,成功完成這些任務所需的視覺語言理解技能有很大的重疊。在這項工作中,我們通過開發一個大規模的、多任務的訓練機制來研究視覺和語言任務之間的關系。我們的方法最終在12個數據集上建立了一個模型,這些數據集來自4大類任務,包括可視化問題回答、基于標題的圖像檢索、基礎引用表達式和多模態驗證。與獨立訓練的單任務模型相比,這意味著從大約30億個參數減少到2.7億個參數,同時在各個任務中平均提高性能2.05個百分點。我們使用我們的多任務框架來深入分析聯合訓練不同任務的效果。此外,我們還展示了從單一的多任務模型中細化特定任務模型可以帶來進一步的改進,達到或超過最先進的性能。