亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在圖 1 中簡要介紹了布朗大學團隊的研究工作。在美國國防部高級研究計劃局(DARPA)的 "少標簽學習"(LwLL)項目中,團隊的工作包括技術領域 1(TA1)和技術領域 2(TA2)。技術領域 1 的目標是開發以下學習算法 (1) 將從頭開始建立模型所需的標注數據量減少至少 10^6 倍;以及 (2) 適應具有數百個標注示例的新環境。TA2 的目標是正式證明解決特定機器學習問題所需的標注數據量的限制。具體來說,我們的貢獻有兩個方面:首先,我們開發了廣泛適用的系統和方法,以減少學習對標注數據的需求;其次,我們定義了穩健的理論分析和框架,這些分析和框架是程序化弱監督和零點學習范例的基礎。

在該計劃中,預訓練的大型語言和視覺語言模型的出現帶來了新的挑戰,因為這些模型出色的泛化能力大大提高了基準性能。雖然這些進步降低了針對新目標任務完善模型時對標注數據的需求,但能否獲得足夠的特定目標數據仍然至關重要,尤其是對于遠離模型訓練數據的領域。考慮到這一點,我們的團隊將注意力轉向了在資源有限的情況下對這些大型模型進行參數高效調整。

總的來說,貢獻總結如下:

  • 推出了 TAGLETS [1],這是首個端到端機器學習系統,能以統一的方式自動整合數據和模型生態系統。在數據量較少的情況下,沒有經驗法則可以事先選出最佳學習策略。TAGLETS 包括來自不同學習范式的多種算法,如遷移學習、半監督學習和零點學習。每個模型最初都會在目標相關的輔助數據上進行微調,這些數據是從其他任務的標注數據集合中提取的[1, 2]。然后,將訓練好的模型作為弱標簽器,為未標簽數據生成偽標簽。新標注的數據和為數不多的標注數據被送入最終模型,成為系統的輸出結果。TAGLETS 最初使用較小的預訓練模型作為模型的骨干。用更大的預訓練模型取代這些骨干模型的進一步實驗表明,TAGLETS 的架構和任務相關輔助數據的重點,即使是更大的預訓練模型,也能從中獲益。(TA1)

  • 設計了一種新穎的零點學習方法(zero-shot learning approach),利用常識知識圖譜來豐富未見目標類的信息(ZSL-KG)[3]。在使用描述類別的屬性進行零點學習的背景下,我們首次提出了從屬性到類別的最佳映射的最壞情況誤差的非難下限,即使有完美的屬性檢測器也是如此[4]。該下界描述了基于可用信息--類-屬性矩陣--的零點問題的理論內在難度,而且該下界實際上是可計算的。(TA1 和 TA2)

  • 探索了如何在不同的低資源學習范式[5]下利用偽標記來提高視覺語言模型(VLM)在新任務上的能力。我們的主要觀察結果是,在半監督、無監督和轉導式零點學習設置中使用相同的學習策略,通過偽標簽學習可持續提高對比語言-圖像預訓練(CLIP)的性能。此外,通過使用假標簽進行提示來調整 CLIP,可減輕 CLIP 對某些類別的偏差。(TA1)

  • 開發了一種使用 CLIP(組合軟提示)[6] 學習如何組合概念的新方法。我們的方法在組合零點學習(即預測未見屬性-對象組合(如老貓和小老虎)的任務)方面表現良好。除了提出這種新方法外,我們還研究了 CLIP 編碼組合概念的能力,以及以對結構敏感的方式綁定變量的能力(例如,區分球體后面的立方體和立方體后面的球體)[7]。(TA1)

  • 從理論上研究并提供了在去除獨立性假設后組合弱標簽器的新方法。特別是,我們設計了具有誤差理論保證的解決方案[8, 9]。我們將這一分析擴展到漂移數據 [10]。此外,為了克服標簽輸出單一類標簽的假設,我們研究了用戶可以創建部分標簽輸出可能類標簽子集的情況 [11]。(TA1 和 TA2)

  • 在大型語言模型和視覺語言模型出現后,我們開發了 Alfred:第一個允許通過提示對大量未標記數據進行標記的框架[12]。(TA1)

方法對項目整體范圍的影響。

  • 布朗大學在 JPL 設計的圖像和視頻分類任務中評估了其 TAGLETS 系統。此外,我們還評估了 GRIP,這是一種利用偽標簽的基于 CLIP 的提示調整方法,用于解決 JPL 的零鏡頭學習任務。
    • 在圖像分類任務中,TAGLETS 的表現躋身前六名。
    • 在視頻分類任務中,當標記數據量增加時,TAGLETS 是表現最好的方法。
    • 在零鏡頭學習任務中,GRIP 的表現一直名列前茅,與基線相比提高了 20%。
付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文總結了我們在 DARPA LwLL(少標簽學習)項目中的研究和技術貢獻,該項目旨在減少訓練和調整機器學習模型所需的標簽數據。基于遷移學習,我們的方法利用了從數據集、知識資源、模型和架構、現有任務和訓練算法等各種來源獲得的歸納偏差。它將上述方法整合到一個連貫的框架中,并與 LwLL 評估協議保持一致,以便在各種學習條件下,在有限的監督下進行學習。利用生成式人工智能的最新進展,這項工作研究了注入適當歸納偏差的新穎而有效的方法,以推動圖像分類、物體檢測、視頻分類和機器翻譯領域的技術發展。研究成果包括在頂級人工智能刊物上發表大量論文、組織研討會以及培訓博士后和博士生。該團隊還在 LwLL 評估中表現出色,其對象檢測系統入選 NGA 過渡任務。此外,從 LwLL 項目中獲得的知識和技能還被應用到我們團隊參與的 DARPA CCU 項目中,該項目中只有 20% 的數據是有標簽的。

人類和許多動物都能通過少量實例學習新概念,從而快速適應新環境。然而,最先進的深度神經網絡過去往往需要大量標注數據才能學習感興趣的目標概念,這主要是由于這些模型的學習能力較強。不過,最近在生成式人工智能和指令跟隨大型語言模型(LLMs)方面取得的進展為機器學習系統在標記數據稀缺的情況下快速學習和適應開辟了新的可能性。在本項目中,我們的方法是學習如何通過將知識從某些任務轉移到其他任務(又稱轉移學習),從而在標簽較少的情況下有效地學習和適應。

從標簽較少的數據中學習的方法的一個必要條件是,它不應該專門針對為學習概念而制定的特定任務。粗略地說,一個任務包括一個數據集和一個學習特定概念的評估指標,例如 ImageNet 挑戰賽。從較少的標簽中學習的臨時和啟發式方法并不可取,因為它們無法在不同的數據和任務分布中始終如一地發揮良好作用。在本項目中,我們設計了有效的策略,通過利用泛化所需的歸納偏差來學習和/或適應新概念。在遷移學習的大框架下,利用不同的機制將這些歸納偏差 "遷移 "到感興趣的目標任務中。我們研究了多種深度神經網絡的泛化,包括圖像分類、物體檢測、視頻分類和機器翻譯等領域最先進的模型。

如前所述,我們通過注入歸納偏差實現了少標簽學習(LwLL)的樣本效率。本報告中使用的學習機 "歸納偏差 "概念值得澄清。"學習 "涉及從過去的經驗中歸納出新情況的能力,這種新情況與過去的經驗 "相關"。處理新情況所需的歸納飛躍似乎只有在選擇一種情況概括而非另一種情況概括的某些偏差下才有可能實現"[1]。

在本報告中,我們對 "偏差 "的工作定義是:"指除與觀察到的訓練實例嚴格一致之外,選擇一種概括[或假設]而非另一種概括的任何依據"[1]。我們使用的 "遷移學習 "是廣義的、通用的,包括最近的一些進展,如 (i) 預訓練--然后--再調整范式,以及 (ii) 使用指令跟隨大型語言模型(LLM)的零/少鏡頭學習。前者包括通過使用具有不同分布的海量無標記自然出現的網絡規模數據進行自我監督學習,從而提煉知識和歸納偏差。從根本上說,人們可能會問,這種歸納偏差的轉移是如何發生的?我們提供了一種基于壓縮論證的直覺[2]。在大型神經網絡定義的函數空間中,使用基于梯度搜索的壓縮算法對大量數據進行 "壓縮",從而捕捉到規律性,然后在感興趣的目標監督學習任務中加以利用,例如,通過自動制作的信息性和預測性特征。

后者依賴于 "調動 "大型神經網絡在預訓練階段所學到的提煉知識和歸納偏差,使目標任務受益。實現 "指令跟隨 "的方法是,讓經過預訓練的大型 LLM 接觸各種指令集,使網絡能夠理解并跟隨人類的新指令,從而獲取網絡中提煉出的大量知識。例如,這些指令可以是對如何生成分類任務標簽的描述,類似于在策劃標簽數據集時給人類注釋者的指令。這實際上將 LLM 變成了 "噪聲注釋器",或者換句話說,變成了 "零鏡頭 "方式的分類器。

利用這些進展,在 DARPA LwLL 的整個工作過程中,我們研究并探索了在各種學習環境中進一步注入適當的歸納偏差,以推動圖像分類、物體檢測、視頻分類和機器翻譯領域的技術發展。我們的目標是針對通用智能體在部署階段遇到的感興趣的學習環境,"自動專業化 "通用預訓練模型。這需要對各種挑戰和學習條件進行整體處理,包括采用適當的骨干預訓練架構(模型選擇)、識別智能體的知識差距并從人類注釋者那里查詢適當的未標注數據點的標簽(主動學習)、從已標注和未標注數據的組合中學習的算法(半監督學習),以及適應數據分布發生變化的新領域(領域適應)。我們要強調的是,在已發表的作品中,研究界通常只關注上述機器學習設置中的 "一種"。然而,自主智能體應該能夠處理系統部署過程中出現的所有這些設置,而這正是我們的工作所要解決的核心問題,與 LwLL 計劃的評估協議相一致。此外,我們在視覺和語言問題上始終使用 Transformer 架構[3],對這些不同的模式進行了統一處理,實現了對各種想法的無縫探索。

本報告的組織結構如下。首先,我們介紹了 DARPA LwLL 計劃的評估協議,并描述了我們應對使用較少標簽學習所面臨挑戰的主要框架。隨后是方法論部分,描述了我們的框架如何適應 LwLL 評估中考慮的四個問題:圖像分類、物體檢測、視頻分類和機器翻譯。然后,我們在 "結果與討論 "部分報告了評估結果和發現。最后,我們總結了我們的貢獻以及對未來少標簽學習的思考,以此結束本報告。

付費5元查看完整內容

本報告詳細介紹了在 DARPA LwLL 或 "少標簽學習 "項目中采用的方法和取得的成果。

本報告解決的關鍵問題是從小標簽數據集學習的問題。這是許多應用領域經常遇到的問題。尤其是在國防應用領域,標簽數據可能是分類數據,因此數量有限。不幸的是,現代深度學習系統需要大量的標注訓練示例,這使得它們在標注較少的情況下效果不佳。在本報告中,我們將介紹我們在開發新型學習機器方面所做的努力,這些機器可以有效地從少量標簽中學習。

我們對這一問題的主要見解是利用任務和領域中的結構。這種結構可以是關于所需不變性的領域知識。它也可能更無定形,難以具體化,但它可能決定了哪些分類器能在該領域發揮良好的作用。我們探索了三種納入這種領域結構思想的方法:

1.納入已知不變量: 我們探索了明確包含已知不變量的機器學習新架構。特別是,我們設計的識別架構允許特征在空間上移動,以納入姿勢不變性。

2.跨領域學習: 考慮到不同領域之間的相似性,我們探索了跨領域傳輸所學模型的新技術。

3.特定領域的學習算法: 我們還探索了兩個領域的專業學習技術:衛星圖像和自動駕駛汽車。對于這些領域,我們利用數據的特殊結構來學習無標簽模型。

使用標準基準和 DARPA 評估進行了實驗。普遍發現

1.在對領域一無所知的情況下,最佳策略是自我訓練,即使用經過適當過濾的網絡自身輸出作為 "地面實況 "標簽。在這里,我們發現了進行自我訓練的新方法,即使網絡是在完全不同的問題領域中訓練出來的。

2.如果我們了解我們正在處理的領域,我們甚至可以建立完全無監督的識別模型,其性能優于有監督的模型。關鍵是要利用底層數據生成過程的知識。我們在衛星圖像和自動駕駛汽車上都展示了結果。

付費5元查看完整內容

FLASH 項目的最初目標是利用豐富的結構化知識形式,開發新型高效的機器學習算法。具體來說,我們的假設是,適當使用結構化知識可以大幅減少在標準機器學習任務中實現一流性能所需的手工標記數據量,并解決兩個關鍵挑戰:

  • 利用結構:開發利用結構的通用算法,以便從很少或沒有手工標記的示例中學習新概念。
  • 推斷結構:通過主動從頭開始學習或從其他領域轉移結構,開發推斷結構的通用算法。

我們項目最初的重點是:(1) 程序合成/結構化預測: 設計新的結構化預測和程序合成算法,并利用它們來推斷和利用結構;(2) 研究神經表征(向量嵌入),并利用它們來開發將結構嵌入向量表征的新算法,并利用它來支持轉移和利用結構;(3) 推斷和利用領域知識和輔助信號作為誘導結構的一種方式,更好地解決轉移學習問題,并開發新的受限深度學習算法來納入輔助信號。

FLASH 計劃執行了這一計劃,并在上述所有領域做出了一系列理論和實踐貢獻。除了開發理論、算法和表征之外,我們還利用這些理論、算法和表征開發了自然語言和計算機視覺方面的應用。

此外,在 DARPA LwLL 項目過程中,由于大型預訓練生成式人工智能模型(包括 ChatGPT 等大型語言模型 (LLM))的成功,該領域的重點發生了變化。雖然工作目標沒有改變,但我們自己的研究議程適應了該領域的這些變化,同時與我們最初提議的廣泛目標保持一致。例如,我們提出的大部分向量嵌入工作都擴展到了研究 LLM,我們在程序合成方面的工作也加入了神經肌張力元素,詳見下文。

FLASH 計劃在頂級會議上發表了大量論文,下文的描述不會涉及所有這些貢獻。相反,我們將重點介紹每個技術領域的一些關鍵貢獻,并請讀者參閱以下豐富的參考文獻以獲取完整信息。

付費5元查看完整內容

該項目是為了支持美國國防部高級研究計劃局(DARPA)的 "開放世界新奇事物的人工智能與學習科學"(SAIL-ON)計劃。在第二階段基期工作中,我們推進了第一階段 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。在第二階段的選擇階段,我們將基礎階段的工作擴展到更廣泛的新奇事物生成和實施形式。

這項工作的主要成果包括:完成了新奇事物生成器的開發;對來自 3 個不同 SAIL-ON TA1 團隊的新奇事物進行了性能分析;開發了自動且可最大程度減少人為偏差的新奇事物生成與實施流程;將我們的新奇事物生成流程應用于 Monopoly、Vizdoom 和 Blocksworld 領域,從而證明我們的新奇事物生成器與領域無關;以及為 SAIL-ON 計劃提供支持。下面的項目總結和后續報告將更詳細地介紹這些成就。

項目總結

目前最先進的人工智能可以在已知已知甚至未知的情況下穩健運行。然而,人工智能仍無法可靠地檢測、描述和適應開放世界中的新奇事物。隨著研究界不斷努力實現先進的自主性,我們需要有科學依據的方法來評估人工智能體在開放世界環境中的表現。

PacMar Technologies(PMT)和 Parallax 高級研究公司開發了一套獨立于領域的理論、原則性技術和軟件工具,用于生成、描述和評估新穎性。這些理論和技術涵蓋了與領域無關的新穎性。在合同基期內,我們開發了一個測試平臺,用于評估智能體在自動駕駛汽車領域對新奇事物的反應性能,我們還在南加州大學 SAIL-ON 團隊提供的大富翁領域中實施了由我們的軟件工具自動生成的新奇事物。

我們的新奇事物生成器方法使用原則性技術自動生成新奇場景。這些場景被加載到模擬環境中,與給定的第三方人工智能體對接,以收集該智能體的性能數據。然后評估智能體在各種不同情況下處理各類新奇事物的能力。

我們將新奇定義為環境中的變化。簡而言之,變化可以是過渡函數的變化,也可以是狀態空間的變化。我們的方法有能力在過渡函數(包括行動和事件)、狀態空間定義和觀察函數中生成新穎性。精確生成新穎性的計算方法可分為兩種類型的轉換,其方式與創造性系統框架(Wiggins,2006 年)一致。我們方法的關鍵在于從八個維度對新穎性進行表征,從而支持將情景生成的重點放在可能挑戰智能體魯棒性的情況上。

我們的方法目標如下
 1.為新奇性的特征描述奠定科學基礎。 2.開發生成可用于評估智能體的新情景的技術。 3.確定這些技術的可行性及其在各領域的適用性。

本報告旨在清晰地描述我們的方法,包括新穎性生成、模擬和評估的方法。將我們的方法應用于 CARLA 的自動駕駛汽車領域、Monopoly、VizDoom 和海洋領域,有助于進一步發展理論和測試平臺軟件。最后,我們對本報告進行了總結,并提出了進一步研究的思考和啟示。

在第一階段的工作中,我們開發了一個基于新穎性多維表征的新穎情景生成框架。我們正式規定了這一多維表征、收集受測智能體數據的指標,以及評估智能體對不同類型新穎性的魯棒性的方法。在使用轉換生成新穎性的過程中,我們定義了 24 個函數簽名,并計算了應用這些簽名生成新穎性的上限復雜度。我們的研究表明,根據我們對新穎性的多維表征,使用這兩種類型的變換來改變場景生成,我們能夠顯著減少新穎場景的空間。為了支持新穎性的精確生成,我們構思了 TALONS 模擬器抽象語言(T-SAL)來描述環境和這些環境中的各個場景。我們利用這些概念來支持第三方智能體對新奇事物的魯棒性評估。

在第二階段基期工作中,我們推進了 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。我們制作了三個源代碼庫,詳見基礎階段最終報告,其中包含以下內容的實現:(1) TSAL 語言;(2) 新穎性生成器(實現 R 變換);(3) 使用 CARLA 自動駕駛汽車模擬器的評估框架。從理論角度來看,我們利用第一階段工作中開發的新穎性維度理論對新穎性進行了初步分析研究,并正式定義了 R 變換,然后利用這些定義正式定義了新穎性層次結構級別。

我們在第二階段選擇期內做出的獨特貢獻包括以下內容:

  • 提供更新的 TSAL 解釋器 - 基于 python 的庫,可將 TSAL 語言文檔轉換為 python 類實例。其功能包括讀取、寫入和修改 TSAL 語言文檔。在選擇期內,我們為 TSAL 問題文件文檔解析組件添加了目標表示。
  • 修訂了 T-SAL 規范定義。
  • 完成了新穎性生成器的開發--這是一個基于 python 的庫,使用 R 變換和 T 變換生成新的 TSAL 領域和問題文件。功能包括
    • 用戶可以選擇要考慮的 R 變換,從而集中搜索特定類型的新穎性。
    • 初始 T 變換包括生成隨機情景和從種子情景生成情景,種子情景具有可選規格,可防止某些謂詞類型在新情景中發生變化。
    • 我們實現了與領域無關的過濾功能,以確定新穎性是否相關--如果不處理新穎性,智能體將會看到性能降低。
  • R 變換的正式定義
  • T 變換的正式定義
  • 更新了大富翁領域的 TSAL 領域文件,并為 Vizdoom 領域、Blocksworld 領域和一個海事領域創建了 TSAL 領域文件。
  • 在 Monopoly、Vizdoom 和 Blocksworld 域中進行了評估,以完善新穎性生成器的操作,并證明它可用于多個域。
  • 為 Blocksworld 領域添加了 T 變換情景生成器示例
  • 使用我們的新穎性維度對來自 SAIL-ON TA1 團隊(WSU、UTD 和 ISI)的新穎性進行了分析。
  • 我們提供了嚴格定義的 SAIL-ON 創新水平邏輯定義。這些定義可用于檢驗新穎性是否屬于某一特定級別。
  • 正式定義了發現有價值新奇事物的三個條件,我們將這些條件稱為 "可學性條件",因為它們反映了智能體是否有望 "學會 "一個新奇事物:相關性、可注意性、可控性。
  • 我們創建了一個 "人在回路中 "的流程,開發人員可以使用我們的新奇事物生成器在其他模擬器中創建新奇事物,這些模擬器是在 TSAL 之外定義的,例如 Monopoly 和 Vizdoom。
  • 在整個執行期間出版了 4 份討論我們工作的出版物
  • 支持第 36 個月和第 42 個月的 SAIL-On 會議,包括在這兩次會議上介紹我們的工作。

付費5元查看完整內容

本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。

視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。

在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。

**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。

在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。

其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。

?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。

1.1 什么是多模態基礎模型?

正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。

在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。

視覺理解模型(在圖1.2中用橙色突出顯示)

學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:

  • 標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。

  • 語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。

  • 僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。

  • 多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。

視覺生成模型(在圖1.2中用綠色突出顯示)

最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。

  • 基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。

  • 與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等

1.2 定義和從專業模型到通用助手的過渡

根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。

? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。

第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。

付費5元查看完整內容

盡管人們對聯邦學習和貝葉斯神經網絡進行了研究,但對貝葉斯網絡的聯邦學習的實現卻很少。在本論文中,使用公共代碼庫Flower開發了一個貝葉斯神經網絡的聯邦學習訓練環境。隨之而來的是對最先進的架構、殘差網絡和貝葉斯版本的探索。然后用獨立同分布(IID)數據集和從Dirichlet分布得到的非IID數據集測試這些架構。結果顯示,貝葉斯神經網絡的MC Dropout版本可以通過聯邦學習對CIFAR10數據集的IID分區取得最先進的結果--91%的準確性。當分區為非IID時,通過概率權重的反方差聚合的聯邦學習與它的確定性對應物一樣好,大約有83%的準確性。這表明貝葉斯神經網絡也可以進行聯邦學習并取得最先進的結果。

美國海軍的考慮

使用FL是一個在邊緣采用人工智能的機會,并減少收集大量數據集的需要。這將極大地幫助海軍在艦隊中部署和訓練AI模型的工作。例如,通過傳統的人工智能管道,為海軍創建一個人工智能模型將需要每個指揮部合作創建一個全球數據集,無論是被動聲納還是網絡流量分析、維護或人力資源。這是一項非常昂貴和耗時的任務,隨著新數據的出現,在完成時可能已經過時了。然而,FL提供了一種方法,讓每個指揮部在他們本地的、當前的數據上訓練和部署一個模型,并將他們的模型與另一個指揮部的人工智能模型匯總。由于只傳遞模型的權重而不是整個數據集,所以通信成本也是最小的。雖然FL提出了一種在邊緣部署和訓練人工智能模型的方法,但貝葉斯網絡是一種不僅能提供預測,而且能對其評估的不確定性進行估計的模型。士兵在不確定的環境中工作,知道部署的人工智能模型何時對其預測不確定,可以防止人工智能和戰士的過度自信。這一特點可以極大地幫助人工智能-士兵團隊以更高的效率水平運作。將FL的分布式和持續學習特性以及貝葉斯NN的不確定性這兩個方面結合起來,將是海軍在各種應用中的巨大優勢,如網絡流量分析、合成孔徑雷達或無人機圖像分析,或無源聲納分析。

研究目標與貢獻

為了證明這一點,開發了一個FL框架來比較貝葉斯NN和它們的確定性對應物,并在本論文中分析了它們的結果。本論文的主要貢獻是在一個已知的數據集CIFAR10[2]上對這個框架進行了基準測試,以比較結果。該數據集在FL研究中被充分研究[3]-[6]。使用的人工智能模型架構是殘差網絡(ResNet)[7]。它是一個最先進的神經網絡架構,為CIFAR10數據集設定了一個基線。這使得貝葉斯ResNets可以在集中式和FL設置中與原始的最先進結果進行比較。本論文打算回答的主要問題有以下幾個:

  • 如何聚集貝葉斯NNs?
  • FL是如何影響貝葉斯NN的性能的?
  • FL能否提高NN的整體性能?
  • 在FL中,貝葉斯NN與確定性的NN相比有什么不同?

付費5元查看完整內容

本項目的目標是提高具有智能體間通信基礎設施的多智能體分布式任務協調的效率。在這個項目的第一階段,我們探索了基于共識的捆綁算法(CBBA)在預算約束下的分布式任務分配的改進。CBBA技術的局限性在于,環境必須被所有的智能體預先知道,任務必須被明確定義,并有已知的成本和獎勵。這種技術顯然不適合在未知環境中的合作任務,在這種環境中,智能體必須一起探索和即興行動。在這個項目的第二階段,我們研究了在未知環境中執行任務的合作技術,其中智能體只有部分觀察。該研究使用多智能體捕食者和獵物游戲作為平臺。目標是讓智能體聯合定位并捕獲獵物。智能體對環境和獵物的逃逸算法沒有事先了解。他們相互交流,以獲得超出他們自己本地觀察范圍的環境信息。基于他們對環境的局部理解,智能體選擇自己的行動,包括在哪里移動以及是否與其他智能體溝通,以使團隊獎勵最大化。強化學習被應用于優化智能體的政策,以便用最少的步驟完成游戲。

第二階段研究的主要貢獻是信仰圖譜輔助的多智能體系統(BAMS)。信念圖代表了智能體在融合了傳入的信息后所保持的環境的隱藏狀態。通過將信仰圖譜與強化學習框架相結合,并向信仰圖譜提供反饋,我們加速了訓練并提高了系統可以獲得的獎勵。在不同復雜程度的環境中,使用合作的捕食者和獵物游戲對BAMS的性能進行了評估。與現有的具有信息傳遞能力的多智能體模型相比,BAMS具有以下優點。

1)訓練收斂速度快68%,使用BAMS模型訓練的智能體完成游戲的步驟少27.5%。

2)它具有強大的性能。在應用模式中,智能體的數量不必與訓練環境相同。

3)智能體之間的信息是加密的。BAMS中的信息是智能體對環境信念的學習表示的向量。它們不僅包含關于智能體和環境的當前狀態的信息,而且還包含未來的狀態。每個數字都與智能體或環境的任何物理屬性沒有對應關系。除非有經過訓練的BAMS模型,否則不可能解碼這些信息。

4)智能體在訓練中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎不需要明確的交流就能理解對方的意圖。

  1. 解碼后的信念圖為智能體的決定提供了一個粗略的解釋。信念圖解碼器與BAMS中的策略網絡一起訓練。通過比較信仰地圖和實際地圖,系統收到額外的反饋渠道,從而監督訓練過程。在執行過程中,信仰圖譜提供了一種解釋智能體隱藏狀態的方法,這可以進一步用來解釋智能體的行為。

付費5元查看完整內容

在DARPA終身學習機器(L2M)計劃下,Teledyne著手研究、實施和展示算法方法,以解決兩個關鍵問題。首先,使智能體能夠自我監督,以便在沒有外部干預的情況下適應和學習復雜環境。為了解決這個問題,Teledyne開發并驗證了不確定性跟蹤和調制的作用,使智能體能夠監測自己的性能,并在適當的條件下自信地進行調整。這是一個重大的突破,因為它展示了具身智能體的自我監督學習和任務表現。第二個問題是實現強大的知識表示,盡管不斷地學習和適應,但仍能保持準確,并能適應學習多種任務的復雜性,對知識的粒度和組成可能有不同的要求。Teledyne開發并實施了一個分層學習系統,能夠將任務信息分解到多個層次,以最大限度地提高魯棒性和重復使用。這是一個重大突破,因為它使一類新的學習系統能夠保持一致的知識庫,并對其進行更新以適應多個任務,而不要求它們共享一個統一的表述。由此產生的算法被證明在最先進的機器學習系統中具有提升性能的作用,因此可以被納入許多現今的人工智能解決方案中,使其具備終身的能力。一個關鍵的建議是尋找機會將這些能力過渡到現有的人工智能系統中,從而促進它們向下一波人工智能過渡。另一個建議是將這些成就視為闡明終身學習機制的第一步,并參與持續研究,以更充分地了解如何在高度復雜的環境和條件下實現學習。 這些可能會迫使我們更仔細地研究建立、維護和利用分層知識表示的更完整的解決方案。

圖 1. 分層機器學習系統中選擇可塑性架構

報告總結

1.1 項目計劃概述

在DARPA終身學習機(L2M)計劃下,Teledyne進行了兩個階段的努力,開發能夠選擇性可塑性的機器學習系統。我們的努力解決了終身學習系統所面臨的兩個關鍵挑戰:(1)對其參數進行持續而穩定的學習,以及(2)如何實現最佳能力分配,以便在任務和條件發生變化時獲得有效的學習和性能。我們的核心前提是,大腦通過神經調節來解決這兩個問題:持續調節神經活動和可塑性的化學信號。具體來說,我們研究了神經調節劑乙酰膽堿(ACh)調節長期突觸可塑性和短期突觸活動的機制,特別是在進行物體識別和鑒定的視覺通路(腹側)。我們的目標是ACh作為編碼信號處理和推理中不確定性水平的反饋信號的作用;我們探討了這一信號如何調節低層次感覺特征的計算和選擇,同時也推動了高層次推理的學習。

這些調節原則構成了我們新穎的、可塑結點網絡(PNN)架構的核心。我們的PNN有一個層次結構,反映了大腦腹側通路的兩階段組織,這也是其他感覺通路所共有的,如聽覺和視覺定位(背側)通路。圖1提供了分層機器學習系統中選擇性可塑性的架構的高層次概述,其中異質層被引入以實現連續的動態,以支持早期層的最佳特征提取和容量分配,同時在后期層實現穩定和連續的學習。以下括號中的數字是指圖1中的橙色數字。調控是由不確定性的措施驅動的(1)。通過分析信號(自下而上)和任務要求/獎勵(自上而下)得出的不確定性被用來(2)影響早期層的特征提取/選擇和后期層的推理。早期各層調制的結果是快速招募網絡能力的特定部分(3),而在后期各層,學習被更強烈地調制,以確保穩定性,同時為新的或更新的任務保持適當的可塑性(4):網絡的早期各層進行特征提取(反映枕葉皮層),而后期各層計算推斷(匹配前額葉和顳葉皮層過程)。一個類似ACH的信號(測量不確定性)動態地調節著網絡的計算和學習。我們的網絡是異質的:不同層次和類型的節點對調制信號的反應不同。

1.2 普遍方法

終身學習需要不斷地適應;無論多少訓練都不能使一個網絡,無論是生物還是人工的,為它在其一生中可能收到的所有輸入做好準備。特別是,持續的學習需要有能力改變網絡的參數而不忘記先前的信息(即穩定的學習,也被稱為穩定性-可塑性困境[1])。此外,終身學習系統還面臨著第二個困境:持續編碼新信息的能力需要大量的計算資源,但由于自由參數的數量巨大,非常大的網絡是難以優化的。圖2說明了深度學習架構情況下的擴展限制。正在進行的研究[2]表明,無論用多少數據來訓練深度學習網絡,都無法擴展到任意大小。特別是,我們在DARPA的TRACE項目下進行的內部實驗表明,一旦一個深度網絡超過了最佳規模(圖2中的[a]),其學習能力就會隨著規模的擴大而急劇下降(圖2中的[b])。這意味著,僅僅建立更大的深度網絡并向其提供更多的數據,并不足以實現人類水平的學習。相比之下,我們的調制網絡只招募其節點的一小部分來優化容量(a),同時攜帶大的整體容量(b),使其能夠克服這個擴展限制。相比之下,終身學習系統必須以更智能的方式管理其計算資源,以實現最佳的容量分配和緩解性能下降。

圖 2. 深度學習擴展限制

1.2.1 理論工作

我們的基本前提是,大腦通過神經調節來實現這兩種能力:利用化學信號不斷調節突觸活動和可塑性。在神經系統中的許多神經調節劑中,乙酰膽堿是哺乳動物大腦中研究最廣泛的一種;它被認為與調節幾種高水平的認知功能有關,包括注意力、學習和記憶。更重要的是,ACh調節長期突觸可塑性和短期神經活動水平,特別是在腹側視覺通路(進行物體識別和鑒定)[2]。乙酰膽堿已被證明可以編碼不確定性,特別是預期的不確定性[3](以及相關的意外獎勵信號[4]),這是觸發和調節學習的一個關鍵反饋信號。特別是在腹腔通路中,乙酰膽堿調節著低層次感覺特征的計算,并驅動著更高層次推理的學習。

作為我們努力的一部分,我們開發了一個分層的、異質的、可塑性結點網絡(PNN)算法,稱為不確定性調節學習(UML),其中基于神經調節的計算特性使網絡的能力得到優化,以允許適應性和穩定性學習(圖3)。UML是根據大腦皮層的分層感覺信號分解和推理機制、反饋注意以及對不匹配的期望進行的神經調控來建模的。在UML中,一個類似ACh的信號(由測量的不確定性觸發)動態地調節著計算和學習。UML在機器學習方面實現了幾個突破性的能力,具體而言:

  • 穩定的學習,允許最大限度的更新,而不干擾現有的學習行為(即解決穩定-可塑性的困境)。

    • 與自上而下的反饋相結合,使輸入和任務的連續和少量的學習與以前學到的信息完全不同
  • 最佳的能力分配,只選擇和加強那些最大限度地提高信息含量和與當前任務相關的特征。

    • 當網絡被配置為分層學習時,導致多種計算動機的共存(即UML可以在不同的任務或行為之間復用)。

    • 以及每次有選擇地招募網絡的不同子集,允許它擴展到任意數量的節點(即幾乎沒有學習新信息的能力)。

UML代表了本地異質結構、反饋信號和神經調節作用的一個引人注目的新計算模型。

圖 3. Teledyne 在 L2M 階段 1 期間開發的 UML 算法

1.2.2 實驗和示范工作

我們的工作展示了算法和一個具有學習機制的集成系統,能夠在復雜的學習任務中進行終身學習。此外,我們證明了我們的UML算法能夠賦予其他機器學習算法以適應能力,在沒有災難性遺忘的情況下進行學習,并在非正常情況下恢復性能。這些結果的總結將在第1.3節介紹。

在該計劃的第二階段,Teledyne領導了一個系統組(SG),目標是整合一整套終身學習能力。為實現這一目標,Teledyne定義了一套最低限度的相關能力,并與我們的不確定性調制的持續學習范式保持一致(圖4,也見第2.2.1節)。該計劃第一階段的兩名L2M執行者被邀請加入我們的SG,他們是加州大學歐文分校,與加州大學圣地亞哥分校(UCI/UCSD)和密蘇里科技大學(S&T)的研究人員合作。在整個第一階段,Teledyne開發并演示了感官信號處理算法,該算法采用自下而上的信號分解架構來推斷與目標和決策有關的假設(圖4中的橙色和藍色塊)。此外,Teledyne開始展示使用注意力機制來調節學習和適應。S&T被招募來利用他們在這個算法系列中的經驗,共同實現一個受大腦自上而下注意力機制啟發的系統組件(圖4中綠色/黃色塊)。在與UCI/UCSD的合作中,我們著手研究睡眠啟發算法在任務執行后優化記憶和跨任務鞏固記憶(即知識)的作用(圖4中分別為洋紅色和青色塊)。

圖 4. 基于 SG 成員開發的類腦機制集成的關鍵 L2M 功能

1.3 成果概述

我們提出的方法的關鍵前提是,智能生物體測量和識別其環境、輸入、約束或目標的關鍵變化,以使它們能夠適應和學習而不需要外部指導(如教師、監督等)。正是通過這種自我監督的監測和評估,一個終身學習的智能體可以在復雜和變化的條件下具備可靠的功能。

通過我們的研究和實驗工作,我們確定了在生物智能系統中,測量和跟蹤不確定性是觸發適應和學習的關鍵機制。我們的L2M智能體被證明可以適應他們所學的技能或將新的技能納入他們的劇目,而不會出現災難性的遺忘。我們還證明了智能體有能力利用以前的技能來提高學習效率(前向和后向轉移),在存在干擾任務或條件變化的情況下快速恢復性能,利用樣本來適應或獲得技能,其效率與單一任務專家相同或更好(見4.1-4.4節)。

最后,Teledyne通過在整個項目第二階段進行的一系列里程碑式的實驗,證明了其綜合系統的有效性。這些結果將在第4.5節中介紹,并強調了在計劃定義的場景中L2M指標的性能。這些實驗有助于在所有L2M SG團隊之間建立穩定的節奏和協調的結果,并記錄性能方面的進展。此外,我們還利用這些實驗來確定我們的系統和/或算法的成功和缺點。對后者的分析被用來優化我們的工作,并適當地關注系統和算法的發展。結果是我們的系統在四個里程碑事件的過程中不斷改進,從第一次事件中只達到一個指標,到第四次事件中達到所有五個指標。這些結果也在第5.0節中進行了總結。

1.4 主要結論與建議

我們在整個項目中的工作完成了其主要目標:

  • 從神經調節的生物機制中得到啟發,得出一個有效的算法

  • 實現一種對現有機器學習系統具有廣泛適用性的算法

  • 使得智能體能夠自我監督,不斷適應和學習

  • 整合一個表現出注意力、基于不確定性的調節、分層學習和睡眠啟發的記憶優化機制的系統,以展示終身學習能力

我們工作的一個重要成就是開發了UML,一個新穎的終身學習算法,能夠自我監督以適應新的條件,從少數樣本中學習,并得出穩健的分層知識表示。最近一個令人振奮的認識是,我們著手研究并在最初提案中提出的關鍵能力(見表1)不僅完全實現,而且在整個計劃的所有實驗和演示中得到了徹底的證明。

表 1. Teledyne 方法的特點和優勢

特點 優勢
不確定性調控學習:我們認為,神經調控可以上調對解決兩個或多個類別之間的區別至關重要的神經元的學習。 證明新任務的學習表示不會覆蓋以前學習的任務。
不確定性調控容量分配:我們建議研究神經調控在上調網絡部分的激活和學習中的作用,這些部分可以最佳地解決特定任務并抑制那些無助于減少不確定性的部分。 構建具有非常大容量的網絡來支持終身學習,同時不會因為只激活網絡中最能支持任務性能的部分而導致準確性下降。
不確定性觸發新學習:通過跟蹤預期,新算法可以隨著時間的推移調整和改進其性能,尤其是在引入新任務或條件時。 展示了當響應確定性低于所需閾值時如何觸發學習,從而導致系統能夠自主檢測需要學習的新任務或條件。
不確定性調控特征提取:跨特征層的信號不確定性測量驅動早期層(特征提取器)中傳遞函數的調控。 實施的算法能夠適應特征提取處理以補償任務、條件或信號屬性的變化。

在第18個月(M18)的評估中,Teledyne SG顯示的結果表明,我們的終身學習者在五個項目指標中達到或超過了終身學習的門檻,在五個指標中的兩個指標超過了目標。這在第4.5.1節表11中顯示,淺綠色表示某項指標超過了終身學習門檻,深綠色表示某項指標超過了DARPA計劃目標。

我們從努力中得到的一個重要啟示是,不確定性已經被證明是一個有效的措施,它支持在線學習和創建強大的知識表征,而不需要監督或強化信號。我們還確定,我們開發的L2組件可以有效地集成到現有的ML系統中,以支持提高性能(例如,魯棒性、適應性等)。因此,存在大量的過渡機會(例子在第2.4節中討論)。Teledyne將繼續通過政府資助的工作、商業努力和內部資助的研究活動來尋求此類機會。Teledyne 也歡迎任何政府機構或個人要求進行討論,以促進對過渡機會的深入了解或識別。

我們的UML算法被證明是一個有效的組件(第2.3節),不僅適用于一個綜合的L2系統,而且可以作為現有機器學習系統的插件。其中包括為決策支持而設計的端到端系統,UML可以監測超出常規的條件或標記需要額外樣本或學習的條件。UML還被證明可以支持像基于強化學習的智能體那樣復雜的系統在新條件下的性能恢復。由于其輕量級的處理要求,UML可以在一個商品處理器(CPU)上以2000Hz的速度執行,因此適合在許多平臺上部署。

付費5元查看完整內容

本報告總結了網絡科學實驗方法項目期間的研究成果,大約涵蓋2017-2020年。該項目重點關注兩個主要議題:彈性網絡的上下文感知網絡和網絡安全。上下文感知網絡旨在改善戰術網絡及其支持服務的性能,使用上下文感知來加強目前的實踐方法,這些方法不一定考慮環境的動態和資源有限的邊緣設備和網絡的限制。彈性網絡的網絡安全旨在加強戰術網絡在動態和復雜對手面前的安全性。

參與本項目的美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員在相關主題的多個外部合作伙伴計劃的形成和合作中具有重要影響。這些項目的成果被納入任務資助的項目。這些合作伙伴計劃包括美國-英國分布式分析和信息科學國際技術聯盟(DAIS ITA)、戰場物聯網合作研究聯盟(IoBT CRA)、技術合作計劃(TTCP)和北約科學和技術組織信息系統技術(NATO STO IST)小組。

這項研究的影響包括:網絡模擬實驗驗證了支持理論結果的算法和技術的可行性,在網絡和通信研究界對研究成果進行了大量報道,并對陸軍概念科技(S&T)文件做出了貢獻。下文中總結的重點包括:利用沙堆模型開發網絡控制中的級聯故障的最佳控制,并確定可以防止級聯故障的條件;將密匙壽命提高一個數量級的物理層安全認證協議;以及對指揮與控制(C2)、火災和網絡科技概念文件的貢獻。

圖 1 包含理解、適應和執行周期的上下文感知網絡示意圖

付費5元查看完整內容

該項目基于博弈論、不確定性量化和數值逼近等方法,致力于兩個主要目標:(I)將它們應用于計算數學中具有實際意義的高影響問題;(II)它們向機器學習方向發展。本著這一目的,以及對概念/理論進步和算法/計算復雜性進步的雙重強調,本計劃的成就如下:(1) 我們開發了學習核的一般穩健方法,包括:(a) 通過核流(交叉驗證的一種變體)進行超參數調整,并應用于學習動態系統和天氣時間序列的外推;(b) 通過可解釋回歸網絡(核模式分解)對核進行規劃,并應用于經驗模式分解。(2) 我們發現了一種非常穩健和大規模并行的算法,基于Kullback-Liebler發散(KL)最小化,計算密集核矩陣的反Cholesky因子的精確近似值,具有嚴格的先驗復雜度與準確度的保證。(3) 我們引入了競爭梯度下降法,這是梯度下降法在雙人博弈環境中的一個令人驚訝的簡單而強大的概括,其中更新是由基礎游戲的正則化雙線性局部近似的納什均衡給出。該算法避免了交替梯度下降中出現的振蕩和發散行為,而且選擇較大步長的能力進一步使所提出的算法實現更快的收斂。(4)我們開發了一個嚴格的框架,用于分析人工神經網絡作為離散化的圖像注冊算法,圖像被高維空間的高維函數所取代。(5) 我們引入了一種通用的高斯過程/核方法來解決和學習任意的非線性PDEs。(6) 我們引入了一個新的不確定性量化框架,解決了傳統方法的局限性(在準確性、穩健性和計算復雜性方面)。

付費5元查看完整內容
北京阿比特科技有限公司