深度強化學習(RL)為訓練最優序列決策智能體提供了強大的方法。由于收集現實世界的交互可能帶來額外的成本和安全風險,通常的模擬到現實(sim2real)范式是在模擬器中進行訓練,隨后在現實世界中部署。然而,RL智能體容易過擬合于選定的模擬訓練環境,并且更糟的是,一旦智能體掌握了特定的模擬環境集合,學習就會結束。與此相反,現實世界是高度開放的——特征是不斷演變的環境和挑戰,使得這種RL方法不適用。僅在大量模擬環境空間中進行隨機化是不夠的,因為這需要做出任意的分布假設,隨著設計空間的增長,抽樣對于學習有用的特定環境實例的可能性組合上會變得越來越小。理想的學習過程應該自動調整訓練環境,以最大化智能體在開放式任務空間中的學習潛力,該任務空間與現實世界的復雜性相匹配或超越。本論文開發了一類稱為無監督環境設計(UED)的方法,旨在通過原則性的方法逐漸提高學習智能體的魯棒性和通用性,從而啟用這樣一個開放式過程。在給定的潛在開放式環境設計空間中,UED自動生成一個無限序列或課程表的訓練環境,這些環境位于學習智能體能力的前沿。通過廣泛的實證研究和基于最小最大后悔決策理論和博弈論的理論論證,本論文的發現顯示,UED自動課程可以產生顯著提升魯棒性和泛化能力的RL智能體,使其能夠應對以前未見的環境實例。這樣的自動課程是朝向開放式學習系統的有前途的路徑,這種系統接近通用智能——這是人工智能研究長期追求的目標——通過不斷生成并掌握自己設計的更多挑戰。
知識圖譜(KGs)已成為一種高效的知識組織和表示方式,通過存儲實體之間的底層關系來實現。最近,大量研究工作致力于KG嵌入,旨在將KG中的實體和關系映射到低維連續向量空間中,以便快速推理。KG嵌入模型已廣泛應用于KGs上的不同學習任務,例如,KG補全、多跳復雜推理和KG對齊。由于大多數結構化知識只在特定時間點或特定間隔內有效,因此許多大型KGs將時間信息加入三元事實中,以捕捉知識的時間動態,除了其多關系特性。最近,時間KGs的可用性催生了對能夠建模時間感知四元事實的新KG嵌入方法的需求。本文旨在深入研究時間KG表示學習和推理。我們的動機是通過提出新的時間KG嵌入方法,提高嵌入模型在時間KGs上的性能。
在這項工作中,我們將靜態KGs的三個基本學習任務擴展到時間KGs,即,時間KG補全、多跳時間KG推理和時間實體對齊。我們首先提出了三種新穎的時間KG嵌入模型,即ATiSE、TeRo、TGeomE,用于時間KG補全任務。具體來說,ATiSE使用多維加法時間序列分解來模擬實體/關系表示的時間演變,TeRo定義了實體嵌入在復數向量空間中隨時間的旋轉演變,而TGeomE通過來自多維幾何代數的多向量嵌入對時間KG進行四階張量分解,并考慮新的線性時間規則化。我們提出的時間KG補全模型在發布時實現了最新技術。為了解決多跳時間KG推理問題,我們從三個常見的時間KG基準中生成了三個時間查詢數據集,并提出了一個基于向量邏輯的時間查詢嵌入框架TFLEX。TFLEX是第一個能夠同時處理一階邏輯操作和時間邏輯操作,并在TKGs上回答多跳實體查詢和時間戳查詢的查詢嵌入框架。
最后,我們引入了基于圖神經網絡的兩個新的時間KG嵌入模型,TEA-GNN和TREA,用于時間KGs之間的實體對齊,并提出了三個新的時間KG數據集作為評估實體對齊方法的參考。TEA-GNN將時間戳視為實體間鏈接的關注特性,并使用時間感知的圖自注意力機制有效地將時間信息整合到圖神經網絡中。在TEA-GNN的基礎上,TREA具有更好的歸納學習能力來表示新出現的實體和時間戳,并在大規模時間KGs上具有更高的訓練效率。我們實證證明,所提出的TEA模型顯著優于現有的靜態實體對齊方法和面向時間KG補全的時間KG嵌入模型。總的來說,這篇論文通過引入新的任務、指標、數據集和模型,解決了時間KG嵌入的不同挑戰。實驗結果表明,我們提出的方法成功地將時間信息整合到KGs的表示學習模型中。
許多任務涉及多個智能體,需要順序決策策略來實現共同目標,如足球比賽、實時策略游戲和道路網絡中的交通燈控制。為獲得所有智能體的策略,這些問題可被建模為多智能體系統,并通過多智能體強化學習(MARL)來解決。然而,由于復雜的多智能體行為和環境動態的非平穩性質,優化多智能體場景中的策略并非易事。智能體的行為及其與其他智能體的互動導致環境狀態和智能體觀察隨時間變化,使得開發長期有效的策略成為挑戰。此外,部分可觀測性(智能體對環境的信息有限或不完整)也增加了問題的復雜性。而且,環境動態的固有不確定性使得決策變得不穩定。
這篇博士論文通過提出新穎的MARL方法來應對這些挑戰。這些新方法使智能體能夠在動態且部分可觀測的環境中學習高效的策略,尤其是在需要合作的環境中。特別是,我們針對以下四個基礎的多智能體研究問題提出了解決方案。首先,我們研究了在風險較高的場景中為智能體學習風險敏感的合作策略的問題,這些場景的特點是執行潛在低回報行為可能導致重大的潛在獎勵損失。特別是,我們關注那些團隊內部存在智能體異質性且對手可能數量眾多的環境。為應對此問題,我們提出了RMIX來學習MARL中的風險敏感合作策略。我們首先通過分布式強化學習來模擬個體的Q值分布。然后我們利用條件風險價值(CVaR)來衡量個體回報的分布。我們還提出了一個動態風險水平優化器來處理執行過程中隨機 結果的時間性質。實證結果表明,RMIX在多種多智能體風險敏感場景中的表現優于現有最先進方法,它展示了更好的協調能力和提高了樣本效率。
接著,我們研究了在動態電子收費(DETC)問題中學習可擴展策略的問題,其中交通網絡龐大且動態變化。為此,我們提出了一種新穎的MARL方法,通過將大型狀態分解為更小的部分,對每個分解后的狀態學習多智能體策略,從而擴展DETC的處理范圍。具體來說,我們將圖網絡分解成更小的圖,并提出了一種新型的基于邊的圖卷積神經網絡(eGCN),以提取道路網絡特征的時空關聯性。提取出的特征被輸入到合作MARL方法的策略網絡中。實驗結果表明,這種分而治之的方法能夠擴展到現實規模的問題,并且性能穩健,顯著優于現有最先進方法。
第三,我們關注在行動持續時間的場景中學習高效多智能體協調策略的問題。由于行動持續時間的存在,獎勵被推遲,使得基于時間差異的MARL策略訓練變得具有挑戰性。為了解決這個問題,我們提出了一種基于我們新穎的基于圖的情節記憶LeGEM-core的獎勵重分配方法,以在非同步行動普遍存在的環境中學習高效的多智能體協調。非同步行動指的是具有行動持續時間的行動,在此期間環境變化受到這些行動的影響。LeGEM-core明確記憶智能體的過去經驗,并在MARL訓練中實現信用分配。我們將這種解決方案命名為LeGEM。我們在包括Stag-Hunter Game、Quarry Game和Afforestation Game在內的多種多智能體場景中評估LeGEM。實證結果顯示,它在具有非同步行動的多智能體環境中顯著提升了多智能體協調能力,并實現了領先的性能。 最后,我們的目標是學習能使智能體在訓練期間未見過的其他智能體的策略中進行協調或競爭的通用策略。我們提出了RPM,用于在評估場景中學習面向智能體的通用策略,這些場景中其他智能體的行為不同。RPM的主要思想是通過收集大量多智能體互動數據來訓練MARL策略。我們首先根據每個智能體的訓練集回報對其策略進行排名,然后將排名的策略保存在內存中;當一個情節開始時,每個智能體可以從內存中隨機選擇一個策略作為行為策略。這種新穎的自我博弈框架在訓練數據中多樣化了多智能體互動,并提高了MARL的泛化性能。Melting Pot上的實驗結果表明,RPM使智能體能夠在多智能體泛化評估場景中與未見過的智能體進行交互,并取得了提升的性能。
總結來說,這篇博士論文調查了四個普遍存在且未解決的基礎多智能體順序決策研究問題。所提出的四種MARL方法解決方案,在潛在獎勵損失、大狀態空間問題、行動持續時間和MARL泛化性缺乏所引起的不確定性多智能體環境中,為智能體提供了高效的策略訓練和性能提升。
這篇論文在機器學習領域做出了重大貢獻,特別是在開放世界場景的背景下,系統面對以前未見過的數據和情境。傳統的機器學習模型通常在一個固定且已知的類別集內進行訓練和測試,這種情況被稱為封閉世界設定。雖然這種假設在受控環境中有效,但在現實世界應用中卻不足夠,因為新的類別或數據分類可能會動態且意外地出現。為了解決這個問題,我們的研究了開放世界機器學習的兩個相互關聯的步驟:超出分布(OOD)檢測和開放世界表示學習(ORL)。OOD檢測專注于識別那些落在模型訓練分布之外的未知類別的實例。這個過程減少了對不熟悉輸入做出過度自信、錯誤預測的風險。超越OOD檢測,ORL擴展了模型的能力,不僅能檢測未知實例,還能從中學習并納入這些新類別的知識。 在OOD檢測領域,我們的工作首先引入了先進的方法論,即ReACT和DICE,它們可以有效地區分已知和未知類別的樣本。ReACT在測試時截斷異常高的單元激活,以減少模型對輸出的過度自信,而DICE通過稀疏化利用模型最有貢獻的權重來進行OOD檢測。此外,我們提出了一種基于距離的OOD檢測方法,通過引入一種非參數方法,使用K-最近鄰(KNN)距離,從而改變了對底層特征空間的剛性分布假設。 超越OOD檢測,ORL涉及更深入地探索未知的學習,回答關于已知和未知類別之間的相互作用,以及標簽信息在塑造表示中的作用的關鍵研究問題。通過嚴格的調查,我們旨在闡明關于已知類別的知識如何有助于揭示以前未見過的類別,以及標簽信息如何影響已知和新穎類別的學習和表示。這種探索激發了一種綜合的算法框架(OpenCon)的開發,用于ORL,由期望-最大化(EM)視角的理論解釋所支撐。 通過深入研究這些開放世界學習的研究問題,本論文為構建不僅表現良好,而且在面對真實世界不斷演變的復雜性時可靠的機器學習模型鋪平了道路。
無監督表征學習的目標是尋找一種方法,能夠在沒有注釋信號的情況下從數據中學習表征。避免使用注釋不僅帶來經濟效益,而且在一定程度上已經證明,對于表征的結構、魯棒性和對不同任務的泛化能力方面,可以帶來優勢。從長遠來看,由于減少了人為干預和更一般的設置,不會使優化偏向于特定注釋信號的目標,無監督方法有望超越監督方法。盡管在自然語言處理中最近觀察到無監督表征學習的主要優勢,但在視覺領域,對于大多數任務,監督方法仍然占據主導地位。在這篇論文中,我們從三個角度為無監督(視覺)表征學習領域做出貢獻:(一)學習表征:我們設計了無需反向傳播的無監督卷積自組織神經網絡(CSNN),它們利用自組織和Hebbian學習規則來學習卷積核和掩碼,以實現更深的無需反向傳播的模型。因此,我們觀察到基于反向傳播和非反向傳播的方法可能會因無監督預處理任務和目標任務之間的目標函數不匹配而受損。這種不匹配可能導致目標任務的性能下降。(二)評估表征:我們基于廣泛使用的(非)線性評估協議,定義了與預處理和目標目標無關的度量,用于衡量目標函數的不匹配。借助這些度量,我們評估了各種預處理和目標任務,并揭示了目標函數不匹配與訓練和模型設置不同部分之間的依賴關系。(三)轉移表征:我們貢獻了CARLANE,首個針對2D車道檢測的三向模擬至真實領域適應基準。我們采用了幾種眾所周知的無監督領域適應方法作為基準,并提出了一種基于原型跨域自監著學習的方法。最后,我們專注于基于像素的無監督領域適應,并貢獻了一種內容一致的非配對圖像到圖像的轉換方法,該方法利用掩碼、全局和局部鑒別器以及相似性采樣來緩解內容不一致,以及特征注意力去歸一化,將基于內容的統計信息融合到生成器流中。此外,我們提出了cKVD度量,將特定類別的內容不一致納入到感知度量中,用于衡量轉換質量。
隨著機器學習系統被部署到現實世界中的安全關鍵應用中,確保這些系統的魯棒性和可信度變得越來越重要。當深度神經網絡脆弱的本質被發現時,機器學習魯棒性的研究引起了大量的關注。對這種行為的迷戀和擔憂導致了對對抗魯棒性的大量研究,這種研究考察的是模型在最壞情況下的擾動輸入(即對抗性樣本)上的性能。在這篇論文的第一章中,我們展示了對抗性訓練方法在開發經驗魯棒深度網絡方面的改進。首先,我們顯示,通過某些修改,使用快速梯度符號方法的對抗性訓練可以產生比以前認為可能的更魯棒的模型,同時保持相比于其他對抗性訓練方法的更低的訓練成本。然后,我們討論我們在對抗性訓練過程中發現的過擬合的有害影響,并顯示,通過使用基于驗證的早期停止,可以極大地提高對抗性訓練模型的魯棒測試性能。對更自然、非對抗性魯棒性設置的日益關注已經導致研究者們以模型在隨機采樣輸入腐敗的平均性能來衡量魯棒性,這也是標準數據增強策略的基礎。在這篇論文的第二章中,我們將平均和最壞情況下的魯棒性的看似獨立的概念,在一個統一的框架下進行概括,這使我們能夠在廣泛的魯棒性水平上評估模型。對于實際使用,我們介紹了一種基于路徑采樣的方法,用于精確地近似這種中間魯棒性目標。我們使用這個度量來分析并比較深度網絡在零射擊和微調設置中,以更好地理解大規模預訓練和微調對魯棒性的影響。我們表明,我們也可以使用這個目標來訓練模型到中間級別的魯棒性,并進一步探索更有效的訓練方法,以彌補平均和最壞情況下的魯棒性之間的差距。
多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。
由于自動駕駛的復雜性和安全性關鍵性,最近的工作通常在為推進自動駕駛研究而設計的模擬器上測試他們的想法。盡管將自動駕駛建模為軌跡優化問題很方便,但這些方法中很少有借助在線強化學習(RL)來解決具有挑戰性的駕駛場景。這主要是因為經典的在線RL算法最初是為諸如Atari游戲之類的玩具問題設計的,這些問題可以在幾個小時內解決。相比之下,由于模擬耗時和問題本身的難度,使用這些在線強化學習方法可能需要幾周或幾個月的時間才能在自動駕駛任務上獲得令人滿意的結果。因此,一個有前途的自動駕駛在線強化學習流程應該是效率驅動的。
本文研究了由于昂貴的模擬成本,直接將通用單智能體或分布式RL算法應用于CARLA自動駕駛管道的低效性。本文提出兩種異步分布式強化學習方法,多并行SAC (off-policy)和多并行PPO (on-policy),致力于通過一個專門的分布式框架來加速CARLA模擬器上的在線強化學習訓練,該框架建立進程間和進程內并行。所提出的分布式多智能體強化學習算法在各種CARLA自動駕駛任務上以更短和合理的時間實現了最先進的性能。
自動駕駛的許多進展都集中在模塊化方法上,其中整個任務被劃分為多個子任務,如感知、規劃和控制[12,46,54,61,63,94]。雖然這種范式在典型的trac場景中表現良好,但在沒有為邊緣情況精心設計的特殊程序的情況下,它很難處理分布外駕駛情況。為了應對這個問題,強化學習(RL)受到了關注,因為自動駕駛可以自然地視為一個軌跡優化問題,我們需要對駕駛過程進行最優控制。經驗證據表明,強化學習方法能夠以高度自動化的方式實現這一目標,而不需要手動處理具有挑戰性的長尾和罕見情況。它們的成功已經在許多決策任務中得到了證明,例如玩策略游戲或操縱機器人[8,60,74,78,79,81,88]。
深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930
盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。
在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。
其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。
在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。