離線策略學習旨在使用現有的軌跡數據集來學習決策策略,而無需收集額外的數據。使用強化學習(RL)而不是監督學習技術(如行為克隆)的主要動機是找到一個策略,該策略的平均回報高于構成數據集的軌跡。然而,我們經驗性地發現,當一個數據集被次優軌跡所支配時,最先進的離線RL算法并沒有在數據集中的軌跡平均回報上獲得實質性的改進。我們認為這是因為當前的離線RL算法假設要接近數據集中的軌跡。如果數據集主要由次優軌跡組成,這個假設會迫使策略模仿次優動作。我們通過提出一個采樣策略來克服這個問題,該策略使策略只受到"好數據"的約束,而不是數據集中的所有動作(即均勻采樣)。我們呈現了采樣策略的實現和一個算法,該算法可以用作標準離線RL算法中的即插即用模塊。我們的評估在72個不平衡數據集、D4RL數據集和三種不同的離線RL算法中顯示出顯著的性能提升。代碼可在//github.com/Improbable-AI/dw-offline-rl 獲取。
在這項工作中,我們旨在在兩大重要的機器學習研究領域之間建立緊密聯系:持續學習和序列建模。也就是說,我們建議將持續學習表述為一個序列建模問題,從而允許使用先進的序列模型來進行持續學習。在此表述下,持續學習過程變成了序列模型的前向傳遞。通過采用元持續學習(MCL)框架,我們可以在元級上訓練序列模型,處理多個持續學習情節。作為我們新表述的一個具體示例,我們展示了Transformers及其高效變體作為MCL方法的應用。我們在七個基準測試上的實驗,涵蓋了分類和回歸,顯示序列模型可以成為一般MCL的有吸引力的解決方案。
最近,CLIP引導的圖像合成在將預訓練的源域生成器適應于未見過的目標域方面表現出了誘人的性能。它不需要任何目標域樣本,只需要文本域標簽。訓練是非常高效的,例如,幾分鐘。然而,現有方法在生成圖像的質量方面仍然存在一定的局限性,并且可能會出現模式崩潰的問題。一個關鍵的原因是對所有的跨域圖像對應用固定的自適應方向,從而導致相同的監督信號。為了解決這個問題,本文提出了一種圖像特定提示學習(image -specific Prompt Learning, IPL)方法,為每個源域圖像學習特定的提示向量。為每個跨域圖像對生成一個更精確的自適應方向,使目標域生成器具有更大的靈活性。不同領域的定性和定量評估表明,IPL有效地提高了合成圖像的質量和多樣性,緩解了模式崩潰。此外,IPL獨立于生成模型的結構,如生成對抗網絡或擴散模型。代碼可以在//github.com/Picsart-AI-Research/IPLZero-Shot-Generative-Model-Adaptation上找到。
眾所周知,神經網絡在直接使用輸出標簽分布生成不確定性度量時存在過度自信的問題。現有方法主要通過重新訓練整個模型,賦予其不確定性量化能力,使學習到的模型在精度和不確定性預測方面同時達到預期的性能。然而,從頭開始訓練模型的計算成本很高,在許多情況下可能是不可行的。本文考慮一個更實際的事后不確定性學習設置,給出一個訓練良好的基礎模型,并專注于訓練第二階段的不確定性量化任務。本文提出一種新的貝葉斯元模型,以增強預訓練模型的不確定性量化能力,有效且計算效率高。所提出的方法不需要額外的訓練數據,足夠靈活,可以量化不同的不確定性,并容易適應不同的應用設置,包括域外數據檢測、錯誤分類檢測和可信遷移學習。在多個代表性的圖像分類基準上,證明了所提出的元模型方法的靈活性和在這些應用上的優越經驗性能。
強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。
//dspace.mit.edu/handle/1721.1/144562
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
作為人類,我們的目標和環境在我們的一生中不斷變化,這是基于我們的經驗、行動以及內在和外在的驅動力。相反,典型的強化學習問題設置考慮的決策過程是跨情景的靜態過程。我們能不能開發一種強化學習算法來應對前者中更現實的問題設置的持續變化?雖然策略上的算法(如策略梯度)原則上可以擴展到非平穩設置,但更有效的非策略算法(在學習時回放過去的經驗)卻不能這么說。在這項工作中,我們形式化了這個問題設置,并借鑒了在線學習和概率推理文獻的思想,得出了一個非策略RL算法,可以推理和處理這種終身非平穩性。我們的方法利用潛在變量模型從當前和過去的經驗中學習環境的表示,并使用該表示執行非策略RL。我們進一步介紹了幾個顯示終生非平穩性的模擬環境,并根據經驗發現,我們的方法大大優于那些不考慮環境變化的方法。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
在真實的應用中,數據通常以增長的方式出現,其中數據量和類的數量可能會動態增加。這將給學習帶來重大挑戰:隨著數據量或類的數量不斷增加,人們必須立即調整神經模型的容量,以獲得良好的性能。現有的方法要么忽視數據增長的本質,要么尋求對給定數據集獨立搜索最優體系結構,因此無法針對變化的數據及時調整體系結構。為了解決這一問題,我們提出了一種神經結構自適應方法,即adaptive eXpert (AdaXpert),可以在不斷增長的數據上有效地調整以前的結構。具體來說,我們引入了一個體系結構調整器,根據以前的體系結構以及當前和以前數據分布之間的不同程度,為每個數據快照生成合適的體系結構。此外,我們提出一個適應條件來確定調整的必要性,從而避免不必要的和耗時的調整。在兩種增長場景(增加數據量和類數)上的大量實驗證明了所提方法的有效性。
目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。
最近,深度半監督學習(SSL)表現得非常有效。但是,當類分布不匹配時,其性能嚴重下降,其中常見的情況是未標記數據中包含了一些標記數據中沒有看到的類。在這個問題上的努力仍然有限。本文提出了一種簡單、有效、安全的深層SSL方法來減輕其危害。從理論上講,新方法學習的結果不會比單純的標記數據學習差,并且在理論上保證了其在O(pdln (n)/n)階上的泛化接近最優,甚至比具有大量參數的監督學習的收斂速度更快。在基準測試數據實驗中,與現有的深度SSL方法相比,在40%的未見類未標記數據中,深度SSL方法不如監督學習,新方法仍然可以在60%以上的未見類未標記數據中實現性能提升。此外,該方法適用于許多深度SSL算法,并且可以很容易地擴展以處理類分布不匹配的其他情況。