**以往成功的缺失模態補全方法依賴于精心設計的融合技術和在完整數據上的大量預訓練,這可能限制其在領域外(OOD)場景中的泛化能力。**在本研究中,我們提出了一個新的挑戰:我們能否開發出一種既高效又能應對OOD泛化的缺失模態補全模型?為了解決這一問題,我們提出了一種無需訓練的缺失模態補全框架,該框架利用大型多模態模型(LMM)。我們的方法被稱為“知識橋接器”(Knowledge Bridger),具有模態不可知性,并結合了缺失模態的生成與排序。通過定義領域特定的先驗知識,我們的方法能夠自動從現有模態中提取結構化信息,并構建知識圖譜。這些提取的圖譜通過LMM連接缺失模態的生成與排序模塊,從而實現高質量的缺失模態插補。在一般領域和醫學領域的實驗結果表明,我們的方法始終優于其他競爭方法,尤其在OOD泛化方面表現突出。此外,我們基于知識的生成與排序技術在生成和排序方面優于直接使用LMM的變體,為其他領域的應用提供了有價值的見解。
大語言模型(LLMs)中的上下文學習(ICL)通過從整個訓練數據中選擇少量示范,提供了強大的少量樣本學習能力。然而,現有的ICL方法依賴于相似性或多樣性評分來選擇示范,這導致了高計算成本,因為每個查詢都需要反復從大規模數據集中進行檢索。
為此,我們提出了FEEDER(FEw yet Essential Demonstration prE-selectoR),一種新穎的預選擇框架,它識別包含訓練數據中最具代表性的示范子集,并針對特定的LLM進行定制。為了構建這個子集,我們在預選擇階段引入了“充分性”和“必要性”指標,并設計了一種基于樹的算法來高效識別代表性示例。一旦預選完成,這個代表性子集可以有效替代完整的訓練數據,在提高效率的同時保持ICL中的可比性能。 此外,我們的預選子集還對微調LLM有幫助,我們引入了一種雙層優化方法,在不犧牲性能的前提下提高了訓練效率。對于參數從3億到80億的LLM的實驗結果表明,FEEDER可以減少超過20%的訓練數據量,同時保持性能,并與ICL中的各種下游示范選擇策略無縫集成。
**復雜視覺推理與問題回答(VQA)是一個具有挑戰性的任務,要求具備超越簡單物體和事件識別與定位的組成性多步處理能力和更高層次的推理能力。**在本文中,我們提出了一種完全神經化的迭代與并行推理機制(IPRM),該機制結合了兩種不同形式的計算——迭代計算和并行計算——以更好地解決復雜的VQA場景。具體來說,IPRM的“迭代”計算有助于在需要動態計算、存儲和回憶個別操作的場景中進行逐步的組成性推理(例如,計算查詢:“確定坐在白色桌子旁邊穿紅色T恤的孩子左側的筆的顏色”)。與此同時,其“并行”計算允許同時探索不同的推理路徑,并有利于獨立操作的更強魯棒性和高效執行(例如,在查詢“確定所有T恤中出現頻率最高的顏色”時計算每種顏色的數量)。我們將IPRM設計為一個輕量級、完全可微的神經模塊,可以方便地應用于變換器(transformer)和非變換器的視覺-語言骨干網絡。它在多個圖像和視頻VQA基準測試中,超越了先前的任務特定方法和基于變換器的注意力模塊,測試了不同的復雜推理能力,如組成性時空推理(AGQA)、情境推理(STAR)、多跳推理泛化(CLEVR-Humans)和因果事件鏈接(CLEVRER-Humans)。此外,IPRM的內部計算可以在推理步驟中進行可視化,有助于提高其可解釋性和錯誤診斷。源代碼將發布于://github.com/shantanuj/IPRM_Iterative_and_Parallel_Reasoning_Mechanism
在本文中,我們考慮了多目標強化學習,這在具有多個優化目標的許多實際問題中出現。我們采用最大-最小框架來解決這一問題,重點關注多個目標之間的公平性,并在最大-最小框架下開發了相關理論和實用的無模型算法。所開發的理論在多目標強化學習方面提供了理論上的進步,而提出的算法在性能上顯著優于現有的基準方法。
在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。
圖自監督學習現已成為預訓練圖基礎模型的首選方法,包括圖神經網絡、圖變換器以及更多最近基于大型語言模型(LLM)的圖模型。圖的結構和屬性中嵌入了多種知識模式,這些模式可用于預訓練,但我們缺乏一個系統的綜述,以圖知識的角度來概覽自監督預訓練任務。在本文中,我們從知識基礎的視角全面綜述并分析了圖基礎模型的預訓練任務,包括微觀(節點、鏈接等)和宏觀知識(簇、全局結構等)。文中涵蓋了總共9個知識類別和25個預訓練任務,以及各種下游任務適應策略。此外,還提供了一個包含詳細元數據的相關論文的廣泛列表,地址為 //github.com/Newiz430/Pretex。
圖在各種真實世界的應用中普遍存在,展示出多樣化的知識模式[Zhang et al., 2022b]。隨著時間的推移,挖掘圖的技術已經從網絡嵌入發展到圖神經網絡(GNNs)、圖變換器以及更多最近的基于大型語言模型(LLM)的圖模型,這些合稱為圖基礎模型[Liu et al., 2023a]。圖上的自監督學習(SSL)已經成為一種強大的方法,用于發現大量未標注數據中的潛在模式[Kipf and Welling, 2016; Velickovi? et al., 2019],如圖1所示。為了實現更好的任務泛化性——圖基礎模型向各種下游任務泛化的關鍵能力,設計了各種類型的無監督預訓練任務,也稱為預文本,用于提取隱藏的監督信號以預訓練圖模型。之后,預訓練模型適應于各種應用場景,如節點分類、鏈接預測和推薦[Wang et al., 2023c]。本文提出了一個全面的綜述,關于圖基礎模型的自監督預訓練策略。我們的貢獻有兩方面。(i) 全面性:據我們所知,這是第一個涵蓋所有類型圖基礎模型的自監督預訓練綜述,包括GNNs、圖變換器和基于LLM的圖模型,使得可以進行統一分析以獲得更深入的見解。現有的綜述在這一領域僅限于一種類型的圖模型,如GNNs[Xia et al., 2022c; Xie et al., 2022b; Liu et al., 2022b]或基于圖的LLMs[Liu et al., 2023a; Jin et al., 2023],導致了一個不完整且分散的視角,忽略了GNNs和LLMs預訓練之間的關系。(ii) 基于知識的視角:現有綜述如[Xie et al., 2022b; Liu et al., 2022b; Liu et al., 2023a]廣泛地將圖SSL方法分類為“生成性(預測性)-對比性”。這種寬泛的分類不足以捕捉圖的獨特特性,圖的結構和屬性中嵌入了多樣化的知識模式。例如,預測鏈接的任務需要了解節點之間的局部關系,而預測簇的任務需要了解整個圖上節點的分布情況。為了更好地分析不同類型的圖自監督預訓練策略,我們提出了一個基于知識的分類法,將預訓練任務根據所利用的知識類型進行分類,如圖2所示:微觀知識(第3節)關注于節點級屬性和節點之間的局部關系,如鏈接和上下文子圖;宏觀知識(第4節)關注于對大部分或整個圖產生影響的大規模模式,如長距離相似性和簇。這樣的基于知識的分類法提供了一個統一的視角,不僅分析現有圖模型的預訓練策略,還有最新的基于LLM的圖模型(第5節),并探索圖基礎模型自監督預訓練的未來方向(第6節)。它為結合不同方法以創建更具泛化性和強大的圖學習者提供了靈感。
在許多實際情境中,安全探索對于增強學習(RL)的實用性至關重要。在本文中,我們提出了一個通用安全探索(GSE)問題,作為常見安全探索問題的統一公式。接著,我們提出了一個安全探索的元算法MASE作為GSE問題的解決方案,該算法結合了一個無約束的RL算法和一個不確定性量化器,以保證在當前情節中的安全,同時在實際安全違規之前適當地懲罰不安全的探索,以防止它們在未來的情節中出現。MASE的優勢在于,我們可以在保證有很高概率不會違反任何安全約束的情況下,優化策略。具體來說,我們提出了兩種不同構造的不確定性量化器的MASE變體:一種基于帶有安全和接近最優性理論保證的廣義線性模型,另一種結合了高斯過程以確保安全性和深度RL算法以最大化獎勵。最后,我們證明了我們提出的算法在格子世界和Safety Gym基準測試中比現有技術更優秀,即使在訓練期間也不違反任何安全約束。
近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。
近年來,基于異構信息網絡(HINs)的自監督預訓練方法與傳統的半監督異構圖神經網絡(HGNNs)相比顯示出了良好的競爭力。不幸的是,它們的性能嚴重依賴于精心定制各種策略,以生成高質量的正例和反例,這明顯限制了它們的靈活性和泛化能力。在這項工作中,我們提出了一種新的自監督異構圖預訓練方法SHGP,它不需要生成任何正例或負例。它由兩個共享相同注意力聚合方案的模塊組成。在每次迭代中,Att-LPA模塊通過結構聚類產生偽標簽,這些偽標簽作為自我監督信號,指導Att-HGNN模塊學習對象嵌入和注意系數。這兩個模塊可以有效地相互利用和增強,促進模型學習判別嵌入。在四個真實數據集上的大量實驗證明了SHGP對最先進的無監督基線甚至半監督基線的優越有效性。我們在//github.com/kepsail/SHGP發布源代碼。
知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。
知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。
論文摘要:
預先訓練自然語言表示時,增加模型大小可改善下游任務的性能。 但是,由于GPU / TPU內存的限制,更長的訓練時間以及意外的模型降級,在某些時候,進一步的模型增加變得更加困難。 為了解決這些問題,我們提出了兩種參數減少技術,以降低內存消耗并提高BERT的訓練速度。 全面的經驗證據表明,與原始BERT相比,我們提出的方法所導致的模型可擴展性更好。 我們還使用了一個自我監督的損失,該損失集中于對句子間的連貫性進行建模,并表明它始終可以幫助多句子輸入的下游任務。 因此,我們的最佳模型在GLUE,RACE和SQuAD基準上建立了最新的技術成果,而參數卻比BERT-large少。
論文目錄:
介紹(Introduction)
相關工作(Related work)
ALBERT因素
實驗(Experiments)
討論(Discussion)