近年來,大型語言模型(Large Language Models, LMs)的研究主要集中于擴大模型參數規模和訓練數據量,這雖然能顯著提升性能,卻也帶來了高昂的計算成本。此外,傳統的參數化語言模型本質上難以適應未知領域、編輯已學知識、保留長尾知識,并且容易泄露訓練語料中的隱私數據。本論文旨在探索在解決上述問題的同時擴展語言模型的新路徑。
首先,我們研究了具備檢索增強能力的語言模型,即語言模型通過外部數據存儲進行預測。我們提出了一種新穎的端到端訓練方法 Trime,該方法能夠聯合優化語言模型與檢索模型。實驗結果表明,Trime 能在不增加模型規模或計算預算的前提下,顯著提升語言模型的性能。此外,使用 Trime 訓練的檢索增強語言模型能有效適應此前未見的領域。
其次,我們聚焦于語言模型中的一個核心挑戰:編輯模型參數中存儲的知識。這是一個至關重要但尚未充分解決的問題,因為現實世界的信息是不斷變化的。我們調研了當前最先進的知識編輯方法,并發現現有的評估范式非常有限。為此,我們提出了一個新的基準測試集 MQuAKE,其中包含多跳問題,用于評估模型在知識更新后是否能正確推理出由新事實所引出的變化。實驗顯示,現有的知識編輯方法在這些多跳問題上表現不佳。我們進一步提出了一種簡單的檢索增強方案,將所有編輯后的事實外部存儲,性能遠超現有方法。
第三,我們探索了通過條件計算機制擴展語言模型以降低計算成本。我們重點研究了“專家混合”(Mixture-of-Experts, MoE)機制,這是一種廣泛應用的條件計算方法,適用于高效擴展語言模型。然而,訓練 MoE 的路由網絡面臨非可微、離散目標優化的難題。為此,我們提出了一種全可微的 MoE 架構 —— Lory,用于自回歸語言模型的預訓練。該架構基于兩個關鍵技術:(1)因果段路由策略,用于高效整合專家計算結果;(2)基于相似度的數據批處理方法,以提升專家的專精化能力。盡管采用了基于段的路由方式,Lory 模型在性能上仍能與采用基于 token 路由的最先進 MoE 模型競爭,同時還能體現出領域級的專精能力。
總體而言,我們的研究揭示了一種新的語言模型擴展范式,在根本上解決了現有模型的關鍵限制,并推動了更高效、更強大、更具適應性與可更新性的語言模型的發展。
語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。
語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。
然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。
盡管深度神經網絡在過去十年中展現出卓越性能,但其在資源受限且動態變化的現實場景(如移動醫療)中的部署仍面臨重大挑戰。大型模型雖精度優異,卻難以滿足邊緣設備的實時性需求;輕量級模型雖計算高效,卻常因域偏移(domain shifts)導致魯棒性與泛化性下降。 本論文提出TempT(測試時時序一致性自適應),一種無需標注數據的測試時自適應(TTA)新范式。其核心創新包括:
時序相干性約束 * 將輸入序列的時序連貫性作為自監督信號,通過抑制預測結果的高頻波動,提升模型在未知環境中的穩定性與性能(如視頻表情識別、目標檢測等跨幀一致性關鍵任務)。 1. 拓撲數據分析引導
采用持續同調(Persistent Homology)量化網絡激活的拓撲特征,構建選擇性自適應策略,動態判斷何時調整模型參數可提升性能,何時可能引發退化。 1. 新型正則化方法
基于時序一致性設計正則項,顯著增強模型對域偏移的魯棒性。
在AffWild2、SHIFT和CIFAR100P等真實數據集上的實驗表明,TempT不僅超越現有TTA方法,更使輕量模型達到媲美大型架構的性能,同時滿足隱私保護與低算力需求。本研究彌合了域適應與自監督學習的鴻溝,為受限環境下的深度學習提供了可擴展解決方案。
大型語言模型(LLMs)在推理能力上取得了顯著進展,特別是在推理階段通過擴展規模(如OpenAI的o1模型)體現了這一點。然而,當前的視覺語言模型(Vision-Language Models, VLMs)在進行系統化和結構化推理方面往往表現不足,尤其是在處理復雜的視覺問答任務時。在本研究中,我們提出了一種新穎的視覺語言模型 LLaVA-o1,該模型旨在實現自主的多階段推理能力。與傳統的鏈式思維(Chain-of-Thought)提示不同,LLaVA-o1能夠獨立執行一系列有序的階段,包括摘要、視覺解釋、邏輯推理以及結論生成。這種結構化的方法使得LLaVA-o1在推理密集型任務的精確性上實現了顯著提升。 為實現這一目標,我們構建了 LLaVA-o1-100k 數據集,整合了來自多種視覺問答來源的樣本,并提供了結構化推理標注。此外,我們提出了一種推理階段級的束搜索(beam search)方法,用于在推理階段實現高效的規模擴展。令人矚目的是,僅使用10萬條訓練樣本和簡單但有效的推理擴展方法,LLaVA-o1不僅在多模態推理基準測試中超越了其基礎模型 8.9% 的表現,還超越了包括 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 等更大規模甚至閉源的模型。
大型語言模型(LLMs),如 OpenAI 的 o1 [63],在系統化和深入推理方面展現了強大的能力,驗證了推理階段擴展對語言模型的有效性 [47]。然而,視覺能力對于使模型全面理解世界并擴展其認知能力同樣重要 [6]。因此,開發一種能夠集成語言與視覺,并支持高效、系統化和深度推理的多模態模型具有重要意義。 早期的開源視覺語言模型(VLMs)主要采用直接預測的方法 [21, 30, 32],即在接收到問題后直接生成簡短的答案。這種直接響應范式的主要局限在于缺乏結構化的推理過程,使其在需要邏輯推理的任務中表現欠佳 [62]。最近的研究表明,結合鏈式思維(Chain-of-Thought, CoT)推理可以促進模型逐步推理,從而顯著提升問答能力 [52]。然而,即使使用 CoT 推理,大多數 VLMs 在推理過程中仍然頻繁地產生錯誤或幻覺式輸出 [24, 31, 50]。 我們的研究發現,這些問題的主要原因在于現有 VLMs 推理過程的系統性和結構化不足。具體來說,系統性指的是模型不僅需要生成直接的推理鏈,還需要通過多階段推理完成任務。結構化則指模型能夠清晰地識別其當前所處的推理階段,并理解每個階段的主要任務。然而,現有的 VLMs 通常在響應時未能充分組織問題和現有信息,并且經常在推理過程中偏離邏輯路徑,直接得出結論后再嘗試為其辯解。由于語言模型以逐詞生成響應,一旦引入錯誤的結論,模型通常沿著錯誤的推理路徑繼續下去。 OpenAI 的 o1 [63] 通過讓模型獨立進行系統化和結構化的語言推理,有效解決了這些問題。在此基礎上,我們設計了 LLaVA-o1。盡管社區對 OpenAI o1 的機制進行了初步探索 [42, 54],該模型仍然是一個技術細節未知的“黑箱”。本研究展示了一種通過監督微調增強模型逐步推理能力的潛在方法。具體來說,LLaVA-o1 能夠生成四個明確階段:摘要、描述、推理和結論,每個階段在推理過程中都有其獨特的作用: * 摘要:簡要概述模型需要完成的任務。 * 描述:對圖像中與問題相關的部分進行描述(如果存在圖像)。 * 推理:對問題進行系統化和詳細的分析。 * 結論:基于前述推理生成最終的簡要答案。
為了加強對 CoT 過程的理解,LLaVA-o1 在每個階段添加了專用標簽(如 <SUMMARY>...</SUMMARY>
)來標記每個階段的起點和終點。這種標注使模型在推理過程中保持清晰,與傳統 CoT 推理允許模型自由思考不同,我們的方法促進了結構化思考,先組織問題和已知信息,再進行詳細的推理過程,最后得出結論。為實現這一目標,我們利用 GPT-4o [3] 逐階段生成響應,構建了 LLaVA-o1-100k 數據集,并通過監督微調對模型進行訓練。 LLaVA-o1 的結構化推理還支持高效的推理階段擴展。與傳統的擴展方法(如最佳 N 采樣 [4, 51] 和句子級束搜索 [16, 49])相比,LLaVA-o1 使用了一種新穎的階段級束搜索方法,能夠在每個推理階段生成多個候選結果,并選擇最佳結果繼續生成過程。 我們在多個多模態推理基準上進行了實驗,包括 MMStar [9]、MMBench [33]、MMVet [60]、MathVista [35]、AI2D [23] 和 HallusionBench [17],觀察到 LLaVA-o1 的兩個主要優勢: 1. 通過結構化推理使模型能夠獨立完成推理任務,在需要系統化分析的復雜推理任務中顯著優于傳統的 CoT 提示。 1. 我們的階段級束搜索方法具有可擴展性,能夠提高性能的穩定性和可靠性,使其在復雜任務和場景中更有效地實現準確的結果。
我們提出了 LLaVA-o1,一種專為系統化推理設計的視覺語言模型,在需要結構化思考和推理的任務中表現出色。 * 我們展示了 LLaVA-o1 使用階段級束搜索實現推理階段擴展的能力,這意味著在增加計算資源的情況下,我們的方法性能可進一步提升,適用于更復雜的任務和場景。 * 通過在多個基準上的廣泛實驗,我們的方法表現出優于更大規模和閉源模型的性能,突顯了 LLaVA-o1 在多模態推理中的有效性。
我們的 LLaVA-o1 模型通過漸進式、逐步推理流程提升視覺語言模型(Vision-Language Models, VLMs)的推理能力,同時支持高效的推理階段擴展 [47]。通過結構化的思維方式,LLaVA-o1 實現了系統化且高效的推理流程,其推理框架在推理階段擴展性上優于現有方法。此設計確保了在需要復雜推理的任務中,模型能夠兼顧魯棒性與準確性,從而區別于傳統方法。圖 1 展示了我們的推理過程框架。
在訓練階段,我們的目標是開發一個能夠進行延伸推理鏈的視覺語言模型,使其能夠進行系統化且深入的推理。2.1.1 推理階段
我們提出的 LLaVA-o1 模型將答案生成過程分解為四個結構化的推理階段: * 摘要階段(Summary Stage):在初始階段,LLaVA-o1 提供對問題的高層次總結解釋,概述它要解決的問題的主要方面。 * 描述階段(Caption Stage):如果問題涉及圖像,LLaVA-o1 會對與問題相關的視覺元素進行簡要描述,以幫助理解多模態輸入。 * 推理階段(Reasoning Stage):基于前述的摘要,LLaVA-o1 進行結構化的邏輯推理以得出初步答案。 * 結論階段(Conclusion Stage):在最終階段,LLaVA-o1 基于之前的推理合成答案。
在上述階段中,結論階段的輸出是直接提供給用戶的答案,而前三個階段是模型內部的“隱藏階段”,代表其推理過程。根據用戶需求,結論階段的輸出可以適配為簡潔或詳細的答案。 模型在無需外部提示工程的情況下自主激活每個階段。具體來說,我們為模型提供了四對專用標簽:
由于現有的視覺問答(VQA)數據集缺乏訓練 LLaVA-o1 所需的詳細推理過程,我們整合了多個常用的 VQA 數據集,編制了一個包含 99k 圖像問答對的新數據集(每對可能包括一個或多個輪次的問題)。如圖 3 所示,由于目前沒有能夠直接生成系統化、結構化推理的多模態模型,我們使用 GPT-4o [3] 生成詳細的推理過程,包括摘要、描述、推理和結論,并將這些數據整合到 LLaVA-o1-100k 數據集中(計劃公開發布)。 我們整合了以下兩類數據來源: * 通用 VQA 數據集:包括 ShareGPT4V [8](多輪問答數據)、ChartQA [38](圖表和圖形解釋)、A-OKVQA [45](超越可見內容的外部知識)、DocVQA [39](基于文檔的問題)、PISC [28](社會關系理解)以及 CLEVR [22](物體屬性、空間關系和計數任務)。 * 科學領域 VQA 數據集:包括 GeoQA+ [7](幾何推理)、AI2D [23] 和 ScienceQA [34](科學問題),以及專注于視覺上下文算術分析的 CLEVR-Math [13]。
模型訓練:我們使用 LLaVA-o1-100k 數據集對現有模型進行監督微調(SFT),以增強推理能力。本研究選用 Llama-3.2-11B-Vision-Instruct [40] 作為基礎模型,在單節點 8 張 H100 GPU 上進行全參數微調。
在推理階段,我們旨在進一步提升模型的推理能力。具體來說,我們利用 LLaVA-o1 的階段輸出特性,為推理階段擴展提供理想的粒度。方法如下: 1. 為第一階段生成 N 個響應樣本。 1. 隨機選擇兩個響應樣本,并讓模型判斷哪一個更優,保留更優響應。 1. 重復 N?1 次,保留最優響應。 1. 對下一階段生成 N 個響應,并重復步驟 2-4,直至完成所有階段。
LLaVA-o1 的結構化輸出設計使該方法成為可能,支持每個階段的高效驗證,從而驗證結構化輸出在改進推理階段擴展中的有效性。如圖 4 所示,展示了三種擴展方法的對比。 示例分析:在圖 5 的示例中,當未應用推理階段擴展時,盡管模型生成了正確的推理步驟,但未能在推理過程中得出明確答案,導致結論階段的錯誤結果。相比之下,使用推理階段擴展后,模型保留了通向最終答案的正確推理步驟,從而確保了答案的準確性。
如表 7 所示,我們在六個需要高級推理能力的基準上,將 LLaVA-o1 與其他最先進的開源和閉源視覺語言模型(VLMs)進行了比較。這些基準包括 MMStar-R、MMBench-R、MMVet-R、MathVista、AI2D 和 HallusionBench。其中,MMStar-R、MMBench-R 和 MMVet-R 是從 MMStar、MMBench V1.1 和 MMVet 定制派生的基準,移除了僅需要粗略感知、細粒度感知和 OCR 的任務。這些過濾后的基準保留了需要復雜推理的任務。而 MathVista、AI2D 和 HallusionBench 本身專注于高級推理任務,因此保留了其中的所有任務。
我們的結果顯示,LLaVA-o1 在多個基準上持續超越了許多同等規模甚至更大規模的開源模型,例如: * InternVL2-8B [10] * Ovis1.5-Gemma2-9B [36] * MiniCPM-V2.6-8B [58] * Llama-3.2-90B-Vision-Instruct [40] * VILA-1.5-40B [30]
更值得注意的是,LLaVA-o1 甚至優于某些閉源模型,如 GPT-4o-mini [41] 和 Gemini-1.5-pro [43]。這進一步凸顯了我們結構化推理方法的有效性。 這些對比結果驗證了我們方法的優勢,特別是在高度依賴推理能力的基準中,LLaVA-o1 表現出極具競爭力的能力,成為推理密集型 VLM 任務中的領先模型。
本文提出了一種新型的視覺語言模型 LLaVA-o1,其能夠在多個階段內進行結構化、自主推理。通過引入四個明確的推理階段(摘要、描述、推理 和 結論),LLaVA-o1 實現了系統化的推理流程。 我們的貢獻包括以下兩個主要方面: 1. 創建了包含詳細推理標注的 LLaVA-o1-100k 數據集,為系統化、結構化響應的訓練提供支持。 1. 提出了階段級束搜索方法,實現了高效的推理階段擴展。
總體而言,LLaVA-o1 為多模態推理任務中的 VLMs 樹立了新的標準,提供了強大的性能和擴展性,尤其是在推理階段擴展方面。本研究為未來關于 VLMs 結構化推理的研究鋪平了道路,包括潛在的擴展方向,如引入外部驗證器和通過強化學習進一步增強復雜的多模態推理能力。 專知便捷查看,訪問下面網址或點擊最底端“閱讀原文”
//www.zhuanzhi.ai/vip/851bba68378c3cf56ed1826a9d7eae57
點擊“閱讀原文”,查看下載本文
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。
本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。
在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在
在許多實際情況中(例如,學術網絡、社交平臺),不同類型的實體不僅與文本關聯,而且還通過各種關系相互連接,這可以被抽象為文本屬性異構圖(TAHGs)。當前的語言模型(LMs)預訓練任務主要集中在分開學習每個實體的文本信息,并忽視了捕捉TAHGs中實體之間的拓撲關系的重要方面。在這篇論文中,我們提出了一個新的針對LMs的預訓練框架,明確地考慮TAHGs中的拓撲和異構信息。首先,我們定義了一個上下文圖為特定順序內的目標節點的鄰域,并提議一個拓撲意識的預訓練任務,通過聯合優化LM和一個輔助的異構圖神經網絡來預測參與上下文圖的節點。其次,基于觀察到一些節點文本豐富,而其他節點文本很少的現象,我們設計了一種文本增強策略,通過其鄰居的文本來豐富沒有文本的節點,以處理不平衡問題。我們在三個來自不同領域的數據集上進行鏈接預測和節點分類任務。實驗結果證明了我們的方法相對于現有方法的優越性和每種設計的合理性。我們的代碼可在以下鏈接找到://github.com/Hope-Rita/THLM。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。