亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大語言模型(LLMs)中的上下文學習(ICL)通過從整個訓練數據中選擇少量示范,提供了強大的少量樣本學習能力。然而,現有的ICL方法依賴于相似性或多樣性評分來選擇示范,這導致了高計算成本,因為每個查詢都需要反復從大規模數據集中進行檢索。

為此,我們提出了FEEDER(FEw yet Essential Demonstration prE-selectoR),一種新穎的預選擇框架,它識別包含訓練數據中最具代表性的示范子集,并針對特定的LLM進行定制。為了構建這個子集,我們在預選擇階段引入了“充分性”和“必要性”指標,并設計了一種基于樹的算法來高效識別代表性示例。一旦預選完成,這個代表性子集可以有效替代完整的訓練數據,在提高效率的同時保持ICL中的可比性能。 此外,我們的預選子集還對微調LLM有幫助,我們引入了一種雙層優化方法,在不犧牲性能的前提下提高了訓練效率。對于參數從3億到80億的LLM的實驗結果表明,FEEDER可以減少超過20%的訓練數據量,同時保持性能,并與ICL中的各種下游示范選擇策略無縫集成。

付費5元查看完整內容

相關內容

大規模語言模型(LLMs)已成為現代自然語言處理的核心,能夠在多個任務中展現出卓越的多功能性。有效地控制語言模型對于充分發揮其能力并將其應用于實際場景至關重要。成功部署這些模型通常需要特定任務的定制化以及對其行為的嚴格審計。在本論文中,我們提出了控制大規模語言模型的方法,并開發了評估工具來揭示控制失敗。

在第一部分,我們將控制任務視為一個分布匹配問題,并研究在建模流程中(包括預訓練、適應和解碼階段)在哪些環節以及如何進行干預。我將首先介紹一種在適應階段的控制方法,稱為Prefix-Tuning。這是一種參數高效的技術,通過僅修改模型參數的一個小子集實現精細控制。這種方法挑戰了傳統的完全微調的必要性,并為大規模預訓練模型的成本高效定制奠定了基礎。接下來,我將重新審視這些控制挑戰的根本原因,特別是在預訓練階段,并提出了一種新的文本生成模型,稱為Diffusion-LM。Diffusion-LM規避了自回歸范式,并通過設計本身內在地增強了可控性。對于最后一種控制方法,我將討論通過解碼時的干預來實現可控性,稱為Contrastive Decoding。通過對比一個較強的語言模型和一個較弱的語言模型之間的內部logits,我們能夠生成比強語言模型單獨生成的文本更高質量的文本。這些策略共同形成了一套連貫的控制機制,適用于語言建模管道的各個階段。 在第二部分,我們重點關注受控模型的評估。評估包括兩個主要設計選擇:(i)如何可擴展地判斷響應的正確性,(ii)評估時使用什么問題。為了解決第一個問題,我們提出了基于一致性的自動化評估策略。語言模型經常表現出不一致的行為。例如,當我們在2023年9月評估ChatGPT時,我們發現它正確回答了“7+8?”為15,但錯誤地回應“7+8=15,真還是假?”為“假”。我探討了生成與驗證之間的不一致,并將其作為評估信號。對于第二個問題,我們將評估視為一個優化問題,并開發了自動發現模型失敗的工具。具體來說,我們提出了AutoBencher,一個用于自動基準構建的聲明性框架,并利用它可擴展地發現現有語言模型的新見解和漏洞。在AutoBencher中,我們將基準構建視為一個優化問題,通過聲明數據集的幾個期望,構建量化的替代指標,并搜索一個優化這些期望的特定數據集。我們進一步擴展了這個流程,使其針對特定模型,并使用強化學習訓練調查模型,以提高召回率并覆蓋多樣化的模型失敗。總體而言,這項工作的貢獻推動了可控語言建模的前沿,并為重新思考語言模型評估奠定了新框架的基礎。 語言模型是一個基于文本序列的概率模型。其特定的分布由三個要素決定:模型家族(例如,N-gram模型、Transformer模型)、訓練數據以及模型規模(例如,參數數量)。從歷史上看,語言模型最初是在狹窄的領域內訓練的。例如,N-gram模型通常基于精心挑選的語料庫(如《華爾街日報》)構建,用于模擬或分析英語文本的特征——如熵或Zipf分布(Shannon,1948)。到了2000年代,語言模型成為更廣泛的自然語言處理系統中的實用組件,主要用于在語音識別等任務中對候選輸出進行重新排序。 隨著訓練數據從專業語料庫擴展到大規模的互聯網數據,且模型架構從N-gram轉變為神經網絡序列模型,語言模型逐漸從狹窄的工具轉變為通用生成器。在2010年代,帶有監督的序列到序列模型成為翻譯和摘要等應用的核心(Sutskever等,2014)。近年來,像GPT(Radford等,2019;Brown等,2020)和Claude(Anthropic,2024)等大規模模型,在異構的互聯網規模語料庫上訓練,能夠在各種領域中生成流暢且連貫的輸出。 然而,單純的流暢性并不足夠。隨著語言模型的應用場景從分析和重新排序發展到直接生成,模型越來越多地被部署到對正確性、安全性和相關性有要求的環境中。一個數學問題的流暢續寫可能是另一個數學問題——但這可能不是我們想要的答案。我們期望模型能回答問題。在其他情況下,我們可能希望模型拒絕不安全的請求、遵循格式指令、采用特定的角色或避免有毒內容。這將引出本論文的核心主題:控制。 控制指的是引導語言模型行為朝著期望的結果發展。高層次而言,它意味著將一個原始的文本分布轉換為一個符合任務目標、用戶意圖或安全約束的有用系統。控制可以采取多種形式:引導生成向事實準確性靠攏、強制風格一致性、抑制不良補全,或者確保指令得到準確執行。如果沒有控制機制,即使是最流暢的模型也可能變得無用、不可靠或不安全。 在本論文中,我提出了控制大規模語言模型的方法,并開發了評估工具來揭示控制失敗。具體來說,我們探討了如何在語言建模流程的每個階段——包括預訓練、適應和解碼——施加控制。我們還介紹了評估方法,通過自動判斷生成輸出的質量并揭示模型失敗,來評估這些控制效果。

1.1 強化控制

由于語言模型定義了一個文本分布,控制它最終可以歸結為一個分布匹配問題:我們希望調整生成分布以實現期望的行為。關鍵的設計決策集中在確定哪些模型組件可以調整(即控制按鈕)以及在開發流程的何時進行干預。語言模型通常在部署前經歷幾個關鍵階段,控制可以在這些階段中的每個階段注入。 適應是注入控制的最經典階段。在這一階段,我們調整模型的參數,以使其分布朝向期望的使用場景。微調長期以來一直是默認的方法,但我的工作提出了輕量化的替代方案,在保證質量的同時,以更低的計算成本實現精細控制。 解碼使得對生成輸出進行極其輕量的干預成為可能。由于此階段模型參數是固定的,因此控制是通過操作輸出概率來執行的——例如,通過基于外部標準對令牌進行加權或減權。然而,該階段的表達能力可能有限,因為它無法訪問內部模型狀態,也無法修改先前生成的令牌——這使得執行復雜或全局約束變得困難。 預訓練是語言建模流程中最上游的階段,它為將可控性注入模型架構提供了強大的機會。在這一階段注入控制能夠進行結構性的變化,確保內建的可控性。然而,預訓練也是最資源密集的階段,這使得它在擴展或利用已經預訓練的模型的能力時變得更加困難。 這些方法共同構成了一套用于強化大規模語言模型特定行為的工具,詳細內容見第3章、第4章和第5章。

1.2 評估控制

一旦控制被強化,下一步的挑戰是評估模型是否遵守了這些控制。由于模型控制是一個分布匹配問題,我們也可以采用分布視角來進行評估。 評估分為兩部分:輸入分布p(x),它定義了評估內容,以及條件分布p(y | x),它定義了如何判斷響應。對于現代語言模型,這兩個部分都非同小可。由于大規模語言模型是通用型的,我們必須選擇p(x)來測試相關能力并暴露其弱點。同時,參考條件分布p*(y | x)必須是可靠的,特別是在評估模糊或開放性問題時。 為此,我提出了自動化工具,利用語言模型本身來發現和驗證失敗案例,確保評估既具有可擴展性,又值得信賴。這些貢獻將在第6章、第7章和第8章中介紹。

1.3 論文結構

**第2章:背景。**我們回顧語言模型和可控文本生成的歷史,以建立本論文的歷史背景。 **第3章:通過Prefix-Tuning適應語言模型。**傳統的語言模型適應需要微調所有參數(規模達到數十億),而我在Prefix-Tuning方面的工作首次展示了僅調整一小部分(0.1%)參數同樣可以達到有效的控制。如今,參數高效微調已成為使用戶能以更具成本效益的方式定制預訓練模型的標準方法。 **第4章:通過設計構建可控語言模型。**傳統的語言模型通過下一個令牌預測來構建輸出,這限制了它們對輸出序列的控制能力。我在Diffusion-LM方面的工作證實了非自回歸模型在文本生成中的可行性,展示了此類模型如何通過設計本身內在地增強可控性。 **第5章:在解碼時引導語言模型。**文本生成通常涉及從語言模型分布中采樣。在本章中,我們將文本生成視為一個優化問題,并設計了一個對比目標,鼓勵一致的生成。通過對比強語言模型和弱語言模型之間的內部logits,我們生成的文本比強語言模型單獨生成的更高質量。 **第6章:通過一致性進行可靠和可擴展的評估。**評估對于推動語言模型的進步至關重要,這使得設計一個可擴展且可靠的評估指標變得非常必要。為此,我們提出使用生成和驗證之間的一致性作為評估標準。一致性評估是無標簽的且具有可擴展性的,因為它無需知道正確答案即可進行判斷。 **第7章:通過AutoBencher自動發現模型失敗。**傳統評估依賴靜態的、手工策劃的基準,這些基準難以跟上日益通用的語言模型的步伐。這些傳統的基準通常無法覆蓋語言模型的多樣化技能、領域和使用場景。為了解決這些局限性,我們提出了AutoBencher,這是一個用于自動構建基準的聲明性框架,并利用它可擴展地發現現有語言模型的新見解和漏洞。 **第8章:將錯誤發現作為后驗推斷。**我們如何發現模型特定的失敗?在本章中,我們將錯誤發現視為一個后驗推斷問題:給定模型輸出中的特定失敗(即后綴),我們旨在推斷出可能導致該失敗的輸入提示(前綴)。為了高效地探索這個空間,我們提出了一種靈感來自Frank-Wolfe算法的方法,以鼓勵發現多樣化的失敗模式。 **第9章:總結與未來方向。**我們總結并討論了構建可控語言模型的未來研究方向。

付費5元查看完整內容

大型語言模型(LLMs)在數學推理方面展現出強大潛力,然而其效果常受限于高質量問題數量不足。為克服這一限制,研究者嘗試通過自生成數據擴大計算響應規模,但現有方法在推理各階段的探索效率較低,容易引入虛假的相關性數據,導致性能受限。為解決這一挑戰,我們提出 MARGE(Improving Math Reasoning with Guided Exploration),這是一種通過命中引導探索(hit-guided exploration)提升數學推理能力的新方法。

MARGE系統性地探索由模型自生成解答中提取的中間推理狀態,實現充分的推理空間探索,并在整個過程中改進歸因機制。我們在多個主干模型與標準基準測試上的廣泛實驗表明,MARGE在不依賴外部標注或額外訓練價值模型的前提下,顯著提升了模型的推理能力。值得一提的是,MARGE同時提升了單輪推理準確率與探索多樣性,有效緩解了現有對齊方法中常見的性能權衡問題。 實驗結果表明,MARGE在增強數學推理能力、釋放自生成訓練數據的潛力方面具有顯著效果。我們的代碼與模型已開放獲取,詳見下方鏈接。

付費5元查看完整內容

 **以往成功的缺失模態補全方法依賴于精心設計的融合技術和在完整數據上的大量預訓練,這可能限制其在領域外(OOD)場景中的泛化能力。**在本研究中,我們提出了一個新的挑戰:我們能否開發出一種既高效又能應對OOD泛化的缺失模態補全模型?為了解決這一問題,我們提出了一種無需訓練的缺失模態補全框架,該框架利用大型多模態模型(LMM)。我們的方法被稱為“知識橋接器”(Knowledge Bridger),具有模態不可知性,并結合了缺失模態的生成與排序。通過定義領域特定的先驗知識,我們的方法能夠自動從現有模態中提取結構化信息,并構建知識圖譜。這些提取的圖譜通過LMM連接缺失模態的生成與排序模塊,從而實現高質量的缺失模態插補。在一般領域和醫學領域的實驗結果表明,我們的方法始終優于其他競爭方法,尤其在OOD泛化方面表現突出。此外,我們基于知識的生成與排序技術在生成和排序方面優于直接使用LMM的變體,為其他領域的應用提供了有價值的見解。

付費5元查看完整內容

在類增量學習(CIL)場景中,分類器對當前任務的偏好引起的災難性遺忘現象長期以來一直是一個重大挑戰。這主要是由判別模型的特性所引起的。隨著生成式多模態模型的日益流行,我們將探索用生成模型替換判別模型以用于CIL。然而,從判別模型轉向生成模型需要解決兩個關鍵挑戰。主要挑戰在于將生成的文本信息轉換為不同類別的分類。此外,它還需要在生成框架內制定CIL的任務。為此,我們提出了一種新穎的生成式多模態模型(GMM)框架用于類增量學習。我們的方法直接使用適配的生成模型為圖像生成標簽。獲取詳細文本后,我們使用文本編碼器提取文本特征,并采用特征匹配來確定最相似的標簽作為分類預測。在傳統的CIL設置中,我們在長序列任務場景中取得了顯著更好的結果。在少量樣本CIL設置下,我們的準確度至少提高了14%,相比所有當前最先進的方法有顯著更少的遺忘。我們的代碼可在 //github.com/DoubleClass/GMM 獲取。

付費5元查看完整內容

擴散模型在各種生成應用中已展現出卓越的效果。盡管現有模型關注于最小化用于數據分布建模的去噪分數匹配損失的加權和,它們的訓練主要強調實例級優化,忽視了每個小批量中包含的有價值的結構信息,這些結構信息表明了樣本間的成對關系。為了解決這一限制,我們引入了結構指導的擴散模型對抗訓練(SADM)。在這種開創性的方法中,我們強制模型學習每個訓練批次中樣本間的流形結構。為了確保模型捕獲數據分布中真實的流形結構,我們提倡在極小極大游戲中進行擴散生成器對抗一種新穎的結構鑒別器的訓練,區分真實的流形結構和生成的流形結構。SADM在現有的擴散變換器上取得了顯著改進,并在圖像生成和跨域微調任務中跨越12個數據集超越現有方法,建立了新的最先進的FID,分別在256×256和512×512分辨率的類條件圖像生成上達到了1.58和2.11。

//www.zhuanzhi.ai/paper/49614b89be54dc8bf62027a494e32b5b

付費5元查看完整內容

對比視覺-語言預訓練,即CLIP,展現了在感知開放世界視覺概念方面的顯著潛力,實現了有效的零樣本圖像識別。然而,基于CLIP的小樣本學習方法通常需要在少量樣本上進行離線微調參數,這導致了更長的推理時間和在某些領域過擬合的風險。為了應對這些挑戰,我們提出了Meta-Adapter,一種輕量級的殘差風格適配器,用以指導少樣本在線細化CLIP特征。通過少量的訓練樣本,我們的方法可以實現有效的小樣本學習能力,并且在沒有額外微調的情況下泛化到未見過的數據或任務,達到了具有競爭力的性能和高效率。我們的方法不需要復雜的附加功能,就在八個圖像分類數據集上平均超過了最新的在線小樣本學習方法3.6%的性能,并且具有更高的推理速度。此外,我們的模型簡單靈活,可作為直接適用于下游任務的即插即用模塊。在無需進一步微調的情況下,Meta-Adapter在開放詞匯的對象檢測和分割任務中取得了顯著的性能提升。

//www.zhuanzhi.ai/paper/988c88672e1bfafaceee944b23e8228e

付費5元查看完整內容

以人為中心的感知在視覺和圖形學中起著至關重要的作用。但是他們的數據注釋非常昂貴。因此,希望有一個通用的預訓練模型,作為數據高效的下游任務轉移的基礎。為此,我們提出了以人為中心的多模態對比學習框架HCMoCo,該框架利用人類數據的多模態特性(如RGB、深度、2D關鍵點)來進行有效的表示學習。該目標面臨兩個主要挑戰: 多模態數據的密集預訓練,稀疏人類先驗的有效利用。**為了解決這一問題,我們設計了一種新型的密集樣本內對比學習和稀疏結構感知對比學習目標,通過層次化學習具有連續和有序特征分布和結構感知語義一致性的模態不變潛空間。**HCMoCo通過組合異構數據集為不同的模態提供預訓練,這允許有效地使用現有的特定于任務的人類數據。在四個不同模式的下游任務上的大量實驗證明了HCMoCo的有效性,特別是在數據效率設置下(DensePose Estimation和Human Parsing提高了7.16%和12%)。此外,通過探索跨模態監督和缺失模態推理,我們證明了HCMoCo的多功能性,驗證了它在跨模態聯想和推理方面的強大能力。

//www.zhuanzhi.ai/paper/3e8a73c1d485a5e417b1e659558792c0

付費5元查看完整內容

基于模型的強化學習算法旨在學習環境模型,并通過環境模型做決策,其樣本效率高于無模型算法。基于模型的方法的樣本效率取決于模型能否很好地近似環境。然而,學習一個精確的模型是具有挑戰性的,特別是在復雜和嘈雜的環境中。為了解決這個問題,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。這是一種在不依賴精確學習模型的情況下實現了高樣本效率的新方法。具體而言,CMBAC從一組不準確的模型中學習Q值函數的多個估計值,并使用其最小的k個估計值的均值(即保守估計值)來優化策略。CMBAC的保守估計能夠有效地鼓勵智能體避免不可靠的“有前景的動作”,即那些僅在一小部分模型中估計價值高的動作。實驗結果表明,CMBAC方法在多個具有挑戰性的控制任務上的樣本效率明顯優于現有的方法,并且該方法在噪聲環境下比現有的方法更具魯棒性。原論文標題為《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》,由王杰教授指導MIRA Lab 的王治海、周祺等人發表于AAAI 2022。

//arxiv.org/abs/2112.10504

付費5元查看完整內容

在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。

//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2

付費5元查看完整內容

現代神經網絡訓練在很大程度上依賴于數據的增強來提高泛化能力。在保持標記的擴展最初獲得成功之后,最近出現了對標記擾動方法的興趣激增,這種方法將訓練樣本中的特征和標記結合起來,以平滑所學習的決策表面。在本文中,我們提出了一種新的增強方法,利用特征歸一化提取并重新注入第一和第二矩。我們將一個訓練圖像的學習特征的矩替換為另一個訓練圖像的學習特征的矩,并對目標標簽進行插值。由于我們的方法速度快,完全在特征空間中操作,并且與以前的方法相比混合了不同的信號,因此可以有效地將其與現有的增強方法相結合。我們在計算機視覺、語音和自然語言處理的基準數據集上演示了它的有效性,在這些基準數據集上,它不斷地提高了高度競爭的基線網絡的泛化性能。

付費5元查看完整內容
北京阿比特科技有限公司