亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大語言模型(LLMs)已展現出卓越的能力,越來越多的研究致力于將其作為智能體(agents)使用——即能夠將自然語言表達的復雜人類目標轉化為在數字環境(如網頁瀏覽器)中的一系列操作行為。要實現這一目標,需具備兩個核心能力:第一,理解任意組合性的語言輸入;第二,在陌生環境中自主學習,以便將語言目標有效地落實為多步決策行為。本論文正是圍繞這兩個挑戰展開研究。 在第一部分中,我提出了 Tree Projections 框架,用于理解 Transformer 如何構建組合性結構。隨后,我基于 Tree Projections 提出一系列研究成果,揭示了 Transformer 中組合泛化(compositional generalization)、“頓悟”現象(grokking)以及樣本高效學習的機制。盡管 Tree Projections 有助于解釋模型的泛化能力,已有研究表明標準 Transformer 在處理深層遞歸時表現不佳,其根本原因是缺乏支持無限層級結構的機制。為此,我提出了 Pushdown Layers,一種引入基于棧的記憶機制的結構增強方法。Pushdown Layers 能夠提升模型在嵌套或遞歸推理任務中的樣本效率與泛化能力。 在第二部分中,我介紹了 NNetNavBAGEL,兩種用于網頁環境中無監督、開放式探索的方法,使得模型能夠在無需人工監督的情況下,自動為新網頁采集訓練數據。最佳效果來自于結合 NNetNav 所采集的示范數據對 LLM 進行微調。NNetNav 利用語言的層級結構來引導探索策略。借助 NNetNav,我們從 20 個真實網站中采集了 10,000 條交互示范,并據此微調了一個 80 億參數的模型,在多個網頁瀏覽基準測試中實現了無監督方法的新 SOTA,超越了零樣本設置下的 GPT-4 表現。 總體而言,這些工作將我們更進一步推向具備語言理解與自主交互學習能力的數字語言智能體的發展目標。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

大型語言模型(LLM)展現出了卓越的能力,且越來越多的研究者開始關注將其作為智能體——能夠將復雜的用自然語言表達的人類目標轉換為在數字環境中(如網頁瀏覽器)執行的一系列動作的系統。實現這一目標需要兩個核心能力:首先是理解任意且組合性的語言輸入的能力;其次是學習未知環境的能力,使得語言目標能夠在有效的多步驟決策中得到實現。本論文解決了這兩個挑戰。

在第一部分,我介紹了樹投影(Tree Projections)這一框架,用于理解變換器(transformer)如何構建組合結構。接著,我展示了一系列基于樹投影的結果,闡明了組合泛化、深刻理解(grokking)和樣本高效學習在變換器中的機制。雖然樹投影有助于解釋成功的泛化,但先前的研究表明,標準的變換器在處理深度遞歸時存在困難,因為它們缺乏應對無界層次深度的機制。為了解決這個問題,我提出了推送層(Pushdown Layers),這是一種通過向變換器中添加基于棧的記憶來進行架構增強的方法。推送層在需要嵌套或遞歸推理的任務上提升了樣本效率和泛化能力。

在第二部分,我介紹了NNetNav和BAGEL,這兩種方法支持在網頁環境中的無監督、開放式探索,使模型能夠在沒有人工監督的情況下自動為新網站收集訓練數據。我們最好的結果來自于使用NNetNav收集的示范對大型語言模型進行微調,NNetNav利用語言的層次結構來引導探索策略。使用NNetNav,我們從20個真實網站收集了10,000個示范,并對一個8B模型進行了微調,創下了無監督方法的新最佳成績,并在多個瀏覽器基準測試中超越了零-shot的GPT-4。

綜合來看,這些貢獻使我們更接近于開發能夠處理語言指令復雜性并能通過與環境互動自主學習的數字語言智能體。

//searchworks.stanford.edu/view/in00000451497

付費5元查看完整內容

大規模語言模型(LLMs)已成為現代自然語言處理的核心,能夠在多個任務中展現出卓越的多功能性。有效地控制語言模型對于充分發揮其能力并將其應用于實際場景至關重要。成功部署這些模型通常需要特定任務的定制化以及對其行為的嚴格審計。在本論文中,我們提出了控制大規模語言模型的方法,并開發了評估工具來揭示控制失敗。

在第一部分,我們將控制任務視為一個分布匹配問題,并研究在建模流程中(包括預訓練、適應和解碼階段)在哪些環節以及如何進行干預。我將首先介紹一種在適應階段的控制方法,稱為Prefix-Tuning。這是一種參數高效的技術,通過僅修改模型參數的一個小子集實現精細控制。這種方法挑戰了傳統的完全微調的必要性,并為大規模預訓練模型的成本高效定制奠定了基礎。接下來,我將重新審視這些控制挑戰的根本原因,特別是在預訓練階段,并提出了一種新的文本生成模型,稱為Diffusion-LM。Diffusion-LM規避了自回歸范式,并通過設計本身內在地增強了可控性。對于最后一種控制方法,我將討論通過解碼時的干預來實現可控性,稱為Contrastive Decoding。通過對比一個較強的語言模型和一個較弱的語言模型之間的內部logits,我們能夠生成比強語言模型單獨生成的文本更高質量的文本。這些策略共同形成了一套連貫的控制機制,適用于語言建模管道的各個階段。 在第二部分,我們重點關注受控模型的評估。評估包括兩個主要設計選擇:(i)如何可擴展地判斷響應的正確性,(ii)評估時使用什么問題。為了解決第一個問題,我們提出了基于一致性的自動化評估策略。語言模型經常表現出不一致的行為。例如,當我們在2023年9月評估ChatGPT時,我們發現它正確回答了“7+8?”為15,但錯誤地回應“7+8=15,真還是假?”為“假”。我探討了生成與驗證之間的不一致,并將其作為評估信號。對于第二個問題,我們將評估視為一個優化問題,并開發了自動發現模型失敗的工具。具體來說,我們提出了AutoBencher,一個用于自動基準構建的聲明性框架,并利用它可擴展地發現現有語言模型的新見解和漏洞。在AutoBencher中,我們將基準構建視為一個優化問題,通過聲明數據集的幾個期望,構建量化的替代指標,并搜索一個優化這些期望的特定數據集。我們進一步擴展了這個流程,使其針對特定模型,并使用強化學習訓練調查模型,以提高召回率并覆蓋多樣化的模型失敗。總體而言,這項工作的貢獻推動了可控語言建模的前沿,并為重新思考語言模型評估奠定了新框架的基礎。 語言模型是一個基于文本序列的概率模型。其特定的分布由三個要素決定:模型家族(例如,N-gram模型、Transformer模型)、訓練數據以及模型規模(例如,參數數量)。從歷史上看,語言模型最初是在狹窄的領域內訓練的。例如,N-gram模型通常基于精心挑選的語料庫(如《華爾街日報》)構建,用于模擬或分析英語文本的特征——如熵或Zipf分布(Shannon,1948)。到了2000年代,語言模型成為更廣泛的自然語言處理系統中的實用組件,主要用于在語音識別等任務中對候選輸出進行重新排序。 隨著訓練數據從專業語料庫擴展到大規模的互聯網數據,且模型架構從N-gram轉變為神經網絡序列模型,語言模型逐漸從狹窄的工具轉變為通用生成器。在2010年代,帶有監督的序列到序列模型成為翻譯和摘要等應用的核心(Sutskever等,2014)。近年來,像GPT(Radford等,2019;Brown等,2020)和Claude(Anthropic,2024)等大規模模型,在異構的互聯網規模語料庫上訓練,能夠在各種領域中生成流暢且連貫的輸出。 然而,單純的流暢性并不足夠。隨著語言模型的應用場景從分析和重新排序發展到直接生成,模型越來越多地被部署到對正確性、安全性和相關性有要求的環境中。一個數學問題的流暢續寫可能是另一個數學問題——但這可能不是我們想要的答案。我們期望模型能回答問題。在其他情況下,我們可能希望模型拒絕不安全的請求、遵循格式指令、采用特定的角色或避免有毒內容。這將引出本論文的核心主題:控制。 控制指的是引導語言模型行為朝著期望的結果發展。高層次而言,它意味著將一個原始的文本分布轉換為一個符合任務目標、用戶意圖或安全約束的有用系統。控制可以采取多種形式:引導生成向事實準確性靠攏、強制風格一致性、抑制不良補全,或者確保指令得到準確執行。如果沒有控制機制,即使是最流暢的模型也可能變得無用、不可靠或不安全。 在本論文中,我提出了控制大規模語言模型的方法,并開發了評估工具來揭示控制失敗。具體來說,我們探討了如何在語言建模流程的每個階段——包括預訓練、適應和解碼——施加控制。我們還介紹了評估方法,通過自動判斷生成輸出的質量并揭示模型失敗,來評估這些控制效果。

1.1 強化控制

由于語言模型定義了一個文本分布,控制它最終可以歸結為一個分布匹配問題:我們希望調整生成分布以實現期望的行為。關鍵的設計決策集中在確定哪些模型組件可以調整(即控制按鈕)以及在開發流程的何時進行干預。語言模型通常在部署前經歷幾個關鍵階段,控制可以在這些階段中的每個階段注入。 適應是注入控制的最經典階段。在這一階段,我們調整模型的參數,以使其分布朝向期望的使用場景。微調長期以來一直是默認的方法,但我的工作提出了輕量化的替代方案,在保證質量的同時,以更低的計算成本實現精細控制。 解碼使得對生成輸出進行極其輕量的干預成為可能。由于此階段模型參數是固定的,因此控制是通過操作輸出概率來執行的——例如,通過基于外部標準對令牌進行加權或減權。然而,該階段的表達能力可能有限,因為它無法訪問內部模型狀態,也無法修改先前生成的令牌——這使得執行復雜或全局約束變得困難。 預訓練是語言建模流程中最上游的階段,它為將可控性注入模型架構提供了強大的機會。在這一階段注入控制能夠進行結構性的變化,確保內建的可控性。然而,預訓練也是最資源密集的階段,這使得它在擴展或利用已經預訓練的模型的能力時變得更加困難。 這些方法共同構成了一套用于強化大規模語言模型特定行為的工具,詳細內容見第3章、第4章和第5章。

1.2 評估控制

一旦控制被強化,下一步的挑戰是評估模型是否遵守了這些控制。由于模型控制是一個分布匹配問題,我們也可以采用分布視角來進行評估。 評估分為兩部分:輸入分布p(x),它定義了評估內容,以及條件分布p(y | x),它定義了如何判斷響應。對于現代語言模型,這兩個部分都非同小可。由于大規模語言模型是通用型的,我們必須選擇p(x)來測試相關能力并暴露其弱點。同時,參考條件分布p*(y | x)必須是可靠的,特別是在評估模糊或開放性問題時。 為此,我提出了自動化工具,利用語言模型本身來發現和驗證失敗案例,確保評估既具有可擴展性,又值得信賴。這些貢獻將在第6章、第7章和第8章中介紹。

1.3 論文結構

**第2章:背景。**我們回顧語言模型和可控文本生成的歷史,以建立本論文的歷史背景。 **第3章:通過Prefix-Tuning適應語言模型。**傳統的語言模型適應需要微調所有參數(規模達到數十億),而我在Prefix-Tuning方面的工作首次展示了僅調整一小部分(0.1%)參數同樣可以達到有效的控制。如今,參數高效微調已成為使用戶能以更具成本效益的方式定制預訓練模型的標準方法。 **第4章:通過設計構建可控語言模型。**傳統的語言模型通過下一個令牌預測來構建輸出,這限制了它們對輸出序列的控制能力。我在Diffusion-LM方面的工作證實了非自回歸模型在文本生成中的可行性,展示了此類模型如何通過設計本身內在地增強可控性。 **第5章:在解碼時引導語言模型。**文本生成通常涉及從語言模型分布中采樣。在本章中,我們將文本生成視為一個優化問題,并設計了一個對比目標,鼓勵一致的生成。通過對比強語言模型和弱語言模型之間的內部logits,我們生成的文本比強語言模型單獨生成的更高質量。 **第6章:通過一致性進行可靠和可擴展的評估。**評估對于推動語言模型的進步至關重要,這使得設計一個可擴展且可靠的評估指標變得非常必要。為此,我們提出使用生成和驗證之間的一致性作為評估標準。一致性評估是無標簽的且具有可擴展性的,因為它無需知道正確答案即可進行判斷。 **第7章:通過AutoBencher自動發現模型失敗。**傳統評估依賴靜態的、手工策劃的基準,這些基準難以跟上日益通用的語言模型的步伐。這些傳統的基準通常無法覆蓋語言模型的多樣化技能、領域和使用場景。為了解決這些局限性,我們提出了AutoBencher,這是一個用于自動構建基準的聲明性框架,并利用它可擴展地發現現有語言模型的新見解和漏洞。 **第8章:將錯誤發現作為后驗推斷。**我們如何發現模型特定的失敗?在本章中,我們將錯誤發現視為一個后驗推斷問題:給定模型輸出中的特定失敗(即后綴),我們旨在推斷出可能導致該失敗的輸入提示(前綴)。為了高效地探索這個空間,我們提出了一種靈感來自Frank-Wolfe算法的方法,以鼓勵發現多樣化的失敗模式。 **第9章:總結與未來方向。**我們總結并討論了構建可控語言模型的未來研究方向。

付費5元查看完整內容

語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。

然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。

付費5元查看完整內容

構建能夠推理、適應并與環境互動的智能自主系統一直是人工智能的長期目標。

本文探討了通過深度學習革命,代理系統(agentic systems)的演變,從強化學習到現代大規模語言模型(LLMs),重點關注構建可靠自主智能體所需的關鍵組件。 首先,我們解決了深度強化學習(RL)中的普適性(generalization)這一根本挑戰,提出了一種系統框架,用于評估和改進學習策略在不同環境之間的遷移能力。以此為基礎,我們提出了事后任務重標定(Hindsight Task Relabeling, HTR),這是一種創新方法,使得元強化學習算法能夠在稀疏獎勵設置中學習適應策略,而不需要在訓練過程中依賴密集的獎勵信號。 最后,我們討論了利用大規模語言模型(LLMs)構建可靠智能體的最新挑戰。盡管LLMs展示了前所未有的推理能力,但它們作為自主智能體的有效性受到其架構中的基本限制的制約——尤其是它們的無狀態特性和固定的上下文窗口。為此,我們提出了MemGPT,一個受操作系統啟發的框架,使得LLMs能夠管理自己的記憶和狀態,引入了虛擬上下文管理和自我導向的記憶操作等概念。MemGPT證明了,通過將LLMs視為一種新的計算基本單元——類似于CPU在傳統操作系統中的角色——我們能夠構建更可靠、更強大的自主智能體。 綜上所述,這些系統追溯了代理AI系統的發展,并提供了創建更可靠、更強大自主智能體的關鍵構建塊。通過解決普適性、適應性和記憶管理等核心挑戰,本文為工程化下一代能夠有效推理并與世界互動的AI系統奠定了基礎。

付費5元查看完整內容

當我們說話、寫作或聆聽時,我們不斷地基于對語言語法的知識進行預測。令人驚訝的是,兒童僅僅在幾年內便能掌握這種語法知識,使得他們能夠理解并將這種知識推廣到從未說過的新結構中。語言模型是強大的工具,它們通過逐步預測句子中的下一個詞來構建語言的表示,并且在近年來對社會產生了巨大影響。本文的核心研究問題是,這些模型是否擁有類似于人類的深刻語法結構理解。這個問題位于自然語言處理、語言學和可解釋性研究的交叉點。為了回答這個問題,我們將開發新的可解釋性技術,以加深我們對大規模語言模型復雜本質的理解。我們將從三個方向來探索這個研究問題。首先,我們通過結構性啟動(structural priming)這一心理語言學中的關鍵范式,探索抽象語言信息的存在,這一范式可以揭示人類語言處理中的語法結構。接下來,我們考察各種語言現象,如形容詞順序和否定極性項目,并將模型對這些現象的理解與其訓練數據分布進行關聯。最后,我們引入一個受控的測試平臺,用于研究語言模型中的層級結構,采用各種逐步增加復雜度的合成語言,并考察特征交互在建模這些結構中的作用。我們的研究結果提供了關于語言模型表示中蘊含的語法知識的詳細描述,并為使用計算方法研究基本語言學問題提供了若干方向。

付費5元查看完整內容

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

如果讓一個人描述一幅圖片,他們可能會用一千種不同的方式來描述。每一種描述不僅取決于圖片本身,還取決于圍繞圖片的豐富的情境線索和提示(包括描述者本人)。到目前為止,條件自然語言生成的研究幾乎完全集中在任務的感知組成部分上:我們如何感知刺激物——無論是音頻、視覺還是文本——并將其傳達給用戶?在這篇論文中,我們認為僅關注刺激物(而非相關情境)的模型在生成與人類對質量和內容判斷一致的語言方面存在重大缺陷,同時減少了它們對下游任務的整體實用性。本論文聚焦于構建一個情境感知的條件自然語言生成(CNLG)模型的三個核心目標:(1)捕捉和理解在生成的條件文本中、之間及其之間的信息;(2)開發更好地整合情境信息的多模態模型;(3)設計與人類判斷更加一致的CNLG評估方法。通過這些目標,我們展示了情境在自然語言生成中的力量,并幫助回答這個問題:“我們如何理解、構建和評估情境感知的條件自然語言生成模型?”

迄今為止,條件自然語言生成領域幾乎完全專注于感知成分:我們如何感知刺激(無論是音頻、視覺還是文本)并將其傳達給用戶?在圖像描述的情況下,這意味著專注于理解圖像內容,而大量忽略任何情境線索。在自動語音識別的情況下,這意味著專注于音頻本身并忽略該音頻發生的情境。然而,在許多情況下,這種情境不僅有幫助,而且對模型的輸出是必需的。因此,為了應對這些挑戰,我們必須轉向對條件自然語言生成更細致的理解,認識到有效的溝通和信息交換不僅僅依賴于對刺激的字面解釋,還依賴于錯綜復雜的情境線索和環境因素。

在這篇論文中,我們提出了一個總體問題:我們如何理解、構建和評估情境感知的條件自然語言生成模型?為了探索這個問題,我們深入研究了幾個領域(見第1.1節),探索了文本周圍的情境如何影響其生成,以及我們如何利用情境線索(來自一些意外的來源)來理解、評估和構建更強大的多模態模型。總體上,這篇論文主要分為三個核心部分,每個部分處理情境感知條件自然語言生成(CNLG)問題的某些方面:

理解生成樣本內部、之間和之中的信息:首先,我們深入理解圖像/視頻和文本的聯合分布,以及可以在生成文本中捕獲的信息(即數據集中的語言分布)和生成文本之間/之中的信息(其中“之間”指的是單個圖像的多個樣本中存在的信息,“之中”指的是可以從樣本集中推斷出的更廣泛的語言分布)。在第3章中,我們研究圖像/文本聯合分布的行為,并揭示了我們用于圖像和視頻的數據集是如何結構化的有趣細節;在第4章中,我們探索如何利用數據集中的這些隱含特性在訓練期間選擇一個小而高效的樣本集。

構建CNLG的多模態模型:接下來,我們介紹了在幾個領域構建CNLG模型的幾種方法。在圖像字幕領域,我們在第6章討論了如何有效利用CNLG模型學習的完整分布來生成單個高質量的字幕。在自動語音識別領域,我們探討了如何利用包括視頻(第7章)、文本目錄(第8章)和對話(第9章)在內的不同類型的情境來提高生成自然語言的質量。

評估CNLG模型:最后,我們介紹了兩種新的評估CNLG能力模型的方法。第一種方法在第11章中介紹,通過查看學習的完整分布而不是僅僅模型的單個最佳樣本來評估模型。第二種方法在第12章中介紹,利用大型語言模型學習的人類偏好隱式分布來改善生成文本的評估。

付費5元查看完整內容

從人本主義的角度建立人工智能系統的迫切性日益增加,因為從個性化推薦系統到語言和圖像生成模型的大規模機器學習系統每天都在與人互動。在這篇論文中,我們提出了一條從人本主義的角度建立這些系統的指導方針。我們的指南包含三個步驟:(i)識別學習任務中所關注的人的角色和他們的核心特性;(ii)以一種有用且可靠的方式對這些特性進行建模;和(iii)以原則性的方式將這些模型納入學習算法的設計中。我們將這一指南應用于兩個應用:個性化推薦系統和決策支持系統。對于推薦系統,我們按照指南(i)關注用戶不斷變化的偏好,(ii)將它們模型化為動態系統,和(iii)開發具有可證明保證的高效在線學習算法,與具有不同偏好動態的用戶互動。對于決策支持系統,我們(i)選擇決策者的風險偏好作為關注的核心特性,(ii)將它們模型化到系統的目標函數中,和(iii)為在多樣風險偏好下學習模型提供具有統計保證的一般程序。我們最后討論了以人為中心的機器學習的未來,以及這一領域中跨學科研究的角色。

付費5元查看完整內容

視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。

//www.zhuanzhi.ai/paper/7973da2bc3cb888154e7d2c0ed548c64

付費5元查看完整內容

最近的努力已經將大型語言模型(LLMs)與外部資源(例如,互聯網)或內部控制流(例如,提示鏈接)結合起來,用于需要定位或推理的任務。然而,這些努力大都是零散的,缺乏構建一個完整的語言智能體的系統框架。為了應對這一挑戰,我們借鑒了符號人工智能中智能體設計的豐富歷史,為新一波的認知語言智能體開發了一個藍圖。我們首先展示LLMs具有與生產系統相同的許多屬性,而最近為改進其定位或推理所做的努力反映了圍繞生產系統構建的認知架構的發展。接著,我們提出了“語言智能體的認知架構”(CoALA) ,這是一個概念框架,用于系統化地將基于LLM的推理、定位、學習和決策作為框架中語言智能體的實例化方法。最后,我們使用CoALA框架來突出顯示缺口,并提出實際的方向,以便在未來培養更有能力的語言智能體。

付費5元查看完整內容
北京阿比特科技有限公司