亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)展示了出色的泛化能力,這促進了眾多模型的發展。這些模型提出了各種新的架構,微調了現有架構的訓練策略,增加了上下文長度,使用了高質量的訓練數據,并增加了訓練時間,以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類,訓練策略,訓練數據集,性能評估,并討論了未來的研究方向。此外,這篇論文還討論了LLMs背后的基本構建模塊和概念,然后對LLMs的重要特性和功能進行了全面概述。最后,這篇論文總結了LLMs研究的重要發現,并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展,我們打算定期更新這篇論文,通過添加新的部分并展示最新的LLMs模型。

//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652

1. 引言

語言在人類的交流和自我表達中起著基礎性的作用,同樣,通信對于機器與人類和其他系統的互動也極為重要。大型語言模型(LLMs)已經成為處理和生成文本的尖端人工智能系統,旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求,包括翻譯,摘要,信息檢索和對話交互。最近,語言模型方面取得了顯著的突破,主要歸功于深度學習技術,像transformers這樣的神經結構的進步,增加的計算能力,以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變,使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型(LLMs)成為可能[3],[4]。尤其是預訓練語言模型(PLM),在大規模文本語料庫的自監督設置下訓練,展示了對于文本理解和生成任務的巨大泛化能力[5],[6],[7]。當預訓練語言模型(PLMs)微調用于下游任務時,其性能顯著提升,超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs,他們發現,進一步擴大模型和數據集的規模可以提高泛化能力。

如今,現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務,在零樣本和少樣本的情況下,甚至不需要在下游任務上進行任何微調就能做到這一點[8],[9],[10]。以前,較小的模型無法達到這樣的泛化,這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮,導致了眾多LLMs的開發[11],[12],[13],[8],[9],[10],[14]。圖1展示的圖表顯示了隨著時間的推移,發布的LLMs數量(包括開源和閉源模型)的增加趨勢。此外,圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型(LLMs)的早期階段,許多研究工作都集中在為下游任務開發轉移學習的模型[11],[12],[15],直到像GPT-3這樣的模型的出現[8],即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質,人們對開源替代品有需求,這導致了各種模型的開發[9],[10],這些模型與GPT-3的規模相當,并在廣泛的基于網絡的數據集上進行訓練[16],[17],[18],[19]。隨后,研究人員提出了幾種架構設計和訓練策略,這些設計和策略在各種任務上顯示出優于GPT-3的性能[15],[14],[20],[21]。

LLMs的性能可以通過指令微調進一步提高,超越了在各種基準測試中預訓練的LLMs的表現[22],[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法,以指導輸出,從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令,也可以是根據任務需求的示例演示。在文獻中,已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務,進一步提高了對基線的性能[24],[23],[25],[26]。進行指令微調時,需要更新所有的模型參數。然而,參數效率微調采取了不同的方法,只更新少數參數,同時仍然保持良好的性能。這種方法保持原模型不變,而在模型的不同位置添加少量額外的參數[27],[28],[29],[30],[31]。這種方法有助于實現高效的微調,同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外,還有一篇全面的評論可供參考,涵蓋了架構,微調,新能力,以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而,這些評論論文并未深入探討個別模型的具體細節,只提供了對架構和訓練方法的表面理解。相反,我們的論文旨在通過討論細節,提供更深入的分析單個LLMs。

大型語言模型(LLMs)的架構、訓練數據集以及其他顆粒度方面的細節,特別是從歷史的角度來看,缺乏全面和詳細的討論,這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析,深入探討其開發、架構、訓練數據集和相關組件的細節。

據我們所知,這是第一篇討論LLMs細節的全面調查論文。 我們對各種LLMs架構及其分類進行了深入分析。此外,我們還討論了LLMs的基礎知識,以使對LLMs不熟悉的讀者能夠自給自足,從而使論文更具生產力。 我們的論文側重于為每一個LLM模型提供全面的細節,并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。 我們的目標是在我們的論文中總結這些關鍵細節,以幫助研究人員在他們的工作中確定更好的架構和訓練方法。

我們的論文補充了一篇關于LLMs的最新綜述論文[33],其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息,但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個,或者更多,類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35],[36],[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景,簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準,然后在結論部分給出了總結和未來方向。

付費5元查看完整內容

相關內容

視覺系統看到并理解視覺場景的組合性質對于理解我們的世界至關重要。在真實世界的環境中,物體與其位置之間的復雜關系、模糊性和變化可以更好地用受到語法規則和其他模態(如音頻和深度)制約的人類語言來描述。 模型學習如何彌合這些模態之間的差距,并結合大規模訓練數據,促進了上下文推理、泛化和測試時的即時能力。這些模型被稱為基礎模型。這種模型的輸出可以通過人提供的提示進行修改,而無需重新訓練,例如,通過提供一個邊界框來分割特定的物體,通過詢問關于圖像或視頻場景的問題進行交互式對話,或通過語言指令操縱機器人的行為。 在這次調查中,我們提供了這些新興基礎模型的全面回顧,包括結合不同模態(視覺、文本、音頻等)的典型架構設計、訓練目標(對比性、生成性)、預訓練數據集、微調機制,以及常見的提示模式:文本、視覺和異質性。 我們討論了計算機視覺中基礎模型的開放性挑戰和研究方向,包括它們的評估和基準測試困難、對真實世界理解的差距、上下文理解的局限性、偏見、對對抗性攻擊的脆弱性和解釋性問題。我們回顧了這一領域的最新發展,全面系統地涵蓋了基礎模型的廣泛應用。本工作研究的基礎模型的全面列表可以在

//github.com/awaisrauf/Awesome-CV-Foundational-Models上找到。

近年來,我們已經見證了開發基礎模型的顯著成功,這些模型在大規模的廣泛數據上進行訓練,一旦訓練完成,它們就可以作為一個基礎,并可以適應(例如,微調)與原始訓練模型相關的廣泛的下游任務[18]。盡管基礎模型的基本組成部分,如深度神經網絡和自監督學習,已經存在了很多年,但最近的激增,特別是通過大型語言模型(LLMs),主要可以歸因于大規模地擴展數據和模型大小[346]。例如,像GPT-3 [20]這樣擁有數十億參數的最新模型已經被有效地用于零/少量樣本學習,而無需大規模的任務特定數據或模型參數更新,從而實現了令人印象深刻的性能。同樣,最近的5400億參數的Pathways Language Model (PaLM)已經在從語言理解和生成到推理和代碼相關任務的許多具有挑戰性的問題上展示了最先進的能力[52, 8]。

與自然語言處理中的大型語言模型(LLMs)并行,最近的文獻中也探討了用于不同感知任務的大型基礎模型。例如,像CLIP [214]這樣的預訓練的視覺-語言模型(VL)在不同的下游視覺任務上都展示出了有前景的零樣本性能,包括圖像分類和物體檢測。這些VL基礎模型通常使用從網絡上收集的數百萬的圖像-文本對進行訓練,并提供具有泛化和轉移能力的表示。然后,這些預訓練的VL基礎模型可以通過為其提供給定任務的自然語言描述和提示來適應下游任務。例如,開創性的CLIP模型使用精心設計的提示在不同的下游任務上進行操作,包括零樣本分類,其中文本編碼器通過類名或其他自由形式的文本動態地構造分類器。在這里,文本提示是手工制作的模板,例如,“一張{label}的照片”,這有助于指定文本與視覺圖像內容相對應。最近,許多工作也探索了通過在特定的指令集上對它們進行微調,為VL模型添加交互式能力[169, 360, 57, 190, 314]。

除了大型的視覺-語言基礎模型,還有一些研究努力致力于開發可以由視覺輸入提示的大型基礎模型。例如,最近推出的SAM [140]可以執行與類別無關的分割,給定一個圖像和一個視覺提示,如盒子、點或遮罩,這指定了在圖像中要分割的內容。這樣的模型在數十億的物體遮罩上進行訓練,遵循模型在循環中的數據集注釋設置(半自動化)。進一步說,這種基于通用視覺提示的分割模型可以被適應于特定的下游任務,如醫學圖像分割[189, 292]、視頻物體分割[316]、機器人學[303]和遙感[35]。除了基于文本和視覺提示的基礎模型,研究工作還探索了開發模型,努力對齊多個配對的模態(例如,圖像-文本、視頻-音頻或圖像-深度),以學習對不同下游任務有幫助的有意義的表示[92, 102, 188]。

論文組織

在這項工作中,我們系統地回顧了計算機視覺中的基礎模型。首先,我們簡要介紹了基礎模型的背景和初步內容,簡要涵蓋了常見的架構類型、自監督學習目標、大規模訓練和提示工程(第2節)。然后,我們將現有的工作區分為基于文本的提示(第3-4節)、基于視覺的提示(第5節)、基于異構模態(第6節)和基于具體實體的基礎模型(第7節)。在基于文本提示的基礎模型中,我們進一步將它們區分為對比、生成、混合(對比和生成)以及會話型VL模型。最后,我們根據我們的分析討論了開放的挑戰和研究方向(第8節)。接下來,我們回顧了與我們相關的其他調查,并討論了它們的差異和獨特之處。

總結

對于開發能夠有效感知和推理現實世界的AI系統,具有對多種模態(包括自然語言和視覺)的基礎理解的模型是至關重要的。這次調查回顧了視覺和語言基礎模型,重點關注它們的架構類型、訓練目標、下游任務適應性及其提示設計。我們為基于文本提示、基于視覺提示和異構模態模型提供了系統的分類。我們廣泛地涵蓋了它們在各種視覺任務中的應用,包括零樣本識別和定位能力、關于圖像或視頻的視覺對話、跨模態和醫學數據理解。我們總結了視覺中的基礎模型如何作為通用模型同時解決多個任務,以及它們與大型語言模型的結合如何催生基礎實體代理,這些代理可以在復雜環境中不斷學習和導航。我們希望這一努力將進一步推動研究者充分利用基礎模型的潛力,同時解決它們的局限性,例如有限的上下文理解、偏見和對惡意使用的脆弱性。

付費5元查看完整內容

機器學習的最新進展提高了源代碼的理解和生成,從而在各種軟件工程任務中取得了更好的性能。在大規模代碼庫上進行預訓練的編程語言模型(Programming language model, PLM)在代碼摘要、代碼翻譯和程序合成等任務中顯示出良好的效果。然而,目前的方法主要依賴于直接從文本生成文獻中借鑒的有監督的微調目標,而忽略了代碼特定的功能,如語法和功能正確性。在本次演講中,我將介紹保留生成代碼的語法和數據流的各種機制,然后描述我們的新框架PPOCoder,它將預訓練代碼PLM與深度強化學習相結合,并將執行反饋作為模型優化過程的外部知識來源。我將通過討論CodeAttack框架來結束這次演講,這是一個簡單但有效的黑盒攻擊模型,用于生成對抗代碼樣本,可以檢測code PLM中的漏洞。

講者:Chandan Reddy是弗吉尼亞理工大學計算機科學系的教授,他擁有康奈爾大學的博士學位和密歇根州立大學的碩士學位。他的主要研究興趣是機器學習和自然語言處理及其在醫療保健、軟件、交通和電子商務中的應用。他的研究得到了NSF、NIH、DOE、DOT和各種行業的資助。他在領先的會議和期刊上發表了160多篇同行評議的文章。他的研究工作獲得了多個獎項,包括2010年ACM SIGKDD會議的最佳應用論文獎,2014年IEEE VAST會議的最佳海報獎,2016年IEEE ICDM會議的最佳學生論文獎,并在2011年INFORMS Franz Edelman Award競賽中入圍。他是ACM TKDD、ACM TIST和IEEE大數據期刊的編輯委員會成員。他是IEEE的高級成員和ACM的杰出成員。

付費5元查看完整內容

近年來,圖神經網絡在社區檢測、分子分類和鏈接預測等任務中表現突出。然而,這些模型的黑箱特性阻礙了它們在衛生和金融等領域的應用,在這些領域,理解模型的決策是至關重要的。反事實解釋(CE)通過實例提供了這些理解。此外,關于CE的文獻也在不斷涌現出適合圖學習的新穎解釋方法。在本綜述中,我們分析了現有的圖反事實解釋方法,根據定義、數據集和度量的統一正式符號,為讀者提供了文獻組織,從而簡化了方法優缺點的潛在比較。我們討論了7種方法和16個合成和真實的數據集,提供了可能的生成策略的細節。我們強調了最常見的評估策略,并將文獻中使用的9個指標形式化。我們首先介紹了評估框架GRETEL,以及如何擴展和使用它,同時提供包含可再現性方面的進一步比較維度。最后,在深入討論公開挑戰和未來工作之前,我們將討論反事實解釋如何與隱私和公平性相互作用。

//www.zhuanzhi.ai/paper/d26c10ba36d2f1b81804d35a4cddfa5d

人工智能在過去十年中得到了巨大的貢獻。特別是深度神經網絡在計算機視覺[53,117,118]、自然語言處理[16,33,127]、推薦系統[56,77,4]和異常檢測[79,96,112]等領域被大量采用。最近,圖神經網絡(以下稱GNN)在許多圖挖掘任務中克服了大量挑戰,這些任務包括頂點分類[50,97,109,139,162,160,165]、鏈接預測[55,59,97,142,151,157]、社區檢測[20,22,122,155]和圖分類[10,69,146,151]。智能系統可以用于決策支持場景,在這些場景中,處理請求對人類來說非常繁瑣和耗時[42]。例如,醫院可以采用一種自動系統,根據患者當前的醫療狀況和過去的病史,幫助醫護人員判斷患者是否易患心臟相關疾病。銀行可能有一個系統來決定客戶的貸款是否被批準。社交網絡可以采用一種智能策略來檢測違反其服務條款的用戶,并因此禁止他們使用該平臺。最后,制藥公司可以使用這種決策支持系統(DSS)進行藥物再用。

盡管智能系統已經達到了出色的性能,但廣泛應用的深度神經網絡卻存在所謂的黑箱問題[5,101]。黑箱模型阻礙了人們對預測結果[39]時所采用的決策過程的理解。神經網絡從一層到下一層利用不可逆和非線性激活函數來學習非線性向量空間中的特征表示[23,34],這對用戶來說是不透明的,屬于黑盒模型類。與黑箱相反的是一個由我們可以輕易檢查的內部進程組成的系統。這些模型通常被稱為白盒或透明模型[74]。一般來說,黑盒和白盒模型在數據科學中處于光譜的極端(見圖1)。當做出可能改變業務事件進程的關鍵決策時,人們更喜歡使用白盒模型[32,129,130],而黑盒模型在預測蛋白質關系[3,81,140,159]、學生輟學預測[15,105,104,135]和趨勢預測[7,70,131,148]等場景中,性能更高,甚至可以在高維輸入特征下進行泛化。

如前所述,GNN在多個圖挖掘任務中都取得了出色的性能。GNN以一個包含代表概念的頂點和描述概念之間關系的邊的圖結構作為輸入。例如Facebook的用戶友誼網絡和收集蛋白質及其關系的PPI。換句話說,頂點是用戶(或蛋白質),而邊是它們之間的友誼(或化學關系)。Facebook圖中一個有趣的預測任務是預測兩個用戶在不久的將來是否會成為朋友:即鏈接預測。通過這種方式,模型可能會發現兩個有相似興趣的用戶之間的關系,并幫助失散已久的朋友重新點燃他們兒時的關系。具體地說,GNN接受一個圖,它具有與頂點和邊相關的屬性,并生成一個轉換后的圖,該圖已經學習了所有這些屬性的潛在特征。這些潛在的特征可以用來進行預測。注意,從圖的邊緣引出的連通性模式被用來加強通過圖轉換學到的特征在潛在向量空間中的關系(參見2.1節了解更多細節)。

解釋預測的能力對于允許用戶和服務提供者在關鍵領域做出可信的決策至關重要[85,46]。因此,由于法律的限制,目前在健康和金融等關鍵領域,深度模型尚未廣泛投入生產[98]。在通過基于特征的分析[45]和反事實解釋解釋黑箱模型方面,文獻已經收到了許多貢獻[29,44,63,66,75,137]。通過分析影響結果的特征,對黑箱模型所做的預測提供解釋的模型稱為基于特征的解釋器。然而,揭示預測原因的解釋并不足以理解如何改變特定模型的結果。因此,為了描述輸入數據和結果之間的因果關系[21,85],解釋器必須提供例子,說明要改變什么輸入特征來預測不同的結果。換句話說,反事實的可解釋性表明輸入應該有哪些差異,從而導致模型預測的變化。提供這種可解釋性的機制被稱為反事實解釋器。 根據前面三個例子場景,反事實可解釋性可以幫助我們得到以下建議:

心臟病臨床DSS (CDSS)——讓我們假設一個身體質量指數(BMI)為31.4(當前醫療狀況)的患者是CDSS的輸入。對這個例子的一個反事實的解釋可能是,如果病人將她的BMI降低20%,那么她在不久的將來患心臟病或其并發癥的幾率就會大大降低。這種解釋可能會為醫護人員提供正確的輸入,為患者制定個性化的減肥計劃。

貸款DSS——在本例中,一個銀行客戶有15,000美元的存款,信用評分為25,他要求貸款150,000美元。讓我們假設,被雇用的DSS拒絕了請求,并提供了一個反事實的解釋,如果客戶將她的信用評分提高了2%,并將她的銀行存款提高到25,000美元,那么她的貸款將被批準。這個特殊的反事實的例子為客戶提供了直接的輸入,讓她知道如何采取行動使她有資格獲得貸款批準。從這個意義上說,反事實解釋提供了實現可控行為的確切步驟:例如,上述客戶需要額外的1萬美元,在這樣做的時候,她應該償還她的信用卡債務,使她的信用達到25.5分。

在上面解釋的場景中,反事實可解釋性提供了比基于特征的可解釋性更詳細的研究。反事實使得黑箱模型通過建立信任、透明和向非專家提供明確的反饋,在關鍵領域取得突破。此外,反事實系統有助于揭示預測模型的內在偏差。特別是,考慮CDSS為患者決定心臟病并發癥的例子。想象一下,現在,有心臟病傾向的人可能會拒絕某個挽救生命的病人的手術。因此,如果CDSS認為病人可能患有心臟病,她的手術就會被拒絕。雖然患者可以控制他們的BMI并降低到一個正常的區間,這樣CDSS就可以排除心臟相關疾病,但CDSS可能會判定心臟疾病與種族有關[94,143]。在這些情況下,種族是一個不可控的變量,它破壞了預測模型的公平性,而公平性是當今國家所必需的支柱[24,18]。

因此,重要的是,決策支持服務不應延續和加劇現有的偏見和不平等,例如,在醫療健康工具、治療方法和系統中,某些群體接受不到標準或根本沒有治療[95]。如前所述,反事實解釋可以幫助識別產生偏見的情況,并幫助解決依賴倫理原則而不是業績驅動概念的挑戰。然而,從數據中消除偏見是一個完全不同的挑戰,這超出了本次調查的范圍。最后,從市場角度來看,截至2018年,開發一種新藥的平均成本在3.14億美元到28億美元之間[144]。此外,一種藥物進入臨床開發的批準率僅為12%,這清楚地表明,投入的大部分資金都被浪費了。與此同時,一種藥物完成一個完整周期的臨床試驗的平均數量減少了,這意味著制藥公司在將其藥物商業化之前需要重新進行試驗。在價格上漲中起重要作用的因素包括但不限于臨床試驗復雜性的增加、試驗規模的擴大、為收集衛生技術評估信息而在方案設計上的改變,以及對比較藥物進行測試以減輕客戶需求7。在藥物再利用等應用場景中,擁有清晰的反事實方法來解釋結果的原因,為降低成本和提高批準率提供了很大的可能性。因此,制藥公司有興趣采用新的可解釋的圖學習方法來理解試驗場景,而不必深入研究昂貴的試驗。基于上述原因,本文探索了幾何深度學習的反事實解釋,幾何深度學習是新興技術的總稱,試圖將深度神經模型推廣到非歐幾里得領域。在這里,我們主要關注圖數據以及通過GNN對它們的預測。據我們所知,這是第一個在圖上處理反事實解釋的綜述。為了完整起見,在第1.1節中,我們討論了幾項研究[9,44,121,133],這些研究處理了黑盒深度神經網絡的解釋,但并沒有同時專門關注GNN和反事實解釋。最后,在1.2節中,我們通過強調該綜述的貢獻來結束對該綜述的介紹。

據我們所知,這個綜述是第一個研究GCE的文獻。如前一節所述,我們的工作超越了圖中基于特征(事實)的解釋性,提供了與文獻中其他調研相比的深入討論和更系統的回顧。綜上所述,這項調研的主要貢獻如下:

  1. 我們根據統一的正式符號組織文獻中現有的反事實示例定義,從而促進了對它們的優點和缺陷的直接比較。
  2. 據我們所知,我們是第一個根據多類預測問題提出GCE形式化的人。我們還根據黑盒預測模型推導出特定圖上的全局最小反事實例子。 3.本文提出根據幾個維度對文獻中現有方法進行分類,幫助讀者輕松采用更適合其場景的替代方法。
  3. 我們為讀者提供了反事實解釋方法的優點和缺點的總結。
  4. 我們廣泛討論了采用文獻中使用的合成和真實數據集的評估協議的好處,以及支持的方法。為此,我們描述了GRETEL,一個完全可擴展和可復制的GCE評估框架。我們認為GRETEL是文獻中第一個專注于提供高度模塊化體系結構的框架,允許未來的研究人員即插即用定制解釋器模型。
  5. 我們認為,在文獻中缺失的一個基本方面——即隱私、公平和可信度——是遵守全球正在采用的人工智能法規所必需的。
  6. 最后,我們為讀者提供了關于開放挑戰的見解,如多標簽分類中的反事實性,這一研究領域在不久的將來將被解決。

付費5元查看完整內容

聯邦學習:方法和應用的全面概述為研究人員和實踐者提出了聯邦學習最重要的問題和方法的深入討論。

聯邦學習(FL)是一種機器學習方法,其中訓練數據不是集中管理的。數據由參與FL進程的數據方保留,不與任何其他實體共享。這使得FL成為機器學習任務中越來越受歡迎的解決方案,對于這些任務,將數據集中在一個集中存儲庫中是有問題的,無論是出于隱私、監管還是實際原因。

這本書解釋了最近的研究進展和聯邦學習(FL)的最先進的發展,從領域的最初概念到第一個應用和商業使用。為了獲得這一廣泛和深入的概述,領先的研究人員解決了聯邦學習的不同視角:核心機器學習視角、隱私和安全、分布式系統和特定的應用領域。讀者將了解這些領域面臨的挑戰,它們是如何相互聯系的,以及如何用最先進的方法解決它們。

在前言中概述了聯邦學習的基礎知識之后,在接下來的24章中,讀者將深入探討各種主題。第一部分解決了以聯合方式解決不同機器學習任務的算法問題,以及如何高效、大規模和公平地訓練。另一部分重點關注如何以一種可針對特定用例定制的方式選擇隱私和安全解決方案,而另一部分則考慮運行聯邦學習過程的系統的實用主義。本書還介紹了聯邦學習的其他重要用例,如分離學習和垂直聯邦學習。最后,本書包括了一些章節,重點介紹了FL在真實企業環境中的應用。

//link.springer.com/book/10.1007/978-3-030-96896-0

付費5元查看完整內容

大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。

引言

近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

  • 先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。

  • 基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。

  • NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。

  • 生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:

  • 數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。

范式1: 先訓練,然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

摘要

預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。

引言

近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:

對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。

對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。

這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。

本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。

付費5元查看完整內容

本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

數據增強是通過轉換為機器學習人工創建訓練數據,是機器學習學科中一個廣泛研究的研究領域。雖然它對于提高模型的泛化能力很有用,但它也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制數據量用于保護隱私。基于對數據增強的目標和應用的精確描述以及現有的分類法作品,該調查涉及用于文本分類的數據增強方法,旨在實現簡潔和研究人員和從業人員的綜合概述。根據分類法,我們將100多種方法分為12不同的分組,并提供最先進的參考資料,闡述哪些方法非常有前途。最后,研究給出了可能構成未來工作基石的觀點。

//www.zhuanzhi.ai/paper/6a3ab7686edb4fbbc9b7fe15b7a349a4

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容
北京阿比特科技有限公司