大型語言模型(LLMs)是一類特殊的預訓練語言模型,它們是通過擴大模型規模、預訓練語料庫和計算能力來獲得的。由于LLMs的龐大規模和在大量文本數據上的預訓練,它們展現出特殊的能力,使得在許多自然語言處理任務中,無需任何任務特定訓練即可取得顯著的性能。LLMs的時代始于OpenAI的GPT-3模型,而在像ChatGPT和GPT4這樣的模型的引入后,LLMs的受歡迎程度呈指數級增長。我們將GPT-3及其后續的OpenAI模型(包括ChatGPT和GPT4)稱為GPT-3系列大型語言模型(GLLMs)。隨著GLLMs在研究界的日益受歡迎,有強烈的需求進行一項全面的概述,總結多個維度的最近研究進展,并為研究社區提供有見地的未來研究方向。我們從基礎概念如Transformer、遷移學習、自監督學習、預訓練語言模型和大型語言模型開始這篇綜述論文。接下來,我們簡要概述了GLLMs,并討論了GLLMs在各種下游任務、特定領域和多種語言中的表現。我們還討論了GLLMs的數據標注和數據增強能力、GLLMs的魯棒性、GLLMs作為評估者的有效性,并最終總結了多個有見地的未來研究方向。總之,這篇全面的綜述論文將為學術界和工業界的人們提供一個很好的資源,以了解與GPT-3系列大型語言模型相關的最新研究。
大型語言模型(LLMs),是最近人工智能領域的熱門話題,憑借其在大多數自然語言處理(NLP)任務中的卓越性能,在學術界和工業界都引起了廣泛關注。這些模型本質上是深度學習模型,特別是基于變換器的模型,它們先在大量的文本數據上進行預訓練,然后使用元訓練根據人類的偏好進行對齊。預訓練為模型提供了通用的語言知識[1],而元訓練使模型能夠根據用戶的意圖進行操作。這里的用戶意圖既包括顯式意圖,如遵循指示,也包括隱式意圖,如保持真實性、避免偏見、毒性或任何有害的行為[2]。大型語言模型(LLMs)是通過擴大模型規模、預訓練語料庫和計算能力獲得的預訓練語言模型的特殊類別。對于下游任務使用,預訓練語言模型利用了有監督的學習范例,這涉及任務特定的微調和數百或數千個標記實例[1],[3]。LLMs利用了上下文學習(ICL),這是一個新的學習范式,不需要任務特定的微調和大量的標記實例[4]。LLMs將任何NLP任務視為條件文本生成問題,并只通過根據輸入提示生成所需的文本輸出,該提示包括任務描述、測試輸入以及可選的幾個示例。圖1顯示了從機器學習到大型語言模型的人工智能演變過程。
最初,NLP系統主要是基于規則的。這些基于規則的模型是建立在領域專家制定的規則之上的。由于手動制定規則是一個費時、昂貴的過程,且還需要頻繁的更改,基于規則的模型逐漸被機器模型所取代,這些機器模型從訓練數據中自動學習規則,完全避免手動規則制定[1]。然而,機器學習模型需要領域專家進行特征工程的人工干預。隨著像Word2Vec[5]、Glove[6]、FastText[7]這樣的密集文本向量表示模型的演變,以及像GPUs這樣的計算機硬件的進步,NLP系統使用傳統的深度學習模型構建,如CNN[8]、RNN[9]、LSTM[10]、GRU[11]、Seq2Seq[12]和基于注意力的Seq2Seq模型[13],[14]。然而,這些模型的缺點,如(i)捕獲長期依賴性的能力和(ii)由于序列處理(CNN的情況除外)無法充分利用GPUs,導致了像Transformers[15]這樣的高級深度學習模型的演變,它們完全基于注意力,沒有任何循環和卷積層。 受到基于轉移學習和大型卷積模型上的圖像預訓練模型[16]-[18]的成功啟發,研究界開始關注構建如BERT[19]和GPT-1[20]這樣的預訓練語言模型(PLMs),這些模型以變換器為骨架,并基于稱為自監督學習[1]、[21]、[22]的新學習范式進行預訓練。與傳統的深度學習模型和基礎變換器模型不同,后者需要從頭開始訓練以供下游使用,預訓練語言模型可以通過微調輕松地適應下游任務。BERT和GPT-1模型的巨大成功引發了其他預訓練語言模型的開發,如RoBERTa、XLNet[23]、ELECTRA[24]、ALBERT[25]、DeBERTa[26]、[27]、GPT-2[28]、T5[29]、BART[30]等。 盡管PLMs與傳統的深度學習和基礎變換器模型相比有許多優勢,但它們仍然存在如無法在沒有任務特定訓練的情況下泛化到未見任務的缺陷。因此,研究界專注于開發更先進的模型,如大型語言模型,這些模型可以在沒有任何任務特定訓練的情況下泛化到未見任務。LLMs的時代始于GPT-3[4],GPT-3的成功啟發了其他LLMs的開發,如PaLM[31]、Chinchilla[32]、GLaM[33]、LaMDA[34]、Gopher[35]、Megatron-Turing NLG[36][181]、BLOOM[37]、Galactica[38]、OPT[39]、LLaMA[40]、[41]等。在Open AI的模型如ChatGPT和GPT-4[42]最近發布后,LLMs的受歡迎程度呈指數級增長。例如,ChatGPT在發布后的幾周內就吸引了數百萬用戶。由于基于任務描述和幾個示例泛化到未見任務的能力,而不需要任何任務特定的訓練,就像人類一樣,LLMs可以被視為朝向人工普遍智能[43]的一個初步步驟。在這篇綜述論文中,我們主要關注Open AI的LLMs,如GPT-3模型、GPT-3.5模型(InstructGPT、ChatGPT等)和GPT-4,我們稱之為GPT-3系列大型語言模型(GLLMs)。這篇綜述論文提供了與GLLMs相關的多維度研究工作的全面回顧。 本綜述論文的主要貢獻是: ? 首個在多個維度對GPT-3系列大型語言模型(GLLMs)進行全面回顧的綜述論文,涵蓋超過350篇最近的研究論文。 ? 我們討論了各種基礎概念,如變換器、轉移學習、自監督學習、預訓練語言模型和大型語言模型。 ? 我們詳細討論了GPT-3系列大型語言模型,從GPT-3開始,到最新的ChatGPT和GPT-4。 ? 我們討論了GLLMs在各種下游任務中的表現,并對GLLMs的數據標記和數據增強能力進行了深入的討論。 ?我們討論了GLLMs的魯棒性和評估能力。 ? 我們提出了多個有深度的未來研究方向,這將指導研究界進一步提高GLLMs的性能。 與現有綜述的比較。現有的綜述論文提供了對大型語言模型[44]及其相關概念如上下文學習[45]、評估[46]、[47]、與人類價值觀的對齊[48]、[49]、安全性和可靠性[50]、推理[51]、挑戰和應用[52]、LLM壓縮[53]以及多模態LLMs[54]的回顧。例如,趙等人[44]是首先對大型語言模型提供全面回顧的。與趙等人[44]不同,其他現有的綜述論文專注于LLMs的特定概念。例如,由董等人[45]、張等人[46]、王等人[48]和黃等人[51]撰寫的綜述論文分別專注于LLMs的情境學習、LLMs的評估、與人類價值觀的LLMs對齊和LLMs的推理能力。同樣,尹等人[54]和桓等人[50]所寫的綜述論文分別回顧了多模態LLMs和LLMs的安全性和可靠性。然而,目前還沒有一篇綜述論文提供了對GPT-3系列大型語言模型的全面綜述。隨著GPT-3系列大型語言模型,如GPT-3、InstructGPT、ChatGPT、GPT-4等的日益增長的受歡迎程度,以及大量使用這些模型的研究工作,迫切需要一篇專門針對GPT-3系列大型語言模型的綜述論文。 綜述論文的組織結構如下:第2節簡要概述了各種基礎概念,如變換器、轉移學習、自監督學習、預訓練語言模型和大型語言模型。第3節詳細介紹了GPT-3系列大型語言模型,從GPT-3開始,到最新的ChatGPT和GPT-4。第4、5和6節分別討論了GLLMs在各種下游任務、特定領域和多語言場景中的表現。第7節介紹了GLLMs的數據標記和數據增強能力。第8節討論了各種研究工作,提出了檢測GLLMs生成的文本的方法。第9和10節分別討論了GLLMs的魯棒性和評估能力。第11節提出了多個有洞察力的未來研究方向。
從GPT1 [20]、BERT [19] 模型到最新的DeBERTa [26]、[27],預訓練語言模型取得了顯著的進步,并且還減少了訓練任務特定模型所需的標記數據量 [1]、[3]。預訓練語言模型遵循“先預訓練,然后微調”的范式,即模型首先進行預訓練,然后通過微調適應下游任務。由于任務特定的微調是強制性的,以適應預訓練語言模型到下游任務,預訓練語言模型不能在沒有任務特定微調的情況下泛化到未見過的下游任務。此外,任務特定的微調需要標記數據,并為每一個下游NLP任務創建一個預訓練語言模型的獨立副本,這增加了模型開發和部署的成本 [1]。預訓練語言模型被視為狹義的AI系統,因為它們通過微調進行適應,然后用于特定的下游任務。但是,研究界的主要關注點是開發不局限于特定任務,而是具有通用問題解決能力,并且像人類一樣利用現有知識處理甚至未見過的任務的人工普適智能系統 [43]、[100]。NLP研究者觀察到,預訓練語言模型的性能可以通過在三個維度上的擴展進一步提高:預訓練計算、預訓練數據和模型大小 [28]、[29]、[71]。大尺寸使模型能夠捕捉更多的細微語言模式,從而增強它們理解和生成文本的能力,而大量的預訓練數據幫助模型從更廣泛的文本中學習。擴展的有 promising 成果以及建立人工普適智能系統的追求促使NLP研究者構建更大更大的模型,最終導致GPT-3及其后續模型的演化 [4]、[31]–[33]。像遷移學習和自監督學習這樣的學習范式使得大型語言模型成為可能,但是擴展使這些模型變得強大。研究界為GPT-3及其后續大型模型創造了一個新的短語,“大型語言模型”,以區分這些模型與小的預訓練語言模型 [44]。大型語言模型 (LLMs) 是通過擴展模型大小、預訓練語料庫和計算獲得的預訓練語言模型的一個特殊類別,如圖6所示。大型語言模型 (LLMs) 本質上是深度學習模型,特別是基于transformer的模型,在大量的文本數據上進行預訓練,并使用元訓練與人類偏好進行對齊。預訓練為模型提供了通用的語言知識 [1],而元訓練則使模型根據用戶的意圖行事。在這里,用戶的意圖包括明確的意圖,如遵循指示,以及隱含的意圖,如維護真實性和避免偏見、毒性或有害行為 [2]。
由于它們的大尺寸和在大量文本數據上的預訓練,LLMs展現出稱為“新興能力”[101]、[102]的特殊能力,使它們在許多自然語言處理任務中無需任務特定訓練即可取得卓越的性能。對于下游任務使用,預訓練語言模型利用有監督的學習范式,其中涉及任務特定的微調和數百或數千的標簽實例[1]、[3]。LLMs利用上下文學習(ICL),這是一種新的學習范式,不需要任務特定的微調和許多標記實例[4]、[45]。LLMs將任何NLP任務視為條件文本生成問題,并通過條件化輸入提示生成期望的文本輸出,包括任務描述、測試輸入和可選的一些示例。
大型語言模型的演變沿著兩個維度發展:閉源LLMs和開源LLMs。LLMs的時代大約從GPT-3開始。在GPT-3取得成功后,Open AI開發了InstructGPT [2]、Codex [103]、ChatGPT和GPT-4 [42]等后續模型。Google引入了GLaM [33]、PaLM [31]、PaLM2 [68]、LaMDA [34]和Bard等模型。DeepMind開發了Gopher [35]、Chinchilla [32]、AlphaCode [104]和Sparrow [105]等模型。像Baidu、AI21 labs和Amazon這樣的公司分別開發了Ernie 3.0 Titan [106]、Jurassic-1 [107]和AlexaTM [108]等模型。盡管閉源LLMs的性能令人印象深刻,但這些模型的主要缺點是它們處于付費墻后面,即它們的權重不公開提供,其中一些模型只能通過各自公司提供的APIs訪問,并且根據處理和生成的令牌收費。
為了解決這個問題,研究界專注于開發具有公開可用權重的開源LLMs。一些受歡迎的開源LLMs是OPT [39]、OPT-IML [109]、Galactica [38]、LLaMA [40]、LLaMA2 [41]和Falcon。這些開源LLMs的性能與閉源LLMs相當。此外,在某些情況下,開源LLMs的性能超過了閉源LLMs。例如,Galactica擊敗了像GPT-3、Chinchilla和PaLM這樣的閉源LLMs。受到英語開源LLMs成功的啟發,研究界專注于開發多語言和雙語LLMs。BLOOM [37]和BLOOMZ [110]是多語言LLMs的例子,JAIS [111](英語和阿拉伯語)、GLM [112](英語和中文)和FLM-101B [113](英語和中文)是雙語LLMs的例子。
閉源和開源LLMs在通用領域的成功引發了域特定LLMs的開發,如金融領域的FinGPT [114]和BloombergGPT [115],醫療領域的MedPaLM [116]和MedPaLM2 [117],以及編碼領域的StarCoder [118]、CodeLlaMa [119]、CodeGen [120]和CodeGen2 [121]。例如,Bloomberg開發了專為金融領域設計的BloombergGPT。同樣,Google根據PaLM和PaLM2模型分別為醫療領域開發了MedPaLM和MedPaLM2 LLMs。同樣,HuggingFace開發了StarCoder,MetaAI開發了Code LlaMA,SalesForce為編碼任務專門開發了CodeGen和CodeGen2 LLMs。
Open AI, 一個于2015年成立的AI公司,專注于建立生成模型。Open AI的研究人員最初探索了RNN來開發生成語言模型 [122]。受到transformer模型巨大成功的啟發,以及其捕捉長期依賴關系的能力,Open AI研究人員利用transformer解碼器構建了GPT-1(117M參數),這是第一個基于transformer的預訓練語言模型 [20]。GPT-1引入了一個新的范式,“預訓練和微調”,有效地開發下游任務模型。原來,“預訓練和微調”范式是由Dai等人 [123] 提出的,然后被Howard和Ruder [124] 探索,用于構建文本分類的語言模型。但是,與Radford等人的工作 [20] 不同,這些研究工作是基于LSTM構建語言模型的,它缺乏并行化能力,并且在捕捉長期依賴關系上有困難。Radford等人 [20] 使用casual語言建模作為一個預訓練任務來預訓練GPT-1模型。casual語言建模預訓練任務涉及生成基于先前標記的下一個標記。GPT-1在12個NLP任務中的9個中取得了SOTA結果 [20]。受到GPT-1的成功啟發,Open AI的研究人員引入了GPT-2模型,以進一步推動這些結果 [28]。GPT-2模型預訓練在WebText語料庫上(40B文本),這比用于預訓練GPT-1模型的Books語料庫要大得多。作者開發了四個參數不同的GPT-2模型版本:117M、345M、762M和1.5B。作者觀察到,隨著模型大小的增加,困惑度減少,甚至對于最大的1.5B版本,困惑度的減少也沒有顯示出飽和。這表明GPT-2未能適應預訓練數據集,延長訓練時間可能會進一步降低困惑度。這一觀察觸發了這樣的洞見:“開發更大的語言模型將進一步降低困惑度并增強自然語言理解和生成能力”。從GPT-1和GPT-2模型中獲得的洞見為GPT-3家族大型語言模型的演化奠定了堅實的基礎,包括最新的模型,如ChatGPT和GPT-4。圖7顯示了從GPT-1到最新的GPT-4的Open AI的發展歷程,圖8顯示了從GPT-3系列到最新的GPT-4的GPT-3家族大型語言模型。
在這篇綜述論文中,我們從多個維度對GPT-3系列的大型語言模型進行了全面的回顧,涵蓋了超過350篇近期的研究論文。在這里,我們介紹了基礎概念,GPT-3系列的大型語言模型,并討論了這些模型在各種下游任務、特定領域和多種語言中的表現。我們還討論了GLLMs的數據標注、數據增強和數據生成能力,GLLMs的魯棒性,GLLMs作為評估者的有效性,并最終得出了多個有洞察力的未來研究方向。總的來說,這篇關于GPT-3系列大型語言模型的全面綜述論文將為學術界和工業界的人們提供一個很好的資源,以便了解最新的研究進展。
大型語言模型(LLMs)是在大量文本上訓練的深度學習算法,學習了數十億個單詞之間的數學關系(也稱為“參數”)。它們已經為我們大多數人所熟知,作為像OpenAI的ChatGPT和用于Google的Bard這樣的聊天機器人的算法基礎。如今的最大模型擁有數千億個參數,訓練成本也達到數十億美元。 盡管大規模的通用模型如ChatGPT可以幫助用戶處理從電子郵件到詩歌的各種任務,但專注于特定知識領域可以使模型更小且更易訪問。例如,經過精心訓練的高質量醫學知識的LLMs可能有助于民主化獲取循證信息,以幫助指導臨床決策。
已經有許多努力試圖利用和改進LLMs在醫學知識和推理能力方面,但迄今為止,產生的AI要么是閉源的(例如MedPaLM和GPT-4),要么在規模上受限,約為130億參數,這限制了它們的訪問或能力。 為了改善訪問和表現,洛桑聯邦理工學院計算機與通信科學學院的研究人員開發了MEDITRON 7B和70B,一對分別具有7億和70億參數的開源LLM,適應于醫學領域,并在他們的預印本MEDITRON-70B: Scaling Medical Pretraining for Large Language Models中進行了描述。
MEDITRON是在Meta發布的開源Llama-2模型的基礎上,持續融入臨床醫生和生物學家的輸入而訓練的。MEDITRON使用了精心策劃的高質量醫學數據源進行訓練,包括來自像PubMed這樣的開放獲取倉庫的同行評審醫學文獻,以及覆蓋多個國家、地區、醫院和國際組織的獨特的臨床實踐指南集。
大型語言模型(LLMs)可能有助于實現醫學知識的民主化。雖然已經做出了許多努力來利用和提高LLMs在醫學知識和推理能力方面的表現,但結果模型要么是封閉源代碼的(例如,PaLM、GPT-4),要么在規模上有限(≤ 13B參數),這限制了它們的能力。在這項工作中,我們通過發布MEDITRON來改善對大規模醫學LLMs的訪問:一套適應醫學領域的開源LLMs,擁有7B和70B參數。MEDITRON基于Llama-2構建(通過我們對Nvidia的Megatron-LM分布式訓練器的調整),并在綜合策劃的醫學語料庫上擴展預訓練,包括精選的PubMed文章、摘要和國際認可的醫學指南。使用四個主要醫學基準進行的評估顯示,在任務特定微調前后均取得了顯著的性能提升,超過了幾個最先進的基線。總體而言,MEDITRON在其參數類別中的最佳公開基線上實現了6%的絕對性能提升,以及在我們從Llama-2微調的最強基線上實現了3%的提升。與封閉源代碼LLMs相比,MEDITRON-70B超過了GPT-3.5和Med-PaLM,并且與GPT-4相差5%,與Med-PaLM-2相差10%。我們發布了策劃醫學預訓練語料庫和MEDITRON模型權重的代碼,以推動更有能力的醫學LLMs的開源開發。 //www.zhuanzhi.ai/paper/3a80007a9ee77b1b5c116259d8506624
醫學深深植根于知識中,回顧證據是指導臨床決策標準的關鍵。然而,雖然“循證醫學”(EBM)現在已成為質量護理的同義詞,但它需要的專業知識并不是普遍可得的。因此,確保公平獲得標準化醫學知識是醫學所有領域持續的優先事項。最近在大型語言模型(LLMs)(Brown et al., 2020; Touvron et al., 2023a; Almazrouei et al., 2023; Touvron et al., 2023b; OpenAI, 2023b; Chowdhery et al., 2022)方面的進展有可能徹底改變獲取醫學證據的方式。如今,最大的LLMs擁有數十億或數千億參數(Bommasani et al., 2021; Hoffmann et al., 2022; Kaplan et al., 2020),并且在龐大的預訓練語料庫上進行訓練(Raffel et al., 2019; Gao et al., 2020; Together AI, 2023; Soldaini et al., 2023)。這種前所未有的規模使LLMs具備了人類決策的核心特征:逐步思維推理、連貫溝通和情境解讀(Bubeck et al., 2023; Wei et al., 2023; Wang et al., 2023)。
直到最近,LLMs主要針對通用任務進行開發和評估,主要使用從不同互聯網來源收集的數據,這些數據在領域特定證據方面的質量各不相同(Rozière et al., 2023)。這種方法雖然通常非常強大,但會阻礙特定任務的性能,包括醫學領域。一些新的特定任務模型,經過更精心策劃的數據集訓練,已經多次超越了通用模型(Wu et al., 2023b; Yue et al., 2023; Rozière et al., 2023; Azerbayev et al., 2023),揭示了在預訓練數據方面平衡質量和數量的潛力。實現這種平衡的一個有希望的方法是使用通用LLMs,然后繼續在更精選的領域特定數據上訓練。這些系統獲得了自然語言和領域特定語言理解及生成技能的結合(Gururangan et al., 2020)。在醫學領域,這種方法僅在13B參數以下的模型中有報告(Lee et al., 2020; Gu et al., 2021; Peng et al., 2023; Wu et al., 2023a)。在更大規模(即≥70B參數)上,之前的研究僅探討了指令調整(M42-Health)或參數高效微調(Toma et al., 2023)的范圍。 在這項工作中,我們介紹了MEDITRON-7B和70B,這是一對用于醫學推理的生成LLMs,由Llama-2(Touvron et al., 2023b)改編,通過在精心策劃的高質量醫學數據源上繼續預訓練:PubMed Central(PMC)和PubMed開放獲取研究論文(通過S2ORC語料庫收集,Lo et al., 2020),S2ORC中的PubMed摘要(來自非開放獲取論文),以及從互聯網收集的多種醫學指南,涵蓋多個國家、地區、醫院和國際組織。為了支持訓練,我們擴展了Nvidia的Megatron-LM分布式訓練庫,以支持Llama-2架構。 我們使用四個醫學推理基準對MEDITRON進行評估,包括在上下文學習中(在提示期間提供示例,即在上下文窗口內)和特定任務的微調。基準包括兩個醫學考試題庫,MedQA(來自美國醫學執照考試,Jin et al., 2020)和MedMCQA(醫學領域的多主題多選題數據集,Pal et al., 2022),PubMedQA(基于PubMed摘要的生物醫學問答,Jin et al., 2019)和MMLU-Medical(來自大規模多任務語言理解的醫學主題評估集,Hendrycks et al., 2021a)。在沒有微調的情況下使用上下文學習,MEDITRON-7B超過了幾個最先進的基線,顯示出比PMC-Llama-7B(一種類似的LLM,由Llama改編,通過在PubMed Central論文上繼續預訓練,Touvron et al., 2023a)平均10%的性能提升,以及比Llama-2-7B模型平均5%的性能提升。在特定任務訓練數據上微調后,MEDITRON的性能也在同等規模的其他微調基線上有所提升,達到了5%(7B)和2%(70B)的平均性能提升。最后,將MEDITRON-70B微調以支持高級提示策略,如思維鏈和自我一致性,進一步提高了最佳基線3%和最佳公開基線12%的性能。總的來說,MEDITRON在醫學推理基準上表現強勁,在同等規模的最先進基線上匹敵或超越。
總結來說,我們提出了一種優化的工作流程,用于擴展醫學LLMs的領域特定預訓練,包括基于知識的數據策劃、通過分布式訓練管道的持續預訓練、微調、少樣本上下文學習,以及高級推理方法,如思維鏈推理和自我一致性。我們發布了策劃的訓練語料庫、分布式訓練庫2和MEDITRON模型(7B和70B)3,包括經過微調和未經微調的版本,以確保公眾能夠進行現實世界評估,促進其他領域類似工作的發展。
醫學訓練數據
MEDITRON的領域適應性預訓練語料庫GAP-REPLAY結合了來自四個數據集的48.1B個詞符;臨床指南:來自各種醫療相關來源的46K份臨床實踐指南的新數據集,論文摘要:來自16.1M閉源PubMed和PubMed Central論文的公開可用摘要,醫學論文:從500萬份公開可用的PubMed和PubMed Central論文中提取的全文文章,以及回放數據集:一般領域數據提煉而成,占整個語料庫的1%。
模型
結果
結論
我們發布了MEDITRON,一套適用于醫療領域的高級語言模型(LLM),展示出卓越的醫學推理能力和改進的領域特定基準性能。通過對精心策劃的高質量醫療資源進行持續預訓練(包括一套新的臨床指南),MEDITRON在臨床推理基準上表現出比所有最先進基準規模更大8倍商業LLM 10%性能提升。值得注意的是,MEDITRON在所有醫療基準上均優于開源多功能和醫療LLM。我們將我們的模型(以7B和70B規模)、籌備訓練語料庫所需工具以及分布式訓練庫作為開放資源提供。這不僅確保了對真實世界情境下評估結果,還促使進一步微調和指導性模型發展成為可能。通過公開提供這些資源,我們旨在幫助釋放共享模型潛藏于增強醫學研究、改善患者護理并推動各種健康相關領域創新方面變革潛力。
可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。
自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。
在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。
然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。
在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。
本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。
基于PLM的CTG主要方法
從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。
基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。
結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。
Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。
Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。
多模態-文本提示方法
圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。
在圖像-文本匹配中的提示模型
在文本-圖像生成中的提示模型
結論
這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。
增強型語言模型:一項綜述
這次演講聚焦于最近的一些研究,這些研究中語言模型(LMs)被賦予了推理能力和使用工具的能力。前者被定義為將可能復雜的任務分解為更簡單的子任務,而后者包括調用外部模塊,如代碼解釋器。LMs可以單獨或通過啟發式方法結合這些增強效果,或者從示例中學習如何這樣做。在堅持標準的缺失令牌預測目標的同時,這種增強型LMs可以使用各種可能的非參數化的外部模塊來擴展其上下文處理能力,從而偏離純語言建模范式,并被稱為增強型語言模型(ALMs)。缺失令牌的目標允許ALMs學習推理,使用工具,甚至行動,同時仍然執行標準的自然語言任務,并在幾個基準測試上超過大多數常規的LMs。
由CMU和USC/ISI聯合開發的OPERA系統(面向運行的概率提取、推理和分析)是針對DARPA的“對不同方案的主動解釋”(AIDA)計劃的綜合解決方案,其形式是:(i) 針對文本、語音和圖像/視頻數據的高性能媒體分析(TA1),(ii) 語義表示和推理支持(TA1和TA2),(iii) 跨媒介和跨語言整合(TA2),和(iv) 假設創建、管理和假設探索(TA3)。鑒于這樣一個系統的所有必要組成部分仍然是活躍的研究領域,創建一個單一的系統(流水線或其他方式)有可能出現大量的復合錯誤率。早期創建的系統版本有很強的抽象邊界,用于系統之間有限的信息共享。后來的化身得益于允許提取器的輸出與原始文本字符串和嵌入向量相耦合。在存在編碼世界知識的大規模語言模型的情況下,以及在將預測與開放領域的本體(如WikiData)相一致時,這些證明是特別有利的。
DARPA的“對不同方案的主動解釋”(AIDA)計劃的目標是開發一個多假設語義引擎,它可以從各種非結構化的來源產生對事件、情況和趨勢的明確的替代解釋。這些事件可能是自然災害或國際沖突,在這些事件中,分析人員往往很快就會被大量嘈雜、沖突和可能具有欺騙性的信息所淹沒,這使得他們很難理解什么是相關的以及如何做出適當的反應。AIDA引擎必須能夠從多種語言和媒體來源中自動提取知識元素,匯總來自這些來源的信息,并生成和探索關于正在發生的事件的多種備選假設,然后可以呈現給用戶(如情報分析員)并由其進行互動探索。
CMU在這次合作中的作用集中在TA1和TA2上--創建文件間和文件內或模式表示。
文件內 在單個文件內,系統必須對實體、事件和關系進行準確的提取。這種精確性與召回率的閾值必須適合于豐富的假說表述,而沒有不適當的噪音傳播。提取器還需要在多語言和從視覺上操作。這里同時采用了高精度的專家注釋方法和高召回率的學習技術。
文件間 一旦建立了本地知識實體,它們就會在文件和模式間進行聚類,以開始類似證據的統一。
USC/ISI在這一合作中的作用是設計和開發表示機制和軟件組件,以提供以下高級功能:
通用語義庫,它提供了一個表示形式、本體、存儲庫、推理引擎和API,以存儲、訪問、映射、消除歧義和鏈接由TA1模塊生成或由分析師直接輸入的知識元素(KEs)。
假設生成和管理,生成和管理語義上連貫的假設,這些假設在某種最低程度上得到OPERA可用證據的支持,并記錄和管理備選方案,允許在假設推理器的指導下進行回溯和撤回。
AIDA計劃的目標非常宏大,對處理這些問題的各個團隊提出了極其困難的技術和工程挑戰。鑒于所有不同的輸入模式、語言、媒體類型、源和提取噪聲,以及對知識元素提取、推理、鏈接、查詢、跨組件和跨團隊集成、容器化和端到端系統自動化的要求,所產生的系統變成了極其復雜和難以構建、測試和調試的系統,特別是在一個學術、非商業研究環境中。最終的組件構成了龐大的代碼庫,每個代碼庫都有幾萬行。這個非常可觀的代碼庫的很大一部分集中在工程和集成問題上,而這些問題對于整個系統的性能來說往往比許多有趣的技術問題更重要,這些問題也必須解決。
長期以來,系統工程師一直在努力識別和理解作戰環境中的系統行為。系統建模語言(SysML)是一種圖形語言,在系統工程師中使用,用于向各利益相關者傳遞系統設計的細節。蒙特雷鳳凰(MP)是一種行為建模方法和工具,利用輕量級的正式方法和語言來生成圖表,并顯示預期和意外的突發系統行為。通過對SysML和MP行為模型的系統分析,本研究提出了在未來版本中改進MP以適應SysML的建議。將MP的范圍完整的事件跟蹤生成合并到SysML兼容格式的能力將為美國防部的采購過程提供巨大的洞察力和好處。這項研究的結果包括對MP圖的幾個簡單補充,使其更好地符合SysML標準,同時保留MP在設計過程中早期識別突發行為的能力,在系統設計特征被制造或測試之前就可以解決風險。
長期以來,系統工程師(SE)一直在努力識別和理解操作環境中的系統行為。系統工程師工具箱中的一個主要工具是使用系統建模語言(SysML)行為圖。這些圖包括活動圖、序列圖、狀態機圖和用例圖。它們允許SE繪制出系統的子系統(或組件)、操作環境(包括任何外部系統)和系統操作者的預期互動關系。
SysML是一種圖形化的語言,在系統工程從業者中被用來向各利益相關者傳遞系統設計的細節。這種語言有一個詞匯和語法結構,適用于其所有的圖表類型。它要求建模者對系統的功能、使用方式、操作環境以及操作者如何使用系統有深入的了解,以便正確地映射行為。人們普遍認為,行為圖的好壞取決于SE對系統的理解以及他們對系統行為方式的固有偏見。
Monterey Phoenix (MP)是一種行為建模方法和工具,利用一種由精確的邏輯和數學符號組合而成的輕量級正式方法和語言來生成圖表和顯示系統行為(NPS Wiki n.d.)在MP中建模系統行為需要建模者定義系統、環境和終端用戶所包含的事件之間的關系。然后,這些關系被自動顯示在一組稱為事件追蹤的圖形模型中。MP在單獨的事件追蹤中生成所有可能的關系組合,這將有助于SE識別操作環境中的突發行為。MP也能夠生成被建模的系統的活動和狀態機圖。然而,目前工具的圖形輸出并不符合SysML。
這個頂點項目的主要目標是通過確定這兩種圖形語言之間的重疊和差距,促進或阻礙一種符號和另一種符號之間的自動轉換,從而推動系統工程界對SysML和MP行為模型的理解。MP能夠根據建模者定義的關系生成范圍完整的事件跟蹤圖(類似于SysML的序列圖),這是目前生成SysML行為圖的工具所缺乏的能力。
為了彌補行為建模語言的這一缺陷,我們為兩個案例研究系統開發了SysML和MP行為模型;自動地面防撞系統(Auto GCAS)和槍支安全模型(FSM)。自動地面防撞系統是戰斗機的一項安全功能,旨在防止地面碰撞。FSM模擬射手和槍支之間的相互作用。之所以選擇每一種,是因為其對系統行為建模的適用性,并且可以在不同類型的行為圖之間進行一對一的比較,對兩種建模語言進行比較。活動圖、序列圖和狀態機圖都是以符合SysML的格式為Auto GCAS和FSM生成的。然后將從MP模型中生成的等效圖與SysML圖進行比較。雖然MP圖形語言缺乏SysML的視覺詞匯,但MP模型中包含的信息能夠被格式化以符合SysML。
該小組系統地確定了兩種圖形語言之間的符號差異和相似之處,并為在未來的版本中改進MP以適應SysML兼容的圖表生成提供了建議。對比MP事件追蹤和SysML順序圖,共發現了它們之間的四個差異,并提供了四個改進MP事件追蹤發生器的建議。接下來,對MP和SysML活動圖進行了比較,共發現了5個不同點和4個相同點,并提供了5條改進建議。最后,對MP和SysML的狀態機圖進行了比較,發現在概念就業方面有三個很強的相似之處,在圖形符號方面有三個微小的差異,并為改進MP的狀態機生成提供了六個建議。在整個研究活動中,Model Wreckers還為未來的工作確定了三項建議,以改善用MP建模系統行為的能力和整體用戶體驗。
將MP的范圍完整的事件跟蹤生成合并到一個符合SysML的格式中的能力使國防部的采購過程有很大的洞察力和好處。通過能夠在設計過程中更早地識別潛在的突發行為,風險可以在系統設計功能被制造或測試之前被解決。在對物理設計方案進行原型設計和測試后,糾正或減輕突發行為的成本會大大增加。這項研究使SE界在利用MP產生的、熟悉的SysML符號的突發行為方面又前進了一步。
人類-系統集成(HSI)度量貿易空間探索環境(HMTee)是一個方便的R Shiny應用程序,用于人類因素和HSI分析問題。它構成了確定相關HSI因素的定量準則和指標的數字參考,使從業人員能夠將分析結果可視化,并為決策者提供性能模擬的視覺證據。它允許分析員、研究人員或從業人員探索和記錄假設、參數和性能指標,并隨后在相互競爭的因素之間進行權衡。
本報告旨在為開發人員或其他具有技術專長的人提供技術文件,以了解HMTee的實施情況,并將其他軟件或HSI模型與HMTee的功能相結合。本指南包括對技術方法的概述,對與HMTee集成的模型所需組件的描述(即HMTee應用編程接口[API]),以及將與該工具集成的示范模型的文檔。本指南是美國陸軍作戰能力發展司令部(DEVCOM)分析中心的另一份報告的配套文件,該報告被稱為DAC,即HSI公制貿易空間探索環境(HMTee)。整合人類系統性能量化模型的范式(Garneau,2022)。本指南打算定期更新,并將最新版本與軟件分發一起維護。
時間序列分析與應用R語言,第二版,提出了一個易于理解的方法來理解時間序列模型及其應用。雖然重點放在時域ARIMA模型及其分析上,但新版本的兩章研究了頻域模型和三章研究了時間序列回歸模型、異方差模型和閾值模型。所有的想法和方法都說明了真實和模擬數據集。
Jonathan Cryer是愛荷華大學統計與精算學系榮譽退休教授。他是美國統計協會的成員,并獲得了愛荷華大學文理學院的大學教學獎。他是《商業統計:數據分析和建模》第二版(與Robert B. Miller合著)、《Minitab手冊》第五版(與Barbara Ryan和Brian Joiner合著)、《統計學電子伙伴》(與George Cobb合著)、《商業統計學電子伙伴》(與George Cobb合著)和眾多研究論文的作者。
Kung-Sik Chan,美國愛荷華大學統計及精算學系教授。他是美國統計協會(American Statistical Association)和數理統計學會(Institute of the Mathematical Statistics)的會員,以及國際統計學會(International Statistical Institute)的當選成員。1996年獲愛荷華大學學者獎。他著有《混沌:統計視角》(與豪厄爾·唐合著)和許多研究論文。
//link.springer.com/book/10.1007/978-0-387-75959-3#about
預訓練跨語言模型(Pre-Trained Cross-Lingual Language Model)是通過在大規模多語言語料上進行預訓練得到,其展現了在不同語言間優秀的遷移能力。這類模型通常由多語言詞表以及 Transformer 編碼器組成,可以將不同語言的文本編碼進統一的表示空間。盡管大多數預訓練單語模型和跨語言模型中使用的 Transformer 編碼器結構幾乎相同,但它們的詞表有較大的區別。現有預訓練單語模型的詞表一般包含 30K 到 60K 子詞單元,與此同時,XLM-R[1] 及 mT5[2] 等模型使用包含 250K 子詞單元的多語言詞表來表示上百種語言,雖然有些子詞單元是跨語言共享的,但是每個語言分配的語言特定子詞單元平均不超過 2.5K 個,用來表示一種語言依然是相對不足的。并且常用的多語言詞表是通過 BPE 或 unigram 語言模型等算法在多語言語料上學習得到,這些算法在詞表構建過程中更傾向于選擇在不同語言之間共享的子詞單元,如使用拉丁字母和西里爾字母的語言[3],而選中語言特定子詞單元的概率較低。對于這些算法而言,很難確定是否已經為每種語言分配了足夠的詞表大小,使得每種語言都能被充分表示。此外,相比于單語模型,跨語言模型中的大詞表不僅會降低預訓練速度,同時也會導致模型參數量增加。
為了解決上述問題,本文首先提出 VoCap 詞表構建算法得到一個更大的多語言詞表,在構建過程中綜合考慮每種語言的語言特定詞匯能力及預訓練語料大小為每種語言分配合適的詞表大小。對于進一步加大跨語言模型中的多語言詞表所帶來的預訓練速度降低的問題,本文提出基于 k 近鄰的目標采樣方法,通過近似估計訓練目標中的 softmax 函數來提升跨語言模型預訓練效率。XTREME benchmark[4] 上實驗結果表明,基于 VoCap 方法構建的多語言詞表要優于之前的詞表,基于 k 近鄰的目標采樣方法在達成可比性能的同時,大幅度提升了跨語言模型的預訓練效率。
機器翻譯能夠實現多種語言之間的自動翻譯,方便人類的溝通和交流,具有重要的研究價值。神經機器翻譯(NMT)是一種端到端的自動翻譯系統。統計機器翻譯方法(SMT)曾經是研究最多,最為成功的機器翻譯系統。2014年基于神經網絡的NMT推出以后,由于其存在許多缺陷,發展已經進入低谷。傳統的NMT存在缺乏穩定性,計算耗時等問題。2016年,谷歌公司推出了神經機器翻譯系統GNMT。來自紐約大學Kyunghyun Cho副教授講解了《機器翻譯》最新進展,50頁ppt