亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

近年來,深度學習領域取得了重大進展,特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而,它的訓練過程極不穩定,對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高,大量研究在一定程度上探索了高效訓練領域,但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式,并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心",包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”,包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術,注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”,包括在資源受限情況下的一些獨特加速方法,例如對總迭代次數的限制; (5)“以系統為中心”,包括一些高效的分布式框架和開源庫,它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法,本文綜述了一個全面的回顧,以了解每個組件內的一般機制及其聯合交互。同時,對通用加速技術發展的未來工作進行了詳細的分析和討論,這些工作可以啟發我們重新思考和設計新的高效范式。總之,我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展,深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律,并表明更大的模型本質上需要大量的數據,在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如,Dehghani等人[44]提出了ViT-22B,該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后,GPT-3[18]在45TB數據樣本上訓練了175B參數,并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型,只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229],這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚,但為了保持實際效率,人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言,訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說,訓練GPT-3消耗大約355 GPU年,成本為460萬美元。在如此龐大的參數和數據樣本下,傳統的從零開始訓練顯然無法承受巨大的費用,特別是在擴展到下游任務[30,138,187,188,211,243]時,這將引入額外的架構和過多的參數。因此,預訓練-微調模式在深度學習領域日益受到關注

預訓練的主題是繼承遷移學習的范式,在一個通用的數據集上訓練一個通用的基礎模型,以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態),幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像,有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練,為下游任務產生了有希望的遷移性能。同樣,來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48],通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區,Radford等人[196]提出了生成式預訓練(GPT),通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率,GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習,在預訓練中可以顯著增強對知識的理解,在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明,使用預訓練可以提高模型的魯棒性和不確定性,對于在大型數據集上進行訓練表現出極大的優勢,泛化能力較好。最近的進展表明,從具有巨大容量的預訓練模型中獲得了實質性的收獲,特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向,即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴,極大地啟發了大數據的應用。同時,它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本,包括時間和金錢,嚴重阻礙了它的發展。在此背景下,本文介紹和總結了在大規模模型上加速訓練的通用和實用技術,這些技術促進了更快的訓練,也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術,主要包括引入了高效的預訓練模型,設計了新的加速組件,先進的優化方法,在NLP或CV社區上的高效訓練,以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作,并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型,主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧,討論了它們在每個不同社區的成果的最新研究進展,這些成果可能會給本地研究帶來新的思考。同時,系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型,并回顧了Transformer模型的幾種變體,這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展,介紹了Transformer模型的詳細演變,并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發,提出了一些提高Transformer模型訓練效率的策略,并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述,包括計算效率、存儲效率和硬件/算法協同設計。與它們不同,我們更關注基本的加速技術,不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐,以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展,包括新的優化器和策略,以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗,總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法,并討論了它們的效率和缺點。

近年來,高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展,但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下,本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧,這些技術獨立于任務或模型架構。從實踐效率的角度來看,我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度,高效的訓練需要更少的訓練時間。

在相似的訓練成本下,高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構,本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外,由于我們的調研是無任務和無模型的,因此提供了訓練加速技術的廣泛泛化,可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理,研究人員可以開發更快、更有效的模型,而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述,為機器學習領域做出了重大貢獻。 本文對解決一般的基本最小化問題很感興趣,可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同,本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件,這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中,省略了額外的近端項。在不損失通用性的情況下,使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中,我們總結了這些符號及其對應的研究領域。基于式(3),通過提煉和拆分組件的不同角色,將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析,以對當前用于訓練大規模模型的通用加速技術進行分類,并結合實際實現的可行性。具體來說,它們是:

以數據為中心的有效訓練。在深度學習中,全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高,盡管在早期階段表現有效。為了解決這個問題并提高泛化性能,以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性,從而在實際應用中具有更好的泛化性能。同時,為了實現有效加速并進一步提高模型的通用性,以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外,它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明,課程學習是一個循序漸進的過程,可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本,逐步恢復到高質量的樣本。總之,以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡,例如基于卷積的神經網絡(CNN),多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化,更多地關注DNNs的計算復雜性,以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說,架構近似側重于采用簡化的算子組合,以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率,也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態,可以有效地加快收斂速度,防止訓練過程在早期崩潰。總之,以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法,它具有很強的實用性,可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率,總結了三個主要因素,即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而,要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此,以學習率為中心的方法旨在開發高效和靈活的策略,以高效和穩定地訓練模型。第二個因素,批量大小,在優化中也起著關鍵作用。借助GPU設備的并行計算能力,特別是在計算資源充足的情況下,通過增加單個minibatch中的樣本數量可以提高訓練效率。因此,以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看,我們總是努力實現一個具有高穩定性的目標,這是以目標為中心的方法的主要關注點。這些方法專注于優化目標,提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述,以優化為中心的方法研究了訓練過程中的高效迭代計算,為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率,在這些場景中,計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練,同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練,研究人員和從業人員可以充分利用可用資源,避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發,這些模型更實用,更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現,能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯,以解決跨設備通信中的瓶頸,并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練,訓練過程被分布為更小的計算任務,在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架,如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練,并顯著減少了大規模深度學習模型的訓練時間。

總而言之,本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分,我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分,我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術,總結了它們的技術路線和每個組件的實現,有助于為無任務和無模型的高效訓練提供堅實的指導

比較了訓練加速中每個組件的優缺點,展示了它們的見解和互動,可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析,這可以為它們未來的發展提供指導

本調查的主要結構組織如下。在第2節中,介紹了一些初步工作,包括不同骨干中的基本模塊,以及對大規模深度學習模型、數據集的預訓練,以及本綜述中采用的詳細符號。在第3 ~ 6節中,基于迭代公式(3),從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中,我們討論和總結了本綜述中的技術,并提出了一些有前途的研究方向。

付費5元查看完整內容

本文對GPT系列中最先進的大型語言模型(LLM) ChatGPT和GPT-4及其在不同領域的應用前景進行了全面的綜述。事實上,關鍵創新,如在整個萬維網上捕捉知識的大規模預訓練、指令微調和從人工反饋中強化學習(RLHF),在提高llm的適應性和性能方面發揮了重要作用。對arXiv上的194篇相關論文進行了深入分析,包括趨勢分析、詞云表示和跨不同應用領域的分布分析。研究結果表明,人們對ChatGPT/GPT-4的研究興趣顯著增加,主要集中在直接的自然語言處理應用上,同時在教育、歷史、數學、醫學和物理等領域也顯示出巨大的潛力。本研究旨在揭示ChatGPT的能力、潛在意義、倫理問題,并為該領域的未來發展指明方向1. 引言自然語言處理(NLP)的最新進展導致了強大的語言模型的發展,如GPT(生成式預訓練Transformer)系列[1,2,3,4,5],包括ChatGPT和GPT-4等大型語言模型(LLM)。這些模型是在大量文本數據上進行預訓練的,并在廣泛的NLP任務中表現出卓越的性能,包括語言翻譯、文本摘要和問答。特別是ChatGPT模型在教育、醫療、推理、文本生成、人機交互和科學研究等各個領域都展示了其潛力

LLM開發的一個關鍵里程碑是InstructGPT[5],一個框架,允許基于人工反饋強化學習(RLHF)對預訓練語言模型進行指令微調[6,5]。該框架使LLM能夠適應廣泛的NLP任務,通過利用人工反饋使其高度通用和靈活。RLHF使模型能夠與人類的偏好和價值觀保持一致,這與僅通過無監督預訓練訓練文本語料庫的大型語言模型相比有了顯著提高。ChatGPT是InstructGPT的繼承者。自2022年12月發布以來,ChatGPT已經具備了這些先進的開發,在推理和廣義文本生成等各種下游NLP任務中取得了令人印象深刻的性能。這些前所未有的NLP能力促進了教育、醫療、人機交互、醫學和科學研究等不同領域的應用。ChatGPT得到了廣泛的關注和興趣,越來越多的應用和研究利用了其巨大的潛力。多模態GPT-4模型的公開發布進一步擴展了大型語言模型的視野,并促進了涉及文本以外的各種數據的令人興奮的發展。本文對ChatGPT的現有研究及其在各個領域的潛在應用進行了全面的綜述。為了實現這一目標,我們對arXiv庫中與ChatGPT相關的論文進行了全面的分析。截至2023年4月1日,在arXiv上共有194篇論文提到了ChatGPT。在這項研究中,我們對這些論文進行了趨勢分析,并生成了一個詞云來可視化常用術語。此外,我們還檢查了不同領域的論文分布,并給出了相應的統計數據。圖1顯示了ChatGPT相關論文的每日提交趨勢,表明人們對該領域的興趣越來越大。圖2展示了所有論文的詞云分析。我們可以觀察到,目前的研究主要集中在自然語言處理上,但在教育和歷史等其他領域的研究仍然有很大的潛力。圖3進一步支持了這一點,它顯示了在各個領域提交的論文的分布,強調了在這些領域進行更多研究和開發的必要性。本文旨在揭示ChatGPT的潛力,并深入探討其對未來的潛在影響,包括倫理方面的考慮。希望通過本文的綜述,為未來如何改進和擴展這些模型提供見解。在第2節中,我們將回顧與ChatGPT相關的現有工作,包括它的應用、倫理考慮和評估。除了討論ChatGPT相關的研究現狀,我們還將在第3節中探討其局限性。此外,還將為語言模型的未來發展方向提供指導。

2 ChatGPT的相關工作

在本節中,我們對ChatGPT的應用、倫理、評價等方面的最新研究進展進行了綜述

2.1 ChatGPT的應用

2.1.1 問答

在教育領域,ChatGPT通常用于教育領域的問答測試。用戶可以使用ChatGPT學習、比較和驗證不同學科(如物理、數學和化學)的答案,或者概念學科(如哲學和宗教)的答案。此外,用戶可以提出開放式和分析性的問題,以了解ChatGPT的功能**。**在數學領域,Frieder等人構建了由研究生水平數學試題組成的GHOSTS自然語言數據集。作者使用問答格式在GHOSTS數據集上測試了ChatGPT的數學能力,并根據細粒度標準對其進行了評估。在涵蓋簡單集合理論和邏輯問題的Grad文本數據集上,ChatGPT表現最好。然而,在奧林匹克解題數據集上,ChatGPT表現不佳,只得到了兩個4分的分數(總分5分),大部分分數都是2分。在Holes- In - proof數據集中,ChatGPT得到了最低的1分。在數學數據集中,ChatGPT只在26%的案例中獲得了令人印象深刻的分數。這些結果表明,ChatGPT的數學能力明顯低于普通的數學研究生。雖然ChatGPT可以大致理解數學問題,但卻無法提供正確的解決方案。Pardos等人[8]使用開放自適應輔導系統(OATutor)來調查ChatGPT生成的提示是否對學習代數有幫助,來自Mechanical Turk的77名參與者參加了實驗。實驗使用的問題來自OpenStax的初等和中級代數教科書。這些參與者被隨機分配到控制組(有手動提示)或實驗組(有ChatGPT提示)。對于兩門課程中的每一個問題,作者都通過問答形式從ChatGPT中獲取答案,并根據三個標準進行評分:ChatGPT提供了一個答案,答案正確,答案中沒有使用不當的語言。研究發現,ChatGPT生成的提示有70%通過了人工質量檢查,無論是人類還是Chat- GPT都產生了積極的學習收益。然而,人工提示的得分在74.59% - 84.32%之間,明顯高于ChatGPT提示的得分。Shakarian et al.[9]研究了ChatGPT在數學應用題(MWPs)上的表現,使用DRAW-1K數據集進行實驗。該數據集由1000個MWPs和他們的答案組成,以及用于解決此類問題的代數方程模板。作者利用機器學習自省的思想,使用隨機森林和XGBoost構建性能預測模型,并在數據集上使用五折交叉驗證對其進行評估。ChatGPT的準確率從最初的34%提高到最終的69%,而召回率從最初的41%提高到最終的83%。作者還發現,ChatGPT的失敗率從最初的84%下降到最終的20%,這表明,具體的工作要求可能會有很大的差異。

在物理學領域,Lehnert等人[10]通過研究ChatGPT如何處理弦論中的沼澤地猜想等晦澀的物理話題,探索了ChatGPT的能力和局限性。實驗對話從弦理論領域更廣泛、更一般的問題開始,然后縮小到具體的沼澤地猜想,并檢查ChatGPT對這些猜想的理解。研究發現,ChatGPT可以不同地定義和解釋各種風格的概念,但并不能有效地將各種概念真正聯系起來。它會在必要時自信地提供虛假的信息和捏造的陳述,表明ChatGPT不能真正創造新的知識或建立新的連接。然而,在識別類比和描述視覺表征的抽象概念方面,ChatGPT可以巧妙地使用語言。Kortemeyer et al.[11]通過問答測試評估了ChatGPT回答基于微積分的物理問題的能力。測試包括在線作業、點擊器問題、編程練習,以及涵蓋經典力學、熱力學、電學和磁學以及現代物理的考試。雖然ChatGPT能夠通過這門課程,但它也展示了許多初學者普遍存在的誤解和錯誤。West et al.[12]在大學物理第一學期使用力概念量表(Force Concept Inventory, FCI)來評估ChatGPT在回答與運動學和牛頓力學相關的物理概念問題時的準確性。FCI涵蓋了運動學、拋射運動、自由落體、圓周運動和牛頓定律等主題。該研究包括了415名在學期末參加FCI的學生的數據,平均分數為56%,而ChatGPT的分數大約在50%到65%之間。作者論證了ChatGPT在物理學習上的表現可以達到甚至超過一個學期大學物理的平均水平。

在醫學領域ChatGPT的問答功能也可以應用于醫療領域,如回答患者提出的醫療問題或協助醫療專業人員診斷疾病。11月等人[13]評估了使用ChatGPT進行醫患溝通的可行性。實驗從EHR中提取了10個具有代表性的醫患互動,將患者的問題放置在ChatGPT中,并要求ChatGPT使用與醫生的回答大致相同的字數進行回應。每個患者的問題由醫生或ChatGPT回答,并告知患者5個問題由醫生回答,5個問題由ChatGPT生成,并要求患者正確識別回答的來源。實驗結果顯示,正確識別ChatGPT回應的概率為65.5%,而正確識別醫生回應的概率為65.1%。此外,實驗發現,患者對ChatGPT功能可信性的反應為弱陽性(李克特平均得分:3.4),信任隨著問題中健康相關任務復雜性的增加而降低。ChatGPT對患者問題的回答與醫生的回答僅略有不同,但人們似乎信任ChatGPT回答低風險的健康問題,而對于復雜的醫療問題,人們仍然傾向于信任醫生的回答和建議。Tu等[14]探索了ChatGPT在神經性疼痛診斷中的因果發現能力。因果關系發現旨在純粹基于觀察到的數據[15]揭示潛在的未知因果關系。實驗結果發現,ChatGPT在理解新方面存在一定的局限性超越現有文本訓練數據語料庫的知識和概念,即它只理解描述情況常用的語言,而不理解底層知識。此外,它的性能一致性和穩定性不高,因為實驗觀察到,在多次詢問下,它會對同一問題提供不同的答案。然而,盡管ChatGPT有很多局限性,我們相信它在改善因果關系研究方面有很大的機會。

Guo et al.[16]嘗試將ChatGPT應用于通信領域,具體來說是將ChatGPT用于有序重要性語義通信,其中ChatGPT扮演了智能咨詢助手的角色,可以代替人類識別消息中單詞的語義重要性,可以直接嵌入到當前的通信系統中。對于一條要傳輸的消息,發送者首先利用ChatGPT輸出每個單詞的語義重要性排序。然后,發送者基于重要度順序執行不等錯誤保護傳輸策略,使消息中重要單詞的傳輸更加可靠。實驗結果表明,在嵌入ChatGPT的通信系統中測量到的重要單詞的錯誤率和語義損失遠低于現有的通信方案,說明ChatGPT可以很好地保護重要單詞,使語義通信更加可靠。 Wang et al.[17]研究了ChatGPT在為系統文獻搜索生成高質量布爾查詢方面的有效性。他們設計了廣泛的提示,并在100多個系統綜述主題上調查了這些任務。最終,與目前最先進的查詢生成方法相比,ChatGPT生成的查詢取得了更高的準確率,但代價是召回率降低。對于有時間限制的快速評論,以較高的準確率換取較低的召回率通常是可以接受的。此外,ChatGPT可以通過引導提示生成高搜索精度的布爾查詢。然而,需要注意的是,當兩個查詢使用相同的提示符時,ChatGPT會生成不同的查詢,這表明了它在一致性和穩定性上的局限性。總的來說,這項研究證明了ChatGPT在為系統文獻搜索生成有效的布爾查詢方面的潛力。

2.1.2 文本分類

文本分類的目的是將文本數據分配給預定義的類別。這項任務對許多應用至關重要,包括情感分析、垃圾郵件檢測和主題建模。雖然傳統的機器學習算法已被廣泛用于文本分類,但自然語言處理的最新進展導致了更先進技術的發展。ChatGPT在這一領域顯示了巨大的潛力。文獻中的多項研究表明,它能夠準確地對文本進行分類,處理各種分類任務的靈活性,以及可定制的潛力,使其成為文本分類的一個有價值的工具。 Kuzman et al.[18]采用ChatGPT進行自動體裁識別,目標是利用ChatGPT的零樣本分類能力來簡化文本分類任務。他們使用兩種提示語言(EN和SL),與基于多語言模型xln - roberta的X-GENRE分類器在英語數據集EN-GINCO和斯洛文尼亞數據集GINCO上進行了比較。 結果顯示,當使用EN作為提示語言時,ChatGPT實現了Micro F1、Macro F1,準確率得分分別為0.74、0.66、0.72。 但在GINCO數據集上,ChatGPT對EN和SL兩種提示語言的流派識別性能都不同程度地低于x流派分類器。

Amin et al.[19]通過使用ChatGPT執行性格預測、情感分析和自殺意念檢測任務,評估了ChatGPT在情感計算中的文本分類能力。 他們在First Impressions、Sentiment140和Suicide and Depression這三個數據集上對ChatGPT進行了相應的提示,并將其分類性能與RoBERTa-base、Word2Vec和BoW這三個基線模型進行了比較。 結果顯示,ChatGPT在第一印象數據集上對五種人格分類的準確率和UAR均不同程度低于基線方法。 在Sentiment140數據集上,ChatGPT的準確率和UAR分別為85.5和85.5,均優于三種基線方法。 在自殺和抑郁數據集上,ChatGPT的準確率和UAR分別為92.7和91.2,低于表現最好的基線方法RoBERTa。 Zhang et al.[20]采用ChatGPT進行立場檢測,包括支持和反對。 他們使用ChatGPT對SemEval-2016和P-Stance數據集中推文的政治立場進行分類。 SemEval-2016包含4870條英文推文,他們選擇了最常見的FM、LA和HC政治標簽的推文進行立場分類。 P-Stance數據集有21,574條英文推文,他們對針對特朗普、拜登和伯尼的推文進行立場分類。 最終結果顯示,在SemEval- 2016數據集上,ChatGPT在FM、LA和HC政治標簽上的F1-m得分分別達到了68.4、58.2和79.5,F1-avg得分分別達到了72.6、59.3和78.0。 在P-Stance數據集上,ChatGPT在川普、拜登和伯尼政治人物上的F1-m得分分別達到了82.8、82.3和79.4,F1-avg得分分別達到了83.2、82.0和79.4。

Huang等[21]利用ChatGPT檢測推文中的隱式仇恨言論。 他們選取了包含隱式仇恨言論的LatentHatred數據集的12.5%(795條推文),并要求ChatGPT將其分為三類:隱式仇恨言論、非仇恨言論和不確定言論。 結果顯示,ChatGPT正確識別了636條(80%)推文。 被分類為非仇恨言論和不確定言論的推文數量分別為146條(18.4%)和13條(1.6%)。 Amazon Mechanical Turk (Mturk)工人對推文在非仇恨言論和不確定類別中的重分類結果與ChatGPT的分類一致。

總的來說,ChatGPT在文本分類任務中具有巨大的潛力,因為它可以有效地解決體裁識別、情感分析、立場檢測等問題。然而,ChatGPT在文本分類領域仍然面臨挑戰。首先,由于它嚴重依賴訓練數據的分布,因此很難在包含罕見或未出現詞匯的分類任務中表現良好。此外,訓練和使用ChatGPT所需的大量計算資源限制了它在某些應用中的使用。

2.1.3 文本生成

我們生活在一個信息爆炸的時代,文本是傳遞信息的有效方式。信息的多樣性導致了文本類別的多樣性。當研究者使用ChatGPT的文本生成功能進行研究時,不可避免地會選擇生成不同類型的文本。在閱讀論文的過程中,我們發現研究者生成的文本字數從小到大,所以我們想根據文本字數的大小來總結現有的研究。我們將生成的文本分為三個層次:短語、句子和段落。

下面的文章使用ChatGPT來生成短語。Zhang et al.[22]證明了在訓練過程中加入語義增強的語義HAR模型在動作識別方面的表現優于其他模型。語義增強需要共享標記,這在一些數據集上是缺乏的。因此,作者利用ChatGPT為最初沒有共享標記的數據集提供了一種自動標記生成方法。[23]描述了一種新的將自然語言命令轉換為Bash命令的工作流程。作者使用ChatGPT根據用戶輸入生成候選Bash命令列表,然后使用啟發式和機器學習技術相結合的方法對候選命令進行排序并選擇最可能的候選命令。在真實的命令數據集上對該工作流進行了評估,與其他最新的方法相比,取得了較高的準確性。Chen et al.[24]使用Bart模型和ChatGPT來完成幽默標題的總結任務,并比較了兩種模型的性能。研究發現,Bart模型在大型數據集上的表現更好,但ChatGPT在小范圍(48)中與我們最好的微調模型競爭,盡管稍弱。

下面的文章使用ChatGPT來生成句子。Chen等人[25]構建了一個包含場景、時間線、角色屬性和角色關系的對話數據集(HPD),以便使用ChatGPT作為會話代理來生成對話。但是ChatGPT在測試集上的性能較差,存在改進的空間。在[26]研究中,chatGPT通過提供三份虛構的放射學報告給chatGPT進行簡化,展示了其簡化復雜文本的能力。大多數放射科醫生認為簡化后的報告準確完整,對患者沒有潛在的傷害。然而,一些錯誤、遺漏的關鍵醫療信息和文本段落被發現,這可能導致有害的結論,如果醫生不理解。Xia等人提出了一種基于會話的自動程序修復方法(Session-based Automatic program repair, APR)。在APR中,通過將之前生成的補丁與驗證反饋相結合,迭代地構建模型的輸入。使用QuixBugs數據集驗證了該方法的有效性。實驗表明,在兩個修復數據集上,使用人工反饋強化學習(RLHF)微調的ChatGPT優于無監督訓練的Codex。在[28]研究中,ChatGPT與谷歌Translate2、DeepL Translate3和騰訊TranSmart4這三個商業翻譯產品進行了對比。在Flores101測試集上進行評估,使用WMT19生物醫學翻譯任務測試翻譯魯棒性,以BLEU得分為主要指標。研究發現,ChatGPT在高資源的歐洲語言上與商業翻譯產品相比具有競爭力,但在低資源或遙遠的語言上則落后。作者探索了一種名為pivot prompts的有趣策略,它可以顯著提高翻譯性能。雖然ChatGPT在生物醫學摘要或Reddit評論上的表現不如商業系統,但它可能是一個很好的語音翻譯器。Prieto et al.[29]評估了ChatGPT在開發基于自然語言提示的自動化施工進度計劃中的使用。該實驗需要在現有空間中建立新的分區,并提供將要分區的房間的細節。結果表明,ChatGPT能夠生成符合給定范圍要求的一致性調度。然而,仍然有幾個主要的缺陷會限制這個工具在實際項目中的使用。Michail等人[30]提出了一種通過ChatGPT生成帶有親密度評分標簽的推文數據集來提高HeFit微調XLM T模型對推文親密度預測精度的方法。具體操作是將帶有親密度評分標簽的推文輸入ChatGPT,然后輸出相似推文。

下面的文章使用ChatGPT來生成段落。Wang et al.[31]對比了ChatGPT和其他模型在各種跨語言文本數據集上的摘要性能,發現ChatGPT可能在r1、r2、R L和B S. Yang等指標上表現較差。[32]總結了ChatGPT在基于問答的文本摘要中的性能,發現與微調模型相比,ChatGPT在所有性能指標上都略差。然而,這篇文章認為,如果數據集是黃金注釋,ChatGPT的性能可能在這些指標上超過微調模型。Belouadi等人。[33]比較了ByGPT5和ChatGPT在一系列已標記和未標記的英語和德語詩歌數據集上訓練后生成約束風格詩歌的能力,并使用三個指標對其進行評估:韻律、ScoreAlliteration和ScoreMeter分數。結論是ByGPT5的性能優于ChatGPT。Blanco-Gonzalez等人在[34]評測了chatGPT寫評論文章的能力,事實上,這篇文章本身就是ChatGPT寫的。人類作者基于chatGPT的草稿重寫了手稿。專家發現,它可以快速生成和優化文本,以及幫助用戶完成多項任務。然而,在產生新內容方面,它并不理想。最后,可以說,如果沒有強烈的人為干預,chatGPT并不是編寫可靠科學文本的有用工具。它缺乏準確和充分地傳達復雜的科學概念和信息所需的知識和專業知識。Khalil等人對ChatGPT生成內容的原創性進行了探討。為了評估ChatGPT生成的50篇不同主題的論文的原創性,使用了兩種流行的剽竊檢測工具Turnitin和iThenticate。實驗結果表明,ChatGPT在生成抄襲檢測軟件難以捕捉的復雜文本輸出方面具有巨大的潛力。現有的抄襲檢測軟件需要更新其抄襲檢測引擎。Basic等人([36])對使用和不使用ChatGPT-3作為寫作輔助工具的學生的寫作表現進行了比較。實驗分為兩組,每組9名參與者。對照組采用傳統方法撰寫文章,實驗組則以ChatGPT作為輔助。兩位老師對試卷進行了評估。研究表明ChatGPT的輔助并不一定能提高學生的作文質量。Noever et al.[37]討論了使用人工智能(AI),特別是像GPT(包括GPT-3)這樣的語言模型,來創建更有說服力的聊天機器人的潛力,這些聊天機器人可以欺騙人類,使其認為他們正在與另一個人進行交互。這篇文章描述了一系列實驗,在這些實驗中,他們使用GPT-3生成了模仿人類對話的聊天機器人響應,并在人類參與者身上進行了測試。結果顯示,一些參與者無法區分聊天機器人和真實的人類,這突出了這些人工智能聊天機器人被用于欺騙目的的潛力。

2.1.4 代碼生成

代碼生成是指從高層描述或規范自動生成計算機代碼的過程。ChatGPT先進的自然語言處理能力使它能夠執行代碼生成任務。通過分析代碼生成的需求,ChatGPT可以生成準確執行預期功能的代碼片段。這不僅節省了從頭開始編寫代碼的時間和精力,而且還降低了手工編碼過程中可能發生錯誤的風險。此外,ChatGPT學習和適應新的編程語言和框架的能力使其能夠完成更復雜的編程任務。

2.1.5 推理

推理是指從已知的事實或信息中通過邏輯推理得出新的結論或信息的過程。它通常基于一系列前提或假設,并涉及應用邏輯規則或推理方法來得出結論。推理是人類思維中的一種重要能力,常用于解決問題、決策、分析和評價信息等。推理在科學、哲學、法律等領域也起著關鍵作用。有兩種類型的推理:歸納推理,它涉及從已知的事實或經驗中得出一般規則或結論;演繹推理,它涉及從已知的前提或假設中得出特定的結論。無論是歸納還是演繹,推理過程都需要遵循嚴格的邏輯規則,以保證推理的正確性和可靠性。

2.1.6 數據或信息的提取、轉換、增強、處理

2.1.7 Human-ChatGPT協作

人與機器之間的協作是人與機器一起工作以實現共同目標的過程。在這種協作中,人類提供領域專業知識、創造力和決策能力,而機器提供自動化、可擴展性和計算能力。ChatGPT是一種先進的自然語言處理模型,可以理解并生成類人語言,從而降低通信成本。它處理和生成自然語言的能力使其成為人類協作的理想伙伴。ChatGPT可以提供相關建議,根據人類輸入完成任務,提高人類的生產力和創造力。它可以從人類反饋中學習并適應新的任務和領域,進一步提高其在人機協作中的性能。ChatGPT理解自然語言并產生適當響應的能力使它成為各種協作應用程序的有價值的工具,正如我們收集的一些文獻中的研究所證明的那樣。

2.1.8 ChatGPT集成

集成是指組合不同的系統或軟件組件以實現共同的目標。ChatGPT可以作為整體的一部分集成,也可以作為集成工具實現不同系統之間的無縫通信。它的自然語言處理能力使非技術用戶更容易與系統交互,減少了對專業知識或訓練的需求。我們收集的文獻中的一些研究已經證明了這一點。

2.2 人工智能倫理

自ChatGPT問世以來,這種強大的自然語言處理模型在給人們帶來極大便利的同時,也引發了更多的危機意識思考。一些研究者已經開始假設和研究ChatGPT的潛在負面影響。這項前瞻性研究為標準化建設提供了很好的建議,以解決未來的人工智能濫用問題。

3 討論

3.1 限制

盡管ChatGPT和GPT-4具有非凡的能力,但它仍然面臨一定的局限性。其中一些限制包括:

過時的知識

目前的模型是在歷史數據上訓練的(截至2021年),因此缺乏對時事的實時理解。這是當今信息爆炸時代的一個關鍵問題,因為先驗知識庫的可靠性逐漸降低,可能產生不準確的響應,特別是在法學和技術等快速發展的領域。此外,這些模型無法進行事實核查,而訓練數據是由各種來源的內容組成的,其中一些可能是不可靠的,這可能導致看似可信但卻荒謬的回應。

缺失理解

雖然這些模型可以解釋大多數查詢和上下文情況,但在處理模糊或上下文復雜的查詢時,它們偶爾會遇到理解偏差。此外,在某些專業領域,獨特縮寫的豐富加劇了模型的理解挑戰,導致錯誤和空洞的回答。

能源消耗

在整個訓練和推理階段,這些大規模模型需要大量的計算資源和電力,導致能源消耗上升和大量的碳排放。因此,這限制了它們的部署和實際應用。

惡意使用

盡管OpenAI實施了一系列限制以減輕模型毒性,但用戶通過精心設計的提示規避這些限制的實例已經出現,誘導模型產生不健康的內容,甚至將其用于非法商業目的。

偏見和歧視

由于預訓練數據的影響,模型在政治、意識形態和其他領域表現出偏見。llm在公共領域的應用,如教育和宣傳,應該以極其謹慎的態度對待。

隱私和數據安全

隨著用戶規模的擴大,保護用戶隱私和數據安全變得越來越重要。事實上,ChatGPT在4月初就因為隱私問題在意大利被禁了。考慮到模型在交互過程中廣泛收集個人信息和偏好,這一點尤其重要,因為未來的多模態模型,如GPT-4,可能會頻繁要求用戶上傳私人照片。

3.2 未來的方向

在即將到來的研究中,基于ChatGPT和GPT-4的模型的開發可能專注于解決這些限制,以增強其實際應用。 首先,研究人員應該在過濾預訓練數據的同時繼續致力于精煉模型訓練方法,以最大限度地減少模型知識庫中存在的誤導性信息,從而獲得準確的響應。同時,強調節約計算資源的訓練方法至關重要,從而降低成本并拓寬潛在的應用場景。

此外,上下文感知和消歧技術的進步預計將有助于增強對復雜查詢的理解通過模型,提高AI生成內容的準確性、相關性和上下文感知。集成實時數據流還可以使這些模型與當前事件和趨勢保持同步,使它們能夠提供實時的信息,如實時交通、天氣和股票更新。

此外,開發者應該與不同領域的專家進行跨學科合作,包括決策、法學和社會學,目的是為LLM的開發、部署和使用制定標準和倫理框架,從而減輕潛在的有害后果。在公眾意識和教育方面,特別是在K-12教育和新聞等行業,在大規模公共部署和應用之前,應實施強制性的意識培訓,以提高公眾對LLM能力和局限性的認識,同時促進負責任和知情的利用。

最后,ChatGPT和GPT-4的影響不應該僅限于NLP領域。它們在計算機視覺、受大腦啟發的AI和機器人等領域也顯示出了良好的前景。這些模型表現出可與人類水平的智能相媲美的學習和理解能力,將其定位為人工通用智能(AGI)發展中的關鍵組成部分[101]。它們促進人類和機器人之間無縫交互的能力為執行更復雜的任務鋪平了道路。這些模型的零樣本上下文學習的顯著能力使其能夠快速適應新任務,而不需要進行微調的標記數據,這在醫學信息學[102]和機器人[103]等領域是一個關鍵挑戰,在這些領域標記數據的可用性通常有限或不存在。

4 結論

這篇綜述論文對ChatGPT和GPT-4進行了全面的綜述,強調了它們的潛在應用和在自然語言處理領域的重大貢獻。這項研究的發現表明,人們對這些模型的興趣正在迅速增長,它們在廣泛的領域都顯示出了相當大的應用潛力。ChatGPT和GPT-4成功的一個關鍵因素是它們能夠進行大規模的預訓練,從浩瀚的互聯網中捕獲知識,使模型能夠從大量的數據中學習。融合了來自人類反饋的強化學習(RLHF),進一步增強了模型的適應性和性能,使其在處理自然語言方面非常高效。這項研究還發現了幾個與ChatGPT和GPT-4的開發和使用相關的潛在倫理問題。例如,人們擔心產生有偏見或有害的內容,侵犯隱私,以及可能濫用該技術。解決這些擔憂,并確保ChatGPT和GPT-4以負責任和合乎道德的方式開發和使用至關重要。此外,這項研究的結果表明,ChatGPT和GPT-4具有巨大的潛力應用于一系列領域,包括教育、歷史、數學、物理等。這些模型可以促進諸如生成摘要、回答問題以及為用戶提供個性化推薦等任務。總的來說,這篇綜述論文中提出的見解可以為希望推進自然語言處理領域的研究人員和從業人員提供有用的指南。該領域未來的研究應側重于解決倫理問題,探索新的應用,并確保ChatGPT和GPT-4的負責任使用。這些模型革新自然語言處理的潛力是巨大的,我們期待看到這一領域的更多發展。

付費5元查看完整內容

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

隨著人工智能和大數據的爆炸式增長,如何合理地組織和表示海量的知識變得至關重要。知識圖譜作為圖數據,積累和傳遞現實世界的知識。知識圖譜可以有效地表示復雜信息;因此,近年來迅速受到學術界和工業界的關注。為了加深對知識圖譜的理解,對該領域進行了系統綜述。具體來說,關注知識圖譜的機遇和挑戰。首先從兩個方面回顧了知識圖譜的發展機遇: (1)基于知識圖譜構建的人工智能系統; (2)知識圖譜的潛在應用領域。然后,深入討論了該領域面臨的知識圖譜表示、知識獲取、知識補全、知識融合和知識推理等技術挑戰;本綜述將為知識圖譜的未來研究和發展提供新的思路。 //www.zhuanzhi.ai/paper/93a14b6709974a3bbd86c10302053fea1. 引言

知識在人類的生存和發展中起著至關重要的作用。學習和表示人類知識是人工智能(AI)研究中的關鍵任務。雖然人類能夠理解和分析周圍環境,但AI系統需要額外的知識才能獲得相同的能力并解決現實場景中的復雜任務(Ji et al, 2021)。為了支持這些系統,我們已經看到了根據不同的概念模型來表示人類知識的許多方法的出現。在過去十年中,知識圖譜已經成為這一領域的標準解決方案,也是學術界和工業界的研究趨勢(Kong et al, 2022)。 **知識圖譜被定義為積累和傳遞真實世界知識的數據圖譜。知識圖譜中的節點表示感興趣的實體,邊表示實體之間的關系(Hogan et al, 2021;Cheng et al, 2022b)。**這些表示利用了形式化語義,這使得計算機能夠高效且無歧義地處理它們。例如,實體“比爾·蓋茨”可以與實體“微軟”聯系起來,因為比爾·蓋茨是微軟的創始人;因此,他們在現實世界中是有關系的。 由于知識圖譜在機器可讀環境下處理異構信息方面的重要意義,近年來對這些解決方案持續開展了大量研究(Dai et al, 2020b)。所提出的知識圖譜最近被廣泛應用于各種人工智能系統(Ko等,2021;Mohamed et al, 2021),如推薦系統、問答系統和信息檢索。它們也被廣泛應用于許多領域(例如教育和醫療保健),以造福人類生活和社會。(Sun et al, 2020;Bounhas et al, 2020)。 因此,知識圖譜通過提高人工智能系統的質量并應用到各個領域,抓住了巨大的機遇。然而,知識圖譜的研究仍然面臨著重大的技術挑戰。例如,現有的從多個來源獲取知識并將其集成到典型的知識圖譜中的技術存在很大的局限性。因此,知識圖譜在現代社會中提供了巨大的機遇。然而,它們的發展存在著技術上的挑戰。因此,有必要對知識圖譜進行機遇與挑戰的分析,以更好地理解知識圖譜。 為深入了解知識圖譜的發展歷程,全面分析了知識圖譜面臨的機遇和挑戰。首先,從知識圖譜顯著提升人工智能系統性能和受益于知識圖譜的應用領域兩個方面討論了知識圖譜的機遇;然后,考慮到知識圖譜技術的局限性,分析了知識圖譜面臨的挑戰;本文的主要貢獻如下:

**知識圖譜研究綜述。**對現有的知識圖譜研究進行了全面的調研。詳細分析了知識圖譜的最新技術和應用進展。

**知識圖譜機遇。**本文從利用知識圖譜的基于知識圖譜的人工智能系統和應用領域的角度,研究了知識圖譜的潛在機會。研究了知識圖譜對人工智能系統的好處,包括推薦系統、問答系統和信息檢索。然后,通過描述知識圖譜在教育、科研、社交媒體、醫療等各個領域的當前和潛在應用,探討了知識圖譜對人類社會的深遠影響。

**知識圖譜挑戰。**本文對知識圖譜面臨的重大技術挑戰提供了深入的見解。特別地,從知識圖譜表示、知識獲取、知識圖譜補全、知識融合和知識推理等5個方面,分析了目前具有代表性的知識圖譜技術的局限性。

論文的其余部分組織如下。第2節對知識圖譜進行概述,包括知識圖譜的定義和現有研究的分類。第3節和第4節分別介紹了相關的AI系統和應用領域,探討了知識圖譜的機遇。第5節詳細介紹了基于這些技術的知識圖譜面臨的挑戰。最后,在第6節對本文進行總結。

2 概述

首先給出知識圖譜的定義;然后,對該領域的重要最新研究進行了分類。 2.1 什么是知識圖譜?

知識庫是一種典型的數據集,它以三元組的形式表示現實世界中的事實和語義關系。當三元組被表示為一個邊為關系、節點為實體的圖時,它被認為是一個知識圖譜。通常,知識圖譜和知識庫被視為同一個概念,可以互換使用。此外,知識圖譜的模式可以定義為一個本體,它顯示了特定領域的屬性以及它們之間的關系。因此,本體構建是知識圖譜構建的一個重要階段。

2012年,谷歌首次提出了知識圖譜,介紹了他們的知識庫谷歌知識圖譜(Ehrlinger and W¨o?, 2016)。隨后,引入并采用了許多知識圖譜,例如:

DBpedia,一個知識圖譜,它試圖從維基百科中發現有語義意義的信息,并將其轉化為DBpedia中一個有效的結構良好的本體知識庫(Auer et al, 2007)。 * Freebase,一個基于多個來源的知識圖譜,提供結構化和全球性的信息資源(Bollacker et al, 2008)。 * Facebook的實體圖(entity graph),這是一個知識圖譜,可以將用戶配置文件的非結構化內容轉換為有意義的結構化數據(Ugander et al, 2011)。 * Wikidata,一個跨語言的面向文檔的知識圖譜,支持許多網站和服務,如維基百科(Vrande ci′c and Kr¨otzsch, 2014)。 * Yago,是一個高質量的知識庫,包含大量的實體及其對應關系。這些實體是從維基百科和WordNet等多個來源提取的(Rebele et al, 2016)。 * WordNet,是一個衡量單詞之間語義相似度的詞匯知識庫。該知識庫包含許多層次概念圖來分析語義相似度(Pedersen et al, 2004)。

知識圖譜是由節點和邊組成的有向圖,其中一個節點表示一個實體(真實對象或抽象概念),兩個節點之間的邊表達了兩個實體之間的語義關系(Bordes et al, 2011)。資源描述框架(Resource Description Framework, RDF)和標簽屬性圖(Labeled Property Graphs, LPGs)是兩種典型的知識圖譜表示和管理方法(F¨arber等,2018;博肯,2020)。知識圖譜的基本單位是三元組(主語、謂語、賓語)(或(頭、關系、尾)),即(比爾·蓋茨,創始人,微軟)。由于關系不一定是對稱的,所以鏈接的方向很重要。因此,知識圖譜也可以看成是頭部實體通過關系邊指向尾部實體的有向圖

圖2知識圖譜研究

圖1描繪了一個簡單知識圖譜的例子。如圖1所示,圖中顏色變暗2 的節點e1 and通過關系r連接,關系r從e1到e2。因此,e1、e2、r1可以形成三元組(e1、r1、e2),其中eand分別2 是頭實體1 和尾實體。 近年來,知識圖譜得到了廣泛的研究興趣。大量的研究集中在對知識圖譜的探索上。對知識圖譜進行了全面的綜述,列出了當前該領域的7類重要研究。圖2顯示了關于知識圖譜的最流行的研究路線的模式。其中,人工智能系統是利用知識圖譜作為基礎的服務,應用領域是知識圖譜所觸及的領域。列出這兩條研究方向是為了探討知識圖譜的發展機遇。另外5個研究方向是5個主要的知識圖譜技術,對應5個任務。對這5種技術進行了介紹,并強調了它們的局限性,為知識圖譜面臨的主要挑戰提供了有益的啟示。 * 知識圖譜嵌入:知識圖譜嵌入是知識圖譜嵌入研究的中心問題之一。該任務旨在將知識圖譜中的實體和關系映射到低維向量空間,從而高效地捕捉知識圖譜的語義和結構(Dai等,2020b)。然后,通過機器學習模型可以有效地學習得到的特征向量。三種主要的基于三元組事實的嵌入方法如下:(a)基于張量因子分解的,(b)基于翻譯的,和(c)基于神經網絡的方法(Dai et al, 2020b)。 * **知識獲取:**知識獲取主要是對知識圖譜進行建模和構建,是知識圖譜研究的另一個重要研究方向。通常,知識是通過使用映射語言(如R2RML)從結構化來源導入的(Rodriguez- Muro and Rezk, 2015)。此外,知識可以從

非結構化文檔(如新聞、研究論文和專利),采用關系、實體或屬性提取方法(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。 * 知識圖譜完備性:盡管構建知識圖譜的方法有很多,但要建立一個領域內所有知識的全面表示仍然是不可實現的。大多數知識圖譜仍然缺乏大量的實體和關系。因此,對完備的知識圖譜進行了大量的研究。知識圖譜補全技術旨在通過預測新增的關系和實體來提高知識圖譜的質量。第一個任務通常采用鏈接預測技術生成三元組,然后對三元組的可信度評分進行分配(Ji et al, 2021)。第二個任務采用實體預測方法來獲取和整合來自外部來源的進一步信息。

**知識融合:**知識融合也是一個重要的研究方向,專注于捕獲不同來源的知識,并將其集成到知識圖譜中(Nguyen et al, 2020)。知識融合方法對于知識圖譜的生成和完善都有重要意義。最近,實體對齊已經成為實現知識融合任務的主要方法。 * **知識推理:**通過推理來豐富知識圖譜,旨在基于現有數據推斷新的事實(Minervini et al, 2020),是目前的研究熱點。特別是,在兩個不相連的實體之間推斷出新的關系,形成新的三元組。而且,通過推理出虛假的事實,知識推理具有識別錯誤知識的能力。知識推理的主要方法包括基于邏輯規則的方法、基于分布式表示的方法和基于神經網絡的方法(Chen et al, 2020b)。 * 人工智能系統:如今,知識圖譜被推薦、問答系統和信息檢索工具等人工智能系統(Liang et al, 2022)廣泛使用。通常情況下,知識圖譜中豐富的信息可以提高解決方案的性能。因此,許多研究側重于利用知識圖譜來提高人工智能系統的性能。 * **應用領域:**知識圖譜在教育、科學研究、社交媒體和醫療保健等各個領域都有眾多應用(Li et al, 2020b)。提高人類生活水平,需要各種智能應用。

與其他工作不同,重點關注知識圖譜的機遇與挑戰。特別是,隨著人工智能服務質量的提高,知識圖譜在各個領域的應用將迎來巨大的機遇。相反,認為知識圖譜技術的局限性是其面臨的挑戰。因此,討論知識圖譜表示、知識獲取、知識圖譜補全、知識融合、知識推理等方面的技術局限性。 3 面向人工智能系統的知識圖譜

本節通過分析知識圖譜對提高人工智能系統的功能所帶來的優勢,來說明它所帶來的機遇。具體來說,有幾個系統,包括推薦系統、問答系統和信息檢索工具(Guo et al, 2020;鄒,2020),將知識圖譜用于輸入數據,并從知識圖譜中獲益最大。除了這些系統外,其他人工智能系統,如圖像識別系統(Chen et al, 2020a),也開始考慮知識圖譜的特征。然而,知識圖譜在這些系統中的應用并不廣泛。此外,這些系統并沒有直接利用知識圖譜對輸入數據進行性能優化。因此,詳細討論了知識圖譜為推薦系統、問答系統和信息檢索工具帶來的優勢,分析了知識圖譜的發展機遇。通常,這些解決方案可以從采用知識圖譜中獲益,這些圖譜提供了高質量的領域知識表示。表1展示了我們將在下面討論的AI系統的摘要。

推薦系統 * 問答系統 * 信息檢索

4 應用和潛力

在本節中,我們將討論知識圖譜在教育、科學研究、社會網絡和健康/醫療保健四個領域的應用和潛力。盡管一些研究人員試圖利用知識圖譜開發其他領域的有益應用,如金融(Cheng et al, 2022c),但基于知識圖譜的智能服務在這些領域相對模糊,仍然需要探索。因此,本節主要圍繞教育、科研、社會網絡、醫療等方面,對知識圖譜的機遇進行總結。表2給出了知識圖譜在這些領域的幾個最新應用。 5 技術挑戰

雖然知識圖譜為各種服務和應用提供了極好的機會,但仍有許多挑戰有待解決(Noy等,2019)。具體而言,現有知識圖譜技術的局限性是推動知識圖譜發展的關鍵挑戰(Hogan et al, 2021)。因此,本節從知識圖譜嵌入、知識獲取、知識圖譜補全、知識融合和知識推理這5種熱門知識圖譜技術的局限性出發,討論知識圖譜面臨的挑戰。 5.1 知識圖譜的嵌入

知識圖譜嵌入的目標是在低維向量空間中有效表示知識圖譜,同時仍保留其語義(Xia et al, 2021;Vashishth et al, 2020)。首先,將實體和關系嵌入到給定知識圖譜的稠密維空間,并定義評分函數衡量每個事實(三元組)的可信性;然后,最大化事實的似然性以獲得實體和關系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知識圖譜的表示為下游任務帶來了諸多好處。基于三元組事實的知識圖譜嵌入方法主要有3類:基于張量因子化的方法、基于翻譯的方法和基于神經網絡的方法(Rossi et al, 2021)。 5.1.1 基于張量因子分解的方法

基于張量因子分解方法的核心思想是將知識圖譜中的三元組轉化為3D張量(Balazevi′c et al, 2019)。如圖5所示,張量X∈Rm×m×n,其中m和n分別表示實體和關系的數量,包含n個切片,每個切片對應一種關系類型。當滿足條件Xijk = 1時,知識圖譜中存在三元組(ej i, rk, e),其中e和r分別表示實體和關系。否則,當Xijk = 0時,表示知識圖譜中不存在這樣的三元組。那么,張量由由實體和關系的向量組成的嵌入矩陣表示。 5.1.2 基于翻譯的方法

基于翻譯的方法利用了基于翻譯不變性的評分函數。翻譯不變性解釋兩個詞的向量之間的距離,這是由它們的語義關系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻譯不變性的評分函數進行度量

嵌入結果。他們創造性地提出了TransE模型,該模型將知識圖譜中所有的實體和關系轉換到一個連續的低向量空間中。具體來說,三元組中頭部和尾部實體的向量由它們關系的向量連接起來。因此,在向量空間中,每個三元組的語義含義都被保留了下來。形式上,給定一個三元組(頭、關系、尾),頭實體、關系、尾實體的嵌入向量分別是h、r、t。在向量空間中,三元組(h, r, t)的似真度由基于平移不變性的評分函數計算,以確保它遵循幾何原理:h + r≈t。 在TransE之后,相關的擴展不斷被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻譯的知識圖譜表示的性能。

5.1.3 基于神經網絡的方法

目前,深度學習已經成為知識圖譜表示的流行工具,有相當多的研究提出使用神經網絡表示知識圖譜的三元組(Dai et al, 2020a)。在本節中,以SME、ConvKB和R-GCN這3個代表性的工作為例,對基于神經網絡的知識圖譜表示進行簡要介紹。 SME (Bordes et al, 2014)設計了一個能量函數來進行語義匹配,該能量函數利用神經網絡來度量知識圖譜中每個三元組(h, r, t)的置信度。SME的評分函數定義如下:

SME (bilinear)的評分函數為:

5.1.4 現有方法的局限性

現有的知識圖譜嵌入方法仍然存在嚴重的局限性。許多已有的方法只考慮知識圖譜的表面事實(三元組)。然而,忽略了實體類型和關系路徑等附加信息,這些信息可以進一步提高嵌入精度。大多數不考慮附加信息的傳統方法的性能并不令人滿意。表3列出了不考慮附加信息的嵌入方法。在表3中,性能評估是基于鏈接預測和三元組分類任務。用于評估結果的指標是命中率為10 (Hits@10)和準確率。如表3所示,只有少數模型有令人印象深刻的結果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的結果。近年來,一些研究人員開始將附加信息與知識圖譜結合起來,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的實體類型信息,即每個實體的語義類別,來獲得實體之間的相關性,并解決數據稀疏問題。因此,知識圖譜的表示更加準確。不僅是實體類型,有些其他信息,包括關系路徑(Li et al, 2021)、動態圖的時間信息(Messner et al, 2022)和實體的文本描述(An et al, 2018),近年來也得到了研究人員的關注。然而,如何有效利用豐富的附加信息來提高知識圖譜表示的準確性仍然是一個艱巨的挑戰。 一般附加信息不能充分表示三元組的語義。例如,實體類型與三元組的語義信息無關。此外,可以納入三元組特征的附加信息的類型現在受到了嚴重的限制。因此,為了提高現有知識圖譜嵌入方法的性能,需要在三元組特征中融入多元信息(如關系的分層描述、實體類型與文本描述的結合)。 就我們所知,復雜關系路徑仍然是一個開放的研究問題(Peng et al, 2021)。例如,內在關系,指的是兩個不相連的實體之間的間接關系,沒有被有效地表示出來。雖然通過知識圖譜中的關系鏈可以挖掘實體間的內在關系,但實體間的內在關系復雜多樣。因此,有效地表示這些關系并不是一件直接的事情。 5.2 知識獲取

知識獲取是融合不同來源的數據并生成新的知識圖譜的關鍵步驟。知識從結構化和非結構化數據中提取。知識獲取的三種主要方法是關系抽取、實體抽取和屬性抽取(Fu et al, 2019)。這里,屬性抽取可以看作是實體抽取的一種特例。Zhang等人(Zhang et al, 2019b)利用知識圖譜嵌入和圖卷積網絡提取長尾關系。Shi等人(Shi et al, 2021)提出實體集擴展構建大規模知識圖譜。 然而,現有的知識獲取方法仍然面臨準確率低的挑戰,這可能導致知識圖譜不完整或噪音大,阻礙下游任務的完成。因此,第一個關鍵問題是知識獲取工具及其評估的可靠性。此外,特定于領域的知識圖譜模式是面向知識的,而構建的知識圖譜模式是面向數據的,以覆蓋所有數據特征(Zhou等,2022)。因此,從原始數據中抽取實體和屬性來生成特定領域的知識圖譜是低效的。因此,如何通過生成面向特定領域的知識圖譜來高效地完成知識獲取任務是一個至關重要的問題。 此外,現有的知識獲取方法大多針對特定語言構建知識圖譜。然而,為了使知識圖譜中的信息更豐富、更全面,需要進行跨語言實體抽取。因此,給予更多是至關重要的 關注跨語言實體抽取和多語言知識圖譜的生成。例如,Bekoulis et al.(Bekoulis et al, 2018)提出了一種跨語言(英語和荷蘭語)實體和關系抽取的聯合神經模型。然而,由于非英語訓練數據集有限,語言翻譯系統并不總是準確的,并且跨語言實體抽取模型必須針對每一種新語言重新訓練,多語言知識圖譜構建仍然是一項艱巨的任務。 多模態知識圖譜構建被認為是知識獲取的另一個具有挑戰性的問題。現有的知識圖譜多采用純符號表示,導致機器理解現實世界的能力較差(Zhu et al, 2022b)。因此,許多研究人員關注于包含文本、圖像等多種實體的多模態知識圖譜。多模態知識圖譜的構建需要探索具有不同模態的實體,使得知識獲取任務復雜且效率低下。

5.3 知識圖譜補全

知識圖譜通常是不完整的,即缺少幾個相關的三元組和實體(Zhang et al, 2020b)。例如,在Freebase,最著名的知識圖譜之一,超過一半的人實體沒有關于他們的出生地和父母的信息。一般情況下,可用于保證知識圖譜質量的半自動化和人工利用機制是知識圖譜完成度評價必不可少的工具。具體而言,人類監督目前被認為是知識圖譜完成中的金標準評價(Ballandies和Pournaras, 2021年)。

知識圖譜補全旨在利用鏈接預測技術,通過添加新的三元組來擴展現有的知識圖譜(Wang et al, 2020b;Akrami et al, 2020)和實體預測(Ji et al, 2021)。這些方法通常在知識圖譜上訓練機器學習模型,以評估新的候選三元組的合理性。然后,他們將具有高可信度的候選三元組添加到圖譜中。例如,對于一個不完整的三元組(Tom, friendOf, ?),可以評估尾巴的范圍,并返回更可信的,以豐富知識圖譜。這些模型成功地利用了許多不同領域的知識圖譜,包括數字圖書館(Yao等,2017年)、生物醫學(Harnoune等,2021年)、社交媒體(Abu-Salih, 2021年)和科學研究(Nayyeri等,2021年)。一些新的方法能夠處理每個三元組與置信值相關聯的模糊知識圖譜(Chen et al, 2019)。

然而,現有的知識圖譜補全方法僅關注于從封閉世界的數據源中抽取三元組。這意味著生成的三元組是新的,但三元組中的實體或關系需要已經存在于知識圖譜中。例如,對于不完整的三元組(Tom, friendOf, ?),只有當實體Jerry已經在知識圖譜中,才有可能預測三元組(Tom, friendOf, Jerry)。由于這一限制, 這些方法無法向知識圖譜中添加新的實體和關系。為了解決這個問題,我們開始看到知識圖譜補全的開放世界技術的出現,這些技術從現有的知識庫之外提取潛在的對象。例如,ConMask模型(Shi和Weninger, 2018)被提出用于預測知識圖譜中未見實體。然而,開放世界知識圖譜的補全方法仍存在準確率不高的問題。主要原因是數據源通常比較復雜和嘈雜。此外,預測的新實體與現有實體的相似性可能會誤導結果。換句話說,兩個相似的實體被視為有聯系的實體,而它們可能沒有直接關系。

知識圖譜補全方法假設知識圖譜是靜態的,無法捕捉知識圖譜的動態演化。為了獲得隨時間變化的準確事實,考慮反映知識有效性的時態信息的時態知識圖譜補全技術應運而生。與靜態知識圖譜補全方法相比,時序知識圖譜補全方法將時間戳融入到學習過程中。因此,它們探索了時間敏感的事實,并顯著提高了鏈路預測精度。時序知識圖譜補全方法在取得優異性能的同時,也面臨著嚴峻的挑戰。由于這些模型認為時間信息的效率較低(Shao et al, 2022),時序知識圖譜補全的關鍵挑戰是如何有效地將事實的時間戳納入學習模型,并適當地捕獲事實的時序動態。

5.4 知識融合

知識融合旨在將來自不同數據源的知識進行組合和整合。它往往是知識圖譜生成的必要步驟(Nguyen et al, 2020;Smirnov和Levashova, 2019)。知識融合的主要方法是實體對齊或本體對齊(Ren et al, 2021),旨在從多個知識圖譜中匹配同一實體(Zhao et al, 2020)。由于數據的復雜性、多樣性和大數據量,實現高效、準確的知識圖譜融合是一項具有挑戰性的任務。

雖然在這個方向已經做了大量的工作,但仍然有幾個有趣的研究方向值得在未來進行研究。這通常用于支持跨語言推薦系統(Javed et al, 2021)。例如,Xu et al. (Xu et al., 2019)采用圖匹配神經網絡實現跨語言實體對齊。然而,由于來自不同語言的匹配實體的準確率相對較低,跨語言知識融合的結果仍然不盡人意。因此,探索跨語言知識融合仍然是一項艱巨的挑戰。

另一個主要挑戰是實體消歧(Nguyen et al, 2020)。作為自然語言的一詞多義問題,同一個實體在不同的知識圖譜中可能有不同的表達方式。因此,在進行實體對齊之前,需要對實體進行消歧。現有的實體消歧方法主要集中在基于從包含豐富語境信息的文本中提取知識來判別和匹配歧義實體(Zhu and Iglesias, 2018)。然而,當文本較短且上下文信息有限時,這些方法無法精確衡量實體的語義相似度。只有少數工作專注于解決這個問題。例如,Zhu和Iglesias (Zhu and Iglesias, 2018)提出了用于實體消歧的SCSNED。SCSNED同時基于知識圖譜中實體的含信息量詞和短文本中的上下文信息來度量語義相似度。雖然SCSNED在一定程度上緩解了上下文信息有限的問題,但還需要更多的努力來提高實體消歧的性能。

此外,許多知識融合方法只注重匹配具有相同模態的實體,忽略了知識以不同形式呈現的多模態場景。具體而言,僅考慮單模態知識圖譜場景的實體對齊,由于不能充分反映現實世界中實體之間的關系,性能不顯著(Cheng等,2022a)。最近,為了解決這一問題,一些研究提出了多模態知識融合,將具有不同模態的實體進行匹配,生成多模態知識圖譜。例如,HMEA (Guo et al, 2021)通過將多模態表示映射到雙曲空間,將實體與多種形式對齊。盡管許多研究人員已經在多模態知識融合方面進行了研究,但這仍然是一項關鍵任務。多模態知識融合主要是通過整合它們的多模態特征來尋找等價實體(Cheng et al, 2022a)。然而,如何有效地合并具有多模態的特征仍然是當前方法面臨的棘手問題。

5.5 知識推理

知識推理的目標是推理新的知識,如兩個實體之間的隱式關系(Liu等人,2021;Wang et al, 2019c),基于現有數據。對于給定的知識圖譜,其中存在兩個不相連的實體h和t,表示為h, t∈G,這里G表示知識圖譜,知識推理可以發現這些實體之間的潛在關系r,形成新的三元組(h, r, t)。知識推理方法主要分為基于邏輯規則的方法(De Meester et al, 2021)、基于分布式表示的方法(Chen et al, 2020b)和基于神經網絡的方法(Xiong et al, 2017)。基于邏輯規則的知識推理旨在根據隨機游走和邏輯規則發現知識,而基于分布式表示的知識推理則將實體和關系嵌入到向量空間中以獲得分布式表示(Chen et al, 2020b)。 基于網絡的知識推理方法在給定圖中的知識體的情況下,利用神經網絡來推斷新的三元組(Xian et al, 2019)。 在知識推理中有兩個任務:單跳預測和多跳推理(Ren et al, 2022)。單跳預測為給定的兩個元素預測三元組中的一個元素,而多跳推理預測多跳邏輯查詢中的一個或多個元素。換句話說,在多跳推理場景中,找到一個典型問題的答案并形成新的三元組,需要對多個邊和節點進行預測和填補。與單跳預測相比,多跳推理實現了更精確的三元組形成。因此,多跳推理受到越來越多的關注,成為近年來知識圖譜發展的迫切需求。盡管已有許多相關工作,但知識圖譜上的多跳推理仍處于起步階段。值得注意的是,海量知識圖譜上的多跳推理是具有挑戰性的任務之一(Zhu et al, 2022a)。例如,最近的研究主要集中在知識圖譜上的多跳推理,而這類圖譜只有63K個實體和592K個關系。對于數百萬個以上實體的海量知識圖譜,現有模型無法有效學習訓練集。此外,多跳推理需要遍歷知識圖譜中的多個關系和中間實體,這可能導致指數計算代價(Zhang et al, 2021)。因此,探索多跳知識推理仍然是一項艱巨的任務。 此外,對推斷出的新知識的驗證也是一個關鍵問題。知識推理豐富了現有的知識圖譜,給下游任務帶來了好處(Wan等,2021)。然而,推斷出的新知識有時是不確定的,新三元組的準確性需要驗證。此外,還需要檢測新知識與現有知識之間的沖突。為了解決這些問題,一些研究提出了多源知識推理(Zhao et al, 2020),可以檢測錯誤知識和沖突知識。總的來說,應該更多地關注多源知識推理和錯誤知識約簡。

6. 結論

知識圖譜在為各個領域創建許多智能服務和應用方面發揮了重要作用。本文從知識圖譜發展的機遇與挑戰兩個方面對其進行綜述。首先介紹了知識圖譜的定義和現有的研究方向,對知識圖譜進行了介紹性分析;之后,我們討論了利用知識圖譜的人工智能系統。然后,給出了知識圖譜在多個領域中的代表性應用;進一步,分析了現有知識圖譜技術存在的局限性和面臨的嚴峻技術挑戰。我們期待該調研為未來涉及知識圖譜的研發活動激發新的想法和有洞察力的視角。

付費5元查看完整內容

最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。

1. 引言

近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。

**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。

除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。

結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。

綜上所述,本文的主要貢獻如下:

據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。

回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。

討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。

調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力

生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。

3. 生成式人工智能

我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

多模態模型

多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。

4. 應用

5. 效率

在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:

推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

Transformer的最新進展伴隨著對計算資源的巨大需求,突出了開發高效訓練技術的重要性,通過有效使用計算和存儲資源,使Transformer訓練更快、成本更低、準確度更高。

本綜述首次系統地概述了transformer的高效訓練,涵蓋了加速算法和硬件方面的最新進展,重點是前者。我們分析和比較了在訓練期間節省中間張量計算和存儲成本的方法,以及硬件/算法協同設計的技術。最后討論了面臨的挑戰和未來的研究方向。

//www.zhuanzhi.ai/paper/3b027298fe1e5d2a83a18e2e19e245ed **深度學習,又稱深度神經網絡(DNN)是機器學習的一種變革性方法。它徹底改變了機器學習和人工智能,被公認為引領第四次產業革命的技術。**總的來說,深度學習的巨大成功歸功于它有效地利用了現有的大量計算資源和大量標記數據。盡管最近的發展帶來了巨大的興奮,但深度學習模型,特別是transformer,已經變得異常龐大和計算密集型,導致了兩個基本挑戰。

**第一個問題涉及訓練基于transformer的大型模型的密集計算。**一項廣泛討論的深度學習模型能耗研究[74]估計,訓練一個大型語言模型(LLM)會產生626,155磅的溫室氣體,相當于五輛汽車的壽命排放量;隨著型號越來越大,它們對計算的需求超過了硬件效率的提高。例如,超級巨星GPT-3[9]在5000億個單詞上進行訓練,并膨脹到1750億個參數。值得注意的是,根據GPT-32的技術概述,單次訓練運行將需要355 gpu年,成本至少為460萬美元,V100理論上估計為28 TFLOPS,最低的3年保留云定價。因此,讓深度學習在計算中站得住,以及與之相關的能耗對于綠色人工智能顯得尤為重要。

第二個問題是與基于注意力的模型大小成正比的指數式增長的訓練存儲。例如,文獻中最大的語言模型從2018年的BERTlarge[43]的3.45億增長到目前的數千億,如配備530B參數的MT-NLG[71]模型。因此,這些SOTA海量模型需要存儲高效的訓練技術,以減少存儲中間張量和跨加速器數據交換(通信)的存儲占用,同時確保高處理元素(PE)利用率。**本綜述回顧了提高訓練基于注意力模型的計算和存儲效率的通用技術,即transformer,如圖1所示。**通過技術創新和主要用例來描述它們,總結它們并得出它們之間的聯系。主要對提高transformer訓練效率的算法創新感興趣,還簡要討論了硬件/算法協同設計的進展。我們把對硬件加速器設計的回顧作為未來的工作。

2 計算效率

為了實現更快的梯度下降收斂速度,一個經典的解決方案是融合動量技術,其中每一步都是最陡的下降方向和最近迭代位移的組合,有助于加速相關方向的梯度下降并抑制振蕩。開創性的工作包括Nesterov的凸優化加速梯度[61]和非凸問題的動量近端梯度[50]等。為了滿足機器學習模型大規模優化的需求,支配優化器以隨機方式設計。特別是,帶動量的隨機梯度下降(SGD)和自適應學習率估計方法Adam[45]被廣泛用于訓練深度神經網絡。從經驗上講,用Adam訓練transformer的效果優于SGD,[85]揭示了隨機梯度中噪聲的重尾分布是SGD性能不佳的主要原因,并通過自適應噪聲裁剪的視角來理解Adam。默認情況下,AdamW[56]是Adam的一個變體,它將L2正則化和權重衰減解耦,是transformer廣泛使用的優化器。關于機器學習中的加速優化方法的更多細節,請參閱[54,8]。

數據選擇

令牌掩蔽。標記掩碼是自監督預訓練任務中的一種主要方法,如掩碼語言建模(MLM)[43,9]和掩碼圖像建模(MIM)[6,32]。標記掩碼的精神是隨機掩碼一些輸入標記,并訓練模型用可見標記的上下文信息預測缺失的內容,例如詞匯表id或像素。由于壓縮序列長度以二次方式降低了計算和存儲復雜度,跳過處理掩碼token為MLM和MIM帶來了可觀的訓練效率增益。對于MLM,[72]提出聯合預訓練語言生成任務的編碼器和解碼器,同時刪除解碼器中的掩碼標記,以節省存儲和計算成本。對于MIM,代表性工作[32]表明,在視覺中,在編碼器之前刪除掩碼圖像塊顯示出更強的性能,并且比保留掩碼標記的總體預訓練時間和存儲消耗低3倍或更多。在[51]中也發現了類似的現象,對于語言-圖像預訓練,隨機掩碼并去除掩碼圖像塊的總體預訓練時間比原始片段快3.7倍[66]。 **3 存儲效率 **

除了計算負擔之外,大型Transformer模型的模型規模越來越大,例如從BERT [43] 345M參數模型到1.75萬億參數的GPT-3,這是訓練的一個關鍵瓶頸,因為它們不適合單個設備的存儲。我們首先分析了現有模型訓練框架的內存消耗,它被1)模型狀態所占用,包括優化器狀態(例如Adam中的動量和方差)、梯度和參數;2)激活(我們忽略了臨時緩沖區和空閑碎片存儲,因為它們相對較小)。我們在表1中總結了記憶有效的訓練方法。下面,我們將討論優化存儲使用的主要解決方案。

4 硬件算法設計

除了計算和存儲負擔外,設計高效的硬件加速器可以加快DNN的訓練和推理。具體來說,與中央處理器(CPU)相比,圖形處理器(GPU)由于高度的并行性,在執行矩陣乘法時更加強大。對于專注于特定計算任務的應用,專用集成電路(AISCs)具有低功耗、高訓練/推理速度的優勢。例如,谷歌設計的張量處理單元(TPU)比當代cpu和gpu[41]的每瓦性能高30 ~ 80倍。然而,ASIC不容易重新編程或適應新任務。相比之下,現場可編程門陣列(FGPA)可以根據需要重新編程以執行不同的功能,也可以在最終設計之前作為asic的原型。為了進一步優化DNNs,特別是Transformer的訓練效率,硬件-算法協同設計在設計算法時考慮了硬件的約束和能力。

付費5元查看完整內容
北京阿比特科技有限公司