亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)中的情感認知對于提升各類應用的性能至關重要,如社交媒體、人機交互以及心理健康評估。我們探討了當前的研究現狀,主要圍繞情感分類、情感豐富的響應生成和心理理論評估,同時也承認了依賴標注數據和情感處理復雜性等挑戰。在本文中,我們詳細綜述了LLMs在情感認知領域的最新進展,探討了關鍵研究、方法、成果和資源,并將其與烏爾里克·奈瑟(Ulric Neisser)的認知階段進行了對齊。此外,我們還概述了這一不斷發展的領域中未來研究的潛在方向,包括無監督學習方法的發展以及更復雜且可解釋的情感認知LLMs的構建。我們還討論了對比學習等高級方法,這些方法用于提升LLMs的情感認知能力。

在當今的情感計算領域,越來越多地認識到大型語言模型(LLMs)中的情感認知的重要性(Ren等人, 2024)。它為人類情感和認知的復雜過程提供了深刻的見解。這一領域不僅涉及對個體或群體的情感狀態進行分析,還有效地將這些情感應用于各種領域,如社交媒體分析(Chen等人, 2024b;Yang等人, 2024;Chen等人, 2024e;Jin等人, 2023, 2024b)、人機交互(Chen等人, 2023e,c)和心理健康評估(Chen等人, 2024d)。具備情感認知能力使LLMs能夠更緊密地與人類價值觀保持一致,從而提升其在情感相關下游任務中的表現。

當前,關于LLMs情感認知的研究主要集中在處理和分析情感數據的各種方法上。這包括情感分類(Zhang等人, 2023)、生成情感豐富的響應(Xie等人, 2023;Chen等人, 2024g),以及“心理理論”評估(Sap等人, 2022)。研究人員還通過上下文學習(Sun等人, 2023;Chen等人, 2024c)和微調方法(Peng等人, 2023;Chen等人, 2023d)等技術,進一步增強LLMs的情感能力。然而,挑戰仍然存在,包括對標注數據的過度依賴、處理復雜情感的困難,以及解釋LLMs在情感認知中的決策過程的難度。此外,情感認知與人類的情感心理學密切相關,不僅需要計算方法和技術,還需要對心理學理論有深刻的理解和應用。 在我們的綜述中,我們強調結合心理學的視角,特別是基于烏爾里克·奈瑟(Ulric Neisser)的認知心理學理論(Neisser, 2014),來探討LLMs在情感認知中的應用與研究。奈瑟被譽為認知心理學之父,他在《認知心理學》一書中將認知描述為一個包含感覺、知覺、想象、記憶、回憶、問題解決和思維的綜合過程。圖1展示了本次綜述的框架。具體而言,我們首先深入探討了LLMs在情感認知中面臨的三個關鍵挑戰:情感問題的獨特性、情感方法的復雜性和情感任務的多樣性。接著,我們介紹了LLMs在情感認知中的兩個典型方向:情感評估和情感增強。基于Ulric Neisser的認知定義,我們將LLMs情感領域的工作劃分為七個階段。在每個階段中,我們探討了更詳細的研究方向和應用場景。此外,我們總結了情感認知領域的重要工作,并根據這七個階段對其進行分類,包括這些工作的動機、關鍵方法、性能表現以及可用的開源代碼和數據集。最后,我們識別并討論了該領域中仍未解決的問題和未來的研究方向。我們的工作主要貢獻包括:

  • 我們從問題定義、方法論和應用領域的角度對情感認知中的主要挑戰進行了深入分析。

  • 我們根據認知心理學理論的七個階段對情感領域的工作進行了分類,從而更好地將具體任務與人類認知過程對齊。

  • 我們對情感認知領域的未來研究方向進行了深入的討論,旨在激發LLMs情感計算領域的進一步發展。

方法與應用

在本節中,我們通過將奈瑟的認知過程與LLMs的能力進行類比,詳細說明LLMs在情感認知中的七個階段。我們列出了具有代表性的研究,包括其動機、關鍵技術、結果以及開源代碼/數據集,見表1。擴展版本見表2和表3。

**1 感覺

感覺是指LLMs展現出類似于人類在處理輸入文本數據時的能力。這方面的工作主要集中在輸入形式上。常見的輸入形式包括三類:提示工程、嵌入表示和知識增強。

提示工程是指通過添加一些指令來引導LLMs在下游任務中的表現。例如,Lynch等人(2023)提出了一種用于查詢LLMs的結構化敘事提示。該研究使用OpenAI的ChatGPT生成敘事,并通過卡方檢驗和Fisher精確檢驗等統計方法將這些敘事中的情感水平與真實推文進行比較;Ratican和Hutson(2023)提出了6DE模型,用于分析LLMs上下文中的人類情感。該模型考慮了情感的多個維度,如喚醒度、情緒、主導性、代理性、忠實度和新穎性;Zhang等人(2023)探索了四種提示策略,包括有上下文和無上下文的零樣本和少樣本提示,展示了這些提示在情感分析和識別任務中的優異表現。該研究強調了上下文信息在增強LLMs情感估計中的重要性。

不同于使用提示作為輸入,嵌入表示將輸入文本轉換為高維空間中的向量表示,捕捉詞匯的語義信息,用于優化LLMs的內部處理過程。例如,Xu等人(2023)探索了指令微調以增強LLMs在心理健康預測中的表現。微調后的模型Mental-Alpaca和Mental-FLAN-T5在性能上顯著超越了GPT-3.5和GPT-4,盡管模型體積明顯較小;Binz和Schulz(2023)研究了心理實驗數據用于微調LLMs。該研究表明,LLMs在準確模擬人類行為方面具有能力,并且在微調過程中使用嵌入表示時展示了其在情感認知中的潛力。

此外,知識增強是指將上下文或知識加入輸入中,以增強LLMs在處理下游任務中的表現。例如,Sun等人(2023)通過引入外部知識增強共情響應生成。該研究提出了一種名為CoNECT的新方法,利用情感指標來評估上下文相關性并促進共情推理;Gagne和Dayan(2023)探討了LLMs生成文本的情感分布。該方法通過利用特定分位數生成情感豐富的句子,展示了LLMs在情感生成方面的有效性,并提供了對LLMs內部機制的見解。 總之,當前在LLMs情感文本輸入處理方面的研究主要通過提示工程、嵌入表示和知識增強取得了顯著進展。這些方法增強了LLMs理解和生成情感豐富內容的能力。然而,在多樣化接收和處理文本輸入的模式方面仍有改進空間,包括整合更細致的內部情感認知,以更好地解釋和響應輸入。

**2 知覺

知覺涉及解釋和理解感官信息,處理從感官收集的原始數據,以形成對外部世界的有意義理解。LLMs在情感認知中的知覺主要包含情感識別及其可解釋性。

情感識別是指識別上下文或對話中的情感。例如,Rathje等人(2023)探討了GPT-3.5和GPT-4在檢測各種語言心理構建(情感、離散情感和攻擊性)方面的表現,表明LLMs在準確性方面優于基于詞典的方法和微調的機器學習模型;Zhang等人(2023)展示了LLMs在情感識別任務中能夠實現可比甚至優于其他模型的表現,尤其是在識別少數情感類別方面;Lei等人(2023)提出了InstructERC框架,這是一個有效的生成框架,結合了檢索模塊和情感對齊任務用于情感識別;Venkatakrishnan等人(2023)強調了跨文化背景中情感檢測的重要性,研究了LLMs對重大事件(如伊朗Zhina(Mahsa)Amini的謀殺案和土耳其和敘利亞的地震)的反應;Rodríguez-Ibánez等人(2023)評估了社交網絡中的情感分析方法及其在股票市場估值、政治和網絡欺凌教育等領域的應用。研究發現使用LLMs(如GPT-3和GPT-J)的表現不佳,要求進行領域特定的調整;Peng等人(2023)采用了深度提示微調和低秩適應來研究LLMs在語言情感識別中的表現。研究表明,經過調整的LLMs在六個廣泛使用的數據集上表現出強大的可遷移性和可行性,超越了其他專用的深度模型;Kheiri和Karimi(2023)討論了使用LLMs進行情感分析的潛力,表明LLMs在處理語言中情感分析的細微差別方面表現優異;Ullman(2023)強調了GPT-3.5在預測人類情感方面的技能,突出了其理解和解釋文本中情感內容的能力。Carneros-Prado等人(2023)對GPT-3.5和IBM Watson進行了比較分析,使用了一個包含30,000條與新冠疫情相關推文的數據集。研究揭示了LLMs在情感分析和分類中的多方面能力,但它們在將文本表達與定義的情感類別相匹配方面仍存在困難。此外,幽默是情感認知中的一個更具挑戰性的研究領域。Trott等人(2023b)研究了GPT-3理解語言幽默的能力。實驗表明,GPT-3在檢測、欣賞和理解笑話方面表現出色,盡管未達到人類表現。研究表明,盡管LLMs擅長捕捉幽默,但僅憑語言并不足以完全理解笑話,圖像也很有用。

情感識別的可解釋性是通過詞權重分布、梯度、干擾等分析LLMs的內部狀態。Kwon等人(2022)通過比較基于評價特征的相似性計算方法和基于詞嵌入的相似性計算方法的性能,研究了表示情感概念的方法。研究發現,GPT-3在詞嵌入相似性計算中表現優越,但也過度依賴于情感概念的估值。

總體而言,LLMs在情感知覺方面取得了顯著進展,模仿了人類對情感細微差別的理解。盡管像GPT-3.5和GPT-4這樣的模型在檢測和解釋多種情感上下文方面表現出色,但它們在完全理解情感背景和細微差別方面仍面臨挑戰,強調了進一步提高其感知能力的必要性,以實現更準確的情感分類、理解深度、領域適應性和價值對齊。

**3 想象

想象是指生成與情感相關的內容,例如情感故事、詩歌和情感對話,目的是創造符合人類價值觀的內容。 在生成情感敘事方面,Xie等人(2023)專注于風格、語域和故事長度的變化,展示了LLMs在生成故事內容方面的顯著優勢。然而,一個關鍵觀察是LLMs在處理世界知識時傾向于復制現實世界中的故事。Yongsatianchot等人(2023a)研究了GPT-4在情感預測任務中的熟練程度,展示了其不僅能夠辨別和概念化情感理論,還能夠創作與情感相關的故事。通過提示GPT-4識別和操作情感體驗的關鍵元素,它展示了在其敘事中對情感強度的細致控制。

在生成情感對話方面,Zheng等人(2023)采用LLMs來增強情感支持對話。這種方法將對話增強視為對話補全任務,微調后的語言模型從不同話題中補全對話,隨后進行基于啟發式的后處理。Lee等人(2022)深入研究了GPT-3通過基于提示的上下文學習生成共情對話的能力。該研究引入了創新的上下文示例選擇方法,SITSM和EMOSITSM,利用情感和情境信息,揭示了GPT-3在共情方面的競爭表現,甚至超越了Blender 90M。Zhao等人(2023)評估了ChatGPT的情感對話能力,通過一系列下游任務評估ChatGPT在理解和生成情感對話方面的表現。Guo等人(2023)指出,ChatGPT在垂直領域(如繪畫創作)中的情感效果顯著。它可以提供更清晰、更詳細的繪畫指令,并理解繪畫中的抽象藝術表現和情感。

我們還關注一個更具體的方面:幽默生成,這是一種復雜且本質上具有人類特征的任務。例如,Jentzsch和Kersting(2023)深入探討了OpenAI的ChatGPT在幽默生成能力方面的表現,評估了ChatGPT在生成、解釋和檢測笑話方面的能力。ChatGPT傾向于重復相同的笑話處理過程,而不是創造新的笑話,盡管它可以準確解釋有效的笑話。Toplyn(2023)提出了一種創新的方法,用于LLMs的幽默生成。Witscript 3使用三種笑話生成機制來生成和選擇最佳的喜劇響應。這代表了LLMs與人類專業知識之間的合作,結合了由專業喜劇作家編寫的幽默算法。值得注意的是,Witscript 3的響應被人類評估者認為是笑話的概率為44%。Chen等人(2024f)構建了一個包含連鎖幽默和幽默思維導圖注釋的中文可解釋幽默響應數據集,以及與幽默相關的輔助任務,用于評估和改進PLM和LLMs的幽默響應能力。

總的來說,LLMs在情感相關內容的想象方面取得了重大成就,如故事、對話和幽默。它們在對話中的情感強度和共情方面表現出了細致的控制能力。然而,內容的原創性方面仍存在限制,特別是在幽默生成中,LLMs傾向于復制現有的笑話,而不是創造新的笑話。

**4 記憶

記憶是指編碼和存儲知識,創建“記憶”的過程。LLMs中的記憶與它們通過訓練過程如何“記住”情感信息和知識有關,這對后續情感數據的處理和生成至關重要,例如角色扮演和角色模擬。

例如,Tao等人(2023)提出了一個創新框架,旨在改善LLMs的個性化角色扮演。他們采用了一種詳細的情感分類策略,并在對話數據集中對情感進行了注解,使GPT-4能夠根據其“記憶”中的情感創建角色檔案。 Shao等人(2023)將重點轉向基于個人檔案、經歷和情感狀態訓練智能體,而不是使用有限的提示來引導ChatGPT的API。實驗結果表明,編輯和恢復個人檔案有助于構建更準確和情感感知更強的LLMs模擬,模擬的人物更加人性化。Jiang等人(2023)探討了個性化LLMs的行為在多大程度上反映了特定的性格特質。該研究使用大五人格模型創建了不同的LLMs角色,并通過各種任務(包括性格測試和故事寫作)評估了它們的行為。結果表明,LLMs角色可以持續展現與其指定的人格特質一致的行為。Wang等人(2023)提出了RoleLLM框架,用于增強LLMs的角色扮演能力。該框架包括角色輪廓構建、基于上下文的指令生成以及角色特定知識的捕捉和記憶,展示了LLMs通過模擬語言風格和利用其記憶中的角色特定知識獲得的競爭性成果。

我們還研究了LLMs在構建情感記憶模式和恢復這些記憶方面的能力。例如,NathanKlapach(2023)深入分析了五種廣為人知的LLMs,包括BingAI、ChatGPT、GoogleBard和HuggingChat,重點分析了它們處理、模仿和表達情感的能力。這些LLMs被要求創建新故事,這些故事在語調、風格和情感影響方面反映了原始敘述的特征,以評估它們在存儲情感方面的能力并有效地復制這些特征。Russo等人(2023)介紹了一種新方法,LLMs能夠通過作者-審稿人流程管理社交媒體平臺上的錯誤信息,并生成情感響應。

總的來說,LLMs的最新研究重點是增強它們對情感信息的記憶,這對于角色扮演和角色模擬等任務至關重要。然而,在有效編碼和存儲復雜的情感知識方面仍然存在挑戰,特別是在由于上下文大小限制無法“記住”記憶的情況下。該領域正在探索如何改進LLMs的記憶模式及其準確和系統地保留情感信息的能力。

**5 回憶

回憶是指提取情感記憶,從“記憶”中提取信息。在LLMs的情感認知中,回憶與它們從內部或外部知識中檢索與情感相關的信息能力有關,用于響應與情感相關的陳述、保持情感對話的一致性等。以下研究展示了LLMs如何有效利用情感記憶和歷史以增強決策過程。

例如,Jia等人(2023)提出了一個知識增強的記憶模型,用于情感支持對話。該模型能夠感知并適應對話中不同時期的情感變化,通過從對話中提取豐富的知識和常識(如ConceptNet)。Jeong和Makhmud(2023)提出了一種新方法,通過引入多樣化的參數集(如五種感官、屬性、情感狀態、與對話者的關系和記憶)豐富LLMs的響應。他們強調了記憶在保持對話連貫性和情感真實性中的重要性。Zhong等人(2023)引入了一種動態記憶機制,使LLMs能夠在當前決策過程中利用過去的情感互動。該機制受艾賓浩斯遺忘曲線(Ebbinghaus, 1885)的啟發,使LLMs能夠有選擇地回憶情感互動,從而更像一個真正的人類朋友。Qian等人(2023)強調了LLMs根據歷史情感背景生成共情響應的能力。他們引入了上下文學習和兩階段交互生成方法,使LLMs能夠處理和反思過去的情感互動,從而做出更具共情的決策。此外,Wake等人(2023)研究了情感歷史在決策中的應用。作者估計了當前語句的情感標簽,僅基于過去對話的歷史,展示了數據集和情感標簽選擇對ChatGPT情感識別表現的重大影響。

總之,最近對LLMs回憶能力的研究重點是檢索和利用情感記憶,以在情感相關互動中做出決策。這些研究表明,LLMs能夠適應動態情感變化,結合多樣化的參數,并利用歷史情感背景做出共情決策。然而,在完善復雜情感歷史的回憶、有效檢索最相關的知識并持續更新方面仍然存在挑戰。

**6 問題解決

情感認知中的問題解決是指在各種場景中解決與情感相關的下游任務(Li等人,2023a;Chen等人,2024a;Li等人,2022,2024b,2023c;Ni等人,2024a;Li等人,2023b,2024e)。 例如,在心理健康領域,Tu等人(2023)提出了S2Conv框架,專門用于為心理健康問題提供個性化支持。該框架集成了基于個性和記憶的對話模型與人際匹配插件,強調了LLMs在提供社交支持方面的潛力(Ni等人,2024b;Li等人,2024d;Jin等人,2024a;Li等人,2024a)。Qi等人(2023)評估了LLMs在心理健康領域的表現。Zhu等人(2024)研究了LLMs在進行心理推理任務中的使用,特別是推斷用戶的潛在目標和基本心理需求。Lai等人(2023)在心理咨詢場景中使用LLMs,提供即時響應和正念活動。Xu等人(2023)評估了LLMs在心理健康預測任務中的表現,強調了減輕偏見的必要性。在教育領域,Sajja等人(2023)提出了一個創新框架,用于個性化和自適應學習。 這些LLMs在情感相關問題解決中的多樣化應用展示了它們的廣泛潛力。然而,它們也揭示了諸如性別偏見和增強可解釋性等限制。未來的研究方向可能包括微調LLMs,以更好地滿足教育和心理健康領域的需求。

**7. 思考

思考是指問題解決后的反思和回顧。在LLMs的情感認知中,它涉及如何利用“心理理論”解決下游任務(Zhou等人,2024;Li等人,2024c)。心理理論(Theory of Mind, ToM)(Carlson等人,2013)是理解自身和他人心理狀態(包括情感、意圖、期望、思想、信念)的認知能力。可以使用這一理論來預測和解釋各種行為。

LLMs在情感驅動的任務中展現了強大的思考能力。例如,Trott等人(2023a)展示了LLMs在推斷他人信念方面的優異表現。Gandhi等人(2023)引入了一種基于因果關系的模板方法,用于評估LLMs的ToM。他們發現GPT-4具有人類般的推理模式,并擁有強大的ToM。Sap等人(2022)評估了GPT-3在社會推理和心理狀態理解方面的表現,識別了LLMs的ToM能力的界限。Shapira等人(2023)通過多種檢測方法在六個任務中進行了廣泛實驗,評估LLMs的ToM能力,發現這些能力不夠穩健,更多依賴于表面的啟發式方法而不是堅實的推理。Holterman和van Deemter(2023)通過給ChatGPT-3和ChatGPT-4提供六個涉及人類推理偏差的問題,檢查了它們展示ToM的能力,發現ChatGPT-4在提供正確答案方面表現優于隨機結果,盡管有時基于錯誤的假設或推理。

在思考領域,焦點擴展到了行為。例如,Zhou等人(2023)提出了一種新的“為行動而思考”評估范式,評估LLMs是否能夠基于他人的心理狀態識別適當的行為,而不僅僅是對這些狀態的問題作出回應。該研究提出了一種名為“預見和反思”的零樣本提示框架,以增強LLMs在預測未來事件和通過行動選擇進行推理方面的能力。Jin等人(2022)旨在評估LLMs在理解和預測人類道德判斷和決策行為方面的表現。他們提出了一種基于法律專業知識和道德推理理論的創新道德推理鏈提示策略(MoralCoT),表明MoralCoT在道德推理、復雜的道德判斷和決策方面超越了現有的法律模型。Sorin等人(2023)回顧了LLMs展示共情的能力,探討了LLMs如何處理和表達復雜的情感觀點和推理。Del Arco等人(2022)強調了GPT-3在共情和痛苦預測中的作用,展示了其在復雜情感預測中的推理過程。Schaaff等人(2023)評估了ChatGPT的共情水平,并將其與人類標準進行了比較,比較了LLMs在理解和表達共情方面的能力。Saito等人(2023)展示了提出的ChatGPT-EDSS在捕捉對話中的共情方面的相似表現,評估了LLMs的情感理解和表達能力。Lee等人(2024)發現LLMs的響應比人類更具共情性,比較了模型和人類在情感推理和表達方面的差異。

總的來說,這些研究集中在LLMs的思考能力上。盡管像GPT-4這樣的LLMs在理解和推斷心理狀態方面表現出色,但在推理和反思的深度、心理理論的更好利用以及情感驅動行為預測方面仍然存在挑戰。該領域的目標是提高LLMs在回顧分析情感任務方面的能力,從而實現更細致和準確的問題解決。

付費5元查看完整內容

相關內容

偏好調整是將深度生成模型與人類偏好對齊的關鍵過程。本文對偏好調整及其與人類反饋的整合的最新進展進行了全面綜述。文章分為三個主要部分:

介紹和預備知識:介紹強化學習框架、偏好調整任務、模型和跨不同模態(語言、語音、視覺)的數據集,以及不同的策略方法;

深入分析每種偏好調整方法:詳細分析偏好調整中使用的方法;

應用、討論與未來方向:探討偏好調整在下游任務中的應用,包括不同模態的評估方法,以及未來研究方向的展望。

我們的目標是展示偏好調整與模型對齊的最新方法,提升研究人員和從業者對該領域的理解。我們希望能夠激勵更多人參與并推動這一領域的創新。 關鍵詞:偏好調整、人類偏好、強化學習、多模態、多語言、大型語言模型、視覺語言模型、語音語言模型、生成模型、綜述、DPO、RLHF。

1 引言

從人類反饋中學習是將生成模型與人類偏好對齊的重要步驟,旨在生成與人類語言和寫作相似的輸出。盡管生成模型在自監督學習中的學習能力強大,但這些模型經常誤解指令,導致生成出現幻覺 (Ji 等, 2023a; Yao 等, 2023a)。此外,確保生成內容的安全性仍是這些模型面臨的重大挑戰。關于使用人類反饋進行偏好調整的廣泛研究表明,對抗樣本可以用來破解系統 (Rando 和 Tram`er, 2023; Wei 等, 2024)。理想情況下,生成模型需要受到控制,以確保其輸出是安全的并且不會造成傷害。模型通常會表現出意外行為,例如編造事實 (Chen 和 Shu, 2023; Sun 等, 2024),生成帶有偏見或有害的文本 (Hartvigsen 等, 2022),或未能遵循用戶指令 (Ji 等, 2023b; Tonmoy 等, 2024)。此外,數據隱私的保護至關重要,以確保模型的安全運行并保護用戶隱私 (Brown 等, 2022)。在文本到圖像生成任務中,大規模模型常常難以生成與文本提示緊密對齊的圖像 (Feng 等, 2022),尤其是在組合圖像生成 (Liu 等, 2022; Lee 等, 2023) 和連貫生成方面 (Liu 等, 2023a)。同樣,在文本到語音任務中,Zhang 等 (2024a) 和 Chen 等 (2024a) 將主觀人類評價整合到訓練循環中,以更好地使合成語音符合人類偏好。 偏好調整已廣泛應用于語言任務,通過訓練指令調整的大型語言模型(LLM)來實現,例如 Llama (Touvron 等, 2023b; Dubey 等, 2024),Phi (Abdin 等, 2024),Mistral (Jiang 等, 2023a),Nemotron (Parmar 等, 2024; Adler 等, 2024),Gemma (Team 等, 2024)。諸如 GPT-4 (Achiam 等, 2023),Gemini (Team 等, 2023; Reid 等, 2024),Claude (Anthropic, 2024),Command-R 和 Reka (Ormazabal 等, 2024) 等商業模型也利用了人類偏好對齊來提升其性能。LLM 的對齊提高了任務特定技能、連貫性、流暢性,并有助于避免不期望的輸出。此外,多語言 LLM 的對齊研究也有所裨益,例如 Aya (Aryabumi 等, 2024; Ust¨un 等, 2024),BLOOMZ 和 mT0 (Muennighoff 等, 2023),以及區域性 LLM 如 Cendol (Cahyawijaya 等, 2024) 和 SEALLM (Nguyen 等, 2023)。實現 LLM 對齊的常見方法包括使用強化學習技術,通過最大化獎勵來引導語言模型遵循偏好樣本。通過人類反饋的強化學習(RLHF)(Christiano 等, 2017) 是最早用于使模型與人類偏好對齊的方法,進一步應用于深度學習領域,并通過其在 LLM 中的成功(Ouyang 等, 2022;Bai 等, 2022a)得到普及,采用了 PPO (Schulman 等, 2017),REINFORCE (Kool 等, 2019),在線定向偏好優化 (Guo 等, 2024a) 和監督微調 (SFT)-類方法 (Dong 等, 2023)。它通常包括三個關鍵方面:人類反饋收集、獎勵建模和在線 RL 進行策略優化。然而,最近的方法允許在離線方式下與策略模型一起訓練獎勵模型,正如 DPO (Rafailov 等, 2024) 所展示的那樣,并通過離線和在線策略的聯合訓練 (Zhao 等, 2023) 進行優化。此外,偏好調整還應用于視覺文本任務,已被證明能夠通過圖像和文本嵌入的對齊分數(使用預訓練的視覺文本模型,如 CLIP (Radford 等, 2021) 和 CoCa (Yu 等, 2022a) 進行衡量)來改善圖像和文本的表示 (Ramesh 等, 2022;Saharia 等, 2022;Yu 等, 2022b)。Wu 等 (2023c) 使用 LoRA (Hu 等, 2021) 對齊 Stable Diffusion (Lee 等, 2023),這是一種視覺文本預訓練模型。關于語音的應用尚未被廣泛探索,相關文獻中僅有少量工作。Zhang 等 (2024a) 研究了代碼與文本之間的對齊。

本文對不同模態下的人類反饋偏好調整的最新進展進行了綜述。它不僅提供了一個全面的介紹,包括相關基礎知識以幫助讀者熟悉這一主題,還對最新提出的方法進行了深入回顧和討論。總結來說,本文包括以下貢獻: * 我們對語言、語音和視覺任務等不同模態的模型的偏好調整進行了全面概述,并擴展到所有現有的偏好調整方法,包括強化學習(RL)方法。 * 我們從現有文獻中整理并系統化了偏好調整的框架和分類。 * 我們展示了偏好調整在使用人類反饋改善生成方面的各種應用,并描述了用于評估深度生成模型質量的自動和基于人類的評估方法。 * 我們討論了偏好調整的機會和未來研究方向。

通過這篇綜述,我們旨在展示偏好調整和生成模型對齊的最新方法,使研究人員和從業者能夠更好地理解這一主題并進一步創新。

分類法

我們為所有偏好調整方法定義了以下類別,如表 2 所示。圖 1 展示了我們在本綜述文章中研究的五個類別,并描述如下:

采樣

類似于強化學習(RL)文獻,我們根據如何采樣數據并使用它們進行訓練或獲取獎勵對方法進行分類:離線和在線的人類對齊。這一分類與我們如何計算獎勵并將其用于策略模型有關。在在線人類對齊設置中,智能體通過與環境交互收集一批樣本,并使用它們更新策略。這些樣本的獎勵可以通過獎勵模型收集,或由策略模型生成的樣本獲得。而在離線人類對齊設置中,數據來自于離線的人類演示。對于在線方法,我們還將這些方法分類為同策略(行為策略與優化策略相同)或異策略(行為策略與優化策略不同)。

模態

我們研究了偏好調整在不同模態中的使用,例如文本、語音、視覺、運動覺等。如果我們無法對其進行分類,則歸為“其他”。在自然語言處理(NLP)的最新進展中,強化學習的理念已進一步擴展到語言和語音任務,甚至跨模態任務(如視覺-文本)。因此,按研究的模態(例如文本、語音、視覺、視覺-文本)對論文進行分類是非常重要的。

語言

我們探索了偏好調整在不同語言中的應用。在這種情況下,我們將方法分類為英語非英語多語言

獎勵粒度

在偏好調整中,獎勵可以在不同的粒度水平上計算。粒度水平可擴展為兩類:樣本級標記級。每種模態的標記級可能不同,例如在文本任務中,我們可以使用詞匯中的子詞作為標記;在視覺任務中,圖像的片段可以作為標記。

偏好調整

在本節中,我們介紹了用于訓練偏好調整生成模型的通用框架。如表 3 所示,偏好調整的訓練框架通常從**監督微調(SFT)**階段開始,在此期間,生成模型通過下一個標記預測任務進行訓練,或者使用經過指令微調的模型作為基礎初始化模型。SFT 的重點在于提升模型生成標記的能力,因為它引導模型如何響應輸入提示。當模型能夠正確生成流暢的文本序列后,通過強化學習(RL)進一步進行策略優化,使模型與偏好目標對齊。對齊的目的是引導模型根據偏好目標以適當的方式回答問題。這一步是確保模型生成與人類偏好一致的必要訓練階段,因此模型的行為會更接近人類的表現。值得注意的是,人類對齊階段也可以與 SFT 進行聯合訓練。

付費5元查看完整內容

當前的人工智能(AI)模型通常通過精細的參數調整和優化技術來提升性能。然而,模型背后的基本設計原則相對較少受到關注,這可能限制我們對其潛力和局限性的理解。本綜述探討了塑造現代AI模型的多樣化設計靈感,即腦啟發的人工智能(BIAI)。我們提出了一個分類框架,將BIAI方法分為物理結構啟發型和人類行為啟發型模型。我們還審視了不同BIAI模型在實際應用中的表現,突出其實際優勢和部署挑戰。通過深入探討這些領域,我們提供了新的見解,并提出了推動創新和解決當前領域內空白的未來研究方向。本綜述為研究人員和從業者提供了BIAI領域的全面概覽,幫助他們利用其潛力,加速AI開發的進步。

1 引言

人工智能(AI)的一個基本目標是創造能夠像人類一樣學習和思考的機器。為了實現這一目標,人工學習器在多個領域中取得了顯著的里程碑,包括目標和語音識別【131, 151】、圖像處理【115】、機器人技術【50】、醫學數據分析【161】、自然語言處理(NLP)【114】等。這些成功加速了AI的發展,使其在某些領域能夠與人類匹敵甚至超越。例如,AI模型現在在某些特定任務中表現優于人類,如語言翻譯【134】、圖像識別【63】甚至戰略游戲如國際象棋和圍棋【155】。最近,許多公司提出了一系列能夠理解圖像、音頻、視頻和文本的多模態模型,其能力類似于人類【3, 7, 169】。這種快速的進步彰顯了AI在各個領域中的變革潛力,推動了技術能實現的邊界。然而,旨在創造具有類似人類思維和推理能力的機器的一般AI方法在可擴展性、魯棒性、能效、可解釋性、學習效率和適應性方面仍然存在局限性【98】。 人類大腦被認為是最復雜的信息處理系統,能夠解決諸如學習、推理和感知等復雜任務。基于對人腦研究的最新進展,研究人員正在將神經科學的見解整合到AI系統中,旨在開發能夠更接近人類行為的感知、推理和行動的腦啟發人工智能(BIAI)系統【128, 163】。這一努力源于對生物智能的基本原理的理解,并希望利用這些原理來構建更智能、適應性更強和更魯棒的AI系統。什么是腦啟發人工智能(BIAI)?BIAI指的是從人類大腦和神經系統的生物結構、功能和原理中獲得靈感的AI系統和算法。它專注于復制或模仿生物體中觀察到的復雜過程和功能,以在人工系統中實現更類似于人類或大腦的行為【197】。與一般AI算法相比,BIAI通常集中于人類行為的特定方面,如從經驗中學習、適應新環境以及關注重要信息。在這篇全面綜述中,BIAI文獻大致分為物理結構(PS)啟發型模型和人類行為(HB)啟發型模型。PS啟發型模型是指模仿生物神經元、突觸和神經回路結構的模型,用于執行諸如學習、推理和決策等任務。代表性模型包括多層感知器(MLP)、人工神經網絡(ANNs)以及最近的脈沖神經網絡(SNNs)。HB啟發型模型被定義為復制人類行為中觀察到的生物機制和過程的模型。這些模型旨在捕捉生物系統的動態,同時提供對人類如何感知、學習、適應和與環境互動的見解。注意力機制、遷移學習和強化學習是常見的人類行為啟發的深度學習方法。BIAI與一般AI的區別在于它們在AI領域中的不同方法和目標【31, 77】。具體而言,一般AI并不一定受到人類大腦具體工作方式的啟發,而是旨在更廣泛的意義上達到或甚至超越人類水平的智能。相反,設計BIAI系統的目的是復制或模仿人類認知背后的生物機制和過程。這些系統通常在圖像識別和機器人控制等任務中表現出色,但它們可能不具備人類智能的全方位能力。BIAI與傳統AI的更全面比較見表1。為什么BIAI重要?BIAI的重要性主要體現在兩個方面。一方面,BIAI在適應性、泛化能力和可解釋性等許多方面有潛力超越傳統的AI方法。另一方面,BIAI模型旨在模仿大腦的結構和功能,從而增加其生物學的合理性。這種與生物學原理的契合不僅加深了我們對智能的科學理解,也為神經科學和AI研究之間的合作創造了新的機會。本質上,通過從人類大腦——最先進的信息處理系統——中汲取靈感,研究人員正在為開發可能達到甚至超越人類能力的智能系統奠定基礎【47, 103, 125】。

**1.1 動機

人類大腦是生物復雜性的頂峰。它不僅調節所有身體功能和過程,還使高級認知能力得以實現,如思維、記憶和情感【16】。將神經科學與AI系統相結合有助于解決許多現實應用中的緊迫問題和某些瓶頸【204】。一方面,人類大腦在處理大量信息時效率極高,同時消耗的能量相對較少。模仿其架構和過程可以使AI系統在操作上同樣高效和優雅。例如,傳統機器人無法在復雜環境中及時獲取環境知識,這限制了其做出準確快速決策的能力。此外,在該領域中,低學習效率、泛化能力差、難以制定目標導向的策略以及對動態環境的慢適應性等問題仍然存在。將BIAI整合到機器人系統中可以顯著提高機器人的運動和操控能力【132】。此外,BIAI還可以應用于解決許多其他現實問題,如醫學診斷、自動駕駛汽車、聊天機器人和虛擬助手、網絡威脅檢測、輔導系統、供應鏈優化、內容創作和個性化推薦。這些應用突顯了BIAI在不同方面的廣泛影響和相關性。另一方面,理解大腦的機制不僅為我們提供了有關智能如何產生的見解,還為解決AI中的復雜問題提供了線索。通過研究生物神經網絡,研究人員可以開發更好地捕捉認知和感知復雜性的算法和架構。例如,神經網絡作為AI的基礎和基本模型之一,汲取了大腦結構和計算過程的靈感。作為現代AI的基石,神經網絡推動了醫療、金融、交通和娛樂等領域的進步。它們從數據中學習并揭示有價值的見解的能力使其成為解決復雜挑戰和推動AI創新的關鍵。此外,人類大腦具有顯著的魯棒性和適應性,能夠從經驗中學習,處理噪聲和不確定數據,并將知識泛化到新情境【41】。通過模仿大腦的彈性和適應性,BIAI旨在創造更為魯棒和多功能的AI系統。這種方法還強調了透明性、可解釋性和責任感,從而優先考慮倫理AI的發展。以生物系統為模型的智能化推動了可信賴且符合人類價值觀的AI的創建。盡管BIAI在推動AI和機器人技術方面具有巨大的潛力【102】,但它也面臨著一些挑戰和局限性。人類大腦是一個極其復雜的器官,擁有數十億的神經元和數萬億的突觸,這些神經元和突觸組織成復雜的網絡,控制著認知、感知和行為。在人工神經網絡(ANNs)中復制這種復雜性帶來了巨大的計算和工程挑戰【160】。由于人腦的復雜性,盡管經過了數十年的研究,我們對大腦的理解仍然不完整。許多大腦功能方面,如學習、記憶和意識,仍然理解不充分【152】。這種理解的缺乏使得將神經科學的見解轉化為BIAI的實際算法和架構的努力變得更加復雜。此外,BIAI模型的復雜性和不透明性妨礙了我們理解其決策過程的能力。這種明顯缺乏可解釋性和透明性的情況在安全關鍵型應用(如醫療保健和自動駕駛車輛)中引發了對責任感、偏見和可信賴性方面的重大擔憂【78, 91】。這些不足促使我們對BIAI進行全面研究。在文獻中,已有幾篇綜述論文從不同的應用場景和不同的視角調查了BIAI的算法。然而,大多數研究僅關注某一特定方面,如算法、應用場景或代價函數,缺乏對當前BIAI研究進展的詳細介紹和討論的全面綜述。在這篇綜述文章中,我們基于算法的靈感來源和學習機制對當前BIAI研究進行了分類和審視。對于每個BIAI算法,在介紹其特點和適用場景后,我們討論了其優缺點。然后,我們討論了當前BIAI模型的開放問題,并列出了幾個未來的研究方向。我們希望這篇全面綜述能為相關領域的研究人員提供有用的見解。

**1.2 相關綜述與新穎性

之前的研究涵蓋了腦啟發/類腦學習或計算范圍內的類似主題【62, 74, 132, 149】,但沒有一篇集中探討神經科學為AI模型帶來的具體知識,也沒有全面詳細地介紹BIAI系統。在【132】中,作者試圖總結腦啟發算法在智能機器人中的進展,深入探討了視覺認知、情感調節決策、肌肉骨骼機器人技術和運動控制等關鍵領域。Ou等人【122】介紹了類腦計算模型和芯片、它們的演變歷史、常見應用場景和未來前景。Hassabis等人【62】探討了AI與神經科學之間的歷史聯系,并研究了受人類和其他動物神經計算研究啟發的AI的最新進展。在【106】中,作者展示了機器學習和神經網絡如何改變動物行為和神經成像研究領域。關于人工神經網絡中的腦啟發學習,可以在【149】中找到生物學基礎和算法介紹。這篇綜述主要集中在如何從人類大腦的物理結構中學習。然而,沒有一篇綜述注意到并審視了受人類行為和學習機制啟發的AI模型。此外,他們也未全面討論AI可以從人類大腦和神經系統中學習哪些部分來設計模型。在本綜述中,我們主要回答以下問題:什么是BIAI?BIAI與一般AI有什么區別?BIAI能為我們帶來哪些優勢?我們可以從人類大腦的哪些角度來設計AI模型?哪些BIAI模型已經在現實世界中使用?引入BIAI可以進一步推動哪些研究領域?當將神經科學與AI模型相結合時,研究人員面臨哪些挑戰?當前BIAI技術中存在哪些差距,未來可以在哪些方面開展工作?通過回答這些問題,我們希望研究人員能夠加深對BIAI系統的理解,并提高他們為不同應用設計更合適的BIAI算法的能力。

**1.3 貢獻

本文的覆蓋范圍如圖1所示。我們的主要貢獻總結如下:

  • 我們引入了神經科學和人類行為研究中的知識和見解,強調了AI如何從神經結構、學習機制、注意力和焦點、記憶與回憶、認知過程以及人類大腦中觀察到的創造力和想象力中學習。
  • 我們將BIAI研究分為兩大類:物理結構啟發型模型和人類行為啟發型模型,為理解該領域的不同方法提供了框架。
  • 我們探討了BIAI模型的多種應用,包括它們在機器人技術、醫療保健、情感感知和創意內容生成中的應用,展示了這些模型在各個領域中的廣泛潛力。
  • 我們討論了BIAI開發和實施過程中面臨的挑戰,例如理解大腦功能、與神經科學的整合以及構建高效、魯棒、倫理、具有意識且可解釋的模型。我們還概述了應對這些挑戰的未來研究方向。 本文的其余部分組織如下。第2節總結了可以為AI系統提供信息的神經科學和人類大腦功能知識。接下來,綜述按照圖1所示的分類結構展開。第3節討論了BIAI的主要類別,即物理結構啟發型模型和人類行為啟發型模型。第4節探討了BIAI在各個領域的實際應用。在第5節中,我們概述了當前BIAI方法面臨的一般挑戰。第6節重點介紹了未來研究的幾個有前途的方向。最后,在第7節中總結了本次綜述。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。

大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。

為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。

本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。

投機解碼:并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。

**自我投機解碼(SSD)

自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。

提前退出機制:動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。

**HASH EE

Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。

非自回歸模型:并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。

**NAT 模型

非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。

**依賴感知解碼器(DePA)

依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。

付費5元查看完整內容

人工智能模型的成功依賴于大量、多樣化和高質量數據集的可用性,由于數據稀缺、隱私問題和高成本,獲取這些數據可能面臨挑戰。合成數據作為一種解決方案應運而生,通過生成模仿現實世界模式的人造數據。本文提供了合成數據研究的概覽,討論了其應用、挑戰和未來方向。我們呈現了先前藝術作品的實證證據,以證明其有效性,并強調確保其事實性、保真度和無偏見性的重要性。我們強調需要負責任地使用合成數據,以構建更強大、包容和可信的語言模型。

//www.zhuanzhi.ai/paper/23dede415fe236688f496c1c456a1265

人工智能(AI)技術的迅速發展導致其在眾多領域得到廣泛應用,從助手代理(例如,Adept AI的ACT-1)和軟件開發(例如,Cognition Lab的Devin)到醫療保健(Singhal等人,2022年)和金融(Zheng等人,2022年)。然而,AI模型的成功在很大程度上依賴于大量、多樣化和高質量數據集的可用性,用于訓練和評估。由于數據稀缺(Babbar和Sch?lkopf,2019年)、隱私問題(Abay等人,2019年)以及數據收集和注釋的高成本(Gilardi等人,2023b),獲取此類數據集可能是一個重大挑戰。悲觀者預測,到2050年我們將耗盡新鮮的文本數據,到2060年將耗盡圖像數據(Villalobos等人,2022年)。合成數據已經成為解決這些挑戰的有希望的解決方案(Nikolenko,2021年)。合成數據指的是通過算法(Saxton等人,2019年)、生成模型(Borisov等人,2022年;Meng等人,2022年)或甚至模擬(Liu等人,2023c;Vezhnevets等人,2023年)而非直接由人類創建的,模仿現實世界數據特征和模式的人造數據。通過利用合成數據,我們不僅可以克服現實世界數據的限制,還可以解鎖發展更健壯、可靠和公平AI模型的潛力(Lu等人,2023年;Lucini,2021年)。合成數據的許多好處之一是它可以大規模生成,為AI模型提供豐富的訓練和測試數據。這在現實世界數據稀缺或難以獲取的領域尤其寶貴(例如,涵蓋所有條件的天氣數據(Lam等人,2023年;Li等人,2023a))。其次,合成數據可以根據特定需求進行定制,例如通過引入控制變異來確保不同類別的平衡表征(例如,在多語言學習中增加低資源語言的權重(Przystupa和Abdul-Mageed,2019年))。這種對數據特征的控制水平可以提高模型性能和泛化能力。第三,合成數據可以通過創建匿名化或去標識化數據集來幫助緩解隱私問題,這些數據集不包含敏感的個人信息(El Emam等人,2020年;Howe等人,2017年)。這在醫療保健等領域至關重要,在這些領域中,患者隱私至關重要(Dahmen和Cook,2019年;Wei等人,2019年)。盡管合成數據具有潛力,但也存在需要解決的挑戰。其中之一是確保合成數據的事實性和保真度(Heusel等人,2017年;Wood等人,2021年),因為在虛假、幻覺或有偏見的合成數據上訓練的模型可能無法推廣到現實世界情境(Guarnera等人,2020年;Van Breugel等人,2023年)。研究人員必須開發復雜的生成模型和評估指標,以創建準確反映現實世界數據中復雜模式和關系的合成數據。另一個挑戰是,如果合成數據設計和驗證不當,可能會放大偏見或引入新的偏見(Barbierato等人,2022年;Gupta等人,2021年)。我們認為,嚴格的測試和公平性評估是必要的,以減輕這些風險。在本文中,我們追蹤了合成數據研究的當前狀態,并討論了當前的最佳實踐和經驗教訓。本文的其余部分組織如下。第2節提供了合成數據生成技術及其在模型訓練中的應用的概述,呈現案例研究和實證證據。第3節討論了合成數據在評估中的用途。第4節討論了合成數據的挑戰和局限性,在第5節中,我們概述了潛在的解決方案和未來研究方向。

2. 合成數據在訓練中的應用

合成數據通過模擬真實世界收集的真實數據生成,已被證明是一種有效且相對低成本的真實數據替代品。本節探討了幾個利用合成訓練數據的顯著領域。

2.1. 推理

數學。最近在語言模型(LMs)的數學推理方面的進展促使了各種提升數學相關任務性能的方法的發展。其中一種方法是在針對數學的預訓練數據上訓練,例如Minerva(Lewkowycz等人,2022年)、Llemma(Azerbayev等人,2023年)和DeepSeekMath(Shao等人,2024年)。另一種主流方法是生成模擬目標基準的訓練或驗證集的合成問題和答案。例如,WizardMath(Luo等人,2023a)利用GPT-3.5進行一系列操作以提高問題和答案的復雜性,而MetaMath(Yu等人,2023)通過語義重述、自我驗證和逆向推理等不同方式改寫MATH和GSM8K的問題。GAIR-Abel(Chern等人,2023)發現增強答案的格式對最終性能至關重要,以問題的釋義開始,然后逐步解答的答案表現優于普通格式。Xwin-Math(Li等人,2024)進一步將合成SFT數據擴展到一百萬例,并發現LLaMA-2 7B模型(Touvron等人,2023)仍可從數據擴展中受益。MMIQC(Liu和Yao,2024)組成了一個數據集包,將SFT風格數據(通過問題-答案重述或直接來自MetaMath)與一部分高質量的數學預訓練數據(如OpenWebMath(Paster等人,2023))結合起來。擴大生成合成數學數據是一個直接的過程,但確保生成的數學數據的正確性仍然是實踐者面臨的重大挑戰。AlphaGeometry(Trinh等人,2024)是最近解決這一問題的嘗試,該模型通過使用1億個合成數據點進行訓練,提出解決方案并指導符號演繹引擎驗證解決復雜幾何問題時每個分支的正確性。通過結合合成數據的力量和嚴格的驗證過程,AlphaGeometry實現了與人類奧林匹克金牌得主相當的解題能力,展示了這種方法在處理復雜數學推理任務中的潛力。編碼。與數學不同,合成數據用于代碼推理可以自然地將執行結果與結構化代碼結合起來,因為正確代碼的一個要求是可執行的。在增強編碼的模型中,CodeRL(Le等人,2022年)提出了一種演員-評論家方法,通過對合成代碼樣本的反饋信號改進預訓練語言模型。Haluptzok等人(2022年)提出了一種自我改進策略,其中模型生成自己的合成難題-解決方案對。這些對然后由真實解釋器驗證并過濾,之后用于微調語言模型。Shypula等人(2023年)進一步提出了一個框架,利用模擬環境和自我改進合成數據生成及CoT提示等適應策略進行代碼優化。Yang等人(2024年)開發了InterCode,一個旨在增強交互式代碼生成的框架,在這個框架中,代碼作為動作,執行反饋作為觀察。Reflexion(Shinn等人,2024年)利用外部或內部模擬的語言反饋信號來提高語言模型的代碼推理能力。關于合成SFT數據,Code Alpaca包含一個由20K代碼指令自動生成的數據集,這些指令通過將SELF-INSTRUCT(Wang等人,2022a)應用于ChatGPT的21個種子任務生成。WizardCoder(Luo等人,2023b)引入Code Evol-Instruct來指導ChatGPT,通過啟發式提示增強合成數據的復雜性和多樣性。同時,Magicoder(Wei等人,2023c)開發了OSS-INSTRUCT,從開源代碼片段生成75K多樣化的合成指令樣本。其他推理任務。合成數據在其他推理任務中也帶來了令人印象深刻的表現。例如,Wei等人(2023a)通過將自然語言標簽替換為任意符號,增強現有自然語言數據集,生成了超過50萬個合成示例。使用這些合成數據進行監督微調顯著提高了模型在未見過的上下文學習和算法推理任務上的性能。STaR(Zelikman等人,2022年)生成合成的思維過程理由,并過濾掉那些導致錯誤答案的理由,以微調語言模型,提高其推理能力。在物理推理領域,Mind’s Eye(Liu等人,2022年)采用了一種新穎的方法,通過合成“文本描述 → 渲染代碼”的數據訓練文本到代碼模型。這使得模型能夠將文本問題轉換為渲染代碼,然后在物理引擎(即DeepMind MuJoCo(Todorov等人,2012年))中執行。渲染結果被注入上下文中,即使是小型語言模型也能借助Mind’s Eye實現與100倍大的模型相當的性能。

2.2. 工具使用和規劃

通過合成軌跡學習使用工具。合成數據也是一種強大的方法,可以通過模擬軌跡使LMs學習使用工具的能力,因為收集真實世界中的人類使用工具的數據可能既耗時又不實際,并且調用工具的實際分布可能是偏斜的。例如,LaMDA(Thoppilan等人,2022年)不僅在網頁文檔上進行了訓練,還在眾包工作者與模型本身之間的交互數據上進行了訓練,合成數據中注明了調用適當工具的信息。這一訓練過程使LaMDA能夠發展出使用計算器進行算術、使用搜索引擎進行實時信息搜索和使用機器翻譯進行翻譯的能力。類似地,Toolformer(Schick等人,2024年)學習決定調用哪些API及傳遞什么參數,通過在模板生成的數據上訓練,而Galactica(Taylor等人,2022年)將API調用數據融入預訓練混合中。ToolAlpaca(Tang等人,2023年)是一個旨在自動生成多樣化工具使用語料庫的新穎框架,通過構建多代理模擬環境并讓代理反復選擇并使用工具。這些例子展示了合成軌跡在使LMs獲得使用工具的能力和提高其在各種領域的推理能力方面的潛力。在合成環境中學習規劃。自治機器智能(LeCun,2022年)中代理的一個重要特征是規劃——將復雜任務分解為子任務并以獎勵最優的方式完成子任務的能力(Kambhampati等人,2024年)。合成數據在這里可以作為一種寶貴的工具,因為它可以作為從模擬器收集的反饋信號(Park等人,2023年),并且在其上的學習可以使代理意識到可供性(Ahn等人,2022年;Liang等人,2022年)。例如,Inner Monologue(Huang等人,2022年)利用模擬環境生成的自然語言形式反饋教導基于LLM的機器人規劃。他們發現這種反饋顯著提高了在模擬和真實世界領域的高級指令完成率。為了組成大量現實的規劃任務(例如,“重新排列桌子上的物品以匹配給定場景。”),VIMA(Jiang等人,2022年)創建了一個稱為VIMA-Bench的多模態模擬環境,支持可擴展的物品和紋理集合。在Minecraft游戲中,Voyager(Wang等人,2023年)部署了多個基于GPT-4的代理與合成環境交互,發現代理能夠更快地解鎖新技能并在合成反饋的幫助下更有效地完成規劃。

2.3 多模態

從視覺到文本的逆向渲染。視覺-語言對齊數據側重于準確地將視覺輸入與LLM(通常通過視覺編碼器)對齊。自從CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)以來,網絡抓取的圖像-標題對在過去幾年中一直是最受歡迎的多模態對齊數據。然而,網絡抓取的圖像-文本對通常很嘈雜,并且只具有粗粒度的對應關系,不足以在語言中對圖像的細節進行定位。在文檔、屏幕、圖表和圖解等領域,這種精細的對齊最方便地可以通過構建圖像渲染引擎的數據合成流水線獲得。Pix2Struct(Lee等人,2023年)使用Web服務器將HTML代碼渲染成網站截圖,并且訓練任務是將遮蓋的截圖逆向渲染回完整的HTML代碼。MatCha(Liu等人,2023b年)和DePlot(Liu等人,2023a年)將表格數據渲染成圖表,使用Python繪圖庫,并通過給出渲染圖像并生成代碼和/或表格數據來預訓練基礎模型。Si等人(2024年)和Lauren?on等人(2024年)在將網頁截圖轉換為代碼實現的任務上對合成生成的HTML和CSS文件進行訓練。在合成數據上微調的模型可以在從互聯網抓取的現實數據上合理地泛化。Borkman等人(2021年)提議使用物理引擎或游戲引擎(例如Unity)作為合成數據生成器,以幫助計算機視覺研究。多模態指令跟隨。多模態LLMs的下游應用需要推理和指令跟隨能力。這類數據通常是長形式的問題響應對,人類創建此類數據成本高昂。LLaVA(Liu等人,2024b年)使用現有的圖像標題提示GPT-4(僅文本模式)編寫多樣化和長形式的提示-答案對。在多模態LLM訓練期間,使用圖像和提示作為輸入,而可以隱藏標題和邊界框信息。除了圖像標題外,其他圖像屬性信息來源,如對象邊界框(Zhao等人,2023年)、OCR(Zhang等人,2023d年)和逆渲染圖表(Carbune等人,2024年;Masry等人,2023年)都可以適用于此類圖像屬性+文本LLM重寫合成數據流水線。

2.4 多語言

回譯增強。許多多語言語言模型使用回譯作為數據增強方法,從單語數據源創建合成的平行訓練數據(Bi等人,2021年;Caswell等人,2019年;Liao等人,2021年;Marie等人,2020年;Pham等人,2021年;Sennrich等人,2016年;Xu等人,2022年;Zheng等人,2020年)。例如,Sennrich等人(2016年)將單語目標數據回譯成源語言數據,提供額外的平行訓練樣本,以實質性改善翻譯任務。研究人員還探索了回譯的不同抽樣方法(例如,束搜索、受限抽樣、不受限抽樣)及其比較效果(Edunov等人,2018年;Gra?a等人,2019年;Sennrich等人,2016年)。Xu等人(2022年)強調了合成數據的權重和質量對最佳NMT性能的重要性,并提出了一種優化搜索方法與伽馬得分比例的方法,以平衡估計的重要性權重和質量。然而,基于回譯的合成數據生成也存在一些局限性。例如,合成數據的質量和多樣性取決于回譯方法的性能。如果合成數據過于嘈雜或不夠多樣化,性能提升將受限(Chauhan等人,2022年;Epaliyana等人,2021年)。大規模生成多語言問題和答案。最近的研究探索了生成和利用合成多語言問題-答案(QA)對以提高語言模型在多語言和跨語言問題解答中的性能(Abulkhanov等人,2023年;Asai等人,2021年;Chi等人,2020年;Kumar等人,2019年;Li和Callison-Burch,2023年;Riabi等人,2021年)。一種方法是將現有的單語問題和/或答案翻譯成其他語言(Asai等人,2021年)。另一種方法涉及使用問題生成(QG)模型根據答案和/或源文本以跨語言方式生成合成問題(Chi等人,2020年;Kumar等人,2019年;Riabi等人,2021年)。最近的努力還集中在聯合生成多種語言的問題和答案上,以獲得更大的靈活性(Li和Callison-Burch,2023年;Shakeri等人,2021年)。例如,Shakeri等人(2021年)在QA生成任務和多語言遮蔽語言建模任務的混合上對預訓練的多語言T5模型(Xue等人,2020年)進行微調,以產生多種語言的合成QA對。這些努力通常表明,訓練在合成QA對上的語言模型在多語言QA和信息檢索基準測試上表現得更好。

3. 在評估中使用合成數據

合成數據在不同視角的評估中被廣泛使用: 事實性。AI系統可能會生成沒有基于事實知識或數據的信息或響應,導致誤導性或虛假內容的產生,這種現象正式稱為幻覺(Ji等人,2023)。事實性評估旨在確保AI系統輸出的知識與其訓練數據和知識庫提供的知識一致(Ji等人,2023;張等人,2023c)。早期基于統計的幻覺評估方法依賴于n-gram來直接計算輸入和輸出內容之間的詞匯重疊(Dhingra等人,2019;Wang等人,2020)。然而,這些方法有限制,因為它們只考慮詞匯重疊,沒有考慮語義或句子意義(Ji等人,2023),使它們不適合評估更復雜形式的幻覺。后續保證方法從統計方法轉向基于模型的方法,與基于令牌差異的方法相比,這些方法更為穩健(Honovich等人,2021)。雖然這些基于模型的評估方法比它們的前身更先進,但仍有局限性。例如,模型只能輸出幻覺的程度,可能難以指出具體錯誤(Falke等人,2019)。Feng等人(2023a)提議將LLM生成與知識圖譜上的隨機游走相結合,生成用于事實性的合成評估數據,這些數據能識別圖中的實體和關系。Wei等人(2024)創建了一個名為LongFact的合成數據集,用于長形事實性評估,并使用谷歌搜索作為基準源和LLM進行自動判斷,以實現人類水平的準確性但成本大大降低(Min等人,2023)。

安全性。紅隊測試是評估AI模型的安全性和健壯性的一種強大技術(Casper等人,2023b;Ganguli等人,2022)。通過生成設計來引發未對齊或有害輸出的多樣化和現實場景(Casper等人,2023a),紅隊測試可以暴露AI系統的漏洞和弱點(Perez等人,2022)。例如,Perez等人(2023)使用LMs生成數據集來評估其他LMs的行為。他們最終生成了154個高質量數據集,并由人類驗證,發現新的逆向縮放案例,即LMs隨著大小增加而變差。Hubinger等人(2024)利用合成數據在大規模觸發LMs的后門攻擊;他們發現LMs可以表現出欺騙行為,并在此類攻擊下創造出安全的假象,而標準的“安全訓練”無法輕易消除這種欺騙。這些方法展示了使用AI輔助擴大人類監督的可行性(Bowman等人,2022),處理復雜問題和未見領域。

輔助人類評估。最近的研究表明,在許多情況下,大規模LMs(LLMs)的合成判斷可以作為實際人類評估的合格、快速和低成本的替代品(Gilardi等人,2023a)。使用GPT-4作為評判,Alpaca Eval(Li等人,2023b)和MT Bench(Zheng等人,2023)是兩個流行的基準測試,用來衡量基于LM的ChatBot的綜合能力。在編碼任務中,合成環境是幫助人類評估的常見選擇,因為人類可以通過實際執行和對運行日志的分析更高效地進行評估。Gu等人(2024)提出了CRUXEval,一個由CodeLLaMA-34B生成的800個Python函數組成的代碼執行推理基準。同樣,Liu等人(2024a)引入了CodeMind,一個框架,用來衡量LLMs在獨立執行推理(IER)、依賴執行推理(DER)和規范推理(SR)上的代碼推理能力。所有這些基于合成數據的評估都與真實人類判斷有強烈的相關性。

合成數據的挑戰與局限

盡管合成數據提供了許多好處和應用,但認識到并解決與其使用相關的潛在挑戰和限制至關重要。本節將深入探討合成數據周圍的三個重大問題:

合成數據誤用可能導致錯誤信息的擴散。合成數據的潛在誤用是一個重要問題,必須解決以確保AI系統的負責任開發。當前AI模型越來越能夠生成類似人類的數據,從文本(Gemini-Team等人,2023,2024),圖像(Ramesh等人,2022;Saharia等人,2022b),到視頻(例如,OpenAI SORA)。當合成數據用來冒充真實人物、操縱公共意見或影響政治過程時,這可能特別危險。此外,合成數據驅動的錯誤信息的傳播可能會侵蝕對合法信息來源的信任,使人們越來越難以區分真相和謬誤(Byman等人,2023;Rid,2020)。為了降低這些風險,對研究人員、開發人員和政策制定者來說,制定清晰的合成數據生成和使用的道德準則和最佳實踐至關重要,包括強大的檢測和對抗合成錯誤信息的機制(Groh等人,2022)。通過積極應對這些挑戰,我們可以利用合成數據的好處,同時最小化其潛在的危害。

合成數據可能導致AI對齊的模糊不清。在對齊AI模型中使用合成數據的增加(例如,Constitutional AI (Bai等人,2022))可能引入重大的模糊性和不確定性。AI對齊的目標是確保AI系統的行為與人類價值觀和意圖一致。然而,合成數據是人工生成的,而不是從現實世界來源收集的,可能無法準確代表人類價值觀和偏好的細微差別(Zhou等人,2024)。這種差異可能導致AI模型從有偏見的(Feng等人,2023b;Liu等人,2021)、無根據的(Liu等人,2022;Patel和Pavlick,2022)或不代表現實世界情境的數據中學習(Ji等人,2023;Weidinger等人,2021)。因此,受合成數據訓練的AI系統可能表現出與人類期望不一致的行為,可能導致意外后果甚至有害行為(Anderljung等人,2023;Zou等人,2023)。此外,合成數據引入的模糊性可能使解釋和理解AI模型的決策過程變得復雜(Lightman等人,2023),進一步增加確保對齊的難度。為了降低這些風險,研究人員必須仔細考慮在對齊研究中使用合成數據的局限性和潛在缺陷,并開發出驗證和測試受此類數據訓練的AI模型的健壯方法。

使用合成數據訓練使評估去污染更加困難。在模型訓練中使用合成數據對公平評估提出了重大挑戰。評估基準通常通過引用公共文本來源(如課程網站或論壇)來創建。因此,可以認為所有公開可用的基準測試案例可能偶爾會被包括在LLMs的預訓練數據中(Gao等人,2021;Hoffmann等人,2022)。使用合成數據加劇了這個問題而不是緩解它。盡管社區提出了幾種檢測此類評估污染的技術,如min-??% prob(Shi等人,2023),檢查??長尾詞的概率,但當模型使用合成數據訓練時,這些令牌級去污染方法是不充分的。合成數據可能包括基準數據的改寫版本(Mattern等人,2023;Oren等人,2023),使令牌級去污染無效。除了開發更先進的評估污染檢測技術外,我們建議模型開發者投資創建和維護內部和受保護的評估基準。這些專有基準應該被小心保護以防泄漏,并確保評估過程的完整性。

未來工作的方向

隨著合成數據領域的不斷發展,未來的研究和開發有幾個有前景的方向。本節概述了三個需要進一步探索的關鍵領域: 合成數據的擴展。許多經過過度訓練的小型語言模型(例如,Mistral系列模型(Jiang等人,2023年)和Gemma系列模型(Gemma-Team等人,2024年))的印象深刻的表現證明了使用大量令牌進行訓練的必要性(甚至超過了計算最優的chinchilla法則(Rae等人,2021年))。然而,使用合成數據進行訓練是否有類似的結論仍是一個未解決的問題,因為合成數據的質量可能不如現實世界的數據(Yu等人,2024年)。未來的研究應該調查合成數據的規模化法則,并確定合成樣本的數量和質量之間的最佳平衡。這種探索可以幫助我們了解在大規模語言模型訓練中利用合成數據的最有效策略,可能導致更高效和更具成本效益的方法(Muennighoff等人,2024年)。

進一步提高合成數據的質量和多樣性。盡管現有生成合成數據的方法顯示出前景,但在創造高質量、具有真實屬性的合成樣本方面仍有改進空間,這些樣本能夠密切模仿現實世界數據。未來的研究應該專注于開發新的高級技術(或基于現有技術如生成對抗網絡(GANs)(Goodfellow等人,2020年)或擴散模型(Ho等人,2020年)),這些技術可以控制和操縱生成數據的特定屬性,使得創建多樣化和可定制的合成數據集成為可能。此外,研究人員應探索可以將領域特定知識整合進來的方法,以確保生成的數據遵循目標領域中存在的底層約束和模式(例如,通過檢索增強生成(RAG)(Borgeaud等人,2022年;Lewis等人,2020年))同時保持數據質量。通過推進歸因合成數據生成的最新技術,我們可以為隱私保護分析(Assefa等人,2020年)和跨多個領域的模型訓練(例如,醫療保健領域的合成醫學圖像(Frid-Adar等人,2018年;Wei等人,2019年)和金融領域的模擬交易軌跡(Zheng等人,2022年))解鎖新的機會。

朝向高保真和更高效的可擴展監督。隨著AI模型變得日益復雜和自主,使用傳統的依賴人類監督或真實世界數據的監督方法來監控和評估它們的行為變得具有挑戰性(Amodei等人,2016年)。未來的研究應探索使用合成數據對這些先進系統進行高保真的可擴展監督。現有方法通常在社會迭代中模擬某些場景,如辯論(Leike等人,2018年)、反思(Zhang等人,2023a)或修訂(Liu等人,2023c)以獲取合成數據,而新的方法可以涵蓋更全面的場景和更多的模態(Sun等人,2023年),因為最近的研究發現許多僅涵蓋范圍狹窄(Cheng等人,2023年)或過于簡化(Zhou等人,2024年)的場景的模擬問題。展望未來,另一個增長方向可能是如何更高效地實現可擴展的監督——鑒于我們完全控制合成數據的生成,我們可能可以提供更有針對性的監督,而使用更少的合成數據。隨著對有效的AI治理和監管的需求增長,合成數據將在啟用更可信的可擴展監督機制中發揮越來越重要的作用,這些機制促進AI技術的健壯、負責任和安全部署,以造福社會(Askell等人,2021年;Bowman等人,2022年)。

結論

合成數據已經成為解決數據稀缺、隱私擔憂和AI開發高成本問題的有前景的解決方案。通過生成逼真和多樣化的數據集,合成數據使得在各個領域的大規模AI模型的訓練和評估成為可能。隨著我們接近人類水平甚至超人類水平的智能,獲取合成數據變得更加關鍵,因為模型需要比平均人類質量更好的數據才能進步。然而,確保合成數據的事實性、保真性和無偏見仍是一個關鍵挑戰。未來關于合成數據的研究方向可以關注提高生成模型的保真性和可控性,并開發標準化的評估和污染協議及工具。我們還可以探索將合成數據與其他技術整合以及在其他領域的應用。盡管存在挑戰,但合成數據在推進AI研究方面的潛在好處是顯著的。通過負責任和有效地利用合成數據,我們可以構建更強大、更包容、更可信的AI系統,造福整個社會。

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。

近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。

貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。

**LLM作為增強器 **

圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。

LLM作為預測器

這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。

GNN-LLM 對齊

對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。

結論

近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。

付費5元查看完整內容

這本書涵蓋了傳統方法和先進方法的描述。在傳統方法中,我們討論了諸如隨機、確定性、生成性和區分性的視覺跟蹤技術。傳統技術進一步被探索為多階段和協作框架。在先進的方法中,分析了基于深度學習的跟蹤器和基于相關濾波器的跟蹤器的各種類別。

本書還:

  • 討論了用于比較各種視覺跟蹤方法的效率和效果的潛在性能指標
  • 深入探討了深度學習跟蹤器與傳統跟蹤器的顯著特點,其中手工特征被融合以降低計算復雜性
  • 描述了適用于在繁瑣的跟蹤場景下提供卓越和高效性能的相關濾波器跟蹤器的各種類別
  • 通過分析實時應用,探索了視覺跟蹤的未來研究方向

本書全面討論了各種基于深度學習的跟蹤架構以及傳統的跟蹤方法。它深入分析了各種特征提取技術、評估指標以及用于跟蹤框架性能評估的基準。該文主要為電氣工程、電子與通信工程、計算機工程和信息技術領域的高年級本科生、研究生和學術研究者編寫。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容
北京阿比特科技有限公司