亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大模型與知識圖譜是知識表達的一體兩面,如何結合兩者是近期業界關注的焦點。來自英國愛丁堡大學等學者最新《大模型與知識圖譜》的簡述,討論了大模型和知識圖譜的互相促進的方式,值得關注!

大型語言模型(LLMs)已在知識表示領域——以及全球——引起軒然大波。這一轉折點標志著從明確的知識表示到對明確知識和參數知識雙方的混合表示的重新關注。在這篇立場論文中,我們將討論社區中關于LLMs(參數知識)和知識圖譜(明確知識)的一些常見爭論點,并推測這種重新關注帶來的機會、愿景以及相關的研究主題和挑戰。

大型語言模型與知識圖譜:機遇與挑戰

大型語言模型(LLMs)在知識表示(KR)和整個世界中引起了軒然大波,因為它們在廣泛的自然語言任務中展現出了人類級別的表現,包括一些需要人類知識的任務。在此之后,人們逐漸開始接受某些語言模型的參數中可能存在知識的可能性。LLMs的到來標志著知識計算的時代的開始,在這個時代中,KR內的推理概念擴大到基于各種知識表示的許多計算任務。這對知識表示領域來說是一個巨大的步驟。長時間以來,人們關注的是明確的知識,例如嵌入在文本中的知識,有時也被稱為非結構化數據,以及以結構化形式存在的知識,例如在數據庫和知識圖譜(KGs)[123]中。從歷史上看,人們長時間使用文本將他們的知識從一代傳遞到另一代,直到大約20世紀60年代,研究者開始研究知識表示以更好地理解自然語言,并開發了早期系統,例如MIT的ELIZA[180]。在21世紀初,知識表示和語義網社區合作標準化了廣泛使用的知識表示語言,例如RDF[121]和OWL[55],在網絡規模上,使用它們,大規模的知識庫被更廣泛地稱為KGs[123],由于它們有用的圖結構,實現了邏輯推理和基于圖的學習。與LLMs的到來相伴的這一轉折點,標志著從明確的知識表示向對明確知識和參數知識兩者的混合表示的重新關注的范式轉變。作為明確知識表示的流行方法,KGs現在被廣泛研究用于與基于Transformer的LLMs結合,包括像BERT[39]和RoBERTa[104]這樣的預訓練掩碼語言模型(PLMs),以及更近期的生成性LLMs,如GPT系列[23]和LLaMA[165]。一些工作使用LLMs增強KGs,例如,知識提取、KG構建和精煉,而其他工作使用KGs增強LLMs,例如,訓練和提示學習,或知識增強。在本文中,考慮到LLMs用于KGs和KGs用于LLMs的兩個方向,我們提出了一個從明確知識表示到對明確知識和參數知識兩者的混合表示的重新關注的轉變的更好理解。一個相關的調查論文[204]對使用LLMs進行KG構建和推理進行了全面的審查,而我們的工作為這一轉折點提供了更深入的視角,不僅考慮了關系性KGs,還考慮了使用本體論作為模式的KGs,以及其他維度的結構化知識,包括表格數據[183]和數值[122]。在LLMs和KGs的交叉點上的其他研究與我們論文中涵蓋的主題有輕微的重疊;例如,使用LLMs作為KGs的研究[5],使用KGs增強LLMs的研究[185],或者在三個與知識相關的任務上比較GPT-4、ChatGPT和SOTA微調方法——實體、關系和事件提取,鏈接預測和KG問題回答[204]。總的來說,這些論文中沒有一個深入探討這一轉折點的具體應用的含義。為此,本文總結了社區內的常見爭議點,介紹了在KGs和LLMs集成的一系列主題上的最新技術,并進一步提出了機會和挑戰。

知識圖譜與大型語言模型結合參數知識和明確知識的可用性所帶來的機會和愿景,本節我們將按照四個不同的主題對使用LLMs和KGs的最近發展進行分類、總結和展示。

1. LLMs 用于KGs:知識提取和規范化

KG的構建是一個復雜的任務,要求從包括結構化、半結構化和非結構化數據在內的廣泛來源收集和整合信息。傳統方法通常依賴于為處理每種數據類型而特別設計的模塊,并在內容多樣且結構異質時面臨困難。然而,LLMs 是在廣泛的信息來源上訓練的強大的NLP模型,使它們非常適合知識提取任務。本節介紹了使用LLMs從各種來源進行知識提取的工作。

實體解析與匹配實體解析(也稱為實體匹配、實體鏈接或實體對齊)是將出現在多個異構數據集中并指向同一個實體的信息片段進行鏈接的過程[46, 50, 126]。過去的研究主要集中在為扁平結構化數據所代表的實體之間開發方法和相似性度量。然而,針對KGs的半結構化數據的實體解析是一個相對較新的主題,受到的關注明顯較少。實體對齊的方法可以分為通用方法和基于嵌入的類別。通用方法,例如CG-MuAlign[203],使用圖神經網絡(GNNs)執行多類型實體對齊,利用鄰近信息并泛化到未標記的類型,以及REA[129],通過結合對抗性訓練與GNNs來解決多語言實體對齊問題,以應對輸入的噪聲標記數據問題。基于嵌入的實體對齊方法將圖實體之間的符號相似性減少到一個向量空間中,以消除圖組件的異質性并促進推理[156]。具體來說,總共有23種代表性的嵌入對齊方法在性能方面進行了交叉比較,但也顯示它們在標簽階段需要大量的監督。因此,在未來的研究調查中,非監督方法和能夠處理大規模KGs的方法是非常受歡迎的。LLMs在KGs的實體解析和鏈接中有多種用途[7]。首先,LLMs可以幫助標記訓練數據,這通常是一個資源密集且耗時的步驟,阻礙了KGs的實體對齊性能。類似于[146]使用生成對抗網絡(GANs)來減少標記數據的努力,我們認為LLMs可以提供KGs的標記樣本并控制上述基于嵌入的方法的性能。此外,LLMs可以幫助構建穩固的實體匹配規則語料庫,只要在圖設置中定義了一個聲明性形式化的邏輯語言L。這種邏輯語言的訓練數據應作為輸入提供給LLMs,類似于在文本語料庫中可供消費的SQL語句。然而,需要進行提示工程以產生對于像DBpedia[9]和Wikidata[169]這樣的實際大規模KGs有意義的規則語料庫。可以設想為這些實際的大規模KGs提供實體匹配規則日志,與這些KGs的查詢日志類似[18, 19]。總之,實體對齊和匹配是完整知識推理的必要前處理步驟。將通用實體鏈接方法與基于嵌入的方法相結合,以及利用LLM驅動的規則和標記數據構造,都可以更好地整合LLMs與知識推理[66]。后者整合LLMs和知識推理也可以提高性能,從而使模型的輸出可解釋和可解釋,并填補符號和統計AI之間的差距。

知識從表格數據中的提取

從數據庫、網頁表格和CSV文件等表格數據中提取知識是構建KG的常見方式。對于已知語義(元信息)的表格,可以定義和使用啟發式規則將其數據轉化為KG事實。然而,現實世界的表格通常具有不明確的語義,重要的元信息(如表格名稱和列標題)未明確定義。與此同時,在可以提取預期的知識之前,通常需要檢索、探索、整合和策劃原始數據。

近年來,基于Transformer的LM已被研究用于處理表格,尤其是它們的文本內容。它們可以被應用于表格向量表示作為其他預測任務的基礎[168]。TURL [38] 是一個典型的表格表示學習方法,使用BERT [39],已應用于多個任務,如單元格填充、列類型注釋和關系提取。類似地,RPT [162] 使用BERT和GPT進行表格表示模型的預訓練。Starmie [47] 使用模板將列轉化為序列,并使用可聯合和不可聯合的列對作為樣本微調BERT,采用對比學習框架。

在所有表格處理任務中,語義表格注釋,該注釋將表格數據匹配到KG組件(例如,表格列到KG類,表格單元格到KG實體,列間關系到KG屬性)可以直接應用于提取知識,用于KG的構建和填充[103, 76]。已經有幾次嘗試使用LLMs進行這些任務。Doduo [155] 將表格序列化為一個令牌序列,并訓練BERT來預測列類型和列間關系。Korini等人[86]提示ChatGPT來注釋語義列類型。當任務特定的示例極少或不存在時,ChatGPT的性能與RoBERTa模型相似。

盡管已經注意到了利用LLMs進行表格數據處理和KG構建,但仍然有很大的研究空間,特別是面臨以下挑戰

將表格內容轉化為序列:表格或帶有其結構化上下文的表格元素需要被轉化為一個序列,然后才能輸入到LLMs中。對于不同的LLM利用場景,如微調LLMs、帶提示的LLM推斷以及LLM的指導調整,需要不同的轉換方法。

表示和利用非文本的表格數據:表格通常不僅包含長文本和短文本,還包含如數字和日期等其他類型的數據。還有很少的工作考慮這些數據。

提取表格知識:LLMs主要用于處理和理解表格,但很少應用于知識提取的最后步驟。已知OntoGPT[25]使用ChatGPT從文本中提取實例以填充本體,但對于表格沒有對應的工具。除了實例之外,提取關系事實更具挑戰性。

從文本中提取知識

從文本中提取知識通常涉及自動提取實體及其相關關系,傳統的流水線處理大量的句子和文檔。這個過程使原始文本轉化為可行動的知識,有助于各種應用,如信息檢索、推薦系統和KG構建。LLMs的語言理解能力已經增強了這一過程。例如,

命名實體識別 (NER) 和實體鏈接:如4.1.1節所述,涉及識別和分類文本中的命名實體(如人、組織和地點)并將其鏈接(更多內容參見4.2.1節)到KGs。

關系提取:關注識別和分類實體之間的關系,利用LLMs的零射擊和少射擊的上下文學習技術[178, 93]。

事件提取:旨在檢測和分類文本中提到的事件,包括其參與者和屬性[170, 194]。

語義角色標記 (SRL):涉及識別句子中實體所扮演的角色,如主語、賓語和謂語[148, 199]。

這些方法允許LLMs從文本中提取信息,無需在特定領域進行大量的明確培訓,從而提高其多功能性和適應性。此外,LLMs已經證明了在從英語之外的語言中提取知識的能力,包括低資源語言,為跨語言知識提取鋪平了道路,并使LLMs能夠在多種語言環境中使用[89]。

此外,對LLMs的提示引入了NLP領域的新范式和可能性。LLMs可以生成高質量的合成數據,然后可以用來微調較小的特定任務模型。這種方法,稱為合成數據生成,解決了有限的訓練數據可用性的挑戰,并提高了模型的性能[77, 163]。此外,指導調整已經成為一種強大的技術,其中LLMs被訓練在由明確指令描述的數據集上,使得能夠更精確地控制和定制它們的行為以適應特定的任務[178, 174]。

還有,對于構建特定領域的KGs,風險更高,因此對生成的文本(由專家)進行審查是必要的。然而,這仍然是一個進步,因為人工注釋的成本低于人類文本生成。

除了訓練和利用這些LLM所需的大量計算資源需求之外,還存在各種挑戰,包括在第2節中提到的挑戰。更具體地說,以下未來的方向仍然是可能的: * 從非常長的文檔中有效提取:當前的LLMs無法一次處理像小說這樣的非常長的文檔。在這方面,可以進一步改進建模長范圍依賴性和執行語料級信息提取。 * 高覆蓋率信息提取:幾乎所有的提取流水線都關注高精度。然而,高回報率被忽視或未被充分探索[152]。建立具有高精度和高回報率的知識提取器將是建立終身信息提取器的一個巨大飛躍。

LLMs 用于 KGs知識圖譜構建 我們強調了 LLMs 在改進知識圖譜構建中的重要作用,重點關注這個領域的當前趨勢、問題和未回答的問題。我們首先討論鏈接預測,這是根據現有的知識圖譜生成新事實的一種方法。接下來,我們考察歸納鏈接預測,一種預測未見關系的三元組的方法。我們的關注點隨后轉移到一種更為近期的方法,其中三元組直接從 LLM 的參數知識中提取出來。作為這個部分的結論,我們討論了基于 LLM 的知識圖譜構建方法的挑戰。這些挑戰涉及到長尾實體、數值以及這些方法的精確性問題。

**LLMs 用于 KGs 本體模式構建 **一個知識圖譜通常配備有一個本體模式(包括規則、約束和本體)以確保質量,使知識訪問更加容易,支持推理等。同時,一個獨立的本體,通常代表概念性知識有時帶有邏輯,也可以被視為一個知識圖譜。在這部分,我們介紹 LLMs 被應用于學習本體模式和管理本體的主題。

**KGs 為 LLMs 提供支持:訓練與訪問 **LLMs 在 4.1 到 4.3 節中,我們討論了使用 LLMs 為 KGs 提供支持的三個不同方面。在本節中,我們將研究相反的方向,即使用 KGs 為 LLMs 提供支持。這里有幾個維度。首先,KGs 可以用作 LLMs 的訓練數據。其次,KGs 中的三元組可以用于構建提示。最后但同樣重要的是,KGs 可以用作檢索增強語言模型中的外部知識。**4.5 應用 **將 KGs 和 LLMs 集成到統一的方法中具有巨大的潛力,因為它們的組合能夠相互增強并以有價值的方式互補。例如,KGs 提供非常準確和明確的知識,這對于某些應用(如醫療保健)至關重要,而 LLMs 由于缺乏事實知識而被批評導致幻覺和不準確的事實。其次,LLMs 缺乏可解釋性,相反,由于 KGs 具有符號推理能力,它們能夠生成可解釋的結果。另一方面,從非結構化文本構建 KGs 很困難,并且存在不完整性,因此,可以利用 LLMs 通過文本處理來解決這些挑戰。各種應用都采用了這種將 LLMs 與 KGs 結合的方法,如醫療助手,問題回答系統[188]或 ChatBots,以及可持續性等。

結論

近年來,大型語言模型(LLMs)的進展為知識圖譜(KG)研究標志了一個重要的轉折點。盡管如何結合它們的優勢的重要問題仍然懸而未決,但這為未來的研究提供了令人興奮的機會。社區已經迅速調整其研究重點,新的論壇如 KBC-LM 工作坊 [79] 和 LM-KBC 挑戰 [151] 已經出現,資源大量轉向知識提取、整合和使用的混合方法。我們提出以下建議

不要因為范式的轉變而丟棄 KG:對于一系列可靠性或安全關鍵的應用,結構化知識仍然是不可或缺的,我們已經概述了 KGs 和 LLMs 如何相互促進的多種方式。KGs 是留下來的,不要僅僅因為時尚而拋棄它們。

殺掉你的寵兒:LLMs 已經大大推進了 KG 和本體構建管道中的許多任務,甚至使一些任務過時。對最為確立的管道組件進行嚴格的審查,并不斷地與基于 LLM 的最新技術進行比較。

保持好奇,保持批判:LLMs 無疑是過去幾年 AI 研究的最令人印象深刻的產物。盡管如此,公眾和研究文獻中都存在大量夸大的聲明和期望,人們應該保持適度的批判反思。特別是,對所謂的幻覺問題的根本解決方法尚未出現。

過去已經結束,讓我們開始新的旅程:由 LLMs 觸發的進展以前所未有的方式顛覆了這個領域,并使得進入這個領域有了重要的捷徑。在與知識計算相關的領域開始新的征程,現在是最好的時機。盡管目前的轉變方向廣泛開放,但隨著研究者繼續探索混合方法的潛力和挑戰,我們可以期待在知識的表示和處理上看到新的突破,這將對從知識計算到 NLP、AI 乃至其他領域產生深遠的影響。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

首篇《面向軟件工程的大型語言模型》綜述,值得關注!

大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域

1. 概述

在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:

我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示

我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?

(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。

RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。

結論

隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。

付費5元查看完整內容

如何使用大模型來進行檢索優化?看這篇綜述就夠了

作為信息獲取的主要手段,如搜索引擎等信息檢索(IR)系統已經融入了我們的日常生活。這些系統還作為對話、問答和推薦系統的組件。

信息檢索的軌跡從其基于術語的方法的起源動態地發展到與先進的神經模型的整合。雖然神經模型擅長捕捉復雜的上下文信號和語義細微差別,從而重塑信息檢索的格局,但它們仍然面臨如數據稀缺、可解釋性以及生成上下文可能的但可能不準確的回應等挑戰。

這種演變需要結合傳統方法(如基于術語的稀疏檢索方法與快速響應)和現代神經結構(如具有強大語言理解能力的語言模型)。與此同時,大型語言模型(LLMs),如ChatGPT和GPT-4,由于其出色的語言理解、生成、概括和推理能力,已經革命性地改變了自然語言處理

因此,最近的研究已經尋求利用LLMs來改進IR系統。鑒于這一研究軌跡的快速發展,有必要整合現有的方法并通過全面的概述提供細致的見解。

在這項綜述中,我們深入探討了LLMs和IR系統的融合,包括查詢重寫器、檢索器、重新排序器和讀取器等關鍵方面。此外,我們還探討了這個不斷擴展領域內的有前景的方向。

//www.zhuanzhi.ai/paper/cfc9d30dab451b42c356f809ecf111a6

大模型驅動的信息檢索

信息訪問是人類日常基本需求之一。為了滿足快速獲取所需信息的需求,開發了各種信息檢索(IR)系統[1–4]。顯著的例子包括Google、Bing和Baidu等搜索引擎,它們在互聯網上作為IR系統,擅長根據用戶查詢檢索相關的網頁,并為用戶提供便捷、高效地訪問互聯網上的信息。值得注意的是,信息檢索超出了網頁檢索的范圍。在對話系統(聊天機器人)[1, 5-8]中,如微軟的小冰[2]、蘋果Siri1和Google助手2,IR系統在檢索與用戶輸入語言相應的適當回應中起到了關鍵作用,從而產生自然流暢的人機對話。同樣,在問答系統[3, 9]中,為了有效地解答用戶的問題,IR系統被用來選擇相關的線索。在圖像搜索引擎[4]中,IR系統擅長返回與用戶輸入查詢相符的圖片。鑒于信息的指數級增長,研究和產業對開發有效的IR系統越來越感興趣。

IR系統的核心功能是檢索,其目的是確定用戶發出的查詢與待檢索的內容之間的相關性,包括文本、圖像、音樂等各種類型的信息。在本綜述的范圍內,我們僅專注于審查那些文本檢索系統,其中查詢與文檔的相關性通常由它們的匹配得分來衡量。3考慮到IR系統操作大量的知識庫,檢索算法的效率變得至關重要。為了提高用戶體驗,檢索性能從上游(查詢重構)和下游(重新排序和閱讀)的角度得到了增強。作為一個上游技術,查詢重構旨在優化用戶的查詢,使其更有效地檢索到相關的文檔[10, 11]。隨著會話式搜索的日益受歡迎,這種技術受到了越來越多的關注。在下游方面,重新排序方法被開發出來,以進一步調整文檔的排名[12-14]。與檢索階段相比,重新排序僅在檢索器已經檢索到的有限集合的相關文檔上執行。在這種情況下,重點放在實現更高的性能而不是保持更高的效率,允許在重新排序過程中應用更復雜的方法。此外,重新排序可以滿足其他特定的需求,如個性化[15-18]和多樣化[19-22]。在檢索和重新排序階段之后,加入了一個閱讀組件,用于總結檢索到的文檔并為用戶提供簡潔的文檔[23, 24]。雖然傳統的IR系統通常要求用戶自己收集和整理相關信息;但是,閱讀組件是New Bing等新IR系統的一個不可分割的部分,簡化了用戶的瀏覽體驗,節省了寶貴的時間。

信息檢索(IR)的軌跡經歷了動態的演變,從其基于術語的方法的起源轉變為與神經模型的整合。最初,IR基于基于術語的方法[25]和布爾邏輯,專注于為文檔檢索進行關鍵詞匹配。隨著向量空間模型[26]的引入,這一范式逐漸發生了變化,釋放出捕獲術語之間細微的語義關系的潛力。這種進展隨著統計語言模型[27, 28]繼續發展,通過上下文和概率考慮來改進相關性估計。在這一階段,有影響力的BM25算法[29]起到了重要作用,通過考慮術語頻率和文檔長度的變化,徹底改變了相關性排名。IR歷程中的最新篇章是由神經模型的崛起[3, 30-32]標志的。這些模型擅長捕獲復雜的上下文提示和語義細節,重塑了IR的格局。然而,這些神經模型仍然面臨如數據稀缺、可解釋性以及可能生成合理但不準確回應等挑戰。因此,IR的演變仍然是一個平衡傳統優勢(如BM25算法的高效率)與現代神經結構所帶來的顯著能力(如語義理解)的旅程。

近年來,大型語言模型(LLMs)已在各種研究領域,如自然語言處理(NLP)[33-35]、推薦系統[36-39]、金融[40],甚至分子發現[41]中嶄露頭角,成為變革的力量。這些前沿的LLMs主要基于Transformer架構,并在各種文本源上進行廣泛的預訓練,包括網頁、研究文章、書籍和代碼。隨著它們的規模繼續擴展(包括模型大小和數據量),LLMs在其能力上展現出了顯著的進步。一方面,LLMs在語言理解和生成方面展現出了前所未有的熟練程度,從而產生更像人類的響應,并更好地與人類的意圖對齊。另一方面,更大的LLMs在處理復雜任務[42]時展示了令人印象深刻的突發能力,如泛化和推理技能。值得注意的是,LLMs可以有效地應用其學到的知識和推理能力,只需幾個針對特定任務的示范或適當的指導即可解決新任務[43, 44]。此外,如基于上下文的學習這樣的先進技術,已經大大增強了LLMs的泛化性能,無需對特定的下游任務進行微調[34]。這一突破尤為寶貴,因為它減少了大量的微調需求,同時獲得了顯著的任務性能。通過使用如“思維鏈”這樣的提示策略,LLMs可以生成帶有逐步推理的輸出,導航復雜的決策過程[45]。無疑,利用LLMs的強大力量可以提高IR系統的性能。通過整合這些復雜的語言模型,IR系統可以為用戶提供更準確的回應,從根本上重塑信息訪問和檢索的格局。

已經進行了初步的嘗試,以利用LLMs在開發新型IR系統中的潛力。值得注意的是,就實際應用而言,New Bing旨在通過從不同的網頁中提取信息,并將其壓縮成簡潔的摘要作為用戶生成查詢的響應,從而改進用戶使用搜索引擎的體驗。在研究界,LLMs已在IR系統的特定模塊(如檢索器)中證明了其用途,從而增強了這些系統的整體性能。由于LLM增強型IR系統的迅速發展,全面審查它們的最新進展和挑戰至關重要。我們的綜述提供了對LLMs和IR系統交叉點的深入探索,涵蓋了關鍵視角,如查詢重寫器、檢索器、重新排名器和讀取器(如圖1所示)。這項分析加深了我們對LLMs在推進IR領域中的潛力和局限性的理解。為了這次綜述,我們創建了一個Github倉庫,收集了有關LLM4IR的相關論文和資源。我們將繼續使用新的論文更新倉庫。此綜述也將根據此領域的發展定期進行更新。我們注意到有幾篇關于PLMs、LLMs及其應用(例如AIGC或推薦系統)的綜述[46–52]。在這些中,我們強烈推薦LLMs的綜述[52],它為LLMs的許多重要方面提供了系統而全面的參考。與它們相比,我們專注于為IR系統開發和應用LLMs的技術和方法。此外,我們注意到有一篇觀點論文討論了IR在遇到LLMs時的機會[53]。這將是關于未來方向的本次綜述的極好補充。

此綜述的其余部分組織如下:第2部分介紹IR和LLMs的背景。第3、4、5、6部分分別從查詢重寫器、檢索器、重新排名器和讀取器的四個視角審查了最近的進展,這是IR系統的四個關鍵組件。然后,第7部分討論了未來研究中的一些可能方向。最后,我們在第8部分總結了主要發現,結束這次綜述。

結論

在這項綜述中,我們對LLMs在IR的多個維度上的變革影響進行了深入的探索。我們根據它們的功能將現有方法組織成不同的類別:查詢重寫、檢索、重新排序和讀取模塊。在查詢重寫領域,LLMs已經展示了其在理解模糊或多面的查詢方面的有效性,增強了意圖識別的準確性。在檢索的背景下,LLMs通過使查詢和文檔之間的匹配更加細致,同時考慮上下文,提高了檢索的準確性。在重新排序領域,LLM增強的模型在重新排序結果時考慮了更多的語言細節。在IR系統中加入讀取模塊代表了向生成綜合性回應而不僅僅是文檔列表的重要一步。LLMs的整合到IR系統帶來了用戶與信息和知識互動方式的根本變化。從查詢重寫到檢索,重新排序和讀取模塊,LLMs已經通過高級語言理解、語義表示和上下文敏感處理豐富了IR過程的每一個方面。隨著這一領域的不斷進展,LLMs在IR中的旅程預示著一個更加個性化、精確和以用戶為中心的搜索體驗的未來。這項綜述著重于審查最近的將LLMs應用于不同信息檢索組件的研究。除此之外,LLMs的出現帶來了一個更大的問題:在LLMs的時代,傳統的IR框架是否還有必要?例如,傳統的IR旨在返回與發出的查詢相關的文檔的排名列表。然而,生成語言模型的發展引入了一個新的范例:直接生成對輸入問題的答案。此外,根據最近的一篇觀點論文[53],IR可能會演變為多種系統的基本服務。例如,在一個多代理模擬系統[162]中,IR組件可以用于記憶回憶。這意味著未來的IR將會有許多新的挑戰。

付費5元查看完整內容

本文整理自7月7日世界人工智能大會“AI生成與垂直大語言模型的無限魅力”論壇上上海市數據科學重點實驗室主任、復旦大學教授肖仰華《面向領域應用的大模型關鍵技術》的主題分享。

轉載“DataFunTalk”

**導讀:**當ChatGPT之類的生成式大模型呈現出較強的通用智能能力之后,產業界的關注點較多地落在了千行百業。大模型只有在實體型的千行百業落地取得效果才能凸顯其價值。ChatGPT之類的大模型均是用通用語料訓練而成,具備通識能力。那么自然就會遇到一些有意思的問題,為何千行百業的垂直領域需要通用大模型?當前的通用大模型是否就已經能夠勝任垂直領域的復雜任務?通用大模型需要如何優化才能勝任領域中的復雜任務。本報告對這些問題做初步回答。

一、垂域問題為何需要通用大模型解決?****

首先,通用生成式大模型所帶來的開放世界理解能力是至關重要的。這種能力使得大模型能夠對各種開放環境中的自然語言問題都有著一定程度的理解,在大多數情況下能夠提供準確答案。盡管當前的生成式大模型在生成答案時可能存在一些事實或邏輯上的錯誤。但總體而言,其生成的內容不會偏離問題的主題,對于通識問題能夠進行準確回答。這種開放世界問題理解能力對于垂域領域認知的實現至關重要。ChatGPT之前的AI實現思路傾向于認為只有讓其學會大多數垂域的能力,才能實現開放世界的通識理解能力。或者說,如果垂域認知都無法實現,實現通用認知則更加困難。然而,ChatGPT出現之后,證明了先煉制通用大模型塑造機器的通識能力,再經垂直領域數據的持續訓練練就垂域認知能力,是一條更為可行的落地路徑。事實上,將機器的垂域認知能力建立在通用認知能力基礎之上是必然的、是合理的。一個醫生如不理解“健康”,怎么可能真正理解 “疾病”。也就是說理解某個概念,不單單要理解這個概念自身的內涵與外延,更要理解概念之外的內涵與外延。所以,理解領域內,就包括理解領域外,傳統所謂的“垂域認知”本質上是個偽命題。這種“先通識、再專識”的智能實現路徑與人類的教育過程極為相似。我們人類的教育,首先是側重通識教育的基礎教育,才是側重專業知識的高等教育。生成式大模型的發展刷新了我們對領域認知智能實現路徑的認識,這是大模型技術發展帶來的重要啟發之一。

大模型除了開放世界的理解能力之外,還具有很多其他能力特性,在領域應用中尤為值得關注:

一、組合創新能力

通過在訓練階段引導大模型學習多個不同任務,從而可以讓大模型組合創造出解決更多復合任務的能力。例如,我們可以讓大模型根據李清照的詩詞風格寫一個Python代碼的注釋,這要求它既具備寫詩的能力,又具備編寫代碼的能力。大模型通過對指令學習的結果進行組合泛化,模擬了人類舉一反三的能力,從而讓機器能夠勝任一些從未學習過的新任務。

二、評估評價能力

通用大模型具有出色的。具有一定規模的大模型(特別是百億以上的大模型)在常見的文本任務結果評估方面具有優良性能。傳統的文本任務,其結果評估工作往往需要人工參與,耗費昂貴的人力成本。而現在,我們可以利用大模型進行很多評估任務。例如,我們可以讓大模型扮演一個翻譯專家的角色,對翻譯質量進行評估。通過設計合理的評價標準、給出有效的評分示例、給出翻譯專家評價過程思維鏈,巨型大模型(比如GPT4)是能夠出色的完成諸如習語翻譯這類非常專業的評價工作。大模型的評價能力能夠顯著領域任務中的人工評價的成本,從而顯著降低領域智能化解決的方案的落地成本。

三、復雜指令理解及其執行能力

復雜指令理解及其執行能力是大模型的核心特點之一。只需給予大模型詳細的指令,清晰表達任務約束或規范,超大模型就能夠按指令要求地完成任務。這種忠實于指令要求的能力與大模型的情境化生成能力高度相關。給定合理提示,且提示越是豐富、細致,大模型往往越能生成高質量內容。大模型的情景化生成能力刷新了我們對智能本質的認識,傳統關聯認為智能是人類的知識發現和應用能力。這類定義是從人類視角出發,知識是人類認知世界的產物。而從大模型的角度來看,只要在給予的情境提示做出合理生成,就是一種智能。這種情景化生成能力本質上體現了一種建模世界的能力,且無關于人類對于世界的認知方式。

四、復雜任務的分解能力和規劃能力

復雜任務的分解能力和規劃能力是大模型的另一項優勢。它可以將復雜任務分解為多個步驟,并合理規劃任務的執行順序。這為垂域應用提供了重要的機會,使得大模型能夠與傳統信息系統協同工作,將傳統IT系統中數據庫、知識庫、辦公自動化系統、代碼庫等眾多系統高效協同,完成以往傳統智能系統難以勝任的復雜決策任務,從而提升整個信息系統的智能水平。

五、符號推理能力

此外,大模型還具備符號推理能力,可以進行常識推理、以及一定程度的邏輯推理、數值推理。雖然這些推理能力在面對復雜的領域文本任務時仍需進一步提升其專業水平。此外,價值觀對齊能力也是大模型落地的重要特性,以確保大模型的輸出與我們人類誰的倫理道德、意識形態、價值觀念相一致。

總而言之,通用大模型作具備開放世界的理解能力、組合創新能力、評估能力、忠實的指令理解和執行能力、復雜任務的分解和規劃能力、符號推理能力以及與價值觀對齊能力性。這些優點使得大模型成為了為人工智能的新基座。也就是說任何應用接入大模型,均可以享受其所到來的智能能力。大模型也日益成為智能化應用生態中的核心部件,控制與協調各個傳統信息系統,帶動信息系統智能水平的整體性提升。

二、大模型能夠直接勝任垂域任務嗎?**

對于通用大模型是否已經能夠勝任垂域任務,需要審慎評估。目前的判斷是,大模型還無法直接勝任各領域復雜決策任務。因此,在企業服務市場,我們既要重視大模型給我們帶來的重大機遇,也要保持冷靜,對ChatGPT能做什么不能做什么保持謹慎態度。要意識到,我們仍需開展大量研究工作才能將ChatGPT應用落地。

ChatGPT這類大模型在開放環境下的人機對話或閑聊已經取得顯著效果,但其解決實際工作中的復雜決策任務存在差距。我們在垂直領域的大部分任務是復雜決策任務。例如,設備故障排查、疾病診斷、投資決策……等任務都屬于嚴肅的復雜決策場景。所謂“嚴肅”是指這些任務對于錯誤有著較低的容忍度。上述場景的任一錯誤都會帶來巨大損失與難以接受的代價。這些任務也是“復雜”的,需要豐富的專業知識、復雜的決策邏輯、宏觀態勢的判斷能力(例如股票市場的宏觀態勢)。還需要擁有綜合任務的拆解與規劃能力,比如將故障排查分解成若干步驟;需要復雜約束下做出取舍的能力,例如投資決策往往要多眾多約束進行權衡與取舍。還需要具備未見事物的預見能力和在不確定場景下進行推理和推斷的能力,因為我們現實環境發展快速往往超出我們預期,我們往往要在對信息不完全的情況下就要做出及時的決策。

復雜決策任務

舉個例子來說,讓機器“調研知識工場實驗室最近發表的大模型持續學習的論文”,這看似一個簡單的任務,實則需要使用上述各類復雜決策能力。例如,要了解知識工場實驗室是一個什么樣的團隊、有哪些成員,需要了解大模型持續學習的內涵,需要具備AI領域的專業知識。同時,還需要知道如何查找論文資源(比如我們都知道計算機領域的前沿論文往往可以從Arxiv網站上下載),下載論文時可能會遇到一些未預料到的問題(例如網絡訪問出現404、出現驗證碼等情況)。我自己實驗室的本科生、碩士生顯然能夠完成上述任務。但是,當前的大模型還難以完成整套流程中的工作,還需要針對性地提升大模型自身的能力,還需要從外圍不足大模型的先天不足。

總體而言,大模型在領域知識方面仍然相對匱乏。通用大模型具備寬廣的知識底座,具有寬度有余但深度不足。然而,在解決實際問題時,例如運維問題,如果沒有設備相關的知識,是無法勝任運維任務的。因此,大模型需要具備專業知識的深度和長程推理的能力,才能在垂直領域落地應用。

寬廣的知識底座

另一個無法回避的問題是大模型的"幻覺"問題,即一本正經地胡說八道問題。當我們詢問復旦大學的校訓時,大模型可能會很有條理地編造出看似嚴謹的回答。但仔細查證,你會發現在一些基本事實(比如它編造了復旦校訓的出處),大模型的回答容易出錯。大模型以“一本正經”的文字風格編造答案的現象,將會為其應用帶來巨大困擾。因為看似嚴謹的回答往往藏著一些基本事實錯誤,我們在應用時仍然要付諸極大的代價進行信息真偽的判斷。這實質上反而帶來了大模型應用的額外成本。大模型的幻覺問題,其自身經過優化之后能夠解決么?比如使用更多的訓練數據,更充分算力的訓練。理論上ChatGPT這類大模型是概率化的生成式大模型,仍然會以一定概率犯錯。某種意義上,幻覺是大模型的創造力所必須付出的代價,魚和熊掌難以兼得。因此,幻覺問題是大模型落地垂域應用不可避免的問題。

大模型的"幻覺"問題

此外,大模型缺乏對于給定信息的"忠實度"。在領域任務中,我們需要大模型遵循特定領域的規范、制度、流程和知識進行回答。然而,如果沒有進行適當的調優,大模型往往會拋開給定的文檔或信息,而傾向于利用已習得的通用知識進行自由發揮。飄逸的創造發揮與忠實的事實陳述是一對難以調和的矛盾。對于一個給定的問題,是用通識回答還是用專識回答。我們人類對于問題的知識適配,往往是直覺方式完成的,但是要讓機器在通識和專識之間的靈活協同是十分困難的。雖然巨型大模型(比如GPT4)能在一定程度上緩解大模型忠實度缺乏的問題,但是即便進行過微調和優化,大模型的答案仍然有可能超越給定的范圍,從而產生錯誤。這是當前通用大模型面臨的一個重大問題。

信息的"忠實度"

因此,我的基本判斷是僅僅依靠現有的通用大模型是不足以解決各行業領域的許多問題的。我們需要發展垂域大模型,并積極發展外圍插件,實施大模型和知識圖譜、傳統知識庫相結合的策略,緩解大模型的自身問題,提升大模型的落地效果。

三、通用大模型如何勝任垂域任務?******

通用大模型向特定領域應用,仍需大量優化,才能從“不作詩、只做事”,才能從一個知識容器變成解決問題的利器,才能釋放大模型的巨大潛力。我相信達觀數據的"曹植"模型也在做類似優化。我將以我實驗室自己的大模型KW-CuteGPT面向領域優化過程作為例子,向大家介紹大模型勝任垂域任務的路徑。存在兩個基本優化的路徑,一是大模型自身的優化,二是大模型與外圍技術的協同。

先討論大模型自身能力如何優化。首先是提升大模型對長文本的理解能力。比如,用大模型做對客服通話記錄進行總結是一個很常見的應用場景,很多客戶經常花了五六分鐘,通過冗長對話記錄,才能表達自己的意圖。而其中可能只包含一兩個重要的信息點。用大模型進行對話的摘要,需要支持長文本的理解能力。當前已經商用的一些大模型,如GPT-4,已經能夠支持最長32K的輸入長度,相當于上萬字,是非常了不起的能力。然而,大多數開源模型只支持2-4K的輸入長度,在長文本的理解能力方面仍存在不足。因此,在發展垂域大模型的過程中,首要的任務就是提升長文本輸入的理解與處理能力。長文本之所以具有挑戰性,是因為其中存在全局語義約束,許多語義約束涉及多個句子甚至多個段落,讓大模型理解這種全局上下文仍是巨大挑戰。

提升長文本理解能力

其次,我們需要進一步提升大模型求解復雜任務的規劃和協同能力。這里同樣給出一個問答系統中的真實案例,我們常常面臨一個困惑:對于某個自然語言問題,是應該調用知識圖譜的知識來回答,還是讓大模型來回答?我們希望大模型能夠自主決策、規劃,判斷是否需要使用外部知識,并決定需要使用哪些外部知識。對于不同來源或不同類型的知識,可以通過API調用獲取其知識。這就進一步需要讓大模型理解API以及相應的使用規則、調用關系、參數配置以及輸入輸出格式等,從而實現達模型其與外部知識庫工具的協同。然而,客觀來說,大模型的外部工具林林種種,工具所處的環境也是非常復雜,必須不斷進行優化大模型的規模與協同能力,才能確保大模型在協同各種工具完成復雜任務是取得理想效果。

復雜任務的規劃和協同能力

第三,還需要進一步優化文本的結構化解釋和風格樣式。在實際應用中,用戶對樣式有特定要求,需要大模型能夠理解并及時響應對輸出格式的調整。行業復雜抽取仍然面臨著很大的需求。過去,我們通常需要在提示中提供行業背景信息(比如領域Schema),大模型才能夠抽取出關鍵要素。經過優化之后,大模型在各個領域的背景理解能力大幅提升,可以自適應地對各個領域的背景進行理解,而無需依賴于特定的行業背景提示,能夠將專業性較強的文本進行結構化分析和拆解。

優化文本的結構化解釋和風格樣式

第四,要持續提升大模型的問答領域問題的能力,包括不兜圈子直接回答、忠實于給定文檔的回答以及堅定正確信念等能力。通用大模型在問答過程中容易出現繞圈子、和稀泥式樣的回答。在與大模型對話的過程中,它很可能會回復“我是一個大模型,我的回答僅供參考……”,不愿意給出具有明確判斷性質的答案(主要是通用模型出于安全、免責的初衷),讓你困惑了半天卻無法獲得想要的答案。垂域應用中,我們不希望它繞圈子,我們希望它能直接給出答案,才能輔助我們實現決策。同時,我們要求大模型在給定文檔的基礎上生成答案時,不要超出給定的內容范圍。它必須結合給定的內容和自身的語言生成能力,給出一個合理的答案,而不是自行發揮。在垂域應用中,我們不希望大模型隨意發揮,它需要忠實于所涉領域。另外,要提升大模型對于正確信念的堅持能力。信念不堅定的模型會出現“墻頭草”式的回答,即沒有明確立場,你告訴它"你錯了",它立即改口,你說"2+2=4"是錯誤的,它會說"是的,我錯了,2+2應該等于5"。信念過于堅定的大模型又會出現“死鴨子嘴硬”的問題,即明確提示它回答錯誤了,但它仍然堅持不改。這兩種情況都是錯誤的。在垂域的應用中,我們希望大模型能夠意識到自己的錯誤,既不動搖自己的正確信念,又能夠避免死鴨子嘴硬式的知錯不改問題。

提升大模型的問答領域問題的能力

從大模型與外圍技術的協同角度來看,首先還需要進一步優化大模型的診斷和應用評測。知識工場實驗室最近發布了幾個跨學科的評測體系,這些評測體系旨在從大模型訓練過程的診斷以及大模型的應用效果兩個角度進行評測。目前許多評測都是以應用效果為導向,但實際上,面向診斷的評測也十分重要。我們需要建立訓練大模型所需的數據集的評測基準,需要通過評測建立大模型訓練過程中的關鍵參數、模型架構、數據配比的最佳實踐體系。此外,大模型的評測應該從當前最求標準評測數據集上的“高分”的單一目標發展到兼顧解決實際問題的“高能”的雙重目標。這意味著評測不僅僅關注各類側重考察知識點掌握能力的考題評測,更要關注大模型解決實際復雜的決策問題的能力。面向“高分高能”的大模型評測體系,是大模型評測主要發展方向。

優化大模型的診斷和應用評測

另外,還要進一步提升大模型的數據治理能力。大模型在實際應用中表現出的很多問題,比如答案偏見、隱私泄露、版權侵犯、內容違規、錯誤觀念等等,最終均可以歸結到數據源頭的問題。當前的主流思路仍然是大模型能力煉制之后的事后優化。這里需要指出的是,事后優化難以從源頭上解決大模型的上述問題。比如大模型的隱私泄露、版權侵犯、意識形態錯誤,我們無法在結果層面百分百地保證其相應安全性。大模型仍然存在一定的犯錯概率,或者是難以預料的犯錯情形,從而造成違背相關法律規范,帶來難以彌補的影響。因此,必須從數據源頭加強數據治理,開展數據清洗、隱私識別、樣本糾偏、違規內容清洗等的工作。有關部門應積極推動大模型訓練數據集的標準與規范,進行大模型訓練數據集的合規性認證,從數據源頭保障大模型產業的健康發展。

提升大模型的數據治理能力

總而言之,目前國產大模型研發中的主要問題仍然在于缺乏數據治理系統與能力、評測偏離應用需求。加大這兩個方面的研究力度,推動這兩個問題的解決,是近期推動我國大模型產業向好發展的關鍵舉措。 最后,仍然強調一下,通用大模型絕不能停留在類ChatGPT的開放式聊天階段,必須盡快提升其解決實際問題的能力,引導大模型發展成為助力我國各行業高質量發展與數字化轉型的先進生產力。

付費5元查看完整內容

**內容簡介:**ChatGPT的火爆出圈使得AI生成(AIGC)技術受到了全社會前所未有的廣泛關注。此消彼長之下,傳統的知識工程遭受了諸多質疑。在多模態智能領域,AIGC的能力不斷提升,多模態知識工程工作應該何去何從?是否仍有價值?在本次分享中,講者將探討當前AIGC技術耀眼“光芒”背后的“暗面”,思考與展望AIGC時代的多模態知識工程研究。

關于AIGC時代的多模態知識工程思考與展望,我們將從以下六個方面展開介紹: 第一部分,我們回顧一下AIGC技術的發展歷程和它帶來的劃時代影響力; 第二部分,我們對AIGC技術的不足(阿克琉斯之踵)之處進行分析與總結; 第三部分,我們將介紹多模態認知智能的框架和兩種實現路徑,并進行對比分析;第四~六部分,我們會展望當前AIGC大模型和MMKG多模態圖譜間如何競與合。

01

AIGC時代:未來已來

隨著人工智能總體階段的發展,生成式人工智能技術(AIGC)也在不斷迭代。從20世紀50年代到90年代中期,是AIGC的早期萌芽階段,這一時期受限于技術水平,AIGC僅限于小范圍實驗。這一時期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測試”,給出判斷機器是否具有“智能”的方法;1966年,世界上第一款可人機對話機器人“Eliza”的問世;以及在80年代中期IBM公司創造的語音控制打字機“Tangora”的出現。

而從20世紀90年代到21世紀10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術從實驗性向實用性轉變,但仍因受限于算法瓶頸,無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創作的小說《1 the road》的問世;以及2012年微軟開發的全自動同聲傳譯系統的出現,它能夠將英文語音自動翻譯成中文語音。

自21世紀10年代中期至今,是AIGC快速發展的階段,得益于深度學習算法不斷迭代,人工智能生成內容百花齊放。2014年,Goodfellow提出的生成對抗網絡GAN用于生成圖像;2019年,英偉達發布StyleGAN模型可以自動生成高質量圖片;2019年DeepMind發布DVD-GAN用于生成連續性視頻,直到2022年,OpenAI發布ChatGPT模型生成流暢的自然語言文本。

可以說,ChatGPT的爆紅出圈宣告了AIGC時代的到來。

現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今,已經有很多強大的算法被發明出來,如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術前沿的創業公司不斷推動AIGC技術的應用落地,如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發明都在解放著人類的內容創作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。

右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最后一篇推文“GPT-5也沒啥了不起的”——表達了創作者對當今AIGC技術飛速發展的隱隱擔憂。

那么,我們首先看一下多模態大模型的分類與發展脈絡。如上圖所示,多模態大模型發展非常迅速,我們可以將多模態大模型簡單分為多模態統一大模型和多模態文圖生成大模型,前者用于統一的多模態生成和理解,后者特指具備強大的多模態文到圖生成能力的大模型。

當前,文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。

還有一些文圖生成大模型,如斯坦福大學提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類質地細膩、細節精致的圖片,也可以通過簡筆畫來對圖像生成進行操控。

AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。

我們還看到Google發布的PaLM-E模型,展現了多模態AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態大模型,可以將真實世界的傳感器信號與文本輸入相結合,建立語言和感知的鏈接,可以用自然語言操控機器人完成操作規劃、視覺問答等任務。

AIGC的驚艷效果不禁讓很多人對符號主義(知識工程)的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出,唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱,“AI現在完全取決于規模,AI領域更難的挑戰已經解決了,游戲結束了!”。我們也看到,在大多數領域,大模型已經(暫時)戰勝了精心設計的知識工程。然而,AI的流派之爭真的結束了嗎?

02

AIGC的阿克****琉斯之踵

第二部分,讓我們來看一下當前AIGC大模型實際存在的一些問題。

盡管今天的ChatGPT(包括GPT-4)很強大,它的諸多問題仍舊難以忽視: 第一、強語言弱知識的問題,ChatGPT無法理解用戶查詢中的知識性錯誤,它具備強大的語言能力,但知識能力仍舊較弱; 第二、實時信息自更新慢,新舊知識難以區分,目前ChatGPT的知識還停留在2021年,而每一次信息更新都需要成本高昂的重新訓練; 第三、其邏輯推理能力并不可靠,應該說尚不具備復雜數學邏輯推理與專業邏輯推理能力; 第四、由于缺乏領域知識,它也無法真正為領域類問題提供專業靠譜的答案。

當前的多模態大模型的跨模態生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說,當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此,盡管我們看到AIGC跨模態生成的視覺效果驚艷,但往往存在較大的模態間信息不對稱問題。

此外,當前多模態大模型的多模態理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到: 1)模型由于缺乏事實知識,無法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯誤回答成“nike”; 2)模型由于欠缺邏輯推理能力,不理解圖像場景和問題的邏輯關系,因而回答錯誤; 3)模型由于常識儲備不足,對某個具體場景(沖浪)下的意圖理解犯了常識性錯誤。

讓我們再來看一下Google的具身多模態大模型PaLM-E,雖然依賴如此大規模的參數實現了初步的機器人操控,但其demo視頻中所展示的空間范圍、物品種類、規劃和操作任務的復雜度等都非常有限。我們可以想象,如果要在真實世界的復雜場景中達到實用級別,PaLM-E的參數規模是否還需要增大百倍、千倍甚至萬倍?如果一味用海量參數存儲所有知識,那么智慧涌現的代價是否過于昂貴?

至此,我們對多模態大模型做個簡單的小結。首先,多模態大模型的本質是“用語言解釋視覺,用視覺完善語言”。換句話說,我們要將文本中的語言符號知識,與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”,就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解;而所謂“用視覺完善語言”,是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。

我們知道,多模態大模型能發揮重大作用的重要前提是: 1)具有海量高質量圖文配對數據; 2)文字富含事實知識和常識; 3)其邏輯推理過程可顯式化被學習。

而我們所面臨的現實情況卻是: 1)數據量大但質量差,信息不對稱; 2)純文字中的知識與常識也不完備; 3)其邏輯推理是隱性難以學習的。

正因為這些理想與現實間的差距,導致了前面提到的多模態大模型的種種問題與不足。綜上,我們認為,統計大模型始終難以較低成本,全面、準確地掌握人類知識、常識和邏輯推理能力。

03

多模態認知智能

第三部分,我們引出多模態認知智能,其研究旨在解決前一部分提到的問題。

上圖是我們提出的一個多模態認知智能的研究框架。總的來說,多模態認知智能主要研究基于多模態數據的知識獲取、表示、推理與應用。在多模態知識獲取層面,我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態知識表示層面,可以使用多模態圖譜、常識圖譜、語言模型、大規模知識網絡等方法進行知識表示。基于多模態知識表示,可以進一步支撐多模態理解、推理和元認知等能力,從而賦能諸如跨模態搜索、推薦、問答、生成等多模態知識的應用。

多模態認知智能目前有兩種實現路徑。一種是多****模態大模型,其代表了聯結主義和經驗主義的思想,從海量預訓練數據中學習概率關聯,是簡單而魯棒的,它屬于統計學習范疇,具備端到端、干預少和“數”盡其用的優勢,其劣勢在于難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關系。

另一種實現路徑是多模態知識工程,其代表了符號主義的思想,從精選數據和專家知識中學習符號關聯,是精細而脆弱的,它往往通過專家系統和知識圖譜實現,具備易推理、可控、可干預、可解釋的優點,但是它的劣勢主要在于將數據轉換成符號知識的過程往往伴隨著巨大的信息損失,而其中隱性知識等難以表達的知識往往是信息損失的主體。

結合多模態大模型和多模態知識工程的優劣勢分析,我們認為:在AIGC大模型時代,多模態知識工程依然不可或缺。

當前,多模態知識工程的主要形式之一是多模態知識圖譜(MMKG)。多模態知識圖譜是在傳統知識圖譜的基礎上,增加多種模態數據以豐富符號知識表達的方法,其多模態數據包括但不限于圖像、視頻、語言、代碼等。多模態知識圖譜可以將符號接地到具象的視覺等模態對象上,實現跨模態語義對齊。

目前多模知識圖譜的主流形式有兩種。 一種是A-MMKG,其中多模態數據僅作為文字符號實體的關聯屬性存在; 另一種是N-MMKG,其中多模態數據也可作為圖譜中的實體存在,可與現有實體發生廣泛關聯。

至此,我們進一步分析AIGC多模態大模型和大規模多模態知識圖譜各自的優缺點。

多模態大模型的優點是:

1)關聯推理能力強:可以學習掌握大量跨模態知識模式,隱空間的關聯推理能力強,具有很強的泛化能力; 2)多任務通吃:一套大模型處理各類跨模態任務; 3)人工成本低:不依賴人工schema設計與數據標注; 4)適配能力強:可通過調優訓練或prompt對話等方式來適配新的領域和任務。

而其不足之處在于:

1)可靠程度低:所生成的內容可靠性堪憂,存在誤差累積、隱私泄露等問題,無法勝任高精度嚴肅場景需求; 2)知識推理弱:沒有真正掌握數據背后的知識,缺乏知識推理能力,更無因果推理能力; 3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足; 4)訓練成本高:需要消耗大量計算資源和時間來進行訓練,需要強大的計算設備和高效的算法。

**而與之對應的,**多模態知識圖譜的優點是:

1)專業可信度高:其結構和關系清晰,易于理解和解釋,可為人類決策提供參考,通常為某個具體應用場景構建,可提供更精準和針對性的知識支持; 2)可解釋性好:以結構化形式表示知識 ,知識的可訪問性、可重用性、可解釋性好,對人類友好; 3)可擴展性強:知識圖譜的內容可以隨著應用場景的需要進行不斷擴展和更新,可以不斷完善和改進。

而多模態知識圖譜的缺點在于:

1)推理能力弱:只能表示已有的知識和關系,對于未知或不確定的領域難以進行有效的知識建模和推理; 2)人工成本高:其構建需要依賴于人工或半自動的方式進行知識抽取和建模,難以實現完全自動化; 3)架構調整難:其基本schema架構通常是靜態的,不易根據新的數據或場景進行修改和調整。

由上分析可見:多模態大模型的優點常常是多模態知識圖譜的不足,而多模態大模型的不足又往往是多模態知識圖譜的優勢。因此,我們認為:當前階段,大模型與知識圖譜仍應繼續保持競合關系,互相幫助,互為補充。

04

AIGC for MMKG

第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。

第一,AIGC大模型為知識獲取降本增效。

(1)通過知識誘導(萃取),可以快速獲取大量知識或常識。例如,我們可以從語言大模型中誘導語言知識和關系知識;我們也可以從多模態大模型中誘導跨模態對齊知識和視覺常識知識。

(2)AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如,我們可以利用ChatGPT對話大模型的理解和生成能力,從給定文本中抽取三元組知識;我們也可以利用多模態AIGC大模型的跨模態生成和理解能力,從給定圖文數據中抽取多模態知識。

(3)AIGC大模型可以顯著增強垂域多模態知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力,如基于多模態文檔的知識抽取。

第二,AIGC大模型助圖譜設計一臂之力。

大模型在部分領域上擁有領域常識知識,可以輔助完成schema的半自動化設計。在多模態場景中,也有一些嘗試,例如可以用多模態AIGC大模型生成cms領域的schema。

第三,AIGC大模型為知識推理保駕護航。

基于大模型的跨模態生成與推理能力,可以輔助完成KG表示學習、圖譜補全等任務。

第四,AIGC大模型為知識融合掃清障礙。

利用大模型的泛化能力和海量知識,可以輔助完成多模態知識圖譜融合。利于對于兩個MMKG的對齊,多模態AIGC大模型在兩者之間可以生成實體知識或語義層面的特征,輔助完成實體對齊。

第五,AIGC大模型為****知識更新舔磚加瓦。

基于大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態AIGC大模型從新事實中輔助抽取新知識;當新知識抽取完成后,可以借助多模態AIGC大模型輔助更新多模態知識圖譜。此外,還可以借助多模態AIGC大模型輔助過期事實檢測,從而將過期知識從知識圖譜中刪除。

第六,AIGC大模型為知識問答錦上添花。

利用大模型的語言理解能力和解析能力,可以幫助更好的構建多模態知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著,且跨語言低資源情況下具有碾壓級效果,但是其數值類問題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務,可以提升問題解析能力,強化知識推理能力,提供外部知識輔助等。

05

MMKG for AIGC

第五部分,我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。

第一,MMKG參與AIGC大模型的生成能力評估**。**

基于多模態知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估,也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。

第二,MMKG引導AIGC大模型的可控約束生成。

已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進行可控生成。可以展望未來會出現多模態知識引導大模型約束生成的工作。比如對于圖像生成,可通過將文本鏈接到多模態知識圖譜的具體實體,提供實體圖像信息,幫助正確生成實體對應圖像;對于文本生成,通過鏈接到多模態知識圖譜的具體實體,提供實體關系屬性和實體圖像等實體畫像信息,幫助正確生成符合實體性質和特點的文本。

第三,MMKG幫助AIGC大模型進行知識編輯。

目前已有在文本大模型上的知識編輯的相關工作。可以預見,未來也會出現利用多模態知識圖譜來對多模態大模型進行知識編輯的研究工作。

第四,MMKG輔助AIGC大模型的領域(任務)適配。

用多模態知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如,在電商領域跨模態檢索場景,常常存在語義不匹配的問題。這種情況下,大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型,加上多模態知識輔助的方式,實現了大模型的輕量級領域適配。

06

AIGC+MMKG

第六部分,我們展望一下AIGC大模型和MMKG如何進一步合作。

我們認為,走向通用人工智能需要AIGC大模型和MMKG攜手并進。在未來,基于知識工程和統計模型的語言認知和多模態感知將會相互結合,并且借助MMKG和AIGC大模型,共同走向多模態認知的發展道路上。從視覺感知和語言認知到多模態認知,從連接主義和符號主義到神經符號主義,通用人工智能必將是一條融合之路。

AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型**。**目前知識增強的預訓練語言模型已有多種路徑實現。在多模態知識增強預訓練的方向上,也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。

AIGC和MMKG的第二種融合方式是基于知識檢索增強的多模態生成**。**例如,給定文本提示,訪問外部多模態知識庫以檢索相關圖文對,將其用作生成圖像的參考。

AIGC和MMKG的第三種融合方式是因果知識增強的多模態生成**。**已有工作利用因果圖譜中的因果關系和圖推理能力,輔助大模型的因果決策,通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望,未來因果知識也可被用在對多模態大模型的理解與生成能力優化上。

AIGC和MMKG的第四種融合方式是個性化知識接入的多模態生成**。**在未來,或許每個個體或企業都會擁有AI私有化助手,那么如何管理個性化多模態知識,諸如個人畫像知識圖譜、企業畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等,將這些知識以一種可插拔式的方式接入AIGC大模型中,提高大模型的個性化生成能力將是非常值得探索的方向。

實際上,Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。借助Microsoft Graph(可以看做是一種知識庫)與AIGC大模型的協作融合,助力Word、PowerPoint、Excel的生產力大提升。

此外,在行業落地層面,AIGC大模型和MMKG的融合更具價值**。**由于利用海量通用語料和通用知識訓練的通用大模型與行業應用場景之間依然存在鴻溝,因此需要進行行業數據挖掘和行業特色知識獲取來進一步訓練更加實用的行業大模型。

基于上述原因,行業落地往往需要多層次的模型,并有效與知識庫和外部工具進行配合,才能真正解決好行業問題。通用多模態預訓練生成大模型、行業領域預訓練模型、任務小模型以及行業知識庫、外部工具將構成一個模型共同體,協作解決行業復雜問題。

07

總 結

最后總結一下本次分享的主要觀點。首先,AIGC技術的發展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態領域,MMKG的構建與應用仍具重要價值。我們認為,AIGC和MMKG應該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來,符號知識和統計模型的競合方式有待進一步深入探索。

(在此感謝輔助完成分享PPT材料的課題組同學們,包括陳石松、朱祥茹、王續武、查志偉、王小丹、趙一聰、鄒健。演講稿的文字記錄與整理由查志偉同學完成。)

分享人簡介

李直旭,復旦大學研究員、博士生導師,上海市數據科學重點實驗室主任助理,復旦大學知識工場實驗室執行副主任,曾兼任科大訊飛蘇州研究院副院長,博士畢業于澳大利亞昆士蘭大學。主要研究方向為認知智能與知識工程、多模態知識圖譜、大數據分析與挖掘等。在領域主流期刊和國際會議上發表論文150余篇,主持十余項國家和省部級科研項目。

付費5元查看完整內容

大規模語言模型(Large Language Model,LLM)無疑是時下最火熱的 AI 概念,它不僅是人工智能領域近兩年的研究熱點,也在近期引發了全社會的廣泛關注和討論,OpenAI 的 GPT-3 和 ChatGPT 更是數次登上微博熱搜。

LLM 強大的語言理解能力和知識儲備,給大眾留下了深刻的印象。LLM 所涌現的 in-context learning 能力,更是開啟了新的 NLP 范式,并使其有望成為以自然語言進行交互的通用型任務助手(ChatGPT)。LLM 的出現也為跨模態深度學習領域的研究者們帶來新的機遇和挑戰。

通過收集自互聯網的大規模語料進行預訓練,GPT-3 等 LLM 蘊含了豐富的世界知識,這使其有希望解決知識驅動的多模態任務,例如基于外部知識的圖像問答任務,OK-VQA [1]。但是,想要利用 LLM 的潛力解決多模態問題,有一個關鍵問題需要解決:LLM 以語言進行輸入輸出,如何使她能夠理解其他模態的數據,如圖片,并遷移到下游多模態任務呢?

PICa [2] 提出使用 Image Caption 模型將圖片轉化為文本描述,然后輸入給 GPT-3 使其回答關于圖片的問題,該方法在 OK-VQA 數據集上超越了傳統方法。但是由于 caption 未必能覆蓋圖片的全部信息,因此這一方法存在性能瓶頸。另一個容易想到的解決方案是,在預訓練的 LLM 基礎上,增加用來對接另一個模態輸入的網絡參數,并通過微調來得到一個跨模態的大模型。

Deepmind 的 Flamingo [3] 模型采用了這一方案,訓練了一個 800 萬參數量的視覺-語言模型,并在 OK-VQA 上達到新的 SOTA。但是訓練這樣的模型往往需要消耗大量的計算資源,動輒上百上千塊 GPU,這是學術界的大部分研究者難以負擔的。那么,如何能夠既享受到 LLM 的強大能力,又通過有限的計算資源在跨模態任務上達到先進的性能呢?

我們近期的論文給出了一個新的答案:用好小模型!論文 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 提出了名為 Prophet 的框架,通過在 LLM 上游引入一個可學習的、任務相關的視覺問答小模型,來更好地激發大模型的潛力。

Prophet 這個名字既是 Prompt with answer heuristics 的縮寫,也契合了 Prophet 框架的精神,我們希望 GPT-3 如一個先知一般對預兆(來自小模型的答案啟發)進行理解和闡釋。Prophet 僅需要 1 塊 3090 顯卡和少量 OpenAI API 的調用,就可以實現超越 Flamingo 的性能,并在兩個基于外部知識的視覺問答數據集 OK-VQA [1] 和 A-OKVQA [4] 上創造了新的 SOTA。該論文現已被 CVPR 2023 錄用。 **論文鏈接:**//arxiv.org/abs/2303.01903 **開源代碼:**

方法介紹

該論文著眼于基于外部知識的圖像問答任務(Knowledge-based VQA),它要求模型不僅能夠分析圖片和問題,還需要結合圖像外部的知識(生活常識、科學知識等世界知識)來推理得到答案。例如,如果問一張獅子圖片“這種動物最喜歡吃什么?”,那么模型就需要知道獅子是食肉動物,它們通常捕食羚羊、斑馬等。

早期的研究使用顯式的知識庫來檢索相關知識,但這樣做往往會引入過多的噪聲,影響模型的訓練和最終性能。近期的工作,如 PICa [2],則嘗試使用 GPT-3 作為隱式的知識引擎來獲取所需知識。PICa 通過將圖像轉化為文本描述(Image Caption)來讓 GPT-3 理解圖像,并使用 few-shot in-context learning 的范式,即提供少量問答示例,使 GPT-3 理解視覺問答任務并作出回答。

盡管 PICa 取得了令人鼓舞的結果,但我們認為它沒有充分激發 GPT-3 的潛能,因為它輸入 GPT-3 的關于圖片的信息往往不夠充分。如下圖所示,當我們問“what fruit comes from these trees?”,由于 caption 只提到了圖片的主要內容“a group of people walk in a city square”而忽略了圖中有一顆椰子樹的細節,GPT-3 未能得到回答問題所需要的關鍵信息,于是只能“瞎猜”一個答案。

后續的工作 KAT [5] 和 REVIVE [6] 在 PICa 輸出基礎上,增加了一個基于顯式知識檢索的 VQA 模型,進一步提高了性能,但依然沒有解決上述問題,未能充分挖掘出 GPT-3 的潛力。

▲ Prophet框架與之前的基于GPT-3的方法的對比

為解決 PICa 的瓶頸問題,我們提出了 Prophet,它利用答案啟發(answer heuristics)來幫助 GPT-3 更好的解決基于外部知識的 VQA 任務。所謂答案啟發,是指寫入 prompt 文本中的,和視覺問題的正確答案相似或相關的答案(當然也包括正確答案本身),我們相信這些具有潛力的答案可以提供豐富的、并且任務相關的視覺信息,可以有效幫助 GPT-3 理解圖像和視覺問答任務。

具體的,論文定義了兩種答案啟發: 1)答案候選(answer candidates): 問題的候選答案及其置信度;2)答案感知示例(answer-aware examples): 選擇答案相近的標注樣本(來自訓練集)作為 prompt 中的例子。有趣的是,這兩種答案啟發可以使用同一個簡單的 VQA 模型同時產生。

▲ Prophet的總體框架圖

Prophet 的完整流程分為兩個階段,如上圖所示。在第一階段,我們首先針對特定的外部知識 VQA 數據集訓練一個普通的 VQA 模型(在具體實現中,我們采用了一個改進的 MCAN [7] 模型),注意該模型不使用任何外部知識,但是在這個數據集的測試集上已經可以達到一個較弱的性能。然后我們從模型中提取兩種答案啟發:答案候選和答案感知示例。

具體的,我們以模型分類層輸出的置信度(模型輸出的 sigmoid 值)為依據對答案進行排序,抽取其中的 top 10 作為答案候選,并記錄每個答案的置信度分數;同時,我們將模型分類層之前的特征作為樣本的潛在答案特征(latent answer feature),在它表示的潛在特征空間中搜索最相近的標注樣本作為答案感知示例。

在第二階段,我們拓展了 PICa 的 prompt 格式,將答案啟發組織到 prompt 之中(如上圖所示的 prompt 例子),然后將 prompt 輸入給 GPT-3,提示其完成視覺問題的回答。

值得一提的是,雖然我們給出了答案候選,但是我們并未要求 GPT-3 必須從中選擇答案,一方面,prompt 中給出的示例可能就包含了正確答案不包含在答案候選中的情況,另一方面,如果所有候選的置信度都很低,也會暗示 GPT-3 生成一個全新的答案。這一設計不僅給予了 GPT-3 更多的自由,并且使 GPT-3 對前置 VQA 模型所可能引入的負面效應更加魯棒,即 GPT-3 有權不相信 VQA 模型的不合理“猜測”。

實驗分析

▲ Prophet論文主要實驗結果

上方兩表展示了 Prophet 在兩個基于外部知識的圖像問答數據集 OK-VQA 和 A-OKVQA 上的實驗結果,及其和以往方法的性能對比。實驗表明,Prophet 達到了先進的性能,顯著超越了以往的方法。在 OK-VQA 數據集上,Prophet 達到了 61.1% 的準確率,大幅超越了 Deepmind 的 80B 大模型 Flamingo。

值得一提的是,Prophet 不僅在分數上超越了 Flamingo,在所需的(線下)計算資源上也更為“親民”,更容易在有限的計算資源下進行復現。Flamingo-80B 需要在 1,536 塊 TPUv4 顯卡上訓練 15 天,而 Prophet 只需要一塊 RTX-3090 顯卡訓練 VQA 模型 4 天,再調用一定次數的 OpenAI API 即可。

在 A-OKVQA 上,Prophet 也達到了新的 SOTA,在測試集上取得 55.7% 的準確率。不僅如此,我們還為 A-OKVQA 的多選項測評模式設計了一個專門的變體(詳見論文),命名為 Prophet-MC,該變體的 MC 準確率達到了 73.6% 的優秀水平。

▲ 對答案候選和答案感知示例的消融實驗

論文對 Prophet 方法進行了充分、細致的消融實驗,上方兩表展示了其中最重要的兩個結果。在左表中我們嘗試調節答案候選的數量,可以觀察到該參數顯著影響方法的最終性能,說明答案候選在 Prophet 方法中起著至關重要的作用。在右表中,我們嘗試了其他策略來選擇 prompt 中的示例,其中的 fused 一行即對應了我們基于潛在答案特征來搜索答案感知示例的方式,實驗結果表明該方式是最優的。

更詳盡的實現細節和實驗分析請參考論文原文。

后記

Prophet 具有諸多優勢,方法思路簡單,性能優越,在實現上也更為簡單、經濟,因此我們決定分享我們的工作。在該工作完成后不久,跨模態大模型 PaLI [8] 和 PaLM-E [9] 相繼提出,他們在 OK-VQA 數據集上超越了 Prophet,但是我們相信 Prophet 依然有其獨特的價值:

  1. 實現 Prophet 所需的計算資源更小,是大部分學術界的研究者能夠承擔的,我們相信 Prophet 為這些研究者們創造出了更大的研究空間,Prophet 作為基于外部知識圖像問答任務的一個新的基線(baseline),還有許多值得挖掘的地方;

  2. Prophet 不僅是 GPT-3 等 LLM 可以遷移到多種下游任務并取得優良性能的又一例證,更拓展了原本基于 few-shot in-context learning 的遷移范式,引出了一個新的范式,“小模型+LLM”。用任務相關的小模型作為 LLM 適配下游任務的適配器(Adapter),將增強 LLM 的通用性和針對性。我們相信 Prophet 的思路將啟發其他領域的工作。

如果您對我們的工作有任何疑問,歡迎來信探討,或者在 GitHub 上提交 issue。

參考文獻

  1. Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge.
  2. Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, and Lijuan Wang. An empirical study of gpt-3 for few-shot knowledge-based vqa.
  3. Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning.
  4. Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, and Roozbeh Mottaghi. A-okvqa: A benchmark for visual question answering using world knowledge.
  5. Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Haupt- mann, Yonatan Bisk, and Jianfeng Gao. Kat: A knowledge augmented transformer for vision-and-language.
  6. Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, and Lu Yuan. REVIVE: Regional visual representation matters in knowledge-based visual question answering.
  7. Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. Deep modular co-attention networks for visual question answering.
  8. Xi Chen, Xiao Wang, Soravit Changpinyo, A. J. Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman et al. Pali: A jointly-scaled multilingual language-image model.
  9. Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. PaLM-E: An Embodied Multimodal Language Model.

關于作者

論文第一作者邵鎮煒是杭州電子科技大學計算機學院媒體智能實驗室碩士研究生。邵鎮煒同學患有“進行性脊肌萎縮癥”,肢體一級殘疾,沒有生活自理能力,生活和學習需要母親的全程照顧。2017年高考考入杭州電子科技大學計科專業,本科期間獲得2018年中國大學生自強之星、國家獎學金和浙江省優秀畢業生等榮譽。2021年通過研究生推免,加入余宙教授課題組攻讀碩士研究生。

論文通訊作者為杭州電子科技大學計算機學院余宙教授。余宙教授是杭電計算機學院最年輕的教授,教育部“復雜系統建模與仿真”實驗室副主任。長期從事多模態智能方向研究,曾帶領研究團隊多次獲得國際視覺問答挑戰賽VQA Challenge 的冠亞軍。

付費5元查看完整內容

【導讀】強化學習最新綜述新鮮出爐。在這篇文章中,作者對強化學習進行了全面的研究,包括現有的挑戰、不同技術的最新發展以及未來的發展方向。文章致力于提供一個清晰簡單的研究框架,能夠為新的研究人員或者想全面了解強化學習領域的人提供一個參考。

摘要: 強化學習是設計強調實時響應的人工智能系統的核心組成部分之一。強化學習能夠影響系統在任意的環境中的行動,不管它之前是否了解環境模型。在這篇論文中,我們對強化學習進行了全面的研究,包括了現有挑戰、不同技術的最新發展情況以及未來的發展方向等多個維度。本論文的基本目標是提供一個足夠簡單和清晰的框架,以介紹現有的強化學習方法,從而為新的研究人員和學者了解該領域的核心進展。首先,我們以一種易于理解和比較的方式闡述了強化學習的核心技術。然后,我們分析并描述了強化學習方法的最新發展。我們的分析指出,大多數模型關注于調優策略值,而不是在特定的推理狀態下調優其他東西。

地址:

//arxiv.org/abs/2001.06921

付費5元查看完整內容
北京阿比特科技有限公司