? 作者｜王禹淏

機構｜中國人民大學研究方向｜自然語言處理引言：最近，大型語言模型（LLM）在解決知識密集型任務展現出強大的性能。然而，目前尚不清楚LLM對其知識邊界的感知能力，以及引入檢索增強后會對上述能力有何影響。對此，我們小組的最新工作，初步分析了LLM在開放域問答任務上的性能、感知其知識邊界的能力，并研究了引入檢索增強后如何影響上述能力。研究主要回答了以下三個問題： * LLM感知其事實知識邊界的能力如何？ * 檢索增強對LLM有什么影響？ * 具有不同特征的輔助文檔如何影響LLM？

我們的論文可參考以下鏈接：論文鏈接：//arxiv.org/abs/2307.11019 開源項目：

一、簡介

通常而言，開放領域問答任務要求模型利用外部文本語料庫，通過信息檢索系統獲得相關文檔并生成答案。最近興起的LLM，由于其已經在參數中編碼大量的世界知識，可以直接完成一些開放領域問答任務。目前，領域內缺乏對LLM事實知識邊界的深入了解。LLM能否較好地完成開放領域問答問題？LLM是否知道自身的事實知識邊界？針對已有的回答，LLM能否準確判斷答案的正誤？在引入檢索增強后，LLM的上述性能有何變化？提供不同質量的參考文檔會對LLM生成結果帶來怎樣的影響？我們將深入分析檢索增強對LLM生成質量的影響，尤其是LLM的問答性能和對其事實知識邊界的感知能力。為了衡量LLM感知知識邊界的能力，我們使用兩種方法：一種是先驗判斷，引導LLM判斷能否準確回答；另一種是后驗判斷，令LLM評估已有回答是否正確。同時，我們利用多種檢索模型為LLM提供輔助文檔，包括稀疏檢索、稠密檢索，以及LLM僅使用自身知識生成的文檔。通過精心設計的提示，LLM能夠參考給定的輔助文檔作出反饋。本文依據GPT系列的LLM展開研究，主要結論為： * LLM對事實知識邊界的感知是不準確的，并對自身結果過度自信。 * LLM不能充分利用它們所擁有的知識，而檢索增強可以一定程度上彌補這一缺陷。 * 提供高質量的輔助文檔時，LLM性能更佳且更加自信；LLM傾向于依賴所提供的輔助文檔生成反饋。輔助文檔與問題的相關性越強，LLM越自信，也更加依賴輔助文檔。

二、實驗設置

開放域問答的任務是指：給定自然語言中的問題和維基百科等大型文檔集，模型需要使用所提供的語料庫生成答案。在過去的研究中，通常先通過檢索模型獲得相關的輔助文檔，再通過閱讀模型提取答案。在LLM時代，LLM可以使用輸入提示，以端到端的方式直接解決開放域問答任務：。當引入檢索增強輔助LLM生成時，一個典型的方法是設計合適的指令格式，引導LLM依據檢索模型獲得的輔助文檔來生成答案：。

2.1 任務形式

基于上述任務，我們主要設計了三個任務：問答任務（QA），先驗判斷（Priori judgement），及后驗判斷（Posteriori judgement）。前者用于評估LLM的開放領域問答能力，而后兩者用于評估LLM感知自身知識邊界的能力。圖1展示了提示及對應的任務。

圖1 實驗設置及提示示意圖問答任務。在問答任務中，我們通過設計合適的問答提示，引導LLM順從地回答問題，以評估其問答能力。其中包括LLM直接回答和LLM借助參考文檔回答兩種任務。在評估指標方面，我們使用Exact Match（EM）和 F1 來匯報模型性能。先驗判斷。要求LLM判斷它們是否能夠提供問題的答案。我們引導LLM基于已有的自身知識或結合參考文檔，判斷其能否回答問題。并結合其問答任務上的回答結果，獲得其先驗放棄作答的可靠性。后驗判斷。要求LLM判斷給定的答案是否正確。我們引導LLM基于自身知識或結合參考文檔，判斷其自身作答結果是否正確。通過答案本身是否正確，獲得其后驗評估的準確性。

2.2 參考文檔

實驗中，我們主要在提供無參考文檔、稀疏檢索結果、稠密檢索結果、稠密+稀疏檢索結果以及LLM利用其自身知識生成的文檔的情況下，完成上述三種任務。特別地，我們還基于稠密檢索模型的檢索結果，篩選出正類文檔、強相關負類文檔、弱相關負類文檔，以及從語料庫隨機獲得的隨機負類文檔，來更好地研究引入檢索對模型生成的影響。圖1展示了常規設置及檢索增強下的實驗設置。

2.3 設置細節

本文以GPT系列的LLM：Davinci003（text-davinci-003）和ChatGPT（gpt-3.5-turbo）作為研究對象；分別在Natural Questions，TriviaQA和HotpotQA上展開實驗；稀疏檢索模型選擇BM25，稠密檢索模型選擇使用沒有重排序的RocketQAv2，我們選擇使用ChatGPT依據問題生成輔助文檔作為LLM生成的輔助文檔；選擇檢索結果中的前10個文檔作為參考文檔。具體實驗細節詳見論文。

三、實驗結果分析

實驗結果分析部分，我們繼續圍繞先前提出的三個問題展開：LLM感知其事實知識邊界的能力如何、檢索增強對LLM有什么影響、具有不同特征的輔助文檔如何影響LLM。

3.1 LLM感知其事實知識邊界的能力如何？

為了回答這個問題，我們依然從問答任務、先驗判斷、后驗判斷三個維度分析，并分別通過：問答任務準確性、先驗判斷的可靠性以及后驗判斷的準確率來衡量。結論1：LLM對其事實知識邊界的感知不準確，并對自身結果過度自信。在表1中，我們發現，與之前的研究類似，即使在沒有輔助文檔的情況下，LLM仍然有較強的問答能力。表1 LLM在三個數據集上的表現先驗判斷上，LLM往往對自己的能力充滿自信，不愿意放棄回答問題。總的來說，答案的準確性通常與LLM的自信程度相關，但這種自信遠遠超過了他們的實際能力。LLM對自身能力的感知往往是不準確的，他們堅持回答的大多數問題都被錯誤地回答了(Right/G)，而他們放棄回答的許多問題卻得到了正確的回答(Right/G)。當我們引導LLM評估他們的答案以進行后驗判斷時，他們明顯傾向于認為自己的答案是正確的，這導致了Eval-Right值遠遠高出了EM值，隨之獲得了較低的Eval-Acc值，說明其判斷較為盲目且錯誤率較高。此外，ChatGPT實現了比Davinci003更好的性能，但放棄率更高，這表明Davinci003在提供問題答案時比ChatGPT更自信。

3.2 檢索增強對LLM有什么影響？

通過引入2.2節提到的各類參考文檔，我們進行了問答實驗，評估LLM在引入檢索增強后的問答能力；與此同時，我們也引導LLM借助輔助文檔，同樣進行先驗和后驗判斷。結論2：LLM不能充分利用它們所擁有的知識，而檢索增強可以一定程度上彌補這一缺陷。

表2 引入檢索增強后，LLM在三個數據集上的表現在表2中，我們比較了利用不同檢索模型獲得的輔助文檔對LLM生成結果的影響。可以觀察到，在大多數情況下，提供輔助文檔時的性能優于無參考文檔時，并且將稠密和稀疏檢索的檢索結果組合為輔助文檔(dense+sparse)通常會獲得最佳性能。此外，盡管LLM在預訓練期間從包括維基百科在內的現有語料庫中學習了大量知識，向他們提供維基百科的輔助文檔仍可以提升其的問答能力。這樣表明LLM無法有效地利用他們的知識。Davinci003通過引入檢索增強的性能改進大大超過了ChatGPT。我們猜測，這種差異可能歸因于與Davinci003相比，ChatGPT理解長文本輸入的能力較弱。同時，我們觀察到，即使在整個過程中沒有訪問額外的語料庫的情況下，使用ChatGPT獲取輔助文檔仍能提升模型性能。我們將這種方法視為思維鏈方法（CoT），它首先引導LLM生成包含相關知識的文檔，再從中提取信息，獲得最終答案。我們還觀察到，在TriviaQA上引入輔助文檔時，ChatGPT的性能有所下降。為了調查原因，我們檢查了ChatGPT引入參考文檔后將答案改錯的情況。據觀察，這些案例中有很大一部分是由于ChatGPT從輔助文檔中提取了錯誤的答案。鑒于ChatGPT在無參考文檔設置下，即可在TriviaQA上的表現出較好的性能，我們認為多個輔助文檔可能會引入顯著的噪聲，這也在一定程度上限制了檢索增強對LLM問答性能提升效果。結論3：檢索增強提高了LLM感知其事實知識邊界的能力。從表2中，我們發現在提供了稀疏或稠密檢索模型的輔助文檔后，LLM自我評估的準確性有所提高。具體而言，Right/G顯著增加，Right/G由于問答性能的顯著提高而減少或略有增加。結果表明，檢索增強后，LLM的先驗判斷更加準確。此外，Eval-Right顯著降低，這與實際精度更加一致，因而Eval-Acc顯著提升。結果表明，檢索增強還可以提高LLM后驗判斷的準確性。為了進一步驗證其感知事實知識邊界的能力提升，我們利用先驗判斷確定是否引入檢索增強。具體來說，給定一個問題，若LLM放棄在無參考文檔情況下回答，則會引入相關文檔來生成答案；同樣，如果LLM在檢索增強設置下放棄回答某個問題，則應在沒有輔助文檔的情況下回答該問題。我們在ChatGPT上進行了實驗，使用了來自稠密檢索模型的輔助文檔。

圖2 不同的策略下，根據判斷結果動態引入檢索增強的結果圖2比較了在不同的策略下，根據判斷結果動態引入檢索增強的結果。我們設置基線為無條件引入檢索結果時模型的性能（w/o judgement）。如使用沒有參考文檔輔助的先驗判斷進行決策（Zero-shot），與基線相比，回答準確性往往較低。而使用引入輔助文檔判斷時（Retrieval-augmented），準確性超過了總是引入檢索增強的基線。這一結果表明，在檢索增強的設置下，根據LLM的先驗判斷，動態引入LLM的輔助文檔來提供答案是有效的。這也進一步表明，檢索增強可以提高LLM對其知識邊界的認識。

圖3 輔助文檔數量對檢索增強LLM性能的影響在圖3中，我們展示了輔助文檔數量變化對檢索增強LLM性能的影響。結果表明，隨著輔助文檔數量的增加，我們觀察到問答性能持續改善、LLM放棄率持續下降（變得更加自信），這種趨勢隨著輔助文檔的數量的增加而逐漸放緩。我們還觀察到，輔助文檔數量的增加所帶來的改進并不能歸因于召回率的提升。由于即使輔助都是正類文檔，提升輔助文檔數量仍然會提升回答準確率。此外，LLM似乎對輔助文檔的排序不敏感，因此即使輔助文檔被顛倒或打亂，性能也不會受到影響。結論4：檢索增強可以改變LLM對不同問題類別的偏好。

圖4 在兩種問答設置下，LLM在不同問題類別中正確回答的比例為了研究LLM處理不同特征問題的傾向，我們分別計算了LLM在不同問題類別中的回答準確性。如圖4所示，我們可以看到，LLM在處理“which”類別的問題時達到了最高的準確性，表明這類問題可能是LLM的強項。另一方面，LLM可能不足以滿足知識密集型場景中“why”的問題類型。引入檢索增強后，LLM的偏好發生了變化。LLM的總體回答準確率得到了提高，并且大多數類別的準確率成比例地增加。特別是，LLM在問題類型“who”上表現最好。然而，對于屬于“where”和“declare”類別的問題，ChatGPT的準確性會下降。這表明檢索增強不能有效地增強ChatGPT回答此類問題的能力。相比之下，Davinci003在所有類別的問題中都表現出了改進的準確性，展示了其利用檢索增強的卓越能力。

3.3 具有不同特征的輔助文檔如何影響LLM？

我們已經探討了檢索增強對LLM的性能和知識邊界的影響。通常，檢索結果由具有不同特征的文檔組成，這可能導致不同的檢索增強效果。為此，我們繼續研究輔助文檔的不同特征如何影響LLM。在我們的實驗中，我們通過以下因素來描述文檔特征：包括文檔和問題之間的相關性、文檔中是否存在答案以及正例文檔的數量和比例。結論5：當提供更高質量的輔助文檔時，LLM在問答和知識邊界感知方面表現出更強的能力。我們采用2.2節中的策略為每個問題生成五種類型的輔助文檔，表3顯示了Davinci003和ChatGPT的結果。我們可以看到，與使用檢索結果作為輔助文檔相比，使用高質量文檔作為輔助文檔會產生更好的性能。然而，如果使用低質量的文檔作為輔助文檔，包括強相關的負類文檔、弱相關的負類文檔和隨機負類文檔，則LLM的性能將劣于使用檢索結果作為輔助文檔。

表3 在NQ數據集上使用不同質量輔助文檔的生成結果此外，LLM的放棄率隨著輔助文檔質量的提高而降低，這表明當使用高質量的輔助文檔進行增強時，LLM更加自信。有了更高質量的輔助文檔，LLM的Eval-Acc就會增加，這表明LLM在感知其知識邊界方面表現出更高的準確性。結論6：LLM傾向于依靠給定的輔助文檔來回答。基于上述觀察，當LLM使用低質量的輔助文檔生成反饋時，其性能不如基于其自身知識生成響應。這種現象表明LLM在生成過程中嚴重依賴于給定的支持文檔。我們還努力用更詳細的提示來指導LLM，使他們能夠在支持文檔質量較差的情況下在不增加檢索的情況下回答。然而，這種嘗試并沒有帶來任何明顯的提升。結論7：LLM的自信程度和對輔助文檔的依賴程度取決于問題與輔助文檔之間的相關性。根據輔助的獲得方法，不同文檔和問題之間的相關性可以高到低依次按以下順序排列：正例文檔>稠密檢索文檔>強相關負例文檔>弱相關負例文檔>隨機負例文檔。在表3中，我們觀察到LLM的相關性和置信度之間存在明顯的反比關系（即放棄回答并評估其答案正確的比率）。此外，使用與問題無關的隨機負類文檔作為輔助文檔的效果優于使用相關性更高的負類文檔（即強相關/弱相關的負類文檔）。這一觀察結果進一步表明，LLM在生成反饋時更關注相關文檔。

四、總結

本文研究了LLM在開放領域問答上通過檢索增強對事實知識邊界的感知能力。我們提出了先驗和后驗判斷，除了問答外，還進行了檢索增強評估。我們得出了幾個主要結論： * LLM對自己回答問題的能力和答案的質量表現出盲目的信心，表明他們無法準確地感知自己的事實知識邊界； * LLM無法充分利用他們所擁有的知識，并且檢索增強的結合有效地增強了他們感知事實知識邊界的能力，從而提高了判斷能力。 * LLM在回答問題時往往嚴重依賴給定的檢索結果，而支持文檔的特征顯著影響了他們的依賴性。

根據這些發現，我們采用了一種簡單的方法：該方法不再一味地使用輔助文檔，而是基于先驗判斷動態地引入檢索。經驗證該方法很好地提升了性能。

付費5元查看完整內容

引言

大型語言模型在自然語言處理領域取得了革命性的進展，其成功也推動了多模態領域的發展。最近，諸如MiniGPT-4, LLaVA等多模態大模型 (Large Vision-Laguage Models, LVLMs) 向我們展示了令人印象深刻的多模態對話能力。給定一張圖片，這些模型可以回答用戶提出的關于圖片的各種問題。從較為基本的物體識別或者圖片描述，到更具挑戰性的根據圖片寫廣告，作詩，LVLMs的回答都像模像樣。然而我們發現，LVLMs雖然在較為復雜的圖像問答問題上表現出色，卻難以正確回答一些看似更簡單的問題，例如判斷圖像中是否存在某物體。在 image captioning 領域，這種模型生成了圖像中不存在的物體的現象被稱為物體幻覺 (Object Hallucination)。

本文通過定量實驗測評了已有LVLMs的物體幻覺程度，并分析了其指令數據集的分布對幻覺的影響。此外我們還發現傳統的物體幻覺評測方法在評測LVLMs時存在一定的局限性，并提出了一種基于輪詢的物體探測評測方法 (Polling-based Object Probing Evaluation, POPE)。實驗結果表明 POPE 具有更好的穩定性，并且能夠擴展到未標注數據集上。

基于指令的評測

我們首先使用CHAIR指標在MSCOCO數據集上測試了最近的一些LVLMs。

評測設置

評測指標

CHAIR (Caption Hallucination Assessment with Image Relevance ) (Rohrbach et al., 2018) 是一種用于評估 image captioning 任務中物體幻覺的常用指標。給定圖像中的真實物體，CHAIR計算出出現在模型生成的圖像描述中但不在圖像中的物體的比例。其兩個變體和分別在對象實例級別和句子級別評估幻覺程度。具體計算公式為：

數據集

我們從MSCOCO數據集的驗證集中隨機選取了的2000張圖像和人工標注的圖像描述作為我們的評估數據集。在計算CHAIR指標時，我們遵循原論文的設置，僅考慮MSCOCO分割挑戰中出現的80個物體。我們還使用了同義詞列表，將生成的圖像描述中的同義詞映射到MSCOCO物體，避免將它們誤判為幻覺物體。

模型

我們評估了5個最近提出的LVLMs，即MiniGPT-4，LLaVA，Mulimodal-GPT，mPLUG-Owl以及InstructBLIP。下表展示并比較了這些模型的結構和訓練策略。

我們使用了如下指令來讓模型生成對圖像的描述：

Instruction 1: Generate a short caption of the image.
Instruction 2: Provide a brief description of the given image.

另外，我們還引用了一些較小的視覺-語言預訓練模型 (VLPMs) 在MSCOCO上的物體幻覺結果，包括 OSCAR，VinVL，BLIP和OFA。

評測結果

評測結果如上表所示。結果顯示大部分 LVLMs 的物體幻覺問題反而比規模更小的 VLPMs 更嚴重。其中 InstructBLIP 的幻覺問題最輕微，這可能是由于其多模態指令從已有的數據集中收集，并且長度較短有關。而其他 LVLMs 大多借助 LLMs 來生成多模態指令，通過這種方式生成的指令往往包含更豐富的信息并且更長，但可能本身就含有幻覺信息。此外，我們還發現這種基于指令的評測方式在評測 LVLMs 時存在一定的局限性。首先是穩定性問題，雖然我們設計的兩條指令具有相近的語義，但模型根據這兩條指令生成的圖像描述的幻覺嚴重程度確存在很大差異。另外在不同指令下，模型的性能排名也可能發生改變（例如LLaVA和Multimodal-GPT的在上的結果）。最后，CHAIR 在計算結果時需要判斷圖像描述中的物體是否出現在物體中，而圖像的生成結果并不會局限于 MSCOCO 中的80種物體，因此需要人工設計同義詞的映射規則，可能導致對幻覺的遺漏或者誤判。

指令數據集對幻覺的影響

LVLMs 和 VLPMs 在訓練過程上的主要區別在于 LVLMs 經歷了多模態指令微調。鑒于 VLPMs 的物體幻覺問題明顯好于 LVLMs，我們猜測多模態指令微調這個步驟可能是影響幻覺嚴重程度的主要原因。通過實驗，我們發現 LVLMs 確實更容易對在多模態指令數據集中頻繁出現/共現的物體產生幻覺。

頻繁出現物體的影響

由于大部分多模態指令數據是在 MSCOCO 的基礎上構造的，它們也可能繼承了其中不平衡的物體分布，即部分物體頻繁在數據中出現。因此在這些數據上微調后，LVLMs也可能傾向于生成這些物體。為了驗證這一猜想，我們首先繪制了物體出現頻率和幻覺頻率的柱狀圖，如下圖(a)所示。該圖的橫軸上的物體是在 MSCOCO 中出現頻率最高的物體，并且頻率從左到右依次降低。我們收集了MiniGPT-4, LLaVA, Multimodal-GPT和mPLUG-Owl在這些物體上的幻覺頻率。從圖中可以看出，幻覺頻率基本從左到右依次降低，和物體出現頻率的變化較為一致。因此 LVLMs 確實容易在頻繁出現的物體上產生幻覺。

為了進一步定量分析這種現象，我們計算了頻繁出現物體和所有幻覺物體之間的 Hit ratio@k ，以衡量它們間的一致性，其公式為: 其中是所有圖像的總數，Hallucinated()表示在第張圖中幻覺物體的個數，是幻覺物體中屬于 MSCOCO 出現頻率前k個的物體個數，從而能夠反映頻繁出現的物體占幻覺物體的比例。結果如下表左欄所示，幾乎所有的 LVLMs 都在0.5左右，因此多模態指令數據集中高頻出現的物體確實更容易出現幻覺。

頻繁共現物體的影響

除了頻繁出現的物體，數據集中一些頻繁共現的物體組也可能影響幻覺問題（例如電腦，鼠標，鍵盤）。當圖像中存在這些組中的某個物體時，模型可能會在組內其他物體上產生幻覺。我們使用了相似的實驗驗證該猜想，分析了和'dining table'頻繁共現物體的幻覺情況。前圖(b)中，物體的共現頻率和幻覺頻率也有較一致的變化規律。定量分析方面，我們定義其中是共現的參考物體（即本次實驗中的'dining table'），是幻覺物體中前個和高頻共現的物體個數。結果展示在上表右欄中，可以發現大部分 LVLMs 的該項指標依然較高。因此頻繁共現的物體組也會影響 LVLMs 的幻覺。

POPE

鑒于目前對 LVLMs 的物體幻覺評測方法存在諸多局限性，我們提出了POPE。

概述

如上圖所示，POPE 將幻覺評估轉換為讓模型回答一系列關于物體是否存在于圖像中的判斷題（例如'Is there a car in the image?'）。具體而言，給定一個圖像數據集和每張圖像包含的物體標注，POPE將構造一系列由圖像，問題和回答組成的三元組，可形式化表示為：其中表示圖像，是待測試的物體，既可以是圖像中真實存在的物體，也可以是自定義的不存在于圖像中的物體，是測試物體的問題，是對該問題的回答（'Yes' 或 'No'）。實驗細節方面，我們將圖像中真實存在的物體和不存在的物體之間的比例設置為1:1，并且使用二分類任務常用的 Accuracy, Recall, Precision 和 F1 Score 作為評測指標。此外為了更好的分析模型行為，我們還記錄了模型回答 'Yes' 的比例。關于圖像中未出現物體的選擇，我們受此前關于多模態指令數據對幻覺影響的分析啟發設計了三種采樣策略：

Random sampling：隨機選取不在圖像中的物體
Popular sampling: 優先選取出現頻率較高的物體
Adversarial sampling: 優先選取和圖像中物體頻繁共現的物體

評測結果

實驗結果如上圖所示，各模型的表現和此前的 CHAIR 指標基本一致，即 InstructBLIP 表現較好，而 mPLUG-Owl, LLaVA 和 Multimodal-GPT 幻覺較嚴重。可以注意到根據 F1-Score 判斷，三種采樣方式下的 POPE 的難度有所不同，體現為 Adversarial > Popular > Random，這也進一步驗證了我們此前的分析，即多模態指令數據集中的頻繁出現/共現物體更容易產生幻覺。此外我們還觀察到部分 LVLMs 傾向于對所有的問題都回答 'Yes'。

為了測試 POPE 的穩定性，我們還設計了另外3中問題模板，并在InstructBLIP上進行了測試，同時計算了其均值和標準差，結果如上表所示。可以看出 POPE 在使用不同問題模板的情況下各項指標變化幅度不大，較為穩定。

無標注數據集評測

通過和 SEEM 等自動分割工具結合，POPE 也可以被拓展到無標注的圖像數據集上用于測試。為了驗證 POPE 在無標注數據集上的性能，我們用 SEEM 標注了 MSCOCO, A-OKVQA 和 GQA 三個數據集中的各500張圖片，并沿用此前的方法構造了三種 POPE。我們測試了 LLaVA，MiniGPT-4 和 InstructBLIP 的表現，并且還測試了幻覺較輕的 BLIP 作為參照。MSCOCO 上的實驗結果如下表所示。

實驗結果顯示使用 SEEM 構建的 POPE 依然具有相同的難度趨勢（Adversarial > Popular > Random），在大部分指標上也和使用人工標注構建的 POPE較為一致。我們也注意到部分指標上二者存在一定差異，例如 MiniGPT-4 在 Adversarial 采樣下的 F1 Score。我們認為這是由于 SEEM 的分割結果相較于 MSCOCO 中的人工標注粒度更細，模型做出判斷的難度更大，導致結果相對較低。

幻覺與VQA性能的關系

為了進一步研究幻覺問題和 LVLMs 性能之間的關系，我們在 A-OKVQA 和 GQA 上測試了部分 LVLMs 的性能。由于 LVLMs 的回答大都屬于較長的開放式回答，我們難以繼續使用傳統的 VQA 評測方法。為此我們借助了 ChatGPT 來輔助測評，我們提供給 ChatGPT 的 prompt 如下:

“You are an examiner who can judge whether a student’s answer matches the correct answers. Next, I will provide you with the correct answer and a student’s answer. Please judge whether the student’s answer matches the correct answers.”

測評結果如下表所示。InstructBLIP 在幻覺和 VQA 任務中都取得了最好的表現，而 MiniGPT-4 和 LLaVA 在二者上的結果趨勢并不一致。我們認為這些差異和 LVLMs 的使用的指令形式有關，例如 MiniGPT-4 的指令是較簡單的圖像描述任務，而 LLaVA 的指令包含更多較復雜的對話或推理任務，使其更擅長處理 VQA 任務。總之，上述結果說明在評估現有 LVLMs 的性能時，幻覺和 VQA 性能都需要被考慮。

總結

我們測試了多個LVLMs在物體幻覺問題上的表現。我們通過實驗發現，視覺指令數據集中的物體分布會影響LVLMs的物體幻覺。此外，我們還發現現有的幻覺評估方法可能受到輸入指令影響，從而導致評估結果不夠可靠。為此我們提出了一種基于輪詢的物體探測評估方法，稱為POPE。實驗結果表明，我們提出的POPE方法在評估LVLMs的對象幻覺問題上更為有效。

付費5元查看完整內容

大模型 · 涌現能力 · ChatGPT ·

2023 年 5 月 16 日

[付費5元查看完整內容]大模型的涌現能力介紹

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

原創作者：崔涵，宋巖奇轉載須標注出處：哈工大SCIR

摘要

一個一直以來的共識是，模型的規模越大，模型在下游任務上的能力越多、越強。隨著最近的新的模型的提出，大規模的語言模型出現了很多超乎研究者意料的能力。我們針對這些在小模型上沒有出現，但是在大模型上出現的不可預測的能力——“涌現能力”做了一些歸納和總結，分別簡要介紹了涌現能力的定義、常見的激發手段和具體的分類和任務。

縮放法則（Scaling Law）

Kaplan J等人[1]在 2020 年提出縮放法則，給出的結論之一是：模型的性能強烈依賴于模型的規模，具體包括：參數數量、數據集大小和計算量，最后的模型的效果（圖中表現為loss值降低）會隨著三者的指數增加而線性提高（對于單個變量的研究基于另外兩個變量不存在瓶頸)。這意味著模型的能力是可以根據這三個變量估計的，提高模型參數量，擴大數據集規模都可以使得模型的性能可預測地提高。Cobbe等人[2]的工作提出縮放定律同樣適用于微調過程。

圖1：Loss值隨計算資源、數據規模大小和參數量的指數提升呈線性下降

縮放定律的一個重要作用就是預測模型的性能，但是隨著規模的擴大，模型的能力在不同的任務上并不總表現出相似的規律。在很多知識密集型任務上，隨著模型規模的不斷增長，模型在下游任務上的效果也不斷增加；但是在其他的復雜任務上（例如邏輯推理、數學推理或其他需要多步驟的復雜任務），當模型小于某一個規模時，模型的性能接近隨機；當規模超過某個臨界的閾值時，性能會顯著提高到高于隨機（如下圖所示）。這種無法通過小規模模型的實驗結果觀察到的相變，我們稱之為“涌現能力”。

涌現能力的概述

涌現能力的定義

在其他的學科中已經有很多與“涌現能力”相關的研究了，不同學科解釋的方式和角度也不盡相同。物理學中對“涌現能力”的定義[3]是：

當系統的量變導致行為的質變的現象(Emergence is when quantitative changes in a system result in qualitative changes in behavior)。對于大規模語言模型的涌現能力，在 Jason Wei 等人的工作中[4]的工作中，給出的定義：在小模型中沒有表現出來，但是在大模型中變現出來的能力"（An ability is emergent if it is not present in smaller models but is present in larger models.）。涌現能力大概可以分為兩種：通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。

基于普通提示的涌現能力

通過 prompt 激發大模型能力的方法最早在GPT3[5]的論文中提出提示范式的部分加以介紹：給定一個提示（例如一段自然語言指令），模型能夠在不更新參數的情況下給出回復。在此基礎上，Brown等在同一篇工作中提出了Few-shot prompt，在提示里加入輸入輸出實例，然后讓模型完成推理過程。這一流程與下游任務規定的輸入輸出完全相同，完成任務的過程中不存在其他的中間過程。下圖展示了來自不同的工作的對于大模型的在few-shot下測試結果。其中，橫坐標為模型訓練的預訓練規模（FLOPs：floating point operations，浮點運算數。一個模型的訓練規模不僅和參數有關，也和數據多少、訓練輪數有關，因此用FLOPs綜合地表示一個模型的規模）；縱軸為下游任務的表現。可以發現，當模型規模在一定范圍內時（大多FLOPs在10^22以內），模型的能力并沒有隨著模型規模的提升而提高；當模型超過一個臨界值時，效果會馬上提升，而且這種提升和模型的結構并沒有明顯的關系。圖2：在普通prompt方式下，不同任務上的效果隨模型訓練的計算量的提升的變化

基于增強提示的激發方法

隨著對大規模語言模型的研究越來越深入，為大模型添加prompt的方式也越來越多，主要表現出的一個趨勢是，相比于普通的 few-shot 模式（只有輸入輸出）的 prompt 方式，新的方法會讓模型在完成任務的過程中擁有更多的中間過程，例如一些典型的方法：思維鏈（Chain of Thought）[6]、寄存器（Scratchpad）[7]等等，通過細化模型的推理過程，提高模型的下游任務的效果。下圖展示了各種增強提示的方法對于模型的作用效果，具體的任務類型包括數學問題、指令恢復、數值運算和模型校準，橫軸為訓練規模，縱軸為下游任務的評價方式。與上圖類似，在一定的規模以上，模型的能力才隨著模型的規模突然提高；在這個閾值以下的現象則不太明顯。當然，在這一部分，不同的任務采用的激發方式不同，模型表現出的能力也不盡相同，我們會在下文分類介紹。

圖3：在增強的prompt方式下，一些復雜任務的效果隨模型訓練的計算量提升而提升

不同的涌現能力的介紹

在這一部分，我們并沒有沿用Jason Wei 等人[4]的工作中以使用方法分類的脈絡，因為同一種方式激發出的能力可能能應用于多個任務，多種激發方式也可能只是不同程度地提升同種能力；我們采用Yao等人[8]的方式，從能力出發，對不同的方法激發出的能力和激發效果進行總結。

**優秀的上下文學習能力

大規模的語言模型展現出了優秀的上下文學習能力（In-context learning）。這種能力并非大模型專屬，但是大模型的足夠強大的上下文學習能力是之后各種涌現能力激發的基礎。類似于無監督的預測，在上下文學習過程中，不需要對模型進行參數調整，只需要在輸入測試樣例之前輸入少量帶有標注的數據，模型就可以預測出測試樣例的答案。有關上下文學習的能力來源仍然有很多討論。在 Min等人[9]的實驗中，分析了上下文學習能力的作用原理。實驗表明，上下文學習的過程中，prompt中的ground truth信息并不重要，重要的是prompt中實例的形式，以及輸入空間與標簽空間是否與測試數據一致。Xie 等人的工作[10]將上下文學習的過程理解為一個貝葉斯推理的過程，在in-context learning的過程中，模型先基于prompt推測concept，然后基于concept和prompt生成output。在對多個樣例進行觀測的過程中，prompt中的數據會給concept提供“信號”（與預訓練過程中的相似之處）和“噪聲”（與預訓練過程分布差別較大之處），當信號大于噪聲時，模型就可以推理成功。

**可觀的知識容量

在問答和常識推理任務上需要模型具有較好的知識推理能力，在這種情況下，對大型模型進行提示不一定優于精調小型模型。但是大模型擁有更高的標注效率，因為：
在許多數據集中，為了獲得所需的背景/常識知識，小模型需要一個外部語料庫/知識圖譜來檢索，或者需要通過多任務學習在增強的數據上進行訓練
對于大型語言模型，可以直接去掉檢索器，僅依賴模型的內部知識，且無需精調

圖4：之前的需要外部檢索的SOTA和GPT-3的性能對比

上表來自于 Yu等人[11]的工作。如表中所示，雖然在常識/開放域問答任務上GPT-3 并沒有明顯優于之前的精調模型，但它不需要從外部文檔中檢索，因為其本身就包含了知識。

為了理解這些結果的重要性，我們可以回顧一下NLP的發展歷史：NLP 社區從一開始就面對著如何有效編碼知識的挑戰。研究者們一直在不斷探索如何把知識保存在模型外部或者內部的方法。上世紀九十年代以來，研究者們一直試圖將語言和世界的規則記錄到一個巨大的圖書館中，將知識存儲在模型之外。但這是十分困難的，畢竟我們無法窮舉所有規則。因此，研究人員開始構建特定領域的知識庫，來存儲非結構化文本、半結構化（如維基百科）或完全結構化（如知識圖譜）等形式的知識。通常，結構化知識很難構建，但易于推理，非結構化知識易于構建，但很難用于推理。然而，語言模型提供了一種新的方法，可以輕松地從非結構化文本中提取知識，并在不需要預定義模式的情況下有效地根據知識進行推理。下表為優缺點對比：

構建推理結構化知識難構建需要設計體系結構并解析容易推理有用的結構已經定義好了非結構化知識容易構建只存儲文本即可難推理需要抽取有用的結構語言模型容易構建在非結構化文本上訓練容易推理使用提示詞即可

**優秀的泛化性

在 2018 年至 2022 年期間，NLP、CV 和通用機器學習領域有大量關于分布偏移/對抗魯棒性/組合生成的研究，人們發現當測試集分布與訓練分布不同時，模型的行為性能可能會顯著下降。然而，在大型語言模型的上下文學習中似乎并非如此。

圖5： GPT-3的同分布和不同分布之間的對比，以及和RoBERTa的對比上圖來自Si等人[12]在2022年的研究，在此實驗中，同分布情況下基于prompt的 GPT-3 的效果并沒有精調后的 RoBERTa要好。但它在三個其他分布（領域切換、噪聲和對抗性擾動）中優于 RoBERTa，這意味著 GPT3 更加魯棒。

圖6：不同復雜程度的提示在不同分布中對模型效果的影響此外，即使存在分布偏移，好的提示詞所帶來的泛化性能依舊會繼續保持。比如Fu 等人[13]2022年的研究（上圖所示），輸入提示越復雜，模型的性能就越好。這種趨勢在分布轉移的情況下也會繼續保持：無論測試分布與原分布不同、來自于噪聲分布，或者是從另一個分布轉移而來的，復雜提示始終優于簡單提示。

**復雜推理能力

復雜推理能力包含若干方面，如數學推理能力、代碼生成、腳本生成等等，以下的介紹我們以數學推理能力為例。數學推理的一個典型的數據集是GSM8K，其由8.5K個人工標注的高質量的小學數學問題組成。數據集的標注內容不僅包含最終結果，還包含得到結果的2～8個推理步驟。

在最開始的GPT3的論文中，對于這個任務的學習方式仍然是微調的方式，得到的結果基本符合縮放定律。作者在論文里得出一個結論：

175B的模型仍然需要兩個額外數量級的訓練數據才能達到80%的準確率。但是在之后的工作中，通過其他的方式大大提高了該任務上的結果。Wei等人[6]通過思維鏈的方式，將540B的PaLM模型上的準確率提高到56.6%，這一過程并沒有微調，而是將8個提示示例作為prompt，通過few-shot的方式激發模型的推理能力。在此基礎上，Wang等人[14]通過多數投票的方式，將這一準確率提高到74.4%。Yao等人[15]提出Complexity-based Prompting，通過使用更復雜、推理步驟更多的樣例作為prompt，進一步提高模型的效果。在此之外，數據集的難度也越來越高：Chung等人[16]將測試范圍擴展到高中的各個學科；Minerva[17]的工作將測試范圍擴展到大學的各個學科；Jiang等人[18]進一步將測試范圍擴展到國際數學奧林匹克問題上。

我們看到，從涌現能力的角度講，模型在在達到一定規模后，用恰當的方式激發出的性能確實遠遠超過縮放法則所預測的效果；與此同時，各種方法都是few-shot或zero-shot的方式，需要的數據也更少。現在并沒有太多工作能夠直接對比在同樣的足夠大的模型上，微調和prompting的方式的性能差距；但是在下游任務數據集的規模往往遠小于模型充足訓練所需要的數據規模的情境下，利用prompting激發模型本來的能力確實能夠顯著提高效果，這也是目前大多數任務面臨的情況。

涌現能力是海市蜃樓？

在斯坦福大學最新的工作[19]中指出，大模型的涌現能力來自于其不連續的評價指標，這種不連續的評價指標導致了模型性能在到達一定程度后出現“大幅提升”。如果換成更為平滑的指標，我們會發現相對較小的模型的效果也并非停滯不前，規模在閾值以下的模型，隨著規模的提高，生成的內容也在逐漸靠近正確答案。為了驗證這一觀點，斯坦福的研究人員做了兩組實驗，第一組是將NLP中不連續的非線性評價指標轉為連續的線性評價指標，結果如下圖所示，模型的涌現能力消失了（從圖2到下圖）。圖7：不同類型指標下，不同規模的模型的性能對比。當換為更加平滑的指標后，小模型的性能也隨著規模擴大而逐步提高第二組實驗是將CV任務中的連續指標轉換為了類似NLP中的不連續指標，結果如下圖所示，CV任務中也出現了涌現能力：圖8：更換指標之后，cv任務中的模型規模與模型效果之間的關系。當換為不平滑指標后，cv任務中的模型也出現類似的“涌現能力”

因此LLM中的涌現能力到底是什么，又是如何出現的，依然值得研究者們研究。

結語

本文簡要介紹了涌現能力，具體包括涌現能力之前的縮放法則，涌現能力的定義，涌現能力的分類，還簡要介紹了不同涌現能力的典型激發方法。當然，歸根結底，“涌現能力”只是對一種現象的描述，而并非模型的某種真正的性質，關于其出現原因的研究也越來越多。現有的一些工作認為，模型的涌現能力的出現是和任務的評價目標的平滑程度相關的。在之后的工作中，更好的評級方式，更高的數據質量，更出乎人意料的prompt方式，都可能會更進一步提高模型的效果，并讓觀測到的效果得到更客觀的評價。

參考文獻

[1] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020. [2] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems. [3] Philip W. Anderson. More is different: Broken symmetry and the nature of the hierarchical structure of science. Science, 177(4047):393–396, 1972. [4] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022. [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022. [7] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. [8] Fu, Yao; Peng, Hao and Khot, Tushar. (Dec 2022). How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources. Yao Fu’s Notion [9] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022. [10] Xie S M, Raghunathan A, Liang P, et al. An explanation of in-context learning as implicit bayesian inference[J]. arXiv preprint arXiv:2111.02080, 2021. [11] Yu W, Iter D, Wang S, et al. Generate rather than retrieve: Large language models are strong context generators[J]. arXiv preprint arXiv:2209.10063, 2022. [12] Si C, Gan Z, Yang Z, et al. Prompting gpt-3 to be reliable[J]. arXiv preprint arXiv:2210.09150, 2022. [13] Fu Y, Peng H, Sabharwal A, et al. Complexity-based prompting for multi-step reasoning[J]. arXiv preprint arXiv:2210.00720, 2022. [14] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models. [15] Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning. [16] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models. [17] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models. [18] Jiang et. Al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs. [19] Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage?[J]. arXiv preprint arXiv:2304.15004, 2023. 本期責任編輯：張宇本期編輯：李寶航

付費5元查看完整內容

貝葉斯遷移學習 · 遷移學習 · 概率圖模型 ·

2021 年 10 月 17 日

[付費5元查看完整內容]貝葉斯遷移學習: 遷移學習的概率圖模型概述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為，已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具，具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功，將PGMs應用于遷移學習似乎是很自然的。然而，盡管在文獻中已經有一些優秀的遷移學習特異性PGMs，但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究，即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識，并在目標領域中重用該知識的行為，這是一種自然的人類現象，即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)}，遷移學習的目的是借助DS改進DT中的學習任務，其中X為特征空間，P(X)為數據分布。”當XS = XT時，為同質遷移學習;當XS= XT時，為異質遷移學習。需要注意的是，遷移學習可以被看作是前面提到的問題，也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論，因此可以訓練一個分類器，并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如，在電影領域中，“觸摸我的心”是褒義詞，而在計算機領域中，“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中，有幾個與遷移學習密切相關的概念誤導了讀者，如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們，例如目標域中是否有標記數據。本文并沒有明確區分它們，但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al.， 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能，而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題，它向其他類似領域的機器人尋求幫助，并向他們學習，問題就解決了。因此，我們認為遷移學習不僅在統計機器學習領域，而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等，2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支，它是一個豐富的框架，用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點，以概率相關性為邊的圖，如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向)，概率圖模型分為有向和無向兩類。例如，隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum， & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務，第一步是分析問題的本質，然后設計一些變量及其關系來捕捉這種本質。換句話說，這一步是設計PGM的圖結構，該結構應共同考慮觀測數據和目標任務的附加知識。請注意，這個步驟沒有確切的過程，因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如，在Latent Dirichlet Allocation模型(Blei, Ng， & Jordan, 2003)中，文檔由滿足Dirichlet或多項分布的隨機變量建模，變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano， & Kondo, 2013)中，文檔由滿足Gamma或Poisson分布的隨機變量建模，變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下，討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外，從第一步開始的PGM實際上是一組模型，因為所設計的概率分布通常帶有未知的參數，不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的)，第二步是推斷潛在變量的后驗分布，并估計模型參數。對于一些稀疏圖，有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此，一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird， & Rubin, 1977)，拉普拉斯近似，期望傳播(Minka, 2001)，蒙特卡洛馬爾可夫鏈(Neal, 1993)，變分推理(Blei, Kucukelbir， & McAuliffe, 2017)。此外，設計的變量之間的概率相關性也可能不是固定的，而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡，其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎，概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al.， 2003)、自然語言處理(Sultan, Boyd-Graber， & Sumner, 2016) 和計算機視覺(Gupta, Phung， & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比，概率圖模型具有以下優點，這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中，當然也出現在他們的觀察(數據)中。例如，人們在編寫關于特定主題的文檔時可能會使用不同的詞匯，所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統，用戶只對有限數量的項目進行評級，因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl， & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成，因此人類專家可以評估其語義和屬性，甚至將他們的知識納入模型。通過PGM的結構，人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力，可以比較鑒別模型，特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究，如: 綜合研究(Pan & Yang, 2010;Weiss et al.， 2016)，應用，如強化學習(Taylor & Stone, 2009)，協同過濾(Li, 2011)，視覺分類(Shao, Zhu， & Li, 2015)，人臉和物體識別(Patel, Gopalan, Li， & Chellappa, 2015)，語音和語言處理(Wang & Zheng, 2015)，活動識別(Cook, Feuz， & Krishnan, 2013)，和方法論，如計算智能(Lu, Behbood, Hao, Zuo, Xue， & Zhang, 2015)，在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果，總結了已有的遷移研究的基本方法，為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述，并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用，并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后，第四部分對本文進行了總結，并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容

自然語言處理 · 知識表征 · 語義知識 · 預訓練 · 語言模型 ·

2021 年 9 月 25 日

[付費5元查看完整內容]知識感知的預訓練語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：隨著自然語言處理（NLP）領域中預訓練技術的快速發展，將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異，知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果，分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型，分別介紹引入不同外部知識的預訓練語言模型，并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上，分析當前預訓練語言模型發展過程中所面臨的問題和挑戰，并對領域發展前景進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0060823

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

大模型

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

二、實驗設置

2.1 任務形式

2.2 參考文檔

2.3 設置細節

三、實驗結果分析

3.1 LLM感知其事實知識邊界的能力如何？

四、總結

相關內容

引言

基于指令的評測

評測設置

評測指標

數據集

模型

評測結果

指令數據集對幻覺的影響

頻繁出現物體的影響

頻繁共現物體的影響

POPE

概述

評測結果

無標注數據集評測

幻覺與VQA性能的關系

總結

摘要

縮放法則（Scaling Law）

涌現能力的概述

涌現能力的定義

基于普通提示的涌現能力

基于增強提示的激發方法

不同的涌現能力的介紹

**優秀的上下文學習能力

**可觀的知識容量

**優秀的泛化性

**復雜推理能力

涌現能力是海市蜃樓？

結語

參考文獻