亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

相關內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。

1. 引言

在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。

現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。

LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。

盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。

2 幻覺在LVLM時代

**2.1 大型視覺-語言模型

LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。

**2.2 LVLMs中的幻覺

LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。

**2.3 LVLMs中幻覺的獨特挑戰

LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。

交織的原因

LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。

綜合緩解方法

除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。

3 評估方法和基準

在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。

評估方法:

非幻覺內容生成評估(Evaluation on Non-Hallucinatory Generation):

手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。

幻覺鑒別評估(Evaluation on Hallucination Discrimination)

這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。

基準(Benchmarks):

基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:

判別性基準(Discriminative Benchmarks):

這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。

生成性基準(Generative Benchmarks):

生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。

這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。

4. LVLM幻覺的原因

數據問題(Data Issues)

數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。

視覺編碼器問題(Vision Encoder Issues)

有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。

模態對齊問題(Modality Alignment Issues)

連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。

LLM問題(LLM Issues)

上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。

這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。

5. LVLM幻覺的緩解

LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。

6 結論

配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:

eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.

付費5元查看完整內容

醫學圖像分割在各種醫療保健應用中起著關鍵作用,可實現準確診斷、治療計劃和疾病監測。近年來,視覺 Transformer (ViTs)作為一種有前景的技術,用于解決醫學圖像分割的挑戰。在醫學圖像中,結構通常高度互連和全局分布。ViTs利用其多 Scale 注意機制來模擬圖像中的長程關系。然而,它們確實缺乏與圖像相關的歸納偏見和翻譯不變性,這可能會影響它們的性能。近年來,研究人員提出了一些將卷積神經網絡(CNNs)納入其結構的ViTs基方法,稱為混合視覺 Transformer (HVTs),以捕獲圖像中的局部相關性,并捕捉圖像中的全局信息。本文詳細介紹了ViTs和HVTs在醫學圖像分割方面的最新進展。除了對ViTs和HVTs基醫學圖像分割方法的分類外,作者還概述了它們在幾種醫學圖像模式中的實時應用。本文可作為研究人員、醫療保健從業者和學生的有益資源,以了解基于ViTs的醫學圖像分割的最新方法。

1 Introduction

在醫學圖像分析中,圖像分割起著重要作用。在醫學圖像中進行準確而高效的分割可以幫助醫生識別和評估特定的解剖特征、疾病或感興趣的區域。這些分割區域然后被分析,以估計疾病預后并制定有效的治療策略。 在過去的十年中,利用深度學習技術在醫學圖像分割領域取得了顯著的進步,尤其是卷積神經網絡(CNNs),因為它們能夠從未處理的數據中捕獲復雜的模式。CNNs傾向于捕獲圖像中的局部相關性,這使得它們能夠學習整個圖像中分布的局部模式。從圖像中提取2D特征的固有性質使它們優于傳統方法。UNet是改變了醫學圖像分割任務的一類基于CNN的編碼器-解碼器技術。 隨著時間的推移,許多UNet類似的算法被提出用于各種醫學圖像分割任務,在各種醫學圖像模式中取得了顯著的改進。然而,它們在圖像中的全局關系建模能力受到卷積算子的局部性質的限制。 研究人員提出了一些方法來將全局信息納入基于CNN的分割架構中。在這方面,各種基于注意力的方法已經發展起來,以關注醫學圖像中的重要區域。最近,最初用于自然圖像的視覺 Transformer (ViTs)在計算機視覺和醫學圖像分析等各種圖像相關領域中取得了突出地位。 ViTs中的多 Scale 自注意力機制(MSA)具有捕獲圖像內全局關系的功能。基于ViTs的架構在處理各種圖像模式下的復雜醫學圖像分割任務中取得了顯著結果。ViTs固有的從醫學圖像中建模全局特征的能力涉及首先將圖像分割成patch,然后通過他們的自注意力機制處理每個patch。然而,ViT架構不包括與圖像相關的歸納偏差,以處理圖像中的位置變化。此外,它們的性能可能會受到訓練數據量的影響,因為ViT模型需要大量的訓練數據進行學習。

近年來,將卷積神經網絡(CNN)的歸納偏差集成到ViT架構中的興趣日益增長,導致CNN-transformer的產生,也稱為混合視覺 Transformer (HVTs)。這些CNN-transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。已經開發了許多新穎的框架,利用CNN-Transformer架構在醫學圖像分割等相關任務上展示出令人印象深刻的結果。 由于基于ViTs的醫學圖像分割技術迅速發展,已經進行了許多有趣的調查以回顧這些方法。這些調查大多數是針對特定器官或回顧特定模式。在本論文中,作者綜合調查了各種模態的ViTs基分割方法。此外,作者將這些方法分為兩類:

  1. ViTs基礎方法
  2. HVTs基礎方法

其次,作者為HVT設計了一個分類法,包括:

  1. 基于編碼器的方法
  2. 基于解碼器的方法
  3. 編碼器-解碼器集成方法

圖1是本綜述的具體的流程:

2. Medical Image Segmentation Overview

診斷和治療疾病和其他醫療狀況需要醫學測試來幫助醫生查看體內的情況。在這方面,醫學影像是必不可少的,因為它允許非侵入性觀察和診斷各種醫療狀況。不同的成像模式提供對人類身體不同方面的獨特見解。 醫學圖像在診斷和治療疾病方面具有重要意義,因為它提供了有關癥狀的有價值信息。然而,在像素級別的醫學圖像檢查中,只有某些區域對準確診斷和治療有所貢獻,如CT掃描中的腫瘤區域。因此,將感興趣的區域(無論是感染區域還是異常器官)進行分割仍然是一個對研究人員來說既重要又具有挑戰性的任務。準確地識別感興趣區域是醫學影像特征分割中最關鍵的一步,這對于輔助診斷、圖像引導手術和治療計劃至關重要。圖像分割包括將圖像劃分為根據感興趣區域劃分成幾部分和目標。因此,醫學影像中最重要特征分割的任務就是準確地識別感興趣區域。 醫學圖像分割可以分為語義分割、實例分割和全像素分割三個子任務。語義分割通常被視為像素級別的分類,即對圖像中的每個像素進行標簽。實例分割檢測和勾勒出圖像中的每個關注項目或目標,并繪制實例的邊界框。而全像素分割的目標是提供更全面的了解,通過結合語義分割和實例分割。它不僅為圖像中的每個像素分配一個類別標簽(如語義分割),而且還對同一類別中的不同實例(如實例分割)進行分類。 在臨床病理學中,金標準是通過病理學家進行手工醫學圖像分析。這種手工檢查涉及經過高度訓練的病理學家通過視覺觀察醫學圖像并手動勾勒或 Token 感興趣的區域,如腫瘤、病變或特定解剖結構。這種手工評估既費時又費力,且可能受到人類主觀性的影響,需要專家醫生[26]。然而,數字病理學引入了一種新的范式轉變,通過提供研究人員設計自動化系統的能力,實現快速、準確的診斷。這些自動化系統可以通過為病理學家提供快速診斷(可用作第二意見)來幫助他們減輕負擔[27]。在醫學影像的不同模式中,描述了人體內部結構。 這些模態的分割可以隔離特定器官,同時幫助在特定器官內識別疾病。 對于自動化診斷,多年來已經應用了許多傳統的醫學圖像分割方法。這些方法包括基于區域的分割技術、邊緣檢測技術、統計形狀模型、活動輪廓模型、閾值、聚類和機器學習方法[28]。然而,精確自動分割醫學圖像仍然是一個巨大的挑戰,原因有:

  1. 醫學圖像中目標的大小范圍很大
  2. 結構輪廓的歧義,以及與多樣紋理變化和復雜形狀相結合,容易產生不準確的結果
  3. 低強度對比度下從背景中隔離感興趣目標的挑戰
  4. 缺乏足夠多的訓練數據集

在過去的幾年里,深度學習領域的進步,尤其是卷積神經網絡(CNNs)的勝利,大大提高了醫學圖像分割算法的性能。基于深度學習的分割算法在具有密集標簽的情況下表現出卓越的性能,特別是每個像素的標注。CNN有效地應用于醫學圖像分割和分類,以評估臨床實踐中的各種成像技術,包括超聲、MRI、X光等。然而,由于卷積濾波器的限制接收域,它們無法捕獲醫學圖像中的持久依賴關系。U-Net在該領域占主導地位,因為其高效性能和出色準確性,這得益于包括跳接連接和擴展解碼器網絡至今。V-Net是基于FCN的U-Net的杰出架構變體,其操作在3D中進行,以處理體積圖像。 隨著ViTs的出現, Transformer (Transformer)已成為執行各種與圖像相關的任務的可行方法,包括圖像分割、圖像識別和目標檢測[33]。 Transformer ,由于其學習全局上下文的能力,在精確醫學圖像分割方面表現出色。這導致了顯著的性能改進,尤其是在具有較大感受野的器官分割中,如肺分割。 Transformer 通過自注意力機制提取全局和長期依賴關系,而CNN,具有局部感受野,通常在圖像中學習局部相關性。 基于 Transformer 的方法在各種實際分割任務中已被證明非常有效,包括大腦腫瘤/組織分割,細胞核分割,結直腸癌分割,肝病灶分割,腎腫瘤分割,多器官分割,以及皮膚病變分割。最近,研究人員將兩種架構相結合,以合并其優勢。這些進步促進了醫學圖像分割領域的發展。

3 Introduction to Vision Transformers

在過去的十年里,CNN廣泛應用于各種計算機視覺任務,如醫學圖像分析。然而,卷積濾波器的有限感受野限制了CNN在醫學圖像中捕捉持久依賴關系的能力,這可能會影響它們的性能。最近,Transformer和ViTs由于其出色的性能引起了研究人員的廣泛關注。Transformer最初被提出用于機器翻譯,但由于它們能夠通過自注意力機制處理序列,因此在許多自然語言處理(NLP)任務中變得流行。 受到自然語言處理(NLP)中Transformer的成功啟發,Dosovitskiy等人提出了一種ViT,用于處理圖像作為一個序列的 Token (tokens),而不是一個2D像素網格。ViT架構在多個與圖像相關的任務中取得了顯著的成功,這鼓勵研究人員使用改進的ViTs。這些改進包括更改位置編碼技術、自注意力機制或創建新的架構變體。

Fundamentals of ViTs

ViTs基于Transformer架構來處理圖像數據,從而顛覆了計算機視覺領域。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViT可以識別出存在于圖像中的內在結構。 ViT將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,在 Patch 嵌入中添加了位置嵌入。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊以獲得圖像掩碼。

4. ViTs在醫學圖像分割中的應用

ViTs在醫學圖像分割方面的應用取得了顯著的成果。ViTs架構基于Transformer,可以處理圖像數據,從而在計算機視覺領域引起了革命性的變革[13]。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViTs可以識別出存在于圖像中的內在結構[49]。 ViTs將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入[50]。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器[50]的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,位置嵌入[51]被添加到 Patch 嵌入[51]中。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡[52]。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征[52]。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示[53]后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊[53]以獲得圖像掩碼[53]。 近年來,ViTs在醫學圖像分割方面取得了許多進展。一些研究人員提出了基于ViTs的醫學圖像分割方法,如Hybrid Vision Transformers (HVTs)[16]。這些CNN-Transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。這些新穎的框架在醫學圖像分割等相關任務上展示了令人印象深刻的結果[17]。 在本文中,作者對最近的ViTs基醫學圖像分割方法進行了詳細調查。作者將其分為兩類:

  1. 基于ViTs的方法
  2. 基于HVTs的方法

作者進一步將HVTs方法分為三類:

  1. 基于編碼器的方法
  2. 基于解碼器的方法
  3. 編碼器-解碼器集成方法

作者詳細介紹了這些方法,并對其在各種醫學圖像模式中的實時應用進行了概述。本文可能對研究人員、臨床醫生等在理解基于ViTs的醫學圖像分割的最新方法方面具有很大的價值。 CNNs在醫學圖像分析中經常被用于各種應用,如腫瘤檢測[54, 55],COVID-19檢測[56],皮膚病變檢測[57],以及分割[58]。然而,由于其感受野有限,CNNs可能難以學習顯式的長程依賴性[59]。相比之下,基于ViT的醫學診斷系統可以捕獲大的感受野,并在各種醫學圖像相關任務上表現出卓越的性能[60]。 已經開發了許多基于ViT的醫學圖像模式系統,包括:

  1. 基于分類的系統
  2. 基于檢測的系統
  3. 基于分割的系統

在醫學影像中,對各種類型的癌變細胞的分類和檢測對于病理學家及時進行疾病診斷至關重要。ViTs和更 recently 由于它們在CNNs上的明顯優勢,已成為高度有效的解決方案[64]。基于ViT和HVT的系統在各種醫學圖像分類任務上表現出顯著的性能[65],包括乳腺超聲圖像分類[66],COVID-19檢測[67, 68, 69, 70],組織學圖像分類[71, 72, 73, 74],有絲分裂檢測[75, 76, 77],皮膚病變檢測[78, 79, 80, 81]。這些方法顯著提高了醫學圖像分類的準確性和效率,并有可能增強臨床診斷和決策。

ViT-based Medical Image Segmentation Approaches

基于分割的ViTs已經提出,可以根據其架構修改和采用的不同訓練策略進行廣泛分類。大多數基于ViTs的醫學圖像分割方法使用類似于UNet的編碼器-解碼器架構,其中ViT架構可以采用以下:

  1. 在編碼器中
  2. 在解碼器中
  3. 在編碼器-解碼器之間
  4. 編碼器和解碼器都是ViTs架構

下面對這些類別的詳細信息進行討論。

**4.1.1 ViT in Encoder

編碼器-解碼器架構是大多數醫學圖像分割技術的基石。編碼器架構負責學習圖像中的隱藏嵌入,然后通過解碼器解碼到分割掩碼。為了在編碼器和解碼器之間實現有效信息傳遞,還添加了跳接連接和傳統的順序流。這些跳接路徑可以是直接連接或基于CNN的處理塊。許多基于ViT的醫學圖像分割方法在其編碼器中使用ViT架構,以將全局關系融入其學習的潛在空間中。這種技術得益于ViT的MSA,可以利用全局特征,同時特征提取在編碼器塊中。基于CNN的解碼器則利用這種高級信息進行像素級分割掩碼的預測。

在Hatamizadeh等人的一項研究中,開發了一種基于Transformer的UNETR(UNet Transformer)架構,通過克服UNet的局部相關性限制,實現3D醫學圖像分割。它具有基于ViT的編碼器,有效地捕獲輸入體積的多 Scale 全局信息。為了計算最終語義分割輸出,編碼器通過跳接連接直接鏈接到不同分辨率的解碼器,通過跳接連接,類似于U-Net。

**4.1.2 ViT in Decoder

一些編碼器-解碼器技術只在其解碼部分將ViT集成,以準確預測分割圖像。由于全局上下文對于預測邊界完美的分割掩碼和區分背景和感興趣的目標非常重要,因此MHSA在解碼階段對于這種目標非常有利。ConvTransSeg使用基于CNN的編碼器進行特征學習,并使用ViT基解碼器,在多個階段鏈接。ConvTransSeg在二分類和多分類分割問題上顯示出優越的結果,包括皮膚病變、息肉、細胞和腦組織。

**4.1.3 ViT in both Encoder-Decoder

許多研究人員在編碼器和解碼器架構中都利用了ViTs,以充分利用注意力機制。Coa等人引入了Swin-Unet,用于醫學圖像分割。他們的架構基于Swin Transformer,其中編碼器采用移位窗口方法,解碼器中具有patch嵌入層。編碼器和解碼器架構都是分層設計的,以增強分割準確性和魯棒性。Zhou等人提出了nnFormer,這是一種體積 Transformer 網絡,用于進行分割。該架構利用基于注意力的跳接連接,以將體積圖像中的局部和長期關系相結合。

此外,他們利用了體積-MSA(V-MSA)和移位版本-MSA(SV-MSA)的多頭自注意力,以降低計算復雜性和捕捉多 Scale 信息。黃等人提出的MISSFormer是一種編碼器-解碼器架構,它融合了增強Transformer Block和增強Transformer Context Bridge,以減少計算復雜性。TransDeepLab[88]將DeepLabv3網絡[89][90]與基于移位窗口的Swin Transformer相結合。它在Swin-Transformer模塊內使用可變窗口大小來融合多個 Scale 上的信息。

**4.1.4 ViT in between Encoder-Decoder

李等人提出了一種基于ViTs的ATTransUNet架構,該架構利用自適應 Token 。在他們模型中,ViTs被集成到跳接連接[90]中。他們使用自適應 Token 提取模塊(ATEM)在編碼器中提取圖像中最有判別力的視覺 Token 。這導致復雜性降低和性能增強。 在解碼器架構中,他們采用了一種選擇性特征強化模塊(SFRM)來關注最具有貢獻的特征。 雙交叉注意力(DCA),這是一種簡單但強大的注意力模塊,可改進U-Net基礎架構中的跳接連接,用于醫學圖像分割,由Ates及其同事提出[91]。通過從多 Scale 編碼器獲得的特征建模信道和空間關系,DCA在編碼器和解碼器特征之間建立了語義鴻溝。DCA首先使用通道交叉注意力(CCA)和空間交叉注意力(SCA)模塊來建模信道和空間關系。最后,將編碼器特征上采樣以對應解碼器的相應層。

ViT-V-Net在CNN編碼器和解碼器之間的瓶頸層應用ViT塊,用于無監督的體積醫學圖像配準任務[92]。CoTr提供了一種高效的混合架構,使用CNN進行特征提取,使用可變形自注意力機制進行全局上下文建模[93]。使用的選擇性多 Scale 可變形多頭自注意力(MS-DMSA)減少計算復雜性,并允許更快地收斂。

Hybrid ViT-Based Medical Image Segmentation Approaches

純粹的ViT架構,完全依賴于注意力機制,缺乏卷積運算符,可能導致低級細節丟失,從而導致不準確的分割結果。HVTs通過集成ViTs和CNN架構的優勢,展示了捕獲輸入數據中長程和局部上下文的能力。這種獨特的組合使HVTs在各種任務上都能實現尖端性能,特別是在醫學圖像分割方面表現尤為突出。

**4.2.1 Hybrid ViT in Encoder

最近研究中最常見的趨勢是將HVTs集成到編碼器階段。TransUNet在其編碼器階段使用HVT架構,在解碼器階段使用級聯上采樣器[94]。它結合了ViT和U-Net的優勢,捕捉輸入圖像中的局部相關性和長期關系,以獲得準確的分割結果。Wang等人提出了一種名為TransBTS的分割架構,將ViT和3D CNN分別用于獲取全局上下文信息和局部細節[95]。它處理3D醫學體積數據,以捕捉圖像切片中的局部相關性和長期依賴關系。TransFuse利用了一個雙融合模塊來結合其編碼器和解碼器分支,分別是CNN和ViT架構[96]。

MedT引入了一種新穎的注意力和訓練策略,用于醫學圖像分割[97]。它包括一個全局模塊(基于ViT)和一個局部模塊(基于CNN)來捕捉像素中的高層次和細粒度細節。Swin-UNETR將Swin Transformer與U形架構相結合,用于分割腦腫瘤區域[98]。這涉及將輸入劃分為非重疊的 Patch ,并利用窗口機制。然而,將自注意力機制集成到CNN中可能導致由于空間尺寸大而計算復雜性高。在這方面,H2Former被引入,以有效結合MSA和CNN的優勢,進行醫學圖像分割[99]。H2Former在保持模型參數、浮點運算(FLOPs)和推理時間方面的計算效率方面超過了以前的技術。

**4.2.2 Hybrid ViT in Decoder

為了在解碼階段利用Hybrid ViT的優勢,近年來研究將HVT集成到解碼器架構中。最近一項研究提出了一種統一的框架UNetFormer,在編碼側使用3D Swin Transformer,在解碼側使用CNN和Transformer的組合。

**4.2.3 Hybrid ViT in both Encoder-Decoder

許多研究人員在他們的架構中同時使用ViT和基于CNN的模塊,在編碼器和解碼器部分。最近,MaxViT-UNet作為一種創新的高ViT-UNet解碼器,專門用于醫學圖像分割[101]。作者有效地利用了多軸自注意力機制,允許模型在局部和全局軸上關注特征,從而增強目標和背景區域之間的判別能力,從而提高分割效率[102]。

5 ViT-based Medical Image Segmentation Applications

由于ViTs能夠捕捉像素之間的全局關系,醫學圖像分析領域出現了指數級的增長。基于ViTs的醫學圖像分割可以廣泛地根據特定的圖像模式進行分類。這些方法包括但不限于:

  1. CT圖像上的醫學圖像分割
  2. 組織學圖像上的醫學圖像分割
  3. 顯微鏡圖像上的醫學圖像分割
  4. MRI圖像上的醫學圖像分割
  5. 超聲圖像上的醫學圖像分割
  6. X光圖像上的醫學圖像分割

醫學圖像處理是醫學分析的主要步驟,通過各種任務,如細胞計數、分類、檢測和分割,促進診斷的熟練程度。然而,醫學圖像分割是醫學診斷中最常用的任務[103, 104, 105]。

CT Images

CT(計算機斷層掃描)是一種先進的醫學影像技術,它使用X射線來生成詳細的斷層身體圖像,用于疾病檢測和診斷。目前,用于CT圖像分割的技術大多數使用CNN,但ViTs的最近進展已經改變了這一趨勢,許多針對CT模態的框架已經出現[106, 107, 108]。 TAU-Net3+用ViT替換了UNet的CNN編碼器,用于腎臟腫瘤分割,并在跳接連接中添加了一種新穎的注意力機制,稱為編碼器-解碼器 Transformer (EDformer),以學習局部特性。 為了應對在CT圖像中實現準確前列腺分割所遇到的挑戰,FocalUNetR引入了一種創新圖像分割框架,利用一個關注 Transformer [108]。這種架構設計有效地捕獲了局部視覺特征和全面上下文信息,具有高效性和有效性。作者創新地引入了一個輔助模塊,稱為“邊界誘導的標簽回歸”,以補充主要的前列腺分割任務。Hoa等人提出了DBM-ViT,用于利用CT和胸X光圖像對COVID-19和其他肺炎類型進行鑒別[110]。DBM-ViT中使用具有不同擴展率的逐點卷積增強了全局信息的捕捉。STHarDNet由Gu等人開發,用于進行腦出血分割[111]。在他們方法中,HarDNet和Swin Transformer被集成,以增強每個模型單獨實現的分割性能。

Histopathological Images

組織病理學圖像是從組織學檢查樣本中獲得的,由病理學家用來研究細胞結構和發現顯微鏡異常或疾病[112]。基于組織病理學的分析對于及時的癌癥診斷和預防至關重要。雖然ViTs在組織病理學圖像上的應用還處于早期階段,但它們已經在各種組織病理學分割任務上取得了有前景的結果[113, 114, 115]。 Wang等人提出了DHUnet,這是一種創新的功能融合方法,將全局和局部特征融合在一起,用于分割WSI(Whole Slide Image)。這種方法將Swin Transformer和ConvNeXt模塊集成在一個雙分支分層的U形架構中[116]。 另一種最近的方法是引入了具有級聯上采樣(SwinCup)的Swin Transformer來分割組織病理學圖像[117]。為了提高SwinCup提出的特征聚合,作者引入了一個與編碼器結合的級聯上采樣解碼器。 在另一種技術中,MaxViT-UNet,作者提出了一種類似于Unet的編碼器-解碼器CNN-Transformer框架[101]。提出的混合解碼器利用多軸自注意力(Max-SA)來提高分割結果。這些模型隨后有可能在臨床試驗中為患者分層,為目標療法選擇患者以及個性化治療計劃做出貢獻。

Microscopy Images

顯微鏡技術涉及使用顯微鏡觀察微小的物體,如細胞、組織和微生物[118]。不同類型的顯微鏡,如光學顯微鏡、電子顯微鏡和熒光顯微鏡,提供了不同程度的細節和分辨率[119, 120]。皮膚病變的分割是計算機輔助診斷和治療計劃中的關鍵步驟。它使可以客觀地識別和測量病變的大小、形狀和特征,在分類良性病變和惡性病變、早期檢測和監測時間變化中發揮重要作用。從ViTs在各種醫學領域的成功應用中得到啟示,最近的方法提出使用ViTs為基礎的解決方案進行皮膚病變分割[78, 79, 80]。值得注意的是,在LesionAid框架[80]中,作者提出了一種新穎的多類預測方法用于皮膚病變,使用了ViT和ViTGAN[121]。為了解決類別不平衡問題,這些技術中使用了基于ViTs的生成對抗網絡(GANs)。 視網膜血管的結構和功能改變與心血管疾病有關,包括冠狀動脈疾病、動脈粥樣硬化和高血壓。對視網膜圖像的自動分割和隨后的分析對于評估和預測相關疾病至關重要,從而有助于公共衛生。在之前的視網膜血管分割研究中,各種研究方法創新地利用了 Transformer 的能力[122, 123, 124, 125, 126, 127, 128]。OCT2Former [125] 采用編碼器-解碼器架構,使用動態 Transformer 編碼器與輕量級解碼器相結合。動態 Token 聚合 Transformer 在動態 Transformer 編碼器中捕獲視網膜血管的全局上下文信息,而輔助卷積分支解決了 Transformer 固有的歸納偏差。Du等人提出了一種集成策略,將不同基礎深度學習模型集成起來,如FCN-Transformer和金字塔視覺 Transformer (PVT),用于視網膜血管分割[124]。

MRI Images

磁共振成像(MRI)通過應用強大的磁場在人體內生成復雜的視覺表示,用于顯示組織和器官。這種成像模式在檢查關節、肌肉、心臟和肝臟等解剖區域時特別有價值。 近年來,ViT-based方法在心臟磁共振成像(MRI)數據分割方面的應用顯著增加,如[130, 131, 132, 133]所示的方法。范等人提出了一種知識細化技術,稱為視覺Transformer與特征再組合和特征蒸餾(ViT-FRD)。在他們方法中,ViT作為學生網絡,吸收CNN的知識,并通過優化的蒸餾損失作為教師網絡。ViT-FRD將兩種改進措施納入以提高訓練效率和效果。 腦腫瘤分割的自動化和準確方法的發展有可能加速跨一系列腫瘤表型的診斷。近年來,采用Transformer-based模型有效地分割腦腫瘤的研究明顯增加。例如,DenseTrans創造性地將Swin Transformer與增強的UNet++網絡相結合。這種集成旨在從高分辨率層的卷積層中提取局部特征,并從Swin Transformer的位移窗口操作和自注意力機制中提取全局特征。 在3DCATBraTs的情況下,研究人員將Swin Transformer用于3D MRI圖像中的腦腫瘤分割。這種Transformer包括一個修改后的CNN-encoder架構,具有殘差塊和通道注意力模塊。此外,在不同的調查中,研究人員引入了一個強大的3D融合分割網絡AMTNet,該網絡基于傳統的U形結構。值得注意的是,AMTNet包括一個基于Transformer的特征融合模塊,旨在增強多模態特征的集成。 在利用MRI圖像進行乳腺癌病變分割領域,如[139, 140, 141]等最近的研究,Iqbal等人提出BTS-ST,該方法受到Swin Transformer的啟發,以增強特征表示能力,特別是對于形狀不規則的腫瘤。BTS-ST創新地將Swin Transformer塊中的像素級相關性編碼空間知識。 為解決信息損失問題,引入了特征壓縮塊,并使用關系聚合塊將Swin Transformer與CNN的特征進行有序的層次組合。在另一項研究中,Muller Franzes等人提出了TraBS[98],該方法增強了對多機構MRI數據中乳腺癌分割的原始SwinUNETR模型。TraBS策略性地利用非等距 Kernel 和步長在初始兩階段保持一致的深度,并集成深度監督以處理低分辨率層。

Ultrasound Images

超聲或聲學,使用高頻聲波產生器官和組織的實時圖像。在產科中廣泛使用,用于監測懷孕和評估胎兒發育,超聲在醫療保健中占據重要地位。早期發現乳腺癌的潛力,可降低40%以上的死亡率,突顯了對于醫療保健從業者進行自動化乳腺腫瘤檢測的重要性。 朱等人[144]提出了區域感知 Transformer 網絡(RAT-Net),該網絡巧妙地將不同 Scale 的乳腺癌區域的信息集成在一起,從而實現精確的分割。同樣,劉等人[145]設計了一種混合架構,將 Transformer 層集成到3D UNet的解碼器部分,以便在 Voxel 乳腺數據中實現高效的腫瘤分割。LET-Net架構[146]最近提出,結合了 Transformer 和卷積方法。其特征對齊局部增強模塊有助于提取獨特的局部特征,同時保持與相鄰級別特征的對齊。此外,逐步局部誘導解碼器專注于通過一系列局部重構和細化階段恢復高分辨率的空間細節,受自適應重構核的指導,并通過拆分注意力機制增強。 類似地,MRC-TransUNet [147] 提出了一個創新的方法,將 Transformer 和UNet組件合并。它包括一個輕量級的MR-ViT,以彌合語義差距,并利用一個相互關注模塊(RPA)來抵消潛在的細節損失。這些研究努力共同表明,基于ViTs的技術具有顯著提高醫學圖像分割準確性的潛力,并有望在各種臨床應用中發揮作用。

X-Ray Images

X射線圖像在診斷和治療上都起著重要的作用,為人體內部器官提供了無價之寶的見解。現代深度學習模型可以有效地使用X射線圖像來診斷各種醫學疾病,它們在這個過程中的重要作用是眾所周知的。 牙根分割是牙科圖像分析的一個重要階段,因為它允許牙醫精確測量牙根的大小和形狀,并發現可能存在的任何異常。許多最近的工作都采用了ViTs進行牙根分割[129, 149, 150]。楊等人引入了ImplantFormer,這是一個基于Transformer的種植體位置回歸網絡,使用口腔CT數據自動預測種植體的位置[149]。ImplantFormer使用牙齒冠部區域的2D軸向圖像來預測種植體的位置,并在擬合中心線之前精確定位種植體在牙根中。在另一項研究中[151],趙等人引入了SwinUnet,這是一個專門用于全景X光片分割的U形Transformer基礎架構,包括編碼器、解碼器和跳接連接。 乳腺X線攝影是一種特定的X射線檢查方法,用于檢查乳腺組織是否有乳腺癌的跡象。某些研究已經針對改進腫瘤邊界分割的架構設計進行了努力[148, 152]。CSwin-PNet最近被提出用于乳腺病變分割任務。其架構基于一個金字塔網絡,將CNN和Swin Transformer相結合[148]。

6 Challenges

VITs在醫學圖像分割方面具有巨大的潛力,可以徹底改變醫學影像。通過使用Transformer,這是一種在自然語言分析中非常成功的方法,ViTs提供了一種創新的方法來分析和提取醫學圖像中的有價值的數據。然而,盡管它們具有潛力,但ViTs在臨床設置中應用之前仍然面臨許多挑戰和限制。 1. 缺乏空間信息 1. 擴展性和計算成本 1. 數據稀缺和類別不平衡 1. 標注質量 1. 可解釋性模型泛化

7 Future Recommendations

鑒于醫學圖像分割領域中視覺 Transformer 所面臨的獨特挑戰,以下是一些可能的未來研究和創新方向: 1. 開發新的架構 1. 改進訓練范式和方法 1. 探索集成方法 1. 將領域知識集成 1. 遷移學習 1. 多模態學習

8 Conclusion

基于ViTs的圖像分割技術在許多與圖像相關的應用中表現出優越性能,包括醫學圖像。ViTs中的自注意力機制使模型能夠學習圖像中的全局關系。本文詳細討論了幾種架構修改以及一些最新的趨勢和訓練技術,以提高基于ViTs的醫學圖像分割方法的表現。 然而,ViTs缺乏捕捉醫學圖像中局部相關性的趨勢,這可能影響其性能。因此,研究人員提出了一些利用CNNs的ViTs醫學圖像分割方法,以同時捕捉圖像的局部和全局視角。作者還詳細討論了基于CNN和ViTs的醫學圖像分割技術,并按照它們在基于編碼器-解碼器架構中的位置進行分類。此外,作者還對各種ViTs和HVTs在實際醫學圖像分割應用中的使用方式進行了器官級別的概述。

參考

[1]. A Recent Survey of Vision Transformers for Medical Image Segmentation.

付費5元查看完整內容

隨著人工智能的不斷進步,像 ChatGPT 這樣的大型語言模型有可能徹底改變國防采購和合同簽訂的方式。由于語言模型能夠生成類似人類的文本,因此可以自動完成采購中的許多重復而耗時的任務,如文件準備、研究和溝通。與任何新技術一樣,國防工業采用大型語言模型也存在相關風險。這些風險包括潛在的安全漏洞、決策偏差和意外后果。在本文中,我們將探討在國防采購和合同簽訂中使用 ChatGPT 等高級語言模型所帶來的機遇和風險。

ChatGPT 是一種人工智能語言模型,是一種根據用戶輸入生成文本的計算機程序。雖然有許多語言模型,但 ChatGPT 因其能夠準確生成類似人類的文本而在最近受到最多關注。ChatGPT 由 OpenAI 開發,OpenAI 是一家致力于創建和推廣友好人工智能的研究機構。OpenAI 使用一種名為 "從人類反饋中強化學習 "的人工智能技術對模型進行了訓練。訓練過程包括向計算機程序輸入大量數據,然后向程序提供反饋和調整,以提高其性能。據估計,ChatGPT 在超過 3000 億字的大量文本上進行了訓練。

ChatGPT 能夠理解并生成連貫、有意義的文本,這使它成為一款廣受歡迎的工具,在 2022 年 11 月發布后的短短一周內就吸引了 100 多萬用戶。據估計,到今年 1 月,它的月活躍用戶已達 1 億,成為歷史上增長最快的消費者應用程序。

大多數用戶通過網絡瀏覽器上簡單自由的文本提示訪問 ChatGPT,而微軟等公司已經開始將人工智能集成到其軟件服務中。微軟最近宣布對 OpenAI 進行為期多年、價值數十億美元的投資,并將在必應搜索引擎和 Microsoft Teams 等消費者和企業產品中部署 ChatGPT 模型。這項投資估計價值超過 100 億美元,凸顯了對高級語言模型日益增長的需求。

高級語言模型的工作原理

像 ChatGPT 這樣的高級語言模型是利用復雜的人工智能計算機編程技術開發出來的。開發人員將大量文本數據輸入計算機程序,由程序對信息進行分析和處理。數據來源多種多樣,如書籍、文章和網頁。計算機程序的輸出是另一種稱為語言模型的計算機程序,它能夠理解和生成人類文本。

然后,數據科學家和工程師團隊通過一個稱為訓練和微調的過程對模型進行調整。他們會調整數據和模型用于計算的參數,使其能夠對新的文本數據做出越來越準確的預測或決策。他們會重復這個過程數百萬次,直到它能高概率地準確預測下一個單詞。一旦模型經過訓練和微調,就可以用來執行各種語言任務。例如,它可用于生成連貫、逼真的文本,回答問題,以及總結大量文本。

機遇和用例

雖然 ChatGPT 目前在語言模型領域處于行業領先地位,但其他公司也在迎頭趕上。在不久的將來,我們將有更多機會接觸到這些語言模型,并與許多我們已經熟悉的軟件工具進行更多整合。隨著語言模型變得越來越先進,它們也將可以根據特定的風格、流派和領域(如國防部的采購)進行定制。有人猜測,語言模型將成為 "寫作的計算器"。他們預測,就像我們今天依靠計算器完成大部分數學計算一樣,未來我們也將依靠語言模型完成大部分寫作。

作者最近調查了一組采購官員,以收集他們對如何在國防采購中使用語言模型的看法。事實證明,他們的反饋很有參考價值,分享了一些值得注意的見解。例如,一些人表示有興趣將人工智能或 ChatGPT 整合到合同撰寫系統中,以幫助起草履約工作說明書或撰寫需求。還有人認為 ChatGPT 可以幫助進行市場調研,找出創新的解決方案來彌補能力上的差距。提到的另一個潛在應用是利用 ChatGPT 的分析能力來制定現實可行的要求和標準,以便選擇供應商。此外,一些人還建議使用 ChatGPT 來協助撰寫標準表格,包括單一采購管理計劃和測試評估總計劃,以及幫助外國供應商瀏覽 SAM.gov 和采購集成企業環境等系統。

值得注意的是,一些采購專業人員已經在利用 ChatGPT 來提高他們的工作效率,盡管不是出于官方目的。他們將其用于個人項目、研究和創意生成。一位官員使用 ChatGPT 查找了政府問責局最近的報告,并將技術語言簡化為更易于理解的術語。另一位官員使用 ChatGPT 為一個潛在的原型項目創建了一份概念性的目標聲明,他們發現這非常有用。一位官員的配偶甚至用 ChatGPT 撰寫了她的簡歷,結果比她的伴侶寫的還要好。最后,許多人對 ChatGPT 簡單高效、快速準確的回答表示贊賞。

作者就曾使用 ChatGPT 協助撰寫過類似這樣的文章、給員工的節日祝福、促銷演講、社交媒體文章、慰問卡、給妻子的情書,甚至是一本書。這為作者節省了數百個小時的時間,并帶來了比自己所能完成的更好的產品。作者的親身經歷和前面的評論都突出表明,ChatGPT 和類似的語言模型在改變國防知識獲取中的寫作本質方面具有巨大的潛力。

圖 變革現實:隨著人工智能的發展,像 ChatGPT 這樣的語言模型將通過自動化重復而耗時的任務,徹底改變國防采購和合同簽訂。(圖片由作者提供)

風險

盡管存在潛在的機遇和用例,但在國防采購和承包中采用大型語言模型也存在相關風險。第一個主要風險是機密或敏感信息的處理,因為語言模型不是為保護受控或機密數據而專門設計或測試的。這可能導致安全漏洞或傳播不準確的信息。

如果語言模型用于生成政府文件,那么審查有關記錄保留法的現行政策也很重要。這些政策規定了某些類型的記錄應保留多長時間。語言模型的使用可能會改變文檔的創建和存儲方式,從而可能影響對這些政策的遵守。

語言模型還可能生成包含偏見、不準確或其他錯誤的文本,從而損害政府的公信力或完整性。因此,語言模型生成的任何文本在使用前都必須經過仔細審查和驗證。因此,網絡安全政策通常會阻止對 ChatGPT 和類似語言模型的訪問,從而減緩了其在國防工業中的應用。不過,一些公司正在研究專門為政府團隊定制語言模型,利用大量政府相關數據對模型進行微調。盡管 ChatGPT 仍處于早期開發階段,但將其集成到 Office 365 和 Microsoft Teams 等微軟產品中很可能是許多政府用戶第一次接觸語言模型。

在政府辦公室之外,行業合作伙伴對語言模型的廣泛采用有望提高他們在項目管理和合同運作方面的效率。使用語言模型可以大大提高行政任務的速度和效率,如起草會議記錄和提交合同提案。信息收集和建議書撰寫的自動化有助于為小企業和非傳統承包商創造公平的競爭環境,因為他們可能不具備與大型承包商相同的資源。

語言模式可以使供應商更容易響應政府招標,從而增加投標數量,促進競爭。政府收到的招標數量增加,可能會使本來就人手不足的承包商隊伍不堪重負。因此,政府必須開始考慮如何有效管理可能涌入的大量提案,并確保評估過程保持公平和徹底。

報價人使用語言模型也會在合同簽訂過程中產生一些風險。報價人可以使用語言模型來優化對政府要求的回應,增加贏得合同的機會,從而使使用語言模型的供應商獲得優勢。這可能導致合同授予擁有最佳人工智能模型的報價人,而不是那些為政府提供最佳價值的報價人。

為了應對這些風險,我們的合同專業人員需要充分了解語言模型是如何編譯和呈現信息的。他們還需要使用相同的語言模型技術來協助市場調研、總結冗長的投標書或識別風險領域。隨著報價人在答復過程中變得更加高效,我們的合同專業人員將需要充分利用資源,以保持同等水平的效率。

結論

大型語言模型有可能提高包括政府部門在內的各行各業的效率和生產力。雖然這些模型在政府部門的廣泛應用可能會落后于商業部門,但行業合作伙伴很可能會首先采用該技術,并將其用于協助撰寫建議書和合同流程,從而使報價人更容易響應政府招標,并為小型企業和非傳統供應商創造公平的競爭環境。對于采購專業人員來說,重要的是要考慮其中的機遇和風險,并以負責任和安全的方式使用該技術。

參考來源:美國陸軍采辦支持中心

付費5元查看完整內容

大型語言模型(LLMs)由于其在語言理解和生成方面的卓越能力,正在成為現代通信網絡不可或缺的一部分。在這些網絡的背景下,由于經常需要使用第三方數據和計算資源,后門攻擊的風險變得非常重要。這樣的策略可能會使網絡中的模型暴露于惡意操縱的訓練數據和處理中,為攻擊者提供了一個機會,將一個隱藏的后門嵌入到模型中,這被稱為后門攻擊。LLMs中的后門攻擊是指在LLMs中嵌入一個隱藏的后門,使模型在良性樣本上正常執行,但在被毒害的樣本上表現下降。在通信網絡中,可靠性和安全性至關重要,這一問題尤為令人擔憂。盡管關于后門攻擊有大量的研究,但在通信網絡中使用的LLMs的背景下,仍缺乏深入的探索,而且目前還沒有關于這種攻擊的系統性綜述。在這次調查中,我們系統地提出了一個LLMs在通信網絡中使用的后門攻擊的分類法,將其分為四個主要類別:輸入觸發、提示觸發、指令觸發和演示觸發攻擊。此外,我們對網絡領域內的基準數據集進行了全面分析。最后,我們確定了潛在的問題和尚未解決的挑戰,為未來增強通信網絡中LLMs的安全性和完整性的研究方向提供了有價值的見解。

//www.zhuanzhi.ai/paper/5a5536928883a6ab3c18866ceeeac87f

付費5元查看完整內容

視覺Transformer (ViT)的快速發展刷新了各種視覺任務中的最先進性能,超過了傳統的基于CNN的模型。這引發了最近在CNN世界中的一些反復性研究,表明在仔細調優時,純CNN模型可以實現與ViT模型一樣好的性能。雖然令人鼓舞,但設計這樣高性能的CNN模型是具有挑戰性的,需要網絡設計的重要先驗知識。為此,提出了一種新的框架DeepMAD,以原則性的方式設計高性能的CNN模型。在DeepMAD中,CNN網絡被建模為一個信息處理系統,其表達能力和有效性可以通過其結構參數解析地表示。然后提出一個約束數學規劃(MP)問題來優化這些結構參數。MP問題可以通過在內存占用較小的CPU上使用現成的MP求解器來輕松解決。此外,DeepMAD是一個純數學框架:在網絡設計期間不需要GPU或訓練數據。在多個大規模計算機視覺基準數據集上驗證了DeepMAD的優越性。值得注意的是,在ImageNet-1k上,僅使用傳統的卷積層,DeepMAD在微小水平上比ConvNeXt和Swin的top-1精度高出0.7%和1.5%,在小水平上高出0.8%和0.9%。

//www.zhuanzhi.ai/paper/171aff4ec046122c05ee31db5c8ded8a

付費5元查看完整內容

目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。

//icml.cc/Conferences/2021/ScheduleMultitrack?event=9680

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容

Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。

//arxiv.org/abs/2009.08445

付費5元查看完整內容
北京阿比特科技有限公司