亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,大語言模型(Large Language Models, LLMs)已成為廣泛人工智能應用的核心工具。隨著 LLMs 的使用范圍不斷擴展,精準評估其預測中的不確定性變得至關重要。然而,當前方法通常難以準確識別、衡量和解決真正的不確定性,許多研究主要集中在估算模型的置信度。這種差異很大程度上源于對不確定性注入模型的方式、時機和來源缺乏完整的理解。本文提出了一個專門設計的綜合框架,用于識別和理解不確定性的類型及來源,并與 LLMs 的獨特特性相契合。該框架通過系統地分類和定義每種類型的不確定性,增進了對不確定性多樣性格局的理解,為開發能夠精準量化這些不確定性的方法奠定了堅實基礎。 此外,我們詳細介紹了關鍵相關概念,并深入探討了當前方法在任務關鍵型和安全敏感應用中的局限性。本文最后展望了未來研究方向,旨在提升這些方法的可靠性及其在真實場景中的實用性,從而促進其廣泛應用。

近年來,大語言模型(Large Language Models, LLMs)在復雜推理和問答任務中表現出了顯著的能力(Zhao et al., 2023; Wang et al., 2024c; Liang et al., 2022)。然而,盡管展現了巨大的潛力,LLMs 仍然面臨生成錯誤答案的重大挑戰(Ji et al., 2023a; Li et al., 2023a; Huang et al., 2023),在對高精度和高可靠性要求較高的領域,這種情況可能產生嚴重后果。LLM 輸出中信任度不足的一個核心問題在于其決策過程缺乏透明性和可解釋性(Zhou et al., 2023; Lin et al., 2023; Yin et al., 2023; Xiao & Wang, 2018; Hullermeier & Waegeman, 2021)。在這種背景下,全面理解和評估模型的不確定性至關重要。例如,在醫療領域,當醫生診斷如癌癥等關鍵病癥時,不僅需要模型提供高預測準確性,還需要明確了解預測中的不確定性(Gawlikowski et al., 2022a; Wang et al., 2022)。 盡管量化 LLMs 不確定性的必要性已被廣泛認可,但對于不確定性的定義和解釋在這一新背景下仍未達成一致(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018),這進一步增加了其估計的復雜性。不確定性、置信度和可靠性等術語常被混用,但它們實際上代表著需要仔細區分的不同概念(Gawlikowski et al., 2021)。例如,LLM 可能對一個本質上不確定且無答案的問題生成高置信度的回應,但這種回應可能在語境上不恰當或在事實層面上不正確,這表明高置信度并不等同于低不確定性(Gawlikowski et al., 2022b)。因此,現有文獻中面臨的首個挑戰是明確 LLMs 背景下的不確定性定義,并探討這些交織概念之間的細微差別。 傳統上,深度神經網絡(DNNs)中的不確定性被劃分為兩類:固有不確定性(aleatoric),由數據隨機性(如傳感器噪聲)引起;以及認知不確定性(epistemic),源于模型知識的局限性,如數據不足或未建模的復雜性(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018)。盡管這些分類在深度學習領域廣泛使用,但它們無法完全涵蓋 LLMs 的獨特挑戰,包括處理復雜文本數據、管理極其龐大的參數量,以及面對通常不可訪問的訓練數據。此外,LLM 生命周期的各個階段——從預訓練到推理——都會引入獨特的不確定性,而用戶與這些模型的交互同樣如此。理解這些不確定性來源,特別是從提高 LLMs 可解釋性和魯棒性的角度來看,至關重要。然而,若沒有一個包容性和細粒度的框架來系統地識別和分析 LLMs 中的不確定性來源,實現這一目標是不可能的。

近期,已有大量研究嘗試估計 LLMs 的不確定性(Manakul et al., 2023; Beigi et al., 2024; Azaria & Mitchell, 2023a; Kadavath et al., 2022; Kuhn et al., 2023),這些方法大致可以根據其基本機制分為四類:基于 logits 的方法(Lin et al., 2022b; Mielke et al., 2022a; Jiang et al., 2021; Kuhn et al., 2023)、自評估方法(Kadavath et al., 2022; Manakul et al., 2023; Lin et al., 2024a)、基于一致性的方法(Portillo Wightman et al., 2023; Wang et al., 2023),以及內部機制驅動的方法(Beigi et al., 2024)。然而,鑒于 LLMs 的獨特特性和不確定性的微妙方面,各類方法在 LLMs 背景下捕捉真正的不確定性或相關因素的有效性,以及在 LLM 生命周期不同階段中檢測到的具體不確定性來源,仍然存在關鍵問題。這些問題的回答對于開發更可靠、更全面的不確定性估計方法至關重要。

為了解決上述挑戰和問題,我們對與不確定性及其相關概念相關的研究進行了關鍵綜述和分析,旨在呈現涵蓋 LLMs 不確定性全景的綜合綜述,特別關注不確定性概念、來源、估計方法與文本數據特征之間的相互作用。據我們所知,這一領域尚缺乏類似的系統性研究**。綜上所述,本文的貢獻體現在以下幾個方面,這些貢獻具有開創性和多樣性**:

  1. 標準化了不確定性的定義,并探索了相關概念,從而促進了領域內的交流(第二節)。
  2. 首次提出了一個全面的框架,用于分析 LLM 生命周期中所有不確定性來源,深入揭示其起源及有效管理策略(第三節)。
  3. 對當前用于估計和評估 LLM 不確定性的方法進行了評估和比較,討論了它們的優缺點(第四節)。
  4. 最后,識別了增強 LLM 不確定性估計的未來研究方向,解決關鍵研究空白并探討新興趨勢,以在任務關鍵型應用中提高可靠性和準確性(第五節)。

在深度學習中,不確定性傳統上被劃分為三類:(1)模型(認知)不確定性,與模型參數估計中的不確定性相關,反映了模型擬合的能力及其對未見數據的泛化局限性(Der Kiureghian & Ditlevsen, 2009;Lahlou et al., 2023;Hullermeier & Waegeman, 2021;Malinin & Gales, 2018);(2)數據(或固有)不確定性,源于數據本身的復雜性,例如類別重疊和各種噪聲(Der Kiureghian & Ditlevsen, 2009;Rahaman & Thiery, 2020;Wang et al., 2019;Malinin & Gales, 2018);(3)分布不確定性,通常由于數據集分布偏移引起,當訓練和測試數據分布不同而導致模型在真實場景中面臨泛化問題(Malinin & Gales, 2018;Nandy et al., 2021;Gawlikowski et al., 2022a;Chen et al., 2019;Mena et al., 2021)。

盡管這些傳統分類在深度學習中應用廣泛,但它們無法充分應對 LLMs 所面臨的獨特挑戰。LLMs 的特點包括龐大的參數規模、復雜的文本數據處理,以及通常難以獲取的訓練數據,這些特性在模型輸出中引入了特定的不確定性。此外,與用戶在動態環境中的交互,以及數據標注或模型校準中的人為偏差,使不確定性的景觀更加復雜。與主要預測數值輸出或類別的通用深度學習模型不同,LLMs 生成的是基于知識的輸出,這些輸出可能包含不一致或過時的信息(Lin et al., 2024b)。這些特性無法通過簡單地將不確定性劃分為三種傳統類型來充分描述。

新框架:LLM 不確定性分類

為了應對這些挑戰,我們提出了一個新的框架,用于對 LLMs 中的不確定性進行分類,如圖 2 所示。該框架將不確定性區分為兩類:操作性不確定性輸出不確定性,分別對應模型和數據處理過程以及生成內容的質量。

**1. 操作性不確定性

操作性不確定性貫穿于從預訓練到推理的整個生命周期,涵蓋數據獲取、模型和架構設計、訓練與優化過程、校準以及推理活動。這些不確定性源于以下方面:

  • 數據處理與模型訓練:LLMs 在處理大規模數據集、輸入數據及生成文本時無法完全捕捉數據的復雜性。
  • 輸入數據的模糊性或噪聲:輸入數據本身的不完整性或多義性增加了操作性不確定性。

**2. 輸出不確定性

輸出不確定性與生成文本的分析和解釋中的挑戰相關,具體涉及信息質量及其在決策過程中的可靠性。例如,在醫療場景中,LLM 需要根據患者癥狀提供診斷建議。若生成的建議缺乏充分的證據支持或包含矛盾信息,醫生需要判斷這些建議的可信度,這就帶來了顯著的不確定性。醫生在決定進一步調查哪種診斷時可能面臨巨大挑戰,這突顯了 LLM 提供支持充分、輸出一致且可靠內容的重要性,以確保其在決策過程中的實用性。

框架的優勢

通過區分操作性不確定性和輸出不確定性,該框架帶來了以下幾個關鍵優勢:

  1. 細粒度視角:捕捉 LLMs 的獨特特性,更精準地反映不確定性,從而有助于更好的建模與理解。
  2. 明確不確定性來源:為開發針對性的量化方法奠定基礎,能夠準確地量化各類不確定性。
  3. 針對不同角色的洞見:為開發者、用戶和管理員提供具體的指導,幫助其解決各自角色中相關的不確定性問題,從而提升模型魯棒性、用戶交互體驗和治理能力。
  4. 構建對模型輸出的信任:通過匯總多種觀點和評估輸出證據,該框架特別適用于醫療診斷或法律推理等關鍵領域,增強對 LLM 輸出的信任度。

這一框架為更深入地理解 LLMs 的不確定性提供了基礎,并為進一步提升其可靠性和實用性指明了方向。

付費5元查看完整內容

相關內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

語言模型(LM)基于深度神經網絡(DNN)的構建,最近在軟件工程任務中,如代碼生成、代碼補全和代碼修復,表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路,這些技術對于提升現有程序的性能,特別是加速程序執行時間,具有重要意義。然而,專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白,我們進行了一項系統的文獻綜述,分析了超過50篇核心研究,識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰,例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外,我們提供了八個未來的研究方向,以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此,本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。

1. 引言

代碼優化,或程序優化,長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標,例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程(SE)任務,包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。

傳統上,代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合,以捕獲程序的關鍵屬性,例如數據和控制依賴,進而識別出優化代碼的最有效方法。隨著時間的推移,已經開發出多種優化技術,涵蓋從低級策略,如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略,旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。

代碼優化的一個關鍵挑戰是存在大量可能的優化方式,使得窮舉搜索在計算上是不可行的,通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中,好的優化往往是稀缺的,并且在不同的程序之間差異很大[48, 137]。對于低級性能優化,最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法,它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。

在過去的幾十年中,已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明,機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年,基于深度神經網絡(DNN)的語言模型(LM)和生成性人工智能(genAI)的出現,標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44],并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理,進一步推動了將語言模型應用于軟件工程的廣泛研究[57],并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用,為這一領域的研究和創新開辟了新的方向。

然而,盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展,現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域,如自動程序修復[155]。值得注意的是,文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示,本文旨在填補這一空白,提供一項系統的文獻綜述(SLR),聚焦于基于語言模型的最前沿代碼優化方法。具體來說,我們通過六個學術索引引擎進行檢索,識別并系統地回顧了53篇核心研究[1]。基于四個研究問題(RQ)和11個具體的子問題,我們對這些研究進行了分類,概括了結果中的關鍵發現,并為讀者提供了有價值的建議。例如,我們的主要發現包括:

  • 像 GPT-4 這樣的通用語言模型(LM)被比專門用于代碼的語言模型(43個實例)更廣泛地采用(61個實例),這是由于其更廣泛的理解和推理能力。

  • 大多數研究(57%)利用了預訓練模型,以節省時間和資源,而43%的研究通過微調模型來定制任務特定需求。

  • 最常被提到的挑戰是性能和代碼相關的問題,例如一步優化的限制(18項研究)、平衡正確性和效率(15項研究)以及代碼語法的復雜性(10項研究)。

  • 大多數研究通過設計專門的模型(51個實例)來解決現有挑戰,這些模型雖然有效,但缺乏通用性。提示工程(Prompt Engineering)作為第二大類(34個實例)因其數據效率而脫穎而出,盡管依賴于專家知識。另一類則通過提出新的代碼優化問題(33個實例)提供了更大的優化靈活性,但也需要大量的數據集準備工作。

此外,我們還揭示了現有文獻中的五個關鍵挑戰,并提供了未來研究的潛在方向,總結如下:

  • 語言模型(LM)的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時,需要大量的計算資源,這就提出了模型壓縮和集成技術的需求。

  • 基于語言模型的代碼優化方法通常在孤立的環境中操作,缺乏與外部系統的無縫集成,強調了具有主動性(agentic)的語言模型的重要性。

  • 單語言研究的主導地位(81%)和對單一性能指標的強調(79%)凸顯了通用性問題,以及對多語言和多目標優化方法的需求。

  • 大多數基于語言模型的方法的研究(68%)是在合成數據集上進行評估的,而不是在更大且更復雜的真實世界代碼庫上進行的,這表明需要標準化基準測試,以反映不同的真實世界場景。

  • 語言模型常常生成不一致或幻覺化的輸出,因此人類與語言模型的協作對于利用AI的計算能力至關重要,同時確保優化結果的可信度和可靠性。

本文的其余部分安排如下:第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述(SLR)方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后,第9節總結了本文內容。 方法論

本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述(SLR)指南,這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示,研究方法包括三個關鍵階段:

  1. 搜索:進行了全面的自動化檢索,使用了精心定義的搜索字符串,遵循“準黃金標準”方法論[152],并輔以雪球式搜索,以確保覆蓋面廣泛。
  2. 研究選擇:對檢索到的研究進行嚴格的納入和排除標準篩選,隨后進行質量評估,只包含可靠且高質量的研究。
  3. 數據收集:制定了四個主要研究問題(RQ),包含11個具體問題,以指導數據提取和分析,最終得出本次調研的主要成果。

圖5提供了所有問題的分類概述,接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。

 結論我們為語言模型(LMs)在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄,我們盡力提供了一個全面且易于理解的綜述,涵蓋了主要的研究領域和未來的發展方向。具體來說,我們識別出五個關鍵的知識空白,這些空白可能會阻礙該領域的發展,包括平衡模型復雜性與實際應用性之間的挑戰,以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究,并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局,本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習,這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反,它們實際上為增強創造力和探索新的研究前沿提供了機會。

付費5元查看完整內容

大語言模型(LLMs)展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著,但該領域的研究涉及多個領域,所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少,這限制了偏好對齊的進一步發展。有鑒于此,我們將現有的流行對齊策略分解為不同的組成部分,并提供了一個統一的框架來研究當前的對齊策略,從而建立它們之間的聯系在本綜述中,我們將偏好學習中的所有策略分解為四個組成部分:模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法,還為不同策略的優勢協同提供了可能性。此外,我們還提供了詳細的現有算法工作示例,以幫助讀者全面理解。最后,基于我們的統一視角,我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。

以ChatGPT為代表的大語言模型(LLMs)的崛起展示了令人印象深刻的語言能力和專業素養,能夠提供正確、禮貌且知識淵博的回答,這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程,這是LLM在公開部署前必須經歷的一個必要步驟,旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型(LLMs)在各個領域展現了卓越的能力 [19, 93, 115, 139],但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題,出現了許多與對齊相關的舉措 [28, 88, 94, 98],這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念,但偏好學習的各種算法之間的關系仍然支離破碎,缺乏統一的框架來將它們結合起來。為了彌補這一差距,我們旨在提供一個系統的偏好對齊框架,如圖1所示。通過將相關工作整合到這一框架中,我們希望為研究人員提供全面的理解,并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習(RL)的方法,如RLHF [94],它需要獎勵模型用于在線RL;以及基于監督微調(SFT)的方法,如直接偏好優化(DPO)[98],它在離線環境中直接進行偏好優化。然而,這種分類無意中在兩類工作之間形成了一道障礙,不利于研究人員對偏好對齊核心內容的進一步理解。因此,我們致力于為這兩類方法建立統一的視角,并引入創新的分類框架。

這個新框架基于兩個關鍵見解:首先,在線策略(on-policy)與離線策略(off-policy)設置之間的區別,實質上取決于不同的數據來源,這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據,具體來說,被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源,只要這些數據是提前收集的,而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此,我們不使用在線或離線作為算法分類的標準。其次,受現有工作 [105] 的啟發,強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于,基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵,而監督微調算法可以直接通過各種形式的偏好進行優化,如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角,我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具,例如獎勵模型、人類標注者、更強大的模型(如GPT-4)以及各種規則。基于這些考慮,我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之,我們的論文調查并整理了與LLM偏好學習相關的現有工作,提供了一個統一且新穎的視角。此外,基于這篇綜述的內容,我們總結了該領域的幾個未來研究方向,旨在為進一步的研究提供見解。

在本節中,我們首先為LLM的偏好學習提供定義:給定一般人類偏好分布P(??, ??),其中??是一個提示,??是LLM的相應輸出,LLM的偏好學習????是一種生成新的LLM ????′的范式,使其對齊于P(??, ??),即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好,這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本,以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵,可能表現為正面標簽、在偏好排序中的較高位置,或較高的獎勵分數。在獲得數據后,策略模型????′通過特定算法進行優化。此外,根據這一定義,有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊:根據Kenton等人的研究 [58],對齊是指關注解決所謂的行為對齊問題的研究:我們如何創建一個能夠按照人類意愿行事的代理?基于這一定義,我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊,不涉及其他廣為人知的對齊話題,如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習(RLHF):與RLHF不同,本論文的范圍不僅包括基于強化學習的方法,還涵蓋了傳統的基于監督微調(SFT)的方法。此外,我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。

結論

在本綜述中,我們將偏好學習的策略分解為幾個模塊:模型、數據、反饋和算法。通過根據它們的變體區分不同的策略,我們構建了一個統一的偏好學習策略視角,并在它們之間建立了聯系。我們認為,盡管這些對齊算法的核心目標本質上是相似的,但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后,我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解,并激發該領域的更多研究。

付費5元查看完整內容

隨著 ChatGPT 等基于大模型的產品展現出強大的通用性能,學術界和工業界正積極探索如何 將這些模型適配到特定行業和應用場景中,即進行垂直領域大模型的定制化。然而,現有的通用大模 型可能無法完全適配特定領域數據的格式,或不足以捕捉該領域的獨特需求。因此,本文旨在探討垂 直領域大模型定制化的方法論,包括大模型的定義和類別、通用架構的描述、大模型有效性背后的理論 基礎,以及幾種可行的垂直領域大模型構建方法,期望通過這些內容為相關領域的研究者和從業者在 垂直領域大模型定制化方面提供指導和參考。

ChatGPT 以其卓越的通用性能重塑了人們對人工智能的理解。作為 ChatGPT 的核心,大語言模 型(Large language model)已經成為眾多領域研究人員和專業人士改進工作流程的重要工具。通用大 模型通常在廣泛的公開數據集上進行訓練,這使得它們能夠學習并解決各種常見問題,但這些數據集 無法完全覆蓋某些特定領域的所有專業知識和技術細節,這導致盡管通用大模型具備廣泛的通用知 識,卻缺乏足夠的知識深度來滿足某些特定領域的復雜需求。因此,針對特定行業的需求來構建垂直 領域大模型變得尤為重要。垂直領域大模型,或稱垂類大模型、行業大模型,是針對特定領域的數據和 應用而開發的大模型[1] 。與通用大模型相比,它們在訓練過程中會使用大量特定領域的數據,從而能夠 更準確地理解和生成與該領域相關的專業內容。 隨著類 ChatGPT 的產品和神經網絡模型的接連推出,“大模型”概念的范圍也在逐步擴張[2?4] 。鑒 于相關概念繁雜,為了確定本文的研究共識,需要對“大模型”概念進行定義并闡述其特點,從而奠定后 文對垂直領域大模型定制化的敘述基礎。本文所提及的大模型(Foundation model),是在多模態大模型 (Multimodal large model)五模塊框架(下文將詳細介紹該框架)中,包含了能夠實現其中一個或多個模 塊功能的神經網絡模型,且該模型符合以下特點: (1)大數據。使用覆蓋了多種場景的大量數據進行模型的訓練,為模型提供充足的知識。 (2)大參數。模型的參數量達到一定規模,足以將大量數據中隱含的知識固化到模型參數中。 (3)通用性。模型的輸入數據格式和數據處理流程能夠適配多種任務場景下的輸入格式和需求。 (4)泛化性。模型擁有一定的泛化性,使其在未知數據域中依然具有良好性能。 根據大模型可處理的模態數量,可將大模型分為單模態大模型和多模態大模型: (1)單模態大模型。VGG[5] ,ResNet[6] ,GPT?1 [7] ,GPT?2 [8] ,GPT?3 [9] ,GPT?3.5 turbo[10] ,BERT[11] , GLM[12?13] ,LLaMA[14] ,LLaMA?2 [15] ,iGPT[16] ,LVM[17] ,BART[18] 和 T5 [19] 。 (2)多 模 態 大 模 型 。 CoDi[20],CoDi ? 2 [21],Claude ? 3 [22],GPT ? 4 [23],LLaVA[24],BriVL[25],Image? Bind[26] 和 NExT?GPT[27] 。 在構建垂直領域大模型的過程中將面臨一系列挑戰,尤其是在數據獲取和預處理階段。比如,其 需要處理的垂直領域數據并不開源或難以獲取,具有私密性;或是數據模態與通用大模型使用的中心 模態不同,導致無法遷移現成的大模型處理該數據;又或是垂直領域數據與預訓練模型的數據域有所 不同,需要向預訓練模型輸入專業領域知識。垂直領域大模型應用方式靈活,涉及的應用領域繁雜,構 建難度大、開銷大,涉及的技術安全問題至關重要,期望產生的經濟效益高[28?30] ,因此有必要對其構建方 法論進行深入探索和全面梳理,并總結出相應的方法論。 以往的綜述文獻都更多地關注大模型本身的發展[2?4,31?36] ,但對于垂直領域大模型的定制化方法論 方面缺乏詳細的討論。本文通過介紹垂直領域大模型定制的理論基礎、垂直領域大模型的定制方法、 垂直領域大模型的應用實例,以及垂直領域大模型定制化的未來發展方向,為有意構建垂直領域大模 型應用的研究者及工作者提供模型定制方法論層面的參考。

付費5元查看完整內容

大型語言模型(LLMs)在各個領域展示了卓越的能力,吸引了學術界和工業界的廣泛關注。盡管它們表現出色,但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰,特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中,知識蒸餾已成為一種有效的技術,可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查,探討了專門為LLMs量身定制的知識蒸餾技術。具體來說,我們將方法分為白盒KD和黑盒KD,以更好地說明它們的差異。此外,我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果,并提出了未來研究的方向。通過深入理解最新進展和實際應用,這項調查為研究人員提供了寶貴的資源,為該領域的持續進步鋪平了道路。

** 簡介**

大型語言模型(LLMs)[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量,成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比,這些模型對未見數據的泛化能力更強。此外,它們還展示了小型模型所不具備的能力,如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加(例如,具有1750億參數的GPT-3[12])。然而,參數規模的擴展帶來了顯著的缺點,尤其是在高推理成本和大量內存需求方面,使得實際部署變得具有挑戰性。例如,GPT-3需要大約350GB的模型存儲(float16),并且推理至少需要5個每個80GB內存的A100 GPU,這對碳排放的影響顯著。為了解決這些挑戰,模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行,或在最小延遲和模型性能之間取得平衡。因此,在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們,減少參數數量,同時保持最大性能。

隨著減少計算資源需求的必要性日益重要,知識蒸餾(Knowledge Distillation, KD)[43] 作為一種有前景的技術出現。KD是一種機器學習方法,專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中,從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講,知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中,較小的模型不僅要匹配原始數據標簽,還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型,生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展,許多研究綜合了各種蒸餾技術的最新進展。具體來說,Gou等[37] 對知識蒸餾進行了廣泛的綜述,涉及六個關鍵方面:知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣,Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準,稱為蒸餾度量標準,他們用它來評估不同的知識壓縮方法。此外,Hu等[48] 探討了跨多個蒸餾目標的各種師生架構,提出了不同的知識表示及其相應的優化目標,并系統地概述了師生架構,結合了代表性的學習算法和有效的蒸餾方案。

現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而,LLMs的出現給KD帶來了若干新挑戰:1)大型語言模型設計并非僅用于單一任務如文本生成,而是廣泛應用于各種任務和未見數據,包括新興能力。因此,評估壓縮LLMs的泛化能力需要仔細和全面的評估。2)現有綜述僅是對現有工作的總結,未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。

為應對這些挑戰,已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示,從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法,我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型:基于Logits的方法[43],在Logits層面傳遞知識,以及基于Hint的方法[109],通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法,其中僅能訪問教師模型的輸出。此類別通常包括三種方法:上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外,我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后,我們討論了不同蒸餾方法之間的關系和應用場景,并提出了未來研究方向。

本文其余部分安排如下:第2節簡要回顧了知識蒸餾方法的定義。接下來,第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景,第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后,第6節對本文進行了總結。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

大型語言模型(LLMs)在各個領域和智能代理應用中取得了顯著進展。然而,當前從人類或外部模型監督學習的LLMs成本高昂,并且隨著任務復雜性和多樣性的增加,可能面臨性能上限的挑戰。為了解決這個問題,自我進化方法使LLM能夠自主獲取、精煉和學習模型自身生成的經驗,正迅速發展。這種受人類經驗學習過程啟發的新訓練范式為將LLMs擴展到超級智能提供了潛力。在這項工作中,我們提出了對LLMs中自我進化方法的全面調查首先,我們提出了一個自我進化的概念框架,并概述了演化過程,該過程由四個階段的迭代循環組成:經驗獲取、經驗精煉、更新和評估。其次,我們對LLMs和基于LLMs的代理的演化目標進行分類;然后,我們總結了文獻,并為每個模塊提供了分類法和見解。最后,我們指出了現有的挑戰,并提出了未來的方向,以改進自我進化框架,為研究人員提供關鍵的見解,加快自我進化LLMs的發展。我們對應的 GitHub 倉庫可以在 //github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 獲取。

****隨著人工智能的快速發展,諸如GPT3.5(Ouyang等,2022)、GPT-4(Achiam等,2023)、Gemini(Team等,2023)、LLaMA(Touvron等,2023a,b)和Qwen(Bai等,2023)等大型語言模型(LLMs)標志著語言理解和生成方面的重大轉變。這些模型經歷了三個發展階段,如圖1所示:首先,在大規模和多樣化的語料庫上進行預訓練,以獲得對語言和世界知識的一般理解(Devlin等人,2018;Brown等人,2020),然后進行監督微調以引發下游任務的能力(Raffel等人,2020;Chung等人,2022)。最后,人類偏好對齊訓練使LLMs能夠以人類行為作出反應(Ouyang等,2022)。這種連續的訓練范 paradigms 取得了重大突破,使LLMs能夠執行一系列任務,具有顯著的零射擊和上下文能力,例如問答(Tan等,2023)、數學推理(Collins等,2023)、代碼生成(Liu等,2024b)以及需要與環境進行交互的任務解決(Liu等,2023b)。

盡管取得了這些進展,但人們預計新興一代的LLMs可以被賦予更高復雜度的任務,例如科學發現(Miret和Krishnan,2024)和未來事件預測(Schoenegger等,2024)。然而,由于現有訓練范 paradigms 中建模、標注和評估的固有困難,當前的LLMs在這些復雜任務中面臨挑戰(Burns等,2023)。此外,最近開發的Llama-3模型已經在包含15萬億標記的廣泛語料庫上進行了訓練。這是一個龐大的數據量,表明通過添加更多現實世界的數據來顯著擴展模型性能可能存在限制。這引起了人們對LLMs自我進化機制的興趣,類似于人類智能的自然演變,并由游戲中的人工智能發展所說明,例如從AlphaGo(Silver等,2016)到AlphaZero(Silver等,2017)的過渡。AlphaZero的自我對弈方法,無需標記數據,為LLMs超越當前限制并實現超人類表現提供了前進的道路。

受到上述范 paradigm 的啟發,LLMs的自我進化研究在模型發展的不同階段迅速增加,例如自我指導(Wang等,2023b)、自我對弈(Tu等,2024)、自我改進(Huang等,2022)和自我訓練(Gulcehre等,2023)。值得注意的是,DeepMind的AMIE系統(Tu等,2024)在診斷準確性方面超過了初級保健醫生,而微軟的WizardLM-2系統超過了GPT-4的初始版本的性能。這兩個模型都是使用具有自主學習能力的自我進化框架開發的,并代表了LLM培訓范 paradigm 的潛在轉變。然而,這些方法之間的關系仍然不清楚,缺乏系統的組織和分析。 因此,我們首先全面調查LLMs中的自我進化過程,并為其發展建立一個概念框架。

這種自我進化的特點是一個迭代循環,涉及經驗獲取、經驗改進、更新和評估,如圖2所示。在循環過程中,LLM通過不斷發展新任務和生成相應的解決方案來獲得經驗,隨后通過更新模型的重量或上下文來獲取更好的監督信號。在評估模型進展并設定新目標后,LLM最終被評估。 LLMs中自我進化的概念在各種研究社區中引起了相當大的興奮,承諾一個能夠自適應、學習和自主改進的模型新時代,類似于人類對不斷變化的環境和挑戰的演變。自我進化的LLMs不僅能夠超越當前靜態、數據約束的模型的局限,而且還標志著向更加動態、健壯和智能的系統的轉變。

通過提供一個結構化的概念框架,這項調查通過全面概述深化了對自我進化LLMs新興領域的理解。我們追溯了該領域從過去到最新的前沿方法和應用的演變,同時檢查了現有的挑戰并勾勒了未來的研究方向,為自我進化框架和下一代模型的開發鋪平了道路。

本調查分為以下幾個部分:我們首先介紹自我進化的概述(§2),包括背景和概念框架。我們總結了當前方法的現有進化能力和領域(§3)。然后,我們對自我進化過程的不同階段的最新進展進行了深入分析和討論,包括經驗獲取(§4)、經驗改進(§5)、更新(§6)和評估(§7)。最后,我們概述了開放性問題和未來方向(§8)。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容
北京阿比特科技有限公司