黄色片视频免费观看国产,伊人亚洲综合青草青草久热

開源大模型趕上ChatGPT了嗎？

在2022年底發布之時，ChatGPT在整個人工智能領域的研究和商業方面都帶來了翻天覆地的變化。通過對大型語言模型（LLM）進行指令調優、經過監督的微調以及根據人類反饋的強化學習，它展示了一個模型可以回答人類問題并在廣泛的任務范圍內遵循指示。繼這一成功之后，對LLM的興趣大大增強，學術界和工業界頻繁涌現出新的LLM，包括許多專注于LLM的初創公司。雖然閉源LLM（例如，OpenAI的GPT、Anthropic的Claude）通常優于它們的開源對手，但后者的進展迅速，有聲稱在某些任務上達到或甚至超越ChatGPT的情況。這不僅對研究，也對商業有著關鍵影響。在這項工作中，為慶祝ChatGPT發布一周年，我們提供了這一成功的詳盡概述，綜述了所有開源LLM聲稱與ChatGPT不相上下或更好的任務。

//www.zhuanzhi.ai/paper/fd1994eb5720038ded207caa6a3783f0

在一年前，OpenAI發布的ChatGPT引起了人工智能界和更廣泛世界的轟動。首次，一個基于應用的AI聊天機器人能夠普遍提供有用、安全、詳細的回答，遵循指令，甚至承認并修正其先前的錯誤。值得注意的是，它可以執行這些傳統上由經過預訓練然后定制微調的語言模型（如概括或問答（QA））完成的自然語言任務，看似驚人地好。作為其類的首個，ChatGPT吸引了大眾的注意 — 它在發布僅兩個月內就達到了1億用戶，比如TikTok或YouTube等其他流行應用快得多。它還吸引了巨額商業投資，因其潛在的降低勞動力成本、自動化工作流程，甚至為客戶帶來新體驗的能力（Cheng et al., 2023）。然而，由于ChatGPT沒有開源，且其訪問由私人公司控制，大部分技術細節仍然未知。盡管有聲稱ChatGPT遵循了InstructGPT（也稱為GPT-3.5）中引入的程序（Ouyang et al., 2022b），但其確切的架構、預訓練數據和微調數據是未知的。這種封閉源性質產生了幾個關鍵問題。首先，不了解內部細節，如預訓練和微調程序，就難以正確估計其對社會的潛在風險，尤其是知道LLM可能會生成有毒、不道德和不真實的內容。其次，據報道，ChatGPT的性能隨時間變化，妨礙了可重現結果（Chen et al., 2023c）。第三，ChatGPT經歷了多次中斷，僅在2023年11月就有兩次重大中斷，期間ChatGPT網站和其API的訪問完全被阻止。最后，采用ChatGPT的企業可能會擔心調用API的高昂成本、服務中斷、數據所有權和隱私問題，以及不可預測的事件，如最近有關首席執行官Sam Altman被解職、員工叛亂以及他最終回歸的董事會戲劇（REUTERS來源）。開源LLM是一個有希望的方向，因為它們可以潛在地補救或繞過上述大多數問題。因此，研究界一直在推動將高性能LLM保持在開源狀態。然而，截至今天，人們普遍認為，像Llama-2（Touvron et al., 2023b）或Falcon（Almazrouei et al., 2023）這樣的開源LLM落后于它們的封閉源對手，比如OpenAI的GPT3.5（ChatGPT）和GPT-4（OpenAI，2023b）、Anthropic的Claude2或Google的Bard3，其中GPT-4通常被認為是截至2023年底的所有LLM中的佼佼者。然而，這個差距越來越小，開源LLM迅速趕上。事實上，正如圖1所示，在某些任務上，最好的開源LLM已經比GPT-3.5-turbo表現得更好。然而，對于開源LLM來說，并不是一場直截了當的上坡戰。LLM的格局不斷演變：封閉源LLM定期在更新的數據上重新訓練，開源LLM幾乎每周都會發布，有大量的評估數據集和基準用于比較LLM，這使得挑選出最佳LLM尤其具有挑戰性。在這項綜述中，我們旨在整合最近的開源LLM論文，并提供一個概述，即在各個領域與ChatGPT相當或超越的開源LLM。我們的貢獻有三個方面： ? 整合對開源LLM的各種評估，提供對開源LLM與ChatGPT的公正和全面的看法（圖1，第3.1節）。 ? 系統地審查在各種任務中超越或趕上ChatGPT的開源LLM，并進行分析（圖2，第3節，第4.2節）。 ? 提出關于開源LLM發展趨勢的見解（第4.1節）、訓練開源LLM的良好做法（第4.3節）和開源LLM可能存在的問題（第4.4節）。 這項綜述旨在為研究界和商業領域提供一個關于開源LLM當前格局和未來潛力的關鍵資源。對于研究人員，它提供了當前開源LLM進展和演變趨勢的詳細綜合，強調未來調查的有希望的方向。對于商業領域，這項綜述提供了寶貴的見解和指導，幫助決策者評估采用開源LLM的適用性和好處。在接下來的文章中，我們首先介紹背景前提（第2節），然后對在各個領域擊敗ChatGPT的開源LLM進行深入審查（第3節），接著討論開源LLM的見解和問題（第4節），最后我們總結這項綜述（第5節）。

開源LLM與ChatGPT對比

通用能力

Llama-2-70B（Touvron et al., 2023b）是一款杰出的開源LLM，已在龐大的兩萬億令牌數據集上進行預訓練。它在各種通用基準測試中展示了卓越的結果。當進一步使用指令數據進行微調時，Llama-2-chat-70B變體在一般對話任務中表現出增強的能力。特別是，在AlpacaEval中，Llama-2-chat-70B取得了92.66%的勝率，超過了GPT-3.5-turbo的10.95%。然而，GPT-4仍然是所有LLM中的頂尖表現者，其勝率為95.28%。另一個較小的模型Zephyr-7B（Tunstall et al., 2023）使用了蒸餾直接偏好優化（Rafailov et al., 2023a），在AlpacaEval中與70B LLM取得了相當的結果，勝率為90.6%。它甚至在MT-Bench上超過了Llama-2-chat-70B，得分為7.34對6.86。此外，WizardLM-70B（Xu et al., 2023a）經過使用大量具有不同復雜度的指令數據的微調。它作為最高得分的開源LLM在MT-Bench上脫穎而出，得分為7.71。然而，這仍然略低于GPT-3.5-turbo（7.94）和GPT-4（8.99）的得分。盡管Zephyr-7B在MT-Bench上表現出色，但在開放LLM排行榜上得分僅為52.15%。另一方面，GodziLLa2-70B（Philippines, 2023），一款結合了各種專有LoRAs（來自Maya Philippines 6）和Guanaco Llama 2 1K數據集（mlabonne, 2023）與Llama-2-70B的實驗模型，在開放LLM排行榜上取得了更具競爭力的67.01%的得分。這一表現與GPT-3.5-turbo（70.21%）相當。然而，兩者都明顯落后于GPT-4，后者以85.36%的高分領先。UltraLlama（Ding et al., 2023）利用了具有增強多樣性和質量的微調數據。它在其提出的基準測試中與GPT-3.5-turbo的表現相匹配，而在世界和專業知識領域則超越了后者。 大模型發展趨勢

自從Brown et al.（2020年）展示了一個固定的GPT-3模型可以在各種任務上實現令人印象深刻的零次和少次嘗試性能以來，為推進LLM的發展已經做出了許多努力。其中一個研究方向專注于擴大模型參數，包括Gopher（Rae et al., 2021年）、GLaM（Du et al., 2022年）、LaMDA（Thoppilan et al., 2022年）、MT-NLG（Smith et al., 2022年）和PaLM（Chowdhery et al., 2022年），達到了540B參數。盡管這些模型展示了顯著的能力，但它們封閉源的性質限制了其廣泛應用，因此引起了對開發開源LLM的日益濃厚的興趣（Zhang et al., 2022年；Workshop et al., 2022年）。

另一個研究方向不是擴大模型規模，而是探索了為預訓練較小模型提供更好的策略或目標，如Chinchilla（Hoffmann et al., 2022b年）和UL2（Tay et al., 2022年）。在預訓練之外，還有相當多的關注集中在研究語言模型的指令調優上，例如FLAN（Wei et al., 2021b年）、T0（Sanh et al., 2021年）和Flan-T5（Chung et al., 2022年）。

OpenAI的ChatGPT一年前的出現極大地改變了自然語言處理（NLP）社區的研究重點（Qin et al., 2023a年）。為了趕上OpenAI，Google和Anthropic分別推出了Bard和Claude。雖然它們在許多任務上顯示出與ChatGPT相當的性能，但與最新的OpenAI模型GPT-4（OpenAI，2023b年）之間仍存在性能差距。由于這些模型的成功主要歸因于來自人類反饋的強化學習（RLHF）（Schulman et al., 2017b年；Ouyang et al., 2022a年），研究人員探索了各種改進RLHF的方法（Yuan et al., 2023年；Rafailov et al., 2023b年；Lee et al., 2023b年）。

為了促進開源LLM的研究，Meta發布了Llama系列模型（Touvron et al., 2023a,b年）。從那時起，基于Llama的開源模型開始爆炸性地出現。一個代表性的研究方向是使用指令數據對Llama進行微調，包括Alpaca（Taori et al., 2023年）、Vicuna（Chiang et al., 2023年）、Lima（Zhou et al., 2023b年）和WizardLM（Xu et al., 2023a年）。正在進行的研究還探索了提高基于Llama的開源LLM的代理（Xu et al., 2023d年；Zeng et al., 2023年；Patil et al., 2023年；Qin et al., 2023b年）、邏輯推理（Roziere et al., 2023年；Luo et al., 2023a,c年）和長文本建模（Tworkowski et al., 2023年；Xiong et al., 2023年；Xu et al., 2023b年）能力。此外，除了基于Llama開發LLM之外，還有許多努力投入到從零開始訓練強大的LLM，例如MPT（團隊，2023年）、Falcon（Almazrouei et al., 2023年）、XGen（Nijkamp et al., 2023年）、Phi（Gunasekar et al., 2023年；Li et al., 2023e年）、Baichuan（Yang et al., 2023a年）、Mistral（Jiang et al., 2023a年）、Grok（xAI，2023年）和Yi（01ai，2023年）。我們相信，開發更強大、更高效的開源LLM，以民主化封閉源LLM的能力，應該是一個非常有前景的未來方向。

最佳開源 LLM配方

訓練LLM涉及復雜且資源密集型的實踐，包括數據收集和預處理、模型設計和訓練過程。雖然定期發布開源LLM的趨勢日益增長，但領先模型的詳細實踐通常不幸保密。以下我們列出了社區廣泛認可的一些最佳實踐。

數據預訓練涉及使用萬億級別的數據Token，這些數據Token通常來自公開可獲取的資源。從倫理角度來說，排除包含私人個體信息的任何數據至關重要（Touvron et al., 2023b）。與預訓練數據不同，微調數據在數量上較小，但在質量上更為優越。使用頂級質量數據微調的LLM表現出改善的性能，特別是在專業領域（Philippines, 2023; Zeng et al., 2023; Xu et al., 2023d,a）。

模型架構雖然大多數LLM采用僅解碼器的變換器架構，但模型中采用了不同技術來優化效率。Llama-2實現了Ghost關注機制，用于改進多輪對話控制（Touvron et al., 2023b）。Mistral（Jiang et al., 2023b）采用滑動窗口關注機制來處理擴展的上下文長度。

訓練使用指令調優數據進行監督微調（SFT）的過程至關重要。為了獲得高質量的成果，數萬條SFT注釋就足夠，這一點由用于Llama-2的27,540條注釋證實（Touvron et al., 2023b）。這些數據的多樣性和質量至關重要（Xu et al., 2023a）。在RLHF階段，近似策略優化（PPO）（Schulman et al., 2017a）通常是首選算法，以更好地使模型的行為與人類偏好和指令遵從性保持一致，這在提高LLM安全性方面起著關鍵作用。PPO的一種替代方法是直接偏好優化（DPO）（Rafailov et al., 2023a）。例如，Zephyr-7B（Tunstall et al., 2023）采用了蒸餾DPO，在各種通用基準測試上顯示出與70B-LLM相當的結果，甚至在AlpacaEval上超過了GPT-3.5-turbo。

總結

在這項綜述中，我們提供了對在各種任務領域超越或趕上ChatGPT的高性能開源LLM的系統性調研，標志著ChatGPT發布一周年（第3節）。此外，我們提供了關于開源LLM的見解、分析和潛在問題（第4節）。我們相信，這項綜述揭示了開源LLM的有希望的發展方向，并將激發進一步在開源LLM領域的研究和發展，有助于縮小與付費對手的差距。

付費5元查看完整內容

相關內容

大型語言模型

關注 94

大模型 · 軟件工程 · 大型語言模型 ·

2023 年 8 月 31 日

[付費5元查看完整內容]大模型如何革新軟件工程？華中科大等最新《面向軟件工程的大型語言模型》綜述，回顧229篇文獻綜述LLM+SE技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇《面向軟件工程的大型語言模型》綜述，值得關注！

大型語言模型（LLMs）已經對包括軟件工程（SE）在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而，對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口，我們對LLMs和SE的交叉點進行了系統的文獻回顧，特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文，以回答四個關鍵的研究問題（RQs）。 在RQ1中，我們分類并提供了不同LLMs的比較分析，這些LLMs已經被用于SE任務中，表征了它們的獨特特性和用途。 在RQ2中，我們分析了數據收集、預處理和應用中使用的方法，強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略，以及與提示優化相關的常見技術。 最后，RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務，說明了它們對該領域的實際貢獻。 從這些RQs的答案中，我們討論了當前的最新技術和趨勢，識別了現有研究中的空白，并指出了未來研究的有前景的領域。

1. 概述

在語言處理領域，傳統的語言模型（LMs）歷史上一直是基礎元素，為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問，導致了大型語言模型（LLMs）的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據，這些模型展示了令人印象深刻的模擬人類語言能力的能力，從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力，LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具，可以探索人類交流的復雜性和豐富性，從而引發了語言處理領域及其之外的變革時期。 軟件工程（SE）- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角，其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯，該任務涉及生成代碼功能的抽象自然語言描述，以及生成結構良好的代碼[316]和代碼工件，如注釋[162]。Codex，一個擁有120億參數的LLM，已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM，已經在幾個SE任務中表現出了強大的性能，包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰，而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時，研究人員已經開始了一系列關于LLM相關工作的研究活動，其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而，這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍，例如LLMs在軟件測試[277]和自然語言到代碼（NL2Code）任務[323]中的應用，要么主要集中在機器學習（ML）或深度學習（DL）模型[279, 309]上，忽視了更先進和最近出現的LLM應用，如ChatGPT[209]，這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者，他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能，而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力，需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚，并且正在進行持續的探索，但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題，我們的研究旨在彌補這個空白，為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并提出未來研究的潛在途徑，我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計，我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻：

我們是第一個提出全面系統性文獻綜述的團隊，基于2017年至2023年間發表的229篇論文，重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類，并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段，包括數據收集、分類、預處理和表示。

我們討論了用于LLMs4SE任務的優化器，包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用，包括55個具體的SE任務，分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰，并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰，并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法，該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南，我們的方法包括三個主要步驟：規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止，哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中，有50多種不同的LLM用于SE任務，根據不同LLM的底層架構或原理，我們將匯總的LLM分為3類，即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM，有30多種LLM屬于僅解碼器類別，有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中，SE相關數據集是如何收集、預處理和使用的？

(1) 我們根據數據來源將數據集分為4類：開源、收集、構建和工業數據集。開源數據集的使用最為普遍，在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組：基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中，基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明，LLM在SE任務中特別擅長處理基于文本和代碼的數據，利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟，發現了幾個常見的預處理步驟，即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器，發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示，包括硬提示和軟提示，這種新興的微調范式在數據稀缺的任務中特別有優勢，提供了與任務相關的知識，提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標，其次是分類任務，有9種指標。

RQ4: 到目前為止，使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期，將軟件工程任務分為6個活動：軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后，我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務，發現LLMs在軟件開發中應用最廣泛，有115篇論文提到了21個SE任務。軟件管理的應用最少，只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs，并總結了新發現。

結論

隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用，包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM，并探索了它們的獨特特征和應用(RQ1)。然后，我們深入研究了數據收集、預處理和使用的過程，闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來，我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后，我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務，揭示了LLM所做出的實際貢獻(RQ4)。此外，我們強調了現有的挑戰，并提供了研究路線圖，概述了有前途的未來方向。

付費5元查看完整內容

通用人工智能 · 計算機視覺 · 大模型 · GPT ·

2023 年 6 月 21 日

[付費5元查看完整內容]如何構建CV中的AGI？華為最新《計算機視覺中的人工通用智能：從GPT和大型語言模型中學到的經驗教訓》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何探索CV中的AGI？華為這篇論文進行了論述

人工智能社區一直在追求被稱為通用人工智能（AGI）的算法，這些算法可以應用于任何類型的現實世界問題。最近，由大型語言模型（LLMs）驅動的聊天系統嶄露頭角，并迅速成為在自然語言處理（NLP）中實現AGI的有力候選，但是在計算機視覺（CV）中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜，但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中，我們從AGI的概念定義開始，簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們，統一性是CV的下一個重要目標。但是，盡管在這個方向上做出了各種努力，CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出，CV的根本弱點在于缺乏從環境中學習的范式，然而NLP已經在文本世界中完成了這項任務。然后，我們設想了一個流程，將一個CV算法（即，一個代理）放置在世界級的、可交互的環境中，預先訓練它根據其行動預測未來的幀，然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大，對此，我們分享了我們對未來研究方向的觀點。

1. 引言

世界正在見證向人工通用智能（AGI）的史詩般的奧德賽，我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是，在自然語言處理（NLP）中，已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為，這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型（LLMs）建立的，并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊，可以完成諸如解決數學問題、生成視覺內容等復雜任務，反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面（例如，講述科學事實和命名人物之間的關系）存在已知的弱點，但這些開創性的研究已經顯示出一個明確的趨勢，即將NLP中的大多數任務統一到一個系統中，這反映了對AGI的追求。與自然語言處理（NLP）中統一化的快速進展相比，計算機視覺（CV）領域離統一所有任務的目標還很遠。常規的CV任務，如視覺識別、追蹤、字幕、生成等，大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統，可以用統一的提示機制處理各種CV任務，但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如，為了在物體檢測和語義分割中報告高識別準確率，最好的策略是在強大的骨干網絡上設計特定的頭部模塊，但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然，統一化是CV的趨勢。近年來，這個方向有許多努力，我們大致將它們分為五個研究主題，即(i) 基于視覺-語言對齊的開放世界視覺識別，(ii) 用于通用視覺識別的“分割任何物體”任務，(iii) 統一視覺任務的通用視覺編碼，(iv) LLM引導的視覺理解，以增強CV中的邏輯，以及(v) 多模態對話，以促進視覺-語言交互。這些工作都顯示出統一化的希望，但是，它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。

因此，產生了兩個問題：（1）為什么在CV中實現統一如此困難？（2）我們可以從GPT和LLMs中學到什么來實現這個目標？為了回答這些問題，我們重新審視GPT，將其理解為在文本世界中建立一個環境，并允許一個算法（或代理）通過交互學習。計算機視覺研究缺乏這樣的環境。因此，算法無法模擬世界，所以它們只能采樣世界，并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后，代理任務不再能夠表示CV算法的能力；越來越明顯的是，繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析，我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理：這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務：在這個階段，可能需要引入人類的指令，這對應于NLP中的指令微調階段。可選地，可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關，包括3D環境建立、視覺預訓練、強化學習和具身CV。但是，現有的工作大多是初步的，我們預期需要大量的努力，才能使它成為解決現實世界問題的有效范式。

本文的其余部分組織如下。首先，在第2部分，我們簡要介紹了AGI的歷史和思想，并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分，我們展示了GPT的能力，這是一種最先進的NLP算法，被認為是AGI的火花。然后，在第4部分，我們根據CV研究的當前狀態，分析了在計算機視覺中實現AGI為什么困難，并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分，我們在那里設想了一種將CV推向AGI的流程，并基于此對未來的研究方向進行了一些評論。最后，在第6部分，我們對本文進行了總結并分享了我們的思考。

2. CV：AGI的下一個戰場

人類基于多種數據模式感知世界。我們都知道，我們學到的大約85%的東西是通過我們的視覺系統。因此，鑒于NLP社區已經展現了AGI的前景，自然而然地將計算機視覺（CV）或多模態（至少包括視覺和語言領域）視為AGI的下一個戰場。在此，我們提供兩個額外的評論來補充上述陳述。首先，顯然，CV是NLP的超集，因為人們閱讀文章是首先通過識別捕獲圖像中的字符，然后理解內容。換句話說，CV（或多模態）的AGI應該覆蓋NLP的所有AGI能力。其次，我們認為在許多情況下，僅依靠語言是不夠的。例如，當人們試圖找到關于一個未知對象（例如，動物、時尚等）的詳細信息時，最好的方式是拍攝一張圖片并用它進行在線搜索；純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子，如我們將在第4.3節中看到，不總是容易指出場景中的細粒度語義（用于識別或圖像編輯），并且以視覺友好的方式思考更有效，例如，使用一個點或框來定位一個對象，而不是說一些像“穿著黑色夾克，在黃色汽車前站著和另一個人交談”的人這樣的話。

我們期望有一個CV算法能解決一般性任務，可能通過與環境的交互。注意，這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統，接收來自人類的通用命令并產生所需的結果。但是，當前的CV狀態還很初級。如圖7所示，CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。

**統一化是趨勢 **

下面，我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。

**開放世界視覺識別 **

在很長一段時間里，大多數CV算法只能識別出現在訓練數據中的概念，導致了一個“封閉世界”的視覺概念。相反，“開放世界”的概念指的是CV算法能夠識別或理解任何概念，無論它是否以前出現過。開放世界的能力往往通過自然語言引入，因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務，如圖像字幕 [73]，[74] 和視覺問題回答 [91]，[92]，[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近，隨著視覺語言預訓練（例如 CLIP [13] 和 ALIGN [94]）的出現，將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75]，[76]，[77] 和視覺問題回答 [11]，[76]，[95] 提供了更簡單的管道，而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如，圖像分類可以通過簡單地將查詢圖像與一組模板（也被稱為“提示”）匹配來完成，說一張{某物}的照片，其中某物可以是任何（因此是開放世界的）概念，比如貓或西伯利亞雪橇犬，并將結果設置為匹配得分最高的候選者。除了原始版本之外，研究人員開發了名為“學習提示”的算法 [96]，[97] 來提高分類準確性。后來，該方法從圖像分類繼承到物體檢測 [87]，[98]，語義分割 [88]，[99]，實例分割 [100]，全景分割 [101]，[102]，并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益，這些模型經過增強的定位預訓練 [103]，[104]。開放世界視覺識別與零樣本視覺識別密切相關，因為它們都試圖將識別能力泛化到訓練集中未出現的概念。

"分割任何事物"任務

"分割任何事物"任務 [14] 最近被引入作為一個通用模塊，將原始圖像像素聚類為多個組，其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示，并為每個提示或每個提示的組合產生一些掩碼和分數。該模型，SAM，在一個包含約1000萬圖像的大規模數據集上進行了訓練，能夠轉移到廣泛的分割任務，包括醫學圖像分析 [111]，[112]，[113]，偽裝對象分割 [110]，[114]，3D對象分割 [108]，對象跟蹤 [115]，以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用，例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼，并將分割的單元輸入到開放集分類算法中進行圖像標記 [107]，[117]。

技術上，SAM的關鍵在于提示機制和數據閉合，即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分，但仍然存在許多未解決的問題。例如，關于SAM的上游和下游模塊（如果SAM確實是管道的一部分）仍然不清楚，而且SAM可能會嚴重受到像素級外觀的影響，例如，手臂可以精確地在衣服的邊界處從軀干上分割出來，這意味著顏色是分割的主導因素。總的來說，SAM可能已經過度適應了"分割任何事物"任務本身，從而削弱了其分類能力。

通用視覺編碼

另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異，例如，對象檢測需要一組邊界框，而語義分割需要對整個圖像進行密集預測，這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的，自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示，對象檢測結果（即邊界框）可以被形式化為自然語言和坐標，然后轉換為視覺模型的輸出標記。在稍后的版本，pix2seq-v2 中，他們將表示形式一般化，以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16]，[122]，[123] 任務。

LLM指導的視覺理解

視覺識別可以非常復雜，尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型（視覺-語言預訓練模型用于視覺問題回答[11]，[76]，[95]）來說，按照人類容易理解的程序生成答案是困難的。為了緩解這個問題，一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前，在Transformer架構出現之前，研究人員提出使用長短期記憶模型（LSTM）[72]生成程序，以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候，LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近，大型語言模型（尤其是GPT系列）的出現使得任意問題的轉換成為可能。具體來說，GPT可以以不同的方式與人類交互。例如，它可以將基本識別結果總結為最終答案[125]，或者生成代碼[18]，[124]或自然語言腳本[19]來調用基本視覺模塊。因此，視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效，例如，詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯，但它們尚未展示出協助基本視覺識別模塊的能力。也就是說，一旦基本的識別結果錯誤（例如，檢測算法錯過了一些小的和/或部分遮擋的對象），答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯（例如，算法可以按照順序算法來檢測每個對象，或者被常識[127]指導來解決難題），可能是在LLMs的幫助下，從而提升基本的視覺識別。

多模態對話

多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答，其中構建了各種簡單問題的數據集 [128]，[129]，[130]。隨著LLMs的快速發展，通過對預訓練的視覺和語言模型進行微調，實現了多輪問答 [11]，[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近，在GPT系列中開發的一種新的范式，稱為指導學習 [4]，已被繼承用于提高多模態對話的質量 [20]，[46]。其思想是提供一些參考數據（例如，對象、描述）來自于基準標注或識別結果，并要求GPT模型生成指導數據（即，豐富的問答對）。通過這些數據（無需參考），用于視覺和語言的基礎模型可以通過輕量級的網絡模塊（例如，Q-former [11]）相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準，但作為一個由語言引導的任務，它也具有開放世界視覺識別中分析的弱點（見第4.2.1節）。我們期望豐富查詢形式的方法（例如，使用通用的視覺編碼方法，參見第4.2.3節）可以將多模態對話推向更高的水平。

3 未來：從環境中學習

上述分析要求我們為計算機視覺（CV）的強大代理制定一個新的范式。在本節中，我們將我們的觀點和洞見轉化為一個假想的流程，回顧與這個流程相關的現有工作，并基于這個流程對未來的研究方向提出評論。

圖14展示了我們的想法。這個流程包括三個階段：第0階段建立環境，第1階段進行預訓練，第2階段進行微調。在需要的時候，微調后的模型可以被用于傳統的視覺識別任務。下面，我們將詳細描述每個階段。

?** 第0階段：建立環境**。正如前面的分析，高質量的環境對于計算機視覺（CV）中的人工通用智能（AGI）是非常必要的。這里的"高質量"概念包括但不限于豐富性（應該有充足和多樣化的環境）、真實性（視覺外觀和其他代理的行為應接近真實世界）以及交互性的豐富性（代理可以通過與環境交互來執行廣泛的任務）。

?** 第1階段：生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理（NLP）中的 GPT 任務（預測下一個詞元）的最大區別在于，未來的幀取決于代理的行動（在 NLP 中，預訓練的文本語料庫保持不變），所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是，由于計算機視覺（CV）是自然語言處理（NLP）的超集（參見第4.1節前的段落），預訓練的計算機視覺模型的大小（例如，參數的數量）應該比自然語言處理模型大幾個數量級。

第2階段：指導微調。預訓練模型被指導完成真實世界的任務，遵循人類的指示。直觀上說，代理與環境之間允許的交互類型有很多，包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是，應該收集更多的指示數據，這也對應于基礎計算機視覺模型的大小。

? 可選：下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力，例如，為了完成一個非常簡單的任務，比如"給我買一杯咖啡"，模型必須至少學會(i) 安全地四處探索，(ii) 識別咖啡店在哪里，(iii) 用語言與店員交流，并且(iv) 抓取買到的咖啡。這樣的模型，當適當地提供提示時，應該輸出期望的感知結果，包括追蹤另一個代理（以避免與其碰撞），開放集的視覺識別（用于找到酒吧和買到的咖啡）等等。這與通過合成進行分析的想法[136]有關。

4 結論

在這篇論文中，我們討論了如何推動計算機視覺（CV）算法向人工通用智能（AGI）發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力，然后我們繼承了來自自然語言處理（NLP），尤其是 GPT 系列的想法和洞見。我們的結論是，計算機視覺缺乏一個可以從環境中學習的范式，為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。

付費5元查看完整內容

大模型 · ChatGPT · 自然語言處理 · 領域大模型 ·

2023 年 6 月 8 日

[付費5元查看完整內容]大模型如何領域適配？埃默里大學等首篇《大型語言模型領域專業化》綜述，42頁pdf詳述大模型領域垂直化技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

ChatGPT · 大模型 · 涌現能力 · 推理 ·

2023 年 4 月 14 日

[付費5元查看完整內容]ChatGPT大模型work三個要點是什么？谷歌JasonWei最新《大型語言模型的縮放、涌現和推理》報告，附Slides與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素，最開始 GPT-3 將模型參數增至 1750 億，隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小，還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在，但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵，例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力，這鼓勵模型在給出最終答案之前生成中間推理步驟。

縮放是一個簡單的想法，具有挑戰性，但可以預見地使模型更好。(“縮放法”)

由于規模的擴大，大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)

巧妙的提示引出了語言模型中的多步驟推理，解鎖了更多的新任務。(“提示工程”)

Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作，在此之前他畢業于達特茅斯學院。//www.jasonwei.net/

付費5元查看完整內容

ChatGPT · WSDM 2023 · 領域泛化 · 分布外泛化 · 魯棒性 ·

2023 年 3 月 1 日

[付費5元查看完整內容]ChatGPT魯棒性如何？微軟等WSDM2023《領域泛化》教程，闡述域泛化(DG)最新進展以及ChatGPT等大模型分布外性能

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ChatGPT現在成為持續關注的熱點。微軟等學者在最新WSDM 2023會議上做了關于《領域泛化》報告教程，詳細闡述了領域****泛化(DG)的最新進展，并著重指出ChatGPT在對抗和分布外視角下的魯棒性，值得關注

機器學習模型嚴重依賴于大量訓練數據的可用性。對于標注良好的數據難以獲取的低資源場景，從現有領域到目標領域進行跨領域知識遷移非常重要。針對這一問題，遷移學習和領域適應等研究取得了很大進展。除了這些進展之外，學習在任何未見過的新環境中都能很好地泛化的模型也非常重要。這激勵研究界開發算法，以更好地利用現有的訓練域，同時處理其分布變化。

本教程致力于介紹域泛化(DG)的最新進展。與遷移學習和域適應假設目標域數據的可用性不同，DG更進一步，不需要訪問目標域數據。DG的目的是從一個或多個具有不同概率分布的訓練域學習一個通用模型，以實現良好的分布外泛化。潛在的受眾將是機器學習研究人員和行業從業者，對遷移學習、領域適應和泛化特別感興趣。我們的教程旨在使這些技術在實際應用中更容易學習和使用。

//dgresearch.github.io/

目錄內容：

Introduction and background * Related research areas * Methodology of DG * Applications * Datasets, benchmarks, and evaluations * Theory and future challenges * ChatGPT vs. OOD robustness?

代碼地址： 論文：

域泛化(DG)，即分布外泛化，近年來引起了越來越多的關注。領域泛化處理一個具有挑戰性的設置，其中給出了一個或幾個不同但相關的領域，目標是學習一個可以泛化到看不見的測試領域的模型。

近年來，取得了很大的進展。本文首次綜述了領域泛化的最新進展。

首先，我們給出了領域泛化的形式化定義，并討論了幾個相關的領域。

接下來，我們對領域泛化的相關理論進行了全面的回顧，并對泛化背后的理論進行了仔細的分析。然后，我們將最近出現的算法分為三類，分別是數據操作、表示學習和學習策略，每一類都包含了一些流行的算法。

第三，介紹了常用的數據集及其應用。最后，對已有文獻進行了總結，并提出了未來的研究方向。

ChatGPT是OpenAI最近發布的一個聊天機器人服務，在過去的幾個月里受到越來越多的關注。雖然對ChatGPT的各個方面進行了評估，但其魯棒性，即對意外輸入的性能，仍不清楚。魯棒性在負責任的人工智能中尤其值得關注，特別是在安全關鍵應用中。本文從對抗和分布外(OOD)的角度對ChatGPT的魯棒性進行了全面的評估。采用AdvGLUE和ANLI基準來評估對抗性魯棒性，并采用Flipkart評論和DDXPlus醫療診斷數據集進行OOD評估。我們選擇了幾個流行的基礎模型作為基線。結果表明，**ChatGPT在大多數對抗性和OOD分類和翻譯任務中表現出一致的優勢。然而，其絕對性能遠非完美，這表明對抗性和OOD的魯棒性仍然是基礎模型的一個重大威脅。**ChatGPT在理解對話相關文本方面表現出驚人的性能，它傾向于為醫療任務提供非正式的建議，而不是確定的答案。最后，對未來可能的研究方向進行了深入探討。

付費5元查看完整內容

小數據學習 · 綜述論文 · 元學習 · 強化學習 · 遷移學習 ·

2022 年 8 月 1 日

[付費5元查看完整內容]小數據如何學習？吉大最新《小數據學習》綜述，26頁pdf涵蓋269頁文獻闡述小數據學習理論、方法與應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

吉大最新《小數據學習》綜述，26頁pdf涵蓋269頁文獻闡述小數據學習理論、方法與應用，非常值得關注！

對大數據的學習為人工智能(AI)帶來了成功，但注釋和訓練成本昂貴。未來，在小數據上學習是AI的最終目的之一，這需要機器像人類一樣識別依賴小數據的目標和場景。一系列的機器學習模型正在以這種方式進行，如主動學習、少樣本學習、深度聚類。然而，幾乎沒有理論保證它們的泛化性能。而且，它們的大多數設置都是被動的，即標簽分布是由一個指定的采樣場景顯式控制的。該調查遵循PAC (Probably Approximately Correct)框架下的不可知論主動抽樣，使用監督和非監督方式分析小數據學習的泛化誤差和標簽復雜性。通過這些理論分析，我們從兩個幾何角度對小數據學習模型進行了分類: 歐幾里得和非歐幾里得(雙曲)均值表示，并給出了它們的優化解**。隨后總結了一些可能受益于小數據學習的潛在學習場景，并對其潛在的學習場景進行了分析。最后，一些具有挑戰性的應用，如計算機視覺，自然語言處理，可能受益于學習小數據也被綜述**。

//www.zhuanzhi.ai/paper/b3a7fa03007ee5e7246b7b277e8b2912

“那是一只貓在床上睡覺，男孩在拍大象，那些是要坐飛機的人，那是一架大飛機……”李飛飛說:“這是一個三歲的孩子在描述她看到的圖片。”2015年1月，她在科技娛樂設計(TED)上發表了一篇著名的演講“我們如何教計算機理解圖片”。在現實世界中，人類可以根據自己的先驗知識，只依靠一張圖片來識別目標和場景。然而，機器可能需要更多。在過去的幾十年里，人工智能(AI)[1][2]技術通過學習大數據[3][4]，幫助機器變得像人類一樣聰明。通過對人類大腦神經元的傳播進行建模，構建了一系列具有表現力的AI系統，如深藍[5]，AlphaGo[6]。當然，人工智能的天賦不是天生的。大數據訓練有助于人工智能識別不同的目標和場景。在處理大數據方面，采用MapReduce[7]、Hadoop[8]等技術訪問大規模數據，提取對AI決策有用的信息。具體來說，MapReduce分布在多個異構集群上，Hadoop通過云提供商處理數據。然而，盡管我們采用了這些大數據處理技術，但對大規模數據進行訓練和注釋的成本相當高。

一種新穎的觀點認為，小數據革命正在進行，對小數據進行訓練，使其具有預期的性能是人工智能的最終目的之一。從技術上講，人類專家希望緩解對大數據的需求，為AI系統找到新的突破，特別是深度神經網絡[9]的配置。相關工作包括有限標簽[10][11]、較少標簽[12][13][14]、較少數據[15][16]等，已經被低資源深度學習研究者實現。在形式上，少樣本學習[17]被稱為低資源學習(low-resource learning)，是一個以有限信息研究小數據的統一課題。基于Wang等人的綜述[18]，少樣本學習的一個顯式場景是特征生成[19]，即根據給定的有限或不足的信息生成人工特征。另一種具有隱式監督信息的場景更具挑戰性，它依賴于用那些高信息量的樣例(如私人數據)對學習模型[19][20]進行再訓練。理論上，大多數的少樣本學習場景是被動的，即標簽分布是由一個指定的抽樣場景顯式控制的。因此，主動學習[21]吸引了我們的眼睛，其中標簽獲取是由學習算法或人類控制的。

與少樣本學習不同，主動學習的注釋場景沒有那么有限。主動學習算法可以隨時停止迭代采樣，因為算法性能不理想，或者注釋預算耗盡。主動學習有兩類: 假設類[22]上的主動抽樣理論和實現場景[23]上的主動抽樣算法，其中理論研究給出了這些算法范式的標簽復雜性和收斂性保證。典型的理論分析來自PAC ((Probably Approximately Correct))[24]風格，它針對諸如[25]這樣的不可知論設置。為了控制主動采樣，存在一種搜索目標數據的誤差不一致系數，該系數能最大限度地提高假設更新，其中這些更新要求是積極的、有幫助的。因此，主動抽樣也是一個假設剪枝[26]的過程，它試圖從給定的假設類中找到最優假設，其中假設從版本空間[27][28]維持到類的決策邊界[29]。在幾何上，封閉類的版本空間通常嵌入在一個管狀結構[30][31]中，該管狀結構與球面類具有同胚拓撲。

對小數據的學習對于推進人工智能至關重要。少樣本學習作為一個先行課題，對有限數據訓練進行了探索。而少樣本學習的設置是一個被動的場景，任務本身規定的標簽信息不足。同時，它的泛化性能幾乎沒有理論保證。這促使我們對小數據的學習進行理論分析。利用主動抽樣理論，我們遵循PAC框架提出了一組用于小數據學習的誤差和標簽復雜性邊界。為了總結這些算法范式，我們然后將小數據學習模型分為:歐幾里得和雙曲(非歐幾里得)表示，包括它們的深度學習場景。具體地說，這項綜述的貢獻總結如下。

我們提出了小數據學習的形式化定義。該定義是一個模型無關的設置，從機器學習的角度派生出一個更一般化的概念。
從PAC的角度來看，我們首先提出了通過主動抽樣理論學習小數據的理論保證。給出了小數據學習的泛化誤差和標簽復雜度界。
從幾何的角度，我們將小數據學習模型分為兩類:歐幾里得表示和雙曲表示，其中它們的優化求解器進行了分析。
我們調研了一些學習小數據的新方向，為潛在的學習場景和現實世界的挑戰應用。

本綜述的其余部分安排如下。第2節介紹了小數據學習的相關文獻，包括少樣本學習和主動學習。第3節給出了關于小數據學習的正式定義，并給出了它的PAC分析，包括標簽復雜度和泛化誤差邊界。第4節從幾何角度介紹了學習小數據的歐幾里得和非歐幾里得范式，第5節介紹了相關的優化求解器。之后，第6節討論了學習小數據表示的潛在場景，第7節介紹了具有挑戰性的場景。然后，第8節介紹一些關于小數據的有趣應用。第9部分是本次綜述的最后結論。

小數據學習方法

隨著對小數據學習需求的不斷增加，我們探索在未來不同的方向上促進小數據表示的模型學習，包括遷移學習、元學習、強化學習、對比學習和圖表示學習等。在本節中，我們將介紹這些學習主題，并解釋在小數據上學習的潛力。

基于小數據的遷移學習

大多數機器學習理論都基于一個共同的假設:訓練數據和測試數據遵循相同的分布。然而，這種假設過于嚴格，無法滿足，或者在許多現實場景中可能不成立。遷移學習[116]擺脫了這一假設的約束(即訓練和測試數據可以來自不同的分布或域)，其目的是挖掘不同域之間的域不變特征和結構，從而進行有效的數據和知識遷移。遷移學習是利用從源領域學習到的知識來提高模型在目標領域的能力，如將騎自行車的知識轉移到開車的知識。

基于小數據的元學習

傳統的機器學習模型通常是在特定任務的專屬數據集上進行訓練的，這就造成了泛化能力差的問題，即學習模型很難適應以前從未見過的任務。為了克服這一困難，元學習[121]利用廣泛的元知識，例如在各種學習任務中調整學習參數，來教學習模型學習看不見的任務。

小數據的強化學習

強化學習[135]是一種強調通過獎勵預期行為和/或懲罰意外行為來最大化預期收益的人工智能范式。在強化學習中，存在兩個相互作用的對象:Agent和Environment。Agent可以感知環境的狀態，并對環境的反饋進行獎勵，從而做出合理的決策。也就是說，Agent的決策函數根據環境的狀態采取不同的行動，而學習函數根據環境的獎勵來調整策略，環境可以在Agent的行為的影響下調整自己的狀態，并將相應的獎勵反饋給Agent。

小數據對比學習

自監督學習[153]由于能夠避免標注大規模數據集的成本而受到關注。它主要利用前置任務從無監督數據中挖掘監督信息。利用構建的監督信息，我們可以進行模型學習，獲得對下游任務有價值的表示。與此同時，對比學習[154]、[155]、[156]、[157]、[158]最近成為自監督學習中的一個重要子課題，其目的是學習一種表示法，該表示法可以將具有對比損失的正對組合得更近，并將負對推離潛在嵌入空間。圖4展示了對比學習中的一個學習步驟。

小數據的圖表示學習

圖是一種常用的數據結構，用于描述社交網絡、推薦系統等復雜系統。在過去的幾年中，由于圖的強大表達能力，圖表示學習[163]逐漸引起了機器學習界的關注，它旨在建立能夠從非歐幾里得數據中高效學習的模型。與此同時，各種圖神經網絡[164]應運而生，它們在結構化數據挖掘任務中顯示出巨大的潛力，如節點分類、鏈接預測或圖分類等。然而，當這些圖數據挖掘任務遇到許多無監督/有監督的場景，其中很少，甚至沒有有效的數據或標簽存在，如何提高這些任務在圖上的性能，并在這些情況下獲得一個魯棒的模型?同時，圖神經網絡的關系結構發現[165]、[166]、[167]、表征能力[168]等有意義的子主題也有待探索，從數據表示的角度來看，可能也需要有效的思路。針對上述問題，對小數據的學習可以提供必要和強大的支持，由于其可觀的數據發現效率和較強的表示能力，可以促進圖表示學習的發展。特別地，圖5給出了GNN的一般設計流程。在該設計流程的方案下，GNN可分為遞歸圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。分類的詳細描述如下[164]。

付費5元查看完整內容

強化學習 · 深度強化學習 · 書籍 ·

2022 年 1 月 11 日

[付費5元查看完整內容]要上手RL？406頁《深度強化學習》2022新書，Leiden大學Aske Plaat教授主講

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Leiden大學Aske Plaat教授《深度強化學習》2022新書，值得關注！

深度強化學習近年來備受關注。在自動駕駛、游戲、分子重組和機器人等各種活動中，他們都取得了令人印象深刻的成果。在所有這些領域，計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作，如回旋和翻滾。在某些應用中，他們甚至比最優秀的人類還要優秀，比如Atari、Go、撲克和星際爭霸。深度強化學習探索復雜環境的方式提醒我們，孩子們是如何學習的，通過開玩笑地嘗試東西，獲得反饋，然后再嘗試。計算機似乎真的擁有人類學習的各個方面; 這是人工智能夢想的核心。教育工作者并沒有忽視研究方面的成功，大學已經開始開設這方面的課程。這本書的目的是提供深度強化學習領域的全面概述。這本書是為人工智能的研究生寫的，并為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基于模型的方法，它們構成了該領域的基礎。發展很快，我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。

//deep-reinforcement-learning.net/

這本書的目的是呈現在一個單一的深度強化學習的最新見解，適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法，我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我游戲、多主體、層次和元學習方面的先進的、前瞻性的發展。

深度強化學習建立在深度監督學習和表格強化學習的基礎上

在這些章節中有很多材料，既有基礎的，也有先進的，有很多文獻。一種選擇是講授一門關于書中所有主題的課程。另一種選擇是慢一些、深入一些，在基礎知識上花足夠的時間，創建關于Chaps. 2-5的課程，以涵蓋基本主題(基于值、基于策略和基于模型的學習)，并創建關于Chaps. 6-9的單獨課程，以涵蓋多智能體、分層和元學習等更高級的主題。

在這一介紹性的章節之后，我們將繼續學習第二章，在第二章中，我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始，并詳細討論它們。第三章解釋了基于深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基于價值、無模型的范式中工作。在本章的最后，我們將分析一個自學如何玩上世紀80年代Atari電子游戲的玩家。下一章，第四章，討論了一種不同的方法:基于深度策略的強化學習。下一章，第5章，介紹了基于深度模型的強化學習與學習模型，該方法首先建立環境的過渡模型，然后再建立策略。基于模型的強化學習有希望獲得更高的樣本效率，從而加快學習速度。

付費5元查看完整內容

Python · 機器學習 ·

2020 年 6 月 6 日

[付費5元查看完整內容]《Python機器學習項目實戰》，135頁pdf帶你小白入門機器學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著機器學習越來越多地被用于發現模式、進行分析和做出決策——投資于吸引更多的利益相關者加入是至關重要的。這本關于機器學習中的Python項目的書試圖做到這一點:為今天和明天的開發人員提供工具，他們可以使用這些工具更好地理解、評估和塑造機器學習，以幫助確保它為我們所有人服務。

如果你還沒有Python編程環境，這本書將為你提供一個，然后在“機器學習導論”一章中為你提供一個機器學習的概念理解。接下來是三個Python機器學習項目。它們將幫助你創建一個機器學習分類器，建立一個神經網絡來識別手寫數字，并通過為Atari構建一個機器人來給你一個深度強化學習的背景知識。

Python機器學習項目