人人干人人摸人人操,97人人模人人妻人人添,黄色的网站在线视频,国产精品国产精品国产三级普,国产色图在线观看

大型語言模型（LLM）和擴散模型（如ChatGPT和Stable Diffusion）具有前所未有的潛力。由于它們在互聯網上的所有公開文本和圖像上進行了訓練，它們可以為各種任務做出有用的貢獻。今天，進入門檻大大降低，幾乎任何開發人員都可以利用LLM和擴散模型來解決以前不適合自動化的問題。通過這本書，您將獲得生成式AI的堅實基礎，包括如何在實踐中應用這些模型。當首次將LLM和擴散模型整合到他們的工作流程中時，大多數開發人員會發現很難從它們中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套名為提示工程的原則，這些原則可以幫助您有效地與AI合作。學習如何讓AI為您服務。這本書解釋了：

您的程序AI模型的交互鏈結構以及其中的細化步驟
AI模型請求如何通過將應用問題轉化為模型訓練領域中的文檔完成問題而產生
LLM和擴散模型架構的影響——以及如何最好地與之互動
這些原則如何在自然語言處理、文本和圖像生成以及代碼領域的實踐中應用評價： “這是我讀過的關于提示工程的最好的書籍資源。Mike和James是這門藝術的高手。” ——Dan Shipper，Every聯合創始人兼CEO “這本書是對提示工程和生成式AI基礎知識的扎實介紹。作者以簡單、實用、易于理解的方式，涵蓋了從初學者到高級用戶的一系列有用技術。如果您希望提高AI系統的準確性和可靠性，這本書應該在您的書架上。” ——Mayo Oshin，Siennai Analytics創始人兼CEO，早期LangChain貢獻者 “Phoenix和Taylor的指南是生成式AI廣闊海洋中的燈塔。這本書成為我們在Phiture AI Labs團隊的基石，因為我們學習如何利用LLM和擴散模型創建與客戶應用和游戲本質相符的營銷資產。通過提示工程，我們能夠大規模生成定制的、符合品牌的內容。這不僅僅是理論；這是一個實際的實踐課，教你如何將AI的潛力轉化為定制解決方案，對于希望提升AI整合到新高度的開發人員來說，這是必讀書。” ——Moritz Daan，Phiture Mobile Growth Consultancy創始人兼合伙人 “提示工程對于生成式AI可能是未來最具前瞻性的方法。這無疑是任何從事AI實際應用的人最好的資源。書中豐富且精煉的原則將幫助新老AI工程師在未來保持領先地位。” ——Ellis Crosby，Incremento CTO兼聯合創始人 “這是針對代理和服務專業人員的必備指南。通過自動化管理將AI與服務和客戶交付相結合，加快解決方案速度，將設立新的行業標準。您將在書中找到有用、實用的信息和戰術，使您能夠全面了解和利用AI。” ——Byron Tassoni-Resch，WeDiscover CEO兼聯合創始人來自作者：自2020年GPT-3測試版以來，我們一直在進行提示工程，而當GPT-4到來時，我們發現許多以前使用的技巧和技巧不再必要。這促使我們定義了一套面向未來的原則，這些原則可以跨模型和模態傳遞，即使在未來使用GPT-5或其他模型時也依然有用。提示的五大原則是：

給出方向：詳細描述所需的風格，或參考相關角色。
指定格式：定義要遵循的規則和響應的結構。
提供示例：插入一組多樣的測試案例，其中任務已正確完成。
評估質量：識別錯誤并對響應進行評級，測試什么驅動性能。
分工合作：將任務分解為多個步驟，鏈式完成復雜目標。我們于2022年7月首次以博客文章形式發布了這些原則，它們經受住了時間的考驗，包括與OpenAI自己的一年后發布的提示工程指南有相當大的對應。任何與生成式AI密切合作的人可能都會趨向于采用類似的策略來解決常見問題，但這本書旨在讓您更快地達到目的。在整本書中，您會看到數百個提示技巧的示例，包括文本和圖像提示，以及使用Python構建AI自動化腳本和產品。這不僅僅是一份提示技巧清單，而是一本關于構建系統的實用指南，這些系統為AI應用程序提供了正確的上下文，并教您如何測試和擴展生產中的AI系統。如果以下情況，這本書將對您有用：

您的時間價值超過每小時40美元，讀這本書可以節省您從多個來源拼湊信息的幾小時。
您不僅是隨便使用AI，而是在構建一個AI應用程序或內部模板，許多人每天會使用數百或數千次。
您希望減少幻覺并提高AI的可靠性，同時學習數百個解決AI常見問題的真實示例。
您想比較OpenAI與其他模型的優缺點，以及常見框架如LangChain、不同的向量數據庫選項和AUTOMATIC1111
您希望看到從一個簡單提示到一個完整AI代理的端到端AI應用程序的構建過程，包括使用Gradio構建基本用戶界面

付費5元查看完整內容

相關內容

書籍

關注 0

書籍在狹義上的理解是帶有文字和圖像的紙張的集合。廣義的書則是一切傳播信息的媒體。

書籍 · 生成式人工智能 · 提示工程 ·

2024 年 5 月 25 日

[付費5元查看完整內容]【新書】生成式人工智能的提示工程：為可靠的AI輸出提供面向未來的輸入

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）和擴散模型，如ChatGPT和Stable Diffusion，具有前所未有的潛力。由于它們經過了對互聯網公開文本和圖像的訓練，它們可以為各種任務做出有用的貢獻。隨著入門門檻的顯著降低，幾乎任何開發者都可以利用LLMs和擴散模型來解決以前不適合自動化的問題。通過本書，您將獲得生成式AI的堅實基礎，包括如何在實踐中應用這些模型。大多數開發者在首次將LLMs和擴散模型集成到他們的工作流程中時，往往難以從中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套稱為提示工程的原則，這些原則可以使您有效地與AI合作。學習如何讓AI為您服務。本書解釋了：

您程序的AI模型的交互鏈結構及其之間的細化步驟- 如何將應用問題轉化為模型訓練領域的文檔完成問題，從而產生AI模型請求- LLM和擴散模型架構的影響——以及如何與其最佳互動- 這些原則在自然語言處理、文本和圖像生成以及代碼領域的實踐應用書評“這是我讀過的關于提示工程的最好的書籍資源。Mike和James是他們領域的專家。” ——Dan Shipper，Every聯合創始人兼CEO“這本書是生成式AI和提示工程基礎知識的一個堅實介紹。作者涵蓋了從初學者到高級用戶的各種有用技巧，簡單、實用且易于理解。如果您希望提高AI系統的準確性和可靠性，這本書應當在您的書架上。”——Mayo Oshin，Siennai Analytics創始人兼CEO，LangChain早期貢獻者“Phoenix和Taylor的指南是生成式AI浩瀚海洋中的燈塔。這本書成為了我們團隊在Phiture AI Labs學習如何利用LLMs和擴散模型創建與客戶應用和游戲本質相符的營銷資產的基石。通過提示工程，我們能夠大規模生成定制的品牌內容。這不僅僅是理論；這是將AI的原始潛力轉化為定制解決方案的實踐大師課程，使其成為希望將AI集成提升到新的創造力和效率高度的開發者的必讀書籍。” ——Moritz Daan，Phiture移動增長咨詢公司創始人/合伙人

“《生成式AI的提示工程》可能是未來保障您技術職業的最具前瞻性的方法。這無疑是任何從事AI實際應用工作的人的最佳資源。這里面豐富、精煉的原則將幫助新老AI工程師在未來可預見的競爭中保持領先。” ——Ellis Crosby，Incremento CTO兼聯合創始人“這是代理和服務專業人員的必備指南。將AI與服務和客戶交付結合起來，利用自動化管理，加快解決方案的速度，將設定新的行業標準。您會在書中找到有用、實用的信息和策略，使您能夠充分理解和利用AI的潛力。” ——Byron Tassoni-Resch，WeDiscover CEO兼聯合創始人作者的話自2020年GPT-3測試版以來，我們一直在做提示工程，當GPT-4推出時，我們發現許多我們曾使用的技巧和竅門已不再必要。這促使我們定義了一套可跨模型和模態轉移的面向未來的原則，這些原則在使用GPT-5或未來的任何模型時仍然有用。提示的五項原則是：1. 提供方向：詳細描述所需的風格，或參考相關的角色。2. 指定格式：定義要遵循的規則和響應的必要結構。3. 提供示例：插入一組多樣的測試案例，其中任務已正確完成。4. 評估質量：識別錯誤并評價響應，測試驅動性能的因素。5. 分工：將任務分成多個步驟，鏈式連接以實現復雜目標。我們首次在2022年7月以博客文章的形式發布了這些原則，它們經受住了時間的考驗，包括與OpenAI自己一年后發布的提示工程指南高度契合。任何與生成式AI密切合作的人都可能會收斂到一組類似的策略來解決常見問題，但這本書旨在更快地讓您達到這一點。在本書中，您將看到數百個提示技術的示例，包括文本和圖像提示，以及使用Python構建AI自動化腳本和產品。這不是一個尋找正確魔法詞組組合的提示技巧列表，而是一個構建系統的實用指南，提供AI應用所需的正確上下文，以及如何測試和擴展生產環境中的AI系統。如果您符合以下情況，這本書將對您有用：- 您的時間價值超過每小時40美元，閱讀這本書節省的幾個小時，而不是從多個來源拼湊一切，對您來說是值得的。- 您不僅是隨便使用AI，而是實際在構建一個AI應用或內部模板，許多人每天將使用數百或數千次。- 您希望通過學習數百個如何解決AI常見問題的真實案例來減少幻覺并提高AI的可靠性。- 您希望比較OpenAI與其他模型的優缺點，以及LangChain等常見框架、不同的向量數據庫選項和AUTOMATIC1111。- 您想看到從一個天真的提示到一個完整AI代理，包括使用Gradio構建基本用戶界面的端到端AI應用構建過程。

付費5元查看完整內容

提示工程 · ChatGPT · Dall-E · Midjourney · 書籍 ·

2024 年 3 月 24 日

[付費5元查看完整內容]【新書】提示工程快速指南：適用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和竅門

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在《Prompt Engineering 快速指南》中，著名技術未來學家、管理咨詢師和AI思想領袖Ian Khan就理解和學習如何使用生成式AI的第一步提供了實用且富有洞察力的討論。在這本簡潔的快速啟動指南中，你將學習如何設計和使用提示符，以充分利用大型語言模型生成式AI應用程序，如ChatGPT、DALL-E、谷歌的Bard等。書中，你將探索如何理解生成式人工智能，并在廣泛的行業用例中工程化提示符。你還會發現深思熟慮且啟發性的案例研究和動手練習，以及一步步的指南，幫助你在短時間內快速掌握提示符工程。該書為非技術用戶編寫，旨在幫助他們在生成式AI世界中邁出第一步。除了一個有用的常見術語詞匯表、有用的額外閱讀和資源列表及其他資源外，你還將獲得：

生成式人工智能基礎知識的解釋，幫助你了解ChatGPT和其他LLMs的內部運作機制分步指南，用于創建有效、高效和符合倫理的提示符，幫助你從這些激動人心的新工具中獲得盡可能多的實用性使用各種公開可用的人工智能工具生成文本、圖像、視頻、聲音、音樂和其他音頻的策略

《Prompt Engineering 快速指南》是技術愛好者、營銷人員、內容創作者、技術專業人員、數據專家以及任何其他希望在工作或家庭中理解和使用生成式AI的人必讀的書籍，非常適合對最新和最實用的技術進步感興趣的任何人。不需要有先前的經驗。

付費5元查看完整內容

模仿學習 · 強化學習 ·

2023 年 9 月 9 日

[付費5元查看完整內容]模仿學習綜述：算法、最新進展和挑戰

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，機器人技術和人工智能（AI）系統的發展可謂非常顯著。隨著這些系統不斷發展，它們被用于越來越復雜和無結構的環境中，如自動駕駛、空中機器人和自然語言處理等領域。

因此，通過手動編程其行為或通過獎勵函數來定義它們的行為（如在強化學習（RL）中所做的那樣）變得異常困難。這是因為這些環境需要高度的靈活性和適應性，很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。

在這種環境中，通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習（IL）發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程，這些行為是通過示范提供的。

本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外，本文討論了研究人員如何解決與IL相關的常見挑戰，并提供了未來研究的可能方向。總的來說，本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。

傳統上，機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而，開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼，需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。

IL技術有潛力將教授任務的問題減少到提供演示的問題，從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提，即即使人類專家無法將所需的行為編程到機器或機器人中，他們仍然能夠演示所需的行為。因此，IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。

IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務，通過學習觀察和行動之間的映射關系。通過利用IL，代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動，而不會給專家帶來太大負擔[2]。因此，IL方法有潛力為廣泛的行業帶來重大好處，包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中，IL允許專業領域的專家，他們可能沒有編碼技能或對系統的知識，有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間，但計算和感知方面的最新成就，以及對人工智能應用的不斷增長的需求，增加了IL的重要性[10]，[11]。因此，近年來該領域的出版物數量顯著增加。在過去的二十年里，已經出版了多次關于IL的綜述，每一次都聚焦于該領域發展的不同方面（圖1）。Schaal [3] 提出了第一份關于IL的綜述，重點關注IL作為創建類人機器人的途徑。最近，Osa等人[1]從算法的角度提供了關于IL的觀點，而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近，Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查，但新的調查仍然有必要捕捉這一快速發展領域的最新進展，提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注，并具有多種應用，一份綜合性調查可以作為新手的重要參考，同時提供不同用例的概述。我們承認IL是一個不斷發展的領域，不斷有新的算法、技術和應用被開發出來。

因此，我們的調查旨在整合大量關于IL的研究，以便研究人員和從業者更容易導航。此外，我們旨在識別當前研究中存在的差距和挑戰，為未來的工作提供明確的方向。最后，我們的目標是使IL的概念和技術更容易被更廣泛的受眾，包括相關領域的研究人員，以增進對這一領域的理解。總的來說，我們堅信我們的調查將為推動IL領域的發展做出重大貢獻，并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標，我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先，我們將介紹IL的兩大廣泛方法類別：行為克隆（BC）和逆強化學習（IRL）。我們將討論它們的表述、發展、優勢和局限性。此外，我們將探討對抗性模仿學習（AIL）如何通過引入對抗性上下文來擴展IRL的方法，突出了將對抗性訓練融入IL的好處，并評估AIL領域的當前進展。此外，我們將介紹來自觀察的模仿（IfO）作為一種新穎的技術，旨在從僅包含狀態（無動作）演示中進行學習。我們將討論IfO的重要性，以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別，以解決從僅包含狀態觀察中進行學習的挑戰。最后，我們將討論IL技術在現實場景中遇到的挑戰，如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性，并探討可以采取的未來研究方向，以解決這些問題。

這份綜述論文提供了關于模仿學習（IL）領域的全面概述，探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類，確定了兩種一般的學習方法，即行為克隆（BC）和逆向強化學習（IRL），并討論了它們的相對優勢和局限性。此外，論文強調了將對抗性訓練整合到IL中的好處，并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術，旨在從僅包含狀態的演示中學習。通過檢查各種IL算法，我們對它們的優點和局限性有了寶貴的見解，并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中，一個重要的挑戰是需要收集多樣化和大規模的演示，這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而，這帶來了一個挑戰，因為現成的演示資源，如在線視頻，存在額外的困難，例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法，這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中，那么克服這些挑戰是必不可少的。因此，未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰，IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟，我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境，并最終實現更高級別的智能方面發揮關鍵作用，為人工智能的實際應用鋪平道路。

付費5元查看完整內容

通用人工智能 · 計算機視覺 · 大模型 · GPT ·

2023 年 6 月 21 日

[付費5元查看完整內容]如何構建CV中的AGI？華為最新《計算機視覺中的人工通用智能：從GPT和大型語言模型中學到的經驗教訓》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何探索CV中的AGI？華為這篇論文進行了論述

人工智能社區一直在追求被稱為通用人工智能（AGI）的算法，這些算法可以應用于任何類型的現實世界問題。最近，由大型語言模型（LLMs）驅動的聊天系統嶄露頭角，并迅速成為在自然語言處理（NLP）中實現AGI的有力候選，但是在計算機視覺（CV）中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜，但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中，我們從AGI的概念定義開始，簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們，統一性是CV的下一個重要目標。但是，盡管在這個方向上做出了各種努力，CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出，CV的根本弱點在于缺乏從環境中學習的范式，然而NLP已經在文本世界中完成了這項任務。然后，我們設想了一個流程，將一個CV算法（即，一個代理）放置在世界級的、可交互的環境中，預先訓練它根據其行動預測未來的幀，然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大，對此，我們分享了我們對未來研究方向的觀點。

1. 引言

世界正在見證向人工通用智能（AGI）的史詩般的奧德賽，我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是，在自然語言處理（NLP）中，已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為，這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型（LLMs）建立的，并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊，可以完成諸如解決數學問題、生成視覺內容等復雜任務，反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面（例如，講述科學事實和命名人物之間的關系）存在已知的弱點，但這些開創性的研究已經顯示出一個明確的趨勢，即將NLP中的大多數任務統一到一個系統中，這反映了對AGI的追求。與自然語言處理（NLP）中統一化的快速進展相比，計算機視覺（CV）領域離統一所有任務的目標還很遠。常規的CV任務，如視覺識別、追蹤、字幕、生成等，大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統，可以用統一的提示機制處理各種CV任務，但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如，為了在物體檢測和語義分割中報告高識別準確率，最好的策略是在強大的骨干網絡上設計特定的頭部模塊，但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然，統一化是CV的趨勢。近年來，這個方向有許多努力，我們大致將它們分為五個研究主題，即(i) 基于視覺-語言對齊的開放世界視覺識別，(ii) 用于通用視覺識別的“分割任何物體”任務，(iii) 統一視覺任務的通用視覺編碼，(iv) LLM引導的視覺理解，以增強CV中的邏輯，以及(v) 多模態對話，以促進視覺-語言交互。這些工作都顯示出統一化的希望，但是，它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。

因此，產生了兩個問題：（1）為什么在CV中實現統一如此困難？（2）我們可以從GPT和LLMs中學到什么來實現這個目標？為了回答這些問題，我們重新審視GPT，將其理解為在文本世界中建立一個環境，并允許一個算法（或代理）通過交互學習。計算機視覺研究缺乏這樣的環境。因此，算法無法模擬世界，所以它們只能采樣世界，并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后，代理任務不再能夠表示CV算法的能力；越來越明顯的是，繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析，我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理：這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務：在這個階段，可能需要引入人類的指令，這對應于NLP中的指令微調階段。可選地，可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關，包括3D環境建立、視覺預訓練、強化學習和具身CV。但是，現有的工作大多是初步的，我們預期需要大量的努力，才能使它成為解決現實世界問題的有效范式。

本文的其余部分組織如下。首先，在第2部分，我們簡要介紹了AGI的歷史和思想，并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分，我們展示了GPT的能力，這是一種最先進的NLP算法，被認為是AGI的火花。然后，在第4部分，我們根據CV研究的當前狀態，分析了在計算機視覺中實現AGI為什么困難，并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分，我們在那里設想了一種將CV推向AGI的流程，并基于此對未來的研究方向進行了一些評論。最后，在第6部分，我們對本文進行了總結并分享了我們的思考。

2. CV：AGI的下一個戰場

人類基于多種數據模式感知世界。我們都知道，我們學到的大約85%的東西是通過我們的視覺系統。因此，鑒于NLP社區已經展現了AGI的前景，自然而然地將計算機視覺（CV）或多模態（至少包括視覺和語言領域）視為AGI的下一個戰場。在此，我們提供兩個額外的評論來補充上述陳述。首先，顯然，CV是NLP的超集，因為人們閱讀文章是首先通過識別捕獲圖像中的字符，然后理解內容。換句話說，CV（或多模態）的AGI應該覆蓋NLP的所有AGI能力。其次，我們認為在許多情況下，僅依靠語言是不夠的。例如，當人們試圖找到關于一個未知對象（例如，動物、時尚等）的詳細信息時，最好的方式是拍攝一張圖片并用它進行在線搜索；純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子，如我們將在第4.3節中看到，不總是容易指出場景中的細粒度語義（用于識別或圖像編輯），并且以視覺友好的方式思考更有效，例如，使用一個點或框來定位一個對象，而不是說一些像“穿著黑色夾克，在黃色汽車前站著和另一個人交談”的人這樣的話。

我們期望有一個CV算法能解決一般性任務，可能通過與環境的交互。注意，這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統，接收來自人類的通用命令并產生所需的結果。但是，當前的CV狀態還很初級。如圖7所示，CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。

**統一化是趨勢 **

下面，我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。

**開放世界視覺識別 **

在很長一段時間里，大多數CV算法只能識別出現在訓練數據中的概念，導致了一個“封閉世界”的視覺概念。相反，“開放世界”的概念指的是CV算法能夠識別或理解任何概念，無論它是否以前出現過。開放世界的能力往往通過自然語言引入，因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務，如圖像字幕 [73]，[74] 和視覺問題回答 [91]，[92]，[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近，隨著視覺語言預訓練（例如 CLIP [13] 和 ALIGN [94]）的出現，將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75]，[76]，[77] 和視覺問題回答 [11]，[76]，[95] 提供了更簡單的管道，而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如，圖像分類可以通過簡單地將查詢圖像與一組模板（也被稱為“提示”）匹配來完成，說一張{某物}的照片，其中某物可以是任何（因此是開放世界的）概念，比如貓或西伯利亞雪橇犬，并將結果設置為匹配得分最高的候選者。除了原始版本之外，研究人員開發了名為“學習提示”的算法 [96]，[97] 來提高分類準確性。后來，該方法從圖像分類繼承到物體檢測 [87]，[98]，語義分割 [88]，[99]，實例分割 [100]，全景分割 [101]，[102]，并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益，這些模型經過增強的定位預訓練 [103]，[104]。開放世界視覺識別與零樣本視覺識別密切相關，因為它們都試圖將識別能力泛化到訓練集中未出現的概念。

"分割任何事物"任務

"分割任何事物"任務 [14] 最近被引入作為一個通用模塊，將原始圖像像素聚類為多個組，其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示，并為每個提示或每個提示的組合產生一些掩碼和分數。該模型，SAM，在一個包含約1000萬圖像的大規模數據集上進行了訓練，能夠轉移到廣泛的分割任務，包括醫學圖像分析 [111]，[112]，[113]，偽裝對象分割 [110]，[114]，3D對象分割 [108]，對象跟蹤 [115]，以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用，例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼，并將分割的單元輸入到開放集分類算法中進行圖像標記 [107]，[117]。

技術上，SAM的關鍵在于提示機制和數據閉合，即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分，但仍然存在許多未解決的問題。例如，關于SAM的上游和下游模塊（如果SAM確實是管道的一部分）仍然不清楚，而且SAM可能會嚴重受到像素級外觀的影響，例如，手臂可以精確地在衣服的邊界處從軀干上分割出來，這意味著顏色是分割的主導因素。總的來說，SAM可能已經過度適應了"分割任何事物"任務本身，從而削弱了其分類能力。

通用視覺編碼

另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異，例如，對象檢測需要一組邊界框，而語義分割需要對整個圖像進行密集預測，這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的，自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示，對象檢測結果（即邊界框）可以被形式化為自然語言和坐標，然后轉換為視覺模型的輸出標記。在稍后的版本，pix2seq-v2 中，他們將表示形式一般化，以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16]，[122]，[123] 任務。

LLM指導的視覺理解

視覺識別可以非常復雜，尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型（視覺-語言預訓練模型用于視覺問題回答[11]，[76]，[95]）來說，按照人類容易理解的程序生成答案是困難的。為了緩解這個問題，一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前，在Transformer架構出現之前，研究人員提出使用長短期記憶模型（LSTM）[72]生成程序，以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候，LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近，大型語言模型（尤其是GPT系列）的出現使得任意問題的轉換成為可能。具體來說，GPT可以以不同的方式與人類交互。例如，它可以將基本識別結果總結為最終答案[125]，或者生成代碼[18]，[124]或自然語言腳本[19]來調用基本視覺模塊。因此，視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效，例如，詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯，但它們尚未展示出協助基本視覺識別模塊的能力。也就是說，一旦基本的識別結果錯誤（例如，檢測算法錯過了一些小的和/或部分遮擋的對象），答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯（例如，算法可以按照順序算法來檢測每個對象，或者被常識[127]指導來解決難題），可能是在LLMs的幫助下，從而提升基本的視覺識別。

多模態對話

多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答，其中構建了各種簡單問題的數據集 [128]，[129]，[130]。隨著LLMs的快速發展，通過對預訓練的視覺和語言模型進行微調，實現了多輪問答 [11]，[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近，在GPT系列中開發的一種新的范式，稱為指導學習 [4]，已被繼承用于提高多模態對話的質量 [20]，[46]。其思想是提供一些參考數據（例如，對象、描述）來自于基準標注或識別結果，并要求GPT模型生成指導數據（即，豐富的問答對）。通過這些數據（無需參考），用于視覺和語言的基礎模型可以通過輕量級的網絡模塊（例如，Q-former [11]）相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準，但作為一個由語言引導的任務，它也具有開放世界視覺識別中分析的弱點（見第4.2.1節）。我們期望豐富查詢形式的方法（例如，使用通用的視覺編碼方法，參見第4.2.3節）可以將多模態對話推向更高的水平。

3 未來：從環境中學習

上述分析要求我們為計算機視覺（CV）的強大代理制定一個新的范式。在本節中，我們將我們的觀點和洞見轉化為一個假想的流程，回顧與這個流程相關的現有工作，并基于這個流程對未來的研究方向提出評論。

圖14展示了我們的想法。這個流程包括三個階段：第0階段建立環境，第1階段進行預訓練，第2階段進行微調。在需要的時候，微調后的模型可以被用于傳統的視覺識別任務。下面，我們將詳細描述每個階段。

?** 第0階段：建立環境**。正如前面的分析，高質量的環境對于計算機視覺（CV）中的人工通用智能（AGI）是非常必要的。這里的"高質量"概念包括但不限于豐富性（應該有充足和多樣化的環境）、真實性（視覺外觀和其他代理的行為應接近真實世界）以及交互性的豐富性（代理可以通過與環境交互來執行廣泛的任務）。

?** 第1階段：生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理（NLP）中的 GPT 任務（預測下一個詞元）的最大區別在于，未來的幀取決于代理的行動（在 NLP 中，預訓練的文本語料庫保持不變），所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是，由于計算機視覺（CV）是自然語言處理（NLP）的超集（參見第4.1節前的段落），預訓練的計算機視覺模型的大小（例如，參數的數量）應該比自然語言處理模型大幾個數量級。

第2階段：指導微調。預訓練模型被指導完成真實世界的任務，遵循人類的指示。直觀上說，代理與環境之間允許的交互類型有很多，包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是，應該收集更多的指示數據，這也對應于基礎計算機視覺模型的大小。

? 可選：下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力，例如，為了完成一個非常簡單的任務，比如"給我買一杯咖啡"，模型必須至少學會(i) 安全地四處探索，(ii) 識別咖啡店在哪里，(iii) 用語言與店員交流，并且(iv) 抓取買到的咖啡。這樣的模型，當適當地提供提示時，應該輸出期望的感知結果，包括追蹤另一個代理（以避免與其碰撞），開放集的視覺識別（用于找到酒吧和買到的咖啡）等等。這與通過合成進行分析的想法[136]有關。

4 結論

在這篇論文中，我們討論了如何推動計算機視覺（CV）算法向人工通用智能（AGI）發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力，然后我們繼承了來自自然語言處理（NLP），尤其是 GPT 系列的想法和洞見。我們的結論是，計算機視覺缺乏一個可以從環境中學習的范式，為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。

付費5元查看完整內容

深度學習 · 微控制器 · TinyML ·

2023 年 6 月 12 日

[付費5元查看完整內容]【2023新書】在微控制器上進行深度學習：學習如何使用TinyML開發嵌入式AI應用程序

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

TinyML，也就是微型機器學習，用于在資源受限的設備上實現機器學習，例如微控制器和嵌入式系統。如果你想利用這些低成本、低功耗但奇異強大的設備，那么這本書就是為你準備的。這本書旨在增加TinyML應用程序的可用性，特別是對于缺乏資源或專業知識來開發和部署它們在基于微控制器的板上的專業人士。書中首先簡要介紹人工智能，包括解決復雜問題的經典方法。它還將幫助你熟悉適用于嵌入式設備和微控制器的不同ML模型開發和部署工具、庫和框架。書中將幫助你使用Arduino Nano RP2040板和Syntiant TinyML板構建一個空氣手勢數字識別系統和一個用于識別關鍵詞的AI項目。最后，書中總結了所涵蓋的概念，并簡要介紹了零樣本學習、單樣本學習、聯邦學習和MLOps等主題。通過閱讀這本書，你將能夠輕松開發和部署端到端的Tiny ML解決方案。你將學到什么 ● 學習如何使用Syntiant TinyML板構建關鍵詞識別系統。 ● 學習如何使用Arduino Nano RP2040構建空氣手勢數字識別系統。 ● 學習如何在Edge Impulse和Arduino IDE上測試和部署模型。 ● 獲取提高系統級性能的技巧。 ● 探索TinyML在各個行業中的不同實際用例。這本書適合誰本書適合物聯網開發者、系統工程師、軟件工程師、硬件工程師以及對將AI集成到他們的工作中感興趣的專業人士。這本書是對工程本科生的寶貴資源，他們對微控制器和物聯網設備感興趣，但可能不知道從何開始。

AI簡介

傳統ML生命周期

TinyML硬件和軟件平臺

實際應用案例

用TinyML進行的實驗

使用TinyML板的高級實現

持續改進

結論

付費5元查看完整內容

WWW 2023 · 預訓練 · 文本挖掘 · 預訓練語言模型 ·

2023 年 5 月 17 日

[付費5元查看完整內容]【WWW2023教程】將網絡規模的文本轉化為知識:將預訓練表示轉化為文本挖掘應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

文本數據在網絡上無處不在且海量:新聞報道、社交媒體帖子、維基百科文章等每天都在網上創建和更新。雖然它們包含豐富的信息和知識，但在文本密集型應用中有效利用它們仍然是一個公開的挑戰。預訓練語言模型(PLM)的最新進展已經徹底改變了文本挖掘和處理:通過在從網絡獲得的大規模文本語料庫上預訓練神經架構，然后將其表示轉移到特定任務的數據中，可以有效利用在網絡規模語料庫中編碼的知識，從而顯著提高下游任務的性能。PLM最常見的自適應方法是預訓練-微調范式，其中PLM在下游任務標記的數據上進行進一步訓練。然而，這種范式的主要挑戰是，對PLM的全監督微調通常需要大量的人工標注，而在實踐中獲取這些標注是昂貴的。

在本教程中，我們將介紹從網絡規模的語料庫中學習的預訓練文本表示的最新進展，以及它們在廣泛的文本挖掘任務中的應用。本文專注于不需要大量人工標注的弱監督方法，包括(1)作為下游任務基礎的預訓練語言模型，(2)用于從大規模文本語料庫中發現主題的無監督和種子引導方法，以及(3)用于文本分類和高級文本挖掘任務的弱監督方法。

付費5元查看完整內容

大模型 · 大型語言模型 · ChatGPT ·

2023 年 4 月 3 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自20世紀50年代圖靈測試被提出以來，人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法，在過去的二十年中，語言建模在語言理解和生成方面得到了廣泛的研究，從統計語言模型發展到神經語言模型。最近，通過在大規模語料庫上預訓練Transformer模型，人們提出了預訓練語言模型(PLM)，在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高，他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是，當參數規模超過一定水平時，這些放大的語言模型不僅實現了顯著的性能提升，而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異，研究界創造了大型語言模型(LLM)這個術語，用于表示規模巨大的PLM(例如，包含數百億或千億參數)。近年來，學術界和工業界對LLMs的研究取得了很大進展，其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出，引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響，這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步，本綜述通過介紹背景、關鍵發現和主流技術，回顧了LLM的最新進展。重點關注LLM的四個主要方面，即預訓練、自適應調優、利用率和能力評估。此外，還總結了開發LLM的可用資源，并討論了剩余問題，以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述，對于研究人員和工程師來說，這可以是一個有用的資源。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 機器學習優化 · 自適應 · 魯棒性 · 隱私性 ·

2021 年 12 月 20 日

[付費5元查看完整內容]【斯坦福大學博士論文】現代機器學習優化問題：自適應、魯棒性與隱私性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習是一種變革性的計算工具，它正在革新許多技術和科學應用。然而，最近在人工智能和機器學習方面的成功，以及隨之而來的模型的廣泛部署，已經改變了經典的機器學習管道。首先，可用數據的絕對規模——在數量和維度上——已經爆炸。此外，現代機器學習架構具有指數級的設計選擇和超參數，但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要，該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后，隨著我們收集越來越多的用戶數據，我們希望在向公眾發布這些模型時，基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中，我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說，我們首先提出了理解自適應梯度算法的最優性的新的理論結果，并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后，我們提出了可擴展的最小最大優化方法，以有效地解決魯棒目標。最后，我們開發了私有優化方法，在更嚴格的隱私要求下最優地學習，以及自適應方法，在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

Python · 機器學習 ·

2020 年 6 月 6 日

[付費5元查看完整內容]《Python機器學習項目實戰》，135頁pdf帶你小白入門機器學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著機器學習越來越多地被用于發現模式、進行分析和做出決策——投資于吸引更多的利益相關者加入是至關重要的。這本關于機器學習中的Python項目的書試圖做到這一點:為今天和明天的開發人員提供工具，他們可以使用這些工具更好地理解、評估和塑造機器學習，以幫助確保它為我們所有人服務。

如果你還沒有Python編程環境，這本書將為你提供一個，然后在“機器學習導論”一章中為你提供一個機器學習的概念理解。接下來是三個Python機器學習項目。它們將幫助你創建一個機器學習分類器，建立一個神經網絡來識別手寫數字，并通過為Atari構建一個機器人來給你一個深度強化學習的背景知識。

Python機器學習項目

前言
設置Python編程環境 3.機器學習入門
如何用Scikitlearn在Python中構建機器學習分類器
如何建立基于Tensorflow的神經網絡識別手寫數字
深度強化學習的偏差-方差: 如何用OpenAI Gym為Atari構建一個機器人

付費5元查看完整內容

信息檢索 · BERT · ColBERT ·

2020 年 4 月 28 日

[付費5元查看完整內容]【SIGIR2020-斯坦福大學】一種新的又好又快的BERT類信息檢索模型-ColBERT

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言理解(NLU)的最新進展正在推動信息檢索(IR)的快速發展，這在很大程度上要歸功于對文檔排序的深層語言模型(LMs)的微調。雖然非常有效，但是基于這些LMs的排序模型比以前的方法增加了幾個數量級的計算成本，特別是因為它們必須通過一個龐大的神經網絡來為每個查詢文檔對提供數據，從而計算單個相關分數。為了解決這個問題，我們提出了一種新的排序模型ColBERT，它采用深度LMs(特別是BERT)來進行有效的檢索。ColBERT引入了一種后期交互體系結構，該體系結構使用BERT獨立地對查詢和文檔進行編碼，然后使用一種廉價但功能強大的交互步驟來建模它們的細粒度相似性。通過延遲并保留這種細粒度交互，ColBERT可以利用深度LMs的表達能力，同時獲得離線預先計算文檔表示的能力，這大大加快了查詢處理的速度。除了降低通過傳統模型檢索的文檔重新排序的成本外，ColBERT的修剪友好交互機制還支持利用向量相似度索引來直接從大型文檔集合進行端到端檢索。我們使用兩個最近的文章搜索數據集對ColBERT進行了廣泛的評估。結果表明，ColBERT的有效性與現有的基于bert的模型相比是有競爭力的(并且優于每個非bert基線)，同時執行兩個數量級的速度更快，每個查詢需要減少四個數量級的錯誤。