亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 大型語言模型(LLMs)和擴散模型,如ChatGPT和Stable Diffusion,具有前所未有的潛力。由于它們經過了對互聯網公開文本和圖像的訓練,它們可以為各種任務做出有用的貢獻。隨著入門門檻的顯著降低,幾乎任何開發者都可以利用LLMs和擴散模型來解決以前不適合自動化的問題。通過本書,您將獲得生成式AI的堅實基礎,包括如何在實踐中應用這些模型。大多數開發者在首次將LLMs和擴散模型集成到他們的工作流程中時,往往難以從中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套稱為提示工程的原則,這些原則可以使您有效地與AI合作。學習如何讓AI為您服務。本書解釋了:

  • 您程序的AI模型的交互鏈結構及其之間的細化步驟- 如何將應用問題轉化為模型訓練領域的文檔完成問題,從而產生AI模型請求- LLM和擴散模型架構的影響——以及如何與其最佳互動- 這些原則在自然語言處理、文本和圖像生成以及代碼領域的實踐應用書評“這是我讀過的關于提示工程的最好的書籍資源。Mike和James是他們領域的專家。” ——Dan Shipper,Every聯合創始人兼CEO“這本書是生成式AI和提示工程基礎知識的一個堅實介紹。作者涵蓋了從初學者到高級用戶的各種有用技巧,簡單、實用且易于理解。如果您希望提高AI系統的準確性和可靠性,這本書應當在您的書架上。”——Mayo Oshin,Siennai Analytics創始人兼CEO,LangChain早期貢獻者“Phoenix和Taylor的指南是生成式AI浩瀚海洋中的燈塔。這本書成為了我們團隊在Phiture AI Labs學習如何利用LLMs和擴散模型創建與客戶應用和游戲本質相符的營銷資產的基石。通過提示工程,我們能夠大規模生成定制的品牌內容。這不僅僅是理論;這是將AI的原始潛力轉化為定制解決方案的實踐大師課程,使其成為希望將AI集成提升到新的創造力和效率高度的開發者的必讀書籍。” ——Moritz Daan,Phiture移動增長咨詢公司創始人/合伙人

“《生成式AI的提示工程》可能是未來保障您技術職業的最具前瞻性的方法。這無疑是任何從事AI實際應用工作的人的最佳資源。這里面豐富、精煉的原則將幫助新老AI工程師在未來可預見的競爭中保持領先。” ——Ellis Crosby,Incremento CTO兼聯合創始人“這是代理和服務專業人員的必備指南。將AI與服務和客戶交付結合起來,利用自動化管理,加快解決方案的速度,將設定新的行業標準。您會在書中找到有用、實用的信息和策略,使您能夠充分理解和利用AI的潛力。” ——Byron Tassoni-Resch,WeDiscover CEO兼聯合創始人作者的話自2020年GPT-3測試版以來,我們一直在做提示工程,當GPT-4推出時,我們發現許多我們曾使用的技巧和竅門已不再必要。這促使我們定義了一套可跨模型和模態轉移的面向未來的原則,這些原則在使用GPT-5或未來的任何模型時仍然有用。提示的五項原則是:1. 提供方向:詳細描述所需的風格,或參考相關的角色。2. 指定格式:定義要遵循的規則和響應的必要結構。3. 提供示例:插入一組多樣的測試案例,其中任務已正確完成。4. 評估質量:識別錯誤并評價響應,測試驅動性能的因素。5. 分工:將任務分成多個步驟,鏈式連接以實現復雜目標。我們首次在2022年7月以博客文章的形式發布了這些原則,它們經受住了時間的考驗,包括與OpenAI自己一年后發布的提示工程指南高度契合。任何與生成式AI密切合作的人都可能會收斂到一組類似的策略來解決常見問題,但這本書旨在更快地讓您達到這一點。在本書中,您將看到數百個提示技術的示例,包括文本和圖像提示,以及使用Python構建AI自動化腳本和產品。這不是一個尋找正確魔法詞組組合的提示技巧列表,而是一個構建系統的實用指南,提供AI應用所需的正確上下文,以及如何測試和擴展生產環境中的AI系統。如果您符合以下情況,這本書將對您有用:- 您的時間價值超過每小時40美元,閱讀這本書節省的幾個小時,而不是從多個來源拼湊一切,對您來說是值得的。- 您不僅是隨便使用AI,而是實際在構建一個AI應用或內部模板,許多人每天將使用數百或數千次。- 您希望通過學習數百個如何解決AI常見問題的真實案例來減少幻覺并提高AI的可靠性。- 您希望比較OpenAI與其他模型的優缺點,以及LangChain等常見框架、不同的向量數據庫選項和AUTOMATIC1111。- 您想看到從一個天真的提示到一個完整AI代理,包括使用Gradio構建基本用戶界面的端到端AI應用構建過程。

付費5元查看完整內容

相關內容

 書籍在狹義上的理解是帶有文字和圖像的紙張的集合。廣義的書則是一切傳播信息的媒體。

大型語言模型(LLM)和擴散模型(如ChatGPT和Stable Diffusion)具有前所未有的潛力。由于它們在互聯網上的所有公開文本和圖像上進行了訓練,它們可以為各種任務做出有用的貢獻。今天,進入門檻大大降低,幾乎任何開發人員都可以利用LLM和擴散模型來解決以前不適合自動化的問題。 通過這本書,您將獲得生成式AI的堅實基礎,包括如何在實踐中應用這些模型。當首次將LLM和擴散模型整合到他們的工作流程中時,大多數開發人員會發現很難從它們中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套名為提示工程的原則,這些原則可以幫助您有效地與AI合作。 學習如何讓AI為您服務。這本書解釋了:

  • 您的程序AI模型的交互鏈結構以及其中的細化步驟
  • AI模型請求如何通過將應用問題轉化為模型訓練領域中的文檔完成問題而產生
  • LLM和擴散模型架構的影響——以及如何最好地與之互動
  • 這些原則如何在自然語言處理、文本和圖像生成以及代碼領域的實踐中應用 評價: “這是我讀過的關于提示工程的最好的書籍資源。Mike和James是這門藝術的高手。” ——Dan Shipper,Every聯合創始人兼CEO “這本書是對提示工程和生成式AI基礎知識的扎實介紹。作者以簡單、實用、易于理解的方式,涵蓋了從初學者到高級用戶的一系列有用技術。如果您希望提高AI系統的準確性和可靠性,這本書應該在您的書架上。” ——Mayo Oshin,Siennai Analytics創始人兼CEO,早期LangChain貢獻者 “Phoenix和Taylor的指南是生成式AI廣闊海洋中的燈塔。這本書成為我們在Phiture AI Labs團隊的基石,因為我們學習如何利用LLM和擴散模型創建與客戶應用和游戲本質相符的營銷資產。通過提示工程,我們能夠大規模生成定制的、符合品牌的內容。這不僅僅是理論;這是一個實際的實踐課,教你如何將AI的潛力轉化為定制解決方案,對于希望提升AI整合到新高度的開發人員來說,這是必讀書。” ——Moritz Daan,Phiture Mobile Growth Consultancy創始人兼合伙人 “提示工程對于生成式AI可能是未來最具前瞻性的方法。這無疑是任何從事AI實際應用的人最好的資源。書中豐富且精煉的原則將幫助新老AI工程師在未來保持領先地位。” ——Ellis Crosby,Incremento CTO兼聯合創始人 “這是針對代理和服務專業人員的必備指南。通過自動化管理將AI與服務和客戶交付相結合,加快解決方案速度,將設立新的行業標準。您將在書中找到有用、實用的信息和戰術,使您能夠全面了解和利用AI。” ——Byron Tassoni-Resch,WeDiscover CEO兼聯合創始人 來自作者: 自2020年GPT-3測試版以來,我們一直在進行提示工程,而當GPT-4到來時,我們發現許多以前使用的技巧和技巧不再必要。這促使我們定義了一套面向未來的原則,這些原則可以跨模型和模態傳遞,即使在未來使用GPT-5或其他模型時也依然有用。 提示的五大原則是:
  1. 給出方向:詳細描述所需的風格,或參考相關角色。
  2. 指定格式:定義要遵循的規則和響應的結構。
  3. 提供示例:插入一組多樣的測試案例,其中任務已正確完成。
  4. 評估質量:識別錯誤并對響應進行評級,測試什么驅動性能。
  5. 分工合作:將任務分解為多個步驟,鏈式完成復雜目標。 我們于2022年7月首次以博客文章形式發布了這些原則,它們經受住了時間的考驗,包括與OpenAI自己的一年后發布的提示工程指南有相當大的對應。任何與生成式AI密切合作的人可能都會趨向于采用類似的策略來解決常見問題,但這本書旨在讓您更快地達到目的。 在整本書中,您會看到數百個提示技巧的示例,包括文本和圖像提示,以及使用Python構建AI自動化腳本和產品。這不僅僅是一份提示技巧清單,而是一本關于構建系統的實用指南,這些系統為AI應用程序提供了正確的上下文,并教您如何測試和擴展生產中的AI系統。 如果以下情況,這本書將對您有用:
  • 您的時間價值超過每小時40美元,讀這本書可以節省您從多個來源拼湊信息的幾小時。
  • 您不僅是隨便使用AI,而是在構建一個AI應用程序或內部模板,許多人每天會使用數百或數千次。
  • 您希望減少幻覺并提高AI的可靠性,同時學習數百個解決AI常見問題的真實示例。
  • 您想比較OpenAI與其他模型的優缺點,以及常見框架如LangChain、不同的向量數據庫選項和AUTOMATIC1111
  • 您希望看到從一個簡單提示到一個完整AI代理的端到端AI應用程序的構建過程,包括使用Gradio構建基本用戶界面
付費5元查看完整內容

近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。

因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。

在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。

本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。

 傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。

IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。

IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。

因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。

這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。

付費5元查看完整內容

//searchworks.stanford.edu/view/14784050

盡管語言模型(LMs)在現實應用中無處不在(例如,網頁搜索,文本自動完成和內容生成),但大多數LMs并沒有針對人類用戶與LMs的交互進行優化,也沒有在這方面進行評估。為了解決這一缺口,本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求:在給定周圍環境的情況下提出內容。為了支持這種需求,我們提出了一種訓練方法,使任何預先訓練過的LMs都能完成填空任務,有助于更好地促進人機交互。其次,我們構建了一個平臺,CoAuthor,用于捕獲人機交互的交互痕跡。通過CoAuthor,我們展示了如何收集大規模交互數據集并分析這些痕跡,從而對LM在語言,思想發展和協作方面的能力提供獨特的見解。最后,我們提出了一個新的評估框架,人工智能語言交互評估(HALIE),該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后,我們討論了這個領域的開放性挑戰和未來的發展方向。

在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理(NLP)領域正在經歷一個不斷變化和創新的時代,本論文旨在捕捉該領域的一個快照,并從這個不斷變化的景觀中研究一種永恒的質量:設計和評估用于人類交互的語言模型(LMs)。自我開始博士研究以來,LMs至少可以說發展迅猛。在2017年,構建LM的最常見方式是選擇一個特定任務,收集一個定制的數據集,設計一個定制的模型,并從頭開始訓練定制的模型,正如我在我第一個項目中所演示的那樣(Lee等人,2019)。到了2023年,即使沒有NLP或編程的先前知識,我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示,快速“構建”并與LMs進行交互,以執行廣泛的任務,正如我在后續項目中所演示的那樣(Lee等人,2022a,b,Bommasani等人,2023)。

然而,盡管近期的語言模型(LMs)具有前所未有的能力和廣泛的應用(Radford等人,2019; Brown等人,2020; Rae等人,2021; Zhang等人,2022; Chowdhery等人,2022; Lieber等人,2021; OpenAI, 2022, 2023),但在NLP領域的大部分現有LM研究主要側重于非交互場景:給定一個輸入文本,模型生成一個輸出文本,只關注輸出的質量。在這種情況下,人類的參與要么被忽視,要么限于特定的目的或形式,如對模型輸出的人類評估(Ribeiro等人,2020; Kiela等人,2021)或像對話那樣的嚴格交互(Paranjape等人,2020; Thoppilan等人,2022; Shuster等人,2022)。幾乎所有的基準測試,即使是那些包含了多樣任務的基準測試(Gehrmann等人,2021; Hendrycks等人,2021; Liang等人,2022),也都采取了這種非交互的視角。與此相反,我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例,與其構建一個孤立運作的模型(即,將預定義的問題作為模型輸入,并將模型輸出與靜態基準中的預定義答案進行比較),我更注重交互場景。在這種場景下,用戶參與到一個迭代的過程中,寫下問題,詢問(或查詢)模型,解讀并處理模型輸出,根據輸出調整他們的問題,并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學(Lee等人,2022a)。我努力開發的LM并不是可以自行生成整個故事的模型(圖1.1a),而是能夠增強和支持我們的寫作過程的模型(圖1.1b),可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart(1962)、Skagestad(1993, 1996)、Shneiderman和Maes(1997)、Horvitz(1999)、Hassani等人(2020)、Brynjolfsson(2022)、Shneiderman(2022)的觀點相吻合,其最終目標是增強人類能力,而不是自動化它們(即,智能增強)。 對于人機交互(HCI)社區來說,近期的語言模型(LMs)為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互(Calderwood等人,2020;Buschek等人,2021;Wang等人,2021;Chen等人,2021;Chakrabarty等人,2022;Ippolito等人,2022;Valencia等人,2023)。為了研究LMs的生成能力,HCI中最傳統的方法是情境詢問,邀請并訪問用戶(Calderwood等人,2020;Clark等人,2018b;Gero和Chilton,2019;Wu等人,2020, 2022;Yang等人,2019a)。然而,由于情境詢問的時間和資源密集性,它在捕捉LM能力的主觀解釋方面更有效,而在涵蓋多樣化的上下文方面則較為欠缺。 我的研究核心是交互跡線,即在人類用戶和LMs交互過程中展開的事件序列(圖1.1b)。這些跡線包含了各種行為,包括按鍵操作,光標移動,系統查詢,以及通過系統建議進行導航。它們包含豐富的信息,捕獲了人機交互的動態性,提供了對LMs在交互場景中能力的深入了解。例如,通過檢查用戶查詢的頻率,我們可以量化用戶對LMs的依賴程度,以及LM響應的幫助程度。此外,交互跡線還能讓我們了解用戶在與LMs交互時采取的策略,以及交互的時間屬性。最后但同樣重要的是,利用交互跡線可以覆蓋各種上下文,因為設計者可以一次性大規模捕捉人機交互,并將其重復使用并多次回放以便于分析。 我相信,通過利用這些交互跡線,NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。 這篇論文包括以下章節: ? 第二章通過提供有關語言模型(LMs)、人機交互和人機交互在寫作中的設計空間的背景,為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境,即寫作的修訂過程,并關注了大多數LMs無法直接解決的用戶需求。具體來說,我們提出了一種訓練方法,使LMs能夠填補空白(即,文本填充)。 ?** 第四章介紹了CoAuthor,這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集,產生了一個豐富且可以重復分析的數據集。通過使用這個數據集,我展示了如何通過檢查這些交互跡線,對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架,即人工智能基于語言的交互評估(HALIE),它定義了交互系統的基本組成部分,并引入了新的評估指標,用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景,使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰,以激發更深入的研究和創新**。 論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究(2020),該研究在2020年的計算語言學協會(ACL)上發表。第四章基于Lee等人的材料(2022a),該材料在2022年的人機交互系統會議(CHI)上發表。第五章基于Lee等人的研究(2022b),該研究目前正在審查中。

付費5元查看完整內容

如何探索CV中的AGI?華為這篇論文進行了論述

人工智能社區一直在追求被稱為通用人工智能(AGI)的算法,這些算法可以應用于任何類型的現實世界問題。最近,由大型語言模型(LLMs)驅動的聊天系統嶄露頭角,并迅速成為在自然語言處理(NLP)中實現AGI的有力候選,但是在計算機視覺(CV)中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜,但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中,我們從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們,統一性是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出,CV的根本弱點在于缺乏從環境中學習的范式,然而NLP已經在文本世界中完成了這項任務。然后,我們設想了一個流程,將一個CV算法(即,一個代理)放置在世界級的、可交互的環境中,預先訓練它根據其行動預測未來的幀,然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大,對此,我們分享了我們對未來研究方向的觀點。

1. 引言

世界正在見證向人工通用智能(AGI)的史詩般的奧德賽,我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是,在自然語言處理(NLP)中,已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為,這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型(LLMs)建立的,并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊,可以完成諸如解決數學問題、生成視覺內容等復雜任務,反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面(例如,講述科學事實和命名人物之間的關系)存在已知的弱點,但這些開創性的研究已經顯示出一個明確的趨勢,即將NLP中的大多數任務統一到一個系統中,這反映了對AGI的追求。 與自然語言處理(NLP)中統一化的快速進展相比,計算機視覺(CV)領域離統一所有任務的目標還很遠。常規的CV任務,如視覺識別、追蹤、字幕、生成等,大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統,可以用統一的提示機制處理各種CV任務,但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如,為了在物體檢測和語義分割中報告高識別準確率,最好的策略是在強大的骨干網絡上設計特定的頭部模塊,但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然,統一化是CV的趨勢。近年來,這個方向有許多努力,我們大致將它們分為五個研究主題,即(i) 基于視覺-語言對齊的開放世界視覺識別,(ii) 用于通用視覺識別的“分割任何物體”任務,(iii) 統一視覺任務的通用視覺編碼,(iv) LLM引導的視覺理解,以增強CV中的邏輯,以及(v) 多模態對話,以促進視覺-語言交互。這些工作都顯示出統一化的希望,但是,它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。

因此,產生了兩個問題:(1)為什么在CV中實現統一如此困難?(2)我們可以從GPT和LLMs中學到什么來實現這個目標?為了回答這些問題,我們重新審視GPT,將其理解為在文本世界中建立一個環境,并允許一個算法(或代理)通過交互學習。計算機視覺研究缺乏這樣的環境。因此,算法無法模擬世界,所以它們只能采樣世界,并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后,代理任務不再能夠表示CV算法的能力;越來越明顯的是,繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析,我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理:這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務:在這個階段,可能需要引入人類的指令,這對應于NLP中的指令微調階段。可選地,可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關,包括3D環境建立、視覺預訓練、強化學習和具身CV。但是,現有的工作大多是初步的,我們預期需要大量的努力,才能使它成為解決現實世界問題的有效范式。

本文的其余部分組織如下。首先,在第2部分,我們簡要介紹了AGI的歷史和思想,并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分,我們展示了GPT的能力,這是一種最先進的NLP算法,被認為是AGI的火花。然后,在第4部分,我們根據CV研究的當前狀態,分析了在計算機視覺中實現AGI為什么困難,并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分,我們在那里設想了一種將CV推向AGI的流程,并基于此對未來的研究方向進行了一些評論。最后,在第6部分,我們對本文進行了總結并分享了我們的思考。

2. CV:AGI的下一個戰場

人類基于多種數據模式感知世界。我們都知道,我們學到的大約85%的東西是通過我們的視覺系統。因此,鑒于NLP社區已經展現了AGI的前景,自然而然地將計算機視覺(CV)或多模態(至少包括視覺和語言領域)視為AGI的下一個戰場。在此,我們提供兩個額外的評論來補充上述陳述。首先,顯然,CV是NLP的超集,因為人們閱讀文章是首先通過識別捕獲圖像中的字符,然后理解內容。換句話說,CV(或多模態)的AGI應該覆蓋NLP的所有AGI能力。其次,我們認為在許多情況下,僅依靠語言是不夠的。例如,當人們試圖找到關于一個未知對象(例如,動物、時尚等)的詳細信息時,最好的方式是拍攝一張圖片并用它進行在線搜索;純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子,如我們將在第4.3節中看到,不總是容易指出場景中的細粒度語義(用于識別或圖像編輯),并且以視覺友好的方式思考更有效,例如,使用一個點或框來定位一個對象,而不是說一些像“穿著黑色夾克,在黃色汽車前站著和另一個人交談”的人這樣的話。

我們期望有一個CV算法能解決一般性任務,可能通過與環境的交互。注意,這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統,接收來自人類的通用命令并產生所需的結果。但是,當前的CV狀態還很初級。如圖7所示,CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。

**統一化是趨勢 **

下面,我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。

**開放世界視覺識別 **

在很長一段時間里,大多數CV算法只能識別出現在訓練數據中的概念,導致了一個“封閉世界”的視覺概念。相反,“開放世界”的概念指的是CV算法能夠識別或理解任何概念,無論它是否以前出現過。開放世界的能力往往通過自然語言引入,因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務,如圖像字幕 [73],[74] 和視覺問題回答 [91],[92],[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近,隨著視覺語言預訓練(例如 CLIP [13] 和 ALIGN [94])的出現,將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75],[76],[77] 和視覺問題回答 [11],[76],[95] 提供了更簡單的管道,而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如,圖像分類可以通過簡單地將查詢圖像與一組模板(也被稱為“提示”)匹配來完成,說一張{某物}的照片,其中某物可以是任何(因此是開放世界的)概念,比如貓或西伯利亞雪橇犬,并將結果設置為匹配得分最高的候選者。除了原始版本之外,研究人員開發了名為“學習提示”的算法 [96],[97] 來提高分類準確性。后來,該方法從圖像分類繼承到物體檢測 [87],[98],語義分割 [88],[99],實例分割 [100],全景分割 [101],[102],并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益,這些模型經過增強的定位預訓練 [103],[104]。開放世界視覺識別與零樣本視覺識別密切相關,因為它們都試圖將識別能力泛化到訓練集中未出現的概念。

"分割任何事物"任務

"分割任何事物"任務 [14] 最近被引入作為一個通用模塊,將原始圖像像素聚類為多個組,其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示,并為每個提示或每個提示的組合產生一些掩碼和分數。該模型,SAM,在一個包含約1000萬圖像的大規模數據集上進行了訓練,能夠轉移到廣泛的分割任務,包括醫學圖像分析 [111],[112],[113],偽裝對象分割 [110],[114],3D對象分割 [108],對象跟蹤 [115],以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用,例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼,并將分割的單元輸入到開放集分類算法中進行圖像標記 [107],[117]。

技術上,SAM的關鍵在于提示機制和數據閉合,即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分,但仍然存在許多未解決的問題。例如,關于SAM的上游和下游模塊(如果SAM確實是管道的一部分)仍然不清楚,而且SAM可能會嚴重受到像素級外觀的影響,例如,手臂可以精確地在衣服的邊界處從軀干上分割出來,這意味著顏色是分割的主導因素。總的來說,SAM可能已經過度適應了"分割任何事物"任務本身,從而削弱了其分類能力。

通用視覺編碼

另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異,例如,對象檢測需要一組邊界框,而語義分割需要對整個圖像進行密集預測,這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的,自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示,對象檢測結果(即邊界框)可以被形式化為自然語言和坐標,然后轉換為視覺模型的輸出標記。在稍后的版本,pix2seq-v2 中,他們將表示形式一般化,以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16],[122],[123] 任務。

LLM指導的視覺理解

視覺識別可以非常復雜,尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型(視覺-語言預訓練模型用于視覺問題回答[11],[76],[95])來說,按照人類容易理解的程序生成答案是困難的。為了緩解這個問題,一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前,在Transformer架構出現之前,研究人員提出使用長短期記憶模型(LSTM)[72]生成程序,以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候,LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近,大型語言模型(尤其是GPT系列)的出現使得任意問題的轉換成為可能。具體來說,GPT可以以不同的方式與人類交互。例如,它可以將基本識別結果總結為最終答案[125],或者生成代碼[18],[124]或自然語言腳本[19]來調用基本視覺模塊。因此,視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效,例如,詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯,但它們尚未展示出協助基本視覺識別模塊的能力。也就是說,一旦基本的識別結果錯誤(例如,檢測算法錯過了一些小的和/或部分遮擋的對象),答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯(例如,算法可以按照順序算法來檢測每個對象,或者被常識[127]指導來解決難題),可能是在LLMs的幫助下,從而提升基本的視覺識別。

多模態對話

多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答,其中構建了各種簡單問題的數據集 [128],[129],[130]。隨著LLMs的快速發展,通過對預訓練的視覺和語言模型進行微調,實現了多輪問答 [11],[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近,在GPT系列中開發的一種新的范式,稱為指導學習 [4],已被繼承用于提高多模態對話的質量 [20],[46]。其思想是提供一些參考數據(例如,對象、描述)來自于基準標注或識別結果,并要求GPT模型生成指導數據(即,豐富的問答對)。通過這些數據(無需參考),用于視覺和語言的基礎模型可以通過輕量級的網絡模塊(例如,Q-former [11])相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準,但作為一個由語言引導的任務,它也具有開放世界視覺識別中分析的弱點(見第4.2.1節)。我們期望豐富查詢形式的方法(例如,使用通用的視覺編碼方法,參見第4.2.3節)可以將多模態對話推向更高的水平。

3 未來:從環境中學習

上述分析要求我們為計算機視覺(CV)的強大代理制定一個新的范式。在本節中,我們將我們的觀點和洞見轉化為一個假想的流程,回顧與這個流程相關的現有工作,并基于這個流程對未來的研究方向提出評論。

圖14展示了我們的想法。這個流程包括三個階段:第0階段建立環境,第1階段進行預訓練,第2階段進行微調。在需要的時候,微調后的模型可以被用于傳統的視覺識別任務。下面,我們將詳細描述每個階段。

?** 第0階段:建立環境**。正如前面的分析,高質量的環境對于計算機視覺(CV)中的人工通用智能(AGI)是非常必要的。這里的"高質量"概念包括但不限于豐富性(應該有充足和多樣化的環境)、真實性(視覺外觀和其他代理的行為應接近真實世界)以及交互性的豐富性(代理可以通過與環境交互來執行廣泛的任務)。

?** 第1階段:生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理(NLP)中的 GPT 任務(預測下一個詞元)的最大區別在于,未來的幀取決于代理的行動(在 NLP 中,預訓練的文本語料庫保持不變),所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是,由于計算機視覺(CV)是自然語言處理(NLP)的超集(參見第4.1節前的段落),預訓練的計算機視覺模型的大小(例如,參數的數量)應該比自然語言處理模型大幾個數量級。

第2階段:指導微調。預訓練模型被指導完成真實世界的任務,遵循人類的指示。直觀上說,代理與環境之間允許的交互類型有很多,包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是,應該收集更多的指示數據,這也對應于基礎計算機視覺模型的大小。

? 可選:下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力,例如,為了完成一個非常簡單的任務,比如"給我買一杯咖啡",模型必須至少學會(i) 安全地四處探索,(ii) 識別咖啡店在哪里,(iii) 用語言與店員交流,并且(iv) 抓取買到的咖啡。這樣的模型,當適當地提供提示時,應該輸出期望的感知結果,包括追蹤另一個代理(以避免與其碰撞),開放集的視覺識別(用于找到酒吧和買到的咖啡)等等。這與通過合成進行分析的想法[136]有關。

4 結論

在這篇論文中,我們討論了如何推動計算機視覺(CV)算法向人工通用智能(AGI)發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力,然后我們繼承了來自自然語言處理(NLP),尤其是 GPT 系列的想法和洞見。我們的結論是,計算機視覺缺乏一個可以從環境中學習的范式,為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。

付費5元查看完整內容

TinyML,也就是微型機器學習,用于在資源受限的設備上實現機器學習,例如微控制器和嵌入式系統。如果你想利用這些低成本、低功耗但奇異強大的設備,那么這本書就是為你準備的。 這本書旨在增加TinyML應用程序的可用性,特別是對于缺乏資源或專業知識來開發和部署它們在基于微控制器的板上的專業人士。書中首先簡要介紹人工智能,包括解決復雜問題的經典方法。它還將幫助你熟悉適用于嵌入式設備和微控制器的不同ML模型開發和部署工具、庫和框架。書中將幫助你使用Arduino Nano RP2040板和Syntiant TinyML板構建一個空氣手勢數字識別系統和一個用于識別關鍵詞的AI項目。最后,書中總結了所涵蓋的概念,并簡要介紹了零樣本學習、單樣本學習、聯邦學習和MLOps等主題。 通過閱讀這本書,你將能夠輕松開發和部署端到端的Tiny ML解決方案。 你將學到什么 ● 學習如何使用Syntiant TinyML板構建關鍵詞識別系統。 ● 學習如何使用Arduino Nano RP2040構建空氣手勢數字識別系統。 ● 學習如何在Edge Impulse和Arduino IDE上測試和部署模型。 ● 獲取提高系統級性能的技巧。 ● 探索TinyML在各個行業中的不同實際用例。 這本書適合誰 本書適合物聯網開發者、系統工程師、軟件工程師、硬件工程師以及對將AI集成到他們的工作中感興趣的專業人士。這本書是對工程本科生的寶貴資源,他們對微控制器和物聯網設備感興趣,但可能不知道從何開始。

目錄

AI簡介

傳統ML生命周期

TinyML硬件和軟件平臺

實際應用案例

用TinyML進行的實驗

使用TinyML板的高級實現

持續改進

結論

付費5元查看完整內容

自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

//www.oreilly.com/library/view/mastering-kafka-streams/9781492062486/

一直以來,處理無限和快速移動的數據流一直很困難。但是使用Kafka Streams和ksqlDB,構建流處理應用程序是簡單和有趣的。本實用指南向數據工程師展示了如何使用這些工具來構建高度可伸縮的流處理應用程序,以實時移動、豐富和轉換大量數據。

Mitch Seymour, Mailchimp的數據服務工程師,在幾個有趣的業務問題的背景下解釋了重要的流處理概念。您將學習Kafka Streams和ksqlDB的優勢,以幫助您為每個獨特的流處理項目選擇最佳的工具。非java開發人員會發現ksqlDB路徑是對流處理的一個特別溫和的介紹。

學習Kafka和pub/sub交流模式的基礎知識 使用Kafka Streams和ksqlDB構建無狀態和有狀態流處理應用程序 執行高級的有狀態操作,包括窗口連接和聚合 理解有狀態處理在底層是如何工作的 了解ksqlDB的數據集成特性,由Kafka Connect驅動 使用ksqlDB中的不同類型的集合,并執行推和拉查詢 將你的Kafka Streams和ksqlDB應用部署到生產環境中

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容
北京阿比特科技有限公司