2020久久精品亚洲热综合-一级欧美一级日韩大片

盡管語言模型（LMs）在現實應用中無處不在（例如，網頁搜索，文本自動完成和內容生成），但大多數LMs并沒有針對人類用戶與LMs的交互進行優化，也沒有在這方面進行評估。為了解決這一缺口，本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求：在給定周圍環境的情況下提出內容。為了支持這種需求，我們提出了一種訓練方法，使任何預先訓練過的LMs都能完成填空任務，有助于更好地促進人機交互。其次，我們構建了一個平臺，CoAuthor，用于捕獲人機交互的交互痕跡。通過CoAuthor，我們展示了如何收集大規模交互數據集并分析這些痕跡，從而對LM在語言，思想發展和協作方面的能力提供獨特的見解。最后，我們提出了一個新的評估框架，人工智能語言交互評估（HALIE），該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后，我們討論了這個領域的開放性挑戰和未來的發展方向。

在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理（NLP）領域正在經歷一個不斷變化和創新的時代，本論文旨在捕捉該領域的一個快照，并從這個不斷變化的景觀中研究一種永恒的質量：設計和評估用于人類交互的語言模型（LMs）。自我開始博士研究以來，LMs至少可以說發展迅猛。在2017年，構建LM的最常見方式是選擇一個特定任務，收集一個定制的數據集，設計一個定制的模型，并從頭開始訓練定制的模型，正如我在我第一個項目中所演示的那樣（Lee等人，2019）。到了2023年，即使沒有NLP或編程的先前知識，我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示，快速“構建”并與LMs進行交互，以執行廣泛的任務，正如我在后續項目中所演示的那樣（Lee等人，2022a,b，Bommasani等人，2023）。

然而，盡管近期的語言模型（LMs）具有前所未有的能力和廣泛的應用（Radford等人，2019; Brown等人，2020; Rae等人，2021; Zhang等人，2022; Chowdhery等人，2022; Lieber等人，2021; OpenAI, 2022, 2023），但在NLP領域的大部分現有LM研究主要側重于非交互場景：給定一個輸入文本，模型生成一個輸出文本，只關注輸出的質量。在這種情況下，人類的參與要么被忽視，要么限于特定的目的或形式，如對模型輸出的人類評估（Ribeiro等人，2020; Kiela等人，2021）或像對話那樣的嚴格交互（Paranjape等人，2020; Thoppilan等人，2022; Shuster等人，2022）。幾乎所有的基準測試，即使是那些包含了多樣任務的基準測試（Gehrmann等人，2021; Hendrycks等人，2021; Liang等人，2022），也都采取了這種非交互的視角。與此相反，我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例，與其構建一個孤立運作的模型（即，將預定義的問題作為模型輸入，并將模型輸出與靜態基準中的預定義答案進行比較），我更注重交互場景。在這種場景下，用戶參與到一個迭代的過程中，寫下問題，詢問（或查詢）模型，解讀并處理模型輸出，根據輸出調整他們的問題，并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學（Lee等人，2022a）。我努力開發的LM并不是可以自行生成整個故事的模型（圖1.1a），而是能夠增強和支持我們的寫作過程的模型（圖1.1b），可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart（1962）、Skagestad（1993, 1996）、Shneiderman和Maes（1997）、Horvitz（1999）、Hassani等人（2020）、Brynjolfsson（2022）、Shneiderman（2022）的觀點相吻合，其最終目標是增強人類能力，而不是自動化它們（即，智能增強）。對于人機交互（HCI）社區來說，近期的語言模型（LMs）為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互（Calderwood等人，2020；Buschek等人，2021；Wang等人，2021；Chen等人，2021；Chakrabarty等人，2022；Ippolito等人，2022；Valencia等人，2023）。為了研究LMs的生成能力，HCI中最傳統的方法是情境詢問，邀請并訪問用戶（Calderwood等人，2020；Clark等人，2018b；Gero和Chilton，2019；Wu等人，2020, 2022；Yang等人，2019a）。然而，由于情境詢問的時間和資源密集性，它在捕捉LM能力的主觀解釋方面更有效，而在涵蓋多樣化的上下文方面則較為欠缺。我的研究核心是交互跡線，即在人類用戶和LMs交互過程中展開的事件序列（圖1.1b）。這些跡線包含了各種行為，包括按鍵操作，光標移動，系統查詢，以及通過系統建議進行導航。它們包含豐富的信息，捕獲了人機交互的動態性，提供了對LMs在交互場景中能力的深入了解。例如，通過檢查用戶查詢的頻率，我們可以量化用戶對LMs的依賴程度，以及LM響應的幫助程度。此外，交互跡線還能讓我們了解用戶在與LMs交互時采取的策略，以及交互的時間屬性。最后但同樣重要的是，利用交互跡線可以覆蓋各種上下文，因為設計者可以一次性大規模捕捉人機交互，并將其重復使用并多次回放以便于分析。我相信，通過利用這些交互跡線，NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。這篇論文包括以下章節： ? 第二章通過提供有關語言模型（LMs）、人機交互和人機交互在寫作中的設計空間的背景，為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境，即寫作的修訂過程，并關注了大多數LMs無法直接解決的用戶需求。具體來說，我們提出了一種訓練方法，使LMs能夠填補空白（即，文本填充）。 ?** 第四章介紹了CoAuthor，這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集，產生了一個豐富且可以重復分析的數據集。通過使用這個數據集，我展示了如何通過檢查這些交互跡線，對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架，即人工智能基于語言的交互評估（HALIE），它定義了交互系統的基本組成部分，并引入了新的評估指標，用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景，使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰，以激發更深入的研究和創新**。論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究（2020），該研究在2020年的計算語言學協會（ACL）上發表。第四章基于Lee等人的材料（2022a），該材料在2022年的人機交互系統會議（CHI）上發表。第五章基于Lee等人的研究（2022b），該研究目前正在審查中。

付費5元查看完整內容

相關內容

斯坦福大學 (Stanford University)

關注 75

（StanfordUniversity）位于加利福尼亞州，臨近舊金山，占地35平方公里，是美國面積第二大的大學。它被公認為世界上最杰出的大學之一，相比美國東部的常春藤盟校，特別是哈佛大學、耶魯大學，斯坦福大學雖然歷史較短，但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的，美國最高法院的9個大法官，有6個是從斯坦福大學的法學院畢業的。

斯坦福大學 (Stanford University) · 生成式AI · AI與安全 ·

2023 年 7 月 23 日

[付費5元查看完整內容]【普林斯頓博士論文】生成式人工智能的承諾與陷阱：以AI安全為中心的方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能（AI）的發展迅速，為許多實際應用帶來了顯著的進步。但是，AI決策的普及也引發了對其潛在安全風險的擔憂，因為眾所周知AI系統在多個領域都會出現故障，例如自動駕駛、醫療診斷和內容審查。在這篇論文中，我們通過生成模型的角度探討AI的安全挑戰，這是一類能夠逼近訓練數據集的基礎分布并合成新樣本的機器學習模型。通過將生成模型與AI安全連接起來，我們揭示了生成模型在解決安全挑戰方面的巨大潛力，同時也識別了現代生成模型帶來的安全風險。首先，我們重點研究了如何通過將生成模型納入現有的機器學習流程并合成新的合成圖像來提高對抗性強健學習中的泛化能力。我們評估了各種生成模型，并提出了一個新的指標（ARC），基于對抗性擾動的合成數據和真實數據的不可區分性，來準確確定不同生成模型的泛化優勢。接下來，我們探討了生成模型的任務感知知識蒸餾，首先證明了單個合成圖像在提高泛化中的不同貢獻。為了自適應地采樣具有最高泛化效益的圖像，我們提出了一種自適應采樣技術，引導擴散模型的采樣過程以最大化生成的合成圖像的泛化效益。然后，我們利用生成模型從低密度區域生成高保真樣本，來解決長尾數據分布的不足，這些長尾分布是AI安全中的許多挑戰的基礎。我們為擴散模型提出了一種新的低密度采樣過程，引導該過程走向低密度區域同時保持保真度，并嚴格證明我們的過程成功地從低密度區域生成了新的高保真樣本。最后，我們展示了現有生成模型的一些關鍵限制。我們首先考慮了異常值檢測任務，并展示了現代生成模型在解決它時的不足。考慮到我們的發現，我們提出了SSD，這是一個基于未標記的分布數據的無監督異常值檢測框架。我們進一步發現，數百萬用戶使用的現代擴散模型泄漏了訓練數據的隱私，我們從預訓練的擴散模型中提取了大量的訓練圖像。總之，這篇論文解決了多個AI安全挑戰，并為新的生成AI范式下的AI系統的安全性和可靠性提供了一個綜合框架。

付費5元查看完整內容

通用人工智能 · 計算機視覺 · 大模型 · GPT ·

2023 年 6 月 21 日

[付費5元查看完整內容]如何構建CV中的AGI？華為最新《計算機視覺中的人工通用智能：從GPT和大型語言模型中學到的經驗教訓》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何探索CV中的AGI？華為這篇論文進行了論述

人工智能社區一直在追求被稱為通用人工智能（AGI）的算法，這些算法可以應用于任何類型的現實世界問題。最近，由大型語言模型（LLMs）驅動的聊天系統嶄露頭角，并迅速成為在自然語言處理（NLP）中實現AGI的有力候選，但是在計算機視覺（CV）中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜，但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中，我們從AGI的概念定義開始，簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們，統一性是CV的下一個重要目標。但是，盡管在這個方向上做出了各種努力，CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出，CV的根本弱點在于缺乏從環境中學習的范式，然而NLP已經在文本世界中完成了這項任務。然后，我們設想了一個流程，將一個CV算法（即，一個代理）放置在世界級的、可交互的環境中，預先訓練它根據其行動預測未來的幀，然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大，對此，我們分享了我們對未來研究方向的觀點。

1. 引言

世界正在見證向人工通用智能（AGI）的史詩般的奧德賽，我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是，在自然語言處理（NLP）中，已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為，這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型（LLMs）建立的，并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊，可以完成諸如解決數學問題、生成視覺內容等復雜任務，反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面（例如，講述科學事實和命名人物之間的關系）存在已知的弱點，但這些開創性的研究已經顯示出一個明確的趨勢，即將NLP中的大多數任務統一到一個系統中，這反映了對AGI的追求。與自然語言處理（NLP）中統一化的快速進展相比，計算機視覺（CV）領域離統一所有任務的目標還很遠。常規的CV任務，如視覺識別、追蹤、字幕、生成等，大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統，可以用統一的提示機制處理各種CV任務，但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如，為了在物體檢測和語義分割中報告高識別準確率，最好的策略是在強大的骨干網絡上設計特定的頭部模塊，但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然，統一化是CV的趨勢。近年來，這個方向有許多努力，我們大致將它們分為五個研究主題，即(i) 基于視覺-語言對齊的開放世界視覺識別，(ii) 用于通用視覺識別的“分割任何物體”任務，(iii) 統一視覺任務的通用視覺編碼，(iv) LLM引導的視覺理解，以增強CV中的邏輯，以及(v) 多模態對話，以促進視覺-語言交互。這些工作都顯示出統一化的希望，但是，它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。

因此，產生了兩個問題：（1）為什么在CV中實現統一如此困難？（2）我們可以從GPT和LLMs中學到什么來實現這個目標？為了回答這些問題，我們重新審視GPT，將其理解為在文本世界中建立一個環境，并允許一個算法（或代理）通過交互學習。計算機視覺研究缺乏這樣的環境。因此，算法無法模擬世界，所以它們只能采樣世界，并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后，代理任務不再能夠表示CV算法的能力；越來越明顯的是，繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析，我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理：這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務：在這個階段，可能需要引入人類的指令，這對應于NLP中的指令微調階段。可選地，可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關，包括3D環境建立、視覺預訓練、強化學習和具身CV。但是，現有的工作大多是初步的，我們預期需要大量的努力，才能使它成為解決現實世界問題的有效范式。

本文的其余部分組織如下。首先，在第2部分，我們簡要介紹了AGI的歷史和思想，并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分，我們展示了GPT的能力，這是一種最先進的NLP算法，被認為是AGI的火花。然后，在第4部分，我們根據CV研究的當前狀態，分析了在計算機視覺中實現AGI為什么困難，并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分，我們在那里設想了一種將CV推向AGI的流程，并基于此對未來的研究方向進行了一些評論。最后，在第6部分，我們對本文進行了總結并分享了我們的思考。

2. CV：AGI的下一個戰場

人類基于多種數據模式感知世界。我們都知道，我們學到的大約85%的東西是通過我們的視覺系統。因此，鑒于NLP社區已經展現了AGI的前景，自然而然地將計算機視覺（CV）或多模態（至少包括視覺和語言領域）視為AGI的下一個戰場。在此，我們提供兩個額外的評論來補充上述陳述。首先，顯然，CV是NLP的超集，因為人們閱讀文章是首先通過識別捕獲圖像中的字符，然后理解內容。換句話說，CV（或多模態）的AGI應該覆蓋NLP的所有AGI能力。其次，我們認為在許多情況下，僅依靠語言是不夠的。例如，當人們試圖找到關于一個未知對象（例如，動物、時尚等）的詳細信息時，最好的方式是拍攝一張圖片并用它進行在線搜索；純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子，如我們將在第4.3節中看到，不總是容易指出場景中的細粒度語義（用于識別或圖像編輯），并且以視覺友好的方式思考更有效，例如，使用一個點或框來定位一個對象，而不是說一些像“穿著黑色夾克，在黃色汽車前站著和另一個人交談”的人這樣的話。

我們期望有一個CV算法能解決一般性任務，可能通過與環境的交互。注意，這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統，接收來自人類的通用命令并產生所需的結果。但是，當前的CV狀態還很初級。如圖7所示，CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。

**統一化是趨勢 **

下面，我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。

**開放世界視覺識別 **

在很長一段時間里，大多數CV算法只能識別出現在訓練數據中的概念，導致了一個“封閉世界”的視覺概念。相反，“開放世界”的概念指的是CV算法能夠識別或理解任何概念，無論它是否以前出現過。開放世界的能力往往通過自然語言引入，因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務，如圖像字幕 [73]，[74] 和視覺問題回答 [91]，[92]，[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近，隨著視覺語言預訓練（例如 CLIP [13] 和 ALIGN [94]）的出現，將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75]，[76]，[77] 和視覺問題回答 [11]，[76]，[95] 提供了更簡單的管道，而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如，圖像分類可以通過簡單地將查詢圖像與一組模板（也被稱為“提示”）匹配來完成，說一張{某物}的照片，其中某物可以是任何（因此是開放世界的）概念，比如貓或西伯利亞雪橇犬，并將結果設置為匹配得分最高的候選者。除了原始版本之外，研究人員開發了名為“學習提示”的算法 [96]，[97] 來提高分類準確性。后來，該方法從圖像分類繼承到物體檢測 [87]，[98]，語義分割 [88]，[99]，實例分割 [100]，全景分割 [101]，[102]，并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益，這些模型經過增強的定位預訓練 [103]，[104]。開放世界視覺識別與零樣本視覺識別密切相關，因為它們都試圖將識別能力泛化到訓練集中未出現的概念。

"分割任何事物"任務

"分割任何事物"任務 [14] 最近被引入作為一個通用模塊，將原始圖像像素聚類為多個組，其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示，并為每個提示或每個提示的組合產生一些掩碼和分數。該模型，SAM，在一個包含約1000萬圖像的大規模數據集上進行了訓練，能夠轉移到廣泛的分割任務，包括醫學圖像分析 [111]，[112]，[113]，偽裝對象分割 [110]，[114]，3D對象分割 [108]，對象跟蹤 [115]，以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用，例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼，并將分割的單元輸入到開放集分類算法中進行圖像標記 [107]，[117]。

技術上，SAM的關鍵在于提示機制和數據閉合，即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分，但仍然存在許多未解決的問題。例如，關于SAM的上游和下游模塊（如果SAM確實是管道的一部分）仍然不清楚，而且SAM可能會嚴重受到像素級外觀的影響，例如，手臂可以精確地在衣服的邊界處從軀干上分割出來，這意味著顏色是分割的主導因素。總的來說，SAM可能已經過度適應了"分割任何事物"任務本身，從而削弱了其分類能力。

通用視覺編碼

另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異，例如，對象檢測需要一組邊界框，而語義分割需要對整個圖像進行密集預測，這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的，自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示，對象檢測結果（即邊界框）可以被形式化為自然語言和坐標，然后轉換為視覺模型的輸出標記。在稍后的版本，pix2seq-v2 中，他們將表示形式一般化，以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16]，[122]，[123] 任務。

LLM指導的視覺理解

視覺識別可以非常復雜，尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型（視覺-語言預訓練模型用于視覺問題回答[11]，[76]，[95]）來說，按照人類容易理解的程序生成答案是困難的。為了緩解這個問題，一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前，在Transformer架構出現之前，研究人員提出使用長短期記憶模型（LSTM）[72]生成程序，以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候，LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近，大型語言模型（尤其是GPT系列）的出現使得任意問題的轉換成為可能。具體來說，GPT可以以不同的方式與人類交互。例如，它可以將基本識別結果總結為最終答案[125]，或者生成代碼[18]，[124]或自然語言腳本[19]來調用基本視覺模塊。因此，視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效，例如，詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯，但它們尚未展示出協助基本視覺識別模塊的能力。也就是說，一旦基本的識別結果錯誤（例如，檢測算法錯過了一些小的和/或部分遮擋的對象），答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯（例如，算法可以按照順序算法來檢測每個對象，或者被常識[127]指導來解決難題），可能是在LLMs的幫助下，從而提升基本的視覺識別。

多模態對話

多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答，其中構建了各種簡單問題的數據集 [128]，[129]，[130]。隨著LLMs的快速發展，通過對預訓練的視覺和語言模型進行微調，實現了多輪問答 [11]，[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近，在GPT系列中開發的一種新的范式，稱為指導學習 [4]，已被繼承用于提高多模態對話的質量 [20]，[46]。其思想是提供一些參考數據（例如，對象、描述）來自于基準標注或識別結果，并要求GPT模型生成指導數據（即，豐富的問答對）。通過這些數據（無需參考），用于視覺和語言的基礎模型可以通過輕量級的網絡模塊（例如，Q-former [11]）相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準，但作為一個由語言引導的任務，它也具有開放世界視覺識別中分析的弱點（見第4.2.1節）。我們期望豐富查詢形式的方法（例如，使用通用的視覺編碼方法，參見第4.2.3節）可以將多模態對話推向更高的水平。

3 未來：從環境中學習

上述分析要求我們為計算機視覺（CV）的強大代理制定一個新的范式。在本節中，我們將我們的觀點和洞見轉化為一個假想的流程，回顧與這個流程相關的現有工作，并基于這個流程對未來的研究方向提出評論。

圖14展示了我們的想法。這個流程包括三個階段：第0階段建立環境，第1階段進行預訓練，第2階段進行微調。在需要的時候，微調后的模型可以被用于傳統的視覺識別任務。下面，我們將詳細描述每個階段。

?** 第0階段：建立環境**。正如前面的分析，高質量的環境對于計算機視覺（CV）中的人工通用智能（AGI）是非常必要的。這里的"高質量"概念包括但不限于豐富性（應該有充足和多樣化的環境）、真實性（視覺外觀和其他代理的行為應接近真實世界）以及交互性的豐富性（代理可以通過與環境交互來執行廣泛的任務）。

?** 第1階段：生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理（NLP）中的 GPT 任務（預測下一個詞元）的最大區別在于，未來的幀取決于代理的行動（在 NLP 中，預訓練的文本語料庫保持不變），所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是，由于計算機視覺（CV）是自然語言處理（NLP）的超集（參見第4.1節前的段落），預訓練的計算機視覺模型的大小（例如，參數的數量）應該比自然語言處理模型大幾個數量級。

第2階段：指導微調。預訓練模型被指導完成真實世界的任務，遵循人類的指示。直觀上說，代理與環境之間允許的交互類型有很多，包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是，應該收集更多的指示數據，這也對應于基礎計算機視覺模型的大小。

? 可選：下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力，例如，為了完成一個非常簡單的任務，比如"給我買一杯咖啡"，模型必須至少學會(i) 安全地四處探索，(ii) 識別咖啡店在哪里，(iii) 用語言與店員交流，并且(iv) 抓取買到的咖啡。這樣的模型，當適當地提供提示時，應該輸出期望的感知結果，包括追蹤另一個代理（以避免與其碰撞），開放集的視覺識別（用于找到酒吧和買到的咖啡）等等。這與通過合成進行分析的想法[136]有關。

4 結論

在這篇論文中，我們討論了如何推動計算機視覺（CV）算法向人工通用智能（AGI）發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力，然后我們繼承了來自自然語言處理（NLP），尤其是 GPT 系列的想法和洞見。我們的結論是，計算機視覺缺乏一個可以從環境中學習的范式，為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 強化學習 ·

2022 年 9 月 14 日

[付費5元查看完整內容]【斯坦福博士論文】利用離線數據構建多功能強化學習智能體

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

利用深度神經網絡進行機器學習的最新進展，在從大型數據集學習方面取得了重大成功。然而，這些成功主要集中在計算機視覺和自然語言處理方面，而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的，但相比之下，它們很難擴展到許多現實世界的應用中，因為它們依賴于成本高昂且可能不安全的在線試錯，而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作，這些智能體直接從離線數據中訓練，能夠掌握多種技能，以解決上述挑戰。

在本文的第一部分中，我們首先介紹了一種算法，從離線數據集中學習高性能策略，并通過使用學習到的動力學模型生成的推出來擴展離線數據，提高離線強化學習智能體的泛化能力。然后，我們將該方法擴展到高維觀測空間，如圖像，并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分，為了避免在之前的強化學習工作中從頭開始學習每個任務的問題，同時保持離線學習的好處，討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外，我們表明，共享數據需要標記來自其他任務的數據的獎勵，這依賴于繁重的獎勵工程，也是勞動密集型的。為了解決這些問題，我們描述了如何有效地利用離線RL中的各種未標記數據，繞過獎勵標記的挑戰。最后，我們列出了未來的研究方向，如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 不確定性 · 機器學習 · 決策 ·

2022 年 9 月 9 日

[付費5元查看完整內容]【斯坦福博士論文】不確定性和信息為機器學習提供決策支持

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供，以自動化各種下游決策，而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如，大型科技公司提供的圖片或文本分類API，被廣泛的第三方應用開發者使用，以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等)，以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化，但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:

貢獻1。提出了一種新的方法，通過精確的不確定性量化，向下游決策者傳遞信心，后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下，準確地輸出這些概率是不可能的，但對于大型決策任務，學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性，因為在他們的決策任務中，他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序，我開發了一些預測模型，如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法，決策者可以自信地做出導致良好結果的決策。

貢獻2。發展一種新的信息理論，以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用，但在處理復雜的學習和決策任務時存在一些局限性。例如，考慮從對手攔截的安全加密消息數據集。根據信息論，這些加密信息與對手的計劃具有高度的互信息，而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性，我提出了一個新的框架，稱為“效用信息理論”，它概括了香農熵、信息和散度，以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用，我將新的信息應用于貝葉斯優化問題，并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。

付費5元查看完整內容

博士論文 · 人工智能 ·

2022 年 5 月 13 日

[付費5元查看完整內容]【哈佛大學博士論文】面向人口健康的人工智能: 在網絡上融合數據和算法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

COVID-19大流行的例子表明，我們的健康和福祉取決于一個難以衡量的社會因素和個人行為網絡。我的研究旨在建立能夠影響這種社會挑戰的計算方法。這一努力需要新的算法和數據驅動的范式，涵蓋收集昂貴數據、學習模型以理解和預測交互作用以及優化干預中有限資源的使用的整個過程。針對這些需求，本文提出了機器學習、優化和社交網絡交叉的方法學發展，這些方面的發展是由在艾滋病毒預防、結核病治療和COVID-19反應方面的實地合作所推動的。這些項目產生了已部署的應用程序和策略影響。一個例子是在無家可歸的青年中開發一項預防艾滋病毒的人工智能增強干預措施。該系統在一項涉及700多名青年的實地測試中進行了評估，發現它顯著降低了艾滋病毒的關鍵風險行為。

//dash.harvard.edu/handle/1/37370083

付費5元查看完整內容

基于模型的深度學習 · 斯坦福大學 (Stanford University) ·

2022 年 5 月 10 日

[付費5元查看完整內容]【斯坦福】基于模型的深度學習:論深度學習與優化的交集

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模，在此基礎上，人們可以通過易于處理的優化來確定決策。最近，深度學習方法正在變得越來越流行，這種方法使用從數據調整的高度參數架構，而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里，我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣，并為位于這個光譜中間的方法提供一個教程式的展示，稱為基于模型的深度學習。在我們的演示中，我們還附帶了超分辨率和隨機控制方面的運行示例，并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起，在生物醫學成像和數字通信等各種應用中使用實驗結果，證明了這種結合的好處。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 機器學習優化 · 自適應 · 魯棒性 · 隱私性 ·

2021 年 12 月 20 日

[付費5元查看完整內容]【斯坦福大學博士論文】現代機器學習優化問題：自適應、魯棒性與隱私性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習是一種變革性的計算工具，它正在革新許多技術和科學應用。然而，最近在人工智能和機器學習方面的成功，以及隨之而來的模型的廣泛部署，已經改變了經典的機器學習管道。首先，可用數據的絕對規模——在數量和維度上——已經爆炸。此外，現代機器學習架構具有指數級的設計選擇和超參數，但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要，該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后，隨著我們收集越來越多的用戶數據，我們希望在向公眾發布這些模型時，基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中，我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說，我們首先提出了理解自適應梯度算法的最優性的新的理論結果，并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后，我們提出了可擴展的最小最大優化方法，以有效地解決魯棒目標。最后，我們開發了私有優化方法，在更嚴格的隱私要求下最優地學習，以及自適應方法，在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

分布式機器學習 · 聯邦學習 ·

2021 年 8 月 28 日

[付費5元查看完整內容]【斯坦福MLSys報告】分布式機器學習系統與聯邦學習，附ppt與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在現代人工智能中，大規模深度學習模型已經成為許多重要互聯網業務背后的核心技術，如搜索/廣告/推薦系統/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型將模型規模擴大到10億甚至數萬個參數，幾乎所有學習任務的準確性都得到了顯著提高。使用云集群的分布式訓練是及時成功地訓練此類大規模模型的關鍵。開發更先進的分布式訓練系統和算法既可以降低能源成本，也可以讓我們訓練更大的模型。此外，開發像聯邦學習這樣的顛覆性學習模式也至關重要，它不僅可以保護用戶的隱私，還可以分擔處理前所未有的大數據和模型的負載。這次演講將主要關注大規模模型的分布式ML系統:云集群的動態分布式訓練(//DistML.ai)和邊緣設備的大規模聯合學習()。在第一部分中，我將介紹PipeTransformer，這是一種用于分布式訓練Transformer模型(BERT和ViT)的自動化彈性管道。在PipeTransformer中，我們設計了自適應的飛凍結算法，可以在訓練過程中逐步識別和凍結部分層，并設計了彈性流水線系統，可以動態減少GPU資源來訓練剩余的激活層，并在已釋放的GPU資源上分叉更多的管道，以擴大數據并行度的寬度。第二部分，我將討論可擴展的聯邦學習，用于在資源受限的邊緣設備和FedML生態系統上訓練大型模型，其目標是針對CV NLP、GraphNN和IoT等多種AI應用在邊緣進行無處不在的分布式訓練。

地址：

作者： Chaoyang He，美國洛杉磯南加州大學計算機科學系博士研究生

付費5元查看完整內容

深度學習 · 歸一化 · CVPR 2021 ·

2021 年 6 月 21 日

[付費5元查看完整內容]【CVPR2021教程】深度學習中的歸一化技術:方法、分析和應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力，已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域，包括但不限于計算機視覺、自然語言處理和語音識別。然而，盡管歸一化技術發揮了豐富和越來越重要的作用，我們注意到沒有一個統一的視角來描述、比較和分析它們。此外，我們對這些方法成功的理論基礎仍然難以理解。

本教程涵蓋了標準化方法、分析和應用程序，并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?

//normalization-dnn.github.io

付費5元查看完整內容

機器學習 · 深度學習 · 計算機視覺 · 博士論文 · 語義分割 ·

2019 年 10 月 27 日

[付費5元查看完整內容]【干貨】劍橋大學Alex Kendall 208頁博士論文-計算機視覺深度學習中的幾何結構與不確定性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

計算機視覺（Computer Vision）是一門多學科科學，致力于讓機器具備“看”的能力。這個問題是很具有挑戰性的，因為我們從現實的視覺世界中觀察到了巨大的復雜性和外觀的變化。迄今為止，機器學習技術提供了最有有效的方法來設計具有人類圖像理解能力的系統。今天為大家再來了劍橋大學Alex Kendall的博士論文-計算機視覺深度學習中的幾何結構與不確定性。

針對一些核心計算機視覺問題，包括語義分割，實例分割，深度預測，定位，立體視覺和視頻場景理解等等問題，論文中的介紹了一些端到端深度學習架構。這些的框架優于傳統方法，并在許多具有挑戰性的計算機視覺問題上具有很不錯的效果。