Sora推出有望推動內容創作變革也是AIGC組成一部分 2024年2月迎Sora,推動多模態熱度。Sora的核心技術是基于OpenAI在自然語言處理和圖像生成方面的深厚積累(從LLM的ChatGPT到DALL-E3,再結合Diffusion和Transformer模型)與Runway、Pika等相比,Sora在視頻生成的真實感、細節表現上均具標志性價值。AI視頻生成雖不是新事,但Sora的推出具有新里程碑價值,作為AIGC組成部分,有望推高AI多模態的熱度,可關注AI多模態應用塑造數字內容生產與交互新范式,賦能視覺行業,從文字、3D生成、動畫電影、到長短視頻、劇集等方面,均有望帶來內容創作的變革,助力內容消費市場的繁榮發展,也在加速拓展AI應用新邊界(從中長期看,真人生產的內容對比AI生成內容的稀缺性也是凸顯)。同時,AI的發展,需要算力等支持,若算力獲得持續賦能,應用也有望百花齊放。 以Sora為支點有望撬動AI多模態應用新熱度 每一次技術的進步與推動均有望帶來時代的紅利,AI多模態的應用有望在2024年持續,對傳媒領域有望帶來存量的提質增效以及新增的應用場景,有望推動傳媒走向智媒。從投資維度看,第一維度,OpenAI的產品迭代,微軟受益,A股映射的受益公司是與微軟合作的藍色光標;第二維度,內容應用,核心看三點,第一點,對于動畫電影帶來產能提升,如光線傳媒;第二點,對于靜態文字領域商業新增量,如中信出版、新經典、果麥文化等;第三點,Sora的AI生成視頻模型,人人成為UGC及PGC制作者,有利于豐富元宇宙、長短視頻、MR應用生態,虛實融合如風語筑、藍色光標、浙文互聯、力盛體育等。
12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。這次發布的 Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。
現在,谷歌的類 ChatGPT 應用 Bard 已經升級到了 Gemini Pro 版本,實現了更為高級的推理、規劃、理解等能力,同時繼續保持免費。谷歌預計在明年初將推出「Bard Advanced」,其將使用 Gemini Ultra。
谷歌 DeepMind CEO 和聯合創始人 Demis Hassabis 代表 Gemini 團隊正式推出了大模型 Gemini。 Hassabis 表示長久以來,谷歌一直想要建立新一代的 AI 大模型。在他看來,AI 帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理。 今天,谷歌大模型 Gemini 終于亮相了,成為其有史以來打造的最強大、最通用的模型。Gemini 是谷歌各個團隊大規模合作的成果,包括谷歌研究院的研究者。 特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。 谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。
目前,Gemini 1.0 提供了三個不同的尺寸版本,分別如下:
谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然圖像、音頻和視頻理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果。 另外,Gemini Ultra 在 MMLU(大規模多任務語言理解數據集)中的得分率高達 90.0%,首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。 針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。 在大多數基準測試中,Gemini 的性能都超越了 GPT-4。
**Gemini 高性能多模態大模型Gemini: A Family of Highly Capable Multimodal Models
這份報告介紹了一種新的多模態模型系列——Gemini,它在圖像、音頻、視頻和文本理解方面展現出非凡的能力。Gemini系列包括Ultra、Pro和Nano三種尺寸,適用于從復雜推理任務到設備內存受限用例的各種應用。在一系列廣泛的基準測試中的評估顯示,我們最強大的Gemini Ultra模型在這些基準測試的32項中的30項中推進了最新技術水平——特別是它是首個在廣受研究的考試基準MMLU上達到人類專家表現的模型,并且在我們檢查的所有20項多模態基準測試中提升了最新技術水平。我們相信,Gemini模型在跨模態推理和語言理解方面的新能力將使各種用例成為可能,我們討論了將它們負責任地部署給用戶的方法。
我們在Google開發了一系列高性能的多模態模型——Gemini。我們對Gemini進行了聯合訓練,覆蓋圖像、音頻、視頻和文本數據,旨在構建一個在多種模態上都具有強大的通才能力,并在各自領域內具有先進的理解和推理性能的模型。 Gemini 1.0,我們的首個版本,有三種尺寸:Ultra用于高度復雜的任務,Pro用于提升性能和大規模部署能力,Nano用于設備上的應用。每種尺寸都專門針對不同的計算限制和應用需求進行了優化。我們在一系列內部和外部基準測試上評估了Gemini模型的性能,涵蓋了廣泛的語言、編程、推理和多模態任務。 Gemini在大規模語言建模(Anil等,2023;Brown等,2020;Chowdhery等,2023;Hoffmann等,2022;OpenAI,2023a;Radford等,2019;Rae等,2021)、圖像理解(Alayrac等,2022;Chen等,2022;Dosovitskiy等,2020;OpenAI,2023b;Reed等,2022;Yu等,2022a)、音頻處理(Radford等,2023;Zhang等,2023)和視頻理解(Alayrac等,2022;Chen等,2023)方面推進了最新技術。它還基于序列模型(Sutskever等,2014)、深度學習基于神經網絡的長期研究(LeCun等,2015),以及機器學習分布式系統(Barham等,2022;Bradbury等,2018;Dean等,2012)來實現大規模訓練。 我們最強大的模型,Gemini Ultra,在我們報告的32個基準測試中的30個中取得了新的最新技術成果,包括12個流行的文本和推理基準測試中的10個,9個圖像理解基準測試中的9個,6個視頻理解基準測試中的6個,以及5個語音識別和語音翻譯基準測試中的5個。Gemini Ultra是首個在MMLU(Hendrycks等,2021a)上達到人類專家表現的模型——一個通過一系列考試測試知識和推理的著名基準測試——得分超過90%。除了文本,Gemini Ultra在挑戰性的多模態推理任務上也取得了顯著進展。例如,在最近的MMMU基準測試(Yue等,2023)上,該測試包含了關于圖像的多學科任務,需要大學級別的主題知識和深思熟慮的推理,Gemini Ultra取得了62.4%的新最新技術成績,比之前最好的模型高出5個百分點以上。它為視頻問答和音頻理解基準測試提供了統一的性能提升。 定性評估展示了令人印象深刻的跨模態推理能力,使模型能夠本地地理解和推理音頻、圖像和文本輸入序列(見圖5和表13)。以圖1中描繪的教育場景為例。一位老師畫了一個滑雪者下坡的物理問題,一位學生對其進行了解答。使用Gemini的多模態推理能力,模型能夠理解凌亂的手寫字,正確理解問題的構成,將問題和解決方案轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。這為教育領域開辟了激動人心的可能性,我們相信Gemini模型的新多模態和推理能力在許多領域都有重大應用。大型語言模型的推理能力展示了構建能夠解決更復雜多步驟問題的通才型代理的前景。AlphaCode團隊構建了AlphaCode 2(Leblond等,2023),一種新的由Gemini驅動的代理,它結合了Gemini的推理能力、搜索和工具使用,擅長解決競賽編程問題。AlphaCode 2在Codeforces競賽編程平臺上排名前15%,比其最先進的前輩排名前50%有了大幅提升(Li等,2022)。 與此同時,我們通過Gemini Nano推進了效率的前沿,這是一系列針對設備上部署的小型模型。這些模型擅長于設備上的任務,如摘要、閱讀理解、文本完成任務,并在推理、STEM、編碼、多模態和多語言任務方面相對于它們的大小展示了令人印象深刻的能力。 在接下來的部分,我們首先提供模型架構、訓練基礎設施和訓練數據集的概述。然后,我們詳細評估了Gemini模型系列,涵蓋了廣泛研究的基準測試和跨文本、代碼、圖像、音頻和視頻的人類偏好評估——包括英語性能和多語言能力。我們還討論了負責任部署的方法,包括我們對影響評估的過程、開發模型政策、評估和在部署決策前減少傷害的方法。最后,我們討論了Gemini的更廣泛影響,它的局限性以及其潛在應用——為AI研究和創新的新時代鋪平道路。
大模型時代的AI AGENT=LLM+規劃能力+記憶+工具。AI領域AGENT概念由來已久,這一輪LLM給AI AGENT提供了突破性技術方案,對AI AGENT性能表現至關重要;同時需借助外部工具在實際應用中保持長期一致性和準確性。目前AI AGENT的探索大致分為自主智能體和智能體模擬。
方向一:自主智能體,力圖實現復雜流程自動化。自主智能體有望帶來軟件行業交互方式和商業模式變革。基座大模型能力解決下限問題,在實際企業應用場景中自主智能體的架構設計、工程能力、垂類數據質量等也至關重要,垂類/中間件玩家亦有機會。其中,單智能體相對更適用于較簡單的任務,在C端應用上有一定潛力,代表性玩家包括中心化應用的ChatGPT、去中心化應用的adept AI、可定制和平臺化的Cortex、MindOS等;但其在B端場景上略顯乏力,基本無法完成較為復雜的工作,多智能體優勢相對更加突出。代表性玩家包括MetaGPT、ChatDev、Showrunner。 方向二:智能體模擬,力圖更加擬人可信。1)陪伴類智能體強調情感情商等人類特征,具有“人格”,且能夠記住與用戶的歷史交流,代表應用如PI、Character ai、replica、glow等。我們認為國內情緒消費市場仍有較大想象空間,陪伴類智能體或受益于情緒消費趨勢紅利,成為LLM時代重要的AI原生應用。我們預計陪伴類智能體大部分商業價值集中在供給方而非平臺,我們更加看好具備豐富IP儲備或者能讓用戶定制智能體的玩家。2)交互智能體:強調與環境交互的能力,智能體之間/與虛擬世界內事物之間可互動,可能涌現出超越設計者規劃的場景和能力,大模型不確定性反而成為優勢,有望成為AIGC重要部分。特別是對開放世界游戲等行業,可增強玩家沉浸感,解決開放世界內容消耗快的問題;多可信agent技術成熟后可能會孵化出新的游戲品類。代表項目如斯坦福大學開源的Smallville小鎮,應用如網易《逆水寒》、昆侖萬維《Club Koala》。
TextCycleGAN(TCG)是一個基于循環生成對抗網絡(CycleGAN)的新的圖像字幕框架。這項工作旨在探索各種CycleGAN和條件GAN架構的性能,以構建TCG圖像字幕軟件包。
TCG最后一年的開發主要集中在調整算法以確保最佳性能。這項工作主要集中在以下幾個方面:
在這份報告中,我們概述了變化和由此取得的進展。我們展示了TCG在學習圖像字幕和圖像合成方面的困難;這些問題表明需要重新審視該架構的核心部分。截至本報告撰寫之時,TCG將被擱置,直到獲得進一步的資金。在重新審視TCG時,已經為它的未來列出了可能的修改意見。這些變化將為TCG成為一個強大的圖像字幕框架鋪平道路。
圖2. 受[4]和[5]啟發的圖像說明模型。卷積特征被輸入到LSTM以生成一個句子。Gumbel采樣器從softmax中獲取軟樣本,從而實現反向傳播。
ChatGPT的出現開啟了AGI之門。深度強化學習自AlphaGo成功就是認為是通用人工智能的核心技術。 DeepMind研究科學家Jack Parker-Holder在牛津大學的博士論文《邁向真正開放式強化學習》對此探究解答,217頁pdf
Jack Parker-Holder是DeepMind開放式團隊的一名研究科學家。對設計永不停止產生新的、有趣的東西的系統很感興趣。特別是,我想設計和構建開放式系統,不斷提出新的問題供RL智能體解決,最終產生一個具有普遍能力的智能體。關于我在DeepMind的工作。 在加入DeepMind之前,Jack Parker-Holder是牛津大學圣彼得學院的一名博士生,在那里我是機器學習研究小組的成員,由Stephen Roberts擔任顧問。 //jparkerholder.github.io/
摘要****在過去的十年中,深度強化學習(RL)在游戲、機器人甚至核聚變等實際問題中取得了一些顯著的成功。確實,考慮到其普適性,該領域的許多知名研究人員認為RL本身足以產生通用人工智能(AGI)。很容易看出,RL在理論上是一個開放的過程,其中智能體從其自身的經驗中永遠不會停止學習,只要給定一個適當復雜的環境。在本論文中,我們認為限制RL智能體的關鍵因素是需要靜態的、由人類設計的配置。在智能體方面,我們通常針對特定智能體和特定架構調整一組超參數,忽略了它們可能需要隨時間而適應的事實。同時,即使我們擁有強大的RL智能體,我們也缺乏足夠復雜的環境,可以促進通用行為的學習。
我們假設解決這個問題的唯一方法是擁抱開放性,通過設計具有無限能力來產生新的、有趣的東西的系統。在第一部分中,我們介紹了使用一組智能體動態自適應幾個重要智能體超參數的新方法。這使得智能體有可能隨著時間的推移自適應幾個超參數。本文介紹一種自動設計環境的新方法,發展一門課程,不斷在學生代理的能力前沿提出新的挑戰。將這兩項進展結合起來,可以產生一個開放式的學習系統,其中智能體和環境隨著時間的推移共同適應,產生越來越復雜的問題和可以解決這些問題的智能體。
然而,即使這也不是真正開放式的,因為一旦智能體可以解決人類指定分布的每個任務,它最終將停滯不前。在論文的第二部分,我們提出了使該系統無界的方向。介紹了兩種新方法,以鼓勵發現多樣化的解決方案,可以幫助避免欺騙性的局部最優,并發現更廣泛的行為集。通向真正開放式系統的一條路徑是完全消除對人類設計的模擬環境的需要,而是在學習的世界模型中訓練智能體。討論了該領域的一些貢獻,包括改進世界模型的主動數據采集,以及在世界模型中產生合成經驗的方法,提高了智能體的魯棒性。最后,提出了一個結合這些見解的未來系統的建議,我們相信這可能是真正開放式的。
1.1 對于通用人工智能來說,獎勵足夠了嗎?
強化學習(RL, Sutton & Barto[290])是一種范式,智能體完全從環境中的自身交互中學習,以最大化預期累積獎勵。這與機器學習中的其他設置不同,因為智能體可以學習規劃和推理,以便采取具有長期后果的行動。理論上,智能體從自身經驗中學習的能力是沒有限制的,因此強化學習為開放式學習提供了潛力。在過去的十年中,RL與深度神經網絡的結合[87,144,252]帶來了一系列顯著的成就。所謂的深度RL智能體的第一個重大勝利是當研究人員表明,僅從像素[190]就可以學習以人類水平玩Atari游戲時。其他的成功接踵而至,比如AlphaGo打敗了世界上最好的圍棋選手之一[271],而RL也被證明有能力在電子競技游戲中與人類競爭[22,312]。強化學習不僅在游戲中產生了重大影響,在機器人領域,強化學習已被用于從模擬遷移到現實世界[7,118,209,226,298],并用于從大型數據集[126,166]進行訓練。近年來,強化學習甚至對其傳統領域之外的領域產生了影響,例如在現實世界中導航[19]或控制血漿[53]。隨著該領域的快速進展,有可能進一步推斷并考慮未來可能使用RL的情況。強化學習已經顯示出為人類研究了幾個世紀的問題找到全新解決方案的能力,例如AlphaGo在與李世石的第二場比賽中著名的“第37步”。事實上,考慮到它的通用性,該領域的一些最杰出的研究人員認為,僅RL可能就足以產生通用人工智能(AGI)[274]。在本文中,我們將從表面價值出發,并專注于使用RL生產普通智能體所需的缺失成分。此外,本文尋求建立研究方向,當解決時可以彌補這一差距。在我們開始研究未來的研究方向之前,我們需要(簡要地)澄清我們提到AGI時的意思。首先要說明的是,智能有許多可能的定義[90,157],本文的目標不是提出一個新的定義。本文更多地是作為一種指導,而不是一個特定的目標,從Hutter[110]和Legg & Hutter[158]開創的工作中獲得靈感,他們最初提到了智能體π的普遍智能。具體來說,Legg & Hutter[158]提出了以下定義:
或者非正式地說:“智能衡量智能體在廣泛環境中實現目標的能力”。這里,“廣泛的環境”由E表示,從智能體的角度來看,所有定義良好的獎勵可求和環境的空間由K反向加權,K是用于描述環境的二進制字符串的Kolmogarov復雜度[139]。智能體π的成功由價值函數V π μ表示,我們將在2.1節中更嚴格地定義它。 以這種方式查看AGI的好處是,它不再是一個二進制標簽,而是一個連續的值范圍。因此,我們可以通過增加方程1.1的值,在AGI方面取得進展,無論它可能有多遠。那么,對于當前的RL方法來說,這可能是什么樣子的呢?很明顯,雖然我們取得了巨大的成功,但其中許多都是更狹隘的AI形式,例如解決個人游戲。此外,許多智能體未能泛化到其環境[45,136,214]中的微小變化,經常過度擬合訓練環境的特定組件[276,339]或在環境中起作用的其他智能體[106]。因此,要增加公式1.1的值,我們必須專注于增加智能體可以解決的任務的多樣性,使智能體對環境的變化以及其他智能體的變化具有魯棒性。
下一個問題是我們如何使用RL實現這一點?如果我們更仔細地觀察Silver等人[274],作者推測:“當強大的強化學習智能體被置于復雜環境中時,在實踐中將產生復雜的智能表達。如果這個猜想是正確的,它為實現人工通用智能提供了一個完整的途徑。”因此,我們可以清楚地看到這里的問題——我們還沒有“強大的強化學習智能體”或“復雜環境”,或兩者的定義。
本文認為,用RL實現更通用的智能體的關鍵限制因素是依賴特定的手工編碼智能體和環境配置,這些配置缺乏隨時間增加其復雜性的能力。如果我們在簡單的問題上訓練我們的智能體,那么我們可以快速實現精通,但最終達到方程1.1中的低值。然而,將智能體置于高度復雜的環境中使學習具有挑戰性[100]。相反,我們認為,實現具有普遍能力的智能體的可能路徑是一個從簡單配置開始的系統,但使它們有可能隨著時間的推移自動變得更復雜。為實現這一目標,本文提出了一些方法來自動發現越來越具有挑戰性的問題,讓智能體來解決,同時也引入了一種方法,讓智能體自適應解決這些問題。這就是開放性的問題。
1.2 論文結構
首先,回顧了深度強化學習和自動化未指定組件的方法的必要背景材料,稱為自動強化學習或AutoRL。我們包括了以下調查中的許多細節: Jack Parker-Holder , Raghu Rajan , Xingyou Song , André Biedenkapp, Yingjie Miao, Theresa Eimer, Baohe Zhang, Vu Nguyen, Roberto Calandra, Aleksandra Faust, Frank Hutter, Marius Lindauer Automated Reinforcement Learning (AutoRL): A Survey and Open Problems JAIR, 2022
第一部分:自動強化學習
在這一部分,我們做了以下貢獻:
提出了基于群體的Bandits(PB2),一種用于在單次訓練運行中動態學習和適應智能體配置的算法。
提出一種新方法來進化自適應課程,能夠在給定的任務分配中產生魯棒的多面手智能體。
本文假設,使強化學習系統更開放的重大改進是通過自動發現和適應系統超參數的大型組件。本文將這個問題分解為兩個支柱:智能體調整自己,環境不斷提出新的挑戰。在第3章中,我們首先專注于開發可以在一次訓練中動態學習和適應其配置的大部分組件的智能體。我們相信,這可以帶來永不停止學習的強大強化學習智能體。接下來,在第4章中,我們將討論進化訓練環境的自適應分布的方法。正如所示,這使得自動發現導致發現復雜環境的課程成為可能,同時訓練一個可以解決這些問題的智能體。在第一部分的結尾,我們討論了將這兩個組件組合成一個共同進化的[26]系統的可能性,在這個系統中,環境變得越來越具有挑戰性,智能體適應解決它們。請參閱下面的更具體的貢獻列表。
第二部分:實現開放性
這一部分包括以下貢獻: 1. 本文提出兩種新的算法來發現不同的解決方案,通過行為(DvD)和基因型(Ridge Rider)多樣性。
2. 本文提出新的信息論方法來收集數據,以產生有效的世界模型,受主動學習的啟發。
結合第一部分中的方法,應該會產生一個強大的協同進化系統,在這個系統中,環境不斷向能夠適應解決這些問題的智能體提出困難的挑戰。然而,正如我們所指出的,僅靠這一點可能不足以實現開放性,它很可能會匯聚到單一的解決方案和單一的環境分布。此外,這種解決方案甚至可能不是最優的,因為在許多情況下,直接優化無法找到最強大的行為[268,325]。論文的第二部分更具有推測性,再次分為兩章,每一章都提出了一個可能的方向,使我們的強化學習訓練系統無界。在第5章中,我們首先會介紹一些方法,通過鼓勵發現更廣泛的創造性行為,甚至是意想不到的行為,來促進學習動態的多樣性。第6章要克服的最后一個障礙是對人類設計的模擬環境的依賴,我們建議在世界模型中訓練智能體,直接從數據中學習。這本質上為“AI生成算法”[42]提供了足夠的基礎,它可以充分學習自己的環境,同時學習RL算法和配置來解決它們。
主要觀點: ChatGPT帶來大模型時代變革,數據要素重要性提升 ChatGPT是由OpenAI研發的一種語言AI模型,其特點在于使用海量語料庫來生成與人類相似的反應。初代GPT模型參數1.17億,GPT2模型、GPT3模型參數分別達到15億、1750億。不斷提升的參數量級,使得ChatGPT3當前已經能夠應用在商業、研究和開發活動中。 當前此類參數體量龐大的模型,成為各大科技廠商研發重點。大模型的基礎為高質量大數據。ChatGPT的前身GPT-3就使用了3,000億單詞、超過40T的數據。此類大數據基礎的前提為三部分1)有效場景下的采集數據;2)大數據的存儲、清洗和標注;3)數據質量檢驗。 大模型發展之下,算力與網絡設施建設成為剛需 算力:ChatGPT類人工智能需要更充足的算力支持其處理數據,帶來更多高性能的算力芯片需求。英偉達表示,GPT-3需要512顆V100顯卡訓練7個月,或者1024顆A100芯片訓練一個月。2012年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越摩爾定律(晶體管數量每18月翻一倍)。 網絡設施:以微軟Azure為例,其AI基礎設施由互聯的英偉達AmpereA100TensorCoreGPU組成,并由QuantuminfiniBand交換機提供橫向擴展能力。服務器節點多、跨服務器通信需求巨大,網絡帶寬性能成為GPU集群系統的瓶頸,解決方式包括增加單節點通信帶寬與降低網絡收斂比,帶來光模塊、交換機等需求。 下游應用場景豐富,多行業落地可期 1)“生成式AI(generativeAI)”在互聯網及元宇宙領域市場化空間較為廣闊。基于現行的NLP算法發展程度及數據集規模。在不久的將來,生成式AI有較大可能在“智能客服”和“搜索引擎”進行增值,并有希望以“插件”的形式賦能現有的“生產力工具鏈(工程軟件/音視頻制作工具等)”。 2)AI在制造業的應用可分為三方面:a)智能裝備:指具有感知、分析、推理、決策、控制功能的制造裝備,典型代表有工業機器人、協作機器人、數控機床等;b)智能工廠:重點在于實現工廠的辦公、管理及生產自動化,典型的代表場景有協作機器人、智能倉儲物流系統等;c)智能服務:指個性化定制、遠程運維及預測性維護等。 3)人工智能在智能汽車領域的應用包括:a)智能駕駛依托AI,將從駕駛輔助發展至自動駕駛;b)智能座艙在AI支持下,從出行工具演變為出行管家。
OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習方式依據人類反饋優化語言模型。
過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而,對生成結果的評估是主觀和依賴上下文的,例如,我們希望模型生成一個有創意的故事、一段真實的信息性文本,或者是可執行的代碼片段,這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標,現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模,沒有顯式地引入人的偏好和主觀意見。 如果我們 用生成文本的人工反饋作為性能衡量標準,或者更進一步用該反饋作為損失來優化模型,那不是更好嗎?這就是 RLHF 的思想:使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。 看看 ChatGPT 是如何解釋 RLHF 的:
ChatGPT 解釋的很好,但還沒有完全講透;讓我們更具體一點吧!
RLHF 是一項涉及多個模型和不同訓練階段的復雜概念,這里我們按三個步驟分解:
首先,我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型,OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬 ~ 520 億參數的 Transformer 模型進行訓練;DeepMind 使用了自家的 2800 億參數模型 Gopher。 這里可以用額外的文本或者條件對這個 LM 進行微調,例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調,而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據,但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域,對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。
接下來,我們會基于 LM 來生成訓練獎勵模型 (RM,也叫偏好模型) 的數據,并在這一步引入人類的偏好信息。
RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵,數值上對應人的偏好。我們可以用端到端的方式用 LM 建模,或者用模塊化的系統建模 (比如對輸出進行排名,再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。 關于模型選擇方面,RM 可以是另一個經過微調的 LM,也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式,即用偏好模型預訓練 (Preference Model Pretraining,PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。 關于訓練文本方面,RM 的提示 - 生成對文本是從預定義數據集中采樣生成的,并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的,并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf),而 OpenAI 使用了用戶提交給 GPT API 的 prompt。 關于訓練獎勵數值方面,這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM,但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。 對具體的排名方式,一種成功的方式是對不同 LM 在相同提示下的輸出進行比較,然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。 這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有 不同 大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM,Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等,DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是,偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。
接下來是最后一步:利用 RM 輸出的獎勵,用強化學習方式微調優化 LM。
長期以來出于工程和算法原因,人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization,PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B~100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間,有大量關于其原理的指南,因而成為 RLHF 中的有利選擇。 事實證明,RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。 讓我們首先將微調任務表述為 RL 問題。首先,該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ,觀察空間 (observation space) 是可能的輸入詞元序列,也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下:將提示 輸入初始 LM 和當前微調的 LM,分別得到了輸出文本 ,將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵 。將兩個模型的生成文本進行比較計算差異的懲罰項,在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放,即 。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型,以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外,OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度,可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。 最后根據 PPO 算法,我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization,TRO) 算法,它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置,但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。
作為一個可選項,RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新,用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF,其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態,代表了一個復雜和開放的研究問題。
盡管 RLHF 取得了一定的成果和關注,但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。 收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據:人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面,訓練 RM 需要的獎勵標簽規模大概是 50k 左右,所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見,導致了訓練數據存在一些潛在差異。 除開數據方面的限制,一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面,PPO 是一種較舊的算法,但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外,微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估,通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近,出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning,ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡,例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解,更進一步提升系統的表現。
首先介紹一些相關的開源工作: 關于 RLHF 的第一個項目,來自 OpenAI: PyTorch 的 repo: *
此外,Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作:
本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋,浙江大學計算機科學碩士,主要研究 NLP 領域。 我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容,如果你感興趣,歡迎通過文章下方的留言功能介紹自己,并留下聯系方式。謝謝!
?世界各地的軍隊正在根據戰爭的發展開發、集成和使用機器人和自主系統 (RAS)。需要進一步思考這一過程在荷蘭境內發生的條件以及可能產生的挑戰和影響。HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。
在兩年的時間里,該項目產生了五篇公共研究論文,涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。這些研究論文涵蓋了軍事適用性、倫理考慮、法律論述、合作要求以及 RAS 在軍事環境中的實施。所有論文都合并在此報告中,包括簡要總結分析的綜合報告和一系列六份情況說明書。 研究方法側重于獲取從業人員、研究人員、倫理學家、法律專家、行業專業人士、技術人員、民間社會組織、軍事人員和國防界其他成員的專業知識。這樣做不僅能夠收集對主題的多方面理解,而且還能將這些利益相關者獨特地聯系在一起,并促進他們之間具有挑戰性的討論。在項目過程中,與不同的咨詢委員會成員舉行了五次會議,指導了研究軌跡,并為其立場文件和研究論文草稿提供了寶貴的意見。還收集了來自 200 多名利益相關者的專業知識,參加了六場專家會議,其中涉及各種方法,包括基于場景的討論、設計會議、
次要目標是為公眾辯論提供信息,并在抵制流行的“殺手機器人”觀念的軍事背景下就 RAS 進行更細致的對話。為此,舉辦了關于 RAS 的道德困境的公開研討會,與 BNR Nieuwsradio 合作發布了五個 De Strateeg 播客,組織了會議和圓桌會議,并于 2021 年 2 月發布了一部 18 分鐘的紀錄片。
引 言
2019 年 12 月,普京在俄羅斯國防部董事會會議上發表講話時表示,“機器人系統和無人機正在被嚴格引入并用于戰斗訓練,這極大地提高了武裝部隊的能力。”幾個月后,俄羅斯國防部宣布了一項價值約 420 萬歐元的封閉招標,旨在“研究為新一代人工智能軍事系統創建神經網絡開發、訓練和實施的實驗模型”。雖然中國在公開場合遠沒有那么自夸,但他們的軍事優勢戰略是由人工智能和自動化的發展引領的,這導致一些分析人士認為,解放軍的目標是通過系統沖突和高度智能化的戰爭來主導。
這些觀點意味著一個更大的現象。世界各地的軍隊正在根據戰爭的第四次演變開發、整合和使用機器人和自主系統,需要進一步思考在荷蘭境內進行這一過程的條件以及可能出現的挑戰和影響作為結果。
HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。在兩年的時間里,該項目產生了五篇公共研究論文,涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。該綜合將這些主題聯系在一起,并展示了該項目最相關的發現。下面總結了 HCSS 研究對道德要求、法律話語、合作伙伴合作、實施和概念開發和實驗的觀察,然后是關于 RAS 的軍事適用性的初級部分。
RAS的軍事適用性
機器人和自主系統 (RAS) 在軍事環境中提供了大量、重要且影響深遠的機會。為了觀察這些系統在這種情況下的適用方式并評估它們的效用,需要解決一些定義和概念:
1 自主性:人類賦予系統執行給定任務的獨立程度。根據系統自身的態勢感知(綜合感知、感知、分析)、規劃和決策,實現分配任務是自治的條件或質量。自主性是指一系列自動化,其中可以針對特定任務、風險水平和人機協作程度定制獨立決策。自主級別可以包括遠程控制(非自主)、操作員協助、部分自動化、條件自動化、高度自動化或完全自動化。
2 機器人:能夠通過直接的人工控制、計算機控制或兩者兼而有之來執行一組動作的動力機器。它至少由平臺、軟件和電源組成
3 機器人和自主系統 (RAS):RAS 是學術界和科學技術 (S&T) 社區公認的術語,強調這些系統的物理(機器人)和認知(自主)方面。RAS 是一個框架,用于描述具有機器人元素和自主元素的系統。值得注意的是,RAS 的每個連續部分都涵蓋了廣泛的范圍。“系統”部分指的是廣泛(在我們的例子中為軍事)應用領域的各種物理系統。在計算機或網絡上運行的自動化軟件系統,包括“機器人”,即無需人工干預即可執行命令的軟件,不符合 RAS 的條件,因為它們缺少物理組件。“機器人”部分,指的是系統的物理布局,認為系統是無人或無人居住的。所有其他物理方面(大小、形式,無論是飛行、漂浮還是滾動等)都保持打開狀態。
4 致命自主武器系統 (LAWS):一種武器,在沒有人為干預的情況下,根據人為部署武器的決定,在沒有人為干預的情況下選擇和攻擊符合某些預定義標準的目標,因為攻擊一旦發動,人為干預就無法阻止。
5 有意義的人類控制(MHC):MHC 包括(至少)以下三個要素:(1)人們就武器的使用做出知情、有意識的決定;(2) 人們被充分告知,以確保在他們對目標、武器和使用武器的背景所了解的范圍內,使用武力符合國際法;(3) 所討論的武器是在現實的操作環境中設計和測試的,并且相關人員已經接受了足夠的培訓,以便以負責任的方式使用武器。MHC 是一個復雜的概念,在許多情況下,上述描述并不是決定性的。荷蘭官方的立場是,“所有武器,包括自主武器,都必須保持在有意義的人類控制之下。”
“殺手機器人”的言論已將公眾對軍事環境中機器人和自主系統的看法縮小為完全關于高度或完全自主系統使用致命武力的觀點。實際上,RAS 可應用于眾多軍事功能和任務,每個功能具有不同程度的自主性(見下圖)。機器人和自主系統的廣泛軍事適用性產生了無數和巨大的機會。未來幾年的挑戰是充分利用這些機會,發揮軍事優勢的潛力,同時降低所帶來的風險。
在這些功能中實施 RAS 會帶來重大挑戰,但也預示著軍隊將面臨更有效、更高效和更敏捷的新機遇。可以根據這些類別評估 RAS 繼續改進/再改進國防領域的潛力。
速度。在促進快速決策和威脅優先級排序的人工智能的幫助下,RAS 已經能夠超越人類的反應時間并縮短 OODA(觀察、定位、決定、行動)循環。
可靠性。將任務委派給機器需要高度的信任,但到目前為止,RAS 還不能證明在所有軍事應用領域都有足夠的可靠性。然而,我們對這些系統的信心將會增加,因為它們證明了它們在執行特定任務時的可靠性和有效性。
準確性。人工智能系統的面部圖像識別和感官能力已經超過了人類的表現水平,盡管無人系統比人類操作員更精確的說法受到廣泛爭議。
大規模效應。由于射程和耐力的增加,RAS 有能力增強對戰場的覆蓋范圍并壓倒對手。這種潛力的最好例子是“蜂擁而至”。
可達性。RAS 極大地增強了監視、情報、偵察和武器系統的可用存在點。
穩健性。在短期內,由于惡劣的天氣和任務的變化等意外條件,RAS 將比人類更容易失敗。這種脆弱性延伸到虛擬域:由于連接丟失、黑客攻擊和其他干擾可能導致系統無法運行。
安全。RAS 可以執行“枯燥、危險和骯臟”的任務,以便人類可以專注于更專業的任務并遠離火線。
成本。盡管最先進技術的獨家使用權將保留給最富有的玩家,但現在被認為是高度先進的系統的成本將在未來 20 年內下降,從而變得更加普及。
維護。考慮到系統的復雜性和涉及的多個(外部)合作伙伴,更新和升級 RAS 軟件和硬件可能會更加困難。
時間效率。RAS 可以 24/7 全天候高標準執行乏味且重復性的監控任務,無需休息,高效解決后勤規劃,快速超越人工多任務處理的極限。
靈活性。盡管 RAS 目前在執行特定任務方面表現出色,但在可預見的未來,人類仍將是最靈活的。隨著開發人員繼續創新當前系統,這種動態可能會發生變化。
適應性。RAS 具有高度自適應性,并且隨著時間的推移在系統生命周期(擴展、擴展、升級等)期間易于重新配置,以便跟上動態環境中出現的新要求。
外部合法性。因此,軍方與 RAS 的接觸必須在他們(可能)提供的先進能力與其所服務的社會的價值觀和規范之間取得平衡。
內部合法性。RAS 的信任和組織規范化將隨著時間的推移而得到加強。隨著對系統的理解、可預測性和熟悉度的提高,它們在組織內的合法性將得到鞏固。
許多國家認識到這種潛力并意識到需要在瞬息萬變的國際舞臺上具有軍事競爭力,因此將 RAS 用作其武裝部隊的一部分(圖 2)。然而,盡管有明顯的機會,但在軍事環境中實施 RAS 并非易事。許多實際和理論挑戰阻礙了實施過程,需要政策制定者、創新者、研究人員、國防界和民間社會成員之間的討論,在許多情況下,這些挑戰考驗著我們賴以監管、開發、獲取、整合和使用其他軍事技術。為了分析這些挑戰,重要的是確定 RAS 系統生命周期的三個階段:開發、集成和使用(圖 3)。下一節總結了在 HCSS RAS 項目期間探索和分析的理論考慮(道德和法律)和實際考慮(私營部門合作和概念試驗與開發)。
RAS的開發是一個硬件和軟件設計和生產的動態過程,在后期根據系統測試、集成、監控和使用的結果不斷地重新審視。RAS的設計和開發需要國防部門和私營部門之間更深入的互動與合作。因此,私營部門在塑造 RAS 生命周期的發展階段和解決與該階段相關的理論和實踐考慮方面發揮著關鍵作用。
這一階段涉及 RAS 的組織嵌入,由此與系統開發者/生產者的關系發生變化,新的參與者(例如實際的軍事最終用戶)出現或獲得更主導的角色。在這個階段,“交接”變化的性質引發了關于不同參與者角色的新問題。
在作戰環境中使用 RAS 會影響軍隊的工作方式、與誰合作以及在什么條件下工作。這是因為相關系統的更大自主性促使操作員和指揮官以“更高的抽象層次”與系統進行交互。除了部署之外,這個階段還包括RAS的維護和服務。
結 論
機器人和自主系統代表了軍事領域的轉變。它們提供了顯著的軍事能力,以擴大軍事行動的質量、范圍、效率和安全性,并正在改變我們現在和未來對抗沖突的方式。RAS 功能正在實施,不僅是荷蘭武裝部隊,還有我們的潛在對手。技術、運營、法律和道德問題,以及這種新興技術的潛在擴散是復雜且相對較新的。
隨著新發展的出現和在運營使用過程中獲得經驗,我們概念化、設計、建造和運營 RAS 的方式將需要反復重新考慮。這也意味著需要不斷的知識開發、概念開發和實驗。為了充分了解 RAS 的潛力及其作為軍事工具箱中重要戰略工具的要求,必須在操作環境中進行實際測試。
要讓行業充分參與這些市場,在這個快速發展的領域中共同開發和共同試驗需要不同的思維方式。在產品完全成熟并且操作使用表明它們被充分理解和可預測之前,RAS 將需要通過短周期創新過程進行不斷調整。
在軍事背景下開發和實施 RAS 將需要持續關注、創造性的大局思維以及與利益相關者(包括政策制定者、學者、倫理學家、律師、行業專業人士、技術人員、民間社會和國防界)的強大合作網絡。
Python科學可視化作用是很重要的。它由無數的工具組成,從最通用和廣泛使用的到更專業和保密的。其中一些工具是基于社區的,而另一些則是由公司開發的。有些是專門為網頁制作的,有些是僅用于桌面,有些處理3D和大數據,而另一些則是針對完美的2D渲染。在這方面,Matplotlib有一個非常特殊的位置。它是一個多功能和強大的庫,允許您設計非常高質量的圖畫,適合科學出版。它還提供了一個簡單和直觀的界面,以及一個面向對象的體系結構,允許您調整圖形中的任何內容。最后,它可以作為一個常規的圖形庫,以設計非科學的圖形。
//github.com/rougier/scientific-visualization-book
這本書分為四個部分。第一部分考慮Matplotlib庫的基本原則。這包括回顧構成圖形的不同部分,不同的坐標系統,可用的比例和投影,我們還將介紹一些有關排版和顏色的概念。第二部分是一個圖形的實際設計。在介紹了一些生成更好圖形的簡單規則之后,我們將繼續解釋Matplotlib默認值和樣式系統,然后深入研究圖形布局組織。然后,我們將探索不同類型的plot可用,并看看如何用不同的元素裝飾一個圖形。第三部分專注于更先進的概念,即3D人物,優化和動畫。第四部分,也是最后一部分是陳列柜的收集。
Manning最暢銷的Java 8書籍已經被修訂為Java 9和Java 10!在Modern Java In Action中,讀者可以使用最新的特性和技術,在已有的Java語言技能的基礎上進行構建。
Java 9的發布建立在Java 8令人激動的基礎之上。除了Java 8的lambdas和streams之外,Java 9還添加了許多自己的新特性。它包含了新的庫特性來支持響應式編程,這為用戶提供了一種新的方式來思考編程和編寫更易于閱讀和維護的代碼。