亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**【轉載新智元】**DeepMind創始人Shane Legg帶領的研究團隊發表了一篇關于AGI時間表的論文。他指出,LLM已經是AGI雛形,提出了6條定義AGI的標準。而且根據AI能力,他們提出了5個AGI的分類,以及對于AGI風險的評估體系。

人類距離第一個AGI的出現已經越來越近了! DeepMind聯合創始人,首席AGI科學家Shane Legg在不久前的訪談中認為,2028年,人類有50%的概率開發出第一個AGI。

而就在今天,他帶領的DeepMind研究團隊在Arxiv上公布了一篇論文,直接放出了AGI的路線圖和時間表。

論文地址://arxiv.org/abs/2311.02462雖然論文主題感覺很大很空,但是網友認為文章很好的定義了AGI,避免了以后各種雞同鴨講的討論。

研究團隊認為,從性能強度和通用性兩個維度,可以將人類和AI的關系劃分為5個階段,而現在大語言模型的出現,正屬于第一個通用AI的階段:AGI雛形。

以OpenAI的ChatGPT,谷歌Bard,Meta的Llama為代表的大模型,已經在通用性上展示出了AGI的潛力。 因為大語言模型已經能完成范圍相當廣的各類任務,而且表現出了像學習新技能這樣的「元認知」能力。 而如果單從AI的性能維度上看,「窄AI(Narrow AI)」類型的AI已經達到了完全超越人類認知的水平。 以AlphaFold,AlphaZero為代表的專業領域AI,在特定領域已經能發現人類智力無法發現的新事物了。研究團隊將其稱為「超人類窄AI」。

而和人類相比,在某個領域達到99%的人類的水平,比如在棋類競技中能夠戰勝人類頂尖大師的「深藍」和AlphaGo,就屬于這一類。研究團隊將它們稱為「大師級窄AI」。

而在某些領域,AI能達到90%的人類水平,比如文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。研究團隊將其稱為「專家級窄AI」。

在特定領域,能達到普通人的平均水平,比如Siri,谷歌助手這類普通智能助理。研究團隊將其稱為「普通窄AI」。

而在這四個窄AI已經覆蓋的能力維度上,通用AI都還沒有出現對應的實例。 而進一步,因為目前還沒有出現真正意義上的AGI,對于AGI的定義,人類還沒有達到統一的認知。 所以論文中還提供了定義AGI的6個準則:

  1. 關注能力而非過程。AGI定義應該關注一個系統能達到的效果,而不是實現這些效果的內在機制。

  2. 關注通用性和性能。AGI定義應同時考量通用性和性能這兩個維度。

  3. 關注認知和元認知任務。AGI的定義應關注認知任務,以及元認知能力如學習新技能。不需要作為前提要求。

  4. 關注潛能而非部署。理論上證明系統能完成某類任務就可認為它具備AGI潛能,不需要一定要實際部署。

  5. 關注真實場景。用于AGI測評的任務應考慮真實場景的適用性,而不僅是容易量化的指標。

  6. 關注通向AGI的路徑,而非單一目標。AGI定義應采用分級方式,考慮不同水平的路徑,而不僅是最終目標。

在論文的最后一個部分,作者還提出了對于未來可能出現的AGI的測評與風險評估問題。 在作者看來,需要考慮人類與AGI的互動模式,僅看模型能力來評估AGI是非常片面的。 具體來說,AGI的能力不同于AGI的自主性。隨著AGI能力的增強,會解鎖更高級的人機互動模式,但不意味著就必須給予AGI最大的自主性。 在這個技術之上,作者提出了6種人機互動模式:無AI、AI工具、AI顧問、AI協作者、AI專家、AI智能體。

不同的人機互動模式需要不同的AGI能力作為前提,比如AI智能體可能需要AI能力達到專家或者超人類AI級別,才能更好地完成這個互動模式處理的任務。 人機互動模式本身會引入不同類型的風險。例如AI智能體具有最高的自主性,但同時也引入了最大風險。 因此,AGI的風險評估需要同時考慮模型能力和人機互動模式。合理的互動模式選擇有助于AGI系統的負責任部署。 人機互動研究需要與模型能力提升保持同步,以支持對AGI系統的安全且有效的利用。 AGI,黎明還是黃昏? 從1955年達特茅斯人工智能會議開始 ,人類就朝著實現「真正的智能」這顆北極星曲折前進,途中也經過了不同的道路。 AGI的概念與對人工智能進步的預測有關,它正在朝著更大的普遍性發展,接近并超越人類的普遍性。此外,AGI通常與「涌現」一詞交織在一起,有能力實現開發人員未明確預期的功能。這種能力使新型互動或新行業成為可能。AGI可能產生重大的經濟影響——我們是否達到了廣泛勞動力替代的必要標準?AGI還可能帶來與經濟優勢有關的地緣政治以及軍事上的影響。 同樣,我們也應該通過評估AGI的水平來預防她帶來的風險。正如一些人推測的那樣,AGI系統可能能夠欺騙和操縱、積累資源、推進目標、代理行為,并遞歸地自我改進,最終在廣泛的領域中取代人類。所以,對于人工智能研究界來說,明確反思我們所說的「AGI」的含義,并量化人工智能系統的性能、通用性和自主性等屬性至關重要。我們必須理解自己在AGI道路上所處的位置。 AGI案例分析 首先,我們應當考慮如何正確定義AGI,也許可以從一些案例中獲得啟發。 案例1:圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實踐的最知名的嘗試。圖靈的「模仿游戲」被認為是一種將機器是否可以思考的問題操作化的方法。鑒于現代LLM通過了圖靈測試的一些框架,很明顯,這個標準不足以作為評估AGI的基準。 我們同意圖靈的觀點,機器是否可以「思考」確實是一個有趣的哲學和科學問題,但機器能做什么的問題顯然對于評估影響更重要,也更易于衡量。因此,AGI應該根據能力而不是過程來定義。案例2:與人腦的類比。「通用人工智能」一詞的最初使用是在1997年馬克·古布魯德撰寫的一篇關于軍事技術的文章中,該文章將AGI定義為「在復雜性和速度上與人腦相媲美或超過人腦的人工智能系統」。 雖然現代ML系統背后的神經網絡架構松散地受到人腦的啟發,但基于transformer的架構的成功表明,嚴格的基于大腦的過程和基準對于AGI來說并不是必要的。案例3:學習任務的能力。在《技術奇點》中,沙納漢認為,AGI是「人工智能」,它不是專門用于執行特定任務的,而是可以學習執行與人類一樣廣泛的任務。該框架的一個重要特性是它強調將元認知任務(學習)納入實現AGI的要求中的價值。案例4:具有經濟價值的工作。OpenAI的章程將AGI定義為「高度自主的系統,在最具經濟價值的工作中表現優于人類」。這個定義側重于與底層機制無關的性能,并且提供了潛在的衡量標準,即經濟價值。 但問題在于,有許多與智力相關的任務可能沒有明確的經濟價值(例如,藝術創造力或情商)。而且,我們很可能擁有在技術上能夠執行經濟上重要任務的系統,但由于各種原因(法律、道德、社會等)而沒有意識到這種經濟價值。案例5:馬庫斯認為AGI是「任何智能的簡寫,具有與(或超越)人類智能相當的足智多謀和可靠性」。他通過提出五項具體任務(理解一部電影、理解一本小說、在任意廚房做飯、編寫一個無錯誤的10000行程序以及將自然語言數學證明轉換為符號形式)來實施他的定義。 案例6:Agüera y Arcas和Norvig認為最先進的LLM已經是AGI,而通用性是AGI的關鍵屬性。由于語言模型可以討論廣泛的主題、執行廣泛的任務、處理多模態輸入和輸出, 以多種語言操作,并從零樣本或少樣本示例中「學習」,它們已經達到了足夠的通用性。 AGI六大準則

通過對以上幾個案例的思考,作者為AGI的定義制定了以下六個標準: 第一條:關注能力,而不是流程。大多數定義關注的是AGI可以完成什么,而不是它完成任務的機制。 這對于識別不一定是實現AGI的先決條件的特征非常重要。 因為,實現AGI并不意味著系統以類似人類的方式思考或理解;也并不意味著系統具有意識或感知等。 第二條:注重通用性和性能。上述所有定義都在不同程度上強調普遍性,另外,性能也是AGI的關鍵組成部分。 第三條:專注于認知和元認知任務。 人工智能系統的物理能力似乎落后于非物理能力。作者認為,執行物理任務的能力增加了系統的通用性,但不應被視為實現AGI的必要先決條件。 另一方面,元認知能力(例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力)是系統實現通用性的關鍵先決條件。

第四條:關注潛力,而不是部署。因為要求部署作為衡量AGI的條件會帶來非技術障礙,例如法律和社會考慮,以及潛在的道德和安全問題。 第五條:注重生態效度。這里強調選擇與人們重視的現實世界(即生態有效)任務相一致的任務的重要性(廣義地解釋價值,不僅作為經濟價值,還包括社會價值、藝術價值等)。 最后一條:專注于AGI的路徑,而不是單個端點。作者將AGI的每個級別與一組明確的指標相關聯,并且每個級別引入已識別風險,以及由此產生的人機交互范式的變化。 AGI水平定義

作者給出如下表格,清晰地提出了一種分類或者說評估方法,規定了達到給定評級所需的大多數任務的最低性能。 為便于理解,這里將下表中的后五類翻譯為:入門、普通、專家、大師和超人級別。

比如,在大多數認知任務中,有能力的AGI必須至少達到熟練成年人的平均水平,但在任務子集上可能具有專家、大師甚至超人的表現。 舉個例子,截至2023年9月撰寫本文時,前沿語言模型(例如,ChatGPT、Bard、Llama2等)在某些任務(例如,短文寫作、簡單編碼)中表現出「普通」的性能水平,但對于大多數任務(例如, 數學能力,涉及事實性的任務)來說,僅表現出「入門」的性能水平。 因此,總體而言,當前的前沿語言模型將被視為1級通用AI,當更廣泛的任務的性能水平提高時,就可以達到2級通用AI的門檻。 另外需要注意的是,在特定認知領域獲得更強技能的順序可能會對人工智能安全產生嚴重影響。 例如,在獲得強大的道德推理技能之前獲得強大的化學工程知識可能是一個危險的組合。 雖然該分類法根據系統的性能對系統進行評級,但能夠達到一定性能水平的系統在部署時可能不匹配此級別。

以DALL·E 2為例,因為DALL·E 2產生的圖像質量比大多數人能夠繪制的更好,所以可以評估為「專家」級別的性能。然而該系統存在故障模式,使其無法獲得「大師」的稱號。所以可以將其估計為分類法中的3級窄AI(「專家級窄AI」)。 在上面的表格中,作者引入了一個矩陣式調平系統,該系統側重于性能和通用性,這是AGI的兩個核心維度。 就綜合性能和通用性而言,矩陣中的最高級別是ASI(人工超級智能)。而「超人」的表現意味著100% 優于人類。 例如,這里假設AlphaFold是5級窄AI (「超人級窄AI」),因為它執行的單項任務(從氨基酸序列預測蛋白質的3D結構)高于世界頂級科學家的水平。 該定義意味著5級通用AI (ASI) 系統將能夠以人類無法比擬的水平完成廣泛的任務。 AGI測試

在作者的方案中,人工智能系統必須掌握多大比例的此類任務才能達到給定的通用性水平?是否有一些任務(如元認知任務)必須始終執行才能達到某些通用性級別的標準? 要實現AGI定義的可操作性,就必須回答這些問題,并開發出具體的多樣化和具有挑戰性的任務。

鑒于這一過程的巨大復雜性,以及納入廣泛視角(包括跨組織和多學科觀點)的重要性,作者在本文中并未提出一個基準。 相反,作者致力于澄清基準應嘗試衡量的本體。作者還討論了AGI基準應具備的屬性。 AGI基準將包括一套廣泛的認知和元認知任務(根據原則3),測量包括(但不限于)語言智能、數學和邏輯推理、空間推理、人際和人內社交智能、學習新技能的能力和創造力在內的各種特性。 基準可能包括心理學、神經科學、認知科學和教育學中的智能理論所提出的心理測量類別測試。 但是,必須首先評估這些 「傳統 」測試是否適合用于計算系統基準測試,因為在這種情況下,許多測試可能缺乏生態和構造有效性。 基準性能的一個未決問題是,是否允許使用工具(包括可能由人工智能驅動的工具)作為人類性能的輔助工具。 這一選擇最終可能取決于任務,并應在基準選擇中考慮生態有效性(原則5)。 例如,在確定自動駕駛汽車是否足夠安全時,與一個沒有任何現代人工智能輔助安全工具的人進行比較,并不是最有參考價值的比較。 因為相關的反事實涉及到一些駕駛輔助技術,作者可能更傾向于與該基線進行比較。 或交互式任務,這些任務可能需要定性評估。作者猜測,后幾類復雜的開放式任務雖然難以確定基準,但其生態有效性將優于傳統的人工智能指標,或優于經過調整的傳統人類智能指標。 AGI所能完成的全部任務是不可能一一列舉的。因此,人工智能基準應該是一個活的基準。因此,這種基準應包括一個生成和確定新任務的框架。 要確定某物在特定水平上不是一個AGI,只需找出人們通常可以完成但系統無法充分執行的5項任務即可。 在特定性能級別(「雛形」、「普通」等)上通過大部分設想的AGI基準測試的系統,包括測試人員添加的新任務,可以被假定為具有相關的通用性級別(即,盡管在理論上AGI仍有可能無法通過測試,但在某些時候,未通過測試的情況會變得非常專業或非典型,以至于實際上無關緊要)。 制定AGI基準將是一個具有挑戰性的迭代過程。盡管如此,它仍是人工智能研究領域的一個北斗星級別的目標。 對復雜概念的衡量可能并不完美,但衡量的行為有助于我們清晰地定義目標,并提供一個衡量進展的指標。 關于AGI風險的討論

關于人工智能的討論通常包括對風險的討論。 采用分層的方法來定義人工智能,可以更細致地討論性能和通用性的不同組合如何與不同類型的人工智能風險相關聯。 當我們沿著人工智能的能力水平前進時,會引入新的風險,包括誤用風險、調整風險和結構風險。

例如,「專家級人工智能 」水平很可能涉及與經濟混亂和工作崗位轉移相關的結構性風險,因為越來越多的行業達到了機器智能替代人類勞動力的門檻。另一方面,達到 「專家級AGI 」可能會減輕 「AGI雛形 」和 「普通級AGI 」帶來的一些風險,如任務執行錯誤的風險。 在 「大師級人工智能 」和 「專家級人工智能」級別中,最有可能出現許多與x風險有關的問題(例如,人工智能可以在各種任務中超越人類操作員,但可能會欺騙人類操作員以實現錯誤的目標,如錯誤對齊思想實驗)。 如果不同級別之間的進展速度超過了監管或外交的速度(例如,第一個實現人工智能的國家可能會擁有巨大的地緣政治/軍事優勢,從而產生復雜的結構性風險),那么國際關系不穩定等系統性風險可能會成為一個令人擔憂的問題。 「專家型人工智能」(如 「新興人工智能」、「勝任型人工智能 」和所有 「狹義 」人工智能類別),風險可能更多來自人類行為(如人工智能誤用風險,無論是意外、偶然還是惡意)。 對與每個級別相關的風險概況進行更全面的分析,是制定AGI分類法的關鍵一步,可以為安全/倫理研究和政策制定提供指導。

能力和自主性

雖然能力為人工智能風險提供了先決條件,但人工智能系統(包括AGI系統)不會也不會在真空中運行。 相反,人工智能系統是與特定界面一起部署的,用于在特定場景中完成特定任務。 這些背景屬性(界面、任務、場景、最終用戶)對風險狀況有重大影響。AGI能力本身并不能決定風險方面的命運,而必須與背景細節結合起來考慮。

例如,考慮AGI系統用戶界面的承受能力。能力的不斷提高會釋放出新的交互范式,但并不能決定這些范式。 相反,系統設計者和終端用戶將確定一種人與人工智能的交互模式,這種模式將平衡包括安全性在內的各種考慮因素。作者建議用表2中描述的六個自主水平來描述人機交互范式。 這些自主水平與AGI水平相關。更高水平的自主性可通過AGI能力的提升而 「解鎖」。 圍繞人與人工智能的互動做出深思熟慮的選擇,對于安全、負責任地部署前沿人工智能模型至關重要。 要使特定的交互范式變得理想,可能需要某些方面的通用性。 例如,只有當人工智能系統在某些元認知能力(學會何時向人類尋求幫助、心智理論建模、社會情感技能)方面也表現出很強的性能時,自主性等級3、4和5(「合作者」、「專家 」和 「智能體」)才可能發揮良好的作用。 作者對第五級自主性(「作為智能體的人工智能」)的定義中隱含的意思是,這種完全自主的人工智能可以在沒有人類持續監督的情況下以一致的方式行動,但也知道何時向人類咨詢。 通過更好的任務規范、彌合流程鴻溝和產出評估來支持人類與人工智能協調的界面,是確保人機交互領域跟上與人工智能系統互動的挑戰和機遇的重要研究領域。

作為風險評估框架的人機交互范式

上表2說明了AGI級別、自主級別和風險之間的相互作用。 模型性能和通用性的進步提供了更多的交互范式選擇(包括潛在的完全自主的人工智能)。 這些交互范式反過來又引入了新的風險類別。 與單獨考慮模型能力相比,模型能力和交互設計的相互作用將使風險評估和負責任的部署決策更加細致入微。 表2還提供了作者提出的六個自主級別中每個級別的具體示例。 對于每個自主水平,作者都指出了 「解鎖 」該交互范式的相應性能和通用性水平(即該范式有可能或有可能成功部署和采用的AGI水平)。 作者對 「解鎖 」水平的預測往往要求狹義人工智能系統的性能水平高于通用人工智能系統。 例如,作者認為,無論是專家級狹義人工智能還是新興人工智能,都有可能將人工智能用作顧問。 這種差異反映了這樣一個事實,即對于通用系統來說,能力發展很可能是不均衡的。 例如,一級通用人工智能(「AGI雛形」)很可能在某些子任務集上達到二級甚至三級性能。 通用人工智能能力的這種不均衡性可能會使其在執行與其特定優勢相符的特定任務時獲得更高的自主水平。 在人類使用的背景下考慮 AGI 系統,可以讓我們思考模型的進步與人類-AI 交互范式的進步之間的相互作用。 模型的進步與人與人工智能交互范式的進步之間的相互作用。模型研究的作用可以看作是幫助系統的能力沿著通往AGI的道路不斷進步,提高其性能和通用性。 這樣,人工智能系統的能力將與人類能力的重疊部分越來越大。相反,人與人工智能交互研究的作用可以被視為確保新的人工智能系統能夠為人類所用并對人類有用,從而使人工智能系統成功地擴展人類的能力。參考資料:

付費5元查看完整內容

相關內容

轉載“竹言見智” 為什么機器人技術遠遠落后于 NLP、視覺和其他 AI 領域?除其他困難外,數據短缺是罪魁禍首。谷歌 DeepMind 聯合其他機構推出了 Open X-Embodiment 數據集,并訓練出了能力更強的 RT-X 模型。

在大模型不斷取得突破的 2023,把大模型當做大腦來輔助運行的具身智能機器人研究也在被迅速推進。

2 個多月前,谷歌 DeepMind 推出了第一個控制機器人的視覺 - 語言 - 動作(VLA)模型 ——RT-2。這個模型讓機器人不僅能解讀人類的復雜指令,還能看懂眼前的物體(即使這個物體之前從未見過),并按照指令采取動作。比如,你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

當時,一位谷歌高管稱,RT-2 是機器人制造和編程方式的重大飛躍。「由于這一變化,我們不得不重新考慮我們的整個研究規劃了。」 更令人吃驚的是,時間僅僅過去了兩個多月,DeepMind 的這個機器人模型又進步了,而且一下就提高了兩倍。 這是怎么實現的呢? 我們知道,機器人通常在做某一件事情上非常專業,但通用能力很差。一般情況下,你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變量往往需要從頭開始。但是,如果我們能將各種機器人學的知識結合起來,創造出一種訓練通用機器人的方法呢? 這就是 DeepMind 在過去一段時間所做的事情。他們匯集了來自 22 種不同機器人類型的數據,以創建 Open X-Embodiment 數據集,然后在之前的模型(RT-1 和 RT-2)的基礎上,訓練出了能力更強的 RT-X(分別為 RT-1-X 和 RT-2-X)。 他們在五個不同的研究實驗室測試了 RT-1-X 模型,結果顯示,與針對每個機器人獨立開發的方法相比,新方法在五種不同的常用機器人中平均成功率提高了 50%。他們還表明,在上述數據集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍,而且,通過學習新數據,RT-2-X 掌握了很多新技能。這項工作表明,在來自多個機器人類型數據上訓練的單個模型比在來自單個機器人類型數據上訓練的模型在多個機器人上的性能要好得多。

值得一提的是,這項研究并非由 DeepMind 獨立完成,而是他們與 33 家學術實驗室通力合作的結果。他們致力于以開放和負責任的方式開發這項技術。

目前,Open X-Embodiment 數據集和 RT-1-X 模型檢查點已經對廣泛的研究社區開放。

英偉達高級人工智能科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

谷歌研究員Karol Hausman也表達了同樣的感嘆:機器人的ImageNet時刻終于到來了。

Open X-Embodiment 數據集,機器人的 ImageNet 時刻

數據集以及基于數據集訓練的模型在推進 AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了計算機視覺的研究,Open X-Embodiment 同樣推動了機器人技術的發展。 一直以來,構建多樣化數據集是訓練通用模型的關鍵,這些訓練好的模型可以控制許多不同類型的機器人,遵循不同的指令,對復雜任務進行基本推理,并有效地進行泛化。然而,對于任何單個實驗室來說,收集這樣的數據集都過于耗費資源。 為此,DeepMind 與 33 家機構的學術研究實驗室展開合作,從而構建了 Open X-Embodiment 數據集。他們從 22 個機器人實例中收集數據,這些數據涵蓋超過 100 萬個片段,展示了機器人 500 多項技能和在 150000 項任務上的表現。該數據集是同類中最全面的機器人數據集。 來自 Open X-Embodiment 數據集的樣本,包括 500 多種技能和 150000 個任務。 Open X-Embodiment 基本信息 RT-1-X:成功率提升 50%

RT-X 基于兩個 robotics transformer(RT)模型構建而成。 具體而言,他們使用 RT-1 訓練 RT-1-X,其中 RT-1 是建立在 Transformer 架構上的 35M 參數網絡,專為機器人控制而設計,如圖 3 所示。 此外,他們還在 RT-2 上訓練 RT-2-X,其中 RT-2 是一系列大型視覺語言動作模型 (VLA),在互聯網規模的視覺和語言數據以及機器人控制數據上訓練而成。

為了評估 RT-1-X,DeepMind 將其與在特定任務上(例如開門)開發的模型進行了比較。結果顯示,使用 Open X-Embodiment 數據集訓練的 RT-1-X 平均性能優于原始模型 50%。 RT-1-X 平均成功率比原始方法提高 50%。

來自不同合作機構的關于 RT-1-X 的效果展示 RT-2-X:無障礙解鎖新技能

為了研究 RT-X 的知識遷移能力,DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 數據集中不存在的對象和技能,但這些對象和技能存在于另一個機器人的數據集中。結果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。這也說明了,與其他平臺的數據進行聯合訓練可以為 RT-2-X 賦予原始數據集中不存在的額外技能,使其能夠執行新穎的任務。 上圖展示了 RT-2-X 對物體之間空間關系的理解。

一系列結果表明,RT-2-X 實現了 RT-2 以前無法實現的技能,包括對空間更好的理解。例如,如果我們要求機器人「將蘋果移動到布料附近」、又或者要求機器人「將蘋果移動到布料上」,為了實現目標要求,機器人會采取完全不同的軌跡。只需將介詞從「near」更改為「on」,就可以調整機器人采取的動作。 RT-2-X 表明,將其他機器人的數據結合到 RT-2-X 訓練中可以改善機器人的任務執行范圍,但前提是使用足夠高容量的架構。

RT-2-X (55B): 迄今為止在學術實驗室執行未知任務的最大模型之一

研究啟發:機器人需要相互學習,研究人員也一樣

機器人研究正處于令人興奮的早期階段。DeepMind 的這項新研究表明,通過利用更多樣化的數據和更好的模型進行擴展學習,有可能開發出更有用的輔助機器人。與世界各地的實驗室合作并共享資源,對于以開放和負責任的方式推進機器人研究至關重要。DeepMind 希望通過開放數據源和提供安全但有限的模型來減少障礙,加快研究。機器人技術的未來有賴于機器人之間的相互學習,最重要的是,讓研究人員能夠相互學習。 這項工作證明,模型可以在不同環境下通用,無論是在谷歌 DeepMind 的機器人上,還是在世界各地不同大學的機器人上,其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與 RoboCat 的自我完善特性相結合,使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同數據集的混合會如何影響跨具身智能體泛化,以及這種泛化是如何是實現的。 如果你想了解有關 RT-X 的更多信息,可以參考 DeepMind 發布的這篇論文:

  • 論文鏈接:
  • 項目鏈接:
付費5元查看完整內容

3月21日晚,英偉達召開2023年開發者大會。正如英偉達CEO黃仁勛所言,我們正處于AI的“iPhone時刻”。ChatGPT帶給我們的巨大驚喜只是AI能力圈的冰山一隅, 我們基于當下時點,探尋AI的能力圈,發現AI的潛在場景。

**①AI+計算機 =“程序員”。生成式 AI 是一種新型計算機,一種基于人類自然語言編程的計算機。ChatGPT可以根據精確或模糊的自然語言,了解用戶的意圖,并生成本文,寫備忘錄和詩歌,改寫研究論文,解決數學問題,甚至編寫軟件。借助Debuild,用戶只需說明自己想要的內容即可設計和部署Web應用;Tabnine可幫助開發者編寫代碼;AI將整合百萬級程序員的智慧,幫助我們構建虛擬世界。AI可以建立強大的搜索機制,在海量內容中完成精細化的搜索。

②AI+醫療 =“藥物研發”。醫療設備將由軟件定義,由AI賦能。目前醫療行業正轉向利用生成式 AI 來發現疾病靶因,設計新型分子或蛋白質類藥物,以及預測藥物對機體的作用。Medtronic搭建醫療設備AI平臺,覆蓋手術導航到機器人輔助手術的應用場景,今年年底推出的GI Genius系統將利用AI實現早期結腸癌檢測。Insilico利用AI加速藥物設計;Absci使用AI預測治療抗體。

③AI+傳媒=“設計師”。**生成式AI正逐漸轉向多模態,圖像、視頻和3D等生成式AI正在悄然變化。Kore.ai可以實現虛擬客服;Jasper可以生成營銷材料,目前已經完成50萬億字的編寫,將初稿生成時間縮短80%;Omneky可生成定制化廣告和文案;Stable Diffusion 致力于文本轉圖像;Runway借力AI賦能視頻生成和編輯,并已經在奧斯卡提名的好萊塢電影中的得到應用;此外,AI可以通過快照構建3D建模,應用于房屋設計、服裝設計等方面;AI將虛擬形象提升至更高的現實水平。同時,在音樂領域,AI將文字賦予生命力,譜寫旋律。

**④AI+制造=“數字生產”+“工藝突破”。**AI可以成為虛擬世界與物理實體之間的橋梁。 “數字孿生工廠”可以在實體工廠建成之前整合所有資源,實現降本增效。“數字孿生產品”可以將汽車零部件在虛擬環境中完成組裝。“數字場景”可以將駕駛路線、環境場景重構為3D,用于訓練機器人和自動駕駛。

**AI加速技術引領工藝突破,**NVIDIA推出的計算光刻庫——cuLitho,與臺積電、ASML和Synopsys密切合作,將計算光刻加速40倍以上。計算光刻是芯片設計和制造領域中最大的計算工作負載,H100的生產需要89塊掩模版在CPU上處理兩周,如果在GPU上運行cuLitho將時間縮短至8小時。cuLitho將有助于晶圓廠縮短原型周期時間、提高產量、減少碳排放,為2nm及更先進的工藝奠定基礎。

**⑤AI+科研=“科學家”。**將AI應用在大型對撞機中以解釋宇宙等議題;讓人類以全新視角了解太陽,來建立風險預警機制。生成式 AI 將重塑幾乎所有行業。許多公司都可以使用某個即將上市的生成式 AI API,一些專業領域的公司需要使用其專有數據來構建定制模型。繼PC時代的“Macintosh時刻”、移動設備的“iPhone時刻”,AIGC時代的“ChatGPT時刻”已經掀起第三次科技浪潮,看好AIGC下游應用市場、算法和底層算力。轉編機器之心機器之心編輯部

在今年的 GTC 上,NVIDIA 創始人兼首席執行官黃仁勛與 OpenAI 聯合創始人、首席科學家 Ilya Sutskever 進行了一場深度對話,討論了 GPT-4、ChatGPT 背后的故事,也聊了下深度學習的未來。

如今,OpenAI 可以說是整個 AI 領域最火的研究機構。憑借強大的 GPT-4 以及與微軟必應、Office 等產品的融合,這家公司似乎要掀起一場生產力革命。這一成就是由多方面的力量來驅動的,包括聰明的頭腦和強大的基礎設施。在「聰明的頭腦」里,Ilya Sutskever 頗具代表性。2012 年,他和他的導師 Geoffrey Hinton 以及同學 Alex Krizhevsky 一起,用深度神經網絡刷新了 ImageNet 的歷史記錄,拉開了卷積神經網絡統治計算機視覺的序幕,標志著新一波人工智能浪潮的開始。2021 年,這個名為 AlexNet 的論文被引量突破 10 萬。「為了加速訓練,我們用到了非飽和神經元和一個非常高效的 GPU 卷積操作實現。」Ilya Sutskever 等人在 AlexNet 的相關介紹中提到了這樣一條關鍵信息。他們還詳細說明了如何將他們的網絡映射到多個 GPU 上。從這時起,GPU 和神經網絡緊緊地綁定在一起。黃仁勛領導的英偉達自然也成了這波 AI 浪潮中不可或缺的一環。2015 年,Ilya Sutskever 參與創辦了 OpenAI,并帶領這家公司一路向著 AI 大模型的方向前進。但隨著模型變得越來越大,訓練它們所需的算力也急劇增長。「加速計算并非易事,2012 年,計算機視覺模型 AlexNet 動用了 GeForce GTX 580,每秒可處理 262 PetaFLOPS。該模型引發了 AI 技術的爆炸。十年之后,Transformer 出現了,GPT-3 動用了 323 ZettaFLOPS 的算力,是 AlexNet 的 100 萬倍,創造了 ChatGPT 這個震驚全世界的 AI。嶄新的計算平臺出現了,AI 的 iPhone 時代已經來臨。」黃仁勛在 GPT 大會的 Keynote 中說道。在這次大會上,英偉達發布了 ChatGPT 專用的 GPU,推理速度提升了 10 倍。一路走來,Ilya Sutskever 和黃仁勛都是這波 AI 浪潮的見證者和重要推動者。在即將到來的「AI iPhone 時代」,兩人也必將扮演重要的領導者角色。在這場對話中,兩人談到了深度神經網絡的能力、限制和內部工作方式,并勾勒了一些未來的圖景。在打造 GPT-4 的過程中,Ilya Sutskever 堅信「(模型)越大越好,擴大規模是 OpenAI 的目標之一」。這自然是黃仁勛喜聞樂見的。 I had a very strong belief that bigger is better, and a goal at OpenAI was to scale. ——Ilya Sutskever兩人的談話進行了大約 1 個小時,就像老朋友邊喝咖啡邊聊天一樣。以下是這次談話的完整視頻(帶中文字幕),大家可以在其中感受時代的脈搏。

英偉達博客://blogs.nvidia.com/blog/2023/03/22/sutskever-openai-gtc/ 視頻鏈接:

付費5元查看完整內容

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。

最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。

GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。

為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。

這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。

作者們訓練了以下幾種尺寸的模型進行對比:

實驗證明Few-shot下GPT-3有很好的表現:

最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。

付費5元查看完整內容

【導讀】自監督學習是新的研究熱點-【AAAI2020圖靈獎得主YannLecun】自監督學習Self-Supervised Learning是未來 。近日,深度學習先驅Geoffrey Hinton領銜的Google大腦團隊發布了他們在視覺表示對比學習的最新研究成果-SimLCR,建立了新的SOTA視覺ImageNet識別模型,76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。并有一系列重要的發現:包括(1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟,不得不看!

本文提出了一個簡單的視覺表示對比學習(contrastive learning)框架。我們簡化了最近提出的對比型自監督學習算法,不需要專門的架構或存儲庫。為了了解是什么使對比預測任務能學習有用的表示,我們系統地研究了我們提出的框架的主要組成部分。我們表明, (1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟。結合這些發現,我們能夠在很大程度上超越以往的方法,在ImageNet上進行自監督和半監督學習。在SimCLR學習的自監督表示上訓練的線性分類器實現了76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。當僅對1%的標簽進行微調時,我們實現了85.8%的前5名準確度,以100倍的標簽數超過了AlexNet。

概述

學習沒有人類監督的有效視覺表示是一個長期存在的問題。大多數主流方法可分為兩類:生成式和判別式。生成式方法學習在輸入空間中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素級的生成在計算上是昂貴的,而且對于表示學習可能不是必需的。判別方法使用與監督學習類似的目標函數來學習表示,但是訓練網絡執行下游任務,其中輸入和標簽都來自未標記的數據集。許多這類方法依賴于啟發法來設計下游任務(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),這可能限制了學習表示的普遍性。基于潛在空間中的對比學習的判別方法最近顯示出了巨大的潛力,取得了最先進的結果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。

圖1: ImageNet top-1在不同自監督方法學習的表示上訓練的線性分類器的精度(在ImageNet上預先訓練)。灰色十字表示有監督的ResNet-50。我們的方法SimCLR以粗體顯示。

在這項工作中,我們介紹了視覺表示對比學習的一個簡單框架,我們稱之為SimCLR。SimCLR不僅優于以前的工作(圖1),而且更簡單,不需要專門的架構(Bachman et al., 2019; Hénaff et al., 2019)或者存儲池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。

為了了解是什么使好的對比表示學習成為可能,我們系統地研究了我們的框架的主要組成部分,并表明:

  • [topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]

  • 在定義產生有效表示的對比預測任務時,多個數據增強操作的組合是至關重要的。另外,無監督對比學習比監督學習具有更強的數據增強性。

  • 在表示和對比損失之間引入一個可學習的非線性變換,極大地提高了學習表示的質量。

  • 具有對比交叉熵損失的表示法學習得益于歸一化嵌入和適當調整的溫度參數。

  • 與監督學習相比,對比學習受益于更大的批量和更長的訓練。與監督學習一樣,對比學習也受益于更深更廣的網絡。

我們結合這些發現,在ImageNet ILSVRC-2012上實現了一種新的自監督和半監督學習(Russakovsky et al., 2015)。** 在線性評價方案下,SimCLR達到了76.5%的top-1準確率,相對于之前的最先進水平(Henaff et al., 2019)提高了7%。當僅使用1%的ImageNet標簽進行微調時,SimCLR達到了85.8%的top-5準確率,相對提高了10% (Henaff et al., 2019)。當對其他自然圖像分類數據集進行微調時,SimCLR在12個數據集中的10個上的表現與強監督基線(Kornblith et al., 2019)相當或更好。**

付費5元查看完整內容
北京阿比特科技有限公司